WO2020258668A1 - 基于对抗网络模型的人脸图像生成方法及装置、非易失性可读存储介质、计算机设备 - Google Patents

基于对抗网络模型的人脸图像生成方法及装置、非易失性可读存储介质、计算机设备 Download PDF

Info

Publication number
WO2020258668A1
WO2020258668A1 PCT/CN2019/118194 CN2019118194W WO2020258668A1 WO 2020258668 A1 WO2020258668 A1 WO 2020258668A1 CN 2019118194 W CN2019118194 W CN 2019118194W WO 2020258668 A1 WO2020258668 A1 WO 2020258668A1
Authority
WO
WIPO (PCT)
Prior art keywords
network model
face image
initial
image sample
trained
Prior art date
Application number
PCT/CN2019/118194
Other languages
English (en)
French (fr)
Inventor
王健宗
赵峰
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020258668A1 publication Critical patent/WO2020258668A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Definitions

  • This application relates to the field of image generation technology, in particular to a face image generation method and device based on a confrontation network model, a non-volatile readable storage medium, and computer equipment.
  • GAN Generative adversarial nets
  • face image generation is usually performed according to specific attribute conditions. Specifically, some attribute tags are preset, such as "male”, “female”, “blonde hair”, “whether "Smile”, “open mouth”, etc., and transplant the above attribute tags to another person's face to realize the generation of a new face image, that is, generate a corresponding face image according to the selected attribute tags.
  • attribute tags such as the 5-dimensional attribute binary tag vector 00100
  • the attributes of the image can only be limited to the range of the provided tags.
  • the attribute diversity is poor, and the attributes are limited by attribute tags, resulting in the generated face images with heavier traces in detail processing, low realism, and poor practicability.
  • this application provides a face image generation method and device based on a confrontation network model, a non-volatile readable storage medium, and computer equipment.
  • the main purpose is to solve the limitation of the existing face image generation technology due to attribute tags. , Resulting in the generated face image with heavier traces in detail processing, low realism, and poor practicality.
  • a face image generation method based on a confrontation network model including:
  • a target face image corresponding to the face image to be processed is generated according to the attitude information and preset facial information.
  • a face image generation device based on a confrontation network model including:
  • the encoding module is used to use the encoder of the trained generation network model in the conditional generation against the network model to obtain the attitude information of the face image to be processed;
  • the decoding module is used to generate a target face image corresponding to the face image to be processed using the trained decoder of the generated network model according to the attitude information and preset facial information.
  • a non-volatile readable storage medium having computer readable instructions stored thereon, and when the program is executed by a processor, the aforementioned face image generation method based on the confrontation network model is realized.
  • a computer device including a non-volatile readable storage medium, a processor, and computer readable instructions stored on the non-volatile readable storage medium and running on the processor
  • the processor executes the program, the aforementioned face image generation method based on the confrontation network model is implemented.
  • the face image generation method and device based on the confrontation network model, non-volatile readable storage medium, and computer equipment provided by this application are similar to the existing technical solutions for realizing face image generation based on attribute tags.
  • this application uses conditional generation against the encoder of the trained generation network model in the network model to obtain the facial information of the face image to be processed, and uses the trained decoder of the generated network model, based on the facial information and presets
  • the facial information generated in the target face image corresponding to the face image to be processed, that is, the target face image includes the facial information of the desired face image and the attitude information of the face image to be processed.
  • the adversarial network model (CGAN: Conditional Generative Adversarial Nets) is generated by training conditions, and the generated network model in the CGAN is generated by the trained conditions to obtain the target face image, so as to obtain the target face image according to the face image to be processed and the target face
  • the feature point information in the image replaces the face image to be processed with the target face image to realize the replacement of the face image, and at the same time, improve the authenticity of the face image generation, so that the generated face image has a higher image resolution rate.
  • FIG. 1 shows a schematic flowchart of a face image generation method based on a confrontation network model provided by an embodiment of the present application
  • FIG. 2 shows a schematic flowchart of another face image generation method based on a confrontation network model provided by an embodiment of the present application
  • FIG. 3 shows a schematic structural diagram of a face image generation device based on a confrontation network model provided by an embodiment of the present application.
  • the existing face image generation technology is greatly affected by the limitations of attribute tags, and the generated face images have heavier traces in detail processing and are more realistic. Low, poor practicality technical problem.
  • This embodiment provides a face image generation method based on an adversarial network model, which can effectively avoid the technical problems of heavy traces in detail processing, low realism, and poor practicability during the process of face image generation. , So as to effectively improve the realism of face image generation, improve the practicability in actual application scenarios, and improve user experience. As shown in Figure 1, the method includes:
  • the generative network model of the conditional generation countermeasure network model CGAN includes an encoder Encoder and a decoder Decoder.
  • the encoder Encoder includes 8 CBR layers.
  • the CBR layer is the general term for the convolutional Convolution layer, the batch normalization layer, and the rectified linear unit Leakey ReLU layer.
  • the input of the Encoder is 256 ⁇ 256 ⁇ 3 face image data.
  • W k and b k are network parameters, which are used to represent the weight and bias in the Encoder; x is the input face image data; k is the natural number in [1, 8]; i, j are the faces The feature vector subscript of the image data.
  • the input data of the generated network model is used as the input data of the encoder Encoder
  • the output result of the encoder Encoder is used as the input data of the encoder Decoder
  • the output result of the decoder Decoder is used as Generate the final output result of the network model.
  • the network structure of the Decoder is similar to that of the Encoder. The difference is that the convolution operation is changed to the deconvolution Transpose Convolution operation (that is, the convolution operation is transposed) ,
  • the activation function Leakey ReLU becomes the activation function ReLU, and the activation function Leakey ReLU of the final output layer becomes the activation function Tanh.
  • Decoder Decoder includes 8 RTB layers.
  • the RTB layer is the general term for the rectified linear unit ReLU layer, deconvolution Transpose Convolution layer, and batch normalization layer.
  • the deconvolution Transpose Convolution layer in each RTB layer outputs the data dimension It is twice the data dimension of the input data of this layer.
  • the data dimension of the output target face image is 256*256, and the number of channels is 3, which is used to represent the RGB three-color image.
  • the value of a is between (0, 1).
  • the Dropout layer is set in the output part of the first three RTB layers of the Decoder, which is used to train the Decoder more effectively, and to combine the input data of the i-th layer of the Decoder with the output result of the Ni-th layer of the Encoder After cascading, it is used as the input data of the i+1 layer of the decoder, so as to ensure that the training gradient of the face image data can flow more efficiently, where N is the number of structural layers of the encoder Encoder and the decoder Decoder, both The number of structural layers is the same.
  • the encoder of the trained generation network model can be used to generate the encoder against the network model, the attitude information of the face image to be processed, and the decoder of the trained generation network model can be used according to the The facial expression information and the preset facial information generate a target face image corresponding to the facial image to be processed, that is, the target facial image includes the facial information of the desired facial image and the facial information of the facial image to be processed.
  • this embodiment generates the confrontation network model CGAN through training conditions, and uses the trained conditions to generate the confrontation network model CGAN to obtain the target face image.
  • the replacement of the face image is realized, and the authenticity of the face image generation is improved, so that all The generated face image has a higher image resolution.
  • FIG. Methods include:
  • the initial generation network model and the initial discrimination network model of the conditional generation confrontation network model CGAN are constructed, so as to train the initial generation network model and the initial discrimination network model so that the actual face image samples generated by the generation network model are compared with the initial
  • the gap between the face image samples is as small as possible, thereby deceiving the discriminant network model, and discriminating whether the input actual face image sample is infinitely close to the preset expected face image sample as accurately as possible.
  • the trained discriminant network model can be used to discriminate whether the actual face image sample generated by the generation network model is a desired face image sample that meets the requirements. If it does, the trained discriminant network model will output a high probability value, otherwise, it will output a low probability value. Further, if the actual face image sample generated by the generated network model does not meet the required expected face image sample, then the training The obtained low probability value of the output of the discriminant network model will continue to train the generative network model, so as to gradually learn to generate a preset desired face image sample.
  • step 202 may specifically include:
  • Step 2021 Use the condition to generate an initial generation network model against the network model, and obtain an actual face image sample according to the initial face image sample.
  • Step 2022 according to the acquired actual face image samples and preset expected face image samples, train the initial discriminant network model to obtain a trained discriminant network model.
  • step 2022 may specifically include: training the initial discriminant network model according to the initial face image sample and the actual face image sample to obtain A first discriminant network model used to discriminate that the actual face image sample is a fake face image; and, according to the initial face image sample and a preset expected face image sample, perform the first discriminant network model Through training, a second discriminant network model for discriminating that the preset desired face image sample is a real face image is obtained.
  • the input data of the initial generation network model is recorded as the initial face image sample x
  • the initial face image sample x passes through the encoder and decoder of the initial generation network model, and the actual output result obtained is recorded as the actual face Image sample G(x), the expected output result is recorded as the expected face image sample y, where y is the constraint condition of the conditional generation against the network model CGAN, that is, the expected face effect.
  • the input data of the initial discriminant network model is set as the initial face image sample used to train the initial generation network model and the actual face image sample actually output by the initial generation network model (forged Image sample fake), denoted as x+G(x), the output result of training the initial discriminant network model is a low probability value, that is infinitely close to 0, the first discriminant network model is obtained, and the input data of the first discriminant network model is further set The initial face image sample used to train the initial generation network model and the expected face image sample (real image sample real) expected to be output by the initial generation network model, denoted as x+y, the output result of training the first discriminant network model is high The probability value is infinitely close to 1, and the second discriminant network model is obtained.
  • the input data of the initial discriminant network model can also be set as the initial face image sample used to train the initial generation network model and the expected face image sample (real image sample real ), denoted as x+y
  • the output result of the initial training discriminant network model is a high probability value, that is, infinitely close to 1
  • the first discriminant network model is obtained
  • the input data of the first discriminant network model is further set as the initial generation for training
  • the training first discriminant network model output result is a low probability value, That is, it is infinitely close to 0, and the second discriminant network model is obtained.
  • the training sequence of the first discriminant network model and the second discriminant network model is not specifically limited here.
  • the initial face image sample x and the actual face image sample G(x) input by the initial discriminant network model are passed through multiple convolutions, activation function Leakey ReLU, batch normalization, and after a linear operation.
  • the fully connected layer outputs a one-dimensional scalar, and the one-dimensional scalar output by the linear fully connected layer is directly used as the input data of the final output Output layer, and the probability value of the output output layer is obtained, so as to determine the initial network model according to the obtained probability value Perform training to obtain the first discriminant network model, and train in the same way to obtain the second discriminant network model.
  • Loss D -(L cGAN )
  • G(x, z) is the actual face image sample actually output by the generation network model
  • x is the gray value of the initial face image sample
  • y is the gray value of the expected face image sample expected to be output by the generation network model
  • Z is a constraint condition (that is, if the actual face image sample is infinitely close to the desired face image sample, then z is 1, and if the actual face image sample is infinitely close to the desired face image sample, then z is 0).
  • the input data for the initial generation of the network model is the initial face image sample x used to train and generate the desired face image sample, so that the actual face image sample generated is used to deceive the discrimination network model, that is, the initial
  • the face image sample x is the input data of the initial generation network model and the initial discrimination network model.
  • step 203 may specifically include:
  • Step 2031 Use the encoder of the initial generation network model to encode the initial face image sample to obtain the high-level features of the initial face image sample.
  • high-level features include facial information and attitude information
  • facial information includes facial information, for example, eye shape and size, nose size and height, skin tone, etc. that can describe the feature representation of a human face as a whole
  • facial information includes facial expression information And so on, for example, laughter, anger, etc. can describe the characteristics of emotions as a whole.
  • Step 2032 Use the decoder of the initial generation network model to decode the high-level features of the initial face image sample to obtain an actual face image sample containing the high-level feature corresponding to the initial face image sample.
  • step 2032 may specifically include: obtaining high-level features output by each layer in the encoder structure; and combining the high-level features arranged in reverse order with the The input data of each layer in the decoder structure is cascaded and decoded to obtain the actual face image sample containing the high-level features corresponding to the initial face image sample; wherein, the input data of the first layer of the decoder is coded
  • the output of the Nth layer in the structure of the high-level features, the number of structural layers of the encoder and the decoder are both N.
  • the input data of the i-th layer of the decoder and the output result of the N-i-th layer of the encoder are cascaded as the input data of the i+1 layer of the decoder, thereby realizing cascaded encoding.
  • N the input data of the first layer of the Decoder is marked as D1 (that is, the high-level feature E8 output by the eighth layer of the Encoder), and the input data D1 of the first layer of the Decoder is combined with the seventh layer of the encoder.
  • the high-level feature E7 output by the layer is cascaded and decoded based on the dimension, and the input data of the second layer of the decoder is obtained as D2, and the input data D2 of the second layer of the decoder Decoder and the high-level feature E6 output by the sixth layer of the encoder Perform cascaded decoding based on the dimensions, and the input data of the third layer of the decoder is obtained as D3, and so on, the input data of the seventh layer of the decoder is obtained as D7, and the input data of the seventh layer of the decoder is D7
  • the high-level feature E1 output from the first layer of the encoder is cascaded and decoded based on the dimensions, and the input data of the eighth layer of the decoder is obtained as D8.
  • the input data D8 of the eighth layer of the decoder and the initial face image sample x input from the first layer of the encoder are cascaded and decoded based on the dimensions, and the output result of the eighth layer of the decoder is obtained.
  • the output result of the eighth layer of the decoder is the actual face image sample.
  • the last layer is not used here.
  • the code is specifically limited.
  • Step 2033 According to the obtained actual face image samples and initial face image samples, train the initial generation network model to obtain a trained generation network model.
  • step 2033 may specifically include: training the initial generation network model based on the obtained actual face image sample and initial face image sample .
  • Obtaining the trained generative network model specifically includes: training the initial generative network model according to the obtained actual face image sample and the initial human face image sample to obtain the first generative network model; 1. Generate the first actual face image sample output by the network model, and use the trained discriminant network model to obtain the discrimination probability; if the discrimination probability is the preset discrimination probability, the first generative network model is a trained Generate a network model.
  • G(x, z) is the actual face image sample actually output by the generation network model
  • x is the gray value of the initial face image sample
  • y is the gray value of the expected face image sample expected to be output by the generation network model
  • Z is a constraint condition (that is, if the actual face image sample is infinitely close to the desired face image sample, then z is 1, and if the actual face image sample is infinitely close to the desired face image sample, then z is 0).
  • Step 204 Use the trained encoder of the generated network model in the conditional generation confrontation network model to obtain preset facial information according to the desired face image.
  • Step 205 Use the encoder of the trained generation network model in the conditional generation confrontation network model to obtain the attitude information of the face image to be processed.
  • Step 206 Obtain the attitude information output by each layer in the encoder structure of the trained generation network model.
  • Step 207 Perform cascade decoding on the demeanor information arranged in reverse order with the input data of each layer in the decoder structure to obtain a target face image corresponding to the face image to be processed; wherein, the decoder first
  • the input data of one layer is preset appearance information, and the number of structural layers of the encoder and decoder is N.
  • this embodiment uses conditional generation against the encoder of the trained generation network model in the network model, obtaining the attitude information of the face image to be processed, and using the trained decoder of the generation network model, according to the The facial expression information and the preset facial information generate a target face image corresponding to the facial image to be processed, that is, the target facial image includes the facial information of the desired facial image and the facial information of the facial image to be processed.
  • this embodiment generates the confrontation network model CGAN through training conditions, and uses the trained conditions to generate the confrontation network model CGAN to obtain the target face image.
  • the replacement of the face image is realized, and the authenticity of the face image generation is improved, so that all The generated face image has a higher image resolution.
  • an embodiment of the present application provides a face image generation device based on a confrontation network model. As shown in FIG. 3, the device includes an encoding module 35 and a decoding module 36.
  • the encoding module 35 may be used to use the encoder of the trained generation network model in the conditional generation confrontation network model to obtain the attitude information of the face image to be processed.
  • the encoding module 35 is a main functional module for the device to generate a target face image containing the facial image of the face image to be processed and preset facial information, and is also a core functional module of the device.
  • the decoding module 36 may be used to generate a target face image corresponding to the face image to be processed by using a trained decoder for generating a network model, according to the attitude information and preset facial information.
  • the decoding module 36 is a main functional module for the device to generate a target face image containing the facial image of the face image to be processed and preset facial information, and is also a core functional module of the device.
  • it also includes a construction module 31, a discrimination training module 32, a generation training module 33, and an acquisition module 34.
  • the construction module 31 can be used to construct the initial generation network model and the initial discrimination network model of the conditional generation confrontation network model;
  • the discrimination training module 32 can be used to train the initial discrimination network model to obtain a trained discrimination network model
  • the discrimination training module 32 specifically includes: generating an initial network model against the network model using conditions, obtaining actual face image samples according to the initial face image samples; and, according to the actual face images obtained Training the initial discriminant network model with samples and preset desired face image samples to obtain a trained discriminant network model.
  • the training of the initial discriminant network model according to the acquired actual face image samples and preset expected face image samples to obtain a trained discriminant network model specifically includes: The initial face image sample and the actual face image sample train the initial discriminant network model to obtain a first discriminant network model for discriminating that the actual face image sample is a fake face image; and, according to what The initial face image sample and the preset expected face image sample are trained on the first discriminant network model to obtain a second discriminant network for discriminating that the preset expected face image sample is a real face image model.
  • the generation training module 33 may be used to train the initial generation network model to obtain a trained generation network model. Specifically, it includes: using the encoder of the initial generation network model to encode the initial face image sample to obtain the high-level features of the initial face image sample; and, using the decoder of the initial generation network model to analyze the initial face image sample Decoding the high-level features of the first face image sample to obtain the actual face image sample containing the high-level feature corresponding to the initial face image sample; and, according to the obtained actual face image sample and the initial face image sample, the The initial generative network model is trained to obtain a trained generative network model.
  • the training of the initial generation network model according to the obtained actual face image sample and the initial face image sample to obtain a trained generation network model specifically includes: according to the obtained The actual face image sample and the initial face image sample are trained on the initial generation network model to obtain a first generation network model; according to the first actual face image sample output by the first generation network model, use The trained discriminant network model obtains the discriminative probability; if the discriminant probability is the preset discriminant probability, the first generative network model is the trained generative network model.
  • the decoder using the initial generation network model decodes the high-level features of the initial face image sample to obtain the actual face that contains the high-level features corresponding to the initial face image sample
  • the image sample specifically includes: obtaining the high-level features of each layer output in the encoder structure; and cascading and decoding the high-level features arranged in reverse order with the input data of each layer in the decoder structure to obtain the corresponding initial The actual face image sample containing the high-level features of the face image sample; wherein, the input data of the first layer of the decoder is the high-level feature output by the Nth layer in the encoder structure, and the encoder and the decoder The number of structural layers is N.
  • the acquiring module 34 may be used to generate the encoder of the generated network model trained in the conditional generation against the network model to obtain preset facial information according to the desired face image.
  • the decoding module 36 specifically includes: acquiring the attitude information output by each layer in the encoder structure of the trained generative network model; and combining the attitude information arranged in reverse order with the input data of each layer in the decoder structure. Perform cascade decoding to obtain the target face image corresponding to the face image to be processed; wherein the input data of the first layer of the decoder is preset facial information, and the number of structural layers of the encoder and decoder Both are N.
  • an embodiment of the present application also provides a non-volatile readable storage medium on which computer readable instructions are stored, and the program is executed when the processor is executed.
  • the above-mentioned face image generation method based on the confrontation network model as shown in FIG. 1 and FIG. 2.
  • the technical solution of the present application can be embodied in the form of a software product, and the software product can be stored in a non-volatile non-volatile readable storage medium (can be CD-ROM, U disk, mobile hard disk) Etc.), including several instructions to enable a computer device (which may be a personal computer, a server, or a network device, etc.) to execute the method described in each implementation scenario of this application.
  • a computer device which may be a personal computer, a server, or a network device, etc.
  • the embodiments of the present application also provide a computer device, which can be a personal computer, a server, or a network.
  • the physical device includes a non-volatile readable storage medium and a processor; the non-volatile readable storage medium is used to store computer readable instructions; and the processor is used to execute computer readable instructions to achieve the above Figure 1 and Figure 2 show the face image generation method based on the confrontation network model.
  • the computer device may also include a user interface, a network interface, a camera, a radio frequency (RF) circuit, a sensor, an audio circuit, a Wi-Fi module, and so on.
  • the user interface may include a display screen (Display), an input unit such as a keyboard (Keyboard), etc., and the optional user interface may also include a USB interface, a card reader interface, and the like.
  • the network interface can optionally include a standard wired interface, a wireless interface (such as a Bluetooth interface, a WI-FI interface), etc.
  • the non-volatile readable storage medium may also include an operating system and a network communication module.
  • the operating system is a program that manages the hardware and software resources of computer equipment, and supports the operation of information processing programs and other software and/or programs.
  • the network communication module is used to implement communication between various components in the non-volatile readable storage medium and communication with other hardware and software in the physical device.
  • this application can be implemented by means of software plus a necessary general hardware platform, or by hardware.
  • this embodiment can generate the confrontation network model CGAN through training conditions, and use the trained conditions to generate the confrontation network model CGAN. Generate a network model to obtain the target face image, so as to replace the face image to be processed with the target face image according to the face image to be processed and the feature point information in the target face image, to realize the replacement of the face image, and to improve the person
  • the authenticity of the face image generation makes the generated face image have a higher image resolution.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请公开了基于对抗网络模型的人脸图像生成方法及装置、非易失性可读存储介质、计算机设备,涉及图像生成技术领域,可以提升图像识别准确度。其中方法包括:利用条件生成对抗网络模型中训练好的生成网络模型的编码器,获取待处理人脸图像的神态信息;利用训练好的生成网络模型的解码器,根据所述神态信息和预设的容貌信息生成对应所述待处理人脸图像的目标人脸图像。本申请适用于提升人脸图像生成的真实性,使得所生成的人脸图像具有较高的图像分辨率。

Description

基于对抗网络模型的人脸图像生成方法及装置、非易失性可读存储介质、计算机设备
本申请要求与2019年6月26日提交中国专利局、申请号为201910559077.5、申请名称为“基于对抗网络模型的人脸图像生成方法及装置、存储介质及计算机设备”的中国专利申请的优先权,其全部内容通过引用结合在申请中。
技术领域
本申请涉及图像生成技术领域,尤其是涉及到基于对抗网络模型的人脸图像生成方法及装置、非易失性可读存储介质及计算机设备。
背景技术
伴随着生成式对抗网络(GAN:Generative adversarial nets)技术的发展,神经网络不仅能够完成复杂的识别任务,还能够生成逼真的样本数据,例如图像、文本句子等数据。
在人脸图像生成应用方面,国内外已经基于生成式对抗网络GAN做出了很多较好的成绩,但是在生成特定人脸领域,还没有重大的突破。在现有的人脸图像生成技术中,通常根据特定的属性条件进行人脸图像生成,具体为,预先设定一些属性标签,例如,“男性”、“女性”、“金色头发”、“是否微笑”、“是否张嘴”等,并将上述属性标签移植到另一人脸上,以实现新的人脸图像的生成,即根据挑选的属性标签生成对应的人脸图像。
现有技术存在的不足在于,利用属性标签,例如,5维属性二值标签向量00100,作为图像生成的条件限制具有一定的局限性,即图像的属性只能局限在所提供的标签范围内,属性多样性较差,且通过属性标签进行属性的限定,导致生成的人脸图像在细节处理上痕迹较重,真实度较低,实用性较差。
发明内容
有鉴于此,本申请提供了基于对抗网络模型的人脸图像生成方法及装置、非易失性可读存储介质、计算机设备,主要目的在于解决现有人脸图像生成技术受属性标签的局限性影响,导致生成的人脸图像在细节处理上痕迹较重,真实度较低,实用性较差的技术问题。
根据本申请的一个方面,提供了一种基于对抗网络模型的人脸图像生成方法,该方法包括:
利用条件生成对抗网络模型中训练好的生成网络模型的编码器,获取待处理人脸图像的神态信息;
利用训练好的生成网络模型的解码器,根据所述神态信息和预设的容貌信息生成对应所述待处理人脸图像的目标人脸图像。
根据本申请的另一方面,提供了一种基于对抗网络模型的人脸图像生成装置,该装置包括:
编码模块,用于利用条件生成对抗网络模型中训练好的生成网络模型的编码器,获取待处理人脸图像的神态信息;
解码模块,用于利用训练好的生成网络模型的解码器,根据所述神态信息和预设的容貌信息生成对应所述待处理人脸图像的目标人脸图像。
依据本申请又一个方面,提供了一种非易失性可读存储介质,其上存储有计算机可读指令,所述程序被处理器执行时实现上述基于对抗网络模型的人脸图像生成方法。
依据本申请再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机可读指令,所述处理器执行所述程序时实现上述基于对 抗网络模型的人脸图像生成方法。
借由上述技术方案,本申请提供的基于对抗网络模型的人脸图像生成方法及装置、非易失性可读存储介质、计算机设备,与现有基于属性标签实现人脸图像生成的技术方案相比,本申请利用条件生成对抗网络模型中训练好的生成网络模型的编码器,获取待处理人脸图像的神态信息,以及利用训练好的生成网络模型的解码器,根据该神态信息和预设的容貌信息生成对应该待处理人脸图像的目标人脸图像,即该目标人脸图像包括期望人脸图像的容貌信息,以及待处理人脸图像的神态信息。可见,通过训练条件生成对抗网络模型(CGAN:Conditional Generative Adversarial Nets),利用训练好的条件生成对抗网络模型CGAN中的生成网络模型得到目标人脸图像,以便根据待处理人脸图像以及目标人脸图像中的特征点信息将待处理人脸图像替换为目标人脸图像,实现人脸图像的替换,同时,提升人脸图像生成的真实性,使得所生成的人脸图像具有较高的图像分辨率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种基于对抗网络模型的人脸图像生成方法的流程示意图;
图2示出了本申请实施例提供的另一种基于对抗网络模型的人脸图像生成方法的流程示意图;
图3示出了本申请实施例提供的一种基于对抗网络模型的人脸图像生成装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
针对现有基于属性标签进行人脸图像生成的过程中,现有的人脸图像生成技术受属性标签的局限性影响较大,存在生成的人脸图像在细节处理上痕迹较重,真实度较低,实用性较差的技术问题。本实施例提供了一种基于对抗网络模型的人脸图像生成方法,能够在人脸图像生成的过程中,有效避免在细节处理上痕迹较重,真实度较低,实用性较差的技术问题,从而有效提升人脸图像生成的真实度,提高在实际应用场景下的可实用性,提升用户体验。如图1所示,该方法包括:
101、利用条件生成对抗网络模型中训练好的生成网络模型的编码器,获取待处理人脸图像的神态信息。
在本实施例中,条件生成对抗网络模型CGAN的生成网络模型包括一个编码器Encoder和一个解码器Decoder。其中,编码器Encoder包括8个CBR层,CBR层是卷积Convolution层、批正则化Batch Normalization层和矫正线性单元Leakey ReLU层的总称。编码器Encoder的输入为256×256×3的人脸图像数据,经过8个CBR层的运算后,输出1×1×512维的高维数据,该高维数据用于表征人脸图像数据中的高层特征数据,在构建编码器Encoder的过程中,设定每个CBR层中的Convolution层的滑动步长stride为2,填充模式padding为SAME,卷积核kernel为5*5,以及Leakey Relu层的参数均为0.2。
在实际的应用场景中,每个CBR层的计算公式为:
Figure PCTCN2019118194-appb-000001
其中,W k、b k为网络参数,分别用于表示编码器Encoder中的权重和偏置;x为输入的人脸图像数据;k为[1,8]中的自然数;i,j为人脸图像数据的特征向量脚标。
102、利用训练好的生成网络模型的解码器,根据所述神态信息和预设的容貌信息生成对应所述待处理人脸图像的目标人脸图像。
在本实施例中,在解码器Decoder的训练过程中,生成网络模型的输入数据作为编码器Encoder的输入数据,编码器Encoder的输出结果作为编码器Decoder的输入数据,解码器Decoder的输出结果作为生成网络模型最终的输出结果,解码器Decoder的网络结构与编码器Encoder的网络结构类似,区别在于,将卷积运算变为反卷积Transpose Convolution运算(即,对卷积运算进行转置运算),激活函数Leakey ReLU变为激活函数ReLU,以及最终输出层的激活函数LeakeyReLU变为激活函数Tanh。具体为:
解码器Decoder包括8个RTB层,RTB层是矫正线性单元ReLU层、反卷积Transpose Convolution层和批正则化Batch Normalization层的总称,每一RTB层中的反卷积Transpose Convolution层输出的数据维度是本层输入的数据维度的2倍,经过8个RTB层的运算后,输出的目标人脸图像的数据维度为256*256,通道数为3,用于表示RGB三色图像。
其中,激活函数Leaky ReLU的计算公式为:
Figure PCTCN2019118194-appb-000002
a取值在(0,1)之间。
激活函数ReLU的计算公式为:
Figure PCTCN2019118194-appb-000003
激活函数Tanh的计算公式为:
Figure PCTCN2019118194-appb-000004
进一步地,在解码器Decoder前三个RTB层的输出部分设置Dropout层,用于更有效地训练解码器Decoder,以及将解码器Decoder第i层的输入数据与编码器Encoder第N-i层的输出结果进行级联后,作为解码器Decoder第i+1层的输入数据,从而保证人脸图像数据的训练梯度能够更高效地流动,其中,N为编码器Encoder和解码器Decoder的结构层数,二者的结构层数相同。
对于本实施例可以按照上述方案,利用条件生成对抗网络模型中训练好的生成网络模型的编码器,获取待处理人脸图像的神态信息,以及利用训练好的生成网络模型的解码器,根据该神态信息和预设的容貌信息生成对应该待处理人脸图像的目标人脸图像,即该目标人脸图像包括期望人脸图像的容貌信息,以及待处理人脸图像的神态信息。与现有基于属性标签实现人脸图像生成的技术方案相比,本实施例通过训练条件生成对抗网络模型CGAN,利用训练好的条件生成对抗网络模型CGAN中的生成网络模型得到目标人脸图像,以便根据待处理人脸图像以及目标人脸图像中的特征点信息将待处理人脸图像替换为目标人脸图像,实现人脸图像的替换,同时,提升人脸图像生成的真实性,使得所生成的人脸图像具有较高的图像分辨率。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种基于对抗网络模型的人脸图像生成方法,如图2所示,该方法包括:
201、构建条件生成对抗网络模型的初始生成网络模型和初始判别网络模型。
在本实施例中,构建条件生成对抗网络模型CGAN的初始生成网络模型和初始判别网络模型,以便通过训练初始生成网络模型和初始判别网络模型,使得生成网络模型生成的实际人脸图像样本与初始人脸图 像样本之间的差距尽可能小,从而欺骗判别网络模型,以及判别网络模型尽可能地精确判别输入的实际人脸图像样本是否无限接近预设的期望人脸图像样本。
在实际的应用场景中,通过对初始判别网络模型进行训练,使得训练得到的判别网络模型能够用于判别生成网络模型所生成的实际人脸图像样本是否为符合要求的期望人脸图像样本。若符合,则训练得到的判别网络模型输出高概率值,反之则输出低概率值,进一步地,若生成网络模型所生成的实际人脸图像样本不符合要求的期望人脸图像样本,则根据训练得到的判别网络模型输出的低概率值,对生成网络模型继续进行训练,从而逐渐学习生成预设的期望人脸图像样本。
202、对所述初始判别网络模型进行训练,得到训练好的判别网络模型。
为了说明步骤202的具体实施方式,作为一种优选实施例,步骤202具体可以包括:
步骤2021、利用条件生成对抗网络模型的初始生成网络模型,根据初始人脸图像样本获取实际人脸图像样本。
步骤2022、根据获取到的实际人脸图像样本和预设的期望人脸图像样本,对所述初始判别网络模型进行训练,得到训练好的判别网络模型。
进一步地,为了说明步骤2022的具体实施方式,作为一种优选实施例,步骤2022具体可以包括:根据所述初始人脸图像样本和实际人脸图像样本对所述初始判别网络模型进行训练,得到用于判别所述实际人脸图像样本为伪造人脸图像的第一判别网络模型;以及,根据所述初始人脸图像样本和预设的期望人脸图像样本对所述第一判别网络模型进行训练,得到用于判别所述预设的期望人脸图像样本为真实人脸图像的第二判别网络模型。
在本实施例中,初始生成网络模型的输入数据记为初始人脸图像样本x,初始人脸图像样本x经由初始生成网络模型的编码器和解码器,得到的实际输出结果记为实际人脸图像样本G(x),期望输出结果记为期望人脸图像样本y,其中,y为条件生成对抗网络模型CGAN的约束条件,即,期望得到的人脸效果。
在对初始判别网络模型进行训练的过程中,设定初始判别网络模型的输入数据为用于训练初始生成网络模型的初始人脸图像样本和初始生成网络模型实际输出的实际人脸图像样本(伪造图像样本fake),记为x+G(x),训练初始判别网络模型输出结果为低概率值,即无限接近于0,得到第一判别网络模型,进一步设定第一判别网络模型的输入数据为用于训练初始生成网络模型的初始人脸图像样本和初始生成网络模型期望输出的期望人脸图像样本(真实图像样本real),记为x+y,训练第一判别网络模型输出结果为高概率值,即无限接近于1,得到第二判别网络模型。
在实际的应用场景中,也可以设定初始判别网络模型的输入数据为用于训练初始生成网络模型的初始人脸图像样本和初始生成网络模型期望输出的期望人脸图像样本(真实图像样本real),记为x+y,训练初始判别网络模型输出结果为高概率值,即无限接近于1,得到第一判别网络模型,进一步设定第一判别网络模型的输入数据为用于训练初始生成网络模型的初始人脸图像样本和初始生成网络模型实际输出的实际人脸图像样本(伪造图像样本fake),记为x+G(x),训练第一判别网络模型输出结果为低概率值,即无限接近于0,得到第二判别网络模型,此处不对第一判别网络模型、第二判别网络模型的训练顺序进行具体限定。
例如,设定初始判别网络模型的Convolution层的滑动步长stride为2,卷积核kernel为5*5,以及激活函数Leakey Relu的参数均为0.2,且在最后的输出Output层不设置激活函数Sigmoid。在训练过程中,初始判别网络模型输入的初始人脸图像样本x和实际人脸图像样本G(x)经由多次卷积Convolution,激活函数Leakey ReLU,批正则化Batch Normalization运算后,经由一个线性全连接层输出 一维标量,将线性全连接层输出的一维标量直接作为最后的输出Output层的输入数据,并得到输出Output层输出的概率值,从而根据得到的概率值对初始判别网络模型进行训练得到第一判别网络模型,同理训练得到第二判别网络模型。
进一步地,设定条件生成对抗网络模型CGAN中判别网络模型的损失Loss函数,计算公式为:
Loss D=-(L cGAN)
=-E x,y[1-log D(x,y)]-E x,z[1-log D(G(x,z))]
其中,G(x,z)为生成网络模型实际输出的实际人脸图像样本,x为初始人脸图像样本的灰度值,y为生成网络模型期望输出的期望人脸图像样本的灰度值,z为约束条件(即,若实际人脸图像样本无限接近期望人脸图像样本,则z为1,若实际人脸图像样本无限不接近期望人脸图像样本,则z为0)。
203、对所述初始生成网络模型进行训练,得到训练好的生成网络模型。
在本实施例中,初始生成网络模型的输入数据为用于训练生成期望人脸图像样本的初始人脸图像样本x,以使生成的实际人脸图像样本用于欺骗判别网络模型,即,初始人脸图像样本x为初始生成网络模型和初始判别网络模型的输入数据。
为了说明步骤203的具体实施方式,作为一种优选实施例,步骤203具体可以包括:
步骤2031、利用初始生成网络模型的编码器对初始人脸图像样本进行编码,得到所述初始人脸图像样本的高层特征。
其中,高层特征包括容貌信息和神态信息,容貌信息包括五官信息等,例如,眼睛形状及大小、鼻子大小及高低、肤色肤质等能够在整体上描述人脸的特征表示,神态信息包括表情信息等,例如,大笑、愤怒等能够在整体上描述情绪的特征表示。
步骤2032、利用初始生成网络模型的解码器对所述初始人脸图像样本的高层特征进行解码,得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本。
进一步地,为了说明步骤2032的具体实施方式,作为一种优选实施例,步骤2032具体可以包括:获取编码器结构中每层输出的高层特征;以及,将按照倒序排列的高层特征分别与所述解码器结构中每层的输入数据进行级联解码,得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本;其中,所述解码器第一层的输入数据为编码器结构中第N层输出的高层特征,所述编码器和解码器的结构层数均为N。
在实际的应用场景中,解码器Decoder第i层的输入数据与编码器Encoder第N-i层的输出结果进行级联作为解码器Decoder第i+1层的输入数据,从而实现级联编码。例如,N为8,解码器Decoder第一层的输入数据记为D1(即编码器Encoder第八层输出的高层特征E8),将解码器Decoder第一层的输入数据D1与编码器Encoder第七层输出的高层特征E7基于维度进行级联解码,得到解码器Decoder第二层的输入数据记为D2,将解码器Decoder第二层的输入数据D2与编码器Encoder第六层输出的高层特征E6基于维度进行级联解码,得到解码器Decoder第三层的输入数据记为D3,以此类推,得到解码器Decoder第七层的输入数据记为D7,将解码器Decoder第七层的输入数据D7与编码器Encoder第一层输出的高层特征E1基于维度进行级联解码,得到解码器Decoder第八层的输入数据记为D8。
根据实际应用场景的需要,将解码器Decoder第八层的输入数据D8与编码器Encoder第一层输入的初始人脸图像样本x基于维度进行级联解码,得到解码器Decoder第八层的输出结果,或者直接将解码器 Decoder第八层的输入数据D8进行编码,得到解码器Decoder第八层的输出结果,解码器Decoder第八层的输出结果即实际人脸图像样本,此处不对最后一层的编码进行具体限定。
步骤2033、根据得到的所述实际人脸图像样本和初始人脸图像样本,对所述初始生成网络模型进行训练,得到训练好的生成网络模型。
为了说明步骤2033的具体实施方式,作为一种优选实施例,步骤2033具体可以包括:所述根据得到的所述实际人脸图像样本和初始人脸图像样本,对所述初始生成网络模型进行训练,得到训练好的生成网络模型,具体包括:根据得到的所述实际人脸图像样本和初始人脸图像样本,对所述初始生成网络模型进行训练,得到第一生成网络模型;根据所述第一生成网络模型输出的第一实际人脸图像样本,利用所述训练好的判别网络模型得到判别概率;若所述判别概率为预设判别概率,则所述第一生成网络模型为训练好的生成网络模型。
在本实施例中,设定条件生成对抗网络模型CGAN中生成网络模型的损失Loss函数,计算公式为:
Loss G=E x,z[1-log D(G(x,z))]+loss L1(G)
=E x,z[1-log D(G(x,z))]+E x,y,z[||y-G(x,z)|| 1]
其中,G(x,z)为生成网络模型实际输出的实际人脸图像样本,x为初始人脸图像样本的灰度值,y为生成网络模型期望输出的期望人脸图像样本的灰度值,z为约束条件(即,若实际人脸图像样本无限接近期望人脸图像样本,则z为1,若实际人脸图像样本无限不接近期望人脸图像样本,则z为0)。
在实际的应用场景中,构建包含初始人脸图像样本,和初始人脸图像样本与期望人脸图像样本对应关系的训练样本集,以及初始判别网络模型和初始生成网络模型,设置Tensorflow中tf.train.AdamOptimizer优化器的学习率为0.002,Beta1为0.5,通过启动TensorFlow中的一个会话Session,并在该Session中训练初始判别网络模型,再训练初始生成网络模型。其中,训练一次初始判别网络模型后训练k次初始生成网络模型,设置k为2,以避免判别网络模型的梯度为0,导致生成网络模型无法训练的情况。
步骤204、利用条件生成对抗网络模型中训练好的生成网络模型的编码器,根据期望人脸图像获取预设的容貌信息。
步骤205、利用条件生成对抗网络模型中训练好的生成网络模型的编码器,获取待处理人脸图像的神态信息。
步骤206、获取所述训练好的生成网络模型的编码器结构中每层输出的神态信息。
步骤207、将按照倒序排列的神态信息分别与所述解码器结构中每层的输入数据进行级联解码,得到对应所述待处理人脸图像的目标人脸图像;其中,所述解码器第一层的输入数据为预设的容貌信息,所述编码器和解码器的结构层数均为N。
通过应用本实施例的技术方案,利用条件生成对抗网络模型中训练好的生成网络模型的编码器,获取待处理人脸图像的神态信息,以及利用训练好的生成网络模型的解码器,根据该神态信息和预设的容貌信息生成对应该待处理人脸图像的目标人脸图像,即该目标人脸图像包括期望人脸图像的容貌信息,以及待处理人脸图像的神态信息。与现有基于属性标签实现人脸图像生成的技术方案相比,本实施例通过训练条件生成对抗网络模型CGAN,利用训练好的条件生成对抗网络模型CGAN中的生成网络模型得到目标人脸图像,以便根据待处理人脸图像以及目标人脸图像中的特征点信息将待处理人脸图像替换为目标人脸图像,实现人脸图像的替换,同时,提升人脸图像生成的真实性,使得所生成的人脸图像具有较高的图像分辨率。
进一步的,作为图1方法的具体实现,本申请实施例提供了一种基于对抗网络模型的人脸图像生成装置,如图3所示,该装置包括:编码模块35、解码模块36。
编码模块35,可以用于利用条件生成对抗网络模型中训练好的生成网络模型的编码器,获取待处理人脸图像的神态信息。该编码模块35为本装置生成包含待处理人脸图像的神态信息和预设的容貌信息的目标人脸图像的主要功能模块,也是本装置的核心功能模块。
解码模块36,可以用于利用训练好的生成网络模型的解码器,根据所述神态信息和预设的容貌信息生成对应所述待处理人脸图像的目标人脸图像。该解码模块36为本装置生成包含待处理人脸图像的神态信息和预设的容貌信息的目标人脸图像的主要功能模块,也是本装置的核心功能模块。
在具体的应用场景中,还包括构建模块31、判别训练模块32、生成训练模块33、获取模块34。
构建模块31,可以用于构建条件生成对抗网络模型的初始生成网络模型和初始判别网络模型;
判别训练模块32,可以用于对所述初始判别网络模型进行训练,得到训练好的判别网络模型;
在具体的应用场景中,判别训练模块32,具体包括:利用条件生成对抗网络模型的初始生成网络模型,根据初始人脸图像样本获取实际人脸图像样本;以及,根据获取到的实际人脸图像样本和预设的期望人脸图像样本,对所述初始判别网络模型进行训练,得到训练好的判别网络模型。
在具体的应用场景中,所述根据获取到的实际人脸图像样本和预设的期望人脸图像样本,对所述初始判别网络模型进行训练,得到训练好的判别网络模型,具体包括:根据所述初始人脸图像样本和实际人脸图像样本对所述初始判别网络模型进行训练,得到用于判别所述实际人脸图像样本为伪造人脸图像的第一判别网络模型;以及,根据所述初始人脸图像样本和预设的期望人脸图像样本对所述第一判别网络模型进行训练,得到用于判别所述预设的期望人脸图像样本为真实人脸图像的第二判别网络模型。
生成训练模块33,可以用于对所述初始生成网络模型进行训练,得到训练好的生成网络模型。具体包括:利用初始生成网络模型的编码器对初始人脸图像样本进行编码,得到所述初始人脸图像样本的高层特征;以及,利用初始生成网络模型的解码器对所述初始人脸图像样本的高层特征进行解码,得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本;以及,根据得到的所述实际人脸图像样本和初始人脸图像样本,对所述初始生成网络模型进行训练,得到训练好的生成网络模型。
在具体的应用场景中,所述根据得到的所述实际人脸图像样本和初始人脸图像样本,对所述初始生成网络模型进行训练,得到训练好的生成网络模型,具体包括:根据得到的所述实际人脸图像样本和初始人脸图像样本,对所述初始生成网络模型进行训练,得到第一生成网络模型;根据所述第一生成网络模型输出的第一实际人脸图像样本,利用所述训练好的判别网络模型得到判别概率;若所述判别概率为预设判别概率,则所述第一生成网络模型为训练好的生成网络模型。
在具体的应用场景中,所述利用初始生成网络模型的解码器对所述初始人脸图像样本的高层特征进行解码,得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本,具体包括:获取编码器结构中每层输出的高层特征;以及,将按照倒序排列的高层特征分别与所述解码器结构中每层的输入数据进行级联解码,得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本;其中,所述解码器第一层的输入数据为编码器结构中第N层输出的高层特征,所述编码器和解码器的结构层数均为N。
获取模块34,可以用于利用条件生成对抗网络模型中训练好的生成网络模型的编码器,根据期望人脸图像获取预设的容貌信息。
解码模块36,具体包括:获取所述训练好的生成网络模型的编码器结构中每层输出的神态信息;以及,将按照倒序排列的神态信息分别与所述解码器结构中每层的输入数据进行级联解码,得到对应所述待处 理人脸图像的目标人脸图像;其中,所述解码器第一层的输入数据为预设的容貌信息,所述编码器和解码器的结构层数均为N。
需要说明的是,本申请实施例提供的一种基于对抗网络模型的人脸图像生成装置所涉及各功能单元的其他相应描述,可以参考图1和图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本申请实施例还提供了一种非易失性可读存储介质,其上存储有计算机可读指令,该程序被处理器执行时实现上述如图1和图2所示的基于对抗网络模型的人脸图像生成方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性非易失性可读存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1、图2所示的方法,以及图3所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括非易失性可读存储介质和处理器;非易失性可读存储介质,用于存储计算机可读指令;处理器,用于执行计算机可读指令以实现上述如图1和图2所示的基于对抗网络模型的人脸图像生成方法。
可选的,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(Radio Frequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
非易失性可读存储介质中还可以包括操作系统、网络通信模块。操作系统是管理计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性可读存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,与现有基于属性标签实现人脸图像生成的技术方案相比,本实施例能够通过训练条件生成对抗网络模型CGAN,利用训练好的条件生成对抗网络模型CGAN中的生成网络模型得到目标人脸图像,以便根据待处理人脸图像以及目标人脸图像中的特征点信息将待处理人脸图像替换为目标人脸图像,实现人脸图像的替换,同时,提升人脸图像生成的真实性,使得所生成的人脸图像具有较高的图像分辨率。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (18)

  1. 一种基于对抗网络模型的人脸图像生成方法,其特征在于,包括:
    构建所述条件生成对抗网络模型的初始生成网络模型和初始判别网络模型;
    对所述初始判别网络模型进行训练,得到训练好的判别网络模型;
    其中,所述对所述初始判别网络模型进行训练,得到训练好的判别网络模型,具体包括:
    利用条件生成对抗网络模型的初始生成网络模型,根据初始人脸图像样本获取实际人脸图像样本;
    根据获取到的实际人脸图像样本和预设的期望人脸图像样本,对所述初始判别网络模型进行训练,得到训练好的判别网络模型;
    利用条件生成对抗网络模型中训练好的生成网络模型的编码器,获取待处理人脸图像的神态信息;
    利用训练好的生成网络模型的解码器,根据所述神态信息和预设的容貌信息生成对应所述待处理人脸图像的目标人脸图像。
  2. 根据权利要求1所述的方法,其特征在于,所述根据获取到的实际人脸图像样本和预设的期望人脸图像样本,对所述初始判别网络模型进行训练,得到训练好的判别网络模型,具体包括:
    根据所述初始人脸图像样本和实际人脸图像样本对所述初始判别网络模型进行训练,得到用于判别所述实际人脸图像样本为伪造人脸图像的第一判别网络模型;
    根据所述初始人脸图像样本和预设的期望人脸图像样本对所述第一判别网络模型进行训练,得到用于判别所述预设的期望人脸图像样本为真实人脸图像的第二判别网络模型。
  3. 根据权利要求1所述的方法,其特征在于,还包括:对所述初始生成网络模型进行训练,得到训练好的生成网络模型,具体包括:
    利用初始生成网络模型的编码器对初始人脸图像样本进行编码,得到所述初始人脸图像样本的高层特征;
    利用初始生成网络模型的解码器对所述初始人脸图像样本的高层特征进行解码,得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本;
    根据得到的所述实际人脸图像样本和初始人脸图像样本,对所述初始生成网络模型进行训练,得到训练好的生成网络模型;
    其中,所述根据得到的所述实际人脸图像样本和初始人脸图像样本,对所述初始生成网络模型进行训练,得到训练好的生成网络模型,具体包括:
    根据得到的所述实际人脸图像样本和初始人脸图像样本,对所述初始生成网络模型进行训练,得到第一生成网络模型;
    根据所述第一生成网络模型输出的第一实际人脸图像样本,利用所述训练好的判别网络模型得到判别概率;
    若所述判别概率为预设判别概率,则所述第一生成网络模型为训练好的生成网络模型。
  4. 根据权利要求3所述的方法,其特征在于,所述利用初始生成网络模型的解码器对所述初始人脸图 像样本的高层特征进行解码,得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本,具体包括:
    获取编码器结构中每层输出的高层特征;
    将按照倒序排列的高层特征分别与所述解码器结构中每层的输入数据进行级联解码,得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本;
    其中,所述解码器第一层的输入数据为编码器结构中第N层输出的高层特征,所述编码器和解码器的结构层数均为N。
  5. 根据权利要求1所述的方法,其特征在于,还包括:
    利用条件生成对抗网络模型中训练好的生成网络模型的编码器,根据期望人脸图像获取预设的容貌信息。
  6. 根据权利要求1或4所述的方法,其特征在于,所述利用训练好的生成网络模型的解码器,根据所述神态信息和预设的容貌信息生成对应所述待处理人脸图像的目标人脸图像,具体包括:
    获取所述训练好的生成网络模型的编码器结构中每层输出的神态信息;
    将按照倒序排列的神态信息分别与所述解码器结构中每层的输入数据进行级联解码,得到对应所述待处理人脸图像的目标人脸图像;
    其中,所述解码器第一层的输入数据为预设的容貌信息,所述编码器和解码器的结构层数均为N。
  7. 一种基于对抗网络模型的人脸图像生成装置,其特征在于,包括:
    构建模块,用于构建所述条件生成对抗网络模型的初始生成网络模型和初始判别网络模型;
    判别训练模块,用于对所述初始判别网络模型进行训练,得到训练好的判别网络模型;
    其中,所述判别训练模块,具体包括:
    利用条件生成对抗网络模型的初始生成网络模型,根据初始人脸图像样本获取实际人脸图像样本;
    根据获取到的实际人脸图像样本和预设的期望人脸图像样本,对所述初始判别网络模型进行训练,得到训练好的判别网络模型;
    编码模块,用于利用条件生成对抗网络模型中训练好的生成网络模型的编码器,获取待处理人脸图像的神态信息;
    解码模块,用于利用训练好的生成网络模型的解码器,根据所述神态信息和预设的容貌信息生成对应所述待处理人脸图像的目标人脸图像。
  8. 根据权利要求7所述的装置,其特征在于,所述根据获取到的实际人脸图像样本和预设的期望人脸图像样本,对所述初始判别网络模型进行训练,得到训练好的判别网络模型,具体包括:
    根据所述初始人脸图像样本和实际人脸图像样本对所述初始判别网络模型进行训练,得到用于判别所述实际人脸图像样本为伪造人脸图像的第一判别网络模型;
    根据所述初始人脸图像样本和预设的期望人脸图像样本对所述第一判别网络模型进行训练,得到用于判别所述预设的期望人脸图像样本为真实人脸图像的第二判别网络模型。
  9. 根据权利要求7所述的装置,其特征在于,还包括生成训练模块,用于对所述初始生成网络模型进 行训练,得到训练好的生成网络模型,具体包括:
    利用初始生成网络模型的编码器对初始人脸图像样本进行编码,得到所述初始人脸图像样本的高层特征;
    利用初始生成网络模型的解码器对所述初始人脸图像样本的高层特征进行解码,得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本;
    根据得到的所述实际人脸图像样本和初始人脸图像样本,对所述初始生成网络模型进行训练,得到训练好的生成网络模型;
    其中,所述根据得到的所述实际人脸图像样本和初始人脸图像样本,对所述初始生成网络模型进行训练,得到训练好的生成网络模型,具体包括:
    根据得到的所述实际人脸图像样本和初始人脸图像样本,对所述初始生成网络模型进行训练,得到第一生成网络模型;
    根据所述第一生成网络模型输出的第一实际人脸图像样本,利用所述训练好的判别网络模型得到判别概率;
    若所述判别概率为预设判别概率,则所述第一生成网络模型为训练好的生成网络模型。
  10. 根据权利要求9所述的装置,其特征在于,所述利用初始生成网络模型的解码器对所述初始人脸图像样本的高层特征进行解码,得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本,具体包括:
    获取编码器结构中每层输出的高层特征;
    将按照倒序排列的高层特征分别与所述解码器结构中每层的输入数据进行级联解码,得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本;
    其中,所述解码器第一层的输入数据为编码器结构中第N层输出的高层特征,所述编码器和解码器的结构层数均为N。
  11. 根据权利要求7所述的装置,其特征在于,还包括获取模块,具体包括:
    利用条件生成对抗网络模型中训练好的生成网络模型的编码器,根据期望人脸图像获取预设的容貌信息。
  12. 根据权利要求7或10所述的装置,其特征在于,所述解码模块,具体包括:
    获取所述训练好的生成网络模型的编码器结构中每层输出的神态信息;
    将按照倒序排列的神态信息分别与所述解码器结构中每层的输入数据进行级联解码,得到对应所述待处理人脸图像的目标人脸图像;
    其中,所述解码器第一层的输入数据为预设的容貌信息,所述编码器和解码器的结构层数均为N。
  13. 一种非易失性可读存储介质,其上存储有计算机可读指令,其特征在于,所述程序被处理器执行时实现基于对抗网络模型的人脸图像生成方法,包括:
    构建所述条件生成对抗网络模型的初始生成网络模型和初始判别网络模型;
    对所述初始判别网络模型进行训练,得到训练好的判别网络模型;
    其中,所述对所述初始判别网络模型进行训练,得到训练好的判别网络模型,具体包括:
    利用条件生成对抗网络模型的初始生成网络模型,根据初始人脸图像样本获取实际人脸图像样本;
    根据获取到的实际人脸图像样本和预设的期望人脸图像样本,对所述初始判别网络模型进行训练,得到训练好的判别网络模型;
    利用条件生成对抗网络模型中训练好的生成网络模型的编码器,获取待处理人脸图像的神态信息;
    利用训练好的生成网络模型的解码器,根据所述神态信息和预设的容貌信息生成对应所述待处理人脸图像的目标人脸图像。
  14. 根据权利要求13所述的非易失性可读存储介质,其特征在于,还包括:对所述初始生成网络模型进行训练,得到训练好的生成网络模型,具体包括:
    利用初始生成网络模型的编码器对初始人脸图像样本进行编码,得到所述初始人脸图像样本的高层特征;
    利用初始生成网络模型的解码器对所述初始人脸图像样本的高层特征进行解码,得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本;
    根据得到的所述实际人脸图像样本和初始人脸图像样本,对所述初始生成网络模型进行训练,得到训练好的生成网络模型;
    其中,所述根据得到的所述实际人脸图像样本和初始人脸图像样本,对所述初始生成网络模型进行训练,得到训练好的生成网络模型,具体包括:
    根据得到的所述实际人脸图像样本和初始人脸图像样本,对所述初始生成网络模型进行训练,得到第一生成网络模型;
    根据所述第一生成网络模型输出的第一实际人脸图像样本,利用所述训练好的判别网络模型得到判别概率;
    若所述判别概率为预设判别概率,则所述第一生成网络模型为训练好的生成网络模型。
  15. 根据权利要求14所述的非易失性可读存储介质,其特征在于,所述利用初始生成网络模型的解码器对所述初始人脸图像样本的高层特征进行解码,得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本,具体包括:
    获取编码器结构中每层输出的高层特征;
    将按照倒序排列的高层特征分别与所述解码器结构中每层的输入数据进行级联解码,得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本;
    其中,所述解码器第一层的输入数据为编码器结构中第N层输出的高层特征,所述编码器和解码器的结构层数均为N。
  16. 一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述程序时实现基于对抗网络模型的人脸图像生成方法,包括:
    构建所述条件生成对抗网络模型的初始生成网络模型和初始判别网络模型;
    对所述初始判别网络模型进行训练,得到训练好的判别网络模型;
    其中,所述对所述初始判别网络模型进行训练,得到训练好的判别网络模型,具体包括:
    利用条件生成对抗网络模型的初始生成网络模型,根据初始人脸图像样本获取实际人脸图像样本;
    根据获取到的实际人脸图像样本和预设的期望人脸图像样本,对所述初始判别网络模型进行训练,得到训练好的判别网络模型;
    利用条件生成对抗网络模型中训练好的生成网络模型的编码器,获取待处理人脸图像的神态信息;
    利用训练好的生成网络模型的解码器,根据所述神态信息和预设的容貌信息生成对应所述待处理人脸图像的目标人脸图像。
  17. 根据权利要求18所述的计算机设备,其特征在于,还包括:对所述初始生成网络模型进行训练,得到训练好的生成网络模型,具体包括:
    利用初始生成网络模型的编码器对初始人脸图像样本进行编码,得到所述初始人脸图像样本的高层特征;
    利用初始生成网络模型的解码器对所述初始人脸图像样本的高层特征进行解码,得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本;
    根据得到的所述实际人脸图像样本和初始人脸图像样本,对所述初始生成网络模型进行训练,得到训练好的生成网络模型;
    其中,所述根据得到的所述实际人脸图像样本和初始人脸图像样本,对所述初始生成网络模型进行训练,得到训练好的生成网络模型,具体包括:
    根据得到的所述实际人脸图像样本和初始人脸图像样本,对所述初始生成网络模型进行训练,得到第一生成网络模型;
    根据所述第一生成网络模型输出的第一实际人脸图像样本,利用所述训练好的判别网络模型得到判别概率;
    若所述判别概率为预设判别概率,则所述第一生成网络模型为训练好的生成网络模型。
  18. 根据权利要求19所述的计算机设备,其特征在于,所述利用初始生成网络模型的解码器对所述初始人脸图像样本的高层特征进行解码,得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本,具体包括:
    获取编码器结构中每层输出的高层特征;
    将按照倒序排列的高层特征分别与所述解码器结构中每层的输入数据进行级联解码,得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本;
    其中,所述解码器第一层的输入数据为编码器结构中第N层输出的高层特征,所述编码器和解码器的结构层数均为N。
PCT/CN2019/118194 2019-06-26 2019-11-13 基于对抗网络模型的人脸图像生成方法及装置、非易失性可读存储介质、计算机设备 WO2020258668A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910559077.5 2019-06-26
CN201910559077.5A CN110457994B (zh) 2019-06-26 2019-06-26 人脸图像生成方法及装置、存储介质、计算机设备

Publications (1)

Publication Number Publication Date
WO2020258668A1 true WO2020258668A1 (zh) 2020-12-30

Family

ID=68481096

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/118194 WO2020258668A1 (zh) 2019-06-26 2019-11-13 基于对抗网络模型的人脸图像生成方法及装置、非易失性可读存储介质、计算机设备

Country Status (2)

Country Link
CN (1) CN110457994B (zh)
WO (1) WO2020258668A1 (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766105A (zh) * 2021-01-07 2021-05-07 北京码牛科技有限公司 一种应用于图码联采系统的图像转换方法及装置
CN112801998A (zh) * 2021-02-05 2021-05-14 展讯通信(上海)有限公司 一种印制电路板检测方法、装置、计算机设备和存储介质
CN112819689A (zh) * 2021-02-02 2021-05-18 百果园技术(新加坡)有限公司 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备
CN112818774A (zh) * 2021-01-20 2021-05-18 中国银联股份有限公司 一种活体检测方法及装置
CN113033442A (zh) * 2021-03-31 2021-06-25 清华大学 基于StyleGAN的高自由度人脸驱动方法和装置
CN113077379A (zh) * 2021-03-23 2021-07-06 深圳数联天下智能科技有限公司 特征潜码的提取方法及装置、设备及存储介质
CN113205449A (zh) * 2021-05-21 2021-08-03 珠海金山网络游戏科技有限公司 表情迁移模型的训练方法及装置、表情迁移方法及装置
CN113240606A (zh) * 2021-05-24 2021-08-10 博奥生物集团有限公司 中医望诊图像颜色校正方法及系统
CN113344776A (zh) * 2021-06-30 2021-09-03 北京字跳网络技术有限公司 图像处理方法、模型训练方法、装置、电子设备及介质
CN113409377A (zh) * 2021-06-23 2021-09-17 四川大学 一种基于跳跃连接式生成对抗网络的相位展开方法
CN113642491A (zh) * 2021-08-20 2021-11-12 北京百度网讯科技有限公司 人脸融合方法、人脸融合模型的训练方法及装置
CN113781325A (zh) * 2021-08-11 2021-12-10 同济大学 一种基于分层条件生成对抗网络的水下图像复原方法
CN113807265A (zh) * 2021-09-18 2021-12-17 山东财经大学 一种多样化的人脸图像合成方法及系统
CN113822790A (zh) * 2021-06-03 2021-12-21 腾讯云计算(北京)有限责任公司 一种图像处理方法、装置、设备及计算机可读存储介质
CN113850890A (zh) * 2021-09-29 2021-12-28 北京字跳网络技术有限公司 动物形象的生成方法、装置、设备及存储介质
CN113963087A (zh) * 2021-10-12 2022-01-21 北京百度网讯科技有限公司 图像处理方法、图像处理模型训练方法、装置及存储介质
CN114049250A (zh) * 2022-01-13 2022-02-15 广州卓腾科技有限公司 一种证件照人脸姿态矫正方法、装置及介质
CN114239717A (zh) * 2021-12-15 2022-03-25 北京欧珀通信有限公司 模型训练方法、图像处理方法及装置、电子设备、介质
CN114399453A (zh) * 2021-12-29 2022-04-26 汕头大学 一种基于生成对抗网络的人脸表情合成方法
CN115830723A (zh) * 2023-02-23 2023-03-21 苏州浪潮智能科技有限公司 一种训练集图像的相关方法和相关装置
CN116110099A (zh) * 2023-01-19 2023-05-12 北京百度网讯科技有限公司 头像生成的方法和头像更换的方法
CN116979973A (zh) * 2023-09-22 2023-10-31 为准(北京)电子科技有限公司 一种信息解码方法、装置、电子设备及可读存储介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860093B (zh) * 2020-03-13 2024-05-14 北京嘀嘀无限科技发展有限公司 图像处理方法、装置、设备及计算机可读存储介质
CN111583105B (zh) * 2020-05-14 2023-08-29 厦门美图之家科技有限公司 人像生成方法、装置、设备及存储介质
CN111754596B (zh) * 2020-06-19 2023-09-19 北京灵汐科技有限公司 编辑模型生成、人脸图像编辑方法、装置、设备及介质
CN113870412A (zh) * 2020-06-30 2021-12-31 阿里巴巴集团控股有限公司 一种航空场景图像的处理方法、装置以及电子设备
CN112016480B (zh) * 2020-08-31 2024-05-28 中移(杭州)信息技术有限公司 人脸特征表示方法、系统、电子设备和存储介质
CN112053315A (zh) * 2020-09-14 2020-12-08 北京百度网讯科技有限公司 用于处理人物形象数据的方法和装置
CN112837317A (zh) * 2020-12-31 2021-05-25 无锡祥生医疗科技股份有限公司 基于乳腺超声图像增强的病灶分类方法、装置及存储介质
CN112927329A (zh) * 2021-03-11 2021-06-08 广州虎牙科技有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN114359435A (zh) * 2022-03-17 2022-04-15 阿里巴巴(中国)有限公司 图像生成方法、模型生成方法及设备
CN116071744B (zh) * 2023-01-10 2023-06-30 山东省气候中心 一种基于Faster RCNN网络的成熟期番茄识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180060721A1 (en) * 2016-08-30 2018-03-01 Samsung Electronics Co., Ltd. System and method for residual long short term memories (lstm) network
CN109147010A (zh) * 2018-08-22 2019-01-04 广东工业大学 带属性人脸图像生成方法、装置、系统及可读存储介质
CN109523493A (zh) * 2017-09-18 2019-03-26 杭州海康威视数字技术股份有限公司 一种图像生成方法、装置及电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292813B (zh) * 2017-05-17 2019-10-22 浙江大学 一种基于生成对抗网络的多姿态人脸生成方法
CN107423700B (zh) * 2017-07-17 2020-10-20 广州广电卓识智能科技有限公司 人证核实的方法及装置
JP7023669B2 (ja) * 2017-10-26 2022-02-22 株式会社Preferred Networks 画像生成方法、画像生成装置、及び画像生成プログラム
CN109523463B (zh) * 2018-11-20 2023-04-07 中山大学 一种基于条件生成对抗网络的人脸老化方法
CN109635745A (zh) * 2018-12-13 2019-04-16 广东工业大学 一种基于生成对抗网络模型生成多角度人脸图像的方法
CN109785258B (zh) * 2019-01-10 2022-12-16 华南理工大学 一种基于多判别器生成对抗网络的人脸图像修复方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180060721A1 (en) * 2016-08-30 2018-03-01 Samsung Electronics Co., Ltd. System and method for residual long short term memories (lstm) network
CN109523493A (zh) * 2017-09-18 2019-03-26 杭州海康威视数字技术股份有限公司 一种图像生成方法、装置及电子设备
CN109147010A (zh) * 2018-08-22 2019-01-04 广东工业大学 带属性人脸图像生成方法、装置、系统及可读存储介质

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766105A (zh) * 2021-01-07 2021-05-07 北京码牛科技有限公司 一种应用于图码联采系统的图像转换方法及装置
CN112818774A (zh) * 2021-01-20 2021-05-18 中国银联股份有限公司 一种活体检测方法及装置
CN112819689A (zh) * 2021-02-02 2021-05-18 百果园技术(新加坡)有限公司 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备
CN112801998B (zh) * 2021-02-05 2022-09-23 展讯通信(上海)有限公司 一种印制电路板检测方法、装置、计算机设备和存储介质
CN112801998A (zh) * 2021-02-05 2021-05-14 展讯通信(上海)有限公司 一种印制电路板检测方法、装置、计算机设备和存储介质
CN113077379A (zh) * 2021-03-23 2021-07-06 深圳数联天下智能科技有限公司 特征潜码的提取方法及装置、设备及存储介质
CN113077379B (zh) * 2021-03-23 2024-03-22 深圳数联天下智能科技有限公司 特征潜码的提取方法及装置、设备及存储介质
CN113033442A (zh) * 2021-03-31 2021-06-25 清华大学 基于StyleGAN的高自由度人脸驱动方法和装置
CN113205449A (zh) * 2021-05-21 2021-08-03 珠海金山网络游戏科技有限公司 表情迁移模型的训练方法及装置、表情迁移方法及装置
CN113240606A (zh) * 2021-05-24 2021-08-10 博奥生物集团有限公司 中医望诊图像颜色校正方法及系统
CN113822790B (zh) * 2021-06-03 2023-04-21 腾讯云计算(北京)有限责任公司 一种图像处理方法、装置、设备及计算机可读存储介质
CN113822790A (zh) * 2021-06-03 2021-12-21 腾讯云计算(北京)有限责任公司 一种图像处理方法、装置、设备及计算机可读存储介质
CN113409377A (zh) * 2021-06-23 2021-09-17 四川大学 一种基于跳跃连接式生成对抗网络的相位展开方法
CN113409377B (zh) * 2021-06-23 2022-09-27 四川大学 一种基于跳跃连接式生成对抗网络的相位展开方法
CN113344776A (zh) * 2021-06-30 2021-09-03 北京字跳网络技术有限公司 图像处理方法、模型训练方法、装置、电子设备及介质
CN113781325B (zh) * 2021-08-11 2024-04-26 同济大学 一种基于分层条件生成对抗网络的水下图像复原方法
CN113781325A (zh) * 2021-08-11 2021-12-10 同济大学 一种基于分层条件生成对抗网络的水下图像复原方法
CN113642491A (zh) * 2021-08-20 2021-11-12 北京百度网讯科技有限公司 人脸融合方法、人脸融合模型的训练方法及装置
CN113807265A (zh) * 2021-09-18 2021-12-17 山东财经大学 一种多样化的人脸图像合成方法及系统
CN113850890A (zh) * 2021-09-29 2021-12-28 北京字跳网络技术有限公司 动物形象的生成方法、装置、设备及存储介质
CN113963087B (zh) * 2021-10-12 2023-10-27 北京百度网讯科技有限公司 图像处理方法、图像处理模型训练方法、装置及存储介质
CN113963087A (zh) * 2021-10-12 2022-01-21 北京百度网讯科技有限公司 图像处理方法、图像处理模型训练方法、装置及存储介质
CN114239717A (zh) * 2021-12-15 2022-03-25 北京欧珀通信有限公司 模型训练方法、图像处理方法及装置、电子设备、介质
CN114399453A (zh) * 2021-12-29 2022-04-26 汕头大学 一种基于生成对抗网络的人脸表情合成方法
CN114049250A (zh) * 2022-01-13 2022-02-15 广州卓腾科技有限公司 一种证件照人脸姿态矫正方法、装置及介质
CN116110099A (zh) * 2023-01-19 2023-05-12 北京百度网讯科技有限公司 头像生成的方法和头像更换的方法
CN115830723A (zh) * 2023-02-23 2023-03-21 苏州浪潮智能科技有限公司 一种训练集图像的相关方法和相关装置
CN116979973A (zh) * 2023-09-22 2023-10-31 为准(北京)电子科技有限公司 一种信息解码方法、装置、电子设备及可读存储介质
CN116979973B (zh) * 2023-09-22 2023-12-15 为准(北京)电子科技有限公司 一种信息解码方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN110457994A (zh) 2019-11-15
CN110457994B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
WO2020258668A1 (zh) 基于对抗网络模型的人脸图像生成方法及装置、非易失性可读存储介质、计算机设备
US11074733B2 (en) Face-swapping apparatus and method
CN109902767B (zh) 模型训练方法、图像处理方法及装置、设备和介质
US10504268B1 (en) Systems and methods for generating facial expressions in a user interface
US20210174072A1 (en) Microexpression-based image recognition method and apparatus, and related device
US9639743B2 (en) Anonymization of facial images
CN112395979B (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
CN111754596A (zh) 编辑模型生成、人脸图像编辑方法、装置、设备及介质
CN108491808B (zh) 用于获取信息的方法及装置
US20230095182A1 (en) Method and apparatus for extracting biological features, device, medium, and program product
WO2022052530A1 (zh) 人脸矫正模型的训练方法、装置、电子设备及存储介质
CN113870395A (zh) 动画视频生成方法、装置、设备及存储介质
US20230143452A1 (en) Method and apparatus for generating image, electronic device and storage medium
CN112233698A (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN114187547A (zh) 目标视频的输出方法及装置、存储介质及电子装置
US20220101121A1 (en) Latent-variable generative model with a noise contrastive prior
CN109871736A (zh) 自然语言描述信息的生成方法及装置
CN114913303A (zh) 虚拟形象生成方法及相关装置、电子设备、存储介质
CN110619334A (zh) 基于深度学习的人像分割方法、架构及相关装置
CN110121719A (zh) 用于深度学习的装置、方法和计算机程序产品
CN114529785B (zh) 模型的训练方法、视频生成方法和装置、设备、介质
CN112101087A (zh) 一种面部图像身份去识别方法、装置及电子设备
CN117456063A (zh) 基于语音的人脸驱动方法、装置、电子设备及存储介质
WO2024059374A1 (en) User authentication based on three-dimensional face modeling using partial face images
EP4414940A1 (en) Caricaturization model construction method and apparatus, and device, storage medium and program product

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19934948

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19934948

Country of ref document: EP

Kind code of ref document: A1