WO2023132790A2 - 表情驱动方法和装置、表情驱动模型的训练方法和装置 - Google Patents

表情驱动方法和装置、表情驱动模型的训练方法和装置 Download PDF

Info

Publication number
WO2023132790A2
WO2023132790A2 PCT/SG2023/050004 SG2023050004W WO2023132790A2 WO 2023132790 A2 WO2023132790 A2 WO 2023132790A2 SG 2023050004 W SG2023050004 W SG 2023050004W WO 2023132790 A2 WO2023132790 A2 WO 2023132790A2
Authority
WO
WIPO (PCT)
Prior art keywords
sample image
face
target
expression
image
Prior art date
Application number
PCT/SG2023/050004
Other languages
English (en)
French (fr)
Other versions
WO2023132790A3 (zh
Inventor
朱亦哲
杨骁�
李健玮
沈晓辉
Original Assignee
脸萌有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 脸萌有限公司 filed Critical 脸萌有限公司
Publication of WO2023132790A2 publication Critical patent/WO2023132790A2/zh
Publication of WO2023132790A3 publication Critical patent/WO2023132790A3/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • BACKGROUND OF THE INVENTION Character image driving refers to driving a certain static character image according to provided driving information (such as human posture, expression, etc.), so that the static character image can move realistically.
  • driving information such as human posture, expression, etc.
  • a generative confrontation network model is usually used to process driving videos to obtain driving information, and the driving information is used to drive static characters to generate new videos.
  • the real-time performance of the new video is poor due to the large amount of data calculation of the generative confrontation network model.
  • the present disclosure provides an expression-driven method and device, an expression-driven model training method and device, electronic equipment, a computer-readable storage medium, a computer program product, and a computer program to solve the problem of poor real-time performance of new videos.
  • the present disclosure provides an expression-driven method, including: acquiring a first video; inputting the first video into a pre-trained expression-driven model to obtain a second video; wherein, the expression-driven model is based on a target sample image and A plurality of first sample images are trained, the face image in the second video is generated based on the target sample image, the gesture and expression features of the face image in the second video and the gesture and expression features of the face image in the first video same.
  • the expression-driven model is obtained by training a plurality of sample image pairs determined based on a plurality of first sample images and corresponding second sample images;
  • the second sample image is obtained based on a plurality of target face key points in the target sample image and a plurality of first face key points in the corresponding first sample image; the gesture and expression of the face in the second sample image
  • the similarity between the features and the corresponding facial gesture and expression features in the first sample image is greater than a preset value.
  • the second sample image is obtained based on displacement information between a plurality of target face key points and a plurality of first face key points, and a face feature map corresponding to the target sample image; for each The target face key point, the displacement information is the displacement information between the target face key point and the corresponding first face key point; the face feature map is obtained by encoding the face information in the target sample image.
  • the displacement information is determined according to difference information between a plurality of target face key points and corresponding first face key points, and a pre-trained network model.
  • the difference information is determined according to the coordinate information of the target human face key point and the corresponding coordinate information of the first human face key point in the same coordinate system.
  • the multiple first sample images are initial sample images in which the number of sample images of each posture angle in the multiple initial sample images conforms to a predetermined distribution.
  • the present disclosure provides a method for training an expression-driven model, including: separately extracting a plurality of target face key points in target sample images, and extracting a plurality of first sample images in each first sample image multiple first face key points; for each first sample image and each target face key point, determine the target face key point and the first sample image corresponding to the target face key point The displacement information between the key points of the face; according to the displacement information and the target sample image, a second sample image is generated; the similarity between the pose and expression features of the face in the second sample image and the pose and expression features of the face in the target sample image degree is greater than a preset value; according to multiple first sample images and corresponding second sample images, determine multiple sample image pairs; according to multiple sample image pairs, update the model parameters of the initial expression-driven model to obtain the expression-driven model .
  • generating the second sample image according to the displacement information and the target sample image includes: encoding face information in the target sample image to obtain a face feature map; according to the displacement information and the face feature map, determining The second sample image.
  • determining the second sample image according to the displacement information and the face feature map includes: performing bending transformation processing and/or displacement processing on the face feature map according to the displacement information to obtain a processed face feature map ; The processed face feature map is decoded to obtain a second sample image.
  • determining the displacement information between the key point of the target face and the first key point of the face corresponding to the key point of the target face in the first sample image includes: determining the key point of the target face and the first key point of the face difference information between the first face key points corresponding to the target face key points in the sample image; and determining displacement information according to the difference information and the pre-trained network model.
  • determining the difference information between the key points of the target face and the first key points of the face corresponding to the key points of the target face in the first sample image includes: combining the key points of the target face and the key points of the target face Multiple first face key points are converted to the same coordinate system; according to the coordinate information of each target face key point and the coordinate information of the corresponding first face key point in the same coordinate system, determine each target face key point and The difference information between the corresponding key points of the first face. In some embodiments, it also includes: acquiring multiple initial sample images; determining the attitude angles of the multiple initial sample images; making the number of sample images of each attitude angle in the multiple initial sample images conform to a predetermined distribution of initial sample images, determined as a plurality of first sample images.
  • the present disclosure provides an expression driving device, including: a processing module; the processing module is used to: acquire a first video; input the first video into a pre-trained expression driving model to obtain a second video; wherein, the The expression-driven model is trained based on the target sample image and multiple first sample images.
  • the face image in the second video is generated based on the target sample image.
  • the facial expression features of the face image in the second video are the same as those in the first video.
  • the pose and expression features of the face images are the same.
  • the expression-driven model is obtained by training a plurality of sample image pairs determined based on a plurality of first sample images and corresponding second sample images; the second sample image is based on multiple targets in the target sample image The key points of the face and the corresponding first key points of the face in the first sample image; The similarity between the expression features is greater than a preset value.
  • the second sample image is obtained based on displacement information between a plurality of target face key points and a plurality of first face key points, and a face feature map corresponding to the target sample image;
  • the displacement information is the displacement information between the target face key point and the corresponding first face key point;
  • the face feature map is obtained by encoding the face information in the target sample image .
  • the displacement information is determined according to difference information between a plurality of target face key points and corresponding first face key points, and a pre-trained network model.
  • the difference information is determined according to the coordinate information of the target human face key point and the corresponding coordinate information of the first human face key point in the same coordinate system.
  • the multiple first sample images are initial sample images in which the number of sample images of each posture angle in the multiple initial sample images conforms to a predetermined distribution.
  • the present disclosure provides an expression-driven model training device, including: a processing module: the processing module is used to: respectively extract multiple target face key points in the target sample image, and multiple first sample images Multiple first face key points in each first sample image; for each first sample image and each target face key point, determine the target face key point and the neutralization target in the first sample image Displacement information between the first key points of the face corresponding to the key points of the face; Generate a second sample image according to the displacement information and the target sample image; The similarity between the gesture and expression features is greater than a preset value; according to multiple first sample images and corresponding second sample images, determine multiple sample image pairs; according to multiple sample image pairs, update the initial expression-driven model Model parameters to get the expression-driven model.
  • the processing module is specifically configured to: encode the face information in the target sample image to obtain a face feature map; determine the second sample image according to the displacement information and the face feature map. In some embodiments, the processing module is specifically configured to: perform bending transformation processing and/or displacement processing on the face feature map according to the displacement information to obtain a processed face feature map; decode the processed face feature map , to get the second sample image. In some embodiments, the processing module is specifically used to: determine the difference information between the target face key point and the first face key point corresponding to the target face key point in the first sample image; The trained network model determines the displacement information.
  • the processing module is specifically configured to: convert multiple target face key points and multiple first face key points into the same coordinate system; according to the coordinate information of each target face key point in the same coordinate system and the coordinate information of the corresponding first human face key point, and determine the difference information between each target human face key point and the corresponding first human face key point.
  • the processing module is further configured to: acquire a plurality of initial sample images; determine attitude angles of the plurality of initial sample images; make the number of sample images of each attitude angle in the plurality of initial sample images conform to the initial distribution of a predetermined The sample images are determined as a plurality of first sample images.
  • the present disclosure provides an electronic device, including: a processor, and a memory communicatively connected to the processor; the memory stores computer-executable instructions; the processor executes the computer-executable instructions stored in the memory, so as to implement the first aspect and the first aspect Either of the two methods.
  • the present disclosure provides a computer-readable storage medium, wherein computer-executable instructions are stored in the computer-readable storage medium, and the computer-executable instructions are used to implement the methods of the first aspect and the second aspect when executed by a processor.
  • the present disclosure provides a computer program product, including a computer program, and when the computer program is executed by a processor, the methods of the first aspect and the second aspect are implemented.
  • the present disclosure provides a computer program, which implements the methods of the first aspect and the second aspect when the computer program is executed by a processor.
  • the present disclosure provides an expression-driven method and device, and an expression-driven model training method and device.
  • the expression-driven method includes: acquiring a first video; inputting the first video into a pre-trained expression-driven model to obtain a second video; wherein , the expression-driven model is trained based on the target sample image and multiple first sample images, the face image in the second video is generated based on the target sample image, the gesture and expression features of the face image in the second video and the first video The pose and expression features of the face images are the same.
  • the expression-driven model is trained based on the target sample image and multiple first sample images.
  • the amount of data calculation of the expression-driven model is small, and it can be obtained according to The second video is obtained from the first video in real time, thereby improving the real-time performance of the second video.
  • FIG. 3 is a flow chart of the training method of the expression-driven model provided by the present disclosure
  • Fig. 4 is A schematic diagram of multiple target face key points provided by the present disclosure
  • FIG. 5 is a model structure diagram for obtaining a second sample image provided by the present disclosure
  • FIG. 6 is a schematic structural diagram of an expression driving device provided by the present disclosure
  • FIG. 7 is A schematic structural diagram of an expression-driven model training device provided in the present disclosure
  • FIG. 8 is a schematic diagram of hardware of an electronic device provided in an embodiment of the present disclosure.
  • character image driving refers to driving a static character image according to driving information (such as information such as a person's posture and expression), so that the static character image can move realistically.
  • driving information such as information such as a person's posture and expression
  • Real-time driving refers to capturing people's posture and expression in real time through camera equipment, and driving static characters in real time according to the captured people's postures and expressions, so that the static characters can move realistically.
  • GAN Generative Adversarial Networks
  • the real-time performance of the new video is poor due to the large amount of data calculation of the generative confrontation network model.
  • the inventor thought of using an expression-driven model with a small amount of data calculation to process the driving video and target pictures (including static characters) to obtain a new video, because The expression-driven model in the present disclosure has a relatively small amount of computation, so it can quickly process the driving video and the target picture, thereby improving the real-time performance of the new video.
  • FIG. 1 is a schematic diagram of an application scenario of the expression driving method provided by the present disclosure. As shown in FIG. 1, it includes: a target sample image, a driving image, a generated image, multiple first sample images, an expression-driven model, and an initial expression-driven model. Based on the target sample image and multiple first sample images, the initial expression-driven model is trained to obtain the expression-driven model. The expression-driven model is used to process the driving image (a frame of image in the first video) and output a generated image (a frame of image in the second video).
  • FIG. 2 is a first flowchart of the expression driving method provided by the present disclosure. As shown in Figure 2, the method includes:
  • the subject of execution of the present disclosure may be an electronic device, or an expression driving device installed in the electronic device, and the expression driving device may be implemented by a combination of software and/or hardware.
  • the electronic device may be an electronic device including a high-performance graphics processing unit (graphics processing unit, GPU), or an electronic device including a low-performance GPU.
  • graphics processing unit graphics processing unit, GPU
  • the calculation speed of the high-performance GPU is relatively fast, and the calculation speed of the low-performance GPU is relatively slow.
  • an electronic device including a low-performance GPU may be a personal digital assistant (Personal Digital Assistant, PDA), user equipment (User Device or User Equipment).
  • the user equipment may be a smart phone or the like.
  • the first video may be a video captured by the electronic device in real time, or a video pre-stored in the electronic device.
  • the first video includes N frames of driving images. N is an integer greater than or equal to 2.
  • the expression-driven model is trained based on target sample images and multiple first sample images, and the face images in the second video are based on The target sample image is generated, and the gesture and expression features of the face image in the second video are the same as the gesture and expression features of the face image in the first video.
  • the second video includes N frames of generated images.
  • the expression driving model processes the driving image to obtain a generated image corresponding to the driving image in the second video.
  • the gesture and expression features may include: gesture angle and expression.
  • the attitude angle may include: any at least one of a pitch angle (pitch), a roll angle (roll), and a yaw angle (yaw).
  • the pitch angle may indicate head up or head down.
  • the heading angle can indicate left or right head tilt.
  • the roll angle may indicate that the human face is turned to the left or to the right.
  • the expression-driven model is trained based on the target sample image and multiple first sample images. During the process of obtaining the second video through the expression-driven model, the data calculation of the expression-driven model The amount is small, and the second video can be obtained in real time based on the first video, thereby improving the real-time performance of the second video.
  • the generative adversarial network model has a large amount of data calculation, so the generative adversarial network model can only be deployed in electronic devices including high-performance GPUs to make new video It has good real-time performance.
  • the generative confrontation network model is deployed in electronic devices including low-performance GPUs, problems such as freezes occur in new videos, resulting in poor real-time performance of new videos.
  • the data calculation amount of the expression-driven model is small (that is, the calculation of the generator is small), and even if the expression-driven model is deployed in an electronic device including a low-performance GPU, it can make the second video have better real-time sex.
  • Fig. 3 is a flow chart of the training method of the expression-driven model provided by the present disclosure. As shown in Figure 3, the method includes:
  • the execution subject of the expression-driven model training method may be an electronic device, or an expression-driven model training device set in the electronic device, or a server communicating with the electronic device, or an expression-driven model set in the server.
  • the training device for the driving model, the training device for the expression driving model can be realized by a combination of software and/or hardware.
  • the target sample image may be a preset image, or an image selected by a user from at least one preset image. Wherein, each preset image includes a static person image (with a face image).
  • the static character image may be a cartoon character image, a character image in a classic portrait, or the like.
  • multiple target face key points in the target sample image can be extracted through the following methods 11 and 12.
  • Mode 11 through the key point detection algorithm model of the face, the key point extraction is performed on the target sample image, and multiple facial key points and corresponding position information are obtained;
  • the pupil key point detection algorithm model the key point extraction is performed on the target sample image, Obtain multiple pupil key points and corresponding position information; use the face outline key point detection algorithm model to extract key points from the target sample image, and obtain multiple face outline key points and corresponding position information; Key points, multiple pupil key points, and multiple face outline key points determine multiple target face key points.
  • the key points corresponding to the four parts of the nose, mouth, eyes and eyebrows among the multiple facial key points, as well as multiple pupil key points and multiple human face outline key points can be determined as multiple target faces key point.
  • the key points corresponding to the five parts of the nose, mouth, eyes, eyebrows and facial contour (the contour of the lower part of the face) among the multiple facial key points, multiple pupil key points, and multiple people The key points corresponding to the upper half of the face contour in the key points of the outer contour of the face are determined as multiple target face key points.
  • FIG. 4 is a schematic diagram of multiple target face key points provided by the present disclosure. On the basis of the above method 11, as shown in FIG.
  • the multiple target key points include, for example: key points corresponding to the four parts of the nose, mouth, eyes and eyebrows among the multiple facial key points, and multiple pupil key points and multiple face outline key points.
  • Mode 12 Through the face key point detection algorithm model, the key point extraction is performed on the target sample image, and multiple facial key points and corresponding position information are obtained; through the pupil key point detection algorithm model, the key point extraction is performed on the target sample image, Obtain multiple pupil key points and corresponding position information; use the mouth dense key point detection algorithm model to extract key points from the target sample image, and obtain multiple mouth key points and corresponding position information; through the face outline key
  • the point detection algorithm model extracts the key points of the target sample image, and obtains multiple key points of the outer contour of the face and the corresponding position information; according to multiple facial key points, multiple pupil key points, multiple mouth key points and multiple people The key points of the outer contour of the face are determined as multiple target face key points.
  • the key points corresponding to the three parts of the nose, eyes, and eyebrows among the multiple facial key points, as well as multiple pupil key points, multiple mouth key points, and multiple face contour key points can be determined as Multiple target face keypoints.
  • the key points corresponding to the four parts of the nose, eyes, eyebrows and facial contour (the outline of the lower part of the face) among the multiple facial key points, multiple pupil key points, and multiple mouth key points Points, and the key points corresponding to the upper half of the face contour among the multiple human face outer contour key points are determined as multiple target human face key points. It should be noted that, for each first sample image, multiple first human face key points in the first sample image may be extracted using the above method 11 or 12, which will not be described in detail here.
  • S302 specifically includes: determining the difference information between the target face key point and the first face key point corresponding to the target face key point in the first sample image; Network model, determining displacement information.
  • the difference information may be determined by the following methods: converting multiple target face key points and multiple first face key points into the same coordinate system; The coordinate information and the coordinate information of the corresponding first human face key point determine the difference information between each target human face key point and the corresponding first human face key point.
  • the difference information may be equal to the difference between the coordinate information of the target face key point and the coordinate information of the first face key point corresponding to the target face key point.
  • transforming multiple target facial key points and multiple first human face key points into the same coordinate system includes: converting the position information of each target human face key point and each first human face key point The position information of is transformed into the same coordinate system.
  • the difference information between each target face key point and the corresponding first face key point is processed through a pre-trained network model to obtain displacement information.
  • S303 specifically includes: adjusting the positions of each target key point in the target sample image according to the displacement information to obtain a second sample image.
  • S303 specifically includes: encoding face information in the target sample image to obtain a face feature map; and determining a second sample image according to the displacement information and the face feature map.
  • determining the second sample image according to the displacement information and the face feature map includes: performing bending transformation processing and/or displacement processing on the face feature map according to the displacement information to obtain a processed face feature map; The final face feature map is decoded to obtain a second sample image. 5304.
  • the initial expression-driven model may include a generator and a decider. Specifically, according to multiple sample image pairs, the model parameters of the generator and the decider are updated to obtain an expression-driven model. Among them, the expression-driven model is to obtain the final model of the generator after updating the model parameters of the generator.
  • the expression-driven model is obtained when the number of updates of the model parameters of the initial expression-driven model reaches a preset number of times, or when the training time for the initial expression-driven model reaches a preset time, or when the model parameters of the initial expression-driven model converge.
  • the initial expression-driven model usually uses multiple sample image pairs for training.
  • the sample image pair includes image A and image B, and the pose and expression of the character image that needs to be driven in image B corresponds to the pose and expression of the character image in image A.
  • the image B is usually drawn manually, which makes it difficult to obtain multiple sample image pairs, which wastes labor costs and time costs.
  • multiple target face key points in the target sample image and multiple first human face key points in each of the multiple first sample images are respectively extracted; for each A first sample image and each target face key point, determining the displacement information between the target face key point and the first face key point corresponding to the target face key point in the first sample image; according to the displacement
  • the information and the target sample image are used to generate the second sample image, which can avoid the need for workers to draw the second sample image corresponding to the first sample image, saving labor costs and time costs.
  • the expression-driven model training method may further include: acquiring multiple initial sample images; determining pose angles of the multiple initial sample images; The number of initial sample images conforming to a predetermined distribution is determined as a plurality of first sample images.
  • determining the pose angles of the multiple initial sample images includes: respectively detecting the rotation angle of each initial sample image, so as to obtain the pose angles of each initial sample image.
  • the predetermined distribution may be a uniform distribution, or other distributions, which will not be described in detail here.
  • multiple first sample images usually include more frontal images (with a certain fixed pose angle), if the initial expression drive the model for training, resulting in the obtained Expression-driven models are less accurate, which in turn degrades the quality of new videos.
  • FIG. 5 is a structure diagram of a model for obtaining a second sample image provided by the present disclosure.
  • FIG. 5 it includes: face key point detection module 51, face position information extraction module 52, face feature extraction module 53, face feature bending deformation module 54 and face image reconstruction module 55 o face feature bending
  • the deformation module 54 is connected to the face position information extraction module 52, the face feature extraction module 53, and the face image reconstruction module 55, and the face position information extraction module 52 is also connected to the face key point detection module 51.
  • the human face key point detection module 51 is used to respectively extract a plurality of target human face key points in the target sample image, and a plurality of first human face key points in each first sample image in the plurality of first sample images .
  • the human face position information extraction module 52 is used for each first sample image and each target human face key point, to determine the target human face key point and the first person corresponding to the target human face key point in the first sample image Displacement information between face key points.
  • the face feature extraction module 53 is used to encode the face information in the target sample image to obtain a face feature map.
  • the face feature bending deformation module 54 is configured to perform bending transformation processing and/or displacement processing on the face feature map according to the displacement information to obtain a processed face feature map.
  • the face image reconstruction module 55 is used to decode the processed face feature map to obtain the second sample image.
  • FIG. 6 is a schematic structural diagram of an expression driving device provided by the present disclosure. As shown in FIG.
  • the expression driving device 60 includes: a processing module 61; the processing module 61 is used to: obtain a first video; input the first video into a pre-trained expression driving model to obtain a second video; wherein, the expression driving model Based on the target sample image and multiple first sample images trained, the face image in the second video is generated based on the target sample image, the posture and expression features of the face image in the second video and the face in the first video The pose and expression features of the images are the same.
  • the expression driving device 60 provided in the embodiment of the present disclosure can implement the above-mentioned expression driving method, and its implementation principles and beneficial effects are similar, and will not be repeated here.
  • the expression-driven model is obtained by training a plurality of sample image pairs determined based on a plurality of first sample images and corresponding second sample images;
  • the second sample image is obtained based on a plurality of target human face key points in the target sample image and a plurality of first human face key points in the corresponding first sample image; the gesture and expression of the face in the second sample image
  • the similarity between the features and the corresponding facial gesture and expression features in the first sample image is greater than a preset value.
  • the second sample image is obtained based on displacement information between a plurality of target face key points and a plurality of first face key points, and a face feature map corresponding to the target sample image; for each The target face key point, the displacement information is the displacement information between the target face key point and the corresponding first face key point; the face feature map is obtained by encoding the face information in the target sample image.
  • the displacement information is determined according to difference information between a plurality of target face key points and corresponding first face key points, and a pre-trained network model.
  • the difference information is determined according to the coordinate information of the target human face key point and the corresponding coordinate information of the first human face key point in the same coordinate system.
  • the multiple first sample images are initial sample images in which the number of sample images of each posture angle in the multiple initial sample images conforms to a predetermined distribution.
  • FIG. 7 is a schematic structural diagram of a training device for an expression-driven model provided by the present disclosure. As shown in FIG.
  • the expression-driven model training device 70 includes: a processing module 71; the processing module 71 is used to: respectively extract multiple target face key points in the target sample image, and each multiple first face key points in the first sample image; for each first sample image and each target face key point, determine the target face key point and the first sample image Displacement information between the first face key points corresponding to the face key points; Generate a second sample image according to the displacement information and the target sample image; The similarity between gesture and expression features is greater than a preset value; according to multiple first sample images and corresponding second sample images, determine multiple sample image pairs; according to multiple sample image pairs, update the model of the initial expression-driven model parameters to get the expression-driven model.
  • the emotion-driven model training device 70 provided in the embodiment of the present disclosure can implement the above-mentioned emotion-driven model training method, and its implementation principle and beneficial effect are similar, and will not be repeated here.
  • the processing module 71 is specifically configured to: encode the face information in the target sample image to obtain a face feature map; determine the second sample image according to the displacement information and the face feature map.
  • the processing module 71 is specifically configured to: perform bending transformation processing and/or displacement processing on the face feature map according to the displacement information to obtain a processed face feature map; perform processing on the processed face feature map Decode to obtain the second sample image.
  • the processing module 71 is specifically configured to: determine the difference information between the target face key point and the first face key point corresponding to the target face key point in the first sample image; according to the difference information and A pre-trained network model to determine displacement information. In some embodiments, the processing module 71 is specifically configured to: convert multiple target face key points and multiple first face key points into the same coordinate system; according to the coordinates of each target face key point in the same coordinate system information and the coordinate information of the corresponding first human face key point, and determine the difference information between each target human face key point and the corresponding first human face key point.
  • FIG. 8 is a schematic diagram of hardware of an electronic device provided by an embodiment of the present disclosure.
  • an electronic device 80 may include: a transceiver 81, a memory 82, and a processor 83.
  • the transceiver 81 may include: a transmitter and/or a receiver.
  • a transmitter may also be referred to as a sender, a transmitter, a sending port, or a sending interface, and similar descriptions.
  • a receiver may also be referred to as a receiver, a receiving port, or a receiving interface, and similar descriptions.
  • parts of the transceiver 81, memory 82, and processor 83 are connected to each other through a bus 84.
  • Memory 82 is used to store computer-executable instructions.
  • the processor 83 is used to execute the computer-executed instructions stored in the memory 82, so that the processor 83 executes the expression-driven method and the expression-driven model training method.
  • An embodiment of the present disclosure provides a computer-readable storage medium, in which computer-executable instructions are stored, and when the computer-executable instructions are executed by a processor, the expression-driven method and the expression-driven model training method are implemented.
  • An embodiment of the present disclosure further provides a computer program product, including a computer program.
  • a computer program product including a computer program.
  • the above expression-driven method and the expression-driven model training method can be realized.
  • An embodiment of the present disclosure also provides a computer program, which can implement the expression-driven method and the expression-driven model training method when the computer program is executed by a processor. All or part of the steps for realizing the above method embodiments can be completed by program instructions related hardware.
  • the aforementioned program can be stored in a readable memory.
  • the steps including the above-mentioned method embodiments are executed; and the aforementioned memory (storage medium) includes: read-only memory (read-only memory, ROM)>random access memory (random access memory, RAM), Flash memory, hard disk, solid state drive, magnetic tape > floppy disk, optical disc and any combination thereof.
  • read-only memory read-only memory
  • RAM random access memory
  • Flash memory hard disk, solid state drive, magnetic tape > floppy disk, optical disc and any combination thereof.
  • These computer program instructions may be provided to a general purpose computer, special purpose computer, embedded processor, or processing unit of other programmable data processing equipment to produce a machine such that the instructions executed by the processing unit of the computer or other programmable data processing equipment produce a An apparatus for realizing the functions specified in one or more procedures of the flowchart and/or one or more blocks of the block diagram.
  • These computer program instructions may also be stored in a computer-readable memory capable of directing a computer or other programmable data processing apparatus to operate in a specific manner, such that the instructions stored in the computer-readable memory produce an article of manufacture comprising instruction means, the instructions The device realizes the function specified in one or more procedures of the flowchart and/or one or more blocks of the block diagram.
  • the term “include” and its variants may mean non-limiting inclusion; the term “or” and its variants may mean “and/or”.
  • the terms “first”, “second” and the like in the present disclosure are used to distinguish similar objects, and are not necessarily used to describe a specific sequence or sequence.
  • “plurality” means two or more.
  • “and / or” Describe the association relationship of associated objects, indicating that there may be three types of relationships, for example, A and/or B, may indicate: A exists alone, A and B exist simultaneously, and B exists independently.
  • the character “/” generally indicates that the contextual objects are an "or” relationship.
  • Other embodiments of the present disclosure will be readily apparent to those skilled in the art from consideration of the specification and practice of the invention disclosed herein.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供一种表情驱动方法和装置、表情驱动模型的训练方法,该表情驱动方法包括:获取第一视频;将第一视频输入预先训练好的表情驱动模型,得到第二视频;其中,表情驱动模型基于目标样本图像和多张第一样本图像训练得到的,第二视频中的人脸图像基于目标样本图像生成,第二视频中的人脸图像的姿态表情特征和第一视频中的人脸图像的姿态表情特征相同。本公开提供的表情驱动方法、以及表情驱动模型的训练方法用于提高第二视频的实时性。

Description

表 情 驱 动方 法 和 装 置 、 表情驱 动 模 型 的训 练 方 法 和 装置 相关 申请 交叉引 用 本公开要求于 2022年 01月 04日提交的、 申请号为 202210001031.3、 名称为 “表情 驱动方法、以及模型训练方法 ”的中国专利申请的优先权,其全部内容通过引用并入本文。 技术 领域 本公开涉及形象驱动 的技术领域, 尤其涉及一种表情驱动方法和装置、 表情驱动模型 的训练方法和装置、 电子设备、 计算机可读存储介质、 计算机程序产品及计算机程序。 背景 技术 人物形象驱动是指根据提供 的驱动信息(比如人的姿态、 表情等) , 来驱动某一个静 态人物形象, 使静态人物形象能够逼真得动起来。 在相关技术 中,通常采用生成式对抗网络模型对驱动视频进行处理,以得到驱动信息, 并采用驱动信息来驱动静态人物形象, 从而生成新视频。 在上述相关技术 中, 在采用生成式对抗网络模型得到新视频的过程中, 由于生成式对 抗网络模型的数据计算量大, 因此使得新视频的实时性较差。 发 明内容 本公开提供一种表情 驱动方法和装置、 表情驱动模型的训练方法和装置、 电子设备、 计算机可读存储介质、计算机程序产品及计算机程序,用以解决新视频的实时性较差问题。 第一方面 , 本公开提供一种表情驱动方法, 包括: 获取第一视频 ; 将第一视频输入预先训练好 的表情驱动模型, 得到第二视频; 其中, 所述表情驱动模 型基于目标样本图像和多张第一样本图像训练得到的,第二视频中的人脸图像基于目标样 本图像生成,第二视频中的人脸图像的姿态表情特征和第一视频中的人脸图像的姿态表情 特征相同。 在一些实施例 中,表情驱动模型为基于多张第一样本图像和对应的第二样本图像确定 的多个样本图像对训练得到的; 第二样本 图像为基于目标样本图像中的多个目标人脸关键点、 以及对应的第一样本图 像中的多个第一人脸关键点得到的; 第二样本 图像中人脸的姿态表情特征与对应的第一样本图像中人脸 的姿态表情特征 之间的相似度大于预设值。 在一些实施例 中,第二样本图像为基于多个目标人脸关键点和多个第一人脸关键点之 间的位移信息、 以及目标样本图像对应的人脸特征图得到的; 针对每个 目标人脸关键点,位移信息为目标人脸关键点与对应的第一人脸关键点之间 的位移信息; 人脸特征 图为对目标样本图像中的人脸信息进行编码得到的。 在一些实施例 中,位移信息为根据多个目标人脸关键点和对应的第一人脸关键点之间 的差异信息、 以及预先训练的网络模型确定的。 在一些实施例 中,差异信息为根据在同一坐标系下目标人脸关键点的坐标信息和对应 的第一人脸关键点的坐标信息确定的。 在一些实施例 中,多张第一样本图像为多张初始样本图像中各姿态角度的样本图像的 数量符合预定的分布的初始样本图像。 第二方面 , 本公开提供一种表情驱动模型的训练方法, 包括: 分别提取 目标样本图像中的多个目标人脸关键点, 以及多张第一样本图像中每张第一 样本图像中的多个第一人脸关键点; 针对每张第一样本 图像和每个目标人脸关键点,确定目标人脸关键点与第一样本图像 中和目标人脸关键点对应的第一人脸关键点之间的位移信息; 根据位移信息和 目标样本图像, 生成第二样本图像; 第二样本图像中人脸的姿态表情 特征与目标样本图像中人脸的姿态表情特征之间的相似度大于预设值; 根据多张第一样本 图像和对应的第二样本图像, 确定多个样本图像对; 根据多个样本 图像对, 更新初始表情驱动模型的模型参数, 以得到表情驱动模型。 在一些实施例 中, 根据位移信息和目标样本图像, 生成第二样本图像, 包括: 对 目标样本图像中的人脸信息进行编码, 得到人脸特征图; 根据位移信息和人脸特征 图, 确定第二样本图像。 在一些实施例 中, 根据位移信息和人脸特征图, 确定第二样本图像, 包括: 根据位移信 息, 对人脸特征图进行弯曲转变处理和 /或位移处理, 得到处理后的人脸 特征图; 对处理后 的人脸特征图进行解码, 得到第二样本图像。 在一些实施例 中,确定目标人脸关键点与第一样本图像中和目标人脸关键点对应的第 一人脸关键点之间的位移信息, 包括: 确定 目标人脸关键点与第一样本图像中和目标人脸关键点对应的第一人脸关键 点之 间的差异信息; 根据差异信息和预先训练 的网络模型, 确定位移信息。 在一些实施例 中,确定目标人脸关键点与第一样本图像中和目标人脸关键点对应的第 一人脸关键点之间的差异信息, 包括: 将多个 目标人脸关键点和多个第一人脸关键点转换到同一坐标系下; 根据 同一坐标系下各目标人脸关键点的坐标信息和对应的第一人脸关键 点的坐标信 息, 确定各目标人脸关键点和对应的第一人脸关键点之间的差异信息。 在一些实施例 中, 还包括: 获取多张初始样本 图像; 确定多张初始样本 图像的姿态角度; 将多 张初始样本图像中各姿态角度的样本图像的数量符合预定的分布 的初始样本图 像, 确定为多张第一样本图像。 第三方面 , 本公开提供一种表情驱动装置, 包括: 处理模块; 处理模块用于: 获取第一视频 ; 将第一视频输入预先训练好 的表情驱动模型, 得到第二视频; 其中, 所述表情驱动模 型基于目标样本图像和多张第一样本图像训练得到的,第二视频中的人脸图像基于目标样 本图像生成,第二视频中的人脸图像的姿态表情特征和第一视频中的人脸图像的姿态表情 特征相同。 在一些实施例 中,表情驱动模型为基于多张第一样本图像和对应的第二样本图像确定 的多个样本图像对训练得到的; 第二样本 图像为基于目标样本图像中的多个目标人脸关键点、 以及对应的第一样本图 像中的多个第一人脸关键点得到的; 第二样本 图像中人脸的姿态表情特征与对应的第一样本图像中人脸 的姿态表情特征 之间的相似度大于预设值。 在一些实施例 中,第二样本图像为基于多个目标人脸关键点和多个第一人脸关键点之 间的位移信息、 以及目标样本图像对应的人脸特征图得到的; 针对每个 目标人脸关键点,位移信息为目标人脸关键点与对应的第一人脸关键点之间 的位移信息; 人脸特征 图为对目标样本图像中的人脸信息进行编码得到的。 在一些实施例 中,位移信息为根据多个目标人脸关键点和对应的第一人脸关键点之间 的差异信息、 以及预先训练的网络模型确定的。 在一些实施例 中,差异信息为根据在同一坐标系下目标人脸关键点的坐标信息和对应 的第一人脸关键点的坐标信息确定的。 在一些实施例 中,多张第一样本图像为多张初始样本图像中各姿态角度的样本图像的 数量符合预定的分布的初始样本图像。 第 四方面, 本公开提供一种表情驱动模型的训练装置, 包括: 处理模块: 处理模块用 于: 分别提取 目标样本图像中的多个目标人脸关键点, 以及多张第一样本图像中每张第一 样本图像中的多个第一人脸关键点; 针对每张第一样本 图像和每个目标人脸关键点,确定目标人脸关键点与第一样本图像 中和目标人脸关键点对应的第一人脸关键点之间的位移信息; 根据位移信息和 目标样本图像, 生成第二样本图像; 第二样本图像中人脸的姿态表情 特征与目标样本图像中人脸的姿态表情特征之间的相似度大于预设值; 根据多张第一样本 图像和对应的第二样本图像, 确定多个样本图像对; 根据多个样本 图像对, 更新初始表情驱动模型的模型参数, 以得到表情驱动模型。 在一些实施例 中, 处理模块具体用于: 对 目标样本图像中的人脸信息进行编码, 得到人脸特征图; 根据位移信息和人脸特征 图, 确定第二样本图像。 在一些实施例 中, 处理模块具体用于: 根据位移信 息, 对人脸特征图进行弯曲转变处理和 /或位移处理, 得到处理后的人脸 特征图; 对处理后 的人脸特征图进行解码, 得到第二样本图像。 在一些实施例 中, 处理模块具体用于: 确定 目标人脸关键点与第一样本图像中和目标人脸关键点对应的第一人脸关键 点之 间的差异信息; 根据差异信息和预先训练 的网络模型, 确定位移信息。 在一些实施例 中, 处理模块具体用于: 将多个 目标人脸关键点和多个第一人脸关键点转换到同一坐标系下; 根据 同一坐标系下各目标人脸关键点的坐标信息和对应的第一人脸关键 点的坐标信 息, 确定各目标人脸关键点和对应的第一人脸关键点之间的差异信息。 在一些实施例 中, 处理模块还用于: 获取多张初始样本 图像; 确定多张初始样本 图像的姿态角度; 将多 张初始样本图像中各姿态角度的样本图像的数量符合预定的分布 的初始样本图 像, 确定为多张第一样本图像。 第五方面 , 本公开提供一种电子设备, 包括: 处理器, 以及与处理器通信连接的存储 器; 存储器存储计算机执行指令 ; 处理器执行存储器存储 的计算机执行指令, 以实现如第一方面和第二方面任一项的方 法。 第六方面 , 本公开提供一种计算机可读存储介质, 计算机可读存储介质中存储有计算 机执行指令, 计算机执行指令被处理器执行时用于实现如第一方面和第二方面的方法。 第七方面 , 本公开提供一种计算机程序产品, 包括计算机程序, 该计算机程序被处理 器执行时实现第一方面和第二方面的方法。 第八方面 , 本公开提供一种计算机程序, 该计算机程序被处理器执行时实现第一方面 和第二方面的方法。 本公开提供一种表情驱动方法和装置、表情驱动模型的训练方法和装置, 该表情驱动 方法包括: 获取第一视频; 将第一视频输入预先训练好的表情驱动模型, 得到第二视频; 其中, 表情驱动模型基于目标样本图像和多张第一样本图像训练得到的, 第二视频中的人 脸图像基于目标样本图像生成,第二视频中的人脸图像的姿态表情特征和第一视频中的人 脸图像的姿态表情特征相同。在上述表情驱动方法中, 表情驱动模型基于目标样本图像和 多张第一样本图像训练得到的, 在通过表情驱动模型得到第二视频的过程中, 表情驱动模 型的数据计算量小, 能够根据第一视频实时得到第二视频, 从而提高第二视频的实时性。 附 图说明 此处 的附图被并入说明书中并构成本说明书的一部分, 示出了符合本公开的实施例, 并与说明书一起用于解释本公开的原理。 图 1为本公开提供的表情驱动方法的应用场景示意图; 图 2为本公开提供的表情驱动方法的流程图一; 图 3为本公开提供的表情驱动模型的训练方法的流程图; 图 4为本公开提供的多个目标人脸关键点的示意图; 图 5为本公开提供的一种得到第二样本图像的模型结构图; 图 6为本公开提供的表情驱动装置的结构示意图; 图 7为本公开提供的表情驱动模型的训练装置的结构示意图; 图 8为本公开实施例提供的电子设备的硬件示意图。 通过上述 附图, 已示出本公开明确的实施例, 后文中将有更详细的描述。 这些附图和 文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本 领域技术人员说明本公开的概念。 具体 实施 方式 这里将详细地对示例性实施例进行说 明, 其示例表示在附图中。 下面的描述涉及附图 时, 除非另有表示, 不同附图中的相同数字表示相同或相似的要素。 以下示例性实施例中 所描述的实施方式并不代表与本公开相一致的所有实施方式。相反, 它们仅是与如所附权 利要求书中所详述的、 本公开的一些方面相一致的装置和方法的例子。 首先对本公开所涉及 的名词进行解释: 人物形象驱动 , 是指根据驱动信息 (比如人的姿态、 表情等信息) , 来驱动静态人物 形象, 以使静态人物形象能够逼真得动起来。 实时驱动 , 是指通过摄像设备实时捕捉到人的姿态和表情等, 根据捕捉到人的姿态和 表情等, 实时驱动静态人物形象, 以使静态人物形象能够逼真得动起来。 接着对相关技术进行说 明。 在相关技术 中, 通常采用生成式对抗网络 (Generative adversarial networks, GAN)模 型对驱动视频进行处理, 以得到驱动信息, 并采用驱动信息来驱动静态人物形象, 从而生 成新视频。在采用生成式对抗网络模型得到新视频的过程中, 由于生成式对抗网络模型的 数据计算量大, 因此使得新视频的实时性较差。 在本公开 中, 为了提高新视频的实时性, 发明人想到, 采用一种数据计算量小的表情 驱动模型, 对驱动视频和目标图片 (包括静态人物形象) 进行处理, 来得到新视频, 由于 本公开中的表情驱动模型的计算量较小, 因此, 可以快速地对驱动视频和目标图片进行处 理, 从而提高新视频的实时性。 进一步地 , 以第一视频(驱动视频) 中包括驱动图像, 第二视频(新视频) 中包括生 成图像为例, 结合图 1对本公开提供的表情驱动方法的应用场景进行说明。 图 1为本公开提供的表情驱动方法的应用场景示意图。 如图 1所示, 包括: 目标样本 图像、 驱动图像、 生成图像、 多张第一样本图像、 表情驱动模型、 初始表情驱动模型。 基于 目标样本图像和多张第一样本图像, 对初始表情驱动模型进行训练, 得到表情驱 动模型。 表情驱动模型用于对驱动 图像(第一视频中的一帧图像)进行处理,输出生成图像(第 二视频中的一帧图像) 。 其中, 生成图像中的人脸图像基于目标样本图像生成, 生成图像 中的人脸图像的姿态表情特征和驱动图像中的人脸图像的姿态表情特征相同。 下面 以具体地实施例对本公开的技术方案以及本公开的技术方案如何解 决上述技术 问题进行详细说明。 下面这几个具体的实施例可以相互结合, 对于相同或相似的概念或过 程可能在某些实施例中不再赘述。 下面将结合附图, 对本公开的实施例进行描述。 图 2为本公开提供的表情驱动方法的流程图一。 如图 2所示, 该方法包括:
5201 , 获取第一视频。 可选地 , 本公开的执行主体可以为电子设备, 也可以为设置在电子设备中的表情驱动 装置, 该表情驱动装置可以通过软件和 /或硬件的结合来实现。 电子设备可以为包括高性 能图形处理器 ( graphics processing unit, GPU) 的电子设备, 也可以包括低性能 GPU的电 子设备。 其中, 高性能 GPU的计算速度较快, 低性能 GPU的计算速度较慢。 例如, 包括 低性能 GPU的电子设备可以为个人数字助理 (Personal Digital Assistant, PDA) 、 用户设 备 (User Device or User Equipment) 。 例如用户设备可以为智能手机等。 可选地 , 第一视频可以为电子设备实时采集到的视频, 也可以为预先存储在电子设备 中的视频。 第一视频中包括 N帧驱动图像。 N为大于或等于 2的整数。
5202, 将第一视频输入预先训练好的表情驱动模型, 得到第二视频; 其中, 表情驱动 模型基于目标样本图像和多张第一样本图像训练得到的,第二视频中的人脸图像基于目标 样本图像生成,第二视频中的人脸图像的姿态表情特征和第一视频中的人脸图像的姿态表 情特征相同。 第二视频 中包括 N帧生成图像。 针对第一视频 中的每帧驱动图像, 表情驱动模型对驱动图像进行处理, 得到第二视频 中与该驱动图像对应的生成图像。 可选地 , 姿态表情特征可以包括: 姿态角度和表情。 可选地 , 姿态角度可以包括: 俯仰角 (pitch) 、 滚转角 (roll) 、 航向角 (yaw) 中的 任意至少一种。 可选地, 俯仰角可以指示抬头、 或者低头。 航向角可以指示左歪头、 或者 右歪头。 滚转角可以指示人脸左转动、 或者右转动。 在 图 2实施例提供的表情驱动方法中,表情驱动模型基于目标样本图像和多张第一样 本图像训练得到的, 在通过表情驱动模型得到第二视频的过程中, 表情驱动模型的数据计 算量小, 能够根据第一视频实时得到第二视频, 从而提高第二视频的实时性。 进一步地 , 与现有技术不同, 在现有技术中, 生成式对抗网络模型的数据计算量大, 因此只能将生成式对抗网络模型部署在包括高性能 GPU的电子设备中, 才能使得新视频 具有较好的实时性, 当将生成式对抗网络模型部署在包括低性能 GPU的电子设备中时, 使得新视频出现卡顿等问题, 导致新视频的实时性较差。 而在本公开中, 表情驱动模型的 数据计算量小 (即生成器的计算小) , 即使将表情驱动模型部署在包括低性能 GPU的电 子设备中, 也能使得第二视频具有较好的实时性。 在上述实施例 的基础上,下面结合图 3对表情驱动模型的训练方法进行说明。具体的, 请参见图 3实施例。 图 3为本公开提供的表情驱动模型的训练方法的流程图。 如图 3所示, 该方法包括:
S301、分别提取目标样本图像中的多个目标人脸关键点, 以及多张第一样本图像中每 张第一样本图像中的多个第一人脸关键点。 可选地 , 表情驱动模型的训练方法的执行主体可以为电子设备、 或者设置在电子设备 中的表情驱动模型的训练装置, 也可以为与电子设备进行通信的服务器、 或者设置在服务 器中的表情驱动模型的训练装置, 该表情驱动模型的训练装置可以通过软件和 /或硬件的 结合来实现。 可选地 , 目标样本图像可以为预先设定的图像, 也可以为至少一个预设图像中用户选 中的图像。 其中, 每个预设图像中均包括静态人物图像(具有人脸图像) 。 例如, 静态人 物图像可以为卡通人物图像、 经典画像中的人物图像等。 可选地 , 可以通过如下方式 11和 12提取目标样本图像中的多个目标人脸关键点。 方式 11 , 通过人脸关键点检测算法模型, 对目标样本图像进行关键点提取, 得到多 个面部关键点以及对应的位置信息; 通过瞳孔关键 点检测算法模型, 对目标样本图像进行关键点提取, 得到多个瞳孔关键 点以及对应的位置信息; 通过人脸外轮廓关键 点检测算法模型, 对目标样本图像进行关键点提取, 得到多个人 脸外轮廓关键点以及对应的位置信息; 根据多个面部关键 点、 多个瞳孔关键点和多个人脸外轮廓关键点, 确定多个目标人脸 关键点。 可选地 ,可以将多个面部关键点中鼻子、嘴巴、眼睛和眉毛这四个部位对应的关键点, 以及多个瞳孔关键点和多个人脸外轮廓关键点, 确定为多个目标人脸关键点。 可选地 , 也可以将多个面部关键点中鼻子、 嘴巴、 眼睛、 眉毛和脸部轮廓 (脸部下半 部分轮廓)这五个部分对应的关键点, 多个瞳孔关键点、 以及多个人脸外轮廓关键点中脸 部上半部分轮廓对应的关键点, 确定为多个目标人脸关键点。 图 4为本公开提供的多个目标人脸关键点的示意图。 在上述方式 11的基础上, 如图 4所示, 多个目标关键点例如包括: 多个面部关键点中鼻子、 嘴巴、 眼睛和眉毛这四个部 位对应的关键点, 以及多个瞳孔关键点和多个人脸外轮廓关键点。 方式 12、 通过人脸关键点检测算法模型, 对目标样本图像进行关键点提取, 得到多 个面部关键点以及对应的位置信息; 通过瞳孔关键 点检测算法模型, 对目标样本图像进行关键点提取, 得到多个瞳孔关键 点以及对应的位置信息; 通过嘴部密集关键 点检测算法模型, 对目标样本图像进行关键点提取, 得到多个嘴部 关键点以及对应的位置信息; 通过人脸外轮廓关键 点检测算法模型, 对目标样本图像进行关键点提取, 得到多个人 脸外轮廓关键点以及对应的位置信息; 根据多个面部 关键点、 多个瞳孔关键点、 多个嘴部关键点和多个人脸外轮廓关键点, 确定为多个目标人脸关键点。 可选地 , 可以将多个面部关键点中鼻子、 眼睛和眉毛这 3个部位对应的关键点, 以及 多个瞳孔关键点、多个嘴部关键点和多个人脸外轮廓关键点,确定为多个目标人脸关键点。 可选地 , 也可以将多个面部关键点中鼻子、 眼睛、 眉毛和脸部轮廓(脸部下半部分轮 廓)这四个部分对应的关键点, 多个瞳孔关键点、 多个嘴部关键点、 以及多个人脸外轮廓 关键点中脸部上半部分轮廓对应的关键点, 确定为多个目标人脸关键点。 需要说 明的是, 针对每张第一样本图像, 可以采用上述方式 11或者 12, 提取第一样 本图像中的多个第一人脸关键点, 此处不再详述。
5302、针对每张第一样本图像和每个目标人脸关键点, 确定目标人脸关键点与第一样 本图像中和目标人脸关键点对应的第一人脸关键点之间的位移信息。 在一些实施例 中, S302 具体包括: 确定目标人脸关键点与第一样本图像中和目标人 脸关键点对应的第一人脸关键点之间的差异信息; 根据差异信息和预先训练 的网络模型, 确定位移信息。 在一些实施例 中, 可以通过如下方法确定差异信息: 将多个 目标人脸关键点和多个第一人脸关键点转换到同一坐标系下; 根据 同一坐标系下各目标人脸关键点的坐标信息和对应的第一人脸关键 点的坐标信 息, 确定各目标人脸关键点和对应的第一人脸关键点之间的差异信息。 可选地 , 针对每个目标人脸关键点, 该差异信息可以等于目标人脸关键点的坐标信息 与目标人脸关键点对应的第一人脸关键点的坐标信息的差值。 在一些实施例 中,将多个目标人脸关键点和多个第一人脸关键点转换到同一坐标系下, 包括: 将各目标人脸关键点的位置信息和各第一人脸关键点的位置信息, 转换到同一坐标 系下。 在一些实施例 中, 通过预先训练的网络模型, 对各目标人脸关键点和对应的第一人脸 关键点之间的差异信息进行处理, 得到位移信息。
5303、 根据位移信息和目标样本图像, 生成第二样本图像; 第二样本图像中人脸的姿 态表情特征与目标样本图像中人脸的姿态表情特征之间的相似度大于预设值。 在一些实施例 中, S303 具体包括: 根据位移信息, 调整各目标关键点在目标样本图 像中的位置, 得到第二样本图像。 在另一些实施例 中, S303 具体包括: 对目标样本图像中的人脸信息进行编码, 得到 人脸特征图; 根据位移信息和人脸特征图, 确定第二样本图像。 具体 的, 根据位移信息和人脸特征图, 确定第二样本图像, 包括: 根据位移信息, 对 人脸特征图进行弯曲转变处理和 /或位移处理, 得到处理后的人脸特征图; 对处理后的人 脸特征图进行解码, 得到第二样本图像。 5304、 根据多张第一样本图像和对应的第二样本图像, 确定多个样本图像对。 每个样本 图像对中包括第一样本图像和第一样本图像对应的第二样本图像。 多个样本 图像对中的第一样本图像存在不同。
5305、 根据多个样本图像对, 更新初始表情驱动模型的模型参数, 以得到表情驱动模 型。 可选地 ,初始表情驱动模型可以包括生成器和判决器。具体的,根据多个样本图像对, 更新生成器和判决器的模型参数, 以得到表情驱动模型。 其中, 表情驱动模型为更新生成 器的模型参数之后, 得到生成器最终模型。 可选地 , 初始表情驱动模型的模型参数的更新次数达到预设次数、 或者对初始表情驱 动模型的训练时长达到预设时长、 或者初始表情驱动模型的模型参数收敛时, 得到表情驱 动模型。 初始表情驱动模型通常采用多个样本 图像对进行训练,例如样本图像对中包括图像 A 和图像 B, 在图像 B中需要驱动的人物图像的姿态表情与图像 A中人物图像对应的姿态 表情。 在现有技术 中, 通常通过人工绘制图像 B, 导致多个样本图像对难以获取, 浪费人力 成本和时间成本。 而在本公开中, 分别提取目标样本图像中的多个目标人脸关键点, 以及 多张第一样本图像中每张第一样本图像中的多个第一人脸关键点;针对每张第一样本图像 和每个目标人脸关键点,确定目标人脸关键点与第一样本图像中和目标人脸关键点对应的 第一人脸关键点之间的位移信息; 根据位移信息和目标样本图像, 生成第二样本图像, 可 以避免通过工人绘制第一样本图像对应的第二样本图像, 节省了人力成本和时间成本。 在 图 3实施例的基础上, 表情驱动模型的训练方法还可以包括: 获取多张初始样本 图像; 确定多张初始样本 图像的姿态角度; 将多 张初始样本图像中各姿态角度的样本图像的数量符合预定的分布 的初始样本图 像, 确定为多张第一样本图像。 在一些实施例 中, 确定多张初始样本图像的姿态角度包括: 分别对每张初始样本图像 的转动角度进行检测, 以得到各初始样本图像的姿态角度。 可选地 , 预定的分布可以为均匀分布, 还可以为其他分布, 此处不再详述。 在实际应用 中,多个第一样本图像中通常包括较多的正脸图(具有某一固定姿态角度), 若通过包括较多的正脸图的多个第一样本图像对初始表情驱动模型进行训练,导致得到的 表情驱动模型的准确较差, 进而降低新视频的质量。 而在本公开中, 将多张初始样本图像 中各姿态角度的样本图像的数量符合预定的分布的初始样本图像,确定为多张第一样本图 像, 使得多个第一样本图像中具有各种姿态角度的样本图像的数量较为均衡(即多个第一 样本图像的姿态角度分布较为均衡), 因此在通过多张第一样本图像对初始表情驱动模型 进行训练之后, 可以提高表情驱动模型的准确性, 进而提高第二视频的质量。 图 5为本公开提供的一种得到第二样本图像的模型结构图。 如图 5所示, 包括: 人脸关键点检测模块 51、 人脸位置信息提取模块 52、 人脸特征提取模块 53、 人脸特 征弯曲形变模块 54和人脸图像重建模块 55 o 人脸特征弯 曲形变模块 54与人脸位置信息提取模块 52、 人脸特征提取模块 53、 人脸 图像重建模块 55连接, 人脸位置信息提取模块 52还与人脸关键点检测模块 51连接。 人脸关键点检测模块 51用于分别提取目标样本图像中的多个目标人脸关键点, 以及 多张第一样本图像中每张第一样本图像中的多个第一人脸关键点。 人脸位置信息提取模块 52用于针对每张第一样本图像和每个目标人脸关键点, 确定 目标人脸关键点与第一样本 图像中和目标人脸关键点对应的第一人脸关键点之间的位移 信息。 人脸特征提取模块 53用于对目标样本图像中的人脸信息进行编码,得到人脸特征图。 人脸特征弯 曲形变模块 54用于根据位移信息, 对人脸特征图进行弯曲转变处理和 /或 位移处理, 得到处理后的人脸特征图。 人脸 图像重建模块 55用于对处理后的人脸特征图进行解码, 得到第二样本图像。 图 6为本公开提供的表情驱动装置的结构示意图。 如图 6所示, 表情驱动装置 60包 括: 处理模块 61; 处理模块 61用于: 获取第一视频 ; 将第一视频输入预先训练好 的表情驱动模型, 得到第二视频; 其中, 表情驱动模型基 于目标样本图像和多张第一样本图像训练得到的,第二视频中的人脸图像基于目标样本图 像生成,第二视频中的人脸图像的姿态表情特征和第一视频中的人脸图像的姿态表情特征 相同。 本公开实施例提供 的表情驱动装置 60可以执行上述表情驱动方法, 其实现原理以及 有益效果类似, 此处不再进行赘述。 在一些实施例 中,表情驱动模型为基于多张第一样本图像和对应的第二样本图像确定 的多个样本图像对训练得到的; 第二样本 图像为基于目标样本图像中的多个目标人脸关键点、以及对应的第一样本图 像中的多个第一人脸关键点得到的; 第二样本 图像中人脸的姿态表情特征与对应的第一样本图像中人脸 的姿态表情特征 之间的相似度大于预设值。 在一些实施例 中,第二样本图像为基于多个目标人脸关键点和多个第一人脸关键点之 间的位移信息、 以及目标样本图像对应的人脸特征图得到的; 针对每个 目标人脸关键点,位移信息为目标人脸关键点与对应的第一人脸关键点之间 的位移信息; 人脸特征 图为对目标样本图像中的人脸信息进行编码得到的。 在一些实施例 中,位移信息为根据多个目标人脸关键点和对应的第一人脸关键点之间 的差异信息、 以及预先训练的网络模型确定的。 在一些实施例 中,差异信息为根据在同一坐标系下目标人脸关键点的坐标信息和对应 的第一人脸关键点的坐标信息确定的。 在一些实施例 中,多张第一样本图像为多张初始样本图像中各姿态角度的样本图像的 数量符合预定的分布的初始样本图像。 图 7为本公开提供的表情驱动模型的训练装置的结构示意图。如图 7所示, 表情驱动 模型的训练装置 70包括: 处理模块 71; 处理模块 71用于: 分别提取 目标样本图像中的多个目标人脸关键点, 以及多张第一样本图像中每张第一 样本图像中的多个第一人脸关键点; 针对每张第一样本 图像和每个目标人脸关键点,确定目标人脸关键点与第一样本图像 中和目标人脸关键点对应的第一人脸关键点之间的位移信息; 根据位移信息和 目标样本图像, 生成第二样本图像; 第二样本图像中人脸的姿态表情 特征与目标样本图像中人脸的姿态表情特征之间的相似度大于预设值; 根据多张第一样本 图像和对应的第二样本图像, 确定多个样本图像对; 根据多个样本 图像对, 更新初始表情驱动模型的模型参数, 以得到表情驱动模型。 本公开实施例提供 的情驱动模型的训练装置 70可以执行上述情驱动模型的训练方法, 其实现原理以及有益效果类似, 此处不再进行赘述。 在一些实施例 中, 处理模块 71具体用于: 对 目标样本图像中的人脸信息进行编码, 得到人脸特征图 ; 根据位移信息和人脸特征 图, 确定第二样本图像。 在一些实施例 中, 处理模块 71具体用于: 根据位移信 息, 对人脸特征图进行弯曲转变处理和 /或位移处理, 得到处理后的人脸 特征图; 对处理后 的人脸特征图进行解码, 得到第二样本图像。 在一些实施例 中, 处理模块 71具体用于: 确定 目标人脸关键点与第一样本图像中和目标人脸关键点对应的第一人脸关键 点之 间的差异信息; 根据差异信息和预先训练 的网络模型, 确定位移信息。 在一些实施例 中, 处理模块 71具体用于: 将多个 目标人脸关键点和多个第一人脸关键点转换到同一坐标系下; 根据 同一坐标系下各目标人脸关键点的坐标信息和对应的第一人脸关键 点的坐标信 息, 确定各目标人脸关键点和对应的第一人脸关键点之间的差异信息。 在一些实施例 中, 处理模块 71还用于: 获取多张初始样本 图像; 确定多张初始样本 图像的姿态角度; 将多 张初始样本图像中各姿态角度的样本图像的数量符合预定的分布 的初始样本图 像, 确定为多张第一样本图像。 图 8为本公开实施例提供的电子设备的硬件示意图。 如图 8所示, 电子设备 80可以 包括: 收发器 81、 存储器 82和处理器 83。 其 中, 收发器 81 可以包括: 发射器和 /或接收器。 发射器还可称为发送器、 发射机、 发送端口或发送接口等类似描述。接收器还可称为接收机、 接收端口或接收接口等类似描 述。 示例性地 , 收发器 81、 存储器 82、 处理器 83各部分之间通过总线 84相互连接。 存储器 82用于存储计算机执行指令。 处理器 83用于执行存储器 82存储的计算机执行指令, 使得处理器 83执行上述表情 驱动方法、 以及表情驱动模型的训练方法。 本公开实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执 行指令, 当计算机执行指令被处理器执行时实现上述表情驱动方法、 以及表情驱动模型的 训练方法。 本 公开实施例还提供一种计算机程序产品, 包括计算机程序, 该计算机程序被处理器 执行时, 可实现上述表情驱动方法、 以及表情驱动模型的训练方法。 本 公开实施例还提供一种计算机程序, 该计算机程序被处理器执行时, 可实现上述表 情驱动方法、 以及表情驱动模型的训练方法。 实现上述各方法实施例 的全部或部分步骤可以通过程序指令相关的硬件来完成 o前述 的程序可以存储于一可读取存储器中。该程序在执行时, 执行包括上述各方法实施例的步 骤; 而前述的存储器 (存储介质) 包括: 只读存储器 (read-only memory, ROM) > 随机 存取存储器 (random access memory, RAM)、快闪存储器、硬盘、固态硬盘、磁带 (magnetic tape) > 软盘 (floppy disk) 、 光盘 (optical disc) 及其任意组合。 本 公开实施例是参照根据本公开实施例的方法、 设备 (系统) 、 和计算机程序产品的 流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的 每一流程和/ 或方框、 以及流程图和 /或方框图中的流程和/或方框的结合。 可提供这些 计算机程序指令到通用计算机、 专用计算机、 嵌入式处理机或其他可编程数据处理设备的 处理单元以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理单元执行的 指令产生用于实现在流程 图一个流程或多个流程和 /或方框图一个方框或多个方框中指 定的功能的装置。 这 些计算机程序指令也可存储在能引导计算机或其他可编程数据处 理设备以特定方 式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装 置的制造品,该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个 方框中指定的功能。 这些计算机程序指令也可装载 到计算机或其他可编程数据处理设备上,使得在计算机 或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他 可编程设备上执行 的指令提供用于实现在流程图一个流程或多个流程和 /或方框图一个 方框或多个方框中指定的功能的步骤。 显然,本领域的技术人员可以对本公开实施例进行各种改动和变型而不脱离本公开的 精神和范围。这样, 倘若本公开实施例的这些修改和变型属于本公开权利要求及其等同技 术的范围之内, 则本公开也意图包含这些改动和变型在内。 在本 公开中, 术语 “包括 ”及其变形可以指非限制性的包括; 术语 “或 ”及其变形可 以指 “和 /或” 。 本本公开中术语 “第一” 、 “第二”等是用于区别类似的对象, 而不必 用于描述特定的顺序或先后次序。 本公开中, “多个 ”是指两个或两个以上。 “和 /或”, 描述关联对象的关联关系, 表示可以存在三种关系, 例如, A和 /或 B, 可以表示: 单独存 在 A, 同时存在 A和 B, 单独存在 B这三种情况。 字符 “/”一般表示前后关联对象是一 种 “或” 的关系。 本领域技术人员在考虑说 明书及实践这里公开的发明后,将容易想到本公开的其它实 施方案。 本公开旨在涵盖本公开的任何变型、 用途或者适应性变化, 这些变型、 用途或者 适应性变化遵循本公开的一般性原 理并包括本公开未公开的本技术领域中的公知常识或 惯用技术手段。 说明书和实施例仅被视为示例性的, 本公开的真正范围和精神由下面的权 利要求书指出。 应当理解的是, 本公开并不局限于上面巳经描述并在附图中示出的精确结构, 并且可以 在不脱离其范围进行各种修改和改变。 本公开的范围仅由所附的权利要求书来限制。

Claims

权 利 要 求 书
1、 一种表情驱动方法, 包括: 获取第一视频 ; 将所述 第一视频输入预先训练好的表情驱动模型, 得到第二视频; 其中, 所述表情 驱动模型基于 目标样本图像和多张第一样本图像训练得到的, 所述第二视频中的人脸图 像基于所述 目标样本图像生成, 所述第二视频中的人脸图像的姿态表情特征和所述第一 视频中的人脸图像的姿态表情特征相同。
2、 根据权利要求 1所述的方法, 其中, 所述表情驱动模型为基于所述多张第一样本 图像和对应的第二样本图像确定的多个样本图像对训练得到的; 所述第 二样本图像为基于目标样本图像中的多个目标人脸关键点、 以及对应的第一 样本图像中的多个第一人脸关键点得到的; 所述第 二样本图像中人脸的姿态表情特征与对应的第一样本图像 中人脸的姿态表情 特征之间的相似度大于预设值。
3、 根据权利要求 2所述的方法, 其中, 所述第二样本图像为基于多个目标人脸关键 点和所述多个第一人脸关键 点之间的位移信息、 以及所述目标样本图像对应的人脸特征 图得到的; 针对每 个目标人脸关键点, 所述位移信息为所述目标人脸关键点与对应的第一人脸 关键点之间的位移信息; 所述人脸特征 图为对所述目标样本图像中的人脸信息进行编码得到的。
4、 根据权利要求 3所述的方法, 其中, 所述位移信息为根据所述多个目标人脸关键 点和对应的第一人脸关键点之间的差异信息、 以及预先训练的网络模型确定的。
5、 根据权利要求 4所述的方法, 其中, 所述差异信息为根据在同一坐标系下目标人 脸关键点的坐标信息和对应的第一人脸关键点的坐标信息确定的 。
6、 根据权利要求 1-5任一项所述的方法, 其中, 所述多张第一样本图像为多张初始 样本图像中各姿态角度的样本图像的数量符合预定的分布的初始样本 图像。
7、 一种表情驱动模型的训练方法, 包括: 分别提 取目标样本图像中的多个目标人脸关键点, 以及多张第一样本图像中每张第 一样本图像中的多个第一人脸关键点; 针对每 张第一样本图像和每个目标人脸关键点, 确定所述目标人脸关键点与所述第 一样本图像中和所述目标人脸关键点对应的第一人脸关键点之 间的位移信息; 根据所 述位移信息和所述目标样本图像, 生成第二样本图像; 所述第二样本图像中 人脸的姿态表情特征与所述 目标样本图像中人脸的姿态表情特征之间的相似度大于预设 值; 根据所述 多张第一样本图像和对应的第二样本图像, 确定多个样本图像对; 根据所 述多个样本图像对, 更新初始表情驱动模型的模型参数, 以得到表情驱动模 型。
8、根据权利要求 7所述的方法,其中,所述根据所述位移信息和所述目标样本图像, 生成第二样本图像, 包括: 对所述 目标样本图像中的人脸信息进行编码, 得到人脸特征图; 根据所述位移信 息和所述人脸特征图, 确定所述第二样本图像。
9、 根据权利要求 8 所述的方法, 其中, 所述根据所述位移信息和所述人脸特征图, 确定所述第二样本图像, 包括: 根据所述位移 信息, 对所述人脸特征图进行弯曲转变处理和 /或位移处理, 得到处理 后的人脸特征图; 对所述处理后 的人脸特征图进行解码, 得到所述第二样本图像。
10、 根据权利要求 7-9任一项所述的方法, 其中, 所述确定所述目标人脸关键点与所 述第一样本图像中和所述目标人脸关键点对应的第一人脸关键点之 间的位移信息, 包括: 确定所述 目标人脸关键点与所述第一样本图像中和所述目标人脸关键点对应 的第一 人脸关键点之间的差异信息; 根据所述差异信 息和预先训练的网络模型, 确定所述位移信息。
11、 根据权利要求 10所述的方法, 其中, 所述确定所述目标人脸关键点与所述第一 样本图像中和所述目标人脸关键点对应的第一人脸关键点之 间的差异信息, 包括: 将多个 目标人脸关键点和多个第一人脸关键点转换到同一坐标系下; 根据 同一坐标系下各所述目标人脸关键点的坐标信息和对应的第一人脸 关键点的坐 标信息, 确定所述各目标人脸关键点和对应的第一人脸关键点之间的差异信息。
12、 根据权利要求 7-11任一项所述的方法, 其中, 所述方法还包括: 获取 多张初始样本图像; 确定所述多张初始样本 图像的姿态角度; 将所述 多张初始样本图像中各姿态角度的样本图像的数量符合预定 的分布的初始样 本图像, 确定为所述多张第一样本图像。
13、 一种表情驱动装置, 包括: 处理模块; 所述处理模块用于: 获取第一视频 ; 将所述 第一视频输入预先训练好的表情驱动模型, 得到第二视频; 其中, 所述表情 驱动模型基于 目标样本图像和多张第一样本图像训练得到的, 所述第二视频中的人脸图 像基于所述 目标样本图像生成, 所述第二视频中的人脸图像的姿态表情特征和所述第一 视频中的人脸图像的姿态表情特征相同。
14、 一种表情驱动模型的训练装置, 包括: 处理模块: 所述处理模块用于: 分别提 取目标样本图像中的多个目标人脸关键点, 以及多张第一样本图像中每张第 一样本图像中的多个第一人脸关键点; 针对每 张第一样本图像和每个目标人脸关键点, 确定所述目标人脸关键点与所述第 一样本图像中和所述目标人脸关键点对应的第一人脸关键点之 间的位移信息; 根据所 述位移信息和所述目标样本图像, 生成第二样本图像; 所述第二样本图像中 人脸的姿态表情特征与所述 目标样本图像中人脸的姿态表情特征之间的相似度大于预设 值; 根据所述 多张第一样本图像和对应的第二样本图像, 确定多个样本图像对; 根据所 述多个样本图像对, 更新初始表情驱动模型的模型参数, 以得到表情驱动模 型。
15、 一种电子设备, 包括: 处理器, 以及与所述处理器通信连接的存储器; 所述存储器存储计 算机执行指令; 所述处理器执 行所述存储器存储的计算机执行指令, 以实现如权利要求 1-12任一项 所述的方法。
16、 一种计算机可读存储介质, 其中, 所述计算机可读存储介质中存储有计算机执 行指令, 所述计算机执行指令被处理器执行时用于实现如权利要求 1-12任一项所述的方 法。
17、 一种计算机程序产品, 包括计算机程序, 其中, 所述计算机程序被处理器执行 时实现权利要求 1-12任一项所述的方法。
18、 一种计算机程序, 其中, 所述计算机程序被处理器执行时实现权利要求 1-12任 一项所述的方法。
19
PCT/SG2023/050004 2022-01-04 2023-01-04 表情驱动方法和装置、表情驱动模型的训练方法和装置 WO2023132790A2 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210001031.3A CN116433809A (zh) 2022-01-04 2022-01-04 表情驱动方法、以及模型训练方法
CN202210001031.3 2022-01-04

Publications (2)

Publication Number Publication Date
WO2023132790A2 true WO2023132790A2 (zh) 2023-07-13
WO2023132790A3 WO2023132790A3 (zh) 2023-10-26

Family

ID=87074380

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/SG2023/050004 WO2023132790A2 (zh) 2022-01-04 2023-01-04 表情驱动方法和装置、表情驱动模型的训练方法和装置

Country Status (2)

Country Link
CN (1) CN116433809A (zh)
WO (1) WO2023132790A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117409466A (zh) * 2023-11-02 2024-01-16 之江实验室 一种基于多标签控制的三维动态表情生成方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977739A (zh) * 2017-12-28 2019-07-05 广东欧珀移动通信有限公司 图像处理方法、装置、存储介质及电子设备
CN111507259B (zh) * 2020-04-17 2023-03-24 腾讯科技(深圳)有限公司 脸部特征提取方法、装置、电子设备
CN112308949A (zh) * 2020-06-29 2021-02-02 北京京东尚科信息技术有限公司 模型训练、人脸图像生成方法和装置以及存储介质
CN112102468B (zh) * 2020-08-07 2022-03-04 北京汇钧科技有限公司 模型训练、虚拟人物图像生成方法和装置以及存储介质
CN113570684A (zh) * 2021-01-22 2021-10-29 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117409466A (zh) * 2023-11-02 2024-01-16 之江实验室 一种基于多标签控制的三维动态表情生成方法及装置

Also Published As

Publication number Publication date
WO2023132790A3 (zh) 2023-10-26
CN116433809A (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
JP6789402B2 (ja) 画像内の物体の姿の確定方法、装置、設備及び記憶媒体
US11989350B2 (en) Hand key point recognition model training method, hand key point recognition method and device
WO2022089360A1 (zh) 人脸检测神经网络及训练方法、人脸检测方法、存储介质
CN108846793B (zh) 基于图像风格转换模型的图像处理方法和终端设备
US20190384967A1 (en) Facial expression detection method, device and system, facial expression driving method, device and system, and storage medium
WO2018103220A1 (zh) 一种图像处理的方法及装置
US20200234482A1 (en) Systems and methods for photorealistic real-time portrait animation
WO2021004257A1 (zh) 视线检测和视频处理的方法、装置、设备和存储介质
EP3992919B1 (en) Three-dimensional facial model generation method and apparatus, device, and medium
WO2019238114A1 (zh) 动态模型三维重建方法、装置、设备和存储介质
WO2019196745A1 (zh) 人脸建模方法及相关产品
JP2023548921A (ja) 画像の視線補正方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
WO2020150689A1 (en) Systems and methods for realistic head turns and face animation synthesis on mobile device
US20200357158A1 (en) Remote visualization of three-dimensional (3d) animation with synchronized voice in real-time
CN112927362A (zh) 地图重建方法及装置、计算机可读介质和电子设备
US20220358675A1 (en) Method for training model, method for processing video, device and storage medium
WO2023050868A1 (zh) 融合模型的训练方法、图像融合方法、装置、设备及介质
US20220375258A1 (en) Image processing method and apparatus, device and storage medium
WO2023066120A1 (zh) 图像处理方法、装置、电子设备及存储介质
WO2020034981A1 (zh) 编码信息的生成方法和识别方法
WO2023132790A2 (zh) 表情驱动方法和装置、表情驱动模型的训练方法和装置
CN110910479A (zh) 视频处理方法、装置、电子设备及可读存储介质
WO2020164284A1 (zh) 基于平面检测的活体识别方法、装置、终端及存储介质
WO2020248950A1 (zh) 一种面部特征的有效性判定方法及电子设备
WO2023155533A1 (zh) 一种图像驱动方法、装置、设备和介质