WO2023080266A1 - 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치 - Google Patents

딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치 Download PDF

Info

Publication number
WO2023080266A1
WO2023080266A1 PCT/KR2021/015768 KR2021015768W WO2023080266A1 WO 2023080266 A1 WO2023080266 A1 WO 2023080266A1 KR 2021015768 W KR2021015768 W KR 2021015768W WO 2023080266 A1 WO2023080266 A1 WO 2023080266A1
Authority
WO
WIPO (PCT)
Prior art keywords
face
information
image
target
frontal
Prior art date
Application number
PCT/KR2021/015768
Other languages
English (en)
French (fr)
Inventor
강지수
유상민
문승준
Original Assignee
주식회사 클레온
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 클레온 filed Critical 주식회사 클레온
Publication of WO2023080266A1 publication Critical patent/WO2023080266A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting

Definitions

  • the present invention relates to a face transformation technology using a deep learning network, and relates to a face transformation method and apparatus for generating an image or video reflecting independent information on the shape of a driving face while preserving the shape of a target face. It relates to a method and apparatus capable of face transformation even when using a single target face image.
  • Face and background synthesis technology using deep learning a field of artificial intelligence, has shown a high level of development to the extent that it can generate high-resolution images.
  • a user directly corrects a face image and a background image using image correction software, the quality of the image after correction is different depending on the user's skill level.
  • deep learning networks modeled through numerous data learning have become available, enabling universal, consistent, and more natural synthesis of faces and backgrounds.
  • programs are provided that synthesize a face generated through face conversion technology with a desired background to represent oneself in a virtual space, or replace a famous person's face in a video with one's own or another person's face. there is.
  • GAN Generative Adversarial Network
  • An object of the present invention is to provide a face conversion method and apparatus for generating an image or video in which appearance independent information of an induction face is reflected while preserving the appearance of a target face.
  • An object of the present invention is to provide a method and apparatus capable of transforming a face even using a single target face image.
  • An object of the present invention is to provide a face transformation method and apparatus capable of performing face transformation using a many-to-many face transformation model using one target face image.
  • One aspect of the present invention is a method for transforming a face using a deep learning network, comprising the steps of receiving a target face image and a derived face image, determining whether a target face is frontal in the target face image, and determining whether a target face is frontal in the target face image and induction. It may include performing image pre-processing on the face image and performing many-to-many face transformation on the front target face image to convert feature independent information of the frontal target face image into feature independent information of the derived face image. there is.
  • Appearance independent information may include at least one of up, down, left, and right face angle information, facial expression information, face contrast information, and lighting information.
  • the steps of extracting a style vector through a face embedding network and generating a frontal face through a face generation network may be performed.
  • the step of extracting a style vector includes extracting a style vector for appearance information from a target face of a target face image, extracting a style vector for facial angle information from a frontal face of an arbitrary frontal face image input, and a goal
  • a step of combining a style vector for face shape information and a style vector for face angle information of a frontal face may be combined.
  • the step of generating a frontal face through the face generation network may include performing an adaptive instant normalization (AdaIN) operation on each combined style vector and scaling up the image size through the adaptive instant normalization operation.
  • AdaIN adaptive instant normalization
  • the many-to-many face transformation includes encoding feature information of a frontal target face, encoding feature independent information about an induction face, decoding the feature independent information and outputting at least one intermediate matrix, and outputting at least one or more intermediate matrices. Calculating the intermediate matrix as a pixel shift matrix, and decoding the encoded feature information using the encoded feature information and the calculated pixel shift matrix.
  • Another aspect of the present invention is a face conversion device using a deep learning network, which includes an input unit for receiving a target face image and a induced face image, a front face determination unit for determining whether a target face is frontal in a target face image, and a front target face.
  • An image preprocessing unit that performs image preprocessing on the face image and the derived face image, and performs many-to-many face transformation on the frontal target face image to convert the appearance independent information of the frontal target face image into the appearance independent information of the derived face image It may include a many-to-many face conversion network unit.
  • Appearance independent information may include at least one of up, down, left, and right face angle information, facial expression information, face contrast information, and lighting information.
  • the face conversion device includes a face embedding network unit and a face generation network unit.
  • the face embedding network unit extracts a style vector and the face generation network unit generates a front face.
  • the face embedding network unit extracts a style vector for feature information from the target face of the target face image, extracts a style vector for face angle information from the front face of an arbitrary frontal face image input, and extracts a style vector for face angle information from the input face image.
  • the style vector for the style vector and face angle information of the frontal face can be combined.
  • the face generation network unit may perform an adaptive instant normalization (AdaIN) operation on each combined style vector and scale up the image size through the adaptive instant normalization operation.
  • AdaIN adaptive instant normalization
  • the many-to-many face transformation network unit encodes the feature information of the frontal target face
  • the feature independent information encoder encodes the feature independent information about the induction face, and decodes the feature independent information to output at least one intermediate matrix. It may include a feature independent information decoder, a pixel shift function connector for calculating at least one intermediate matrix as a pixel shift matrix, and a feature information decoder for decoding the encoded feature information using the encoded feature information and the calculated pixel shift matrix.
  • face transformation technology can be applied to various fields such as entertainment applications and real-time educational video production.
  • many-to-many face transformation can be performed in real time without additional cost.
  • FIG. 1 is a diagram illustrating a face conversion device according to an embodiment of the present invention.
  • FIG. 2 is a flowchart illustrating a face conversion method according to an embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating a face embedding method using a face embedding model according to an embodiment of the present invention.
  • FIG. 4 is a flowchart illustrating a face generation method using a face embedding model according to an embodiment of the present invention.
  • FIG. 5 is a diagram illustrating a process of generating a frontal image through face frontalization according to an embodiment of the present invention.
  • FIG. 6 is a diagram illustrating a many-to-many face conversion network unit according to an embodiment of the present invention.
  • a many-to-many face transformation network refers to a network pre-learned to generate and output respective face transformation results for face images of different persons using a single generator network.
  • many-to-many face transformation is technically difficult because the many-to-many face transformation network must be able to perform face transformation even for faces that it encounters for the first time in the test stage, that is, faces that have not been learned/unlearned in the learning stage. corresponds to the conversion.
  • the many-to-many face transformation network does not require additional training time because it does not need to learn the model by reflecting the face of the person to be transformed in the learning step, and the hassle of saving the model each time can be removed. Therefore, many-to-many face transformation can be said to be free from limitations in time and computing resources.
  • a one-to-one face transformation network refers to a network capable of generating and outputting a face transformation result for a face image of one person using one generator network.
  • the one-to-one face conversion network learns a generator so that the deep learning network can generate the face of person A under any input condition using, for example, tens of thousands of face images of person A.
  • the generator network that has been trained can generate the face of person A in the test step. For example, when the face pose and / or expression information of person B is input, the generator network follows the face pose and / or expression of person B. Person A can be created.
  • one-to-one face conversion is a technology that generates the face of only one person, that is, person A, according to various input conditions, accompanied by tens of thousands of images and hundreds of hours of learning time.
  • another generator network In the one-to-one face transformation, another generator network must be trained for several days using tens of thousands of new faces from the beginning to obtain a face transformation result for a face image of a new person, for example, person C.
  • the face conversion device 100 includes a target face image input unit 200, an induction face image input unit 300, a frontal face determination unit 400, a face embedding network unit 500, and a face generation unit. It includes a network unit 600, an image pre-processing unit 700, a many-to-many face conversion network unit 800, and an image post-processing unit 900.
  • the target face image input unit 200 may receive a target face image and transmit the target face image to the front face determination unit 400 .
  • the target face image refers to an image including a face for conversion of identity-independent property or identity-agnostic property.
  • the target face image includes one frame captured from a video including a face.
  • the appearance independence information may include at least one or more of up, down, left, and right face angle information, facial expression information, face contrast information, and lighting information.
  • Appearance independent information is not limited to the above example, and any information independent of facial features may be included in the appearance independent information.
  • a user terminal may input a target face image into the target face image input unit 200 .
  • a target face image selection unit (not shown) of the face conversion device 100 selects a target face image stored in a target face image storage unit (not shown) of the face conversion device 100
  • a target face image may be input to the target face image input unit 200 .
  • a user terminal may select a target face image stored in a target face image storage unit (not shown) and input the target face image to the target face image input unit 200 .
  • the front face determination unit 400 may determine whether the target face faces the front in the target face image, that is, whether the target face image corresponds to the front face image.
  • the guiding face image input unit 300 may receive a guiding face image and transmit the guiding face image to the image pre-processing unit 700 .
  • the derived face image refers to an image providing appearance independent information to be reflected on the target face image.
  • the derived face image includes one frame captured from a video including a face.
  • the appearance independent information may include at least one of up, down, left, and right face angle information, facial expression information, face contrast information, and lighting information.
  • Appearance independent information is not limited to the above example, and any information independent of facial features may be included in the appearance independent information.
  • the guided face image may not correspond to the frontal face image. That is, the guided face image may include a non-frontal face image and a frontal face image. Accordingly, it is possible to secure various appearance independent information from the derived face image.
  • a user terminal may input a guiding face image to the guiding face image input unit 300 .
  • a guided face image selection unit (not shown) of the face conversion device 100 selects a guided face image stored in a guided face image storage unit (not shown) of the face conversion device 100
  • a guiding face image may be input to the guiding face image input unit 300 .
  • a user terminal may select a guiding face image stored in a guiding face image storage unit (not shown) and input the guiding face image to the guiding face image input unit 300 .
  • the front face determination unit 400 may determine whether the target face image corresponds to the front face image. For example, by recognizing a face shape from a target face image, recognizing an angle at which the face is tilted in up, down, left, or right directions, and calculating a corresponding angle value, or calculating an angle at which the face is rotated clockwise or counterclockwise. It may be recognized and a corresponding angle value may be calculated, or it may be determined whether the target face is a frontal face or not a frontal face based on a predetermined threshold value based on left-right symmetrical states of eyes, nose, mouth, ears, etc.
  • the front face determination unit 400 may transmit the target face image to the image pre-processing unit 700 . Conversely, when the front face determination unit 400 determines that the target face image is not a front face image, the front face determination unit 400 may transmit the target face image to the face embedding network unit 500 .
  • the face embedding network unit 500 may output 18 512-dimensional vectors from a target face image (limited to a non-frontal face image). Each vector may be defined as a style vector and may include information of a target face image.
  • Vectors corresponding to the front of the 18*512 style vector matrix contain facial angle information, and the facial angle information refers to relatively general information in contrast to appearance information described later.
  • the face angle information includes tilt angle information of the upper, lower, left, and right face relative to the front and/or angle information of the face rotated in a clockwise or counterclockwise direction.
  • vectors e.g., 6th to 18th vectors
  • the appearance information includes, for example, eyes, nose, mouth, ear position, size, eye color
  • having each style vector include different information is referred to as feature disentanglement, and the characteristics of the target face can be adjusted through feature disentanglement.
  • the face embedding network unit 500 may extract a style vector from the target face image and transmit the extracted style vector to the face generation network unit 600 .
  • the face generation network unit 600 may generate a frontal face of the target face using the 18*512 style vector matrix transmitted from the face embedding network unit 500 .
  • the face generation network unit 600 may be composed of 18 layers, and may perform adaptive instance normalization (hereinafter referred to as AdaIN) operation by receiving a 512-dimensional style vector.
  • AdaIN operation refers to an operation that normalizes the existing data distribution according to the distribution of newly input data. Through this, it is possible to restore the information of the target face image included in the input style vector. As the size of the target face image is scaled up once through AdaIN operation once, it is possible to gradually generate a high-resolution target face image.
  • the image pre-processing unit 700 may perform image pre-processing on the target face image and the derived face image.
  • the image pre-processing unit 700 may perform image size alignment by recognizing each face in the target face image and the derived face image.
  • a face part can be detected using a deep learning-based face detection algorithm, the center can be set based on the arrangement of features, and a square image of 256 pixels can be created based on the center.
  • the generated forward images may be stored in a storage unit (not shown) of the image pre-processing unit 700, and images facing the front among the square images may be classified by person and stored separately.
  • the many-to-many face transformation network unit 800 may perform face transformation on the target face image and the derived face image transmitted from the image pre-processing unit 700 . More specifically, the many-to-many face conversion network unit 800 may convert feature independent information of the target face into independent feature information of the derived face while preserving the feature of the target face. The many-to-many face transformation network unit 800 may perform the transformation described above by defining a pixel movement function to transform appearance independent information.
  • the image post-processing unit 900 may perform image post-processing on the image output through the many-to-many face conversion network unit 800 to output a face image having the appearance of a target face and having independent information on the appearance of the induction face. there is.
  • step 205 the target face image input unit 200 receives the target face image and transmits it to the front face determination unit 400, and in step 210, the front face determination unit 400 determines that the target face image is It may be determined whether the target face corresponds to the frontal face image, that is, whether the target face corresponds to the frontal face.
  • step 215 may be performed and the face embedding network unit 500 may extract a style vector from the target face image. Thereafter, step 220 may proceed, and the face generating network unit 600 may convert the non-frontal target face image into a frontal target face image.
  • step 210 when the front face determination unit 400 determines that the target face image transmitted from the target face image input unit 200 or the target face image generated through steps 215 and 220 corresponds to the front face image, step 225 Steps may be performed, and the front target face image and the induced face image may be transmitted to the image pre-processing unit 700 .
  • the image pre-processing unit 700 may perform pre-processing on the front target face image and the derived face image. After performing the preprocessing, step 230 may proceed, and the many-to-many face transformation network unit 800 may perform many-to-many face transformation using each preprocessed image. Thereafter, step 235 may be performed, and the image post-processing unit 900 performs image post-processing on the converted image output through the many-to-many face conversion network unit 800 to have the appearance of the target face and the appearance of the induced face. A final face image with independent information can be output.
  • the face embedding network unit 500 may receive a target face image from the front face determination unit 400, and a front face storage unit (not shown) and a front face selection unit (not shown). ), an arbitrary frontal face image may be input.
  • image pre-processing may be performed on the target face image and an arbitrary frontal face image, and the size of each image may be aligned to a predetermined size around the face, and the size may be set to a high resolution (eg, 1,024 pixels). can be readjusted.
  • a high resolution eg, 1,024 pixels
  • the spatial dimension can be reduced by inputting each image that has passed the image preprocessing step to the convolution network, and step-by-step style vector extraction can be performed by compressing the characteristics of the image into vectors of higher levels.
  • the style vector extraction process can consist of a total of three steps, and a total of 18 style vectors can be output by extracting 6 style vectors in each step. 18 style vectors for a target face image and 18 style vectors for an arbitrary frontal face image can be output.
  • step 320 it may be determined whether the currently output style vector corresponds to the style vector of the target face, and step 320 may be performed to extract only the style vector containing the shape information of the target face.
  • step 320 when it is determined that the style vector corresponds to the target face image, in step 325, 6th to 18th style vectors of the target face image may be extracted.
  • the 6th to 18th style vectors contain relatively detailed information about the face, such as eye color, skin, and wrinkles, for example.
  • step 320 if it is determined that the style vector does not correspond to the target face, in step 330, first to fifth style vectors for an arbitrary frontal face image may be extracted.
  • the 1st to 5th style vectors contain relatively general information on the face, such as the angle of the face.
  • restoration may be performed with 18 style vectors by merging the style vectors extracted through steps 325 and 330. That is, the 6th to 18th style vectors containing shape information of the target face and the 1st to 5th style vectors containing facial angle information of an arbitrary frontal face are merged.
  • a front face image may be generated by receiving the merged style vector. Due to the feature disentanglement of the face embedding network unit 500, a style vector containing appearance information and a style vector containing face angle information may be separated.
  • the face generation network unit 600 may receive a style vector matrix consisting of 18 layers from the face embedding network unit 500.
  • the style vector refers to a style vector in which the 6th to 18th style vectors containing shape information of the target face and the 1st to 5th style vectors containing facial angle information of an arbitrary frontal face are merged. .
  • step 420 it may be determined whether the 18th layer has been reached. It is possible to check whether a high-quality image has been generated by performing all operations from the first layer to the 18th layer.
  • step 430 may proceed, and AdaIN operation using the nth style vector may be performed. That is, one row of the calculated matrix can be input and the AdaIN operation can be performed using it.
  • the image generated through the AdaIN operation follows the distribution of the input style vector, which can affect the final image style.
  • the size of the generated low-quality image may be doubled by scaling up the image.
  • the scale-up assists the image to become increasingly high-definition, so that the face generation network unit 600 can sequentially generate stable high-definition images.
  • FIG. 5 is a diagram illustrating a process of generating a frontal image through face frontalization according to an embodiment of the present invention.
  • the process of generating the front image of FIG. 5 may be performed by the front face determination unit 400, the face embedding network unit 500, and the face generation network unit 600 of the face conversion device 100 of FIG. 1 .
  • a non-frontal target face image 505 may be input, and a target face style vector 515 may be extracted from the non-frontal target face image (510).
  • the target face style vector 515 may include a style vector for facial angle information of the target face and a style vector for feature information of the target face.
  • An arbitrary front face image 520 may be input, and a front face style vector 530 may be extracted from the arbitrary front face image 520 (525).
  • the front face style vector 530 may include a style vector for facial angle information of an arbitrary front face and a style vector for feature information of a front face.
  • Style vectors for feature information of the target face and style vectors for face angle information of an arbitrary frontal face may be merged (535), and a style vector 540 for the front-facing target face image may be generated.
  • the vector synthesis model used when merging style vectors can synthesize a new vector through a weighted sum, and in the case of the 1st to 5th style vectors, a large weight is added to the front face style vector 530, In the case of the ⁇ 18th style vector, a large weight may be added to the target face style vector 515 .
  • the 6th to 18th style vectors of the front face style vector 530 may be removed, and the 1st to 5th style vectors of the target face style vector 515 may also be removed.
  • a frontal target face image may be generated based on the generated style vector 540 .
  • a new face image having a frontal pose and features of the target face may be generated by performing frontalization focusing on the shape of the target face, that is, features of the target face using the merged style vector.
  • the many-to-many face conversion network unit 800 includes a feature information encoder 620, a feature independent information encoder 625, a feature independent information decoder 630, a pixel movement function connection unit 635, and a feature information decoder. (640).
  • the many-to-many face conversion network unit 800 independently extracts the appearance information of person A and the independent appearance information of person B, and preserves the information about the appearance of person A while converting the face of person A having the independent appearance information of person B. can create
  • the appearance information encoder 620 may encode the appearance information of the target face from the target face image. Encoding may be performed based on a convolutional neural network, and an encoding result may be output as a 256-dimensional vector. The feature information encoder 620 may exclude feature independent information of the target face and encode only the feature information.
  • the feature independent information encoder 625 may encode the feature independent information of the derived face image, and, contrary to the feature information encoder 620, may exclude the feature information and encode only the feature independent information, and convert the encoding result into a 256-dimensional It can be output as a vector.
  • the feature independent information decoder 630 may perform decoding to restore the feature independent information using the feature independent information vector encoded by the feature independent information encoder 625 .
  • the spatial dimension of the feature independent information vector can be expanded (eg, 7 times by 2 times, that is, from 1 to 128) using deconvolution (Deconvolution network), and in each expansion step, at least one or more, more specific , at least two or more intermediate matrices (eg, 7 intermediate matrices) can be calculated.
  • the shape independent information decoder 630 may transmit at least one or more intermediate matrices calculated in each expansion step to the pixel shift function connection unit 635 .
  • the pixel shift function connector 635 may output a matrix for pixel movement in the feature information decoder 640, and how much to move the two-dimensional matrix in the x-axis and y-axis directions in the feature information decoder 640, respectively. can decide At least one or more intermediate matrices output from the appearance independent information decoder 630 may be received and the appearance independent information of the derived face image may be reflected on the target face image.
  • the feature information decoder 640 receives the feature information vector calculated through the feature information encoder 620 and the pixel shift matrix calculated by the pixel shift function connection unit 635 as inputs, and performs a deconvolution-based operation to obtain a derived face image and
  • the spatial dimension of the feature information vector can be extended to the same size (eg, 256 pixels). Through this, it is possible to reproduce and output a face image having information independent of the appearance of the target face image and the appearance of the induction face image.
  • the non-frontal target face image may be converted into a frontal face image by the face conversion device 100 . That is, face transformation can be performed using an arbitrary target face image without distinction between frontal and non-frontal.
  • the many-to-many face transformation network unit 800 may generate a high-quality synthesized (transformed) image by performing face synthesis (transformation) based on a frontal target face image.
  • the present invention can be implemented as computer readable codes on a computer readable recording medium.
  • the computer-readable recording medium includes all types of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage devices.
  • the computer-readable recording medium may be distributed to computer systems connected through a network, so that computer-readable codes may be stored and executed in a distributed manner.
  • functional programs, codes, and code segments for implementing the present invention can be easily inferred by programmers in the technical field to which the present invention belongs.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Image Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 일 측면은 딥러닝 네트워크를 이용한 얼굴 변환 방법으로서 목표 얼굴 이미지 및 유도 얼굴 이미지를 입력 받는 단계, 목표 얼굴 이미지 내 목표 얼굴의 정면 여부를 판단하는 단계, 정면의 목표 얼굴 이미지 및 유도 얼굴 이미지에 대하여 이미지 전처리를 수행하는 단계 및 정면의 목표 얼굴 이미지에 대하여 다대다 얼굴 변환을 수행하여 정면의 목표 얼굴 이미지의 생김새 독립 정보를 유도 얼굴 이미지의 생김새 독립 정보로 변환하는 단계를 포함한다.

Description

딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치
본 발명은 딥러닝 네트워크를 이용한 얼굴 변환 기술에 관한 것으로서, 목표(Target) 얼굴의 생김새를 보존하면서 유도(Driving) 얼굴의 생김새 독립 정보가 반영된 이미지 또는 동영상을 생성하기 위한 얼굴 변환 방법 및 장치에 관한 것이며, 한 장의 목표 얼굴 이미지를 이용하더라도 얼굴 변환이 가능한 방법 및 장치에 관한 것이다.
인공지능의 한 분야인 딥러닝을 이용한 얼굴과 배경의 합성 기술은 고해상도의 이미지를 생성해 낼 수 있을 정도로 높은 수준의 발전을 보여왔다. 종래에는 사용자가 직접 이미지 보정 소프트웨어를 이용하여 얼굴 이미지와 배경 이미지를 보정하였으므로 사용자의 숙련도에 따라 보정 후의 이미지의 퀄리티가 상이한 점이 있었다. 최근에는, 수많은 데이터 학습을 통해 모델링된 딥러닝 네트워크를 이용할 수 있게 됨으로써, 보편적이고, 일관성이 있으며, 보다 자연스러운 얼굴과 배경의 합성이 가능하게 되었다. 더욱 최근에는, 얼굴 변환 기술을 통해 생성된 얼굴을, 원하는 배경과 합성시켜 가상의 공간에서 자신을 나타내거나, 동영상 속의 유명 인물의 얼굴을 자신 또는 다른 인물의 얼굴로 대체하는 등의 프로그램들이 제공되고 있다.
한편, 2014년 적대적 신경망(Generative Adversarial Network, 이하 GAN)의 등장을 기점으로 대부분의 얼굴 변환 모델은 GAN을 기반으로 만들어지고 있다. GAN의 경우 수많은 짝지어지지 않은(Unpaired) 데이터 셋을 이용해서 한 도메인의 데이터를 다른 도메인의 데이터로 생성한다. 기존의 GAN 기반 얼굴 변환 모델의 경우, 목표 얼굴의 수많은 얼굴 데이터를 수집해서 이를 유도(Driving) 얼굴과 짝지어서 학습을 시키는 방식으로 설계되었다.
이러한 GAN 기반 얼굴 변환 모델의 경우, 목표 얼굴과 유도 얼굴에 해당하는 수많은 이미지가 필요하다. 하지만, 무작위의 많은 사용자를 대상으로 얼굴 변환을 수행하기에 이 방법은 무리가 있다. 각 사용자에 해당하는 방대한 양의 데이터를 일일이 수집할 수 없고, 사용자 별로 모델 학습을 새롭게 진행하는 것은 컴퓨팅 자원을 굉장히 많이 소모하기 때문이다.
본 발명은, 목표 얼굴의 생김새를 보존하면서 유도 얼굴의 생김새 독립 정보가 반영된 이미지 또는 동영상을 생성하기 위한 얼굴 변환 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명은, 한 장의 목표 얼굴 이미지를 이용하더라도 얼굴 변환이 가능한 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명은, 한 장의 목표 얼굴 이미지를 이용하며, 다대다(Many-to-Many) 얼굴 변환 모델로 얼굴 변환이 가능한 얼굴 변환 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명의 일 측면은, 딥러닝 네트워크를 이용한 얼굴 변환 방법으로서, 목표 얼굴 이미지 및 유도 얼굴 이미지를 입력 받는 단계, 목표 얼굴 이미지 내 목표 얼굴의 정면 여부를 판단하는 단계, 정면의 목표 얼굴 이미지 및 유도 얼굴 이미지에 대하여 이미지 전처리를 수행하는 단계 및 정면의 목표 얼굴 이미지에 대하여 다대다 얼굴 변환을 수행하여 정면의 목표 얼굴 이미지의 생김새 독립 정보를 유도 얼굴 이미지의 생김새 독립 정보로 변환하는 단계를 포함할 수 있다.
생김새 독립 정보는, 상하좌우의 얼굴 각도 정보, 표정 정보, 얼굴 명암 정보 및 조명 정보 중 적어도 하나 이상을 포함할 수 있다.
목표 얼굴의 정면 여부를 판단하는 단계에서 목표 얼굴이 정면이 아닌 것으로 판단하는 경우, 얼굴 임베딩 네트워크를 통하여 스타일 벡터를 추출하는 단계 및 얼굴 생성 네트워크를 통하여 정면 얼굴을 생성하는 단계를 수행할 수 있다.
스타일 벡터를 추출하는 단계는, 목표 얼굴 이미지의 목표 얼굴로부터 생김새 정보에 대한 스타일 벡터를 추출하는 단계, 입력 받은 임의의 정면 얼굴 이미지의 정면 얼굴로부터 얼굴 각도 정보에 대한 스타일 벡터를 추출하는 단계 및 목표 얼굴의 생김새 정보에 대한 스타일 벡터 및 정면 얼굴의 얼굴 각도 정보에 대한 스타일 벡터를 결합하는 단계를 포함할 수 있다.
얼굴 생성 네트워크를 통하여 정면 얼굴을 생성하는 단계는, 결합된 스타일 벡터 각각에 대한 적응적 인스턴트 정규화(AdaIN) 연산을 수행하는 단계 및 적응적 인스턴트 정규화 연산을 통해 이미지 사이즈를 스케일업하는 단계를 포함할 수 있다.
다대다 얼굴 변환은, 정면의 목표 얼굴에 대한 생김새 정보를 인코딩하는 단계, 유도 얼굴에 대한 생김새 독립 정보를 인코딩하는 단계, 생김새 독립 정보를 디코딩하여 적어도 하나 이상의 중간 행렬을 출력하는 단계, 적어도 하나 이상의 중간 행렬을 픽셀 이동 행렬로 산출하는 단계 및 인코딩된 생김새 정보 및 산출된 픽셀 이동 행렬을 이용하여 인코딩된 생김새 정보를 디코팅하는 단계를 포함할 수 있다.
본 발명의 다른 일 측면은, 딥러닝 네트워크를 이용한 얼굴 변환 장치로서, 목표 얼굴 이미지 및 유도 얼굴 이미지를 입력 받는 입력부, 목표 얼굴 이미지 내 목표 얼굴의 정면 여부를 판단하는 정면 얼굴 판단부, 정면의 목표 얼굴 이미지 및 유도 얼굴 이미지에 대하여 이미지 전처리를 수행하는 이미지 전처리부 및 정면의 목표 얼굴 이미지에 대하여 다대다 얼굴 변환을 수행하여 정면의 목표 얼굴 이미지의 생김새 독립 정보로 유도 얼굴 이미지의 생김새 독립 정보로 변환하는 다대다 얼굴 변환 네트워크부를 포함할 수 있다.
생김새 독립 정보는, 상하좌우의 얼굴 각도 정보, 표정 정보, 얼굴 명암 정보 및 조명 정보 중 적어도 하나 이상을 포함할 수 있다.
얼굴 변환 장치는 얼굴 임베딩 네트워크부 및 얼굴 생성 네트워크부를 포함하며, 정면 얼굴 판단부가 목표 얼굴이 정면이 아닌 것으로 판단하는 경우, 얼굴 임베딩 네트워크부는 스타일 벡터를 추출하며, 얼굴 생성 네트워크부는 정면 얼굴을 생성할 수 있다.
얼굴 임베딩 네트워크부는 목표 얼굴 이미지의 목표 얼굴로부터 생김새 정보에 대한 스타일 벡터를 추출하고, 입력 받은 임의의 정면 얼굴 이미지의 정면 얼굴로부터 얼굴 각도 정보에 대한 스타일 벡터를 추출하며, 목표 얼굴의 생김새 정보에 대한 스타일 벡터 및 정면 얼굴의 얼굴 각도 정보에 대한 스타일 벡터를 결합할 수 있다.
얼굴 생성 네트워크부는 결합된 스타일 벡터 각각에 대한 적응적 인스턴트 정규화(AdaIN) 연산을 수행하고, 적응적 인스턴트 정규화 연산을 통해 이미지 사이즈를 스케일업할 수 있다.
다대다 얼굴 변환 네트워크부는 정면의 목표 얼굴에 대한 생김새 정보를 인코딩하는 생김새 정보 인코더, 유도 얼굴에 대한 생김새 독립 정보를 인코딩하는 생김새 독립 정보 인코더, 생김새 독립 정보를 디코딩하여 적어도 하나 이상의 중간 행렬을 출력하는 생김새 독립 정보 디코더, 적어도 하나 이상의 중간 행렬을 픽셀 이동 행렬로 산출하는 픽셀 이동 함수 연결부 및 인코딩된 생김새 정보 및 산출된 픽셀 이동 행렬을 이용하여 인코딩된 생김새 정보를 디코팅하는 생김새 정보 디코더를 포함할 수 있다.
본 발명에 따르면, 한 장의 목표 얼굴 이미지만으로도 얼굴 변환이 가능하므로 엔터테인먼트 어플리케이션, 실시간 교육 영상 제작 등 다양한 분야에서 얼굴 변환 기술을 적용할 수 있다.
본 발명에 따르면, 다대다 얼굴 변환 모델을 이용하여 얼굴 변환을 수행함으로써 추가적인 비용 없이 실시간으로 다대다 얼굴 변환을 할 수 있다.
도 1은 본 발명의 일 실시예에 따른 얼굴 변환 장치를 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 얼굴 변환 방법을 도시한 순서도이다.
도 3은 본 발명의 일 실시예에 따른 얼굴 임베딩 모델을 이용한 얼굴 임베딩 방법을 도시한 순서도이다.
도 4는 본 발명의 일 실시예에 따른 얼굴 임베딩 모델을 이용한 얼굴 생성 방법을 도시한 순서도이다.
도 5는 본 발명의 일 실시예에 따른 얼굴 정면화를 통한 정면 이미지 생성 과정을 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 다대다 얼굴 변환 네트워크부를 도시한 도면이다.
100: 얼굴 변환 장치
200: 목표 얼굴 이미지 입력부
300: 유도 얼굴 이미지 입력부
400: 정면 얼굴 판단부
500: 얼굴 임베딩 네트워크부
600: 얼굴 생성 네트워크부
700: 이미지 전처리부
800: 다대다 얼굴 변환 네트워크부
900: 이미지 후처리부
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다.
먼저, 본 발명의 일 구성 중 다대다 얼굴 변환 네트워크 및 이와 대비되는 일대일 얼굴 변환에 대하여 설명하도록 한다.
다대다 얼굴 변환 네트워크
다대다 얼굴 변환 네트워크는 하나의 생성자 네트워크를 이용하여 서로 다른 인물의 얼굴 이미지에 대한 각각의 얼굴 변환 결과물을 생성 및 출력하도록 미리 학습된 네트워크를 말한다.
다대다 얼굴 변환 네트워크는 테스트 단계에서 처음 접하는 인물 다시 말해서, 학습 단계에서 학습하지 못하였던/않았던 얼굴에 대해서도 얼굴 변환이 가능해야 하기 때문에 다대다 얼굴 변환은 일대일 얼굴 변환과 비교하여, 기술적으로 어려운 얼굴 변환에 해당한다.
다대다 얼굴 변환 네트워크는, 일대일 얼굴 변환과 달리, 변환하고자 하는 인물의 얼굴을 학습 단계에 반영하여 모델을 학습해 주어야 할 필요가 없으므로 추가 학습 시간이 필요하지 않으며, 매번 모델을 저장해야 되는 번거로움을 제거할 수 있다. 따라서, 다대다 얼굴 변환은 시간적, 컴퓨팅 자원적 한계로부터 자유롭다고 할 수 있다.
일대일 얼굴 변환 네트워크
일대일 얼굴 변환 네트워크는, 하나의 생성자 네트워크를 이용하여 인물 한 명의 얼굴 이미지에 대한 얼굴 변환 결과물을 생성 및 출력할 수 있는 네트워크를 말한다.
일대일 얼굴 변환 네트워크는 학습 단계에서, 예컨대 인물 A의 얼굴 이미지 수만 장을 이용하여 어떤 입력 조건에서도 인물 A의 얼굴을 딥러닝 네트워크가 생성할 수 있도록 생성자(Generator)를 학습한다.
학습을 마친 생성자 네트워크는 테스트 단계에서 인물 A의 얼굴을 생성할 수 있고, 예컨대, 인물 B의 얼굴 포즈 및/또는 표정 정보를 입력하는 경우 생성자 네트워크는 인물 B의 얼굴 포즈 및/또는 표정을 따라하는 인물 A를 생성할 수 있다.
이와 같이, 수만 장의 이미지와 수백 시간의 학습 시간이 동반되어 겨우 한 인물 즉, 인물 A의 얼굴을 다양한 입력 조건에 맞추어 생성해내는 기술이 일대일 얼굴 변환이다.
일대일 얼굴 변환에서, 새로운 인물 예컨대, 인물 C의 얼굴 이미지에 대한 얼굴 변환 결과물을 얻기 위해서는 다시 처음부터 새로운 얼굴 수만 장을 이용하여 또 다른 생성자 네트워크를 수일 동안 학습해야 한다.
대부분의 얼굴 변환 연구는 일대일 얼굴 변환에 그친다. 일대일 변환 작업을 위한 네트워크 학습이 수월하고, 학습이 수월한 만큼 결과물의 성능 개선도 쉽기 때문이다.
이하, 도면을 참조하여, 본 발명에 대하여 구체적으로 설명하도록 한다. 도 1은 본 발명의 일 실시예에 따른 얼굴 변환 장치를 도시한 도면이다. 도 1을 참조하면, 얼굴 변환 장치(100)는 목표 얼굴 이미지 입력부(200), 유도 얼굴 이미지 입력부(300), 정면 얼굴 판단부(400), 얼굴 임베딩(Embedding) 네트워크부(500), 얼굴 생성 네트워크부(600), 이미지 전처리부(700), 다대다 얼굴 변환 네트워크부(800) 및 이미지 후처리부(900)를 포함한다.
목표 얼굴 이미지 입력부(200)는 목표 얼굴 이미지를 입력 받을 수 있고, 목표 얼굴 이미지를 정면 얼굴 판단부(400)로 전달할 수 있다. 여기서, 목표 얼굴 이미지는 생김새 독립 정보(Identity-independent property 또는 Identity-agnostic property)의 변환을 목적으로 하는 얼굴이 포함된 이미지를 말한다. 목표 얼굴 이미지에는 얼굴이 포함된 동영상으로부터 캡쳐된 하나의 프레임을 포함한다.
본 발명의 일 실시예에 따르면, 생김새 독립 정보는 상하좌우의 얼굴 각도 정보, 표정 정보, 얼굴 명암 정보 및 조명 정보 중 적어도 하나 이상을 포함할 수 있다. 생김새 독립 정보가 전술한 예에 한정되는 것은 아니며, 얼굴 생김새와 독립한 정보이면 어떠한 정보든 생김새 독립 정보에 포함될 수 있다.
본 발명의 일 실시예에 따르면, 사용자 단말기(미도시)가 목표 얼굴 이미지 입력부(200)에 목표 얼굴 이미지를 입력할 수 있다.
본 발명의 다른 실시예에 따르면, 얼굴 변환 장치(100)의 목표 얼굴 이미지 선택부(미도시)가 얼굴 변환 장치(100)의 목표 얼굴 이미지 저장부(미도시)에 저장된 목표 얼굴 이미지를 선택하여 목표 얼굴 이미지 입력부(200)에 목표 얼굴 이미지를 입력할 수 있다.
본 발명의 다른 실시예에 따르면, 사용자 단말기(미도시)가 목표 얼굴 이미지 저장부(미도시)에 저장된 목표 얼굴 이미지를 선택하여 목표 얼굴 이미지 입력부(200)에 목표 얼굴 이미지를 입력할 수 있다.
정면 얼굴 판단부(400)는 후술하는 바와 같이, 목표 얼굴 이미지에서 목표 얼굴이 정면을 향하고 있는지 즉, 목표 얼굴 이미지가 정면 얼굴 이미지에 해당하는지 여부를 판단할 수 있다.
유도 얼굴 이미지 입력부(300)는 유도 얼굴 이미지를 입력 받을 수 있고, 유도 얼굴 이미지를 이미지 전처리부(700)로 전달할 수 있다. 여기서, 유도 얼굴 이미지는 목표 얼굴 이미지에 반영될 생김새 독립 정보를 제공하는 이미지를 말한다. 유도 얼굴 이미지는 얼굴이 포함된 동영상으로부터 캡쳐된 하나의 프레임을 포함한다.
생김새 독립 정보는 전술한 바와 같이, 상하좌우의 얼굴 각도 정보, 표정 정보, 얼굴 명암 정보 및 조명 정보 중 적어도 하나 이상을 포함할 수 있다. 생김새 독립 정보가 전술한 예에 한정되는 것은 아니며, 얼굴 생김새와 독립한 정보이면 어떠한 정보든 생김새 독립 정보에 포함될 수 있다.
유도 얼굴 이미지는 정면 얼굴 이미지에 해당하지 않을 수 있다. 즉, 유도 얼굴 이미지는 비정면 얼굴 이미지 및 정면 얼굴 이미지를 포함할 수 있다. 이에 따라, 유도 얼굴 이미지로부터 다양한 생김새 독립 정보를 확보할 수 있다.
본 발명의 일 실시예에 따르면, 사용자 단말기(미도시)가 유도 얼굴 이미지 입력부(300)에 유도 얼굴 이미지를 입력할 수 있다.
본 발명의 다른 실시예에 따르면, 얼굴 변환 장치(100)의 유도 얼굴 이미지 선택부(미도시)가 얼굴 변환 장치(100)의 유도 얼굴 이미지 저장부(미도시)에 저장된 유도 얼굴 이미지를 선택하여 유도 얼굴 이미지 입력부(300)에 유도 얼굴 이미지를 입력할 수 있다.
본 발명의 다른 실시예에 따르면, 사용자 단말기(미도시)가 유도 얼굴 이미지 저장부(미도시)에 저장된 유도 얼굴 이미지를 선택하여 유도 얼굴 이미지 입력부(300)에 유도 얼굴 이미지를 입력할 수 있다.
정면 얼굴 판단부(400)는 목표 얼굴 이미지가 정면 얼굴 이미지에 해당하는지 여부를 판단할 수 있다. 예를 들어, 목표 얼굴 이미지로부터 얼굴 형태를 인식하여 얼굴이 상, 하, 좌, 우 방향으로 치우친 각도를 인식하여 해당 각도 값을 산출하거나, 얼굴이 시계 방향으로 또는 반시계 방향으로 회전한 각도를 인식하여 해당 각도 값을 산출하거나, 눈, 코, 입, 귀 등의 좌우 대칭 상태 등을 토대로 기 설정된 임계 값에 기반하여 목표 얼굴이 정면 얼굴인지 또는 정면 얼굴이 아닌지를 판단할 수 있다.
정면 얼굴 판단부(400)가 목표 얼굴 이미지를 정면 얼굴 이미지로 판단한 경우, 정면 얼굴 판단부(400)는 목표 얼굴 이미지를 이미지 전처리부(700)로 전달할 수 있다. 이와 반대로, 정면 얼굴 판단부(400)가 목표 얼굴 이미지를 정면 얼굴 이미지가 아닌 것으로 판단한 경우, 정면 얼굴 판단부(400)는 목표 얼굴 이미지를 얼굴 임베딩 네트워크부(500)로 전달할 수 있다.
얼굴 임베딩 네트워크부(500)는 목표 얼굴 이미지(비정면 얼굴 이미지에 한함)로부터 512차원 벡터 18개를 출력할 수 있다. 각각의 벡터는 스타일 벡터로 정의될 수 있으며, 목표 얼굴 이미지의 정보를 포함할 수 있다.
18*512 크기의 스타일 벡터 행렬 중 앞 쪽에 해당하는 벡터(예컨대, 1~5번째 벡터)는 얼굴 각도 정보를 내포하며, 얼굴 각도 정보는 후술하는 생김새 정보와 대비하여 상대적으로 개괄적인 정보를 말한다. 여기서, 얼굴 각도 정보는 정면을 기준으로 상, 하, 좌, 우 얼굴이 기울어진 각도 정보 및/또는 얼굴이 시계 방향 또는 반시계 방향으로 회전한 각도 정보를 포함한다. 18*512 크기의 스타일 벡터 행렬 중 뒤 쪽에 해당하는 벡터(예컨대, 6~18번째 벡터)는 생김새 정보를 내포하며, 생김새 정보는 예컨대, 눈, 코, 입, 귀의 위치, 크기, 눈의 색, 피부, 주름 등 전술한 얼굴 각도 정보와 대비하여 상대적으로 상세한 정보를 말한다. 이와 같이, 각 스타일 벡터가 서로 다른 정보를 포함하도록 하는 것을 특징 분리(Feature Disentanglement)라 하며, 특징 분리를 통해 목표 얼굴의 특징을 조절할 수 있다.
얼굴 임베딩 네트워크부(500)는 목표 얼굴 이미지로부터 스타일 벡터를 추출할 수 있으며, 추출된 스타일 벡터를 얼굴 생성 네트워크부(600)로 전달할 수 있다.
얼굴 생성 네트워크부(600)는 얼굴 임베딩 네트워크부(500)로부터 전달된 18*512 크기의 스타일 벡터 행렬을 이용하여 목표 얼굴의 정면 얼굴을 생성할 수 있다. 얼굴 생성 네트워크부(600)는 18개의 레이어(layer)로 구성될 수 있으며, 512차원의 스타일 벡터를 입력 받아 적응적 인스턴트 정규화(Adaptive Instance Normalization: 이하 AdaIN) 연산을 수행할 수 있다. AdaIN 연산은 기존의 데이터 분포(Distribution)를 새로 입력되는 데이터의 분포에 맞게 정규화하는 연산을 말한다. 이를 통해 입력된 스타일 벡터가 포함하고 있는 목표 얼굴 이미지의 정보를 복원할 수 있다. 한번의 AdaIN 연산을 거치면서 목표 얼굴 이미지의 사이즈가 한번씩 스케일업(Scale-up) 되면서 점차 고해상도의 목표 얼굴 이미지를 생성할 수 있다.
이미지 전처리부(700)는 목표 얼굴 이미지 및 유도 얼굴 이미지에 대하여 이미지 전처리를 수행할 수 있다. 이미지 전처리부(700)는 목표 얼굴 이미지 및 유도 얼굴 이미지에서 각 얼굴을 인식하여 이미지 크기 정렬을 수행할 수 있다. 딥러닝 기반 얼굴 탐지 알고리즘을 이용하여 얼굴 부분을 탐지할 수 있고, 이목구비 배치에 기반하여 중심부를 설정할 수 있으며, 중심부를 기준으로 256 픽셀의 정방형 이미지를 생성할 수 있다.
딥러닝 기반 얼굴 탐지 알고리즘으로 S3FD(Single Shot Scale-invariant Face Detector), ArcFace(Additive Angular Margin Loss for Deep Face Recognition), HOG(Histogram of Oriented Gradients) 등이 사용될 수 있다. 다만, 이에 한정되지 않으며 다양한 딥러닝 기반 얼굴 탐지 알고리즘이 적용될 수 있다. 생성된 정방향 이미지들은 이미지 전처리부(700)의 저장부(미도시)에 저장될 수 있고, 정방형 이미지 중에서 정면을 향하고 있는 이미지들은 인물 별로 분류하여 별도로 저장될 수도 있다.
다대다 얼굴 변환 네트워크부(800)는 이미지 전처리부(700)로부터 전달된 목표 얼굴 이미지 및 유도 얼굴 이미지에 대하여 얼굴 변환을 수행할 수 있다. 보다 구체적으로, 다대다 얼굴 변환 네트워크부(800)는 목표 얼굴의 생김새를 보존하면서 목표 얼굴의 생김새 독립 정보를 유도 얼굴의 생김새 독립 정보로 변환할 수 있다. 다대다 얼굴 변환 네트워크부(800)는 픽셀 이동 함수를 정의하여 생김새 독립 정보를 변환하는 방식으로 전술한 변환을 수행할 수 있다.
이미지 후처리부(900)는 다대다 얼굴 변환 네트워크부(800)를 통하여 출력된 이미지에 대하여 이미지 후처리를 수행하여 목표 얼굴의 생김새를 가지면서 유도 얼굴의 생김새 독립 정보를 가진 얼굴 이미지를 출력할 수 있다.
도 2는 본 발명의 일 실시예에 따른 얼굴 변환 과정을 도시한 순서도이다. 도 2를 참조하면, 205 단계에서 목표 얼굴 이미지 입력부(200)는 목표 얼굴 이미지를 입력 받아 정면 얼굴 판단부(400)로 전달할 수 있고, 210 단계에서 정면 얼굴 판단부(400)는 목표 얼굴 이미지가 정면 얼굴 이미지에 해당하는지 즉, 목표 얼굴이 정면 얼굴에 해당하는지 여부를 판단할 수 있다.
정면 얼굴 판단부(400)의 판단 결과, 목표 얼굴 이미지가 정면 얼굴 이미지에 해당하지 않는 경우, 215 단계가 진행될 수 있으며 얼굴 임베딩 네트워크부(500)는 목표 얼굴 이미지로부터 스타일 벡터를 추출할 수 있다. 이후, 220 단계가 진행될 수 있으며, 얼굴 생성 네트워크부(600)는 비정면 목표 얼굴 이미지를 정면의 목표 얼굴 이미지로 변환할 수 있다.
210 단계에서, 정면 얼굴 판단부(400)는 목표 얼굴 이미지 입력부(200) 로부터 전달된 목표 얼굴 이미지 또는 215 단계 및 220 단계를 통하여 생성된 목표 얼굴 이미지가 정면 얼굴 이미지에 해당하는 것으로 판단한 경우, 225 단계를 진행할 수 있으며, 정면의 목표 얼굴 이미지 및 유도 얼굴 이미지를 이미지 전처리부(700)에 전달할 수 있다.
이미지 전처리부(700)는 정면의 목표 얼굴 이미지 및 유도 얼굴 이미지에 대하여 전처리를 수행할 수 있다. 전처리 수행 후, 230 단계가 진행될 수 있으며 다대다 얼굴 변환 네트워크부(800)는 전처리된 각 이미지를 이용하여 다대다 얼굴 변환을 수행할 수 있다. 이후, 235 단계가 진행될 수 있으며, 이미지 후처리부(900)는 다대다 얼굴 변환 네트워크부(800)를 통하여 출력된 변환 이미지에 대하여 이미지 후처리를 수행하여 목표 얼굴의 생김새를 가지면서 유도 얼굴의 생김새 독립 정보를 가진 최종 얼굴 이미지를 출력할 수 있다.
도 3은 본 발명의 일 실시예에 따른 얼굴 임베딩 모델을 이용한 얼굴 임베딩 방법을 도시한 순서도이다. 도 3을 참조하면, 305 단계에서 얼굴 임베딩 네트워크부(500)는 정면 얼굴 판단부(400)로부터 목표 얼굴 이미지를 입력 받을 수 있고, 정면 얼굴 저장부(미도시) 및 정면 얼굴 선택부(미도시)에 의해 임의로 선택된, 임의의 정면 얼굴 이미지를 입력받을 수 있다.
310 단계에서, 목표 얼굴 이미지 및 임의의 정면 얼굴 이미지에 대하여 이미지 전처리를 수행할 수 있으며, 얼굴을 중심으로 각 이미지의 크기를 기 설정된 사이즈로 정렬할 수 있으며, 고해상도(예컨대, 1,024 픽셀)로 사이즈를 재조정할 수 있다.
315 단계에서, 이미지 전처리 단계를 통과한 각 이미지를 컨볼루션 네트워크에 입력하여 공간적인 차원을 줄여나갈 수 있으며, 이미지의 특성을 점점 높은 레벨의 벡터로 압축해 나가는 단계별 스타일 벡터 추출을 수행할 수 있다. 스타일 벡터 추출 과정은 총 3단계로 구성될 수 있으며, 각 단계에서 6개의 스타일 벡터를 추출하여 총 18개의 스타일 벡터를 출력할 수 있다. 목표 얼굴 이미지에 대한 스타일 벡터 18개 및 임의의 정면 얼굴 이미지에 대한 스타일 벡터 18개를 출력할 수 있다.
320 단계에서, 현재 출력된 스타일 벡터가 목표 얼굴의 스타일 벡터에 해당하는지 여부를 판단할 수 있고, 목표 얼굴의 생김새 정보를 내포하는 스타일 벡터만을 추출하기 위하여 320 단계를 수행할 수 있다.
320 단계에서, 목표 얼굴의 스타일 벡터에 해당하는 것으로 판단한 경우, 325 단계에서, 목표 얼굴 이미지에 대한 6~18번째 스타일 벡터를 추출할 수 있다. 전술한 예와 같이, 6~18번째 스타일 벡터는, 얼굴에서, 생김새 정보 예컨대, 눈의 색, 피부, 주름 등 상대적으로 상세한 정보를 내포한다.
320 단계에서, 목표 얼굴의 스타일 벡터에 해당하지 않는 것으로 판단한 경우, 330 단계에서, 임의의 정면 얼굴 이미지에 대한 1~5번째 스타일 벡터를 추출할 수 있다. 전술한 예와 같이, 1~5번째 스타일 벡터는, 얼굴에서, 얼굴 각도 등 상대적으로 개괄적인 정보를 내포한다.
335 단계에서, 325 단계 및 330 단계를 통해 추출된 스타일 벡터들을 병합하여 18개의 스타일 벡터로 복원을 수행할 수 있다. 즉, 목표 얼굴의 생김새 정보를 내포하는 6~18번째 스타일 벡터와 임의의 정면 얼굴의 얼굴 각도 정보를 내포하는 1~5번째 스타일 벡터를 병합한다.
340 단계에서, 병합된 스타일 벡터를 입력 받아 정면 얼굴 이미지를 생성할 수 있다. 얼굴 임베딩 네트워크부(500)의 특징 분리(Feature Disentanglement) 성질로 인하여 생김새 정보를 내포하는 스타일 벡터와 얼굴 각도 정보를 내포하는 스타일 벡터를 분리할 수 있다.
도 4는 본 발명의 일 실시예에 따른 얼굴 임베딩 모델을 이용한 얼굴 생성 방법을 도시한 순서도이다. 도 4를 참조하면, 410 단계에서 얼굴 생성 네트워크부(600)는 얼굴 임베딩 네트워크부(500)로부터 18개의 레이어로 이루어진 스타일 벡터 행렬을 전달 받을 수 있다. 여기서, 스타일 벡터는, 전술한 바와 같이, 목표 얼굴의 생김새 정보를 내포하는 6~18번째 스타일 벡터와 임의의 정면 얼굴의 얼굴 각도 정보를 내포하는 1~5번째 스타일 벡터가 병합된 스타일 벡터를 말한다.
420 단계에서, 18번째 레이어 도달 여부를 판단할 수 있다. 1번째 레이어부터 18번째 레이어 연산까지 모두 수행되어 고화질의 이미지가 생성되었는지 여부를 확인할 수 있다.
얼굴 생성 네트워크부(600)가 18번째 레이어 연산을 마치지 못한 것으로 판단한 경우, 430 단계가 진행될 수 있고, n번째 스타일 벡터를 이용한 AdaIN 연산이 수행될 수 있다. 즉, 계산된 행렬의 한 행을 입력 받고, 이를 이용하여 AdaIN 연산을 수행할 수 있다. AdaIN 연산을 통해 생성되는 이미지는 입력 스타일 벡터의 분포를 따라가고, 이는 최종적으로 이미지의 스타일을 결정하는데 영향을 줄 수 있다.
440 단계에서, 이미지의 스케일업을 통해 생성된 저화질 이미지의 사이즈를 2배로 늘려줄 수 있다. 스케일업은 이미지가 정교하게 점점 더 고화질이 되도록 보조함으로써 얼굴 생성 네트워크부(600)는 순차적으로 안정적인 고화질의 이미지를 생성할 수 있다.
도 5는 본 발명의 일 실시예에 따른 얼굴 정면화를 통한 정면 이미지 생성 과정을 도시한 도면이다. 도 5의 정면 이미지 생성 과정은 도 1의 얼굴 변환 장치(100)의 정면 얼굴 판단부(400), 얼굴 임베딩 네트워크부(500) 및 얼굴 생성 네트워크부(600) 등에 의해 수행될 수 있다.
비정면 목표 얼굴 이미지(505)를 입력 받을 수 있고, 비정면 목표 얼굴 이미지로부터 목표 얼굴 스타일 벡터(515)를 추출할 수 있다(510). 목표 얼굴 스타일 벡터(515)는 목표 얼굴의 얼굴 각도 정보에 대한 스타일 벡터 및 목표 얼굴의 생김새 정보에 대한 스타일 벡터를 내포할 수 있다.
임의의 정면 얼굴 이미지(520)를 입력 받을 수 있고, 임의의 정면 얼굴 이미지(520)로부터 정면 얼굴 스타일 벡터(530)를 추출할 수 있다(525). 정면 얼굴 스타일 벡터(530)는 임의의 정면 얼굴의 얼굴 각도 정보에 대한 스타일 벡터 및 정면 얼굴의 생김새 정보에 대한 스타일 벡터를 내포할 수 있다.
목표 얼굴의 생김새 정보에 대한 스타일 벡터들과 임의의 정면 얼굴의 얼굴 각도 정보에 대한 스타일 벡터들을 병합할 수 있고(535), 정면을 향하는 목표 얼굴 이미지에 대한 스타일 벡터(540)를 생성할 수 있다. 스타일 벡터들의 병합 시 이용되는 벡터 합성 모델은 가중 합계(weighted sum)를 통해 새로운 벡터를 합성할 수 있으며, 1~5번째 스타일 벡터의 경우 정면 얼굴 스타일 벡터(530)에 가중이 크게 더해지고, 6~18번째 스타일 벡터의 경우 목표 얼굴 스타일 벡터(515)에 가중이 크게 더해질 수 있다. 정면 얼굴 스타일 벡터(530)의 6~18번째 스타일 벡터는 제거될 수 있으며, 목표 얼굴 스타일 벡터(515)의 1~5번째 스타일 벡터 또한 제거될 수 있다. 생성된 스타일 백터(540)에 기반하여 정면의 목표 얼굴 이미지를 생성할 수 있다. 정면의 목표 얼굴 이미지 생성 과정은 병합된 스타일 벡터를 이용하여 목표 얼굴의 생김새 즉, 이목구비에 집중하여 정면화를 수행함으로써 정면 포즈를 가지고 목표 얼굴의 이목구비를 가지는 새로운 얼굴 이미지를 생성할 수 있다.
도 6은 본 발명의 일 실시예에 따른 다대다 얼굴 변환 네트워크부를 도시한 도면이다. 도 6을 참조하면, 다대다 얼굴 변환 네트워크부(800)는 생김새 정보 인코더(620), 생김새 독립 정보 인코더(625), 생김새 독립 정보 디코더(630), 픽셀 이동 함수 연결부(635) 및 생김새 정보 디코더(640)를 포함할 수 있다. 다대다 얼굴 변환 네트워크부(800)는 예컨대, 인물 A의 생김새 정보와 인물 B의 생김새 독립 정보를 독립적으로 추출하여 인물 A의 생김새 정보를 보존하면서 인물 B의 생김새 독립 정보를 가진 인물 A의 얼굴을 생성할 수 있다.
생김새 정보 인코더(620)는 목표 얼굴 이미지로부터 목표 얼굴의 생김새 정보를 인코딩할 수 있다. 인코딩은 컨볼루션 인공신경망(Convolution neural network)을 기반으로 이루어질 수 있으며, 인코딩 결과는 256차원의 벡터로 출력될 수 있다. 생김새 정보 인코더(620)는 목표 얼굴의 생김새 독립 정보를 배제하고, 생김새 정보만을 인코딩할 수 있다.
생김새 독립 정보 인코더(625)는 유도 얼굴 이미지의 생김새 독립 정보를 인코딩할 수 있으며, 생김새 정보 인코더(620)와는 반대로 생김새 정보를 배제하고, 생김새 독립 정보만을 인코딩할 수 있으며, 인코딩 결과를 256차원의 벡터로 출력할 수 있다.
생김새 독립 정보 디코더(630)는 생김새 독립 정보 인코더(625)에서 인코딩된 생김새 독립 정보 벡터를 이용하여 생김새 독립 정보를 복원하는 디코딩을 수행할 수 있다. 디컨볼루션(Deconvolution network)을 이용하여 생김새 독립 정보 벡터의 공간적인 차원을 확장(예컨대, 2배씩 7번, 즉, 1에서 128까지 확장)할 수 있고, 각 확장 단계에서 적어도 하나 이상의, 보다 구체적으로, 적어도 2개 이상의 중간 행렬(예컨대, 7개의 중간 행렬)을 산출할 수 있다. 생김새 독립 정보 디코더(630)는 각 확장 단계에서 산출된 적어도 하나 이상의 중간 행렬을 픽셀 이동 함수 연결부(635)로 전달할 수 있다.
픽셀 이동 함수 연결부(635)는 생김새 정보 디코더(640)에서의 픽셀 이동을 위한 행렬을 출력할 수 있으며, 생김새 정보 디코더(640)에서 2차원 행렬을 x축, y축 방향으로 각각 얼마만큼 이동시킬지 결정할 수 있다. 생김새 독립 정보 디코더(630)에서 출력된 적어도 하나 이상의 중간 행렬을 입력 받아 유도 얼굴 이미지의 생김새 독립 정보를 목표 얼굴 이미지에 반영할 수 있다.
생김새 정보 디코더(640)는 생김새 정보 인코더(620)를 통해 산출된 생김새 정보 벡터와 픽셀 이동 함수 연결부(635)에서 산출된 픽셀 이동 행렬을 입력 받아 디컨볼루션 기반의 연산을 수행하여 유도 얼굴 이미지와 같은 사이즈(예컨대, 256 픽셀)까지 생김새 정보 벡터의 공간적 차원을 확장시킬 수 있다. 이를 통해 목표 얼굴 이미지의 생김새와 유도 얼굴 이미지의 생김새 독립 정보를 가지는 얼굴 이미지를 재현하여 출력할 수 있다.
본 발명에 따르면, 목표 얼굴 이미지가 정면 얼굴 이미지에 해당하지 않더라도 얼굴 변환 장치(100)에 의해 비정면 목표 얼굴 이미지를 정면 얼굴 이미지로 변환할 수 있다. 즉, 정면/비정면의 구분없이 임의의 한 장의 목표 얼굴 이미지를 이용하여 얼굴 변환을 수행할 수 있다. 게다가, 다대다 얼굴 변환 네트워크부(800)가 정면의 목표 얼굴 이미지에 기반하여 얼굴 합성(변환)을 수행함으로써 고화질의 합성(변환) 이미지를 생성할 수 있다. 다대다 얼굴 변환 네트워크부(800)의 수행 없이 곧바로 얼굴을 합성하는 경우, 머리카락이나 얼굴형 등에 왜곡 현상 등이 발생하여 고화질의 합성 이미지를 생성하는데 한계가 있다.
한편, 본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장 장치 등이 있다.
또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.
본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다.
본 발명에서 모든 예들 또는 예시적인 용어(예를 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한 해당 기술 분야의 통상의 기술자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터(factor)에 따라 구성될 수 있음을 알 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라, 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.
이와 같이 본 발명은 도면에 도시된 일 실시예를 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.

Claims (12)

  1. 목표 얼굴 이미지 및 유도 얼굴 이미지를 입력 받는 단계;
    상기 목표 얼굴 이미지 내 목표 얼굴의 정면 여부를 판단하는 단계;
    정면의 목표 얼굴 이미지 및 상기 유도 얼굴 이미지에 대하여 이미지 전처리를 수행하는 단계; 및
    상기 정면의 목표 얼굴 이미지에 대하여 다대다 얼굴 변환을 수행하여 상기 정면의 목표 얼굴 이미지의 생김새 독립 정보를 상기 유도 얼굴 이미지의 생김새 독립 정보로 변환하는 단계를 포함하는, 딥러닝 네트워크를 이용한 얼굴 변환 방법.
  2. 제1항에 있어서,
    상기 생김새 독립 정보는,
    상하좌우의 얼굴 각도 정보, 표정 정보, 얼굴 명암 정보 및 조명 정보 중 적어도 하나 이상을 포함하는, 딥러닝 네트워크를 이용한 얼굴 변환 방법.
  3. 제1항에 있어서,
    상기 목표 얼굴의 정면 여부를 판단하는 단계에서 상기 목표 얼굴이 정면이 아닌 것으로 판단하는 경우,
    얼굴 임베딩 네트워크를 통하여 스타일 벡터를 추출하는 단계; 및
    얼굴 생성 네트워크를 통하여 정면 얼굴을 생성하는 단계를 수행하는, 딥러닝 네트워크를 이용한 얼굴 변환 방법.
  4. 제3항에 있어서,
    상기 스타일 벡터를 추출하는 단계는,
    상기 목표 얼굴 이미지의 상기 목표 얼굴로부터 생김새 정보에 대한 스타일 벡터를 추출하는 단계;
    입력 받은 임의의 정면 얼굴 이미지의 정면 얼굴로부터 얼굴 각도 정보에 대한 스타일 벡터를 추출하는 단계; 및
    상기 목표 얼굴의 상기 생김새 정보에 대한 스타일 벡터 및 상기 정면 얼굴의 상기 얼굴 각도 정보에 대한 스타일 벡터를 결합하는 단계를 포함하는, 딥러닝 네트워크를 이용한 얼굴 변환 방법.
  5. 제4항에 있어서,
    상기 얼굴 생성 네트워크를 통하여 정면 얼굴을 생성하는 단계는,
    상기 결합된 스타일 벡터 각각에 대한 적응적 인스턴트 정규화(AdaIN) 연산을 수행하는 단계; 및
    상기 적응적 인스턴트 정규화 연산을 통해 이미지 사이즈를 스케일업하는 단계를 포함하는, 딥러닝 네트워크를 이용한 얼굴 변환 방법.
  6. 제1항에 있어서,
    상기 다대다 얼굴 변환은,
    상기 정면의 목표 얼굴에 대한 생김새 정보를 인코딩하는 단계;
    상기 유도 얼굴에 대한 생김새 독립 정보를 인코딩하는 단계;
    상기 생김새 독립 정보를 디코딩하여 적어도 하나 이상의 중간 행렬을 출력하는 단계;
    상기 적어도 하나 이상의 중간 행렬을 픽셀 이동 행렬로 산출하는 단계; 및
    상기 인코딩된 생김새 정보 및 상기 산출된 픽셀 이동 행렬을 이용하여 상기 인코딩된 생김새 정보를 디코팅하는 단계를 포함하는, 딥러닝 네트워크를 이용한 얼굴 변환 방법.
  7. 목표 얼굴 이미지 및 유도 얼굴 이미지를 입력 받는 입력부;
    상기 목표 얼굴 이미지 내 목표 얼굴의 정면 여부를 판단하는 정면 얼굴 판단부;
    정면의 목표 얼굴 이미지 및 상기 유도 얼굴 이미지에 대하여 이미지 전처리를 수행하는 이미지 전처리부; 및
    상기 정면의 목표 얼굴 이미지에 대하여 다대다 얼굴 변환을 수행하여 상기 정면의 목표 얼굴 이미지의 생김새 독립 정보를 상기 유도 얼굴 이미지의 생김새 독립 정보로 변환하는 다대다 얼굴 변환 네트워크부를 포함하는, 딥러닝 네트워크를 이용한 얼굴 변환 장치.
  8. 제7항에 있어서,
    상기 생김새 독립 정보는,
    상하좌우의 얼굴 각도 정보, 표정 정보, 얼굴 명암 정보 및 조명 정보 중 적어도 하나 이상을 포함하는, 딥러닝 네트워크를 이용한 얼굴 변환 장치.
  9. 제7항에 있어서,
    얼굴 임베딩 네트워크부; 및
    얼굴 생성 네트워크부를 포함하며,
    상기 정면 얼굴 판단부가 상기 목표 얼굴이 정면이 아닌 것으로 판단하는 경우, 상기 얼굴 임베딩 네트워크부는 스타일 벡터를 추출하며, 상기 얼굴 생성 네트워크부는 정면 얼굴을 생성하는, 딥러닝 네트워크를 이용한 얼굴 변환 장치.
  10. 제9항에 있어서,
    상기 얼굴 임베딩 네트워크부는,
    상기 목표 얼굴 이미지의 상기 목표 얼굴로부터 생김새 정보에 대한 스타일 벡터를 추출하고,
    입력 받은 임의의 정면 얼굴 이미지의 정면 얼굴로부터 얼굴 각도 정보에 대한 스타일 벡터를 추출하며,
    상기 목표 얼굴의 상기 생김새 정보에 대한 스타일 벡터 및 상기 정면 얼굴의 상기 얼굴 각도 정보에 대한 스타일 벡터를 결합하는, 딥러닝 네트워크를 이용한 얼굴 변환 장치.
  11. 제8항에 있어서,
    상기 얼굴 생성 네트워크부는,
    상기 결합된 스타일 벡터 각각에 대한 적응적 인스턴트 정규화(AdaIN) 연산을 수행하고,
    상기 적응적 인스턴트 정규화 연산을 통해 이미지 사이즈를 스케일업하는, 딥러닝 네트워크를 이용한 얼굴 변환 장치.
  12. 제8항에 있어서,
    상기 다대다 얼굴 변환 네트워크부는,
    상기 정면의 목표 얼굴에 대한 생김새 정보를 인코딩하는 생김새 정보 인코더;
    상기 유도 얼굴에 대한 생김새 독립 정보를 인코딩하는 생김새 독립 정보 인코더;
    상기 생김새 독립 정보를 디코딩하여 적어도 하나 이상의 중간 행렬을 출력하는 생김새 독립 정보 디코더;
    상기 적어도 하나 이상의 중간 행렬을 픽셀 이동 행렬로 산출하는 픽셀 이동 함수 연결부; 및
    상기 인코딩된 생김새 정보 및 상기 산출된 픽셀 이동 행렬을 이용하여 상기 인코딩된 생김새 정보를 디코팅하는 생김새 정보 디코더를 포함하는, 딥러닝 네트워크를 이용한 얼굴 변환 장치.
PCT/KR2021/015768 2021-11-03 2021-11-07 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치 WO2023080266A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210149532A KR102409988B1 (ko) 2021-11-03 2021-11-03 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치
KR10-2021-0149532 2021-11-03

Publications (1)

Publication Number Publication Date
WO2023080266A1 true WO2023080266A1 (ko) 2023-05-11

Family

ID=82217459

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/015768 WO2023080266A1 (ko) 2021-11-03 2021-11-07 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치

Country Status (2)

Country Link
KR (1) KR102409988B1 (ko)
WO (1) WO2023080266A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102710376B1 (ko) * 2022-11-25 2024-09-26 숭실대학교 산학협력단 얼굴 인증이 가능한 비식별화 얼굴 이미지 생성 장치 및 방법
KR102615322B1 (ko) * 2022-12-02 2023-12-19 주식회사 비브스튜디오스 확산 모델을 이용한 얼굴 이미지 변환 방법
KR102529216B1 (ko) * 2023-02-04 2023-05-08 주식회사 이너버즈 가상의 사람 얼굴을 생성하는 얼굴 생성 딥러닝 모델의 학습방법 및 이를 이용한 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200036656A (ko) * 2018-09-28 2020-04-07 한국전자통신연구원 얼굴 이미지 비식별화 장치 및 방법
KR20200132833A (ko) * 2019-05-15 2020-11-25 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 가상 아바타 발생 방법 및 장치, 및 저장 매체
KR20210037406A (ko) * 2019-09-27 2021-04-06 영남대학교 산학협력단 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법
KR102266165B1 (ko) * 2021-03-26 2021-06-17 인하대학교 산학협력단 적대적 생성신경망에서의 개인별 변조를 이용한 얼굴 연령 편집 방법 및 장치
KR20210108529A (ko) * 2020-02-25 2021-09-03 주식회사 하이퍼커넥트 이미지 변형 장치, 방법 및 컴퓨터 판독 가능한 기록매체

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102171332B1 (ko) 2013-09-10 2020-10-28 에스케이플래닛 주식회사 얼굴 영상 보정 장치, 방법 및 컴퓨터 프로그램이 기록된 기록매체

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200036656A (ko) * 2018-09-28 2020-04-07 한국전자통신연구원 얼굴 이미지 비식별화 장치 및 방법
KR20200132833A (ko) * 2019-05-15 2020-11-25 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 가상 아바타 발생 방법 및 장치, 및 저장 매체
KR20210037406A (ko) * 2019-09-27 2021-04-06 영남대학교 산학협력단 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법
KR20210108529A (ko) * 2020-02-25 2021-09-03 주식회사 하이퍼커넥트 이미지 변형 장치, 방법 및 컴퓨터 판독 가능한 기록매체
KR102266165B1 (ko) * 2021-03-26 2021-06-17 인하대학교 산학협력단 적대적 생성신경망에서의 개인별 변조를 이용한 얼굴 연령 편집 방법 및 장치

Also Published As

Publication number Publication date
KR102409988B1 (ko) 2022-06-16

Similar Documents

Publication Publication Date Title
WO2023080266A1 (ko) 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치
WO2021206284A1 (ko) 사이클 gan과 세그맨테이션을 사용한 깊이 추정 방법 및 시스템
CN108537743A (zh) 一种基于生成对抗网络的面部图像增强方法
WO2021208601A1 (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
WO2020256471A1 (ko) 머신 러닝 기반의 발화 동영상 생성 방법 및 장치
WO2023040679A1 (zh) 人脸图片的融合方法、装置、设备及存储介质
CN110490959B (zh) 三维图像处理方法及装置、虚拟形象生成方法以及电子设备
CN113408343B (zh) 基于双尺度时空分块互注意力的课堂动作识别方法
WO2020231005A1 (ko) 영상 처리 장치 및 그 동작방법
CN115914505B (zh) 基于语音驱动数字人模型的视频生成方法及系统
CN111291669A (zh) 一种双通道俯角人脸融合校正gan网络及人脸融合校正方法
CN112036260A (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
US20240161461A1 (en) Object detection method, object detection apparatus, and object detection system
CN112487981A (zh) 基于双路分割的ma-yolo动态手势快速识别方法
WO2024051480A1 (zh) 图像处理方法、装置及计算机设备、存储介质
CN112257639A (zh) 基于人体骨架的学生学习行为识别方法
CN115601710A (zh) 基于自注意力网络架构的考场异常行为监测方法及系统
CN116403260A (zh) 一种ai人脸替换方法
Tariq et al. Sign language localization: Learning to eliminate language dialects
WO2022260385A1 (ko) 얼굴형을 고려하며 딥러닝 네트워크를 이용하는 배경 및 얼굴 합성 방법 및 장치
WO2024106630A1 (ko) 인공지능 기반 영상 콘텐츠 제작 시스템 및 방법
WO2022255523A1 (ko) 멀티 스케일 객체 이미지 복원 방법 및 장치
CN113688674A (zh) 一种基于ar智能眼镜的局部图像识别方法及系统
CN112329890B (zh) 图像处理方法及装置、电子设备及存储介质
CN113807251A (zh) 一种基于外观的视线估计方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21963366

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE