KR102409988B1 - 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치 - Google Patents

딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치 Download PDF

Info

Publication number
KR102409988B1
KR102409988B1 KR1020210149532A KR20210149532A KR102409988B1 KR 102409988 B1 KR102409988 B1 KR 102409988B1 KR 1020210149532 A KR1020210149532 A KR 1020210149532A KR 20210149532 A KR20210149532 A KR 20210149532A KR 102409988 B1 KR102409988 B1 KR 102409988B1
Authority
KR
South Korea
Prior art keywords
face
information
image
target
face image
Prior art date
Application number
KR1020210149532A
Other languages
English (en)
Inventor
강지수
유상민
문승준
Original Assignee
주식회사 클레온
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 클레온 filed Critical 주식회사 클레온
Priority to KR1020210149532A priority Critical patent/KR102409988B1/ko
Priority to PCT/KR2021/015768 priority patent/WO2023080266A1/ko
Application granted granted Critical
Publication of KR102409988B1 publication Critical patent/KR102409988B1/ko

Links

Images

Classifications

    • G06T3/0056
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Image Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 일 측면은 딥러닝 네트워크를 이용한 얼굴 변환 방법으로서 목표 얼굴 이미지 및 유도 얼굴 이미지를 입력 받는 단계, 목표 얼굴 이미지 내 목표 얼굴의 정면 여부를 판단하는 단계, 정면의 목표 얼굴 이미지 및 유도 얼굴 이미지에 대하여 이미지 전처리를 수행하는 단계 및 정면의 목표 얼굴 이미지에 대하여 다대다 얼굴 변환을 수행하여 정면의 목표 얼굴 이미지의 생김새 독립 정보를 유도 얼굴 이미지의 생김새 독립 정보로 변환하는 단계를 포함한다.

Description

딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치{Method and apparatus for face swapping using deep learning network}
본 발명은 딥러닝 네트워크를 이용한 얼굴 변환 기술에 관한 것으로서, 목표(Target) 얼굴의 생김새를 보존하면서 유도(Driving) 얼굴의 생김새 독립 정보가 반영된 이미지 또는 동영상을 생성하기 위한 얼굴 변환 방법 및 장치에 관한 것이며, 한 장의 목표 얼굴 이미지를 이용하더라도 얼굴 변환이 가능한 방법 및 장치에 관한 것이다.
인공지능의 한 분야인 딥러닝을 이용한 얼굴과 배경의 합성 기술은 고해상도의 이미지를 생성해 낼 수 있을 정도로 높은 수준의 발전을 보여왔다. 종래에는 사용자가 직접 이미지 보정 소프트웨어를 이용하여 얼굴 이미지와 배경 이미지를 보정하였으므로 사용자의 숙련도에 따라 보정 후의 이미지의 퀄리티가 상이한 점이 있었다. 최근에는, 수많은 데이터 학습을 통해 모델링된 딥러닝 네트워크를 이용할 수 있게 됨으로써, 보편적이고, 일관성이 있으며, 보다 자연스러운 얼굴과 배경의 합성이 가능하게 되었다. 더욱 최근에는, 얼굴 변환 기술을 통해 생성된 얼굴을, 원하는 배경과 합성시켜 가상의 공간에서 자신을 나타내거나, 동영상 속의 유명 인물의 얼굴을 자신 또는 다른 인물의 얼굴로 대체하는 등의 프로그램들이 제공되고 있다.
한편, 2014년 적대적 신경망(Generative Adversarial Network, 이하 GAN)의 등장을 기점으로 대부분의 얼굴 변환 모델은 GAN을 기반으로 만들어지고 있다. GAN의 경우 수많은 짝지어지지 않은(Unpaired) 데이터 셋을 이용해서 한 도메인의 데이터를 다른 도메인의 데이터로 생성한다. 기존의 GAN 기반 얼굴 변환 모델의 경우, 목표 얼굴의 수많은 얼굴 데이터를 수집해서 이를 유도(Driving) 얼굴과 짝지어서 학습을 시키는 방식으로 설계되었다.
이러한 GAN 기반 얼굴 변환 모델의 경우, 목표 얼굴과 유도 얼굴에 해당하는 수많은 이미지가 필요하다. 하지만, 무작위의 많은 사용자를 대상으로 얼굴 변환을 수행하기에 이 방법은 무리가 있다. 각 사용자에 해당하는 방대한 양의 데이터를 일일이 수집할 수 없고, 사용자 별로 모델 학습을 새롭게 진행하는 것은 컴퓨팅 자원을 굉장히 많이 소모하기 때문이다.
대한민국 등록특허공보 제10-2171332호
본 발명은, 목표 얼굴의 생김새를 보존하면서 유도 얼굴의 생김새 독립 정보가 반영된 이미지 또는 동영상을 생성하기 위한 얼굴 변환 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명은, 한 장의 목표 얼굴 이미지를 이용하더라도 얼굴 변환이 가능한 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명은, 한 장의 목표 얼굴 이미지를 이용하며, 다대다(Many-to-Many) 얼굴 변환 모델로 얼굴 변환이 가능한 얼굴 변환 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명의 일 측면은, 딥러닝 네트워크를 이용한 얼굴 변환 방법으로서, 목표 얼굴 이미지 및 유도 얼굴 이미지를 입력 받는 단계, 목표 얼굴 이미지 내 목표 얼굴의 정면 여부를 판단하는 단계, 정면의 목표 얼굴 이미지 및 유도 얼굴 이미지에 대하여 이미지 전처리를 수행하는 단계 및 정면의 목표 얼굴 이미지에 대하여 다대다 얼굴 변환을 수행하여 정면의 목표 얼굴 이미지의 생김새 독립 정보를 유도 얼굴 이미지의 생김새 독립 정보로 변환하는 단계를 포함할 수 있다.
생김새 독립 정보는, 상하좌우의 얼굴 각도 정보, 표정 정보, 얼굴 명암 정보 및 조명 정보 중 적어도 하나 이상을 포함할 수 있다.
목표 얼굴의 정면 여부를 판단하는 단계에서 목표 얼굴이 정면이 아닌 것으로 판단하는 경우, 얼굴 임베딩 네트워크를 통하여 스타일 벡터를 추출하는 단계 및 얼굴 생성 네트워크를 통하여 정면 얼굴을 생성하는 단계를 수행할 수 있다.
스타일 벡터를 추출하는 단계는, 목표 얼굴 이미지의 목표 얼굴로부터 생김새 정보에 대한 스타일 벡터를 추출하는 단계, 입력 받은 임의의 정면 얼굴 이미지의 정면 얼굴로부터 얼굴 각도 정보에 대한 스타일 벡터를 추출하는 단계 및 목표 얼굴의 생김새 정보에 대한 스타일 벡터 및 정면 얼굴의 얼굴 각도 정보에 대한 스타일 벡터를 결합하는 단계를 포함할 수 있다.
얼굴 생성 네트워크를 통하여 정면 얼굴을 생성하는 단계는, 결합된 스타일 벡터 각각에 대한 적응적 인스턴트 정규화(AdaIN) 연산을 수행하는 단계 및 적응적 인스턴트 정규화 연산을 통해 이미지 사이즈를 스케일업하는 단계를 포함할 수 있다.
다대다 얼굴 변환은, 정면의 목표 얼굴에 대한 생김새 정보를 인코딩하는 단계, 유도 얼굴에 대한 생김새 독립 정보를 인코딩하는 단계, 생김새 독립 정보를 디코딩하여 적어도 하나 이상의 중간 행렬을 출력하는 단계, 적어도 하나 이상의 중간 행렬을 픽셀 이동 행렬로 산출하는 단계 및 인코딩된 생김새 정보 및 산출된 픽셀 이동 행렬을 이용하여 인코딩된 생김새 정보를 디코팅하는 단계를 포함할 수 있다.
본 발명의 다른 일 측면은, 딥러닝 네트워크를 이용한 얼굴 변환 장치로서, 목표 얼굴 이미지 및 유도 얼굴 이미지를 입력 받는 입력부, 목표 얼굴 이미지 내 목표 얼굴의 정면 여부를 판단하는 정면 얼굴 판단부, 정면의 목표 얼굴 이미지 및 유도 얼굴 이미지에 대하여 이미지 전처리를 수행하는 이미지 전처리부 및 정면의 목표 얼굴 이미지에 대하여 다대다 얼굴 변환을 수행하여 정면의 목표 얼굴 이미지의 생김새 독립 정보로 유도 얼굴 이미지의 생김새 독립 정보로 변환하는 다대다 얼굴 변환 네트워크부를 포함할 수 있다.
생김새 독립 정보는, 상하좌우의 얼굴 각도 정보, 표정 정보, 얼굴 명암 정보 및 조명 정보 중 적어도 하나 이상을 포함할 수 있다.
얼굴 변환 장치는 얼굴 임베딩 네트워크부 및 얼굴 생성 네트워크부를 포함하며, 정면 얼굴 판단부가 목표 얼굴이 정면이 아닌 것으로 판단하는 경우, 얼굴 임베딩 네트워크부는 스타일 벡터를 추출하며, 얼굴 생성 네트워크부는 정면 얼굴을 생성할 수 있다.
얼굴 임베딩 네트워크부는 목표 얼굴 이미지의 목표 얼굴로부터 생김새 정보에 대한 스타일 벡터를 추출하고, 입력 받은 임의의 정면 얼굴 이미지의 정면 얼굴로부터 얼굴 각도 정보에 대한 스타일 벡터를 추출하며, 목표 얼굴의 생김새 정보에 대한 스타일 벡터 및 정면 얼굴의 얼굴 각도 정보에 대한 스타일 벡터를 결합할 수 있다.
얼굴 생성 네트워크부는 결합된 스타일 벡터 각각에 대한 적응적 인스턴트 정규화(AdaIN) 연산을 수행하고, 적응적 인스턴트 정규화 연산을 통해 이미지 사이즈를 스케일업할 수 있다.
다대다 얼굴 변환 네트워크부는 정면의 목표 얼굴에 대한 생김새 정보를 인코딩하는 생김새 정보 인코더, 유도 얼굴에 대한 생김새 독립 정보를 인코딩하는 생김새 독립 정보 인코더, 생김새 독립 정보를 디코딩하여 적어도 하나 이상의 중간 행렬을 출력하는 생김새 독립 정보 디코더, 적어도 하나 이상의 중간 행렬을 픽셀 이동 행렬로 산출하는 픽셀 이동 함수 연결부 및 인코딩된 생김새 정보 및 산출된 픽셀 이동 행렬을 이용하여 인코딩된 생김새 정보를 디코팅하는 생김새 정보 디코더를 포함할 수 있다.
본 발명에 따르면, 한 장의 목표 얼굴 이미지만으로도 얼굴 변환이 가능하므로 엔터테인먼트 어플리케이션, 실시간 교육 영상 제작 등 다양한 분야에서 얼굴 변환 기술을 적용할 수 있다.
본 발명에 따르면, 다대다 얼굴 변환 모델을 이용하여 얼굴 변환을 수행함으로써 추가적인 비용 없이 실시간으로 다대다 얼굴 변환을 할 수 있다.
도 1은 본 발명의 일 실시예에 따른 얼굴 변환 장치를 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 얼굴 변환 방법을 도시한 순서도이다.
도 3은 본 발명의 일 실시예에 따른 얼굴 임베딩 모델을 이용한 얼굴 임베딩 방법을 도시한 순서도이다.
도 4는 본 발명의 일 실시예에 따른 얼굴 임베딩 모델을 이용한 얼굴 생성 방법을 도시한 순서도이다.
도 5는 본 발명의 일 실시예에 따른 얼굴 정면화를 통한 정면 이미지 생성 과정을 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 다대다 얼굴 변환 네트워크부를 도시한 도면이다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다.
먼저, 본 발명의 일 구성 중 다대다 얼굴 변환 네트워크 및 이와 대비되는 일대일 얼굴 변환에 대하여 설명하도록 한다.
다대다 얼굴 변환 네트워크
다대다 얼굴 변환 네트워크는 하나의 생성자 네트워크를 이용하여 서로 다른 인물의 얼굴 이미지에 대한 각각의 얼굴 변환 결과물을 생성 및 출력하도록 미리 학습된 네트워크를 말한다.
다대다 얼굴 변환 네트워크는 테스트 단계에서 처음 접하는 인물 다시 말해서, 학습 단계에서 학습하지 못하였던/않았던 얼굴에 대해서도 얼굴 변환이 가능해야 하기 때문에 다대다 얼굴 변환은 일대일 얼굴 변환과 비교하여, 기술적으로 어려운 얼굴 변환에 해당한다.
다대다 얼굴 변환 네트워크는, 일대일 얼굴 변환과 달리, 변환하고자 하는 인물의 얼굴을 학습 단계에 반영하여 모델을 학습해 주어야 할 필요가 없으므로 추가 학습 시간이 필요하지 않으며, 매번 모델을 저장해야 되는 번거로움을 제거할 수 있다. 따라서, 다대다 얼굴 변환은 시간적, 컴퓨팅 자원적 한계로부터 자유롭다고 할 수 있다.
일대일 얼굴 변환 네트워크
일대일 얼굴 변환 네트워크는, 하나의 생성자 네트워크를 이용하여 인물 한 명의 얼굴 이미지에 대한 얼굴 변환 결과물을 생성 및 출력할 수 있는 네트워크를 말한다.
일대일 얼굴 변환 네트워크는 학습 단계에서, 예컨대 인물 A의 얼굴 이미지 수만 장을 이용하여 어떤 입력 조건에서도 인물 A의 얼굴을 딥러닝 네트워크가 생성할 수 있도록 생성자(Generator)를 학습한다.
학습을 마친 생성자 네트워크는 테스트 단계에서 인물 A의 얼굴을 생성할 수 있고, 예컨대, 인물 B의 얼굴 포즈 및/또는 표정 정보를 입력하는 경우 생성자 네트워크는 인물 B의 얼굴 포즈 및/또는 표정을 따라하는 인물 A를 생성할 수 있다.
이와 같이, 수만 장의 이미지와 수백 시간의 학습 시간이 동반되어 겨우 한 인물 즉, 인물 A의 얼굴을 다양한 입력 조건에 맞추어 생성해내는 기술이 일대일 얼굴 변환이다.
일대일 얼굴 변환에서, 새로운 인물 예컨대, 인물 C의 얼굴 이미지에 대한 얼굴 변환 결과물을 얻기 위해서는 다시 처음부터 새로운 얼굴 수만 장을 이용하여 또 다른 생성자 네트워크를 수일 동안 학습해야 한다.
대부분의 얼굴 변환 연구는 일대일 얼굴 변환에 그친다. 일대일 변환 작업을 위한 네트워크 학습이 수월하고, 학습이 수월한 만큼 결과물의 성능 개선도 쉽기 때문이다.
이하, 도면을 참조하여, 본 발명에 대하여 구체적으로 설명하도록 한다. 도 1은 본 발명의 일 실시예에 따른 얼굴 변환 장치를 도시한 도면이다. 도 1을 참조하면, 얼굴 변환 장치(100)는 목표 얼굴 이미지 입력부(200), 유도 얼굴 이미지 입력부(300), 정면 얼굴 판단부(400), 얼굴 임베딩(Embedding) 네트워크부(500), 얼굴 생성 네트워크부(600), 이미지 전처리부(700), 다대다 얼굴 변환 네트워크부(800) 및 이미지 후처리부(900)를 포함한다.
목표 얼굴 이미지 입력부(200)는 목표 얼굴 이미지를 입력 받을 수 있고, 목표 얼굴 이미지를 정면 얼굴 판단부(400)로 전달할 수 있다. 여기서, 목표 얼굴 이미지는 생김새 독립 정보(Identity-independent property 또는 Identity-agnostic property)의 변환을 목적으로 하는 얼굴이 포함된 이미지를 말한다. 목표 얼굴 이미지에는 얼굴이 포함된 동영상으로부터 캡쳐된 하나의 프레임을 포함한다.
본 발명의 일 실시예에 따르면, 생김새 독립 정보는 상하좌우의 얼굴 각도 정보, 표정 정보, 얼굴 명암 정보 및 조명 정보 중 적어도 하나 이상을 포함할 수 있다. 생김새 독립 정보가 전술한 예에 한정되는 것은 아니며, 얼굴 생김새와 독립한 정보이면 어떠한 정보든 생김새 독립 정보에 포함될 수 있다.
본 발명의 일 실시예에 따르면, 사용자 단말기(미도시)가 목표 얼굴 이미지 입력부(200)에 목표 얼굴 이미지를 입력할 수 있다.
본 발명의 다른 실시예에 따르면, 얼굴 변환 장치(100)의 목표 얼굴 이미지 선택부(미도시)가 얼굴 변환 장치(100)의 목표 얼굴 이미지 저장부(미도시)에 저장된 목표 얼굴 이미지를 선택하여 목표 얼굴 이미지 입력부(200)에 목표 얼굴 이미지를 입력할 수 있다.
본 발명의 다른 실시예에 따르면, 사용자 단말기(미도시)가 목표 얼굴 이미지 저장부(미도시)에 저장된 목표 얼굴 이미지를 선택하여 목표 얼굴 이미지 입력부(200)에 목표 얼굴 이미지를 입력할 수 있다.
정면 얼굴 판단부(400)는 후술하는 바와 같이, 목표 얼굴 이미지에서 목표 얼굴이 정면을 향하고 있는지 즉, 목표 얼굴 이미지가 정면 얼굴 이미지에 해당하는지 여부를 판단할 수 있다.
유도 얼굴 이미지 입력부(300)는 유도 얼굴 이미지를 입력 받을 수 있고, 유도 얼굴 이미지를 이미지 전처리부(700)로 전달할 수 있다. 여기서, 유도 얼굴 이미지는 목표 얼굴 이미지에 반영될 생김새 독립 정보를 제공하는 이미지를 말한다. 유도 얼굴 이미지는 얼굴이 포함된 동영상으로부터 캡쳐된 하나의 프레임을 포함한다.
생김새 독립 정보는 전술한 바와 같이, 상하좌우의 얼굴 각도 정보, 표정 정보, 얼굴 명암 정보 및 조명 정보 중 적어도 하나 이상을 포함할 수 있다. 생김새 독립 정보가 전술한 예에 한정되는 것은 아니며, 얼굴 생김새와 독립한 정보이면 어떠한 정보든 생김새 독립 정보에 포함될 수 있다.
유도 얼굴 이미지는 정면 얼굴 이미지에 해당하지 않을 수 있다. 즉, 유도 얼굴 이미지는 비정면 얼굴 이미지 및 정면 얼굴 이미지를 포함할 수 있다. 이에 따라, 유도 얼굴 이미지로부터 다양한 생김새 독립 정보를 확보할 수 있다.
본 발명의 일 실시예에 따르면, 사용자 단말기(미도시)가 유도 얼굴 이미지 입력부(300)에 유도 얼굴 이미지를 입력할 수 있다.
본 발명의 다른 실시예에 따르면, 얼굴 변환 장치(100)의 유도 얼굴 이미지 선택부(미도시)가 얼굴 변환 장치(100)의 유도 얼굴 이미지 저장부(미도시)에 저장된 유도 얼굴 이미지를 선택하여 유도 얼굴 이미지 입력부(300)에 유도 얼굴 이미지를 입력할 수 있다.
본 발명의 다른 실시예에 따르면, 사용자 단말기(미도시)가 유도 얼굴 이미지 저장부(미도시)에 저장된 유도 얼굴 이미지를 선택하여 유도 얼굴 이미지 입력부(300)에 유도 얼굴 이미지를 입력할 수 있다.
정면 얼굴 판단부(400)는 목표 얼굴 이미지가 정면 얼굴 이미지에 해당하는지 여부를 판단할 수 있다. 예를 들어, 목표 얼굴 이미지로부터 얼굴 형태를 인식하여 얼굴이 상, 하, 좌, 우 방향으로 치우친 각도를 인식하여 해당 각도 값을 산출하거나, 얼굴이 시계 방향으로 또는 반시계 방향으로 회전한 각도를 인식하여 해당 각도 값을 산출하거나, 눈, 코, 입, 귀 등의 좌우 대칭 상태 등을 토대로 기 설정된 임계 값에 기반하여 목표 얼굴이 정면 얼굴인지 또는 정면 얼굴이 아닌지를 판단할 수 있다.
정면 얼굴 판단부(400)가 목표 얼굴 이미지를 정면 얼굴 이미지로 판단한 경우, 정면 얼굴 판단부(400)는 목표 얼굴 이미지를 이미지 전처리부(700)로 전달할 수 있다. 이와 반대로, 정면 얼굴 판단부(400)가 목표 얼굴 이미지를 정면 얼굴 이미지가 아닌 것으로 판단한 경우, 정면 얼굴 판단부(400)는 목표 얼굴 이미지를 얼굴 임베딩 네트워크부(500)로 전달할 수 있다.
얼굴 임베딩 네트워크부(500)는 목표 얼굴 이미지(비정면 얼굴 이미지에 한함)로부터 512차원 벡터 18개를 출력할 수 있다. 각각의 벡터는 스타일 벡터로 정의될 수 있으며, 목표 얼굴 이미지의 정보를 포함할 수 있다.
18*512 크기의 스타일 벡터 행렬 중 앞 쪽에 해당하는 벡터(예컨대, 1~5번째 벡터)는 얼굴 각도 정보를 내포하며, 얼굴 각도 정보는 후술하는 생김새 정보와 대비하여 상대적으로 개괄적인 정보를 말한다. 여기서, 얼굴 각도 정보는 정면을 기준으로 상, 하, 좌, 우 얼굴이 기울어진 각도 정보 및/또는 얼굴이 시계 방향 또는 반시계 방향으로 회전한 각도 정보를 포함한다. 18*512 크기의 스타일 벡터 행렬 중 뒤 쪽에 해당하는 벡터(예컨대, 6~18번째 벡터)는 생김새 정보를 내포하며, 생김새 정보는 예컨대, 눈, 코, 입, 귀의 위치, 크기, 눈의 색, 피부, 주름 등 전술한 얼굴 각도 정보와 대비하여 상대적으로 상세한 정보를 말한다. 이와 같이, 각 스타일 벡터가 서로 다른 정보를 포함하도록 하는 것을 특징 분리(Feature Disentanglement)라 하며, 특징 분리를 통해 목표 얼굴의 특징을 조절할 수 있다.
얼굴 임베딩 네트워크부(500)는 목표 얼굴 이미지로부터 스타일 벡터를 추출할 수 있으며, 추출된 스타일 벡터를 얼굴 생성 네트워크부(600)로 전달할 수 있다.
얼굴 생성 네트워크부(600)는 얼굴 임베딩 네트워크부(500)로부터 전달된 18*512 크기의 스타일 벡터 행렬을 이용하여 목표 얼굴의 정면 얼굴을 생성할 수 있다. 얼굴 생성 네트워크부(600)는 18개의 레이어(layer)로 구성될 수 있으며, 512차원의 스타일 벡터를 입력 받아 적응적 인스턴트 정규화(Adaptive Instance Normalization: 이하 AdaIN) 연산을 수행할 수 있다. AdaIN 연산은 기존의 데이터 분포(Distribution)를 새로 입력되는 데이터의 분포에 맞게 정규화하는 연산을 말한다. 이를 통해 입력된 스타일 벡터가 포함하고 있는 목표 얼굴 이미지의 정보를 복원할 수 있다. 한번의 AdaIN 연산을 거치면서 목표 얼굴 이미지의 사이즈가 한번씩 스케일업(Scale-up) 되면서 점차 고해상도의 목표 얼굴 이미지를 생성할 수 있다.
이미지 전처리부(700)는 목표 얼굴 이미지 및 유도 얼굴 이미지에 대하여 이미지 전처리를 수행할 수 있다. 이미지 전처리부(700)는 목표 얼굴 이미지 및 유도 얼굴 이미지에서 각 얼굴을 인식하여 이미지 크기 정렬을 수행할 수 있다. 딥러닝 기반 얼굴 탐지 알고리즘을 이용하여 얼굴 부분을 탐지할 수 있고, 이목구비 배치에 기반하여 중심부를 설정할 수 있으며, 중심부를 기준으로 256 픽셀의 정방형 이미지를 생성할 수 있다.
딥러닝 기반 얼굴 탐지 알고리즘으로 S3FD(Single Shot Scale-invariant Face Detector), ArcFace(Additive Angular Margin Loss for Deep Face Recognition), HOG(Histogram of Oriented Gradients) 등이 사용될 수 있다. 다만, 이에 한정되지 않으며 다양한 딥러닝 기반 얼굴 탐지 알고리즘이 적용될 수 있다. 생성된 정방향 이미지들은 이미지 전처리부(700)의 저장부(미도시)에 저장될 수 있고, 정방형 이미지 중에서 정면을 향하고 있는 이미지들은 인물 별로 분류하여 별도로 저장될 수도 있다.
다대다 얼굴 변환 네트워크부(800)는 이미지 전처리부(700)로부터 전달된 목표 얼굴 이미지 및 유도 얼굴 이미지에 대하여 얼굴 변환을 수행할 수 있다. 보다 구체적으로, 다대다 얼굴 변환 네트워크부(800)는 목표 얼굴의 생김새를 보존하면서 목표 얼굴의 생김새 독립 정보를 유도 얼굴의 생김새 독립 정보로 변환할 수 있다. 다대다 얼굴 변환 네트워크부(800)는 픽셀 이동 함수를 정의하여 생김새 독립 정보를 변환하는 방식으로 전술한 변환을 수행할 수 있다.
이미지 후처리부(900)는 다대다 얼굴 변환 네트워크부(800)를 통하여 출력된 이미지에 대하여 이미지 후처리를 수행하여 목표 얼굴의 생김새를 가지면서 유도 얼굴의 생김새 독립 정보를 가진 얼굴 이미지를 출력할 수 있다.
도 2는 본 발명의 일 실시예에 따른 얼굴 변환 과정을 도시한 순서도이다. 도 2를 참조하면, 205 단계에서 목표 얼굴 이미지 입력부(200)는 목표 얼굴 이미지를 입력 받아 정면 얼굴 판단부(400)로 전달할 수 있고, 210 단계에서 정면 얼굴 판단부(400)는 목표 얼굴 이미지가 정면 얼굴 이미지에 해당하는지 즉, 목표 얼굴이 정면 얼굴에 해당하는지 여부를 판단할 수 있다.
정면 얼굴 판단부(400)의 판단 결과, 목표 얼굴 이미지가 정면 얼굴 이미지에 해당하지 않는 경우, 215 단계가 진행될 수 있으며 얼굴 임베딩 네트워크부(500)는 목표 얼굴 이미지로부터 스타일 벡터를 추출할 수 있다. 이후, 220 단계가 진행될 수 있으며, 얼굴 생성 네트워크부(600)는 비정면 목표 얼굴 이미지를 정면의 목표 얼굴 이미지로 변환할 수 있다.
210 단계에서, 정면 얼굴 판단부(400)는 목표 얼굴 이미지 입력부(200) 로부터 전달된 목표 얼굴 이미지 또는 215 단계 및 220 단계를 통하여 생성된 목표 얼굴 이미지가 정면 얼굴 이미지에 해당하는 것으로 판단한 경우, 225 단계를 진행할 수 있으며, 정면의 목표 얼굴 이미지 및 유도 얼굴 이미지를 이미지 전처리부(700)에 전달할 수 있다.
이미지 전처리부(700)는 정면의 목표 얼굴 이미지 및 유도 얼굴 이미지에 대하여 전처리를 수행할 수 있다. 전처리 수행 후, 230 단계가 진행될 수 있으며 다대다 얼굴 변환 네트워크부(800)는 전처리된 각 이미지를 이용하여 다대다 얼굴 변환을 수행할 수 있다. 이후, 235 단계가 진행될 수 있으며, 이미지 후처리부(900)는 다대다 얼굴 변환 네트워크부(800)를 통하여 출력된 변환 이미지에 대하여 이미지 후처리를 수행하여 목표 얼굴의 생김새를 가지면서 유도 얼굴의 생김새 독립 정보를 가진 최종 얼굴 이미지를 출력할 수 있다.
도 3은 본 발명의 일 실시예에 따른 얼굴 임베딩 모델을 이용한 얼굴 임베딩 방법을 도시한 순서도이다. 도 3을 참조하면, 305 단계에서 얼굴 임베딩 네트워크부(500)는 정면 얼굴 판단부(400)로부터 목표 얼굴 이미지를 입력 받을 수 있고, 정면 얼굴 저장부(미도시) 및 정면 얼굴 선택부(미도시)에 의해 임의로 선택된, 임의의 정면 얼굴 이미지를 입력받을 수 있다.
310 단계에서, 목표 얼굴 이미지 및 임의의 정면 얼굴 이미지에 대하여 이미지 전처리를 수행할 수 있으며, 얼굴을 중심으로 각 이미지의 크기를 기 설정된 사이즈로 정렬할 수 있으며, 고해상도(예컨대, 1,024 픽셀)로 사이즈를 재조정할 수 있다.
315 단계에서, 이미지 전처리 단계를 통과한 각 이미지를 컨볼루션 네트워크에 입력하여 공간적인 차원을 줄여나갈 수 있으며, 이미지의 특성을 점점 높은 레벨의 벡터로 압축해 나가는 단계별 스타일 벡터 추출을 수행할 수 있다. 스타일 벡터 추출 과정은 총 3단계로 구성될 수 있으며, 각 단계에서 6개의 스타일 벡터를 추출하여 총 18개의 스타일 벡터를 출력할 수 있다. 목표 얼굴 이미지에 대한 스타일 벡터 18개 및 임의의 정면 얼굴 이미지에 대한 스타일 벡터 18개를 출력할 수 있다.
320 단계에서, 현재 출력된 스타일 벡터가 목표 얼굴의 스타일 벡터에 해당하는지 여부를 판단할 수 있고, 목표 얼굴의 생김새 정보를 내포하는 스타일 벡터만을 추출하기 위하여 320 단계를 수행할 수 있다.
320 단계에서, 목표 얼굴의 스타일 벡터에 해당하는 것으로 판단한 경우, 325 단계에서, 목표 얼굴 이미지에 대한 6~18번째 스타일 벡터를 추출할 수 있다. 전술한 예와 같이, 6~18번째 스타일 벡터는, 얼굴에서, 생김새 정보 예컨대, 눈의 색, 피부, 주름 등 상대적으로 상세한 정보를 내포한다.
320 단계에서, 목표 얼굴의 스타일 벡터에 해당하지 않는 것으로 판단한 경우, 330 단계에서, 임의의 정면 얼굴 이미지에 대한 1~5번째 스타일 벡터를 추출할 수 있다. 전술한 예와 같이, 1~5번째 스타일 벡터는, 얼굴에서, 얼굴 각도 등 상대적으로 개괄적인 정보를 내포한다.
335 단계에서, 325 단계 및 330 단계를 통해 추출된 스타일 벡터들을 병합하여 18개의 스타일 벡터로 복원을 수행할 수 있다. 즉, 목표 얼굴의 생김새 정보를 내포하는 6~18번째 스타일 벡터와 임의의 정면 얼굴의 얼굴 각도 정보를 내포하는 1~5번째 스타일 벡터를 병합한다.
340 단계에서, 병합된 스타일 벡터를 입력 받아 정면 얼굴 이미지를 생성할 수 있다. 얼굴 임베딩 네트워크부(500)의 특징 분리(Feature Disentanglement) 성질로 인하여 생김새 정보를 내포하는 스타일 벡터와 얼굴 각도 정보를 내포하는 스타일 벡터를 분리할 수 있다.
도 4는 본 발명의 일 실시예에 따른 얼굴 임베딩 모델을 이용한 얼굴 생성 방법을 도시한 순서도이다. 도 4를 참조하면, 410 단계에서 얼굴 생성 네트워크부(600)는 얼굴 임베딩 네트워크부(500)로부터 18개의 레이어로 이루어진 스타일 벡터 행렬을 전달 받을 수 있다. 여기서, 스타일 벡터는, 전술한 바와 같이, 목표 얼굴의 생김새 정보를 내포하는 6~18번째 스타일 벡터와 임의의 정면 얼굴의 얼굴 각도 정보를 내포하는 1~5번째 스타일 벡터가 병합된 스타일 벡터를 말한다.
420 단계에서, 18번째 레이어 도달 여부를 판단할 수 있다. 1번째 레이어부터 18번째 레이어 연산까지 모두 수행되어 고화질의 이미지가 생성되었는지 여부를 확인할 수 있다.
얼굴 생성 네트워크부(600)가 18번째 레이어 연산을 마치지 못한 것으로 판단한 경우, 430 단계가 진행될 수 있고, n번째 스타일 벡터를 이용한 AdaIN 연산이 수행될 수 있다. 즉, 계산된 행렬의 한 행을 입력 받고, 이를 이용하여 AdaIN 연산을 수행할 수 있다. AdaIN 연산을 통해 생성되는 이미지는 입력 스타일 벡터의 분포를 따라가고, 이는 최종적으로 이미지의 스타일을 결정하는데 영향을 줄 수 있다.
440 단계에서, 이미지의 스케일업을 통해 생성된 저화질 이미지의 사이즈를 2배로 늘려줄 수 있다. 스케일업은 이미지가 정교하게 점점 더 고화질이 되도록 보조함으로써 얼굴 생성 네트워크부(600)는 순차적으로 안정적인 고화질의 이미지를 생성할 수 있다.
도 5는 본 발명의 일 실시예에 따른 얼굴 정면화를 통한 정면 이미지 생성 과정을 도시한 도면이다. 도 5의 정면 이미지 생성 과정은 도 1의 얼굴 변환 장치(100)의 정면 얼굴 판단부(400), 얼굴 임베딩 네트워크부(500) 및 얼굴 생성 네트워크부(600) 등에 의해 수행될 수 있다.
비정면 목표 얼굴 이미지(505)를 입력 받을 수 있고, 비정면 목표 얼굴 이미지로부터 목표 얼굴 스타일 벡터(515)를 추출할 수 있다(510). 목표 얼굴 스타일 벡터(515)는 목표 얼굴의 얼굴 각도 정보에 대한 스타일 벡터 및 목표 얼굴의 생김새 정보에 대한 스타일 벡터를 내포할 수 있다.
임의의 정면 얼굴 이미지(520)를 입력 받을 수 있고, 임의의 정면 얼굴 이미지(520)로부터 정면 얼굴 스타일 벡터(530)를 추출할 수 있다(525). 정면 얼굴 스타일 벡터(530)는 임의의 정면 얼굴의 얼굴 각도 정보에 대한 스타일 벡터 및 정면 얼굴의 생김새 정보에 대한 스타일 벡터를 내포할 수 있다.
목표 얼굴의 생김새 정보에 대한 스타일 벡터들과 임의의 정면 얼굴의 얼굴 각도 정보에 대한 스타일 벡터들을 병합할 수 있고(535), 정면을 향하는 목표 얼굴 이미지에 대한 스타일 벡터(540)를 생성할 수 있다. 스타일 벡터들의 병합 시 이용되는 벡터 합성 모델은 가중 합계(weighted sum)를 통해 새로운 벡터를 합성할 수 있으며, 1~5번째 스타일 벡터의 경우 정면 얼굴 스타일 벡터(530)에 가중이 크게 더해지고, 6~18번째 스타일 벡터의 경우 목표 얼굴 스타일 벡터(515)에 가중이 크게 더해질 수 있다. 정면 얼굴 스타일 벡터(530)의 6~18번째 스타일 벡터는 제거될 수 있으며, 목표 얼굴 스타일 벡터(515)의 1~5번째 스타일 벡터 또한 제거될 수 있다. 생성된 스타일 백터(540)에 기반하여 정면의 목표 얼굴 이미지를 생성할 수 있다. 정면의 목표 얼굴 이미지 생성 과정은 병합된 스타일 벡터를 이용하여 목표 얼굴의 생김새 즉, 이목구비에 집중하여 정면화를 수행함으로써 정면 포즈를 가지고 목표 얼굴의 이목구비를 가지는 새로운 얼굴 이미지를 생성할 수 있다.
도 6은 본 발명의 일 실시예에 따른 다대다 얼굴 변환 네트워크부를 도시한 도면이다. 도 6을 참조하면, 다대다 얼굴 변환 네트워크부(800)는 생김새 정보 인코더(620), 생김새 독립 정보 인코더(625), 생김새 독립 정보 디코더(630), 픽셀 이동 함수 연결부(635) 및 생김새 정보 디코더(640)를 포함할 수 있다. 다대다 얼굴 변환 네트워크부(800)는 예컨대, 인물 A의 생김새 정보와 인물 B의 생김새 독립 정보를 독립적으로 추출하여 인물 A의 생김새 정보를 보존하면서 인물 B의 생김새 독립 정보를 가진 인물 A의 얼굴을 생성할 수 있다.
생김새 정보 인코더(620)는 목표 얼굴 이미지로부터 목표 얼굴의 생김새 정보를 인코딩할 수 있다. 인코딩은 컨볼루션 인공신경망(Convolution neural network)을 기반으로 이루어질 수 있으며, 인코딩 결과는 256차원의 벡터로 출력될 수 있다. 생김새 정보 인코더(620)는 목표 얼굴의 생김새 독립 정보를 배제하고, 생김새 정보만을 인코딩할 수 있다.
생김새 독립 정보 인코더(625)는 유도 얼굴 이미지의 생김새 독립 정보를 인코딩할 수 있으며, 생김새 정보 인코더(620)와는 반대로 생김새 정보를 배제하고, 생김새 독립 정보만을 인코딩할 수 있으며, 인코딩 결과를 256차원의 벡터로 출력할 수 있다.
생김새 독립 정보 디코더(630)는 생김새 독립 정보 인코더(625)에서 인코딩된 생김새 독립 정보 벡터를 이용하여 생김새 독립 정보를 복원하는 디코딩을 수행할 수 있다. 디컨볼루션(Deconvolution network)을 이용하여 생김새 독립 정보 벡터의 공간적인 차원을 확장(예컨대, 2배씩 7번, 즉, 1에서 128까지 확장)할 수 있고, 각 확장 단계에서 적어도 하나 이상의, 보다 구체적으로, 적어도 2개 이상의 중간 행렬(예컨대, 7개의 중간 행렬)을 산출할 수 있다. 생김새 독립 정보 디코더(630)는 각 확장 단계에서 산출된 적어도 하나 이상의 중간 행렬을 픽셀 이동 함수 연결부(635)로 전달할 수 있다.
픽셀 이동 함수 연결부(635)는 생김새 정보 디코더(640)에서의 픽셀 이동을 위한 행렬을 출력할 수 있으며, 생김새 정보 디코더(640)에서 2차원 행렬을 x축, y축 방향으로 각각 얼마만큼 이동시킬지 결정할 수 있다. 생김새 독립 정보 디코더(630)에서 출력된 적어도 하나 이상의 중간 행렬을 입력 받아 유도 얼굴 이미지의 생김새 독립 정보를 목표 얼굴 이미지에 반영할 수 있다.
생김새 정보 디코더(640)는 생김새 정보 인코더(620)를 통해 산출된 생김새 정보 벡터와 픽셀 이동 함수 연결부(635)에서 산출된 픽셀 이동 행렬을 입력 받아 디컨볼루션 기반의 연산을 수행하여 유도 얼굴 이미지와 같은 사이즈(예컨대, 256 픽셀)까지 생김새 정보 벡터의 공간적 차원을 확장시킬 수 있다. 이를 통해 목표 얼굴 이미지의 생김새와 유도 얼굴 이미지의 생김새 독립 정보를 가지는 얼굴 이미지를 재현하여 출력할 수 있다.
본 발명에 따르면, 목표 얼굴 이미지가 정면 얼굴 이미지에 해당하지 않더라도 얼굴 변환 장치(100)에 의해 비정면 목표 얼굴 이미지를 정면 얼굴 이미지로 변환할 수 있다. 즉, 정면/비정면의 구분없이 임의의 한 장의 목표 얼굴 이미지를 이용하여 얼굴 변환을 수행할 수 있다. 게다가, 다대다 얼굴 변환 네트워크부(800)가 정면의 목표 얼굴 이미지에 기반하여 얼굴 합성(변환)을 수행함으로써 고화질의 합성(변환) 이미지를 생성할 수 있다. 다대다 얼굴 변환 네트워크부(800)의 수행 없이 곧바로 얼굴을 합성하는 경우, 머리카락이나 얼굴형 등에 왜곡 현상 등이 발생하여 고화질의 합성 이미지를 생성하는데 한계가 있다.
한편, 본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장 장치 등이 있다.
또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.
본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다.
본 발명에서 모든 예들 또는 예시적인 용어(예를 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한 해당 기술 분야의 통상의 기술자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터(factor)에 따라 구성될 수 있음을 알 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라, 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.
이와 같이 본 발명은 도면에 도시된 일 실시예를 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.
100: 얼굴 변환 장치
200: 목표 얼굴 이미지 입력부
300: 유도 얼굴 이미지 입력부
400: 정면 얼굴 판단부
500: 얼굴 임베딩 네트워크부
600: 얼굴 생성 네트워크부
700: 이미지 전처리부
800: 다대다 얼굴 변환 네트워크부
900: 이미지 후처리부

Claims (12)

  1. 목표 얼굴 이미지 및 유도 얼굴 이미지를 입력 받는 단계;
    상기 목표 얼굴 이미지 내 목표 얼굴의 정면 여부를 판단하는 단계;
    정면의 목표 얼굴 이미지 및 상기 유도 얼굴 이미지에 대하여 이미지 전처리를 수행하는 단계; 및
    상기 정면의 목표 얼굴 이미지에 대하여 다대다 얼굴 변환을 수행하여 상기 정면의 목표 얼굴 이미지의 생김새 독립 정보를 상기 유도 얼굴 이미지의 생김새 독립 정보로 변환하는 단계를 포함하며,
    상기 다대다 얼굴 변환은,
    상기 정면의 목표 얼굴에 대한 생김새 정보를 인코딩하는 단계;
    상기 유도 얼굴에 대한 생김새 독립 정보를 인코딩하는 단계;
    상기 생김새 독립 정보를 디코딩하여 적어도 하나 이상의 중간 행렬을 출력하는 단계;
    상기 적어도 하나 이상의 중간 행렬을 픽셀 이동 행렬로 산출하는 단계; 및
    상기 인코딩된 생김새 정보 및 상기 산출된 픽셀 이동 행렬을 이용하여 상기 인코딩된 생김새 정보를 디코팅하는 단계를 포함하는, 딥러닝 네트워크를 이용한 얼굴 변환 방법.
  2. 제1항에 있어서,
    상기 생김새 독립 정보는,
    상하좌우의 얼굴 각도 정보, 표정 정보, 얼굴 명암 정보 및 조명 정보 중 적어도 하나 이상을 포함하는, 딥러닝 네트워크를 이용한 얼굴 변환 방법.
  3. 제1항에 있어서,
    상기 목표 얼굴의 정면 여부를 판단하는 단계에서 상기 목표 얼굴이 정면이 아닌 것으로 판단하는 경우,
    얼굴 임베딩 네트워크를 통하여 스타일 벡터를 추출하는 단계; 및
    얼굴 생성 네트워크를 통하여 정면 얼굴을 생성하는 단계를 수행하는, 딥러닝 네트워크를 이용한 얼굴 변환 방법.
  4. 제3항에 있어서,
    상기 스타일 벡터를 추출하는 단계는,
    상기 목표 얼굴 이미지의 상기 목표 얼굴로부터 생김새 정보에 대한 스타일 벡터를 추출하는 단계;
    입력 받은 임의의 정면 얼굴 이미지의 정면 얼굴로부터 얼굴 각도 정보에 대한 스타일 벡터를 추출하는 단계; 및
    상기 목표 얼굴의 상기 생김새 정보에 대한 스타일 벡터 및 상기 정면 얼굴의 상기 얼굴 각도 정보에 대한 스타일 벡터를 결합하는 단계를 포함하는, 딥러닝 네트워크를 이용한 얼굴 변환 방법.
  5. 제4항에 있어서,
    상기 얼굴 생성 네트워크를 통하여 정면 얼굴을 생성하는 단계는,
    상기 결합된 스타일 벡터 각각에 대한 적응적 인스턴트 정규화(AdaIN) 연산을 수행하는 단계; 및
    상기 적응적 인스턴트 정규화 연산을 통해 이미지 사이즈를 스케일업하는 단계를 포함하는, 딥러닝 네트워크를 이용한 얼굴 변환 방법.
  6. 삭제
  7. 목표 얼굴 이미지 및 유도 얼굴 이미지를 입력 받는 입력부;
    상기 목표 얼굴 이미지 내 목표 얼굴의 정면 여부를 판단하는 정면 얼굴 판단부;
    정면의 목표 얼굴 이미지 및 상기 유도 얼굴 이미지에 대하여 이미지 전처리를 수행하는 이미지 전처리부; 및
    상기 정면의 목표 얼굴 이미지에 대하여 다대다 얼굴 변환을 수행하여 상기 정면의 목표 얼굴 이미지의 생김새 독립 정보를 상기 유도 얼굴 이미지의 생김새 독립 정보로 변환하는 다대다 얼굴 변환 네트워크부를 포함하며,
    상기 다대다 얼굴 변환 네트워크부는,
    상기 정면의 목표 얼굴에 대한 생김새 정보를 인코딩하는 생김새 정보 인코더;
    상기 유도 얼굴에 대한 생김새 독립 정보를 인코딩하는 생김새 독립 정보 인코더;
    상기 생김새 독립 정보를 디코딩하여 적어도 하나 이상의 중간 행렬을 출력하는 생김새 독립 정보 디코더;
    상기 적어도 하나 이상의 중간 행렬을 픽셀 이동 행렬로 산출하는 픽셀 이동 함수 연결부; 및
    상기 인코딩된 생김새 정보 및 상기 산출된 픽셀 이동 행렬을 이용하여 상기 인코딩된 생김새 정보를 디코팅하는 생김새 정보 디코더를 포함하는, 딥러닝 네트워크를 이용한 얼굴 변환 장치.
  8. 제7항에 있어서,
    상기 생김새 독립 정보는,
    상하좌우의 얼굴 각도 정보, 표정 정보, 얼굴 명암 정보 및 조명 정보 중 적어도 하나 이상을 포함하는, 딥러닝 네트워크를 이용한 얼굴 변환 장치.
  9. 제7항에 있어서,
    얼굴 임베딩 네트워크부; 및
    얼굴 생성 네트워크부를 포함하며,
    상기 정면 얼굴 판단부가 상기 목표 얼굴이 정면이 아닌 것으로 판단하는 경우, 상기 얼굴 임베딩 네트워크부는 스타일 벡터를 추출하며, 상기 얼굴 생성 네트워크부는 정면 얼굴을 생성하는, 딥러닝 네트워크를 이용한 얼굴 변환 장치.
  10. 제9항에 있어서,
    상기 얼굴 임베딩 네트워크부는,
    상기 목표 얼굴 이미지의 상기 목표 얼굴로부터 생김새 정보에 대한 스타일 벡터를 추출하고,
    입력 받은 임의의 정면 얼굴 이미지의 정면 얼굴로부터 얼굴 각도 정보에 대한 스타일 벡터를 추출하며,
    상기 목표 얼굴의 상기 생김새 정보에 대한 스타일 벡터 및 상기 정면 얼굴의 상기 얼굴 각도 정보에 대한 스타일 벡터를 결합하는, 딥러닝 네트워크를 이용한 얼굴 변환 장치.
  11. 제10항에 있어서,
    상기 얼굴 생성 네트워크부는,
    상기 결합된 스타일 벡터 각각에 대한 적응적 인스턴트 정규화(AdaIN) 연산을 수행하고,
    상기 적응적 인스턴트 정규화 연산을 통해 이미지 사이즈를 스케일업하는, 딥러닝 네트워크를 이용한 얼굴 변환 장치.
  12. 삭제
KR1020210149532A 2021-11-03 2021-11-03 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치 KR102409988B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210149532A KR102409988B1 (ko) 2021-11-03 2021-11-03 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치
PCT/KR2021/015768 WO2023080266A1 (ko) 2021-11-03 2021-11-07 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210149532A KR102409988B1 (ko) 2021-11-03 2021-11-03 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102409988B1 true KR102409988B1 (ko) 2022-06-16

Family

ID=82217459

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210149532A KR102409988B1 (ko) 2021-11-03 2021-11-03 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치

Country Status (2)

Country Link
KR (1) KR102409988B1 (ko)
WO (1) WO2023080266A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102593000B1 (ko) * 2023-02-04 2023-10-23 주식회사 이너버즈 복수의 인물 이미지로부터 추출된 특성을 반영한 가상인물 생성 딥러닝 모델의 학습방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102171332B1 (ko) 2013-09-10 2020-10-28 에스케이플래닛 주식회사 얼굴 영상 보정 장치, 방법 및 컴퓨터 프로그램이 기록된 기록매체
KR20200132833A (ko) * 2019-05-15 2020-11-25 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 가상 아바타 발생 방법 및 장치, 및 저장 매체
KR20210037406A (ko) * 2019-09-27 2021-04-06 영남대학교 산학협력단 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법
KR20210108529A (ko) * 2020-02-25 2021-09-03 주식회사 하이퍼커넥트 이미지 변형 장치, 방법 및 컴퓨터 판독 가능한 기록매체

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102503939B1 (ko) * 2018-09-28 2023-02-28 한국전자통신연구원 얼굴 이미지 비식별화 장치 및 방법
KR102266165B1 (ko) * 2021-03-26 2021-06-17 인하대학교 산학협력단 적대적 생성신경망에서의 개인별 변조를 이용한 얼굴 연령 편집 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102171332B1 (ko) 2013-09-10 2020-10-28 에스케이플래닛 주식회사 얼굴 영상 보정 장치, 방법 및 컴퓨터 프로그램이 기록된 기록매체
KR20200132833A (ko) * 2019-05-15 2020-11-25 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 가상 아바타 발생 방법 및 장치, 및 저장 매체
KR20210037406A (ko) * 2019-09-27 2021-04-06 영남대학교 산학협력단 단일 피드 포워드 네트워크를 이용한 이미지 스타일 변환 방법
KR20210108529A (ko) * 2020-02-25 2021-09-03 주식회사 하이퍼커넥트 이미지 변형 장치, 방법 및 컴퓨터 판독 가능한 기록매체

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102593000B1 (ko) * 2023-02-04 2023-10-23 주식회사 이너버즈 복수의 인물 이미지로부터 추출된 특성을 반영한 가상인물 생성 딥러닝 모델의 학습방법
KR102593001B1 (ko) * 2023-02-04 2023-10-23 주식회사 이너버즈 딥러닝을 기반으로하는 사람 얼굴을 생성하는 컴퓨터 구현 학습 시스템

Also Published As

Publication number Publication date
WO2023080266A1 (ko) 2023-05-11

Similar Documents

Publication Publication Date Title
Chen et al. Fsrnet: End-to-end learning face super-resolution with facial priors
CN111489287B (zh) 图像转换方法、装置、计算机设备和存储介质
US8624901B2 (en) Apparatus and method for generating facial animation
CN111383307A (zh) 基于人像的视频生成方法及设备、存储介质
CN110599395A (zh) 目标图像生成方法、装置、服务器及存储介质
CN111401101A (zh) 基于人像的视频生成系统
KR102141319B1 (ko) 다시점 360도 영상의 초해상화 방법 및 영상처리장치
CN113507627B (zh) 视频生成方法、装置、电子设备及存储介质
WO2021228183A1 (en) Facial re-enactment
CN112036260A (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN115914505B (zh) 基于语音驱动数字人模型的视频生成方法及系统
RU2764144C1 (ru) Быстрый двухслойный нейросетевой синтез реалистичных изображений нейронного аватара по одному снимку
CN114863533A (zh) 数字人生成方法和装置及存储介质
KR102409988B1 (ko) 딥러닝 네트워크를 이용한 얼굴 변환 방법 및 장치
CN114187165A (zh) 图像处理方法和装置
Jung et al. Learning free-form deformation for 3D face reconstruction from in-the-wild images
CN112562045B (zh) 生成模型和生成3d动画的方法、装置、设备和存储介质
CN117333604A (zh) 一种基于语义感知神经辐射场的人物面部重演方法
CN116863069A (zh) 三维光场人脸内容生成方法、电子设备及存储介质
CN115052197B (zh) 虚拟人像视频的生成方法及装置
US20230104702A1 (en) Transformer-based shape models
WO2022252372A1 (zh) 一种图像处理方法、装置、设备及计算机可读存储介质
Teng et al. Unimodal face classification with multimodal training
RU2720361C1 (ru) Обучение по нескольким кадрам реалистичных нейронных моделей голов говорящих персон
CN109657589B (zh) 一种基于人体交互动作的体验者动作生成方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant