KR20230172427A - 사람 음성에 따른 실사인물의 발화 영상 합성 시스템 - Google Patents

사람 음성에 따른 실사인물의 발화 영상 합성 시스템 Download PDF

Info

Publication number
KR20230172427A
KR20230172427A KR1020230076484A KR20230076484A KR20230172427A KR 20230172427 A KR20230172427 A KR 20230172427A KR 1020230076484 A KR1020230076484 A KR 1020230076484A KR 20230076484 A KR20230076484 A KR 20230076484A KR 20230172427 A KR20230172427 A KR 20230172427A
Authority
KR
South Korea
Prior art keywords
image
learning
speech
face
voice
Prior art date
Application number
KR1020230076484A
Other languages
English (en)
Inventor
조현중
최대웅
추헌국
Original Assignee
고려대학교 세종산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 세종산학협력단 filed Critical 고려대학교 세종산학협력단
Publication of KR20230172427A publication Critical patent/KR20230172427A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Architecture (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

개시된 발명의 일 실시예에 따른 발화 음성 기반 얼굴 합성 시스템은, 발화를 하고 있는 발화 객체의 얼굴 이미지인 제1 발화자 이미지, 제2 발화자 이미지 및 오디오 음성 데이터를 기초로, 제1 기계 학습 모델을 이용하여 상기 오디오 음성 데이터에 대응되는 얼굴을 하는 상기 발화 객체의 이미지인 음성 대응 출력 이미지 및 상기 발화 객체의 이미지에서 상기 발화 객체가 발화할 때 움직이는 얼굴 영역인 마스크 영역을 생성하도록 구성되는 중간 출력 데이터 생성 모듈을 포함하고, 상기 제2 발화자 이미지는, 상기 제1 발화자 이미지의 하단 절반 영역이 제거되고 남은 상단 절반 영역의 이미지일 수 있다.

Description

사람 음성에 따른 실사인물의 발화 영상 합성 시스템{TALKING FACE IMAGE SYNTHESIS SYSTEM ACCORDING TO AUDIO VOICE}
본 발명은 사람 음성 입력에 맞춰 실사인물의 자연스러운 발화 표정 영상을 합성할 수 있는 발화 음성 기반 얼굴 합성 시스템에 관한 것이다.
다양한 딥러닝 기반 생성모델(Generation network)기술의 발전으로 고품질의 얼굴 영상합성이 가능해짐에 따라, 서비스업, 교육, 광고, 엔터테인먼트 등에 걸쳐 딥러닝 기반 얼굴 영상 컨텐츠 생성에 대한 수요는 폭발적으로 증가하고 있다. 특히, 사람의 음성(Source audio)에 맞춰 자연스럽게 발화하는 표정합성 기술은 주어진 인물에 대해 임의 음성입력만으로 실사화된 영상을 창조 및 재생성할 수 있기 때문에, 뉴스의 가상 AI아나운서, 박물관의 가상 AI큐레이터, 챗봇의 문장을 읽어주는 가상 휴먼 AI 등으로 활용 가치를 인정받고 있다.
기존의 딥러닝 기술을 이용한 음성기반 발화 표정 합성 기술들은 학습을 위해, 2차원 혹은 3차원 얼굴 특징 정보를 필요로 했다. 2차원 얼굴 특징 점을 이용하는 경우, 음성에 따른 얼굴표정 움직임을 적은 개수의 특징 점만으로 제한하여 합성 모델이 쉽게 학습 가능하게 했지만, 합성된 영상의 품질이 흐릿하거나 입술 움직임이 심각하게 떨리는 문제가 있었다.
이와 다르게 3차원 얼굴 특징 정보를 이용하는 경우, 미리 정의된 얼굴 생김새, 표정, 위치, 회전정보들을 이용해 합성 모델의 학습을 용이하게 했기 때문에 합성 영상의 품질이 매우 좋았다. 하지만, 합성 모델의 학습을 위해 요구되는 ‘정확한’ 3차원 얼굴 특징 정보를 얻는 것은 얼굴영상에서 입술은 다른 부위대비 추적이 어렵고, 3차원 얼굴 특징 정보는 입술 안 쪽(잇몸과 이빨 등의 입속영역)을 정의할 수 없다는 문제가 있었다. 이러한 제한들로 인해 이 합성기술은 특정 인물에 대해서만 합성가능한 모델로만 활용가능했다.
본 발명은 발화 표정 합성기술의 낮은 합성 품질을 개선할 수 있는 발화 음성 기반 얼굴 합성 시스템을 제공하기 위한 것이다.
또한, 본 발명은 실제 인물(Target video)이 임의의 발화음성(Source audio)에 맞춰 자연스러운 얼굴표정으로 합성되도록 하는 영상을 생성할 수 있는 발화 음성 기반 얼굴 합성 시스템을 제공하기 위한 것이다.
또한, 본 발명은 추가적인 얼굴 특징 정보 없이도 학습할 수 있고, 합성하려는 영상과 음성 데이터만으로 립 싱크가 잘 맞는 영상을 생성할 수 있는 발화 음성 기반 얼굴 합성 시스템을 제공하기 위한 것이다.
또한, 본 발명은 특정 인물에 대한 보다 더 실사 인물 같은 합성 결과를 얻기 위해 개별 인물에 대한 추가학습을 통해 개선된 얼굴 합성 기술로서 활용가능한 발화 음성 기반 얼굴 합성 시스템을 제공하기 위한 것이다.
또한, 본 발명은 사람이 일일이 학습용 데이터를 생성할 필요 없이 대량의 원본 이미지에 대해서 자동으로 각각의 원본 이미지에 대응되는 학습용 데이터를 생성할 수 있는 발화 음성 기반 얼굴 합성 시스템을 제공하기 위한 것이다.
개시된 발명의 일 측면에 따른 발화 음성 기반 얼굴 합성 시스템은, 발화를 하고 있는 발화 객체의 얼굴 이미지인 제1 발화자 이미지, 제2 발화자 이미지 및 오디오 음성 데이터를 기초로, 제1 기계 학습 모델을 이용하여 상기 오디오 음성 데이터에 대응되는 얼굴을 하는 상기 발화 객체의 이미지인 음성 대응 출력 이미지 및 상기 발화 객체의 이미지에서 상기 발화 객체가 발화할 때 움직이는 얼굴 영역인 마스크 영역을 생성하도록 구성되는 중간 출력 데이터 생성 모듈을 포함하고, 상기 제2 발화자 이미지는, 상기 제1 발화자 이미지의 하단 절반 영역이 제거되고 남은 상단 절반 영역의 이미지일 수 있다.
또한, 객체 하관 이미지와 배경 이미지를 합성하여 얼굴 합성 이미지를 생성하도록 구성되는 음성 대응 이미지 생성 모듈를 포함하고, 상기 얼굴 합성 이미지는, 상기 발화 객체의 마스크 영역이 상기 오디오 음성 데이터에 대응되는 하관 모양을 하는 이미지이고, 상기 객체 하관 이미지는, 상기 음성 대응 출력 이미지에서 상기 마스크 영역에 대응되는 이미지이고, 상기 배경 이미지는, 상기 제1 발화자 이미지에서 상기 마스크 영역을 제외한 영역에 대응되는 이미지일 수 있다.
또한, 상기 제1 기계 학습 모델은: 상기 오디오 음성 데이터를 기초로 상기 오디오 음성 데이터의 음성에 대응되는 표정을 나타내는 음성 특징 벡터를 추출하도록 구성되는 오디오 인코더; 상기 제1 발화자 이미지 및 상기 제2 발화자 이미지를 기초로 합성될 얼굴의 정보를 나타내는 얼굴 특징 벡터를 추출하도록 구성되는 페이스 인코더; 및 상기 음성 특징 벡터 및 상기 얼굴 특징 벡터를 기초로 상기 음성 대응 출력 이미지 및 상기 마스크 영역을 생성하도록 구성되는 디코더를 포함할 수 있다.
또한, 상기 중간 출력 데이터 생성 모듈은, 발화를 하고 있는 학습용 발화 객체의 얼굴 이미지인 제1 학습용 발화자 이미지, 제2 학습용 발화자 이미지 및 학습용 오디오 음성 데이터를 기초로, 상기 제1 기계 학습 모델을 이용하여, 상기 학습용 오디오 음성 데이터에 대응되는 얼굴을 하는 상기 학습용 발화 객체의 이미지인 학습용 음성 대응 출력 이미지 및 상기 학습용 발화 객체의 이미지에서 상기 학습용 발화 객체가 발화할 때 움직이는 얼굴 영역인 학습용 마스크 영역을 생성하도록 구성되고, 상기 음성 대응 이미지 생성 모듈은, 학습용 객체 하관 이미지와 학습용 배경 이미지를 합성하여 상기 학습용 발화 객체의 학습용 마스크 영역이 상기 학습용 오디오 음성 데이터에 대응되는 하관 모양을 하는 학습용 얼굴 합성 이미지를 생성하도록 구성되고, 상기 학습용 객체 하관 이미지는, 상기 학습용 음성 대응 출력 이미지에서 상기 학습용 마스크 영역에 대응되는 이미지이고, 상기 학습용 배경 이미지는, 원본 이미지에서 상기 학습용 마스크 영역을 제외한 영역에 대응되는 이미지이고, 상기 원본 이미지는, 상기 학습용 오디오 음성 데이터의 음성을 실제로 발화하는 학습용 발화 객체를 촬영한 이미지이고, 상기 제2 학습용 발화자 이미지는, 상기 원본 이미지의 하단 절반 영역이 제거되고 남은 상단 절반 영역의 이미지일 수 있다.
또한, 상기 학습용 오디오 음성 데이터, 상기 학습용 얼굴 합성 이미지 및 상기 원본 이미지를 기초로 통합 손실 함수를 연산하고, 상기 통합 손실 함수가 감소하도록 상기 제1 기계 학습 모델을 학습하도록 구성되는 제1 기계 학습 모듈을 더 포함할 수 있다.
또한, 상기 제1 기계 학습 모듈은: 상기 학습용 오디오 음성 데이터를 기초로 음성 특징 벡터를 추출하고; 상기 학습용 얼굴 합성 이미지를 기초로 합성 얼굴 특징 벡터를 추출하고; 그리고 상기 음성 특징 벡터 및 상기 합성 얼굴 특징 벡터를 기초로 제1 손실 함수를 연산하도록 구성될 수 있다.
또한, 상기 제1 기계 학습 모듈은: 상기 학습용 얼굴 합성 이미지를 기초로 딥러닝 네트워크를 이용하여 제1 중간 출력값을 추출하고; 상기 원본 이미지를 기초로 상기 딥러닝 네트워크를 이용하여 제2 중간 출력값을 추출하고; 그리고 상기 제1 중간 출력값 및 상기 제2 중간 출력값을 기초로 제2 손실 함수를 연산하도록 구성될 수 있다.
또한, 상기 제1 기계 학습 모듈은, 상기 제1 손실 함수 및 상기 제2 손실 함수를 기초로 상기 통합 손실 함수를 연산하도록 구성될 수 있다.
또한, 상기 제1 기계 학습 모듈은, 학습용 객체 하관 이미지 및 원본 마스크 영역 이미지를 기초로 제3 손실 함수를 연산하도록 구성되고, 상기 원본 마스크 영역 이미지는, 상기 원본 이미지에서 원본 마스크 영역에 해당하는 이미지이고, 상기 원본 마스크 영역은, 상기 원본 이미지에서 상기 학습용 발화 객체가 발화할 때 움직이는 얼굴 영역으로 미리 설정된 얼굴 영역일 수 있다.
또한, 상기 제1 기계 학습 모듈은: 상기 학습용 마스크 영역 및 상기 원본 마스크 영역을 기초로 제4 손실 함수를 연산하도록 구성되고; 그리고 상기 제1 손실 함수, 상기 제2 손실 함수, 상기 제3 손실 함수 및 상기 제4 손실 함수를 기초로 상기 통합 손실 함수를 연산하도록 구성될 수 있다.
또한, 상기 원본 이미지를 기초로 3차원 하관 모델링 데이터를 생성하고, 상기 3차원 하관 모델링 데이터를 기초로 상기 원본 이미지에서 상기 원본 마스크 영역을 결정하도록 구성되는 학습용 데이터 생성 모듈을 더 포함할 수 있다.
또한, 상기 학습용 데이터 생성 모듈은: 상기 원본 이미지를 기초로 상기 원본 이미지에 대한 얼굴 모양 계수 및 얼굴 표정 계수를 추출하고; 그리고 상기 원본 이미지의 학습용 발화 객체에 대한 얼굴 모양 정보의 값에 상기 얼굴 모양 계수를 곱한 값 및 상기 원본 이미지의 학습용 발화 객체에 대한 얼굴 표정 정보의 값에 상기 얼굴 표정 계수를 곱한 값을 기초로, 상기 3차원 하관 모델링 데이터를 생성하도록 구성될 수 있다.
또한, 상기 학습용 데이터 생성 모듈은: 상기 3차원 하관 모델링 데이터의 얼굴 표정 계수를 변경하여, 상기 3차원 하관 모델링 데이터를 기초로 상기 학습용 발화 객체가 입술을 다물고 있는 표정의 하관 모델링 데이터인 3차원 무표정 모델링 데이터를 생성하고; 상기 3차원 하관 모델링 데이터의 얼굴 표정 계수를 변경하여, 상기 3차원 하관 모델링 데이터를 기초로 상기 학습용 발화 객체가 상기 3차원 하관 모델링 데이터에 비해 입을 더 크게 벌리고 있는 표정의 하관 모델링 데이터인 3차원 개구 표정 모델링 데이터를 생성할 수 있다.
또한, 상기 학습용 데이터 생성 모듈은: 상기 3차원 하관 모델링 데이터, 상기 3차원 무표정 모델링 데이터 및 상기 3차원 개구 표정 모델링 데이터를 기초로 상기 원본 이미지에서 상기 원본 마스크 영역을 결정하도록 구성될 수 있다.
또한, 지정 발화 객체에 대한 학습용 오디오 음성 데이터, 지정 발화 객체에 대한 학습용 객체 하관 이미지 및 지정 발화 객체에 대한 학습용 음성 대응 출력 배경 이미지를 기초로, 제2 기계 학습 모델을 이용하여 학습용 특정 객체 얼굴 합성 이미지를 생성하도록 구성되는 대상별 음성 대응 이미지 생성 모듈을 더 포함하고, 상기 학습용 특정 객체 얼굴 합성 이미지는, 상기 지정 발화 객체의 학습용 마스크 영역이 상기 학습용 오디오 음성 데이터에 대응되는 하관 모양을 하는 이미지이고, 상기 학습용 객체 하관 이미지는, 상기 지정 발화 객체에 대한 학습용 음성 대응 출력 이미지에서 상기 학습용 마스크 영역에 해당하는 이미지이고, 상기 학습용 음성 대응 출력 배경 이미지는, 상기 지정 발화 객체에 대한 학습용 음성 대응 출력 이미지에서 상기 학습용 마스크 영역을 제외한 영역에 대응되는 이미지일 수 있다.
또한, 상기 학습용 특정 객체 얼굴 합성 이미지 및 상기 지정 발화 객체에 대한 원본 이미지를 기초로 제5 손실 함수를 연산하고, 상기 제5 손실 함수가 감소하도록 상기 제2 기계 학습 모델을 학습하도록 구성되는 제2 기계 학습 모듈을 더 포함할 수 있다.
또한, 상기 제2 기계 학습 모듈은: 상기 학습용 특정 객체 얼굴 합성 이미지를 기초로 딥러닝 네트워크를 이용하여 제3 중간 출력값을 추출하고; 상기 지정 발화 객체에 대한 원본 이미지를 기초로 상기 딥러닝 네트워크를 이용하여 제4 중간 출력값을 추출하고; 그리고 상기 제3 중간 출력값 및 상기 제4 중간 출력값을 기초로 제6 손실 함수를 연산하도록 구성될 수 있다.
또한, 상기 제2 기계 학습 모듈은: 상기 지정 발화 객체에 대한 오디오 음성 데이터, 상기 학습용 특정 객체 얼굴 합성 이미지 및 상기 지정 발화 객체에 대한 원본 이미지를 기초로 제7 손실 함수를 연산하도록 구성되고; 그리고 상기 제6 손실 함수 및 상기 제7 손실 함수를 기초로 상기 제5 손실 함수를 연산하도록 구성될 수 있다.
또한, 상기 대상별 음성 대응 이미지 생성 모듈은, 지정 발화 객체에 대한 오디오 음성 데이터, 지정 발화 객체에 대한 객체 하관 이미지 및 지정 발화 객체에 대한 음성 대응 출력 배경 이미지를 기초로, 상기 제2 기계 학습 모델을 이용하여 상기 지정 발화 객체에 대한 특정 객체 얼굴 합성 이미지를 생성하도록 구성될 수 있다.
개시된 발명의 일 측면에 따르면, 발화 표정 합성기술의 낮은 합성 품질을 개선할 수 있다.
또한, 본 발명의 실시예에 의하면, 실제 인물(Target video)이 임의의 발화음성(Source audio)에 맞춰 자연스러운 얼굴표정으로 합성되도록 하는 영상을 생성할 수 있다.
또한, 본 발명의 실시예에 의하면, 추가적인 얼굴 특징 정보 없이도 학습할 수 있고, 합성하려는 영상과 음성 데이터만으로 립 싱크가 잘 맞는 영상을 생성할 수 있다.
또한, 본 발명의 실시예에 의하면, 특정 인물에 대한 보다 더 실사 인물 같은 합성 결과를 얻기 위해 개별 인물에 대한 추가학습을 통해 개선된 얼굴 합성 기술로서 활용가능할 수 있다.
또한, 본 발명의 실시예에 의하면, 사람이 일일이 학습용 데이터를 생성할 필요 없이 대량의 원본 이미지에 대해서 자동으로 각각의 원본 이미지에 대응되는 학습용 데이터를 생성할 수 있다.
도 1은 일 실시예에 따른 발화 음성 기반 얼굴 합성 시스템의 제어 블록도이다.
도 2는 일 실시예에 따른 발화 음성 기반 얼굴 합성 시스템의 활용 방법을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 발화 음성 기반의 얼굴 합성 과정을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 얼굴 합성 이미지를 생성하는 과정을 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 기계 학습 모델을 학습하는 방법을 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 학습용 데이터를 생성하는 방법을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 지정 발화 객체에 대한 얼굴 합성 이미지를 생성하는 과정을 설명하기 위한 도면이다.
도 8은 일 실시예에 따른 발화 음성 기반 얼굴 합성 방법의 순서도이다.
도 9는 일 실시예에 따른 발화 음성 기반 얼굴 합성 시스템을 이용한 실험 결과를 도시한 도면이다.
도 10은 일 실시예에 따른 발화 음성 기반 얼굴 합성 시스템이 종래의 방식에 비해 개선된 정도를 나타낸 표이다.
명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다. 본 명세서가 실시예들의 모든 요소들을 설명하는 것은 아니며, 개시된 발명이 속하는 기술분야에서 일반적인 내용 또는 실시예들 간에 중복되는 내용은 생략한다. 명세서에서 사용되는 '~부'라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시예들에 따라 복수의 '~부'가 하나의 구성요소로 구현되거나, 하나의 '~부'가 복수의 구성요소들을 포함하는 것도 가능하다.
또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
제1, 제2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위해 사용되는 것으로, 구성요소가 전술된 용어들에 의해 제한되는 것은 아니다.
단수의 표현은 문맥상 명백하게 예외가 있지 않는 한, 복수의 표현을 포함한다.
각 단계들에 있어 식별부호는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다.
이하 첨부된 도면들을 참고하여 개시된 발명의 작용 원리 및 실시예들에 대해 설명한다.
도 1은 일 실시예에 따른 발화 음성 기반 얼굴 합성 시스템의 제어 블록도이고, 도 2는 일 실시예에 따른 발화 음성 기반 얼굴 합성 시스템의 활용 방법을 설명하기 위한 도면이다.
도 1을 참조하면, 본 발명의 실시예에 따른 발화 음성 기반 얼굴 합성 시스템(100)은 중간 출력 데이터 생성 모듈(110), 음성 대응 이미지 생성 모듈(120), 제1 기계 학습 모듈(130), 제2 기계 학습 모듈(140), 학습용 데이터 생성 모듈(150), 대상별 음성 대응 이미지 생성 모듈(160) 및 메모리(170)를 포함할 수 있다.
발화 음성 기반 얼굴 합성 시스템(100)은 미리 학습된 기계 학습 모델을 이용하여 발화를 하고 있는 발화 객체의 얼굴 이미지를 기초로 특정한 음성에 맞는 얼굴 표정을 합성할 수 있다. 발화 객체는 발화를 하고 있는 인간, 캐릭터 등일 수 있다.
도 2를 참조하면, 발화 음성 기반 얼굴 합성 시스템(100)은 음성 입력만으로 새로운 표정 합성을 할 수 있는 서비스를 제공할 수 있다. 사용자는 인간의 임의의 음성 데이터와 합성하고자 하는 목표 인물 영상이 있을 때, 별도의 촬영이나 편집과정 없이도 자연스러운 목표 인물의 발화 표정 영상을 얻을 수 있다. 예를 들어, 뉴스의 앵커를 대신하여 영상을 제작해주는 작업에 발화 음성 기반 얼굴 합성 시스템(100)이 활용될 수 있다.
도 3은 일 실시예에 따른 발화 음성 기반의 얼굴 합성 과정을 설명하기 위한 도면이다.
도 3을 참조하면, 본 발명의 발화 음성 기반 얼굴 합성 방법은 소스(source) 음성과 타겟(target) 영상 데이터를 입력 받아 새로운 얼굴 합성 이미지(340)를 합성하는 방법을 제공할 수 있다. 발화 음성 기반 얼굴 합성 파이프라인은 도시된 바와 같이 총 5단계로 구성될 수 있다. 각 단계는 (1)음성 데이터 입력 및 변환, (2)영상 데이터 입력 얼굴 영역 추정, (3)얼굴 크기 및 위치 보정, (4)발화표정 영상 합성, (5)합성 영상 위치 복원의 단계일 수 있다. 합성 파이프라인을 모두 수행하면 음성 입력에 맞게 합성된 얼굴 합성 이미지(340)를 기초로 한 영상을 생성할 수 있다.
도 4는 일 실시예에 따른 얼굴 합성 이미지를 생성하는 과정을 설명하기 위한 도면이다.
도 1 및 도 4를 참조하면, 중간 출력 데이터 생성 모듈(110)은 제1 발화자 이미지(IF)(210), 제2 발화자 이미지(IP)(220) 및 오디오 음성 데이터(230)를 기초로, 제1 기계 학습 모델(171)을 이용하여 음성 대응 출력 이미지(IG)(310) 및 마스크 영역(SG)(320)을 생성할 수 있다.
제1 발화자 이미지(IF)(210)는 발화를 하고 있는 발화 객체의 얼굴 이미지일 수 있다.
제2 발화자 이미지(IP)(220)는 제1 발화자 이미지(210)의 하단 절반 영역이 제거되고 남은 상단 절반 영역의 이미지일 수 있다. 예를 들어, 제2 발화자 이미지(220)는 발화 객체의 하관 대부분이 가려지고 발화 객체의 나머지 얼굴 부분만 드러나는 상단 절반 영역의 이미지일 수 있다.
발화 음성 기반 얼굴 합성 시스템(100)에서 입력 또는 출력되는 영상 데이터의 형태는 다음과 같을 수 있다. 먼저, 25fps(1초에 25장의 이미지 frame)의 속도로 촬영된 영상만을 사용한다. 또한, 목표 인물의 얼굴이 잘 보이도록 촬영된 영상이여야 하며, 특히 입술을 포함한 얼굴 하단 영역이 포함된 영상만으로 제한될 수 있다. 영상 데이터의 길이에는 제한이 없고, 영상의 화질은 높을수록 좋고, 최소 224x224(너비x높이)의 해상도를 지원할 수 있다. 해당 영상 데이터는 5장의 이미지 프레임 단위로 입력될 수 있다. 다만, 발화 음성 기반 얼굴 합성 시스템(100)에서 입력 또는 출력되는 영상 데이터의 형태가 이에 한정되는 것은 아니다.
발화 음성 기반 얼굴 합성 시스템(100)에 입력될 영상 데이터는 입력되기 전에, 얼굴 크기와 위치에 따른 보정과정을 거칠 수 있다. 보정과정에 대한 순서는, (1) 발화 객체의 얼굴 내의 구성요소(눈, 코, 입, 턱선 등)들의 특징 점을 추론하고, (2) 추론된 특징 점들 중 양쪽 눈과 입술의 무게중심을 구하고, (3) 산출된 눈과 입술의 무게중심은 미리 정의된 얼굴 무게중심점으로 어파인 트랜스포메이션(Affine Transformation)을 수행하는 단계의 순서로 진행될 수 있다.
위의 보정과정을 통해, 발화 객체들의 다양한 얼굴 크기와 영상 내 여러 얼굴 위치에 상관없이 정규화된 영상 데이터를 발화 음성 기반 얼굴 합성 시스템(100)이 입력 받을 수 있다.
오디오 음성 데이터(230)는 최종적으로 합성되는 이미지들로 구성되는 영상이 발화하는 소스 음성의 데이터일 수 있다. 즉, 오디오 음성 데이터(230)는 본래 다른 원본 이미지(350)의 발화 객체가 발화하는 음성의 데이터일 수 있다. 최종적으로 합성되는 이미지들로 구성되는 영상은 오디오 음성 데이터(230)의 음성을 자연스럽게 발화하는 발화 객체의 영상이 되도록 생성될 수 있다.
발화 음성 기반 얼굴 합성 시스템(100)은 임의의 음성입력에 대한 표정합성을 위해, 입력 받는 모든 음성데이터들을 멜 스펙트로그램(Mel Spectrogram)으로 변환하여 오디오 음성 데이터(230)를 생성할 수 있다. 멜 스펙트로그램은 STFT(Short Time Fourier Transform)을 통해서 추출되는 주파수 성분들의 합으로 표현될 수 있다. 원본 음성 데이터를 raw data 그대로 사용하면 너무 많은 파라미터를 가지는 데에 반해, 멜 스펙트로그램의 오디오 음성 데이터(230)는 인간이 인지가능한 주파수 범위에 따라 압축된 음성 정보를 포함한다.
이러한 음성 데이터의 특성으로 해당 기술은 인간이 들을 수 있는 모든 음성 입력(예를 들어, TTS 문장 발화 음성, 한국어를 포함한 외국어 음성 등)에 대해 처리 가능할 수 있다.
음성 대응 출력 이미지(IG)(310)는 오디오 음성 데이터(230)에 대응되는 얼굴을 하는 발화 객체의 이미지일 수 있다. 마스크 영역(320)은 발화 객체의 이미지에서 상기 발화 객체가 발화할 때 움직이는 얼굴 영역일 수 있다.
중간 출력 데이터 생성 모듈(110)은 마스크 영역(320)을 음성 대응 이미지 생성 모듈(120)로 전달할 수 있다. 중간 출력 데이터 생성 모듈(110)은 음성 대응 출력 이미지(310) 및 마스크 영역(320)을 제1 기계 학습 모듈(130)로 전달할 수 있다.
객체 하관 이미지(IG · SG)는 음성 대응 출력 이미지(310)에서 마스크 영역(320)에 대응되는 이미지일 수 있다. 배경 이미지(IF · (1-SG))는 제1 발화자 이미지(210)에서 마스크 영역(320)을 제외한 영역에 대응되는 이미지일 수 있다.
얼굴 합성 이미지(IG ⊙ SG)(340)는 발화 객체의 마스크 영역(320)이 오디오 음성 데이터(230)에 대응되는 하관 모양을 하는 이미지일 수 있다. 얼굴 합성 이미지(340)는 발화 음성 기반 얼굴 합성 시스템(100)이 최종적으로 출력하고자 하는 합성 영상을 구성하는 이미지일 수 있다.
음성 대응 이미지 생성 모듈(120)은 객체 하관 이미지와 배경 이미지를 합성하여 얼굴 합성 이미지(340)를 생성할 수 있다.
변환된 오디오 음성 데이터(230)와 보정된 영상 데이터 입력들은 사전에 학습된 제1 기계 학습 모델(171)에 의해 음성에 맞는 표정으로 새로 합성될 수 있다. 제1 기계 학습 모델(171)은 딥러닝 기반 생성모델로서, 3개의 네트워크 구조(Audio encoder, Face encoder, Decoder)들로 구성될 수 있다.
도 1, 도 3 및 도 4를 참조하면, 제1 기계 학습 모델(171)은 오디오 인코더(Audio encoder)(131), 페이스 인코더(Face encoder)(132) 및 디코더(Decoder)(133)를 포함할 수 있다.
오디오 인코더(131)는 오디오 음성 데이터(230)를 기초로 오디오 음성 데이터(230)의 음성에 대응되는 표정을 나타내는 음성 특징 벡터를 추출할 수 있다.
페이스 인코더(132)는 제1 발화자 이미지(210) 및 제2 발화자 이미지(220)를 기초로 합성될 얼굴의 정보를 나타내는 얼굴 특징 벡터를 추출할 수 있다.
디코더(133)는 음성 특징 벡터 및 얼굴 특징 벡터를 기초로 음성 대응 출력 이미지(310) 및 마스크 영역(320)을 생성할 수 있다.
구체적으로 오디오 인코더(131)는 변환된 음성 데이터인 Mel spectrogram 형식의 오디오 음성 데이터(230)를 입력 받아 이에 상응하는 표정을 나타내는 고차원 특징 벡터를 추출할 수 있다.
페이스 인코더(132)는 2가지의 영상 이미지를 입력 받아 합성될 얼굴의 정보를 나타내는 고차원 특징 벡터를 추출할 수 있다. 이때 입력 받는 이미지의 형태들 중 첫 번째는 얼굴 텍스쳐 정보(얼굴 전체 모양, 피부, 입술 모양 등)의 정보를 담고 있는 얼굴 이미지인 제1 학습용 발화자 이미지(IF)(240)이고, 두 번째는 합성될 얼굴의 자세 정보를 담고 있는 자세 이미지인 제2 학습용 발화자 이미지(IP)(250)일 수 있다.
디코더(133)는 오디오 인코더(131) 및 페이스 인코더(132)에 의해 추출된 특징 벡터들을 입력 받아 최종적으로 음성에 맞는 발화표정을 합성할 수 있다.
제1 기계 학습 모델(171)의 가장 큰 특징은 발화하는 얼굴을 생성할 뿐만 아니라 음성에 맞게 합성되어야 할 영역을 정확히 추론해낼 수 있는 것이다. 합성될 영역인 마스크 영역(SG)(320)을 추론하고, 추론된 영역만 모델이 합성해내고, 그 외의 배경 정보는 원본 이미지(IGT)(350)에서 복사하여 최종 합성 영상을 구성하는 얼굴 합성 이미지(IG ⊙ SG)(340)로 합쳐질 수 있다.
제1 기계 학습 모델(171)을 통해 합성된 얼굴 합성 이미지(340)의 영상은 크기와 위치보정 전의 위치로 복원되어 출력될 수 있다. 이 과정은 원본 영상에서 눈과 입술들의 무게중심을 미리 저장해놓은 뒤, 이 무게중심 정보를 토대로 어파인 트랜스포메이션(Affine transformation)을 역으로 수행하는 것일 수 있다. 이러한 복원 과정을 통해, 처음 입력 받은 영상데이터 내의 얼굴 위치에 맞게 합성된 얼굴 영상이 최종적으로 합쳐질 수 있다.
도 5는 일 실시예에 따른 기계 학습 모델을 학습하는 방법을 설명하기 위한 도면이다.
도 1 및 도 5를 참조하면, 중간 출력 데이터 생성 모듈(110)은 제1 학습용 발화자 이미지(IF)(240), 제2 학습용 발화자 이미지(IP)(250) 및 학습용 오디오 음성 데이터(260)를 기초로, 제1 기계 학습 모델(171)을 이용하여, 학습용 음성 대응 출력 이미지(IG)(311) 및 학습용 마스크 영역(SG)(321)을 생성할 수 있다.
제1 학습용 발화자 이미지(IF)(240)는 발화를 하고 있는 학습용 발화 객체의 얼굴 이미지일 수 있다. 학습용 발화 객체는 기계 학습 모델의 학습에 이용되는 이미지에 포함되어 발화를 하고 있는 표정을 하고 있는 인간, 캐릭터 등일 수 있다.
제2 학습용 발화자 이미지(IP)(250)는 원본 이미지(350)의 하단 절반 영역이 제거되고 남은 상단 절반 영역의 이미지일 수 있다.
학습용 음성 대응 출력 이미지(IG)(311)는 학습용 오디오 음성 데이터(260)에 대응되는 얼굴을 하는 학습용 발화 객체의 이미지일 수 있다.
학습용 마스크 영역(SG)(321)은 학습용 발화 객체의 이미지에서 학습용 발화 객체가 발화할 때 움직이는 얼굴 영역일 수 있다.
원본 이미지(IGT)(350)는 학습용 오디오 음성 데이터(260)의 음성을 실제로 발화하는 학습용 발화 객체를 촬영한 이미지일 수 있다.
학습용 배경 이미지(IGT · (1-SG))는 원본 이미지(350)에서 학습용 마스크 영역(321)을 제외한 영역에 대응되는 이미지일 수 있다.
학습용 객체 하관 이미지(IG · SG)(331)는 학습용 음성 대응 출력 이미지(311)에서 학습용 마스크 영역(321)에 대응되는 이미지일 수 있다.
음성 대응 이미지 생성 모듈(120)은 학습용 객체 하관 이미지(IG · SG)(331)와 학습용 배경 이미지를 합성하여 학습용 발화 객체의 학습용 마스크 영역(321)이 학습용 오디오 음성 데이터(260)에 대응되는 하관 모양을 하는 학습용 얼굴 합성 이미지(IG ⊙ SG)(341)를 생성할 수 있다.
제1 기계 학습 모듈(130)은 학습용 오디오 음성 데이터(260), 학습용 얼굴 합성 이미지(341) 및 원본 이미지(350)를 기초로 통합 손실 함수를 연산할 수 있다.
제1 기계 학습 모듈(130)은 학습이 반복되면서 통합 손실 함수가 감소하도록 제1 기계 학습 모델(171)을 학습할 수 있다.
제1 기계 학습 모듈(130)은 제1 손실 함수, 제2 손실 함수, 제3 손실함수 및 제4 손실 함수를 연산하고, 4개의 손실 함수를 기초로 제1 기계 학습 모델(171)을 학습할 수 있다.
제1 기계 학습 모듈(130)은 학습용 오디오 음성 데이터(260)를 기초로 음성 특징 벡터를 추출할 수 있다.
제1 기계 학습 모듈(130)은 학습용 얼굴 합성 이미지(341)를 기초로 합성 얼굴 특징 벡터를 추출할 수 있다.
제1 기계 학습 모듈(130)은 음성 특징 벡터 및 합성 얼굴 특징 벡터를 기초로 제1 손실 함수를 연산할 수 있다.
[방정식 1]
[방정식 1]을 참조하면, 제1 손실 함수(Sync loss(Lsync))는 오디오 입력에 대한 512차원의 특징 벡터(s)와 최종 영상에 대한 인코딩된 특징 벡터(v)에 대한 코사인 유사도의 함수일 수 있다. 즉, 제1 손실 함수는 음성 특징 벡터 및 합성 얼굴 특징 벡터의 차이를 최소화하는데 이용되는 손실 함수임을 알 수 있다.
제1 손실 함수는 입력된 음성과 합성된 발화표정 영상 간의 Lip sync 동기화를 맞춰주기 위한 손실 함수(Sync loss)일 수 있다. 이를 위해, 사전 학습된 싱크넷 모델(SyncNet)을 이용할 수 있으며, 싱크넷 모델은 임의 음성-발화표정 영상 간에 싱크가 맞는 지를 판별하도록 학습된 모델일 수 있다. 싱크넷 모델을 이용하여, 입력 음성과 합성 영상이 입력되면 그 둘의 특징 벡터 간의 거리 차이가 적은 영상이 합성되도록 손실함수를 구성할 수 있다.
제1 기계 학습 모듈(130)은 학습용 얼굴 합성 이미지(341)를 기초로 딥러닝 네트워크를 이용하여 제1 중간 출력값을 추출할 수 있다.
제1 기계 학습 모듈(130)은 원본 이미지(350)를 기초로 딥러닝 네트워크를 이용하여 제2 중간 출력값을 추출할 수 있다.
제1 기계 학습 모듈(130)은 제1 중간 출력값 및 제2 중간 출력값을 기초로 제2 손실 함수를 연산할 수 있다.
이처럼 제1 기계 학습 모듈(130)은 딥러닝 기반의 이미지로부터 추출되는 특징(feature)을 데이터를 기반으로 미리 학습된 딥러닝 모델을 이용할 수 있다. 이때, 이미지로부터 특징을 추출하는 방식을 학습하기 위해 여러 단계의 컨볼루션 계층(convolution layer)을 쌓은 CNN(Convolutional Neural Networks) 구조가 활용될 수 있으나 이에 한정되는 것은 아니다.
[방정식 2]
[방정식 2]을 참조하면, 제2 손실 함수(Perceptual Loss i,j)는 학습용 얼굴 합성 이미지(IG ⊙ SG)(341)를 기초로 추출된 제1 중간 출력값과 원본 이미지(IGT)(350)를 기초로 추출된 제2 중간 출력값의 차이를 최소화하는데 이용되는 손실 함수임을 알 수 있다.
제2 손실 함수는 제3 손실 함수(Masked L1 loss)의 부족한 복원 능력을 돕기 위해 적용되는 손실 함수일 수 있다. 많은 생성모델에서는 이미지 픽셀 단위의 복원 손실함수만 적용했을 때, 합성된 이미지가 정답 이미지와 비슷한 내용을 포함하고 있을지라도 전체적으로 한 픽셀만 움직였다면 굉장히 다른 이미지라고 판단하는 문제가 있다. 이러한 문제는 합성 결과의 흐릿함을 야기한다. 이를 개선하기 위해, 제안된 제2 손실 함수(Perceptual loss)는 사전에 이미지 분류 문제를 위해 학습된 대용량 딥러닝 네트워크(VGG network)를 이용할 수 있다. VGG network같은 큰 네트워크가 이미지로부터 추출해내는 특징은 사람이 인지하는 특징과 비슷하다는 실험결과를 토대로, 해당 손실함수는 최종 합성 이미지(IG ⊙ SG)와 정답지 이미지(IGT) 간의 VGG network를 거쳐서 나오는 특징 맵(Feature map)의 차이가 적도록 학습하게 한다. 즉, 두 이미지 간의 사람이 인지 가능한 유사성이 잘 유지되도록 하게 할 수 있다.
제1 기계 학습 모듈(130)은 제1 손실 함수 및 제2 손실 함수를 기초로 통합 손실 함수를 연산할 수 있다. 예를 들어, 제1 기계 학습 모듈(130)은 제1 손실 함수에 가중치를 곱한 값과 제2 손실 함수에 가중치를 곱한 값을 더한 것을 통합 손실 함수로서 연산할 수 있다.
제1 기계 학습 모듈(130)은 학습용 객체 하관 이미지(IG · SG)(331) 및 원본 마스크 영역 이미지(IGT · SGT)(360)를 기초로 제3 손실 함수를 연산할 수 있다.
원본 마스크 영역 이미지(360)는 원본 이미지(350)에서 원본 마스크 영역(322)에 해당하는 이미지일 수 있다. 원본 마스크 영역(322)은 원본 이미지(350)에서 학습용 발화 객체가 발화할 때 움직이는 얼굴 영역으로 미리 설정된 얼굴 영역일 수 있다.
[방정식 3]
[방정식 3]을 참조하면, 제3 손실 함수(Masked L1 Loss)는 학습용 객체 하관 이미지(IG · SG)(331)의 각 픽셀과 원본 마스크 영역 이미지(IGT · SGT)(360)의 각 픽셀 사이의 차이를 최소화하는데 이용되는 손실 함수임을 알 수 있다.
즉, 합성 이미지(IG · SG)와 정답지 이미지 (IGT · SGT)간에 픽셀 단위로 색 정보 차이가 없도록 하기 위해서 제3 손실 함수(Masked L1 loss)가 이용될 수 있다. 이때, 얼굴 전체 영상에 대한 색 정보를 복원하도록 하는 것이 아니라 모델이 추론한 마스크 영역(SG)(320)내의 색 정보만을 복원하도록 할 수 있다.
제1 기계 학습 모듈(130)은 학습용 마스크 영역(SG)(321) 및 원본 마스크 영역(SGT)(322)을 기초로 제4 손실 함수를 연산할 수 있다.
[방정식 4]
[방정식 4]를 참조하면, 제4 손실 함수(Dice Coefficient Loss)는 학습용 마스크 영역(SG)(321) 및 원본 마스크 영역(SGT)(322)의 차이를 최소화하는데 이용되는 손실 함수임을 알 수 있다.
즉, 추출된 얼굴 하단 영역 마스크 이미지를 이용하여 제1 기계 학습 모델(171)이 스스로 합성 영역을 추론할 수 있도록 하기 위해, 제4 손실 함수(Dice coefficient loss)를 손실함수로 채택한 것일 수 있다. 제4 손실 함수(Dice coefficient loss)는 모델이 추론한 마스크 이미지(SG)와 미리 추출해 놓은 마스크 이미지(SGT) 간의 겹치는 영역을 최대화하도록 유도할 수 있다.
제1 기계 학습 모듈(130)는 제1 손실 함수, 제2 손실 함수, 제3 손실 함수 및 제4 손실 함수를 기초로 통합 손실 함수를 연산할 수 있다.
[방정식 5]
[방정식 5]를 참조하면, 통합 손실 함수(L total)는 제1 손실 함수(Lsync)와 임의의 값(α, β 또는 γ)이 각각 곱해진 제2 손실 함수(L perceptual), 제3 손실 함수(L mask_recon) 및 제4 손실 함수(L dice)를 모두 합해서 구해질 수 있다.
즉, 제1 기계 학습 모델(171)의 학습을 위해 사용되는 통합 손실 함수는 위의 4개의 손실 함수의 누적 합일 수 있다. 안정적인 얼굴 합성을 위해 손실함수들은 각자의 가중치(α, β, γ)와 곱해질 수 있다.
이때, 제1 손실 함수는 학습의 처음부터 손실함수에 적용되지 않도록 할 수 있다. 생성 모델을 이용하여 얼굴을 생성하는 일 자체가 학습에 많은 시간을 필요로 하기 때문에, 제1 손실 함수를 제외한 다른 손실 함수들만으로 디코더(133)가 그럴듯한 사람 얼굴을 만들어내기 시작할 때부터 제1 손실 함수를 학습에 참여시킬 수 있다. 만약 이렇게 하지 않는다면 흐릿한 결과로부터 모델을 합성해야 되어서 태스크의 복잡도가 올라가 학습이 더욱 느려지거나 흐릿한 결과로 유도될 수 있다.
제1 기계 학습 모듈(130)는 반복적인 기계 학습(Machine Learning)을 통해 통합 손실 함수가 감소하도록 제1 기계 학습 모델(171)을 학습할 수 있다. 미리 학습된 제1 기계 학습 모델(171)은 메모리(170)에 저장될 수 있다.
기계 학습이란 다수의 파라미터로 구성된 모델을 이용하며, 주어진 데이터로 파라미터를 최적화하는 것을 의미할 수 있다. 기계 학습은 학습 문제의 형태에 따라 지도 학습(supervised learning), 비지도 학습(unsupervised learning), 강화 학습(reinforcement learning)을 포함할 수 있다. 지도 학습(supervised learning)은 입력과 출력 사이의 매핑을 학습하는 것이며, 입력과 출력 쌍이 데이터로 주어지는 경우에 적용할 수 있다. 비지도 학습(unsupervised learning)은 입력만 있고 출력은 없는 경우에 적용하며, 입력 사이의 규칙성 등을 찾아낼 수 있다. 다만, 일 실시예에 따른 기계 학습이 반드시 전술한 학습 방식으로 한정되는 것은 아니다.
한편, 전술한 방식대로 기계학습을 진행하기 위해서는 각각의 원본 이미지(350)마다 대응되는 원본 마스크 영역(322)이 기준으로서 미리 정해져 있을 필요가 있다.
하지만, 사람이 일일이 원본 이미지(350)에 대해서 대응되는 원본 마스크 영역(322)을 설정하는 것은 지나치게 오래 걸리고, 자원의 낭비가 발생할 수 있다. 따라서 대량의 원본 이미지(350)에 대해서 자동으로 각각의 원본 이미지(350)에 대응되는 원본 마스크 영역(322)을 설정할 수 있는 방법이 필요하다.
도 6은 일 실시예에 따른 학습용 데이터를 생성하는 방법을 설명하기 위한 도면이다.
도 6을 참조하면 원본 마스크 영역(322)을 추출하기 위한 파이프라인을 확인할 수 있다. 이 과정을 거쳐 임의의 사람 얼굴 이미지(2D image)인 원본 이미지(350)로부터 원본 마스크 영역(322)을 추출해낼 수 있다.
학습용 데이터 생성 모듈(150)은 원본 이미지(350)를 기초로 3차원 하관 모델링 데이터(501)를 생성할 수 있다. 3차원 하관 모델링 데이터(501)는 원본 이미지(350)의 발화 객체에 대한 3차원의 모델링 정보일 수 있다.
학습용 데이터 생성 모듈(150)은 3차원 하관 모델링 데이터(501)를 기초로 원본 이미지(350)에서 원본 마스크 영역(322)을 결정할 수 있다.
이를 위해, 학습용 데이터 생성 모듈(150)은 미리 정의된 3차원 얼굴 데이터 셋(3D Morphable Face Model, 3DMM)을 활용할 수 있다. 3DMM 데이터 셋을 이용하면, 임의의 사람 얼굴을 모양(Shape)와 표정(Expression) 등의 정보를 토대로 미리 정해진 파라미터들의 선형 결합인 [방정식 6]으로 표현할 수 있다.
[방정식 6]
[방정식 6]을 통해, 사람의 얼굴 정보(S)는 사람에 대한 평균적인 얼굴에 대한 정보인 평균 얼굴 정보()에서 얼굴 모양 계수(α id)와 3차원 얼굴 내 vertex들의 모양 basis(A id)의 곱 및 얼굴 표정 계수(α exp)와 얼굴 표정 basis(A exp)의 곱이 누적되어 특정한 얼굴을 위한 3차원 표현에 대한 모든 vertex들의 합으로 표현된다는 것을 확인할 수 있다.
임의의 얼굴이미지(2D image)인 원본 이미지(350)로부터 이러한 3차원 얼굴 데이터 표현을 얻기 위해, 본 발명에서는 3DDFA_V2를 사용할 수 있으나 이에 한정되는 것은 아니다. 3DDFA_V2는 3DMM의 모양, 표정 계수 등을 추론해주는 모델로서 임의 얼굴 이미지에 대한 3차원 얼굴 마스크 이미지를 얻도록 해준다. 이때 음성에 따른 얼굴 내 변화가 얼굴 하단 부분에만 있다고 가정했기 때문에, 얼굴 전체가 아닌 미리 지정한 얼굴 하단 영역에 대해서만 추출되도록 마스크 영역(320)을 제한할 수 있다.
3DDFA_V2를 통해 추출된 3차원 마스크 이미지(Inferred 3DMM mask)는 원본 이미지(350)에서의 표정(입술의 벌림 정도)를 표현하지만, 최종 마스크(Customized face mask)를 구하기 위해 다음의 두 가지 마스크 연산을 추가적으로 계산할 수 있다. 마스크 이미지를 구하는 이유는 기계 학습 모델이 이미지를 합성할 때 무음의 음성입력이 들어왔을 때 배경 이미지로 사용되는 얼굴 이미지가 입을 크게 벌리고 있으면 턱이 두 개가 생길 수 있는 문제를 사전에 제거할 수 있기 때문이다. 3DMM mask에서 얼굴 표정 계수(αexp)를 조정하면 입을 다물었을 때(Neutral expression)와 입을 가장 크게 벌렸을 때(Mouth full open)의 마스크 이미지를 얻을 수 있고, 이 모든 마스크들의 합으로 최종 마스크가 산출될 수 있다. 이러한 과정을 통해 추출된 얼굴 하단 영역 마스크는 모든 학습 데이터 셋에 적용될 수 있다.
도 1 및 도 6을 참조하면, 학습용 데이터 생성 모듈(150)은 원본 이미지(350)를 기초로 원본 이미지(350)에 대한 얼굴 모양 계수 및 얼굴 표정 계수를 추출할 수 있다.
학습용 데이터 생성 모듈(150)은 원본 이미지(350)의 학습용 발화 객체에 대한 얼굴 모양 정보의 값에 얼굴 모양 계수를 곱한 값 및 원본 이미지(350)의 학습용 발화 객체에 대한 얼굴 표정 정보의 값에 얼굴 표정 계수를 곱한 값을 기초로, 3차원 하관 모델링 데이터(501)를 생성할 수 있다.
학습용 데이터 생성 모듈(150)은 3차원 하관 모델링 데이터(501)의 얼굴 표정 계수를 변경하여, 3차원 하관 모델링 데이터(501)를 기초로 3차원 무표정 모델링 데이터(502)를 생성할 수 있다.
3차원 무표정 모델링 데이터(502)는 학습용 발화 객체가 입술을 다물고 있는 표정의 하관 모델링 데이터일 수 있다.
학습용 데이터 생성 모듈(150)은 3차원 하관 모델링 데이터(501)의 얼굴 표정 계수를 변경하여, 3차원 하관 모델링 데이터(501)를 기초로 3차원 개구 표정 모델링 데이터(503)를 생성할 수 있다.
3차원 개구 표정 모델링 데이터(503)는 학습용 발화 객체가 3차원 하관 모델링 데이터(501)에 비해 입을 더 크게 벌리고 있는 표정의 하관 모델링 데이터일 수 있다.
학습용 데이터 생성 모듈(150)은 3차원 하관 모델링 데이터(501), 3차원 무표정 모델링 데이터(502) 및 3차원 개구 표정 모델링 데이터(503)를 기초로 원본 이미지(350)에서 원본 마스크 영역(322)을 결정할 수 있다.
일 실시예에 따른 발화 음성 기반 얼굴 합성 방법은 target-agnostic 발화표정 합성 기술로 어떠한 인물에 대해서도 사전 학습된 모델만 있다면 합성이 가능한 방법이지만 이에 한정되지 않는다.
예를 들어, 일 실시예에 따른 발화 음성 기반 얼굴 합성 방법은 추론되는 얼굴 마스크를 이용하여, 특정한 인물에 대한 합성 품질을 개선시킬 수 있도록 하는 target-specific 합성 파이프라인을 제공할 수 있다. 이 방법의 핵심은 기존의 target-specific 합성기술들과 달리 3차원 얼굴특징 정보로부터 산출되는 모든 데이터들을 발화 음성 기반 얼굴 합성 시스템(100)의 출력결과물로 대체가능한 것이고, 이에 따라 성능을 유지한 채 학습 데이터 형태의 제한을 개선시킬 수 있다.
도 1을 참조하면, 대상별 음성 대응 이미지 생성 모듈(160)은 지정 발화 객체에 대한 오디오 음성 데이터(230), 지정 발화 객체에 대한 객체 하관 이미지 및 지정 발화 객체에 대한 음성 대응 출력 배경 이미지를 기초로, 제2 기계 학습 모델(172)을 이용하여 지정 발화 객체에 대한 특정 객체 얼굴 합성 이미지(340)를 생성할 수 있다.
지정 발화 객체는 해당 지정 발화 객체에 대한 얼굴 합성 이미지(340)를 생성하기 위해 미리 결정한 대상의 발화 객체일 수 있다.
도 7은 일 실시예에 따른 지정 발화 객체에 대한 얼굴 합성 이미지를 생성하는 과정을 설명하기 위한 도면이다.
도 1 및 도 7을 참조하면, 대상별 음성 대응 이미지 생성 모듈(160)은 지정 발화 객체에 대한 학습용 오디오 음성 데이터(260), 지정 발화 객체에 대한 학습용 객체 하관 이미지(331) 및 지정 발화 객체에 대한 학습용 음성 대응 출력 배경 이미지(332)를 기초로, 제2 기계 학습 모델(172)을 이용하여 학습용 특정 객체 얼굴 합성 이미지(342)를 생성할 수 있다.
학습용 특정 객체 얼굴 합성 이미지(IG2)(342)는 지정 발화 객체의 학습용 마스크 영역(321)이 학습용 오디오 음성 데이터(260)에 대응되는 하관 모양을 하는 이미지일 수 있다.
지정 발화 객체에 대한 학습용 객체 하관 이미지(IG X SG)(331)는, 지정 발화 객체에 대한 학습용 음성 대응 출력 이미지(311)에서 학습용 마스크 영역(321)에 해당하는 이미지일 수 있다.
학습용 음성 대응 출력 배경 이미지(IG X (1-SG))(332)는 지정 발화 객체에 대한 학습용 음성 대응 출력 이미지(311)에서 학습용 마스크 영역(321)을 제외한 영역에 대응되는 이미지일 수 있다.
제2 기계 학습 모듈(140)은 학습용 특정 객체 얼굴 합성 이미지(342) 및 지정 발화 객체에 대한 원본 이미지(350)를 기초로 제5 손실 함수를 연산할 수 있다.
제2 기계 학습 모듈(140)은 제5 손실 함수가 감소하도록 제2 기계 학습 모델(172)을 학습할 수 있다. 제2 기계 학습 모델(172)는 메모리(170)에 저장될 수 있다.
제2 기계 학습 모듈(140)은 학습용 특정 객체 얼굴 합성 이미지(342)를 기초로 딥러닝 네트워크를 이용하여 제3 중간 출력값을 추출할 수 있다.
제2 기계 학습 모듈(140)은 지정 발화 객체에 대한 원본 이미지(350)를 기초로 딥러닝 네트워크를 이용하여 제4 중간 출력값을 추출할 수 있다.
제2 기계 학습 모듈(140)은 제3 중간 출력값 및 제4 중간 출력값을 기초로 제6 손실 함수를 연산할 수 있다.
제6 손실 함수는 제3 중간 출력값 및 제4 중간 출력값의 차이를 최소화하는데 이용되는 손실 함수일 수 있다.
제2 기계 학습 모듈(140)은 지정 발화 객체에 대한 오디오 음성 데이터(230), 학습용 특정 객체 얼굴 합성 이미지(342) 및 지정 발화 객체에 대한 원본 이미지(350)를 기초로 제7 손실 함수를 연산할 수 있다.
제7 손실 함수는 학습용 특정 객체 얼굴 합성 이미지(342) 및 지정 발화 객체에 대한 원본 이미지(350)의 차이를 최소화하는데 이용되는 손실 함수일 수 있다.
제2 기계 학습 모듈(140)은 제6 손실 함수(L perceptual) 및 제7 손실 함수(L recon)를 기초로 제5 손실 함수를 연산할 수 있다. 이때, 제5 손실 함수(L total)는 [방정식 7]과 같이 표현될 수 있다.
[방정식 7]
도 8은 일 실시예에 따른 발화 음성 기반 얼굴 합성 방법의 순서도이다. 이는 본 발명의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 구성이 추가되거나 삭제될 수 있음은 물론이다.
도 8을 참조하면, 학습용 데이터 생성 모듈(150)은 3차원 하관 모델링 데이터(501)를 기초로 원본 이미지(350)에서 원본 마스크 영역(322)을 결정할 수 있다(1001).
중간 출력 데이터 생성 모듈(110)은 제1 학습용 발화자 이미지(240), 제2 학습용 발화자 이미지(250) 및 학습용 오디오 음성 데이터(260)를 기초로, 제1 기계 학습 모델(171)을 이용하여, 학습용 음성 대응 출력 이미지(311) 및 학습용 마스크 영역(321)을 생성할 수 있다(1002).
제1 기계 학습 모듈(130)은 학습용 오디오 음성 데이터(260), 학습용 얼굴 합성 이미지(341) 및 원본 이미지(350)를 기초로 통합 손실 함수를 연산할 수 있다. 제1 기계 학습 모듈(130)은 학습이 반복되면서 통합 손실 함수가 감소하도록 제1 기계 학습 모델(171)을 학습할 수 있다(1003).
중간 출력 데이터 생성 모듈(110)은 제1 발화자 이미지(210), 제2 발화자 이미지(220) 및 오디오 음성 데이터(230)를 기초로, 제1 기계 학습 모델(171)을 이용하여 음성 대응 출력 이미지(310) 및 마스크 영역(320)을 생성할 수 있다(1004).
음성 대응 이미지 생성 모듈(120)은 객체 하관 이미지와 배경 이미지를 합성하여 얼굴 합성 이미지(340)를 생성할 수 있다(1005).
중간 출력 데이터 생성 모듈(110), 음성 대응 이미지 생성 모듈(120), 제1 기계 학습 모듈(130), 제2 기계 학습 모듈(140), 학습용 데이터 생성 모듈(150) 및 대상별 음성 대응 이미지 생성 모듈(160)은 발화 음성 기반 얼굴 합성 시스템(100)에 포함된 복수개의 프로세서 중 어느 하나의 프로세서를 포함할 수 있다. 또한, 지금까지 설명된 본 발명의 실시예 및 앞으로 설명할 실시예에 따른 발화 음성 기반 얼굴 합성 방법은, 프로세서에 의해 구동될 수 있는 프로그램의 형태로 구현될 수 있다.
여기서 프로그램은, 프로그램 명령, 데이터 파일 및 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 프로그램은 기계어 코드나 고급 언어 코드를 이용하여 설계 및 제작된 것일 수 있다. 프로그램은 발화 음성 기반 얼굴 합성 방법을 구현하기 위하여 특별히 설계된 것일 수도 있고, 컴퓨터 소프트웨어 분야에서 통상의 기술자에게 기 공지되어 사용 가능한 각종 함수나 정의를 이용하여 구현된 것일 수도 있다. 전술한 발화 음성 기반 얼굴 합성 방법을 구현하기 위한 프로그램은, 프로세서에 의해 판독 가능한 기록매체에 기록될 수 있다. 이때, 기록매체는 메모리(170)일 수 있다.
메모리(170)는 전술한 동작 및 후술하는 동작을 수행하는 프로그램을 저장할 수 있으며, 메모리(170)는 저장된 프로그램을 실행시킬 수 있다. 프로세서와 메모리(170)가 복수인 경우에, 이들이 하나의 칩에 집적되는 것도 가능하고, 물리적으로 분리된 위치에 마련되는 것도 가능하다. 메모리(170)는 데이터를 일시적으로 기억하기 위한 S램(Static Random Access Memory, S-RAM), D랩(Dynamic Random Access Memory) 등의 휘발성 메모리를 포함할 수 있다. 또한, 메모리(170)는 제어 프로그램 및 제어 데이터를 장기간 저장하기 위한 롬(Read Only Memory), 이피롬(Erasable Programmable Read Only Memory: EPROM), 이이피롬(Electrically Erasable Programmable Read Only Memory: EEPROM) 등의 비휘발성 메모리를 포함할 수 있다.
프로세서는 각종 논리 회로와 연산 회로를 포함할 수 있으며, 메모리(170)로부터 제공된 프로그램에 따라 데이터를 처리하고, 처리 결과에 따라 제어 신호를 생성할 수 있다.
본 발명의 실시예에 따른 발화 음성 기반 얼굴 합성 시스템(100)의 성능을 검증하기 위하여, 음성 기반으로 발화중인 사람의 이미지를 해당 음성에 대응되도록 합성하는 실험을 진행하였다.
도 9는 일 실시예에 따른 발화 음성 기반 얼굴 합성 시스템을 이용한 실험 결과를 도시한 도면이며, 도 10은 일 실시예에 따른 발화 음성 기반 얼굴 합성 시스템이 종래의 방식에 비해 개선된 정도를 나타낸 표이다.
도 9 및 도 10을 참조하면, 일 실시예에 따른 발화 음성 기반 얼굴 합성 방법(SegWav2Lip(Ours))이 LRS3의 데이터셋에 대하여 다른 종래의 방법(PC-AVS, Wav2Lip)보다 픽셀 단위로 봤을 때 선명한 정도(CPBD), 다양한 이미지에 대해서 생성할 수 있는지에 대한 정도(FID), 입력된 음성하고 싱크가 맞는지에 대한 정보(LSE-C), 입력된 음성하고 가까운지에 대한 정도(LSE-D)의 측면에서 더 개선되었다는 것을 확인할 수 있다.
이상에서와 같이 첨부된 도면을 참조하여 개시된 실시예들을 설명하였다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고도, 개시된 실시예들과 다른 형태로 본 발명이 실시될 수 있음을 이해할 것이다. 개시된 실시예들은 예시적인 것이며, 한정적으로 해석되어서는 안 된다.
100: 발화 음성 기반 얼굴 합성 시스템
110: 중간 출력 데이터 생성 모듈
120: 음성 대응 이미지 생성 모듈
130: 제1 기계 학습 모듈
131: 오디오 인코더
132: 페이스 인코더
133: 디코더
140: 제2 기계 학습 모듈
150: 학습용 데이터 생성 모듈
160: 대상별 음성 대응 이미지 생성 모듈
170: 메모리
171: 제1 기계 학습 모델
172: 제2 기계 학습 모델
210: 제1 발화자 이미지
220: 제2 발화자 이미지
230: 오디오 음성 데이터
240: 제1 학습용 발화자 이미지
250: 제2 학습용 발화자 이미지
260: 학습용 오디오 음성 데이터
310: 음성 대응 출력 이미지
311: 학습용 음성 대응 출력 이미지
320: 마스크 영역
321: 학습용 마스크 영역
322: 원본 마스크 영역
331: 학습용 객체 하관 이미지
332: 학습용 음성 대응 출력 배경 이미지
340: 얼굴 합성 이미지
341: 학습용 얼굴 합성 이미지
342: 학습용 특정 객체 얼굴 합성 이미지
350: 원본 이미지
360: 원본 마스크 영역 이미지
501: 3차원 하관 모델링 데이터
502: 3차원 무표정 모델링 데이터
503: 3차원 개구 표정 모델링 데이터

Claims (19)

  1. 발화를 하고 있는 발화 객체의 얼굴 이미지인 제1 발화자 이미지, 제2 발화자 이미지 및 오디오 음성 데이터를 기초로, 제1 기계 학습 모델을 이용하여 상기 오디오 음성 데이터에 대응되는 얼굴을 하는 상기 발화 객체의 이미지인 음성 대응 출력 이미지 및 상기 발화 객체의 이미지에서 상기 발화 객체가 발화할 때 움직이는 얼굴 영역인 마스크 영역을 생성하도록 구성되는 중간 출력 데이터 생성 모듈을 포함하고,
    상기 제2 발화자 이미지는, 상기 제1 발화자 이미지의 하단 절반 영역이 제거되고 남은 상단 절반 영역의 이미지인, 발화 음성 기반 얼굴 합성 시스템.
  2. 제1항에 있어서,
    객체 하관 이미지와 배경 이미지를 합성하여 얼굴 합성 이미지를 생성하도록 구성되는 음성 대응 이미지 생성 모듈를 포함하고,
    상기 얼굴 합성 이미지는, 상기 발화 객체의 마스크 영역이 상기 오디오 음성 데이터에 대응되는 하관 모양을 하는 이미지이고,
    상기 객체 하관 이미지는, 상기 음성 대응 출력 이미지에서 상기 마스크 영역에 대응되는 이미지이고,
    상기 배경 이미지는, 상기 제1 발화자 이미지에서 상기 마스크 영역을 제외한 영역에 대응되는 이미지인, 발화 음성 기반 얼굴 합성 시스템.
  3. 제2항에 있어서,
    상기 제1 기계 학습 모델은:
    상기 오디오 음성 데이터를 기초로 상기 오디오 음성 데이터의 음성에 대응되는 표정을 나타내는 음성 특징 벡터를 추출하도록 구성되는 오디오 인코더;
    상기 제1 발화자 이미지 및 상기 제2 발화자 이미지를 기초로 합성될 얼굴의 정보를 나타내는 얼굴 특징 벡터를 추출하도록 구성되는 페이스 인코더; 및
    상기 음성 특징 벡터 및 상기 얼굴 특징 벡터를 기초로 상기 음성 대응 출력 이미지 및 상기 마스크 영역을 생성하도록 구성되는 디코더를 포함하는, 발화 음성 기반 얼굴 합성 시스템.
  4. 제2항에 있어서,
    상기 중간 출력 데이터 생성 모듈은,
    발화를 하고 있는 학습용 발화 객체의 얼굴 이미지인 제1 학습용 발화자 이미지, 제2 학습용 발화자 이미지 및 학습용 오디오 음성 데이터를 기초로, 상기 제1 기계 학습 모델을 이용하여, 상기 학습용 오디오 음성 데이터에 대응되는 얼굴을 하는 상기 학습용 발화 객체의 이미지인 학습용 음성 대응 출력 이미지 및 상기 학습용 발화 객체의 이미지에서 상기 학습용 발화 객체가 발화할 때 움직이는 얼굴 영역인 학습용 마스크 영역을 생성하도록 구성되고,
    상기 음성 대응 이미지 생성 모듈은,
    학습용 객체 하관 이미지와 학습용 배경 이미지를 합성하여 상기 학습용 발화 객체의 학습용 마스크 영역이 상기 학습용 오디오 음성 데이터에 대응되는 하관 모양을 하는 학습용 얼굴 합성 이미지를 생성하도록 구성되고,
    상기 학습용 객체 하관 이미지는, 상기 학습용 음성 대응 출력 이미지에서 상기 학습용 마스크 영역에 대응되는 이미지이고,
    상기 학습용 배경 이미지는, 원본 이미지에서 상기 학습용 마스크 영역을 제외한 영역에 대응되는 이미지이고,
    상기 원본 이미지는, 상기 학습용 오디오 음성 데이터의 음성을 실제로 발화하는 학습용 발화 객체를 촬영한 이미지이고,
    상기 제2 학습용 발화자 이미지는, 상기 원본 이미지의 하단 절반 영역이 제거되고 남은 상단 절반 영역의 이미지인, 발화 음성 기반 얼굴 합성 시스템.
  5. 제4항에 있어서,
    상기 학습용 오디오 음성 데이터, 상기 학습용 얼굴 합성 이미지 및 상기 원본 이미지를 기초로 통합 손실 함수를 연산하고, 상기 통합 손실 함수가 감소하도록 상기 제1 기계 학습 모델을 학습하는 제1 기계 학습 모듈을 더 포함하는 발화 음성 기반 얼굴 합성 시스템.
  6. 제5항에 있어서,
    상기 제1 기계 학습 모듈은:
    상기 학습용 오디오 음성 데이터를 기초로 음성 특징 벡터를 추출하고;
    상기 학습용 얼굴 합성 이미지를 기초로 합성 얼굴 특징 벡터를 추출하고; 그리고
    상기 음성 특징 벡터 및 상기 합성 얼굴 특징 벡터를 기초로 제1 손실 함수를 연산하도록 구성되는, 발화 음성 기반 얼굴 합성 시스템.
  7. 제6항에 있어서,
    상기 제1 기계 학습 모듈은:
    상기 학습용 얼굴 합성 이미지를 기초로 딥러닝 네트워크를 이용하여 제1 중간 출력값을 추출하고;
    상기 원본 이미지를 기초로 상기 딥러닝 네트워크를 이용하여 제2 중간 출력값을 추출하고; 그리고
    상기 제1 중간 출력값 및 상기 제2 중간 출력값을 기초로 제2 손실 함수를 연산하도록 구성되는, 발화 음성 기반 얼굴 합성 시스템.
  8. 제7항에 있어서,
    상기 제1 기계 학습 모듈은,
    상기 제1 손실 함수 및 상기 제2 손실 함수를 기초로 상기 통합 손실 함수를 연산하도록 구성되는, 발화 음성 기반 얼굴 합성 시스템.
  9. 제7항에 있어서,
    상기 제1 기계 학습 모듈은,
    학습용 객체 하관 이미지 및 원본 마스크 영역 이미지를 기초로 제3 손실 함수를 연산하도록 구성되고,
    상기 원본 마스크 영역 이미지는, 상기 원본 이미지에서 원본 마스크 영역에 해당하는 이미지이고,
    상기 원본 마스크 영역은, 상기 원본 이미지에서 상기 학습용 발화 객체가 발화할 때 움직이는 얼굴 영역으로 미리 설정된 얼굴 영역인, 발화 음성 기반 얼굴 합성 시스템.
  10. 제9항에 있어서,
    상기 제1 기계 학습 모듈은:
    상기 학습용 마스크 영역 및 상기 원본 마스크 영역을 기초로 제4 손실 함수를 연산하도록 구성되고; 그리고
    상기 제1 손실 함수, 상기 제2 손실 함수, 상기 제3 손실 함수 및 상기 제4 손실 함수를 기초로 상기 통합 손실 함수를 연산하도록 구성되는, 발화 음성 기반 얼굴 합성 시스템.
  11. 제10항에 있어서,
    상기 원본 이미지를 기초로 3차원 하관 모델링 데이터를 생성하고, 상기 3차원 하관 모델링 데이터를 기초로 상기 원본 이미지에서 상기 원본 마스크 영역을 결정하도록 구성되는 학습용 데이터 생성 모듈을 더 포함하는 발화 음성 기반 얼굴 합성 시스템.
  12. 제11항에 있어서,
    상기 학습용 데이터 생성 모듈은:
    상기 원본 이미지를 기초로 상기 원본 이미지에 대한 얼굴 모양 계수 및 얼굴 표정 계수를 추출하고; 그리고
    상기 원본 이미지의 학습용 발화 객체에 대한 얼굴 모양 정보의 값에 상기 얼굴 모양 계수를 곱한 값 및 상기 원본 이미지의 학습용 발화 객체에 대한 얼굴 표정 정보의 값에 상기 얼굴 표정 계수를 곱한 값을 기초로, 상기 3차원 하관 모델링 데이터를 생성하도록 구성되는, 발화 음성 기반 얼굴 합성 시스템.
  13. 제12항에 있어서,
    상기 학습용 데이터 생성 모듈은:
    상기 3차원 하관 모델링 데이터의 얼굴 표정 계수를 변경하여, 상기 3차원 하관 모델링 데이터를 기초로 상기 학습용 발화 객체가 입술을 다물고 있는 표정의 하관 모델링 데이터인 3차원 무표정 모델링 데이터를 생성하고;
    상기 3차원 하관 모델링 데이터의 얼굴 표정 계수를 변경하여, 상기 3차원 하관 모델링 데이터를 기초로 상기 학습용 발화 객체가 상기 3차원 하관 모델링 데이터에 비해 입을 더 크게 벌리고 있는 표정의 하관 모델링 데이터인 3차원 개구 표정 모델링 데이터를 생성하는, 발화 음성 기반 얼굴 합성 시스템.
  14. 제13항에 있어서,
    상기 학습용 데이터 생성 모듈은:
    상기 3차원 하관 모델링 데이터, 상기 3차원 무표정 모델링 데이터 및 상기 3차원 개구 표정 모델링 데이터를 기초로 상기 원본 이미지에서 상기 원본 마스크 영역을 결정하도록 구성되는, 발화 음성 기반 얼굴 합성 시스템.
  15. 제5항에 있어서,
    지정 발화 객체에 대한 학습용 오디오 음성 데이터, 지정 발화 객체에 대한 학습용 객체 하관 이미지 및 지정 발화 객체에 대한 학습용 음성 대응 출력 배경 이미지를 기초로, 제2 기계 학습 모델을 이용하여 학습용 특정 객체 얼굴 합성 이미지를 생성하도록 구성되는 대상별 음성 대응 이미지 생성 모듈을 더 포함하고,
    상기 학습용 특정 객체 얼굴 합성 이미지는, 상기 지정 발화 객체의 학습용 마스크 영역이 상기 학습용 오디오 음성 데이터에 대응되는 하관 모양을 하는 이미지이고,
    상기 지정 발화 객체에 대한 학습용 객체 하관 이미지는, 상기 지정 발화 객체에 대한 학습용 음성 대응 출력 이미지에서 상기 학습용 마스크 영역에 해당하는 이미지이고,
    상기 학습용 음성 대응 출력 배경 이미지는, 상기 지정 발화 객체에 대한 학습용 음성 대응 출력 이미지에서 상기 학습용 마스크 영역을 제외한 영역에 대응되는 이미지인, 발화 음성 기반 얼굴 합성 시스템.
  16. 제15항에 있어서,
    상기 학습용 특정 객체 얼굴 합성 이미지 및 상기 지정 발화 객체에 대한 원본 이미지를 기초로 제5 손실 함수를 연산하고, 상기 제5 손실 함수가 감소하도록 상기 제2 기계 학습 모델을 학습하는 제2 기계 학습 모듈을 더 포함하는 발화 음성 기반 얼굴 합성 시스템.
  17. 제16항에 있어서,
    상기 제2 기계 학습 모듈은:
    상기 학습용 특정 객체 얼굴 합성 이미지를 기초로 딥러닝 네트워크를 이용하여 제3 중간 출력값을 추출하고;
    상기 지정 발화 객체에 대한 원본 이미지를 기초로 상기 딥러닝 네트워크를 이용하여 제4 중간 출력값을 추출하고; 그리고
    상기 제3 중간 출력값 및 상기 제4 중간 출력값을 기초로 제6 손실 함수를 연산하도록 구성되는, 발화 음성 기반 얼굴 합성 시스템.
  18. 제17항에 있어서,
    상기 제2 기계 학습 모듈은:
    상기 지정 발화 객체에 대한 오디오 음성 데이터, 상기 학습용 특정 객체 얼굴 합성 이미지 및 상기 지정 발화 객체에 대한 원본 이미지를 기초로 제7 손실 함수를 연산하도록 구성되고; 그리고
    상기 제6 손실 함수 및 상기 제7 손실 함수를 기초로 상기 제5 손실 함수를 연산하도록 구성되는, 발화 음성 기반 얼굴 합성 시스템.
  19. 제15항에 있어서,
    상기 대상별 음성 대응 이미지 생성 모듈은,
    지정 발화 객체에 대한 오디오 음성 데이터, 지정 발화 객체에 대한 객체 하관 이미지 및 지정 발화 객체에 대한 음성 대응 출력 배경 이미지를 기초로, 상기 제2 기계 학습 모델을 이용하여 상기 지정 발화 객체에 대한 특정 객체 얼굴 합성 이미지를 생성하도록 구성되는, 발화 음성 기반 얼굴 합성 시스템.
KR1020230076484A 2022-06-15 2023-06-15 사람 음성에 따른 실사인물의 발화 영상 합성 시스템 KR20230172427A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20220072834 2022-06-15
KR1020220072834 2022-06-15

Publications (1)

Publication Number Publication Date
KR20230172427A true KR20230172427A (ko) 2023-12-22

Family

ID=89309712

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230076484A KR20230172427A (ko) 2022-06-15 2023-06-15 사람 음성에 따른 실사인물의 발화 영상 합성 시스템

Country Status (1)

Country Link
KR (1) KR20230172427A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117974850A (zh) * 2024-04-01 2024-05-03 国家超级计算天津中心 基于音频驱动的图像处理方法、设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117974850A (zh) * 2024-04-01 2024-05-03 国家超级计算天津中心 基于音频驱动的图像处理方法、设备和存储介质

Similar Documents

Publication Publication Date Title
Ezzat et al. Miketalk: A talking facial display based on morphing visemes
Cao et al. Expressive speech-driven facial animation
Chen et al. Audio-visual integration in multimodal communication
JP3664474B2 (ja) 視覚的スピーチの言語透過的合成
CN113192161A (zh) 一种虚拟人形象视频生成方法、系统、装置及存储介质
Xie et al. Realistic mouth-synching for speech-driven talking face using articulatory modelling
JP2000508845A (ja) ビデオ画像シーケンスの新たなサウンドトラックに対する自動同期
CN113077537B (zh) 一种视频生成方法、存储介质及设备
JP2003529861A (ja) 音響信号により駆動される人間の顔の合成モデルのアニメ化方法
KR20230172427A (ko) 사람 음성에 따른 실사인물의 발화 영상 합성 시스템
Wang et al. HMM trajectory-guided sample selection for photo-realistic talking head
CN116597857A (zh) 一种语音驱动图像的方法、系统、装置及存储介质
Hassid et al. More than words: In-the-wild visually-driven prosody for text-to-speech
Filntisis et al. Video-realistic expressive audio-visual speech synthesis for the Greek language
Deena et al. Visual speech synthesis using a variable-order switching shared Gaussian process dynamical model
Beskow et al. Data-driven synthesis of expressive visual speech using an MPEG-4 talking head.
JP2974655B1 (ja) アニメーションシステム
Breen et al. An investigation into the generation of mouth shapes for a talking head
JP4617500B2 (ja) リップシンクアニメーション作成装置、コンピュータプログラム及び顔モデル生成装置
CN115883753A (zh) 视频的生成方法、装置、计算设备及存储介质
CN113963092A (zh) 音视频拟合关联的计算方法、装置、介质和设备
Kakumanu et al. A comparison of acoustic coding models for speech-driven facial animation
Kolivand et al. Realistic lip syncing for virtual character using common viseme set
Lin et al. A speech driven talking head system based on a single face image
Avdelidis et al. Multilingual automated digital talking character