KR102540763B1 - 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치 - Google Patents

머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치 Download PDF

Info

Publication number
KR102540763B1
KR102540763B1 KR1020210071994A KR20210071994A KR102540763B1 KR 102540763 B1 KR102540763 B1 KR 102540763B1 KR 1020210071994 A KR1020210071994 A KR 1020210071994A KR 20210071994 A KR20210071994 A KR 20210071994A KR 102540763 B1 KR102540763 B1 KR 102540763B1
Authority
KR
South Korea
Prior art keywords
image
lip sync
model
lip
person
Prior art date
Application number
KR1020210071994A
Other languages
English (en)
Other versions
KR20220163623A (ko
Inventor
채경수
Original Assignee
주식회사 딥브레인에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 딥브레인에이아이 filed Critical 주식회사 딥브레인에이아이
Priority to KR1020210071994A priority Critical patent/KR102540763B1/ko
Priority to PCT/KR2021/007643 priority patent/WO2022255529A1/ko
Priority to US17/764,314 priority patent/US20240055015A1/en
Publication of KR20220163623A publication Critical patent/KR20220163623A/ko
Application granted granted Critical
Publication of KR102540763B1 publication Critical patent/KR102540763B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치가 개시된다. 개시되는 일 실시예에 따른 머신 러닝 기반의 립싱크 영상 생성 장치는, 인공 신경망 모델이고, 인물 배경 영상 및 발화 오디오 신호를 입력으로 하여 립싱크 영상을 생성하는 영상 합성 모델 및 인공 신경망 모델이고, 영상 합성 모델에서 생성하는 립싱크 영상과 영상 합성 모델로 입력되는 발화 오디오 신호 간의 일치 정도를 판별하는 립싱크 판별 모델을 포함한다.

Description

머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치{A LEARNING METHOD FOR GENERATING A LIP-SYNC VIDEO BASED ON MACHINE LEARNING AND A LIP-SYNC VIDEO GENERATING DEVICE FOR EXECUTING THE METHOD}
본 발명의 실시예는 립싱크 영상 생성 기술과 관련된다.
립싱크 영상을 합성하는 인공 신경망 모델(립싱크 모델)을 학습하기 위해서는 발화 영상과 음성의 싱크(Sync)가 일치하는 동영상을 훈련 데이터로 사용한다. 즉, 단일 화자를 위한 립싱크 모델 및 다중 화자를 위한 립싱크 모델 모두 기본적으로 동일인의 동시에 촬영 및 녹음된 얼굴 영상과 음성의 쌍을 훈련 데이터로 사용하여 학습하게 된다.
단일 화자를 위한 립싱크 모델의 주요 목표는 음성과 타이밍이 일치하지 않는 임의의 영상의 발화 부분을 해당 음성과 일치하도록 립싱크 영상을 합성하는 것인데, 립싱크 모델을 학습할 때 음성과 영상의 타이밍이 불일치 하는 경우에 대한 학습이 어렵다는 문제점이 있다.
즉, 각 사람은 고유한 발화 습관을 가지고 있다. 예를 들어, 화자가 고개 기울임 또는 끄덕임 등 얼굴 위치나 동작과 관련된 규칙적이거나 편향된 발화 습관이 있는 경우, 발화 부분을 가린 인물 배경 영상의 머리 각도나 어깨 모양 등이 입 모양을 예측할 수 있는 근거가 되어 립싱크 합성 결과에 영향을 미치기 때문에, 립싱크 영상 합성 시 음성과 인물 배경 영상 간의 불일치가 클수록 립싱크 영상 합성의 정확성이 떨어지게 된다.
또한, 다중 화자를 위한 립싱크 모델의 주요 목표는 음성과 발화 영상의 타이밍이 일치하지 않을 뿐만 아니라 인물의 아이덴티티(Identity)가 불일치 하는 경우에도 립싱크 영상을 합성하는 것인데, 립싱크 모델을 합성할 때 인물의 아이덴티티(Identity)가 불일치 하는 경우에 대한 학습이 어렵다는 문제점이 있다.
즉, 각 사람은 고유한 음색(예를 들어, 발화 시 특정한 주파수, 상대적인 에너지를 갖는 기저음과 배음의 조합, 소리를 시작하고 지속하며 끝내는 강도 또는 변화 속도 등)과 발화 습관을 가지고 있으며, 서로 다른 언어의 경우 말을 구성하는 소리의 특성에 차이가 있다. 따라서, 특정 인물의 립싱크 영상을 합성할 때, 다른 사람의 목소리 또는 다른 언어의 음성을 입력으로 사용하면 립싱크로 합성된 영상에서 화자의 입 모양의 정확성이 크게 떨어지게 된다.
한국공개특허공보 제10-2019-0114150(2019.10.10)
본 발명의 실시예는 음성과 영상이 상호 일치하지 않는 경우에도 립싱크 모델을 학습할 수 있는 립싱크 영상 생성 기법을 제공하기 위한 것이다.
개시되는 일 실시예에 따른 립싱크 영상 생성 장치는, 머신 러닝 기반의 립싱크 영상 생성 장치로서, 인공 신경망 모델이고, 인물 배경 영상 및 발화 오디오 신호를 입력으로 하여 립싱크 영상을 생성하는 영상 합성 모델; 및 인공 신경망 모델이고, 상기 영상 합성 모델에서 생성하는 립싱크 영상과 상기 영상 합성 모델로 입력되는 발화 오디오 신호 간의 일치 정도를 판별하는 립싱크 판별 모델을 포함한다.
상기 립싱크 영상 생성 장치는, 상호 일치하는 인물 배경 영상 및 발화 오디오 신호의 쌍이 학습 데이터로 사용되는 경우와 상호 일치하지 않는 인물 배경 영상 및 발화 오디오 신호의 쌍이 학습 데이터로 사용되는 경우 각각에 대해 서로 다른 전체 손실 함수를 사용하여 상기 영상 합성 모델 및 상기 립싱크 판별 모델을 학습시킬 수 있다.
상기 립싱크 영상 생성 장치는, 상호 일치하는 인물 배경 영상 및 발화 오디오 신호의 쌍이 상기 영상 합성 모델로 입력되는 경우, 상기 영상 합성 모델에서 출력하는 립싱크 영상과 원본 영상 간의 차이를 최소화 하기 위한 복원 손실(Reconstruction Loss)을 주 손실 함수로 하고, 상기 립싱크 판별 모델에서 상기 립싱크 영상과 상기 영상 합성 모델로 입력되는 발화 오디오 신호 간의 차이를 최소화 하기 위한 싱크 손실(Sync Loss)을 보조 손실 함수로 할 수 있다.
상기 립싱크 영상 생성 장치의 전체 손실 함수(Lagree)는 하기의 수학식을 통해 표현될 수 있다.
(수학식)
Figure 112021064212642-pat00001
Si : i번째 학습 데이터에 대한 원본 영상
G : 영상 합성 모델을 구성하는 신경망
Figure 112021064212642-pat00002
: 발화와 관련된 부분이 마스크로 가려진 인물 배경 영상
Ai : 인물 배경 영상과 상호 일치하는 발화 오디오 신호
Figure 112021064212642-pat00003
: 영상 합성 모델에서 출력하는 립싱크 영상
Figure 112021064212642-pat00004
: A와 B의 차이를 구하는 함수
λagree : 영상 합성 모델의 복원 손실과 립싱크 판별 모델의 싱크 손실 간의 가중치
Dsync : 립싱크 판별 모델을 구성하는 신경망
상기 립싱크 영상 생성 장치는, 인공 신경망 모델이고, 상기 원본 영상은 참(True)으로 분류하며, 상기 립싱크 영상은 거짓(Fake)로 분류하는 영상 판별자 모델을 더 포함하고, 상기 립싱크 영상 생성 장치는, 상기 영상 판별자 모델이 상기 영상 합성 모델에서 출력하는 립싱크 영상을 참(True)으로 분류하도록 상기 영상 합성 모델을 유도하는 적대적 손실 함수를 포함할 수 있다.
상기 립싱크 영상 생성 장치의 전체 손실 함수(Lagree)는 하기의 수학식을 통해 표현될 수 있다.
(수학식)
Figure 112021064212642-pat00005
γ : 적대적 손실 함수의 가중치
Dgan : 영상 판별자 모델의 신경망
상기 립싱크 영상 생성 장치는, 인공 신경망 모델이고, 상기 립싱크 영상의 인물과 상기 원본 영상의 인물이 동일한 인물인지를 판별하는 아이덴티티 판별자 모델을 더 포함하고, 상기 립싱크 영상 생성 장치는, 상기 립싱크 영상 속 인물의 아이덴티티와 상기 원본 영상 속 인물의 아이덴티티 간의 차이를 최소화 하기 위한 아이덴티티 손실(Identity Loss)을 손실 함수로 포함할 수 있다.
상기 립싱크 영상 생성 장치의 전체 손실 함수(Lagree)는 하기의 수학식을 통해 표현될 수 있다.
(수학식)
Figure 112021064212642-pat00006
β : 아이덴티티 손실의 가중치
Did : 아이덴티티 판별자 모델을 구성하는 신경망
상기 립싱크 영상 생성 장치는, 상호 일치하지 않는 인물 배경 영상 및 발화 오디오 신호의 쌍이 상기 영상 합성 모델로 입력되는 경우, 상기 립싱크 판별 모델에서 상기 립싱크 영상과 상기 영상 합성 모델로 입력되는 발화 오디오 신호 간의 차이를 최소화 하기 위한 싱크 손실(Sync Loss)을 주 손실 함수로 하고, 상기 영상 합성 모델에서 출력하는 립싱크 영상과 원본 영상 중 발화와 관련 없는 부분 간의 차이를 최소화 하기 위한 부분 복원 손실(Partial Reconstruction Loss)을 보조 손실 함수로 할 수 있다.
상기 립싱크 영상 생성 장치의 전체 손실 함수(Ldisagree)는 하기의 수학식을 통해 표현될 수 있다.
(수학식)
Figure 112021064212642-pat00007
Dsync : 립싱크 판별 모델을 구성하는 신경망
G : 영상 합성 모델을 구성하는 신경망
Figure 112021064212642-pat00008
: 발화와 관련된 부분이 마스크로 가려진 인물 배경 영상
Aj : 인물 배경 영상과 상호 일치하지 않는 발화 오디오 신호
Figure 112021064212642-pat00009
: 영상 합성 모델에서 출력하는 립싱크 영상
λdisagree : 립싱크 판별 모델의 싱크 손실과 영상 합성 모델의 부분 복원 손실 간의 가중치
Mi : 인물 배경 영상에서 발화와 관련된 부분을 가린 마스크
Figure 112021064212642-pat00010
: 픽셀 단위 곱셈(pixel-wise multiplication)을 수행하는 연산자
상기 립싱크 영상 생성 장치는, 인공 신경망 모델이고, 상기 원본 영상은 참(True)으로 분류하며, 상기 립싱크 영상은 거짓(Fake)로 분류하는 영상 판별자 모델을 더 포함하고, 상기 립싱크 영상 생성 장치는, 상기 영상 판별자 모델이 상기 영상 합성 모델에서 출력하는 립싱크 영상을 참(True)으로 분류하도록 상기 영상 합성 모델을 유도하는 적대적 손실 함수를 포함할 수 있다.
상기 립싱크 영상 생성 장치의 전체 손실 함수(Ldisagree)는 하기의 수학식을 통해 표현될 수 있다.
(수학식)
Figure 112021064212642-pat00011
γ : 적대적 손실 함수의 가중치
Dgan : 영상 판별자 모델의 신경망
상기 립싱크 영상 생성 장치는, 인공 신경망 모델이고, 상기 립싱크 영상의 인물과 상기 원본 영상의 인물이 동일한 인물인지를 판별하는 아이덴티티 판별자 모델을 더 포함하고, 상기 립싱크 영상 생성 장치는, 상기 립싱크 영상 속 인물의 아이덴티티와 상기 원본 영상 속 인물의 아이덴티티 간의 차이를 최소화 하기 위한 아이덴티티 손실(Identity Loss)을 손실 함수로 포함할 수 있다.
상기 립싱크 영상 생성 장치의 전체 손실 함수(Ldisagree)는 하기의 수학식을 통해 표현될 수 있다.
(수학식)
Figure 112021064212642-pat00012
β : 아이덴티티 손실의 가중치
Did : 아이덴티티 판별자 모델을 구성하는 신경망
개시되는 일 실시예에 따른 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법은, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로, 인물 배경 영상 및 발화 오디오 신호를 영상 합성 모델로 입력하는 립싱크 영상을 생성하는 단계; 립싱크 판별 모델을 통해 상기 영상 합성 모델에서 생성하는 립싱크 영상과 상기 영상 합성 모델로 입력되는 발화 오디오 신호 간의 일치 정도를 판별하는 단계; 및 상호 일치하는 인물 배경 영상 및 발화 오디오 신호의 쌍이 학습 데이터로 사용되는 경우와 상호 일치하지 않는 인물 배경 영상 및 발화 오디오 신호의 쌍이 학습 데이터로 사용되는 경우 각각에 대해 서로 다른 전체 손실 함수를 사용하여 상기 영상 합성 모델 및 상기 립싱크 판별 모델을 학습시키는 단계를 포함한다.
개시되는 실시예에 의하면, 인물 배경 영상과 발화 오디오 신호가 상호 일치하지 않는 경우 립싱크 판별 모델을 이용하여 싱크 손실을 전체 손실 함수에 추가함으로써, 영상 합성 모델에서 출력하는 립싱크 영상의 학습이 가능하게 되며, 립싱크 영상의 합성 정확도를 향상 시킬 수 있게 된다.
도 1은 본 발명의 일 실시예에 따른 립싱크 영상 생성 장치의 구성을 나타낸 도면
도 2는 본 발명의 일 실시예에 따른 립싱크 영상 생성 장치에서 상호 일치하는 인물 배경 영상 및 발화 오디오 신호의 쌍이 학습 데이터로 사용되는 경우를 나타낸 도면
도 3은 도 2의 립싱크 영상 생성 장치에서 영상 판별자 모델이 추가된 상태를 나타낸 도면
도 4는 도 2의 립싱크 영상 생성 장치에서 아이덴티티 판별자 모델이 추가된 상태를 나타낸 도면
도 5는 본 발명의 일 실시예에 따른 립싱크 영상 생성 장치에서 상호 일치하지 않는 인물 배경 영상 및 발화 오디오 신호의 쌍이 학습 데이터로 사용되는 경우를 나타낸 도면
도 6은 도 5의 립싱크 영상 생성 장치에서 영상 판별자 모델이 추가된 상태를 나타낸 도면
도 7은 도 5의 립싱크 영상 생성 장치에서 아이덴티티 판별자 모델이 추가된 상태를 나타낸 도면
도 8은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.
또한, 제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
도 1은 본 발명의 일 실시예에 따른 립싱크 영상 생성 장치의 구성을 나타낸 도면이다.
도 1을 참조하면, 립싱크 영상 생성 장치(100)는 영상 합성 모델(102) 및 립싱크 판별 모델(104)을 포함한다. 여기서, 립싱크 영상 생성 장치(100)는 머신 러닝(Machine Learning) 기반의 립싱크 영상 생성 장치이다.
영상 합성 모델(102)은 립싱크 영상을 합성하기 위한 인공 신경망 모델이다. 예시적인 실시예에서, 영상 합성 모델(102)은 합성곱 신경망(Convolutional Neural Network : CNN) 기반의 머신 러닝 기술로 구현될 수 있으나, 머신 러닝 기술이 이에 한정되는 것은 아니며 그 이외의 다양한 머신 러닝 기술이 적용될 수 있다.
영상 합성 모델(102)은 인물 배경 영상 및 발화 오디오 신호를 입력으로 하여 립싱크 영상을 합성하도록 마련될 수 있다. 여기서, 영상 합성 모델(102)은 인물 배경 영상과 발화 오디오 신호가 일치하는 경우와 일치하지 않는 경우에 대해 각각 학습될 수 있다. 즉, 영상 합성 모델(102)을 학습하기 위한 학습 데이터는 상호 일치하는 인물 배경 영상 및 발화 오디오 신호의 쌍과 상호 일치하지 않는 인물 배경 영상 및 발화 오디오 신호의 쌍이 각각 사용될 수 있다.
인물 배경 영상과 발화 오디오 신호가 일치한다는 것은 발화 오디오 신호가 인물 배경 영상 속 인물의 목소리이고(즉, 아이덴티티가 일치), 인물 배경 영상과 발화 오디오 신호의 타이밍이 일치하는 경우를 의미할 수 있다. 그리고, 인물 배경 영상과 발화 오디오 신호가 일치하지 않는 다는 것은 인물 배경 영상과 오디오 신호 간의 타이밍 및 인물 배경 영상과 오디오 신호 간의 아이덴티티 중 적어도 하나가 일치하지 않는 경우를 의미할 수 있다.
립싱크 판별 모델(104)은 영상 합성 모델(102)에서 출력하는 립싱크 영상과 영상 합성 모델(102)로 입력되는 발화 오디오 신호(즉, 립싱크 영상의 생성을 위해 영상 합성 모델(102)로 입력되는 발화 오디오 신호) 간의 일치(즉, 싱크(Sync)) 정도를 판별하기 위한 인공 신경망 모델이다.
립싱크 영상 생성 장치(100)는 상호 일치하는 인물 배경 영상 및 발화 오디오 신호의 쌍이 학습 데이터로 사용되는 경우와 상호 일치하지 않는 인물 배경 영상 및 발화 오디오 신호의 쌍이 학습 데이터로 사용되는 경우 각각에 대해 서로 다른 손실 함수를 사용하여 영상 합성 모델(102) 및 립싱크 판별 모델(104)을 학습시킬 수 있다.
구체적으로, 립싱크 영상 생성 장치(100)는 상호 일치하는 인물 배경 영상 및 발화 오디오 신호의 쌍이 영상 합성 모델(102)로 입력되는 경우, 영상 합성 모델(102)에서 출력하는 립싱크 영상과 원본 영상(즉, 정답 영상) 간의 차이를 최소화 하기 위한 복원 손실(Reconstruction Loss)을 주 손실 함수로 사용할 수 있다. 그리고, 립싱크 판별 모델(104)에서 영상 합성 모델(102)이 출력하는 립싱크 영상과 영상 합성 모델(102)로 입력되는 발화 오디오 신호 간의 차이를 최소화 하기 위한 싱크 손실(Sync Loss)을 보조 손실 함수로 사용할 수 있다. 그러나, 이에 한정되는 것은 아니며 상기 복원 손실만을 손실 함수로 사용할 수도 있다.
또한, 립싱크 영상 생성 장치(100)는 상호 일치하지 않는 인물 배경 영상 및 발화 오디오 신호의 쌍이 영상 합성 모델(102)로 입력되는 경우, 립싱크 판별 모델(104)에서 영상 합성 모델(102)이 출력하는 립싱크 영상과 영상 합성 모델(102)로 입력되는 발화 오디오 신호 간의 차이를 최소화 하기 위한 싱크 손실(Sync Loss)을 주 손실 함수로 사용할 수 있다. 그리고, 영상 합성 모델(102)에서 출력하는 립싱크 영상과 원본 영상 중 발화와 관련 없는 부분의 차이를 최소화 하기 위한 부분 복원 손실(Partial Reconstruction Loss)을 보조 손실 함수로 사용할 수 있다.
개시되는 실시예에 의하면, 인물 배경 영상과 발화 오디오 신호가 상호 일치하지 않는 경우 립싱크 판별 모델(104)을 이용하여 싱크 손실을 전체 손실 함수에 추가함으로써, 영상 합성 모델(102)에서 출력하는 립싱크 영상의 학습이 가능하게 되며, 립싱크 영상의 합성 정확도를 향상 시킬 수 있게 된다.
도 2는 본 발명의 일 실시예에 따른 립싱크 영상 생성 장치에서 상호 일치하는 인물 배경 영상 및 발화 오디오 신호의 쌍이 학습 데이터로 사용되는 경우를 나타낸 도면이다. 도 2를 참조하면, 영상 합성 모델(102)은 제1 인코더(111), 제2 인코더(113), 조합부(115), 및 디코더(117)를 포함할 수 있다.
제1 인코더(111)는 인물 배경 영상을 입력으로 하여 영상 특징 벡터를 추출할 수 있다. 제2 인코더(113)는 발화 오디오 신호를 입력으로 하여 음성 특징 벡터를 추출할 수 있다.
여기서, 인물 배경 영상은 소정 인물이 발화하는(말을 하는) 영상이다. 인물 배경 영상은 발화와 관련된 부분(예를 들어, 입 및 입 주위 부분 등)이 마스크(M)로 가려진 영상일 수 있다. 또한, 발화 오디오 신호는 인물 배경 영상 속 인물의 목소리이고, 인물 배경 영상과 타이밍이 일치하는 오디오 신호이다.
조합부(115)는 제1 인코더(111)에서 출력하는 영상 특징 벡터 및 제2 인코더(113)에서 출력하는 음성 특징 벡터를 조합하여 조합 벡터를 생성할 수 있다. 디코더(117)는 조합부(115)가 생성한 조합 벡터를 입력으로 하여 립싱크 영상을 출력할 수 있다. 디코더(117)는 제2 인코더(113)에서 출력되는 음성 특징 벡터를 기반으로 제1 인코더(111)에서 출력되는 영상 특징 벡터의 마스크(M)로 가려진 부분(즉, 발화와 관련된 부분)을 복원하여 립싱크 영상을 생성할 수 있다.
영상 합성 모델(102)은 디코더(117)에서 출력하는 립싱크 영상과 원본 영상 간의 차이인 복원 손실(Reconstruction Loss)을 해당 신경망의 손실 함수로 하게 된다.
또한, 립싱크 판별 모델(104)은 발화 오디오 신호(즉, 인물 배경 영상과 상호 일치하는 발화 오디오 신호)를 입력으로 하고, 영상 합성 모델(102)에서 출력되는 립싱크 영상을 입력으로 하여, 립싱크 영상과 발화 오디오 신호 간의 차이(즉, 불일치 정도)를 구하도록 마련될 수 있다. 즉, 립싱크 판별 모델(104)은 립싱크 영상과 발화 오디오 신호 간의 차이인 싱크 손실(Sync Loss)을 해당 신경망의 손실 함수로 하게 된다.
이와 같이, 상호 일치하는 인물 배경 영상 및 발화 오디오 신호의 쌍이 학습 데이터로 사용되는 경우, 립싱크 영상 생성 장치(100)는 영상 합성 모델(102)의 복원 손실 및 립싱크 판별 모델(104)의 싱크 손실이 최소화 되도록 할 수 있다. 즉, 영상 합성 모델(102)은 립싱크 영상과 원본 영상 간의 차이를 줄이도록 하고, 립싱크 판별 모델(104)은 립싱크 영상과 립싱크 영상에 사용된 발화 오디오 신호 간의 차이를 줄이도록 학습될 수 있다.
이때, 립싱크 영상 생성 장치(100)의 전체 손실 함수(Lagree)는 하기의 수학식 1을 통해 나타낼 수 있다.
(수학식 1)
Figure 112021064212642-pat00013
Si : i번째 학습 데이터에 대한 원본 영상
G : 영상 합성 모델을 구성하는 신경망
Figure 112021064212642-pat00014
: 발화와 관련된 부분이 마스크로 가려진 인물 배경 영상
Ai : 인물 배경 영상과 상호 일치하는 발화 오디오 신호
Figure 112021064212642-pat00015
: 영상 합성 모델에서 출력하는 립싱크 영상
Figure 112021064212642-pat00016
: A와 B의 차이를 구하는 함수
λagree : 영상 합성 모델의 복원 손실과 립싱크 판별 모델의 싱크 손실 간의 가중치
Dsync : 립싱크 판별 모델을 구성하는 신경망
여기서,
Figure 112021064212642-pat00017
(즉, A와 B의 차이를 구하는 함수)는 예를 들어, A와 B의 유클리디안 거리(L2 distance) 또는 맨하튼 거리(L1 distance)를 구하는 함수가 사용될 수 있다.
수학식 1에서 우변의 첫 번째 항이 영상 합성 모델(102)의 복원 손실을 나타낸 항이고, 우변의 두 번째 항이 립싱크 판별 모델(104)의 싱크 손실을 나타낸 항이다.
한편, 립싱크 영상 생성 장치(100)는 도 3에 도시된 바와 같이, 영상 합성 모델(102)에서 출력하는 립싱크 영상의 사실성 및 품질을 향상시키기 위한 영상 판별자 모델(106)을 더 포함할 수 있다. 영상 판별자 모델(106)은 원본 영상은 참(True)으로 분류하고, 영상 합성 모델(102)에서 출력하는 립싱크 영상은 거짓(Fake)로 분류하도록 학습되는 인공 신경망 모델일 수 있다.
여기서, 영상 합성 모델(102) 및 영상 판별자 모델(106)은 적대적 생성 신경망(Generative Adversarial Network)을 이룰 수 있다. 즉, 영상 합성 모델(102)은 적대적 생성 신경망 중 생성자(Generator)에 해당하고, 영상 판별자 모델(106)은 적대적 생성 신경망 중 판별자(Discriminator)에 해당할 수 있다.
립싱크 영상 생성 장치(100)는 영상 합성 모델(102)에서 출력하는 립싱크 영상을 참(True)인 것으로 판단하도록 영상 판별자 모델(106)을 학습시킬 수 있다. 이 경우, 립싱크 영상 생성 장치(100)는 영상 판별자 모델(106)이 영상 합성 모델(102)에서 출력하는 립싱크 영상을 참(True)인 것으로 판단하도록 영상 합성 모델(102)을 유도하는 적대적 손실 함수를 포함할 수 있다.
이때, 립싱크 영상 생성 장치(100)의 전체 손실 함수(Lagree)는 하기의 수학식 2를 통해 나타낼 수 있다.
(수학식 2)
Figure 112021064212642-pat00018
γ : 적대적 손실 함수의 가중치
Dgan : 영상 판별자 모델의 신경망
수학식 2에서 우변의 첫 번째 항이 영상 합성 모델(102)의 복원 손실을 나타낸 항이고, 우변의 두 번째 항이 립싱크 판별 모델(104)의 싱크 손실을 나타낸 항이며, 우변의 세 번째 항이 영상 판별자 모델(106)에 의한 적대적 손실 함수를 나타낸 항이다.
또한, 립싱크 영상 생성 장치(100)는 도 4에 도시된 바와 같이, 영상 합성 모델(102)에서 출력하는 립싱크 영상의 아이덴티티를 강화하기 위한 아이덴티티 판별자 모델(108)을 더 포함할 수 있다. 특히, 다중 화자 모델의 경우, 아이덴티티 판별자 모델(108)을 추가하여 립싱크 영상의 아이덴티티를 강화할 수 있다. 아이덴티티 판별자 모델(108)은 영상 합성 모델(102)에서 출력하는 립싱크 영상의 인물과 원본 영상의 인물이 동일한 인물인지를 판별하기 위한 인공 신경망 모델일 수 있다.
아이덴티티 판별자 모델(108)은 영상 합성 모델(102)에서 출력하는 립싱크 영상 속 인물의 아이덴티티와 원본 영상 속 인물의 아이덴티티의 차이를 구하도록 마련될 수 있다. 즉, 아이덴티티 판별자 모델(108)은 립싱크 영상 속 인물의 아이덴티티와 원본 영상 속 인물의 아이덴티티의 차이인 아이덴티티 손실(Identity Loss)을 해당 신경망의 손실 함수로 할 수 있다.
립싱크 영상 생성 장치(100)의 전체 손실 함수(Lagree)는 복원 손실 및 싱크 손실 이외에 아이덴티티 손실을 포함할 수 있다. 이는 수학식 3을 통해 나타낼 수 있다.
(수학식 3)
Figure 112021064212642-pat00019
β : 아이덴티티 손실의 가중치
Did : 아이덴티티 판별자 모델을 구성하는 신경망
도 5는 본 발명의 일 실시예에 따른 립싱크 영상 생성 장치에서 상호 일치하지 않는 인물 배경 영상 및 발화 오디오 신호의 쌍이 학습 데이터로 사용되는 경우를 나타낸 도면이다.
도 5를 참조하면, 제1 인코더(111)로 인물 배경 영상이 입력되고, 제2 인코더(113)로 인물 배경 영상과 상호 일치하지 않는 발화 오디오 신호가 입력될 수 있다. 즉, 발화 오디오 신호는 인물 배경 영상 속 인물과는 다른 인물의 목소리이거나, 인물 배경 영상 속 인물의 목소리이나 인물 배경 영상과는 타이밍이 일치하지 않는 것일 수 있다.
상호 일치하지 않는 인물 배경 영상 및 발화 오디오 신호가 입력되는 경우, 영상 합성 모델(102)은 립싱크 영상과 원본 영상 중 발화와 관련 없는 부분(즉, 인물 배경 영상에서 마스크(M)로 가려지지 않은 부분)의 차이를 최소화 하도록 학습될 수 있다. 이때, 영상 합성 모델(102)은 립싱크 영상과 원본 영상 중 발화와 관련 없는 부분 간의 차이인 부분 복원 손실(Partial Reconstruction Loss)을 해당 신경망의 손실 함수로 하게 된다.
또한, 립싱크 판별 모델(104)은 발화 오디오 신호(즉, 인물 배경 영상과 상호 일치하지 않는 발화 오디오 신호)를 입력으로 하고, 영상 합성 모델(102)에서 출력되는 립싱크 영상을 입력으로 하여, 립싱크 영상과 발화 오디오 신호 간의 차이(즉, 불일치 정도)를 구하도록 마련될 수 있다. 즉, 립싱크 판별 모델(104)은 립싱크 영상과 발화 오디오 신호 간의 차이인 싱크 손실(Sync Loss)을 해당 신경망의 손실 함수로 하게 된다.
여기서, 립싱크 영상 생성 장치(100)는 립싱크 판별 모델(104)의 싱크 손실을 주 손실 함수로 하고, 영상 합성 모델(102)의 부분 복원 손실을 보조 손실 함수로 할 수 있다. 이때, 립싱크 영상 생성 장치(100)의 전체 손실 함수(Ldisagree)는 하기의 수학식 4를 통해 나타낼 수 있다.
(수학식 4)
Figure 112021064212642-pat00020
Dsync : 립싱크 판별 모델을 구성하는 신경망
G : 영상 합성 모델을 구성하는 신경망
Figure 112021064212642-pat00021
: 발화와 관련된 부분이 마스크로 가려진 인물 배경 영상
Aj : 인물 배경 영상과 상호 일치하지 않는 발화 오디오 신호
Figure 112021064212642-pat00022
: 영상 합성 모델에서 출력하는 립싱크 영상
λdisagree : 립싱크 판별 모델의 싱크 손실과 영상 합성 모델의 부분 복원 손실 간의 가중치
Mi : 인물 배경 영상에서 발화와 관련된 부분을 가린 마스크
Figure 112021064212642-pat00023
: 픽셀 단위 곱셈(pixel-wise multiplication)을 수행하는 연산자
수학식 4에서, 우변의 첫 번째 항이 립싱크 판별 모델(104)의 싱크 손실을 나타낸 항이고, 우변의 두 번째 항이 영상 합성 모델(102)의 부분 복원 손실을 나타낸 항이다. 그리고, Mi는 인물 배경 영상에서 발화와 관련된 부분의 픽셀 값은 0이고, 발화와 관련되지 않은 부분의 픽셀 값은 1인 마스크일 수 있다.
한편, 립싱크 영상 생성 장치(100)는 도 6에 도시된 바와 같이, 영상 합성 모델(102)에서 출력하는 립싱크 영상의 사실성 및 품질을 향상시키기 위한 영상 판별자 모델(106)을 더 포함할 수 있다. 특히, 다중 화자 모델의 경우, 아이덴티티 판별자 모델(108)을 추가하여 립싱크 영상의 아이덴티티를 강화할 수 있다. 영상 판별자 모델(106)은 원본 영상은 참(True)으로 분류하고, 영상 합성 모델(102)에서 출력하는 립싱크 영상은 거짓(Fake)로 분류하도록 학습되는 인공 신경망 모델일 수 있다.
립싱크 영상 생성 장치(100)는 영상 합성 모델(102)에서 출력하는 립싱크 영상을 참(True)인 것으로 판단하도록 영상 판별자 모델(106)을 학습시킬 수 있다. 이 경우, 립싱크 영상 생성 장치(100)는 영상 판별자 모델(106)이 영상 합성 모델(102)에서 출력하는 립싱크 영상을 참(True)인 것으로 판단하도록 영상 합성 모델(102)을 유도하는 적대적 손실 함수를 포함할 수 있다.
이때, 립싱크 영상 생성 장치(100)의 전체 손실 함수(Ldisagree)는 하기의 수학식 5를 통해 나타낼 수 있다.
(수학식 5)
Figure 112021064212642-pat00024
γ : 적대적 손실 함수의 가중치
Dgan : 영상 판별자 모델의 신경망
수학식 5에서, 우변의 첫 번째 항이 립싱크 판별 모델(104)의 싱크 손실을 나타낸 항이고, 우변의 두 번째 항이 영상 합성 모델(102)의 부분 복원 손실을 나타낸 항이며, 우변의 세 번째 항이 영상 판별자 모델(106)에 의한 적대적 손실 함수를 나타낸 항이다.
또한, 립싱크 영상 생성 장치(100)는 도 7에 도시된 바와 같이, 영상 합성 모델(102)에서 출력하는 립싱크 영상의 아이덴티티를 강화하기 위한 아이덴티티 판별자 모델(108)을 더 포함할 수 있다. 아이덴티티 판별자 모델(108)은 영상 합성 모델(102)에서 출력하는 립싱크 영상의 인물과 원본 영상의 인물이 동일한 인물인지를 판별하기 위한 인공 신경망 모델일 수 있다.
아이덴티티 판별자 모델(108)은 영상 합성 모델(102)에서 출력하는 립싱크 영상 속 인물의 아이덴티티와 원본 영상 속 인물의 아이덴티티의 차이를 구하도록 마련될 수 있다. 즉, 아이덴티티 판별자 모델(108)은 립싱크 영상 속 인물의 아이덴티티와 원본 영상 속 인물의 아이덴티티의 차이인 아이덴티티 손실(Identity Loss)을 해당 신경망의 손실 함수로 할 수 있다.
립싱크 영상 생성 장치(100)의 전체 손실 함수(Ldisagree)는 싱크 손실 및 부분 복원 손실 이외에 아이덴티티 손실을 포함할 수 있다. 이는 수학식 6을 통해 나타낼 수 있다.
(수학식 6)
Figure 112021064212642-pat00025
β : 아이덴티티 손실의 가중치
Did : 아이덴티티 판별자 모델을 구성하는 신경망
도 8은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.
도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 립싱크 영상 생성 장치(100)일 수 있다.
컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.
컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.
이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
100 : 립싱크 영상 생성 장치
102 : 영상 합성 모델
104 : 립싱크 판별 모델
106 : 영상 판별자 모델
108 : 아이덴티티 판별자 모델
111 : 제1 인코더
113 : 제2 인코더
115 : 조합부
117 : 디코더

Claims (15)

  1. 머신 러닝 기반의 립싱크 영상 생성 장치로서,
    인공 신경망 모델이고, 인물 배경 영상 및 발화 오디오 신호를 입력으로 하여 립싱크 영상을 생성하는 영상 합성 모델; 및
    인공 신경망 모델이고, 상기 영상 합성 모델에서 생성하는 립싱크 영상과 상기 영상 합성 모델로 입력되는 발화 오디오 신호 간의 일치 정도를 판별하는 립싱크 판별 모델을 포함하되,
    상기 립싱크 영상 생성 장치는,
    상호 일치하는 인물 배경 영상 및 발화 오디오 신호의 쌍이 학습 데이터로 사용되는 경우는 제1 전체 손실 함수를 사용하여 상기 영상 합성 모델 및 상기 립싱크 판별 모델을 학습시키고, 및
    상호 일치하지 않는 인물 배경 영상 및 발화 오디오 신호의 쌍이 학습 데이터로 사용되는 경우는 상기 제1 전체 손실 함수와 상이한 제2 전체 손실 함수를 사용하여 상기 영상 합성 모델 및 상기 립싱크 판별 모델을 학습시키며,
    상기 제1 전체 손실 함수(Lagree)는 하기의 수학식을 통해 표현되는, 립싱크 영상 생성 장치.
    (수학식)
    Figure 112023036770518-pat00046

    Si : i번째 학습 데이터에 대한 원본 영상
    G : 영상 합성 모델을 구성하는 신경망
    Figure 112023036770518-pat00047
    : 발화와 관련된 부분이 마스크로 가려진 인물 배경 영상
    Ai : 인물 배경 영상과 상호 일치하는 발화 오디오 신호
    Figure 112023036770518-pat00048
    : 영상 합성 모델에서 출력하는 립싱크 영상
    Figure 112023036770518-pat00049
    : A와 B의 차이를 구하는 함수
    λagree : 영상 합성 모델의 복원 손실과 립싱크 판별 모델의 싱크 손실 간의 가중치
    Dsync : 립싱크 판별 모델을 구성하는 신경망
  2. 삭제
  3. 청구항 1에 있어서,
    상기 립싱크 영상 생성 장치는, 상호 일치하는 인물 배경 영상 및 발화 오디오 신호의 쌍이 상기 영상 합성 모델로 입력되는 경우,
    상기 영상 합성 모델에서 출력하는 립싱크 영상과 원본 영상 간의 차이를 최소화 하기 위한 복원 손실(Reconstruction Loss)을 주 손실 함수로 하고,
    상기 립싱크 판별 모델에서 상기 립싱크 영상과 상기 영상 합성 모델로 입력되는 발화 오디오 신호 간의 차이를 최소화 하기 위한 싱크 손실(Sync Loss)을 보조 손실 함수로 하는, 립싱크 영상 생성 장치.
  4. 삭제
  5. 청구항 3에 있어서,
    상기 립싱크 영상 생성 장치는,
    인공 신경망 모델이고, 상기 원본 영상은 참(True)으로 분류하며, 상기 립싱크 영상은 거짓(Fake)로 분류하는 영상 판별자 모델을 더 포함하고,
    상기 립싱크 영상 생성 장치는, 상기 영상 판별자 모델이 상기 영상 합성 모델에서 출력하는 립싱크 영상을 참(True)으로 분류하도록 상기 영상 합성 모델을 유도하는 적대적 손실 함수를 포함하는, 립싱크 영상 생성 장치.
  6. 청구항 5에 있어서,
    상기 립싱크 영상 생성 장치의 제1 전체 손실 함수(Lagree)는 하기의 수학식을 통해 표현되는, 립싱크 영상 생성 장치.
    (수학식)
    Figure 112022095748607-pat00030

    γ : 적대적 손실 함수의 가중치
    Dgan : 영상 판별자 모델의 신경망
  7. 청구항 3에 있어서,
    상기 립싱크 영상 생성 장치는,
    인공 신경망 모델이고, 상기 립싱크 영상의 인물과 상기 원본 영상의 인물이 동일한 인물인지를 판별하는 아이덴티티 판별자 모델을 더 포함하고,
    상기 립싱크 영상 생성 장치는, 상기 립싱크 영상 속 인물의 아이덴티티와 상기 원본 영상 속 인물의 아이덴티티 간의 차이를 최소화 하기 위한 아이덴티티 손실(Identity Loss)을 손실 함수로 포함하는, 립싱크 영상 생성 장치.
  8. 청구항 7에 있어서,
    상기 립싱크 영상 생성 장치의 제1 전체 손실 함수(Lagree)는 하기의 수학식을 통해 표현되는, 립싱크 영상 생성 장치.
    (수학식)
    Figure 112022095748607-pat00031

    β : 아이덴티티 손실의 가중치
    Did : 아이덴티티 판별자 모델을 구성하는 신경망
  9. 청구항 1에 있어서,
    상기 립싱크 영상 생성 장치는, 상호 일치하지 않는 인물 배경 영상 및 발화 오디오 신호의 쌍이 상기 영상 합성 모델로 입력되는 경우,
    상기 립싱크 판별 모델에서 상기 립싱크 영상과 상기 영상 합성 모델로 입력되는 발화 오디오 신호 간의 차이를 최소화 하기 위한 싱크 손실(Sync Loss)을 주 손실 함수로 하고,
    상기 영상 합성 모델에서 출력하는 립싱크 영상과 원본 영상 중 발화와 관련 없는 부분 간의 차이를 최소화 하기 위한 부분 복원 손실(Partial Reconstruction Loss)을 보조 손실 함수로 하는, 립싱크 영상 생성 장치.
  10. 청구항 9에 있어서,
    상기 립싱크 영상 생성 장치의 제2 전체 손실 함수(Ldisagree)는 하기의 수학식을 통해 표현되는, 립싱크 영상 생성 장치.
    (수학식)
    Figure 112022095748607-pat00032

    Dsync : 립싱크 판별 모델을 구성하는 신경망
    G : 영상 합성 모델을 구성하는 신경망
    Figure 112022095748607-pat00033
    : 발화와 관련된 부분이 마스크로 가려진 인물 배경 영상
    Aj : 인물 배경 영상과 상호 일치하지 않는 발화 오디오 신호
    Figure 112022095748607-pat00034
    : 영상 합성 모델에서 출력하는 립싱크 영상
    λdisagree : 립싱크 판별 모델의 싱크 손실과 영상 합성 모델의 부분 복원 손실 간의 가중치
    Mi : 인물 배경 영상에서 발화와 관련된 부분을 가린 마스크
    Figure 112022095748607-pat00035
    : 픽셀 단위 곱셈(pixel-wise multiplication)을 수행하는 연산자
  11. 청구항 10에 있어서,
    상기 립싱크 영상 생성 장치는,
    인공 신경망 모델이고, 상기 원본 영상은 참(True)으로 분류하며, 상기 립싱크 영상은 거짓(Fake)로 분류하는 영상 판별자 모델을 더 포함하고,
    상기 립싱크 영상 생성 장치는, 상기 영상 판별자 모델이 상기 영상 합성 모델에서 출력하는 립싱크 영상을 참(True)으로 분류하도록 상기 영상 합성 모델을 유도하는 적대적 손실 함수를 포함하는, 립싱크 영상 생성 장치.
  12. 청구항 11에 있어서,
    상기 립싱크 영상 생성 장치의 제2 전체 손실 함수(Ldisagree)는 하기의 수학식을 통해 표현되는, 립싱크 영상 생성 장치.
    (수학식)
    Figure 112022095748607-pat00036

    γ : 적대적 손실 함수의 가중치
    Dgan : 영상 판별자 모델의 신경망
  13. 청구항 10에 있어서,
    상기 립싱크 영상 생성 장치는,
    인공 신경망 모델이고, 상기 립싱크 영상의 인물과 상기 원본 영상의 인물이 동일한 인물인지를 판별하는 아이덴티티 판별자 모델을 더 포함하고,
    상기 립싱크 영상 생성 장치는, 상기 립싱크 영상 속 인물의 아이덴티티와 상기 원본 영상 속 인물의 아이덴티티 간의 차이를 최소화 하기 위한 아이덴티티 손실(Identity Loss)을 손실 함수로 포함하는, 립싱크 영상 생성 장치.
  14. 청구항 13에 있어서,
    상기 립싱크 영상 생성 장치의 제2 전체 손실 함수(Ldisagree)는 하기의 수학식을 통해 표현되는, 립싱크 영상 생성 장치.
    (수학식)
    Figure 112022095748607-pat00037

    β : 아이덴티티 손실의 가중치
    Did : 아이덴티티 판별자 모델을 구성하는 신경망
  15. 하나 이상의 프로세서들, 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로,
    인물 배경 영상 및 발화 오디오 신호를 영상 합성 모델로 입력하는 립싱크 영상을 생성하는 단계;
    립싱크 판별 모델을 통해 상기 영상 합성 모델에서 생성하는 립싱크 영상과 상기 영상 합성 모델로 입력되는 발화 오디오 신호 간의 일치 정도를 판별하는 단계;
    상호 일치하는 인물 배경 영상 및 발화 오디오 신호의 쌍이 학습 데이터로 사용되는 경우, 제1 전체 손실 함수를 사용하여 상기 영상 합성 모델 및 상기 립싱크 판별 모델을 학습시키는 단계; 및
    상호 일치하지 않는 인물 배경 영상 및 발화 오디오 신호의 쌍이 학습 데이터로 사용되는 경우, 상기 제1 전체 손실 함수와 상이한 제2 전체 손실 함수를 사용하여 상기 영상 합성 모델 및 상기 립싱크 판별 모델을 학습시키는 단계를 포함하고,
    상기 제1 전체 손실 함수(Lagree)는 하기의 수학식을 통해 표현되는, 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법.
    (수학식)
    Figure 112023036770518-pat00050

    Si : i번째 학습 데이터에 대한 원본 영상
    G : 영상 합성 모델을 구성하는 신경망
    Figure 112023036770518-pat00051
    : 발화와 관련된 부분이 마스크로 가려진 인물 배경 영상
    Ai : 인물 배경 영상과 상호 일치하는 발화 오디오 신호
    Figure 112023036770518-pat00052
    : 영상 합성 모델에서 출력하는 립싱크 영상
    Figure 112023036770518-pat00053
    : A와 B의 차이를 구하는 함수
    λagree : 영상 합성 모델의 복원 손실과 립싱크 판별 모델의 싱크 손실 간의 가중치
    Dsync : 립싱크 판별 모델을 구성하는 신경망
KR1020210071994A 2021-06-03 2021-06-03 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치 KR102540763B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020210071994A KR102540763B1 (ko) 2021-06-03 2021-06-03 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치
PCT/KR2021/007643 WO2022255529A1 (ko) 2021-06-03 2021-06-17 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치
US17/764,314 US20240055015A1 (en) 2021-06-03 2021-06-17 Learning method for generating lip sync image based on machine learning and lip sync image generation device for performing same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210071994A KR102540763B1 (ko) 2021-06-03 2021-06-03 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치

Publications (2)

Publication Number Publication Date
KR20220163623A KR20220163623A (ko) 2022-12-12
KR102540763B1 true KR102540763B1 (ko) 2023-06-07

Family

ID=84323713

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210071994A KR102540763B1 (ko) 2021-06-03 2021-06-03 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치

Country Status (3)

Country Link
US (1) US20240055015A1 (ko)
KR (1) KR102540763B1 (ko)
WO (1) WO2022255529A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230093405A1 (en) * 2021-09-23 2023-03-23 International Business Machines Corporation Optimization of lip syncing in natural language translated video
KR102649301B1 (ko) * 2023-06-26 2024-03-20 주식회사 비브스튜디오스 발화영상의 품질을 향상시키기 위한 모델의 학습 방법
CN116741198B (zh) * 2023-08-15 2023-10-20 合肥工业大学 一种基于多尺度字典的唇形同步方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100300962B1 (ko) * 1998-07-24 2001-10-27 윤종용 음성합성을위한립싱크방법및그장치
KR20020022504A (ko) * 2000-09-20 2002-03-27 박종만 3차원 캐릭터의 동작, 얼굴 표정, 립싱크 및 립싱크된음성 합성을 지원하는 3차원 동영상 저작 도구의 제작시스템 및 방법
KR20070098864A (ko) * 2004-12-15 2007-10-05 코닌클리케 필립스 일렉트로닉스 엔.브이. 지연된 비디오와 오디오의 동기
JP2008148084A (ja) * 2006-12-12 2008-06-26 Funai Electric Co Ltd リップシンク測定方法およびリップシンク測定用回路
KR102306844B1 (ko) 2018-03-29 2021-09-29 네오사피엔스 주식회사 비디오 번역 및 립싱크 방법 및 시스템

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Hao Zhu et al., ‘Arbitrary talking face generation via attentional audio-visual coherence kearning’, arXiv:1812.06589v2, [cs.CV], 13 May 2020.*
K R Prajwal et al., ‘A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild’, arXiv:2008.10010v1 [cs.CV] 23 Aug. 2020.*
Konstantinos Vougioukas et al., ‘Realistic Speech-Driven Facial Animation with GAN’, International Journal of Computer Vision 128, pp. 1398~1413, 13 October 2019.*
Prajwal K R et al., ‘Towards Automatic Face-to-Face Translation’, MM ’19, Session 3C: Smart Applications, October 2019.*

Also Published As

Publication number Publication date
KR20220163623A (ko) 2022-12-12
WO2022255529A1 (ko) 2022-12-08
US20240055015A1 (en) 2024-02-15

Similar Documents

Publication Publication Date Title
KR102540763B1 (ko) 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치
CN111243626B (zh) 一种说话视频生成方法及系统
KR102360839B1 (ko) 머신 러닝 기반의 발화 동영상 생성 방법 및 장치
CN113299312B (zh) 一种图像生成方法、装置、设备以及存储介质
KR102346755B1 (ko) 음성 신호를 이용한 발화 동영상 생성 방법 및 장치
US20220375190A1 (en) Device and method for generating speech video
KR102437039B1 (ko) 영상 생성을 위한 학습 장치 및 방법
KR20220111388A (ko) 영상 품질을 향상시킬 수 있는 영상 합성 장치 및 방법
Ma et al. Unpaired image-to-speech synthesis with multimodal information bottleneck
CN113077537A (zh) 一种视频生成方法、存储介质及设备
US20200193961A1 (en) System for synchronizing speech and motion of character
KR20220011100A (ko) 얼굴 이미지 검색을 통한 가상 인물 생성 시스템 및 방법
US11972516B2 (en) Method and device for generating speech video by using text
KR20230025824A (ko) 랜드마크를 함께 생성하는 발화 동영상 생성 장치 및 방법
CN115100325A (zh) 视频生成方法、装置、计算机设备及存储介质
KR102360840B1 (ko) 텍스트를 이용한 발화 동영상 생성 방법 및 장치
CN114170648A (zh) 视频生成方法、装置、电子设备及存储介质
KR20220111390A (ko) 영상 품질을 향상시킬 수 있는 영상 합성 장치 및 방법
JP2023169230A (ja) コンピュータプログラム、サーバ装置、端末装置、学習済みモデル、プログラム生成方法、及び方法
US20230178095A1 (en) Apparatus and method for generating lip sync image
KR20230068062A (ko) 스타일 이미지를 생성하는 장치
Ma et al. M3D-GAN: Multi-modal multi-domain translation with universal attention
KR102649818B1 (ko) 3d 립싱크 비디오 생성 장치 및 방법
KR102584484B1 (ko) 발화 합성 영상 생성 장치 및 방법
US20240046141A1 (en) Method for generating data using machine learning and computing device for executing the same

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant