KR102437039B1 - 영상 생성을 위한 학습 장치 및 방법 - Google Patents

영상 생성을 위한 학습 장치 및 방법 Download PDF

Info

Publication number
KR102437039B1
KR102437039B1 KR1020200081618A KR20200081618A KR102437039B1 KR 102437039 B1 KR102437039 B1 KR 102437039B1 KR 1020200081618 A KR1020200081618 A KR 1020200081618A KR 20200081618 A KR20200081618 A KR 20200081618A KR 102437039 B1 KR102437039 B1 KR 102437039B1
Authority
KR
South Korea
Prior art keywords
machine learning
learning model
image
person
mask
Prior art date
Application number
KR1020200081618A
Other languages
English (en)
Other versions
KR20220003858A (ko
Inventor
채경수
황금별
Original Assignee
주식회사 딥브레인에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 딥브레인에이아이 filed Critical 주식회사 딥브레인에이아이
Priority to KR1020200081618A priority Critical patent/KR102437039B1/ko
Priority to US17/762,820 priority patent/US20220351348A1/en
Priority to PCT/KR2020/017408 priority patent/WO2022004971A1/ko
Publication of KR20220003858A publication Critical patent/KR20220003858A/ko
Application granted granted Critical
Publication of KR102437039B1 publication Critical patent/KR102437039B1/ko

Links

Images

Classifications

    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

영상 생성을 위한 학습 장치 및 방법이 개시된다. 개시되는 일 실시예에 따른 영상 생성을 위한 학습 장치는, 하나 이상의 프로세서들, 및 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치로서, 인물 기본 영상을 입력으로 하여 인물 기본 영상에서 발화와 관련된 부분에 마스킹 처리 할 마스크를 생성하고, 인물 기본 영상과 마스크를 합성하여 인물 배경 영상을 생성하는 제1 머신 러닝 모델을 포함한다.

Description

영상 생성을 위한 학습 장치 및 방법{LEARNING DEVICE AND METHOD FOR GENERATING IMAGE}
본 발명의 실시예는 영상 생성을 위한 학습 기술과 관련된다.
최근, 인공 지능 분야의 기술 발전에 따라 다양한 유형의 콘텐츠가 인공 지능 기술에 기초하여 생성되고 있다. 그 일 예로, 어떤 전달하고자 하는 음성 메시지가 있을 때, 그 음성 메시지를 유명 인물(예를 들어, 대통령 등)이 말하는 것과 같은 발화 동영상을 생성하여 사람들의 주의를 끌고자 하는 경우가 있다. 이는 유명 인물의 영상에서 유명 인물이 특정 메시지를 말하는 것처럼 입 모양 등을 특정 메시지에 맞게 생성하여 구현하게 된다.
이를 위하여, 종래에는 기존의 발화 영상에서 먼저 음성과 관련된 랜드마크 또는 키포인트를 생성하여 이에 대한 학습을 수행한 후, 학습된 모델을 이용하여 입력된 음성에 맞는 영상을 합성하는 방식을 사용하였다. 그러나, 이러한 종래 기술의 경우 학습을 위하여 키포인트를 추출하고 이를 표준 공간(화면 중심에서 정면을 바라보는 위치)으로 변환 및 역변환하는 과정이 필수적으로 요구되며, 키포인트를 합성하는 단계와 영상을 합성하는 단계가 필요한 바 그 절차가 복잡하다는 문제점이 있다.
한편, 키포인트를 사용하지 않는 방식의 경우, 얼굴 부분만 잘라 크기 및 위치를 정렬한 후 입력된 음성에 맞는 영상을 합성하는 방식을 사용하여, 인물의 자연스러운 움직임을 반영하지 못하기 때문에 결과물이 부자연스럽다는 문제점이 있다.
한국등록특허공보 제10-1177408호(2012.08.27)
개시되는 실시예들은 발화 시 발생하는 움직임 또는 제스쳐를 반영할 수 있는 새로운 기법을 제공하기 위한 것이다.
또한, 개시되는 실시예는 신경망 구조를 간소화할 수 있는 새로운 기법을 제공하기 위한 것이다.
또한, 개시되는 실시예는 발화와 관련된 부분을 정확하게 마스킹 처리할 수 있는 새로운 기법을 제공하기 위한 것이다.
일 실시예에 따른 영상 생성을 위한 학습 장치는, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치로서, 인물 기본 영상을 입력으로 하여 상기 인물 기본 영상에서 발화와 관련된 부분에 마스킹 처리 할 마스크를 생성하고, 상기 인물 기본 영상과 상기 마스크를 합성하여 인물 배경 영상을 생성하는 제1 머신 러닝 모델을 포함한다.
상기 제1 머신 러닝 모델은, 상기 입력되는 인물 기본 영상으로부터 특징 텐서를 추출하는 특징 추출부; 및 상기 추출한 특징 텐서에 기반하여 상기 인물 기본 영상의 이미지 공간 상에 생성할 마스크를 예측하는 마스크 예측부를 포함할 수 있다.
상기 마스크 예측부는, 하기 수학식 1에 의해 상기 이미지 공간 상의 각 픽셀에 대하여 마스킹 여부에 대한 확률 값을 출력하여 상기 마스크를 예측할 수 있다.
(수학식 1)
Figure 112020068945211-pat00001
Figure 112020068945211-pat00002
: 픽셀
Figure 112020068945211-pat00003
의 마스킹 여부에 대한 확률 값
Figure 112020068945211-pat00004
: 픽셀
Figure 112020068945211-pat00005
의 특징 텐서
f : 마스크 예측부를 구성하는 신경망
Figure 112020068945211-pat00006
: 마스크 예측부의 파라미터
상기 마스크 예측부는, 하기 수학식 2 및 수학식 3에 의해 상기 마스크를 예측할 수 있다.
(수학식 2)
Figure 112020068945211-pat00007
(수학식 3)
Figure 112020068945211-pat00008
μj : 특징 텐서 F를 입력으로 마스크 예측부를 통해 출력한 j번째 가우시안 분포의 평균(mean)
Σj : 특징 텐서 F를 입력으로 마스크 예측부를 통해 출력한 j번째 가우시안 분포의 공분산(covariance)
wj : 각 가우시안 분포의 합을 위한 가중치
X : 이미지 공간 상의 위치 좌표(xi, yi)
p(X) : 각 이미지 공간 상의 위치 X에서 마스킹 여부에 대한 확률 값
T : 전치 행렬
상기 학습 장치는, 상기 인물 기본 영상과 관련된 발화 오디오 신호 및 상기 제1 머신 러닝 모델에서 생성하는 인물 배경 영상을 입력으로 하여 상기 인물 기본 영상을 복원하는 제2 머신 러닝 모델; 및 상기 제1 머신 러닝 모델에서 생성하는 인물 배경 영상을 입력으로 하여 상기 인물 기본 영상을 복원하는 제3 머신 러닝 모델을 더 포함할 수 있다.
상기 제2 머신 러닝 모델은, 상기 인물 배경 영상에서 상기 마스크로 가려진 부분을 상기 발화 오디오 신호를 통해 복원하도록 학습될 수 있다.
상기 제1 머신 러닝 모델은, 상기 제2 머신 러닝 모델의 목적 함수의 값이 상기 제3 머신 러닝 모델의 목적 함수의 값보다 작은 조건에서 상기 제2 머신 러닝 모델의 목적 함수 및 상기 제3 머신 러닝 모델의 목적 함수가 최소화 되도록 학습될 수 있다.
상기 제1 머신 러닝 모델의 목적 함수(
Figure 112020068945211-pat00009
)는 하기 수학식 4를 통해 표현될 수 있다.
(수학식 4)
Figure 112020068945211-pat00010
Figure 112020068945211-pat00011
: 제1 머신 러닝 모델의 파라미터
Figure 112020068945211-pat00012
: 제2 머신 러닝 모델의 목적 함수의 가중치
Figure 112020068945211-pat00013
: 제3 머신 러닝 모델의 목적 함수의 가중치
Figure 112020068945211-pat00014
: 적대적 목적 함수의 가중치
Figure 112020068945211-pat00015
: 제1 머신 러닝 모델의 학습을 위한 제2 머신 러닝 모델의 목적 함수
Figure 112020068945211-pat00016
: 제1 머신 러닝 모델의 학습을 위한 제3 머신 러닝 모델의 목적 함수
Figure 112020068945211-pat00017
: 제1 머신 러닝 모델의 학습을 위한 제2 머신 러닝 모델 및 제3 머신 러닝 모델 간의 적대적 목적 함수
상기
Figure 112020068945211-pat00018
는 하기의 수학식 5를 통해 표현되고, 상기
Figure 112020068945211-pat00019
는 하기 수학식 6을 통해 표현될 수 있다.
(수학식 5)
Figure 112020068945211-pat00020
(수학식 6)
Figure 112020068945211-pat00021
I : 인물 기본 영상
Figure 112020068945211-pat00022
: 제2 머신 러닝 모델을 구성하는 신경망
Figure 112020068945211-pat00023
: 제1 머신 러닝 모델을 구성하는 신경망
A : 발화 오디오 신호
Figure 112020068945211-pat00024
: 제2 머신 러닝 모델의 파라미터
Figure 112020068945211-pat00025
: 제3 머신 러닝 모델을 구성하는 신경망
Figure 112020068945211-pat00026
: 제3 머신 러닝 모델의 파라미터
상기
Figure 112020068945211-pat00027
는 상기 제1 머신 러닝 모델의 학습을 위한 상기 제2 머신 러닝 모델의 목적 함수와 상기 제3 머신 러닝 모델의 목적 함수 간의 차이가 극대화 되도록 하는 목적 함수일 수 있다.
개시되는 일 실시예에 따른 영상 생성을 위한 학습 방법은, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 제1 머신 러닝 모델에서, 인물 기본 영상을 입력으로 하여 상기 인물 기본 영상에서 발화와 관련된 부분에 마스킹 처리 할 마스크를 생성하는 단계; 및 상기 제1 머신 러닝 모델에서, 상기 인물 기본 영상과 상기 마스크를 합성하여 인물 배경 영상을 생성하는 단계를 포함한다.
개시되는 실시예에 의하면, 발화와 관련된 부분을 마스킹 처리한 상태에서 얼굴 및 상반신이 포함된 인물 배경 영상을 입력으로 하여 학습하기 때문에, 사람의 발화 시 나타나는 얼굴 움직임, 목 움직임, 및 어깨 움직임 등과 같은 그 사람만의 독특한 제스쳐 또는 특징을 반영하여 발화 동영상을 생성할 수 있으며, 그로 인해 보다 자연스러운 발화 동영상을 생성할 수 있게 된다.
또한, 발화 동영상 중 비디오 부분은 제1 인코더로 입력하고, 오디오 부분은 제2 인코더로 입력하며, 마스킹 처리된 발화와 관련된 부분을 오디오로부터 복원함으로써, 별도의 키포인트 예측 과정 없이 단일 신경망 모델을 통해 발화 동영상을 생성할 수 있게 된다.
또한, 얼굴뿐만 아니라 상반신도 포함된 발화 동영상을 생성하게 되므로, 해당 인물의 다른 신체 부분(예를 들어, 몸통이나 팔 다리 등)에 대해 추가적인 변환 또는 합성 과정 없이 자연스럽게 붙여 넣을 수 있게 된다.
또한, 인물 배경 영상 및 발화 오디오 신호를 입력으로 하여 인물 기본 영상을 복원하는 제2 머신 러닝 모델과 발화 오디오 신호 없이 인물 배경 영상만을 입력으로 하여 인물 기본 영상을 복원하는 제3 머신 러닝 모델을 이용하여 제1 머신 러닝 모델을 학습함으로써, 제1 머신 러닝 모델에서 인물 기본 영상의 발화와 관련된 부분을 적절하게 마스킹 처리하여 인물 배경 영상을 생성할 수 있게 된다.
도 1은 본 발명의 일 실시예에 따른 발화 동영상 생성 장치의 구성을 나타낸 블록도
도 2는 본 발명의 일 실시예에 따른 발화 동영상 생성 장치를 통해 발화 동영상을 추론하는 상태를 나타낸 도면
도 3은 본 발명의 다른 실시예에 따른 발화 동영상 생성 장치의 구성을 나타낸 블록도
도 4는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.
이하의 설명에 있어서, 신호 또는 정보의 "전송", "통신", "송신", "수신" 기타 이와 유사한 의미의 용어는 일 구성요소에서 다른 구성요소로 신호 또는 정보가 직접 전달되는 것뿐만이 아니라 다른 구성요소를 거쳐 전달되는 것도 포함한다. 특히 신호 또는 정보를 일 구성요소로 "전송" 또는 "송신"한다는 것은 그 신호 또는 정보의 최종 목적지를 지시하는 것이고 직접적인 목적지를 의미하는 것이 아니다. 이는 신호 또는 정보의 "수신"에 있어서도 동일하다. 또한 본 명세서에 있어서, 2 이상의 데이터 또는 정보가 "관련"된다는 것은 하나의 데이터(또는 정보)를 획득하면, 그에 기초하여 다른 데이터(또는 정보)의 적어도 일부를 획득할 수 있음을 의미한다.
또한, 제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
도 1은 본 발명의 일 실시예에 따른 발화 동영상 생성 장치의 구성을 나타낸 블록도이다. 도 1을 참조하면, 발화 동영상 생성 장치(100)는 제1 인코더(102), 제2 인코더(104), 조합부(106), 및 디코더(108)를 포함할 수 있다.
도 1에 도시된 발화 동영상 생성 장치(100)의 구성은, 기능적으로 구분되는 기능 요소들을 나타낸 것으로서, 본 발명에 따른 기능을 수행하기 위하여 상호 기능적으로 연결될 수 있으며, 어느 하나 이상의 구성이 실제 물리적으로는 서로 통합되어 구현될 수도 있다.
예시적인 실시예에서, 발화 동영상 생성 장치(100)는 합성곱 신경망(Convolutional Neural Network : CNN) 기반의 머신 러닝 기술로 구현될 수 있으나, 머신 러닝 기술이 이에 한정되는 것은 아니며 그 이외의 다양한 머신 러닝 기술이 적용될 수 있다. 이하에서는, 발화 동영상 생성을 위한 학습 과정을 위주로 설명하기로 한다.
제1 인코더(102)는 인물 배경 영상을 입력으로 하여 영상 특징 벡터를 추출하도록 학습되는 머신 러닝 모델일 수 있다. 이하, "벡터"는 "텐서"를 포함하는 의미로 사용될 수 있다.
여기서, 제1 인코더(102)로 입력되는 인물 배경 영상은 인물이 발화하는(말을 하는) 영상이다. 인물 배경 영상은 인물의 얼굴과 상반신이 포함된 영상일 수 있다. 즉, 인물 배경 영상은 해당 인물이 발화 할 때 나타나는 얼굴, 목, 및 어깨 등의 움직임이 보여지도록 얼굴뿐만 아니라 상반신이 포함된 영상일 수 있다. 그러나, 이에 한정되는 것은 아니며 인물 배경 영상은 해당 인물의 얼굴을 포함하는 영상이기만 하면 된다.
제1 인코더(102)로 입력되는 인물 배경 영상에서 발화와 관련된 부분은 마스킹(Masking) 처리될 수 있다. 즉, 인물 배경 영상에서 발화와 관련된 부분(예를 들어, 입 및 입 주위 부분 등)은 마스크(M)로 가릴 수 있다. 또한, 마스킹 처리 시 인물 배경 영상에서 인물의 발화에 따른 얼굴 움직임, 목 움직임, 및 어깨 움직임 등과 관련된 부분은 마스킹 처리되지 않도록 할 수 있다. 그러면, 제1 인코더(102)에서는 인물 배경 영상에서 발화와 관련된 부분을 제외한 부분의 영상 특징 벡터를 추출하게 된다.
제1 인코더(102)는 하나 이상의 합성곱 층(Convolutional Layer) 및 하나 이상의 풀링 층(Pooling Layer)를 포함할 수 있다. 합성곱 층은 입력되는 인물 배경 영상에서 기 설정된 크기(예를 들어, 3×3 픽셀 크기)의 필터를 일정 간격으로 이동시키면서 해당 필터에 대응되는 픽셀들의 특징 값을 추출할 수 있다. 풀링 층은 합성곱 층의 출력을 입력으로 받아 다운 샘플링(Down Sampling)을 수행할 수 있다.
제2 인코더(104)는 발화 오디오 신호를 입력으로 하여 음성 특징 벡터를 추출하도록 학습되는 머신 러닝 모델이다. 여기서, 발화 오디오 신호는 제1 인코더(102)로 입력되는 인물 배경 영상(즉, 인물이 발화하는 영상) 중 오디오 부분에 해당할 수 있다. 다시 말하면, 인물이 발화하는 동영상에서 비디오 부분은 제1 인코더(102)로 입력되고, 오디오 부분은 제2 인코더(104)로 입력될 수 있다. 제2 인코더(104)는 하나 이상의 합성곱 층(Convolutional Layer) 및 하나 이상의 풀링 층(Pooling Layer)를 포함할 수 있으나, 제2 인코더(104)의 신경망 구조가 이에 한정되는 것은 아니다.
제1 인코더(102)로 입력되는 인물 배경 영상과 제2 인코더(104)로 입력되는 발화 오디오 신호의 시간은 서로 동기화 될 수 있다. 즉, 인물이 발화하는 동영상에서 동일한 시간 대의 구간 중 비디오는 제1 인코더(102)로 입력되고, 오디오는 제2 인코더(104)로 입력될 수 있다. 이때, 인물 배경 영상 및 발화 오디오 신호는 기 설정된 단위 시간(예를 들어, 하나의 프레임 또는 복수 개의 연속된 프레임 등)마다 제1 인코더(102) 및 제2 인코더(104)로 입력될 수 있다.
조합부(106)는 제1 인코더(102)에서 출력되는 영상 특징 벡터 및 제2 인코더(104)에서 출력되는 음성 특징 벡터를 조합하여 조합 벡터를 생성할 수 있다. 예시적인 실시예에서, 조합부(106)는 영상 특징 벡터와 음성 특징 벡터를 연결(Concatenate)하여 조합 벡터를 생성할 수 있으나, 이에 한정되는 것은 아니다.
디코더(108)는 조합부(106)에서 출력되는 조합 벡터를 입력으로 하여 인물의 발화 동영상을 복원할 수 있다. 구체적으로, 디코더(108)는 제2 인코더(104)에서 출력되는 음성 특징 벡터(즉, 인물이 발화하는 동영상에서 오디오 부분의 특징)를 기반으로 제1 인코더(102)에서 출력되는 영상 특징 벡터(즉, 인물이 발화하는 동영상에서 비디오 부분으로, 발화 관련된 부분이 마스크로 가려진 부분의 특징)의 마스크(M)로 가려진 부분(즉, 발화와 관련된 부분)을 복원하도록 학습되는 머신 러닝 모델일 수 있다. 즉, 디코더(108)는 인물 배경 영상에서 발화와 관련된 부분이 마스킹 된 경우, 오디오 신호를 이용하여 마스킹 된 영역을 복원하도록 학습되는 모델일 수 있다.
예시적인 실시예에서, 디코더(108)는 제1 인코더(102)에서 출력되는 영상 특징 벡터와 제2 인코더(104)에서 출력되는 음성 특징 벡터가 조합된 조합 벡터에 역 합성곱(Deconvolution)을 수행한 후 업 샘플링(Up Sampling)을 수행하여 발화 동영상을 생성할 수 있다.
디코더(108)는 생성된 발화 동영상과 원래의 발화 동영상(즉, 정답값)을 비교하여, 생성된 발화 동영상(즉, 오디오 부분을 통해 발화 관련된 부분을 복원한 동영상)이 원래의 발화 동영상에 가까워지도록 학습 파라미터(예를 들어, 손실 함수, 소프트맥스 함수 등)를 조절할 수 있다.
도 2는 본 발명의 일 실시예에 따른 발화 동영상 생성 장치를 통해 발화 동영상을 추론하는 상태를 나타낸 도면이다.
도 2를 참조하면, 제1 인코더(102)는 인물 배경 영상을 입력받는다. 여기서, 인물 배경 영상은 학습 과정에서 사용된 인물 배경 영상일 수 있다. 인물 배경 영상은 인물의 얼굴과 상반이 포함된 영상일 수 있다. 또한, 인물 배경 영상은 발화와 관련된 부분이 마스크(M)로 가려질 수 있다. 제1 인코더(102)는 인물 배경 영상으로부터 영상 특징 벡터를 추출할 수 있다.
제2 인코더(104)는 발화 오디오 신호를 입력받는다. 여기서, 발화 오디오 신호는 제1 인코더(102)로 입력되는 인물 배경 영상과는 관련 없는 것일 수 있다. 예를 들어, 발화 오디오 신호는 인물 배경 영상 속 인물과는 다른 인물의 발화 오디오 신호일 수 있다. 그러나, 이에 한정되는 것은 아니며 발화 오디오 신호는 인물 배경 영상 속 인물이 발화한 것일 수도 있다. 이때, 해당 인물의 발화는 인물 배경 영상과는 관련 없는 배경 또는 상황에서 발화된 것일 수 있다. 제2 인코더(104)는 발화 오디오 신호로부터 음성 특징 벡터를 추출할 수 있다.
조합부(106)는 제1 인코더(102)에서 출력되는 영상 특징 벡터 및 제2 인코더(104)에서 출력되는 음성 특징 벡터를 조합하여 조합 벡터를 생성할 수 있다.
디코더(108)는 조합 벡터를 입력으로 하여 발화 동영상을 복원하여 출력할 수 있다. 즉, 디코더(108)는 제2 인코더(104)에서 출력되는 음성 특징 벡터를 기반으로 인물 배경 영상의 발화와 관련된 부분을 복원하여 발화 동영상을 생성할 수 있다. 이 경우, 제2 인코더(104)로 입력되는 발화 오디오 신호는 인물 배경 영상과는 관련 없는 발화이나(예를 들어, 인물 배경 영상 속 인물이 발화한 것은 아니나), 인물 배경 영상 속 인물이 발화하는 것처럼 발화 동영상이 생성되게 된다.
개시되는 실시예에 의하면, 발화와 관련된 부분을 마스킹 처리한 상태에서 얼굴 및 상반신이 포함된 인물 배경 영상을 입력으로 하여 학습하기 때문에, 사람의 발화 시 나타나는 얼굴 움직임, 목 움직임, 및 어깨 움직임 등과 같은 그 사람만의 독특한 제스쳐 또는 특징을 반영하여 발화 동영상을 생성할 수 있으며, 그로 인해 보다 자연스러운 발화 동영상을 생성할 수 있게 된다.
또한, 발화 동영상 중 비디오 부분은 제1 인코더(102)로 입력하고, 오디오 부분은 제2 인코더(104)로 입력하며, 마스킹 처리된 발화와 관련된 부분을 오디오로부터 복원함으로써, 별도의 키포인트 예측 과정 없이 단일 신경망 모델을 통해 발화 동영상을 생성할 수 있게 된다.
또한, 얼굴뿐만 아니라 상반신도 포함된 발화 동영상을 생성하게 되므로, 해당 인물의 다른 신체 부분(예를 들어, 몸통이나 팔 다리 등)에 대해 추가적인 변환 또는 합성 과정 없이 자연스럽게 붙여 넣을 수 있게 된다.
한편, 인물 배경 영상에서 마스크(M)가 발화와 관련된 부분을 제대로 가리지 못하면 머신 러닝 모델에서 발화와 관련되지 않는 부분이 마스크 부분을 제어하도록 학습될 위험이 있게 된다. 반면, 인물 배경 영상에서 마스크(M)가 발화와 관련된 부분을 필요 이상으로 가리게 되면 발화 동영상이 부자연스럽게 생성되게 된다. 따라서, 인물 배경 영상에서 마스크(M)가 해당 인물의 발화와 관련된 부분만을 적절하게 가리도록 할 필요가 있다.
도 3은 본 발명의 다른 실시예에 따른 발화 동영상 생성 장치의 구성을 나타낸 블록도이다.
도 3을 참조하면, 발화 동영상 생성 장치(200)는 제1 머신 러닝 모델(202), 제2 머신 러닝 모델(204), 및 제3 머신 러닝 모델(206)을 포함할 수 있다. 제1 머신 러닝 모델(202), 제2 머신 러닝 모델(204), 및 제3 머신 러닝 모델(206)은 상호 연결되는 하나의 신경망 모델을 이룰 수 있다. 즉, 제1 머신 러닝 모델(202), 제2 머신 러닝 모델(204), 및 제3 머신 러닝 모델(206)은 유기적으로 연결되어 동시에 학습될 수 있다.
제1 머신 러닝 모델(202)은 인물 기본 영상을 입력으로 하여 인물 배경 영상을 생성하도록 학습되는 머신 러닝 모델일 수 있다. 여기서, 인물 기본 영상은 인물이 발화하는 영상일 수 있다. 인물 기본 영상은 인물의 얼굴이 포함되는 영상으로, 인물의 얼굴과 상반신이 포함될 수 있으나, 이에 한정되는 것은 아니다. 그리고, 인물 배경 영상은 인물 기본 영상에서 발화와 관련된 부분이 마스크(M)로 가려진 영상일 수 있다. 즉, 제1 머신 러닝 모델(202)은 인물 기본 영상이 입력되는 경우, 인물 기본 영상에서 발화와 관련된 부분이 마스크(M)로 가려진 인물 배경 영상을 생성하도록 학습될 수 있다.
제1 머신 러닝 모델(202)은 마스크 생성부(202a) 및 영상 합성부(202b)를 포함할 수 있다. 마스크 생성부(202a)는 인물 기본 영상을 입력으로 하여 마스크(M)를 생성하도록 학습될 수 있다. 즉, 마스크 생성부(202a)는 인물 기본 영상이 입력되는 경우, 인물 기본 영상에서 발화와 관련된 영역(즉, 마스크(M)를 통해 가려져야 할 영역)에 대한 정보를 예측하도록 학습될 수 있다.
예시적인 실시예에서, 마스크 생성부(202a)는 특징 추출부(202a-1) 및 마스크 예측부(202a-2)를 포함할 수 있다. 특징 추출부(202a-1)는 입력되는 인물 기본 영상으로부터 특징 텐서를 추출할 수 있다. 마스크 예측부(202a-2)는 추출된 특징 텐서에 기초하여 마스크(M)의 형태, 크기, 및 위치 등을 예측할 수 있다.
예시적인 실시예에서, 마스크 예측부(202a-2)는 추출된 특징 텐서에 기반하여 이미지 공간 상의 각 픽셀에 대하여 마스킹 할 위치인지 여부에 대한 확률을 출력하여 마스크(M)를 예측할 수 있다. 이는 다음의 수학식 1을 통해 나타낼 수 있다.
(수학식 1)
Figure 112020068945211-pat00028
여기서,
Figure 112020068945211-pat00029
는 픽셀
Figure 112020068945211-pat00030
의 마스킹 여부에 대한 확률 값을 나타내고,
Figure 112020068945211-pat00031
는 픽셀
Figure 112020068945211-pat00032
의 특징 텐서를 나타내며, f는 마스크 예측부(202a-2)를 구성하는 신경망을 나타내고,
Figure 112020068945211-pat00033
는 신경망 f의 파라미터를 나타낸다.
다른 실시예에서, 마스크 예측부(202a-2)는 가우시안 함수를 이용한 확률 분포 모델을 통해 마스크(M)를 예측할 수 있으며, 이는 다음의 수학식 2 및 수학식 3을 통해 나타낼 수 있다.
(수학식 2)
Figure 112020068945211-pat00034
(수학식 3)
Figure 112020068945211-pat00035
여기서, μj는 특징 텐서 F를 입력으로 마스크 예측부(202a-2)를 통해 출력한 j번째 가우시안 분포의 평균(mean)을 나타내고, Σj는 특징 텐서 F를 입력으로 마스크 예측부(202a-2)를 통해 출력한 j번째 가우시안 분포의 공분산(covariance)을 나타내며, wj는 각 가우시안 분포의 합을 위한 가중치를 나타낸다.
또한, X =(xi, yi)는 이미지 공간 상의 위치 좌표를 나타내고, p(X)는 각 이미지 공간 상의 위치 X에서 마스킹 여부에 대한 확률 값으로서 0과 1 사이의 값을 나타내며, T는 전치 행렬을 나타낸다.
영상 합성부(202b)는 인물 기본 영상과 마스크 생성부(202a)가 생성한 마스크(M)를 합성하여 인물 배경 영상을 생성할 수 있다. 즉, 영상 합성부(202b)는 인물 기본 영상에 발화와 관련된 부분이 마스크(M)로 가려진 인물 배경 영상을 생성할 수 있다.
제1 머신 러닝 모델(202)에서 인물 기본 영상을 입력으로 하여 인물 배경 영상을 생성하는 것은 다음의 수학식 4를 통해 나타낼 수 있다.
(수학식 4)
B = Gmask(I ;θ)
여기서, B는 인물 배경 영상을 나타내고, Gmask는 제1 머신 러닝 모델(202)을 구성하는 신경망을 나타내며, I는 인물 기본 영상을 나타내고, θ는 신경망 Gmask의 파라미터를 나타낸다.
제2 머신 러닝 모델(204)은 제1 머신 러닝 모델(202)에서 생성한 인물 배경 영상과 발화 오디오 신호를 입력으로 하여 인물 기본 영상(즉, 제1 머신 러닝 모델(202)로 입력되는 영상)을 복원하도록 학습되는 머신 러닝 모델일 수 있다.
여기서, 발화 오디오 신호는 제1 머신 러닝 모델(202)로 입력되는 인물 기본 영상(즉, 인물이 발화하는 영상) 중 오디오 부분에 해당할 수 있다. 인물 기본 영상과 발화 오디오 신호의 시간은 서로 동기화될 수 있다.
제2 머신 러닝 모델(204)은 인물 배경 영상(즉, 인물 기본 영상에서 발화와 관련된 부분이 마스크(M)로 가려진 영상)에서 발화와 관련된 부분을 발화 오디오 신호를 통해 복원하도록 학습될 수 있다.
예시적인 실시예에서, 제2 머신 러닝 모델(204)은 도 1과 동일 또는 유사한 신경망 구조를 가질 수 있다. 즉, 제2 머신 러닝 모델(204)은 도 4에 도시된 바와 같이, 제1 인코더(211), 제2 인코더(213), 조합부(215), 및 디코더(217)를 포함할 수 있다.
제1 인코더(211)는 제1 머신 러닝 모델(202)에서 생성되는 인물 배경 영상을 입력으로 하여 영상 특징 벡터를 추출할 수 있다. 제2 인코더(213)는 발화 오디오 신호를 입력으로 하여 음성 특징 벡터를 추출할 수 있다. 조합부(215)는 제1 인코더(211)에서 출력되는 영상 특징 벡터와 제2 인코더(213)에서 출력되는 음성 특징 벡터를 조합하여 조합 벡터를 생성할 수 있다. 디코더(217)는 조합부(215)에서 출력되는 조합 벡터를 입력으로 하여 인물 기본 영상을 복원할 수 있다.
제2 머신 러닝 모델(204)에서 인물 배경 영상과 발화 오디오 신호를 입력으로 하여 인물 기본 영상을 복원하는 것은 다음의 수학식 5를 통해 나타낼 수 있다.
(수학식 5)
I' = Gw_audio(B, A;φ1)
여기서, I'는 제2 머신 러닝 모델(204)에 의해 복원된 영상을 나타내고, Gw_audio는 제2 머신 러닝 모델(204)을 구성하는 신경망을 나타내며, B는 인물 배경 영상을 나타내고, A는 발화 오디오 신호를 나타내며, φ1은 신경망 Gw_audio의 파라미터를 나타낸다.
제2 머신 러닝 모델(204)은 인물 배경 영상 및 발화 오디오 신호를 입력으로 하여 복원하는 영상과 인물 기본 영상의 차이가 최소화 되도록 학습될 수 있다. 이때, 제2 머신 러닝 모델(204)의 목적 함수(Lw_audio1))는 다음의 수학식 6을 통해 나타낼 수 있다.
(수학식 6)
Figure 112020068945211-pat00036
그리고, 제2 머신 러닝 모델(204)의 최적화된 파라미터(
Figure 112020068945211-pat00037
)는 다음의 수학식 7을 통해 나타낼 수 있다.
(수학식 7)
Figure 112020068945211-pat00038
여기서,
Figure 112020068945211-pat00039
는 ()를 최소화하는
Figure 112020068945211-pat00040
를 찾는 함수를 나타낸다.
제3 머신 러닝 모델(206)은 제1 머신 러닝 모델(202)에서 생성한 인물 배경 영상을 입력으로 하여 인물 기본 영상(즉, 제1 머신 러닝 모델(202)로 입력되는 영상)을 복원하도록 학습되는 머신 러닝 모델일 수 있다.
즉, 제2 머신 러닝 모델(204)은 인물 배경 영상과 발화 오디오 신호에 기초하여 인물 기본 영상을 복원하도록 하는데 반하여, 제3 머신 러닝 모델(206)은 발화 오디오 신호 없이 인물 배경 영상만으로 인물 기본 영상을 복원하도록 하는 것이다.
예시적인 실시예에서, 제3 머신 러닝 모델(206)은 인물 배경 영상으로부터 영상 특징 벡터를 추출하는 인코더(221) 및 추출한 영상 특징 벡터를 입력으로 하여 인물 기본 영상을 복원하는 디코더(223)를 포함할 수 있다.
제3 머신 러닝 모델(206)에서 인물 배경 영상을 입력으로 하여 인물 기본 영상을 복원하는 것은 다음의 수학식 8을 통해 나타낼 수 있다.
(수학식 8)
I' = Gwo_audio(B, ;φ2)
여기서, Gwo_audio는 제3 머신 러닝 모델(206)을 구성하는 신경망을 나타내고, φ2는 신경망 Gwo_audio의 파라미터를 나타낸다.
제3 머신 러닝 모델(206)은 인물 배경 영상을 입력으로 하여 복원하는 영상과 인물 기본 영상의 차이가 최소화 되도록 학습될 수 있다. 이때, 제3 머신 러닝 모델(206)의 목적 함수(Lwo_audio2))는 다음의 수학식 9을 통해 나타낼 수 있다.
(수학식 9)
Figure 112020068945211-pat00041
그리고, 제3 머신 러닝 모델(206)의 최적화된 파리미터(
Figure 112020068945211-pat00042
Figure 112020068945211-pat00043
)는 다음의 수학식 10을 통해 나타낼 수 있다.
(수학식 10)
Figure 112020068945211-pat00044
한편, 제1 머신 러닝 모델(202)에서 인물 배경 영상을 생성할 때, 발화와 관련된 부분이 잘 가려지도록 마스크(M)가 생성되었다고 하면, 제2 머신 러닝 모델(204)에서 복원한 인물 기본 영상은 원래 인물 기본 영상(즉, 제1 머신 러닝 모델(202)로 입력되는 인물 기본 영상)과 높은 유사성을 가지게 되고, 제3 머신 러닝 모델(206)에서 복원한 인물 기본 영상은 원래 인물 기본 영상과 낮은 유사성을 가지게 된다.
즉, 제1 머신 러닝 모델(202)에서 인물 배경 영상을 생성할 때, 발화와 관련된 부분이 잘 가려지도록 마스크(M)가 생성된 경우, 인물 배경 영상과 함께 발화 오디오 신호를 입력으로 하는 제2 머신 러닝 모델(204)은 인물 기본 영상을 잘 복원하게 되는 반면, 발화 오디오 신호 없이 인물 배경 영상만을 입력으로 하는 제3 머신 러닝 모델(206)은 인물 기본 영상을 잘 복원하지 못하게 된다.
또한, 제1 머신 러닝 모델(202)에서 인물 배경 영상을 생성할 때, 발화와 관련된 부분이 잘 가려지지 않게 마스크(M)가 생성된 경우, 인물 배경 영상과 함께 발화 오디오 신호를 입력으로 하는 제2 머신 러닝 모델(204)은 인물 기본 영상을 잘 복원하지 못하게 되는 반면, 발화 오디오 신호 없이 인물 배경 영상만을 입력으로 하는 제3 머신 러닝 모델(206)은 인물 기본 영상을 잘 복원하게 된다.
따라서, 인물 배경 영상과 함께 발화 오디오 신호를 입력으로 하는 제2 머신 러닝 모델(204)이 발화 오디오 신호 없이 인물 배경 영상만을 입력으로 하는 제3 머신 러닝 모델(206) 보다 인물 기본 영상을 잘 복원하도록 제1 머신 러닝 모델(202)을 학습하게 되면, 제1 머신 러닝 모델(202)에서 생성되는 인물 배경 영상에서 해당 인물의 발화와 관련된 부분이 잘 가려지도록 마스크(M)가 생성될 수 있게 된다.
이하, 제2 머신 러닝 모델(204) 및 제3 머신 러닝 모델(206)과 상호 관련되어 제1 머신 러닝 모델(202)을 학습하는 것에 대해 구체적으로 설명하기로 한다. 제1 머신 러닝 모델(202)은 제2 머신 러닝 모델(204)의 목적 함수(Lw_audio)의 값이 제3 머신 러닝 모델(206)의 목적 함수(Lwo_audio)의 값 보다 작은 조건에서 제2 머신 러닝 모델(204)의 목적 함수(Lw_audio) 및 제3 머신 러닝 모델(206)의 목적 함수(Lwo_audio)가 최소화 되도록 학습될 수 있다.
이에 따른 제1 머신 러닝 모델(202)의 목적 함수(Lmask(θ)) 및 제1 머신 러닝 모델(202)의 최적화된 파라미터(θ*)는 하기의 수학식 11 및 수학식 12를 통해 나타낼 수 있다.
(수학식 11)
Figure 112020068945211-pat00045
(수학식 12)
Figure 112020068945211-pat00046
Figure 112020068945211-pat00047
: 제2 머신 러닝 모델의 목적 함수의 가중치
Figure 112020068945211-pat00048
: 제3 머신 러닝 모델의 목적 함수의 가중치
Figure 112020068945211-pat00049
: 적대적 목적 함수의 가중치
Figure 112020068945211-pat00050
: 제1 머신 러닝 모델의 학습을 위한 제2 머신 러닝 모델의 목적 함수
Figure 112020068945211-pat00051
: 제1 머신 러닝 모델의 학습을 위한 제3 머신 러닝 모델의 목적 함수
Figure 112020068945211-pat00052
: 제1 머신 러닝 모델의 학습을 위한 제2 머신 러닝 모델 및 제3 머신 러닝 모델 간의 적대적 목적 함수
부연 설명하면,
Figure 112020068945211-pat00053
는 제1 머신 러닝 모델의 학습을 위한 제2 머신 러닝 모델 및 제3 머신 러닝 모델의 목적 함수 간의 차이가 극대화 되도록 하는 목적 함수(이하, 적대적 목적 함수라 지칭할 수 있음)를 의미할 수 있다.
또한,
Figure 112020068945211-pat00054
,
Figure 112020068945211-pat00055
, 및
Figure 112020068945211-pat00056
는 각각 0과 1 사이의 값일 수 있으며,
Figure 112020068945211-pat00057
+
Figure 112020068945211-pat00058
+
Figure 112020068945211-pat00059
= 1일 수 있다.
그리고,
Figure 112020068945211-pat00060
Figure 112020068945211-pat00061
는 각각 다음과 같다.
Figure 112020068945211-pat00062
Figure 112020068945211-pat00063
또한, 적대적 목적 함수는
Figure 112020068945211-pat00064
-
Figure 112020068945211-pat00065
으로 나타낼 수도 있고,
Figure 112020068945211-pat00066
으로 나타낼 수도 있다.
이와 같이, 인물 배경 영상 및 발화 오디오 신호를 입력으로 하여 인물 기본 영상을 복원하는 제2 머신 러닝 모델(204)과 발화 오디오 신호 없이 인물 배경 영상만을 입력으로 하여 인물 기본 영상을 복원하는 제3 머신 러닝 모델(206)을 이용하여 제1 머신 러닝 모델(202)을 학습함으로써, 제1 머신 러닝 모델(202)에서 인물 기본 영상의 발화와 관련된 부분을 적절하게 마스킹 처리하여 인물 배경 영상을 생성할 수 있게 된다.
도 4는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.
도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 발화 동영상 생성 장치(100, 200)일 수 있다.
컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.
컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.
이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
100, 200 : 발화 동영상 생성 장치
102 : 제1 인코더
104 : 제2 인코더
106 : 조합부
108 : 디코더
202 : 제1 머신 러닝 모델
202a : 마스크 생성부
202a-1 : 특징 추출부
202a-2 : 마스크 예측부
202b : 영상 합성부
204 : 제2 머신 러닝 모델
206 : 제3 머신 러닝 모델
211 : 제1 인코더
213 : 제2 인코더
215 : 조합부
217 : 디코더
221 : 인코더
223 : 디코더

Claims (11)

  1. 하나 이상의 프로세서들, 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치로서,
    인물 기본 영상을 입력으로 하여 상기 인물 기본 영상에서 발화와 관련된 부분에 마스킹 처리 할 마스크를 생성하고, 상기 인물 기본 영상과 상기 마스크를 합성하여 인물 배경 영상을 생성하는 제1 머신 러닝 모델을 포함하고,
    상기 제1 머신 러닝 모델은, 상기 입력되는 인물 기본 영상으로부터 특징 텐서를 추출하는 특징 추출부; 및 상기 추출한 특징 텐서에 기반하여 상기 인물 기본 영상의 이미지 공간 상에 생성할 마스크를 예측하는 마스크 예측부를 포함하며,상기 마스크 예측부는, 하기 수학식 2 및 수학식 3에 의해 상기 마스크를 예측하는, 영상 생성을 위한 학습 장치.
    (수학식 2)
    Figure 112022060407184-pat00098

    (수학식 3)
    Figure 112022060407184-pat00099

    μj : 특징 텐서 F를 입력으로 마스크 예측부를 통해 출력한 j번째 가우시안 분포의 평균(mean)
    Σj : 특징 텐서 F를 입력으로 마스크 예측부를 통해 출력한 j번째 가우시안 분포의 공분산(covariance)
    wj : 각 가우시안 분포의 합을 위한 가중치
    X : 이미지 공간 상의 위치 좌표(xi, yi)
    p(X) : 각 이미지 공간 상의 위치 X에서 마스킹 여부에 대한 확률 값
    T : 전치 행렬
  2. 삭제
  3. 삭제
  4. 삭제
  5. 청구항 1에 있어서,
    상기 학습 장치는,
    상기 인물 기본 영상과 관련된 발화 오디오 신호 및 상기 제1 머신 러닝 모델에서 생성하는 인물 배경 영상을 입력으로 하여 상기 인물 기본 영상을 복원하는 제2 머신 러닝 모델; 및
    상기 제1 머신 러닝 모델에서 생성하는 인물 배경 영상을 입력으로 하여 상기 인물 기본 영상을 복원하는 제3 머신 러닝 모델을 더 포함하는, 영상 생성을 위한 학습 장치.
  6. 청구항 5에 있어서,
    상기 제2 머신 러닝 모델은,
    상기 인물 배경 영상에서 상기 마스크로 가려진 부분을 상기 발화 오디오 신호를 통해 복원하도록 학습되는, 영상 생성을 위한 학습 장치.
  7. 청구항 5에 있어서,
    상기 제1 머신 러닝 모델은,
    상기 제2 머신 러닝 모델의 목적 함수의 값이 상기 제3 머신 러닝 모델의 목적 함수의 값보다 작은 조건에서 상기 제2 머신 러닝 모델의 목적 함수 및 상기 제3 머신 러닝 모델의 목적 함수가 최소화 되도록 학습되는, 영상 생성을 위한 학습 장치.
  8. 청구항 7에 있어서,
    상기 제1 머신 러닝 모델의 목적 함수(
    Figure 112020068945211-pat00075
    )는 하기 수학식 4를 통해 표현되는, 영상 생성을 위한 학습 장치.
    (수학식 4)
    Figure 112020068945211-pat00076

    Figure 112020068945211-pat00077
    : 제1 머신 러닝 모델의 파라미터
    Figure 112020068945211-pat00078
    : 제2 머신 러닝 모델의 목적 함수의 가중치
    Figure 112020068945211-pat00079
    : 제3 머신 러닝 모델의 목적 함수의 가중치
    Figure 112020068945211-pat00080
    : 적대적 목적 함수의 가중치
    Figure 112020068945211-pat00081
    : 제1 머신 러닝 모델의 학습을 위한 제2 머신 러닝 모델의 목적 함수
    Figure 112020068945211-pat00082
    : 제1 머신 러닝 모델의 학습을 위한 제3 머신 러닝 모델의 목적 함수
    Figure 112020068945211-pat00083
    : 제1 머신 러닝 모델의 학습을 위한 제2 머신 러닝 모델 및 제3 머신 러닝 모델 간의 적대적 목적 함수
  9. 청구항 8에 있어서,
    상기
    Figure 112020068945211-pat00084
    는 하기의 수학식 5를 통해 표현되고, 상기
    Figure 112020068945211-pat00085
    는 하기 수학식 6을 통해 표현되는, 영상 생성을 위한 학습 장치.
    (수학식 5)
    Figure 112020068945211-pat00086

    (수학식 6)
    Figure 112020068945211-pat00087

    I : 인물 기본 영상
    Figure 112020068945211-pat00088
    : 제2 머신 러닝 모델을 구성하는 신경망
    Figure 112020068945211-pat00089
    : 제1 머신 러닝 모델을 구성하는 신경망
    A : 발화 오디오 신호
    Figure 112020068945211-pat00090
    : 제2 머신 러닝 모델의 파라미터
    Figure 112020068945211-pat00091
    : 제3 머신 러닝 모델을 구성하는 신경망
    Figure 112020068945211-pat00092
    : 제3 머신 러닝 모델의 파라미터
  10. 청구항 9에 있어서,
    상기
    Figure 112020068945211-pat00093
    는 상기 제1 머신 러닝 모델의 학습을 위한 상기 제2 머신 러닝 모델의 목적 함수와 상기 제3 머신 러닝 모델의 목적 함수 간의 차이가 극대화 되도록 하는 목적 함수인, 영상 생성을 위한 학습 장치.
  11. 하나 이상의 프로세서들, 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서,
    제1 머신 러닝 모델에서, 인물 기본 영상을 입력으로 하여 상기 인물 기본 영상에서 발화와 관련된 부분에 마스킹 처리 할 마스크를 생성하는 단계; 및
    상기 제1 머신 러닝 모델에서, 상기 인물 기본 영상과 상기 마스크를 합성하여 인물 배경 영상을 생성하는 단계를 포함하고,
    상기 제1 머신 러닝 모델에서, 상기 입력되는 인물 기본 영상으로부터 특징 텐서를 추출하고, 및 상기 추출한 특징 텐서에 기반하여 상기 인물 기본 영상의 이미지 공간 상에 생성할 마스크를 예측하되, 하기 수학식 2 및 수학식 3에 의해 상기 마스크를 예측하는, 영상 생성을 위한 학습 방법.
    (수학식 2)
    Figure 112022060407184-pat00100

    (수학식 3)
    Figure 112022060407184-pat00101

    μj : 특징 텐서 F를 입력으로 마스크 예측부를 통해 출력한 j번째 가우시안 분포의 평균(mean)
    Σj : 특징 텐서 F를 입력으로 마스크 예측부를 통해 출력한 j번째 가우시안 분포의 공분산(covariance)
    wj : 각 가우시안 분포의 합을 위한 가중치
    X : 이미지 공간 상의 위치 좌표(xi, yi)
    p(X) : 각 이미지 공간 상의 위치 X에서 마스킹 여부에 대한 확률 값
    T : 전치 행렬
KR1020200081618A 2020-07-02 2020-07-02 영상 생성을 위한 학습 장치 및 방법 KR102437039B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020200081618A KR102437039B1 (ko) 2020-07-02 2020-07-02 영상 생성을 위한 학습 장치 및 방법
US17/762,820 US20220351348A1 (en) 2020-07-02 2020-12-01 Learning device and method for generating image
PCT/KR2020/017408 WO2022004971A1 (ko) 2020-07-02 2020-12-01 영상 생성을 위한 학습 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200081618A KR102437039B1 (ko) 2020-07-02 2020-07-02 영상 생성을 위한 학습 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220003858A KR20220003858A (ko) 2022-01-11
KR102437039B1 true KR102437039B1 (ko) 2022-08-26

Family

ID=79316357

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200081618A KR102437039B1 (ko) 2020-07-02 2020-07-02 영상 생성을 위한 학습 장치 및 방법

Country Status (3)

Country Link
US (1) US20220351348A1 (ko)
KR (1) KR102437039B1 (ko)
WO (1) WO2022004971A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11620903B2 (en) * 2021-01-14 2023-04-04 Baidu Usa Llc Machine learning model to fuse emergency vehicle audio and visual detection
US11973608B2 (en) 2022-08-10 2024-04-30 Capital One Services, Llc Automatic image generator using meeting content
US11937015B2 (en) * 2022-08-10 2024-03-19 Capital One Services, Llc Automatic image generator using meeting content

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008160354A (ja) 2006-12-22 2008-07-10 Matsushita Electric Ind Co Ltd 映像出力装置
US20140341442A1 (en) 2013-05-14 2014-11-20 Google Inc. Image masks for face-related selection and processing in images
WO2018225775A1 (ja) * 2017-06-06 2018-12-13 アイテック株式会社 画像マスキング装置及び画像マスキング方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100974165B1 (ko) * 2008-02-15 2010-08-04 한양대학교 산학협력단 비선형 회귀 분석을 이용한 얼굴 표정 합성 시스템 및 방법
KR101177408B1 (ko) 2010-09-16 2012-08-27 광운대학교 산학협력단 시청자의 시점에 따라 홀로그래픽 영상을 복원하는 다시점 기반 대화형 홀로그래픽 복원 장치 및 시스템
KR101378811B1 (ko) * 2012-09-18 2014-03-28 김상철 단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법
KR102360839B1 (ko) * 2019-06-21 2022-02-09 주식회사 딥브레인에이아이 머신 러닝 기반의 발화 동영상 생성 방법 및 장치
KR102360840B1 (ko) * 2019-06-21 2022-02-09 주식회사 딥브레인에이아이 텍스트를 이용한 발화 동영상 생성 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008160354A (ja) 2006-12-22 2008-07-10 Matsushita Electric Ind Co Ltd 映像出力装置
US20140341442A1 (en) 2013-05-14 2014-11-20 Google Inc. Image masks for face-related selection and processing in images
WO2018225775A1 (ja) * 2017-06-06 2018-12-13 アイテック株式会社 画像マスキング装置及び画像マスキング方法

Also Published As

Publication number Publication date
WO2022004971A1 (ko) 2022-01-06
US20220351348A1 (en) 2022-11-03
KR20220003858A (ko) 2022-01-11

Similar Documents

Publication Publication Date Title
KR102360839B1 (ko) 머신 러닝 기반의 발화 동영상 생성 방법 및 장치
KR102437039B1 (ko) 영상 생성을 위한 학습 장치 및 방법
KR102346755B1 (ko) 음성 신호를 이용한 발화 동영상 생성 방법 및 장치
US20220358703A1 (en) Method and device for generating speech video on basis of machine learning
KR102483416B1 (ko) 발화 동영상 생성 방법 및 장치
KR102346756B1 (ko) 발화 동영상 생성 방법 및 장치
KR102509666B1 (ko) 텍스트 및 오디오 기반 실시간 얼굴 재연
US20220399025A1 (en) Method and device for generating speech video using audio signal
WO2022106654A2 (en) Methods and systems for video translation
CN112837669B (zh) 语音合成方法、装置及服务器
US11972516B2 (en) Method and device for generating speech video by using text
KR102540763B1 (ko) 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치
KR20220111388A (ko) 영상 품질을 향상시킬 수 있는 영상 합성 장치 및 방법
KR20230025824A (ko) 랜드마크를 함께 생성하는 발화 동영상 생성 장치 및 방법
KR102360840B1 (ko) 텍스트를 이용한 발화 동영상 생성 방법 및 장치
KR20220111390A (ko) 영상 품질을 향상시킬 수 있는 영상 합성 장치 및 방법
KR102612625B1 (ko) 신경망 기반의 특징점 학습 장치 및 방법
KR20220082279A (ko) 립싱크 영상 생성 장치 및 방법
KR102649818B1 (ko) 3d 립싱크 비디오 생성 장치 및 방법
US20210104241A1 (en) Techniques for interpreting spoken input using non-verbal cues
US20220343651A1 (en) Method and device for generating speech image
KR102584484B1 (ko) 발화 합성 영상 생성 장치 및 방법
KR102584485B1 (ko) 발화 합성 영상 생성 장치 및 방법
KR20220101403A (ko) 립싱크 영상 생성 장치 및 방법
KR102540756B1 (ko) 발화 합성 영상 생성 장치 및 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant