KR20220013850A - 발화 영상 생성 방법 및 장치 - Google Patents

발화 영상 생성 방법 및 장치 Download PDF

Info

Publication number
KR20220013850A
KR20220013850A KR1020200093374A KR20200093374A KR20220013850A KR 20220013850 A KR20220013850 A KR 20220013850A KR 1020200093374 A KR1020200093374 A KR 1020200093374A KR 20200093374 A KR20200093374 A KR 20200093374A KR 20220013850 A KR20220013850 A KR 20220013850A
Authority
KR
South Korea
Prior art keywords
image
speech
machine learning
feature
learning model
Prior art date
Application number
KR1020200093374A
Other languages
English (en)
Inventor
채경수
황금별
Original Assignee
주식회사 딥브레인에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 딥브레인에이아이 filed Critical 주식회사 딥브레인에이아이
Priority to KR1020200093374A priority Critical patent/KR20220013850A/ko
Priority to US17/762,876 priority patent/US20220343651A1/en
Priority to PCT/KR2020/017848 priority patent/WO2022025359A1/ko
Publication of KR20220013850A publication Critical patent/KR20220013850A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

발화 영상 생성 방법 및 장치가 개시된다. 개시되는 일 실시예에 따른 발화 영상 생성 장치는, 하나 이상의 프로세서들, 및 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 발화 영상 생성 장치로서, 인물의 발화 영상을 입력으로 하여 영상 특징을 추출하고, 추출한 영상 특징으로부터 발화 영상을 복원하도록 하는 제1 머신 러닝 모델 및 인물의 발화 오디오 신호를 입력으로 하여 영상 특징을 예측하도록 하는 제2 머신 러닝 모델을 포함한다.

Description

발화 영상 생성 방법 및 장치{METHOD AND APPARATUS FOR GENERATING SPEECH VIDEO}
본 발명의 실시예는 발화 영상 생성 기술로서, 발화 오디오 신호를 단일 입력으로 하여 발화 영상을 생성하는 기술과 관련된다.
최근, 인공 지능 분야의 기술 발전에 따라 다양한 유형의 콘텐츠가 인공 지능 기술에 기초하여 생성되고 있다. 그 일 예로, 어떤 전달하고자 하는 음성 메시지가 있을 때, 그 음성 메시지를 유명 인물(예를 들어, 대통령 등)이 말하는 것과 같은 발화 동영상을 생성하여 사람들의 주의를 끌고자 하는 경우가 있다. 이는 유명 인물의 영상에서 유명 인물이 특정 메시지를 말하는 것처럼 입 모양 등을 특정 메시지에 맞게 생성하여 구현하게 된다.
한편, 음성 정보를 영상 정보로 변환하는 가장 직접적이고 단순한 형태의 신경망 구조는 도 1에 도시된 바와 같이, 인코더(50)를 통해 입력되는 음성 정보(X)에서 특징(Z)을 추출하고, 디코더(60)로 추출된 특징(Z)으로부터 영상 정보(Y)를 출력하는 형태이다.
그러나, 이러한 신경망 구조에서는 픽셀을 단위로 하는 영상 정보의 특성 상 얼굴과 몸의 형태를 유지하도록 유도 또는 제약하기가 어렵다. 따라서, 하나의 범주(도메인)의 정보(예를 들어, 음성 정보)를 다른 범주의 정보(예를 들어, 영상 정보)로 변환하면서 동시에 해당 범주의 데이터가 갖는 특성을 유지하도록 할 수 있는 방안이 필요하다.
또한, 영상에서 발화 부분의 형태 또는 움직임(예를 들어, 입 모양의 형태 또는 움직임)은 음절이나 단어의 일부분에 해당하는 상대적으로 짧은 시간 단위의 정보를 기반으로 생성이 가능하나, 발화 시 머리와 몸의 움직임이나 표정 변화 등 발화 내용 및 상황과 관련된 동작을 생성하기 위해서는 여러 단어 및 여러 문장 단위 등 상대적으로 긴 시간 단위의 정보를 처리할 수 있는 신경망 모델 구조가 필요하다.
한국등록특허공보 제10-1177408호(2012.08.27)
개시되는 실시예는 발화 오디오 신호를 단일 입력으로 하여 발화 영상을 생성할 수 있는 기법을 제공하기 위한 것이다.
개시되는 일 실시예에 따른 발화 영상 생성 장치는, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 발화 영상 생성 장치로서, 인물의 발화 영상을 입력으로 하여 영상 특징을 추출하고, 추출한 영상 특징으로부터 발화 영상을 복원하도록 하는 제1 머신 러닝 모델; 및 상기 인물의 발화 오디오 신호를 입력으로 하여 상기 영상 특징을 예측하도록 하는 제2 머신 러닝 모델을 포함한다.
상기 발화 오디오 신호는 상기 발화 영상의 오디오 부분이고, 상기 제1 머신 러닝 모델로 입력되는 발화 영상과 상기 제2 머신 러닝 모델로 입력되는 발화 오디오 신호는 시간이 동기화 된 것일 수 있다.
상기 제1 머신 러닝 모델은, 상기 발화 영상을 입력으로 하여 영상 특징을 추출하는 영상 특징 추출부; 및 상기 영상 특징 추출부에서 출력되는 영상 특징을 입력으로 하여 발화 영상을 복원하는 영상 복원부를 포함할 수 있다.
상기 제1 머신 러닝 모델은, 상기 영상 복원부에서 출력되는 복원된 발화 영상이 상기 영상 특징 추출부로 입력되는 발화 영상과 가까워지도록 학습될 수 있다.
상기 영상 특징 추출부는, 상기 발화 영상을 영상 프레임 단위로 입력 받고, 각 영상 프레임 별로 영상 특징을 추출하여 영상 특징 시퀀스를 출력하고, 상기 영상 복원부는, 각 영상 프레임 별 영상 특징을 입력으로 하여 각 영상 프레임 별로 복원된 발화 영상을 출력할 수 있다.
상기 제2 머신 러닝 모델은, 상기 발화 오디오 신호를 입력으로 하여 음성 특징을 추출하는 음성 특징 추출부; 및 상기 음성 특징 추출부에서 출력되는 음성 특징을 입력으로 하여 상기 영상 특징 추출부에서 출력되는 영상 특징을 예측하는 영상 특징 예측부를 포함할 수 있다.
상기 음성 특징 추출부는, 상기 발화 오디오 신호에서 상기 각 영상 프레임에 대응하는 구간에 대해 음성 특징을 각각 추출하여 음성 특징 시퀀스를 출력하고, 상기 영상 특징 예측부는, 상기 음성 특징 시퀀스를 입력으로 하여 상기 영상 특징 시퀀스를 예측할 수 있다.
상기 영상 특징 예측부는, 상기 발화 영상 중 n번째 영상 프레임에 대응하는 발화 오디오 신호의 구간으로부터 추출한 음성 특징을 기반으로 상기 n번째 영상 프레임의 영상 특징을 예측할 수 있다.
상기 제2 머신 러닝 학습 모델의 손실 함수(Lseq)는 하기의 수학식을 통해 표현될 수 있다.
(수학식)
Figure pat00001
Z : 제1 머신 러닝 모델의 영상 특징 추출부가 생성하는 영상 특징 시퀀스로서, Z = {Eimg(y0enc), Eimg(y1;θenc), ... Eimg(ynenc)}
Eimg : 영상 특징 추출부를 구성하는 신경망
θenc : 신경망 Eimg의 파라미터
yn : 발화 영상(Y)의 n번째 영상 프레임
Figure pat00002
: 제2 머신 러닝 모델의 영상 특징 예측부에서 출력하는 영상 특징 시퀀스로서,
Figure pat00003
= P(Eaud(X;φenc); φp)
Eaud: 음성 특징 추출부를 구성하는 신경망
φenc: 신경망 Eaud의 파라미터
P : 영상 특징 예측부를 구성하는 신경망
φp: 신경망 P의 파라미터
X : 발화 오디오 신호로서, X ={x0, x1, x2, ... xn}
xn : n번째 영상 프레임에 대응하는 발화 오디오 신호
Figure pat00004
:
Figure pat00005
Figure pat00006
의 차이를 구하는 함수
상기 제2 머신 러닝 모델의 최적화된 파라미터(
Figure pat00007
)는 하기의 수학식을 통해 산출할 수 있다.
(수학식)
Figure pat00008
Figure pat00009
:
Figure pat00010
(제2 머신 러닝 모델의 손실 함수)를 최소화 하는
Figure pat00011
,
Figure pat00012
를 찾는 함수
개시되는 일 실시예에 따른 발화 영상 생성 방법은, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 제1 머신 러닝 모델에서, 인물의 발화 영상을 입력으로 하여 영상 특징을 추출하고, 추출한 영상 특징으로부터 발화 영상을 복원하도록 하는 동작; 및 제2 머신 러닝 모델에서, 상기 인물의 발화 오디오 신호를 입력으로 하여 상기 영상 특징을 예측하도록 하는 동작을 포함한다.
개시되는 실시예에 의하면, 제1 머신 러닝 모델을 통해 발화 영상에서 영상 특징을 추출하고, 추출한 영상 특징으로부터 발화 영상을 복원하도록 하며, 제2 머신 러닝 모델을 통해 발화 오디오 신호에서 음성 특징을 추출하고, 추출한 음성 특징으로부터 그에 대응하는 영상 특징을 예측하도록 함으로써, 예측된 영상 특징을 통해 발화 영상을 복원할 때 영상에 포함된 얼굴과 몸의 형태를 잘 유지할 수 있게 된다.
즉, 제2 머신 러닝 모델에서 음성 특징으로부터 영상 특징을 예측할 때, 픽셀 값으로 이루어진 영상 데이터 자체가 아니라 압축된 형태의 분포를 학습하기 때문에, 이렇게 학습된 분포에서 생성된 값(즉, 예측된 영상 특징)을 다시 영상으로 복원하면 영상에 포함된 얼굴과 몸의 형태를 잘 유지할 수 있게 된다.
개시되는 실시예에서는, 발화 음성 신호만을 입력으로 하여(즉, 발화 음성 신호를 단일 입력으로 하여) 특정 인물의 발화 영상을 생성할 수 있다. 이때, 음성과 직접적으로 관련된 발화 부분(예를 들어, 입, 턱, 목 등)뿐만 아니라, 특정 인물이 발화 시 보이는 특정 동작(예를 들어, 말을 강조하고자 할 때 고개를 끄덕이는 행동 등)과 자연스럽게 나오는 눈 깜박임 등을 발화 음성 신호만으로도 생성할 수 있게 된다.
도 1은 음성 정보를 영상 정보로 변환하는 일반적인 신경망 구조를 나타낸 도면
도 2는 본 발명의 일 실시예에 따른 발화 영상 생성 장치의 구성을 개략적으로 나타낸 도면
도 3은 본 발명의 일 실시예에 따른 제1 머신 러닝 모델의 구성을 나타낸 도면
도 4는 본 발명의 일 실시예에 따른 제2 머신 러닝 모델의 구성을 나타낸 도면
도 5는 본 발명의 일 실시예에 따른 발화 오디오 신호만으로 발화 영상을 생성하는 상태를 나타낸 도면
도 6은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.
이하의 설명에 있어서, 신호 또는 정보의 "전송", "통신", "송신", "수신" 기타 이와 유사한 의미의 용어는 일 구성요소에서 다른 구성요소로 신호 또는 정보가 직접 전달되는 것뿐만이 아니라 다른 구성요소를 거쳐 전달되는 것도 포함한다. 특히 신호 또는 정보를 일 구성요소로 "전송" 또는 "송신"한다는 것은 그 신호 또는 정보의 최종 목적지를 지시하는 것이고 직접적인 목적지를 의미하는 것이 아니다. 이는 신호 또는 정보의 "수신"에 있어서도 동일하다. 또한 본 명세서에 있어서, 2 이상의 데이터 또는 정보가 "관련"된다는 것은 하나의 데이터(또는 정보)를 획득하면, 그에 기초하여 다른 데이터(또는 정보)의 적어도 일부를 획득할 수 있음을 의미한다.
또한, 제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
도 2는 본 발명의 일 실시예에 따른 발화 영상 생성 장치의 구성을 개략적으로 나타낸 도면이다.
도 2를 참조하면, 발화 영상 생성 장치(100)는 제1 머신 러닝 모델(102) 및 제2 머신 러닝 모델(104)을 포함할 수 있다. 발화 영상 생성 장치(100)는 머신 러닝 기술을 기반으로 구현될 수 있다.
제1 머신 러닝 모델(102)과 제2 머신 러닝 모델(104)은 동시에 학습될 수 있으나, 이에 한정되는 것은 아니며 순차적으로 학습될 수도 있다. 즉, 제1 머신 러닝 모델(102)이 학습된 후, 제2 머신 러닝 모델(104)이 학습될 수도 있다. 이하에서는, 발화 영상 생성을 위한 학습 과정을 위주로 설명하기로 한다.
제1 머신 러닝 모델(102)은 인물의 발화 영상(Y)을 입력으로 하여 영상 특징(Z)을 추출하고, 추출한 영상 특징(Z)으로부터 발화 영상을 복원(즉, 복원된 발화 영상(
Figure pat00013
)을 생성)하도록 학습될 수 있다.
예시적인 실시예에서, 제1 머신 러닝 모델(102)은 발화 영상(Y)을 영상 프레임 단위로 입력 받고, 각 영상 프레임 별로 영상 특징(Z)을 추출할 수 있다. 제1 머신 러닝 모델(102)은 각 영상 프레임 별 영상 특징(Z)을 입력으로 하여 각 영상 프레임 별 복원된 발화 영상(
Figure pat00014
)을 생성할 수 있다.
도 3은 본 발명의 일 실시예에 따른 제1 머신 러닝 모델(102)의 구성을 나타낸 도면이다. 도 3을 참조하면, 제1 머신 러닝 모델(102)은 영상 특징 추출부(111) 및 영상 복원부(113)를 포함할 수 있다.
영상 특징 추출부(111)는 인물의 발화 영상(Y)을 입력으로 하여 영상 특징(Z)을 추출하도록 학습될 수 있다. 영상 특징(Z)은 벡터 형태일 수도 있고 텐서 형태일 수도 있다.
여기서, 발화 영상(Y)은 인물이 말을 하는 영상에서 비디오 부분일 수 있다. 예시적인 실시예에서, 발화 영상(Y)은 해당 인물이 발화할 때 나타나는 목, 및 어깨 등의 움직임이 보여지도록 얼굴뿐만 아니라 상반신이 포함된 영상일 수 있다. 그러나, 이에 한정되는 것은 아니며 발화 영상(Y)은 해당 인물의 얼굴 영상 또는 해당 인물의 전신 영상을 포함할 수도 있다.
예시적인 실시예에서, 영상 특징 추출부(111)는 하나 이상의 합성곱 층(Convolutional Layer) 및 하나 이상의 풀링 층(Pooling Layer)를 포함할 수 있다. 합성곱 층은 입력되는 발화 영상에서 기 설정된 크기(예를 들어, 3×3 픽셀 크기)의 필터를 일정 간격으로 이동시키면서 해당 필터에 대응되는 픽셀들의 특징 값을 추출할 수 있다. 풀링 층은 합성곱 층의 출력을 입력으로 받아 다운 샘플링(Down Sampling)을 수행할 수 있다.
영상 특징 추출부(111)에서 추출하는 영상 특징(Z)은 공간적인 형태를 일부 또는 전부 상실한 벡터 또는 텐서의 형태를 가질 수 있다. 또한, 영상 특징(Z)은 발화 영상(Y)의 주요 정보는 포함하면서 제2 머신 러닝 모델(104)에서 발화 음성 신호를 기반으로 영상 특징을 효과적으로 예측할 수 있도록 적절한 수준에서 압축될 수 있다.
영상 특징 추출부(111)는 발화 영상(Y)을 영상 프레임 단위로 입력 받고, 각 영상 프레임 별로 영상 특징(Z)을 추출할 수 있다. 이때, 기 설정된 단위 시간(예를 들어, 1초 또는 2초 등)의 발화 영상(Y)이 영상 특징 추출부(111)로 입력될 수 있다.
여기서, 발화 영상(Y)의 영상 프레임은 시간에 대해 순차적이므로 영상 특징 추출부(111)에서 출력되는 영상 특징(Z) 역시 시간에 대해 순차적이게 된다. 이하에서, 시간에 대해 순차적인 영상 특징(Z)의 집합을 영상 특징 시퀀스라 지칭할 수 있다. 즉, 발화 영상(Y)에 대한 복수 개의 영상 프레임이 영상 특징 추출부(111)로 입력되는 경우, 영상 특징 추출부(111)는 각 영상 프레임 별로 영상 특징(Z)을 추출하여 영상 특징 시퀀스를 생성할 수 있다.
영상 복원부(113)는 영상 특징 추출부(111)에서 출력되는 영상 특징(Z)을 입력으로 하여 발화 영상(Y)을 복원하도록 학습될 수 있다. 즉, 영상 복원부(113)는 영상 특징(Z)을 입력으로 하여 복원된 발화 영상(
Figure pat00015
)을 출력하도록 학습될 수 있다. 예시적인 실시예에서, 영상 복원부(113)는 영상 특징에 역 합성곱(Deconvolution)을 수행한 후 업 샘플링(Up Sampling)을 수행하여 복원된 발화 영상을 출력할 수 있다.
영상 복원부(113)는 각 영상 프레임 별 영상 특징(Z)을 입력으로 하여 각 영상 프레임 별로 복원된 발화 영상(
Figure pat00016
)을 출력하도록 학습될 수 있다.
제1 머신 러닝 모델(102)은 영상 복원부(113)에서 출력되는 복원된 발화 영상(
Figure pat00017
)과 원래의 발화 영상(Y)(즉, 영상 특징 추출부(111)로 입력되는 발화 영상)을 비교하여 복원된 발화 영상(
Figure pat00018
)이 원래의 발화 영상(Y)에 가까워지도록 학습 파라미터(예를 들어, 손실 함수, 소프트맥스 함수 등)를 조절할 수 있다.
제1 머신 러닝 모델(102)의 손실 함수(Lreconstruction)는 다음의 수학식 1을 통해 표현할 수 있다.
(수학식 1)
Figure pat00019
여기서, Y는 영상 특징 추출부(111)로 입력되는 발화 영상을 나타내고, D는 영상 복원부(113)를 구성하는 신경망을 나타내며,
Figure pat00020
는 영상 특징 추출부(111)를 구성하는 신경망을 나타내며,
Figure pat00021
는 신경망
Figure pat00022
의 파라미터를 나타내고,
Figure pat00023
는 신경망 D의 파라미터를 나타낸다. 그리고
Figure pat00024
함수는 A와 B의 차이를 구하는 함수(예를 들어, A와 B의 유클리디안 거리(L2 distance) 또는 맨하튼 거리(L1 distance)를 구하는 함수 등)를 나타낸다.
또한, 제1 머신 러닝 모델(102)의 최적화된 파라미터(
Figure pat00025
)는 다음의 수학식 2를 통해 표현할 수 있다.
(수학식 2)
Figure pat00026
여기서,
Figure pat00027
Figure pat00028
(즉, 제1 머신 러닝 모델(102)의 손실 함수)를 최소화 하는
Figure pat00029
,
Figure pat00030
를 찾는 함수를 나타낸다.
한편, 여기서는 제1 머신 러닝 모델(102)이 영상 특징 추출부(111) 및 영상 복원부(113)를 포함하는 것으로 설명하였으나, 제1 머신 러닝 모델(102)을 구성하는 신경망 구조가 이에 한정되는 것은 아니며 그 이외의 다양한 신경망 구조를 이용하여 구현할 수 있다.
즉, 제1 머신 러닝 모델(102)은 발화 영상을 압축하여 영상 특징을 추출하고(특징 추출부), 추출한 특징을 기반으로 발화 영상을 복원(영상 복원부)할 수 있는 다양한 신경망 구조(예를 들어, ResNet(Residual Network), AdaIN(Adaptive Instance Normalization) 등)로 구현할 수 있다.
또한, 제1 머신 러닝 모델(102)은 복원된 발화 영상이 원래 발화 영상과 가깝도록 만들어주는 분별기(Discriminator)를 포함하는 GAN(Generative Adversarial Network)을 통해 구현할 수도 있다. 또한, 제1 머신 러닝 모델(102)은 영상 특징 벡터의 구성 요소를 체계적으로 분리하여 컨트롤 할 수 있도록 하는 KL-divergence loss를 포함하는 VAE(Variational Autoencoder)를 통해 구현할 수도 있다.
제2 머신 러닝 모델(104)은 인물의 발화 음성 신호(X)를 입력으로 하여 영상 특징(Z)을 출력하도록 학습될 수 있다. 즉, 제2 머신 러닝 모델(104)은 발화 음성 신호(X)를 입력으로 하여 제1 머신 러닝 모델(104)이 발화 영상(Y)으로부터 추출한 영상 특징(Z)을 출력하도록 학습될 수 있다.
여기서, 발화 음성 신호(X)는 발화 영상(Y)에 대한 오디오 부분일 수 있다. 즉, 인물이 말을 하는 영상 중 비디오 부분인 발화 영상(Y)은 제1 머신 러닝 모델(102)로 입력되고, 인물이 말을 하는 영상 중 오디오 부분인 발화 오디오 신호(X)는 제2 머신 러닝 모델(104)로 입력될 수 있다.
제1 머신 러닝 모델(102)로 입력되는 발화 영상(Y)과 제2 머신 러닝 모델(104)로 입력되는 발화 오디오 신호(X)의 시간은 서로 동기화 될 수 있다. 그리고, 제1 머신 러닝 모델(102)로 입력되는 발화 영상(Y)의 시구간과 제2 머신 러닝 모델(104)로 입력되는 발화 오디오 신호(X)의 시구간은 동일할 수 있다. 제1 머신 러닝 모델(102)로 기 설정된 단위 시간의 발화 영상(Y)이 입력되는 경우, 제2 머신 러닝 모델(104)로 상기 단위 시간의 발화 오디오 신호(X)가 입력될 수 있다.
도 4는 본 발명의 일 실시예에 따른 제2 머신 러닝 모델(104)의 구성을 나타낸 도면이다. 도 4를 참조하면, 제2 머신 러닝 모델(104)은 음성 특징 추출부(121) 및 영상 특징 예측부(123)를 포함할 수 있다.
음성 특징 추출부(121)는 발화 오디오 신호(X)를 입력으로 하여 음성 특징을 추출할 수 있다. 음성 특징은 벡터 형태일 수도 있고 텐서 형태일 수도 있다. 예시적인 실시예에서, 음성 특징 추출부(121)는 발화 영상(Y)의 각 영상 프레임에 대응하는 발화 오디오 신호(X)에 대하여 음성 특징을 추출할 수 있다.
발화 오디오 신호(X)는 발화 영상(Y)과 동일한 단위 시간의 분량이 입력되고 발화 영상(Y)의 영상 프레임은 시간에 대해 순차적이므로, 음성 특징 추출부(121)에서는 발화 오디오 신호(X)에서 각 영상 프레임에 대응하는 구간에 대해 순차적으로 음성 특징을 추출하게 된다. 이하에서, 시간에 대해 순차적인 음성 특징의 집합을 음성 특징 시퀀스라 지칭할 수 있다. 즉, 음성 특징 추출부(121)는 각 영상 프레임에 대응하는 발화 오디오 신호의 해당 구간 별로 음성 특징을 추출하여 음성 특징 시퀀스를 생성할 수 있다.
예시적인 실시예에서, 발화 오디오 신호 X = {x0, x1, x2, ... xn}(여기서, xn 은 n번째 영상 프레임에 대응하는 발화 오디오 신호)인 경우, 음성 특징 추출부(121)는 발화 오디오 신호(X)로부터 음성 특징 시퀀스 F = {f0, f1, f2, ... fn}(여기서, fn은 n번째 영상 프레임에 대응하는 발화 오디오 신호의 음성 특징)를 생성할 수 있다.
예를 들어, 음성 특징 추출부(121)는 복수 개의 합성곱 층(Convolutional Layer)을 통해 발화 오디오 신호로부터 음성 특징을 추출할 수 있다. 또한, 음성 특징 추출부(121)는 신경망의 일반화(Generalization) 성능을 높이고 오버피팅(Overfitting) 문제를 해결하기 위해 드랍 아웃 레이어(Dropout Layer)를 더 포함할 수 있다.
영상 특징 예측부(123)는 음성 특징 추출부(121)에서 추출한 음성 특징을 입력으로 하여 영상 특징을 예측하도록 학습될 수 있다. 즉, 영상 특징 예측부(123)는 n번째 영상 프레임에 대응하는 발화 오디오 신호로부터 추출한 음성 특징을 입력으로 하여 n번째 영상 프레임의 영상 특징을 예측하도록 학습될 수 있다.
영상 특징 예측부(123)는 음성 특징 추출부(121)에서 음성 특징 시퀀스가 입력되는 경우, 음성 특징 시퀀스(F = {f0, f1, f2, ... fn})로부터 제1 머신 러닝 모델(102)의 영상 특징 추출부(111)가 생성하는 영상 특징 시퀀스(Z = {z0, z1, z2, ... zn})(여기서, zn은 n번째 영상 프레임에서 추출한 영상 특징)를 예측하도록 학습될 수 있다.
예시적인 실시예에서, 영상 특징 예측부(123)는 순환 신경망 계열의 구조를 통해 구현될 수 있다. 예를 들어, 영상 특징 예측부(123)는 음성 특징 시퀀스의 양방향 특징을 모두 고려하는 Bidirectional 구조의 RNN(Recurrent Neural Network)을 통해 구현될 수 있다. 그러나, 이에 한정되는 것은 아니며 LSTM(Long Short Term Memory), GRU(Gated Recurrent Unit) 등과 같은 다양한 신경망 구조를 통해 구현될 수도 있다.
제2 머신 러닝 모델(104)은 영상 특징 예측부(123)에서 출력되는 영상 특징 시퀀스가 제1 머신 러닝 모델(102)의 영상 특징 추출부(111)가 생성하는 영상 특징 시퀀스에 가까워지도록 학습 파라미터를 조절할 수 있다. 제2 머신 러닝 모델(104)의 손실 함수(Lseq)는 다음의 수학식 3을 통해 표현할 수 있다.
(수학식 3)
Figure pat00031
여기서, Z는 제1 머신 러닝 모델(102)의 영상 특징 추출부(111)가 생성하는 영상 특징 시퀀스로서, Z = {Eimg(y0enc), Eimg(y1;θenc), ... Eimg(ynenc)}로서 나타낼 수 있다. Eimg는 영상 특징 추출부(111)를 구성하는 신경망을 나타내고, θenc는 신경망 Eimg의 파라미터를 나타내며, yn은 발화 영상(Y)의 n번째 영상 프레임을 나타낸다.
그리고,
Figure pat00032
는 제2 머신 러닝 모델(104)의 영상 특징 예측부(123)에서 출력하는 영상 특징 시퀀스로서,
Figure pat00033
= P(Eaud(X;φenc); φp)로서 나타낼 수 있다. Eaud는 음성 특징 추출부(121)를 구성하는 신경망을 나타내고, φenc는 신경망 Eaud의 파라미터를 나타내며, P는 영상 특징 예측부(123)를 구성하는 신경망을 나타내고, φp는 신경망 P의 파라미터를 나타내며, X는 발화 오디오 신호로서 X ={x0, x1, x2, ... xn}으로 나타낼 수 있다.
또한, 제2 머신 러닝 모델(104)의 최적화된 파라미터(
Figure pat00034
)는 다음의 수학식 2를 통해 표현할 수 있다.
(수학식 2)
Figure pat00035
여기서,
Figure pat00036
Figure pat00037
(즉, 제2 머신 러닝 모델(104)의 손실 함수)를 최소화 하는
Figure pat00038
,
Figure pat00039
를 찾는 함수를 나타낸다.
개시되는 실시예에 의하면, 제1 머신 러닝 모델(102)을 통해 발화 영상에서 영상 특징을 추출하고, 추출한 영상 특징으로부터 발화 영상을 복원하도록 하며, 제2 머신 러닝 모델(104)을 통해 발화 오디오 신호에서 음성 특징을 추출하고, 추출한 음성 특징으로부터 그에 대응하는 영상 특징을 예측하도록 함으로써, 예측된 영상 특징을 통해 발화 영상을 복원할 때 영상에 포함된 얼굴과 몸의 형태를 잘 유지할 수 있게 된다.
즉, 제2 머신 러닝 모델(104)에서 음성 특징으로부터 영상 특징을 예측할 때, 픽셀 값으로 이루어진 영상 데이터 자체가 아니라 압축된 형태의 분포를 학습하기 때문에, 이렇게 학습된 분포에서 생성된 값(즉, 예측된 영상 특징)을 다시 영상으로 복원하면 영상에 포함된 얼굴과 몸의 형태를 잘 유지할 수 있게 된다.
도 5는 본 발명의 일 실시예에 따른 발화 오디오 신호만으로 발화 영상을 생성하는 상태를 나타낸 도면이다. 여기서는, 제1 머신 러닝 모델(102) 및 제2 머신 러닝 모델(104)이 학습된 상태에서 발화 오디오 신호를 제2 머신 러닝 모델(104)로 입력하여 발화 영상을 생성하는 경우를 살펴보기로 한다.
도 5를 참조하면, 제2 머신 러닝 모델(104)의 음성 특징 추출부(121)는 발화 오디오 신호를 입력 받는다. 음성 특징 추출부(121)는 발화 오디오 신호로부터 음성 특징을 각각 추출하여 음성 특징 시퀀스를 생성할 수 있다. 음성 특징 추출부(121)는 발화 오디오 신호로부터 기 설정된 구간(예를 들어, 영상 프레임 하나에 대응하는 시구간) 별로 음성 특징을 각각 추출하여 음성 특징 시퀀스를 생성할 수 있다.
제2 머신 러닝 모델(104)의 영상 특징 예측부(123)는 음성 특징 추출부(121)에서 출력되는 음성 특징 시퀀스를 입력으로 하여 영상 특징 시퀀스를 예측할 수 있다.
제1 머신 러닝 모델(104)의 영상 복원부(113)는 영상 특징 예측부(123)에서 출력하는 영상 특징 시퀀스를 입력으로 하여 발화 영상을 생성할 수 있다. 영상 복원부(113)는 영상 특징 시퀀스에 포함된 각 영상 특징으로부터 영상 프레임을 각각 생성하고, 생성한 영상 프레임을 시간 순서대로 연결하여 발화 영상을 생성할 수 있다.
개시되는 실시예에 의하면, 발화 음성 신호만을 입력으로 하여(즉, 발화 음성 신호를 단일 입력으로 하여) 특정 인물의 발화 영상을 생성할 수 있다. 이때, 음성과 직접적으로 관련된 발화 부분(예를 들어, 입, 턱, 목 등)뿐만 아니라, 특정 인물이 발화 시 보이는 특정 동작(예를 들어, 말을 강조하고자 할 때 고개를 끄덕이는 행동 등)과 자연스럽게 나오는 눈 깜박임 등을 발화 음성 신호만으로도 생성할 수 있게 된다.
도 6은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.
도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 발화 영상 생성 장치(100)일 수 있다.
컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.
컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.
이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
100 : 발화 영상 생성 장치
102 : 제1 머신 러닝 모델
104 : 제2 머신 러닝 모델
111 : 영상 특징 추출부
113 : 영상 복원부
121 : 음성 특징 추출부
123 : 영상 특징 예측부

Claims (11)

  1. 하나 이상의 프로세서들, 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 발화 영상 생성 장치로서,
    인물의 발화 영상을 입력으로 하여 영상 특징을 추출하고, 추출한 영상 특징으로부터 발화 영상을 복원하도록 하는 제1 머신 러닝 모델; 및
    상기 인물의 발화 오디오 신호를 입력으로 하여 상기 영상 특징을 예측하도록 하는 제2 머신 러닝 모델을 포함하는, 발화 영상 생성 장치.
  2. 청구항 1에 있어서,
    상기 발화 오디오 신호는 상기 발화 영상의 오디오 부분이고,
    상기 제1 머신 러닝 모델로 입력되는 발화 영상과 상기 제2 머신 러닝 모델로 입력되는 발화 오디오 신호는 시간이 동기화 된 것인, 발화 영상 생성 장치.
  3. 청구항 2에 있어서,
    상기 제1 머신 러닝 모델은,
    상기 발화 영상을 입력으로 하여 영상 특징을 추출하는 영상 특징 추출부; 및
    상기 영상 특징 추출부에서 출력되는 영상 특징을 입력으로 하여 발화 영상을 복원하는 영상 복원부를 포함하는, 발화 영상 생성 장치.
  4. 청구항 3에 있어서,
    상기 제1 머신 러닝 모델은,
    상기 영상 복원부에서 출력되는 복원된 발화 영상이 상기 영상 특징 추출부로 입력되는 발화 영상과 가까워지도록 학습되는, 발화 영상 생성 장치.
  5. 청구항 3에 있어서,
    상기 영상 특징 추출부는, 상기 발화 영상을 영상 프레임 단위로 입력 받고, 각 영상 프레임 별로 영상 특징을 추출하여 영상 특징 시퀀스를 출력하고,
    상기 영상 복원부는, 각 영상 프레임 별 영상 특징을 입력으로 하여 각 영상 프레임 별로 복원된 발화 영상을 출력하는, 발화 영상 생성 장치.
  6. 청구항 5에 있어서,
    상기 제2 머신 러닝 모델은,
    상기 발화 오디오 신호를 입력으로 하여 음성 특징을 추출하는 음성 특징 추출부; 및
    상기 음성 특징 추출부에서 출력되는 음성 특징을 입력으로 하여 상기 영상 특징 추출부에서 출력되는 영상 특징을 예측하는 영상 특징 예측부를 포함하는, 발화 영상 생성 장치.
  7. 청구항 6에 있어서,
    상기 음성 특징 추출부는, 상기 발화 오디오 신호에서 상기 각 영상 프레임에 대응하는 구간에 대해 음성 특징을 각각 추출하여 음성 특징 시퀀스를 출력하고,
    상기 영상 특징 예측부는, 상기 음성 특징 시퀀스를 입력으로 하여 상기 영상 특징 시퀀스를 예측하는, 발화 영상 생성 장치.
  8. 청구항 7에 있어서,
    상기 영상 특징 예측부는,
    상기 발화 영상 중 n번째 영상 프레임에 대응하는 발화 오디오 신호의 구간으로부터 추출한 음성 특징을 기반으로 상기 n번째 영상 프레임의 영상 특징을 예측하는, 발화 영상 생성 장치.
  9. 청구항 7에 있어서,
    상기 제2 머신 러닝 학습 모델의 손실 함수(Lseq)는 하기의 수학식을 통해 표현되는, 발화 영상 생성 장치.
    (수학식)
    Figure pat00040

    Z : 제1 머신 러닝 모델의 영상 특징 추출부가 생성하는 영상 특징 시퀀스로서, Z = {Eimg(y0enc), Eimg(y1;θenc), ... Eimg(ynenc)}
    Eimg : 영상 특징 추출부를 구성하는 신경망
    θenc : 신경망 Eimg의 파라미터
    yn : 발화 영상(Y)의 n번째 영상 프레임
    Figure pat00041
    : 제2 머신 러닝 모델의 영상 특징 예측부에서 출력하는 영상 특징 시퀀스로서,
    Figure pat00042
    = P(Eaud(X;φenc); φp)
    Eaud: 음성 특징 추출부를 구성하는 신경망
    φenc: 신경망 Eaud의 파라미터
    P : 영상 특징 예측부를 구성하는 신경망
    φp: 신경망 P의 파라미터
    X : 발화 오디오 신호로서, X ={x0, x1, x2, ... xn}
    xn : n번째 영상 프레임에 대응하는 발화 오디오 신호
    Figure pat00043
    :
    Figure pat00044
    Figure pat00045
    의 차이를 구하는 함수
  10. 청구항 9에 있어서,
    상기 제2 머신 러닝 모델의 최적화된 파라미터(
    Figure pat00046
    )는 하기의 수학식을 통해 산출하는, 발화 영상 생성 장치.
    (수학식)
    Figure pat00047

    Figure pat00048
    :
    Figure pat00049
    (제2 머신 러닝 모델의 손실 함수)를 최소화 하는
    Figure pat00050
    ,
    Figure pat00051
    를 찾는 함수
  11. 하나 이상의 프로세서들, 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서,
    제1 머신 러닝 모델에서, 인물의 발화 영상을 입력으로 하여 영상 특징을 추출하고, 추출한 영상 특징으로부터 발화 영상을 복원하도록 하는 동작; 및
    제2 머신 러닝 모델에서, 상기 인물의 발화 오디오 신호를 입력으로 하여 상기 영상 특징을 예측하도록 하는 동작을 포함하는, 발화 영상 생성 방법.
KR1020200093374A 2020-07-27 2020-07-27 발화 영상 생성 방법 및 장치 KR20220013850A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020200093374A KR20220013850A (ko) 2020-07-27 2020-07-27 발화 영상 생성 방법 및 장치
US17/762,876 US20220343651A1 (en) 2020-07-27 2020-12-08 Method and device for generating speech image
PCT/KR2020/017848 WO2022025359A1 (ko) 2020-07-27 2020-12-08 발화 영상 생성 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200093374A KR20220013850A (ko) 2020-07-27 2020-07-27 발화 영상 생성 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20220013850A true KR20220013850A (ko) 2022-02-04

Family

ID=80035592

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200093374A KR20220013850A (ko) 2020-07-27 2020-07-27 발화 영상 생성 방법 및 장치

Country Status (3)

Country Link
US (1) US20220343651A1 (ko)
KR (1) KR20220013850A (ko)
WO (1) WO2022025359A1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101177408B1 (ko) 2010-09-16 2012-08-27 광운대학교 산학협력단 시청자의 시점에 따라 홀로그래픽 영상을 복원하는 다시점 기반 대화형 홀로그래픽 복원 장치 및 시스템

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1671277A1 (en) * 2003-09-30 2006-06-21 Koninklijke Philips Electronics N.V. System and method for audio-visual content synthesis
KR101378811B1 (ko) * 2012-09-18 2014-03-28 김상철 단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법
JP6526607B2 (ja) * 2016-08-19 2019-06-05 ヤフー株式会社 学習装置、学習方法、および学習プログラム
KR20190046371A (ko) * 2017-10-26 2019-05-07 에스케이텔레콤 주식회사 얼굴 표정 생성 장치 및 방법
JP2019200671A (ja) * 2018-05-17 2019-11-21 大日本印刷株式会社 学習装置、学習方法、プログラム、データ生成方法及び識別装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101177408B1 (ko) 2010-09-16 2012-08-27 광운대학교 산학협력단 시청자의 시점에 따라 홀로그래픽 영상을 복원하는 다시점 기반 대화형 홀로그래픽 복원 장치 및 시스템

Also Published As

Publication number Publication date
US20220343651A1 (en) 2022-10-27
WO2022025359A1 (ko) 2022-02-03

Similar Documents

Publication Publication Date Title
KR102360839B1 (ko) 머신 러닝 기반의 발화 동영상 생성 방법 및 장치
US20220358703A1 (en) Method and device for generating speech video on basis of machine learning
KR102346755B1 (ko) 음성 신호를 이용한 발화 동영상 생성 방법 및 장치
KR102437039B1 (ko) 영상 생성을 위한 학습 장치 및 방법
KR102346756B1 (ko) 발화 동영상 생성 방법 및 장치
WO2022106654A2 (en) Methods and systems for video translation
US20220375190A1 (en) Device and method for generating speech video
US20220399025A1 (en) Method and device for generating speech video using audio signal
US11972516B2 (en) Method and device for generating speech video by using text
KR20220111388A (ko) 영상 품질을 향상시킬 수 있는 영상 합성 장치 및 방법
KR20230025824A (ko) 랜드마크를 함께 생성하는 발화 동영상 생성 장치 및 방법
KR102360840B1 (ko) 텍스트를 이용한 발화 동영상 생성 방법 및 장치
KR102612625B1 (ko) 신경망 기반의 특징점 학습 장치 및 방법
KR20220111390A (ko) 영상 품질을 향상시킬 수 있는 영상 합성 장치 및 방법
JP2023169230A (ja) コンピュータプログラム、サーバ装置、端末装置、学習済みモデル、プログラム生成方法、及び方法
KR20220013850A (ko) 발화 영상 생성 방법 및 장치
KR20230130580A (ko) 실시간 대화형 디지털 에이전트들의 자율적인 생성, 전개, 및 개인화
US20230178095A1 (en) Apparatus and method for generating lip sync image
US11887600B2 (en) Techniques for interpreting spoken input using non-verbal cues
KR20220118009A (ko) 전자 장치 및 이의 제어 방법
KR20210011844A (ko) 전자 장치 및 그 제어 방법
KR20220148470A (ko) 기계 학습을 이용한 데이터 생성 방법 및 이를 수행하기 위한 컴퓨팅 장치
Agarwal et al. Realistic Lip Animation from Speech for Unseen Subjects using Few-shot Cross-modal Learning
KR102584484B1 (ko) 발화 합성 영상 생성 장치 및 방법
KR102540756B1 (ko) 발화 합성 영상 생성 장치 및 방법

Legal Events

Date Code Title Description
E90F Notification of reason for final refusal
E601 Decision to refuse application