KR20220101403A - 립싱크 영상 생성 장치 및 방법 - Google Patents
립싱크 영상 생성 장치 및 방법 Download PDFInfo
- Publication number
- KR20220101403A KR20220101403A KR1020210003375A KR20210003375A KR20220101403A KR 20220101403 A KR20220101403 A KR 20220101403A KR 1020210003375 A KR1020210003375 A KR 1020210003375A KR 20210003375 A KR20210003375 A KR 20210003375A KR 20220101403 A KR20220101403 A KR 20220101403A
- Authority
- KR
- South Korea
- Prior art keywords
- image
- speech
- neural network
- network model
- artificial neural
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims abstract description 101
- 230000005236 sound signal Effects 0.000 claims abstract description 60
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 17
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 23
- 239000000284 extract Substances 0.000 claims description 8
- 239000002131 composite material Substances 0.000 claims description 7
- 230000001902 propagating effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000000994 depressogenic effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G06N3/0454—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
립싱크 영상 생성 방법 및 장치가 개시된다. 개시되는 일 실시예에 따른 립싱크 영상 생성 장치는, 하나 이상의 프로세서들, 및 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 립싱크 영상 생성 장치로서, 인물 배경 영상 및 인물 배경 영상과 대응하는 발화 일치 오디오 신호를 입력으로 하여 발화 일치 합성 영상을 생성하고, 인물 배경 영상 및 인물 배경 영상과 대응하지 않는 발화 불일치 오디오 신호를 입력으로 하여 발화 불일치 합성 영상을 생성하는 제1 인공 신경망 모델 및 영상과 음성이 일치하는 입력 쌍 및 영상과 음성이 불일치 하는 입력 쌍을 입력으로 하여 그에 대한 분류 값을 출력하는 제2 인공 신경망 모델을 포함한다.
Description
본 발명의 실시예는 립싱크 영상 생성 기술과 관련된다.
최근, 인공 지능 분야의 기술 발전에 따라 다양한 유형의 콘텐츠가 인공 지능 기술에 기초하여 생성되고 있다. 그 일 예로, 어떤 전달하고자 하는 음 성 메시지가 있을 때, 그 음성 메시지를 유명 인물(예를 들어, 대통령 등)이 말하 는 것과 같은 발화 동영상(립싱크 동영상)을 생성하여 사람들의 주의를 끌고자 하는 경우가 있다. 이는 유명 인물의 영상에서 유명 인물이 특정 메시지를 말하는 것처럼 입 모양 등을 특정 메시지에 맞게 생성하여 구현하게 된다.
립싱크 영상 생성을 위한 학습 모델은 원본 영상이 있을 때 임의의 음성이 입력되면 입력된 음성과 입 모양이 일치하도록 립싱크 영상을 생성하는 모델로, 인물 배경 영상과 음성을 입력으로 하여 그에 대응하는 타겟 영상을 학습하게 된다. 이때, 인물 배경 영상과 불일치 하는 음성에 대응하는 타겟 영상은 실제 존재하지 않으므로, 립싱크 영상 생성 모델은 인물 배경 영상과 일치하는 음성만을 사용하여 학습해야 하는 제약이 있으며, 그로 인해 생성되는 립싱크 영상이 부자연스럽게 되는 문제점이 있다.
본 발명의 실시예는 자연스러운 립싱크 영상 합성이 가능한 립싱크 영상 생성 장치 및 방법을 제공하기 위한 것이다.
개시되는 일 실시예에 따른 립싱크 영상 생성 장치는, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 립싱크 영상 생성 장치로서, 인물 배경 영상 및 상기 인물 배경 영상과 대응하는 발화 일치 오디오 신호를 입력으로 하여 발화 일치 합성 영상을 생성하고, 인물 배경 영상 및 상기 인물 배경 영상과 대응하지 않는 발화 불일치 오디오 신호를 입력으로 하여 발화 불일치 합성 영상을 생성하는 제1 인공 신경망 모델; 및 영상과 음성이 일치하는 입력 쌍 및 영상과 음성이 불일치 하는 입력 쌍을 입력으로 하여 그에 대한 분류 값을 출력하는 제2 인공 신경망 모델을 포함한다.
상기 인물 배경 영상은, 영상 속 인물의 발화와 관련된 부분이 마스크로 가려진 영상일 수 있다.
상기 제2 인공 신경망 모델은, 상기 영상과 음성이 일치하는 입력 쌍은 참(True)으로 분류하고, 상기 영상과 음성이 불일치 하는 입력 쌍은 거짓(False)으로 분류하도록 학습될 수 있다.
상기 제2 인공 신경망 모델은, 상기 제1 인공 신경망 모델이 생성한 발화 불일치 합성 영상 및 상기 발화 불일치 합성 영상의 생성 시 입력으로 사용된 발화 불일치 오디오 신호를 입력 받고 이를 참(True)으로 분류하도록 하며, 적대적 학습(Adversarial Learning) 방법을 통해 적대적 생성 에러를 상기 제1 인공 신경망 모델로 전파할 수 있다.
상기 제1 인공 신경망 모델은, 인물 배경 영상을 입력으로 하고, 상기 입력되는 인물 배경 영상으로부터 영상 특징 벡터를 추출하는 제1 인코더; 상기 인물 배경 영상과 대응하는 발화 일치 오디오 신호를 입력으로 하고, 상기 입력되는 발화 일치 오디오 신호로부터 음성 특징 벡터를 추출하는 제2 인코더; 상기 영상 특징 벡터와 상기 음성 특징 벡터를 조합하여 조합 벡터를 생성하는 조합부; 및 상기 조합 벡터를 입력으로 하고, 상기 조합 벡터를 기반으로 상기 발화 일치 합성 영상을 생성하는 디코더를 포함할 수 있다.
상기 제1 인공 신경망 모델의 상기 발화 일치 합성 영상의 생성을 위한 목적 함수(Lreconstruction)는 다음의 수학식을 통해 표현될 수 있다.
(수학식)
상기 제2 인공 신경망 모델의 목적 함수(Ldiscriminator)는 다음의 수학식을 통해 표현될 수 있다.
(수학식)
D : 제2 인공 신경망 모델의 신경망
(Ii, Ai) : 영상과 음성이 일치하는 입력 쌍(i번째 영상과 i번째 음성)
(Ii, Aj) : 영상과 음성이 불일치 하는 입력 쌍(i번째 영상과 j번째 음성)
상기 제1 인공 신경망 모델의 상기 발화 불일치 합성 영상의 생성을 위한 적대적 목적 함수(Ladversarial)는 다음의 수학식을 통해 표현될 수 있다.
(수학식)
G : 제1 인공 신경망 모델을 구성하는 신경망
Aj : 인물 배경 영상과 대응되지 않는 발화 불일치 오디오 신호
상기 제1 인공 신경망 모델의 상기 발화 일치 합성 영상 및 상기 발화 불일치 합성 영상을 생성하기 위한 최종 목적 함수(LT)는 다음의 수학식을 통해 표현될 수 있다.
(수학식)
λ : 가중치
개시되는 일 실시예에 따른 립싱크 영상 생성 방법은, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 제1 인공 신경망 모델에서, 인물 배경 영상 및 상기 인물 배경 영상과 대응하는 발화 일치 오디오 신호를 입력으로 하여 발화 일치 합성 영상을 생성하고, 인물 배경 영상 및 상기 인물 배경 영상과 대응하지 않는 발화 불일치 오디오 신호를 입력으로 하여 발화 불일치 합성 영상을 생성하는 동작; 및 제2 인공 신경망 모델에서, 영상과 음성이 일치하는 입력 쌍 및 영상과 음성이 불일치 하는 입력 쌍을 입력으로 하여 그에 대한 분류 값을 출력하는 동작을 포함한다.
개시되는 실시예에 의하면, 제1 인공 신경망 모델이 생성한 발화 불일치 합성 영상 및 발화 불일치 오디오 신호가 입력되는 경우, 제2 인공 신경망 모델을 통해 발화 불일치 합성 영상과 발화 불일치 오디오 신호 간의 일치 정도를 판별하고 그 일치 정도에 대한 적대적 생성 에러를 제1 인공 신경망 모델로 전파하며, 제1 인공 신경망 모델이 발화 불일치 합성 영상과 그에 대응하는 발화 불일치 오디오 신호에 대해 제2 인공 신경망 모델이 참으로 분류하도록 적대적 학습 방법을 통해 학습함으로써, 제1 인공 신경망 모델에서 인물 배경 영상 및 인물 배경 영상과 일치하지 않는 발화 오디오 신호가 입력되더라도 보다 자연스러운 발화 합성 영상을 생성할 수 있게 된다.
도 1은 본 발명의 일 실시예에 따른 립싱크 영상 생성 장치의 구성을 나타낸 도면
도 2는 본 발명의 일 실시예에서 제1 인공 신경망 모델이 발화 일치 합성 영상을 생성하는 상태를 개략적으로 나타낸 도면
도 3은 본 발명의 일 실시예에 따른 립싱크 영상 생성 장치에서 입력되는 영상과 음성이 불일치 하는 경우 학습하는 상태를 나타낸 도면
도 4는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도
도 2는 본 발명의 일 실시예에서 제1 인공 신경망 모델이 발화 일치 합성 영상을 생성하는 상태를 개략적으로 나타낸 도면
도 3은 본 발명의 일 실시예에 따른 립싱크 영상 생성 장치에서 입력되는 영상과 음성이 불일치 하는 경우 학습하는 상태를 나타낸 도면
도 4는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.
이하의 설명에 있어서, 신호 또는 정보의 "전송", "통신", "송신", "수신" 기타 이와 유사한 의미의 용어는 일 구성요소에서 다른 구성요소로 신호 또는 정보가 직접 전달되는 것뿐만이 아니라 다른 구성요소를 거쳐 전달되는 것도 포함한다. 특히 신호 또는 정보를 일 구성요소로 "전송" 또는 "송신"한다는 것은 그 신호 또는 정보의 최종 목적지를 지시하는 것이고 직접적인 목적지를 의미하는 것이 아니다. 이는 신호 또는 정보의 "수신"에 있어서도 동일하다. 또한 본 명세서에 있어서, 2 이상의 데이터 또는 정보가 "관련"된다는 것은 하나의 데이터(또는 정보)를 획득하면, 그에 기초하여 다른 데이터(또는 정보)의 적어도 일부를 획득할 수 있음을 의미한다.
또한, 제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
도 1은 본 발명의 일 실시예에 따른 립싱크 영상 생성 장치의 구성을 나타낸 도면이다.
도 1을 참조하면, 립싱크 영상 생성 장치(100)는 제1 인공 신경망 모델(102) 및 제2 인공 신경망 모델(104)을 포함할 수 있다.
제1 인공 신경망 모델(102)은 인물 배경 영상 및 발화 일치 오디오 신호를 입력으로 하여 발화 일치 합성 영상을 생성하도록 학습되는 모델일 수 있다. 여기서, 인물 배경 영상은 인물이 발화 하는(말을 하는) 영상으로, 영상에서 인물의 발화와 관련된 부분이 마스킹(Masking) 처리된 영상일 수 있다. 그리고, 발화 일치 오디오 신호는 인물 배경 영상(즉, 인물이 발화하는 영상) 중 오디오 부분일 수 있다. 즉, 발화 일치 오디오 신호는 인물 배경 영상에서 해당 인물의 발화하는 모습과 일치하는(매칭되는) 음성 신호일 수 있다.
여기서, 제1 인공 신경망 모델(102)은 입력되는 발화 일치 오디오 신호를 통해 인물 배경 영상에서는 마스크로 가려진 발화 관련 부분을 복원하여 발화 일치 합성 영상을 생성하도록 학습될 수 있다.
이때, 제1 인공 신경망 모델(102)은 인물 배경 영상과 일치하는 발화 일치 오디오 신호를 이용하여 발화 일치 합성 영상을 생성하도록 학습되기 때문에, 학습 이후의 추론 과정에서 인물 배경 영상 및 인물 배경 영상과 일치하지 않는 발화 오디오 신호(즉, 발화 불일치 오디오 신호)를 입력하였을 때 보다 자연스러운 발화 합성 영상을 생성하기 위해서는, 인물 배경 영상과 발화 오디오 신호 간에 제어 영역을 분리하여 학습하도록 유도할 필요가 있다. 즉, 제1 인공 신경망 모델(102)에서 발화 관련 부분은 발화 오디오 신호를 통해서 제어되도록 하고, 인물 배경 영상에 의해 제어되는 것을 방지하는 것이 필요하다.
이에 개시되는 실시예에서는, 제1 인공 신경망 모델(102)이 인물 배경 영상 및 발화 불일치 오디오 신호(인물 배경 영상과 불일치 하는 발화 오디오 신호)를 입력으로 하여 발화 불일치 합성 영상을 생성하도록 할 수 있다. 예를 들어, 인물 배경 영상은 영상 속 인물이 "오늘 날씨는 맑겠습니다"라는 발화를 하는 모습의 영상이라고 하면, 발화 불일치 오디오 신호는 "어제 기분이 우울했어요"라는 인물 배경 영상과는 매칭되지 않는 음성 신호일 수 있다.
그리고, 제2 인공 신경망 모델(104)은 인물 영상 및 인물 영상과 일치하는 발화 오디오 신호(즉, 영상과 음성이 일치하는 입력 쌍)가 입력되면 이를 참(True)으로 분류하고, 인물 영상 및 인물 영상과 불일치 하는 발화 오디오 신호(즉, 영상과 음성이 불일치 하는 입력 쌍)가 입력되면 이를 거짓(False)으로 분류하도록 학습될 수 있다.
또한, 제2 인공 신경망 모델(104)은 제1 인공 신경망 모델(102)이 생성한 발화 불일치 합성 영상 및 발화 불일치 오디오 신호(발화 불일치 합성 영상을 생성할 때 입력으로 사용된 발화 불일치 오디오 신호)가 입력되는 경우, 발화 불일치 합성 영상과 발화 불일치 오디오 신호 간의 일치 정도를 판별하고 그 일치 정도에 대한 적대적 생성 에러를 제1 인공 신경망 모델(102)로 전파할 수 있다. 그리고, 제1 인공 신경망 모델(102)은 발화 불일치 합성 영상과 그에 대응하는 발화 불일치 오디오 신호에 대하여 제2 인공 신경망 모델(104)이 참(True)으로 분류하도록 적대적 학습(Adversarial Learning) 방법을 통해 학습될 수 있다.
이와 같이, 제1 인공 신경망 모델(102)이 발화 불일치 합성 영상 및 발화 불일치 오디오 신호에 대해 제2 인공 신경망 모델(104)이 그 입력 쌍을 참(True)으로 분류하도록 적대적 학습(Adversarial Learning) 방법을 통해 학습됨으로써, 제1 인공 신경망 모델(102)에서 인물 배경 영상 및 인물 배경 영상과 일치하지 않는 발화 오디오 신호가 입력되더라도 보다 자연스러운 발화 합성 영상을 생성할 수 있게 된다.
도 2는 본 발명의 일 실시예에서 제1 인공 신경망 모델(102)이 발화 일치 합성 영상을 생성하는 상태를 개략적으로 나타낸 도면이다.
도 2를 참조하면, 제1 인공 신경망 모델(102)은 제1 인코더(111), 제2 인코더(113), 조합부(115), 및 디코더(117)를 포함할 수 있다.
예시적인 실시예에서, 제1 인공 신경망 모델(102)은 합성곱 신경망 (Convolutional Neural Network : CNN) 기반의 머신 러닝 기술로 구현될 수 있으나, 머신 러닝 기술이 이에 한정되는 것은 아니며 그 이외의 다양한 머신 러닝 기술이 적용될 수 있다.
제1 인코더(111)는 인물 배경 영상을 입력으로 하여 영상 특징 벡터를 추출하도록 학습될 수 있다. 이하, "벡터"는 "텐서"를 포함 하는 의미로 사용될 수 있다.
여기서, 제1 인코더(111)로 입력되는 인물 배경 영상은 인물이 발화 하는(말을 하는) 영상이다. 인물 배경 영상은 인물의 얼굴과 상반신이 포함된 영상 일 수 있다. 즉, 인물 배경 영상은 해당 인물이 발화 할 때 나타나는 얼굴, 목, 및 어깨 등의 움직임이 보여지도록 얼굴뿐만 아니라 상반신이 포함된 영상일 수 있으나, 이에 한정되는 것은 아니며 인물의 얼굴을 포함하는 영상일 수도 있다.
제1 인코더(111)로 입력되는 인물 배경 영상에서 발화와 관련된 부분은 마스킹(Masking) 처리될 수 있다. 즉, 인물 배경 영상에서 발화와 관련된 부 분(예를 들어, 입 및 입 주위 부분 등)은 마스크(M)로 가려질 수 있다. 또한, 마스킹 처리 시 인물 배경 영상에서 인물의 발화에 따른 얼굴 움직임, 목 움직임, 및 어깨 움직임 등과 관련된 부분은 마스킹 처리되지 않도록 할 수 있다. 그러면, 제1 인코더(111)에서는 인물 배경 영상에서 발화와 관련된 부분을 제외한 부분의 영상 특징 벡터를 추출하게 된다.
예시적인 실시예에서, 제1 인코더(111)는 하나 이상의 합성곱 층(Convolutional Layer) 및 하나 이상의 풀링 층(Pooling Layer)를 포함할 수 있다. 합성곱 층은 입력되는 인물 배경 영상에서 기 설정된 크기(예를 들어, 3Х3 픽셀 크기)의 필터를 일정 간격으로 이동시키면서 해당 필터에 대응되는 픽셀들의 특징 값을 추출할 수 있다. 풀링 층은 합성곱 층의 출력을 입력으로 받아 다운 샘플링(Down Sampling)을 수행할 수 있다.
제2 인코더(113)는 발화 일치 오디오 신호를 입력으로 할 수 있다. 제2 인코더(113)는 발화 일치 오디오 신호를 입력으로 하여 음성 특징 벡터를 추출하도록 학습될 수 있다.
여기서, 발화 일치 오디오 신호는 제1 인코더(111)로 입력되는 인물 배경 영상(즉, 인물이 발화하는 영상) 중 오디오 부분에 해당한다. 다시 말하면, 인물이 발화하는 동영상에서 비디오 부분은 제1 인코더(111)로 입력되고, 오디오 부분은 제2 인코더(113)로 입력될 수 있다. 제2 인코더(113)는 하나 이상의 합성곱 층(Convolutional Layer) 및 하나 이상의 풀링 층 (Pooling Layer)를 포함할 수 있으나, 제2 인코더(113)의 신경망 구조가 이에 한정 되는 것은 아니다.
제1 인코더(111)로 입력되는 인물 배경 영상과 제2 인코더(113)로 입력되는 발화 일치 오디오 신호의 시간은 서로 동기화 될 수 있다. 즉, 인물이 발화하는 동영상에서 동일한 시간 대의 구간 중 비디오는 제1 인코더(111)로 입력되고, 오디오는 제2 인코더(113)로 입력될 수 있다. 예를 들어, 인물 배경 영상이 특정 시점으로부터 t 시간의 영상인 경우, 발화 일치 오디오 신호는 동일한 시점으로부터 t 시간의 음성일 수 있다. 이때, 인물 배경 영상 및 발화 일치 오디오 신호는 기 설정된 단위 시간(예를 들어, 하나의 프레임 또는 복수 개의 연속된 프레임 등)마다 제1 인코더(111) 및 제2 인코더(113)로 입력될 수 있다.
조합부(115)는 제1 인코더(111)에서 출력되는 영상 특징 벡터 및 제2 인코더(113)에서 출력되는 음성 특징 벡터를 조합하여 조합 벡터를 생성할 수 있다. 예시적인 실시예에서, 조합부(115)는 영상 특징 벡터와 음성 특징 벡터를 연결(Concatenate)하여 조합 벡터를 생성할 수 있으나, 이에 한정되는 것은 아니다.
디코더(117)는 조합부(115)에서 출력되는 조합 벡터를 입력으로 하여 발화 일치 합성 영상을 생성할 수 있다. 구체적으로, 디코더(117)는 제2 인코더(113)에서 출력되는 음성 특징 벡터(즉, 인물이 발화하는 동영상에서 오디오 부분의 특징)를 기반으로 제1 인코더(111)에서 출력되는 영상 특징 벡터(즉, 인물이 발화하는 동영상에서 비디오 부분으로, 발화 관련된 부분이 마스크로 가려진 부분의 특징)의 마스크(M)로 가려진 부분(즉, 발화와 관련된 부분)을 복원하도록 학습될 수 있다.
즉, 디코더(117)는 인물 배경 영상에서 발화와 관련된 부분이 마스킹 된 경우, 발화 일치 오디오 신호를 이용하여 마스킹 된 영역을 복원하도록 학습되는 모델일 수 있다. 디코더(117)는 생성된 발화 일치 합성 영상과 원래의 발화 영상(즉, 정답 값)을 비교하여 생성된 발화 일치 합성 영상이 원래의 발화 영상에 가까워지도록(즉, 원래 발화 영상과의 차이가 최소화되도록) 학습 파라미터(예를 들어, 손실 함수, 소프트맥스 함수 등)를 조절할 수 있다.
한편, 제1 인공 신경망 모델(102)이 인물 배경 영상 및 발화 일치 오디오 신호를 입력으로 하여 발화 일치 합성 영상을 생성하는 것에 대한 목적 함수(Lreconstruction)는 다음의 수학식 1을 통해 나타낼 수 있다.
(수학식 1)
도 3은 본 발명의 일 실시예에 따른 립싱크 영상 생성 장치에서 입력되는 영상과 음성이 불일치 하는 경우 학습하는 상태를 나타낸 도면이다.
도 3을 참조하면, 제1 인공 신경망 모델(102)은 인물 배경 영상 및 인물 배경 영상과 일치하지 않는 발화 오디오 신호(즉, 발화 불일치 오디오 신호)를 입력으로 하여 발화 불일치 합성 영상을 생성할 수 있다.
구체적으로, 제1 인코더(111)는 인물 배경 영상을 입력으로 하여 영상 특징 벡터를 추출할 수 있다. 제2 인코더(113)는 발화 불일치 오디오 신호를 입력으로 하여 음성 특징 벡터를 추출할 수 있다. 조합부(115)는 영상 특징 벡터와 음성 특징 벡터를 조합하여 조합 벡터를 생성할 수 있다. 디코더(117)는 조합 벡터를 입력으로 하여 발화 불일치 합성 영상을 생성할 수 있다. 발화 불일치 합성 영상은 제2 인공 신경망 모델(104)로 입력될 수 있다.
제2 인공 신경망 모델(104)은 영상과 음성이 일치하는 입력 쌍 또는 영상과 음성이 불일치 하는 입력 쌍을 입력 받고, 이를 참(True) 또는 거짓(False)으로 분류하여 분류 값을 출력할 수 있다. 즉, 제2 인공 신경망 모델(104)은 영상과 음성이 일치하는 입력 쌍이 입력되면 이를 참(True)으로 분류하는 분류 값을 출력하고, 영상과 음성이 불일치 하는 입력 쌍이 입력되면 이를 거짓(False)으로 분류하는 분류 값을 출력하도록 학습될 수 있다.
예를 들어, 제2 인공 신경망 모델(104)은 제1 인공 신경망 모델(102)로 입력되는 인물 배경 영상 및 발화 일치 오디오 신호를 영상과 음성이 일치하는 입력 쌍으로 사용하여 학습할 수 있으나, 이에 한정되는 것은 아니며 제1 인공 신경망 모델(102)이 생성한 발화 일치 합성 영상 및 발화 일치 오디오 신호를 영상과 음성이 일치하는 입력 쌍으로 사용하여 학습할 수도 있다.
예시적인 실시예에서, 제2 인공 신경망 모델(104)은 제3 인코더(121) 및 분류기(123)를 포함할 수 있다. 제3 인코더(121)는 입력되는 영상 및 음성 쌍으로부터 영상 및 음성 특징 벡터를 추출할 수 있다. 분류기(123)는 제3 인코더(121)에서 출력되는 영상 및 음성 특징 벡터에 기반하여 참 또는 거짓으로 분류하는 분류 값을 출력할 수 있다.
그러나, 이에 한정되는 것은 아니며 제3 인코더(121)는 영상 및 음성을 각각 입력 받고, 입력된 영상으로부터 영상 특징 벡터를 추출하고 입력된 음성으로부터 음성 특징 벡터를 추출하며, 영상 특징 벡터와 음성 특징 벡터를 조합한 조합 벡터를 분류기(123)로 출력할 수 있다. 그리고, 분류기(123)는 조합 벡터에 기반하여 참 또는 거짓으로 분류하는 분류 값을 출력할 수도 있다.
또한, 제2 인공 신경망 모델(104)은 제1 인공 신경망 모델(102)이 생성한 발화 불일치 합성 영상 및 발화 불일치 오디오 신호(발화 불일치 합성 영상을 생성할 때 입력으로 사용된 발화 불일치 오디오 신호)가 입력되는 경우, 발화 불일치 합성 영상과 발화 불일치 오디오 신호 간의 일치 정도를 판별하고 그 일치 정도에 대한 적대적 생성 에러를 제1 인공 신경망 모델(102)로 전파할 수 있다.
여기서, 제1 인공 신경망 모델(102) 및 제2 인공 신경망 모델(104)은 적대적 생성 신경망(Generative Adversarial Network)을 이룰 수 있다. 제1 인공 신경망 모델(102)은 적대적 생성 신경망 중 생성자(Generator)에 해당하고, 제2 인공 신경망 모델(104)은 적대적 생성 신경망 중 판별자(Discriminator)에 해당할 수 있다. 즉, 제1 인공 신경망 모델(102)은 발화 일치 합성 영상을 생성하는 별도의 신경망 모델이면서, 발화 불일치 합성 영상을 생성하는 적대적 생성 신경망의 일부 신경망(즉, 생성자)을 구성할 수 있다.
이때, 제2 인공 신경망 모델(104)의 목적 함수(Ldiscriminator)는 다음의 수학식 2를 통해 나타낼 수 있다.
(수학식 2)
D : 제2 인공 신경망 모델의 신경망
(Ii, Ai) : 영상과 음성이 일치하는 입력 쌍(i번째 영상과 i번째 음성)
(Ii, Aj) : 영상과 음성이 불일치 하는 입력 쌍(i번째 영상과 j번째 음성)
그리고, 발화 불일치 합성 영상을 생성하는 제1 인공 신경망 모델(102)의 적대적 목적 함수(Ladversarial)는 다음의 수학식 3을 통해 나타낼 수 있다.
(수학식 3)
G : 제1 인공 신경망 모델을 구성하는 신경망
Aj : 인물 배경 영상과 대응되지 않는 발화 불일치 오디오 신호
적대적 목적 함수(Ladversarial)는 제2 인공 신경망 모델(104)에서 제1 인공 신경망 모델(102)이 생성한 발화 불일치 합성 영상 및 발화 불일치 오디오 신호의 입력 쌍을 참(True)으로 분류하도록 제1 인공 신경망 모델(102)을 유도하는 목적 함수 일 수 있다.
그리고, 발화 일치 합성 영상 및 발화 불일치 합성 영상을 생성하는 제1 인공 신경망 모델(102)의 최종 목적 함수(LT)는 다음의 수학식 4를 통해 나타낼 수 있다.
(수학식 4)
λ : 가중치
(수학식 5)
도 4는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.
도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 립싱크 영상 생성 장치(100)일 수 있다.
컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.
컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.
이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
100 : 립싱크 영상 생성 장치
102 : 제1 인공 신경망 모델
104 : 제2 인공 신경망 모델
111 : 제1 인코더
113 : 제2 인코더
115 : 조합부
117 : 디코더
121 : 제3 인코더
123 : 분류기
102 : 제1 인공 신경망 모델
104 : 제2 인공 신경망 모델
111 : 제1 인코더
113 : 제2 인코더
115 : 조합부
117 : 디코더
121 : 제3 인코더
123 : 분류기
Claims (10)
- 하나 이상의 프로세서들, 및
상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 립싱크 영상 생성 장치로서,
인물 배경 영상 및 상기 인물 배경 영상과 대응하는 발화 일치 오디오 신호를 입력으로 하여 발화 일치 합성 영상을 생성하고, 인물 배경 영상 및 상기 인물 배경 영상과 대응하지 않는 발화 불일치 오디오 신호를 입력으로 하여 발화 불일치 합성 영상을 생성하는 제1 인공 신경망 모델; 및
영상과 음성이 일치하는 입력 쌍 및 영상과 음성이 불일치 하는 입력 쌍을 입력으로 하여 그에 대한 분류 값을 출력하는 제2 인공 신경망 모델을 포함하는, 립싱크 영상 생성 장치.
- 청구항 1에 있어서,
상기 인물 배경 영상은,
영상 속 인물의 발화와 관련된 부분이 마스크로 가려진 영상인, 립싱크 영상 생성 장치.
- 청구항 1에 있어서,
상기 제2 인공 신경망 모델은,
상기 영상과 음성이 일치하는 입력 쌍은 참(True)으로 분류하고, 상기 영상과 음성이 불일치 하는 입력 쌍은 거짓(False)으로 분류하도록 학습되는, 립싱크 영상 생성 장치.
- 청구항 3에 있어서,
상기 제2 인공 신경망 모델은,
상기 제1 인공 신경망 모델이 생성한 발화 불일치 합성 영상 및 상기 발화 불일치 합성 영상의 생성 시 입력으로 사용된 발화 불일치 오디오 신호를 입력 받고 이를 참(True)으로 분류하도록 하며, 적대적 학습(Adversarial Learning) 방법을 통해 적대적 생성 에러를 상기 제1 인공 신경망 모델로 전파하는, 립싱크 영상 생성 장치.
- 청구항 1에 있어서,
상기 제1 인공 신경망 모델은,
인물 배경 영상을 입력으로 하고, 상기 입력되는 인물 배경 영상으로부터 영상 특징 벡터를 추출하는 제1 인코더;
상기 인물 배경 영상과 대응하는 발화 일치 오디오 신호를 입력으로 하고, 상기 입력되는 발화 일치 오디오 신호로부터 음성 특징 벡터를 추출하는 제2 인코더;
상기 영상 특징 벡터와 상기 음성 특징 벡터를 조합하여 조합 벡터를 생성하는 조합부; 및
상기 조합 벡터를 입력으로 하고, 상기 조합 벡터를 기반으로 상기 발화 일치 합성 영상을 생성하는 디코더를 포함하는, 립싱크 영상 생성 장치.
- 하나 이상의 프로세서들, 및
상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서,
제1 인공 신경망 모델에서, 인물 배경 영상 및 상기 인물 배경 영상과 대응하는 발화 일치 오디오 신호를 입력으로 하여 발화 일치 합성 영상을 생성하고, 인물 배경 영상 및 상기 인물 배경 영상과 대응하지 않는 발화 불일치 오디오 신호를 입력으로 하여 발화 불일치 합성 영상을 생성하는 동작; 및
제2 인공 신경망 모델에서, 영상과 음성이 일치하는 입력 쌍 및 영상과 음성이 불일치 하는 입력 쌍을 입력으로 하여 그에 대한 분류 값을 출력하는 동작을 포함하는, 립싱크 영상 생성 방법.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210003375A KR20220101403A (ko) | 2021-01-11 | 2021-01-11 | 립싱크 영상 생성 장치 및 방법 |
US17/764,651 US20230178072A1 (en) | 2021-01-11 | 2021-06-08 | Apparatus and method for generating lip sync image |
PCT/KR2021/007125 WO2022149667A1 (ko) | 2021-01-11 | 2021-06-08 | 립싱크 영상 생성 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210003375A KR20220101403A (ko) | 2021-01-11 | 2021-01-11 | 립싱크 영상 생성 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220101403A true KR20220101403A (ko) | 2022-07-19 |
Family
ID=82357480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210003375A KR20220101403A (ko) | 2021-01-11 | 2021-01-11 | 립싱크 영상 생성 장치 및 방법 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230178072A1 (ko) |
KR (1) | KR20220101403A (ko) |
WO (1) | WO2022149667A1 (ko) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101177408B1 (ko) | 2010-09-16 | 2012-08-27 | 광운대학교 산학협력단 | 시청자의 시점에 따라 홀로그래픽 영상을 복원하는 다시점 기반 대화형 홀로그래픽 복원 장치 및 시스템 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10217261B2 (en) * | 2016-02-18 | 2019-02-26 | Pinscreen, Inc. | Deep learning-based facial animation for head-mounted display |
KR102306844B1 (ko) * | 2018-03-29 | 2021-09-29 | 네오사피엔스 주식회사 | 비디오 번역 및 립싱크 방법 및 시스템 |
KR20200112647A (ko) * | 2019-03-21 | 2020-10-05 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
-
2021
- 2021-01-11 KR KR1020210003375A patent/KR20220101403A/ko not_active Application Discontinuation
- 2021-06-08 US US17/764,651 patent/US20230178072A1/en active Pending
- 2021-06-08 WO PCT/KR2021/007125 patent/WO2022149667A1/ko unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101177408B1 (ko) | 2010-09-16 | 2012-08-27 | 광운대학교 산학협력단 | 시청자의 시점에 따라 홀로그래픽 영상을 복원하는 다시점 기반 대화형 홀로그래픽 복원 장치 및 시스템 |
Also Published As
Publication number | Publication date |
---|---|
WO2022149667A1 (ko) | 2022-07-14 |
US20230178072A1 (en) | 2023-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102360839B1 (ko) | 머신 러닝 기반의 발화 동영상 생성 방법 및 장치 | |
KR102437039B1 (ko) | 영상 생성을 위한 학습 장치 및 방법 | |
US20220358703A1 (en) | Method and device for generating speech video on basis of machine learning | |
KR102501773B1 (ko) | 랜드마크를 함께 생성하는 발화 동영상 생성 장치 및 방법 | |
KR102540763B1 (ko) | 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치 | |
KR102346755B1 (ko) | 음성 신호를 이용한 발화 동영상 생성 방법 및 장치 | |
US20220399025A1 (en) | Method and device for generating speech video using audio signal | |
KR102346756B1 (ko) | 발화 동영상 생성 방법 및 장치 | |
KR102544249B1 (ko) | 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법 | |
KR20220111388A (ko) | 영상 품질을 향상시킬 수 있는 영상 합성 장치 및 방법 | |
KR20230004417A (ko) | 발화 동영상 생성 방법 및 장치 | |
CN118043885A (zh) | 用于半监督语音识别的对比孪生网络 | |
US20200193961A1 (en) | System for synchronizing speech and motion of character | |
JP2018190077A (ja) | 発話生成装置、発話生成方法及び発話生成プログラム | |
KR20220111390A (ko) | 영상 품질을 향상시킬 수 있는 영상 합성 장치 및 방법 | |
KR102360840B1 (ko) | 텍스트를 이용한 발화 동영상 생성 방법 및 장치 | |
US20220253609A1 (en) | Social Agent Personalized and Driven by User Intent | |
KR102612625B1 (ko) | 신경망 기반의 특징점 학습 장치 및 방법 | |
KR20220082279A (ko) | 립싱크 영상 생성 장치 및 방법 | |
CN117115310A (zh) | 一种基于音频和图像的数字人脸生成方法及系统 | |
KR20220101403A (ko) | 립싱크 영상 생성 장치 및 방법 | |
US20220343651A1 (en) | Method and device for generating speech image | |
US11887600B2 (en) | Techniques for interpreting spoken input using non-verbal cues | |
KR102649818B1 (ko) | 3d 립싱크 비디오 생성 장치 및 방법 | |
KR20220148470A (ko) | 기계 학습을 이용한 데이터 생성 방법 및 이를 수행하기 위한 컴퓨팅 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E601 | Decision to refuse application |