KR20220111388A

KR20220111388A - 영상 품질을 향상시킬 수 있는 영상 합성 장치 및 방법

Info

Publication number: KR20220111388A
Application number: KR1020210014558A
Authority: KR
Inventors: 채경수; 황금별
Original assignee: 주식회사 딥브레인에이아이
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2022-08-09
Also published as: US20230177663A1; WO2022169035A1

Abstract

영상 품질을 향상시킬 수 있는 영상 합성 장치 및 방법이 개시된다. 개시되는 일 실시예에 따른 영상 합성 장치는, 하나 이상의 프로세서들, 및 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 영상 합성 장치로서, 손상 영상을 입력으로 하여 복원 영상을 출력하도록 하는 제1 과제 및 원본 영상을 입력으로 하여 재건 영상을 출력하도록 하는 제2 과제를 각각 학습하도록 마련되는 제1 인공 신경망 모델 및 제1 인공 신경망 모델에서 출력되는 재건 영상을 입력으로 하여 재건 영상의 영상 품질을 향상시키도록 학습되는 제2 인공 신경망 모델을 포함한다.

Description

영상 품질을 향상시킬 수 있는 영상 합성 장치 및 방법{APPARATUS AND METHOD FOR SYNTHESIZING IMAGE CAPABLE OF IMPROVING IMAGE QUALITY}

본 발명의 실시예는 영상 합성 기술과 관련된다.

일반적으로, 영상 복원 합성은 입력되는 영상에서 손상된 부분 또는 제거된 부분을 복원하여 출력하는 것을 의미한다. 예를 들어, 영상 복원 합성은 영상에서 제거된 부분이 있는 경우, 영상의 제거된 부분의 주변 형태를 보고 제거된 부분을 추론하여 복원할 수 있다.

또한, 영상 변형 합성은 입력되는 영상에서 일 부분을 다르게 변형하여 출력하는 것을 의미한다. 예를 들어, 영상 변형 합성은 입력 영상에서 얼굴의 표정이나 몸의 자세 등을 변형하도록 하거나 매개 변수를 조정하여 변형할 수 있다.

영상 복원 합성과 같은 영상 합성 모델(즉, 영상 합성을 위한 기계 학습 모델)에서는 원 영상에서 특정 부분이 제거된 영상(예를 들어, 립싱크 영상 합성의 경우 원 영상에서 발화 관련된 부분을 제거한 영상)을 입력으로 하고, 영상 합성 모델에서 출력하는 영상과 원 영상을 비교하여 손실 함수를 계산한 후 이를 역 전파하는 방식으로 학습이 이뤄질 수 있다.

그러나, 영상 합성을 위한 기계 학습 모델에서는 기계 학습 모델에 입력되는 입력 정보 및 기계 학습 모델의 복잡도 등의 제약으로 인해, 기계 학습 모델을 학습할 때 정답으로 제시된 원 영상과 합성 영상이 동일하게 되기가 어렵고, 원 영상에서 세부적인 부분들이 잘 보존된 합성 영상을 얻기가 어렵게 된다. 그로 인해, 원 영상에서 상세한 구조나 질감을 갖는 부분이 불명확하거나 흐릿하게 재현되어 합성 영상의 선명도가 저하되게 된다.

예를 들어, 영상에서 사람이 발화를 할 때 동일한 발음을 하더라도 고개를 든 정도 또는 말의 빠르기 등에 따라 입을 더 크게 또는 작게 벌릴 수 있으나, 해당 발화에 따른 음성 신호는 유의미한 차이가 발생하지 않을 수 있다. 이때, 기계 학습 모델에서 음성 신호를 기반으로 해당 인물의 발화와 관련된 부분을 합성하게 되면, 원 영상에서 나타나는 입 모양 등의 차이를 무시하고 해당 발음의 평균적인 입 모양을 합성하도록 학습하게 된다.

이 경우, 학습 과정에서 손실 함수의 계산을 위해 원 영상과 합성 영상을 비교하면, 원 영상과 합성 영상 사이에는 발화와 관련된 부분의 크고 작은 차이가 존재하게 된다. 그로 인해, 기계 학습 모델이 영상에서 해당 위치가 정확해야 정확한 비교가 가능한 세부적인 부분(예를 들어, 입술과 입 주변의 미세한 주름, 입 주변의 수염 자국 등)을 학습하기가 어려워지게 된다.

다른 예로, 원 영상에서 사람의 자세를 기계 학습 모델을 통해 다른 형태로 변형하여 합성하는 경우, 기계 학습 모델이 해당 인물의 양복이나 넥타이 등 옷 표면의 질감 또는 복잡한 무늬와 같은 부분을 정확하게 합성하기 어렵다는 문제점이 있다.

이에, 영상의 해상도 및 선명도를 증가시키기 위한 다양한 형태의 해상도 복원 모델(Super Resolution Model)이 개발되고 있다. 그러나, 기존의 해상도 복원 모델은 학습 데이터의 입력 영상(즉, 저해상도 영상)과 출력 영상(즉, 고해상도 영상) 사이에 해상도 차이만 존재해야 원하는 결과를 얻을 수 있게 된다.

즉, 입력 영상과 출력 영상 사이에 어떤 객체의 형태 차이가 존재하게 되면, 해상도 복원 모델에서 해상도 복원과 함께 그 형태 차이에 대한 학습도 동시에 일어나게 된다. 따라서, 영상 합성 모델의 원 영상과 합성 영상을 각각 입력 영상 및 출력 영상으로 하여 해상도 복원 모델에 적용하게 되면, 의도하지 않은 형태 변형이 일어나거나 선명도가 충분히 향상되지 않는 문제점이 발생할 수 있다.

한국등록특허공보 제10-1632917호(2016.07.04)

본 발명의 실시예는 원본 영상과의 차이를 최소화 하면서 영상 품질을 높일 수 있는 영상 합성 장치 및 방법을 제공하기 위한 것이다.

개시되는 일 실시예에 따른 영상 합성 장치는, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 영상 합성 장치로서, 손상 영상을 입력으로 하여 복원 영상을 출력하도록 하는 제1 과제 및 원본 영상을 입력으로 하여 재건 영상을 출력하도록 하는 제2 과제를 각각 학습하도록 마련되는 제1 인공 신경망 모델; 및 상기 제1 인공 신경망 모델에서 출력되는 재건 영상을 입력으로 하여 상기 재건 영상의 영상 품질을 향상시키도록 학습되는 제2 인공 신경망 모델을 포함한다.

상기 손상 영상은, 상기 원본 영상의 일부가 손상되거나 변형되거나 제거된 영상이고, 상기 영상 품질은, 영상의 선명도 및 해상도 중 하나 이상을 포함하며, 상기 제2 인공 신경망 모델은, 상기 제1 인공 신경망 모델로부터 상기 복원 영상이 입력되는 경우, 상기 복원 영상의 영상 품질을 향상시켜 출력할 수 있다.

상기 제1 인공 신경망 모델은, 상기 제1 과제 및 상기 제2 과제의 학습 시 해당 신경망의 파라미터들을 공유하여 사용할 수 있다.

상기 제1 인공 신경망 모델에서 상기 제1 과제를 학습하기 위한 목적 함수(L_synth)는 하기 수학식 1로 표현되고, 상기 제1 인공 신경망 모델에서 상기 제2 과제를 학습하기 위한 적 함수(L_recon)는 하기 수학식 2로 표현될 수 있다.

(수학식 1)

X : 원본 영상

: 제1 인공 신경망 모델에서 출력하는 복원 영상

: X와

의 차이를 구하는 함수

(수학식 2)

: 제1 인공 신경망 모델에서 출력하는 재건 영상

: X와

의 차이를 구하는 함수

상기 제1 과제 및 상기 제2 과제를 모두 수행하기 위한 상기 제1 인공 신경망 모델의 목적 함수(L_synth-recon)는 하기 수학식 3으로 표현될 수 있다.

(수학식 3)

λ : 제1 과제를 학습하기 위한 목적 함수(L_synth)와 제2 과제를 학습하기 위한 목적 함수(L_recon) 간의 가중치

상기 제2 인공 신경망 모델의 목적 함수(L_sr)는 하기 수학식 4로 표현될 수 있다.

(수학식 4)

: 제2 인공 신경망 모델에서 출력하는 영상

상기 제1 인공 신경망 모델은, 손상 영상을 입력으로 하여 복원 영상을 출력하도록 하는 제1 과제를 학습하도록 마련되는 제1-1 인공 신경망 모델; 및 원본 영상을 입력으로 하여 재건 영상을 출력하도록 하는 제2 과제를 학습하도록 마련되는 제1-2 인공 신경망 모델을 포함하며, 상기 제1-1 인공 신경망 모델과 상기 제1-2 인공 신경망 모델은 신경망 파라미터들을 상호 공유할 수 있다.

상기 제1 인공 신경망 모델은, 인물 배경 영상 및 발화 오디오 신호를 입력으로 하여 립싱크 영상을 출력하도록 학습되는 제1-1 인공 신경망 모델; 및 원본 발화 영상을 입력으로 하여 재건 영상을 출력하도록 학습되는 제1-2 인공 신경망 모델을 포함하고, 상기 인물 배경 영상은, 원본 발화 영상의 비디오 부분으로 발화와 관련된 부분이 마스크로 가려진 것이고, 상기 발화 오디오 신호는, 원본 발화 영상의 오디오 부분으로 상기 인물 배경 영상과 동일한 시구간의 것일 수 있다.

상기 제1-1 인공 신경망 모델은, 상기 인물 배경 영상을 입력 받고, 상기 인물 배경 영상에서 영상 특징 벡터를 추출하는 제1 인코더; 상기 발화 오디오 신호를 입력 받고, 상기 발화 오디오 신호에서 음성 특징 벡터를 추출하는 제2 인코더; 상기 제1 인코더에서 출력되는 영상 특징 벡터와 상기 제2 인코더에서 출력되는 음성 특징 벡터를 조합하여 조합 벡터를 생성하는 조합부; 및 상기 조합 벡터를 입력으로 하여 상기 립싱크 영상을 출력하는 제1 디코더를 포함할 수 있다.

개시되는 일 실시예에 따른 영상 합성 방법은, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비하는 컴퓨팅 장치에서 수행되는 방법으로서, 제1 인공 신경망 모델에서, 손상 영상을 입력으로 하여 복원 영상을 출력하도록 하는 제1 과제를 학습하는 동작; 상기 제1 인공 신경망 모델에서, 원본 영상을 입력으로 하여 재건 영상을 출력하도록 하는 제2 과제를 학습하는 동작; 및 제2 인공 신경망 모델에서, 상기 제1 인공 신경망 모델에서 출력되는 재건 영상을 입력으로 하여 상기 재건 영상의 영상 품질을 향상시키도록 학습하는 동작을 포함한다.

개시되는 실시예에 의하면, 제1 인공 신경망 모델에서 손상 영상을 입력으로 복원 영상을 출력하는 제1 과제 및 원본 영상을 입력으로 재건 영상을 출력하는 제2 과제를 모두 수행하도록 학습하고, 제2 인공 신경망 모델에서 제2 과제의 결과물인 재건 영상의 영상 품질을 향상시키도록 학습함으로써, 제1 인공 신경망 모델의 제1 과제의 결과물인 복원 영상을 제2 인공 신경망 모델에 입력하여 영상 품질을 향상시킬 수 있게 된다. 이때, 제2 인공 신경망 모델은 제2 과제의 결과물인 재건 영상을 입력으로 학습되기 때문에, 영상 품질을 향상시키면서 영상에서 객체의 형태 변형을 최소화 할 수 있게 된다.

도 1은 본 발명의 일 실시예에 따른 영상 품질을 향상시킬 수 있는 영상 합성 장치의 구성을 나타낸 도면
도 2는 본 발명의 일 실시예에서 제1 인공 신경망 모델 및 제2 인공 신경망 모델의 학습 과정을 개략적으로 나타낸 도면
도 3은 본 발명의 일 실시예에서 제1 인공 신경망 모델의 구성을 개략적으로 나타낸 도면
도 4 및 도 5는 본 발명의 영상 합성 장치를 하나의 인공 신경망 모델로 구현한 일 실시예를 개략적으로 나타낸 도면
도 6은 본 발명의 영상 합성 장치를 하나의 인공 신경망 모델로 구현한 다른 실시예를 개략적으로 나타낸 도면
도 7은 본 발명의 또 다른 실시예에 따른 영상 합성 장치의 구성을 나타낸 도면
도 8은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도

이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.

본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.

이하의 설명에 있어서, 신호 또는 정보의 "전송", "통신", "송신", "수신" 기타 이와 유사한 의미의 용어는 일 구성요소에서 다른 구성요소로 신호 또는 정보가 직접 전달되는 것뿐만이 아니라 다른 구성요소를 거쳐 전달되는 것도 포함한다. 특히 신호 또는 정보를 일 구성요소로 "전송" 또는 "송신"한다는 것은 그 신호 또는 정보의 최종 목적지를 지시하는 것이고 직접적인 목적지를 의미하는 것이 아니다. 이는 신호 또는 정보의 "수신"에 있어서도 동일하다. 또한 본 명세서에 있어서, 2 이상의 데이터 또는 정보가 "관련"된다는 것은 하나의 데이터(또는 정보)를 획득하면, 그에 기초하여 다른 데이터(또는 정보)의 적어도 일부를 획득할 수 있음을 의미한다.

또한, 제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.

도 1은 본 발명의 일 실시예에 따른 영상 품질을 향상시킬 수 있는 영상 합성 장치의 구성을 나타낸 도면이다.

도 1을 참조하면, 영상 합성 장치(100)는 제1 인공 신경망 모델(102) 및 제2 인공 신경망 모델(104)을 포함할 수 있다.

제1 인공 신경망 모델(102)은 손상 영상을 입력으로 하여 복원 영상을 출력하도록 학습되는 모델일 수 있다. 여기서, 손상 영상은 원본 영상의 일부가 손상되거나 변형되거나 제거된 영상일 수 있다. 제1 인공 신경망 모델(102)은 복원 영상의 영상 품질을 향상시키기 위해, 손상 영상을 입력으로 하여 복원 영상을 출력하는 과제 이외에 원본 영상을 입력으로 하여 재건 영상(즉, 원본 영상을 재건(Reconstruction)한 영상)을 출력하는 과제를 추가로 수행할 수 있다.

여기서, 영상 품질은 영상의 선명도(Definition) 및 해상도(Resolution) 중 하나 이상을 포함할 수 있다. 즉, 복원 영상의 영상 품질을 향상시킨다는 것은 복원 영상의 선명도 향상, 복원 영상의 해상도 향상, 및 복원 영상의 선명도 및 해상도 향상을 모두 포함할 수 있다.

제1 인공 신경망 모델(102)에서 손상 영상을 입력으로 하여 복원 영상을 출력하도록 하는 과제를 제1 과제라 지칭하고, 원본 영상을 입력으로 하여 재건 영상을 출력하도록 하는 과제를 제2 과제라 지칭할 수 있다. 예시적인 실시예에서, 제1 인공 신경망 모델(102)은 합성곱 신경망 (Convolutional Neural Network : CNN) 기반의 머신 러닝 기술로 구현될 수 있으나, 머신 러닝 기술이 이에 한정되는 것은 아니며 그 이외의 다양한 머신 러닝 기술이 적용될 수 있다.

제2 인공 신경망 모델(104)은 제1 인공 신경망 모델(102)에서 출력하는 복원 영상의 영상 품질을 향상시키도록 마련될 수 있다. 즉, 제2 인공 신경망 모델(104)은 제1 인공 신경망 모델(102)에서 출력하는 복원 영상의 선명도 및 해상도 중 하나 이상을 향상시키도록 마련될 수 있다.

구체적으로, 제2 인공 신경망 모델(104)은 제1 인공 신경망 모델(102)에서 출력하는 재건 영상을 입력으로 하여 재건 영상의 영상 품질을 향상시키도록 학습될 수 있다. 즉, 제2 인공 신경망 모델(104)은 제1 인공 신경망 모델(102)의 제2 과제와 연동하여 학습될 수 있다.

제2 인공 신경망 모델(104)이 학습된 상태에서, 제1 인공 신경망 모델(102)의 제1 과제의 결과물인 복원 영상을 제2 인공 신경망 모델(104)로 입력하면, 제2 인공 신경망 모델(104)을 통해 영상 품질이 향상된 복원 영상을 얻을 수 있게 된다. 예시적인 실시예에서, 제2 인공 신경망 모델(104)은 합성곱 신경망 (Convolutional Neural Network : CNN) 기반의 머신 러닝 기술로 구현될 수 있으나, 머신 러닝 기술이 이에 한정되는 것은 아니며 그 이외의 다양한 머신 러닝 기술이 적용될 수 있다.

도 2는 본 발명의 일 실시예에서 제1 인공 신경망 모델(102) 및 제2 인공 신경망 모델(104)의 학습 과정을 개략적으로 나타낸 도면이다.

도 2를 참조하면, 제1 인공 신경망 모델(102)은 손상 영상을 입력으로 하여 복원 영상을 출력하도록 제1 과제를 학습할 수 있다. 여기서, 제1 과제를 학습하기 위한 제1 인공 신경망 모델(102)은 하기의 수학식 1을 통해 나타낼 수 있다.

(수학식 1)

: 제1 인공 신경망 모델(102)에서 출력하는 복원 영상

F : 제1 인공 신경망 모델(102)을 구성하는 신경망

X' : 원본 영상(X)의 일부가 손상 또는 변형 또는 제거된 손상 영상

θ : 신경망 F의 파라미터

예시적인 실시예에서, 손상 영상(X')은 원본 영상(X)에 마스크가 합성된 영상일 수 있다. 여기서, 마스크는 원본 영상(X)과 동일한 크기이면서 손상 픽셀(예를 들어, 원본 영상에서 손상 또는 변형 또는 제거된 픽셀)은 0으로 하고, 정상 픽셀은 1로 하는 바이너리 마스크일 수 있다. 그러나, 이에 한정되는 것은 아니며 다양한 형태의 마스크가 사용될 수 있음은 물론이다.

이때, 제1 인공 신경망 모델(102)에서 제1 과제를 학습하기 위한 목적 함수(L_synth)는 하기의 수학식 2를 통해 나타낼 수 있다.

(수학식 2)

수학식 2에서, X는 원본 영상이고,

함수는 A와 B의 차이를 구하는 함수(예를 들어, A와 B의 유클리디안 거리(L2 distance) 또는 맨하튼 거리(L1 distance)를 구하는 함수 등)를 나타낸다. 즉, 제1 인공 신경망 모델(102)은 제1 과제를 학습할 때 원본 영상과 복원 영상 간의 차이가 최소화 되도록 학습될 수 있다.

또한, 제1 인공 신경망 모델(102)은 원본 영상을 입력으로 하여 재건 영상을 출력하도록 제2 과제를 학습할 수 있다. 여기서, 제2 과제를 학습하기 위한 제1 인공 신경망 모델(102)은 하기의 수학식 3을 통해 나타낼 수 있다.

(수학식 3)

: 제1 인공 신경망 모델(102)에서 출력하는 재건 영상

이때, 제1 인공 신경망 모델(102)에서 제2 과제를 학습하기 위한 목적 함수(L_recon)는 하기의 수학식 4를 통해 나타낼 수 있다. 즉, 제1 인공 신경망 모델(102)은 제2 과제를 학습할 때 원본 영상과 재건 영상 간의 차이가 최소화 되도록 학습될 수 있다.

(수학식 4)

제1 인공 신경망 모델(102)은 제1 과제와 제2 과제를 모두 수행하는데 이를 위한 제1 인공 신경망 모델(102)의 목적 함수(L_synth-recon)은 하기의 수학식 5를 통해 나타낼 수 있다.

(수학식 5)

그리고, 제1 과제 및 제2 과제를 모두 수행하기 위한 제1 인공 신경망 모델(102)의 최적화된 파라미터(θ^*)는 다음의 수학식 6을 통해 나타낼 수 있다.

(수학식 5)

여기서, argmin_θ는 L_synth-recon를 최소화하는 θ를 찾는 함수를 나타낸다. 즉, 수학식 5 및 수학식 6에 의하면 제1 인공 신경망 모델(102)은 목적 함수(L_synth)와 목적 함수(L_recon)를 동시에 최소화 하도록 학습될 수 있다.

제2 과제의 학습에 따라 제1 인공 신경망 모델(102)에서 출력되는 재건 영상은 입력 영상이 원본 영상이기 때문에 원본 영상에 포함되는 객체들의 형태는 원본 영상과 동일하게 된다. 그러나, 제1 인공 신경망 모델(102)에서 제1 과제도 함께 학습되기 때문에 제1 과제와 제2 과제를 위한 공유된 파라미터를 사용해야 하는 제약이 있으며, 그로 인해 재건 영상의 경우 복원 영상과 유사한 영상 품질로 출력되게 된다. 즉, 제1 인공 신경망 모델(102)에서 제2 과제만 학습했을 때의 재건 영상 보다 제1 과제 및 제2 과제를 함께 학습했을 때의 재건 영상의 영상 품질이 저하되게 된다.

이에, 제1 인공 신경망 모델(102)이 제2 과제를 학습하여 출력한 재건 영상을 제2 인공 신경망 모델(104)로 입력하여 영상 품질을 향상시킬 수 있다. 제2 인공 신경망 모델(104)은 제1 인공 신경망 모델(102)에서 출력되는 재건 영상을 입력으로 하여 재건 영상의 영상 품질을 향상시키도록 학습될 수 있다.

제2 인공 신경망 모델(104)은 기 공지된 인공 지능 기반의 선명도 및/또는 해상도 향상 기법을 이용하여 재건 영상의 영상 품질을 향상시키도록 학습될 수 있다. 여기서, 재건 영상의 영상 품질을 향상시키도록 하기 위한 제2 인공 신경망 모델(104)은 하기의 수학식 6을 통해 나타낼 수 있다.

(수학식 6)

: 제2 인공 신경망 모델(104)에서 출력하는 영상

G : 제2 인공 신경망 모델(104)을 구성하는 신경망

γ : 신경망 G의 파라미터

그리고, 제2 인공 신경망 모델(104)의 목적 함수(L_sr)는 하기의 수학식 7을 통해 나타낼 수 있다.

(수학식 7)

즉, 제2 인공 신경망 모델(104)은 제2 인공 신경망 모델(104)에서 출력하는 영상(

)과 원본 영상(X) 간의 차이가 최소화 되도록 학습될 수 있다. 이 경우, 제2 인공 신경망 모델(104)에서 출력되는 영상(

)은 선명도 및 해상도 중 하나 이상이 향상되어 원본 영상 간의 차이가 최소화 되게 된다.

이와 같이 제2 인공 신경망 모델(104)이 학습된 경우, 제1 인공 신경망 모델(102)의 제1 과제의 결과물인 복원 영상을 제2 인공 신경망 모델(104)로 입력할 수 있다. 그러면, 제2 인공 신경망 모델(104)은 복원 영상의 선명도 및 해상도 중 하나 이상을 향상시켜 영상 품질이 향상된 복원 영상을 출력하게 된다.

개시되는 실시예에 의하면, 제1 인공 신경망 모델(102)에서 손상 영상을 입력으로 복원 영상을 출력하는 제1 과제 및 원본 영상을 입력으로 재건 영상을 출력하는 제2 과제를 모두 수행하도록 학습하고, 제2 인공 신경망 모델(104)에서 제2 과제의 결과물인 재건 영상의 영상 품질을 향상시키도록 학습함으로써, 제1 인공 신경망 모델(102)의 제1 과제의 결과물인 복원 영상을 제2 인공 신경망 모델(104)에 입력하여 영상 품질을 향상시킬 수 있게 된다. 이때, 제2 인공 신경망 모델(104)은 제2 과제의 결과물인 재건 영상을 입력으로 학습되기 때문에, 영상 품질을 향상시키면서 영상에서 객체의 형태 변형을 최소화 할 수 있게 된다.

한편, 여기서는 제1 인공 신경망 모델(102)이 하나의 인공 신경망 모델에서 제1 과제와 제2 과제를 모두 수행하는 것으로 설명하였으나, 이에 한정되는 것은 아니며 도 3에 도시된 바와 같이, 제1 인공 신경망 모델(102)은 제1-1 인공 신경망 모델(102-1) 및 제1-2 인공 신경망 모델(102-2)을 포함할 수 있다.

제1-1 인공 신경망 모델(102-1)은 손상 영상을 입력으로 하여 복원 영상을 출력하는 제1 과제를 학습하기 위한 모델일 수 있다. 제1-2 인공 신경망 모델(102-2)은 원본 영상을 입력으로 하여 재건 영상을 출력하는 제2 과제를 학습하기 위한 모델일 수 있다. 여기서, 제1-1 인공 신경망 모델(102-1) 및 제1-2 인공 신경망 모델(102-2)은 신경망 파라미터를 상호 공유할 수 있다.

또한, 여기서는 제1 인공 신경망 모델(102)과 제2 인공 신경망 모델(104)을 별도의 인공 신경망 모델로 설명하였으나, 이에 한정되는 것은 아니며 하나의 인공 신경망 모델로 구현할 수도 있다. 즉, 제2 인공 신경망 모델(104)의 신경망을 제1 인공 신경망 모델(102)의 신경망에 추가함으로써 하나의 인공 신경망 모델로 구현할 수 있다.

도 4 및 도 5는 본 발명의 영상 합성 장치(100)를 하나의 인공 신경망 모델로 구현한 일 실시예를 개략적으로 나타낸 도면이다. 도 4를 참조하면, 영상 합성 장치(100)는 제1 인공 신경망부(111) 및 제2 인공 신경망부(113)를 포함할 수 있다.

제1 인공 신경망부(111)는 손상 영상을 입력으로 하여 복원 영상을 출력하는 제1 과제 및 원본 영상을 입력으로 하여 재건 영상을 출력하는 제2 과제를 학습하기 위한 신경망일 수 있다. 제1 인공 신경망부(111)는 제1 인코더(111a) 및 제1 디코더(111b)를 포함할 수 있다.

제1 인코더(111a)는 손상 영상 또는 원본 영상을 입력으로 하여 제1 영상 특징 벡터 또는 제2 영상 특징 벡터를 각각 추출할 수 있다. 제1 디코더(111b)는 제1 영상 특징 벡터 또는 제2 영상 특징 벡터를 입력으로 하여 복원 영상 또는 재건 영상을 각각 출력할 수 있다.

제2 인공 신경망부(113)는 제1 인공 신경망부(111)에서 출력되는 재건 영상을 입력으로 하여 재건 영상의 영상 품질을 향상시키도록 학습되는 신경망일 수 있다. 제2 인공 신경망부(113)는 제1 인공 신경망부(111)의 출력층에 연결될 수 있다. 제2 인공 신경망부(113)는 제2 인코더(113a) 및 제2 디코더(113b)를 포함할 수 있다.

제2 인코더(113a)는 제1 디코더(111b)에 연결될 수 있다. 제2 인코더(113a)는 제1 디코더(111b)에서 출력되는 복원 영상 또는 재건 영상을 입력으로 하여 제3 영상 특징 벡터 또는 제4 영상 특징 벡터를 각각 추출할 수 있다. 제2 디코더(113b)는 제3 영상 특징 벡터 또는 제4 영상 특징 벡터를 입력으로 하여 영상 품질이 향상된 복원 영상 또는 재건 영상을 각각 출력할 수 있다.

학습 단계에서는 도 4에 도시된 바와 같이, 제1 과제의 학습 시 손상 영상이 제1 인공 신경망부(111)로 입력되어 복원 영상이 출력될 수 있다. 즉, 제1 과제를 학습할 때에는 제2 인공 신경망부(113)를 사용하지 않고 바이패스 할 수 있다. 제2 과제의 학습 시 원본 영상이 제1 인공 신경망부(111)로 입력되어 재건 영상이 출력되고, 출력된 재건 영상이 제2 인공 신경망부(113)로 입력되어 영상 품질이 향상된 영상이 출력될 수 있다.

예측 단계에서는 도 5에 도시된 바와 같이, 손상 영상이 제1 인공 신경망부(111)로 입력되어 복원 영상이 출력되고, 출력된 복원 영상이 제2 인공 신경망부(113)로 입력되어 영상 품질이 향상된 복원 영상이 출력될 수 있다.

여기서는, 영상 품질을 향상시키기 위한 제2 인공 신경망부(113)가 제1 인공 신경망부(111)의 출력층에 연결되는 것으로 설명하였으나, 이에 한정되는 것은 아니며 제2 인공 신경망부(113)의 신경망이 제1 인공 신경망부(111)에 포함될 수도 있다. 예를 들어, 제2 인공 신경망부(113)의 신경망이 제1 인공 신경망부(111)의 제1 디코더(111b)에 포함될 수 있다.

도 6은 본 발명의 영상 합성 장치(100)를 하나의 인공 신경망 모델로 구현한 다른 실시예를 개략적으로 나타낸 도면이다. 도 6을 참조하면, 영상 합성 장치(100)는 제1 인공 신경망부(111) 및 제2 인공 신경망부(113)를 포함할 수 있다. 여기서, 제1 인공 신경망부(111)는 인코더(111a) 및 디코더(111b)를 포함할 수 있다. 이때, 제2 인공 신경망부(113)는 디코더(111b)를 구성하는 신경망 층 사이에 추가될 수 있다. 제2 인공 신경망부(113)는 디코더(111b)를 구성하는 신경망 층 사이에 복수 개가 나뉘어 삽입될 수 있다.

제1 과제를 학습하는 경우, 손상 영상은 인코더(111a)로 삽입되어 특징이 추출된 후 제2 인공 신경망부(113)는 바이패스하고 디코더(113b)만을 거쳐 복원될 수 있다. 제2 과제를 학습하는 경우, 원본 영상은 인코더(111a)로 삽입되어 특징이 추출된 후 제2 인공 신경망부(113)를 구성하는 신경망 및 디코더(113b)를 거쳐 재건될 수 있다.

도 7은 본 발명의 또 다른 실시예에 따른 영상 합성 장치의 구성을 나타낸 도면이다. 여기서는, 영상 합성 장치가 립싱크 영상을 합성하는 경우를 일 예로 나타내었다.

도 7을 참조하면, 영상 합성 장치(200)는 제1 인공 신경망 모델(202) 및 제2 인공 신경망 모델(204)을 포함할 수 있다. 제1 인공 신경망 모델(202)은 제1-1 인공 신경망 모델(202-1) 및 제1-2 인공 신경망 모델(202-2)을 포함할 수 있다.

제1-1 인공 신경망 모델(202-1)은 인물 배경 영상을 입력으로 하여 립싱크 영상을 출력하는 제1 과제를 학습하기 위한 모델일 수 있다. 제1-1 인공 신경망 모델(202-1)은 제1 인코더(211), 제2 인코더(213), 조합부(215), 및 제1 디코더(217)를 포함할 수 있다.

제1 인코더(211)는 인물 배경 영상을 입력으로 하여 영상 특징 벡터를 추출하도록 학습될 수 있다. 이하, "벡터"는 "텐서"를 포함 하는 의미로 사용될 수 있다.

여기서, 제1 인코더(211)로 입력되는 인물 배경 영상은 인물이 발화 하는(말을 하는) 영상이다. 인물 배경 영상은 인물의 얼굴과 상반신이 포함된 영상 일 수 있다. 즉, 인물 배경 영상은 해당 인물이 발화 할 때 나타나는 얼굴, 목, 및 어깨 등의 움직임이 보여지도록 얼굴뿐만 아니라 상반신이 포함된 영상일 수 있으나, 이에 한정되는 것은 아니며 인물의 얼굴을 포함하는 영상일 수도 있다.

제1 인코더(211)로 입력되는 인물 배경 영상에서 발화와 관련된 부분은 마스킹(Masking) 처리될 수 있다. 즉, 인물 배경 영상에서 발화와 관련된 부 분(예를 들어, 입 및 입 주위 부분 등)은 마스크(M)로 가려질 수 있다. 또한, 마스킹 처리 시 인물 배경 영상에서 인물의 발화에 따른 얼굴 움직임, 목 움직임, 및 어깨 움직임 등과 관련된 부분은 마스킹 처리되지 않도록 할 수 있다. 그러면, 제1 인코더(211)에서는 인물 배경 영상에서 발화와 관련된 부분을 제외한 부분의 영상 특징 벡터를 추출하게 된다.

예시적인 실시예에서, 제1 인코더(211)는 하나 이상의 합성곱 층(Convolutional Layer) 및 하나 이상의 풀링 층(Pooling Layer)를 포함할 수 있다. 합성곱 층은 입력되는 인물 배경 영상에서 기 설정된 크기(예를 들어, 3Х3 픽셀 크기)의 필터를 일정 간격으로 이동시키면서 해당 필터에 대응되는 픽셀들의 특징 값을 추출할 수 있다. 풀링 층은 합성곱 층의 출력을 입력으로 받아 다운 샘플링(Down Sampling)을 수행할 수 있다.

제2 인코더(213)는 발화 오디오 신호를 입력으로 하여 음성 특징 벡터를 추출하도록 학습될 수 있다. 여기서, 발화 오디오 신호는 제1 인코더(211)로 입력되는 인물 배경 영상(즉, 인물이 발화하는 영상) 중 오디오 부분에 해당한다. 다시 말하면, 인물이 발화하는 동영상에서 비디오 부분은 제1 인코더(211)로 입력되고, 오디오 부분은 제2 인코더(213)로 입력될 수 있다. 제2 인코더(213)는 하나 이상의 합성곱 층(Convolutional Layer) 및 하나 이상의 풀링 층 (Pooling Layer)를 포함할 수 있으나, 제2 인코더(213)의 신경망 구조가 이에 한정 되는 것은 아니다.

제1 인코더(211)로 입력되는 인물 배경 영상과 제2 인코더(213)로 입력되는 발화 오디오 신호의 시간은 서로 동기화 될 수 있다. 즉, 인물이 발화하는 동영상에서 동일한 시간 대의 구간 중 비디오는 제1 인코더(211)로 입력되고, 오디오는 제2 인코더(213)로 입력될 수 있다. 예를 들어, 인물 배경 영상이 특정 시점으로부터 t 시간의 영상인 경우, 발화 오디오 신호는 동일한 시점으로부터 t 시간의 음성일 수 있다. 이때, 인물 배경 영상 및 발화 오디오 신호는 기 설정된 단위 시간(예를 들어, 하나의 프레임 또는 복수 개의 연속된 프레임 등)마다 제1 인코더(211) 및 제2 인코더(213)로 입력될 수 있다.

조합부(215)는 제1 인코더(211)에서 출력되는 영상 특징 벡터 및 제2 인코더(213)에서 출력되는 음성 특징 벡터를 조합하여 조합 벡터를 생성할 수 있다. 예시적인 실시예에서, 조합부(215)는 영상 특징 벡터와 음성 특징 벡터를 연결(Concatenate)하여 조합 벡터를 생성할 수 있으나, 이에 한정되는 것은 아니다.

제1 디코더(217)는 조합부(215)에서 출력되는 조합 벡터를 입력으로 하여 립싱크 영상을 생성할 수 있다. 구체적으로, 제1 디코더(217)는 제2 인코더(113)에서 출력되는 음성 특징 벡터(즉, 인물이 발화하는 동영상에서 오디오 부분의 특징)를 기반으로 제1 인코더(211)에서 출력되는 영상 특징 벡터(즉, 인물이 발화하는 동영상에서 비디오 부분으로, 발화 관련된 부분이 마스크로 가려진 부분의 특징)의 마스크(M)로 가려진 부분(즉, 발화와 관련된 부분)을 복원하도록 학습될 수 있다.

즉, 제1 디코더(217)는 인물 배경 영상에서 발화와 관련된 부분이 마스킹 된 경우, 발화 오디오 신호를 이용하여 마스킹 된 영역을 복원하도록 학습되는 모델일 수 있다. 제1 디코더(217)는 생성된 립싱크 영상과 원본 발화 영상(즉, 정답 값)을 비교하여 생성된 립싱크 영상이 원본 발화 영상에 가까워지도록(즉, 원본 발화 영상과의 차이가 최소화되도록) 학습 파라미터(예를 들어, 손실 함수, 소프트맥스 함수 등)를 조절할 수 있다.

제1-2 인공 신경망 모델(202-2)은 원본 발화 영상을 입력으로 하여 재건 영상을 출력하는 제2 과제를 학습하기 위한 모델일 수 있다. 제1-2 인공 신경망 모델(202-2)은 제1-1 인공 신경망 모델(202-1)과 신경망 파라미터들을 공유할 수 있다. 제1-2 인공 신경망 모델(202-2)은 제3 인코더(221) 및 제2 디코더(223)를 포함할 수 있다.

제3 인코더(221)는 원본 발화 영상을 입력으로 하여 영상 특징 벡터를 추출하도록 학습될 수 있다. 여기서, 원본 발화 영상은 인물 배경 영상에서 마스크(M)가 제거된 영상일 수 있다. 즉, 인물 배경 영상은 원본 발화 영상에서 발화와 관련된 부분이 마스크(M)로 가려진 영상일 수 있다.

제2 디코더(223)는 제3 인코더(221)에서 출력되는 영상 특징 벡터에 기반하여 재건 영상(즉, 원본 발화 영상을 재건한 영상)을 출력하도록 학습될 수 있다. 제2 디코더(223)는 재건 영상과 원본 발화 영상 간의 차이가 최소화 되도록 학습 파라미터(예를 들어, 손실 함수, 소프트맥스 함수 등)를 조절할 수 있다.

제2 인공 신경망 모델(204)은 제1-2 인공 신경망 모델(202-2)에서 출력되는 재건 영상의 영상 품질을 향상시켜 출력하도록 학습되는 모델일 수 있다. 제2 인공 신경망 모델(204)은 제4 인코더(231) 및 제3 디코더(233)를 포함할 수 있다.

제4 인코더(231)는 제1-2 인공 신경망 모델(202-2)에서 출력되는 재건 영상을 입력으로 하여 영상 특징 벡터를 추출하도록 학습될 수 있다. 제3 디코더(233)는 제4 인코더(231)에서 출력되는 영상 특징 벡터에 기반하여 영상 품질이 향상된 재건 영상을 출력하도록 학습될 수 있다.

제2 인공 신경망 모델(204)이 학습된 경우, 제4 인코더(231)로 제1-1 인공 신경망 모델(202-1)에서 출력되는 립싱크 영상이 입력될 수 있다. 그러면, 제4 인코더(231)는 립싱크 영상에서 영상 특징 벡터를 추출할 수 있다. 제3 디코더(233)는 제4 인코더(231)에서 출력되는 영상 특징 벡터에 기반하여 영상 품질이 향상된 립싱크 영상을 출력할 수 있다.

도 8은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.

도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 영상 합성 장치(100, 200)일 수 있다.

컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.

컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.

이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

100, 200 : 영상 합성 장치
102, 202 : 제1 인공 신경망 모델
102-1, 202-1 : 제1-1 인공 신경망 모델
102-2, 202-2 : 제1-2 인공 신경망 모델
104, 204 : 제2 인공 신경망 모델
111 : 제1 인공 신경망부
113 : 제2 인공 신경망부
211 : 제1 인코더
213 : 제2 인코더
215 : 조합부
217 : 제1 디코더
221 : 제3 인코더
223 : 제2 디코더
231 : 제4 인코더
233 : 제3 디코더

Claims

하나 이상의 프로세서들, 및
상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 영상 합성 장치로서,
손상 영상을 입력으로 하여 복원 영상을 출력하도록 하는 제1 과제 및 원본 영상을 입력으로 하여 재건 영상을 출력하도록 하는 제2 과제를 각각 학습하도록 마련되는 제1 인공 신경망 모델; 및
상기 제1 인공 신경망 모델에서 출력되는 재건 영상을 입력으로 하여 상기 재건 영상의 영상 품질을 향상시키도록 학습되는 제2 인공 신경망 모델을 포함하는, 영상 합성 장치.
청구항 1에 있어서,
상기 손상 영상은, 상기 원본 영상의 일부가 손상되거나 변형되거나 제거된 영상이고,
상기 영상 품질은, 영상의 선명도 및 해상도 중 하나 이상을 포함하며,
상기 제2 인공 신경망 모델은, 상기 제1 인공 신경망 모델로부터 상기 복원 영상이 입력되는 경우, 상기 복원 영상의 영상 품질을 향상시켜 출력하는, 영상 합성 장치.
청구항 1에 있어서,
상기 제1 인공 신경망 모델은,
상기 제1 과제 및 상기 제2 과제의 학습 시 해당 신경망의 파라미터들을 공유하여 사용하는, 영상 합성 장치.
청구항 1에 있어서,
상기 제1 인공 신경망 모델에서 상기 제1 과제를 학습하기 위한 목적 함수(L_synth)는 하기 수학식 1로 표현되고,
상기 제1 인공 신경망 모델에서 상기 제2 과제를 학습하기 위한 적 함수(L_recon)는 하기 수학식 2로 표현되는, 영상 합성 장치.
(수학식 1)

X : 원본 영상

: 제1 인공 신경망 모델에서 출력하는 복원 영상

: X와
의 차이를 구하는 함수
(수학식 2)

: 제1 인공 신경망 모델에서 출력하는 재건 영상

: X와
의 차이를 구하는 함수
청구항 4에 있어서,
상기 제1 과제 및 상기 제2 과제를 모두 수행하기 위한 상기 제1 인공 신경망 모델의 목적 함수(L_synth-recon)는 하기 수학식 3으로 표현되는, 영상 합성 장치.
(수학식 3)

λ : 제1 과제를 학습하기 위한 목적 함수(L_synth)와 제2 과제를 학습하기 위한 목적 함수(L_recon) 간의 가중치
청구항 4에 있어서,
상기 제2 인공 신경망 모델의 목적 함수(L_sr)는 하기 수학식 4로 표현되는, 영상 합성 장치.
(수학식 4)

: 제2 인공 신경망 모델에서 출력하는 영상
청구항 1에 있어서,
상기 제1 인공 신경망 모델은,
손상 영상을 입력으로 하여 복원 영상을 출력하도록 하는 제1 과제를 학습하도록 마련되는 제1-1 인공 신경망 모델; 및
원본 영상을 입력으로 하여 재건 영상을 출력하도록 하는 제2 과제를 학습하도록 마련되는 제1-2 인공 신경망 모델을 포함하며,
상기 제1-1 인공 신경망 모델과 상기 제1-2 인공 신경망 모델은 신경망 파라미터들을 상호 공유하는, 영상 합성 장치.
청구항 1에 있어서,
상기 제1 인공 신경망 모델은,
인물 배경 영상 및 발화 오디오 신호를 입력으로 하여 립싱크 영상을 출력하도록 학습되는 제1-1 인공 신경망 모델; 및
원본 발화 영상을 입력으로 하여 재건 영상을 출력하도록 학습되는 제1-2 인공 신경망 모델을 포함하고,
상기 인물 배경 영상은, 원본 발화 영상의 비디오 부분으로 발화와 관련된 부분이 마스크로 가려진 것이고,
상기 발화 오디오 신호는, 원본 발화 영상의 오디오 부분으로 상기 인물 배경 영상과 동일한 시구간의 것인, 영상 합성 장치.
청구항 8에 있어서,
상기 제1-1 인공 신경망 모델은,
상기 인물 배경 영상을 입력 받고, 상기 인물 배경 영상에서 영상 특징 벡터를 추출하는 제1 인코더;
상기 발화 오디오 신호를 입력 받고, 상기 발화 오디오 신호에서 음성 특징 벡터를 추출하는 제2 인코더;
상기 제1 인코더에서 출력되는 영상 특징 벡터와 상기 제2 인코더에서 출력되는 음성 특징 벡터를 조합하여 조합 벡터를 생성하는 조합부; 및
상기 조합 벡터를 입력으로 하여 상기 립싱크 영상을 출력하는 제1 디코더를 포함하는, 영상 합성 장치.
하나 이상의 프로세서들, 및
상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비하는 컴퓨팅 장치에서 수행되는 방법으로서,
제1 인공 신경망 모델에서, 손상 영상을 입력으로 하여 복원 영상을 출력하도록 하는 제1 과제를 학습하는 동작;
상기 제1 인공 신경망 모델에서, 원본 영상을 입력으로 하여 재건 영상을 출력하도록 하는 제2 과제를 학습하는 동작; 및
제2 인공 신경망 모델에서, 상기 제1 인공 신경망 모델에서 출력되는 재건 영상을 입력으로 하여 상기 재건 영상의 영상 품질을 향상시키도록 학습하는 동작을 포함하는, 영상 합성 방법.