KR102540756B1

KR102540756B1 - 발화 합성 영상 생성 장치 및 방법

Info

Publication number: KR102540756B1
Application number: KR1020220010882A
Authority: KR
Inventors: 채경수; 황금별
Original assignee: 주식회사 딥브레인에이아이
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2023-06-08
Also published as: WO2023146019A1

Abstract

발화 합성 영상 생성 장치 및 방법이 개시된다. 개시되는 일 실시예에 따른 발화 합성 영상 생성 장치는, 머신 러닝 기반의 발화 합성 영상 생성 장치로서, 동일 인물이 포함된 소스 이미지 및 타겟 이미지를 각각 입력 받고, 소스 이미지 및 타겟 이미지에 기반하여 소스 이미지 및 타겟 이미지 사이의 인물의 전역적 움직임에 대한 전역적 기하 변환을 예측하도록 학습되는 제1 전역적 기하 변환 예측부, 기 설정된 입력 데이터에 기반하여 소스 이미지 및 타겟 이미지 사이의 상기 인물의 지역적 움직임에 대한 지역적 기하 변환을 예측하도록 학습되는 지역적 기하 변환 예측부, 전역적 기하 변환 및 지역적 기하 변환을 조합하여 인물의 전체 움직임에 대한 전체 움직임 기하 변환을 산출하는 기하 변환 조합부, 소스 이미지 및 전체 움직임 기하 변환에 기반하여 소스 이미지 및 타겟 이미지 사이의 광학 흐름을 산출하도록 학습되는 광학 흐름 예측부, 및 소스 이미지 및 광학 흐름에 기반하여 타겟 이미지를 복원하도록 학습되는 영상 생성부를 포함한다.

Description

발화 합성 영상 생성 장치 및 방법{APPARATUS AND METHOD FOR GENERATING SPEECH SYNSTHESIS IMAGE}

본 발명의 실시예는 발화 합성 영상 생성 기술과 관련된다.

동일 물체(또는 동일 종류의 물체)가 포함된 한 쌍의 이미지(또는 동영상 프레임)에서 해당 물체의 위치, 자세, 및 형태 등의 차이를 "움직임"이라고 정의할 때, 이러한 움직임을 물체의 아이덴티티로부터 분리 추정하여 이미지 변환, 동영상 합성, 특징점 탐지 등의 과제를 수행할 수 있다.

이러한 과제는 기계 학습 모델을 통해 수행할 수 있다. 이때 기계 학습 모델의 훈련은 일반적으로 동일 물체가 포함된 한 쌍의 이미지 중 하나의 이미지를 소스(Source)로 하고, 다른 이미지를 타겟(Target)으로 하여 소스를 기계 학습 모델에 입력하면 기계 학습 모델에서 이를 타겟으로 변형하여 출력하도록 한다. 그리고, 기계 학습 모델에서 출력한 결과와 정답 값(실제 타겟) 사이의 차이를 오차 또는 손실 함수로 정의하여 이를 줄이는 방향으로 학습이 이루어지게 된다.

한편, 움직임 추정의 한 가지 방법으로 아핀 변환과 같은 기하 변환을 사용하는 방식이 있다. 이때, 하나의 기하 변환은 물체의 움직임을 표현하기 위해 필요한 요소 변환의 특정한 조합으로 정의될 수 있다. 예를 들어, 아핀 변환은 평행 이동, 회전, 확대축소, 기울임 등의 요소 변환들의 조합이다. 이때, 요소 변환은 움직임을 표현 또는 제한하고자 하는 내용에 따라 달라질 수 있으며, 기하 변환이 이루어지는 공간은 2차원, 3차원, 또는 임의의 차원이 될 수 있다.

기계 학습 모델에서 기하 변환을 통해 움직임을 추정하는 방식은, 물체의 정확한 움직임 추정을 위해 충분한 개수의 기하 변환을 병렬적으로 사용하여야 하는데, 이 경우 기계 학습 모델의 부피가 커지고 많은 연산이 이루어져야 하는 문제점이 있다.

한국등록특허공보 제10-1177408호(2012.08.27)

개시되는 실시예는 발화 합성 영상 생성을 위한 새로운 기법을 제공하기 위한 것이다.

개시되는 일 실시예에 따른 발화 합성 영상 생성 장치는, 머신 러닝 기반의 발화 합성 영상 생성 장치로서, 동일 인물이 포함된 소스 이미지 및 타겟 이미지를 각각 입력 받고, 상기 소스 이미지 및 상기 타겟 이미지에 기반하여 상기 소스 이미지 및 상기 타겟 이미지 사이의 상기 인물의 전역적 움직임에 대한 전역적 기하 변환을 예측하도록 학습되는 제1 전역적 기하 변환 예측부; 기 설정된 입력 데이터에 기반하여 상기 소스 이미지 및 상기 타겟 이미지 사이의 상기 인물의 지역적 움직임에 대한 지역적 기하 변환을 예측하도록 학습되는 지역적 기하 변환 예측부; 상기 전역적 기하 변환 및 상기 지역적 기하 변환을 조합하여 상기 인물의 전체 움직임에 대한 전체 움직임 기하 변환을 산출하는 기하 변환 조합부; 상기 소스 이미지 및 상기 전체 움직임 기하 변환에 기반하여 상기 소스 이미지 및 상기 타겟 이미지 사이의 광학 흐름을 산출하도록 학습되는 광학 흐름 예측부; 및 상기 소스 이미지 및 상기 광학 흐름에 기반하여 상기 타겟 이미지를 복원하도록 학습되는 영상 생성부를 포함한다.

상기 전역적 움직임은, 상기 인물의 기 설정된 임계량 이상의 움직임이고, 상기 지역적 움직임은, 상기 인물의 발화 시 얼굴 움직임일 수 있다.

상기 제1 전역적 기하 변환 예측부는, 상기 소스 이미지에 기반하여 기 설정된 기준 확률 분포에서 소스 이미지 히트맵으로의 기하 변환을 추출하고, 상기 타겟 이미지에 기반하여 기 설정된 기준 확률 분포에서 타겟 이미지 히트맵으로의 기하 변환을 추출하며, 상기 기준 확률 분포에서 소스 이미지 히트맵으로의 기하 변환 및 상기 기준 확률 분포에서 타겟 이미지 히트맵으로의 기하 변환에 기반하여 상기 전역적 기하 변환을 산출할 수 있다.

상기 소스 이미지 히트맵은, 상기 소스 이미지에서 각 픽셀이 상기 인물의 전역적 움직임과 관련된 픽셀인지에 대한 이미지 공간 상의 확률 분포맵이고, 상기 타겟 이미지 히트맵은, 상기 타겟 이미지에서 각 픽셀이 상기 인물의 전역적 움직임과 관련된 픽셀인지에 대한 이미지 공간 상의 확률 분포맵일 수 있다.

상기 지역적 기하 변환 예측부는, 기 설정된 입력 데이터에 기반하여 상기 소스 이미지 및 상기 타겟 이미지 사이의 상기 인물의 지역적 발화 움직임에 대한 제1 지역적 기하 변환을 예측하도록 학습되는 제1 지역적 기하 변환 예측부를 포함하며, 상기 지역적 발화 움직임은, 상기 인물의 발화와 관련된 움직임일 수 있다.

상기 제1 지역적 기하 변환 예측부는, 상기 소스 이미지에 대응하는 소스 음성 신호 및 상기 타겟 이미지에 대응하는 타겟 음성 신호를 각각 입력 받고, 상기 소스 음성 신호 및 상기 타겟 음성 신호에 기반하여 상기 제1 지역적 기하 변환을 예측하도록 학습될 수 있다.

상기 제1 지역적 기하 변환 예측부는, 상기 소스 음성 신호로부터 상기 인물의 지역적 발화 움직임에 대한 복수 개의 기하 변환인 소스 음성 기하 변환을 추정하고, 상기 타겟 음성 신호로부터 상기 인물의 지역적 발화 움직임에 대한 복수 개의 기하 변환인 타겟 음성 기하 변환을 추정하며, 상기 소스 음성 기하 변환 및 상기 타겟 음성 기하 변환에 기반하여 상기 제1 지역적 기하 변환을 산출할 수 있다.

상기 지역적 기하 변환 예측부는, 기 설정된 입력 데이터에 기반하여 상기 소스 이미지 및 상기 타겟 이미지 사이의 상기 인물의 지역적 비발화 움직임에 대한 제2 지역적 기하 변환을 예측하도록 학습되는 제2 지역적 기하 변환 예측부를 더 포함하며, 상기 지역적 비발화 움직임은, 상기 인물의 발화와 관련되지 않은 움직임일 수 있다.

상기 제2 지역적 기하 변환 예측부는, 상기 소스 이미지에서 상기 인물의 발화와 관련되지 않은 움직임만을 포함하는 소스 부분 이미지 및 상기 타겟 이미지에서 상기 인물의 발화와 관련되지 않은 움직임만을 포함하는 타겟 부분 이미지를 각각 입력 받고, 상기 소스 부분 이미지 및 상기 타겟 부분 이미지에 기반하여 상기 제2 지역적 기하 변환을 예측하도록 학습될 수 있다.

상기 제2 지역적 기하 변환 예측부는, 상기 소스 부분 이미지로부터 상기 인물의 지역적 비발화 움직임에 대한 복수 개의 기하 변환인 소스 부분 기하 변환을 추정하고, 상기 타겟 부분 이미지로부터 상기 인물의 지역적 비발화 움직임에 대한 복수 개의 기하 변환인 타겟 부분 기하 변환을 추정하며, 상기 소스 부분 기하 변환 및 상기 타겟 부분 기하 변환에 기반하여 상기 제2 지역적 기하 변환을 산출할 수 있다.

상기 기하 변환 조합부는, 상기 제1 지역적 기하 변환과 상기 제2 지역적 기하 변환을 조합하여 전체 지역적 기하 변환을 산출하고, 상기 전체 지역적 기하 변환과 상기 전역적 기하 변환을 조합하여 상기 전체 움직임 기하 변환을 산출할 수 있다.

상기 제1 전역적 기하 변환 예측부는, n(n은 2 이상의 자연수)개의 프레임을 가지는 영상이 입력되는 경우, 기 설정된 기준 확률 분포에서 상기 영상 중 임의의 i(i∈{1, 2, ..., n})번째 프레임 히트맵으로의 기하 변환을 각각 산출하고, 상기 기준 확률 분포에서 i번째 프레임 히트맵으로의 기하 변환에 기반하여 상기 영상 중 인접한 두 프레임 사이의 전역적 기하 변환을 산출할 수 있다.

상기 발화 합성 영상 생성 장치는, 상기 n개의 프레임에 대응하는 순차 음성 신호를 입력 받고, 상기 순차 음성 신호로부터 상기 영상 중 인접한 두 프레임 사이의 전역적 기하 변환을 예측하도록 학습되는 제2 전역적 기하 변환 예측부를 더 포함할 수 있다.

상기 제2 전역적 기하 변환 예측부는, 상기 제2 전역적 기하 변환 예측부에서 예측된 상기 인접한 두 프레임 사이의 전역적 기하 변환과 상기 제1 전역적 기하 변환 예측부에서 산출한 상기 인접한 두 프레임 사이의 전역적 기하 변환 간의 차이가 최소화 되도록 인공 신경망의 파라미터를 조절할 수 있다.

발화 합성 영상 생성의 테스트 과정에서, 상기 제2 전역적 기하 변환 예측부는, 소정 인물의 순차 음성 신호를 입력 받고, 상기 순차 음성 신호로부터 상기 순차 음성 신호에 대응하는 영상의 인접하는 두 프레임 사이의 전역적 기하 변환을 산출하며, 상기 인접하는 두 프레임 사이의 전역적 기하 변환에 기반하여 기 설정된 타겟 프레임과 기 설정된 시작 프레임 사이의 전역적 기하 변환을 산출하고, 상기 지역적 기하 변환 예측부는, 상기 시작 프레임에 대응하는 소스 음성 신호 및 상기 타겟 프레임에 대응하는 타겟 음성 신호를 입력 받고, 상기 소스 음성 신호 및 상기 타겟 음성 신호에 기반하여 상기 타겟 프레임과 상기 시작 프레임 사이의 지역적 기하 변환을 산출하며, 상기 기하 변환 조합부는, 상기 전역적 기하 변환 및 상기 지역적 기하 변환을 조합하여 전체 움직임 기하 변환을 산출하고, 상기 광학 흐름 예측부는, 상기 시작 프레임 및 상기 전체 움직임 기하 변환을 입력 받고, 상기 시작 프레임 및 상기 전체 움직임 기하 변환으로부터 상기 타겟 프레임과 상기 시작 프레임 사이의 광학 흐름을 산출하며, 상기 영상 생성부는, 상기 시작 프레임 및 상기 광학 흐름을 입력 받고, 상기 시작 프레임 및 상기 광학 흐름으로부터 상기 타겟 프레임을 복원하여 생성할 수 있다.

개시되는 일 실시예에 따른 발화 합성 영상 생성 방법은, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되며 머신 러닝 기반의 발화 합성 영상 생성 방법으로서, 제1 전역적 기하 변환 예측부에서, 동일 인물이 포함된 소스 이미지 및 타겟 이미지를 각각 입력 받고, 상기 소스 이미지 및 상기 타겟 이미지에 기반하여 상기 소스 이미지 및 상기 타겟 이미지 사이의 상기 인물의 전역적 움직임에 대한 전역적 기하 변환을 예측하도록 학습되는 단계; 지역적 기하 변환 예측부에서, 기 설정된 입력 데이터에 기반하여 상기 소스 이미지 및 상기 타겟 이미지 사이의 상기 인물의 지역적 움직임에 대한 지역적 기하 변환을 예측하도록 학습되는 단계; 기하 변환 조합부에서, 상기 전역적 기하 변환 및 상기 지역적 기하 변환을 조합하여 상기 인물의 전체 움직임에 대한 전체 움직임 기하 변환을 산출하는 단계; 광학 흐름 예측부에서, 상기 소스 이미지 및 상기 전체 움직임 기하 변환에 기반하여 상기 소스 이미지 및 상기 타겟 이미지 사이의 광학 흐름을 산출하도록 학습되는 단계; 및 영상 생성부에서, 상기 소스 이미지 및 상기 광학 흐름에 기반하여 상기 타겟 이미지를 복원하도록 학습되는 단계를 포함한다.

개시되는 실시예에 의하면, 발화 합성 영상의 생성 시 영상 속 인물의 전역적 움직임과 지역적 움직임을 각각 분리하여 추정하도록 함으로써, 발화 합성 영상의 생성을 위한 기계 학습 모델의 전체 부피를 줄이고 그에 사용되는 연산을 줄일 수 있게 된다.

도 1은 본 발명의 일 실시예에 따른 발화 합성 영상 생성 장치의 구성을 나타낸 블록도
도 2는 본 발명의 다른 실시예에 따른 발화 합성 영상 생성 장치의 구성을 나타낸 블록도
도 3은 본 발명의 일 실시예에서 순차 음성 신호로부터 인물의 전역적 기하 변환을 추정하기 위한 구성을 나타낸 도면
도 4는 본 발명의 또 다른 실시예에 따른 발화 합성 영상 생성 장치의 구성을 나타낸 블록도
도 5는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도

이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.

본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.

또한, 제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.

개시되는 실시예에서, "발화 합성 영상"은 기계 학습 모델을 통해 소정 인물의 말하는 장면을 합성한 영상으로, 립싱크 영상이라고도 지칭할 수 있다. 발화 합성 영상은 소정 인물의 머리와 흉부 등을 포함하는 상반신 영상일 수 있으나, 이에 한정되는 것은 아니다.

또한, "전역적 움직임"은 영상 속 인물의 전체적인 틀에서의 큰 움직임을 의미할 수 있다. 발화 합성 영상이 상반신 영상인 경우, 전역적 움직임은 영상 속 인물의 상반신 전체의 움직임(예를 들어, 영상 속 인물의 상반신 자세가 변하거나 영상 속 인물이 고개를 돌리거나 하는 등의 움직임)을 의미할 수 있다. 전역적 움직임은 기 설정된 임계량 이상의 움직임으로, 임계량은 인물의 전체적인 틀에서의 큰 움직임을 나타내도록 설정될 수 있다.

또한, "지역적 움직임"은 영상 속 인물의 발화 시 얼굴 움직임을 의미할 수 있다. 즉, 지역적 움직임은 영상 속 인물이 발화를 할 때 인물의 얼굴에서 나타나는 표정의 변화, 입과 턱의 움직임 등을 의미할 수 있다. 지역적 움직임은 임계량 미만의 움직임일 수 있다.

개시되는 실시예에서는, 발화 합성 영상의 생성 시 영상 속 인물의 전역적 움직임은 기하 변환 병목을 이용하여 입력 영상으로부터 분리 추정하여 그 생성을 제어하고, 영상 속 인물의 지역적 움직임은 입력되는 발화 음성 등을 이용하여 그 생성을 제어할 수 있다.

구체적으로, 영상 내 특정 물체의 전체 움직임이 N개의 독립적인 요소 움직임의 조합으로 이루어졌다고 하면, 그 전체 움직임을 완전히 추정하기 위해서는 N개의 기하 변환이 필요할 수 있다. 여기서, N개의 독립적인 요소 움직임이 양적 측면에서 상이한 경우(예를 들어, 영상 내 물체에서 그 움직임이 적용되는 부분의 면적 또는 부피가 상이하거나 움직임의 크기가 상이한 경우 등), 각각의 요소 움직임과 관련된 오차는 요소 움직임의 양에 비례하게 된다.

이때, N개보다 작은 수인 K개(즉, K<N)의 기하 변환을 사용하여 기계 학습 모델을 통해 물체의 움직임을 추정하게 되면, 기계 학습 모델에서 각 요소 움직임 중 오차가 큰 부분에 대한 학습이 우선적으로 이루어지는 과정에서 K개의 기하 변환이 움직임이 가장 큰 요소 움직임을 포착하도록 유도된다.

따라서, 기하 변환의 개수와 기하 변환을 구성하는 요소 변환에 제약을 주어 병목을 형성하면, 영상 내 인물에서 인물의 전역적 움직임(즉, 인물의 머리 및 몸통의 움직임과 같은 큰 움직임)을 상대적으로 움직임 크기가 작은 지역적 움직임(즉, 인물의 발화 시 얼굴 움직임)으로부터 분리하여 추정할 수 있게 된다. 전역적 움직임은 움직임 크기가 가장 큰 단일 요소 움직임일 수도 있고, 움직임 크기가 기 설정된 크기 이상인 복수 개의 요소 움직임들의 집합 일 수도 있다.

예시적인 실시예에서, 평행이동, 회전, 및 확대축소의 요소 변환들로 구성된 단일 기하 변환을 이용하면 영상 내 인물의 전역적 움직임을 포착할 수 있다. 여기서, 평행이동은 영상 내 인물의 상반신의 전체적인 이동을 포착하는데 사용될 수 있다. 회전과 좌우 방향의 확대축소는 영상 내 인물의 머리의 회전에 의해 생기는 변화를 포착하는데 사용될 수 있다. 상하 방향의 확대축소는 영상 내 인물이 고개를 들거나 숙여서 생기는 머리와 몸통 전체의 상하 길이 변화를 포착하는데 사용될 수 있다.

다른 예로, 평행 이동과 회전으로 구성된 기하 변환을 통해 영상 내 인물의 머리 움직임을 포착하도록 하고, 평행 이동만으로 구성된 다른 기하 변환을 통해 영상 내 인물의 몸통 움직임을 포착하도록 할 수도 있다.

또 다른 예로, 발화 합성 영상이 인물의 머리 및 목의 상부까지만 포함된 영상인 경우, 목의 위치는 머리 움직임에 종속되므로, 평행이동과 회전으로 구성된 단일 기하 변환을 사용하여 영상 내 인물의 머리 움직임을 포착하도록 할 수 있다.

한편, 영상 속 인물의 지역적 움직임은 크게 두 가지 움직임으로 구분할 수 있다. 즉, 지역적 움직임은 발화와 관련된 움직임(예를 들어, 인물의 입(입술 포함)과 턱의 움직임)과 발화와 관련되지 않은 움직임(예를 들어, 인물의 눈 깜빡임, 눈썹 움직임, 미간 찌푸림 등)으로 구분할 수 있다. 이하에서, 지역적 움직임 중 발화와 관련된 움직임을 지역적 발화 움직임이라 지칭할 수 있다. 지역적 움직임 중 발화와 관련되지 않은 움직임을 지역적 비발화 움직임이라 지칭할 수 있다.

여기서, 지역적 발화 움직임은 기계 학습 모델에 인물의 발화 음성 신호를 입력으로 하는 인공 신경망을 추가하고, 추가된 인공 신경망에서 발화와 관련된 움직임(지역적 발화 움직임)에 대한 기하 변환을 출력하도록 함으로써, 소스 이미지 및 타겟 이미지로부터 추출한 기하 변환(즉, 전역적 움직임에 대한 기하 변환)과 함께 조합되어 사용되도록 할 수 있다.

이때, 발화 음성 신호는 소스 이미지 및 타겟 이미지에 각각 대응하는 발화 음성 신호를 사용할 수 있으나, 이에 한정되는 것은 아니며 소스 이미지의 발화 음성 신호는 생략하고 타겟 이미지의 발화 음성 신호만을 사용할 수도 있다. 인물의 지역 직접 움직임을 예측하기 위한 기하 변환의 구성 요소와 개수는 필요에 따라 적절하게 설정할 수 있다.

또한, 지역적 비발화 움직임은 기계 학습 모델에 인물의 발화와 관련되지 않은 움직임만을 포함하는 영상(예를 들어, 인물의 눈과 눈썹 주변 부분만을 포함하는 영상)(또는 인물의 비발화 움직임만을 나타내는 특징점)을 입력으로 하는 인공 신경망을 추가하고, 추가된 인공 신경망에서 비발화와 관련된 움직임(지역적 비발화 움직임)에 대한 기하 변환을 출력하도록 함으로써, 전역적 움직임에 대한 기하 변환 및 지역적 발화 움직임에 대한 기하 변환과 함께 조합되어 사용되도록 할 수 있다.

도 1은 본 발명의 일 실시예에 따른 발화 합성 영상 생성 장치의 구성을 나타낸 블록도이다.

도 1을 참조하면, 발화 합성 영상 생성 장치(100)는 제1 전역적 기하 변환 예측부(102), 제1 지역적 기하 변환 예측부(104), 기하 변환 조합부(106), 광학 흐름 예측부(108), 및 영상 생성부(110)를 포함할 수 있다. 발화 합성 영상 생성 장치(100)는 머신 러닝 기술을 기반으로 구현될 수 있다. 이하에서는, 발화 합성 영상 생성을 위한 학습 과정을 위주로 설명하기로 한다.

제1 전역적 기하 변환 예측부(102)는 소스 이미지(I_s) 및 타겟 이미지(I_d)를 각각 입력 받을 수 있다. 여기서, 소스 이미지(I_s) 및 타겟 이미지(I_d)는 동일 인물이 포함된 한 쌍의 이미지로서, 발화 합성 영상 생성 장치(100)는 소스 이미지(I_s)를 입력으로 하여 타겟 이미지(I_d)를 발화 합성 영상으로서 생성하도록 하는 인공 신경망을 포함할 수 있다.

소스 이미지(I_s) 및 타겟 이미지(I_d)는 인물이 말을 하는 영상(즉, 비디오 및 오디오를 포함)에서 비디오 부분일 수 있다. 소스 이미지(I_s) 및 타겟 이미지(I_d)는 인물의 얼굴과 상반신을 포함하는 이미지일 수 있으나, 이에 한정되는 것은 아니다.

제1 전역적 기하 변환 예측부(102)는 소스 이미지(I_s) 및 타겟 이미지(I_d) 간 전역적 움직임에 대한 기하 변환(이하, 전역적 기하 변환이라 지칭할 수 있음)을 산출할 수 있다. 즉, 제1 전역적 기하 변환 예측부(102)는 소스 이미지(I_s) 및 타겟 이미지(I_d) 사이에서 인물의 전역적 움직임(즉, 인물의 머리 및 몸통의 움직임과 같은 큰 움직임)의 차이를 표현할 수 있는 전역적 기하 변환을 산출할 수 있다. 이하에서는, 제1 전역적 기하 변환 예측부(102)가 타겟 이미지(I_d)에서 소스 이미지(I_s)로의 전역적 기하 변환을 산출하는 것을 일 예로 설명하나, 이에 한정되는 것은 아니며 소스 이미지(I_s)에서 타겟 이미지(I_d)로의 전역적 기하 변환을 산출할 수도 있다.

구체적으로, 제1 전역적 기하 변환 예측부(102)는 소스 이미지(I_s) 및 타겟 이미지(I_d)를 각각 입력 받고, 소스 이미지(I_s) 및 타겟 이미지(I_d)에 대한 히트 맵을 각각 추출할 수 있다. 즉, 제1 전역적 기하 변환 예측부(102)는 소스 이미지(I_s)로부터 소스 이미지(I_s)에 대한 히트맵(H_s)(소스 이미지 히트맵)을 추출할 수 있다. 제1 전역적 기하 변환 예측부(102)는 타겟 이미지(I_d)로부터 타겟 이미지(I_d)에 대한 히트맵(H_d)(타겟 이미지 히트맵)을 추출할 수 있다.

예시적인 실시예에서, 제1 전역적 기하 변환 예측부(102)는 CNN(Convolutional Neural Network) 기반의 인공 신경망으로 구성될 수 있으나, 이에 한정되는 것은 아니다. 제1 전역적 기하 변환 예측부(102)는 하기의 수학식 1을 통해 소스 이미지 히트맵(H_s) 및 타겟 이미지 히트맵(H_d)을 각각 추출할 수 있다.

(수학식 1)

F^global : 제1 전역적 기하 변환 예측부(102)를 구성하는 인공 신경망

여기서, 소스 이미지 히트맵(H_s) 및 타겟 이미지 히트맵(H_d)은 각각 이미지 공간 상의 확률 분포로 나타내는 맵일 수 있다. 즉, 소스 이미지 히트맵(H_s)는 소스 이미지(I_s)에서 각 픽셀이 인물의 전역적 움직임과 관련된 픽셀인지에 대한 이미지 공간 상의 확률 분포맵 일 수 있다. 타겟 이미지 히트맵(H_d)은 타겟 이미지(I_d)에서 각 픽셀이 인물의 전역적 움직임과 관련된 픽셀인지에 대한 이미지 공간 상의 확률 분포맵 일 수 있다. 이를 위해, 제1 전역적 기하 변환 예측부(102)의 출력 단은 2차원 소프트맥스 레이어를 포함할 수 있다.

제1 전역적 기하 변환 예측부(102)는 수학식 2를 통해 소스 이미지 히트맵(H_s)의 확률 평균(μ_s) 및 타겟 이미지 히트맵(H_d)의 확률 평균(μ_d)을 각각 산출할 수 있다.

(수학식 2)

z : 이미지 공간 상에서 픽셀의 위치 값(좌표)

H_s(z) : 소스 이미지 히트맵(H_s)에서 z 위치에 있는 픽셀의 확률 값

H_d(z) : 타겟 이미지 히트맵(H_d)에서 z 위치에 있는 픽셀의 확률 값

제1 전역적 기하 변환 예측부(102)는 소스 이미지 히트맵(H_s)의 확률 평균(μ_s)에 기반하여 소스 이미지 히트맵(H_s)의 공분산 행렬을 산출하고, 타겟 이미지 히트맵(H_d)의 확률 평균(μ_d)에 기반하여 타겟 이미지 히트맵(H_d)의 공분산 행렬을 산출할 수 있다. 제1 전역적 기하 변환 예측부(102)는 수학식 3을 통해 소스 이미지 히트맵(H_s)의 공분산 행렬(K_s) 및 타겟 이미지 히트맵(H_d)의 공분산 행렬(K_d)을 산출할 수 있다.

(수학식 3)

T : 전치 행렬

여기서, 이미지 히트맵(H_s)의 공분산 행렬(K_s) 및 타겟 이미지 히트맵(H_d)의 공분산 행렬(K_d)은 각각 특이값 분해(Singular Value Decomposition)을 통해 다음의 수학식 4와 같이 분해할 수 있다.

(수학식 4)

U_s, U_d : 유니터리 행렬

Σ_s, Σ_d : 대각 행렬

V_s, V_d : 유니터리 행렬

이미지 히트맵(H_s)의 공분산 행렬(K_s) 및 타겟 이미지 히트맵(H_d)의 공분산 행렬(K_d)이 각각 m×n 행렬인 경우, U_s, U_d는 m×m 크기를 가지는 유니터리 행렬이고, Σ_s, Σ_d는 m×n 크기를 가지는 대각 행렬이며, V_s, V_d는 n×n 크기를 가지는 유니터리 행렬일 수 있다.

제1 전역적 기하 변환 예측부(102)는 소스 이미지 히트맵(H_s)의 공분산 행렬(K_s)의 특이값 분해에 따른 유니터리 행렬(U_s), 대각 행렬(Σ_s), 및 소스 이미지 히트맵(H_s)의 확률 평균(μ_s)에 기반하여 기 설정된 기준 확률 분포(H_r)에서 소스 이미지 히트맵(H_s)으로의 기하 변환을 산출할 수 있다. 여기서, 기 설정된 기준 확률 분포(H_r)는 확률 평균이 0이고 공분산 행렬이 단위 행렬이며 주축이 이미지 축과 정렬되어 있는 확률 분포일 수 있다.

제1 전역적 기하 변환 예측부(102)는 다음의 수학식 5를 통해 기 설정된 기준 확률 분포(H_r)에서 소스 이미지 히트맵(H_s)으로의 기하 변환(

)을 산출할 수 있다.

(수학식 5)

또한, 제1 전역적 기하 변환 예측부(102)는 타겟 이미지 히트맵(H_d)의 공분산 행렬(K_d)의 특이값 분해에 따른 유니터리 행렬(U_d), 대각 행렬(Σ_d), 및 타겟 이미지 히트맵(H_d)의 확률 평균(μ_d)에 기반하여 기 설정된 기준 확률 분포(H_r)에서 타겟 이미지 히트맵(H_d)으로의 기하 변환을 산출할 수 있다. 제1 전역적 기하 변환 예측부(102)는 다음의 수학식 6을 통해 기 설정된 기준 확률 분포(H_r)에서 타겟 이미지 히트맵(H_d)으로의 기하 변환(

)을 산출할 수 있다.

(수학식 6)

한편, 여기서는 제1 전역적 기하 변환 예측부(102)의 인공 신경망이 소스 이미지(I_s) 및 타겟 이미지(I_d)를 입력 받아 소스 이미지 히트맵(H_s) 및 타겟 이미지 히트맵(H_d)을 각각 추출하고, 그 이후의 과정은 연산을 통해 이루어지는 것으로 설명하였으나, 이에 한정되는 것은 아니며 제1 전역적 기하 변환 예측부(102)의 인공 신경망이 소스 이미지(I_s) 및 타겟 이미지(I_d)를 입력 받아 기 설정된 기준 확률 분포(H_r)에서 소스 이미지 히트맵(H_s)으로의 기하 변환(

) 및 기 설정된 기준 확률 분포(H_r)에서 타겟 이미지 히트맵(H_d)으로의 기하 변환(

)을 각각 추출하도록 할 수도 있다.

제1 전역적 기하 변환 예측부(102)는 기준 확률 분포(H_r)에서 소스 이미지 히트맵(H_s)으로의 기하 변환(

) 및 기준 확률 분포(H_r)에서 타겟 이미지 히트맵(H_d)으로의 기하 변환(

)에 기반하여 타겟 이미지(I_d)에서 소스 이미지(I_s)로의 전역적 기하 변환을 산출할 수 있다. 제1 전역적 기하 변환 예측부(102)는 다음의 수학식 7을 통해 타겟 이미지(I_d)에서 소스 이미지(I_s)로의 전역적 기하 변환(

)을 산출할 수 있다.

(수학식 7)

한편, 여기서는 제1 전역적 기하 변환 예측부(102)의 신경망이 소스 이미지(I_s) 및 타겟 이미지(I_d)를 입력 받아 소스 이미지 히트맵(H_s) 및 타겟 이미지 히트맵(H_d)을 각각 추출(즉, 히트맵 기반으로 전역적 기하 변환 산출)하는 것으로 설명을 하였으나, 이에 한정되는 것은 아니며 Encoder-Predictor 구조와 같은 인공 신경망을 사용하여 히트맵 없이 소스 이미지(I_s) 및 타겟 이미지(I_d)에서 전역적 기하 변환을 직접 추정하는 방법을 사용할 수도 있다.

제1 지역적 기하 변환 예측부(104)는 발화 합성 영상에서 인물의 지역적 움직임을 추정하기 위한 인공 신경망을 포함할 수 있다. 예시적인 실시예에서, 상기 인공 신경망은 입력되는 음성 신호로부터 인물의 지역적 발화 움직임(인물의 입과 턱의 움직임과 같이 발화와 관련된 움직임)을 추정하도록 학습될 수 있다.

구체적으로, 제1 지역적 기하 변환 예측부(104)는 소스 음성 신호(M_s) 및 타겟 음성 신호(M_d)을 각각 입력 받을 수 있다. 여기서, 소스 음성 신호(M_s) 및 타겟 음성 신호(M_d)는 각각 소스 이미지(I_s) 및 타겟 이미지(I_d)에 대응하는 음성 신호일 수 있다. 즉, 소스 이미지(I_s) 및 타겟 이미지(I_d)가 인물이 말을 하는 영상(즉, 비디오 및 오디오를 포함)에서 비디오 부분인 경우, 소스 음성 신호(M_s) 및 타겟 음성 신호(M_d)는 인물이 말을 하는 영상의 해당 비디오 부분과 대응하는 구간의 오디오 부분일 수 있다.

제1 지역적 기하 변환 예측부(104)는 소스 음성 신호(M_s)로부터 인물의 지역적 움직임에 대한 복수 개의 기하 변환(이하, 소스 음성 기하 변환이라 지칭할 수 있음)을 추정할 수 있다. 즉, 제1 지역적 기하 변환 예측부(104)는 소스 음성 신호(M_s)에 기반하여 인물이 소스 음성을 발화하였을 때 발화와 직접 관련된 움직임을 표현할 수 있는 복수 개(n개, n은 2 이상의 자연수)의 기하 변환을 추정할 수 있다. 이때, 기하 변환의 개수는 필요에 따라 적절하게 설정할 수 있다.

또한, 제1 지역적 기하 변환 예측부(104)는 타겟 음성 신호(M_d)로부터 인물의 지역적 움직임에 대한 복수 개의 기하 변환(이하, 타겟 음성 기하 변환이라 지칭할 수 있음)을 추정할 수 있다. 즉, 제1 지역적 기하 변환 예측부(104)는 타겟 음성 신호(M_d)에 기반하여 인물이 타겟 음성을 발화하였을 때 발화와 직접 관련된 움직임을 표현할 수 있는 복수 개(n개, n은 2 이상의 자연수)의 기하 변환을 추정할 수 있다. 이때, 기하 변환의 개수는 필요에 따라 적절하게 설정할 수 있다.

제1 지역적 기하 변환 예측부(104)는 다음의 수학식 8 및 수학식 9를 통해 소스 음성 신호(M_s)로부터 소스 음성 기하 변환(

)을 추정하고, 타겟 음성 신호(M_d)로부터 타겟 음성 기하 변환(

)을 추정할 수 있다.

(수학식 8)

(수학식 9)

여기서, k∈{1,..., n}(n은 2 이상의 자연수)이고, F^local1은 제1 지역적 기하 변환 예측부(104)를 구성하는 인공 신경망이다.

제1 지역적 기하 변환 예측부(104)는 소스 음성 기하 변환(

) 및 타겟 음성 기하 변환(

)에 기반하여 소스 이미지(I_s) 및 타겟 이미지(I_d) 사이에서 인물의 지역적 움직임(여기서는, 인물의 지역적 발화 움직임)의 차이를 표현할 수 있는 지역적 기하 변환을 산출할 수 있다. 이하에서는, 제1 지역적 기하 변환 예측부(104)가 타겟 이미지(I_d)에서 소스 이미지(I_s)로의 지역적 기하 변환을 산출하는 것을 일 예로 설명하나, 이에 한정되는 것은 아니며 소스 이미지(I_s)에서 타겟 이미지(I_d)로의 지역적 기하 변환을 산출할 수도 있다.

제1 지역적 기하 변환 예측부(104)는 하기 수학식 10을 통해 타겟 이미지(I_d)에서 소스 이미지(I_s)로의 지역적 기하 변환(

)을 산출할 수 있다.

(수학식 10)

한편, 여기서는 제1 지역적 기하 변환 예측부(104)의 신경망이 소스 음성 신호(M_s) 및 타겟 음성 신호(M_d)을 각각 입력받아 지역적 기하 변환을 산출하는 것으로 설명하였으나, 이에 한정되는 것은 아니며 소스 이미지(I_s) 및 타겟 이미지(I_d)를 입력 받아 소스 이미지 히트맵(H_s) 및 타겟 이미지 히트맵(H_d)을 각각 추출하여 지역적 기하 변환을 산출할 수도 있다. 또한, 여기서는 소스 음성 신호(M_s) 및 타겟 음성 신호(M_d)을 각각 입력받아 지역적 기하 변환을 산출하는 것으로 설명하였으나, 이에 한정되는 것은 아니며 타겟 음성 신호(M_d) 만으로 지역적 기하 변환을 산출할 수도 있다.

기하 변환 조합부(106)는 제1 전역적 기하 변환 예측부(102)에서 산출한 전역적 기하 변환 및 제1 지역적 기하 변환 예측부(104)에서 산출한 지역적 기하 변환을 조합하여 인물의 전체 움직임(즉, 전역적 움직임 및 지역적 움직임을 모두 포함하는 움직임)에 대한 기하 변환을 산출할 수 있다. 이하, 인물의 전체 움직임에 대한 기하 변환을 전체 움직임 기하 변환이라 지칭할 수 있다.

예시적인 실시예에서, 제1 전역적 기하 변환 예측부(102)가 타겟 이미지(I_d)에서 소스 이미지(I_s)로의 전역적 기하 변환(

)을 산출하고, 제1 지역적 기하 변환 예측부(104)가 타겟 이미지(I_d)에서 소스 이미지(I_s)로의 지역적 기하 변환(

)을 산출한 경우, 기하 변환 조합부(106)는 전역적 기하 변환(

) 및 지역적 기하 변환(

)을 조합하여 타겟 이미지(I_d)에서 소스 이미지(I_s)로의 전체 움직임 기하 변환을 산출할 수 있다. 그러나, 이에 한정되는 것은 아니며 소스 이미지(I_s)에서 타겟 이미지(I_d)로의 전체 움직임 기하 변환을 산출할 수도 있다.

일 예로, 기하 변환 조합부(106)는 아래의 수학식 11에서 나타낸 바와 같이, 복수 개(n개)의 지역적 기하 변환(

)을 전역적 기하 변환(

)에 순차적으로 곱하여 전체 움직임 기하 변환(

)을 산출할 수 있다.

(수학식 11)

다른 예로, 기하 변환 조합부(106)는 아래의 수학식 12에서 나타낸 바와 같이, 복수 개(n개)의 지역적 기하 변환(

)과 전역적 기하 변환(

)을 기하 변환의 집합으로 구성하여 전체 움직임 기하 변환(

)을 산출할 수 있다.

(수학식 12)

또 다른 예로, 기하 변환 조합부(106)는 아래의 수학식 13에서 나타낸 바와 같이,

를 통해 타겟 이미지(I_d) 좌표를 기 설정된 레퍼런스 좌표계의 좌표로 변환하고, 지역적 기하 변환(

)을 기 설정된 레퍼런스 좌표계에 적용한 후,

를 통해 기 설정된 레퍼런스 좌표계의 좌표를 소스 이미지(I_s) 좌표로 변환하여 전체 움직임 기하 변환(

)을 산출할 수 있다.

(수학식 13)

수학식 13에서, 기하 변환 간 곱셈은 동차 좌표(homogeneous coordinates) 방식이 사용될 수 있다.

광학 흐름 예측부(108)는 기하 변환 조합부(106)에서 산출한 전체 움직임 기하 변환 및 소스 이미지(I_s)를 입력으로 하여 소스 이미지(I_s) 및 타겟 이미지(I_d) 사이에서 픽셀 단위의 움직임(또는 변화량)을 나타내는 광학 흐름(optical flow)을 산출할 수 있다.

예시적인 실시예에서, 기하 변환 조합부(106)가 타겟 이미지(I_d)에서 소스 이미지(I_s)로의 전체 움직임 기하 변환(

)을 산출한 경우, 광학 흐름 예측부(108)는 전체 움직임 기하 변환(

) 및 소스 이미지(I_s)에 기반하여 타겟 이미지(I_d)에서 소스 이미지(I_s)로의 광학 흐름을 산출할 수 있으며, 이하에서는 이 경우에 대해 설명하기로 한다. 그러나, 이에 한정되는 것은 아니며 소스 이미지(I_s)에서 타겟 이미지(I_d)로의 광학 흐름을 산출할 수도 있다.

구체적으로, 광학 흐름 예측부(108)는 이미지 와핑(image warping) 연산자를 이용하여 전체 움직임 기하 변환(

)을 소스 이미지(I_s)에 적용함으로써 소스 이미지(I_s)를 변환할 수 있다. 이때, 광학 흐름 예측부(108)는 다음의 수학식 14를 통해 소스 이미지(I_s)를 변환할 수 있다.

(수학식 14)

: 변환된 소스 이미지(I_s)

warp() : 이미지 와핑을 위한 연산자

k : k∈{1,..., n}(n은 2 이상의 자연수)

수학식 14에서, 이미지 와핑을 위한 연산자는 변환된 소스 이미지(

)의 좌표에 n개의 전체 움직임 기하 변환(

)을 각각 적용하여 변환된 소스 이미지(

)의 좌표에 대응하는 소스 이미지(I_s)의 좌표를 계산하고, 보간법(interpolation)을 사용하여 소스 이미지(I_s)의 픽셀 값으로부터 변환된 소스 이미지(

)의 픽셀 값을 추정하는 백워드 와핑(backward warping) 연산이 사용될 수 있다.

광학 흐름 예측부(108)는 변환된 소스 이미지(

)를 기반으로 광학 흐름을 추정하기 위한 가중치 확률 분포맵을 산출할 수 있다. 이때, 광학 흐름 예측부(108)는 변환된 소스 이미지(

)를 인공 신경망에 입력하여 각 픽셀마다 n개의 클래스를 가지는 가중치 확률 분포맵(P)을 산출할 수 있다. 이는 다음의 수학식 15로 표현될 수 있다.

(수학식 15)

F^flow: 광학 흐름 예측부(108)에서 광학 흐름을 추정하기 위한 인공 신경망

여기서, 상기 인공 신경망은 가중치 확률 분포맵(P)을 산출하기 위해 출력 단에 1차원 소프트맥스 레이어를 포함할 수 있다.

한편, 여기서는 변환된 소스 이미지(

)를 인공 신경망(F^flow)의 입력으로 하였으나, 이에 한정되는 것은 아니며 소스 이미지(I_s)에서 추출한 특징 텐서를 인공 신경망(F^flow)의 입력으로 하여 가중치 확률 분포맵(P)을 산출할 수도 있다.

광학 흐름 예측부(108)는 변환된 소스 이미지(

)의 각 픽셀 위치에 그에 대응하는 가중치 확률 분포 값을 사용하여 전체 움직임 기하 변환(

)을 선형 결합함으로써 타겟 이미지(I_d)에서 소스 이미지(I_s)로의 각 픽셀 별 광학 흐름을 산출할 수 있다. 광학 흐름 예측부(108)는 수학식 16을 통해 타겟 이미지(I_d)에서 소스 이미지(I_s)로의 각 픽셀 별 광학 흐름을 산출할 수 있다.

(수학식 16)

z : 픽셀 위치

f_s←d(z) : 픽셀 z 위치의 타겟 이미지(I_d)에서 소스 이미지(I_s)로의 광학 흐름

P^k(z) : 픽셀 z 위치의 k번째 가중치 확률 분포 값

영상 생성부(110)는 광학 흐름 예측부(108)에서 산출한 소스 이미지(I_s) 및 타겟 이미지(I_d) 사이의 광학 흐름(optical flow) 및 소스 이미지(I_s)에 기반하여 타겟 이미지(I_d)를 복원하여 생성할 수 있다.

예시적인 실시예에서, 광학 흐름 예측부(108)가 타겟 이미지(I_d)에서 소스 이미지(I_s)로의 각 픽셀 별 광학 흐름(f_s←d(z))을 산출한 경우, 영상 생성부(110)는 타겟 이미지(I_d)에서 소스 이미지(I_s)로의 각 픽셀 별 광학 흐름(f_s←d(z)) 및 소스 이미지(I_s)에 기반하여 타겟 이미지(I_d)를 복원할 수 있다.

구체적으로, 영상 생성부(110)는 소스 이미지(I_s)를 인공 신경망(예를 들어, 인코더(encoder))에 입력하여 특징 텐서를 추출할 수 있다. 이때, 인공 신경망은 소스 이미지(I_s)를 인코딩 하여 소스 이미지(I_s)로부터 특징 텐서를 추출할 수 있다.

영상 생성부(110)는 타겟 이미지(I_d)에서 소스 이미지(I_s)로의 각 픽셀 별 광학 흐름(f_s←d(z))을 이용하여 소스 이미지(I_s)의 특징 텐서(φ(I_s))를 변환할 수 있다. 영상 생성부(110)는 하기 수학식 17을 통해 소스 이미지(I_s)의 특징 텐서(φ(I_s))를 변환할 수 있다.

(수학식 17)

여기서, 이미지 와핑을 위한 연산자 warp()는 백워드 와핑(backward warping) 연산자가 사용될 수 있다.

영상 생성부(110)는 소스 이미지의 변환된 특징 텐서(φ(I_s)')를 인공 신경망(예를 들어, 디코더(decoder))에 입력하여 타겟 이미지(I_d)를 복원할 수 있다. 영상 생성부(110)는 복원된 타겟 이미지(I_d)'와 실제 타겟 이미지(I_d) 간의 차이가 최소화되도록 인공 신경망을 학습할 수 있다.

한편, 발화 합성 영상 생성 장치(100)의 학습이 완료된 경우, 소스 이미지와 임의의 타겟 이미지를 제1 전역적 기하 변환 예측부(102)로 입력하고, 소스 음성 신호(소스 이미지와 대응되는 음성 신호)와 임의의 타겟 음성 신호를 제1 지역적 기하 변환 예측부(104)로 입력하여 소스 이미지로부터 임의의 타겟 이미지를 복원할 수 있게 된다.

도 2는 본 발명의 다른 실시예에 따른 발화 합성 영상 생성 장치의 구성을 나타낸 블록도이다.

도 2를 참조하면, 발화 합성 영상 생성 장치(100)는 제1 전역적 기하 변환 예측부(102), 제1 지역적 기하 변환 예측부(104), 기하 변환 조합부(106), 광학 흐름 예측부(108), 영상 생성부(110), 및 제2 지역적 기하 변환 예측부(112)를 포함할 수 있다.

즉, 도 2에 개시된 발화 합성 영상 생성 장치(100)는 도 1에 도시된 실시예에서 제2 지역적 기하 변환 예측부(112)를 더 포함한 것일 수 있다. 이하에서는, 도 1에 도시된 실시예와 차이가 나는 부분을 중점적으로 설명하기로 한다.

여기서, 제1 지역적 기하 변환 예측부(104)는 도 1에서 설명한 바와 같이, 입력되는 음성 신호로부터 인물의 지역적 발화 움직임에 대한 제1 지역적 기하 변환을 산출하도록 마련될 수 있다. 즉, 제1 지역적 기하 변환 예측부(104)는 입력되는 소스 음성 신호 및 타겟 음성 신호에 기반하여 소스 이미지 및 타겟 이미지사이에서 인물의 지역적 발화 움직임의 차이를 표현할 수 있는 제1 지역적 기하 변환을 산출하도록 마련될 수 있다.

제2 지역적 기하 변환 예측부(112)는 발화 합성 영상에서 인물의 지역적 비발화 움직임을 추정하기 위한 인공 신경망을 포함할 수 있다. 예시적인 실시예에서, 상기 인공 신경망은 입력되는 부분 이미지(또는 특징점)으로부터 인물의 지역적 비발화 움직임(예를 들어, 인물의 눈 깜빡임, 눈썹 움직임, 미간 찌푸림 등)을 추정하도록 학습될 수 있다.

제2 지역적 기하 변환 예측부(112)는 인물의 비발화와 관련된 움직임만을 포함하는 부분 이미지를 입력 받을 수 있다. 예시적인 실시예에서, 제2 지역적 기하 변환 예측부(112)는 소스 이미지에서 인물의 눈과 눈썹 주변만을 포함하는 소스 부분 이미지(I_s ^eyes) 및 타겟 이미지에서 인물의 눈과 눈썹 주변만을 포함하는 타겟 부분 이미지(I_d ^eyes)를 각각 입력 받을 수 있다.

여기서, 소스 부분 이미지(I_s ^eyes) 및 타겟 부분 이미지(I_d ^eyes)는 소스 이미지 및 타겟 이미지에서 인물의 눈과 눈썹 주변을 제외한 부분을 가리는 마스크를 사용한 것일 수도 있고, 소스 이미지 및 타겟 이미지에서 인물의 눈과 눈썹 주변만을 잘라낸 것일 수도 있다.

한편, 여기서는, 소스 부분 이미지(I_s ^eyes) 및 타겟 부분 이미지(I_d ^eyes)가 제2 지역적 기하 변환 예측부(112)로 입력되는 것으로 설명하였으나, 이에 한정되는 것은 아니며 소스 부분 이미지(I_s ^eyes) 및 타겟 부분 이미지(I_d ^eyes)의 특징점이 각각 제2 지역적 기하 변환 예측부(112)로 입력될 수도 있다.

제2 지역적 기하 변환 예측부(112)는 인물의 비발화와 관련된 움직임만을 포함하는 입력 데이터(부분 이미지 또는 특징점)에 인물의 전역적 움직임에 해당하는 정보가 존재하는 경우, 입력 데이터에서 인물의 전역적 움직임에 해당하는 정보를 제거할 수 있다. 예를 들어, 입력 데이터가 부분 이미지인 경우, 제2 지역적 기하 변환 예측부(112)는 부분 이미지에서 인물의 비발화와 관련된 움직임 부분의 위치 및 크기 등을 고정하여 인물의 전역적 움직임에 해당하는 정보를 제거할 수 있다. 또한, 입력 데이터가 특징점인 경우, 제2 지역적 기하 변환 예측부(112)는 특징점 좌표에서 인물의 전역적 움직임에 해당하는 값을 제거하여 인물의 비발화와 관련된 움직임 값만 남길 수 있다.

제2 지역적 기하 변환 예측부(112)는 소스 부분 이미지(I_s ^eyes)로부터 인물의 지역적 비발화 움직임에 대한 복수 개의 기하 변환(이하, 소스 부분 기하 변환이라 지칭할 수 있음)을 추정할 수 있다. 또한, 제2 지역적 기하 변환 예측부(112)는 타겟 부분 이미지(I_d ^eyes)로부터 인물의 지역적 비발화 움직임에 대한 복수 개의 기하 변환(이하, 타겟 부분 기하 변환이라 지칭할 수 있음)을 추정할 수 있다. 이때, 기하 변환의 개수는 필요에 따라 적절하게 설정할 수 있다.

제2 지역적 기하 변환 예측부(112)는 다음의 수학식 18을 통해 소스 부분 이미지(I_s ^eyes)로부터 소스 부분 기하 변환(

)을 추정하고, 타겟 부분 이미지(I_d ^eyes)로부터 타겟 부분 기하 변환(

)을 추정할 수 있다.

(수학식 18)

여기서, k∈{1,..., n}(n은 2 이상의 자연수)이고, F^local2은 제2 지역적 기하 변환 예측부(112)를 구성하는 인공 신경망이다.

제2 지역적 기하 변환 예측부(112)는 소스 부분 기하 변환(

) 및 타겟 부분 기하 변환(

)에 기반하여 소스 이미지(I_s) 및 타겟 이미지(I_d) 사이에서 인물의 지역적 비발화 움직임의 차이를 표현할 수 있는 제2 지역적 기하 변환을 산출할 수 있다. 이하에서는, 제2 지역적 기하 변환 예측부(112)가 타겟 이미지(I_d)에서 소스 이미지(I_s)로의 제2 지역적 기하 변환을 산출하는 것을 일 예로 설명하나, 이에 한정되는 것은 아니며 소스 이미지(I_s)에서 타겟 이미지(I_d)로의 제2 지역적 기하 변환을 산출할 수도 있다.

제2 지역적 기하 변환 예측부(112)는 하기 수학식 19를 통해 타겟 이미지(I_d)에서 소스 이미지(I_s)로의 제2 지역적 기하 변환(

)을 산출할 수 있다.

(수학식 19)

한편, 기하 변환 조합부(106)는 제1 전역적 기하 변환 예측부(102)에서 산출한 전역적 기하 변환, 제1 지역적 기하 변환 예측부(104)에서 산출한 제1 지역적 기하 변환, 및 제2 지역적 기하 변환 예측부(112)에서 산출한 제2 지역적 기하 변환을 조합하여 전체 움직임 기하 변환을 산출할 수 있다.

예시적인 실시예에서, 기하 변환 조합부(106)는 제1 지역적 기하 변환과 제2 지역적 기하 변환을 조합하여 전체 지역적 기하 변환을 산출하고, 전체 지역적 기하 변환과 전역적 기하 변환을 조합하여 전체 움직임 기하 변환을 산출할 수 있다. 여기서, 전체 지역적 기하 변환과 전역적 기하 변환을 조합하여 전체 움직임 기하 변환을 산출하는 방법은 수학식 11 내지 수학식 13과 동일 또는 유사한 방식으로 할 수 있으므로 이에 대한 자세한 설명은 생략하기로 한다.

제1 지역적 기하 변환 예측부(104)에서 산출한 타겟 이미지(I_d)에서 소스 이미지(I_s)로의 제1 지역적 기하 변환을

라고 하면, 소스 이미지(I_s) 및 타겟 이미지(I_d) 사이에서 인물의 전체 지역적 움직임(즉, 지역적 발화 움직임과 지역적 비발화 움직임을 포함)의 차이를 표현하는 전체 지역적 기하 변환(

)은 다음의 수학식 20과 같이 나타낼 수 있다.

(수학식 20)

그리고, 광학 흐름 예측부(108) 및 영상 생성부(110)는 도 1에 도시된 실시예와 동일하므로 이에 대한 자세한 설명은 생략하기로 한다.

한편, 여기서는 제1 지역적 기하 변환 예측부(104) 및 제2 지역적 기하 변환 예측부(112)가 모두 포함되는 것으로 설명하였으나, 이에 한정되는 것은 아니며 지역적 비발화 움직임에 대한 기하 변환을 추정할 때 제1 지역적 기하 변환 예측부(104)는 생략할 수도 있다. 즉, 지역적 비발화 움직임은 발화 음성과 관련 없이 합성될 수도 있다. 예를 들어, 음성 없이 인물의 대기 영상을 합성하는 경우, 발화 음성 없이 지역적 비발화 움직임을 추정할 수 있다.

한편, 개시되는 실시예에서는, 인물의 전역적 기하 변환의 상대적인 변화량을 음성 신호 시퀀스로 학습할 수도 있다. 즉, 음성 신호 시퀀스(순차 음성 신호)를 입력으로 하는 별도의 인공 신경망을 추가하고, 상기 인공 신경망이 입력되는 음성 신호 시퀀스로부터 도 1에 도시된 제1 전역적 기하 변환 예측부(102)에서 산출되는 전역적 기하 변환의 상대적인 변화량을 추정하도록 학습할 수 있다.

도 3은 본 발명의 일 실시예에서 순차 음성 신호로부터 인물의 전역적 기하 변환을 추정하기 위한 구성을 나타낸 도면이다. 도 3을 참조하면, 발화 합성 영상 생성 장치(100)는 제1 전역적 기하 변환 예측부(102) 이외에 제2 전역적 기하 변환 예측부(114)를 더 포함할 수 있다.

여기서, 제1 전역적 기하 변환 예측부(102)가 학습된 상태인 경우, n개의 프레임을 가지는 영상(I_i, 1≤i≤n)을 제1 전역적 기하 변환 예측부(102)로 입력하면, 제1 전역적 기하 변환 예측부(102)는 기 설정된 기준 확률 분포(H_r)에서 i번째 프레임 히트맵으로의 기하 변환(

)을 각각 산출할 수 있다.

그리고, 제1 전역적 기하 변환 예측부(102)는 기 설정된 기준 확률 분포(H_r)에서 i(i∈{1,..., n})번째 프레임 히트맵으로의 기하 변환(

)에 기반하여 인접하는 두 프레임 사이의 전역적 기하 변환(

)을 산출할 수 있다. 여기서, 제1 전역적 기하 변환 예측부(102)는 두 프레임 사이의 전역적 기하 변환(

)을 하기의 수학식 21을 통해 산출할 수 있다.

(수학식 21)

한편, 제2 전역적 기하 변환 예측부(114)의 학습 단계에서, 제2 전역적 기하 변환 예측부(114)는 n개의 프레임을 가지는 영상(I_i, 1≤i≤n)에 대응하는 순차 음성 신호(M_i, 1≤i≤n)를 입력 받을 수 있다. 제2 전역적 기하 변환 예측부(114)는 입력되는 순차 음성 신호(M_i)로부터 해당 영상의 두 프레임 사이의 전역적 기하 변환(

)을 추정하도록 학습되는 인공 신경망(F^seq)을 포함할 수 있다.

이때, 제2 전역적 기하 변환 예측부(114)는 제1 전역적 기하 변환 예측부(102)에서 산출하는 두 프레임 사이의 전역적 기하 변환(

)을 정답 값으로 하여 인공 신경망(F^seq)에서 출력하는 두 프레임 사이의 전역적 기하 변환과 상기 정답 값 간의 차이가 최소가 되도록 인공 신경망(F^seq)을 학습(즉, 인공 신경망(F^seq)의 파라미터 또는 가중치를 조절)시킬 수 있다.

제2 전역적 기하 변환 예측부(114)는 하기의 수학식 22를 통해 입력되는 순차 음성 신호(M_i)로부터 해당 영상의 두 프레임 사이의 전역적 기하 변환(

)을 추정할 수 있다.

(수학식 23)

이와 같이, 제2 전역적 기하 변환 예측부(114)의 학습이 완료된 경우, 소스 이미지 및 순차 음성 신호를 입력으로 하여 인물의 전역적 기하 변환을 예측할 수 있게 된다. 이 경우, 제1 전역적 기하 변환 예측부(102) 대신 제2 전역적 기하 변환 예측부(114)를 통해 인물의 전역적 기하 변환을 예측하게 된다. 이를 위한 발화 합성 영상 생성 장치(100)의 구성을 보면 도 4에 도시한 바와 같다. 즉, 도 4는 본 발명의 또 다른 실시예에 따른 발화 합성 영상 생성 장치의 구성을 나타낸 블록도이다.

도 4를 참조하면, 발화 합성 영상 생성 장치(100)는 제2 지역적 기하 변환 예측부(114), 제1 지역적 기하 변환 예측부(104), 기하 변환 조합부(106), 광학 흐름 예측부(108), 및 영상 생성부(110)를 포함할 수 있다. 여기서, 발화 합성 영상 생성 장치(100)의 각 인공 신경망들은 학습이 완료된 상태이고, 입력되는 데이터를 통해 발화 합성 영상을 생성하는 테스트 과정에 대해 설명하기로 한다.

제2 지역적 기하 변환 예측부(114)는 소정 인물의 순차 음성 신호를 입력 받고, 입력 받은 순차 음성 신호로부터 순차 음성 신호에 대응하는 영상의 두 프레임 사이의 전역적 기하 변환(

)을 추정할 수 있다.

제2 지역적 기하 변환 예측부(114)는 순차 음성 신호에 대응하는 영상의 두 프레임 사이의 전역적 기하 변환(

)을 기반으로 타겟 프레임(i번째 프레임)에서 시작 프레임(소스 이미지)로의 전역적 기하 변환을 산출할 수 있다.

여기서, 시작 프레임은 인물의 아이덴티티에 대한 정보를 제공하기 위한 것일 수 있다. 이때, 인물의 아이덴티티에 대한 정보를 제공하기 위해 시작 프레임 대신 또는 시작 프레임 이외에 해당 인물에 대한 임베딩 벡터 등이 추가로 입력될 수도 있다.

구체적으로, 제2 지역적 기하 변환 예측부(114)는 순차 음성 신호에 대응하는 영상의 두 프레임 사이의 전역적 기하 변환(

)을 기반으로 소스 이미지를 시작 프레임으로 하여 시작 프레임에서 i번째 프레임(즉, 타겟 프레임)으로의 전역적 기하 변환(

)을 하기의 수학식 24를 통해 산출할 수 있다.

(수학식 24)

다음으로, 제2 지역적 기하 변환 예측부(114)는 하기의 수학식 25를 통해 타겟 프레임인 i번째 프레임에서 시작 프레임으로의 전역적 기하 변환(

)을 산출할 수 있다.

(수학식 25)

제1 지역적 기하 변환 예측부(104)는 소스 음성 신호 및 타겟 음성 신호를 각각 입력 받는다. 여기서, 소스 음성 신호는 시작 프레임인 소스 이미지에 대응하는 음성 신호일 수 있다. 또한, 타겟 음성 신호는 타겟 프레임(i번째 프레임)에 대응하는 음성 신호일 수 있다.

제1 지역적 기하 변환 예측부(104)는 소스 음성 신호 및 타겟 음성 신호에 기반하여 타겟 프레임에서 시작 프레임으로의 지역적 기하 변환(

)을 산출할 수 있다.

기하 변환 조합부(106)는 타겟 프레임에서 시작 프레임으로의 전역적 기하 변환(

) 및 지역적 기하 변환(

)을 조합하여 타겟 프레임에서 시작 프레임으로의 전체 움직임 기하 변환(

)을 산출할 수 있다.

광학 흐름 예측부(108)는 시작 프레임 및 타겟 프레임에서 시작 프레임으로의 전체 움직임 기하 변환(

)을 각각 입력 받고, 이들로부터 타겟 프레임에서 시작 프레임으로의 각 픽셀 별 광학 흐름(

)을 산출할 수 있다.

영상 생성부(110)는 시작 프레임 및 타겟 프레임에서 시작 프레임으로의 각 픽셀 별 광학 흐름(

)을 각각 입력 받고, 이들로부터 타겟 프레임을 복원하여 생성할 수 있다. 이와 같이, 개시되는 실시예에 의하면, 순차 음성 신호를 입력으로 하여 인물의 전역적 움직임을 추정할 수 있고, 이를 기반으로 발화 합성 영상을 생성할 수 있게 된다.

한편, 여기서는 인물의 지역적 발화 움직임을 추정하기 위해 제1 지역적 기하 변환 예측부(104)를 도시하였으나, 이에 한정되는 것은 아니며 인물의 지역적 비발화 움직임을 추가로 추정하기 위해 제2 지역적 기하 변환 예측부(112)를 추가할 수도 있다.

도 5는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.

도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 발화 합성 영상 생성 장치(100)일 수 있다.

컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.

컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.

이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

100 : 발화 합성 영상 생성 장치
102 : 제1 전역적 기하 변환 예측부
104 : 제1 지역적 기하 변환 예측부
106 : 기하 변환 조합부
108 : 광학 흐름 예측부
110 : 영상 생성부
112 : 제2 지역적 기하 변환 예측부
114 : 제2 전역적 기하 변환 예측부

Claims

머신 러닝 기반의 발화 합성 영상 생성 장치로서,
동일 인물이 포함된 소스 이미지 및 타겟 이미지를 각각 입력 받고, 상기 소스 이미지 및 상기 타겟 이미지에 기반하여 상기 소스 이미지 및 상기 타겟 이미지 사이의 상기 인물의 전역적 움직임에 대한 전역적 기하 변환을 예측하도록 학습되는 제1 전역적 기하 변환 예측부;
기 설정된 입력 데이터에 기반하여 상기 소스 이미지 및 상기 타겟 이미지 사이의 상기 인물의 지역적 움직임에 대한 지역적 기하 변환을 예측하도록 학습되는 지역적 기하 변환 예측부;
상기 전역적 기하 변환 및 상기 지역적 기하 변환을 조합하여 상기 인물의 전체 움직임에 대한 전체 움직임 기하 변환을 산출하는 기하 변환 조합부;
상기 소스 이미지 및 상기 전체 움직임 기하 변환에 기반하여 상기 소스 이미지 및 상기 타겟 이미지 사이의 광학 흐름을 산출하도록 학습되는 광학 흐름 예측부; 및
상기 소스 이미지 및 상기 광학 흐름에 기반하여 상기 타겟 이미지를 복원하도록 학습되는 영상 생성부를 포함하고,
상기 제1 전역적 기하 변환 예측부는, 상기 소스 이미지에 기반하여 기 설정된 기준 확률 분포에서 소스 이미지 히트맵으로의 기하 변환을 추출하고, 상기 타겟 이미지에 기반하여 기 설정된 기준 확률 분포에서 타겟 이미지 히트맵으로의 기하 변환을 추출하며, 상기 기준 확률 분포에서 소스 이미지 히트맵으로의 기하 변환 및 상기 기준 확률 분포에서 타겟 이미지 히트맵으로의 기하 변환에 기반하여 상기 전역적 기하 변환을 산출하는, 발화 합성 영상 생성 장치.
청구항 1에 있어서,
상기 전역적 움직임은, 상기 인물의 기 설정된 임계량 이상의 움직임이고,
상기 지역적 움직임은, 상기 인물의 발화 시얼굴 움직임인, 발화 합성 영상 생성 장치.
삭제
청구항 2에 있어서,
상기 소스 이미지 히트맵은, 상기 소스 이미지에서 각 픽셀이 상기 인물의 전역적 움직임과 관련된 픽셀인지에 대한 이미지 공간 상의 확률 분포맵이고,
상기 타겟 이미지 히트맵은, 상기 타겟 이미지에서 각 픽셀이 상기 인물의 전역적 움직임과 관련된 픽셀인지에 대한 이미지 공간 상의 확률 분포맵인, 발화 합성 영상 생성 장치.
청구항 2에 있어서,
상기 지역적 기하 변환 예측부는,
기 설정된 입력 데이터에 기반하여 상기 소스 이미지 및 상기 타겟 이미지 사이의 상기 인물의 지역적 발화 움직임에 대한 제1 지역적 기하 변환을 예측하도록 학습되는 제1 지역적 기하 변환 예측부를 포함하며,
상기 지역적 발화 움직임은, 상기 인물의 발화와 관련된 움직임인, 발화 합성 영상 생성 장치.
청구항 5에 있어서,
상기 제1 지역적 기하 변환 예측부는,
상기 소스 이미지에 대응하는 소스 음성 신호 및 상기 타겟 이미지에 대응하는 타겟 음성 신호를 각각 입력 받고, 상기 소스 음성 신호 및 상기 타겟 음성 신호에 기반하여 상기 제1 지역적 기하 변환을 예측하도록 학습되는, 발화 합성 영상 생성 장치.
청구항 6에 있어서,
상기 제1 지역적 기하 변환 예측부는,
상기 소스 음성 신호로부터 상기 인물의 지역적 발화 움직임에 대한 복수 개의 기하 변환인 소스 음성 기하 변환을 추정하고, 상기 타겟 음성 신호로부터 상기 인물의 지역적 발화 움직임에 대한 복수 개의 기하 변환인 타겟 음성 기하 변환을 추정하며, 상기 소스 음성 기하 변환 및 상기 타겟 음성 기하 변환에 기반하여 상기 제1 지역적 기하 변환을 산출하는, 발화 합성 영상 생성 장치.
청구항 5에 있어서,
상기 지역적 기하 변환 예측부는,
기 설정된 입력 데이터에 기반하여 상기 소스 이미지 및 상기 타겟 이미지 사이의 상기 인물의 지역적 비발화 움직임에 대한 제2 지역적 기하 변환을 예측하도록 학습되는 제2 지역적 기하 변환 예측부를 더 포함하며,
상기 지역적 비발화 움직임은, 상기 인물의 발화와 관련되지 않은 움직임인, 발화 합성 영상 생성 장치.
청구항 8에 있어서,
상기 제2 지역적 기하 변환 예측부는,
상기 소스 이미지에서 상기 인물의 발화와 관련되지 않은 움직임만을 포함하는 소스 부분 이미지 및 상기 타겟 이미지에서 상기 인물의 발화와 관련되지 않은 움직임만을 포함하는 타겟 부분 이미지를 각각 입력 받고, 상기 소스 부분 이미지 및 상기 타겟 부분 이미지에 기반하여 상기 제2 지역적 기하 변환을 예측하도록 학습되는, 발화 합성 영상 생성 장치.
청구항 9에 있어서,
상기 제2 지역적 기하 변환 예측부는,
상기 소스 부분 이미지로부터 상기 인물의 지역적 비발화 움직임에 대한 복수 개의 기하 변환인 소스 부분 기하 변환을 추정하고, 상기 타겟 부분 이미지로부터 상기 인물의 지역적 비발화 움직임에 대한 복수 개의 기하 변환인 타겟 부분 기하 변환을 추정하며, 상기 소스 부분 기하 변환 및 상기 타겟 부분 기하 변환에 기반하여 상기 제2 지역적 기하 변환을 산출하는, 발화 합성 영상 생성 장치.
청구항 8에 있어서,
상기 기하 변환 조합부는,
상기 제1 지역적 기하 변환과 상기 제2 지역적 기하 변환을 조합하여 전체 지역적 기하 변환을 산출하고, 상기 전체 지역적 기하 변환과 상기 전역적 기하 변환을 조합하여 상기 전체 움직임 기하 변환을 산출하는, 발화 합성 영상 생성 장치.
청구항 2에 있어서,
상기 제1 전역적 기하 변환 예측부는,
n(n은 2 이상의 자연수)개의 프레임을 가지는 영상이 입력되는 경우, 기 설정된 기준 확률 분포에서 상기 영상 중 임의의 i(i∈{1, 2,..., n})번째 프레임 히트맵으로의 기하 변환을 각각 산출하고, 상기 기준 확률 분포에서 i번째 프레임 히트맵으로의 기하 변환에 기반하여 상기 영상 중 인접한 두 프레임 사이의 전역적 기하 변환을 산출하는, 발화 합성 영상 생성 장치.
청구항 12에 있어서,
상기 발화 합성 영상 생성 장치는,
상기 n개의 프레임에 대응하는 순차 음성 신호를 입력 받고, 상기 순차 음성 신호로부터 상기 영상 중 인접한 두 프레임 사이의 전역적 기하 변환을 예측하도록 학습되는 제2 전역적 기하 변환 예측부를 더 포함하는, 발화 합성 영상 생성 장치.
청구항 13에 있어서,
상기 제2 전역적 기하 변환 예측부는,
상기 제2 전역적 기하 변환 예측부에서 예측된 상기 인접한 두 프레임 사이의 전역적 기하 변환과 상기 제1 전역적 기하 변환 예측부에서 산출한 상기 인접한 두 프레임 사이의 전역적 기하 변환 간의 차이가 최소화 되도록 인공 신경망의 파라미터를 조절하는, 발화 합성 영상 생성 장치.
청구항 14에 있어서,
발화 합성 영상 생성의 테스트 과정에서,
상기 제2 전역적 기하 변환 예측부는, 소정 인물의 순차 음성 신호를 입력 받고, 상기 순차 음성 신호로부터 상기 순차 음성 신호에 대응하는 영상의 인접하는 두 프레임 사이의 전역적 기하 변환을 산출하며, 상기 인접하는 두 프레임 사이의 전역적 기하 변환에 기반하여 기 설정된 타겟 프레임과 기 설정된 시작 프레임 사이의 전역적 기하 변환을 산출하고,
상기 지역적 기하 변환 예측부는, 상기 시작 프레임에 대응하는 소스 음성 신호 및 상기 타겟 프레임에 대응하는 타겟 음성 신호를 입력 받고, 상기 소스 음성 신호 및 상기 타겟 음성 신호에 기반하여 상기 타겟 프레임과 상기 시작 프레임 사이의 지역적 기하 변환을 산출하며,
상기 기하 변환 조합부는, 상기 전역적 기하 변환 및 상기 지역적 기하 변환을 조합하여 전체 움직임 기하 변환을 산출하고,
상기 광학 흐름 예측부는, 상기 시작 프레임 및 상기 전체 움직임 기하 변환을 입력 받고, 상기 시작 프레임 및 상기 전체 움직임 기하 변환으로부터 상기 타겟 프레임과 상기 시작 프레임 사이의 광학 흐름을 산출하며,
상기 영상 생성부는, 상기 시작 프레임 및 상기 광학 흐름을 입력 받고, 상기 시작 프레임 및 상기 광학 흐름으로부터 상기 타겟 프레임을 복원하여 생성하는, 발화 합성 영상 생성 장치.
하나 이상의 프로세서들, 및
상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되며 머신 러닝 기반의 발화 합성 영상 생성 방법으로서,
제1 전역적 기하 변환 예측부에서, 동일 인물이 포함된 소스 이미지 및 타겟 이미지를 각각 입력 받고, 상기 소스 이미지 및 상기 타겟 이미지에 기반하여 상기 소스 이미지 및 상기 타겟 이미지 사이의 상기 인물의 전역적 움직임에 대한 전역적 기하 변환을 예측하도록 학습되는 단계;
지역적 기하 변환 예측부에서, 기 설정된 입력 데이터에 기반하여 상기 소스 이미지 및 상기 타겟 이미지 사이의 상기 인물의 지역적 움직임에 대한 지역적 기하 변환을 예측하도록 학습되는 단계;
기하 변환 조합부에서, 상기 전역적 기하 변환 및 상기 지역적 기하 변환을 조합하여 상기 인물의 전체 움직임에 대한 전체 움직임 기하 변환을 산출하는 단계;
광학 흐름 예측부에서, 상기 소스 이미지 및 상기 전체 움직임 기하 변환에 기반하여 상기 소스 이미지 및 상기 타겟 이미지 사이의 광학 흐름을 산출하도록 학습되는 단계; 및
영상 생성부에서, 상기 소스 이미지 및 상기 광학 흐름에 기반하여 상기 타겟 이미지를 복원하도록 학습되는 단계를 포함하고,
상기 제1 전역적 기하 변환 예측부는, 상기 소스 이미지에 기반하여 기 설정된 기준 확률 분포에서 소스 이미지 히트맵으로의 기하 변환을 추출하고, 상기 타겟 이미지에 기반하여 기 설정된 기준 확률 분포에서 타겟 이미지 히트맵으로의 기하 변환을 추출하며, 상기 기준 확률 분포에서 소스 이미지 히트맵으로의 기하 변환 및 상기 기준 확률 분포에서 타겟 이미지 히트맵으로의 기하 변환에 기반하여 상기 전역적 기하 변환을 산출하는, 발화 합성 영상 생성 방법.