KR102501773B1

KR102501773B1 - 랜드마크를 함께 생성하는 발화 동영상 생성 장치 및 방법

Info

Publication number: KR102501773B1
Application number: KR1020200109173A
Authority: KR
Inventors: 채경수
Original assignee: 주식회사 딥브레인에이아이
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2023-02-21
Also published as: KR20230025824A; US20220375224A1; WO2022045485A1; KR20220028328A

Abstract

랜드마크를 함께 생성하는 발화 동영상 생성 장치 및 방법이 개시된다. 개시되는 일 실시예에 따른 발화 동영상 생성 장치는, 하나 이상의 프로세서들, 및 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치로서, 소정 인물의 발화 동영상 중 비디오 부분인 인물 배경 영상을 입력 받고, 인물 배경 영상으로부터 영상 특징 벡터를 추출하는 제1 인코더, 발화 동영상 중 오디오 부분인 발화 오디오 신호를 입력 받고, 발화 오디오 신호로부터 음성 특징 벡터를 추출하는 제2 인코더, 제1 인코더에서 출력되는 영상 특징 벡터 및 제2 인코더에서 출력되는 음성 특징 벡터를 조합하여 조합 벡터를 생성하는 조합부, 조합 벡터를 입력으로 하여 인물의 발화 동영상을 복원하는 제1 디코더, 및 조합 벡터를 입력으로 하여 발화 동영상의 랜드마크를 예측하는 제2 디코더를 포함한다.

Description

랜드마크를 함께 생성하는 발화 동영상 생성 장치 및 방법{APPARATUS AND METHOD FOR GENERATING SPEECH VIDED THAT CREATES LANDMARKS TOGETHER}

본 발명의 실시예는 발화 동영상 생성 기술과 관련된다.

최근, 인공 지능 분야의 기술 발전에 따라 다양한 유형의 콘텐츠가 인공 지능 기술에 기초하여 생성되고 있다. 그 일 예로, 어떤 전달하고자 하는 음성 메시지가 있을 때, 그 음성 메시지를 유명 인물(예를 들어, 대통령 등)이 말하는 것과 같은 발화 동영상을 생성하여 사람들의 주의를 끌고자 하는 경우가 있다. 이는 유명 인물의 영상에서 유명 인물이 특정 메시지를 말하는 것처럼 입 모양 등을 특정 메시지에 맞게 생성하여 구현하게 된다.

종래에는 이러한 립 싱크 얼굴 영상의 합성을 위해 입력되는 영상에서 얼굴 랜드마크를 추출하고 이를 정답 값과 비교하여 그 차이가 최소화 되도록 학습하는 방법을 사용하였다. 그러나, 영상에서 얼굴 랜드마크 데이터의 정답 값에는 어노테이션(Annotation) 노이즈가 존재하게 되는 바, 시간에 대한 연속성이 불안정하여 이를 기반으로 립 싱크 얼굴 영상을 합성하면 영상 품질이 저하되는 문제점이 있다.

즉, 영상에서 얼굴 랜드마크 데이터의 정답 값은 사람이 영상을 보면서 라벨링하여 얻어지는 것으로, 여러 사람이 작업하는 경우 사람마다 기준이 다르고, 동일인이 작업하더라도 영상 프레임마다 대응되는 지점을 찍을 수 없는 등의 이유로 어노테이션(Annotation) 노이즈가 존재할 수 밖에 없게 된다. 기존에는 이렇게 노이즈가 존재하는 정답 값을 이용하여 얼굴 랜드마크를 예측하게 되는 바, 예측된 얼굴 랜드마크를 이용하여 얼굴 영상을 합성하는 경우 영상이 흔들리는 등 영상 품질이 저하되게 된다.

또한, 종래에는 발화 영상에서 추출한 얼굴 랜드마크를 표준 공간에 정렬하고, 음성을 입력으로 얼굴 랜드마크를 예측하는 학습 모델을 이용하였으나, 랜드마크를 부정확한 방식(예를 들어, 부정확한 추정치에 기반하거나 2차원의 경우 3차원 이동이나 회전이 불가능하여 변환을 단순화하는 등)으로 표준 공간에 정렬하면서 정보 손실 및 왜곡이 발생하게 되며, 그로 인해 입 모양이 잘 맞지 않고 불필요한 떨림 등이 발생하는 문제점이 있다.

또한, 기준점이 가상의 위치(예를 들어, 얼굴 전체 랜드마크의 평균 위치 또는 입 부분 랜드마크의 평균 위치 등)에 있게 되므로, 해당 인물의 머리가 고정된 상태에서 발화 부분만 움직이도록 제어하기가 어려운 문제점이 있다.

한국등록특허공보 제10-2091643호(2020.03.20)

개시되는 실시예는 발화 동영상 및 발화 동영상의 랜드마크를 함께 생성할 수 있는 기법을 제공하기 위한 것이다.

개시되는 일 실시예에 따른 발화 동영상 생성 장치는, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치로서, 소정 인물의 발화 동영상 중 비디오 부분인 인물 배경 영상을 입력 받고, 상기 인물 배경 영상으로부터 영상 특징 벡터를 추출하는 제1 인코더; 상기 발화 동영상 중 오디오 부분인 발화 오디오 신호를 입력 받고, 상기 발화 오디오 신호로부터 음성 특징 벡터를 추출하는 제2 인코더; 상기 제1 인코더에서 출력되는 영상 특징 벡터 및 상기 제2 인코더에서 출력되는 음성 특징 벡터를 조합하여 조합 벡터를 생성하는 조합부; 상기 조합 벡터를 입력으로 하여 상기 인물의 발화 동영상을 복원하는 제1 디코더; 및 상기 조합 벡터를 입력으로 하여 상기 발화 동영상의 랜드마크를 예측하는 제2 디코더를 포함한다.

상기 인물 배경 영상은, 상기 인물의 발화와 관련된 부분이 마스크로 가려질 수 있다.

상기 발화 오디오 신호는, 상기 인물의 발화 동영상 중 상기 인물 배경 영상과 동일 구간의 오디오 부분일 수 있다.

상기 제1 디코더는, 상기 음성 특징 벡터를 기반으로 상기 인물 배경 영상의 마스크로 가려진 부분을 복원하도록 학습된 머신 러닝 모델일 수 있다.

소정 인물의 인물 배경 영상이 상기 제1 인코더로 입력되고, 상기 인물 배경 영상과 관련 없는 발화 오디오 신호가 상기 제2 인코더로 입력되는 경우, 상기 조합부는, 상기 제1 인코더에서 출력되는 영상 특징 벡터와 상기 제2 인코더에서 출력되는 음성 특징 벡터를 조합하여 조합 벡터를 생성하고, 상기 제1 디코더는, 상기 조합 벡터를 입력 받아 상기 인물의 발화 동영상을 생성하되, 상기 인물 배경 영상과 관련 없는 발화 오디오 신호를 기반으로 상기 인물 배경 영상에서 발화와 관련된 부분을 복원하여 발화 동영상을 생성하며, 상기 제2 디코더는, 상기 발화 동영상의 랜드마크를 예측하여 출력할 수 있다.

상기 제2 디코더는, 상기 입력되는 조합 벡터로부터 특징 벡터(Feature Vector)를 추출하도록 학습되는 추출 모듈; 및 상기 추출 모듈에서 추출된 특징 벡터에 기반하여 상기 발화 동영상의 랜드마크 좌표를 예측하도록 학습되는 예측 모듈을 포함할 수 있다.

상기 제2 디코더의 목적 함수(L_prediction)는 다음의 수학식을 통해 표현될 수 있다.

(수학식)

K : 발화 동영상의 라벨링 된 랜드마크 좌표

G : 제2 디코더를 구성하는 신경망

θ : 제2 디코더를 구성하는 신경망의 파라미터

I : 조합 벡터

G(I;θ) : 제2 디코더로부터 예측된 랜드마크 좌표

: 발화 동영상의 라벨링 된 랜드마크 좌표와 예측된 랜드마크 좌표 간의 차이를 구하는 함수

상기 제2 디코더는, 상기 입력되는 조합 벡터로부터 특징 텐서(Feature Tensor)를 추출하도록 학습되는 추출 모듈; 및 상기 추출 모듈에서 추출된 특징 텐서에 기반하여 랜드마크 이미지를 예측하도록 학습되는 예측 모듈을 포함할 수 있다.

상기 랜드마크 이미지는, 상기 발화 동영상과 대응되는 이미지 공간에서 각 픽셀이 랜드마크에 해당하는지 여부를 확률 값으로 나타낸 이미지일 수 있다.

상기 제2 디코더의 목적 함수(L_prediction)는 하기의 수학식을 통해 표현될 수 있다.

(수학식)

: 픽셀

의 랜드마크 여부에 대한 확률 값으로,

P : 제2 디코더를 구성하는 신경망

: 픽셀

의 특징 텐서

δ : 제2 디코더를 구성하는 신경망의 파라미터

: 발화 동영상의 픽셀

의 라벨링 된 랜드마크 여부 값

개시되는 다른 실시예에 따른 발화 동영상 생성 장치는, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치로서, 소정 인물의 발화 동영상 중 비디오 부분인 인물 배경 영상을 입력 받고, 상기 인물 배경 영상으로부터 영상 특징 벡터를 추출하는 제1 인코더; 상기 발화 동영상 중 오디오 부분인 발화 오디오 신호를 입력 받고, 상기 발화 오디오 신호로부터 음성 특징 벡터를 추출하는 제2 인코더; 상기 제1 인코더에서 출력되는 영상 특징 벡터 및 상기 제2 인코더에서 출력되는 음성 특징 벡터를 조합하여 조합 벡터를 생성하는 조합부; 상기 조합 벡터를 입력으로 하고, 상기 조합 벡터에 역 합성곱(Deconvolution)을 수행하고 업 샘플링(Up Sampling)을 수행하는 디코더; 상기 디코더에 연결되고, 상기 업 샘플링 된 데이터를 기반으로 상기 인물의 복원된 발화 동영상을 출력하도록 마련되는 제1 출력층; 및 상기 디코더에 연결되고, 상기 업 샘플링 된 데이터를 기반으로 상기 발화 동영상의 예측된 랜드마크를 출력하도록 마련되는 제2 출력층을 포함한다.

개시되는 일 실시예에 따른 발화 동영상 생성 방법은, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 소정 인물의 발화 동영상 중 비디오 부분인 인물 배경 영상을 입력 받고, 상기 인물 배경 영상으로부터 영상 특징 벡터를 추출하는 동작; 상기 발화 동영상 중 오디오 부분인 발화 오디오 신호를 입력 받고, 상기 발화 오디오 신호로부터 음성 특징 벡터를 추출하는 동작; 상기 제1 인코더에서 출력되는 영상 특징 벡터 및 상기 제2 인코더에서 출력되는 음성 특징 벡터를 조합하여 조합 벡터를 생성하는 동작; 상기 조합 벡터를 입력으로 하여 상기 인물의 발화 동영상을 복원하는 동작; 및 상기 조합 벡터를 입력으로 하여 상기 발화 동영상의 랜드마크를 예측하는 동작을 포함한다.

개시되는 실시예에 의하면, 인물 배경 영상으로부터 영상 특징 벡터를 추출하고, 발화 오디오 신호로부터 음성 특징 벡터를 추출하며, 영상 특징 벡터와 음성 특징 벡터를 조합하여 조합 벡터를 생성한 후, 조합 벡터에 기반하여 발화 동영상과 랜드마크를 함께 예측하도록 함으로써, 발화 동영상 및 랜드마크를 보다 정확하게 예측할 수 있게 된다. 이때, 복원되는(예측되는) 발화 동영상은 원래 발화 동영상과의 차이가 최소화 되도록 학습되고, 예측되는 랜드마크는 원래 발화 동영상으로부터 추출한 라벨링된 랜드마크와의 차이가 최소화 되도록 학습된다.

여기서, 해당 인물의 얼굴 위치와 랜드마크 위치가 공간적으로 일치하는 상태에서 실제 발화 동영상과 랜드마크를 동시에 예측하는 학습이 이루어지기 때문에, 랜드마크를 표준 공간 상에 정렬하는 전처리 과정이 없어도 전체 얼굴 움직임에 의한 형태 변화와 발화에 의한 발화 부분의 형태 변화를 분리하여 학습할 수 있게 된다.

그리고, 발화 동영상을 복원하는 신경망과 랜드마크를 예측하는 신경망이 하나로 통합되어 있기 때문에, 발화와 관련된 부분의 움직임에 대한 패턴을 상호 공유하여 학습하게 되는 바, 예측된 랜드마크에서 노이즈를 효과적으로 배체할 수 있게 된다.

도 1은 본 발명의 일 실시예에 따른 랜드마크를 함께 생성하는 발화 동영상 생성 장치의 구성을 나타낸 도면
도 2는 본 발명의 실시예에 따른 발화 동영상 생성 장치에서 랜드마크를 예측하는 일 실시예를 나타낸 도면
도 3은 본 발명의 실시예에 따른 발화 동영상 생성 장치에서 랜드마크를 예측하는 다른 실시예를 나타낸 도면
도 4는 본 발명의 일 실시예에 따른 발화 동영상 생성 장치를 통해 발화 동영상 및 랜드마크를 추론하는 상태를 나타낸 도면
도 5는 본 발명의 다른 실시예에 따른 발화 동영상 생성 장치의 구성을 나타낸 도면
도 6은 본 발명의 또 다른 실시예에 따른 발화 동영상 생성 장치의 구성을 나타낸 도면
도 7은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도

이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.

본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.

이하의 설명에 있어서, 신호 또는 정보의 "전송", "통신", "송신", "수신" 기타 이와 유사한 의미의 용어는 일 구성요소에서 다른 구성요소로 신호 또는 정보가 직접 전달되는 것뿐만이 아니라 다른 구성요소를 거쳐 전달되는 것도 포함한다. 특히 신호 또는 정보를 일 구성요소로 "전송" 또는 "송신"한다는 것은 그 신호 또는 정보의 최종 목적지를 지시하는 것이고 직접적인 목적지를 의미하는 것이 아니다. 이는 신호 또는 정보의 "수신"에 있어서도 동일하다. 또한 본 명세서에 있어서, 2 이상의 데이터 또는 정보가 "관련"된다는 것은 하나의 데이터(또는 정보)를 획득하면, 그에 기초하여 다른 데이터(또는 정보)의 적어도 일부를 획득할 수 있음을 의미한다.

한편, 상측, 하측, 일측, 타측 등과 같은 방향성 용어는 개시된 도면들의 배향과 관련하여 사용된다. 본 발명의 실시예의 구성 요소는 다양한 배향으로 위치 설정될 수 있으므로, 방향성 용어는 예시를 목적으로 사용되는 것이지 이를 제한하는 것은 아니다.

또한, 제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.

도 1은 본 발명의 일 실시예에 따른 랜드마크를 함께 생성하는 발화 동영상 생성 장치의 구성을 나타낸 도면이다.

도 1을 참조하면, 발화 동영상 생성 장치(100)는 제1 인코더(102), 제2 인코더(104), 조합부(106), 제1 디코더(108), 및 제2 디코더(110)를 포함할 수 있다.

도 1에 도시된 발화 동영상 생성 장치(100)의 구성은, 기능적으로 구분되는 기능 요소들을 나타낸 것으로서, 본 발명에 따른 기능을 수행하기 위하여 상호 기능적으로 연결될 수 있으며, 어느 하나 이상의 구성이 실제 물리적으로는 서로 통합되어 구현될 수도 있다.

예시적인 실시예에서, 발화 동영상 생성 장치(100)는 합성곱 신경망(Convolutional Neural Network : CNN) 기반의 머신 러닝 기술로 구현될 수 있으나, 머신 러닝 기술이 이에 한정되는 것은 아니며 그 이외의 다양한 머신 러닝 기술이 적용될 수 있다. 이하에서는, 랜드마크(Landmark)와 함께 발화 동영상 생성을 위한 학습 과정을 위주로 설명하기로 한다.

제1 인코더(102)는 인물 배경 영상을 입력으로 하여 영상 특징 벡터를 추출하도록 학습되는 머신 러닝 모델일 수 있다. 이하, "벡터"는 "텐서"를 포함하는 의미로 사용될 수 있다.

여기서, 제1 인코더(102)로 입력되는 인물 배경 영상은 인물이 발화하는(말을 하는) 영상이다. 예시적인 실시예에서, 인물 배경 영상은 인물의 얼굴과 상반신이 포함된 영상일 수 있다. 즉, 인물 배경 영상은 해당 인물이 발화 할 때 나타나는 얼굴, 목, 및 어깨 등의 움직임이 보여지도록 얼굴뿐만 아니라 상반신이 포함된 영상일 수 있으나, 이에 한정되는 것은 아니다.

제1 인코더(102)로 입력되는 인물 배경 영상에서 발화와 관련된 부분은 마스킹(Masking) 처리될 수 있다. 즉, 인물 배경 영상에서 발화와 관련된 부분(예를 들어, 입 및 입 주위 부분 등)은 마스크(M)로 가려질 수 있다. 또한, 마스킹 처리 시 인물 배경 영상에서 인물의 발화에 따른 얼굴 움직임, 목 움직임, 및 어깨 움직임 등과 관련된 부분은 마스킹 처리되지 않도록 할 수 있다. 이 경우, 제1 인코더(102)에서는 인물 배경 영상에서 발화와 관련된 부분을 제외한 부분의 영상 특징 벡터를 추출하게 된다.

예시적인 실시예에서, 제1 인코더(102)는 하나 이상의 합성곱 층(Convolutional Layer) 및 하나 이상의 풀링 층(Pooling Layer)를 포함할 수 있다. 합성곱 층은 입력되는 인물 배경 영상에서 기 설정된 크기(예를 들어, 3×3 픽셀 크기)의 필터를 일정 간격으로 이동시키면서 해당 필터에 대응되는 픽셀들의 특징 값을 추출할 수 있다. 풀링 층은 합성곱 층의 출력을 입력으로 받아 다운 샘플링(Down Sampling)을 수행할 수 있다.

제2 인코더(104)는 발화 오디오 신호를 입력으로 하여 음성 특징 벡터를 추출하도록 학습되는 머신 러닝 모델일 수 있다. 여기서, 발화 오디오 신호는 제1 인코더(102)로 입력되는 인물 배경 영상(즉, 인물이 발화하는 영상) 중 오디오 부분에 해당한다. 다시 말하면, 인물이 발화하는 동영상에서 비디오 부분은 제1 인코더(102)로 입력되고, 오디오 부분은 제2 인코더(104)로 입력될 수 있다. 예시적인 실시예에서, 제2 인코더(104)는 하나 이상의 합성곱 층(Convolutional Layer) 및 하나 이상의 풀링 층(Pooling Layer)를 포함할 수 있으나, 제2 인코더(104)의 신경망 구조가 이에 한정되는 것은 아니다.

제1 인코더(102)로 입력되는 인물 배경 영상과 제2 인코더(104)로 입력되는 발화 오디오 신호의 시간은 서로 동기화 될 수 있다. 즉, 인물이 발화하는 동영상에서 동일한 시간 대의 구간 중 비디오는 제1 인코더(102)로 입력되고, 오디오는 제2 인코더(104)로 입력될 수 있다. 이때, 인물 배경 영상 및 발화 오디오 신호는 기 설정된 단위 시간(예를 들어, 하나의 프레임 또는 복수 개의 연속된 프레임 등)마다 제1 인코더(102) 및 제2 인코더(104)로 입력될 수 있다.

조합부(106)는 제1 인코더(102)에서 출력되는 영상 특징 벡터 및 제2 인코더(104)에서 출력되는 음성 특징 벡터를 조합하여 조합 벡터를 생성할 수 있다. 예시적인 실시예에서, 조합부(106)는 영상 특징 벡터와 음성 특징 벡터를 연결(Concatenate)하여 조합 벡터를 생성할 수 있으나, 이에 한정되는 것은 아니며 조합부(106)는 영상 특징 벡터와 음성 특징 벡터를 그 이외의 다양한 방식으로 조합하여 조합 벡터를 생성할 수 있다.

제1 디코더(108)는 조합부(106)에서 출력되는 조합 벡터를 입력으로 하여 인물의 발화 동영상을 복원하도록 학습되는 머신 러닝 모델일 수 있다. 구체적으로, 제1 디코더(108)는 제2 인코더(104)에서 출력되는 음성 특징 벡터(즉, 인물이 발화하는 동영상에서 오디오 부분의 특징)를 기반으로 제1 인코더(102)에서 출력되는 영상 특징 벡터(즉, 인물이 발화하는 동영상에서 비디오 부분으로, 발화 관련된 부분이 마스크로 가려진 부분의 특징)의 마스크(M)로 가려진 부분(즉, 발화와 관련된 부분)을 복원하도록 학습되는 머신 러닝 모델일 수 있다. 즉, 제1 디코더(108)는 인물 배경 영상에서 발화와 관련된 부분이 마스킹 된 경우, 오디오 신호를 이용하여 마스킹 된 영역을 복원하도록 학습되는 모델일 수 있다.

예시적인 실시예에서, 제1 디코더(108)는 제1 인코더(102)에서 출력되는 영상 특징 벡터와 제2 인코더(104)에서 출력되는 음성 특징 벡터가 조합된 조합 벡터에 역 합성곱(Deconvolution)을 수행한 후 업 샘플링(Up Sampling)을 수행하여 발화 동영상을 생성할 수 있다.

제1 디코더(108)는 복원되는 발화 동영상과 원래의 발화 동영상(즉, 정답값)을 비교하여, 복원되는 발화 동영상(즉, 오디오 부분을 통해 발화 관련된 부분을 복원한 동영상)이 원래의 발화 동영상에 가까워지도록 학습 파라미터(예를 들어, 손실 함수, 소프트맥스 함수 등)를 조절할 수 있다.

제2 디코더(110)는 조합부(106)에서 출력되는 조합 벡터를 입력으로 하여 발화 동영상의 랜드마크를 예측하도록 학습되는 머신 러닝 모델일 수 있다. 제2 디코더(110)는 조합 벡터로부터 특징 벡터(또는 특징 텐서)를 추출하고, 추출한 특징 벡터(또는 특징 텐서)에 기반하여 발화 동영상의 랜드마크를 예측할 수 있다.

제2 디코더(110)는 예측된 랜드마크와 라벨링 된 랜드마크(원래의 발화 동영상으로부터 추출한 랜드마크)를 비교하여, 예측된 랜드마크가 라벨링 된 랜드마크에 가까워지도록 학습 파라미터(예를 들어, 손실 함수, 소프트맥스 함수 등)를 조절할 수 있다.

도 2는 본 발명의 실시예에 따른 발화 동영상 생성 장치에서 랜드마크를 예측하는 일 실시예를 나타낸 도면이다.

도 2를 참조하면, 제2 디코더(110)는 추출 모듈(110a) 및 예측 모듈(110b)을 포함할 수 있다.

추출 모듈(110a)은 입력되는 조합 벡터로부터 특징 벡터(Feature Vector)를 추출하도록 학습될 수 있다. 추출 모듈(110a)은 다수의 합성곱 신경망 층을 통해 조합 벡터로부터 특징 벡터를 추출할 수 있다.

예측 모듈(110b)은 추출 모듈(110a)에서 추출된 특징 벡터에 기반하여 발화 동영상의 랜드마크 좌표를 예측하도록 학습될 수 있다. 즉, 예측 모듈(110b)은 추출된 특징 벡터에 기반하여 발화 동영상의 좌표계에서 어느 좌표값이 랜드마크에 해당하는지를 예측하도록 학습될 수 있다. 여기서, 랜드마크 좌표는 2차원 또는 3차원으로 표현할 수 있다. 랜드마크 좌표가 3차원인 경우, 랜드마크 좌표(K)는 다음의 수학식 1로 나타낼 수 있다.

(수학식 1)

K = [(x₁, y_1,z₁), (x₂, y_{2, Z2}), ?? , (x_n, y_{n, Zn})]

x_n: n번째 랜드마크의 x축 좌표 값

y_n: n번째 랜드마크의 y축 좌표 값

_Zn: n번째 랜드마크의 z축 좌표 값

제2 디코더(110)에서 조합 벡터로부터 랜드마크 좌표를 예측하는 것은 다음의 수학식 2를 통해 표현될 수 있다.

(수학식 2)

K' = G(I ; θ)

여기서, K'는 제2 디코더(110)로부터 예측된 랜드마크 좌표를 나타내고, G는 제2 디코더(110)를 구성하는 신경망을 나타내며, I는 조합 벡터를 나타내고, θ는 신경망 G의 파라미터를 나타낸다.

또한, 제2 디코더(110)는 조합 벡터로부터 예측한 랜드마크 좌표와 라벨링 된 랜드마크 좌표의 차이가 최소화 되도록 학습될 수 있다. 이때, 제2 디코더(110)의 목적 함수(L_prediction)는 다음의 수학식 3을 통해 표현할 수 있다.

(수학식 3)

K는 라벨링 된 랜드마크 좌표를 나타내고,

함수는 A와 B의 차이를 구하는 함수(예를 들어, A와 B의 유클리디안 거리(L2 distance) 또는 맨하튼 거리(L1 distance)를 구하는 함수 등)를 나타낸다.

도 3은 본 발명의 실시예에 따른 발화 동영상 생성 장치에서 랜드마크를 예측하는 다른 실시예를 나타낸 도면이다.

도 3을 참조하면, 제2 디코더(110)는 추출 모듈(110a) 및 예측 모듈(110b)을 포함할 수 있다.

추출 모듈(110a)은 조합 벡터로부터 특징 텐서(Feature Tensor)를 추출하도록 학습될 수 있다. 추출 모듈(110a)은 랜드마크가 발화 동영상과 대응되는 이미지 공간 상의 한 지점으로 표현되도록 특징 텐서(Feature Tensor)를 추출할 수 있다.

예측 모듈(110b)은 추출 모듈(110a)에서 추출된 특징 텐서에 기반하여 랜드마크 이미지를 예측하도록 학습될 수 있다. 여기서, 랜드마크 이미지는 발화 동영상과 대응되는 이미지 공간에서 각 픽셀이 랜드마크에 해당하는지 여부를 나타낸 것으로, 각 픽셀에 대해 랜드마크에 해당하면 픽셀 값을 1로 하고 랜드마크에 해당하지 않으면 픽셀 값을 0으로 나타낸 이미지 일 수 있다.

예시적인 실시예에서, 예측 모듈(110b)은 추출된 특징 텐서에 기반하여 각 픽셀에 대해 0과 1 사이의 확률 값(즉, 랜드마크 여부에 대한 확률 값)을 출력하여 랜드마크 이미지를 예측할 수 있다. 예측 모듈(110b)에서 각 픽셀마다 확률 값을 출력하는 것은 다음의 수학식 4를 통해 나타낼 수 있다.

(수학식 4)

여기서,

는 픽셀

의 랜드마크 여부에 대한 확률 값을 나타내고, P는 제2 디코더(110)를 구성하는 신경망을 나타내며,

는 픽셀

의 특징 텐서를 나타내고, δ는 신경망 P의 파라미터를 나타낸다. 그리고, 확률분포 함수로는 Sigmoid, Gaussian 등이 사용될 수 있으나, 이에 한정되는 것은 아니다.

한편, 제2 디코더(110)의 목적 함수(L_prediction)는 다음의 수학식 5를 통해 표현할 수 있다.

(수학식 5)

여기서,

은 발화 동영상의 픽셀

의 라벨링 된 랜드마크 여부 값을 나타낸다. 즉, 해당 픽셀이 랜드마크인 경우 1의 값을 가지고, 랜드마크가 아닌 경우 0의 값을 가지도록 라벨링 된 것일 수 있다.

수학식 5에 의하면, 픽셀

의 라벨링 된 랜드마크 여부 값이 1인 경우 픽셀

의 랜드마크 여부에 대한 확률 값(즉,

)이 높아지도록 학습되며, 픽셀

의 라벨링 된 랜드마크 여부 값이 0인 경우 픽셀

의 랜드마크 여부에 대한 확률 값(즉,

)이 낮아지도록 학습되게 된다.

한편, 본 명세서에서 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 "모듈"은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아니다.

도 4는 본 발명의 일 실시예에 따른 발화 동영상 생성 장치를 통해 발화 동영상 및 랜드마크를 추론하는 상태를 나타낸 도면이다.

도 4를 참조하면, 제1 인코더(102)는 인물 배경 영상을 입력 받는다. 여기서, 인물 배경 영상은 학습 과정에서 사용된 인물 배경 영상일 수 있다. 인물 배경 영상은 인물의 얼굴과 상반이 포함된 영상일 수 있다. 또한, 인물 배경 영상은 발화와 관련된 부분이 마스크(M)로 가려질 수 있다. 제1 인코더(102)는 인물 배경 영상으로부터 영상 특징 벡터를 추출할 수 있다.

제2 인코더(104)는 발화 오디오 신호를 입력 받는다. 여기서, 발화 오디오 신호는 제1 인코더(102)로 입력되는 인물 배경 영상과는 관련 없는 것일 수 있다. 예를 들어, 발화 오디오 신호는 인물 배경 영상 속 인물과는 다른 인물의 발화 오디오 신호일 수 있다. 그러나, 이에 한정되는 것은 아니며 발화 오디오 신호는 인물 배경 영상 속 인물이 발화한 것일 수도 있다. 이때, 해당 인물의 발화는 인물 배경 영상과는 관련 없는 배경 또는 상황에서 발화된 것일 수 있다. 제2 인코더(104)는 발화 오디오 신호로부터 음성 특징 벡터를 추출할 수 있다.

조합부(106)는 제1 인코더(102)에서 출력되는 영상 특징 벡터 및 제2 인코더(104)에서 출력되는 음성 특징 벡터를 조합하여 조합 벡터를 생성할 수 있다.

제1 디코더(108)는 조합 벡터를 입력으로 하여 발화 동영상을 복원하여 출력할 수 있다. 즉, 제1 디코더(108)는 제2 인코더(104)에서 출력되는 음성 특징 벡터를 기반으로 인물 배경 영상의 발화와 관련된 부분을 복원하여 발화 동영상을 생성할 수 있다. 이 경우, 제2 인코더(104)로 입력되는 발화 오디오 신호는 인물 배경 영상과는 관련 없는 발화이나(예를 들어, 인물 배경 영상 속 인물이 발화한 것은 아니나), 인물 배경 영상 속 인물이 발화하는 것처럼 발화 동영상이 생성되게 된다.

제2 디코더(110)는 조합 벡터를 입력으로 하여 발화 동영상의 랜드마크를 예측하여 출력할 수 있다. 여기서, 발화 동영상 생성 장치(100)는 조합 벡터의 입력 시 제1 디코더(108) 및 제2 디코더(110)를 통해 발화 동영상을 복원하면서 발화 동영상의 랜드마크를 함께 예측하도록 학습되었기 때문에, 발화 동영상의 랜드마크를 표준 공간에 정렬하는 과정 없이도 정확하고 자연스럽게 예측할 수 있게 된다.

도 5는 본 발명의 다른 실시예에 따른 발화 동영상 생성 장치의 구성을 나타낸 도면이다. 여기서는, 도 1에 도시된 실시예와 차이가 나는 부분을 중점적으로 설명하기로 한다.

도 5를 참조하면, 발화 동영상 생성 장치(200)는 레지듀얼 블록(Residual Block)(212)을 더 포함할 수 있다. 레지듀얼 블록(212)은 조합부(206)와 제1 디코더(208) 및 제2 디코더(210) 사이에 하나 이상이 마련될 수 있다. 예시적인 실시예에서, 레지듀얼 블록(212)은 조합부(206)와 제1 디코더(208) 및 제2 디코더(210) 사이에 복수 개가 순차적으로 연결(직렬로 연결)되어 마련될 수 있다.

레지듀얼 블록(212)은 하나 이상의 합성곱 층(Convolutional Layer)을 포함할 수 있다. 레지듀얼 블록(212)은 입력 값(즉, 조합부(206)에서 출력되는 조합 벡터)에 대해 컨볼루션을 수행하고, 컨볼루션을 수행한 결과 값에 다시 입력 값을 더하는 구조로 이루어질 수 있다. 레지듀얼 블록(212)은 레지듀얼 블록(212)의 입력 값과 출력 값의 차이의 최소화를 학습하도록 할 수 있다. 이를 통해, 영상 특징 벡터 및 음성 특징 벡터를 유기적으로 조합하여 제1 디코더(208) 및 제2 디코더(210)의 입력으로 사용할 수 있게 된다.

도 6은 본 발명의 또 다른 실시예에 따른 발화 동영상 생성 장치의 구성을 나타낸 도면이다. 여기서는, 도 1에 도시된 실시예와 차이가 나는 부분을 중점적으로 설명하기로 한다.

도 6을 참조하면, 발화 동영상 생성 장치(300)는 제1 인코더(302), 제2 인코더(304), 조합부(306), 디코더(314), 제1 출력층(316), 및 제2 출력층(318)을 포함할 수 있다. 여기서, 제1 인코더(302), 제2 인코더(304), 및 조합부(306)는 도 1에 도시된 구성과 동일 또는 유사하므로 이에 대한 자세한 설명은 생략하기로 한다.

디코더(314)는 조합부(306)에서 출력하는 조합 벡터를 입력으로 하며, 조합 벡터에 역 합성곱(Deconvolution)을 수행한 후 업 샘플링(Up Sampling)을 수행할 수 있다.

제1 출력층(316)은 디코더(314)에 연결된 하나의 출력층으로, 디코더(314)에서 업 샘플링된 데이터를 기반으로 복원된 발화 동영상을 출력하도록 마련될 수 있다.

제2 출력층(318)은 디코더(314)에 연결된 또 다른 출력층으로, 디코더(314)에서 업 샘플링된 데이터를 기반으로 발화 동영상의 예측된 랜드마크를 출력하도록 마련될 수 있다.

이와 같이, 디코더(314)를 통해 조합 벡터를 역 합성곱 한 후 업 샘플링하는 프로세스를 상호 공유하고, 출력층만 서로 다르게 구성하여 복원된 발화 동영상과 예측된 랜드마크를 각각 출력하게 할 수도 있다.

도 7은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.

도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 발화 동영상 생성 장치(100)일 수 있다.

컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.

컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.

이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

100, 200, 300 : 발화 동영상 생성 장치
102, 202, 302 : 제1 인코더
104, 204, 304 : 제2 인코더
106, 206, 306 : 조합부
108, 208 : 제1 디코더
110, 210 : 제2 디코더
110a : 추출 모듈
110b : 예측 모듈
212 : 레지듀얼 블록
314 : 디코더
316 : 제1 출력층
318 : 제2 출력층

Claims

발화 동영상 생성 장치로서,
소정 인물의 발화 동영상 중 비디오 부분인 인물 배경 영상을 입력 받고, 상기 인물 배경 영상으로부터 영상 특징 벡터를 추출하는 제1 인코더;
발화 오디오 신호를 입력 받고, 상기 발화 오디오 신호로부터 음성 특징 벡터를 추출하는 제2 인코더;
상기 제1 인코더에서 출력되는 영상 특징 벡터 및 상기 제2 인코더에서 출력되는 음성 특징 벡터를 조합하여 조합 벡터를 생성하는 조합부;
상기 조합 벡터를 입력으로 하여 상기 인물의 발화 동영상을 복원하는 제1 디코더; 및
상기 조합 벡터를 입력으로 하여 상기 발화 동영상과 대응되는 이미지 공간에서 상기 발화 동영상의 랜드마크를 예측하는 제2 디코더를 포함하되,
상기 발화 동영상 생성 장치는 상기 인물의 발화 동영상을 복원하면서 동시에 상기 발화 동영상의 랜드마크를 예측하도록 학습되는, 발화 동영상 생성 장치.
청구항 1에 있어서,
상기 인물 배경 영상은,
상기 인물의 발화와 관련된 부분이 마스크로 가려진, 발화 동영상 생성 장치.
삭제
청구항 2에 있어서,
상기 제1 디코더는,
상기 음성 특징 벡터를 기반으로 상기 인물 배경 영상의 마스크로 가려진 부분을 복원하도록 학습된 머신 러닝 모델인, 발화 동영상 생성 장치.
청구항 1에 있어서,
상기 발화 오디오 신호는 상기 인물 배경 영상과 관련 없는, 발화 동영상 생성 장치.
청구항 1에 있어서,
상기 제2 디코더는,
상기 입력되는 조합 벡터로부터 특징 벡터(Feature Vector)를 추출하도록 학습되는 추출 모듈; 및
상기 추출 모듈에서 추출된 특징 벡터에 기반하여 상기 발화 동영상의 랜드마크 좌표를 예측하도록 학습되는 예측 모듈을 포함하는, 발화 동영상 생성 장치.
청구항 6에 있어서,
상기 제2 디코더의 목적 함수(L_prediction)는 다음의 수학식을 통해 표현되는, 발화 동영상 생성 장치.
(수학식)

K : 발화 동영상의 라벨링 된 랜드마크 좌표
G : 제2 디코더를 구성하는 신경망
θ : 제2 디코더를 구성하는 신경망의 파라미터
I : 조합 벡터
G(I;θ) : 제2 디코더로부터 예측된 랜드마크 좌표

: 발화 동영상의 라벨링 된 랜드마크 좌표와 예측된 랜드마크 좌표 간의 차이를 구하는 함수
청구항 1에 있어서,
상기 제2 디코더는,
상기 입력되는 조합 벡터로부터 특징 텐서(Feature Tensor)를 추출하도록 학습되는 추출 모듈; 및
상기 추출 모듈에서 추출된 특징 텐서에 기반하여 랜드마크 이미지를 예측하도록 학습되는 예측 모듈을 포함하는, 발화 동영상 생성 장치.
청구항 8에 있어서,
상기 랜드마크 이미지는,
상기 발화 동영상과 대응되는 이미지 공간에서 각 픽셀이 랜드마크에 해당하는지 여부를 확률 값으로 나타낸 이미지인, 발화 동영상 생성 장치.
청구항 8에 있어서,
상기 제2 디코더의 목적 함수(L_prediction)는 하기의 수학식을 통해 표현되는, 발화 동영상 생성 장치.
(수학식)

: 픽셀
의 랜드마크 여부에 대한 확률 값으로,

P : 제2 디코더를 구성하는 신경망

: 픽셀
의 특징 텐서
δ : 제2 디코더를 구성하는 신경망의 파라미터

: 발화 동영상의 픽셀
의 라벨링 된 랜드마크 여부 값
발화 동영상 생성 장치로서,
소정 인물의 발화 동영상 중 비디오 부분인 인물 배경 영상을 입력 받고, 상기 인물 배경 영상으로부터 영상 특징 벡터를 추출하는 제1 인코더;
발화 오디오 신호를 입력 받고, 상기 발화 오디오 신호로부터 음성 특징 벡터를 추출하는 제2 인코더;
상기 제1 인코더에서 출력되는 영상 특징 벡터 및 상기 제2 인코더에서 출력되는 음성 특징 벡터를 조합하여 조합 벡터를 생성하는 조합부;
상기 조합 벡터를 입력으로 하고, 상기 조합 벡터에 역 합성곱(Deconvolution)을 수행하고 업 샘플링(Up Sampling)을 수행하는 디코더;
상기 디코더에 연결되고, 상기 업 샘플링 된 데이터를 기반으로 상기 인물의 복원된 발화 동영상을 출력하도록 마련되는 제1 출력층; 및
상기 디코더에 연결되고, 상기 업 샘플링 된 데이터를 기반으로 상기 발화 동영상과 대응되는 이미지 공간에서 상기 발화 동영상의 예측된 랜드마크를 출력하도록 마련되는 제2 출력층을 포함하되,
상기 발화 동영상 생성 장치는 상기 인물의 발화 동영상을 복원하면서 동시에 상기 발화 동영상의 랜드마크를 예측하도록 학습되는, 발화 동영상 생성 장치.
발화 동영상 생성 장치에 의해 수행되는 발화 동영상 생성 방법으로서,
소정 인물의 발화 동영상 중 비디오 부분인 인물 배경 영상을 입력 받고, 상기 인물 배경 영상으로부터 영상 특징 벡터를 추출하는 동작;
발화 오디오 신호를 입력 받고, 상기 발화 오디오 신호로부터 음성 특징 벡터를 추출하는 동작;
상기 영상 특징 벡터 및 음성 특징 벡터를 조합하여 조합 벡터를 생성하는 동작;
상기 조합 벡터를 입력으로 하여 상기 인물의 발화 동영상을 복원하는 동작; 및
상기 조합 벡터를 입력으로 하여 상기 발화 동영상과 대응되는 이미지 공간에서 상기 발화 동영상의 랜드마크를 예측하는 동작을 포함하되,
상기 발화 동영상 생성 장치는 상기 인물의 발화 동영상을 복원하면서 동시에 상기 발화 동영상의 랜드마크를 예측하도록 학습되는, 발화 동영상 생성 방법.