KR102319753B1

KR102319753B1 - 딥러닝 기반의 영상 컨텐츠 제작 방법 및 장치

Info

Publication number: KR102319753B1
Application number: KR1020190177442A
Authority: KR
Inventors: 정승환
Original assignee: (주)라이언로켓
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2021-11-03
Also published as: KR20210086744A

Abstract

본 발명은 입력된 텍스트를 음성으로 발화하는 영상 컨텐츠를 제작하는 방법에 관한 것으로서, 음성 데이터를 포함하는 객체의 영상에 대한 학습 결과로, 영상 컨텐츠 생성을 위한 학습 모델을 생성하는 단계; 음성으로 발화하고자 하는 텍스트를 입력받는 단계; 상기 입력된 텍스트를 상기 학습 모델에 기초하여 음성으로 변환하는 단계; 상기 변환된 음성으로부터 입모양 키포인트를 추출하는 단계 및 상기 추출된 입모양 키포인트를 기반으로 영상 컨텐츠를 생성하는 단계를 포함한다.

Description

딥러닝 기반의 영상 컨텐츠 제작 방법 및 장치{METHOD AND APPARATUS FOR PRODUCING VIDEO CONTENTS BASED ON DEEP LEARNING}

본 발명은 딥러닝 기반의 영상 컨텐츠 제작 시스템 및 방법에 관한 것으로, 입력된 텍스트를 음성으로 발화하는 영상 컨텐츠를 제작하는 시스템 및 방법에 관한 것이다.

최근 영상 컨텐츠 플랫폼인 유튜브, 넷플릭스 등의 회사가 성장함에 따라, 영상 컨텐츠 제작에 대한 수요가 급증하고 있다.

하지만 이러한 영상 컨텐츠의 제작은 주로 전문가 집단에서 이루어지고 있을 뿐, 일반인들이 영상 컨텐츠를 제작하기에는 쉽지 않은 실정이다.

즉, 촬영할 스튜디오, 카메라, 오디오 장비 등이 필요할 뿐 아니라, 영상 촬영 및 편집에도 많은 전문적 지식 및 시간이 소요되어 일반인들이 쉽게 접근하기 어려운 실정이다.

이와 더불어 한 번 촬영이 완료되면, 촬영된 내용을 수정하는 것은 더욱 어렵다.

한편, 영상합성 기술 개발이 활발히 이루어짐에 따라, 얼굴인식에 기반하여 구현될 수 있는 다양한 응용 서비스가 있다.

따라서, 이를 활용하여 소정의 텍스트만의 입력에 따라 영상 내 얼굴에서 해당 텍스트를 발화할 수 있도록 음성 변환 및 영상 합성을 통해, 일반인들까지도 영상 컨텐츠를 쉽게 제작 및 수정할 수 있는 기술이 필요한 실정이다.

대한민국 공개특허공보 제10-2016-0039935(2016.04.12)

상술한 바와 같은 문제점을 해결하기 위한 본 발명은 텍스트 입력 및 화자가 포함된 영상 입력만으로도, 해당 영상에 포함된 화자가 입력된 텍스트를 발화하는 영상을 제작할 수 있는 딥러닝 기반의 영상 컨텐츠 제작 시스템 및 방법을 제공하고자 한다.

본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상술한 과제를 해결하기 위한 본 발명의 제1측면에 따른 입력된 텍스트를 음성으로 발화하는 영상 컨텐츠를 제작하는 방법은 음성 데이터를 포함하는 객체의 영상에 대한 학습 결과로 영상 컨텐츠 생성을 위한 학습 모델을 생성하는 단계; 음성으로 발화하고자 하는 텍스트 및 발화 대상인 객체의 식별자를 입력받는 단계; 상기 입력된 텍스트를 상기 학습 모델에 기초하여 음성으로 변환하는 단계; 상기 변환된 음성으로부터 입모양 키포인트를 추출하는 단계 및 상기 추출된 입모양 키포인트를 기반으로 상기 객체 식별자에 대응하는 영상 컨텐츠를 생성하는 단계를 포함한다.

일 실시예로, 상기 텍스트를 미리 학습된 음성 알고리즘에 기초하여 음성으로 변환하는 단계는, 상기 객체의 영상에 포함된 음성의 특징 정보를 학습하는 단계; 및 상기 텍스트에 상기 학습된 음성의 특징 정보를 반영하여 스펙트로그램으로 생성하는 단계를 포함한다.

일 실시예로, 상기 음성의 특징 정보는 음성의 음색, 발음 및 읽는 속도 중 하나 이상을 포함할 수 있다.

일 실시예로, 상기 텍스트를 미리 학습된 음성 알고리즘에 기초하여 음성으로 변환하는 단계는, 상기 생성된 스펙트로그램을 원본 음성 파형으로 변환하는 단계를 포함할 수 있다.

일 실시예로, 상기 변환된 음성으로부터 입모양 키포인트를 추출하는 단계는, 상기 변환된 음성으로부터 MFCC(Mel Frequency Cepstral Coefficient)를 추출하는 단계; 상기 추출된 MFCC를 LSTM(Long Short Term Memory)을 이용하여 PCA(Principal Component Analysis) 계수를 예측하는 단계; 및 상기 PCA 계수를 역연산하여 입모양 키포인트를 추출하는 단계를 포함할 수 있다.

일 실시예로, 상기 추출된 MFCC를 LSTM을 이용하여 PCA 계수를 예측하는 단계는, 상기 추출된 MFCC의 출력 프레임 중 초반 일정 프레임을 제거하고 나머지를 결과로 사용하는 지연된 LSTM을 이용하여 PCA 계수를 예측할 수 있다.

일 실시예로, 상기 추출된 입모양 키포인트를 기반으로 영상 컨텐츠를 생성하는 단계는, 상기 추출된 입모양 키포인트에 해당하는 입모양의 영상을 생성하는 단계; 및 상기 생성된 입모양의 영상을 상기 객체의 영상에 합성하여 상기 영상 컨텐츠를 생성하는 단계를 포함할 수 있다.

일 실시예로, 상기 추출된 입모양 키포인트에 해당하는 입모양 영상을 생성하는 단계는, 상기 생성된 입모양 키포인트를 Pix2Pix 모델에 기반하여 상기 입모양 영상으로 생성할 수 있다.

일 실시예로, 상기 생성된 입모양의 영상을 상기 객체의 영상에 합성하여 상기 영상 컨텐츠를 생성하는 단계는, 상기 객체의 영상으로부터 얼굴검출인식 알고리즘을 실행하여 해당 얼굴영역을 추출하는 단계; 상기 얼굴영역의 얼굴 특징요소 중 입모양의 영상을 추출하는 단계; 상기 영상 내 얼굴 특징요소 중 입모양으로부터 일정 영역에 해당하는 영상을 제거하는 단계; 및 상기 입모양 영상을 제외한 부분의 영상 및 상기 생성된 입모양의 영상에 대한 동기화를 실행하여 영상을 합성하여 상기 영상 컨텐츠를 생성하는 단계를 포함할 수 있다.

또한, 본 발명의 제2측면에 따른 입력된 텍스트를 음성으로 발화하는 영상 컨텐츠를 제작하는 시스템은 음성으로 발화하고자 하는 텍스트 및 발화 대상인 객체의 식별자를 수신하는 통신모듈; 음성 데이터를 포함하는 객체의 영상에 대한 학습 결과로 영상 컨텐츠 생성을 위한 학습 모델 및 학습 모델을 통해 영상 컨텐츠를 생성하기 위한 프로그램이 저장된 메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함한다. 이때, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 입력된 텍스트를 상기 학습 모델에 기초하여 음성으로 변환하고, 변환된 음성으로부터 입모양 키포인트를 추출하며, 추출된 입모양 키포인트를 기반으로 상기 객체 식별자에 대응하는 영상 컨텐츠를 생성한다.

이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공될 수 있다.

상기와 같은 본 발명에 따르면, 사용자에 의해 입력되는 텍스트에 대응하여 얼굴 인식되는 소정의 영상에 포함되는 얼굴영역의 입모양이 자동으로 변환하여, 사용자로 하여금 색다른 흥미를 유발시킬 수 있어 다양한 응용 서비스 구현이 가능하다는 이점이 있다.

또한, 촬영장비를 구비하지 않은 상태에서도 영상 컨텐츠 제작이 가능하다는 장점이 있으며, 촬영이 필요 없다는 장점 뿐만 아니라, 영상 내 편집이 용이하기 때문에 전체 영상 컨텐츠의 제작 기간을 획기적으로 단축할 수 있다.

이와 더불어, 추가적인 촬영 없이도 영상 내용에 대한 제한 없는 수정 및 제작이 가능하다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 영상 컨텐츠 제작 방법의 순서도이다.
도 2는 스펙트로그램을 생성하기 위한 모델의 일 예시를 도시한 도면이다.
도 3은 Vocoder를 이용하여 음성파형을 복구하는 일 예시를 도시한 도면이다.
도 4는 영상 컨텐츠를 제작하는 과정을 설명하기 위한 도면이다.
도 5 및 도 6는 입모양 키포인트를 추출하는 내용을 설명하기 위한 도면이다.
도 7 및 도 8은 입모양 키포인트를 반영하여 영상 컨텐츠를 생성하는 일 예시를 설명하기 위한 도면이다.
도 9는 본 발명의 일 실시예에 적용된 Pix2Pix 모델을 설명하기 위한 도면이다.
도 10은 본 발명의 일 실시예에 따른 딥러닝 기반의 영상 컨텐츠 제작 시스템의 블록도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 영상 컨텐츠 제작 방법의 순서도이다.

도 1을 참조하면, 딥러닝 기반의 영상 컨텐츠 제작 시스템(100)에 의해 수행되는 방법은, 음성 데이터를 포함하는 객체의 영상에 대한 학습 결과로, 영상 컨텐츠 생성을 위한 학습 모델을 생성하는 단계(S110), 음성으로 발화하고자 하는 텍스트 및 발화 대상인 객체의 식별자를 입력받는 단계(S120), 텍스트를 학습 모델에 기초하여 음성으로 변환하는 단계(S130), 변환된 음성으로부터 입모양 키포인트를 추출하는 단계(S140), 추출된 입모양 키포인트를 기반으로 상기 객체 식별자에 대응하는 영상 컨텐츠를 생성하는 단계를 포함한다(S150).

먼저, 본 발명의 일 실시예는 음성 데이터를 포함하는 객체의 영상을 학습시키고, 학습된 결과로 영상 컨텐츠 생성을 위한 학습 모델을 미리 생성한다(S110). 이때, 학습을 위해서는 다양한 영상 데이터가 필요할 수 있으며, 충분한 데이터의 학습을 통해 본 발명은 추후 객체에 해당하는 객체 식별자 및 텍스트 입력만으로도 해당 객체가 입력된 텍스트를 발화하는 영상 컨텐츠 합성이 가능하다. 만약, 학습 모델이 해당 객체 식별자에 대한 학습 데이터를 구비하고 있지 않은 경우, 온라인으로부터 실시간으로 제공받거나 오프라인을 통해 학습 데이터를 제공받아 학습할 수 있다.

일 실시예로, 학습 대상인 객체의 영상은 미리 웹사이트 등에서 검색 또는 저장한 특정인이 포함된 영상일 수 있으며, 반드시 이에 한정되는 것은 아니다.

즉, 본 발명의 일 실시예는 스마트폰과 같은 사용자 단말에 포함된 카메라를 통해 자신이나 특정인을 촬영한 영상을 객체의 영상으로 입력받을 수도 있으며, 이를 실시간으로 학습할 수도 있다.

다음으로, 음성으로 발화하고자 하는 텍스트를 입력받고, 해당 텍스트를 발화하고자 하는 대상인 객체 식별자를 입력받는다(S120).

텍스트는 영상 내 객체가 음성으로 발화하고자 하는 대상으로서, 입력된 텍스트는 객체에 대응하는 음성으로 변환된 후, 합성 과정을 통해 영상 컨텐츠에 포함된다.

객체 식별자는 사용자가 입력한 텍스트를 발화하는 대상인 객체마다 부여된 것이다. 이러한 객체 식별자는 예를 들어 특정인의 이름이나 숫자, 특정 키워드를 통해 검색이 가능하다. 다음으로, 텍스트를 미리 학습된 학습 모델에 기초하여 음성으로 변환한다(S130).

본 발명의 일 실시예는 입력된 객체의 영상에 포함된 음성의 특징 정보를 학습하고, 해당 텍스트에 대하여 학습된 음성의 특징 정보를 반영하여 스펙트로그램으로 생성할 수 있다.

스펙트로그램은, 시간 축에 따라 주파수의 스펙트럼을 시각화하기 위한 도구로서, 후술하는 음성 변환 알고리즘 과정에서 숫자 데이터를 음성 데이터로 변환하거나, 반대로 음성 데이터를 숫자 데이터로 변환화는 인코딩(encoding) 내지 디코딩(decoding) 과정에서 사용될 수 있다.

여기에서 음성의 특징 정보는 음성의 음색, 발음 및 읽는 속도 중 하나 이상을 포함할 수 있다.

한편, 전술한 학습 모델은 인공지능 기반으로 학습될 수 있다. 이때, 음성 알고리즘은 텍스트 기반의 음패턴 동기화 테이블을 생성하는 과정을 통해 학습될 수 있다.

예를 들어, 학습을 위해 입력되는 텍스트가 '안녕하세요'인 경우, 음성 알고리즘은 각 음절에 대한 초성, 중성 및 종성을 구분하여 각각의 소리 음패턴을 설정하고, 각각 설정된 소리 음패턴을 동기화 테이블에 저장할 수 있다.

본 발명의 일 실시예는 이러한 동기화 테이블을 통해 추후 음성의 특징 정보를 보다 빠르게 추출할 수 있다.

또한, 음절 단위의 학습 및 분석 이전에 해당 텍스트로부터 음소를 추출하고 이를 기반으로 음절 분석을 수행하 수도 있다. 음소는 말의 의미를 나누어 뜻을 구별하게 하는 소리의 단위를 의미하는데, 일 예로, Hello는 발음상 [helou]로 표시될 수 있다. 그리고 사람은 발음기호와 같이 발음을 하게 되므로, Hello의 음소는 [hel], [lo], [u]와 같이 나눌 수 있다.

본 발명의 일 실시예는 이러한 음소 단위 분석을 통해, 추후 합성되는 영상이 단순히 해당 텍스트를 컴퓨터가 동일한 톤과 속도, 음색 등으로 발음하는 듯한 영상으로 합성되는 것이 아니라, 실제 사람이 의미를 전달하는 것과 같은 영상으로 합성될 수 있게 한다.

한편, 전술한 음성의 특징 정보 중 읽는 시간 정보는 후술하는 입모양 영상과 이를 제외한 나머지 영상을 합성 및 동기화하는 과정에 적용될 수 있다.

도 2는 스펙트로그램을 생성하기 위한 모델의 일 예시를 도시한 도면이다.

일 예로, 스펙트로그램을 생성하기 위한 모델은 도 2에 도시된 바와 같으며, 구체적인 구조는 기계학습을 이용한 TTS(Text To Speech) 모델인 타코트론(Tacotron) 모델에서 포스트넷(postnet)을 제외한 형태가 될 수 있다. 구체적으로, 타코트론은 구글이 제안한 음성합성의 대표적인 모델로서, 입력받은 텍스트를 머신 내부에서 인식 가능한 숫자로 변환해주는 인코더(encoder)와, 단어와 단어 사이의 관계를 기초로 미래 단어를 예측하는데 주로 사용되는 순환신경망(Recurrent Neural Network; RNN)을 이용하여 이전 멜 스케일(mel scale) 스펙트로그램으로부터 다음 멜 스케일(mel scale) 스펙트로그램을 생성하는 디코더(decoder)와, 인코더로부터 수집된 전체 문장의 구성요소 중 문장의 어느 구간을 집중하여 디코더가 스펙트로그램을 생성하게 할 것인지를 결정하는 어텐션(attention)과, Graffin-Lim 복원 알고리즘을 이용하여 스펙트로그램을 음성으로 만드는 보코더(vocoder)를 포함한 4가지 모듈로 구성될 수 있다.

포스트넷(postnet)은 위에서 언급한 멜 스케일 스펙트로그램을 리니어 스케일(linear-scaled; 선형) 스펙트로그램으로 변환하는 역할을 수행하며, CBHG 모듈(1-D Convolution Bank + Highway network + bidirectional GRU)은 신경망 블록으로서, 단어가 나열된 순서대로 각 블록을 쌓아 만든 구조이며, 부분적인 특징을 잡아내는데 유용한 CNN(convolutional neural network)과 연속적인(sequential) 데이터를 생성하기 좋은 RNN(recurrent neural network)의 특징을 모두 활용한 것으로, 수 초짜리의 발화(utterance) 데이터를 정해진 크기만큼 순차적으로 학습하고, 목소리 특징을 뽑아내는(CNN) 동시에, 뽑혀진 부분 특징을 전체적으로 보면서 결과를 만들어 내는(RNN) 것을 특징으로 한다.

본 발명의 일 실시예는 기존 모델에서 선형 스펙트로그램(linear spectrogram)을 만들기 위해 추가한 포스트넷을 제거함으로써, 불필요한 연산을 줄일 수 있다는 장점이 있다. 또한, 본 발명의 일 실시예의 구조에 따라, 포스트넷이 존재함으로써 발생되는 과적합(overfitting) 문제를 극복할 수 있다는 장점이 있다. 여기에서 과적합 문제는 학습이 너무 잘 되어 학습 데이터에 대해서는 높은 정확도를 나타내지만 테스트 데이터나 실제 적용시에는 성능이 떨어지는 문제를 말한다. 스펙트로그램이 생성되고 나면, 생성된 스펙트로그램은 음성 파형(Waveform)으로 변환될 수 있다.

일 실시예로, 음성 파형은 스펙트로그램으로부터 보코더(Vocoder; Voice Coder)를 이용하여 복구될 수 있다.

도 3은 보코더를 이용하여 음성파형을 복구하는 일 예시를 도시한 도면이다.

보코더는 앞서 언급한 바와 같이 멜-스펙트로그램과 같은 오디오 특징값을 기반으로 원본 음성파형을 복구하는 모델이다. 본 발명의 실시예들에 따른 보코더는 도 3과 같은 RNN 기반의 특수한 복수 개의 셀을 구비하는 구조를 통해, 음성 파형의 업비트와 다운비트를 복수 개의 셀에 입력하고 출력값을 재입력하는 과정을 반복 수행하여 최종적으로 음성 파형을 복구할 수 있다.

현재 보코더의 경우에는 반복적인(Recurrent) 방법과 병렬적인(Parallel) 방법이 존재하는데, 반복적인 방법의 경우에는 이전 시점의 데이터를 반영하여 합성하므로 좋은 결과를 좀 더 쉽게 생성 가능하나 시간이 오래 걸린다는 단점이 있다. 반면, 병렬적인 방법의 경우는 빠른 시간에 합성이 가능하나 이전 데이터를 반영하지 못하기 때문에 좋은 결과를 모델링하기 위해서는 더 많은 자원을 요구한다는 단점이 있다.

반면, RNN을 기반으로 하는 본 발명의 일 실시예의 경우에는 반복적인 방법을 기본으로 하나, 한 개의 셀이 아닌 복수의 셀을 병렬적으로 통과하여 음성 파형을 복구하는 방식을 통해, 오랜 시간이 소요되는 종래 보코더에 비하여 보다 빠른 속도로 합성이 가능하다는 장점이 있다.

다음으로, 변환된 음성으로부터 입모양 키포인트를 추출한다(S140).

도 4는 객체의 영상 및 변환된 음성으로부터 영상 컨텐츠를 생성하기 위한 과정을 개략적으로 도시한 것으로, 도 4에 도시된 내용 중 변환된 음성으로부터 입모양 키포인트를 추출하는 과정을 도 5를 참조하여 설명하면 다음과 같다.

먼저 오디오, 즉 변환된 음성으로부터 MFCC(Mel Frequency Cepstral Coefficient)를 추출한다. MFCC는 소리를 일정 구간으로 분할한 후 해당 구간에서의 스펙트로그램을 추출하고, 이를 사람이 잘 들리는 소리 위주로 필터링하기 위한 mel-filter bank에 통과시킨 후, DCT(Discrete Cosine Transform)를 통해 음성의 특징을 추출한 것이다.

이때, 본 발명의 일 실시예는 기 설정된 프레임 단위로 MFCC를 추출할 수 있으며, 일 예로 초당 100프레임 단위로 추출할 수 있다.

다음으로, 추출된 MFCC를 LSTM(Log Short Term Memory)을 이용하여 주성분분석 계수(Principal Component Analysis(PCA) Coefficient)를 예측하고, 예측된 PCA 계수를 역연산하여 입모양 키포인트를 추출할 수 있다.

이때, PCA 계수를 예측하기 위해서 본 발명의 일 실시예는 추출된 MFCC의 출력 프레임 중 초반 일정 프레임(예를 들어, 초반 20프레임)을 제거하고 남은 나머지를 결과(Output)로 사용하는 지연된 LSTM(Delayed LSTM)을 사용할 수 있다.

도 6은 추출된 입모양 키포인트의 일 예시를 설명하기 위한 도면으로, '하이 에브리 원'에서 '이' 발음에 해당하는 부분에 대한 음성 파형으로부터 입모양 키포인트를 추출한 것이다.

이때, 입모양 키포인트는 입술라인을 따라 추출된 복수개의 특징점으로, 윗입술의 위치, 아랫입술의 위치, 입술의 휘어짐, 입술의 최외곽선, 입술의 종단간 위치, 입술의 최고점 및 최저점 위치, 변곡점 및 꼭지점과 이들 사이의 거리 등 다양한 위치 정보에 기초하여 추출될 수 있다.

그 밖에 입모양 키포인트는 위와 같이 추출된 입모양 이미지의 특징점을 연결한 메쉬 정보로 구성될 수도 있다. 일 예로, 메쉬 구조는 특징점 3개를 연결하여 삼각형 형상으로 이루어질 수 있다.

본 발명의 일 실시예는 입모양 키포인트가 메쉬 정보로 구성됨에 따라, 입모양 키포인트에 의해 생성되는 입모양 영상은, 메쉬 정보를 얼굴 영상에 매핑 시킴에 따라 생성될 수 있다.

본 발명의 일 실시예는 이러한 메쉬 정보를 이용함에 따라, 입력된 텍스트에 따른 입모양의 변화가 보다 자연스러운 영상을 생성할 수 있다.

일 예로, 메쉬 구조의 면적의 차이, 특정 메쉬 영역과 특징점의 좌표와의 차이 등의 메쉬 정보를 이용하여 입모양의 변형값을 산출하고, 산출된 결과값을 이용하여 입모양 영상을 생성할 수 있다.

다음으로, 추출된 입모양 키포인트를 기반으로 객체 식별자에 대응하는 영상 컨텐츠를 생성한다(S150).

도 7 및 도 8은 입모양 키포인트를 반영하여 영상 컨텐츠를 생성하는 일 예시를 설명하기 위한 도면이다.

본 발명의 일 실시예는 추출된 입모양 키포인트에 해당하는 입모양 영상을 생성하고, 생성된 입모양 영상을 객체의 영상에 합성하여 영상 컨텐츠를 생성할 수 있다.

도 7을 참조하면 이러한 입모양 영상을 영상에 반영하기 위해, 본 발명의 일 실시예는 객체의 영상으로부터 얼굴검출인식 알고리즘을 실행하여 해당 얼굴영역을 추출하고, 추출된 얼굴영역의 얼굴 특징요소 중 입모양의 영상을 추출한다.

그 다음, 영상 내 얼굴 특징요소 중 입모양으로부터 일정 영역에 해당하는 영상을 제거하고, 해당 일정 영역에 생성된 입모양 키포인트를 적용시킨다. 즉, 도 7에서와 같이 해당 영상으로부터 입모양 부분을 제거한 후, 'Hello?'를 말하는 음성에 대하여 생성된 입모양 키포인트를 해당 영역에 적용시킨다.

그리고 얼굴 특징요소 중에서 이마, 눈, 코 등과 같이 입모양 영상을 제외한 부분의 영상, 및 입모양 키포인트에 기반하여 생성된 입모양 영상에 대한 동기화를 실행하여 영상을 합성하여 영상 컨텐츠를 생성할 수 있다.

이때, 입모양으로부터 일정 영역에 해당하는 영상을 제거하는 것은 해당 영역의 픽셀을 직접 제거하거나, 해당 영역의 픽셀을 블랭크 처리하는 등 다양한 방법이 적용될 수 있다.

이때, 본 발명의 일 실시예는, 생성된 입모양 키포인트에 픽스투픽스(Pix2Pix) 모델을 적용하여 실제 입모양의 이미지를 갖는 영상 컨텐츠를 생성할 수 있다.

즉, 도 8과 같이 텍스트가 변환된 음성으로부터 입모양 키포인트가 추론되면, 해당 입모양 키포인트를 입모양 영상을 제외한 부분에 적용시키고, 픽스투픽스 모델에 기반하여 입모양 키포인트로부터 입모양 이미지를 복원하여 실제 영상 내 사람이 해당 텍스트를 발화하는 영상 컨텐츠를 생성할 수 있게 된다.

도 9는 본 발명의 일 실시예에 적용된 픽스투픽스 모델을 설명하기 위한 도면이다.

픽스투픽스 모델은 쌍으로 구성되어 대응되는 형태의 다른 데이터셋을 이용하여 이미지 간의 변환에 사용되는 모델로서, 일반적으로 입력값과 출력값이 서로 관련성이 있는 데이터일 것을 요구할 수 있다.

일 실시예로, 본 발명은 입모양 키포인트를 영상에 합성하기 위한 픽스투픽스 모델은, 생성자(Generator)와 구분자(Discriminator)를 경쟁적으로 학습시켜서 구분자가 생성자를 식별하지 못하는 단계까지 생성자를 학습시키는 적대적 학습(Adversarial Training)을 핵심으로 하는 생성적 적대 신경망(Generative Adversarial Network; GAN)을 기초로 하되, 기본적으로 적대 신경망의 손실함수를 적용하지 않은 픽스투픽스 유넷(Pix2pix u-net) 구조를 가질 수 있다.

픽스투픽스 모델은, 흑백이미지에 색을 입히는 채색과정(Colorization)과 마찬가지로 입력과 출력의 해상도(Resolution)가 동일하고, 어느 정도 디테일과 모형을 유지하는 성질을 가지고 있기 때문에, 앞서 설명한 바와 같이 인코더-디코더(Encoder-decoder) 구조를 사용하면 정보의 손실이 발생하게 된다. 따라서, 이를 스킵연결(Skip-Connection)을 이용해서 연결하는 구조가 제안된 바 있으며 이를 유넷(U-Net) 구조로 칭한다. 유넷 구조는 초반 부분의 레이어와 후반 부분의 레이어에 스킵연결을 추가함으로서 높은 공간 프리컨시 정보(spatial frequency information)를 유지할 수 있다.

도 9를 참조하면, 본 발명에서의 픽스투픽스 모델은 입모양 주변의 일정 영역이 제외된 부분을 입모양 키포인트에 기반하여 새로운 입모양 영상을 생성할 수 있다. 즉, 본 발명의 일 실시예에서의 픽스투픽스 모델은 유넷(U-net) 구조를 통해 인코더-디코더 구조를 취하면서도 데이터의 손실을 최소화하는 방식으로 비디오를 생성할 수 있다.

그밖에, 본 발명의 일 실시예는 입모양 영상이 나머지 영상 부분과 자연스럽게 합성될 수 있도록, 각 영상의 경계 부분에 대해 이미지 처리를 추가적으로 수행할 수 있다. 예를 들어, 색상차를 줄이기 위해 그라데이션(Gradation)을 적용하거나, 이질감을 줄이기 위해 블러(Blur) 등과 같은 이미지 처리 과정을 수행할 수 있다.

한편, 상술한 설명에서, 단계 S110 내지 S150은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 후술하는 도 10의 내용은 도 1 내지 도 9의 영상 컨텐츠 제작 방법에도 적용될 수 있다.

이하에서는 도 10을 참조하여, 본 발명의 일 실시예에 따른 딥러닝 기반의 영상 컨텐츠 제작 시스템(100)에 대하여 설명하도록 한다.

도 10은 본 발명의 일 실시예에 따른 딥러닝 기반의 영상 컨텐츠 제작 시스템(100)의 블록도이다.

본 발명의 일 실시예에 따른 딥러닝 기반의 영상 컨텐츠 제작 시스템(100)은 통신모듈(110), 메모리(120) 및 프로세서(130)를 포함한다.

통신모듈(110)은 음성으로 발화하고자 하는 텍스트 및 발화 대상인 객체 식별자를 수신한다.

이때, 딥러닝 기반의 영상 컨텐츠 제작 시스템(100)이 하나의 독립된 서버 형태로 구성된 경우, 통신모듈(110)은 외부에 위치한 사용자 단말 또는 기타 디바이스로부터 텍스트 및 영상을 수신할 수 있다.

이때, 통신모듈(110)은 사용자 제어입력을 통해 텍스트를 제공받을 수 있으며, 또한 기 저장중인 텍스트를 로딩하여 제공받을 수도 있다.

일 예로 사용자 단말, 기타 디바이스는 스마트폰, 태블릿, PDA, 랩톱, 데스크톱 등과 같은 컴퓨터 장치 또는 전기 통신 장치일 수 있으나, 이에 제한되는 것은 아니다.

메모리(120)에는 음성 데이터를 포함하는 객체의 영상에 대한 학습 결과로 영상 컨텐츠 생성을 위한 학습 모델 및 학습 모델을 통해 영상 컨텐츠를 생성하기 위한 프로그램이 저장된다.

프로세서(130)는 메모리(120)에 저장된 프로그램을 실행시킴에 따라, 입력된 텍스트를 미리 학습된 모델에 기초하여 음성으로 변환하고, 변환된 음성으로부터 입모양 키포인트를 추출하며, 추출된 입모양 키포인트를 기반으로 객체 식별자에 대응하는 영상 컨텐츠를 생성한다.

도 10을 참조하여 설명한 딥러닝 기반의 영상 컨텐츠 제작 시스템(100)은 상술한 서버의 구성요소로 제공될 수 있다.

이상에서 전술한 본 발명의 일 실시예에 따른 영상 컨텐츠 제작 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.

상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, Ruby, 기계어 등의 컴퓨터 언어로 코드화 된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 딥러닝 기반의 영상 컨텐츠 제작 시스템
110: 통신모듈
120: 메모리
130: 프로세서

Claims

음성 데이터를 포함하는 객체의 영상을 학습 데이터로 하여 영상 컨텐츠 생성을 수행하는 기학습된 학습 모델을 포함하는 처리 모듈이, 입력된 텍스트를 음성으로 발화하는 영상 컨텐츠를 생성하는 방법에 있어서,
상기 처리 모듈이, 음성으로 발화하고자 하는 텍스트 및 발화 대상인 객체의 식별자를 입력받는 제1단계;
상기 처리 모듈이, 상기 텍스트를 변환된 음성으로 변환하는 제2단계;
상기 처리 모듈이, 상기 변환된 음성으로부터 입모양 키포인트를 추출하는 제3단계; 및
상기 처리 모듈이, 상기 입모양 키포인트를 기반으로 상기 객체의 상기 식별자에 대응하는 영상 컨텐츠를 생성하는 제4단계;
를 포함하고,
상기 제2단계에서 상기 처리 모듈은, 입력받은 상기 텍스트를 벡터로 변환해주는 인코더(encoder), 상기 벡터로부터 순환신경망(Recurrent Neural Network; RNN)을 이용하여 이전 멜 스케일(mel scale) 스펙트로그램으로부터 다음 멜 스케일(mel scale) 스펙트로그램을 생성하는 디코더(decoder), 상기 인코더로부터 수집된 전체 문장의 구성요소 중 문장의 특정 구간을 집중하여 상기 디코더가 스펙트로그램을 생성하게 할 것인지를 결정하는 어텐션(attention), Graffin-Lim 복원 알고리즘을 이용하여 상기 멜 스케일 스펙트로그램을 음성으로 만드는 보코더(vocoder)를 포함하고,
상기 제2단계에서 상기 처리 모듈은, 멜 스케일 스펙트로그램을 리니어 스케일(linear-scaled) 스펙트로그램으로 변환하는 포스트넷(postnet)이 제외된 형태로 구성되고,
상기 제2단계에서 상기 처리 모듈의 상기 보코더는, RNN 기반의 복수 개의 셀을 구비하는 구조를 통해 음성 파형의 업비트와 다운비트를 복수 개의 셀에 입력하고 출력값을 재입력하는 과정을 반복 수행하여 스펙트로그램으로부터 음성 파형을 생성하도록 구성되며,
상기 제3단계에서 상기 처리 모듈은, 상기 변환된 음성으로부터 MFCC(Mel Frequency Cepstral Coefficient)를 추출하고, 추출된 상기 MFCC의 출력 프레임 중 초반의 일정 프레임을 제거하고 남은 나머지를 사용하는 지연된 LSTM(Log Short Term Memory)을 이용하여 주성분분석 계수를 예측하고, 예측된 상기 주성분분석 계수를 역연산하여 상기 입모양 키포인트를 추출하며,
상기 제4단계에서 상기 처리 모듈은, 얼굴 특징요소 중 입모양 부분을 제외한 영상 및 상기 입모양 키포인트에 U-net 구조를 포함하는 픽스투픽스(Pix2Pix) 모델을 적용하여 생성되는 입모양 영상에 대한 동기화 및 합성을 수행하여 상기 영상 컨텐츠를 생성하는 것을 특징으로 하는,
딥러닝 기반의 영상 컨텐츠 제작 방법.
하드웨어인 컴퓨터와 결합되어 제1항의 방법을 실행시키기 위하여 기록매체에 저장된, 딥러닝 기반의 영상 컨텐츠 제작 프로그램.
음성 데이터를 포함하는 객체의 영상을 학습 데이터로 하여 영상 컨텐츠 생성을 수행하는 기학습된 프로그램 코드가, 입력된 텍스트를 음성으로 발화하는 영상 컨텐츠를 생성하는 장치에 있어서,
상기 프로그램 코드는,
음성으로 발화하고자 하는 텍스트 및 발화 대상인 객체의 식별자를 입력받는 제1단계;
상기 텍스트를 변환된 음성으로 변환하는 제2단계;
상기 변환된 음성으로부터 입모양 키포인트를 추출하는 제3단계; 및
상기 입모양 키포인트를 기반으로 상기 객체의 상기 식별자에 대응하는 영상 컨텐츠를 생성하는 제4단계;
를 포함하고,
상기 제2단계에서 상기 프로그램 코드는, 입력받은 상기 텍스트를 벡터로 변환해주는 인코더(encoder), 상기 벡터로부터 순환신경망(Recurrent Neural Network; RNN)을 이용하여 이전 멜 스케일(mel scale) 스펙트로그램으로부터 다음 멜 스케일(mel scale) 스펙트로그램을 생성하는 디코더(decoder), 상기 인코더로부터 수집된 전체 문장의 구성요소 중 문장의 특정 구간을 집중하여 상기 디코더가 스펙트로그램을 생성하게 할 것인지를 결정하는 어텐션(attention), Graffin-Lim 복원 알고리즘을 이용하여 상기 멜 스케일 스펙트로그램을 음성으로 만드는 보코더(vocoder)를 포함하고,
상기 제2단계에서 상기 프로그램 코드는, 멜 스케일 스펙트로그램을 리니어 스케일(linear-scaled) 스펙트로그램으로 변환하는 포스트넷(postnet)이 제외된 형태로 구성되고,
상기 제2단계에서 상기 프로그램 코드의 상기 보코더는, RNN 기반의 복수 개의 셀을 구비하는 구조를 통해 음성 파형의 업비트와 다운비트를 복수 개의 셀에 입력하고 출력값을 재입력하는 과정을 반복 수행하여 스펙트로그램으로부터 음성 파형을 생성하도록 구성되며,
상기 제3단계에서 상기 프로그램 코드는, 상기 변환된 음성으로부터 MFCC(Mel Frequency Cepstral Coefficient)를 추출하고, 추출된 상기 MFCC의 출력 프레임 중 초반의 일정 프레임을 제거하고 남은 나머지를 사용하는 지연된 LSTM(Log Short Term Memory)을 이용하여 주성분분석 계수를 예측하고, 예측된 상기 주성분분석 계수를 역연산하여 상기 입모양 키포인트를 추출하며,
상기 제4단계에서 상기 프로그램 코드는, 얼굴 특징요소 중 입모양 부분을 제외한 영상 및 상기 입모양 키포인트에 U-net 구조를 포함하는 픽스투픽스(Pix2Pix) 모델을 적용하여 생성되는 입모양 영상에 대한 동기화 및 합성을 수행하여 상기 영상 컨텐츠를 생성하는 것을 특징으로 하는,
딥러닝 기반의 영상 컨텐츠 제작 장치.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제