KR102640603B1

KR102640603B1 - 립싱크 네트워크 학습방법, 입모양 이미지 생성방법 및 립싱크 네트워크 시스템

Info

Publication number: KR102640603B1
Application number: KR1020220078252A
Authority: KR
Inventors: 김한빈; 이희재
Original assignee: 주식회사 에스알유니버스
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2024-02-27
Also published as: KR20240001503A; KR20240008820A

Abstract

본 개시는 립싱크 네트워크 학습방법, 입모양 이미지 생성방법 및 립싱크 네트워크 시스템을 제공한다. 본 개시는 입모양 특징이 잠재 변수(latent variable)에 인코딩되록 학습된 인코더를 이용하여, 입모양에 관한 랜드마크 포인트를 출력하도록 립싱크 네트워크를 학습시키고, 립싱크 네트워크가 출력한 랜드마크 포인트를 립생성 네트워크에 입력하여, 입력되는 오디오와 싱크가 맞는 입모양 이미지를 생성하기 위한 방법고 립싱크 네트워크 시스템을 제공한다.

Description

립싱크 네트워크 학습방법, 입모양 이미지 생성방법 및 립싱크 네트워크 시스템 {Method for Training Lip Sync Network, Method for Generating Lip Image And Lip Sync Network System}

본 개시는 립싱크 네트워크 학습방법, 입모양 이미지 생성방법 및 립싱크 네트워크 시스템에 관한 것이다.

이 부분에 기술된 내용은 단순히 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

종래의 애니메이션 제작방식은, 각 이미지 프레임을 생성할 때부터 입력될 음성에 맞추어 입모양을 그려내거나 벡터 포인트를 변형시키는 수동 생성 방식이었다. 그러나 이미지를 수동으로 생성할 경우, 음성이 바뀌는 경우 음성에 따른 입모양을 다시 생성해야 하거나, 싱크가 맞지 않은 채 두어야 해 사실감과 생동감이 떨어지는 문제가 있었다. 예컨대 종래의 수동 생성 방식은, 애니메이션을 다양한 언어로 더빙하기 위하여 입모양을 각 언어에 맞추어 다시 생성하거나, 각 언어에 따른 음성과 싱크가 맞지 않는 이미지를 그대로 사용하여야 했다.

최근 인공 신경망 기술의 발전으로, 음성에 맞는 비디오를 생성하도록 음성과 음성에 맞는 비디오로 구성된 데이터셋을 학습시킨 립싱크 네트워크(lip sync network)가 개발되고 있다. 이러한 방식은 얼굴 탐지 네트워크(face detection model 또는 face detection network)을 이용하여 비디오의 각 이미지로부터 얼굴 영역과 얼굴의 랜드마크를 탐지하여 bounding box를 추론하고, 이를 대상으로 GAN(Generative Adversarial Networks)이 각 이미지와 음성 간 싱크가 맞는지를 판별하여, 적대적 학습을 수행하는 방식이다.

구체적으로, 얼굴 탐지 네트워크를 이용하여 이미지의 얼굴 중 입에 해당하는 영역(또는 하관영역)을 마스킹하고, 음성에 맞는 입모양의 이미지를 생성하여 마스킹된 영역과 합성함으로써 이미지를 생성하는 방식이다. 그러나 기존 생성 방식은 얼굴탐지 네트워크를 입모양 부분의 마스킹 용도로만 사용할 뿐 학습용 네트워크에는 사용되지 않아 입모양 생성의 안성성이 떨어진다는 단점이 있다. 더욱이 얼굴 탐지 네트워크는 인간형 얼굴 이미지를 대상으로 학습된 모델로, 정형화되지 않은 형태의 얼굴이나 외형을 가진 객체를 대상으로는 그 성능이 크게 떨어지는 문제가 있다.

뿐만 아니라, GAN을 통해 합성된 이미지를 바로 생성하는 방식은 새로운 타겟 이미지에 대하여는 자연스러운 입모양을 생성해내기 어렵고, 입 떨림 현상이 발생하는 문제가 있다. 예컨대, 사람 이미지로 학습을 수행한 립싱크 네트워크를 이용하여, 동물 이미지에 싱크가 맞는 입모양을 생성하여 합성하는 경우에 해당 동물 이미지는 동물의 특징에 부합하지 않는 사람형 입모양을 가지게 되는 것이다. 립싱크 네트워크가 '모든' 잠재적 타겟에 관한 이미지 전부를 학습할 수 없다는 점, 학습 단계에서 수집되지 못한 새로운 유형의 타겟 이미지는 계속적으로 생겨날 것이라는 점을 고려할 때, 마스킹하여 이미지를 합성하는 방식은 한계가 분명하다. 또한 GAN은 입력 이미지와 유사하지만 다른 '가상'의 이미지를 생성하는 것으로, 무작위로 추출된 잠재 벡터(latent vector)를 입력으로 하여 입출력 이미지의 제어가 어려워 새로운 타겟에 적합하도록 조정된 이미지를 생성하는 데 한계가 있다.

따라서, 어떠한 이미지와 오디오에도 자연스러운 입모양 이미지, 애니메이션을 생성할 수 있는 방식의 고안이 필요하다.

본 개시는 립싱크 네트워크 시스템 및 그를 이용한 립싱크 네트워크 학습방법을 제공하는 것을 목적으로 한다.

본 개시의 일 실시예에 의하면, 랜드마크 포인트를 출력하도록 립싱크 네트워크를 학습시키는 방법을 제공할 수 있다.

본 개시의 일 실시예에 의하면, 랜드마크 포인트를 출력하도록 학습된 립싱크 네트워크를 이용하여, 새로운 오디오와 싱크가 맞으면서 타겟 이미지에 맞는 입모양 이미지를 생성하는 방법을 제공할 수 있다.

본 개시의 일 실시예에 의하면, 랜드마크 포인트를 출력하는 립싱크 네트워크와, 입모양 이미지를 생성하는 립생성 네트워크로 구성된 립싱크 네트워크 시스템을 제공할 수 있다.

본 발명이 해결하고자 하는 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

본 개시의 일 실시예에 의하면, 오토 인코더를 포함하는 립싱크 네트워크 학습방법에 있어서, 하나 이상의 동영상으로부터 샘플링되어 추출된, 랜드마크 포인트 및 임베딩된 오디오 데이터를 하나의 단위로써 포함하는 학습 데이터셋을 입력받는 과정; 입모양에 관한 랜드마크 포인트 데이터셋을 이용하여 기 학습된 제1 인코더를 이용하여, 상기 학습 데이터셋의 랜드마크 포인트로부터 입모양 특징으로서 랜드마크 포인트 벡터를 출력하는 과정; 제2 인코더를 이용하여, 상기 학습 데이터셋의 임베딩된 오디오 데이터로부터 오디오 특징으로서 오디오 벡터를 추출하는 과정; 및 상기 오토 인코더의 디코더가 상기 랜드마크 포인트 벡터 및 상기 오디오 벡터에 대응하는 입모양에 관한 랜드마크 포인트를 출력하도록, 상기 립싱크 네트워크의 학습을 수행하는 과정을 포함하되, 상기 제1 인코더는, 입력되는 랜드마크 포인트에 관한 입모양 특징이 잠재 변수(latent variable)에 인코딩되도록 하는 인공신경망인, 립싱크 네트워크 학습방법을 제공한다.

본 개시의 일 실시예에 의하면, 전술한 립싱크 네트워크 학습방법에 의해 기 학습된 립싱크 네트워크를 이용하여, 새로운 오디오와 싱크가 맞는 입모양 이미지를 생성하는 방법에 있어서, 상기 기 학습된 립싱크 네트워크가 상기 새로운 오디오로부터 추출된 임베딩된 오디오 데이터를 입력받는 과정; 상기 기 학습된 립싱크 네트워크가 상기 임베딩된 오디오 데이터에 대응하는 랜드마크 포인트를 생성하는 과정; 및 생성된 랜드마크 포인트 및 타겟 이미지 프레임을 립생성 네트워크에 입력하여, 상기 새로운 오디오와 싱크가 맞되, 상기 타겟 이미지 프레임에 대응하는 입모양 이미지를 생성하는 과정을 포함하는, 입모양 이미지 생성방법을 제공한다.

본 개시의 일 실시예에 의하면, 입모양에 관한 랜드마크 포인트 데이터셋을 이용하여, 랜드마크 포인트 각각에 대응하는 입모양 특징이 잠재 변수(latent variable)에 인코딩되록 기 학습되고, 랜드마크 포인트를 입력받아 랜드마크 포인트 벡터를 출력하는 제1 인코더; 오디오로부터 추출된 임베딩된 오디오 데이터를 입력받아 오디오 벡터를 출력하는 제2 인코더; 및 상기 랜드마크 포인트 벡터 및 상기 오디오 벡터를 입력으로 하여, 상기 랜드마크 포인트 벡터 및 상기 오디오 벡터에 대응하는 입모양에 관한 랜드마크 포인트를 출력하도록 학습되거나, 새로운 오디오로부터 추출된 임베딩된 오디오 데이터를 상기 제2 인코더를 통해 입력받아, 상기 새로운 오디오에 대응하는 입모양에 관한 랜드마크 포인트를 출력하는 디코더를 포함하는, 립싱크 네트워크 시스템을 제공한다.

본 개시의 일 실시예에 의하면, 전술한 립싱크 네트워크 학습방법 또는 입모양 이미지 생성방법을 수행하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체 및/또는 전술한 방법의 각 과정을 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터 프로그램을 제공한다.

본 개시의 일 실시예에 의하면, 입력된 오디오와 싱크가 맞는 입모양 랜드마크를 출력하도록 립싱크 네트워크를 학습시키는 효과가 있다.

본 개시의 일 실시예에 의하면, 학습된 립싱크 네트워크를 이용하여 랜드마크 포인트를 출력하고, 립생성 네트워크를 이용하여 랜드마크 포인트로부터 타겟 이미지의 객체가 무엇인지와 관계없이 오디오와 싱크가 맞고 객체에 적합한 입모양 이미지들을 신속하고 정확하게 생성하는 효과가 있다.

이로써, 사람뿐 아니라 동물, 사물 등 객체의 유형이나 객체의 정형화 여부와 관계없이, 오디오와 싱크가 맞는 입모양 움직임을 가지는 이미지를 생성하여, 오디오에 따라 자연스러운 입모양을 가지는 애니메이션을 생성할 수 있다.

본 개시의 다양한 실시예에 따른 립싱크 네트워크 시스템의 효과들은 이상에서 언급한 효과들에 한하지 않고, 이 분야 통상의 기술자가 본 개시의 대시보드 시스템의 효과로서 착안할 수 있는 효과를 포함한다.

도 1은 본 개시의 일 실시예에 따른 립싱크 네트워크 시스템을 나타내는 블록구성도이다.
도 2는 본 개시의 일 실시예에 따른 립싱크 네트워크를 나타내는 개념도이다.
도 3은 본 개시의 일 실시예에 따른 립싱크 네트워크 시스템을 이용하여 입모양 이미지가 생성되는 예시도이다.
도 4는 본 개시의 일 실시예에 따른 립싱크 네트워크 학습방법을 나타내는 흐름도이다.
도 5는 본 개시의 일 실시예에 따른 입모양 이미지 생성방법을 나타내는 흐름도이다.

이하에서는, 본 개시의 실시예들을 예시적 도면을 이용하여 설명하나, 이러한 실시예 및 도면은 본 개시를 설명하기 위한 것일 뿐 청구범위를 한정하지 않는다. 한편, 본 개시의 설명과 관련하여, 공지된 구성이나 기능에 대하여는 상세한 설명을 생략할 수 있다.

또한, 본 개시의 구성 요소, 기능, 효과 등을 설명하는 데 있어서, 제1, 제2, a, b, A, B, 1), 2) 등의 용어를 사용할 수 있으나, 이는 각 구성 요소를 구별하기 위한 것으로 해당 구성 요소의 본질이나 차례 또는 순서 등을 한정하지 않는다.

또한, 명세서에 기재된 '인터페이스', '시스템', '플랫폼', '장치', '부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

한편, 본 개시의 다양한 구성 요소, 모듈, 부, 장치, 인터페이스, 시스템 등은 컴퓨터 하드웨어, 소프트웨어, 애플리케이션 및/또는 이들의 조합으로 구현될 수 있고, 이러한 다양한 구현예들은 프로그래밍 가능한 시스템상에서 실행 가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다.

본 개시의 도면 및 도면부호는, 본 개시의 실시예들을 설명하기 위한 것이고, 본 개시가 실시될 수 있는 유일한 실시형태를 나타내는 것은 아니다.

본 개시의 립싱크 네트워크 시스템은 하나 이상의 컴퓨팅 디바이스 상에서 실행될 수 있다. 립싱크 네트워크 시스템은, 각 컴퓨팅 디바이스가 가용할 수 있는 하나 이상의 프로세서와 하나 이상의 메모리에 의해 각 기능을 수행할 수 있다. 립싱크 네트워크 시스템은, 하나 이상의 컴퓨팅 디바이스와 결합 또는 연동되고 내부에 저장된 명령어들을 가지는 컴퓨터 판독가능 스토리지에 저장 또는 분산 저장될 수 있다.

도 1은 본 개시의 일 실시예에 따른 립싱크 네트워크 시스템을 나타내는 블록구성도이다.

본 개시의 일 실시예에 따른 립싱크 네트워크 시스템(10)은 립싱크 네트워크(100)와 립생성 네트워크 파트(300)로 나뉠 수 있다. 립싱크 네트워크(100)는, 오디오로부터 추출된 임베딩된 오디오 데이터를 입력받아 오디오 벡터를 출력하는 오디오 인코더(102), 랜드마크 포인트를 입력받아 랜드마크 포인트 벡터를 출력하는 랜드마크 인코더(104), 랜드마크 포인트 벡터 및 오디오 벡터를 입력받아, 이에 대응하는 입모양에 관한 랜드마크 포인트를 출력하도록 학습을 수행하거나, 새로운 오디오를 입력받아 새로운 오디오에 대응하는 랜드마크 포인트를 추론하여 생성하는 디코더(106)를 포함한다. 립싱크 네트워크(100)는 디코더(106)가 생성한 랜드마크 포인트가 오디오와 싱크가 맞는지를 판별하기 위한 오토 인코더(autoencoder)의 판별자(discriminator, 200)의 판별 결과를 기초로 립싱크 네트워크의 디코더(106)를 학습시킨다.

립생성 네트워크 파트(300)는, 디코더(106)가 출력한 랜드마크 포인트와 타겟 이미지(또는 타겟 이미지 프레임, 이하 생략)를 입력받아 오디오에 대응하는, 즉 싱크가 맞는 입모양에 관한 이미지(또는 이미지 프레임, 이하 생략)를 생성하는 립생성 네트워크(302)를 포함한다. 이러한 입모양에 관한 이미지는 타겟 이미지에 대응하는, 즉 타겟 이미지에 맞는, 예컨대 크기, 색상, 모양, 형태, 위치 등의 속성값이 타겟 이미지에 부합하는 입모양 이미지 또는 그러한 입모양을 가지는 타겟 이미지일 수 있다.

1. 립싱크 네트워크 학습방법

본 개시의 일 실시예에 따른 립싱크 네트워크(100)는, 오디오로부터 추출된 임베딩된 오디오 데이터와, 그에 대응하는 랜드마크 포인트, 또는 기본 랜드마크 포인트를 입력받아 입력 음성에 대응하는 랜드마크 포인트를 출력하도록 학습된다. 종래의 얼굴 탐지 네트워크는 얼굴 영역 탐지 -> 얼굴 랜드마크 검출 -> 입모양 마스킹 -> 네트워크 통과 -> 입모양 이미지를 출력하는 단계를 수행하여 립싱크 네트워크의 학습 및 추론에 오랜 시간이 소요된다. 또한 얼굴 탐지 네트워크는 변환이 아닌 생성모델이기 때문에 입력된 데이터의 영향을 받지 않아 입떨림의 문제점이 발생할 가능성이 높다는 문제가 있다. 또한 종래의 얼굴 탐지 네트워크는 '인간형' 얼굴에 대하여만 탐지가 가능하고, 동물, 캐릭터 등 다양한 이미지에 대하여는 적합성이 떨어지는 문제가 있다.

이러한 문제를 해결하기 위해, 립싱크 네트워크 시스템(10)은 랜드마크 인코더(104)로서, 입력된 랜드마크 포인트의 입모양 특징이 잠재 변수에 인코딩되록 하는 인공신경망을 이용한다. 랜드마크 인코더(104)는 입모양에 관한 랜드마크 포인트 데이터셋을 이용하여, 랜드마크 포인트 각각에 대응하는 입모양 특징이 잠재 변수(latent variable)에 인코딩되록 기 학습된 인공신경망일 수 있다.

구체적으로, 입모양에 관한 랜드마크 포인트 데이터셋은 입모양을 포함하는 다양한 이미지로부터 추출된 랜드마크 포인트들의 데이터셋일 수 있다. 예컨대 실제 인간을 촬영한 이미지, 가상 인간 이미지, 입을 가지는 인간형 외의 캐릭터, 입을 가지는 동물, 입을 가지는 사물 등 입을 가지는 다양한 객체의 이미지, 및/또는 다양한 입모양 이미지가 이러한 객체에 관한 이미지에 다양한 방식으로 합성된 이미지로부터 추출된 랜드마크 포인트일 수 있다. 즉, 입모양에 관한 랜드마크 포인트 데이터셋은, 립싱크 네트워크(100)의 추론으로 생성하고자 하는 객체의 랜드마크 포인트(또는 타겟 랜드마크 포인트)일 필요가 없다.

랜드마크 인코더(104)는 CNN으로 구현되며, 입모양에 관한 랜드마크 포인트 데이터셋의 랜드마크 포인트들을 컨볼루션 레이어(convolution layer)에 통과시킴으로써 랜드마크 포인트들의 공통된 정보로써 입모양 특징을 산출할 수 있다. 랜드마크 인코더(104)는 입모양에 관한 랜드마크 포인트 데이터셋의 다양성에 따라, 포함하는 노드의 수와 컨볼루션 레이어의 개수를 달리할 수 있다. 예컨대, 랜드마크 인코더(104)는 입모양에 관한 랜드마크 포인트 데이터셋을 분류할 수 있는 범주의 갯수(단, 이러한 범주는 학습에 사용되는 GT는 아님)에 따라 컨볼루션 레이어의 갯수 또는 레이어의 노드 수를 선별적으로 채용할 수 있다. 이러한 컨볼루션 레이어의 갯수, 노드 수 각각은, 분류할 수 있는 범주의 갯수를 파라미터로 하여, 랜드마크 인코더(104)가 기 설정된 성능지표(예: 정확도(accuracy), 정밀도(precision), 재현율(recall), F1-score 등) 기준을 충족시키도록 자동으로 반복학습되면서 결정된 것일 수 있다. 여기서 범주의 갯수는, 입모양에 관한 랜드마크 포인트 데이터셋을 비지도학습 기법(예: K-means clustering, K-medoids clustering, soft clustering 등)을 이용하여 자동으로 분류하여 산출된 것일 수 있으며, 반드시 정확한 분류가 이루어질 필요는 없다.

이로써 본 개시의 다양한 실시예에 따른 립싱크 네트워크 시스템(10)은 다양한 객체에 적합성이 있고, 빠른 연산처리가 가능한 립싱크 네트워크(100)를 생성할 수 있다.

한편, 립싱크 네트워크(100)의 출력은 학습 데이터셋의 랜드마크 포인트에 따라, (1) 입모양만의 이미지로부터 추출된 랜드마크 포인트를 학습 데이터로 하는 경우, 입모양만의 랜드마크 포인트일 수 있고, (2) 입모양을 포함하는 객체 이미지로부터 추출된 랜드마크 포인트를 학습 데이터로 하는 경우, 입모양을 포함하는 객체의 랜드마크 포인트일 수 있다. 따라서 랜드마크 인코더(104)는 (1)의 경우와 (2)의 경우를 구분할 수 있도록 학습이 될 수 있다. 또한 랜드마크 인코더(104)는 (2)의 경우에 입모양 특징으로서 객체 내 입모양의 위치, 크기, 비율, 색상, 밝기 등의 속성정보가 더 반영되도록 학습될 수 있다.

립싱크 네트워크 시스템(10)은 하나 이상의 동영상(video)으로부터 샘플링된 이미지 프레임과, 함께 샘플링된 오디오 각각으로부터 추출된, 랜드마크 포인트와 임베딩된 오디오 데이터를 하나의 단위로써 포함하는 학습 데이터셋을 입력받아 립싱크 네트워크(100)의 학습을 수행한다. 동영상은 예컨대, 주어진 텍스트를 읽는 객체의 얼굴 또는 입모양 동영상을 샘플링한 것일 수 있다. 이러한 학습 데이터셋은 샘플링된 이미지 프레임과 대응하는 오디오 데이터를 랜덤하게 추출하여 구성된 것이 아닌, 시계열적 순서 또는 시퀀스(sequence)를 가지도록 추출된 데이터일 수 있다. 이는 입모양의 변화와 소리의 변화로부터 인식가능한 싱크(sync)가 디코더(106)의 잠재 변수에 반영되도록 하기 위함이다. 이로써, 추후 출력되는 랜드마크 포인트와, 이를 기초로 생성되는 입모양 이미지 또한 해당 시계열적 순서 또는 시퀀스에 따라 생성될 수 있다.

랜드마크 인코더(104)는 학습 데이터셋의 각 단위에 해당하는 랜드마크 포인트로부터 입모양 특징으로서 랜드마크 포인트 벡터를 출력한다. 오디오 인코더(102)는 대응하는 임베딩된 오디오 데이터로부터 오디오 특징으로서 오디오 벡터를 출력한다. 이러한 오디오 데이터는 오디오 스펙트럼 정보를 포함할 수 있다.

한편, 오디오 인코더(102)는 LSTM 인공신경망으로 구현되며, 이미지와 오디오 간 싱크 정확도 및/또는 재현율을 향상시키는데 적합한 갯수의 컨볼루션 레이어와 노드로 구성된 CNN으로 구현될 수 있다. 오디오 인코더(102)와 랜드마크 인코더(104)는 오토 인코더의 인코더로서, 입력 데이터의 특징을 추출하도록 입력 데이터의 차원을 축소시키도록 구성된다.

디코더(106)는 오토 인코더의 디코더로서, 랜드마크 포인트 벡터 및 오디오 벡터에 대응하는 랜드마크 포인트를 출력하도록 학습을 수행한다. 이때 랜드마크 포인트 벡터와 오디오 벡터는 디코더(106)에 입력되는 입력 벡터로 이용된다. 이러한 입력 벡터는 예컨대, 랜드마크 포인트 벡터와 오디오 벡터를 다양한 axis로 concatenate되어 생성된 것일 수 있다.

한편, 립싱크 네트워크 시스템(10)은 배치 사이즈(batch size) 등 별도의 학습 단위에 따라 오디오 인코더(102) 및 랜드마크 인코더(104)로부터 각각의 벡터를 출력하여 입력 벡터를 생성하여 디코더(106)의 학습을 수행할 수 있다. 예컨대, 립싱크 네트워크 시스템(10)은 동일한 동영상으로부터 샘플링된 오디오와 이미지 프레임으로부터 추출된 임베딩된 오디오 데이터와 랜드마크 포인트(랜드마크 포인트 프레임들)로부터 출력된 벡터들을 순서대로 연결하여 입력 벡터를 생성할 수 있다. 이때 디코더(106)는 입력 벡터를 입력가능한 벡터 크기만큼 순서대로 입력하여 학습을 수행할 수 있다.

디코더(106)는 학습 데이터 각 단위 데이터들의 시계열적 순서에 따라 입모양에 관한 랜드마크 포인트 각각을 출력할 수 있다. 이 경우 출력된 입모양에 관한 랜드마크 포인트 각각은 시계열적 순서가 있도록 구성된다.

디코더(106)는 판별자(200)의 판별 결과를 반영하여 학습을 수행한다. 판별자(200)는 출력된 입모양에 관한 랜드마크 포인트에 대응하는 학습 데이터의 랜드마크 포인트을 GT로 하여, 출력된 입모양 랜드마크 포인트와 대응하는 오디오 간 싱크가 맞는지를 판별하고, 판별 결과를 디코더(106)에 전달한다.

판별자(200)는 다양한 loss 값(예: L2 Loss)을 산출하고, 디코더(106)는 이러한 loss를 다양한 방식으로 학습하여 반영할 수 있다. 예컨대, 판별자(200)는 다양한 방식으로 loss 값을 산출하거나, 단계별로 loss 값을 산출하고, 역전파 방식으로 디코더(106)의 노드 가중치를 갱신시킬 수 있다.

예컨대, 판별자(200)는 출력된 랜드마크 포인트 각각과, 출력된 랜드마크 포인트 각각에 순서적으로 대응하는 학습 데이터의 랜드마크 포인트 각각 간 차(또는 거리)를 연산하고, 랜드마크 포인트 간 차를 기초로 판별자가 싱크가 맞는지 여부를 판별할 수 있다. 싱크가 맞지 않는 것으로 판별하는 경우에, 출력된 입모양에 관한 랜드마크 포인트 각각의 순서에 따라, 대응하는 오디오 벡터의 시간 변화에 따른 벡터 간 차 및 벡터 간 차의 변화량을 연산할 수 있다. 립싱크 네트워크 시스템(10)은 이러한 벡터 간 차, 변화량이 반영되도록 립싱크 네트워크 시스템(10)의 각 네트워크, 오디오 인코더(102), 랜드마크 인코더(104) 및 디코더(106)의 전부 또는 일부에 대한 네트워크 재구성을 수행할 수 있다. 또는 랜드마크 포인트 간 차, 벡터 간 차 및 변화량이 반영되도록 재구성할 수도 있다.

한편, 전술한 경우에 학습 데이터셋의 배치를 구성하는 랜드마크 포인트, 임베딩된 오디오 데이터가 추출된 원본 오디오, 원본 이미지 프레임은 시계열적 순서가 있도록 샘플링되면 족하고, 반드시 동영상의 연속되는 이미지 프레임, 오디오일 필요는 없다.

본 개시의 다양한 실시예에 따른 립싱크 네트워크(100)는 도 2에서와 같이, 대칭형 오토 인코더가 아닐 수 있다. 랜드마크 인코더(104)와 오디오 인코더(102)는 서로 다른 인공신경망 구조를 가지며, 랜드마크 포인트 벡터와 오디오 벡터를 입력 벡터로 하는 디코더(106) 또한 랜드마크 인코더(104) 및 오디오 인코더(102)와는 다른 인공신경망 구조를 가지게 되는 것이다. 이로써 본 개시의 다양한 실시예에 따른 립싱크 네트워크(100)는 학습 데이터셋에 대한 과적합 문제를 방지할 수 있다.

2. 립싱크 네트워크 및 립생성 네트워크를 이용한 입모양 이미지 생성방법

립싱크 네트워크 시스템(10)은 전술한 립싱크 네트워크 학습방법에 의해 학습된 립싱크 네트워크(100)를 이용하여, 새로운 오디오(또는 음성)와 싱크가 맞는 입모양에 관한 랜드마크 포인트를 생성한다. 이러한 랜드마크 포인트의 생성은, 새로운 오디오에 따라 시계열적으로 생성되는 것일 수 있다. 구체적으로, 디코더(106)는 오디오 인코더(102)를 통해 입력받은, 새로운 오디오로부터 출럭된 임베딩된 오디오 데이터에 대응하는 입모양에 관한 랜드마크 포인트들을 출력할 수 있다. 이때 출력되는 랜드마크 포인트는 생성하고자 하는 애니메이션/동영상을 구성하는 주사율(hz) 또는 초당 프레임(fps)과 오디오 데이터의 길이에 따른 갯수만큼 생성될 수 있다.

한편, 립생성 네트워크(302)가 다양한 형태의 입모양 이미지를 생성하기 위하여, 립싱크 네트워크 시스템(10)은 타겟 이미지 및/또는 타겟 이미지에 대한 정보(예: 입모양 랜드마크 포인트, 타겟 이미지에 포함될 입의 위치 정보, 타겟 이미지상의 입의 bounding box, 입모양이 결합될 벡터 포인터 등)를 함께 이용하여 타겟 이미지에 대응하면서(예: 입모양, 입의 위치, 입의 크기, 입의 배율 등) 새로 입력된 오디오와 싱크가 맞는 입모양 움직임을 가지는 입모양 이미지들을 생성할 수 있다. 예컨대, 입모양 랜드마크 포인트를 립싱크 네트워크(100)에 입력하는 경우, 해당 입모양 랜드마크에 대응하도록 재구성된 랜드마크 포인트를 생성할 수 있다. 타겟 이미지가 입이 포함될 위치 정보를 포함하는 경우, 립생성 네트워크(302)는 위치 정보에 대응하도록(예: 생성된 입모양이 해당 위치, 크기, 색상 및/또는 모양을 가지는 등) 재구성된 입모양 이미지를 생성할 수 있다.

도 2는 본 개시의 일 실시예에 따른 립싱크 네트워크를 나타내는 개념도이다. 도 2에 대한 서술은 전술한 것과 같다.

도 3은 본 개시의 일 실시예에 따른 립싱크 네트워크 시스템을 이용하여 입모양 이미지가 생성되는 예시도이다.

립싱크 네트워크 시스템에 타겟 이미지와 새로운 오디오(또는 새로운 오디오로부터 추출된 임베딩된 오디오 데이터)를 입력하면, 해당 오디오와 싱크가 맞는, 즉 오디오에 따른 입모양을 가지는 입모양 이미지가 생성된다. 이 때 립싱크 네트워크 시스템의 출력은 학습 데이터셋의 이미지 프레임에 따라, 입모양만을 포함하는 이미지일 수도, 입모양을 포함하는 객체 이미지일 수도 있다.

구체적으로, 립싱크 네트워크 시스템은 새로운 오디오를 입력받는 경우 새로운 오디오로부터 임베딩된 오디오 데이터를 추출하고, 임베딩된 오디오 데이터를 입력받는 경우 해당 임베딩된 오디오 데이터를 립싱크 네트워크에 입력하고, 오디오에 대응하는 랜드마크 포인트를 출력한다. 이후, 생성된 랜드마크 포인트와 타겟 이미지를 립생성 네트워크에 입력하여, 오디오와 싱크가 맞되 타겟 이미지에 대응하는 입모양 이미지를 출력한다.

출력된 입모양 이미지는 시계열적 순서를 가지며, 순서에 따라 재생하면 오디오와 싱크가 맞는 입모양 이미지의 애니메이션을 구현할 수 있다.

이때, 립생성 네트워크 시스템은 타겟 랜드마크 포인트 또는 타겟 이미지에 대한 정보를 더 입력받을 수 있다. 립싱크 네트워크 시스템은 타겟 랜드마크 포인트 또는 타겟 이미지에 대한 정보를 기초로 재구성된, 오디오와 싱크가 맞는 입모양을 가지는 이미지를 출력할 수 있다.

예컨대, 도 3을 참조하면, 타겟 이미지에 대한 정보로서 입 영역의 bounding box(도 3의 타겟 이미지의 (a) 영역)를 더 입력받는 경우에, 립싱크 네트워크 시스템은, 해당 영역에 대응하는(예: 크기 또는 배율 등) 오디오와 싱크가 맞는 입모양 이미지(도 3의 출력 이미지의 (a-1) 내지 (a-3) 영역)를 출력할 수 있다. 또는, 립싱크 네트워크 시스템은 타겟 이미지상의 대응하는 영역에 오디오와 싱크가 맞는 입모양이 포함되도록 재구성된 이미지를 출력할 수 있다.

도 4는 본 개시의 일 실시예에 따른 립싱크 네트워크 학습방법을 나타내는 흐름도이다.

립싱크 네트워크가 학습 데이터셋을 입력받는다(S400).

립싱크 네트워크의 랜드마크 인코더와 오디오 인코더를 이용하여, 학습 데이터셋의 랜드마크 포인트와 임베딩된 오디오 데이터 각각으로부터 랜드마크 포인트 벡터 및 오디오 벡터를 각각 출력한다(S410).

출력된 랜드마크 포인트 벡터 및 오디오 벡터를 립싱크 네트워크의 디코더에 입력하여, 오디오 벡터에 대응하는 오디오와 싱크가 맞는 입모양을 구성하기 위한 입모양에 관한 랜드마크 포인트를 출력한다(S420).

립싱크 네트워크 시스템은 립싱크 네트워크의 판별자를 이용하여, 출력된 랜드마크 포인트가 오디오와 싱크가 맞는지는 판별한다(S430).

판별 결과를 립싱크 네트워크에 전달하여, 립싱크 네트워크의 각 인코더와 디코더 중 적어도 하나의 네트워크를 재구성함으로써 학습을 수행한다(S440).

도 5는 본 개시의 일 실시예에 따른 입모양 이미지 생성방법을 나타내는 흐름도이다.

립싱크 네트워크 시스템은 전술한 방식으로, 립싱크 네트워크를 학습시킨다(S500).

립싱크 네트워크 시스템은 새로운 오디오와 타겟 이미지(또는 타겟 이미지 프레임)을 입력받는다(S510).

립싱크 네트워크 시스템은, 학습된 립싱크 네트워크를 이용하여 새로운 오디오와 싱크가 맞는 입모양에 관한 랜드마크 포인트를 생성한다(S520). 한편, 립싱크 네트워크 시스템은 타겟 이미지로부터 추출된 랜드마크 포인트를 이용하여, 새로운 오디오와 싱크가 맞고 타겟 이미지에 대응하는 입모양에 관한 랜드마크 포인트를 생성할 수도 있다.

립싱크 네트워크 시스템은, 출력된 랜드마크 포인트를 립생성 네트워크에 입력하여, 새로운 오디오와 싱크가 맞는 입모양 이미지(또는 입모양을 포함하는 타겟 이미지)를 생성한다(S530). 립생성 네트워크는 타겟 이미지를 입력받을 수 있으며, 생성된 입모양 이미지는, 타겟 이미지가 새로운 오디오와 싱크가 맞는 입모양을 포함하도록 재구성된 이미지일 수 있다.

한편, 립싱크 네트워크 시스템은, 타겟 이미지의 랜드마크 포인트인, 타겟 랜드마크 포인트를 더 입력받을 수 있다(S512). 이 경우에, S540 단계에서 생성되는 입모양 이미지(또는 입모양을 포함하는 타겟 이미지)는 타겟 랜드마크 포인트가 반영된 이미지가 된다.

또는, 립싱크 네트워크 시스템은, 타겟 이미지에 관한 정보(예: 입모양, 입 위치, 입이 열린 정도, 혀의 위치, 치아의 배열 상태 등)를 더 입력받을 수 있다(S522). 이 경우에, S540 단계에서 생성되는 입모양 이미지(또는 입모양을 포함하는 타겟 이미지)는 해당 정보가 반영된 이미지일 수 있다. 예를 들어, 립싱크 네트워크 시스템은 타켓 이미지의 입 모양과 입 위치을 기초로 적정한 크기의 입을 타켓 이미지의 얼굴에 배치할 수 있으며, 혀의 위치와 치아의 배열 상태 등을 이용하여 타켓 이미지가 입을 자연스럽게 움직이며 언어를 구사하게 할 수 있다. 또한, 립싱크 네트워크 시스템은 타켓 이미지가 ㅂ, ㅃ, ㅍ과 같은 파열음을 초성으로 구사할 때 입이 날숨을 막았다가 갑자기 터트리듯한 입 모양을 형성하도록 오디오 정보의 첫 음절에 관한 정보를 이용할 수 있다.

한편, 도 4는 립싱크 네트워크 학습방법을 예시적으로 나타내는 것이고, 대시보드 시스템의 동작이 반드시 도 4의 단계에 따라 순차적으로 실행되는 것은 아니다. 예컨대, 도 4의 각 단계는 립싱크 네트워크 학습방법의 본질에 반하지 않는 범위 내에서 병렬적이거나, 순서를 달리하거나, 일부 단계가 생략되어 수행될 수 있다. 뿐만 아니라, 도 5의 입모양 이미지 생성방법에 대하여도, 도 5의 각 단계는 입모양 이미지 생성방법의 본질에 반하지 않는 범위 내에서 병렬적이거나, 순서를 달리하거나, 일부 단계가 생략되어 수행될 수 있음은 분명하다.

본 개시의 전술한 장치 또는 방법의 다양한 실시예는, 하나 이상의 컴퓨터 프로그램으로 구현되는 것을 포함할 수 있다. 이러한 컴퓨터 프로그램은, 하나 이상의 입력 장치, 하나 이상의 출력 장치, 메모리를 포함하고, 메모리, 입력 장치, 출력 장치 간 데이터 및 명령을 송수신하도록 결합된 하나 이상의 프로그래밍 가능한 프로세서를 포함하는 컴퓨터 시스템에 의해 실행, 구동, 작동, 운영될 수 있다. 컴퓨터 시스템은 예컨대, 서버, 네트워크 기기, 셋톱박스, 내장형 장치, 컴퓨터 확장 모듈, 개인용 컴퓨터, 랩톱, PDA(Personal Data Assistant), 클라우드 컴퓨팅 시스템 또는 모바일 장치일 수 있으나, 이에 한하지 않는다. 컴퓨터 프로그램들(예: 펌웨어, 미들웨어, OS, 소프트웨어, 애플리케이션, 소스 코드)은 프로그래밍 가능한 프로세서를 구동 내지 제어하기 위한 명령어들을 포함하며, 컴퓨터가 읽을 수 있는　기록매체에 저장된다.

여기서, 컴퓨터가 읽을 수 있는　기록매체란, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는　기록매체는 예컨대, ROM, 자기 테이프, 플로피 디스크, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등일 수 있으나, 이에 한하지 않음은 명확하다. 또한, 컴퓨터가 읽을 수 있는　기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.

이상은 본 개시의 다양한 실시예들을 설명한 것으로, 이 분야 통상의 기술자가 채용할 수 있는 다양한 구성, 물질, 수단, 방법, 지식에 의해 다양한 변형이 가능하다. 이러한 실시예들은 본 개시의 기술적 사상을 설명하기 위한 것일뿐, 본 개시의 기술적 사상과 그 범위를 한정하지 않는다.

10: 립싱크 네트워크 시스템
100: 립싱크 네트워크
102: 오디오 인코더
104: 랜드마크 인코더
106: 디코더
200: 판별자
300: 립생성 네트워크 파트
302: 립생성 네트워크

Claims

오토 인코더를 포함하는 립싱크 네트워크 학습방법에 있어서,
하나 이상의 동영상으로부터 샘플링되어 추출된, 랜드마크 포인트 및 임베딩된 오디오 데이터를 하나의 단위로써 포함하는 학습 데이터셋을 입력받는 과정;
입모양에 관한 랜드마크 포인트 데이터셋을 이용하여 기 학습된 제1 인코더를 이용하여, 상기 학습 데이터셋의 랜드마크 포인트로부터 입모양 특징으로서 랜드마크 포인트 벡터를 출력하는 과정;
제2 인코더를 이용하여, 상기 학습 데이터셋의 임베딩된 오디오 데이터로부터 오디오 특징으로서 오디오 벡터를 출력하는 과정; 및
상기 오토 인코더의 디코더가 상기 랜드마크 포인트 벡터 및 상기 오디오 벡터에 대응하는 입모양에 관한 랜드마크 포인트를 출력하도록, 상기 립싱크 네트워크의 학습을 수행하는 과정을 포함하되,
상기 제1 인코더는, 입력되는 랜드마크 포인트에 관한 입모양 특징이 잠재 변수(latent variable)에 인코딩되도록 하는 인공신경망이고,
상기 입모양에 관한 랜드마크 포인트 데이터셋은, 입모양만의 이미지로부터 추출된 랜드마크 포인트 또는 입모양을 포함하는 객체 이미지로부터 추출된 랜드마크 포인트이고,
상기 디코더는, 상기 오토인코더의 판별자(discriminator)를 이용하여, 출력된 입모양에 관한 랜드마크 포인트와, 대응하는 랜드마크 포인트을 이용하여, 싱크가 맞는지를 판별하여 학습되는,
립싱크 네트워크 학습방법.
제1항에 있어서,
상기 제1 인코더는, 상기 입모양에 관한 랜드마크 포인트 데이터셋이 분류되는, 범주의 갯수를 기반으로 결정된 갯수의 컨볼루션 레이어와, 적어도 하나의 히든 레이어가 상기 범주의 갯수를 기반으로 결정된 노드 수를 가지되, 상기 범주의 갯수는 상기 입모양에 관한 랜드마크 포인트 데이터셋을 자동분류하여 산출된 것인,
립싱크 네트워크 학습방법.
삭제
제1항에 있어서,
상기 입모양에 관한 랜드마크 포인트를 출력하는 과정은,
상기 디코더가 상기 학습 데이터의 랜드마크 포인트에 대응하는, 이미지 프레임의 시계열적 순서에 따라, 입모양에 관한 랜드마크 포인트 각각을 출력하고, 출력된 입모양에 관한 랜드마크 포인트 시계열적 순서가 있는,
립싱크 네트워크 학습방법.
제4항에 있어서,
상기 네트워크를 학습시키는 과정은,
상기 판별자가, 상기 출력된 입모양에 관한 랜드마크 포인트 각각과, 상기 출력된 입모양에 관한 랜드마크 포인트 각각에 순서적으로 대응하는 상기 학습 데이터의 랜드마크 포인트 각각 간, 랜드마크 포인트 간 차를 연산하고,
상기 판별자는 상기 포인트 간 차를 기초로 싱크가 맞는지를 판별하되, 상기 판별자가 싱크가 맞지 않는 것으로 판별하는 경우에, 상기 출력된 입모양에 관한 랜드마크 포인트 각각의 순서에 따라, 대응하는 상기 오디오 벡터의 시간 변화에 따른 벡터 간 차 및 벡터 간 차의 변화량을 연산하고, 상기 립싱크 네트워크를 상기 랜드마크 포인트 간 차, 상기 벡터 간 차 및 상기 변화량 중 적어도 하나가 반영되도록 재구성하는,
립싱크 네트워크 학습방법.
제1항, 제2항, 제4항 및 제5항 중 어느 한 항에 따른 립싱크 네트워크 학습방법이 포함하는 각 과정을 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터 프로그램.
제1항, 제2항, 제4항 및 제5항 중 어느 한 항에 따른 립싱크 네트워크 학습방법에 의해 기 학습된 립싱크 네트워크를 이용하여, 새로운 오디오와 싱크가 맞는 입모양 이미지를 생성하는 방법에 있어서,
상기 기 학습된 립싱크 네트워크가 상기 새로운 오디오로부터 추출된 임베딩된 오디오 데이터를 입력받는 과정;
상기 기 학습된 립싱크 네트워크가 상기 임베딩된 오디오 데이터에 대응하는 랜드마크 포인트를 생성하는 과정; 및
생성된 랜드마크 포인트 및 타겟 이미지 프레임을 립생성 네트워크에 입력하여, 상기 새로운 오디오와 싱크가 맞되, 상기 타겟 이미지 프레임에 대응하는 입모양 이미지를 생성하는 과정
을 포함하는, 입모양 이미지 생성방법.
제7항에 있어서,
상기 기 학습된 립싱크 네트워크가 타겟 랜드마크 포인트를 입력받는 과정
을 더 포함하고,
상기 랜드마크 포인트를 생성하는 과정은,
상기 타겟 랜드마크 포인트의 입모양에 관한 랜드마크 포인트에 대응하도록 재구성된 랜드마크 포인트를 생성하는,
입모양 이미지 생성방법.
제7항에 있어서,
상기 입모양 이미지를 생성하는 과정은,
상기 립생성 네트워크가 상기 타겟 이미지에서 입이 포함될 위치 정보를 더 입력받고, 상기 위치 정보에 대응하도록 재구성된 입모양 이미지를 생성하는,
입모양 이미지 생성방법.
제7항에 있어서,
상기 랜드마크 포인트를 생성하는 과정은,
상기 임베딩된 오디오 데이터의 시계열적 순서에 따라 랜드마크 포인트를 생성하고,
상기 입모양 이미지를 생성하는 과정은,
상기 생성된 랜드마크 포인트의 순서에 따라, 상기 새로운 오디오의 길이와 기 설정된 초당 프레임에 따라 결정된 갯수만큼의 입모양 이미지를 시계열적으로 생성하는,
입모양 이미지 생성방법.
입모양에 관한 랜드마크 포인트 데이터셋을 이용하여, 랜드마크 포인트 각각에 대응하는 입모양 특징이 잠재 변수(latent variable)에 인코딩되록 기 학습되고, 랜드마크 포인트를 입력받아 랜드마크 포인트 벡터를 출력하는 제1 인코더;
오디오로부터 추출된 임베딩된 오디오 데이터를 입력받아 오디오 벡터를 출력하는 제2 인코더; 및
상기 랜드마크 포인트 벡터 및 상기 오디오 벡터를 입력으로 하여, 상기 랜드마크 포인트 벡터 및 상기 오디오 벡터에 대응하는 입모양에 관한 랜드마크 포인트를 출력하도록 학습되거나, 새로운 오디오로부터 추출된 임베딩된 오디오 데이터를 상기 제2 인코더를 통해 입력받아, 상기 새로운 오디오에 대응하는 입모양에 관한 랜드마크 포인트를 출력하는 디코더를 포함하되,
상기 입모양에 관한 랜드마크 포인트 데이터셋은, 입모양만의 이미지로부터 추출된 랜드마크 포인트 또는 입모양을 포함하는 객체 이미지로부터 추출된 랜드마크 포인트이고,
상기 디코더는, 판별자(discriminator)를 이용하여, 출력된 입모양에 관한 랜드마크 포인트와, 대응하는 랜드마크 포인트을 이용하여, 싱크가 맞는지를 판별하여 학습되는,
를 포함하는, 립싱크 네트워크 시스템.
삭제
제11항에 있어서,
상기 디코더로부터 출력된 입모양에 관한 랜드마크 포인트 및 타겟 이미지 프레임을 입력받아, 상기 출력된 입모양에 관한 랜드마크 포인트에 대응하는 입모양 이미지를 출력하는 립생성 네트워크
를 더 포함하는, 립싱크 네트워크 시스템.