KR20190111642A

KR20190111642A - 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법

Info

Publication number: KR20190111642A
Application number: KR1020180034039A
Authority: KR
Inventors: 박지은
Original assignee: 펄스나인 주식회사
Priority date: 2018-03-23
Filing date: 2018-03-23
Publication date: 2019-10-02

Abstract

본 발명은 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법에 관한 것이다.
본 발명은 시스템의 입력부를 통해 텍스트를 입력받으면 실제 사진의 픽셀을 기반으로 한 토킹 헤드 애니메이션(talking head animation)을 이용하여 텍스트에 맞는 음성(오디오)과 립싱크 얼굴(동영상) 데이터를 출력함으로써, 사실적이면서도 데이터 효율적인 영상을 생성할 수 있는 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법을 제공하고자 한다.
또한, 본 발명은 텍스트를 토킹 헤드 애니메이션을 통해 입 모양을 매칭시켜 말하는 것뿐만이 아니라 제스처, 감정 표현 등 비언어적 요소까지 표출함으로써, 한층 더 사실에 가까운 영상을 제공할 수 있는 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법을 제공하고자 한다.

Description

실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법{Image processing system and method using talking head animation based on the pixel of real picture}

본 발명은 영상 처리 시스템 및 방법에 관한 것으로서, 더 상세하게는 시스템의 입력부를 통해 텍스트를 입력받으면 실제 사진의 픽셀을 기반으로 한 토킹 헤드 애니메이션(talking head animation)을 이용하여 텍스트에 맞는 음성(오디오)과 립싱크 얼굴(동영상) 데이터를 출력함으로써, 사실적이면서도 데이터 효율적인 영상을 생성할 수 있는 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법에 관한 것이다.

최근 콘텐츠 제작 기술의 발전에 따라 개인이 다양한 멀티미디어 콘텐츠를 제작할 수 있는 애플리케이션들이 서비스되고 있다. 하지만, 이러한 종래의 멀티미디어 콘텐츠 제작 애플리케이션들은 단순히 사진들을 이용한 뮤직 비디오의 제작이나, 간단한 동영상을 편집하는 수준의 영상물 제작에 그치고 있어, 보다 편리하고 활용가치가 높은 개인 멀티미디어 콘텐츠 제작을 원하는 사용자들을 만족시키지 못하고 있다.

이상과 같은 영상 제작(생성) 기술과 관련하여 음성 관련 기술에 TTS(Text-to-speech) 기술이 있다. TTS는 텍스트를 음성으로 변환하여 출력해주는 기술로서 음성에 의한 제어, 음성을 통한 정보 제공 등을 위한 음성 정보 기술의 하나이다. 이러한 TTS는 초기에 전화와 같은 통신수단을 이용하여 정보를 전달하는 ARS(Automatic Response System : 자동 응답 시스템)에 주로 사용되었으나, 인터넷을 포함한 정보통신기술이 발달함에 따라 다양한 멀티미디어 분야에 응용되어 사용되고 있다. 일반적으로 TTS는 텍스트를 단순히 음성으로 변환하여 출력해주므로 정보전달 효과가 떨어지는 문제점이 있다.

이러한 문제점을 해결하기 위해 최근에는 TTS 기술에 영상처리 기술을 접목하여 음성뿐만 아니라 음성을 발음하는 얼굴 애니메이션 영상을 함께 출력해 줌으로써, 정보전달의 효율성을 높이기 위한 연구/개발이 활발히 진행되고 있다.

상기 얼굴 애니메이션 영상은 사람이 텍스트를 읽을 때, 텍스트의 각 음소를 발음하는 입 모양을 보여주는 영상으로서, 토킹 헤드(Talking head) 영상이라고도 한다. 종래에는 상기 얼굴 애니메이션 영상이 상기 텍스트를 실제로 읽는 것처럼 상기 TTS에서 출력되는 음성과 동기화시키는데 어려움이 있었다.

또한, 종래 영상 생성 모델은 부드럽고 자연스러운 영상 품질을 제공하기 위해 다량의 데이터를 필요로 하고, 모든 경우의 수에 따른 데이터가 확보되지 않는 한, 새로운 요구에 따른 대응이 어려운 문제가 있었다.

한편, 한국 공개특허공보 제10-2010-0115003호(특허문헌 1)에는 "텍스트 데이터 기반의 얼굴 애니메이션 출력방법 및 그 시스템"이 개시되어 있는바, 이에 따른 텍스트 데이터 기반의 얼굴 애니메이션 출력방법은, TTS 엔진이 텍스트 데이터를 입력받아 상기 텍스트 데이터에 포함된 음소들을 음성으로 출력하기 위한 오디오 파일 및 상기 각 음소에 대한 음소 정보 및 지속시간 정보를 포함하는 응답 메시지 데이터들을 생성하여 저장매체에 저장하는 제1단계; 싱크 모듈이 상기 오디오 파일을 음성 출력장치로 전송하고, 상기 응답 메시지 데이터들을 렌더링 모듈로 전송하되, 상기 오디오 파일 내의 임의의 음소가 음성으로 출력되기 전에 상기 임의의 음소의 음소 정보를 포함하는 응답 메시지 데이터를 상기 렌더링 모듈로 전송하는 제2단계; 상기 렌더링 모듈이 상기 응답 메시지 데이터들의 음소 정보에 따른 얼굴 애니메이션을 렌더링하여 디스플레이장치로 출력하고, 상기 음성 출력장치가 상기 오디오 파일을 음성으로 출력하는 제3단계를 포함하고, 상기 오디오 파일 내의 임의의 음소가 상기 임의의 음소의 음소 정보에 따른 얼굴 애니메이션이 렌더링되는 도중에 음성으로 출력되게 하는 것을 특징으로 한다.

이상과 같은 특허문헌 1의 경우, 텍스트를 음성뿐만 아니라 얼굴 애니메이션 영상과 함께 출력해 줌으로써 기존의 TTS를 적용한 ARS에 비해 정보 전달의 효율을 높일 수 있는 효과가 있을지는 모르겠으나, 그 기술적 지향이 임의의 음소가 음성으로 출력되는 시점에 얼굴 애니메이션이 임의의 음소에 대한 입 모양을 갖추도록 하여, 얼굴 애니메이션과 음성 간에 동기화가 이루어지도록 하는 것에 그치고 있다. 즉, 특허문헌 1은 텍스트를 얼굴 애니메이션을 통해 말하는 것으로 한정한, 단순 말하기 기술의 한계에 머무르고 있다.

한국 공개특허공보 제10-2010-0115003호(2010.10.27. 공개)

본 발명은 상기와 같은 종래 기술들의 문제점 및 사항들을 종합적으로 감안하여 창출된 것으로서, 시스템의 입력부를 통해 텍스트를 입력받으면 실제 사진의 픽셀을 기반으로 한 토킹 헤드 애니메이션(talking head animation)을 이용하여 텍스트에 맞는 음성(오디오)과 립싱크 얼굴(동영상) 데이터를 출력함으로써, 사실적이면서도 데이터 효율적인 영상을 생성할 수 있는 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법을 제공함에 그 목적이 있다.

또한, 본 발명의 다른 목적은 텍스트를 토킹 헤드 애니메이션을 통해 입 모양을 매칭시켜 말하는 것뿐만이 아니라 제스처, 감정 표현 등 비언어적 요소까지 표출함으로써 한층 더 사실에 가까운 영상을 제공할 수 있는 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법을 제공함에 있다.

상기의 목적을 달성하기 위하여 본 발명에 따른 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템은,

또한, 상기의 목적을 달성하기 위하여 본 발명에 따른 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 방법은,

입력된 텍스트를 토킹 헤드 애니메이션을 이용하여 영상 데이터로 처리하는 영상 처리 방법으로서,

a) 학습 모델 생성기에 의해 오리지널 비디오 이미지를 입력받아 마우스 부분을 추출하는 단계;

b) 상기 추출된 마우스 부분을 마우스가 제거된 얼굴 부분과 마우스 파트로 분리하는 단계;

c) 상기 분리된 마우스 파트로부터 오리지널 마우스 특징들을 추출하는 단계;

d) 상기 추출된 오리지널 마우스 특징들을 메타(meta) 태깅(tagging)하는 단계;

e) 사용자 요청 수집기에 의해 텍스트를 입력받는 단계;

f) 상기 입력받은 텍스트를 TTS 변환기에 의해 스피치로 변환하여 음성을 출력하는 단계;

g) 상기 단계 d)에서 오리지널 마우스 특징들을 메타 태깅한 데이터와 상기 단계 f)에서의 출력된 음성 신호를 바탕으로 마우스와 무드 특징을 추정하는 단계;

h) 상기 단계 b)에서의 마우스가 제거된 얼굴 부분을 상기 단계 g)에서 추정된 마우스와 결합하는 단계; 및

i) 상기 얼굴 부분과 마우스가 결합된 비디오 이미지를 수정한 후 토킹 헤드 애니메이션 형태로 영상을 출력하는 단계를 포함하는 점에 그 특징이 있다.

여기서, 상기 단계 a) 이전에 상기 학습 모델 생성기에 의한 학습 과정을 수행하는 단계를 더 포함할 수 있다.

이때, 상기 학습 모델 생성기에 의한 학습 과정은,

a-1) 기록된 비디오 이미지 신호 및 오디오 신호를 미리 생성한 AI 학습 모델에 의해 입력받는 단계;

a-2) 상기 AI 학습 모델에 의해 상기 입력받은 비디오 이미지 신호로부터 마우스 부분을 검출 및 특징 위치 추적 훈련을 수행하는 단계;

a-3) 상기 검출된 마우스 부분 및 특징 위치 추적 훈련을 바탕으로 헤드 자세를 추정하는 단계;

a-4) 기계 학습된 마우스 픽셀들을 전체적으로 전체적으로 수집하여 마우스 특징을 추출하는 단계; 및

a-5) 상기 입력된 오디오 신호를 스피치 인식기에 의해 인식하여 음소를 추출하는 단계를 포함하여 구성될 수 있다.

이와 같은 본 발명에 의하면, 시스템의 입력부를 통해 텍스트를 입력받으면 실제 사진의 픽셀을 기반으로 한 토킹 헤드 애니메이션(talking head animation)을 이용하여 텍스트에 맞는 음성(오디오)과 립싱크 얼굴(동영상) 데이터를 출력함으로써, 사실적이면서도 데이터 효율적인 영상을 생성할 수 있다.

또한, 텍스트를 토킹 헤드 애니메이션을 통해 입 모양을 매칭시켜 말하는 것뿐만이 아니라 제스처, 감정 표현 등 비언어적 요소까지 표출함으로써 한층 더 사실에 가까운 영상을 제공할 수 있다.

또한, 확보되지 않은 데이터에 대해서도 유연하게 대응할 수 있고, 데이터 추가 시 재사용이 가능한 시스템 모델을 제공할 수 있다.

도 1은
도 2는
도 3은
도 4는
도 5는

본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정되어 해석되지 말아야 하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 한다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈", "장치" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

이하 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.

이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양하게 변경, 응용될 수 있음은 당해 기술분야의 통상의 기술자에게 자명하다. 따라서, 본 발명의 진정한 보호 범위는 다음의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

입력된 텍스트를 토킹 헤드 애니메이션을 이용하여 영상 데이터로 처리하는 영상 처리 방법으로서,
a) 학습 모델 생성기에 의해 오리지널 비디오 이미지를 입력받아 마우스 부분을 추출하는 단계;
b) 상기 추출된 마우스 부분을 마우스가 제거된 얼굴 부분과 마우스 파트로 분리하는 단계;
c) 상기 분리된 마우스 파트로부터 오리지널 마우스 특징들을 추출하는 단계;
d) 상기 추출된 오리지널 마우스 특징들을 메타(meta) 태깅(tagging)하는 단계;
e) 사용자 요청 수집기에 의해 텍스트를 입력받는 단계;
f) 상기 입력받은 텍스트를 TTS 변환기에 의해 스피치로 변환하여 음성을 출력하는 단계;
g) 상기 단계 d)에서 오리지널 마우스 특징들을 메타 태깅한 데이터와 상기 단계 f)에서의 출력된 음성 신호를 바탕으로 마우스와 무드 특징을 추정하는 단계;
h) 상기 단계 b)에서의 마우스가 제거된 얼굴 부분을 상기 단계 g)에서 추정된 마우스와 결합하는 단계; 및
i) 상기 얼굴 부분과 마우스가 결합된 비디오 이미지를 수정한 후 토킹 헤드 애니메이션 형태로 영상을 출력하는 단계를 포함하는 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 방법.