KR20190111642A - 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법 - Google Patents

실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법 Download PDF

Info

Publication number
KR20190111642A
KR20190111642A KR1020180034039A KR20180034039A KR20190111642A KR 20190111642 A KR20190111642 A KR 20190111642A KR 1020180034039 A KR1020180034039 A KR 1020180034039A KR 20180034039 A KR20180034039 A KR 20180034039A KR 20190111642 A KR20190111642 A KR 20190111642A
Authority
KR
South Korea
Prior art keywords
mouse
talking head
text
pixel
image processing
Prior art date
Application number
KR1020180034039A
Other languages
English (en)
Inventor
박지은
Original Assignee
펄스나인 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 펄스나인 주식회사 filed Critical 펄스나인 주식회사
Priority to KR1020180034039A priority Critical patent/KR20190111642A/ko
Publication of KR20190111642A publication Critical patent/KR20190111642A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명은 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법에 관한 것이다.
본 발명은 시스템의 입력부를 통해 텍스트를 입력받으면 실제 사진의 픽셀을 기반으로 한 토킹 헤드 애니메이션(talking head animation)을 이용하여 텍스트에 맞는 음성(오디오)과 립싱크 얼굴(동영상) 데이터를 출력함으로써, 사실적이면서도 데이터 효율적인 영상을 생성할 수 있는 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법을 제공하고자 한다.
또한, 본 발명은 텍스트를 토킹 헤드 애니메이션을 통해 입 모양을 매칭시켜 말하는 것뿐만이 아니라 제스처, 감정 표현 등 비언어적 요소까지 표출함으로써, 한층 더 사실에 가까운 영상을 제공할 수 있는 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법을 제공하고자 한다.

Description

실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법{Image processing system and method using talking head animation based on the pixel of real picture}
본 발명은 영상 처리 시스템 및 방법에 관한 것으로서, 더 상세하게는 시스템의 입력부를 통해 텍스트를 입력받으면 실제 사진의 픽셀을 기반으로 한 토킹 헤드 애니메이션(talking head animation)을 이용하여 텍스트에 맞는 음성(오디오)과 립싱크 얼굴(동영상) 데이터를 출력함으로써, 사실적이면서도 데이터 효율적인 영상을 생성할 수 있는 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법에 관한 것이다.
최근 콘텐츠 제작 기술의 발전에 따라 개인이 다양한 멀티미디어 콘텐츠를 제작할 수 있는 애플리케이션들이 서비스되고 있다. 하지만, 이러한 종래의 멀티미디어 콘텐츠 제작 애플리케이션들은 단순히 사진들을 이용한 뮤직 비디오의 제작이나, 간단한 동영상을 편집하는 수준의 영상물 제작에 그치고 있어, 보다 편리하고 활용가치가 높은 개인 멀티미디어 콘텐츠 제작을 원하는 사용자들을 만족시키지 못하고 있다.
이상과 같은 영상 제작(생성) 기술과 관련하여 음성 관련 기술에 TTS(Text-to-speech) 기술이 있다. TTS는 텍스트를 음성으로 변환하여 출력해주는 기술로서 음성에 의한 제어, 음성을 통한 정보 제공 등을 위한 음성 정보 기술의 하나이다. 이러한 TTS는 초기에 전화와 같은 통신수단을 이용하여 정보를 전달하는 ARS(Automatic Response System : 자동 응답 시스템)에 주로 사용되었으나, 인터넷을 포함한 정보통신기술이 발달함에 따라 다양한 멀티미디어 분야에 응용되어 사용되고 있다. 일반적으로 TTS는 텍스트를 단순히 음성으로 변환하여 출력해주므로 정보전달 효과가 떨어지는 문제점이 있다.
이러한 문제점을 해결하기 위해 최근에는 TTS 기술에 영상처리 기술을 접목하여 음성뿐만 아니라 음성을 발음하는 얼굴 애니메이션 영상을 함께 출력해 줌으로써, 정보전달의 효율성을 높이기 위한 연구/개발이 활발히 진행되고 있다.
상기 얼굴 애니메이션 영상은 사람이 텍스트를 읽을 때, 텍스트의 각 음소를 발음하는 입 모양을 보여주는 영상으로서, 토킹 헤드(Talking head) 영상이라고도 한다. 종래에는 상기 얼굴 애니메이션 영상이 상기 텍스트를 실제로 읽는 것처럼 상기 TTS에서 출력되는 음성과 동기화시키는데 어려움이 있었다.
또한, 종래 영상 생성 모델은 부드럽고 자연스러운 영상 품질을 제공하기 위해 다량의 데이터를 필요로 하고, 모든 경우의 수에 따른 데이터가 확보되지 않는 한, 새로운 요구에 따른 대응이 어려운 문제가 있었다.
한편, 한국 공개특허공보 제10-2010-0115003호(특허문헌 1)에는 "텍스트 데이터 기반의 얼굴 애니메이션 출력방법 및 그 시스템"이 개시되어 있는바, 이에 따른 텍스트 데이터 기반의 얼굴 애니메이션 출력방법은, TTS 엔진이 텍스트 데이터를 입력받아 상기 텍스트 데이터에 포함된 음소들을 음성으로 출력하기 위한 오디오 파일 및 상기 각 음소에 대한 음소 정보 및 지속시간 정보를 포함하는 응답 메시지 데이터들을 생성하여 저장매체에 저장하는 제1단계; 싱크 모듈이 상기 오디오 파일을 음성 출력장치로 전송하고, 상기 응답 메시지 데이터들을 렌더링 모듈로 전송하되, 상기 오디오 파일 내의 임의의 음소가 음성으로 출력되기 전에 상기 임의의 음소의 음소 정보를 포함하는 응답 메시지 데이터를 상기 렌더링 모듈로 전송하는 제2단계; 상기 렌더링 모듈이 상기 응답 메시지 데이터들의 음소 정보에 따른 얼굴 애니메이션을 렌더링하여 디스플레이장치로 출력하고, 상기 음성 출력장치가 상기 오디오 파일을 음성으로 출력하는 제3단계를 포함하고, 상기 오디오 파일 내의 임의의 음소가 상기 임의의 음소의 음소 정보에 따른 얼굴 애니메이션이 렌더링되는 도중에 음성으로 출력되게 하는 것을 특징으로 한다.
이상과 같은 특허문헌 1의 경우, 텍스트를 음성뿐만 아니라 얼굴 애니메이션 영상과 함께 출력해 줌으로써 기존의 TTS를 적용한 ARS에 비해 정보 전달의 효율을 높일 수 있는 효과가 있을지는 모르겠으나, 그 기술적 지향이 임의의 음소가 음성으로 출력되는 시점에 얼굴 애니메이션이 임의의 음소에 대한 입 모양을 갖추도록 하여, 얼굴 애니메이션과 음성 간에 동기화가 이루어지도록 하는 것에 그치고 있다. 즉, 특허문헌 1은 텍스트를 얼굴 애니메이션을 통해 말하는 것으로 한정한, 단순 말하기 기술의 한계에 머무르고 있다.
한국 공개특허공보 제10-2010-0115003호(2010.10.27. 공개)
본 발명은 상기와 같은 종래 기술들의 문제점 및 사항들을 종합적으로 감안하여 창출된 것으로서, 시스템의 입력부를 통해 텍스트를 입력받으면 실제 사진의 픽셀을 기반으로 한 토킹 헤드 애니메이션(talking head animation)을 이용하여 텍스트에 맞는 음성(오디오)과 립싱크 얼굴(동영상) 데이터를 출력함으로써, 사실적이면서도 데이터 효율적인 영상을 생성할 수 있는 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법을 제공함에 그 목적이 있다.
또한, 본 발명의 다른 목적은 텍스트를 토킹 헤드 애니메이션을 통해 입 모양을 매칭시켜 말하는 것뿐만이 아니라 제스처, 감정 표현 등 비언어적 요소까지 표출함으로써 한층 더 사실에 가까운 영상을 제공할 수 있는 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법을 제공함에 있다.
상기의 목적을 달성하기 위하여 본 발명에 따른 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템은,
또한, 상기의 목적을 달성하기 위하여 본 발명에 따른 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 방법은,
입력된 텍스트를 토킹 헤드 애니메이션을 이용하여 영상 데이터로 처리하는 영상 처리 방법으로서,
a) 학습 모델 생성기에 의해 오리지널 비디오 이미지를 입력받아 마우스 부분을 추출하는 단계;
b) 상기 추출된 마우스 부분을 마우스가 제거된 얼굴 부분과 마우스 파트로 분리하는 단계;
c) 상기 분리된 마우스 파트로부터 오리지널 마우스 특징들을 추출하는 단계;
d) 상기 추출된 오리지널 마우스 특징들을 메타(meta) 태깅(tagging)하는 단계;
e) 사용자 요청 수집기에 의해 텍스트를 입력받는 단계;
f) 상기 입력받은 텍스트를 TTS 변환기에 의해 스피치로 변환하여 음성을 출력하는 단계;
g) 상기 단계 d)에서 오리지널 마우스 특징들을 메타 태깅한 데이터와 상기 단계 f)에서의 출력된 음성 신호를 바탕으로 마우스와 무드 특징을 추정하는 단계;
h) 상기 단계 b)에서의 마우스가 제거된 얼굴 부분을 상기 단계 g)에서 추정된 마우스와 결합하는 단계; 및
i) 상기 얼굴 부분과 마우스가 결합된 비디오 이미지를 수정한 후 토킹 헤드 애니메이션 형태로 영상을 출력하는 단계를 포함하는 점에 그 특징이 있다.
여기서, 상기 단계 a) 이전에 상기 학습 모델 생성기에 의한 학습 과정을 수행하는 단계를 더 포함할 수 있다.
이때, 상기 학습 모델 생성기에 의한 학습 과정은,
a-1) 기록된 비디오 이미지 신호 및 오디오 신호를 미리 생성한 AI 학습 모델에 의해 입력받는 단계;
a-2) 상기 AI 학습 모델에 의해 상기 입력받은 비디오 이미지 신호로부터 마우스 부분을 검출 및 특징 위치 추적 훈련을 수행하는 단계;
a-3) 상기 검출된 마우스 부분 및 특징 위치 추적 훈련을 바탕으로 헤드 자세를 추정하는 단계;
a-4) 기계 학습된 마우스 픽셀들을 전체적으로 전체적으로 수집하여 마우스 특징을 추출하는 단계; 및
a-5) 상기 입력된 오디오 신호를 스피치 인식기에 의해 인식하여 음소를 추출하는 단계를 포함하여 구성될 수 있다.
이와 같은 본 발명에 의하면, 시스템의 입력부를 통해 텍스트를 입력받으면 실제 사진의 픽셀을 기반으로 한 토킹 헤드 애니메이션(talking head animation)을 이용하여 텍스트에 맞는 음성(오디오)과 립싱크 얼굴(동영상) 데이터를 출력함으로써, 사실적이면서도 데이터 효율적인 영상을 생성할 수 있다.
또한, 텍스트를 토킹 헤드 애니메이션을 통해 입 모양을 매칭시켜 말하는 것뿐만이 아니라 제스처, 감정 표현 등 비언어적 요소까지 표출함으로써 한층 더 사실에 가까운 영상을 제공할 수 있다.
또한, 확보되지 않은 데이터에 대해서도 유연하게 대응할 수 있고, 데이터 추가 시 재사용이 가능한 시스템 모델을 제공할 수 있다.
도 1은
도 2는
도 3은
도 4는
도 5는
본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정되어 해석되지 말아야 하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 한다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈", "장치" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
이하 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.
이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양하게 변경, 응용될 수 있음은 당해 기술분야의 통상의 기술자에게 자명하다. 따라서, 본 발명의 진정한 보호 범위는 다음의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (1)

  1. 입력된 텍스트를 토킹 헤드 애니메이션을 이용하여 영상 데이터로 처리하는 영상 처리 방법으로서,
    a) 학습 모델 생성기에 의해 오리지널 비디오 이미지를 입력받아 마우스 부분을 추출하는 단계;
    b) 상기 추출된 마우스 부분을 마우스가 제거된 얼굴 부분과 마우스 파트로 분리하는 단계;
    c) 상기 분리된 마우스 파트로부터 오리지널 마우스 특징들을 추출하는 단계;
    d) 상기 추출된 오리지널 마우스 특징들을 메타(meta) 태깅(tagging)하는 단계;
    e) 사용자 요청 수집기에 의해 텍스트를 입력받는 단계;
    f) 상기 입력받은 텍스트를 TTS 변환기에 의해 스피치로 변환하여 음성을 출력하는 단계;
    g) 상기 단계 d)에서 오리지널 마우스 특징들을 메타 태깅한 데이터와 상기 단계 f)에서의 출력된 음성 신호를 바탕으로 마우스와 무드 특징을 추정하는 단계;
    h) 상기 단계 b)에서의 마우스가 제거된 얼굴 부분을 상기 단계 g)에서 추정된 마우스와 결합하는 단계; 및
    i) 상기 얼굴 부분과 마우스가 결합된 비디오 이미지를 수정한 후 토킹 헤드 애니메이션 형태로 영상을 출력하는 단계를 포함하는 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 방법.
KR1020180034039A 2018-03-23 2018-03-23 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법 KR20190111642A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180034039A KR20190111642A (ko) 2018-03-23 2018-03-23 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180034039A KR20190111642A (ko) 2018-03-23 2018-03-23 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20190111642A true KR20190111642A (ko) 2019-10-02

Family

ID=68423217

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180034039A KR20190111642A (ko) 2018-03-23 2018-03-23 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20190111642A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023096275A1 (ko) * 2021-11-23 2023-06-01 네이버 주식회사 텍스트 기반 아바타 생성 방법 및 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100115003A (ko) 2009-04-17 2010-10-27 목포대학교산학협력단 텍스트데이터 기반의 얼굴 애니메이션 출력방법 및 그 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100115003A (ko) 2009-04-17 2010-10-27 목포대학교산학협력단 텍스트데이터 기반의 얼굴 애니메이션 출력방법 및 그 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023096275A1 (ko) * 2021-11-23 2023-06-01 네이버 주식회사 텍스트 기반 아바타 생성 방법 및 시스템

Similar Documents

Publication Publication Date Title
US20230316643A1 (en) Virtual role-based multimodal interaction method, apparatus and system, storage medium, and terminal
US11436780B2 (en) Matching mouth shape and movement in digital video to alternative audio
JP6019108B2 (ja) 文字に基づく映像生成
KR101492816B1 (ko) 애니메이션 립싱크 자동화 장치 및 방법
KR102116309B1 (ko) 가상 캐릭터와 텍스트의 동기화 애니메이션 출력 시스템
KR102098734B1 (ko) 대화 상대의 외형을 반영한 수어 영상 제공 방법, 장치 및 단말
US11908449B2 (en) Audio and video translator
CN113077537A (zh) 一种视频生成方法、存储介质及设备
US8553855B2 (en) Conference support apparatus and conference support method
CN117115310A (zh) 一种基于音频和图像的数字人脸生成方法及系统
KR20190111642A (ko) 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법
CN114155321B (zh) 一种基于自监督和混合密度网络的人脸动画生成方法
KR101039668B1 (ko) 텍스트데이터 기반의 얼굴 애니메이션 출력방법 및 그 시스템
Wolfe et al. Exploring localization for mouthings in sign language avatars
JP4769086B2 (ja) 声質変換吹替システム、及び、プログラム
Kolivand et al. Realistic lip syncing for virtual character using common viseme set
CN112992116A (zh) 一种视频内容自动生成方法和系统
Kadam et al. A Survey of Audio Synthesis and Lip-syncing for Synthetic Video Generation
Anitha et al. NextGen Dynamic Video Generator using AI
KR20090112882A (ko) 텍스트 투 스피치와 토킹해드를 이용한 멀티미디어 자료제공서비스
JP3766534B2 (ja) 視覚的に聴覚を補助するシステムおよび方法並びに視覚的に聴覚を補助するための制御プログラムを記録した記録媒体
Dhokley et al. Video creation using facial animation and speech synthesis
Eldhose et al. Alyce: An Artificial Intelligence Fine-Tuned Screenplay Writer
Arunachalam et al. An automated effective communication system in a VR based environment for hearing impaired
WO2023126975A1 (en) Device for synchronization of features of digital objects with audio contents