KR20190111642A - 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법 - Google Patents
실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법 Download PDFInfo
- Publication number
- KR20190111642A KR20190111642A KR1020180034039A KR20180034039A KR20190111642A KR 20190111642 A KR20190111642 A KR 20190111642A KR 1020180034039 A KR1020180034039 A KR 1020180034039A KR 20180034039 A KR20180034039 A KR 20180034039A KR 20190111642 A KR20190111642 A KR 20190111642A
- Authority
- KR
- South Korea
- Prior art keywords
- mouse
- talking head
- text
- pixel
- image processing
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 title abstract description 15
- 230000005236 sound signal Effects 0.000 claims description 4
- 238000003672 processing method Methods 0.000 claims description 3
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 claims description 2
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims description 2
- 230000036651 mood Effects 0.000 claims description 2
- 230000002996 emotional effect Effects 0.000 abstract description 3
- 230000014509 gene expression Effects 0.000 abstract description 3
- 230000001815 facial effect Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 230000004044 response Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Processing Or Creating Images (AREA)
Abstract
본 발명은 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법에 관한 것이다.
본 발명은 시스템의 입력부를 통해 텍스트를 입력받으면 실제 사진의 픽셀을 기반으로 한 토킹 헤드 애니메이션(talking head animation)을 이용하여 텍스트에 맞는 음성(오디오)과 립싱크 얼굴(동영상) 데이터를 출력함으로써, 사실적이면서도 데이터 효율적인 영상을 생성할 수 있는 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법을 제공하고자 한다.
또한, 본 발명은 텍스트를 토킹 헤드 애니메이션을 통해 입 모양을 매칭시켜 말하는 것뿐만이 아니라 제스처, 감정 표현 등 비언어적 요소까지 표출함으로써, 한층 더 사실에 가까운 영상을 제공할 수 있는 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법을 제공하고자 한다.
본 발명은 시스템의 입력부를 통해 텍스트를 입력받으면 실제 사진의 픽셀을 기반으로 한 토킹 헤드 애니메이션(talking head animation)을 이용하여 텍스트에 맞는 음성(오디오)과 립싱크 얼굴(동영상) 데이터를 출력함으로써, 사실적이면서도 데이터 효율적인 영상을 생성할 수 있는 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법을 제공하고자 한다.
또한, 본 발명은 텍스트를 토킹 헤드 애니메이션을 통해 입 모양을 매칭시켜 말하는 것뿐만이 아니라 제스처, 감정 표현 등 비언어적 요소까지 표출함으로써, 한층 더 사실에 가까운 영상을 제공할 수 있는 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법을 제공하고자 한다.
Description
본 발명은 영상 처리 시스템 및 방법에 관한 것으로서, 더 상세하게는 시스템의 입력부를 통해 텍스트를 입력받으면 실제 사진의 픽셀을 기반으로 한 토킹 헤드 애니메이션(talking head animation)을 이용하여 텍스트에 맞는 음성(오디오)과 립싱크 얼굴(동영상) 데이터를 출력함으로써, 사실적이면서도 데이터 효율적인 영상을 생성할 수 있는 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법에 관한 것이다.
최근 콘텐츠 제작 기술의 발전에 따라 개인이 다양한 멀티미디어 콘텐츠를 제작할 수 있는 애플리케이션들이 서비스되고 있다. 하지만, 이러한 종래의 멀티미디어 콘텐츠 제작 애플리케이션들은 단순히 사진들을 이용한 뮤직 비디오의 제작이나, 간단한 동영상을 편집하는 수준의 영상물 제작에 그치고 있어, 보다 편리하고 활용가치가 높은 개인 멀티미디어 콘텐츠 제작을 원하는 사용자들을 만족시키지 못하고 있다.
이상과 같은 영상 제작(생성) 기술과 관련하여 음성 관련 기술에 TTS(Text-to-speech) 기술이 있다. TTS는 텍스트를 음성으로 변환하여 출력해주는 기술로서 음성에 의한 제어, 음성을 통한 정보 제공 등을 위한 음성 정보 기술의 하나이다. 이러한 TTS는 초기에 전화와 같은 통신수단을 이용하여 정보를 전달하는 ARS(Automatic Response System : 자동 응답 시스템)에 주로 사용되었으나, 인터넷을 포함한 정보통신기술이 발달함에 따라 다양한 멀티미디어 분야에 응용되어 사용되고 있다. 일반적으로 TTS는 텍스트를 단순히 음성으로 변환하여 출력해주므로 정보전달 효과가 떨어지는 문제점이 있다.
이러한 문제점을 해결하기 위해 최근에는 TTS 기술에 영상처리 기술을 접목하여 음성뿐만 아니라 음성을 발음하는 얼굴 애니메이션 영상을 함께 출력해 줌으로써, 정보전달의 효율성을 높이기 위한 연구/개발이 활발히 진행되고 있다.
상기 얼굴 애니메이션 영상은 사람이 텍스트를 읽을 때, 텍스트의 각 음소를 발음하는 입 모양을 보여주는 영상으로서, 토킹 헤드(Talking head) 영상이라고도 한다. 종래에는 상기 얼굴 애니메이션 영상이 상기 텍스트를 실제로 읽는 것처럼 상기 TTS에서 출력되는 음성과 동기화시키는데 어려움이 있었다.
또한, 종래 영상 생성 모델은 부드럽고 자연스러운 영상 품질을 제공하기 위해 다량의 데이터를 필요로 하고, 모든 경우의 수에 따른 데이터가 확보되지 않는 한, 새로운 요구에 따른 대응이 어려운 문제가 있었다.
한편, 한국 공개특허공보 제10-2010-0115003호(특허문헌 1)에는 "텍스트 데이터 기반의 얼굴 애니메이션 출력방법 및 그 시스템"이 개시되어 있는바, 이에 따른 텍스트 데이터 기반의 얼굴 애니메이션 출력방법은, TTS 엔진이 텍스트 데이터를 입력받아 상기 텍스트 데이터에 포함된 음소들을 음성으로 출력하기 위한 오디오 파일 및 상기 각 음소에 대한 음소 정보 및 지속시간 정보를 포함하는 응답 메시지 데이터들을 생성하여 저장매체에 저장하는 제1단계; 싱크 모듈이 상기 오디오 파일을 음성 출력장치로 전송하고, 상기 응답 메시지 데이터들을 렌더링 모듈로 전송하되, 상기 오디오 파일 내의 임의의 음소가 음성으로 출력되기 전에 상기 임의의 음소의 음소 정보를 포함하는 응답 메시지 데이터를 상기 렌더링 모듈로 전송하는 제2단계; 상기 렌더링 모듈이 상기 응답 메시지 데이터들의 음소 정보에 따른 얼굴 애니메이션을 렌더링하여 디스플레이장치로 출력하고, 상기 음성 출력장치가 상기 오디오 파일을 음성으로 출력하는 제3단계를 포함하고, 상기 오디오 파일 내의 임의의 음소가 상기 임의의 음소의 음소 정보에 따른 얼굴 애니메이션이 렌더링되는 도중에 음성으로 출력되게 하는 것을 특징으로 한다.
이상과 같은 특허문헌 1의 경우, 텍스트를 음성뿐만 아니라 얼굴 애니메이션 영상과 함께 출력해 줌으로써 기존의 TTS를 적용한 ARS에 비해 정보 전달의 효율을 높일 수 있는 효과가 있을지는 모르겠으나, 그 기술적 지향이 임의의 음소가 음성으로 출력되는 시점에 얼굴 애니메이션이 임의의 음소에 대한 입 모양을 갖추도록 하여, 얼굴 애니메이션과 음성 간에 동기화가 이루어지도록 하는 것에 그치고 있다. 즉, 특허문헌 1은 텍스트를 얼굴 애니메이션을 통해 말하는 것으로 한정한, 단순 말하기 기술의 한계에 머무르고 있다.
본 발명은 상기와 같은 종래 기술들의 문제점 및 사항들을 종합적으로 감안하여 창출된 것으로서, 시스템의 입력부를 통해 텍스트를 입력받으면 실제 사진의 픽셀을 기반으로 한 토킹 헤드 애니메이션(talking head animation)을 이용하여 텍스트에 맞는 음성(오디오)과 립싱크 얼굴(동영상) 데이터를 출력함으로써, 사실적이면서도 데이터 효율적인 영상을 생성할 수 있는 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법을 제공함에 그 목적이 있다.
또한, 본 발명의 다른 목적은 텍스트를 토킹 헤드 애니메이션을 통해 입 모양을 매칭시켜 말하는 것뿐만이 아니라 제스처, 감정 표현 등 비언어적 요소까지 표출함으로써 한층 더 사실에 가까운 영상을 제공할 수 있는 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법을 제공함에 있다.
상기의 목적을 달성하기 위하여 본 발명에 따른 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템은,
또한, 상기의 목적을 달성하기 위하여 본 발명에 따른 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 방법은,
입력된 텍스트를 토킹 헤드 애니메이션을 이용하여 영상 데이터로 처리하는 영상 처리 방법으로서,
a) 학습 모델 생성기에 의해 오리지널 비디오 이미지를 입력받아 마우스 부분을 추출하는 단계;
b) 상기 추출된 마우스 부분을 마우스가 제거된 얼굴 부분과 마우스 파트로 분리하는 단계;
c) 상기 분리된 마우스 파트로부터 오리지널 마우스 특징들을 추출하는 단계;
d) 상기 추출된 오리지널 마우스 특징들을 메타(meta) 태깅(tagging)하는 단계;
e) 사용자 요청 수집기에 의해 텍스트를 입력받는 단계;
f) 상기 입력받은 텍스트를 TTS 변환기에 의해 스피치로 변환하여 음성을 출력하는 단계;
g) 상기 단계 d)에서 오리지널 마우스 특징들을 메타 태깅한 데이터와 상기 단계 f)에서의 출력된 음성 신호를 바탕으로 마우스와 무드 특징을 추정하는 단계;
h) 상기 단계 b)에서의 마우스가 제거된 얼굴 부분을 상기 단계 g)에서 추정된 마우스와 결합하는 단계; 및
i) 상기 얼굴 부분과 마우스가 결합된 비디오 이미지를 수정한 후 토킹 헤드 애니메이션 형태로 영상을 출력하는 단계를 포함하는 점에 그 특징이 있다.
여기서, 상기 단계 a) 이전에 상기 학습 모델 생성기에 의한 학습 과정을 수행하는 단계를 더 포함할 수 있다.
이때, 상기 학습 모델 생성기에 의한 학습 과정은,
a-1) 기록된 비디오 이미지 신호 및 오디오 신호를 미리 생성한 AI 학습 모델에 의해 입력받는 단계;
a-2) 상기 AI 학습 모델에 의해 상기 입력받은 비디오 이미지 신호로부터 마우스 부분을 검출 및 특징 위치 추적 훈련을 수행하는 단계;
a-3) 상기 검출된 마우스 부분 및 특징 위치 추적 훈련을 바탕으로 헤드 자세를 추정하는 단계;
a-4) 기계 학습된 마우스 픽셀들을 전체적으로 전체적으로 수집하여 마우스 특징을 추출하는 단계; 및
a-5) 상기 입력된 오디오 신호를 스피치 인식기에 의해 인식하여 음소를 추출하는 단계를 포함하여 구성될 수 있다.
이와 같은 본 발명에 의하면, 시스템의 입력부를 통해 텍스트를 입력받으면 실제 사진의 픽셀을 기반으로 한 토킹 헤드 애니메이션(talking head animation)을 이용하여 텍스트에 맞는 음성(오디오)과 립싱크 얼굴(동영상) 데이터를 출력함으로써, 사실적이면서도 데이터 효율적인 영상을 생성할 수 있다.
또한, 텍스트를 토킹 헤드 애니메이션을 통해 입 모양을 매칭시켜 말하는 것뿐만이 아니라 제스처, 감정 표현 등 비언어적 요소까지 표출함으로써 한층 더 사실에 가까운 영상을 제공할 수 있다.
또한, 확보되지 않은 데이터에 대해서도 유연하게 대응할 수 있고, 데이터 추가 시 재사용이 가능한 시스템 모델을 제공할 수 있다.
도 1은
도 2는
도 3은
도 4는
도 5는
도 2는
도 3은
도 4는
도 5는
본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정되어 해석되지 말아야 하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 한다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈", "장치" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
이하 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.
이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양하게 변경, 응용될 수 있음은 당해 기술분야의 통상의 기술자에게 자명하다. 따라서, 본 발명의 진정한 보호 범위는 다음의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.
Claims (1)
- 입력된 텍스트를 토킹 헤드 애니메이션을 이용하여 영상 데이터로 처리하는 영상 처리 방법으로서,
a) 학습 모델 생성기에 의해 오리지널 비디오 이미지를 입력받아 마우스 부분을 추출하는 단계;
b) 상기 추출된 마우스 부분을 마우스가 제거된 얼굴 부분과 마우스 파트로 분리하는 단계;
c) 상기 분리된 마우스 파트로부터 오리지널 마우스 특징들을 추출하는 단계;
d) 상기 추출된 오리지널 마우스 특징들을 메타(meta) 태깅(tagging)하는 단계;
e) 사용자 요청 수집기에 의해 텍스트를 입력받는 단계;
f) 상기 입력받은 텍스트를 TTS 변환기에 의해 스피치로 변환하여 음성을 출력하는 단계;
g) 상기 단계 d)에서 오리지널 마우스 특징들을 메타 태깅한 데이터와 상기 단계 f)에서의 출력된 음성 신호를 바탕으로 마우스와 무드 특징을 추정하는 단계;
h) 상기 단계 b)에서의 마우스가 제거된 얼굴 부분을 상기 단계 g)에서 추정된 마우스와 결합하는 단계; 및
i) 상기 얼굴 부분과 마우스가 결합된 비디오 이미지를 수정한 후 토킹 헤드 애니메이션 형태로 영상을 출력하는 단계를 포함하는 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180034039A KR20190111642A (ko) | 2018-03-23 | 2018-03-23 | 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180034039A KR20190111642A (ko) | 2018-03-23 | 2018-03-23 | 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20190111642A true KR20190111642A (ko) | 2019-10-02 |
Family
ID=68423217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180034039A KR20190111642A (ko) | 2018-03-23 | 2018-03-23 | 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20190111642A (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023096275A1 (ko) * | 2021-11-23 | 2023-06-01 | 네이버 주식회사 | 텍스트 기반 아바타 생성 방법 및 시스템 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100115003A (ko) | 2009-04-17 | 2010-10-27 | 목포대학교산학협력단 | 텍스트데이터 기반의 얼굴 애니메이션 출력방법 및 그 시스템 |
-
2018
- 2018-03-23 KR KR1020180034039A patent/KR20190111642A/ko unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100115003A (ko) | 2009-04-17 | 2010-10-27 | 목포대학교산학협력단 | 텍스트데이터 기반의 얼굴 애니메이션 출력방법 및 그 시스템 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023096275A1 (ko) * | 2021-11-23 | 2023-06-01 | 네이버 주식회사 | 텍스트 기반 아바타 생성 방법 및 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230316643A1 (en) | Virtual role-based multimodal interaction method, apparatus and system, storage medium, and terminal | |
US11436780B2 (en) | Matching mouth shape and movement in digital video to alternative audio | |
JP6019108B2 (ja) | 文字に基づく映像生成 | |
KR101492816B1 (ko) | 애니메이션 립싱크 자동화 장치 및 방법 | |
KR102116309B1 (ko) | 가상 캐릭터와 텍스트의 동기화 애니메이션 출력 시스템 | |
KR102098734B1 (ko) | 대화 상대의 외형을 반영한 수어 영상 제공 방법, 장치 및 단말 | |
US11908449B2 (en) | Audio and video translator | |
CN113077537A (zh) | 一种视频生成方法、存储介质及设备 | |
US8553855B2 (en) | Conference support apparatus and conference support method | |
CN117115310A (zh) | 一种基于音频和图像的数字人脸生成方法及系统 | |
KR20190111642A (ko) | 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법 | |
CN114155321B (zh) | 一种基于自监督和混合密度网络的人脸动画生成方法 | |
KR101039668B1 (ko) | 텍스트데이터 기반의 얼굴 애니메이션 출력방법 및 그 시스템 | |
Wolfe et al. | Exploring localization for mouthings in sign language avatars | |
JP4769086B2 (ja) | 声質変換吹替システム、及び、プログラム | |
Kolivand et al. | Realistic lip syncing for virtual character using common viseme set | |
CN112992116A (zh) | 一种视频内容自动生成方法和系统 | |
Kadam et al. | A Survey of Audio Synthesis and Lip-syncing for Synthetic Video Generation | |
Anitha et al. | NextGen Dynamic Video Generator using AI | |
KR20090112882A (ko) | 텍스트 투 스피치와 토킹해드를 이용한 멀티미디어 자료제공서비스 | |
JP3766534B2 (ja) | 視覚的に聴覚を補助するシステムおよび方法並びに視覚的に聴覚を補助するための制御プログラムを記録した記録媒体 | |
Dhokley et al. | Video creation using facial animation and speech synthesis | |
Eldhose et al. | Alyce: An Artificial Intelligence Fine-Tuned Screenplay Writer | |
Arunachalam et al. | An automated effective communication system in a VR based environment for hearing impaired | |
WO2023126975A1 (en) | Device for synchronization of features of digital objects with audio contents |