KR20230151155A - 아바타 스피치 서비스 제공 장치 및 그 동작 방법 - Google Patents
아바타 스피치 서비스 제공 장치 및 그 동작 방법 Download PDFInfo
- Publication number
- KR20230151155A KR20230151155A KR1020220050485A KR20220050485A KR20230151155A KR 20230151155 A KR20230151155 A KR 20230151155A KR 1020220050485 A KR1020220050485 A KR 1020220050485A KR 20220050485 A KR20220050485 A KR 20220050485A KR 20230151155 A KR20230151155 A KR 20230151155A
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- information
- face
- avatar
- speaker
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 79
- 230000008451 emotion Effects 0.000 claims description 47
- 238000004519 manufacturing process Methods 0.000 claims description 35
- 238000004891 communication Methods 0.000 claims description 25
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000013480 data collection Methods 0.000 claims description 14
- 230000001815 facial effect Effects 0.000 claims description 14
- 230000008921 facial expression Effects 0.000 claims description 13
- 238000013136 deep learning model Methods 0.000 claims description 10
- 230000004886 head movement Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 239000000203 mixture Substances 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 34
- 230000008569 process Effects 0.000 description 23
- 230000006870 function Effects 0.000 description 17
- 230000004888 barrier function Effects 0.000 description 11
- 241000282412 Homo Species 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 9
- 210000003128 head Anatomy 0.000 description 9
- 230000009193 crawling Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 8
- 230000002996 emotional effect Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000001303 quality assessment method Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 210000000887 face Anatomy 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007790 scraping Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
본 발명의 실시 예에 따른 아바타 스피치 서비스 제공 장치의 동작 방법은, 하나 이상의 영상 플랫폼 서버로부터 영상 정보를 수집하는 단계; 상기 영상 정보로부터 화자별 음성 추출 및 얼굴 영상 추출을 수행하여 시간 동기화 정보를 부여하는 단계; 상기 화자별 음성 추출 및 얼굴 영상 추출 결과와 상기 시간 동기화 정보에 기초하여, 음성과 텍스트가 매칭된 음성-텍스트 매칭 정보를 구성하고, 화자의 얼굴과 음성이 매칭된 얼굴-음성 매칭 정보를 구성하는 단계; 상기 음성-텍스트 매칭 정보에 기초한 인공지능 신경망 학습 기반의 아바타 스피치 서비스용 TTS 학습 모델과, 상기 얼굴-음성 매칭 정보에 기초한 인공지능 신경망 학습 기반의 아바타 스피치 서비스용 STF 학습 모델을 각각 구축하는 단계; 및 상기 TTS 학습 모델 및 상기 STF 학습 모델을 이용한 아바타 스피치 서비스 정보를 구성하여, 사용자 단말로 제공하는 단계를 포함한다.
Description
본 발명은 서비스 제공 장치 및 그 동작 방법에 관한 것이다. 보다 구체적으로, 본 발명은 아바타 스피치 서비스 제공 장치 및 그 동작 방법에 관한 것이다.
문장 및 텍스트를 음성인 스피치(SPEECH)로 변환하는 기술은, TTS(TEXT TO SPEECH)라는 기술로 명칭되며, 다양한 인공지능 기반 학습 기술의 발달과 함께 현재는 상당히 자연스러운 스피치 변환이 가능하게 되었다.
나아가, 최근에는 스피치 음성에 따라 아바타와 같이, 화면상의 인물 또는 캐릭터 얼굴의 입 모양을 변형하는 효과를 적용하는 음성 신호 얼굴 변환 기술 Speech To Face (STF)이 개발되었다.
이에 따라, 목소리에 맞는 얼굴을 구현하기 위해, 얼굴 생성 과정이 부가되며, 이는 화자의 말하는 습관, 억양, 빠르기 등 특징들을 반영하고 본래 얼굴의 생김새와 입모양도 함께 반영하여, 그 화자가 실제 말하는 것과 같은 효과가 적용된 영상이 제공된다.
또한, 이러한 TTS 및 STF 기술은 각각의 분야에서 현재 인공지능 신경망을 이용한 방식을 활용하여 크게 발전되고 있다.
최근에는 이러한 인공지능 신경망 기술들을 활용하여 아바타를 이용한 스피치 영상을 제작해주는 서비스들도 제안되고는 있으나, 현재 기술만으로는 간단한 텍스트만을 발화하는 테스트성 영상들만이 오랜 시간을 들여 제작될 뿐이며, 기계적으로 구성된 영상의 이질감과 화질 저하, 입 모양의 부자연스러움, 실시간 처리 어려움 등 상용화 측면에서의 다양한 문제점들이 존재함으로 인해, 연구적, 실험적 단계에 머물러 있는 실정이다.
본 발명은 상기한 바와 같은 문제점들을 해결하고자 안출된 것으로, 인공지능 신경망 학습을 기반 TTS 및 STF 기술을 효과적으로 융합 적용하여, 아바타 스피치 영상에 있어서의 고화질의 자연스러운 감정 표현 및 정확한 입모양 동기화를 처리하고, 이에 기초한 다양한 아바타 스피치 어플리케이션 서비스를 제공할 수 있는 아바타 스피치 서비스 제공 장치 및 그 동작 방법을 제공하는데 그 목적이 있다.
상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 방법은, 아바타 스피치 서비스 제공 장치의 동작 방법에 있어서, 하나 이상의 영상 플랫폼 서버로부터 영상 정보를 수집하는 단계; 상기 영상 정보로부터 화자별 음성 추출 및 얼굴 영상 추출을 수행하여 시간 동기화 정보를 부여하는 단계; 상기 화자별 음성 추출 및 얼굴 영상 추출 결과와 상기 시간 동기화 정보에 기초하여, 음성과 텍스트가 매칭된 음성-텍스트 매칭 정보를 구성하고, 화자의 얼굴과 음성이 매칭된 얼굴-음성 매칭 정보를 구성하는 단계; 상기 음성-텍스트 매칭 정보에 기초한 인공지능 신경망 학습 기반의 아바타 스피치 서비스용 TTS 학습 모델과, 상기 얼굴-음성 매칭 정보에 기초한 인공지능 신경망 학습 기반의 아바타 스피치 서비스용 STF 학습 모델을 각각 구축하는 단계; 및 상기 TTS 학습 모델 및 상기 STF 학습 모델을 이용한 아바타 스피치 서비스 정보를 구성하여, 사용자 단말로 제공하는 단계를 포함한다.
또한, 상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 장치는, 아바타 스피치 서비스 제공 장치에 있어서, 하나 이상의 영상 플랫폼 서버로부터 영상 정보를 수집하는 수집부; 상기 영상 정보로부터 화자별 음성 추출 및 얼굴 영상 추출을 수행하여 시간 동기화 정보를 부여하는 추출부; 상기 화자별 음성 추출 및 얼굴 영상 추출 결과와 상기 시간 동기화 정보에 기초하여, 음성과 텍스트가 매칭된 음성-텍스트 매칭 정보를 구성하고, 화자의 얼굴과 음성이 매칭된 얼굴-음성 매칭 정보를 구성하며, 상기 음성-텍스트 매칭 정보에 기초한 인공지능 신경망 학습 기반의 아바타 스피치 서비스용 TTS 학습 모델과, 상기 얼굴-음성 매칭 정보에 기초한 인공지능 신경망 학습 기반의 아바타 스피치 서비스용 STF 학습 모델을 각각 구축하는 모델 처리부; 및 상기 TTS 학습 모델 및 상기 STF 학습 모델을 이용한 아바타 스피치 서비스 정보를 구성하여, 사용자 단말로 제공하는 서비스 제공부를 포함한다.
본 발명의 실시 예에 따르면, 상기 화자별 음성 추출 및 얼굴 영상 추출 결과와 상기 시간 동기화 정보에 기초하여, 음성과 텍스트가 매칭된 음성-텍스트 매칭 정보를 구성하고, 화자의 얼굴과 음성이 매칭된 얼굴-음성 매칭 정보를 구성하며, 상기 음성-텍스트 매칭 정보에 기초한 인공지능 신경망 학습 기반의 아바타 스피치 서비스용 TTS 학습 모델과, 상기 얼굴-음성 매칭 정보에 기초한 인공지능 신경망 학습 기반의 아바타 스피치 서비스용 STF 학습 모델을 각각 구축하며, 상기 TTS 학습 모델 및 상기 STF 학습 모델을 이용한 아바타 스피치 서비스 정보를 구성하여 사용자 단말로 제공할 수 있다.
이에 따라, 본 발명의 실시 예에 따르면, 인공지능 신경망 학습을 기반 TTS 및 STF 기술을 효과적으로 융합 적용하여, 아바타 스피치 영상에 있어서의 고화질의 자연스러운 감정 표현 및 정확한 입모양 동기화를 처리하고, 이에 기초한 다양한 아바타 스피치 어플리케이션 서비스를 제공할 수 있다.
도 1은 본 발명의 실시 예에 따른 전체 시스템을 개략적으로 도시한 개념도이다.
도 2는 본 발명의 실시 예에 따른 서비스 제공 장치를 보다 구체적으로 도시한 블록도이다.
도 3 내지 도 13은 본 발명의 실시 예에 따른 처리부들의 동작을 보다 구체적으로 설명하기 위한 도면들이다.
도 2는 본 발명의 실시 예에 따른 서비스 제공 장치를 보다 구체적으로 도시한 블록도이다.
도 3 내지 도 13은 본 발명의 실시 예에 따른 처리부들의 동작을 보다 구체적으로 설명하기 위한 도면들이다.
이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.
또한, 본 발명의 원리, 관점 및 실시예들 뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.
따라서, 예를 들어, 본 명세서의 블럭도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.
프로세서 또는 이와 유사한 개념으로 표시된 기능 블럭을 포함하는 도면에 도시된 다양한 소자의 기능은 전용 하드웨어뿐만 아니라 적절한 소프트웨어와 관련하여 소프트웨어를 실행할 능력을 가진 하드웨어의 사용으로 제공될 수 있다. 프로세서에 의해 제공될 때, 상기 기능은 단일 전용 프로세서, 단일 공유 프로세서 또는 복수의 개별적 프로세서에 의해 제공될 수 있고, 이들 중 일부는 공유될 수 있다.
또한 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다.
본 명세서의 청구범위에서, 상세한 설명에 기재된 기능을 수행하기 위한 수단으로 표현된 구성요소는 예를 들어 상기 기능을 수행하는 회로 소자의 조합 또는 펌웨어/마이크로 코드 등을 포함하는 모든 형식의 소프트웨어를 포함하는 기능을 수행하는 모든 방법을 포함하는 것으로 의도되었으며, 상기 기능을 수행하도록 상기 소프트웨어를 실행하기 위한 적절한 회로와 결합된다. 이러한 청구범위에 의해 정의되는 본 발명은 다양하게 열거된 수단에 의해 제공되는 기능들이 결합되고 청구항이 요구하는 방식과 결합되기 때문에 상기 기능을 제공할 수 있는 어떠한 수단도 본 명세서로부터 파악되는 것과 균등한 것으로 이해되어야 한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 실시 예에 따른 전체 시스템을 개략적으로 도시한 개념도이다.
도 1을 참조하면, 먼저 본 발명의 실시 예에 따른 시스템은, 아바타 스피치 서비스 제공 장치(100), 사용자 단말(200), 크롤링 대상 영상 플랫폼 서버(300), TTS 처리 장치(400) 및 STF 처리 장치(500)를 포함한다.
그리고, 본 발명의 실시 예에 따른 아바타 스피치 서비스 제공 장치(100)는, 본 발명의 실시 예에 따른 서비스 제공을 위해, 크롤링 대상 영상 플랫폼 서버(300), TTS 처리 장치(400), STF 처리 장치(500) 및 사용자 단말(200) 각각과 유/무선 네트워크를 통해 연결될 수 있으며, 상호간 통신을 수행할 수 있다.
여기서 상기 각 네트워크는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 부가가치 통신망(Value Added Network; VAN), 개인 근거리 무선통신(Personal Area Network; PAN), 이동 통신망(mobile radiocommunication network) 또는 위성 통신망 등과 같은 모든 종류의 유/무선 네트워크로 구현될 수 있다.
그리고, 사용자 단말(200)은, 아바타 스피치 서비스 제공 장치(100)를 통해 제작된 아바타 스피치 영상을 제공받는 단말 장치이거나, 아바타 스피치 영상이 업로드되는 플랫폼 서버일 수 있다.
사용자 단말(200)이 단말 장치인 경우에는 휴대폰, 스마트 폰(smart phone), 스마트 패드(smart pad), PDA(Personal Digital Assistants) 중 어느 하나의 개별적 기기일 수 있으며, 본 발명의 실시 예에 따른 서비스 제공 장치(100)로부터 제공되는 아바타 스피이 영상을 제공받아 출력하는 디스플레이 장치일 수 있다.
한편, 크롤링 대상 영상 플랫폼 서버(300)는 별도로 운영되는 다양한 영상 플랫폼 서버들이 예시될 수 있으며, 아바타 스피치 서비스 제공 장치(100)에서의 아바타 스피치 영상 제공을 위한 인공지능 신경망 학습에 필요한 다양항 발화 영상을 구비하고 있을 수 있다.
그리고, 본 발명의 실시 예에 따른 아바타 스피치 서비스 제공 장치(100)는, 크롤링 대상 영상 플랫폼 서버(300)로부터 웹 크롤링 또는 웹 스크래핑 등을 수행하여 영상 데이터를 수집할 수 있다.
그리고, 아바타 스피치 서비스 제공 장치(100)는, 수집된 영상 데이터의 영상 평가 알고리즘을 적용하여, 고품질 및 고음질 영상을 추출할 수 있다. 이를 위한 영상 평가 알고리즘으로서, No-Reference Video Quality Assessments, No-Reference Audio Quality Assessments와 같은 품질 평가 기반 추출 알고리즘이 이용될 수 있다.
그리고, 아바타 스피치 서비스 제공 장치(100)는, 추출된 원본 영상으로부터 화자별 음성 추출 및 얼굴 영상 추출을 각각 수행할 수 있으며, 시간 동기화 정보를 부여하여 TTS 처리 장치(400) 및 STF 처리 장치(500) 각각에 분배할 수 있다.
그리고, 아바타 스피치 서비스 제공 장치(100)는, TTS 처리 장치(400)로부터 처리된 음성-텍스트 매칭 정보를 구성하고, STF 처리 장치(500)에서 처리된 화자의 얼굴과 음성이 매칭된 얼굴-음성 매칭 정보를 구성하며, 음성-텍스트 매칭 정보에 기초한 인공지능 신경망 학습 기반의 아바타 스피치 서비스용 TTS 학습 모델과, 얼굴-음성 매칭 정보에 기초한 인공지능 신경망 학습 기반의 아바타 스피치 서비스용 STF 학습 모델을 구축할 수 있다.
이러한 학습 모델 구축을 자동화하여 효율적으로 처리하기 위해, 아바타 스피치 서비스 제공 장치(100)는, 다양한 엔진 처리부를 구비할 수 있다.
예를 들어, 아바타 스피치 서비스 제공 장치(100)는, 하나의 오디오를 화자별로 분리하는 딥러닝 모델을 사용하여 화자별 음성 데이터를 확보할 수 있는 Speaker Diarization 엔진을 구비할 수 있다.
또한, 아바타 스피치 서비스 제공 장치(100)는, 얼굴이 있는지 여부를 판별하는 딥러닝 모델을 사용하여 얼굴이 있는 부분 추출하는 Face Detection 엔진을 구비할 수 있다.
그리고, 아바타 스피치 서비스 제공 장치(100)는, 한 시점에 말하는 화자를 판별하는 딥러닝 모델을 사용하여 오디오에 맞는 화자의 영상 부분을 확보하는 Active Speaker Detection 엔진을 구비할 수 있다.
또한, 아바타 스피치 서비스 제공 장치(100)는, TTS 처리 장치(400)를 통해 처리된 음성 텍스트 매칭 데이터를 딥러닝 학습 모델에 적용할 수 있도록, 역으로 STT 처리를 수행하여 음성 텍스트 매칭 데이터의 라벨링 데이터를 부여하는 STT(SPEECH TO TEXT) 엔진이 더 구비될 수 있다.
또한, 이러한 아바타 스피치 서비스 제공 장치(100)는 각 데이터 처리 엔진의 정확도를 검증하기 위한 검증부를 더 구비할 수 있다.
한편, TTS 처리 장치(400)는 아바타 스피치 서비스 제공 장치(100)로부터 수신되는 스피치 또는 텍스트 정보에 기초한 음성 텍스트 매칭 데이터를 구성할 수 있으며, 이를 위한 음성-텍스트 변환 또는 텍스트-음성 변환 중 어느 하나를 처리할 수 있다.
그리고, STF 처리 장치(500)는, 아바타 스피치 서비스 제공 장치(100)로부터 수신되는 얼굴 영상 또는 음성 정보에 기초한 얼굴 영상-음성 매칭 데이터를 구성할 수 있으며, 이를 위한 음성-얼굴영상 변환 또는 얼굴영상-음성 변환 중 어느 하나를 처리할 수 있다.
이와 같은 시스템 구성에 따라, 아바타 스피치 서비스 제공 장치(100)는, 아바타 스피치 생성 기반의 다양한 서비스를 제공하며, 그 처리 속도와 립싱크 정확도 향상, 헤드 모션 적용, 화질 향상 등을 처리할 수 있는 다양한 처리부들을 더 구비할 수 있는 바, 이에 대하여는 도 2를 통해 보다 구체적으로 설명하도록 한다.
도 2는 본 발명의 실시 예에 따른 서비스 제공 장치를 보다 구체적으로 도시한 블록도이며, 도 3 내지 도 13은 본 발명의 실시 예에 따른 처리부들의 동작을 보다 구체적으로 설명하기 위한 도면들이다.
도 2를 참조하면, 본 발명의 실시 예에 따른 아바타 스피치 서비스 제공 장치(100)는, 다국어 글로벌 영상 커뮤니케이션 서비스부, 문자 입력 기반 실시간 AI 아바타 생성부, 고화질 데이터 처리 기반 립싱크 영상 생성부, 비학습 인물 대응 AI 아바타 생성부, 음성 내 감정 분석 기반 얼굴영상 구성부, 음성의 입 모양 동기화 기반 립싱크 영상 처리부, 음성 기반 립싱크 3D 얼굴 데이터 처리부, 감정 분석 기반 표정 및 머리 움직임 제어부, 단기 음성 데이터 학습 처리부, 학습 기반 감정 연출 음성 처리부, 오디오북 제작 서비스부, 화자 얼굴-음성 매칭 데이터 수집 자동화부, 감정 기반 텍스트-음성 매칭 데이터 수집 자동화부를 포함한다.
먼저, 다국어 글로벌 영상 커뮤니케이션 서비스부는, 사용자 단말(200)에서 입력된 문자에 대응하여, 다국어 음성과 발화영상에 기초한 아바타 스피치 영상 정보를 실시간으로 생성하여, 사용자 단말(200)로 제공하는 데이터 서비스를 처리한다.
이에 따라, 다국어 글로벌 영상 커뮤니케이션 서비스부는, 사용자가 문자만 입력하면, 본 발명의 실시 예에 따른 다국어 글로벌 영상 커뮤니케이션 아바타 스피치 영상을 실시간으로 생성하여, 문자만으로 글로벌 영상소통이 가능하게 하는 어플리케이션을 제공할 수 있으며, 이는 글로벌 영상소통의 수요가 증가하면서 실시간 소통이 가능하지만 언어장벽의 한계가 발생되는 문제점을 해결할 수 있다.
예를 들어, 종래기술의 경우,현재 실시간 영상소통을 위해, 마이크와 카메라를 이용하여 비대면 소통 기술을 제공하는데, 언어적 장벽은 늘 존재하고, 마이크와 카메라 장치가 필요하다는 시스템적인 한계가 존재한다.
이에 따라, 본 발명의 실시 예에 따른 다국어 글로벌 영상 커뮤니케이션 서비스부는, 사용자 단말(200)에서 번역할 언어를 선택 후 모국어를 문자로 입력하면, 번역 음성을 발화하는 아바타 영상이 출력되는 서비스를 제공할 수 있다.
또한, 본 발명의 실시 예에 따른 다국어 글로벌 영상 커뮤니케이션 서비스부는, 전술한 인공지능 학습 모델 및 엔진 처리를 통해, 다국어 음성과 실시간 생성이 가능한 립싱크 영상을 포함하는 아바타 스피치 서비스를 사용자 단말(200)로 제공할 수 있다.
이에 따라, 카메라와 마이크 없어도 글로벌 영상 소통이 가능한 서비스를 제공할 수 있으며, 본 발명의 실시 예에 따른 다국어 글로벌 영상 커뮤니케이션 서비스부는, 번역 기능과 음성 출력 기능 및 아바타 생성 기능을 조합함에 따라, 마이크와 카메라 장비 없이도 글로벌 소통이 가능한 서비스를 제공할 수 있다.
이러한 본 발명의 실시 예에 따른 다국어 글로벌 영상 커뮤니케이션 서비스부의 처리에 따라, 음성으로 소통이 어려운 장애인의 경우에도, 문자만 입력하면 본인의 의사를 시청각으로 표현할 수 있어 원활한 의사소통이 가능하게 할 수 있으며, 언어장벽이 존재하는 글로벌 환경에 있어서, 다국어 말하기가 힘든 상황에서 문자 입력만으로 다국어 소통이 가능하게 하므로, 민족과 문화 간의 소통장벽을 해소할 수 있게 된다.
한편, 문자 입력 기반 실시간 AI 아바타 생성부는, 사용자 단말(200)로부터의 문자 입력에 대응하여, 실시간으로 출력되는 AI 휴먼 아바타를 생성하며, 상기 AI 휴먼 아바타의 스피치 영상 데이터를 사용자 단말(200)로 제공하는 프로세스를 처리할 수 있다.
보다 구체적으로, 본 발명의 실시 예에 따른 문자 입력 기반 실시간 AI 아바타 생성부는, AI 아나운서 제작 시, 영상 출력에 소요되는 시간으로 인한 한계를 극복하기 위한 것으로, 사용자 단말(200)로부터 문자만 입력되면, 음성과 발화영상이 매칭된 아바타 스피치 영상이 실시간으로 사용자 단말(200)에서 출력되도록 하는 기능을 제공하며, 이는 문자만으로 영상 소통 및 아바타 스피치 영상 제작이 가능하게 하는 서비스를 구현한다.
예를 들어, 종래기술의 AI 아나운서 기술들이 실험적으로 제안되고 있으나, 이는 단일 화자의 8시간 내외 음성과 얼굴데이터를 인공지능신경망으로 학습하여, 문자입력시 학습된 아나운서의 음성과 얼굴이 영상으로 출력되는 기술로서, 고화질-저효율의 모델을 사용하기 때문에, 10초 정도의 짧은 영상 출력에도 1분 이상의 장시간 렌더링 시간이 발생하는 문제점이 있다.
이에 따라, 본 발명의 실시 예에 따른 문자 입력 기반 실시간 AI 아바타 생성부는, 문자 입력 후 적어도 1초 이내의 렌더링 시간을 보장하는 립싱크 영상 출력 모듈을 포함할 수 있으며, 생성 알고리즘의 구조 최적화를 통한 실시간 영상 출력을 제공할 수 있다.
이러한 본 발명의 실시 예에 따른 문자 입력 기반 실시간 AI 아바타 생성부는 도 3에 도시된 바와 같은 모델 경량화 기법을 활용하여, 실시간 생성이 가능한 립싱크 영상생성 모델을 구축할 수 있다. 예를 들어, 도 3에 도시된 바와 같은 딥러닝 모델 최적화 프로세스를 통해 Parameter pruning and quantization, Knowledge distillation 등을 활용한 모델 최적화를 구현할 수 있다.
이에 따라, 문자 입력 기반 실시간 AI 아바타 생성부는, 음성으로 소통이 어려운 장애인의 경우에도, 문자만 입력하면 본인의 의사를 시청각으로 표현할 수 있어 원활한 의사소통이 가능하게 하며, 언어장벽이 존재하는 글로벌 환경에 있어서, 다국어 말하기가 힘든 상황에서 문자 입력만으로 다국어 소통이 가능하게 하므로, 언어가 다른 사람 간의 소통장벽을 해소할 수 있는 차이점이 있다.
한편, 본 발명의 실시 예에 따른 고화질 데이터 처리 기반 립싱크 영상 생성부는, 고화질 데이터를 기반으로 한 고화질 립싱크 영상을 생성하여, 사용자 단말(200)로 제공하는 서비스 데이터 처리를 수행한다.
여기서, 본 발명의 실시 예에 다른 고화질 데이터 처리 기반 립싱크 영상 생성부는, 디스플레이 기술의 발달로 인해, 대형 컨시어지를 활용한 AI 휴먼의 활용이 확대를 고려하여 안출된 것으로, 종래기술에 따른 국내 AI아나운서의 출력영상들이 HD(720p)이하의 얼굴 영상을 통해 데이터를 수집 및 가공해 활용하고 있어 발생되는 화질 문제를 해결하기 위한 것이다. 고화질 데이터 처리 기반 립싱크 영상 생성부는 저화질 데이터를 활용해 온 기술적 한계를 극복하고, AI 아바타 스피치 영상의 화질 문제가 상용화의 진입장벽이 되는 문제점을 해결한다.
이를 위해, 본 발명의 실시 예에 따른 고화질 데이터 처리 기반 립싱크 영상 생성부는, 발화영상의 고화질 데이터셋을 구축하며, 데이터 수집 자동화 시스템으로 고화질 데이터셋 확보하고, 특히 입모양과 치아 부분의 선명도를 위한 고도화 생성 프로세스를 수행할 수 있다.
보다 구체적으로, 도 4를 참조하면, 고화질 데이터 처리 기반 립싱크 영상 생성부는, Face super resolution, StyleGAN3 등 고화질의 얼굴을 생성하는 최신 GAN 모델을 활용하여 고화질 데이터 처리 기반 립싱크 영상 생성을 수행할 수 있다.
이에 따라, 고화질 데이터 처리 기반 립싱크 영상 생성부는, 고화질로 화질이 개선된 드라마, 영화 등 고화질이 필요한 서비스를 통해 고화질 아바타 스피치 영상을 제공할 수 있으며, 이는 화질 개선에 따른 영상제작 활용도 증가와 영상제작 시간과 비용을 획기적으로 절감하게 한다.
한편, 비학습 인물 대응 AI 아바타 생성부는, 비학습 인물의 음성과 영상이 출력되는 AI 휴먼 아바타 스피치를 생성하여 사용자 단말(200)로 출력하는 기능을 수행한다.
통상적으로 영상 제작 시, 촬영에 소요되는 시간과 비용, 에너지 등에서 낭비적 요소가 발생하고 있는 바, 본 발명의 실시 예에 따른 비학습 인물 대응 AI 아바타 생성부는, 사용자 단말(200)로부터 비학습 인물 정보 및 문자만 입력하면 음성과 영상이 결합된 비학습 인물 대응 AI 아바타를 생성 및 제공함에 따라, 사용자가 별도의 촬영 공간이 없어도 영상제작을 쉽게 할 수 있게 한다.
즉, 종래기술을 예를 들면 현재 AI 아나운서 기술은 단일화자의 수시간(8시간 내외) 음성과 얼굴데이터를 인공지능 신경망으로 학습하여, 문자 입력시 학습된 아나운서의 음성과 얼굴이 영상으로 출력되는 기술이 제안되고 있으나, 단일화자의 8시간 이상의 영상데이터를 필요로 하기 때문에 학습데이터 수집에서부터 가공, 출력까지의 비용과 시간이 상당히 많은 부분 차지한다. 이로 인해 인물 영상 제작의 어려움을 해결하지 못하고 AI아나운서 제작에 대한 진입장벽이 발생한다. 또한 단일화자의 영상데이터를 학습한 모델이기 때문에 다른 화자의 음성과 동기화 되지 못하는 한계가 있다.
이에 따라, 본 발명의 실시 예에 따른 비학습 인물 대응 AI 아바타 생성부는, 불특정 화자의 음성과 불특정 인물의 영상을 자유롭게 동기화할 수 있도록, 학습데이터를 통해 비학습된 영상데이터의 입모양 생성이 가능한 일반화된 생성 엔진을 인공지능 신경망 학습을 통해 구축하고, 이에 기초한 비학습 인물 대응 AI 아바타를 생성하여, 이에 기초한 아바타 스피치 영상을 사용자 단말(200)로 제공할 수 있다.
이를 위해, 도 5를 참조하면, 본 발명의 실시 예에 따른 비학습 인물 대응 AI 아바타 생성부는, 음성 정보를 임베딩하여 스피치 피처(음성의 다양한 정보로서, 피치, 톤, 볼륨 등을 함축적으로 표현하는 정보)를 추출하는 스피치 인코더와, 얼굴의 정보를 임베딩하여 페이스 피처(얼굴 이미지의 고차원 정보를 함축적으로 표현하는 정보)를 추출하는 이미지 인코더와, 상기 스피치 피처를 통해 입모양을 예측하고, 페이스 피처 기반 얼굴을 생성하는 디코더와, 상기 스피치 피처 및 상기 페이스 피처간 유사도를 측정하여 립싱키의 정확도를 판별하는 립싱크 판별기를 포함할 수 있다.
또한, 비학습 인물 대응 AI 아바타 생성부는, 언어별 제한 없이 음성과 맞는 입모양 생성을 처리할 수 있으며, 이를 위해, 언어별 입모양 특성을 학습할 수 있는 언어별 맞춤형 립싱크 엔진을 구비할 수 있다.
이에 따라, 비학습 인물 대응 AI 아바타 생성부는, 영상소통 환경의 혁신과 함께 영상제작에 필요한 시간과 자원의 낭비가 해소되어 영상제작의 진입장벽이 낮아지고 제작인력의 시간이 더욱 효과적으로 사용될 수 있도록 한하며, 음성과 얼굴 영상의 자유로운 동기화를 통해 언어제약이 없는 아바타 스피치 영상을 생성하여 사용자 단말(200)로 제공할 수 있다.
한편, 음성 내 감정 분석 기반 얼굴영상 구성부는 음성 내 감정을 분석해 표정이 변화하는 아바타 스피치 영상을 생성하여, 사용자 단말(200)로 출력한다.
음성 내 감정 분석 기반 얼굴영상 구성부는, 디지털 휴먼의 수요 증가로 다양한 활동 영역에 등장하고 있는 상황에서 더욱 친근감 있는 디지털 휴먼에 대한 필요성에 의해 안출된 것으로, 아바타 스피치 영상에 포함된 디지털 휴먼의 음성과 표정을 자연스럽게 나타낼 수 있는 서비스를 제공할 수 있다.
예를 들어, 종래기술의 디지털 휴먼은 기 학습된 영상데이터의 사람의 모습을 영상으로 생성하는 기술로 학습데이터를 기반으로 얼굴과 표정을 출력하는 바, 무표정한 얼굴로 영상데이터 상에 포함된 제스쳐만 출력되는 상황이다. 이에 따라 친근감이 떨어지고 사용성이 떨어진다는 한계가 발생하고 있다.
이에 따라, 도 6에 도시된 바와 같이, 본 발명의 실시 예에 따른 음성 내 감정 분석 기반 얼굴영상 구성부는, 음성 신호에 있는 감정을 분석하며, 감정 분석 결과에 따라 아바타 스피치 영상의 감정 컨트롤이 가능한 학습 모델을 구축할 수 있다. 이를 위해, 음성 내 감정 분석 기반 얼굴영상 구성부는, audio encoder에서 출력된 speech features를 통해 입모양을 학습하고, expression encoder에서 출력된 expression features를 통해 감정이 있는 표정을 학습하여 학습 모델을 구축할 수 있다.
음성 내 감정 분석 기반 얼굴영상 구성부의 구동에 따라, 음성 신호의 발음만 고려한 종래의 모델보다 자연스러운 표정이 있는 영상 생성 가능해지며, 이는 감정 표현이 필요한 예술 문화 콘텐츠에도 디지털 휴먼 도입을 가능하게 한다.
또한, 음성 내 감정 분석 기반 얼굴영상 구성부는 다양한 감정을 표현할 수 있는 디지털 휴먼을 사용자 단말(200)로 제공하며, 이는 사용자와 친근감을 형성하고 감정교류까지 체감할 수 있는 인간친화적 디지털 휴먼 산업을 구축할 수 있도록 한다.
그리고, 음성의 입 모양 동기화 기반 립싱크 영상 처리부는, 음성에 따라 입모양이 일치하는 립싱크 영상생성 모델을 구축할 수 있다.
보다 구체적으로, 음성의 입 모양 동기화 기반 립싱크 영상 처리부는, AI 아나운서의 수요 증가와 함께 관련 기술에 대한 기대감이 높아지고 이에 더욱 자연스러운 립싱크 기술이 요구되는 상황에서 안출된 것으로, 사용자 단말(200)로부터의 문자가 입력되면, 음성과 발화영상이 정확하게 일치되어 출력되는 아바타 스피치 생성 모델을 학습 기반으로 구축할 수 있다.
예를 들어, 종래기술의 AI 아나운서 기술은 단일화자의 8시간 내외 음성과 얼굴데이터를 인공지능신경망으로 학습하여, 문자입력시 학습된 아나운서의 음성과 얼굴이 영상으로 출력되는 기술로서, 비학습한 다른 언어를 입력하면 립싱크가 불일치하는 문제가 발생할 수 있다.
이에 따라, 도 7에 도시된 바와 같이, 본 발명의 실시 예에 따른 음성의 입 모양 동기화 기반 립싱크 영상 처리부는, 다국어 언어 인식에 따른 다국어 언어 립싱크 영상 생성을 위한 학습 모델을 구축할 수 있다. 이를 위해, 음성의 입 모양 동기화 기반 립싱크 영상 처리부는, 데이터셋 수집 후, 언어를 고려한 lip sync discriminator 학습을 처리할 수 있다.
그리고, 음성의 입 모양 동기화 기반 립싱크 영상 처리부는, 언어별 정확도가 높은 립싱크 영상 생성 모델을 구축하기 위해, lower half visual features와 audio features 의 similarity 계산을 통해 sync 를 판별하는 처리를 수행할 수 있다.
이에 따라, 음성의 입 모양 동기화 기반 립싱크 영상 처리부는, 언어별 부자연스러운 입모양을 해소할 수 있어 글로벌 아바타 영상 소통에 도움을 줄 수 있으며, 언어에 따른 정확한 입모양 영상을 제공하여, 언어교육 영상으로도 활용할 수 있는 아바타 스피치 영상 서비스를 사용자 단말(200)로 제공할 수 있다.
그리고, 음성 기반 립싱크 3D 얼굴 데이터 처리부는, 음성에 따라 립싱크 하는 3D 얼굴을 생성하는 프로세스를 수행한다.
이는 메타버스 산업의 발달로 인해 3D 기술 기반의 다양한 메타휴먼이 등장함에 따라 안출된 것으로, 음성 기반 립싱크 3D 얼굴 데이터 처리부는, 3D 환경에서도 원활한 음성 립싱크가 가능한 얼굴 생성 모델을 구현할 수 있다.
즉, 종래에는 3D 얼굴제작과 음성 립싱크 제작 환경이 모셥캡쳐 기반의 기술을 활용하고 있으나, 이는 고비용의 개발 비용과 환경이 필요하므로 진입장벽이 높고 제작기간이 상당하며, 또한 자연스러운 입모양 연출이 어려워 이질감을 주고 있는 상황이기 때문에, 음성 기반 립싱크 3D 얼굴 데이터 처리부는 이를 해결하기 위한 3D 얼굴 생성 프로세스를 처리할 수 있다.
보다 구체적으로, 도 8을 참조하면, 본 발명의 실시 예에 따른 음성 기반 립싱크 3D 얼굴 데이터 처리부는, 3D 메쉬 데이터를 학습데이터셋으로 활용해 음성과 3D 데이터 동기화 학습 수행할 수 있다. 이를 위해, 음성 기반 립싱크 3D 얼굴 데이터 처리부는, 3D template mesh를 입력하여 움직이는 mesh 출력할 수 있다.
그리고, 음성 기반 립싱크 3D 얼굴 데이터 처리부는, 임의의 neutral face mesh 데이터와, 오디오 정보를 기반으로, 립싱크 생성 모델을 구축할 수 있다.
또한, 음성 기반 립싱크 3D 얼굴 데이터 처리부는, audio encoder로 speech signal을 임베딩하여, 오디오 기반으로 하는 3D 얼굴 데이터 생성 처리를 수행할 수 있다.
이에 따라, 음성 기반 립싱크 3D 얼굴 데이터 처리부는, 2D 영상환경 뿐 아니라 3D 기반의 메타버스 환경에서도 다양하게 활용할 수 있는 아바타 스피치 서비스를 사용자 단말(200)로 제공할 수 있으며, 이는 고가의 모션캡쳐 장비가 없어도 3D 아바타의 표정을 컨트롤 할 수 있는 환경을 제공할 수 있다.
한편, 감정 분석 기반 표정 및 머리 움직임 제어부는, 음성 내 감정을 분석해 표정 변화와 머리 움직임이 가능한 얼굴영상 생성을 수행하고, 이에 기초한 아바타 스피치 서비스 정보를 구성하여 사용자 단말(200)로 제공할 수 있다.
감정 분석 기반 표정 및 머리 움직임 제어부는, 디지털 휴먼의 수요 증가로 다양한 활동 영역에 등장하고 있는 상황에서 더욱 자연스러운 디지털 휴먼에 대한 필요성에 의해 안출된 것으로, 디지털 휴먼의 음성과 고개를 자연스럽게 연출할 수 있는 기능을 제공할 수 있다.
종래기술의 디지털 휴먼은 기 학습된 영상데이터의 사람의 모습을 영상으로 생성하는 기술로 학습데이터를 기반으로 얼굴과 표정을 출력하는 바, 학습된 영상데이터 상에 포함된 뻣뻣한 자세와 녹화된 제스쳐만 출력되는 상황이며, 이에 따라 부자연스러움이 발생하고 사용성이 떨어진다는 한계가 발생하고 있다.
이에 따라, 도 9에 도시된 바와 같이, 본 발명의 실시 예에 따른 감정 분석 기반 표정 및 머리 움직임 제어부는, audio-to-animation generator 기술을 이용하여, 오디오와 얼굴로부터 mouth parameter, eyebrow parameter, head parameter를 추출하며, head pose를 예측하는 모듈을 구비하여, head motion 제어를 수행할 수 있다.
이에 따라, 감정 분석 기반 표정 및 머리 움직임 제어부는, 음성에 따른 자연스러운 head pose를 예측하고 생성하는 head motion의 제어를 처리한다.
특히, 감정 분석 기반 표정 및 머리 움직임 제어부는, 이미지이거나 head motion이 정적인 영상에 대하여도, 음성 신호에 따라 자연스러운 head motion을 생성한 아바타 스피치가 제작되도록 처리할 수 있으며, 이에 따른 다양한 서비스로의 확장이 가능하게 된다.
한편, 단기 음성 데이터 학습 처리부는, 단기(예를 들어, 10분 이내)의 음성데이터만로도 학습 가능한 음성생성 학습 처리를 수행한다.
통상적으로 AI 성우에 대한 수요가 높아짐에 따라 자신의 목소리를 AI 성우로 만들고자 하는 수요도 증가하고 있으나, 종래기술의 TTS 기술만으로는 단일화자의 8시간 내외의 음성데이터를 학습해야 자연스러운 AI 성우 모델이 완성되는 기술이어서, AI 성우를 개발하기 위해서는 고품질의 방대한 음성데이터가 필요해 기술 개발의 진입장벽이 발생한다.
이에 따라, 본 발명의 실시 예에 따른 단기 음성 데이터 학습 처리부는, 문자만 입력하면 음성이 출력되는 Text to speech(TTS) 기능을 위한 학습 데이터를 10분 이내의 적은 데이터로 학습 가능하도록 하는 단기 음성 데이터 학습 프로세스를 제공할 수 있다.
보다 구체적으로, 도 10을 참조하면, 본 발명의 실시 예에 따른 단기 음성 데이터 학습 처리부는, 10분 정도의 적은 단기 음성데이터만으로 학습이 가능한 음성합성 모델을 구축하기 위해, speaker encoder를 통해 오디오로부터 화자 정보를 추출해 End-to-end 딥러닝을 수행할 수 있다.
또한, 단기 음성 데이터 학습 처리부는, 대량의 데이터를 학습한 기존 basemodel을 활용하여, TTS 학습 효율화 시스템을 구축하며, 소량의 개인 화자데이터만으로도 model adaptation 을 일치시키는 모델을 구축할 수 있다.
이에 따라, 단기 음성 데이터 학습 처리부는, 적은 음성 데이터로 AI 성우를 개발할 수 있어, TTS 개인화 서비스가 가능하게 되며, AI 성우 기술의 비약적인 발전과 AI 성우 산업의 비약적인 확장을 가져올 수 있다.
한편, 학습 기반 감정 연출 음성 처리부는, 감정을 자유자재로 표현할 수 있는 음성생성 엔진을 인공지능 신경망 학습 기반으로 구축할 수 있다.
학습 기반 감정 연출 음성 처리부는, AI 성우에 대한 수요가 높아짐에 따라 다양한 감정을 표현하는 AI 성우를 사용하고자 하는 수요도 증가하여 안출된 것으로, 사용자 단말(200)로부터 문자가 입력되면 음성이 출력되는 Text to speech(TTS) 기능에 있어서, 다양한 감정들이 표현될 수 있도록 하는 감정 연출 처리를 수행한다.
종래기술의 경우 문자와 동기화 된 음성데이터를 학습하는 기술로서 일관된 음성 컨디션만을 학습하고 출력하기 때문에 다양한 음성 표현에 있어서 한계가 발생하는 문제점이 있다.
이에 따라, 도 11을 참조하면, 본 발명의 실시 예에 따른 학습 기반 감정 연출 음성 처리부는, Speech Emotion Recognition을 통해 음성의 감정을 분류한 데이터 학습 처리를 수행하며, 음성데이터의 감정 분류를 진행하고 분류된 음성의 특징을 인공지능이 학습하는 학습 프로세스를 수행하여, 학습 기반 감정 연출 음성 처리부 위한 학습 모델을 구축할 수 있다.
여기서, 학습 기반 감정 연출 음성 처리부는, 다양한 감정(기쁨, 슬픔, 화남 등)을 생성할 수 있는 모델을 구축할 수 있으며, 이는 분류된 감정데이터의 음성 특징을 학습하고 생성할 수 있는 모델로 구성될 수 있다.
이에 따라, 학습 기반 감정 연출 음성 처리부는, 감정 연출이 가능한 TTS 모델을 통해 드라마, 영화, 소설 오디오북 등 다양한 문화 컨텐츠에 사용 가능한 아바타 스피치 정보를 구성하여 사용자 단말(200)로 제공할 수 있다. 또한, 학습 기반 감정 연출 음성 처리부 구동에 따라 부자연스러운 AI 성우의 음성을 다양한 감정을 섞어 연출할 수 있어 AI 성우 산업의 확장을 기대할 수 있게 된다.
오디오북 제작 서비스부는, 오디오북 제작 서비스 제공을 자동화함에 따라, 오디오북 제작기간을 단축시킬 수 있다.
오디오북 제작 서비스부는, AI 성우의 기술력이 높아짐에 따라 빠른 시간 안에 다량의 오디오북을 만들고자 하는 수요도 증가하여 안출된 것으로, 기존의 TTS기술을 개선하여, 대량의 오디오북을 신속히 제작하는 서비스 기능을 제공한다.
예를 들어, 종래기술의 오디오북의 경우 사람인 성우가 대본을 낭독하는 방식으로 녹음하고 제작하며, 대본 낭독의 시간이 많이 소요되므로 제작기간이 길고 제작역량에 한계가 있다.
이를 극복하기 위해, 본 발명의 실시 예에 따른 오디오북 제작 서비스부는, AI 성우를 활용한 오디오북 제작 시스템을 구성하여, 대본 정보을 입력하면 AI 성우 음성이 파일로 즉시 출력하는 프로세스를 수행할 수 있다. 또한, 오디오북 제작 서비스부는, 사용자 단말(200)에서 다양한 감정연출 입력이 가능한 유저 인터페이스를 구성하여 사용자 단말(200)로 제공할 수 있다.
또한, 오디오북 제작 서비스부는, 감정과 화자를 적절하게 연출할 수 있는 AI 성우 학습 모델 및 시스템을 구성하고, 이에 기초한 자동화된 아바타 스피치 기반의 오디오북 제작 서비스를 사용자 단말(200)로 제공할 수 있다.
이에 따라, 오디오북의 대량 생산이 가능해지므로 기존 오디오북 시장의 확장을 기대할 수 있으며, AI 성우 기술의 도입으로 오디오북 제작환경을 획기적으로 개선할 수 있다.
한편, 화자 얼굴-음성 매칭 데이터 수집 자동화부는, 화자의 얼굴-음성 매칭 데이터를 수집, 가공함에 있어서, 인공지능 알고리즘 기반의 자동화 프로세스에 의한 STF 학습 데이터베이스를 효율적이고 신속하게 구축하게 한다.
종래기술의 경우 수작업으로 얼굴-음성 매칭 데이터 수집 및 가공함에 의한 시간과 비용이 과도하게 소요되는 문제점이 있다.
이에 따라, 도 12를 참조하면, 본 발명의 실시 예에 따른 화자 얼굴-음성 매칭 데이터 수집 자동화부는, 웹사이트의 영상을 수집하는 웹 크롤러인 영상 크롤링 엔진과, 수집된 영상의 비디오와 음성의 퀄리티를 평가(No-Reference Video Quality Assessments, No-Reference Audio Quality Assessments)하고 일정 기준을 넘는 경우만 저장하는 영상 퀄리티 평가 분석부와, 영상의 프레임 단위로 얼굴이 있는지 여부를 판단하는 딥러닝 기반의 얼굴 인식부와, 입력된 오디오에서 화자별로 오디오를 분리하는 딥러닝 기반의 화자 분리부와, 하나의 오디오를 화자별로 분리하는 딥러닝 모델을 사용하여 화자별 음성을 확보하는 음성 강화부와, 오디오와 얼굴이 있는 시간 구간을 매칭하는 시점 매칭부와, 영상에서 말하는 사람의 얼굴을 찾는 딥러닝 기반의 화자 식별부를 포함한다.
이에 따라, 화자 얼굴-음성 매칭 데이터 수집 자동화부는, 인공지능 알고리즘을 이용하여 데이터 수집 과정을 자동화하여 화자의 얼굴과 음성이 매칭된 데이터를 다량으로 빠르게 수집할 수 있게 된다.
한편, 감정 기반 텍스트-음성 매칭 데이터 수집 자동화부는, 감정 기반의 텍스트-음성 매칭 데이터를 수집, 가공하기 위한 인공지능 알고리즘 기반의 자동화 시스템을 구성한다.
종래기술의 경우 수작업으로 텍스트-음성 매칭 데이터 수집 및 가공함에 의한 시간과 비용이 과도하게 소요되는 문제점이 있다.
이에 따라, 도 13을 참조하면, 본 발명의 실시 예에 따른 감정 기반 텍스트-음성 매칭 데이터 수집 자동화부는, 웹 크롤러로 오디오를 자동으로 크롤링하여 데이터를 확보하는 오디오 크롤링 엔진과, No-Reference Audio Quality Assessments을 통해 고음질 오디오만 확보하는 오디오 평가 알고리즘 처리부와, 하나의 오디오를 화자별로 분리하는 딥러닝 모델을 사용하여 화자별 음성을 확보하는 Speaker Diarization 엔진 처리부와, 노이즈가 포함된 음성 신호에서 노이즈는 제거하고 음성은 보존하는 Speech enhancement 처리부와, 음성을 텍스트로 변환해주는 딥러닝 모델 사용하여 음성에 맞는 텍스트를 라벨링한 데이터를 확보하는 Speech To Text 처리부와, 오디오의 감정을 분류하는 Speech Emotion Recognition 처리부와, 화자를 인식하되, 기존 데이터에 없는 화자일 경우 화자 정보를 추가하고, 있는 경우 해당 화자 id로 저장하는 Speaker identification 처리부를 포함한다.
본 발명의 실시 예에 따른 감정 기반 텍스트-음성 매칭 데이터 수집 자동화부의 구동에 따라, 인공지능 알고리즘을 이용하여 데이터 수집 과정을 자동화하여 화자의 얼굴과 음성이 매칭된 데이터를 다량으로 빠르게 수집할 수 있는 장점이 있다.
상술한 본 발명에 따른 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있다.
컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상기 방법을 구현하기 위한 기능적인(function) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.
Claims (6)
- 아바타 스피치 서비스 제공 장치의 동작 방법에 있어서,
하나 이상의 영상 플랫폼 서버로부터 영상 정보를 수집하는 단계;
상기 영상 정보로부터 화자별 음성 추출 및 얼굴 영상 추출을 수행하여 시간 동기화 정보를 부여하는 단계;
상기 화자별 음성 추출 및 얼굴 영상 추출 결과와 상기 시간 동기화 정보에 기초하여, 음성과 텍스트가 매칭된 음성-텍스트 매칭 정보를 구성하고, 화자의 얼굴과 음성이 매칭된 얼굴-음성 매칭 정보를 구성하는 단계;
상기 음성-텍스트 매칭 정보에 기초한 인공지능 신경망 학습 기반의 아바타 스피치 서비스용 TTS 학습 모델과, 상기 얼굴-음성 매칭 정보에 기초한 인공지능 신경망 학습 기반의 아바타 스피치 서비스용 STF 학습 모델을 각각 구축하는 단계; 및
상기 TTS 학습 모델 및 상기 STF 학습 모델을 이용한 아바타 스피치 서비스 정보를 구성하여, 사용자 단말로 제공하는 단계를 포함하는
아바타 스피치 서비스 제공 장치의 동작 방법. - 제1항에 있어서,
상기 시간 동기화 정보를 부여하는 단계는,
상기 수집된 영상 정보로부터, 하나의 오디오를 화자별로 분리하는 딥러닝 모델을 사용하여 화자별 음성 데이터를 획득하는 단계를 포함하는
아바타 스피치 서비스 제공 장치의 동작 방법. - 제1항에 있어서,
상기 시간 동기화 정보를 부여하는 단계는,
상기 수집된 영상 정보로부터, 얼굴이 있는지 여부를 판별하는 딥러닝 모델을 사용하여 얼굴이 있는 부분을 추출하는 단계를 포함하는
아바타 스피치 서비스 제공 장치의 동작 방법. - 제1항에 있어서,
상기 시간 동기화 정보를 부여하는 단계는,
상기 수집된 영상 정보로부터, 한 시점에 말하는 화자를 판별하는 딥러닝 모델을 사용하여 오디오에 맞는 화자의 영상 부분을 획득하는 단계를 포함하는
아바타 스피치 서비스 제공 장치의 동작 방법. - 아바타 스피치 서비스 제공 장치에 있어서,
하나 이상의 영상 플랫폼 서버로부터 영상 정보를 수집하는 수집부;
상기 영상 정보로부터 화자별 음성 추출 및 얼굴 영상 추출을 수행하여 시간 동기화 정보를 부여하는 추출부;
상기 화자별 음성 추출 및 얼굴 영상 추출 결과와 상기 시간 동기화 정보에 기초하여, 음성과 텍스트가 매칭된 음성-텍스트 매칭 정보를 구성하고, 화자의 얼굴과 음성이 매칭된 얼굴-음성 매칭 정보를 구성하며, 상기 음성-텍스트 매칭 정보에 기초한 인공지능 신경망 학습 기반의 아바타 스피치 서비스용 TTS 학습 모델과, 상기 얼굴-음성 매칭 정보에 기초한 인공지능 신경망 학습 기반의 아바타 스피치 서비스용 STF 학습 모델을 각각 구축하는 모델 처리부; 및
상기 TTS 학습 모델 및 상기 STF 학습 모델을 이용한 아바타 스피치 서비스 정보를 구성하여, 사용자 단말로 제공하는 서비스 제공부를 포함하는
아바타 스피치 서비스 제공 장치. - 제5항에 있어서,
상기 서비스 제공부는,
다국어 글로벌 영상 커뮤니케이션 서비스부, 문자 입력 기반 실시간 AI 아바타 생성부, 고화질 데이터 처리 기반 립싱크 영상 생성부, 비학습 인물 대응 AI 아바타 생성부, 음성 내 감정 분석 기반 얼굴영상 구성부, 음성의 입 모양 동기화 기반 립싱크 영상 처리부, 음성 기반 립싱크 3D 얼굴 데이터 처리부, 감정 분석 기반 표정 및 머리 움직임 제어부, 단기 음성 데이터 학습 처리부, 학습 기반 감정 연출 음성 처리부, 오디오북 제작 서비스부, 화자 얼굴-음성 매칭 데이터 수집 자동화부, 감정 기반 텍스트-음성 매칭 데이터 수집 자동화부 중 적어도 하나의 동작에 따른 아바타 스피치 서비스 정보를 구성하여, 상기 사용자 단말로 제공하는
아바타 스피치 서비스 제공 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220050485A KR20230151155A (ko) | 2022-04-25 | 2022-04-25 | 아바타 스피치 서비스 제공 장치 및 그 동작 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220050485A KR20230151155A (ko) | 2022-04-25 | 2022-04-25 | 아바타 스피치 서비스 제공 장치 및 그 동작 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230151155A true KR20230151155A (ko) | 2023-11-01 |
Family
ID=88746540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220050485A KR20230151155A (ko) | 2022-04-25 | 2022-04-25 | 아바타 스피치 서비스 제공 장치 및 그 동작 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20230151155A (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117635383A (zh) * | 2023-11-30 | 2024-03-01 | 新励成教育科技股份有限公司 | 一种虚拟导师与多人协作口才培训系统、方法及设备 |
-
2022
- 2022-04-25 KR KR1020220050485A patent/KR20230151155A/ko unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117635383A (zh) * | 2023-11-30 | 2024-03-01 | 新励成教育科技股份有限公司 | 一种虚拟导师与多人协作口才培训系统、方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110688911B (zh) | 视频处理方法、装置、系统、终端设备及存储介质 | |
US20230316643A1 (en) | Virtual role-based multimodal interaction method, apparatus and system, storage medium, and terminal | |
CN109859736B (zh) | 语音合成方法及系统 | |
CN114401438B (zh) | 虚拟数字人的视频生成方法及装置、存储介质、终端 | |
CN112184858B (zh) | 基于文本的虚拟对象动画生成方法及装置、存储介质、终端 | |
US20240070397A1 (en) | Human-computer interaction method, apparatus and system, electronic device and computer medium | |
KR20230151162A (ko) | 음성 내 감정 분석 기반 립싱크 아바타 얼굴 생성장치 및 방법 | |
CN110880198A (zh) | 动画生成方法和装置 | |
CN110599999A (zh) | 数据交互方法、装置和机器人 | |
CN114495927A (zh) | 多模态交互的虚拟数字人的生成方法及装置、存储介质、终端 | |
CN111401101A (zh) | 基于人像的视频生成系统 | |
CN114121006A (zh) | 虚拟角色的形象输出方法、装置、设备以及存储介质 | |
JP2020181022A (ja) | 会議支援装置、会議支援システム、および会議支援プログラム | |
CN113178200A (zh) | 语音转换方法、装置、服务器及存储介质 | |
Oghbaie et al. | Advances and challenges in deep lip reading | |
CN115376482A (zh) | 面部动作视频生成方法及装置、可读介质和电子设备 | |
KR20230151155A (ko) | 아바타 스피치 서비스 제공 장치 및 그 동작 방법 | |
KR20230151157A (ko) | 인공지능 신경망 학습 기반 tts 및 stf 기술을 이용한 아바타 스피치 서비스 제공 장치의 동작 방법 | |
CN117809680A (zh) | 一种服务器、显示设备及数字人交互方法 | |
CN117115310A (zh) | 一种基于音频和图像的数字人脸生成方法及系统 | |
KR20230151156A (ko) | 화자별 음성 및 얼굴 영상에 동기되는 아바타 스피치 서비스 제공 장치 | |
KR20230151160A (ko) | 고화질 데이터 처리 기반 립싱크 영상 생성 장치 | |
KR20230151159A (ko) | 다국어 글로벌 영상 커뮤니케이션 아바타 스피치 서비스 제공 방법 및 장치 | |
KR20230151164A (ko) | 아바타 스피치 기반 오디오북 제작 방법 및 장치 | |
KR20230151161A (ko) | 비학습 인물 대응 ai 아바타 스피치 서비스 제공장치 |