KR20190085879A - 다중 언어 텍스트-음성 합성 방법 - Google Patents

다중 언어 텍스트-음성 합성 방법 Download PDF

Info

Publication number
KR20190085879A
KR20190085879A KR1020190003979A KR20190003979A KR20190085879A KR 20190085879 A KR20190085879 A KR 20190085879A KR 1020190003979 A KR1020190003979 A KR 1020190003979A KR 20190003979 A KR20190003979 A KR 20190003979A KR 20190085879 A KR20190085879 A KR 20190085879A
Authority
KR
South Korea
Prior art keywords
language
speech
text
data
learning
Prior art date
Application number
KR1020190003979A
Other languages
English (en)
Other versions
KR102199067B1 (ko
Inventor
김태수
이영근
Original Assignee
네오사피엔스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네오사피엔스 주식회사 filed Critical 네오사피엔스 주식회사
Priority to PCT/KR2019/000509 priority Critical patent/WO2019139428A1/ko
Priority to JP2020538690A priority patent/JP7142333B2/ja
Publication of KR20190085879A publication Critical patent/KR20190085879A/ko
Priority to US16/682,390 priority patent/US11217224B2/en
Application granted granted Critical
Publication of KR102199067B1 publication Critical patent/KR102199067B1/ko
Priority to US17/533,459 priority patent/US11769483B2/en
Priority to JP2022121111A priority patent/JP7500020B2/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G06F17/289
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

본 개시는 다중 언어(multilingual) 텍스트-음성 합성(text-to-speech synthesis) 방법 및 시스템을 개시한다. 다중 언어 텍스트-음성 합성 방법은 제1 언어의 학습 텍스트 및 제1 언어의 학습 텍스트에 대응되는 제1 언어의 학습 음성 데이터를 포함하는 제1 학습 데이터를 수신하는 단계, 제2 언어의 학습 텍스트 및 제2 언어의 학습 텍스트에 대응되는 제2 언어의 학습 음성 데이터를 포함하는 제2 학습 데이터를 수신하는 단계, 및 제1 학습 데이터 및 제2 학습 데이터에 기초하여, 제1 언어의 음소 및 제2 언어의 음소 사이의 유사성 정보를 학습하여 단일 인공 신경망 텍스트-음성 합성(text-to-speech synthesis) 모델을 생성하는 단계를 포함한다.

Description

다중 언어 텍스트-음성 합성 방법{METHOD OF MULTILINGUAL TEXT-TO-SPEECH SYNTHESIS}
본 개시는 다중 언어(multilingual) 텍스트-음성 합성(text-to-speech synthesis) 방법 및 시스템에 관한 것이다. 또한 제1 언어를 사용하는 화자의 목소리 특성에 기초하여 제2 언어의 텍스트를 해당 화자의 음성으로 합성하는 방법 및 장치에 관한 것이다.
일반적으로 텍스트-음성 합성(TTS; Text-To-Speech)이라고 불리는 음성 합성 기술은 안내방송, 네비게이션, 인공지능 비서 등과 같이 사람의 음성이 필요한 어플리케이션에서 실제 사람의 음성을 사전에 녹음해 두지 않고 필요한 음성을 재생하기 위해 사용되는 기술이다. 음성 합성의 전형적인 방법은, 음성을 음소 등 아주 짧은 단위로 미리 잘라서 저장해두고, 합성할 문장을 구성하는 음소들을 결합하여 음성을 합성하는 연결 합성 방식(concatenative TTS) 와, 음성의 특징을 파라미터로 표현하고 합성할 문장을 구성하는 음성 특징들을 나타내는 파라미터들을 보코더(vocoder)를 이용해 문장에 대응하는 음성으로 합성하는 매개 변수 합성 방식(parametric TTS)이 있다.
한편, 최근에는 인공 신경망(artificial neural network) 기반의 음성 합성 방법이 활발히 연구되고 있으며, 이 음성 합성 방법에 따라 합성된 음성은, 기존의 방법에 비해 훨씬 자연스러운 음성 특징을 보여주고 있다. 하지만, 인공 신경망 기반의 음성 합성 방법으로 새로운 목소리의 음성 합성기를 구현하기 위해서는 그 목소리에 해당하는 많은 데이터가 필요하고, 이 데이터를 이용한 신경망 모델의 재학습이 요구되어 사용자 편의성이 떨어진다.
본 개시에 따른 방법 및 장치는 복수의 언어에 대한 입력 텍스트(text input)와 출력 음성(audio output)만으로 엔드 투 엔드(end-to-end)로 다언어 TTS 기계학습 모델을 생성하는 것이 가능하다.  또한, 본 개시에 따른 방법 및 장치는 화자의 발성 특징, 감정 특징, 운율 특징을 반영하여 텍스트로부터 음성을 합성할 수 있다.
본 개시의 일 실시예에 따른 다중 언어(multilingual) 텍스트-음성 합성(text-to-speech synthesis) 방법은, 제1 언어의 학습 텍스트 및 제1 언어의 학습 텍스트에 대응되는 제1 언어의 학습 음성 데이터를 포함하는 제1 학습 데이터를 수신하는 단계, 제2 언어의 학습 텍스트 및 제2 언어의 학습 텍스트에 대응되는 제2 언어의 학습 음성 데이터를 포함하는 제2 학습 데이터를 수신하는 단계, 및 제1 학습 데이터 및 제2 학습 데이터에 기초하여, 제1 언어의 음소 및 제2 언어의 음소 사이의 유사성 정보를 학습하여 단일 인공 신경망 텍스트-음성 합성(text-to-speech synthesis) 모델을 생성하는 단계를 포함한다.
본 개시의 일 실시예에 따른 다중 언어 텍스트-음성 합성 방법은, 제1 언어에 대한 화자의 발성 특징을 수신하는 단계, 제2 언어의 입력 텍스트를 수신하는 단계, 제2 언어의 입력 텍스트 및 제1 언어에 대한 화자의 발성 특징을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 화자의 음성을 모사하는 제2 언어의 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 더 포함한다.
본 개시의 일 실시예에 따른 다중 언어 텍스트-음성 합성 방법의 제1 언어에 대한 화자의 발성 특징은 화자가 제1 언어로 발화한 음성 데이터로부터 특징 벡터를 추출하여 생성된다.
본 개시의 일 실시예에 따른 다중 언어 텍스트-음성 합성 방법은, 감정 특징(emotion feature)을 수신하는 단계, 및 제2 언어의 입력 텍스트, 제1 언어에 대한 화자의발성 특징 및 감정 특징을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 화자의 음성을 모사하는 제2 언어의 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 더 포함한다.
본 개시의 일 실시예에 따른 다중 언어 텍스트-음성 합성 방법은, 운율 특징(prosody feature)을 수신하는 단계, 및 제2 언어의 입력 텍스트, 제1 언어에 대한 화자의 발성 특징 및 운율 특징을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 화자의 음성을 모사하는 제2 언어의 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 더 포함한다.
본 개시의 일 실시예에 따른 다중 언어 텍스트-음성 합성 방법의 운율 특징은 발화 속도에 대한 정보, 발음 강세에 대한 정보, 음 높이에 대한 정보 및 휴지 구간에 대한 정보 중 적어도 하나를 포함한다.
본 개시의 일 실시예에 따른 다중 언어 텍스트-음성 합성 방법은, 제1 언어의 입력 음성을 수신하는 단계, 제1 언어의 입력 음성으로부터 특징 벡터를 추출하여 제1 언어에 대한 화자의 발성 특징을 생성하는 단계, 제1 언어의 입력 음성을 제1 언어의 입력 텍스트로 변환하는 단계, 제1 언어의 입력 텍스트를 제2 언어의 입력 텍스트로 변환하는 단계, 및 제2 언어의 입력 텍스트 및 제1 언어에 대한 화자의 발성 특징을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 화자의 음성을 모사하는 제2 언어의 입력 텍스트에 대한 제2 언어의 출력 음성 데이터를 생성하는 단계를 더 포함한다.
본 개시의 일 실시예에 따른 다중 언어 텍스트-음성 합성 방법은, G2P(Grapheme-to-phoneme) 알고리즘을 사용하여 제1 언어의 학습 텍스트 및 제2 언어의 학습 텍스트를 음소 시퀀스(phoneme sequence)로 변환한다.
본 개시의 일 실시예에 따른 다중 언어 텍스트-음성 합성 방법의 단일 인공 신경망 텍스트-음성 합성 모델은 제1 언어의 음소 및 제2 언어의 음소 사이의 발음 및 표기 중 적어도 하나에 대한 유사성 정보의 입력 없이 생성된다.
또한, 상술한 바와 같은 다중 언어 텍스트-음성 합성 방법을 구현하기 위한 프로그램은 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다.
도 1은 복수의 언어에 대해서 학습된 단일 인공 신경망 텍스트-음성 합성 모델을 이용하여 음성 합성기가 영어 음성을 합성하는 것을 나타내는 도면이다.
도 2는 복수의 언어에 대해서 학습된 단일 인공 신경망 텍스트-음성 합성 모델을 이용하여 음성 합성기가 한국어 음성을 합성하는 것을 나타내는 도면이다.
도 3은 본 개시의 일 실시예에 따른 단일 인공 신경망 텍스트-음성 합성 모델을 생성하는 방법을 나타내는 흐름도이다.
도 4는 본 개시의 일 실시예에 따른 기계학습부를 나타내는 도면이다.
도 5는 본 개시의 일 실시예에 따른 음성 합성기가 제1 언어에 대한 화자의 발성 특징 및 제2 언어의 입력 텍스트에 기초하여 출력 음성 데이터를 합성하는 것을 나타내는 도면이다.
도 6은 본 개시의 일 실시예에 따른 음성 합성기가 제1 언어에 대한 화자의 발성 특징, 제2 언어의 입력 텍스트 및 감정 특징에 기초하여 출력 음성 데이터를 생성하는 것을 나타내는 도면이다.
도 7은 본 개시의 일 실시예에 따른 음성 합성기가 제1 언어에 대한 화자의 발성 특징, 제2 언어의 입력 텍스트 및 운율 특징(prosody feature)에 기초하여 출력 음성 데이터를 생성하는 것을 나타내는 도면이다.
도 8은 본 개시의 일 실시예에 따른 음성 번역 시스템의 구성을 나타내는 도면이다.
도 9는 본 개시의 일 실시예에 따른 운율 번역기의 구성을 나타내는 도면이다.
도 10은 본 개시의 일 실시예에 따른 다중 언어 텍스트-음성 합성기의 구성을 나타내는 도면이다.
도 11은 IPA(International Phonetic Alphabet)와 KoG2P 음소의 대응관계 및 영어와 한국어의 공통된 발음을 가지는 음소의 대응관계를 나타낸다.
도 12는 한국어 음소와 가장 유사한 영어 음소를 나타낸 표를 나타낸다.
도 13 은 영어 음소로 생성된 음성과 한국어 음소로 생성된 음성의 유사성을 나타내는 스펙트로그램이다.
도 14는 TTS 기계학습 모델을 학습하는데 사용된 영어 데이터의 시간 변화에 따른 character error rate(CER)를 나타내는 표다.
도 15는 본 개시의 일 실시예에 따른 텍스트-음성 합성 시스템의 블록도이다.
개시된 실시예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 개시가 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시예에 대해 구체적으로 설명하기로 한다.
본 명세서에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 명세서에서의 단수의 표현은 문맥상 명백하게 단수인 것으로 특정하지 않는 한, 복수의 표현을 포함한다. 또한 복수의 표현은 문맥상 명백하게 복수인 것으로 특정하지 않는 한, 단수의 표현을 포함한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.
또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어 또는 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.
본 개시의 일 실시예에 따르면 "부"는 프로세서 및 메모리로 구현될 수 있다. 용어 "프로세서" 는 범용 프로세서, 중앙 처리 장치 (CPU), 마이크로프로세서, 디지털 신호 프로세서 (DSP), 제어기, 마이크로제어기, 상태 머신 등을 포함하도록 넓게 해석되어야 한다. 몇몇 환경에서는, "프로세서" 는 주문형 반도체 (ASIC), 프로그램가능 로직 디바이스 (PLD), 필드 프로그램가능 게이트 어레이 (FPGA) 등을 지칭할 수도 있다. 용어 "프로세서" 는, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들의 조합, DSP 코어와 결합한 하나 이상의 마이크로프로세서들의 조합, 또는 임의의 다른 그러한 구성들의 조합과 같은 처리 디바이스들의 조합을 지칭할 수도 있다.
용어 "메모리" 는 전자 정보를 저장 가능한 임의의 전자 컴포넌트를 포함하도록 넓게 해석되어야 한다. 용어 메모리는 임의 액세스 메모리 (RAM), 판독-전용 메모리 (ROM), 비-휘발성 임의 액세스 메모리 (NVRAM), 프로그램가능 판독-전용 메모리 (PROM), 소거-프로그램가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능 PROM (EEPROM), 플래쉬 메모리, 자기 또는 광학 데이터 저장장치, 레지스터들 등과 같은 프로세서-판독가능 매체의 다양한 유형들을 지칭할 수도 있다. 프로세서가 메모리로부터 정보를 판독하고/하거나 메모리에 정보를 기록할 수 있다면 메모리는 프로세서와 전자 통신 상태에 있다고 불린다. 프로세서에 집적된 메모리는 프로세서와 전자 통신 상태에 있다.
본 개시에 있어서 “제1 언어”는 한국어, 일본어, 중국어, 영어 등 다양한 국가 또는 민족이 사용하는 다양한 언어 중의 하나를 지칭할 수 있고, “제2 언어”는 제1 언어와 다른 국가 또는 민족이 사용하는 언어 중의 하나를 지칭할 수 있다.
아래에서는 첨부한 도면을 참고하여 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.
도 1은 복수의 언어에 대해서 학습된 단일 인공 신경망 텍스트-음성 합성 모델을 이용하여 음성 합성기(110)가 영어 음성을 합성하는 것을 나타내는 도면이다. 도시된 예에서 단일 인공 신경망 텍스트-음성 합성 모델은 한국어와 영어 데이터를 함께 학습한 것일 수 있다. 음성 합성기(110)는 영어 텍스트와 한국인 화자의 발성 특징을 수신할 수 있다. 예를 들어 영어 텍스트는 "Hello?"일 수 있으며, 한국인 화자의 발성 특징은 한국인 화자가 한국어로 발화한 음성 데이터로부터 추출된 특징 벡터일 수 있다.
음성 합성기(110)는 수신한 영어 텍스트와 한국인 화자의 발성 특징을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여 해당 한국인 화자의 음성을 모사하여, 영어로 "Hello?"를 말하는 음성을 합성하고 출력할 수 있다. 즉, 음성 합성기(110)가 출력한 음성은 해당 한국인 화자가 "Hello?"를 영어로 발음하는 음성일 수 있다.
도 2는 복수의 언어에 대해서 학습된 단일 인공 신경망 텍스트-음성 합성 모델을 이용하여 음성 합성기(210)가 한국어 음성을 합성하는 것을 나타내는 도면이다. 도시된 예에서 단일 인공 신경망 텍스트-음성 합성 모델은 한국어와 영어 데이터를 함께 학습한 것일 수 있다. 음성 합성기(210)는 한국어 텍스트와 미국인 화자의 발성 특징을 수신할 수 있다. 예를 들어 한국어 텍스트는 "안녕하세요?"일 수 있으며, 미국인 화자의 발성 특징은 미국인 화자가 영어로 발화한 음성 데이터로부터 추출된 특징 벡터일 수 있다.
음성 합성기(210)는 수신한 한국어 텍스트와 미국인 화자의 발성 특징을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여 해당 미국인 화자의 음성을 모사하여, 한국어로 "안녕하세요?"를 말하는 음성을 합성하고 출력할 수 있다. 즉, 음성 합성기(210)가 출력한 음성은 해당 미국인 화자가 "안녕하세요?"를 한국어로 발음하는 음성일 수 있다.
도 3은 본 개시의 일 실시예에 따른 단일 인공 신경망 텍스트-음성 합성 모델을 생성하는 방법을 나타내는 흐름도이다. 다중 언어(multilingual) 텍스트-음성 합성(text-to-speech synthesis) 시스템은 제1 언어의 학습 텍스트 및 제1 언어의 학습 텍스트에 대응되는 제1 언어의 학습 음성 데이터를 포함하는 제1 학습 데이터를 수신하는 단계(310)를 수행할 수 있다. 다중 언어 텍스트-음성 합성 시스템은 제2 언어의 학습 텍스트 및 제2 언어의 학습 텍스트에 대응되는 제2 언어의 학습 음성 데이터를 포함하는 제2 학습 데이터를 수신하는 단계(320)를 수행할 수 있다.
다중 언어 텍스트-음성 합성 시스템은 제1 학습 데이터 및 제2 학습 데이터에 기초하여, 제1 언어의 음소 및 제2 언어의 음소 사이의 유사성 정보를 학습하여 단일 인공 신경망 텍스트-음성 합성(text-to-speech synthesis) 모델을 생성하는 단계(330)를 수행할 수 있다. 단일 인공 신경망 텍스트-음성 합성 모델 생성 방법에 대해서는 도 4에서 보다 자세히 설명한다.
도 4는 본 개시의 일 실시예에 따른 기계학습부(420)를 나타내는 도면이다. 기계학습부(420)는 도 15의 데이터 학습부(1510)에 대응될 수 있다. 기계학습부(420)는 복수의 제1 언어의 학습 데이터의 쌍(411)을 수신할 수 있다. 제1 언어의 학습 데이터의 쌍(411)은 제1 언어의 학습 텍스트 및 해당 제1 언어의 학습 텍스트에 대응되는 제1 언어의 학습 음성 데이터를 포함할 수 있다.
제1 언어의 학습 텍스트는 적어도 하나의 글자를 포함할 수 있으며, 기계학습부(420)가 G2P(Grapheme-to-phoneme) 알고리즘을 사용하여 음소 시퀀스(phoneme sequence)로 변환할 수 있다. 제1 언어의 학습 음성 데이터는 제1 언어의 학습 텍스트를 사람이 읽은 음성을 녹음한 데이터, 녹음 데이터로부터 추출된 사운드 피처(sound feature)나 스펙트로그램(spectrogram) 등일 수 있다. 제1 학습 데이터는 제1 언어에 대한 언어 식별자 또는 언어 정보를 포함하지 않을 수 있다.
기계학습부(420)는 복수의 제2 언어의 학습 데이터의 쌍(412)을 수신할 수 있다. 제2 언어의 학습 데이터의 쌍(412)은 제2 언어의 학습 텍스트 및 해당 제2 언어의 학습 텍스트에 대응되는 제2 언어의 학습 음성 데이터를 포함할 수 있다. 제1 언어와 제2 언어는 서로 다른 언어일 수 있다.
제2 언어의 학습 텍스트는 적어도 하나의 글자를 포함할 수 있으며, 기계학습부(420)가 G2P(Grapheme-to-phoneme) 알고리즘을 사용하여 음소 시퀀스(phoneme sequence)로 변환할 수 있다. 제2 언어의 학습 음성 데이터는 제2 언어의 학습 텍스트를 사람이 읽은 음성을 녹음한 데이터, 녹음 데이터로부터 추출된 사운드 피처(sound feature)나 스펙트로그램(spectrogram) 등일 수 있다. 제2 학습 데이터는 제2 언어에 대한 언어 식별자 또는 언어 정보를 포함하지 않을 수 있다.
기계학습부(420)는 수신된 복수의 제1 언어의 학습 데이터의 쌍(411) 및 복수의 제2 언어의 학습 데이터의 쌍(412)에 기초하여 기계학습을 수행하여, 단일 인공 신경망 텍스트-음성 합성 모델(430)을 생성할 수 있다. 일 실시예에서, 기계학습부(420)는 제1 언어 및 제2 언어에 대한 사전 정보 없이, 제1 언어의 음소 및 제2 언어의 음소 사이의 유사성 정보를 학습하여 단일 인공 신경망 텍스트-음성 합성 모델(430)을 생성할 수 있다. 예를 들어, 기계학습부(420)는 제1 언어에 대한 언어 식별자, 제2 언어에 대한 언어 식별자, 제1 언어의 음소 및 제2 언어의 음소 사이의 발음에 대한 유사성 정보, 제1 언어의 음소 및 제2 언어의 음소 사이의 표기에 대한 유사성 정보를 수신하지 않고, 복수의 제1 언어의 학습 데이터의 쌍(411) 및 복수의 제2 언어의 학습 데이터의 쌍(412)에 기초하여 제1 언어의 음소 및 제2 언어의 음소 사이의 유사성 정보를 학습함으로써, 단일 인공 신경망 텍스트-음성 합성 모델을 생성할 수 있다.
여기서, 언어 식별자는 한국어, 일본어, 중국어, 영어 등 다양한 국가 또는 민족이 사용하는 다양한 언어 중의 하나를 나타내는 식별자일 수 있다. 또한, 발음에 대한 유사성 정보는 언어 간에 유사한 발음을 가지는 음소를 대응시킨 정보일 수 있으며, 표기에 대한 유사성 정보는 언어간 유사한 표기를 가지는 음소를 대응시킨 정보일 수 있다. 유사성 정보는 도 11 및 도 12를 참조하여 보다 자세히 설명된다.
종래에는 각각의 언어는 서로 다른 발음 및 표기를 가지므로, 각 언어별로 학습 데이터를 준비하여 언어별 기계 학습 모델을 생성하거나, 학습하는 언어들 사이의 유사성 정보를 사전에 준비하고 이를 학습 데이터와 함께 입력함으로써 단일 기계 학습 모델을 생성하였다. 본 개시의 일 실시예에 따르면, 학습하는 언어들 사이의 유사성 정보 없이, 하나의 기계 학습 모델로 다언어(Multi-language) 텍스트-음성 합성(text-to-speech synthesis) 모델을 구현할 수 있다. 도 4에는 2개의 언어에 대해서 학습 데이터를 수신하여 단일 인공 신경망 텍스트-음성 합성 모델을 생성하는 것으로 도시되어 있으나, 이에 한정되지 않으며, 3개 이상의 언어에 대해서도 학습 데이터를 수신하여 3개 이상의 언어에 대한 단일 인공 신경망 텍스트-음성 합성 모델을 생성할 수도 있다.
일 실시예에서, 기계학습부(420)에 의해 생성된 단일 인공 신경망 텍스트-음성 합성 모델(430)을 이용해서 텍스트를 음성으로 합성하고 출력할 수 있다. 단일 인공 신경망 텍스트-음성 합성 모델(430)을 이용하여 텍스트를 음성으로 합성하고 출력하는 방법에 대해서는 도 5 내지 도 7을 참조하여 보다 상세히 설명한다.
도 5는 본 개시의 일 실시예에 따른 음성 합성기(520)가 제1 언어에 대한 화자의 발성 특징(511) 및 제2 언어의 입력 텍스트(512)에 기초하여 출력 음성 데이터(530)를 합성하는 것을 나타내는 도면이다. 음성 합성기(520)는 도 15의 데이터 인식부(1520)에 대응될 수 있다. 음성 합성기(520)는 도 4의 기계학습부(420)에 의해 생성된 단일 인공 신경망 텍스트-음성 합성 모델을 수신하여 출력 음성 데이터를 합성하는데 사용할 수 있다. 도시된 것과 같이, 음성 합성기(520)는 제1 언어에 대한 화자의 발성 특징(511) 및 제2 언어의 입력 텍스트(512)를 수신할 수 있다.
제1 언어에 대한 화자의 발성 특징(511)은 화자가 제1 언어로 발화한 음성 데이터로부터 특징 벡터를 추출하여 생성될 수 있다. 예를 들어, 화자의 발성 특징은 화자의 음색 또는 음 높이 등을 포함할 수 있다. 제2 언어의 입력 텍스트(512)는 제2 언어로 되어있는 적어도 하나의 글자를 포함할 수 있다.
음성 합성기(520)는 제1 언어에 대한 화자의 발성 특징(511) 및 제2 언어의 입력 텍스트(512)를 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여 출력 음성 데이터(530)를 생성할 수 있다. 출력 음성 데이터(530)는 제2 언어의 입력 텍스트(512)를 음성으로 합성한 음성 데이터일 수 있으며, 제1 언어에 대한 화자의 발성 특징(511)이 반영되어 있을 수 있다. 즉, 출력 음성 데이터(530)는 제1 언에 대한 화자의 발성 특징(511)에 기초하여 해당 화자의 음성을 모사함으로써, 해당 화자가 제2 언어의 입력 텍스트(512)를 말하는 음성으로 합성된 데이터일 수 있다. 일 실시예에서, 출력 음성 데이터(530)는 스피커 등으로 출력될 수 있다.
도 6은 본 개시의 일 실시예에 따른 음성 합성기(620)가 제1 언어에 대한 화자의 발성 특징(611), 제2 언어의 입력 텍스트(612) 및 감정 특징(613)에 기초하여 출력 음성 데이터(630)를 생성하는 것을 나타내는 도면이다. 음성 합성기(620)는 도 15의 데이터 인식부(1520)에 대응될 수 있다. 음성 합성기(620)는 도 4의 기계학습부(420)에 의해 생성된 단일 인공 신경망 텍스트-음성 합성 모델을 수신하여 출력 음성 데이터(630)를 합성하는데 사용할 수 있다. 도시된 것과 같이, 음성 합성기(620)는 제1 언어에 대한 화자의 발성 특징(611), 제2 언어의 입력 텍스트(612) 및 감정 특징(613)을 수신할 수 있다. 제1 언어에 대한 화자의 발성 특징 및 제2 언어의 입력 텍스트에 대해서는 도 5를 참조하여 설명하였으므로, 중복되는 설명은 생략한다.
일 실시예에서, 감정 특징(613)은 기쁨, 슬픔, 분노, 공포, 신뢰, 혐오, 놀람, 기대 중 적어도 하나를 나타낼 수 있다. 다른 실시예에서, 감정 특징(613)은 음성 데이터로부터 특징 벡터를 추출하여 생성될 수 있다. 음성 합성기(620)는 제1 언어에 대한 화자의 발성 특징(611), 제2 언어의 입력 텍스트(612) 및 감정 특징(613)을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여 출력 음성 데이터(630)를 생성할 수 있다.
출력 음성 데이터(630)는 제2 언어의 입력 텍스트(612)를 음성으로 합성한 음성 데이터일 수 있으며, 제1 언어에 대한 화자의 발성 특징(611) 및 감정 특징(613)이 반영되어 있을 수 있다. 즉, 출력 음성 데이터(630)는 제1 언어에 대한 화자의 발성 특징(611)에 기초하여 해당 화자의 음성을 모사하고, 감정 특징(613)을 반영함으로써, 해당 화자가 입력된 감정 특징(613)으로 제2 언어의 입력 텍스트(612)를 말하는 음성으로 합성된 데이터일 수 있다. 예를 들어, 감정 특징(613)이 분노를 나타내는 경우, 음성 합성기(620)는 해당 화자가 제2 언어의 입력 텍스트(612)를 분노한 듯이 말하는 출력 음성 데이터(630)를 생성할 수 있다. 일 실시예에서, 출력 음성 데이터(630)는 스피커 등으로 출력될 수 있다.
도 7은 본 개시의 일 실시예에 따른 음성 합성기(720)가 제1 언어에 대한 화자의 발성 특징(711), 제2 언어의 입력 텍스트(712) 및 운율 특징(prosody feature; 713)에 기초하여 출력 음성 데이터(730)를 생성하는 것을 나타내는 도면이다. 음성 합성기(720)는 도 15의 데이터 인식부(1520)에 대응될 수 있다. 음성 합성기(720)는 도 4의 기계학습부(420)에 의해 생성된 단일 인공 신경망 텍스트-음성 합성 모델을 수신하여 출력 음성 데이터(730)를 합성하는데 사용할 수 있다. 도시된 것과 같이, 음성 합성기(720)는 제1 언어에 대한 화자의 발성 특징(711), 제2 언어의 입력 텍스트(712) 및 운율 특징(713)을 수신할 수 있다. 제1 언어에 대한 화자의 발성 특징 및 제2 언어의 입력 텍스트에 대해서는 도 5를 참조하여 설명하였으므로, 중복되는 설명은 생략한다.
운율 특징(713)은 발화 속도에 대한 정보, 발음 강세에 대한 정보, 음 높이에 대한 정보 및 휴지 구간에 대한 정보(예, 끊어 읽기에 대한 정보) 중 적어도 하나를 포함할 수 있다. 일 실시예에서, 운율 특징(713)은 음성 데이터로부터 특징 벡터를 추출하여 생성될 수 있다. 음성 합성기(720)는 제1 언어에 대한 화자의 발성 특징(711), 제2 언어의 입력 텍스트(712) 및 운율 특징(713)을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여 출력 음성 데이터(730)를 생성할 수 있다.
출력 음성 데이터(730)는 제2 언어의 입력 텍스트(712)를 음성으로 합성한 음성 데이터일 수 있으며, 발성 특징(711) 및 운율 특징(713)이 반영되어 있을 수 있다. 즉, 출력 음성 데이터(730)는 제1 언어에 대한 화자의 발성 특징(711)에 기초하여 해당 화자의 음성을 모사하고, 운율 특징(713)을 반영함으로써, 해당 화자가 입력된 운율 특징(713)으로 제2 언어의 입력 텍스트(712)를 말하는 음성으로 합성된 데이터일 수 있다. 예를 들어, 음성 합성기(720)는 해당 화자가 제2 언어의 입력 텍스트(712)를 운율 특징(713)에 포함되어 있는 발화 속도, 발음 강세, 음 높이, 휴지 구간(끊어 읽기)에 대한 정보에 따라 말하는 출력 음성 데이터(730)를 생성할 수 있다.
도 6 내지 도 7에서는 감정 특징(613) 또는 운율 특징(713)을 제1 언어에 대한 화자의 발성 특징 및 제2 언어의 입력 텍스트와 함께 음성 합성기에 입력하는 것으로 도시되어 있으나, 이에 한정되지 않으며, 제1 언어에 대한 화자의 발성 특징, 감정 특징, 운율 특징 중 하나 이상을 제2 언어의 입력 텍스트와 함께 입력하는 것으로 음성 합성기가 구성될 수도 있다.
도 8은 본 개시의 일 실시예에 따른 음성 번역 시스템(800)의 구성을 나타내는 도면이다. 음성 번역 시스템(800)은 음성 인식기(810), 기계 번역기(820), 음성 합성기(830), 발성 특징 추출기(840), 감정 특징 추출기(850), 운율 특징 추출기(860) 및 운율 번역기(prosody translation; 870)를 포함할 수 있다. 음성 합성기(830)는 도 15의 데이터 인식부(1520)에 대응될 수 있다. 도시된 바와 같이 음성 번역 시스템(800)은 제1 언어의 입력 음성을 수신할 수 있다.
수신된 제1 언어의 입력 음성은 음성 인식기(810), 발성 특징 추출기(840), 감정 특징 추출기(850) 및 운율 특징 추출기(860)로 전달될 수 있다. 음성 인식기(810)는 제1 언어의 입력 음성을 수신하여 제1 언어의 입력 텍스트로 변환할 수 있다. 음성 번역 시스템(800)에 포함된 기계 번역기(820)는 제1 언어의 입력 텍스트를 제2 언어의 입력 텍스트로 변환/번역하여 음성 합성기(830)로 전달할 수 있다.
발성 특징 추출기(840)는 제1 언어의 입력 음성으로부터 특징 벡터를 추출하여 제1 언어의 입력 음성을 발화한 화자의 발성 특징을 생성할 수 있다. 음성 합성기(830)는 제2 언어의 입력 텍스트 및 제1 언어에 대한 화자의 발성 특징을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 화자의 음성을 모사하는 제2 언어의 입력 텍스트에 대응하는 제2 언어의 출력 음성 데이터를 생성할 수 있다. 이 경우, 제2 언어의 출력 음성은 제1 언어의 입력 음성을 발화한 화자의 발성 특징을 반영하여 합성된 음성일 수 있다.
감정 특징 추출기(850)는 제1 언어의 입력 음성으로부터 감정 특징을 추출하여 음성 합성기(830)로 전달할 수 있다. 음성 합성기(830)는 제2 언어의 입력 텍스트, 제1 언어에 대한 화자의 발성 특징 및 감정 특징을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 화자의 음성을 모사하고, 제1 언어의 입력 음성의 감정 특징이 반영된 제2 언어의 입력 텍스트에 대응하는 제2 언어의 출력 음성 데이터를 생성할 수 있다. 이 경우, 제2 언어의 출력 음성은 제1 언어의 입력 음성을 발화한 화자의 발성 특징 및 감정 특징을 반영하여 합성된 음성일 수 있다.
운율 특징 추출기(860)는 제1 언어의 입력 음성으로부터 운율 특징을 추출할 수 있다. 운율 특징 추출기(860)는 추출된 운율 특징을 운율 번역기(870)로 전달하여 제1 언어에 대한 운율 특징을 제2 언어에 대한 운율 특징으로 번역할 수 있다. 즉, 운율 번역기(870)는 제1 언어의 입력 음성에서 추출된 운율 특징을 제2 언어의 출력 음성에 반영하도록 하는 정보를 생성할 수 있다.
음성 합성기(830)는 제2 언어의 입력 텍스트, 제1 언어에 대한 화자의 발성 특징 및 번역된 운율 특징을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 화자의 음성을 모사하고, 제1 언어의 입력 음성의 운율 특징이 반영된 제2 언어의 입력 텍스트에 대응하는 제2 언어의 출력 음성 데이터를 생성할 수 있다. 이 경우, 제2 언어의 출력 음성은 제1 언어의 입력 음성을 발화한 화자의 발성 특징 및 운율 특징을 반영하여 합성된 음성일 수 있다. 운율 특징을 반영하는 경우, 제1 언어의 입력 음성의 말하는 속도, 끊어 읽기, 강조 등의 특징들이 제2 언어의 출력 음성에도 적용될 수 있다.
예를 들어, 사용자가 제1 언어의 입력 음성에서 강조하여 말한 단어가 있다면, 운율 번역기(870)는 제1 언어의 강조된 단어와 대응되는 제2 언어의 단어를 강조하기 위한 정보를 생성할 수 있다. 음성 합성기(830)는 운율 번역기(870)로부터 수신한 정보에 기초하여, 제1 언어에서 강조된 단어에 대응되는 제2 언어의 단어를 강조하여 음성을 생성할 수 있다.
일 실시예에서, 음성 합성기(830)는 제2 언어의 입력 텍스트, 제1 언어에 대한 화자의 발성 특징, 감정 특징 및 번역된 운율 특징을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 화자의 음성을 모사하고, 제1 언어의 입력 음성의 감정 특징 및 운율 특징이 반영된 제2 언어의 입력 텍스트에 대응하는 제2 언어의 출력 음성 데이터를 생성할 수 있다. 이 경우, 제2 언어의 출력 음성은 제1 언어의 입력 음성을 발화한 화자의 발성 특징, 감정 특징 및 운율 특징을 반영하여 합성된 음성일 수 있다.
제1 언어의 입력 음성에서 화자의 특징을 추출하여 번역된 음성을 합성하는데 이용하는 경우, 해당 화자의 목소리가 미리 학습되어 있지 않은 경우에도 해당 화자의 목소리를 모사하여 비슷한 음성으로 제2 언어의 출력 음성을 생성할 수 있다. 또한, 제1 언어의 입력 음성에서 화자의 감정 특징을 추출하는 경우, 해당 화자의 해당 발언에 대한 감정을 모사하여 보다 자연스럽게 제2 언어의 출력 음성을 생성할 수 있다. 또한, 제1 언어의 입력 음성에서 화자의 운율 특징을 추출하는 경우, 해당 화자의 해당 발성의 운율을 모사하여 보다 자연스러운 제2 언어의 출력 음성을 생성할 수 있다.
도 8에는 제1 언어의 입력 음성으로부터 발성 특징, 감정 특징 및 운율 특징을 모두 추출하여 음성을 합성하는 것으로 도시되어 있으나, 이에 한정되지 않는다. 다른 실시예에서, 발성 특징, 감정 특징 및 운율 특징 중 적어도 하나를 다른 화자의 입력 음성으로부터 추출할 수도 있다. 예를 들어, 감정 특징 및 운율 특징은 제1 언어의 입력 음성으로부터 추출하되, 발성 특징은 다른 입력 음성(예, 유명인의 음성)으로부터 추출하여 음성을 합성할 수 있다. 이 경우, 합성되는 음성에는 제1 언어의 입력 음성을 발화한 화자의 감정과 운율이 반영되지만, 다른 입력 음성을 발화한 화자(예, 유명인)의 목소리가 반영될 수 있다.
도 9는 본 개시의 일 실시예에 따른 운율 번역기(870)의 구성을 나타내는 도면이다. 도시된 바와 같이, 운율 번역기(870)는 운율 인코더(prosody encoder; 910), 어텐션(attention; 920) 및 운율 디코더(prosody decoder; 930)를 포함할 수 있다. 운율 인코더(910)는 운율 특징 추출기가 제1 언어(원본 언어)의 입력 음성으로부터 추출한 제1 언어의 운율 특징을 수신할 수 있다.
수신된 제1 운율 특징은 운율 인코더(910), 어텐션(920) 및 운율 디코더(930)를 거쳐, 제2 언어(번역될 언어)의 운율 특징으로 변환된다. 일 예에서, 운율 번역기(870)는 시퀀스-투-시퀀스 학습 모델(seq2seq; sequence-to-sequence model)을 이용하여 학습함으로써, 원본 언어의 운율 특징을 번역될 언어의 운율 특징으로 변환할 수 있다. 즉, 시퀀스-투-시퀀스 학습 모델은 RNN(recurrent neural network)에 기반한 인코더-디코더 구조(encoder-decoder architecture)("Sequence to Sequence Learning with Neural Networks," Ilya Sutskever, et al., 2014 참조)에 어텐션 구조(attention mechanism)("Neural Machine Translation by Jointly Learning to Align and Translate," Dzmitry Bahdanau, at al., 2015 및 "Effective Approaches to Attention-based Neural Machine Translation," Minh-Thang Luong, at al., 2015 참조)를 결합하여 구현될 수 있다.
도 10은 본 개시의 일 실시예에 따른 다중 언어 텍스트-음성 합성기(1000)의 구성을 나타내는 도면이다. 도시된 것과 같이, 다중 언어 텍스트-음성 합성기(1000)는 인코더(1010), 디코더(1020) 및 보코더(1030)를 포함할 수 있다. 인코더(1010)는 입력 텍스트를 수신할 수 있다.
입력 텍스트는 복수의 언어로 되어 있을 수 있으며, 언어 식별자나 언어에 대한 정보를 포함하지 않을 수 있다. 예를 들어서, 입력 텍스트는 "안녕하세요" 또는 "How are you?" 와 같은 문장을 포함할 수 있다. 인코더(1010)는 수신된 입력 텍스트를 자모 단위, 글자 단위, 음소(phoneme) 단위로 분리할 수 있다. 또는 인코더(1010)는 자모 단위, 글자 단위, 음소(phoneme) 단위로 분리된 입 력 텍스트를 수신할 수 있다.
인코더(1010)는 적어도 하나의 임베딩 레이어(예: EL 언어1, EL 언어2, ..., EL 언어N)를 포함할 수 있다. 인코더(1010)의 적어도 하나의 임베딩 레이어는 자모 단위, 글자 단위, 음소(phoneme) 단위로 분리된 입력 텍스트 각각을 텍스트 임베딩 벡터로 변환할 수 있다. 인코더(1010)는 분리된 입력 텍스트를 텍스트 임베딩 벡터로 변환하기 위하여 이미 학습된 기계 학습 모델을 사용할 수 있다. 인코더는 기계 학습을 수행하면서 기계 학습 모델을 갱신할 수 있다. 기계 학습 모델이 갱신되는 경우, 분리된 입력 텍스트에 대한 텍스트 임베딩 벡터도 변경될 수 있다.
인코더(1010)는 텍스트 임베딩 벡터를 완전히 연결된 레이어(fully-connected layer)로 구성된 DNN(Deep Neural Network) 모듈에 입력할 수 있다. DNN은 일반적인 피드포워드 레이어(feedforward layer) 또는 선형 레이어(linear layer)일 수 있다.
인코더(1010)는 DNN의 출력을 CNN(convolutional neural network)과 RNN(Recurrent Neural Network) 중 적어도 하나가 포함된 모듈에 입력할 수 있다. 이 때, CNN과 RNN 중 적어도 하나가 포함된 모듈은 DNN의 출력과 함께 디코더(1020)의 임베딩 레이어의 출력(s)도 수신할 수 있다. CNN은 컨볼루션 커널(convolution kernel) 사이즈에 따른 지역적 특성을 포착할 수 있으며, RNN은 장기 의존성(long term dependency)을 포착할 수 있다. CNN과 RNN 중 적어도 하나가 포함된 모듈은 출력으로서 인코더(1010)의 숨겨진 상태들(h)을 출력할 수 있다.
디코더(1020)의 임베딩 레이어는 인코더(1010)의 임베딩 레이어와 유사한 연산을 수행할 수 있다. 임베딩 레이어는 화자 ID를 수신할 수 있다. 예를 들어 화자 ID는 원-핫 벡터일 수 있다. 일 실시예에서, "트럼프"의 화자 ID는 "1"로, "문재인"의 화자 ID는 "2"로, "오바마"의 화자 ID는 "3"으로 지정될 수 있다. 디코더(1020)의 임베딩 레이어는 화자 ID를 화자 임베딩 벡터(s)로 변환할 수 있다. 디코더(1020)는 화자 ID를 화자 임베딩 벡터(s)로 변환하기 위하여 이미 학습된 기계 학습 모델을 사용할 수 있다. 디코더(1020)는 기계 학습을 수행하면서 기계 학습 모델을 갱신할 수 있다. 기계 학습 모델이 갱신되는 경우, 화자 ID에 대한 화자 임베딩 벡터(s)도 변경될 수 있다.
디코더(1020)의 어텐션(Attention)은 인코더로(1010)부터 인코더의 숨겨진 상태들(h)을 수신할 수 있다. 또한 디코더(1020)의 어텐션은 어텐션 RNN으로부터 정보를 수신할 수 있다. 어텐션 RNN으로부터 수신한 정보는 디코더(1020)가 이전 시간-단계(time-step)까지 어떤 음성을 생성했는지에 대한 정보일 수 있다. 또한 디코더(1020)의 어텐션은 어텐션 RNN으로부터 수신한 정보 및 인코더의 숨겨진 상태들(h)에 기초하여 컨텍스트 벡터(Ct)를 출력할 수 있다. 인코더의 숨겨진 상태들(h)은 음성을 생성해야 할 입력 텍스트에 대한 정보일 수 있다.
컨텍스트 벡터(Ct)는 현재 시간-단계(time-step)에서 입력 텍스트 중 어떤 부분으로부터 음성을 생성할지 결정하기 위한 정보일 수 있다. 예를 들어, 디코더(1020)의 어텐션은 음성 생성의 초반에는 텍스트 입력의 앞부분에 기초하여 음성을 생성하고, 음성이 생성되어 감에 따라 점점 텍스트 입력의 뒷부분에 기초하여 음성을 생성하도록 하는 정보를 출력할 수 있다.
도시된 바와 같이, 디코더(1020)는 화자 임베딩 벡터(s)를 어텐션 RNN, 디코더 RNN 및 인코더(1010)의 CNN과 RNN 중 적어도 하나가 포함된 모듈에 입력하여, 화자마다 다르게 디코딩을 하도록 인공 신경망의 구조를 구성할 수 있다. 디코더(1020)의 RNN은 자동회귀(autoregressive) 방식으로 구성될 수 있다. 즉, 이전 시간 단계(time-step)에서 출력된 r 프레임들 출력이 이번 시간 단계의 입력으로 사용될 수 있다. 최초 시간 단계(1022)에는 이전 시간 단계가 존재하지 않으므로, 더미 프레임들이 DNN에 입력될 수 있다.
디코더(1022)는 완전히-연결된 레이어(fully-connected layer)로 구성된 DNN을 포함할 수 있다. DNN은 일반적인 피드포워드 레이어(feedforward layer) 또는 선형 레이어(linear layer)일 수 있다. 또한, 디코더(1022)는 GRU로 구성된 어텐션 RNN을 포함할 수 있다. 어텐션 RNN은 어텐션에서 사용될 정보를 출력하는 레이어이다. 어텐션에 대해서는 위에서 설명하였으므로 자세한 설명은 생략한다.
디코더(1020)는 레지듀얼(residual) GRU로 구성된 디코더 RNN을 포함할 수 있다. 디코더 RNN은 어텐션으로부터 입력 텍스트의 위치 정보를 수신할 수 있다. 즉, 위치 정보는 디코더(1020)가 입력 텍스트의 어떤 위치를 음성으로 변환하고 있는지에 관한 정보일 수 있다.
디코더 RNN은 어텐션 RNN으로부터 정보를 수신할 수 있다. 어텐션 RNN으로부터 수신한 정보는 디코더가 이전 시간-단계(time-step)까지 어떤 음성을 생성했는지에 대한 정보 및 이번 시간-단계에서 생성해야 할 음성에 대한 정보일 수 있다. 디코더 RNN은 지금까지 생성한 음성에 이어질 다음 출력 음성을 생성할 수 있다. 출력 음성은 멜 스펙트로그램 형태를 가질 수 있으며, r개의 프레임으로 구성될 수 있다.
텍스트-음성 합성을 위하여 DNN, 어텐션 RNN 및 디코더 RNN의 동작은 반복적으로 수행될 수 있다. 예를 들어, 최초 시간 단계(1022)에서 획득된 r개의 프레임은 다음 시간 단계(1024)의 입력이 될 수 있다. 또한 시간-단계(1024)에서 출력된 r개의 프레임은 그 다음 시간-단계(1026)의 입력이 될 수 있다.
상술한 바와 같은 과정을 통하여 텍스트의 모든 단위에 대한 음성이 생성될 수 있다. 텍스트-음성 합성 시스템은 각각의 시간 단계마다 나온 멜 스펙트로그램을 시간순으로 연결(concatenate)하여 전체 텍스트에 대한 멜 스펙트로그램을 획득할 수 있다. 디코더(1020)에서 생성된 전체 텍스트에 대한 멜 스펙트로그램은 제1 보코더(1030) 또는 제2 보코더(1040)로 출력될 수 있다.
제1 보코더(1030)는 CNN과 RNN 중 적어도 하나가 포함된 모듈과 Griffin-Lim 복원 모듈을 포함할 수 있다. 제1 보코더(1030)의 CNN과 RNN 중 적어도 하나가 포함된 모듈은 인코더(1010)의 CNN과 RNN 중 적어도 하나가 포함된 모듈과 유사한 동작을 할 수 있다. 즉, 제1 보코더(1030)의 CNN과 RNN 중 적어도 하나가 포함된 모듈은 지역적 특성과 장기 의존성을 포착할 수 있으며, 선형-스케일 스펙트로그램(linear-scale spectrogram)을 출력할 수 있다. 제1 보코더(1030)는 선형-스케일 스펙트로그램에 대해 Griffin-Lim 알고리즘을 적용하여 입력 텍스트에 대응되는 음성 신호를 화자 ID에 해당하는 목소리로 모사하여 출력할 수 있다.
제2 보코더(1040)는 기계학습모델에 기초하여 멜 스펙트로그램으로부터 음성 신호를 획득할 수 있다. 기계학습모델은 멜 스펙트로그램으로부터 음성 신호를 예측하는 네트워크를 학습한 것일 수 있다. 예를 들어, 기계학습모델은 WaveNet 또는 WaveGlow와 같은 모델이 사용될 수 있다. 제2 보코더(1040)는 제1 보코더(1030)를 대체하여 사용될 수 있다.
이러한 인공 신경망 기반의 다중 언어 텍스트-음성 합성기(1000)는 다국어의 학습 텍스트와 그에 대응되는 학습 음성 신호의 쌍으로 존재하는 대용량의 데이터 베이스를 이용하여 학습된다. 다중 언어 텍스트-음성 합성기(1000)는 학습 텍스트를 수신하고, 출력된 음성 신호를 학습 음성 신호와 비교하여 손실 함수(loss function)를 정의할 수 있다. 음성 합성기는 손실 함수를 오차 역전파(error back propagation) 알고리즘을 통해 학습하여, 최종적으로 임의의 텍스트를 입력했을 때 원하는 음성 출력이 나오는 인공 신경망을 얻을 수 있다.
다중 언어 텍스트-음성 합성기(1000)는 위와 같은 방법으로 생성된 단일 인공 신경망 텍스트-음성 합성 모델을 이용하여, 특정 화자의 목소리를 모사하는 음성을 합성할 수 있다. 또한 다중 언어 텍스트-음성 합성기(1000)는 특정 화자의 모국어와 다른 언어의 음성도 해당 화자의 목소리를 모사하여 합성할 수 있다. 즉, 다중 언어 텍스트-음성 합성기(1000)는 제1 언어를 구사하는 화자가 제2 언어를 말하는 음성을 합성할 수 있다. 예를 들어, 트럼프가 입력된 한국어 텍스트를 한국어로 말하는 것처럼 음성을 합성할 수 있다.
도 11은 IPA(International Phonetic Alphabet)와 KoG2P 음소의 대응관계 및 영어와 한국어의 공통된 발음을 가지는 음소의 대응관계를 나타낸다. 서로 다른 언어의 발음은 하나의 알파벳 체계인 IPA(International Phonetic Alphabet)에 의해 기술될 수 있다. 서로 다른 언어의 발음에 대한 IPA는 유사성 정보로 이용될 수 있다. IPA-CMUdict와 IPA-KoG2P의 변환 표는 표(1110)와 같다. IPA 측면에서 제1 언어 음소와 제2 언어의 음소 간에는 일대일 대응이 이루어지지 않지만, 제1 언어와 제2 언어의 공통된 발음을 갖는 음소를 포함하는 부분집합을 선택할 수 있다. 예를 들어, 영어와 한국어의 공통된 발음을 갖는 음소를 선택한 하위 집합은 표(1120)와 같다.
제1 언어와 제2 언어는 서로 다른 문자 체계를 가지고 있을 수 있으며, 서로 다른 발음 체계를 가지고 있을 수 있다. 동일한 알파벳 체계인 IPA를 이용하여 제1 언어와 제2 언어를 표현하는 경우, 각각의 언어에 대하여 표준화된 처리를 통하여 음성 합성 모델을 획득할 수 있다. 하지만, IPA는 각각의 언어를 동일한 알파벳 체계로 표현할 뿐, 서로 다른 언어의 발음 또는 표기의 유사성을 완벽히 나타내 주지 못한다. 예를 들어, 제1 언어에 사용되는 IPA 알파벳이 제2 언어에서는 전혀 사용되지 않을 수 있다. 음성 합성 모델은 제1 언어에서만 사용되는 IPA 알파벳을 제2 언어의 어느 IPA 알파벳에 대응시킬지 알 수 없으므로, IPA를 이용하는 경우 각각의 언어에 특화된 음성 합성 모델만 획득될 수 있다. 즉, 제1 언어에 대한 음성 합성 모델은 제1 언어와 관련된 데이터를 처리할 수 있을 뿐 제2 언어와 관련된 데이터를 처리할 수 없다. 반대로 제2 언어에 대한 음성 합성 모델은 제2 언어와 관련된 데이터를 처리할 수 있을 뿐 제1 언어와 관련된 데이터를 처리할 수 없다.
도 12는 한국어 음소와 가장 유사한 영어 음소를 나타낸 표를 나타낸다. 본 개시의 일 실시예에 따른 텍스트-음성 합성 시스템은 기계학습모델에 기초하여 언어들의 앵커(anchor) 음소에 대해 음소 간의 코사인 거리를 계산할 수 있다. 코사인 거리를 계산하기 위하여 기계 학습 모델에 기초하여 획득된 음소 임베딩 벡터가 이용될 수 있다. 음소 간의 코사인 거리는 음소 간의 유사도를 나타낼 수 있다.
계산된 음소 간의 코사인 거리에 기초하여 한국어의 음소에 대한 5 개의 가장 가까운 영어의 음소 임베딩을 열거하면, 표(1210)와 같다. 영어 음소 임베딩의 뒤에 붙은 숫자 0, 1 및 2는 각각 "스트레스 없음", "1 차 스트레스"및 "2 차 스트레스"를 나타낸다. CMUdict는 강조된 발음을 구별하는 반면, IPA는 강조된 발음을 구별하지 않을 수 있다. 괄호 안의 기호는 IPA 기호이다.
표(1210)에 따르면, 본 개시의 일 실시예에 따른 기계학습모델에 기초한 앵커(anchor) 음소에 대한 5개의 가장 가까운 음소 임베딩은 도 11의 표(1120)와 유사한 것을 확인할 수 있다. 즉, 본 개시의 일 실시예에 따른 기계 학습 모델은 제1 언어의 음소 및 제2 언어의 음소 사이의 발음에 대한 유사성 정보 또는 표기에 대한 유사성 정보, 제1 언어에 대한 언어 식별자/언어 정보, 그리고 제2 언어에 대한 언어 식별자/언어 정보를 학습시에 입력 받지 않아도, 언어 간의 유사한 발음 또는 표기를 자동으로 학습하는 것을 확인할 수 있다. 따라서 본 개시의 일 실시예에 따른 텍스트-음성 합성 시스템은 단일 인공 신경망 텍스트-음성 합성 모델에 기초하여 학습한 복수의 언어에 대하여 텍스트-음성 합성(TTS)을 수행할 수 있다.
도 13 은 영어 음소로 생성된 음성과 한국어 음소로 생성된 음성의 유사성을 나타내는 스펙트로그램이다. 스펙트로그램(1310)은 "He has many good friends"라는 문장을 영어 음소 시퀀스(HH, IY1, , HH, AE1, Z, , M, EH1, N, IY0, , G, UH1, D, , F, R, EH1, N, D, Z)로 음성을 합성한 결과이다. 스펙트로그램(1320)은 동일한 문장의 영어 음소 시퀀스 내의 각 음소를 가장 가까운 한국어 음소로 대체하여 생성된 한국어 음소 시퀀스(h0, wi, , h0, ya, s0, , mf, ye, nf, ii, , kk, yo, tt, , ph, ks, ye, nf, tt, s0)로 음성을 합성한 결과이다.
스펙트로그램(1310)과 스펙트로그램(1320)을 비교하면, 영어 음소 시퀀스로 음성을 합성한 결과물과 한국어 음소 시퀀스로 음성을 합성한 결과물이 유사함을 확인할 수 있다. 따라서, 제1 언어의 음소들을 이용하여 제2 언어의 텍스트를 음성으로 합성하여도 고품질의 음성 합성 결과물을 얻을 수 있다는 것을 확인할 수 있다. 즉, 제1 언어로 발화한 화자의 발성 특징을 이용하여 제2 언어의 텍스트를 음성으로 합성해도 제1 언어가 모국어인 해당 화자가 제2 언어로 발화하는 결과물을 얻을 수 있다.
도 14는 TTS 기계학습 모델을 학습하는데 사용된 영어 데이터의 시간 변화에 따른 character error rate(CER)를 나타내는 표(1410)다. 본 예시에서, TTS 기계학습 모델은 충분한 한국어 학습 데이터가 있는 조건에서, 영어 학습 데이터의 양을 바꿔가면서 학습되었다. 표(1410)는 음성 합성 품질을 수치화하기 위해 텍스트로부터 합성된 음성 출력물을 청취한 사람이 문자로 기록하고, 원본 텍스트와 결과를 비교한 에러율을 나타낸다.
표(1410)에 따르면, 영어 텍스트와 한국어 화자의 발성 특징을 TTS 기계학습 모델에 입력하여, 해당 화자의 영어 텍스트에 대응되는 영어 스피치를 합성하는 경우, 사용된 영어 학습 데이터의 시간이 늘어날수록 CER이 줄어든다. 즉, 기계학습에 사용되는 영어 학습 데이터의 시간이 늘어날수록, 한국어 화자가 읽은 영어 텍스트의 스피치에 대한 CER은 줄어든다.
반면, 한국어 텍스트와 영어 화자의 발성 특징을 TTS 기계학습 모델에 입력하여, 해당 화자의 한국어 텍스트에 대응되는 한국어 스피치를 합성하는 경우, 사용된 영어 학습 데이터의 시간이 늘어나더라도 CER은 큰 차이가 없다. 이는 기계학습에 사용한 한국어로 된 데이터의 양이 영어의 데이터양보다 많아서, CER이 이미 임계까지 줄어든 상태를 나타낼 수 있다. 텍스트-음성 합성 시스템이 임계량 이상의 데이터를 이용하여 기계학습을 하는 경우 CER을 충분히 줄일 수 있음을 확인할 수 있다. 또한, 많은 양의 한국어 학습 데이터와 적은 양의 영어 학습 데이터를 이용하여 TTS 기계학습 모델을 학습시키는 경우에도, 영어 텍스트를 스피치로 합성한 결과물이 비교적 높은 품질로 생성되는 것을 확인할 수 있다.
본 개시에 따르면, 복수의 언어에 대한 입력 텍스트(text input)와 출력 음성(audio output)만으로 엔드 투 엔드(end-to-end)로 다언어 TTS 기계학습 모델을 생성하는 것이 가능하다. 또한, 기존 방식에서는 서로 다른 언어들이 하나의 언어적 특징 세트(linguistic feature set)로 표현하기 위해 IPA와 같은 여러 언어에서 공통으로 사용할 수 있는 표기법을 필요로 하거나 언어 간의 유사성에 대한 사전 정보를 필요로 했다. 하지만 본 개시에 따르면 언어적 특징(linguistic feature)이 필요한 것이 아니므로 각 언어가 다른 알파벳을 사용해도 무방하고 언어간 유사성에 대한 사전 정보가 필요로 하지 않다.
또한, 본 개시는 모델을 엔드 투 엔드(end-to-end)로 학습시키므로 음소 길이(phoneme duration) 등의 기존 TTS에서 필요했던 특징(feature)들을 별도의 모델을 활용하여 예측할 필요가 없이 단일 신경망(neural network) 모델로 텍스트-음성 합성(TTS) 작업을 처리할 수 있다. 또한, 본 개시에 따르면 텍스트 인코더(Text encoder)에서 텍스트 인코딩(text encoding)을 추출하는 과정에서 화자 ID(speaker ID)의 사용여부에 따라 교포말투/유창한 말투를 조절할 수 있다. 예를 들어, 제1 언어의 음성을 생성할 때 제2 언어의 발음이 강한 경우, 학습할 때 패널티를 줄 수 있다. 패널티를 적용한 기계학습모델에 따르면, 보다 제1 언어의 발음에 가깝게 음성이 생성될 수 있다.
도 15는 본 개시의 일 실시예에 따른 텍스트-음성 합성 시스템(1500)의 블록도이다. 일 실시예에 따른 텍스트-음성 합성 시스템(1500)은 데이터 학습부(1510) 및 데이터 인식부(1520)를 포함할 수 있다. 데이터 학습부(1510)는 데이터를 입력하여 기계학습모델을 획득할 수 있다. 또한 데이터 인식부(1520)는 데이터를 기계학습모델에 적용하여 출력 음성을 생성할 수 있다. 상술한 바와 같은 텍스트-음성 합성 시스템(1500)은 프로세서 및 메모리를 포함할 수 있다.
데이터 학습부(1510)는 텍스트에 대한 음성 학습할 수 있다. 데이터 학습부(1510)는 텍스트에 따라 어떤 음성을 출력할지에 관한 기준을 학습할 수 있다. 또한, 데이터 학습부(1510)는 어떤 음성의 특징을 이용하여 음성을 출력할지에 관한 기준을 학습할 수 있다. 음성의 특징은 음소의 발음, 사용자의 어조, 억양 또는 강세 중 적어도 하나를 포함할 수 있다. 데이터 학습부(1510)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 데이터 학습모델에 적용함으로써, 텍스트에 따른 음성을 학습할 수 있다.
데이터 인식부(1520)는 텍스트에 기초하여 텍스트에 대한 음성을 출력할 수 있다. 데이터 인식부(1520)는 학습된 데이터 학습모델을 이용하여, 소정의 텍스트로부터 음성을 출력할 수 있다. 데이터 인식부(1520)는 학습에 의한 미리 설정된 기준에 따라 소정의 텍스트(데이터)를 획득할 수 있다. 또한, 데이터 인식부(1520)는 획득된 데이터를 입력 값으로 하여 데이터 학습모델을 이용함으로써, 소정의 데이터에 기초한 음성을 출력할 수 있다. 또한, 획득된 데이터를 입력 값으로 하여 데이터 학습모델에 의해 출력된 결과 값은, 데이터 학습모델을 갱신하는데 이용될 수 있다.
데이터 학습부(1510) 또는 데이터 인식부(1520) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1510) 또는 데이터 인식부(1520) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 이미 설명한 각종 전자 장치에 탑재될 수도 있다.
또한 데이터 학습부(1510) 및 데이터 인식부(1520)는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(1510) 및 데이터 인식부(1520) 중 하나는 전자 장치에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(1510) 및 데이터 인식부(1520)는 유선 또는 무선으로 통하여, 데이터 학습부(1510)가 구축한 모델 정보를 데이터 인식부(1520)로 제공할 수도 있고, 데이터 인식부(1520)로 입력된 데이터가 추가 학습 데이터로써 데이터 학습부(1510)로 제공될 수도 있다.
한편, 데이터 학습부(1510) 또는 데이터 인식부(1520) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1510) 및 데이터 인식부(1520) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction)을 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 메모리 또는 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 이와 달리, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
본 개시의 일 실시예에 따른 데이터 학습부(1510)는 데이터 획득부(1511), 전처리부(1512), 학습 데이터 선택부(1513), 모델 학습부(1514) 및 모델 평가부(1515)를 포함할 수 있다.
데이터 획득부(1511)는 기계학습에 필요한 데이터를 획득할 수 있다. 학습을 위해서는 많은 데이터가 필요하므로, 데이터 획득부(1511)는 복수의 텍스트 및 그에 대응되는 음성을 수신할 수 있다.
전처리부(1512)는 사용자의 심리 상태 판단을 위하여 획득된 데이터가 기계학습에 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1512)는 후술할 모델 학습부(1514)가 이용할 수 있도록, 획득된 데이터를 미리 설정된 포맷으로 가공할 수 있다. 예를 들어 전처리부(1512)는 텍스트 및 음성을 형태소 분석하여 형태소 임베딩을 획득할 수 있다.
학습 데이터 선택부(1513)는 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 모델 학습부(1514)에 제공될 수 있다. 학습 데이터 선택부(1513)는 기 설정된 기준에 따라, 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 또한, 학습 데이터 선택부(1513)는 후술할 모델 학습부(1514)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.
모델 학습부(1514)는 학습 데이터에 기초하여 텍스트에 따라 어떤 음성을 출력할 지에 관한 기준을 학습할 수 있다. 또한, 모델 학습부(1514)는 텍스트에 따라 음성을 출력하는 학습모델을 학습 데이터로써 이용하여 학습시킬 수 있다. 이 경우, 데이터 학습모델은 미리 구축된 모델을 포함할 수 있다. 예를 들어, 데이터 학습모델은 기본 학습 데이터(예를 들어, 샘플 이미지 등)을 입력 받아 미리 구축된 모델을 포함할 수 있다.
데이터 학습모델은, 학습모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 데이터 학습모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델을 포함할 수 있다. 예컨대, Deep Neural Network (DNN), Recurrent Neural Network (RNN), Long Short-Term Memory models (LSTM), BRDNN (Bidirectional Recurrent Deep Neural Network), Convolutional Neural Networks (CNN) 등과 같은 모델이 데이터 학습모델로써 사용될 수 있으나, 이에 한정되지 않는다.
다양한 실시예에 따르면, 모델 학습부(1514)는 미리 구축된 데이터 학습모델이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 데이터 학습모델을 학습할 데이터 학습모델로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 데이터 학습모델은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 오브젝트의 종류 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다.
또한, 모델 학습부(1514)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 데이터 학습모델을 학습시킬 수 있다.
또한, 모델 학습부(1514)는, 예를 들어, 학습 데이터를 입력 값으로 하는 지도 학습(supervised learning)을 통하여, 데이터 학습모델을 학습할 수 있다. 또한, 모델 학습부(1514)는, 예를 들어, 별다른 지도없이 상황 판단을 위해 필요한 데이터의 종류를 스스로 학습함으로써, 상황 판단을 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 데이터 학습모델을 학습할 수 있다. 또한, 모델 학습부(1514)는, 예를 들어, 학습에 따른 상황 판단의 결과가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 데이터 학습모델을 학습할 수 있다.
또한, 데이터 학습모델이 학습되면, 모델 학습부(1514)는 학습된 데이터 학습모델을 저장할 수 있다. 이 경우, 모델 학습부(1514)는 학습된 데이터 학습모델을 데이터 인식부(1520)를 포함하는 전자 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1514)는 학습된 데이터 학습모델을 전자 장치와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.
이 경우, 학습된 데이터 학습모델이 저장되는 메모리는, 예를 들면, 전자 장치의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다.
모델 평가부(1515)는 데이터 학습모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(1514)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 데이터 학습모델을 평가하기 위한 기 설정된 데이터를 포함할 수 있다.
예를 들어, 모델 평가부(1515)는 평가 데이터에 대한 학습된 데이터 학습모델의 결과 중에서, 인식 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 데이터 학습모델이 총 1,000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 인식 결과를 출력하는 경우, 모델 평가부(1515)는 학습된 데이터 학습모델이 적합하지 않은 것으로 평가할 수 있다.
한편, 학습된 데이터 학습모델이 복수 개가 존재하는 경우, 모델 평가부(1515)는 각각의 학습된 동영상 학습모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 데이터 학습모델로써 결정할 수 있다. 이 경우, 소정 기준을 만족하는 모델이 복수 개인 경우, 모델 평가부(1515)는 평가 점수가 높은 순으로 미리 설정된 어느 하나 또는 소정 개수의 모델을 최종 데이터 학습모델로써 결정할 수 있다.
한편, 데이터 학습부(1510) 내의 데이터 획득부(1511), 전처리부(1512), 학습 데이터 선택부(1513), 모델 학습부(1514) 또는 모델 평가부(1515) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1511), 전처리부(1512), 학습 데이터 선택부(1513), 모델 학습부(1514) 또는 모델 평가부(1515) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.
또한, 데이터 획득부(1511), 전처리부(1512), 학습 데이터 선택부(1513), 모델 학습부(1514) 및 모델 평가부(1515)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1511), 전처리부(1512), 학습 데이터 선택부(1513), 모델 학습부(1514) 및 모델 평가부(1515) 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.
또한, 데이터 획득부(1511), 전처리부(1512), 학습 데이터 선택부(1513), 모델 학습부(1514) 또는 모델 평가부(1515) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1511), 전처리부(1512), 학습 데이터 선택부(1513), 모델 학습부(1514) 또는 모델 평가부(1515) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 이와 달리, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
본 개시의 일 실시예에 따른 데이터 인식부(1520)는 데이터 획득부(1521), 전처리부(1522), 인식 데이터 선택부(1523), 인식 결과 제공부(1524) 및 모델 갱신부(1525)를 포함할 수 있다.
데이터 획득부(1521)는 음성을 출력하기 위해 필요한 텍스트를 획득할 수 있다. 반대로 데이터 획득부(1521)는 텍스트를 출력하기 위해 필요한 음성을 획득할 수 있다. 전처리부(1522)는 음성 또는 텍스트를 출력하기 위해 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1522)는 후술할 인식 결과 제공부(1524)가 음성 또는 텍스트를 출력하기 위해 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.
인식 데이터 선택부(1523)는 전처리된 데이터 중에서 음성 또는 텍스트를 출력하기 위해 필요한 데이터를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(1524)에게 제공될 수 있다. 인식 데이터 선택부(1523)는 음성 또는 텍스트를 출력하기 위한 기 설정된 기준에 따라, 전처리된 데이터 중에서 일부 또는 전부를 선택할 수 있다. 또한, 인식 데이터 선택부(1523)는 모델 학습부(1514)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.
인식 결과 제공부(1524)는 선택된 데이터를 데이터 학습모델에 적용하여 음성 또는 텍스트를 출력할 수 있다. 인식 결과 제공부(1524)는 인식 데이터 선택부(1523)에 의해 선택된 데이터를 입력 값으로 이용함으로써, 선택된 데이터를 데이터 학습모델에 적용할 수 있다. 또한, 인식 결과는 데이터 학습모델에 의해 결정될 수 있다.
모델 갱신부(1525)는 인식 결과 제공부(1524)에 의해 제공되는 인식 결과에 대한 평가에 기초하여, 데이터 학습모델이 갱신되도록 할 수 있다. 예를 들어, 모델 갱신부(1525)는 인식 결과 제공부(1524)에 의해 제공되는 인식 결과를 모델 학습부(1514)에게 제공함으로써, 모델 학습부(1514)가 데이터 학습모델을 갱신하도록 할 수 있다.
한편, 데이터 인식부(1520) 내의 데이터 획득부(1521), 전처리부(1522), 인식 데이터 선택부(1523), 인식 결과 제공부(1524) 또는 모델 갱신부(1525) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1521), 전처리부(1522), 인식 데이터 선택부(1523), 인식 결과 제공부(1524) 또는 모델 갱신부(1525) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.
또한, 데이터 획득부(1521), 전처리부(1522), 인식 데이터 선택부(1523), 인식 결과 제공부(1524) 및 모델 갱신부(1525)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1521), 전처리부(1522), 인식 데이터 선택부(1523), 인식 결과 제공부(1524) 및 모델 갱신부(1525) 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.
또한, 데이터 획득부(1521), 전처리부(1522), 인식 데이터 선택부(1523), 인식 결과 제공부(1524) 또는 모델 갱신부(1525) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1521), 전처리부(1522), 인식 데이터 선택부(1523), 인식 결과 제공부(1524) 또는 모델 갱신부(1525) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 이와 달리, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
이제까지 다양한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.
110, 210, 520, 620, 720, 830: 음성 합성기
420: 기계학습부 810: 음성 인식기
820: 기계 번역기 840: 발성 특징 추출기
850: 감정 특징 추출기 860: 운율 특징 추출기
840: 운율 번역기 910: 운율 인코더
820: 어텐션 930: 운율 디코더
1510: 데이터 학습부 1520: 데이터 인식부

Claims (10)

  1. 다중 언어(multilingual) 텍스트-음성 합성(text-to-speech synthesis) 방법으로서,
    제1 언어의 학습 텍스트 및 상기 제1 언어의 학습 텍스트에 대응되는 제1 언어의 학습 음성 데이터를 포함하는 제1 학습 데이터를 수신하는 단계;
    제2 언어의 학습 텍스트 및 상기 제2 언어의 학습 텍스트에 대응되는 제2 언어의 학습 음성 데이터를 포함하는 제2 학습 데이터를 수신하는 단계; 및
    상기 제1 학습 데이터 및 상기 제2 학습 데이터에 기초하여, 상기 제1 언어의 음소 및 상기 제2 언어의 음소 사이의 유사성 정보를 학습하여 단일 인공 신경망 텍스트-음성 합성(text-to-speech synthesis) 모델을 생성하는 단계
    를 포함하는, 다중 언어 텍스트-음성 합성 방법.
  2. 제1항에 있어서,
    상기 제1 언어에 대한 화자의 발성 특징을 수신하는 단계;
    제2 언어의 입력 텍스트를 수신하는 단계; 및
    상기 제2 언어의 입력 텍스트 및 상기 제1 언어에 대한 화자의 발성 특징을 상기 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 상기 화자의 음성을 모사하는 상기 제2 언어의 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계
    를 더 포함하는, 다중 언어 텍스트-음성 합성 방법.
  3. 제2항에 있어서,
    상기 제1 언어에 대한 화자의 발성 특징은 상기 화자가 제1 언어로 발화한 음성 데이터로부터 특징 벡터를 추출하여 생성되는, 다중 언어 텍스트-음성 합성 방법.
  4. 제2항에 있어서,
    감정 특징(emotion feature)을 수신하는 단계; 및
    상기 제2 언어의 입력 텍스트, 상기 제1 언어에 대한 화자의발성 특징 및 상기 감정 특징을 상기 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 상기 화자의 음성을 모사하는 상기 제2 언어의 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계
    를 더 포함하는, 다중 언어 텍스트-음성 합성 방법.
  5. 제2항에 있어서,
    운율 특징(prosody feature)을 수신하는 단계; 및
    상기 제2 언어의 입력 텍스트, 상기 제1 언어에 대한 화자의 발성 특징 및 상기 운율 특징을 상기 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 상기 화자의 음성을 모사하는 상기 제2 언어의 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계
    를 더 포함하는, 다중 언어 텍스트-음성 합성 방법.
  6. 제5항에 있어서,
    상기 운율 특징은 발화 속도에 대한 정보, 발음 강세에 대한 정보, 음 높이에 대한 정보 및 휴지 구간에 대한 정보 중 적어도 하나를 포함하는, 다중 언어 텍스트-음성 합성 방법.
  7. 제1항에 있어서,
    제1 언어의 입력 음성을 수신하는 단계;
    상기 제1 언어의 입력 음성으로부터 특징 벡터를 추출하여 제1 언어에 대한 화자의 발성 특징을 생성하는 단계;
    상기 제1 언어의 입력 음성을 제1 언어의 입력 텍스트로 변환하는 단계;
    상기 제1 언어의 입력 텍스트를 제2 언어의 입력 텍스트로 변환하는 단계; 및
    상기 제2 언어의 입력 텍스트 및 상기 제1 언어에 대한 화자의 발성 특징을 상기 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 상기 화자의 음성을 모사하는 상기 제2 언어의 입력 텍스트에 대한 제2 언어의 출력 음성 데이터를 생성하는 단계
    를 더 포함하는, 다중 언어 텍스트-음성 합성 방법.
  8. 제1항에 있어서,
    G2P(Grapheme-to-phoneme) 알고리즘을 사용하여 상기 제1 언어의 학습 텍스트 및 상기 제2 언어의 학습 텍스트를 음소 시퀀스(phoneme sequence)로 변환하는, 다중 언어 텍스트-음성 합성 방법.
  9. 제1항에 있어서,
    상기 단일 인공 신경망 텍스트-음성 합성 모델은 상기 제1 언어의 음소 및 상기 제2 언어의 음소 사이의 발음 및 표기 중 적어도 하나에 대한 유사성 정보의 입력 없이 생성되는, 다중 언어 텍스트-음성 합성 방법.
  10. 제1항의 다중 언어 텍스트-음성 합성 방법에 따른 각각의 단계를 수행하는 명령어를 포함하는 프로그램이 기록된, 컴퓨터 판독가능 저장매체.
KR1020190003979A 2018-01-11 2019-01-11 다중 언어 텍스트-음성 합성 방법 KR102199067B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
PCT/KR2019/000509 WO2019139428A1 (ko) 2018-01-11 2019-01-11 다중 언어 텍스트-음성 합성 방법
JP2020538690A JP7142333B2 (ja) 2018-01-11 2019-01-11 多言語テキスト音声合成方法
US16/682,390 US11217224B2 (en) 2018-01-11 2019-11-13 Multilingual text-to-speech synthesis
US17/533,459 US11769483B2 (en) 2018-01-11 2021-11-23 Multilingual text-to-speech synthesis
JP2022121111A JP7500020B2 (ja) 2018-01-11 2022-07-29 多言語テキスト音声合成方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20180004047 2018-01-11
KR1020180004047 2018-01-11
KR20180036377 2018-03-29
KR1020180036377 2018-03-29

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020200171337A Division KR102246943B1 (ko) 2018-01-11 2020-12-09 다중 언어 텍스트-음성 합성 방법

Publications (2)

Publication Number Publication Date
KR20190085879A true KR20190085879A (ko) 2019-07-19
KR102199067B1 KR102199067B1 (ko) 2021-01-06

Family

ID=67511992

Family Applications (4)

Application Number Title Priority Date Filing Date
KR1020190003979A KR102199067B1 (ko) 2018-01-11 2019-01-11 다중 언어 텍스트-음성 합성 방법
KR1020190004188A KR102199050B1 (ko) 2018-01-11 2019-01-11 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
KR1020200171337A KR102246943B1 (ko) 2018-01-11 2020-12-09 다중 언어 텍스트-음성 합성 방법
KR1020200174483A KR102265972B1 (ko) 2018-01-11 2020-12-14 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템

Family Applications After (3)

Application Number Title Priority Date Filing Date
KR1020190004188A KR102199050B1 (ko) 2018-01-11 2019-01-11 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
KR1020200171337A KR102246943B1 (ko) 2018-01-11 2020-12-09 다중 언어 텍스트-음성 합성 방법
KR1020200174483A KR102265972B1 (ko) 2018-01-11 2020-12-14 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템

Country Status (5)

Country Link
US (4) US11217224B2 (ko)
EP (2) EP3739477A4 (ko)
JP (3) JP7178028B2 (ko)
KR (4) KR102199067B1 (ko)
CN (2) CN111566655B (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112652294A (zh) * 2020-12-25 2021-04-13 深圳追一科技有限公司 语音合成方法、装置、计算机设备和存储介质
KR20210051524A (ko) * 2019-10-30 2021-05-10 주식회사 솔트룩스 음성 합성 시스템 및 이의 방법
WO2021107189A1 (ko) * 2019-11-28 2021-06-03 주식회사 엘솔루 음성인식을 위한 전자장치와 그 데이터 처리 방법
CN112992117A (zh) * 2021-02-26 2021-06-18 平安科技(深圳)有限公司 多语言语音模型生成方法、装置、计算机设备及存储介质
KR20220041448A (ko) 2020-09-25 2022-04-01 주식회사 딥브레인에이아이 텍스트 기반의 음성 합성 방법 및 장치
WO2022114451A1 (ko) * 2020-11-30 2022-06-02 주식회사 마인즈랩 인공 신경망 학습 방법과 이를 이용한 발음 평가 방법
US11551675B2 (en) 2019-09-03 2023-01-10 Samsung Electronics Co., Ltd. Electronic device and method for controlling the electronic device thereof
US11580963B2 (en) 2019-10-15 2023-02-14 Samsung Electronics Co., Ltd. Method and apparatus for generating speech

Families Citing this family (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3739477A4 (en) 2018-01-11 2021-10-27 Neosapience, Inc. PROCESS AND SYSTEM FOR SPEECH TRANSLATION USING A MULTILINGUAL TEXT-SPEECH SYNTHESIS MODEL
US11138392B2 (en) * 2018-07-26 2021-10-05 Google Llc Machine translation using neural network models
KR102109866B1 (ko) * 2018-10-05 2020-05-12 동아대학교 산학협력단 합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 확장을 위한 장치 및 방법
KR102109860B1 (ko) * 2018-10-05 2020-05-12 동아대학교 산학협력단 학습 데이터 확장을 통한 딥러닝 기반 인과관계 추출을 위한 장치 및 방법
KR102109858B1 (ko) * 2018-10-05 2020-05-12 동아대학교 산학협력단 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법
EP3662467B1 (en) * 2018-10-11 2021-07-07 Google LLC Speech generation using crosslingual phoneme mapping
JP6737320B2 (ja) 2018-11-06 2020-08-05 ヤマハ株式会社 音響処理方法、音響処理システムおよびプログラム
JP6747489B2 (ja) 2018-11-06 2020-08-26 ヤマハ株式会社 情報処理方法、情報処理システムおよびプログラム
KR102129575B1 (ko) * 2018-11-13 2020-07-02 주식회사 솔트룩스 단어 교정 시스템
KR102107502B1 (ko) * 2018-12-13 2020-05-07 줌인터넷 주식회사 거짓된 기사 제목이 포함된 스팸뉴스 탐지를 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
KR102149917B1 (ko) * 2018-12-13 2020-08-31 줌인터넷 주식회사 스팸 문구가 포함된 스팸뉴스 탐지를 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
KR102179025B1 (ko) * 2018-12-14 2020-11-16 (주)이스트소프트 문서의 컨텍스트 이상문장 검출장치, 이를 위한 방법 및 이 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
KR102168504B1 (ko) * 2018-12-26 2020-10-21 주식회사 와이즈넛 텍스트 문서에서 각 문장 간의 일관성 분석 장치 및 그 방법
KR102259703B1 (ko) * 2018-12-27 2021-06-02 (주)아크릴 자연어 문장에 대한 의미 요소 관계 시각화 방법 및 이를 이용한 장치
US11854538B1 (en) * 2019-02-15 2023-12-26 Amazon Technologies, Inc. Sentiment detection in audio data
KR102203895B1 (ko) * 2019-02-20 2021-01-15 성균관대학교산학협력단 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체
US11942093B2 (en) * 2019-03-06 2024-03-26 Syncwords Llc System and method for simultaneous multilingual dubbing of video-audio programs
CN113874934A (zh) * 2019-05-23 2021-12-31 谷歌有限责任公司 有表达力的端到端语音合成中的变分嵌入容量
JP7280386B2 (ja) * 2019-05-31 2023-05-23 グーグル エルエルシー 多言語音声合成およびクロスランゲージボイスクローニング
CN112185337B (zh) * 2019-07-02 2024-04-26 微软技术许可有限责任公司 多语言神经文本到语音合成
KR102315068B1 (ko) * 2019-07-08 2021-10-20 네이버 주식회사 문서 검색 품질 향상을 위한 문서 일관성 판단 방법 및 시스템
US11475223B2 (en) * 2019-07-30 2022-10-18 Adobe Inc. Converting tone of digital content
KR102457822B1 (ko) * 2019-08-14 2022-10-24 한국전자통신연구원 자동 통역 장치 및 그 방법
US11620978B2 (en) 2019-08-14 2023-04-04 Electronics And Telecommunications Research Institute Automatic interpretation apparatus and method
KR102321789B1 (ko) * 2019-08-28 2021-11-05 엘지전자 주식회사 감정 정보 기반의 음성 합성 방법 및 장치
JP7262142B2 (ja) 2019-09-18 2023-04-21 ヨプ リ,ジョン 複数の音声システムが装着されたオンラインメディアサービス具現方法
KR102111360B1 (ko) * 2019-09-18 2020-05-18 이종엽 다중 음성시스템이 장착된 온라인미디어 서비스 구현 방법
KR102281600B1 (ko) * 2019-09-19 2021-07-29 엘지전자 주식회사 합성 음성에 대한 보정을 수행하는 인공 지능 장치 및 그 방법
US20210224679A1 (en) * 2020-01-22 2021-07-22 Accenture Global Solutions Limited Utilizing natural language processing similarity matching to determine whether a problem requires quantum computing or classical computing
CN111353258A (zh) * 2020-02-10 2020-06-30 厦门快商通科技股份有限公司 基于编码解码神经网络的回声抑制方法及音频装置及设备
US11562744B1 (en) * 2020-02-13 2023-01-24 Meta Platforms Technologies, Llc Stylizing text-to-speech (TTS) voice response for assistant systems
CN118116361A (zh) * 2020-03-13 2024-05-31 微软技术许可有限责任公司 跨讲话者风格转移语音合成
US11222620B2 (en) 2020-05-07 2022-01-11 Google Llc Speech recognition using unspoken text and speech synthesis
CN112767910B (zh) * 2020-05-13 2024-06-18 腾讯科技(深圳)有限公司 音频信息合成方法、装置、计算机可读介质及电子设备
KR20210144975A (ko) * 2020-05-21 2021-12-01 삼성전자주식회사 텍스트 시퀀스를 번역하는 전자 장치 및 그 동작 방법
KR20210150842A (ko) * 2020-06-04 2021-12-13 삼성전자주식회사 음성 또는 문자를 번역하는 전자 장치 및 그 방법
JP7192834B2 (ja) * 2020-08-05 2022-12-20 ヤマハ株式会社 情報処理方法、情報処理システムおよびプログラム
US11514888B2 (en) * 2020-08-13 2022-11-29 Google Llc Two-level speech prosody transfer
US11335321B2 (en) * 2020-08-28 2022-05-17 Google Llc Building a text-to-speech system from a small amount of speech data
WO2022054994A1 (ko) * 2020-09-11 2022-03-17 서울대학교산학협력단 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체
CN112259072A (zh) * 2020-09-25 2021-01-22 北京百度网讯科技有限公司 语音转换方法、装置和电子设备
CN112270168B (zh) * 2020-10-14 2023-11-24 北京百度网讯科技有限公司 对白情感风格预测方法、装置、电子设备及存储介质
WO2022087180A1 (en) * 2020-10-21 2022-04-28 Google Llc Using speech recognition to improve cross-language speech synthesis
CN112289299B (zh) * 2020-10-21 2024-05-14 北京大米科技有限公司 语音合成模型的训练方法、装置、存储介质以及电子设备
WO2022094740A1 (en) * 2020-11-03 2022-05-12 Microsoft Technology Licensing, Llc Controlled training and use of text-to-speech models and personalized model generated voices
CN112365881A (zh) * 2020-11-11 2021-02-12 北京百度网讯科技有限公司 语音合成方法及对应模型的训练方法、装置、设备与介质
CN112435650B (zh) * 2020-11-11 2022-04-15 四川长虹电器股份有限公司 一种多说话人、多语言的语音合成方法及系统
EP4030421A4 (en) * 2020-11-18 2023-07-12 Minds Lab Inc. METHOD FOR CONVERTING A VOCAL CHARACTERISTIC OF THE VOICE
WO2022115803A1 (en) * 2020-11-30 2022-06-02 The Regents Of The University Of California Systems and methods for sound-enhanced meeting platforms
CN112669841A (zh) * 2020-12-18 2021-04-16 平安科技(深圳)有限公司 多语种语音的生成模型的训练方法、装置及计算机设备
US11594226B2 (en) * 2020-12-22 2023-02-28 International Business Machines Corporation Automatic synthesis of translated speech using speaker-specific phonemes
CN112750419B (zh) * 2020-12-31 2024-02-13 科大讯飞股份有限公司 一种语音合成方法、装置、电子设备和存储介质
CN112863483B (zh) * 2021-01-05 2022-11-08 杭州一知智能科技有限公司 支持多说话人风格、语言切换且韵律可控的语音合成装置
US11676571B2 (en) * 2021-01-21 2023-06-13 Qualcomm Incorporated Synthesized speech generation
KR102585795B1 (ko) * 2021-01-29 2023-10-05 이은영 멀티미디어 제공 애플리케이션을 통한 다언어 번역 제공 방법
KR102526391B1 (ko) 2021-02-02 2023-05-11 주식회사 휴텍씨 분배모델을 기반으로 통역서비스를 제공하기 위한 시스템
CN112927676A (zh) * 2021-02-07 2021-06-08 北京有竹居网络技术有限公司 一种语音信息的获取方法、装置、设备和存储介质
CN112988965B (zh) * 2021-03-01 2022-03-08 腾讯科技(深圳)有限公司 文本数据处理方法、装置、存储介质及计算机设备
CN115294955A (zh) * 2021-04-19 2022-11-04 北京猎户星空科技有限公司 一种模型训练和语音合成方法、装置、设备及介质
KR102267422B1 (ko) * 2021-04-20 2021-06-18 최인환 증시 관련 국제 뉴스 큐레이션 서비스 제공 방법, 장치 및 시스템
CN113241074A (zh) * 2021-04-28 2021-08-10 平安科技(深圳)有限公司 多语言转译模型的训练方法、装置、设备及可读存储介质
CN113343716B (zh) * 2021-05-20 2022-09-30 北京三快在线科技有限公司 一种多语种翻译方法、装置、存储介质及设备
TWI760234B (zh) 2021-05-25 2022-04-01 仁寶電腦工業股份有限公司 翻譯方法
CN113436606B (zh) * 2021-05-31 2022-03-22 引智科技(深圳)有限公司 一种原声语音翻译方法
CN113488020B (zh) * 2021-07-02 2024-04-12 科大讯飞股份有限公司 语音合成方法和相关设备、装置、介质
CN113409761B (zh) * 2021-07-12 2022-11-01 上海喜马拉雅科技有限公司 语音合成方法、装置、电子设备以及计算机可读存储介质
KR102402884B1 (ko) * 2021-07-20 2022-05-30 (주)아몬드미디어 자동번역 기반 글로벌 온라인 커뮤니티 서비스 제공 시스템
CN113314097B (zh) * 2021-07-30 2021-11-02 腾讯科技(深圳)有限公司 语音合成方法、语音合成模型处理方法、装置和电子设备
KR20230023226A (ko) * 2021-08-10 2023-02-17 우순조 확장 키보드를 이용한 다국어 통합 서비스 장치 및 방법
CN113808571B (zh) * 2021-08-17 2022-05-27 北京百度网讯科技有限公司 语音合成方法、装置、电子设备以及存储介质
CN113838452B (zh) 2021-08-17 2022-08-23 北京百度网讯科技有限公司 语音合成方法、装置、设备和计算机存储介质
CN113808572B (zh) 2021-08-18 2022-06-17 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质
WO2023063569A1 (ko) * 2021-10-15 2023-04-20 삼성전자주식회사 전자 장치 및 그 제어 방법
KR20230075998A (ko) * 2021-11-23 2023-05-31 네이버 주식회사 텍스트 기반 아바타 생성 방법 및 시스템
CN113920989B (zh) * 2021-12-13 2022-04-01 中国科学院自动化研究所 一种语音识别与语音翻译端到端系统及设备
EP4266306A1 (en) * 2022-04-22 2023-10-25 Papercup Technologies Limited A speech processing system and a method of processing a speech signal
CN115064177A (zh) * 2022-06-14 2022-09-16 中国第一汽车股份有限公司 基于声纹编码器的语音转换方法、装置、设备及介质
JP7179216B1 (ja) * 2022-07-29 2022-11-28 株式会社ドワンゴ 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体
KR20240023963A (ko) * 2022-08-16 2024-02-23 주식회사 딥브레인에이아이 발화 비디오 제공 장치 및 방법
KR20240023962A (ko) * 2022-08-16 2024-02-23 주식회사 딥브레인에이아이 발화 비디오 제공 장치 및 방법
KR102565458B1 (ko) * 2022-09-05 2023-08-11 (주)허드슨에이아이 신경망 기반 음소 번역 시스템
KR20240040387A (ko) * 2022-09-21 2024-03-28 삼성전자주식회사 전자 장치 및 그 오디오 트랙 획득 방법
CN116841523B (zh) * 2023-07-19 2023-12-22 上海海启科技有限公司 一种基于人工智能的在线编程方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090066106A (ko) * 2007-12-18 2009-06-23 삼성전자주식회사 음성 검색어 확장 방법 및 시스템
KR20140120560A (ko) * 2013-04-03 2014-10-14 삼성전자주식회사 통역 장치 제어 방법, 통역 서버의 제어 방법, 통역 시스템의 제어 방법 및 사용자 단말
US8898066B2 (en) * 2010-12-30 2014-11-25 Industrial Technology Research Institute Multi-lingual text-to-speech system and method
US9865251B2 (en) * 2015-07-21 2018-01-09 Asustek Computer Inc. Text-to-speech method and multi-lingual speech synthesizer using the method

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5130815A (en) 1990-07-20 1992-07-14 Mti Associates Method and apparatus for encoding a video signal having multi-language capabilities
SE9600959L (sv) * 1996-03-13 1997-09-14 Telia Ab Metod och anordning vid tal-till-talöversättning
KR100275446B1 (ko) * 1998-09-19 2000-12-15 이계철 음소 인식률을 이용한 기본 음소 설정 방법
US6813607B1 (en) * 2000-01-31 2004-11-02 International Business Machines Corporation Translingual visual speech synthesis
US7136802B2 (en) * 2002-01-16 2006-11-14 Intel Corporation Method and apparatus for detecting prosodic phrase break in a text to speech (TTS) system
KR20040055417A (ko) * 2002-12-21 2004-06-26 한국전자통신연구원 대화체 연속음성인식 장치 및 방법
US7496498B2 (en) 2003-03-24 2009-02-24 Microsoft Corporation Front-end architecture for a multi-lingual text-to-speech system
JP2006189544A (ja) * 2005-01-05 2006-07-20 Matsushita Electric Ind Co Ltd 通訳装置、通訳方法、通訳プログラムを記録した記録媒体、および通訳プログラム
CN101359473A (zh) * 2007-07-30 2009-02-04 国际商业机器公司 自动进行语音转换的方法和装置
US8244534B2 (en) 2007-08-20 2012-08-14 Microsoft Corporation HMM-based bilingual (Mandarin-English) TTS techniques
KR20100030265A (ko) * 2008-09-10 2010-03-18 (주)에이치씨아이랩 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치 및 그 방법
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
US8155961B2 (en) * 2008-12-09 2012-04-10 Nokia Corporation Adaptation of automatic speech recognition acoustic models
KR20100068965A (ko) 2008-12-15 2010-06-24 한국전자통신연구원 자동 통역 장치 및 그 방법
JP5457706B2 (ja) 2009-03-30 2014-04-02 株式会社東芝 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
US8825485B2 (en) * 2009-06-10 2014-09-02 Kabushiki Kaisha Toshiba Text to speech method and system converting acoustic units to speech vectors using language dependent weights for a selected language
US20110238407A1 (en) * 2009-08-31 2011-09-29 O3 Technologies, Llc Systems and methods for speech-to-speech translation
GB2478314B (en) * 2010-03-02 2012-09-12 Toshiba Res Europ Ltd A speech processor, a speech processing method and a method of training a speech processor
US8594993B2 (en) * 2011-04-04 2013-11-26 Microsoft Corporation Frame mapping approach for cross-lingual voice transformation
US8849628B2 (en) * 2011-04-15 2014-09-30 Andrew Nelthropp Lauder Software application for ranking language translations and methods of use thereof
US9922641B1 (en) * 2012-10-01 2018-03-20 Google Llc Cross-lingual speaker adaptation for multi-lingual speech synthesis
US9311913B2 (en) * 2013-02-05 2016-04-12 Nuance Communications, Inc. Accuracy of text-to-speech synthesis
GB2529564A (en) * 2013-03-11 2016-02-24 Video Dubber Ltd Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
US9195656B2 (en) 2013-12-30 2015-11-24 Google Inc. Multilingual prosody generation
US9613620B2 (en) * 2014-07-03 2017-04-04 Google Inc. Methods and systems for voice conversion
US9542927B2 (en) * 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings
KR102385851B1 (ko) * 2015-05-26 2022-04-13 주식회사 케이티 음성 인식 및 번역 시스템,방법 및 컴퓨터 프로그램
JP6622505B2 (ja) 2015-08-04 2019-12-18 日本電信電話株式会社 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
KR102525209B1 (ko) 2016-03-03 2023-04-25 한국전자통신연구원 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법
EP3438972B1 (en) 2016-03-28 2022-01-26 Sony Group Corporation Information processing system and method for generating speech
KR102565274B1 (ko) * 2016-07-07 2023-08-09 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치
CN108780643B (zh) * 2016-11-21 2023-08-25 微软技术许可有限责任公司 自动配音方法和装置
WO2018151125A1 (ja) * 2017-02-15 2018-08-23 日本電信電話株式会社 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム
US10692494B2 (en) * 2017-05-10 2020-06-23 Sattam Dasgupta Application-independent content translation
US20190095430A1 (en) * 2017-09-25 2019-03-28 Google Inc. Speech translation device and associated method
US10225621B1 (en) * 2017-12-20 2019-03-05 Dish Network L.L.C. Eyes free entertainment
EP3739477A4 (en) * 2018-01-11 2021-10-27 Neosapience, Inc. PROCESS AND SYSTEM FOR SPEECH TRANSLATION USING A MULTILINGUAL TEXT-SPEECH SYNTHESIS MODEL
GB201804073D0 (en) * 2018-03-14 2018-04-25 Papercup Tech Limited A speech processing system and a method of processing a speech signal
JP6902759B2 (ja) 2019-08-20 2021-07-14 株式会社エーアイ 音響モデル学習装置、音声合成装置、方法およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090066106A (ko) * 2007-12-18 2009-06-23 삼성전자주식회사 음성 검색어 확장 방법 및 시스템
US8898066B2 (en) * 2010-12-30 2014-11-25 Industrial Technology Research Institute Multi-lingual text-to-speech system and method
KR20140120560A (ko) * 2013-04-03 2014-10-14 삼성전자주식회사 통역 장치 제어 방법, 통역 서버의 제어 방법, 통역 시스템의 제어 방법 및 사용자 단말
US9865251B2 (en) * 2015-07-21 2018-01-09 Asustek Computer Inc. Text-to-speech method and multi-lingual speech synthesizer using the method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Younggun Lee 외, 'Emotional End-to-End Neural Speech Synthesizer', arXiv:1711.05447v1, NIPS 2017, 2017.11.* *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11551675B2 (en) 2019-09-03 2023-01-10 Samsung Electronics Co., Ltd. Electronic device and method for controlling the electronic device thereof
US11580963B2 (en) 2019-10-15 2023-02-14 Samsung Electronics Co., Ltd. Method and apparatus for generating speech
KR20210051524A (ko) * 2019-10-30 2021-05-10 주식회사 솔트룩스 음성 합성 시스템 및 이의 방법
WO2021107189A1 (ko) * 2019-11-28 2021-06-03 주식회사 엘솔루 음성인식을 위한 전자장치와 그 데이터 처리 방법
KR20220041448A (ko) 2020-09-25 2022-04-01 주식회사 딥브레인에이아이 텍스트 기반의 음성 합성 방법 및 장치
WO2022114451A1 (ko) * 2020-11-30 2022-06-02 주식회사 마인즈랩 인공 신경망 학습 방법과 이를 이용한 발음 평가 방법
KR20220076174A (ko) * 2020-11-30 2022-06-08 주식회사 마인즈랩 인공 신경망 학습 방법과 이를 이용한 발음 평가 방법
CN112652294A (zh) * 2020-12-25 2021-04-13 深圳追一科技有限公司 语音合成方法、装置、计算机设备和存储介质
CN112652294B (zh) * 2020-12-25 2023-10-24 深圳追一科技有限公司 语音合成方法、装置、计算机设备和存储介质
CN112992117A (zh) * 2021-02-26 2021-06-18 平安科技(深圳)有限公司 多语言语音模型生成方法、装置、计算机设备及存储介质
CN112992117B (zh) * 2021-02-26 2023-05-26 平安科技(深圳)有限公司 多语言语音模型生成方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
US11810548B2 (en) 2023-11-07
CN111566655B (zh) 2024-02-06
JP2022169714A (ja) 2022-11-09
JP7142333B2 (ja) 2022-09-27
KR102246943B1 (ko) 2021-04-30
KR20190085883A (ko) 2019-07-19
JP2022153569A (ja) 2022-10-12
JP2021511534A (ja) 2021-05-06
US20240013771A1 (en) 2024-01-11
CN111566656B (zh) 2024-02-20
KR102199067B1 (ko) 2021-01-06
KR102199050B1 (ko) 2021-01-06
JP2021511536A (ja) 2021-05-06
KR102265972B1 (ko) 2021-06-16
CN111566655A (zh) 2020-08-21
CN111566656A (zh) 2020-08-21
EP3739477A1 (en) 2020-11-18
EP3739476A1 (en) 2020-11-18
US11769483B2 (en) 2023-09-26
US20200342852A1 (en) 2020-10-29
KR20200144521A (ko) 2020-12-29
US11217224B2 (en) 2022-01-04
US20220084500A1 (en) 2022-03-17
EP3739477A4 (en) 2021-10-27
EP3739476A4 (en) 2021-12-08
US20200082806A1 (en) 2020-03-12
JP7445267B2 (ja) 2024-03-07
JP7178028B2 (ja) 2022-11-25
KR20200143659A (ko) 2020-12-24

Similar Documents

Publication Publication Date Title
KR102246943B1 (ko) 다중 언어 텍스트-음성 합성 방법
JP7355306B2 (ja) 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体
US11929059B2 (en) Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature
CN108899009B (zh) 一种基于音素的中文语音合成系统
KR20230043084A (ko) 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
US11763797B2 (en) Text-to-speech (TTS) processing
WO2019139428A1 (ko) 다중 언어 텍스트-음성 합성 방법
CN112185337A (zh) 多语言神经文本到语音合成
KR102062524B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
JP7357518B2 (ja) 音声合成装置及びプログラム
JP7500020B2 (ja) 多言語テキスト音声合成方法
Klabbers Text-to-Speech Synthesis
KR20240078628A (ko) 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant