WO2020190054A1 - Speech synthesis apparatus and method therefor - Google Patents

Speech synthesis apparatus and method therefor Download PDF

Info

Publication number
WO2020190054A1
WO2020190054A1 PCT/KR2020/003768 KR2020003768W WO2020190054A1 WO 2020190054 A1 WO2020190054 A1 WO 2020190054A1 KR 2020003768 W KR2020003768 W KR 2020003768W WO 2020190054 A1 WO2020190054 A1 WO 2020190054A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech synthesis
neural network
emotion
information
vector
Prior art date
Application number
PCT/KR2020/003768
Other languages
French (fr)
Korean (ko)
Inventor
이자룡
박중배
Original Assignee
휴멜로 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 휴멜로 주식회사 filed Critical 휴멜로 주식회사
Publication of WO2020190054A1 publication Critical patent/WO2020190054A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Provided is a speech synthesis apparatus capable of synthesizing emotional speech that reflects emotional information. A speech synthesis apparatus according to some embodiments of the present disclosure can include: a pre-processing unit for pre-processing inputted text; and a speech synthesis unit, which inputs the pre-processed text and the emotional information into a neural network-based speech synthesis model, so as to synthesize, for the inputted text, emotional speech that reflects emotional information, wherein the speech synthesis model includes an encoder neural network and a decoder neural network, and the emotional speech that reflects the emotional information can be outputted by using emotion embedding vectors for the emotional information as an input into the encoder neural network.

Description

음성 합성 장치 및 그 방법Speech synthesis device and method thereof
본 개시는 음성 합성 장치 및 그 방법에 관한 것이다. 보다 자세하게는, 신경망 기반의 음성 합성 모델을 이용하여 감정 정보가 반영된 감정 음성을 합성하는 장치, 그 장치에서 수행되는 음성 합성 방법 및 상기 음성 합성 모델을 구축하는 방법에 관한 것이다.The present disclosure relates to a speech synthesis apparatus and method thereof. In more detail, the present invention relates to an apparatus for synthesizing an emotional speech reflecting emotion information using a neural network-based speech synthesis model, a speech synthesis method performed by the apparatus, and a method of constructing the speech synthesis model.
음성 합성(speech synthesis) 기술은 입력된 텍스트로부터 사람이 말하는 소리와 유사한 소리를 합성해내는 기술로 흔히 TTS(Text-To-Speech) 기술로도 알려져 있다. 근래에 들어, 스마트폰, 전자 책 리더, 차량 네비게이션 등 개인 휴대용 장치의 개발과 보급이 활발하게 이루어짐으로써 음성 출력을 위한 음성 합성 기술에 대한 요구가 급속도로 증가하고 있다.Speech synthesis technology is a technology that synthesizes a sound similar to a human speaking sound from an input text, and is commonly known as a text-to-speech (TTS) technology. In recent years, as personal portable devices such as smart phones, e-book readers, and vehicle navigation have been actively developed and distributed, the demand for speech synthesis technology for voice output is rapidly increasing.
음성 합성 기술에 대한 요구가 증가함에 따라 그 요구사항 또한 세분화되고 있는데, 최근에는 특정 텍스트로부터 사람의 감정이 담긴 다양한 감정 음성을 합성해낼 수 있는 기술에 대한 수요가 지속적으로 제기되고 있다.As the demand for speech synthesis technology increases, the requirements are also subdivided. Recently, demand for a technology capable of synthesizing various emotional voices containing human emotions from a specific text has been continuously raised.
종래의 경우, 감정 음성을 합성해내기 위해 오디오 후처리 방식이 주로 이용되었다. 오디오 후처리 방식은 입력된 텍스트에 대한 음성을 합성하고, 합성된 음성의 오디오 신호를 원하는 감정에 따라 수정하는 방식인데, 이와 같은 방식은 오디오 신호를 인위적으로 수정하기 때문에 음성의 자연스러움이 사라진다는 문제점이 있었다.In the conventional case, an audio post-processing method was mainly used to synthesize emotional voices. The audio post-processing method synthesizes the voice for the input text and modifies the audio signal of the synthesized voice according to the desired emotion. This method artificially modifies the audio signal, so the naturalness of the voice disappears. There was a problem.
또한, 텍스트 토큰 단위로 감정 별 음성 단편들을 미리 음성 DB에 저장해 놓고 원하는 감정에 따라 기 저장된 음성 단편을 추출하여 합성하는 방식이 제안된 바도 있다. 그러나, 이와 같은 방식도 음성 단편 간의 연결 문제로 인해 매끄럽지 않은 음성이 생성되는 문제가 있고, 무엇보다 방대한 음성 DB를 구축하는데 많은 시간 비용이 소요되는 문제가 있었다.In addition, a method has been proposed in which voice fragments for each emotion are stored in the voice DB in advance in units of text tokens, and the previously stored voice fragments are extracted and synthesized according to the desired emotion. However, even in such a method, there is a problem in that a non-smooth voice is generated due to a connection problem between voice fragments, and above all, it takes a lot of time and cost to build a massive voice DB.
따라서, 다양하고 연속적인 감정이 담긴 감정 음성을 생성할 수 있는 음성 합성 방법이 요구된다.Accordingly, there is a need for a voice synthesis method capable of generating emotional voices containing various and continuous emotions.
본 개시의 몇몇 실시예들을 통해 해결하고자 하는 기술적 과제는, 주어진 텍스트에 대하여 다양한 감정이 담긴 감정 음성을 합성할 수 있는 장치 및 그 장치에서 수행되는 방법을 제공하는 것이다.A technical problem to be solved through some embodiments of the present disclosure is to provide an apparatus capable of synthesizing emotional voices containing various emotions for a given text and a method performed by the apparatus.
본 개시의 몇몇 실시예들을 통해 해결하고자 하는 다른 기술적 과제는, 주어진 텍스트에 대한 감정 음성을 합성할 수 있는 신경망 기반의 음성 합성 모델을 구축할 수 있는 장치 및 그 장치에서 수행되는 방법을 제공하는 것이다.Another technical problem to be solved through some embodiments of the present disclosure is to provide an apparatus capable of constructing a neural network-based speech synthesis model capable of synthesizing an emotional voice for a given text, and a method performed in the apparatus. .
본 개시의 몇몇 실시예들을 통해 해결하고자 하는 또 다른 기술적 과제는, 주어진 텍스트에 대하여 화자 별로 다양한 감정이 담긴 감정 음성을 합성할 수 있는 장치 및 그 장치에서 수행되는 방법을 제공하는 것이다.Another technical problem to be solved through some embodiments of the present disclosure is to provide an apparatus capable of synthesizing emotional voices containing various emotions for each speaker with respect to a given text, and a method performed by the apparatus.
본 개시의 몇몇 실시예들을 통해 해결하고자 하는 또 다른 기술적 과제는, 주어진 텍스트에 대하여 화자 별로 다양한 감정이 담긴 감정 음성을 합성할 수 있는 신경망 기반의 음성 합성 모델을 구축할 수 있는 장치 및 그 장치에서 수행되는 방법을 제공하는 것이다.Another technical problem to be solved through some embodiments of the present disclosure is an apparatus capable of constructing a neural network-based speech synthesis model capable of synthesizing emotional voices containing various emotions for each speaker for a given text, and in the apparatus It is to provide a way to be done.
본 개시의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The technical problems of the present disclosure are not limited to the technical problems mentioned above, and other technical problems that are not mentioned will be clearly understood by those skilled in the art from the following description.
상기 기술적 과제를 해결하기 위한, 본 개시의 몇몇 실시예들에 따른 음성 합성 장치는, 입력된 텍스트에 대한 전처리를 수행하는 전처리부 및 상기 전처리된 텍스트와 감정 정보를 신경망 기반의 음성 합성 모델에 입력하여 상기 입력된 텍스트에 대해 상기 감정 정보가 반영된 감정 음성을 합성하는 음성 합성부를 포함하되, 상기 음성 합성 모델은, 상기 전처리된 텍스트를 문자 임베딩 벡터로 변환하는 문자 임베딩 모듈, 상기 감정 정보를 감정 임베딩 벡터로 변환하는 감정 임베딩 모듈, 상기 문자 임베딩 벡터로 구성된 입력 시퀀스와 상기 감정 임베딩 벡터를 입력받고 인코딩된 벡터를 출력하는 인코더 신경망 및 상기 인코딩된 벡터를 입력받고 상기 감정 음성과 연관된 출력 시퀀스를 출력하는 디코더 신경망을 포함할 수 있다.In order to solve the above technical problem, a speech synthesis apparatus according to some embodiments of the present disclosure includes a preprocessor that performs preprocessing on an input text, and inputs the preprocessed text and emotion information into a speech synthesis model based on a neural network. And a speech synthesis unit for synthesizing an emotion voice in which the emotion information is reflected with respect to the input text, wherein the speech synthesis model includes a text embedding module for converting the preprocessed text into a text embedding vector, and an emotion embedding the emotion information An emotion embedding module that converts into a vector, an encoder neural network that receives an input sequence consisting of the character embedding vector and the emotion embedding vector and outputs an encoded vector, and an encoder neural network that receives the encoded vector and outputs an output sequence associated with the emotion speech. It may include a decoder neural network.
몇몇 실시예에서, 상기 음성 합성 모델은, 상기 인코더 신경망과 상기 디코더 신경망 사이에 위치하고 상기 디코더 신경망이 상기 인코딩된 벡터에서 집중할 부분을 결정하는 어텐션(attention) 모듈을 더 포함할 수 있다.In some embodiments, the speech synthesis model may further include an attention module positioned between the encoder neural network and the decoder neural network and determining a portion to be focused by the decoder neural network in the encoded vector.
몇몇 실시예에서, 상기 출력 시퀀스는 스펙트로그램(spectrogram) 형태의 데이터로 구성되고, 상기 음성 합성부는, 상기 출력 시퀀스를 상기 감정 음성으로 변환하는 보코더부를 더 포함할 수 있다.In some embodiments, the output sequence is composed of data in the form of a spectrogram, and the speech synthesis unit may further include a vocoder unit for converting the output sequence into the emotional speech.
몇몇 실시예에서, 상기 디코더 신경망은, 상기 감정 임베딩 벡터를 더 입력받고 상기 출력 시퀀스를 출력할 수 있다.In some embodiments, the decoder neural network may further receive the emotion embedding vector and output the output sequence.
몇몇 실시예에서, 상기 출력 시퀀스는 스펙트로그램 형태의 데이터로 구성되고, 상기 음성 합성부는, 상기 전처리부에 의해 전처리된 학습용 텍스트를 상기 음성 합성 모델에 입력하고, 그 결과로 획득된 스펙트로그램 데이터와 정답 스펙트로그램 데이터를 비교하여 오차 값을 산출하며, 상기 산출된 오차 값을 역전파(back-propagation)하여 상기 음성 합성 모델을 학습시킬 수 있다.In some embodiments, the output sequence is composed of spectrogram-type data, and the speech synthesis unit inputs the text for training preprocessed by the preprocessor into the speech synthesis model, and the spectrogram data obtained as a result The speech synthesis model may be trained by comparing correct answer spectrogram data to calculate an error value, and back-propagating the calculated error value.
몇몇 실시예에서, 상기 음성 합성 모델은, 화자 정보를 화자 임베딩 벡터로 변환하는 화자 임베딩 모듈을 더 포함하고, 상기 음성 합성부는, 상기 화자 정보를 상기 음성 합성 모델에 입력하여 상기 화자 정보가 나타내는 특정 화자에 대해 상기 감정 정보가 반영된 음성을 상기 감정 음성으로 출력할 수 있다.In some embodiments, the speech synthesis model further includes a speaker embedding module for converting speaker information into a speaker embedding vector, and the speech synthesis unit inputs the speaker information to the speech synthesis model to determine the specific information indicated by the speaker information. The voice reflecting the emotion information for the speaker may be output as the emotional voice.
상술한 기술적 과제를 해결하기 위한 본 개시의 다른 몇몇 실시예들에 따른 음성 합성 장치는, 입력된 텍스트에 대한 전처리를 수행하는 전처리부 및 상기 전처리된 텍스트와 감정 정보를 신경망 기반의 음성 합성 모델에 입력하여 상기 입력된 텍스트에 대해 상기 감정 정보가 반영된 감정 음성을 합성하는 음성 합성부를 포함하되, 상기 음성 합성 모델은, 상기 전처리된 텍스트를 문자 임베딩 벡터로 변환하는 문자 임베딩 모듈, 상기 감정 정보를 감정 임베딩 벡터로 변환하는 감정 임베딩 모듈, 상기 문자 임베딩 벡터로 구성된 입력 시퀀스를 입력받고 인코딩된 벡터를 출력하는 인코더 신경망 및 상기 인코딩된 벡터와 상기 감정 임베딩 벡터를 입력받고 상기 감정 음성과 연관된 출력 시퀀스를 출력하는 디코더 신경망을 포함할 수 있다.In order to solve the above technical problem, a speech synthesis apparatus according to some embodiments of the present disclosure includes a preprocessor for performing preprocessing on an input text, and the preprocessed text and emotion information in a neural network-based speech synthesis model. And a speech synthesis unit for synthesizing an emotion voice in which the emotion information is reflected with respect to the input text, wherein the speech synthesis model includes a text embedding module for converting the preprocessed text into a text embedding vector, and the emotion information An emotion embedding module that converts into an embedding vector, an encoder neural network that receives an input sequence consisting of the character embedding vector and outputs an encoded vector, and the encoded vector and the emotion embedding vector, and outputs an output sequence associated with the emotion speech It may include a decoder neural network.
상술한 기술적 과제를 해결하기 위한 본 개시의 몇몇 실시예들에 따른 음성 합성 모델 구축 방법은, 컴퓨팅 장치에서 감정 음성을 합성하기 위해 인코더 신경망 및 디코더 신경망을 포함하는 음성 합성 모델을 구축하는 방법에 있어서, 학습용 텍스트를 임베딩(embedding)하여 문자 임베딩 벡터로 변환하는 단계, 학습용 감정 정보를 임베딩하여 감정 임베딩 벡터로 변환하는 단계, 상기 인코더 신경망에서 상기 문자 임베딩 벡터 및 상기 감정 임베딩 벡터를 입력받고 인코딩된 벡터를 출력하는 단계, 상기 디코더 신경망에서 상기 인코딩된 벡터를 입력받고 예측 스펙트로그램 데이터를 출력하는 단계 및 정답 스펙트로그램 데이터와 상기 예측 스펙트로그램 데이터 간의 오차를 역전파(back-propagation)하여 상기 음성 합성 모델을 갱신하는 단계를 포함할 수 있다.A method of constructing a speech synthesis model according to some embodiments of the present disclosure for solving the above technical problem is a method of constructing a speech synthesis model including an encoder neural network and a decoder neural network to synthesize emotional speech in a computing device. , Embedding the training text and converting it into a character embedding vector, embedding the training emotion information and converting it into an emotion embedding vector, an encoded vector receiving the character embedding vector and the emotion embedding vector in the encoder neural network Outputting, receiving the encoded vector from the decoder neural network and outputting predicted spectrogram data, and back-propagation of an error between the correct answer spectrogram data and the predicted spectrogram data to the speech synthesis model It may include the step of updating.
도 1은 본 개시의 몇몇 실시예들에 따른 음성 합성 장치의 입력 및 출력을 설명하기 위한 도면이다.1 is a diagram for explaining input and output of a speech synthesis apparatus according to some embodiments of the present disclosure.
도 2는 본 개시의 몇몇 실시예들에 따른 음성 합성 장치를 나타내는 예시적인 블록도이다.2 is an exemplary block diagram illustrating a speech synthesis apparatus according to some embodiments of the present disclosure.
도 3은 본 개시의 몇몇 실시예들에 따른 전처리부의 동작을 설명하기 위한 예시도이다.3 is an exemplary diagram for describing an operation of a preprocessor according to some embodiments of the present disclosure.
도 4는 본 개시의 몇몇 실시예들에 따른 음성 합성부를 나타내는 예시적인 블록도이다.4 is an exemplary block diagram illustrating a speech synthesizer according to some embodiments of the present disclosure.
도 5 및 도 6은 본 개시의 몇몇 실시예들에 따른 음성 합성 모델의 신경망 구조를 설명하기 위한 도면이다.5 and 6 are diagrams for explaining a neural network structure of a speech synthesis model according to some embodiments of the present disclosure.
도 7 및 도 8은 본 개시의 다양한 실시예들에서 참조될 수 있는 감성 정보를 설명하기 위한 예시도이다.7 and 8 are exemplary diagrams for explaining emotional information that may be referred to in various embodiments of the present disclosure.
도 9는 본 개시의 몇몇 실시예들에 따른 음성 합성 모델에 이용될 수 있는 LSTM 순환 신경망을 나타내는 예시도이다.9 is an exemplary diagram illustrating an LSTM recurrent neural network that can be used in a speech synthesis model according to some embodiments of the present disclosure.
도 10은 본 개시의 몇몇 실시예들에 따른 음성 합성 모델에 대한 학습 동작을 설명하기 위한 예시도이다.10 is an exemplary diagram for explaining a learning operation for a speech synthesis model according to some embodiments of the present disclosure.
도 11 내지 도 15는 본 개시의 다양한 실시예들에 따른 변형된 음성 합성 모델의 신경망 구조를 설명하기 위한 도면이다.11 to 15 are diagrams for explaining a neural network structure of a modified speech synthesis model according to various embodiments of the present disclosure.
도 16은 본 개시의 몇몇 실시예들에 따른 음성 합성 방법을 나타내는 예시적인 흐름도이다.16 is an exemplary flowchart illustrating a speech synthesis method according to some embodiments of the present disclosure.
도 17은 본 개시의 몇몇 실시예들에 따른 음성 합성 모델 구축 방법을 설명하기 위한 예시적인 흐름도이다.17 is an exemplary flowchart illustrating a method of constructing a speech synthesis model according to some embodiments of the present disclosure.
도 18은 본 개시의 몇몇 실시예들에 따른 음성 합성 장치를 구현할 수 있는 예시적인 컴퓨팅 장치를 설명하기 위한 도면이다.18 is a diagram illustrating an exemplary computing device capable of implementing a speech synthesis device according to some embodiments of the present disclosure.
이하, 첨부된 도면을 참조하여 본 개시의 바람직한 실시예들을 상세히 설명한다. 본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 개시의 기술적 사상을 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 본 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.Hereinafter, exemplary embodiments of the present disclosure will be described in detail with reference to the accompanying drawings. Advantages and features of the present disclosure, and a method of achieving them will be apparent with reference to the embodiments described below in detail together with the accompanying drawings. However, the technical idea of the present disclosure is not limited to the following embodiments, but may be implemented in various different forms, and only the following embodiments complete the technical idea of the present disclosure, and in the technical field to which the present disclosure belongs. It is provided to completely inform the scope of the present disclosure to those of ordinary skill in the art, and the technical idea of the present disclosure is only defined by the scope of the claims.
각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.In adding reference numerals to elements of each drawing, it should be noted that the same elements are assigned the same numerals as possible even if they are indicated on different drawings. In addition, in describing the present disclosure, if it is determined that a detailed description of a related known configuration or function may obscure the subject matter of the present disclosure, a detailed description thereof will be omitted.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.Unless otherwise defined, all terms (including technical and scientific terms) used in the present specification may be used as meanings that can be commonly understood by those of ordinary skill in the art to which this disclosure belongs. In addition, terms defined in a commonly used dictionary are not interpreted ideally or excessively unless explicitly defined specifically. The terms used in the present specification are for describing exemplary embodiments and are not intended to limit the present disclosure. In this specification, the singular form also includes the plural form unless specifically stated in the phrase.
또한, 본 개시의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.In addition, in describing the constituent elements of the present disclosure, terms such as first, second, A, B, (a) and (b) may be used. These terms are only used to distinguish the component from other components, and the nature, order, or order of the component is not limited by the term. When a component is described as being "connected", "coupled" or "connected" to another component, the component may be directly connected or connected to that other component, but another component between each component It should be understood that elements may be “connected”, “coupled” or “connected”.
명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.As used in the specification, "comprises" and/or "comprising" refers to the presence of one or more other components, steps, actions and/or elements, and/or elements, steps, actions and/or elements mentioned. Or does not exclude additions.
본 명세서에 대한 설명에 앞서, 본 명세서에서 사용되는 몇몇 용어들에 대하여 명확하게 하기로 한다.Prior to the description of the present specification, some terms used in the present specification will be clarified.
본 명세서에서, 감정 음성(emotional speech or emotional voice)이란, 글자 그대로 사람의 감정을 담아 합성된 음성을 의미한다.In the present specification, emotional speech (emotional speech or emotional voice) means a speech synthesized by literally containing human emotions.
본 명세서에서 인스트럭션(instruction)이란, 기능을 기준으로 묶인 일련의 컴퓨터 판독가능 명령어들로서 컴퓨터 프로그램의 구성 요소이자 프로세서에 의해 실행되는 것을 가리킨다.In this specification, an instruction refers to a series of computer-readable instructions grouped on a function basis, which is a component of a computer program and executed by a processor.
이하, 본 개시의 몇몇 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.Hereinafter, some embodiments of the present disclosure will be described in detail with reference to the accompanying drawings.
도 1은 본 개시의 몇몇 실시예들에 따른 음성 합성 장치(10)의 입력 및 출력을 나타내는 예시적인 도면이다.1 is an exemplary diagram illustrating inputs and outputs of a speech synthesis apparatus 10 according to some embodiments of the present disclosure.
도 1에 도시된 바와 같이, 음성 합성 장치(10)는 텍스트(1) 및 감정 정보(3)를 입력받고 그에 대응되는 감정 음성(7)을 합성하여 출력하는 컴퓨팅 장치이다. 이때의 감정 음성(7)은 감정 정보(3)가 반영된 음성을 의미한다.As shown in FIG. 1, the speech synthesis device 10 is a computing device that receives text 1 and emotion information 3, synthesizes and outputs emotion voices 7 corresponding thereto. The emotional voice 7 at this time refers to the voice reflecting the emotional information 3.
상기 컴퓨팅 장치는 노트북, 데스크톱(desktop), 랩탑(laptop) 등이 될 수 있으나, 이에 국한되는 것은 아니며 컴퓨팅 기능이 구비된 모든 종류의 장치를 포함할 수 있다. 상기 컴퓨팅 장치의 일 예는 도 18을 더 참조하도록 한다.The computing device may be a notebook computer, a desktop computer, a laptop computer, etc., but is not limited thereto and may include all types of devices equipped with a computing function. For an example of the computing device, refer to FIG. 18 further.
도 1은 음성 합성 장치(10)가 단일 컴퓨팅 장치로 구현된 것을 예로써 도시하고 있으나, 음성 합성 장치(10)의 제1 기능은 제1 컴퓨팅 장치에서 구현되고, 제2 기능은 제2 컴퓨팅 장치에서 구현될 수도 있다.1 illustrates, as an example, that the speech synthesis device 10 is implemented as a single computing device, but the first function of the speech synthesis device 10 is implemented in a first computing device, and the second function is a second computing device. It can also be implemented in
몇몇 실시예에서, 음성 합성 장치(10)는 화자 정보(5)를 더 입력받고, 화자 정보(10)가 나타내는 특정 화자의 감정 음성(7)을 합성하여 출력할 수도 있다. 이때의 감정 음성(7)은 상기 특정 화자의 감정 정보(3)가 반영된 음성을 의미한다.In some embodiments, the speech synthesis apparatus 10 may further receive speaker information 5 and synthesize and output the emotional voice 7 of a specific speaker indicated by the speaker information 10. The emotional voice 7 at this time means a voice reflecting the emotion information 3 of the specific speaker.
본 개시의 다양한 실시예들에 따르면, 음성 합성 장치(10)는 다양하고 연속적인 감정이 반영된 음성을 합성하기 위해 신경망(neural network) 기반의 음성 합성 모델을 구축하고, 상기 음성 합성 모델을 통해 감정 음성(7)을 합성할 수 있다. 음성 합성 모델의 신경망 구조 및 학습 방법에 대한 자세한 설명은 도 2 이하의 도면을 참조하여 상세하게 설명하도록 한다.According to various embodiments of the present disclosure, the speech synthesis apparatus 10 constructs a speech synthesis model based on a neural network in order to synthesize speech reflecting various and continuous emotions, and through the speech synthesis model Voice (7) can be synthesized. A detailed description of the neural network structure and learning method of the speech synthesis model will be described in detail with reference to the accompanying drawings in FIG. 2.
도 2는 본 개시의 몇몇 실시예들에 따른 음성 합성 장치(10)를 나타내는 예시적인 블록도이다.2 is an exemplary block diagram illustrating a speech synthesis apparatus 10 according to some embodiments of the present disclosure.
도 2에 도시된 바와 같이, 음성 합성 장치(10)는 입력부(21), 전처리부(23), 저장부(25) 및 음성 합성부(27)를 포함할 수 있다. 다만, 도 2에는 본 개시의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 개시가 속한 기술분야의 통상의 기술자라면 도 2에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다. 또한, 도 2에 도시된 음성 합성 장치(10)의 각각의 구성 요소들은 기능적으로 구분되는 기능 요소들을 나타낸 것으로서, 복수의 구성 요소가 실제 물리적 환경에서는 서로 통합되는 형태로 구현될 수도 있음에 유의한다. 이하, 각 구성요소에 대하여 상세하게 설명한다.As shown in FIG. 2, the speech synthesis apparatus 10 may include an input unit 21, a preprocessor 23, a storage unit 25, and a speech synthesis unit 27. However, only the components related to the embodiment of the present disclosure are shown in FIG. 2. Accordingly, those of ordinary skill in the art to which the present disclosure pertains may recognize that other general-purpose components may be further included in addition to the components illustrated in FIG. 2. In addition, it should be noted that each of the constituent elements of the speech synthesis apparatus 10 shown in FIG. 2 represents functional elements that are functionally divided, and a plurality of constituent elements may be implemented in a form integrated with each other in an actual physical environment. . Hereinafter, each component will be described in detail.
입력부(21)는 텍스트, 감정 정보, 화자 정보 등을 입력받는다. 입력된 정보 중에서 텍스트는 전처리를 위해 전처리부(23)로 제공되고, 나머지 정보(e.g. 감정, 화자 정보 등)는 음성 합성부(25)로 제공될 수 있다.The input unit 21 receives text, emotion information, speaker information, and the like. Among the input information, text may be provided to the preprocessor 23 for preprocessing, and the remaining information (e.g. emotion, speaker information, etc.) may be provided to the speech synthesis unit 25.
또한, 입력부(21)는 음성 합성 모델(43)의 학습을 위해 학습용 텍스트, 학습용 감정 정보, 학습용 화자 정보 및 정답 음성 데이터를 포함하는 학습용 데이터셋을 입력받을 수도 있다. 각 데이터에 대한 설명은 후술하도록 한다.In addition, the input unit 21 may receive a training data set including training text, training emotion information, training speaker information, and correct answer voice data for training the speech synthesis model 43. A description of each data will be described later.
다음으로, 전처리부(23)는 입력된 텍스트에 대한 전처리를 수행한다. 상기 전처리는 입력된 텍스트를 문장 단위로 분할하는 것, 문장 단위의 텍스트를 어절, 단어, 문자, 음소 등의 단위로 파싱하는 것, 숫자 및 특수 문자 등을 문자로 변환하는 것 등 다양한 방식이 될 수 있으며, 구체적인 전처리 방식은 실시예에 따라 얼마든지 달라질 수 있다. 전처리 과정의 몇몇 예시는 도 3에 도시되어 있다.Next, the preprocessor 23 performs preprocessing on the input text. The pre-processing can be in various ways, such as dividing the input text into sentences, parsing the text in units of sentences into units such as words, words, characters, and phonemes, and converting numbers and special characters into characters. It can be, and the specific pre-treatment method may vary according to the embodiment. Some examples of the pretreatment process are shown in FIG. 3.
도 3에 도시된 바와 같이, 전처리부(23)는 입력된 텍스트(31)의 숫자를 문자로 변환하여 문자 형태의 텍스트(33)를 생성하고, 텍스트(33)를 음소 단위의 텍스트(35)로 변환할 수 있다. 그러나, 이는 전처리부(23)의 동작을 설명하기 위한 일 예시에 불과할 뿐이고, 전처리부(23)는 다양한 방식으로 자연어 전처리 기능을 수행할 수 있다.As shown in FIG. 3, the preprocessor 23 converts the number of the input text 31 into a character to generate a text 33 in the form of a character, and converts the text 33 to the text 35 in phoneme units. Can be converted to However, this is only an example for describing the operation of the preprocessor 23, and the preprocessor 23 may perform a natural language preprocessing function in various ways.
몇몇 실시예에서, 전처리부(23)는 텍스트 전처리 기능 뿐만 아니라 음성 데이터(e.g. wav 형식의 오디오)를 스펙트로그램 형태의 데이터로 변환하는 전처리 기능을 더 수행할 수 있다. 가령, 전처리부(23)는 STFT(Short Time Fourier Transform) 신호 처리를 수행하여 음성 데이터를 STFT 스펙트로그램 데이터로 변환하거나 상기 STFT 스펙트로그램 데이터를 멜-스케일(mel-scale)로 변환할 수 있다. 상기 스펙트로그램 데이터는 음성 합성 모델(43)을 학습시키기 위해 이용될 수 있다.In some embodiments, the preprocessor 23 may further perform not only a text preprocessing function, but also a preprocessing function of converting voice data (e.g. wav format audio) into spectrogram format data. For example, the preprocessor 23 may perform Short Time Fourier Transform (STFT) signal processing to convert voice data into STFT spectrogram data or transform the STFT spectrogram data into mel-scale. The spectrogram data may be used to train the speech synthesis model 43.
다시 도 2를 참조하면, 저장부(25)는 텍스트, 감정 정보, 화자 정보, 음성 데이터. 스펙트로그램 데이터 등의 각종 데이터를 저장하고 관리한다. 데이터의 효과적인 관리를 위해, 저장부(25)는 데이터베이스를 상기 각종 데이터를 관리할 수 있다. 상기 각종 데이터는 음성 합성 모델(43)을 구축하기 위한 학습 데이터로 활용될 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.Referring back to FIG. 2, the storage unit 25 includes text, emotion information, speaker information, and voice data. It stores and manages various data such as spectrogram data. For effective data management, the storage unit 25 may manage the various types of data in a database. The various data may be used as training data for constructing the speech synthesis model 43, but the technical scope of the present disclosure is not limited thereto.
다음으로, 음성 합성부(27)는 전처리된 텍스트와 감정 및 화자 정보를 입력받고, 상기 화자 정보가 나타내는 특정 화자의 감정 음성을 생성(합성)한다. 즉, 음성 합성부(27)는 동일한 텍스트에 대해 서로 다른 화자의 음성을 생성하거나, 서로 다른 감정이 반영된 감정 음성을 생성할 수 있다. 가령, 제1 화자 정보가 입력되면 음성 합성부(27)는 상기 제1 화자의 음성을 합성하여 출력하고, 제1 감정 정보가 입력되면 음성 합성부(27)는 상기 제1 감정이 담긴 감정 음성을 합성하여 출력할 수 있다.Next, the speech synthesis unit 27 receives the pre-processed text, emotions, and speaker information, and generates (synthesizes) the emotional voice of a specific speaker indicated by the speaker information. That is, the speech synthesis unit 27 may generate voices of different speakers for the same text or may generate emotional voices reflecting different emotions. For example, when the first speaker information is input, the speech synthesis unit 27 synthesizes and outputs the voice of the first speaker, and when the first emotion information is input, the speech synthesis unit 27 generates an emotional voice containing the first emotion. Can be synthesized and printed.
도 4에 도시된 바와 같이, 몇몇 실시예들에 따른 음성 합성부(27)는 학습부(41), 음성 합성 모델(43), 합성부(45) 및 보코더부(47)를 포함할 수 있다. 이하, 음성 합성부(27)의 세부 구성요소에 대하여 상세하게 설명한다.As illustrated in FIG. 4, the speech synthesis unit 27 according to some embodiments may include a learning unit 41, a speech synthesis model 43, a synthesis unit 45, and a vocoder unit 47. . Hereinafter, detailed components of the speech synthesis unit 27 will be described in detail.
학습부(41)는 학습용 데이터셋을 이용하여 음성 합성 모델(43)을 학습시킨다. 즉, 학습부(41)는 학습용 데이터셋을 이용하여 음성 합성 모델(43)의 예측 오차가 최소화되도록 음성 합성 모델(43)의 가중치를 갱신함으로써 음성 합성 모델(43)을 구축할 수 있다. 상기 학습용 데이터셋은 저장부(25)로부터 제공받을 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다. 이해의 편의를 제공하기 위해, 음성 합성 모델(43)의 신경망 구조에 대해서 먼저 설명하고, 그 이후 학습부(41)의 동작에 대하여 상세하게 설명하도록 한다.The learning unit 41 trains the speech synthesis model 43 using the training data set. That is, the learning unit 41 may construct the speech synthesis model 43 by updating the weight of the speech synthesis model 43 so that the prediction error of the speech synthesis model 43 is minimized using the training data set. The training data set may be provided from the storage unit 25, but the technical scope of the present disclosure is not limited thereto. In order to provide ease of understanding, the structure of the neural network of the speech synthesis model 43 will be first described, and then the operation of the learning unit 41 will be described in detail.
음성 합성 모델(43)은 전처리된 텍스트, 감정 정보 및/또는 화자 정보를 입력받고 그에 대응되는 감정 음성을 합성하는 신경망 기반의 모델이다. 도 5에 도시된 바와 같이, 본 개시의 몇몇 실시예들에 따른 음성 합성 모델(43)은 임베딩 모듈(51), 인코더 신경망(53), 어텐션 모듈(55) 및 디코더 신경망(57)을 포함할 수 있다.The speech synthesis model 43 is a neural network-based model that receives pre-processed text, emotion information, and/or speaker information and synthesizes emotion speech corresponding thereto. As shown in FIG. 5, the speech synthesis model 43 according to some embodiments of the present disclosure includes an embedding module 51, an encoder neural network 53, an attention module 55, and a decoder neural network 57. I can.
임베딩 모듈(51)은 입력된 정보를 임베딩(embedding)하여 벡터 형태의 데이터로 변환하는 모듈이다. 도 6에 도시된 바와 같이, 임베딩 모듈(51)은 문자 임베딩 모듈(61), 감정 임베딩 모듈(63) 및 화자 임베딩 모듈(65)을 포함할 수 있다.The embedding module 51 is a module that embeds input information and converts it into vector data. As illustrated in FIG. 6, the embedding module 51 may include a character embedding module 61, an emotion embedding module 63, and a speaker embedding module 65.
문자 임베딩 모듈(61)은 전처리된 텍스트 정보를 임베딩하여 문자 임베딩 벡터로 변환하는 모듈이다. 가령, 문자 임베딩 모듈(61)은 fasttext 임베딩 기법, 오토-인코더(auto-encoder) 임베딩 기법, 셀프-어텐션(self-attention) 임베딩 기법 등을 이용하여 문자 임베딩 벡터를 생성할 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.The character embedding module 61 is a module that embeds preprocessed text information and converts it into a character embedding vector. For example, the character embedding module 61 may be able to generate a character embedding vector using a fasttext embedding technique, an auto-encoder embedding technique, a self-attention embedding technique, etc. The technical scope of is not limited thereto.
다음으로, 감정 임베딩 모듈(63)은 감정 정보를 임베딩하여 감정 임베딩 벡터로 변환하는 모듈이다.Next, the emotion embedding module 63 is a module that embeds emotion information and converts it into an emotion embedding vector.
몇몇 실시예에서, 감정 임베딩 모듈(63)은 음성 합성 모델(43)의 특정 레이어로 구현될 수 있다. 이를테면, 감정 임베딩 모듈(63)은 인코더 신경망(53) 및/또는 디코더 신경망(57)의 앞 단에 위치한 완전 연결 레이어(fully connected layer or fully connected network)로 구현될 수 있다. 이와 같은 경우, 감정 임베딩 모듈(63)과 다른 모듈들(e.g. 53 내지 57)들은 하나의 유기적인 신경망으로 구성되어 엔드투엔드(End-to-End) 방식의 학습 및 음성 합성이 이루어질 수 있다. 즉, 오차 역전파를 통해 음성 합성 모델(43)의 모든 구성요소(63, 53 내지 57)들이 한번에 학습될 수 있다. 본 실시예에 따르면, 다수의 독립적인 모듈이 통합되어 구현된 종래의 음성 합성 모델과 비교할 때 엔드투엔드 방식의 다양한 이점들이 확보될 수 있는데, 상기 이점들은 특정 모듈의 로스(loss)가 누적되어 모델의 성능이 저하되는 문제가 해결되는 것, 학습이 보다 용이한 것, 보다 적은 양의 학습용 데이터셋으로도 고성능의 음성 합성 모델을 구축할 수 있는 것 등이 있다.In some embodiments, the emotion embedding module 63 may be implemented as a specific layer of the speech synthesis model 43. For example, the emotion embedding module 63 may be implemented as a fully connected layer or a fully connected network located in front of the encoder neural network 53 and/or the decoder neural network 57. In this case, the emotion embedding module 63 and the other modules (e.g. 53 to 57) are configured as one organic neural network, so that end-to-end learning and speech synthesis may be performed. That is, all components 63, 53 to 57 of the speech synthesis model 43 may be learned at once through error backpropagation. According to this embodiment, various advantages of the end-to-end method can be secured compared to a conventional speech synthesis model implemented by integrating a plurality of independent modules. The advantages are due to accumulation of a loss of a specific module. Problems of deteriorating model performance are solved, learning is easier, and high-performance speech synthesis models can be built with a smaller amount of training datasets.
한편, 상기 감정 정보의 구체적인 형태는 실시예에 따라 달라질 수 있다.Meanwhile, the specific form of the emotion information may vary according to embodiments.
몇몇 실시예에서, 상기 감정 정보는 하나 이상의 감정에 대한 확률을 나타내는 감정 벡터일 수 있다. 가령, 도 7의 왼편에 도시된 표(71)와 같이 감정 클래스와 벡터 인덱스가 정의된 경우, 감정(neutral)과 감정(happy)이 대부분이고 극히 미량의 감정(angry)이 혼합된 감정 정보는 오른편의 감정 벡터(73)로 표현될 수 있다. 본 실시예에 따르면, 세분화된 감정 정보가 학습에 이용되므로, 보다 세밀한 감정 조절이 가능하고 복합적인 감정 음성을 생성할 수 있는 음성 합성 모델이 구축될 수 있다.In some embodiments, the emotion information may be an emotion vector indicating a probability of one or more emotions. For example, when the emotion class and the vector index are defined as shown in the table 71 shown on the left side of FIG. 7, emotion information in which most of emotions and emotions are mixed with a very small amount of emotion It can be expressed by the emotion vector 73 on the right side. According to the present embodiment, since the detailed emotion information is used for learning, a speech synthesis model capable of finer emotion control and generating a complex emotion voice can be constructed.
다른 몇몇 실시예에서, 상기 감정 정보는 특정 감정을 가리키는 레이블(label) 정보일 수 있다. 가령, 도 8의 왼편에 도시된 표(81)와 같이 감정 클래스에 대응되는 레이블 값이 정의된 경우, 감정(happy)을 나타내는 감정 정보는 오른편의 감정 레이블(83)로 표현될 수 있다. 본 실시예에 따르면, 용이하게 확보 또는 생성 가능한 감정 레이블 정보가 학습 데이터로 이용되므로, 학습 데이터 확보에 소요되는 시간 및 인적 비용이 절감될 수 있다.In some other embodiments, the emotion information may be label information indicating a specific emotion. For example, when a label value corresponding to an emotion class is defined as shown in the table 81 shown on the left side of FIG. 8, emotion information indicating an emotion (happy) may be expressed as an emotion label 83 on the right. According to the present embodiment, since emotion label information that can be easily secured or generated is used as learning data, time and human cost required to secure the learning data can be reduced.
한편, 본 개시의 몇몇 실시예들에 따르면, 감정 벡터 또는 감정 레이블과 같은 감정 정보는 감정의 클래스를 분류하는 머신러닝 모델에 의해 자동으로 생성될 수 있다. 상기 머신러닝 모델은 음성 데이터 또는 스펙트로그램 데이터를 입력받고 감정의 클래스를 출력하는 모델이다. 이와 같은 경우, 상기 감정 벡터는 상기 머신러닝 모델에 의해 출력된 감정 클래스 별 컨피던스 스코어(confidence score)에 기초하여 생성될 수 있고, 상기 감정 레이블은 상기 머신러닝 모델의 최종 분류 결과에 기초하여 생성될 수 있다. 본 실시예에 따르면, 자동으로 감정 정보가 생성되는 바, 학습용 데이터셋 생성에 소요되는 시간 및 인적 비용이 절감될 수 있다.Meanwhile, according to some embodiments of the present disclosure, emotion information such as an emotion vector or an emotion label may be automatically generated by a machine learning model for classifying emotion classes. The machine learning model is a model that receives voice data or spectrogram data and outputs an emotion class. In this case, the emotion vector may be generated based on a confidence score for each emotion class output by the machine learning model, and the emotion label is generated based on the final classification result of the machine learning model. I can. According to the present embodiment, since emotion information is automatically generated, time and human cost required for generating a data set for learning can be reduced.
다시 도 6을 참조하여 임베딩 모듈(51)의 다른 구성요소에 대하여 설명하도록 한다.With reference to FIG. 6 again, other components of the embedding module 51 will be described.
화자 임베딩 모듈(65)은 화자 정보를 임베딩하여 화자 임베딩 벡터로 변환하는 모듈이다. 이때, 상기 화자 정보는 특정 화자를 가리키는 레이블 정보(도 9 참조)일 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.The speaker embedding module 65 is a module that embeds speaker information and converts it into a speaker embedding vector. In this case, the speaker information may be label information (refer to FIG. 9) indicating a specific speaker, but the technical scope of the present disclosure is not limited thereto.
몇몇 실시예에서, 화자 임베딩 모듈(65)은 음성 합성 모델(43)의 특정 레이어로 구현될 수 있다. 이를테면, 화자 임베딩 모듈(65)은 인코더 신경망(53) 및/또는 디코더 신경망(57)의 앞 단에 위치한 완전 연결 레이어(fully connected layer or fully connected network)로 구현될 수 있다. 이와 같은 경우, 화자 임베딩 모듈(65)과 다른 모듈들(e.g. 53 내지 57)들은 하나의 유기적인 신경망으로 구성되어 엔드투엔드(End-to-End) 방식의 학습 및 음성 합성이 이루어질 수 있다. 즉, 오차 역전파를 통해 음성 합성 모델(43)의 모든 구성요소(63, 53 내지 57)들이 한번에 학습될 수 있다.In some embodiments, the speaker embedding module 65 may be implemented as a specific layer of the speech synthesis model 43. For example, the speaker embedding module 65 may be implemented as a fully connected layer or fully connected network located in front of the encoder neural network 53 and/or the decoder neural network 57. In this case, the speaker embedding module 65 and other modules (e.g. 53 to 57) are configured as one organic neural network, so that end-to-end learning and speech synthesis can be performed. That is, all components 63, 53 to 57 of the speech synthesis model 43 may be learned at once through error backpropagation.
다른 몇몇 실시예에서, 전술한 각각의 임베딩 모듈(61 내지 65) 중 적어도 일부는 독립적으로 임베딩 기능을 수행하는 별개의 모듈로 구현될 수도 있다. 즉, 각각의 임베딩 모듈(61 내지 65) 중 적어도 일부는 음성 합성 모델(43)의 학습에 영향을 받지 않거나, 별도로 학습되는 임베딩 모듈 또는 학습될 필요없이 수학적 알고리즘을 통해 임베딩을 수행하는 모듈 등으로 구현될 수도 있다.In some other embodiments, at least some of the above-described respective embedding modules 61 to 65 may be implemented as separate modules that independently perform an embedding function. That is, at least some of each of the embedding modules 61 to 65 are not affected by the learning of the speech synthesis model 43, or a separately learned embedding module or a module that performs embedding through a mathematical algorithm without needing to be learned. It can also be implemented.
도 6에 도시된 바와 같이, 각각의 임베딩 모듈(61 내지 65)의 출력 벡터들은 인코더 신경망(53)으로 입력된다. 이때, 각 출력 벡터들(e.g. 문자 임베딩 벡터, 감정 임베딩 벡터, 화자 임베딩 벡터) 중 적어도 일부는 단일 벡터로 병합되어 인코더 신경망(53)에 입력될 수도 있다. 가령, 문자 임베딩 벡터에 감정 및/또는 화자 임베딩 벡터를 연결(concatenation)하여 생성된 벡터가 인코더 신경망(53)으로 입력될 수도 있다. 물론, 각 출력 벡터들은 독립적으로 인코더 신경망(53)으로 입력될 수도 있고, 이는 인코더 신경망(53)의 입력 레이어 구현 방식에 따라 얼마든지 변형될 수 있다.As shown in FIG. 6, the output vectors of each embedding module 61 to 65 are input to the encoder neural network 53. At this time, at least some of the output vectors (e.g. a character embedding vector, an emotion embedding vector, and a speaker embedding vector) may be merged into a single vector and input to the encoder neural network 53. For example, a vector generated by concatenating an emotion and/or speaker embedding vector to a character embedding vector may be input to the encoder neural network 53. Of course, each of the output vectors may be independently input to the encoder neural network 53, which may be modified as much as possible according to the implementation method of the input layer of the encoder neural network 53.
다시 도 5를 참조하여 음성 합성 모델(43)의 다른 구성요소에 대하여 설명하도록 한다.With reference to FIG. 5 again, other components of the speech synthesis model 43 will be described.
인코더 신경망(53)은 하나 이상의 문자 임베딩 벡터로 구성된 입력 시퀀스(sequence), 감정 임베딩 벡터 및/또는 화자 임베딩 벡터를 입력받고, 입력 정보들을 인코딩하여 인코딩된 벡터를 출력하는 신경망이다. 학습이 진행됨에 따라 인코더 신경망(53)은 상기 입력 시퀀스, 상기 감정 임베딩 벡터 및 상기 화자 임베딩 벡터에 따른 컨텍스트를 이해하고, 이해된 컨텍스트를 나타내는 인코딩된 벡터를 출력하게 된다. 상기 인코딩된 벡터는 당해 기술 분야에서 컨텍스트 벡터(context vector)란 용어로 명명될 수도 있다.The encoder neural network 53 is a neural network that receives an input sequence composed of one or more character embedding vectors, an emotion embedding vector and/or a speaker embedding vector, encodes input information, and outputs the encoded vector. As the learning progresses, the encoder neural network 53 understands the context according to the input sequence, the emotion embedding vector, and the speaker embedding vector, and outputs an encoded vector representing the understood context. The encoded vector may be referred to as a context vector in the art.
몇몇 실시예에서, 인코더 신경망(53) 및 디코더 신경망(57)은 시퀀스를 입력받고 출력하기에 적합하도록 RNN(Recurrent Neural Network)으로 구현될 수 있다. 이를테면, 인코더 신경망(53)과 디코더 신경망(57)은 도 9에 도시된 바와 같은 LSTM(Long Short-Term Memory Model) 신경망(90)으로 구현될 수 있다. 그러나, 이에 한정되는 것은 아니고, 인코더 신경망(75)과 디코더 신경망(79) 중 적어도 일부는 셀프 어텐션(self-attention), 트랜스포머 네트워크(transformer network) 등을 통해 구현될 수도 있다. 당해 기술 분야의 종사자라면, 셀프 어텐션, 트랜스포머 네트워크에 관하여 자명하게 이해할 수 있을 것인 바, 해당 기법에 대한 자세한 설명은 생략하도록 한다.In some embodiments, the encoder neural network 53 and the decoder neural network 57 may be implemented as a recurrent neural network (RNN) to be suitable for receiving and outputting a sequence. For example, the encoder neural network 53 and the decoder neural network 57 may be implemented as a Long Short-Term Memory Model (LSTM) neural network 90 as shown in FIG. 9. However, the present invention is not limited thereto, and at least some of the encoder neural network 75 and the decoder neural network 79 may be implemented through a self-attention, a transformer network, or the like. Those skilled in the art will be able to clearly understand self-attention and transformer networks, and detailed descriptions of the techniques will be omitted.
다시 도 5를 참조하면, 어텐션(attention) 모듈(55)은 디코더 신경망(57)에서 인코딩된 벡터에 대한 출력 시퀀스를 학습/예측할 때 어느 부분에 중점을 두어야(또는 어느 부분에 집중하여야) 하는지를 나타내는 어텐션 정보를 제공하는 모듈이다. 학습이 진행됨에 따라, 어텐션 모듈(55)은 인코딩된 벡터와 상기 출력 시퀀스 간의 매핑 관계를 학습하여 디코딩 시에 집중해야 될 부분과 그렇지 않은 부분을 나타내는 어텐션 정보를 제공할 수 있다. 상기 어텐션 정보는 가중치 벡터(또는 가중치 매트릭스)의 형태로 제공될 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다. 당해 기술 분야의 당업자라면, 어텐션 메커니즘에 대해서 자명하게 이해할 수 있을 것인 바, 더 이상의 자세한 설명은 생략하도록 한다.Referring back to FIG. 5, the attention module 55 indicates which part to focus on (or which part to focus on) when learning/predicting the output sequence for the vector encoded by the decoder neural network 57. It is a module that provides attention information. As the learning progresses, the attention module 55 may learn a mapping relationship between the encoded vector and the output sequence to provide attention information indicating a portion to be focused on and a portion not to be focused upon decoding. The attention information may be provided in the form of a weight vector (or weight matrix), but the technical scope of the present disclosure is not limited thereto. Those skilled in the art will be able to clearly understand the attention mechanism, and a detailed description thereof will be omitted.
디코더 신경망(57)은 상기 인코딩된 벡터와 상기 어텐션 정보를 입력받고 상기 인코딩된 벡터에 대응되는 출력 시퀀스를 출력한다. 보다 상세하게는, 디코더 신경망(57)은 상기 인코딩된 벡터와 상기 어텐션 정보를 이용하여 특정 화자의 감정 음성과 연관된 출력 시퀀스를 예측한다. 이때, 상기 출력 시퀀스는 프레임 단위의 스펙트로그램 데이터로 구성될 수 있으나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.The decoder neural network 57 receives the encoded vector and the attention information and outputs an output sequence corresponding to the encoded vector. More specifically, the decoder neural network 57 predicts an output sequence associated with the emotional voice of a specific speaker using the encoded vector and the attention information. In this case, the output sequence may be composed of spectrogram data in units of frames, but the technical scope of the present disclosure is not limited thereto.
디코더 신경망(57)이 순환 신경망으로 구현된 경우, 디코더 신경망(57)은 이전 프레임의 스펙트로그램 데이터를 더 입력받고 현재 프레임의 스펙트로그램 데이터를 순차적으로 출력함으로써 출력 시퀀스를 구성할 수 있다.When the decoder neural network 57 is implemented as a recurrent neural network, the decoder neural network 57 may further input spectrogram data of a previous frame and sequentially output spectrogram data of a current frame to construct an output sequence.
상기 스펙트로그램 데이터는 음성 신호의 스펙트로그램을 나타내는 데이터로, STFT 스펙트로그램 데이터 또는 멜-스펙트로그램 데이터 등이 될 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.The spectrogram data is data representing a spectrogram of a voice signal, and may be STFT spectrogram data or mel-spectrogram data, but the technical scope of the present disclosure is not limited thereto.
참고로, 디코더 신경망(57)이 음성 신호가 아니고 스펙트로그램 데이터를 출력하도록 구성하는 이유는, 스펙트로그램 데이터로 학습을 수행하면 음성 신호에 비해 더 정확하게 예측 오차를 산출할 수 있기 때문이다. 또한, 정확한 예측 오차 산출이 가능해짐으로써, 보다 성능이 우수한 음성 합성 모델이 구축될 수 있기 때문이다.For reference, the reason why the decoder neural network 57 is configured to output spectrogram data instead of a speech signal is that when learning is performed with spectrogram data, a prediction error can be calculated more accurately than that of a speech signal. In addition, since accurate prediction error calculation is possible, a speech synthesis model with superior performance can be constructed.
지금까지 도 5 내지 도 9를 참조하여 본 개시의 몇몇 실시예들에 따른 음성 합성 모델(43)의 신경망 구조와 동작 원리에 대하여 설명하였다. 이하에서는, 이상의 설명을 바탕으로 도 10을 참조하여 학습부(41)가 음성 합성 모델(43)을 학습시키는 과정에 대하여 설명한다.So far, a neural network structure and operation principle of the speech synthesis model 43 according to some embodiments of the present disclosure have been described with reference to FIGS. 5 to 9. Hereinafter, a process of learning the speech synthesis model 43 by the learning unit 41 will be described with reference to FIG. 10 based on the above description.
도 10에 도시된 바와 같이, 각각의 학습 데이터(100)는 텍스트(101), 감정 정보(102), 화자 정보(103) 및 정답 음성 데이터(104)를 포함할 수 있다. 이때, 정답 음성 데이터(104)는 화자 정보(103)가 가리키는 특정 화자의 음성 데이터(e.g. wav 형식의 오디오)로, 텍스트(101)에 대응되고 감정 정보(102)가 반영된 감정 음성 데이터이다. 학습이 수행되기 전에, 정답 음성 데이터(104)는 전처리부(23)를 통해 정답 스펙트로그램 데이터(106)로 변환되고, 텍스트(101)는 전처리부(23)에 의해 적절한 전처리가 수행된다.As shown in FIG. 10, each learning data 100 may include text 101, emotion information 102, speaker information 103, and correct answer voice data 104. At this time, the correct answer voice data 104 is voice data of a specific speaker (e.g. wav format audio) indicated by the speaker information 103, and corresponds to the text 101 and reflects the emotion information 102. Before learning is performed, the correct answer voice data 104 is converted into correct answer spectrogram data 106 through the preprocessor 23, and the text 101 is subjected to appropriate preprocessing by the preprocessor 23.
학습부(41)에 의해 음성 합성 모델(43)이 학습되는 과정은 다음과 같다. 먼저, 전처리된 텍스트(101)가 문자 임베딩 모듈(61)로 입력되고, 감정 및 화자 정보(102, 103)는 각각 감정 임베딩 모듈과 화자 임베딩 모듈(63, 65)로 입력된다. 또한, 그 결과로 디코더 신경망(55)에서 예측된 스펙트로그램 데이터(105)가 출력된다.The process of learning the speech synthesis model 43 by the learning unit 41 is as follows. First, the preprocessed text 101 is input to the character embedding module 61, and the emotion and speaker information 102 and 103 are input to the emotion embedding module and the speaker embedding modules 63 and 65, respectively. In addition, spectrogram data 105 predicted by the decoder neural network 55 is output as a result.
학습부(41)는 예측된 스펙트로그램 데이터(105)와 정답 스펙트로그램 데이터(106)를 비교하여 예측 오차(107)를 산출하고, 예측 오차(107)를 역전파하여 음성 합성 모델(43)의 가중치를 갱신한다. 이때, 인코더 신경망(53), 어텐션 모듈(55) 및 디코더 신경망(55)의 가중치는 상기 역전파를 통해 한번에 갱신될 수 있다. 임베딩 모듈(51)이 신경망의 일부 레이어로 구현된 경우, 임베딩 모듈(51)의 가중치 또한 함께 갱신될 수 있다. 학습부(41)는 이와 같은 학습 과정을 다수의 학습 데이터에 대해 반복함으로써 음성 합성 모델(43)을 구축할 수 있다.The learning unit 41 compares the predicted spectrogram data 105 and the correct answer spectrogram data 106 to calculate a prediction error 107, and backpropagates the prediction error 107 to determine the speech synthesis model 43 Update weights. In this case, the weights of the encoder neural network 53, the attention module 55, and the decoder neural network 55 may be updated at once through the backpropagation. When the embedding module 51 is implemented as some layers of a neural network, the weight of the embedding module 51 may also be updated. The learning unit 41 may build the speech synthesis model 43 by repeating such a learning process for a plurality of training data.
지금까지 도 5 내지 도 10을 참조하여 학습부(41) 및 음성 합성 모델(43)에 대해 설명하였다. 이하에서는, 다시 도 4를 참조하여 음성 합성부(25)의 다른 구성요소에 대한 설명을 이어가도록 한다.So far, the learning unit 41 and the speech synthesis model 43 have been described with reference to FIGS. 5 to 10. In the following, description of other components of the speech synthesis unit 25 will be continued with reference to FIG. 4 again.
합성부(45)는 학습부(41)에 의해 학습된 음성 합성 모델(43)을 이용하여 스펙트로그램 데이터를 예측하고 출력한다. 보다 구체적으로, 합성부(45)는 정답 음성 데이터가 존재하지 않는 합성용 텍스트와 합성용 감성 정보 및 합성용 화자 정보를 음성 합성 모델(43)에 입력하고, 그 결과로 상기 합성용 화자 정보가 가리키는 특정 화자의 출력 시퀀스를 예측한다. 전술한 바와 같이, 상기 출력 시퀀스는 예를 들어 프레임 단위 예측 스펙트로그램 데이터로 구성될 수 있다. 여기서, 상기 합성용 화자 정보는 음성을 합성하고 싶은 상기 특정 화자를 가리키는 레이블 정보일 수 있고, 상기 합성용 감성 정보는 표현하고자 하는 상기 특정 화장의 감성 정보로 감성 벡터 또는 감성 레이블 형태의 정보일 수 있다.The synthesis unit 45 predicts and outputs spectrogram data using the speech synthesis model 43 learned by the learning unit 41. More specifically, the synthesizing unit 45 inputs text for synthesis in which the correct answer speech data does not exist, emotion information for synthesis, and speaker information for synthesis into the speech synthesis model 43, and as a result, the synthesis speaker information is Predict the output sequence of a specific speaker pointed to. As described above, the output sequence may consist of, for example, frame-by-frame prediction spectrogram data. Here, the synthesis speaker information may be label information indicating the specific speaker who wants to synthesize speech, and the synthesis emotion information may be information in the form of an emotion vector or an emotion label as emotion information of the specific makeup to be expressed. have.
다음으로, 보코더부(47)는 상기 출력 시퀀스에 포함된 예측 스펙트로그램 데이터를 감정 음성 데이터(e.g. wav 형식의 오디오)로 변환한다. 상기 변환 기능을 수행할 수 있다면, 보코더부(47)는 어떠한 방식으로 구현되더라도 무방하다. 가령, 보코더부(47)는 당해 기술 분야에서 널리 알려진 하나 이상의 보코더 모듈(e.g. WaveNet, Griffin-lim)로 구현될 수 있다. 본 발명의 논지를 흐리지 않기 위해 보코더부(47)에 대한 더 이상의 설명은 생략하도록 한다.Next, the vocoder unit 47 converts the predicted spectrogram data included in the output sequence into emotional voice data (e.g. wav format audio). If the conversion function can be performed, the vocoder unit 47 may be implemented in any way. For example, the vocoder unit 47 may be implemented with one or more vocoder modules (e.g. WaveNet, Griffin-lim) well known in the art. In order not to obscure the subject matter of the present invention, further description of the vocoder unit 47 will be omitted.
한편, 도 2 또는 도 4에 도시된 구성요소 전부가 음성 합성 장치(10)를 구현하기 위한 필수 구성요소는 아닐 수도 있음에 유의하여야 한다. 즉, 본 개시의 다른 몇몇 실시예들에 따른 음성 합성 장치(10)는 도 2 또는 도 4에 도시된 구성요소 중 일부에 의해 구현될 수도 있다.Meanwhile, it should be noted that not all of the components shown in FIG. 2 or 4 may be essential components for implementing the speech synthesis apparatus 10. That is, the speech synthesis apparatus 10 according to some other embodiments of the present disclosure may be implemented by some of the components illustrated in FIG. 2 or 4.
도 2 또는 도 4에 도시된 각 구성 요소는 소프트웨어(Software) 또는, FPGA(Field Programmable Gate Array)나 ASIC(Application-Specific Integrated Circuit)과 같은 하드웨어(Hardware)를 의미할 수 있다. 그렇지만, 상기 구성 요소들은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 어드레싱(Addressing)할 수 있는 저장 매체에 있도록 구성될 수도 있고, 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 상기 구성 요소들 안에서 제공되는 기능은 더 세분화된 구성 요소에 의하여 구현될 수 있으며, 복수의 구성 요소들을 합하여 특정한 기능을 수행하는 하나의 구성 요소로 구현될 수도 있다.Each component shown in FIG. 2 or 4 may mean software or hardware such as a Field Programmable Gate Array (FPGA) or an Application-Specific Integrated Circuit (ASIC). However, the components are not limited to software or hardware, and may be configured to be in an addressable storage medium, or may be configured to execute one or more processors. The functions provided in the above components may be implemented by more subdivided components, or may be implemented as one component that performs a specific function by combining a plurality of components.
지금까지 도 2 내지 도 10을 참조하여 본 개시의 몇몇 실시예들에 따른 음성 합성 장치(10)에 대하여 설명하였다. 상술한 바에 따르면, 감정 정보 및 감정 음성 데이터를 학습하여 신경망 기반의 음성 합성 모델이 구축되기 때문에, 상기 음성 합성 모델을 통해 감정 정보가 반영된 감정 음성이 합성될 수 있다. 이와 같은 방식은 오디오 후처리를 수행하거나 음성 단편들을 조합하여 감정 음성을 합성하는 것이 아닌 바 자연스러운 감정 음성을 생성할 수 있다. 뿐만 아니라, 음성 합성 모델에 입력되는 감정 정보를 변경함으로써 감정 조절이 가능한 음성 합성 기능이 제공될 수 있다. 이를테면, 감정 정보 상의 감정 종류 및/또는 강약을 조절함으로써 합성되는 음성에 담긴 감정이 조절될 수 있다.So far, the speech synthesis apparatus 10 according to some embodiments of the present disclosure has been described with reference to FIGS. 2 to 10. As described above, since a neural network-based speech synthesis model is constructed by learning emotion information and emotion voice data, an emotion speech reflecting the emotion information may be synthesized through the speech synthesis model. In this method, a natural emotional voice can be generated, since the emotional voice is not synthesized by performing audio post-processing or combining voice fragments. In addition, a speech synthesis function capable of controlling emotion may be provided by changing emotion information input to the speech synthesis model. For example, the emotion contained in the synthesized voice may be adjusted by adjusting the type and/or strength and weakness of the emotion in the emotion information.
나아가, 화자 정보 및 감정 음성 데이터를 학습하여 음성 합성 모델이 구축되기 때문에, 하나의 음성 합성 모델을 통해 다수의 화자의 감정 음성이 합성될 수 있다.Furthermore, since a speech synthesis model is constructed by learning speaker information and emotional voice data, emotional voices of a plurality of speakers can be synthesized through one speech synthesis model.
이하에서는, 도 11 내지 도 15를 참조하여 본 개시의 다양한 실시예들에 따른 변형된 음성 합성 모델의 신경망 구조에 대하여 설명하도록 한다. 이하의 실시예들을 설명함에 있어서, 상술한 음성 합성 모델(43)과 중복되는 부분에 대한 설명은 생략하도록 한다.Hereinafter, a neural network structure of a modified speech synthesis model according to various embodiments of the present disclosure will be described with reference to FIGS. 11 to 15. In the following description of the embodiments, a description of a portion overlapping with the above-described speech synthesis model 43 will be omitted.
도 11은 본 개시의 제1 실시예에 따른 변형된 음성 합성 모델(110)의 신경망 구조를 도시한다.11 illustrates a neural network structure of a modified speech synthesis model 110 according to the first embodiment of the present disclosure.
도 11에 도시된 바와 같이, 음성 합성 모델(110)은 디코더 신경망(114)을 위한 감정 임베딩 모듈(115)과 화자 임베딩 모듈(116)을 더 포함한다. 즉, 디코더 신경망(114)은 감정 임베딩 모듈(115)과 화자 임베딩 모듈(116)의 출력 벡터들(즉, 감정 임베딩 벡터와 화자 임베딩 벡터)을 더 입력받는다.As illustrated in FIG. 11, the speech synthesis model 110 further includes an emotion embedding module 115 and a speaker embedding module 116 for the decoder neural network 114. That is, the decoder neural network 114 further receives output vectors (ie, the emotion embedding vector and the speaker embedding vector) of the emotion embedding module 115 and the speaker embedding module 116.
몇몇 실시예에서, 감정 임베딩 모듈(115)과 화자 임베딩 모듈(116)은 디코더 신경망(114)의 앞 단에 위치한 특정 레이어(e.g. 완전 연결 레이어)로 구현될 수 있다.In some embodiments, the emotion embedding module 115 and the speaker embedding module 116 may be implemented as a specific layer (e.g. a fully connected layer) located in front of the decoder neural network 114.
다른 몇몇 실시예에서, 감정 임베딩 모듈(115)과 화자 임베딩 모듈(116)은 실재하지 않고, 임베딩 모듈(111)에 포함된 감정 임베딩 모듈과 화자 임베딩 모듈의 출력 벡터들이 디코더 신경망(114)으로 입력되는 형태로 음성 합성 모델(110)이 구현될 수도 있다.In some other embodiments, the emotion embedding module 115 and the speaker embedding module 116 do not exist, and the output vectors of the emotion embedding module and speaker embedding module included in the embedding module 111 are input to the decoder neural network 114 The speech synthesis model 110 may be implemented in a form that is configured.
임베딩 모듈(111)은 문자 임베딩 모듈, 감정 임베딩 모듈 및 화자 임베딩 모듈을 포함할 수 있고, 임베딩 모듈(111), 인코더 신경망(112), 어텐션 모듈(113) 및 디코더 신경망(124)의 기능은 전술한 바와 유사하다. 다만, 디코더 신경망(114)은 감정 임베딩 벡터와 화자 임베딩 벡터를 더 입력받고 출력 시퀀스를 출력한다는 점에서 일부 차이가 있다.The embedding module 111 may include a character embedding module, an emotion embedding module, and a speaker embedding module, and the functions of the embedding module 111, the encoder neural network 112, the attention module 113 and the decoder neural network 124 are described above. It is similar to one. However, there are some differences in that the decoder neural network 114 further receives an emotion embedding vector and a speaker embedding vector and outputs an output sequence.
도 12는 본 개시의 제2 실시예에 따른 변형된 음성 합성 모델(120)의 신경망 구조를 도시한다.12 illustrates a neural network structure of a modified speech synthesis model 120 according to a second embodiment of the present disclosure.
도 12에 도시된 바와 같이, 상기 제2 실시예에서는, 인코더 신경망(122)으로 문자 임베딩 모듈(121)이 출력한 문자 임베딩 벡터만이 입력되고, 감정 임베딩 모듈(125)과 화자 임베딩 모듈(126)의 출력 벡터들(즉, 감정 임베딩 벡터와 화자 임베딩 벡터)은 디코더 신경망(124)으로 입력된다.As shown in FIG. 12, in the second embodiment, only the character embedding vector output from the character embedding module 121 is input to the encoder neural network 122, and the emotion embedding module 125 and the speaker embedding module 126 ) Of the output vectors (ie, the emotion embedding vector and the speaker embedding vector) are input to the decoder neural network 124.
몇몇 실시예에서, 감정 임베딩 모듈(125) 및 화자 임베딩 모듈(126)은 디코더 신경망(124)의 앞 단에 위치한 특정 레이어로 구현될 수 있다.In some embodiments, the emotion embedding module 125 and the speaker embedding module 126 may be implemented as a specific layer located in front of the decoder neural network 124.
음성 합성 모델(120)의 전반적인 구조와 각 모듈(121 내지 126)의 동작은 전술한 제1 실시예에 따른 음성 합성 모델(110)과 유사하나, 인코더 신경망(122)이 문자 임베딩 벡터만을 입력으로 이용한다는 점에서 차이가 있다.The overall structure of the speech synthesis model 120 and the operation of each module 121 to 126 are similar to the speech synthesis model 110 according to the first embodiment described above, but the encoder neural network 122 inputs only the character embedding vector. There is a difference in using it.
도 13은 본 개시의 제3 실시예에 따른 변형된 음성 합성 모델(130)의 신경망 구조를 도시한다.13 illustrates a neural network structure of a modified speech synthesis model 130 according to a third embodiment of the present disclosure.
도 13에 도시된 바와 같이, 상기 제3 실시예에 따른 음성 합성 모델(130)은 단일 화자를 위한 모델이기 때문에 화자 임베딩 모듈을 포함하지 않는다. 따라서, 인코더 신경망(133)은 문자 임베딩 모듈(131)과 감정 임베딩 모듈(132)의 출력 벡터들(즉, 문자 임베딩 벡터와 감정 임베딩 벡터)만을 입력 값으로 이용한다.As shown in FIG. 13, since the speech synthesis model 130 according to the third embodiment is a model for a single speaker, it does not include a speaker embedding module. Accordingly, the encoder neural network 133 uses only the output vectors (ie, the character embedding vector and the emotion embedding vector) of the character embedding module 131 and the emotion embedding module 132 as input values.
음성 합성 모델(130)의 전반적인 구조 및 각 모듈(131 내지 135)의 동작은 전술한 실시예들과 유사하다.The overall structure of the speech synthesis model 130 and the operation of each of the modules 131 to 135 are similar to those of the above-described embodiments.
도 14는 본 개시의 제4 실시예에 따른 변형된 음성 합성 모델(140)의 신경망 구조를 도시한다.14 illustrates a neural network structure of a modified speech synthesis model 140 according to a fourth embodiment of the present disclosure.
도 14에 도시된 바와 같이, 상기 제4 실시예에 따른 음성 합성 모델(140)도 전술한 제3 실시예와 마찬가지로 단일 화자를 위한 모델이다. 따라서, 음성 합성 모델(140)도 화자 임베딩 모듈을 포함하지 않는다. 다만, 상기 제4 실시예에서는, 감정 임베딩 벡터가 디코더 신경망(145)으로 더 입력된다.As shown in Fig. 14, the speech synthesis model 140 according to the fourth embodiment is also a model for a single speaker, similar to the third embodiment described above. Accordingly, the speech synthesis model 140 also does not include a speaker embedding module. However, in the fourth embodiment, the emotion embedding vector is further input to the decoder neural network 145.
몇몇 실시예에서, 감정 임베딩 모듈(146)은 디코더 신경망(145)의 앞 단에 위치한 특정 레이어(e.g. 완전 연결 레이어)로 구현될 수 있다.In some embodiments, the emotion embedding module 146 may be implemented as a specific layer (e.g. a fully connected layer) located in front of the decoder neural network 145.
다른 몇몇 실시예에서, 감정 임베딩 모듈(146)은 실재하지 않고, 감정 임베딩 모듈(142)의 감정 임베딩 벡터가 디코더 신경망(114)으로 입력되는 형태로 음성 합성 모델(140)이 구현될 수도 있다.In some other embodiments, the emotion embedding module 146 does not exist, and the speech synthesis model 140 may be implemented in a form in which the emotion embedding vector of the emotion embedding module 142 is input to the decoder neural network 114.
또 다른 몇몇 실시예에서, 감정 임베딩 모듈(142)이 생략될 수 있다. 즉, 본 실시예에서는, 전술한 제2 실시예와 유사하게, 문자 임베딩 벡터만이 인코더 신경망(143)으로 입력되고, 감정 임베딩 벡터는 디코더 신경망(145)으로만 입력될 수 있다.In some other embodiments, the emotion embedding module 142 may be omitted. That is, in this embodiment, similar to the above-described second embodiment, only character embedding vectors are inputted to the encoder neural network 143, and emotion embedding vectors can be inputted only to the decoder neural network 145.
한편, 도 13 및 도 14를 참조하여 설명한 음성 합성 모델(130, 140)은 화자 별로 구축될 수도 있다. 가령, 도 15에 도시된 바와 같이, 제1 화자의 음성을 합성하는 제1 음성 합성 모델(150-1)이 구축되고, 제2 화자의 음성을 합성하는 제2 음성 합성 모델(150-2)이 별도로 구축되며, 제n 화자의 음성을 합성하는 제n 음성 합성 모델(150-n)도 별도로 구축될 수 있다.Meanwhile, the speech synthesis models 130 and 140 described with reference to FIGS. 13 and 14 may be constructed for each speaker. For example, as shown in FIG. 15, a first voice synthesis model 150-1 for synthesizing the voice of a first speaker is constructed, and a second voice synthesis model 150-2 for synthesizing the voice of a second speaker. This is separately constructed, and an n-th speech synthesis model 150-n for synthesizing the speech of the n-th speaker may be separately constructed.
지금까지 도 11 내지 도 15를 참조하여 본 개시의 다양한 실시예들에 따른 변형된 음성 합성 모델들(110 내지 140, 150-1 내지 150-n)에 대하여 설명하였다. 지금까지 다양한 음성 합성 모델(e.g. 43, 110 내지 140, 150-1 내지 150-n)에 대하여 설명하였는데, 각 모델의 구성에 따라 달성되는 효과는 일부 달라질 수 있다.So far, modified speech synthesis models 110 to 140 and 150-1 to 150-n according to various embodiments of the present disclosure have been described with reference to FIGS. 11 to 15. Various speech synthesis models (e.g. 43, 110 to 140, 150-1 to 150-n) have been described so far, but the effects achieved according to the configuration of each model may vary.
먼저, 감정 정보가 인코더 신경망으로 입력되는 모델은 상기 감정 정보에 따라 합성 음성의 속도를 보다 정확하게 조절할 수 있다. 또한, 감정 정보가 디코더 신경망으로 입력되는 모델은 상기 감정 정보에 따라 합성 음성의 음색 또는 음높이를 보다 정확하게 조절할 수 있다. 또한, 감정 정보가 인코더 및 디코더 신경망으로 입력되는 모델은 음성의 속도, 음색 및 음높이가 모두 정확하게 조절될 수 있기 때문에, 실제 사람의 말하는 것과 같이 같이 자연스러운 감정이 담긴 음성이 합성될 수 있다.First, a model in which emotion information is input to an encoder neural network may more accurately control the speed of a synthesized speech according to the emotion information. In addition, the model in which the emotion information is input to the decoder neural network can more accurately adjust the tone or pitch of the synthesized speech according to the emotion information. In addition, in a model in which emotion information is input to an encoder and a decoder neural network, since the speed, tone, and pitch of the voice can all be accurately adjusted, a voice containing natural emotions can be synthesized as if a real person speaks.
또한, 화자 정보가 더 입력되는 모델은 다수의 화자에 대한 음성을 합성할 수 있기 때문에, 화자 별로 음성 합성 모델을 구축하는 경우에 비해 모델 구축에 소요되는 제반 비용(e.g. 학습을 위한 컴퓨팅 비용 등)이 절감될 수 있다. 또한, 다수의 화자에 대한 학습 수행 시 시너지 효과가 발생되기 때문에, 화자 별 학습 데이터의 양이 적은 경우에도 상대적으로 높은 성능의 음성 합성 모델이 구축될 수 있으며, 학습 데이터를 구축하는 비용은 감소될 수 있다.In addition, since the model to which the speaker information is further input can synthesize speech for multiple speakers, all the costs required for model construction (eg, computing cost for learning) compared to the case of building a speech synthesis model for each speaker. This can be saved. In addition, since synergy occurs when learning is performed for a large number of speakers, a relatively high-performance speech synthesis model can be built even when the amount of learning data for each speaker is small, and the cost of building the learning data will be reduced. I can.
이하에서는, 도 16 및 도 17을 참조하여 본 개시의 몇몇 실시예들에 따른 음성 합성 방법에 대하여 상세하게 설명하도록 한다.Hereinafter, a speech synthesis method according to some embodiments of the present disclosure will be described in detail with reference to FIGS. 16 and 17.
상기 음성 합성 방법의 각 단계는 컴퓨팅 장치에 의해 수행될 수 있다. 다시 말하면, 상기 음성 합성 방법의 각 단계는 컴퓨팅 장치의 프로세서에 의해 실행되는 하나 이상의 인스트럭션들로 구현될 수 있다. 상기 음성 합성 방법에 포함되는 모든 단계는 하나의 물리적인 컴퓨팅 장치에 의하여 실행될 수도 있을 것이나, 상기 방법의 제1 단계들은 제1 컴퓨팅 장치에 의하여 수행되고, 상기 방법의 제2 단계들은 제2 컴퓨팅 장치에 의하여 수행될 수도 있다. 이하에서는, 상기 음성 합성 방법의 각 단계가 음성 합성 장치(10)에 의해 수행되는 것을 가정하여 설명을 이어가도록 한다. 다만, 설명의 편의를 위해, 상기 음성 합성 방법에 포함되는 각 단계의 동작 주체는 그 기재가 생략될 수도 있다.Each step of the speech synthesis method may be performed by a computing device. In other words, each step of the speech synthesis method may be implemented with one or more instructions executed by a processor of a computing device. All the steps included in the speech synthesis method may be performed by one physical computing device, but the first steps of the method are performed by a first computing device, and the second steps of the method are performed by a second computing device. It can also be performed by In the following, description will be continued on the assumption that each step of the speech synthesis method is performed by the speech synthesis device 10. However, for convenience of explanation, the description of the operation subject of each step included in the speech synthesis method may be omitted.
도 16은 본 개시의 몇몇 실시예들에 따른 음성 합성 방법을 나타내는 예시적인 흐름도이다. 단, 이는 본 개시의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.16 is an exemplary flowchart illustrating a speech synthesis method according to some embodiments of the present disclosure. However, this is only a preferred embodiment for achieving the object of the present disclosure, and of course, some steps may be added or deleted as necessary.
도 16에 도시된 바와 같이, 상기 음성 합성 방법은 음성 합성 모델을 구축하는 학습 과정과 상기 음성 합성 모델을 이용하여 음성을 합성하는 합성 과정으로 구성된다.As shown in FIG. 16, the speech synthesis method includes a learning process of constructing a speech synthesis model and a synthesis process of synthesizing speech using the speech synthesis model.
상기 학습 과정은 학습용 데이터셋을 획득하는 단계 S100에서 시작된다. 이때, 상기 학습용 데이터셋에 포함된 각각의 학습용 데이터는 학습용 텍스트, 학습용 감정 정보, 학습용 화자 정보 및 정답 음성 데이터로 구성된다. 물론, 단일 화자를 위한 음성 합성 모델을 구축하는 경우라면, 학습용 화자 정보는 학습용 데이터셋에서 제외될 수 있다.The learning process starts in step S100 of acquiring a learning dataset. At this time, each learning data included in the learning dataset is composed of text for learning, emotion information for learning, speaker information for learning, and correct answer voice data. Of course, in the case of constructing a speech synthesis model for a single speaker, the training speaker information may be excluded from the training dataset.
단계 S200에서, 상기 학습용 데이터셋을 이용하여 신경망 기반의 음성 합성 모델이 구축된다. 상기 음성 합성 모델의 구조는 이미 전술한 바와 같으므로, 더 이상의 설명은 생략하도록 하고, 본 단계 S200의 세부 내용은 도 17을 참조하여 후술한다.In step S200, a neural network-based speech synthesis model is constructed using the training dataset. Since the structure of the speech synthesis model has already been described above, further description will be omitted, and details of this step S200 will be described later with reference to FIG. 17.
상기 합성 과정은 합성용 데이터를 획득하는 단계 S300에서 시작된다. 상기 합성용 데이터는 합성용 텍스트, 합성용 감정 정보 및 합성용 화자 정보로 구성된다. 물론, 단일 화자에 대한 음성을 합성하는 경우라면, 화자 정보는 상기 합성용 데이터에서 제외될 수 있다.The synthesis process starts in step S300 of obtaining data for synthesis. The synthesis data is composed of text for synthesis, emotion information for synthesis, and speaker information for synthesis. Of course, in the case of synthesizing speech for a single speaker, speaker information may be excluded from the synthesis data.
전술한 바와 같이, 상기 합성용 감정 정보는 감정 벡터 또는 감정 레이블일 수 있다.As described above, the emotion information for synthesis may be an emotion vector or an emotion label.
단계 S400에서, 음성 합성 모델을 이용하여 상기 합성용 텍스트에 대한 특정 화자의 감정 음성이 출력된다. 이때, 상기 감정 음성은 상기 합성용 감정 정보가 반영된 음성을 의미한다.In step S400, an emotional voice of a specific speaker with respect to the text for synthesis is output using a speech synthesis model. In this case, the emotional voice means a voice in which the emotional information for synthesis is reflected.
보다 구체적으로, 음성 합성 모델로부터 스펙트로그램 데이터로 구성된 출력 시퀀스가 출력되고, 상기 출력 시퀀스를 보코딩하여 상기 감정 음성이 출력될 수 있다.More specifically, an output sequence composed of spectrogram data may be output from a speech synthesis model, and the emotional voice may be output by vocoding the output sequence.
본 단계 S400에서, 감정 정보 상의 감정 종류 또는 감정의 강약을 조절함으로써, 합성되는 감정 음성의 감정이 조절될 수 있다. 또한, 화자 정보를 변경함으로써, 서로 다른 화자의 감정 음성이 합성될 수 있다.In this step S400, the emotion of the synthesized emotion voice may be adjusted by adjusting the type of emotion or the strength of emotion on the emotion information. Also, by changing the speaker information, emotional voices of different speakers can be synthesized.
참고로, 전술한 단계 S100 내지 S400 중에서, 단계 S100 및 S200은 입력부(21), 전처리부(23) 및 학습부(41)에 의해 수행되고, 단계 S300 및 S400은 입력부(21), 전처리부(23), 합성부(45) 및 보코더부(47)에 의해 수행될 수 있다.For reference, among the above-described steps S100 to S400, steps S100 and S200 are performed by the input unit 21, the preprocessor 23 and the learning unit 41, and the steps S300 and S400 are the input unit 21, the preprocessor ( 23), it may be performed by the synthesis unit 45 and the vocoder unit 47.
지금까지 도 16을 참조하여 본 개시의 몇몇 실시예들에 따른 음성 합성 방법에 대하여 설명하였다. 이하에서는, 도 17을 참조하여 단계 S200에서 수행될 수 있는 음성 합성 모델 구축 방법에 대하여 보다 상세하게 설명하도록 한다.So far, a speech synthesis method according to some embodiments of the present disclosure has been described with reference to FIG. 16. Hereinafter, a method of constructing a speech synthesis model that can be performed in step S200 will be described in more detail with reference to FIG. 17.
도 17은 본 개시의 몇몇 실시예들에 따른 음성 합성 모델 구축 방법을 나타내는 예시적인 흐름도이다. 단, 이는 본 개시의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.17 is an exemplary flowchart illustrating a method of constructing a speech synthesis model according to some embodiments of the present disclosure. However, this is only a preferred embodiment for achieving the object of the present disclosure, and of course, some steps may be added or deleted as necessary.
도 17에 도시된 바와 같이, 상기 음성 합성 모델 구축 방법은 학습용 텍스트와 정담 음성 데이터에 대한 전처리를 수행하는 단계 S210에서 시작된다. 상기 전처리에 대한 내용은 앞서 설명한 바와 같으므로, 더 이상의 설명은 생략하도록 한다.As shown in FIG. 17, the method of constructing the speech synthesis model begins in step S210 of performing pre-processing on the training text and the jeongdam speech data. Since the contents of the pre-processing are the same as described above, further description will be omitted.
단계 S220에서, 전처리된 텍스트가 문자 임베딩 벡터로 변환되고, 학습용 감정 정보가 감정 임베딩 벡터로 변환되며, 학습용 화자 정보가 화자 임베딩 벡터로 변환된다. 상기 변환 과정은 음성 합성 모델(e.g. 도 5의 43)을 구성하는 임베딩 모듈(e.g. 도 5의 51)에서 수행될 수 있을 것이나, 별도의 임베딩 모듈에서 수행될 수도 있다.In step S220, the preprocessed text is converted into a character embedding vector, the learning emotion information is converted into an emotion embedding vector, and the learning speaker information is converted into a speaker embedding vector. The conversion process may be performed in an embedding module (e.g. 51 in FIG. 5) constituting the speech synthesis model (e.g. 43 in FIG. 5), but may be performed in a separate embedding module.
단계 S230에서, 음성 합성 모델의 인코더 신경망(e.g. 도 5의 55)에서 상기 문자 임베딩 벡터 및 상기 감정 임베딩 벡터를 입력받고 이를 인코딩하여 인코딩된 벡터를 출력한다. 보다 정확하게는, 상기 문자 임베딩 벡터로 구성된 입력 시퀀스가 상기 인코더 신경망으로 입력될 수 있다.In step S230, the character embedding vector and the emotion embedding vector are inputted from an encoder neural network (e.g. 55 in FIG. 5) of the speech synthesis model, and the encoded vector is output by encoding them. More precisely, an input sequence composed of the character embedding vector may be input to the encoder neural network.
단계 S240에서, 음성 합성 모델의 디코더 신경망(e.g. 도 5의 57)에서 상기 인코딩된 벡터를 입력받고 예측 스펙트로그램 데이터를 출력한다. 이때, 상기 디코더 신경망은 상기 인코더 신경망과 상기 디코더 신경망의 사이에 위치한 어텐션 모듈(e.g. 55)로부터 어텐션 정보를 더 입력받을 수 있다. 또한, 상기 디코더 신경망은 이전 프레임의 예측 스펙트로그램 데이터를 입력받고, 이를 더 이용하여 현재 프레임의 예측 스펙트로그램 데이터를 출력할 수 있다. 순차적으로 출력되는 예측 스펙트로그램 데이터가 출력 시퀀스에 대응된다.In step S240, the encoded vector is inputted from a decoder neural network (e.g. 57 in FIG. 5) of the speech synthesis model and predicted spectrogram data is output. In this case, the decoder neural network may further receive attention information from an attention module (e.g. 55) located between the encoder neural network and the decoder neural network. In addition, the decoder neural network may receive prediction spectrogram data of a previous frame, and may further use this to output prediction spectrogram data of a current frame. Prediction spectrogram data sequentially output corresponds to the output sequence.
단계 S250에서, 정답 스펙트로그램 데이터와 예측 스펙트로그램 데이터 간의 오차를 역전파하여 음성 합성 모델의 가중치가 갱신된다. 이때, 상기 오차 역전파를 통해 상기 인코더 신경망과 상기 디코더 신경망의 가중치가 한번에 갱신될 수 있다. 음성 합성 모델에 임베딩 모듈이 포함되어 있다면, 상기 임베딩 모듈의 가중치도 같이 갱신될 수 있다.In step S250, the weight of the speech synthesis model is updated by backpropagating the error between the correct answer spectrogram data and the predicted spectrogram data. In this case, weights of the encoder neural network and the decoder neural network may be updated at once through the error backpropagation. If an embedding module is included in the speech synthesis model, the weight of the embedding module may be updated as well.
전술한 단계 S210 내지 S250가 다수의 학습용 데이터에 대하여 수행됨으로써, 음성 합성 모델이 구축될 수 있다. 또한, 전술한 단계 S210 내지 S250은 학습부(41)와 음성 합성 모델(43)에 의해 수행될 수 있다.As the above-described steps S210 to S250 are performed on a plurality of training data, a speech synthesis model may be constructed. In addition, the above-described steps S210 to S250 may be performed by the learning unit 41 and the speech synthesis model 43.
지금까지 도 17을 참조하여 본 개시의 몇몇 실시예들에 따른 음성 합성 모델 구축 방법에 대하여 설명하였다. 상술한 방법에 따르면, 감정 조절이 가능하고 다수의 화자에 대한 음성 합성이 가능한 음성 합성 모델이 구축될 수 있다. 이하에서는, 본 개시의 몇몇 실시예들에 따른 음성 합성 장치(10)를 구현할 수 있는 예시적인 컴퓨팅 장치(180)에 대하여 설명하도록 한다.So far, a method of constructing a speech synthesis model according to some embodiments of the present disclosure has been described with reference to FIG. 17. According to the above-described method, a speech synthesis model capable of controlling emotion and capable of synthesizing speech for a plurality of speakers can be constructed. Hereinafter, an exemplary computing device 180 capable of implementing the speech synthesis device 10 according to some embodiments of the present disclosure will be described.
도 18은 본 개시의 몇몇 실시예들에 따른 음성 합성 장치(10)를 구현할 수 있는 예시적인 컴퓨팅 장치(180)를 나타내는 하드웨어 구성도이다.18 is a hardware configuration diagram illustrating an exemplary computing device 180 capable of implementing the speech synthesis device 10 according to some embodiments of the present disclosure.
도 18에 도시된 바와 같이, 컴퓨팅 장치(180)는 하나 이상의 프로세서(181), 버스(183), 통신 인터페이스(184), 프로세서(181)에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리(182)와, 컴퓨터 프로그램(186)을 저장하는 스토리지(185)를 포함할 수 있다. 다만, 도 18에는 본 개시의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 개시가 속한 기술분야의 통상의 기술자라면 도 18에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.18, the computing device 180 is a memory for loading a computer program executed by one or more processors 181, a bus 183, a communication interface 184, and the processor 181 ( 182 and a storage 185 for storing the computer program 186 may be included. However, only components related to the embodiment of the present disclosure are shown in FIG. 18. Accordingly, those of ordinary skill in the art to which the present disclosure pertains may recognize that other general-purpose components may be further included in addition to the components illustrated in FIG. 18.
프로세서(181)는 컴퓨팅 장치(180)의 각 구성의 전반적인 동작을 제어한다. 프로세서(181)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 개시의 기술 분야에 잘 알려진 임의의 형태의 프로세서를 포함하여 구성될 수 있다. 또한, 프로세서(181)는 본 개시의 실시예들에 따른 방법을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(180)는 하나 이상의 프로세서를 구비할 수 있다.The processor 181 controls the overall operation of each component of the computing device 180. The processor 181 includes a CPU (Central Processing Unit), MPU (Micro Processor Unit), MCU (Micro Controller Unit), GPU (Graphic Processing Unit), or any type of processor well known in the art of the present disclosure. Can be. Also, the processor 181 may perform an operation on at least one application or program for executing the method according to the embodiments of the present disclosure. The computing device 180 may include one or more processors.
메모리(182)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(182)는 본 개시의 실시예들에 따른 음성 합성 방법을 실행하기 위하여 스토리지(185)로부터 하나 이상의 프로그램(186)을 로드할 수 있다. 가령, 메모리(182)에 컴퓨터 프로그램(186)이 로드되면, 도 2에 도시된 바와 같은 모듈이 메모리(182) 상에 구현될 수 있다. 메모리(182)는 RAM과 같은 휘발성 메모리로 구현될 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.The memory 182 stores various types of data, commands and/or information. The memory 182 may load one or more programs 186 from the storage 185 in order to execute the speech synthesis method according to embodiments of the present disclosure. For example, when the computer program 186 is loaded in the memory 182, a module as shown in FIG. 2 may be implemented on the memory 182. The memory 182 may be implemented as a volatile memory such as RAM, but the technical scope of the present disclosure is not limited thereto.
버스(183)는 컴퓨팅 장치(180)의 구성 요소 간 통신 기능을 제공한다. 버스(183)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.The bus 183 provides communication functions between components of the computing device 180. The bus 183 may be implemented as various types of buses such as an address bus, a data bus, and a control bus.
통신 인터페이스(184)는 컴퓨팅 장치(180)의 유무선 인터넷 통신을 지원한다. 또한, 통신 인터페이스(184)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(184)는 본 개시의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.The communication interface 184 supports wired/wireless Internet communication of the computing device 180. In addition, the communication interface 184 may support various communication methods other than Internet communication. To this end, the communication interface 184 may be configured to include a communication module well known in the technical field of the present disclosure.
몇몇 실시예들에 따르면, 통신 인터페이스(184)는 생략될 수도 있다.According to some embodiments, the communication interface 184 may be omitted.
스토리지(185)는 상기 하나 이상의 프로그램(186)과 각종 데이터를 비임시적으로 저장할 수 있다. 가령, 컴퓨팅 장치(180)를 통해 음성 합성 장치(10)가 구현되는 경우라면, 상기 각종 데이터는 저장부(25)에 의해 관리되는 데이터를 포함할 수 있다.The storage 185 may non-temporarily store the one or more programs 186 and various data. For example, if the speech synthesis device 10 is implemented through the computing device 180, the various types of data may include data managed by the storage unit 25.
스토리지(185)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 개시가 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.The storage 185 is a nonvolatile memory such as a Read Only Memory (ROM), an Erasable Programmable ROM (EPROM), an Electrically Erasable Programmable ROM (EEPROM), a flash memory, etc., a hard disk, a removable disk, or a technical field to which the present disclosure belongs. It may be configured to include any known computer-readable recording medium.
컴퓨터 프로그램(186)은 메모리(182)에 로드될 때 프로세서(181)로 하여금 본 개시의 다양한 실시예에 따른 방법/동작을 수행하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 즉, 프로세서(181)는 상기 하나 이상의 인스트럭션들을 실행함으로써, 본 개시의 다양한 실시예에 따른 방법/동작들을 수행할 수 있다. Computer program 186 may include one or more instructions that when loaded into memory 182 cause processor 181 to perform a method/operation in accordance with various embodiments of the present disclosure. That is, the processor 181 may perform methods/operations according to various embodiments of the present disclosure by executing the one or more instructions.
예를 들어, 컴퓨터 프로그램(186)은 학습용 데이터셋을 획득하는 동작, 상기 학습용 데이터셋을 이용하여 음성 합성 모델을 구축하는 동작, 합성용 데이터를 획득하는 동작 및 상기 음성 합성 모델을 이용하여 상기 합성용 데이터에 대한 감정 음성을 합성하는 동작을 수행하도록 하는 인스트럭션들을 포함할 수 있다.For example, the computer program 186 includes an operation of acquiring a training data set, an operation of constructing a speech synthesis model using the training data set, an operation of acquiring synthesis data, and the synthesis using the speech synthesis model. It may include instructions for performing an operation of synthesizing emotional voices for the dragon data.
또는, 컴퓨터 프로그램(186)은 학습용 텍스트를 임베딩(embedding)하여 문자 임베딩 벡터로 변환하는 동작, 학습용 감정 정보를 임베딩하여 감정 임베딩 벡터로 변환하는 동작, 상기 인코더 신경망에서 상기 문자 임베딩 벡터 및 상기 감정 임베딩 벡터를 입력받고 인코딩된 벡터를 출력하는 동작, 상기 디코더 신경망에서 상기 인코딩된 벡터를 입력받고 예측 스펙트로그램 데이터를 출력하는 동작 및 정답 스펙트로그램 데이터와 상기 예측 스펙트로그램 데이터 간의 오차를 역전파(back-propagation)하여 상기 음성 합성 모델을 갱신하는 동작을 수행하는 인스트럭션들을 포함할 수 있다.Alternatively, the computer program 186 embeds the text for learning and converts it into a character embedding vector, the operation of embedding the emotion information for learning and converting it into an emotion embedding vector, and the character embedding vector and the emotion embedding in the encoder neural network An operation of receiving a vector and outputting an encoded vector, an operation of receiving the encoded vector from the decoder neural network and outputting prediction spectrogram data, and backpropagating an error between the correct answer spectrogram data and the predicted spectrogram data. propagation) to update the speech synthesis model.
위와 같은 경우, 컴퓨팅 장치(180)를 통해 본 개시의 몇몇 실시예들에 따른 음성 합성 장치(10)가 구현될 수 있다.In the above case, the speech synthesis apparatus 10 according to some embodiments of the present disclosure may be implemented through the computing device 180.
지금까지 도 1 내지 도 18을 참조하여 본 개시의 실시예에 따른 음성 합성 장치(10)를 구현할 수 있는 예시적인 컴퓨팅 장치(180)에 대하여 설명하였다.An exemplary computing device 180 capable of implementing the speech synthesis device 10 according to an embodiment of the present disclosure has been described so far with reference to FIGS. 1 to 18.
지금까지 도 1 내지 도 18을 참조하여 본 개시의 다양한 실시예들 및 그 실시예들에 따른 효과들을 언급하였다. 본 개시의 기술적 사상에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.So far, various embodiments of the present disclosure and effects according to the embodiments have been mentioned with reference to FIGS. 1 to 18. The effects according to the technical idea of the present disclosure are not limited to the above-mentioned effects, and other effects not mentioned will be clearly understood by those skilled in the art from the following description.
지금까지 도 1 내지 도 18을 참조하여 설명된 본 개시의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.The technical idea of the present disclosure described with reference to FIGS. 1 to 18 so far may be implemented as computer-readable code on a computer-readable medium. The computer-readable recording medium is, for example, a removable recording medium (CD, DVD, Blu-ray disk, USB storage device, removable hard disk) or a fixed recording medium (ROM, RAM, computer-equipped hard disk). I can. The computer program recorded in the computer-readable recording medium may be transmitted to another computing device through a network such as the Internet and installed in the other computing device, thereby being used in the other computing device.
이상에서, 본 개시의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 개시의 기술적 사상이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 개시의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.In the above, even if all the constituent elements constituting the embodiments of the present disclosure have been described as being combined into one or operating in combination, the technical idea of the present disclosure is not necessarily limited to these embodiments. That is, within the scope of the object of the present disclosure, all of the components may be selectively combined with one or more to operate.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.Although the operations are illustrated in a specific order in the drawings, it should not be understood that the operations must be executed in the specific order shown or in a sequential order, or all illustrated operations must be executed to obtain a desired result. In certain situations, multitasking and parallel processing may be advantageous. Moreover, the separation of the various components in the above-described embodiments should not be understood as necessitating such separation, and the program components and systems described may generally be integrated together into a single software product or packaged into multiple software products. It should be understood that there is.
이상 첨부된 도면을 참조하여 본 개시의 실시예들을 설명하였지만, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 개시가 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 개시의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 개시에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.Although the embodiments of the present disclosure have been described with reference to the accompanying drawings, the present disclosure may be implemented in other specific forms without changing the technical spirit or essential features of those of ordinary skill in the art. I can understand that there is. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not limiting. The scope of protection of the present disclosure should be interpreted by the following claims, and all technical ideas within the scope equivalent thereto should be construed as being included in the scope of the technical ideas defined by the present disclosure.

Claims (17)

  1. 텍스트에 대한 전처리를 수행하는 전처리부; 및A preprocessor for performing preprocessing on the text; And
    상기 전처리된 텍스트와 감정 정보를 신경망 기반의 음성 합성 모델에 입력하여 상기 텍스트에 대해 상기 감정 정보가 반영된 감정 음성을 합성하는 음성 합성부를 포함하되,Including a speech synthesizer for inputting the preprocessed text and emotion information into a speech synthesis model based on a neural network to synthesize an emotion speech reflecting the emotion information with respect to the text,
    상기 음성 합성 모델은,The speech synthesis model,
    상기 전처리된 텍스트와 상기 감정 정보를 이용하여 구성된 입력 시퀀스를 인코딩하여 인코딩된 벡터를 출력하는 인코더 신경망을 포함하는 것을 특징으로 하는,It characterized in that it comprises an encoder neural network for outputting the encoded vector by encoding the input sequence constructed by using the preprocessed text and the emotion information,
    음성 합성 장치.Speech synthesis device.
  2. 제1 항에 있어서,The method of claim 1,
    상기 인코딩된 벡터를 입력받고 상기 감정 음성과 연관된 출력 시퀀스를 출력하는 디코더 신경망을 더 포함하고,Further comprising a decoder neural network for receiving the encoded vector and outputting an output sequence associated with the emotional voice,
    상기 음성 합성 모델은,The speech synthesis model,
    상기 인코더 신경망과 상기 디코더 신경망 사이에 위치하고 상기 디코더 신경망이 상기 인코딩된 벡터에서 집중할 부분을 결정하는 어텐션(attention) 모듈을 더 포함하는 것을 특징으로 하는,It characterized in that it further comprises an attention module positioned between the encoder neural network and the decoder neural network and configured to determine a portion to be focused by the decoder neural network in the encoded vector,
    음성 합성 장치.Speech synthesis device.
  3. 제1 항에 있어서,The method of claim 1,
    상기 인코딩된 벡터를 입력받고 상기 감정 음성과 연관된 출력 시퀀스를 출력하는 디코더 신경망을 더 포함하고,Further comprising a decoder neural network for receiving the encoded vector and outputting an output sequence associated with the emotional voice,
    상기 인코더 신경망 및 상기 디코더 신경망은 RNN(Recurrent Neural Network) 또는 셀프 어텐션(self-attention) 기법에 기반하여 구현되는 것을 특징으로 하는,The encoder neural network and the decoder neural network are implemented based on a recurrent neural network (RNN) or a self-attention technique,
    음성 합성 장치.Speech synthesis device.
  4. 제1 항에 있어서,The method of claim 1,
    상기 감정 정보는 하나 이상의 감정에 대한 확률을 나타내는 감정 벡터인 것을 특징으로 하는,The emotion information is characterized in that the emotion vector indicating the probability of one or more emotions,
    음성 합성 장치.Speech synthesis device.
  5. 제1 항에 있어서,The method of claim 1,
    상기 감정 정보는 특정 감정 클래스를 가리키는 레이블 정보인 것을 특징으로 하는,The emotion information is characterized in that the label information indicating a specific emotion class,
    음성 합성 장치.Speech synthesis device.
  6. 제1 항에 있어서,The method of claim 1,
    상기 인코딩된 벡터를 입력받고 상기 감정 음성과 연관된 출력 시퀀스를 출력하는 디코더 신경망을 더 포함하고,Further comprising a decoder neural network for receiving the encoded vector and outputting an output sequence associated with the emotional voice,
    상기 출력 시퀀스는 스펙트로그램(spectrogram) 형태의 데이터로 구성되고,The output sequence is composed of data in the form of a spectrogram,
    상기 음성 합성부는,The speech synthesis unit,
    상기 출력 시퀀스를 상기 감정 음성으로 변환하는 보코더부를 더 포함하는 것을 특징으로 하는,It characterized in that it further comprises a vocoder unit for converting the output sequence into the emotion voice,
    음성 합성 장치.Speech synthesis device.
  7. 제1 항에 있어서,The method of claim 1,
    상기 인코딩된 벡터를 입력받고 상기 감정 음성과 연관된 출력 시퀀스를 출력하는 디코더 신경망을 더 포함하고,Further comprising a decoder neural network for receiving the encoded vector and outputting an output sequence associated with the emotional voice,
    상기 디코더 신경망은,The decoder neural network,
    상기 감정 정보를 더 입력받고 상기 출력 시퀀스를 출력하는 것을 특징으로 하는,The emotion information is further input and the output sequence is output.
    음성 합성 장치.Speech synthesis device.
  8. 제1 항에 있어서,The method of claim 1,
    상기 인코딩된 벡터를 입력받고 상기 감정 음성과 연관된 출력 시퀀스를 출력하는 디코더 신경망을 더 포함하고,Further comprising a decoder neural network for receiving the encoded vector and outputting an output sequence associated with the emotional voice,
    상기 출력 시퀀스는 스펙트로그램 형태의 데이터로 구성되고,The output sequence is composed of spectrogram data,
    상기 음성 합성부는,The speech synthesis unit,
    상기 전처리부에 의해 전처리된 학습용 텍스트를 상기 음성 합성 모델에 입력하고, 그 결과로 획득된 스펙트로그램 데이터와 정답 스펙트로그램 데이터를 비교하여 오차 값을 산출하며, 상기 산출된 오차 값을 역전파(back-propagation)하여 상기 음성 합성 모델을 학습시키는 것을 특징으로 하는,The training text preprocessed by the preprocessor is input into the speech synthesis model, and the resulting spectrogram data is compared with the correct answer spectrogram data to calculate an error value, and the calculated error value is backpropagated. -propagation) to train the speech synthesis model,
    음성 합성 장치.Speech synthesis device.
  9. 제8 항에 있어서,The method of claim 8,
    상기 역전파를 통해 상기 인코더 신경망의 가중치와 상기 디코더 신경망의 가중치가 함께 갱신되는 것을 특징으로 하는,The weight of the encoder neural network and the weight of the decoder neural network are updated together through the backpropagation,
    음성 합성 장치.Speech synthesis device.
  10. 제1 항에 있어서,The method of claim 1,
    상기 음성 합성 모델은,The speech synthesis model,
    화자 정보를 화자 임베딩 벡터로 변환하는 화자 임베딩 모듈을 더 포함하고,Further comprising a speaker embedding module for converting speaker information into a speaker embedding vector,
    상기 음성 합성부는,The speech synthesis unit,
    상기 화자 정보를 상기 음성 합성 모델에 입력하여 상기 화자 정보가 나타내는 특정 화자에 대해 상기 감정 정보가 반영된 음성을 상기 감정 음성으로 출력하는 것을 특징으로 하는,By inputting the speaker information into the speech synthesis model, for a specific speaker indicated by the speaker information, a voice reflecting the emotion information is output as the emotional voice,
    음성 합성 장치.Speech synthesis device.
  11. 제10 항에 있어서,The method of claim 10,
    상기 화자 임베딩 벡터는 상기 인코더 신경망으로 입력되는 것을 특징으로 하는,The speaker embedding vector is input to the encoder neural network,
    음성 합성 장치.Speech synthesis device.
  12. 제10 항에 있어서,The method of claim 10,
    상기 인코딩된 벡터를 입력받고 상기 감정 음성과 연관된 출력 시퀀스를 출력하는 디코더 신경망을 더 포함하고,Further comprising a decoder neural network for receiving the encoded vector and outputting an output sequence associated with the emotional voice,
    상기 화자 임베딩 벡터는 상기 디코더 신경망으로 입력되는 것을 특징으로 하는,The speaker embedding vector is input to the decoder neural network,
    음성 합성 장치.Speech synthesis device.
  13. 텍스트에 대한 전처리를 수행하는 단계; 및Performing pre-processing on the text; And
    상기 전처리된 텍스트와 감정 정보를 신경망 기반의 음성 합성 모델에 입력하여 상기 텍스트에 대해 상기 감정 정보가 반영된 감정 음성을 합성하는 단계를 포함하되,Comprising the step of inputting the preprocessed text and emotion information into a speech synthesis model based on a neural network, and synthesizing an emotion speech reflecting the emotion information with respect to the text,
    상기 감정 음성을 합성하는 단계는,The step of synthesizing the emotional voice,
    상기 전처리된 텍스트와 상기 감정 정보를 이용하여 구성된 입력 시퀀스를 인코딩하여 인코딩된 벡터를 출력하는 단계를 포함하는 것을 특징으로 하는,It characterized in that it comprises the step of encoding the input sequence constructed by using the preprocessed text and the emotion information and outputting the encoded vector,
    음성 합성 방법.Speech synthesis method.
  14. 제13 항에 있어서,The method of claim 13,
    상기 인코딩된 벡터를 입력받고 상기 감정 음성과 연관된 출력 시퀀스를 출력하는 단계를 더 포함하고,Receiving the encoded vector and outputting an output sequence associated with the emotional voice,
    상기 감정 음성을 합성하는 단계는,The step of synthesizing the emotional voice,
    상기 인코더 신경망과 상기 디코더 신경망 사이에 위치하고 상기 디코더 신경망이 상기 인코딩된 벡터에서 집중할 부분을 결정하는 단계를 더 포함하는 것을 특징으로 하는,It is located between the encoder neural network and the decoder neural network and further comprising the step of determining, by the decoder neural network, a portion to be focused in the encoded vector,
    음성 합성 방법.Speech synthesis method.
  15. 제13 항에 있어서,The method of claim 13,
    상기 인코딩된 벡터를 입력받고 상기 감정 음성과 연관된 출력 시퀀스를 출력하는 단계를 더 포함하고,Further comprising the step of receiving the encoded vector and outputting an output sequence associated with the emotional voice,
    상기 인코딩된 벡터를 출력하는 단계 및 출력 시퀀스를 출력하는 단계는 RNN(Recurrent Neural Network) 또는 셀프 어텐션(self-attention) 기법에 기반하여 구현되는 것을 특징으로 하는,The step of outputting the encoded vector and the step of outputting the output sequence is implemented based on a recurrent neural network (RNN) or a self-attention technique,
    음성 합성 방법.Speech synthesis method.
  16. 제13 항에 있어서,The method of claim 13,
    상기 감정 정보는 하나 이상의 감정에 대한 확률을 나타내는 감정 벡터인 것을 특징으로 하는,The emotion information is characterized in that the emotion vector indicating the probability of one or more emotions,
    음성 합성 방법.Speech synthesis method.
  17. 제13 항에 있어서,The method of claim 13,
    상기 감정 정보는 특정 감정 클래스를 가리키는 레이블 정보인 것을 특징으로 하는,The emotion information is characterized in that the label information indicating a specific emotion class,
    음성 합성 방법.Speech synthesis method.
PCT/KR2020/003768 2019-03-19 2020-03-19 Speech synthesis apparatus and method therefor WO2020190054A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0030905 2019-03-19
KR1020190030905A KR102057927B1 (en) 2019-03-19 2019-03-19 Apparatus for synthesizing speech and method thereof

Publications (1)

Publication Number Publication Date
WO2020190054A1 true WO2020190054A1 (en) 2020-09-24

Family

ID=69062875

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/003768 WO2020190054A1 (en) 2019-03-19 2020-03-19 Speech synthesis apparatus and method therefor

Country Status (2)

Country Link
KR (1) KR102057927B1 (en)
WO (1) WO2020190054A1 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633364A (en) * 2020-12-21 2021-04-09 上海海事大学 Multi-modal emotion recognition method based on Transformer-ESIM attention mechanism
CN112992177A (en) * 2021-02-20 2021-06-18 平安科技(深圳)有限公司 Training method, device, equipment and storage medium of voice style migration model
CN113257218A (en) * 2021-05-13 2021-08-13 北京有竹居网络技术有限公司 Speech synthesis method, speech synthesis device, electronic equipment and storage medium
CN113421546A (en) * 2021-06-30 2021-09-21 平安科技(深圳)有限公司 Cross-tested multi-mode based speech synthesis method and related equipment
US11241574B2 (en) 2019-09-11 2022-02-08 Bose Corporation Systems and methods for providing and coordinating vagus nerve stimulation with audio therapy
WO2022105553A1 (en) * 2020-11-20 2022-05-27 北京有竹居网络技术有限公司 Speech synthesis method and apparatus, readable medium, and electronic device
CN117423327A (en) * 2023-10-12 2024-01-19 北京家瑞科技有限公司 Voice synthesis method and device based on GPT neural network

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102057927B1 (en) * 2019-03-19 2019-12-20 휴멜로 주식회사 Apparatus for synthesizing speech and method thereof
KR102277205B1 (en) * 2020-03-18 2021-07-15 휴멜로 주식회사 Apparatus for converting audio and method thereof
CN111402923B (en) * 2020-03-27 2023-11-03 中南大学 Emotion voice conversion method based on wavenet
CN111627420B (en) * 2020-04-21 2023-12-08 升智信息科技(南京)有限公司 Method and device for synthesizing emotion voice of specific speaker under extremely low resource
CN111667812B (en) * 2020-05-29 2023-07-18 北京声智科技有限公司 Speech synthesis method, device, equipment and storage medium
KR102382191B1 (en) * 2020-07-03 2022-04-04 한국과학기술원 Cyclic Learning Method and Apparatus for Speech Emotion Recognition and Synthesis
CN111973178A (en) * 2020-08-14 2020-11-24 中国科学院上海微系统与信息技术研究所 Electroencephalogram signal identification system and method
KR102392904B1 (en) * 2020-09-25 2022-05-02 주식회사 딥브레인에이아이 Method and apparatus for synthesizing voice of based text
CN112365881A (en) 2020-11-11 2021-02-12 北京百度网讯科技有限公司 Speech synthesis method, and training method, device, equipment and medium of corresponding model
KR102503066B1 (en) * 2020-11-24 2023-03-02 주식회사 자이냅스 A method and a TTS system for evaluating the quality of a spectrogram using scores of an attention alignment
KR102576606B1 (en) * 2021-03-26 2023-09-08 주식회사 엔씨소프트 Apparatus and method for timbre embedding model learning

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006084967A (en) * 2004-09-17 2006-03-30 Advanced Telecommunication Research Institute International Method for creating predictive model and computer program therefor
KR20130091364A (en) * 2011-12-26 2013-08-19 한국생산기술연구원 Apparatus and method for generating emotion of robot
KR20190016889A (en) * 2017-08-09 2019-02-19 한국과학기술원 Method of text to speech and system of the same
KR101954447B1 (en) * 2018-03-12 2019-03-05 박기수 Method for providing telemarketing service based on connection between mobile device and networking device
KR102057927B1 (en) * 2019-03-19 2019-12-20 휴멜로 주식회사 Apparatus for synthesizing speech and method thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006084967A (en) * 2004-09-17 2006-03-30 Advanced Telecommunication Research Institute International Method for creating predictive model and computer program therefor
KR20130091364A (en) * 2011-12-26 2013-08-19 한국생산기술연구원 Apparatus and method for generating emotion of robot
KR20190016889A (en) * 2017-08-09 2019-02-19 한국과학기술원 Method of text to speech and system of the same
KR101954447B1 (en) * 2018-03-12 2019-03-05 박기수 Method for providing telemarketing service based on connection between mobile device and networking device
KR102057927B1 (en) * 2019-03-19 2019-12-20 휴멜로 주식회사 Apparatus for synthesizing speech and method thereof

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIN, ZHOUHAN ET AL.: "A STRUCTURED SELF-ATTENTIVE SENTENCE EMBEDDING", ARXIV:1703.03130V1, 9 March 2017 (2017-03-09), pages 1 - 15, XP080755413, Retrieved from the Internet <URL:https://arxiv.org/pdf/1703.03130v1.pdf> [retrieved on 20200608] *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11241574B2 (en) 2019-09-11 2022-02-08 Bose Corporation Systems and methods for providing and coordinating vagus nerve stimulation with audio therapy
WO2022105553A1 (en) * 2020-11-20 2022-05-27 北京有竹居网络技术有限公司 Speech synthesis method and apparatus, readable medium, and electronic device
CN112633364B (en) * 2020-12-21 2024-04-05 上海海事大学 Multimode emotion recognition method based on transducer-ESIM attention mechanism
CN112633364A (en) * 2020-12-21 2021-04-09 上海海事大学 Multi-modal emotion recognition method based on Transformer-ESIM attention mechanism
CN112992177B (en) * 2021-02-20 2023-10-17 平安科技(深圳)有限公司 Training method, device, equipment and storage medium of voice style migration model
CN112992177A (en) * 2021-02-20 2021-06-18 平安科技(深圳)有限公司 Training method, device, equipment and storage medium of voice style migration model
CN113257218B (en) * 2021-05-13 2024-01-30 北京有竹居网络技术有限公司 Speech synthesis method, device, electronic equipment and storage medium
WO2022237665A1 (en) * 2021-05-13 2022-11-17 北京有竹居网络技术有限公司 Speech synthesis method and apparatus, electronic device, and storage medium
CN113257218A (en) * 2021-05-13 2021-08-13 北京有竹居网络技术有限公司 Speech synthesis method, speech synthesis device, electronic equipment and storage medium
CN113421546A (en) * 2021-06-30 2021-09-21 平安科技(深圳)有限公司 Cross-tested multi-mode based speech synthesis method and related equipment
CN113421546B (en) * 2021-06-30 2024-03-01 平安科技(深圳)有限公司 Speech synthesis method based on cross-test multi-mode and related equipment
CN117423327A (en) * 2023-10-12 2024-01-19 北京家瑞科技有限公司 Voice synthesis method and device based on GPT neural network
CN117423327B (en) * 2023-10-12 2024-03-19 北京家瑞科技有限公司 Voice synthesis method and device based on GPT neural network

Also Published As

Publication number Publication date
KR102057927B1 (en) 2019-12-20

Similar Documents

Publication Publication Date Title
WO2020190054A1 (en) Speech synthesis apparatus and method therefor
WO2020190050A1 (en) Speech synthesis apparatus and method therefor
JP7445267B2 (en) Speech translation method and system using multilingual text-to-speech synthesis model
WO2019139430A1 (en) Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium
WO2019139428A1 (en) Multilingual text-to-speech synthesis method
EP3614376B1 (en) Speech synthesis method, server and storage medium
WO2020145439A1 (en) Emotion information-based voice synthesis method and device
WO2019139431A1 (en) Speech translation method and system using multilingual text-to-speech synthesis model
US20210209315A1 (en) Direct Speech-to-Speech Translation via Machine Learning
Zhao et al. Foreign Accent Conversion by Synthesizing Speech from Phonetic Posteriorgrams.
KR102306844B1 (en) Method and apparatus for translating speech of video and providing lip-synchronization for translated speech in video
KR20200111609A (en) Apparatus for synthesizing speech and method thereof
WO2022045651A1 (en) Method and system for applying synthetic speech to speaker image
US20200410979A1 (en) Method, device, and computer-readable storage medium for speech synthesis in parallel
WO2020209647A1 (en) Method and system for generating synthetic speech for text through user interface
JP2022512233A (en) Neural adjustment code for multilingual style-dependent speech language processing
WO2022203152A1 (en) Method and device for speech synthesis based on multi-speaker training data sets
WO2019088635A1 (en) Voice synthesis device and method
WO2022260432A1 (en) Method and system for generating composite speech by using style tag expressed in natural language
KR20200111608A (en) Apparatus for synthesizing speech and method thereof
WO2022177091A1 (en) Electronic device and method for controlling same
Seong et al. Multilingual speech synthesis for voice cloning
WO2022034982A1 (en) Method for performing synthetic speech generation operation on text
KR102277205B1 (en) Apparatus for converting audio and method thereof
JP2583074B2 (en) Voice synthesis method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20773072

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20773072

Country of ref document: EP

Kind code of ref document: A1