WO2019139430A1 - Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium - Google Patents

Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium Download PDF

Info

Publication number
WO2019139430A1
WO2019139430A1 PCT/KR2019/000512 KR2019000512W WO2019139430A1 WO 2019139430 A1 WO2019139430 A1 WO 2019139430A1 KR 2019000512 W KR2019000512 W KR 2019000512W WO 2019139430 A1 WO2019139430 A1 WO 2019139430A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
text
speaker
data
input
Prior art date
Application number
PCT/KR2019/000512
Other languages
French (fr)
Korean (ko)
Inventor
김태수
이영근
Original Assignee
네오사피엔스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네오사피엔스 주식회사 filed Critical 네오사피엔스 주식회사
Priority to EP19738381.3A priority Critical patent/EP3739572A4/en
Priority to JP2020538659A priority patent/JP7082357B2/en
Priority to CN201980007953.1A priority patent/CN111587455B/en
Priority claimed from KR1020190004186A external-priority patent/KR102401512B1/en
Publication of WO2019139430A1 publication Critical patent/WO2019139430A1/en
Priority to US16/682,438 priority patent/US11514887B2/en
Priority to JP2022081878A priority patent/JP7355306B2/en
Priority to US17/969,078 priority patent/US20230067505A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Definitions

  • the present disclosure relates to a method for receiving an input text and composing a voice for the input text and an apparatus for reproducing the synthesized voice.
  • Speech is one of the tools to communicate basic and effective doctors.
  • Voice-based communications use a voice user interface that provides intuitive and convenient services to the user, and some devices can interact using voice.
  • a simple way to implement a voice response in a conventional voice user interface is audio recording, but there is a limitation that only the recorded voice can be used.
  • Such a device is not flexible enough to use the device because it can not provide answering service for unrecorded voice.
  • an AI agent such as Apple Siri and Amazon Alexa may be able to generate various sentences for answering the user's query, since the user's queries may be arbitrary. Significant time and expense is required when recording all possible responses from these applications.
  • Text-to-speech synthesis also referred to as TTS (text-to-speech)
  • TTS text-to-speech
  • TTS technology has various speech synthesis methods such as Concatenative TTS and Parametric TTS.
  • Concatenative TTS can synthesize voice by combining the voices composing the sentence to be synthesized in advance by cutting and storing the voice in a very short unit such as a phoneme
  • Parametric TTS can express the characteristic of voice as a parameter and synthesize
  • the parameters representing the speech features that make up the sentence can be synthesized with vocoder corresponding to the sentence using a vocoder.
  • a speech synthesis method based on an artificial neural network for example, a deep neural network
  • a speech synthesized according to the speech synthesis method includes a more natural speech characteristic than an existing method .
  • a large amount of data corresponding to the voice of the speaker is required, and re-learning of the artificial neural network model using the data is required.
  • the method and apparatus according to the present disclosure is directed to a speech synthesis method and apparatus that provides output speech data for an input text that reflects the speech characteristics of the new speaker without inputting much data or information to a new speaker.
  • the method and apparatus of the present disclosure can provide a speech synthesis service by extending a new speaker without additional machine learning.
  • a method of text-to-speech synthesis using machine learning includes generating a plurality of training texts and a plurality of training texts, A method of generating a single artificial neural network text-to-speech synthesis model, receiving input text, receiving a speaker's vocal characteristics, and comparing the speaker's vocal characteristics with a single artificial neural network text- And generating output speech data for the input text in which the speech characteristic of the speaker is reflected.
  • the step of receiving a speaker's speech feature of the text-to-speech synthesis method using machine learning includes receiving a speech sample and extracting an embedding vector representing a speaker's speech feature from the speech sample Step < / RTI >
  • the step of extracting the embedding vector representing the utterance characteristic of the speaker from the speech samples of the text-to-speech synthesis method using machine learning includes a step of extracting a first sub- Wherein the prosodic feature includes at least one of information on a speech rate, information on a pronunciation strength, information on a dormant section, or information on a pitch height, and includes an output for an input text in which a speech characteristic of a speaker is reflected
  • the step of generating the voice data may include inputting a first sub-embedding vector representing a prosodic feature to a single artificial neural network text-to-speech synthesis model to generate output speech data for the input text in which the prosodic characteristic of the speaker is reflected .
  • the step of extracting the embedding vector representing the utterance characteristic of the speaker from the speech sample of the text-speech synthesis method using the machine learning includes extracting the second subembedding vector representing the emotion characteristic of the speaker
  • the step of generating the output speech data for the input text in which the speech characteristic of the speaker is reflected includes the information about the emotion contained in the speech contents of the speaker and the second sub- May be input to a single artificial neural network text-to-speech synthesis model to generate output speech data for the input text in which the emotion characteristic of the speaker is reflected.
  • the step of extracting the embedding vector representing the utterance characteristic of the speaker from the speech samples of the text-to-speech synthesis method using the machine learning includes a step of extracting a third sub-embedding vector
  • the step of generating output speech data for an input text that reflects a speaker's utterance characteristic comprises generating a third subembedding vector representing characteristics of a speaker's tone and pitch by a single artificial neural network text- And generating output speech data for an input text that is input to the model to reflect features of the speaker's tone color and tone height.
  • the step of generating output speech data for an input text that reflects a speaker's vocal characteristics of the method of text-to-speech synthesis using machine learning includes receiving additional input for output speech data, Modifying an embedding vector representing a speaker's utterance characteristic based on the input speech data and inputting the modified embedding vector into a single artificial neural network text-to-speech synthesis model, And converting the voice data into voice data.
  • Further input to the output speech data of the text-to-speech synthesis method using machine learning may include information on gender, information on age, information on intonation by region, information on speed of utterance, Height, or information on the size of the utterance.
  • the step of receiving the speech samples of the text-to-speech synthesis method using machine learning may include receiving in real time as speech samples speech input from a speaker within a predetermined time period .
  • the step of receiving the speech samples of the text-to-speech synthesis method using machine learning in accordance with an embodiment of the present disclosure may include receiving speech input from the speaker within a predetermined time period from the speech database.
  • a program for implementing the text-to-speech synthesis method using the above-described machine learning may be recorded in a computer-readable recording medium.
  • FIG. 1 is a diagram of a text-to-speech synthesis terminal according to an embodiment of the present disclosure
  • FIG. 2 is a block diagram of a text-to-speech synthesizer according to an embodiment of the present disclosure.
  • FIG. 3 is a flow diagram illustrating a text-to-speech synthesis method in accordance with one embodiment of the present disclosure.
  • FIG. 4 is a block diagram of a text-to-speech synthesizer according to an embodiment of the present disclosure.
  • FIG. 5 is a diagram showing a configuration of a text-to-speech synthesizer based on an artificial neural network.
  • FIG. 6 is a diagram illustrating a configuration of a text-to-speech synthesizer based on an artificial neural network according to an embodiment of the present disclosure.
  • FIG. 7 is a diagram illustrating a network for extracting embedding vectors representing vocal characteristics that can distinguish each of a plurality of speakers in accordance with one embodiment of the present disclosure.
  • FIG. 8 is a diagram illustrating a configuration of a text-to-speech synthesizer based on an artificial neural network according to an embodiment of the present disclosure.
  • FIG. 9 is a flowchart illustrating an operation of a vocal characteristic adjusting unit according to an embodiment of the present disclosure.
  • FIG. 10 illustrates an example of a user interface that alters the characteristics of the output speech in accordance with one embodiment of the present disclosure.
  • FIG. 11 is a block diagram of a text-to-speech synthesis system in accordance with one embodiment of the present disclosure.
  • part used in the specification means software or hardware component, and "part " However, “part” is not meant to be limited to software or hardware. “Part” may be configured to reside on an addressable storage medium and may be configured to play back one or more processors.
  • part (s) refers to components such as software components, object oriented software components, class components and task components, and processes, Subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays and variables.
  • the functions provided in the components and “parts " may be combined into a smaller number of components and” parts " or further separated into additional components and “parts ".
  • processor may be embodied in a processor and memory.
  • the term “processor” should be broadly interpreted to include a general purpose processor, a central processing unit (CPU), a microprocessor, a digital signal processor (DSP), a controller, a microcontroller, In some circumstances, a “processor” may refer to an application specific integrated circuit (ASIC), a programmable logic device (PLD), a field programmable gate array (FPGA)
  • ASIC application specific integrated circuit
  • PLD programmable logic device
  • FPGA field programmable gate array
  • processor refers to a combination of processing devices, such as, for example, a combination of a DSP and a microprocessor, a combination of a plurality of microprocessors, a combination of one or more microprocessors in conjunction with a DSP core, It can also be called.
  • memory should be broadly interpreted to include any electronic component capable of storing electronic information.
  • the terminology memory may be any suitable memory such as random access memory (RAM), read-only memory (ROM), non-volatile random access memory (NVRAM), programmable read-only memory (PROM), erase- May refer to various types of processor-readable media such as erasable programmable read-only memory (PROM), flash memory, magnetic or optical data storage devices, registers, and the like.
  • RAM random access memory
  • ROM read-only memory
  • NVRAM non-volatile random access memory
  • PROM programmable read-only memory
  • erase- May to various types of processor-readable media such as erasable programmable read-only memory (PROM), flash memory, magnetic or optical data storage devices, registers, and the like.
  • the memory is said to be in electronic communication with the processor if the processor is able to read information from and / or write information to the memory.
  • the memory integrated in the processor is in electronic communication with the processor.
  • FIG. 1 is a diagram of a text-to-speech synthesis terminal 100 in accordance with an embodiment of the present disclosure.
  • the text-to-speech synthesis terminal 100 may include at least one processor and a memory.
  • the text-to-speech synthesis terminal 100 may be implemented in a smart phone, a computer, a mobile phone, or the like.
  • the text-to-speech synthesis terminal 100 may communicate with an external device (e.g., a server device) including a communication unit.
  • the text-to-speech synthesis terminal 100 may receive text input and a specific speaker input from the user 110. For example, as shown in FIG. 1, the text-to-speech synthesis terminal 100 may receive "How are you?" As text input. Also, the text-to-speech synthesis terminal 100 may receive "Person 1" as a speaker input. Here, "person 1" may represent the utterance characteristic of a preset speaker, i.e., "person 1 ".
  • the text-to-speech synthesis terminal 100 may be configured to preset at least one vocal characteristic (e.g., "person 1") of a plurality of human vocal characteristics. For example, the vocal characteristics of the plurality of persons can be received from an external apparatus such as a server apparatus through the communication unit.
  • the present invention shows a user interface for specifying a preset speaker.
  • the user can provide a voice for specific text to the text-to-speech synthesis terminal 100,
  • the controller 100 may extract the voice feature of the received voice and display the voice feature of the user for voice synthesis to be selected.
  • the speech feature of the speech can be extracted from the received speech, and the speech feature of the speech can be represented by the embedding vector.
  • the text-to-speech synthesis terminal 100 may be configured to output speech data for the input text in which the speech characteristic of the designated speaker is reflected. For example, in generating output speech data for the input text of "How are you ", as shown in Fig. 1, the speech characteristic of the selected" person 1 "
  • the utterance characteristic of the specific speaker may include not only the voice of the speaker but also at least one of various factors such as a style, a rhyme, an emotion, a tone color, and a pitch capable of constituting the utterance.
  • the text-to-speech synthesis terminal 100 may provide input text and a designated speaker to the text-to-speech synthesis apparatus and may provide speech data synthesized from the text- , "How are you” in which the utterance characteristic of "Person 1 " is reflected).
  • the text-to-speech synthesizer will be described in more detail below with reference to FIG.
  • the text-to-speech synthesis terminal 100 can output the synthesized speech data to the user 110.
  • the text-to-speech synthesis terminal 100 may be configured to include a text-to-speech synthesis device.
  • FIG. 2 is a block diagram of a text-to-speech synthesis apparatus 200 according to an embodiment of the present disclosure.
  • the data learning unit (not shown) and the data recognition unit (not shown) used by the text-to-speech synthesizer 200 of FIG. 2 are the same as or similar to the configuration of the text-to-speech synthesizer 1100 of FIG. . ≪ / RTI >
  • the speech synthesis apparatus 200 includes a speech feature extraction unit 210, a speech feature adjustment unit 220, a speech database 230, an encoder 240, a decoder 250, a postprocessing processor 260, 270).
  • the utterance feature extraction unit 210 may be configured to receive a speaker's speech signal (e. G., A voice sample) and extract the speaker's utterance characteristics from the received speech signal.
  • the received speech signal or sample may include speech spectral data representing information related to a speech feature of the speaker.
  • any known appropriate feature extraction method capable of extracting a vocal feature from a speaker's speech signal can be used.
  • a speech processing method such as Mel frequency synthesizer (MFC)
  • MFC Mel frequency synthesizer
  • speech samples may be input to a learned speech feature extraction model (e.g., an artificial neural network) to extract speech features.
  • the utterance characteristic of the extracted speaker can be represented by an embedding vector.
  • the utterance feature extraction section 210 can receive at least one of text and video, and can be configured to extract the utterance characteristics of the speaker from the received text and video.
  • the speech feature of the extracted speaker may be provided to at least one of the encoder 240 or the decoder 250.
  • the utterance characteristics of the speaker extracted from the utterance feature extraction section 210 may be stored in a storage medium (e.g., voice database 230) or an external storage device. Accordingly, at the time of speech synthesis for the input text, one or more speech characteristics of a plurality of speakers, which are stored in advance in the storage medium, can be selected or designated, and the speech characteristics of a selected or designated plurality of speakers Can be used.
  • a storage medium e.g., voice database 230
  • the utterance characteristic adjuster 220 may be configured to adjust the utterance characteristics of the speaker.
  • the utterance feature adjuster 220 may receive information for adjusting the speaker's utterance characteristics. For example, information for adjusting a speaker's utterance characteristic may be input from a user by the utterance characteristic adjuster 220. Based on the information received from the user, the utterance characteristic adjusting unit 220 can adjust the utterance characteristic of the speaker extracted by the utterance characteristic extracting unit 210.
  • the voice database 230 may store a learning text and a voice corresponding to a plurality of learning texts.
  • the learning text may be written in at least one language and may include at least one of words, phrases, and sentences that a person can understand.
  • the voice stored in the voice database 230 may include voice data in which a plurality of speakers have read the learning text.
  • the learning text and voice data may be stored in advance in the voice database 230 or may be received from the communication unit 270.
  • At least one of the encoder 240 and the decoder 250 may include or generate a single artificial neural network text-speech synthesis model based on the learning text and speech stored in the speech database 230.
  • the encoder 240 and the decoder 250 may constitute a single artificial neural network text-synthesis model.
  • the speech database 230 may be configured to store speech characteristics of one or more speakers extracted from the speech feature extraction section 210.
  • the speech feature of the stored speech e.g., an embedding vector representing the speech feature of the speaker
  • the speech feature of the stored speech may be provided to at least one of the encoder 240 or the decoder during speech synthesis.
  • the encoder 240 can receive the input text and can be configured to generate the input text by converting it into character embedding.
  • character embedding may be entered into a single artificial neural network text-to-speech synthesis model (e.g., pre-net, CBHG module, DNN, CNN + DNN, etc.) to generate the hidden states of the encoder 240.
  • a single artificial neural network text-to-speech synthesis model e.g., pre-net, CBHG module, DNN, CNN + DNN, etc.
  • the encoder 240 further receives the speaker's utterance characteristics from at least one of the utterance feature extraction unit 210 or the utterance feature control unit 220, and performs character embedding and speaker's utterance characteristics on a single artificial neural network (E.g., pre-net, CBHG module, DNN, CNN + DNN, etc.) to generate hidden states of the encoder 240.
  • a single artificial neural network E.g., pre-net, CBHG module, DNN, CNN + DNN, etc.
  • the thus generated hidden states of the encoder 240 may be provided to the decoder 820.
  • the decoder 250 may be configured to receive the speaker's speech characteristics.
  • the decoder 250 can receive the speaker's utterance characteristic from at least one of the utterance feature extraction unit 210 and the utterance feature control unit 220.
  • the present invention is not limited thereto, and the decoder 250 can receive the utterance characteristic of the speaker from the communication unit 270 or the input / output unit (I / O unit: not shown).
  • the decoder 250 may receive hidden states corresponding to the input text from the encoder 240. According to one embodiment, the decoder 250 may include an attention module configured to determine from which part of the input text to generate the speech at the current time-step (time-step).
  • Decoder 250 may generate the output speech data corresponding to the input text by inputting the speech characteristics and input text of the speaker into a single artificial neural network text-speech synthesis model.
  • Such output speech data may include synthesized speech data that reflects the speech characteristics of the speaker.
  • output speech data in which the first speaker appears to read the input text may be generated based on the speech characteristics of the first speaker set in advance.
  • output speech data may be represented by a mel-spectrogram.
  • the present invention is not limited to this, and the output speech data may be represented by a linear spectrogram.
  • the output audio data may be output to at least one of a speaker, a post-processing processor 260, and a communication unit 270.
  • the post-processor 260 may be configured to convert the output speech data generated at the decoder 250 into speech output from the speaker.
  • a changed outputable voice can be represented by a waveform.
  • the post-processor 260 may be configured to operate only when the output voice data generated at the decoder 250 is inappropriate for output from the speaker. That is, if the output voice data generated at the decoder 250 is suitable for output from the speaker, the output voice data can be output directly to the speaker without going through the post-processor 260.
  • post processor 260 is shown in FIG. 2 as being included in text-to-speech synthesizer 200, post processor 260 may be configured not to be included in text-to-speech synthesizer 200 have.
  • the post-processor 260 may be configured to convert the output speech data represented by the mel-spectrogram generated in the decoder 250 into a waveform in the time domain.
  • the post-processor 260 may amplify the size of the output speech data if the size of the signal of the output speech data does not reach a predetermined reference size.
  • the post-processor 260 may output the converted output voice data to at least one of the speaker or the communication unit 270.
  • the communication unit 270 may be configured such that the text-to-speech synthesizer 200 transmits / receives signals or data to / from an external device.
  • the external device may include the text-to-speech synthesis terminal 100 of FIG.
  • the external device may include another text-to-speech synthesizer.
  • the external device may be any device, including a voice database.
  • the communication unit 270 can be configured to receive text from an external device.
  • the text may include a learning text to be used for learning of a single artificial neural network text-speech synthesis model.
  • the text may include input text received from a user terminal. This text may be provided to at least one of the encoder 240 or the decoder 250.
  • the communication unit 270 can receive the speech characteristics of the speaker from an external device.
  • the communication unit 270 can receive the speech signal or sample of the speaker from the external device and transmit the speech signal to the speech feature extraction unit 210.
  • the communication unit 270 may receive the information input from the user terminal. For example, the communication unit 270 may receive the input information for adjusting the speaker's utterance characteristics and provide the received utterance information to the utterance characteristic adjuster 220.
  • the communication unit 270 can transmit any signal or data to the external device.
  • the communication unit 270 can transmit information related to the generated output voice, that is, output voice data to an external device.
  • the generated single artificial neural network text-to-speech synthesis model may be transmitted to the text-to-speech synthesis terminal 100 or another text-to-speech synthesis apparatus through the communication unit 270.
  • the text-to-speech synthesizer 200 may further include an input / output unit (not shown).
  • the input / output unit can receive the input directly from the user. Also, the input / output unit may output at least one of voice, image, and text to the user.
  • FIG. 3 is a flow diagram illustrating a text-to-speech synthesis method in accordance with one embodiment of the present disclosure.
  • the text-to-speech synthesis apparatus 200 generates a single artificial neural network text-to-speech synthesis by performing a machine learning based on a plurality of learning texts and speech data corresponding to a plurality of learning texts -peech synthesis) model can be performed.
  • the text-to-speech synthesizer 200 may perform the step of receiving the input text.
  • the text-to-speech synthesizer 200 And a step of receiving the utterance characteristic of the speaker can be performed.
  • the text-to-speech synthesis apparatus 200 can perform the step of generating the output speech data for the input text in which the speech characteristic of the speaker is reflected by inputting the speech characteristic of the speaker into the pre-learned text-speech synthesis model have.
  • the text-to-speech synthesizer 400 of FIG. 4 may have the same or similar configuration as that of the text-to-speech synthesizer 200 of FIG.
  • the text-to-speech synthesis apparatus 400 may include a speech feature extraction unit 410, a speech database 430, a communication unit 470, an encoder 440, and a decoder 450.
  • the utterance feature extraction unit 410 of FIG. 4 may have the same or similar configuration as that of the utterance feature extraction unit 210 of FIG.
  • the voice database 430 of FIG. 4 may include the same or similar configuration as the voice database 230 of FIG.
  • the encoder 440 of FIG. 4 may include the same or similar configuration as the encoder 240 of FIG.
  • the decoder 450 of FIG. 4 may include the same or similar configuration as the decoder 250 of FIG.
  • the description of the text-to-speech synthesizer 200 of FIG. 2 and the description of the text-to-speech synthesizer 400 of FIG. 4 are omitted.
  • the text-to-speech synthesizer 400 may receive speech samples or signals of the speaker.
  • the voice samples may be received from the user terminal via the communication unit 470.
  • the speech samples or signals of such speakers may be received from a text-to-speech synthesis terminal including a speech database.
  • the speech samples or signals of these speakers may be provided to the vocal feature extraction unit 410.
  • the speech sample or signal of the speaker may include speech data input from the speaker within a predetermined time period.
  • the predetermined time interval may represent a relatively short time (e.g., several seconds, tens seconds, or even tens of minutes) in which the speaker can input his voice.
  • the text-to-speech synthesizer 400 may be configured to transmit input text that is the subject of speech synthesis.
  • the input text may be received from the user terminal via the communication unit 470.
  • the text-to-speech synthesizer 400 may include an input / output device (not shown) to receive the input text.
  • the received input text may be provided to the vocal feature extraction unit 410.
  • the speech database 430 may be configured to store speech samples or signals of one or more speakers.
  • the speech samples or signals of these speakers may be provided to the speech feature extraction unit 410.
  • the utterance feature extraction unit 410 may extract the embedding vector representing the utterance characteristic of the speaker from the speech sample or signal.
  • the utterance feature extraction unit 410 may include a prosody feature extraction unit 412, an emotion feature extraction unit 414, and a tone color and pitch extraction unit 416.
  • the utterance feature extraction unit 410 includes a rhyme feature extraction unit 412, a feeling feature extraction unit 414, and a tone color and pitcher extraction unit 416.
  • the rhyme feature extraction unit 412, The emotion feature extracting unit 414, and the tone color and pitch extracting unit 416 are examples of the utterance feature extraction unit 410.
  • the prosodic feature extraction unit 412 may be configured to extract a first sub-embedding vector that indicates a prosodic feature of the speaker.
  • the rhyme feature may include at least one of information on the speaking speed, information on the pronunciation strength, information on the idle period, and information on the pitch height.
  • the first sub-embedding vector representing the prosodic feature of the extracted speaker may be provided to at least one of the encoder 440 or the decoder 450.
  • the encoder 440 and the decoder 450 input a first sub-embedding vector representing the rhyme characteristics into a single artificial neural network text-to-speech synthesis model to generate output speech data Lt; / RTI >
  • the emotion feature extraction unit 414 may be configured to extract a second sub-embedding vector indicating the emotion characteristics of the speaker.
  • the emotion feature may include information on the emotion inherent in the utterance contents of the speaker.
  • the emotion feature is not limited to a predetermined predetermined emotion, but may include information such as the degree of each of the one or more emotions inherent in the speaker's voice and / or a combination of emotional emotions.
  • a second sub-embedding vector representing the emotion characteristics of the extracted speaker may be provided to at least one of the encoder 440 or the decoder 450.
  • the encoder 440 and the decoder 450 input a second sub-embedding vector representing emotion characteristics into a single artificial neural network text-to-speech synthesis model to generate output speech data for the input text that reflects the emotion characteristics of the speaker Lt; / RTI >
  • the tone color and pitch extracting unit 416 may be configured to extract a third sub-embedding vector indicating characteristics of the tone color and pitch height of the speaker.
  • a third sub-embedding vector indicating characteristics of the tone and height of the extracted speaker may be provided to at least one of the encoder 440 or the decoder 450.
  • the encoder 440 and the decoder 450 input a third subembedding vector, which characterizes the tone and pitch of the speaker, into a single artificial neural network text-to-speech synthesis model, The output speech data for the input text in which the characteristic of the input text is reflected can be generated.
  • the encoder 440 may receive an embedding vector representing the utterance characteristics of the extracted speaker. Encoder 440 may generate or update a single artificial neural network text-speech synthesis model based on an embedding vector representing the speech feature of one or more speakers previously learned mechanically and an embedding vector representing the speech feature of the received speaker, Can be synthesized.
  • speech is synthesized by extracting at least one of emotion feature, prosody feature, or speech and pitch from a speech sample or signal of one speaker, but the present invention is not limited thereto.
  • at least one of the emotion feature, the rhyme feature, or the speech and pitch may be extracted from the speech samples or signals of the other speaker.
  • the utterance feature extraction unit 410 receives the voice samples or signals of the first speaker, extracts emotion characteristics and rhyme characteristics from the voice samples or signals of the first speaker, Or a signal (e.g., a voice of a celebrity), and extract tone color and pitch characteristics from the speech sample or signal of the received second speaker.
  • the speech characteristics of the two speakers thus extracted may be provided to at least one of the encoder 440 or the decoder 450 during speech synthesis. Accordingly, the synthesized voice reflects the emotion and the rhyme of the first speaker who uttered the voice of the first speaker or the voice contained in the signal, but the voice or voice contained in the signal of the second speaker (e.g., a famous person) The tone and pitch of the second speaker can be reflected.
  • FIG. 5 is a diagram showing a configuration of a text-to-speech synthesizer based on an artificial neural network.
  • the encoder 510 may be configured to generate text as pronunciation information.
  • the generated pronunciation information may be provided to a decoder 520 including an attention module, and the decoder 520 may be configured to generate such pronunciation information by speech.
  • the encoder 510 may generate the input text by converting it into character embedding.
  • the generated character embedding may be passed through a pre-net including a fully-connected layer.
  • the encoder 510 may provide an output from the pre-net to the CBHG module to output Encorder hidden states e i , as shown in FIG.
  • the CBHG module may include a 1D convolution bank, a max pooling, a highway network, and a bidirectional gated recurrent unit (GRU).
  • the decoder 520 includes a decoder RNN (Decoder RNN) including an attention RNN (residual neural network) including a pre-network composed of a fully connected layer and a gated recurnt unit (GRU), and a residual GRU can do.
  • the output from decoder 520 may be represented by a mel-scale spectrogram.
  • the Attention RNN and Decoder RNN of the decoder 520 may receive information corresponding to the speaker of the voice. For example, the decoder 520 may receive the one-hot speaker ID vector 521. Decoder 520 may generate the speaker embedding vector 522 based on the one-hot speaker ID vector 521. [ The Attention RNN and Decoder RNN of the decoder 520 may receive the speaker embedding vector 522 and update the single artificial neural network text-speech synthesis model so that output speech data may be generated differently for different speakers.
  • the decoder 520 also includes a database that exists as a pair of speech signals corresponding to the input text, the information associated with the speaker, and the input text, in order to create or update a single artificial neural network text-to- Can be used.
  • the decoder 520 can learn the input text and the information related to the speaker as the input of the artificial neural network and the speech signal corresponding to the input text as the correct answer.
  • the decoder 520 may apply the input text and the information associated with the speaker to the updated single artificial neural network text-speech synthesis model to output the speech of the speaker.
  • the output of the decoder 520 may also be provided to the post-processor 530.
  • the CBHG of post-processor 530 may be configured to convert the Mel Scale Spectrogram of decoder 520 to a linear-scale spectrogram.
  • the output signal of the CBHG of post-processor 530 may include a magnitude spectrogram.
  • the phase of the output signal of the CBHG of post-processor 530 may be recovered through a Griffin-Lim algorithm and may be inverse short-time fourier transformed.
  • the post-processor 530 may output a voice signal in a time domain.
  • the artificial neural network-based text-to-speech synthesizer can be learned by using a large-capacity database existing as a pair of text and speech signals.
  • a loss function can be defined by comparing the output of the input text with the corresponding speech signal of interest.
  • the text-to-speech synthesizer learns the loss function through an error back propagation algorithm and finally obtains a single artificial neural network text-speech synthesis model in which desired speech output is obtained when arbitrary text is input.
  • FIG. 6 is a diagram illustrating a configuration of a text-to-speech synthesizer based on an artificial neural network according to an embodiment of the present disclosure.
  • the decoder 620 of FIG. 6 may receive the hidden states e i of the encoder from the encoder 610.
  • the decoder 620 of FIG. 6 can receive the speaker's voice data 621 differently from the decoder 520 of FIG.
  • the voice data 621 may include data representing voice inputted from the speaker within a predetermined time period (a short time period, for example, several seconds, tens seconds, or tens of minutes).
  • the speech data 621 of the speaker may include speech spectrogram data (e.g., a log-mel-spectrogram).
  • the decoder 620 may obtain a speech feature embedding vector 622 of the speaker that represents the speech feature of the speaker based on the speech data of the speaker. Decoder 620 may be provided to the Attention RNN and Decoder RNN with the Speech Feature Embedding Vector 622 of the Speaker.
  • the text-to-speech synthesis system shown in Fig. 5 uses a speaker ID as information indicating a speaker's utterance characteristic, and the speaker ID can be expressed as a single-hot vector.
  • this one-hot speaker ID vector can not easily expand the ID for a new speaker that is not in the learning data. Since the text-to-speech synthesis system learned embedding only for the speaker represented by the one-hot vector, there is no way to obtain a new speaker's embedding. To generate a new speaker's voice, you must re-learn the entire TTS model or fine-tune the embedded layer of the TTS model. This is a time-consuming process when using GPU-equipped equipment.
  • the text-to-speech synthesis system shown in FIG. 6 is a system for generating a new speaker vector by adding a TTS model capable of instantly generating a new speaker's voice without learning additional TTS models or manually searching a speaker embedding vector. System. That is, the text-to-speech synthesis system can generate speech adaptively changed to a plurality of speakers.
  • the speech characteristic embedding vector 622 of the first speaker extracted from the speech data 621 of the first speaker is input to the decoder RNN and the attention RNN .
  • the circle-hot speaker ID vector 521 of the second speaker shown in FIG. 5 may also be input to the decoder RNN and the attention RNN.
  • the first speaker associated with the vocal feature embedding vector 622 and the second speaker associated with the one-hot speaker ID vector 521 may be the same.
  • the first speaker associated with the vocal feature embedding vector 622 and the second speaker associated with the one-hot speaker ID vector 521 may be different.
  • the voiced feature embedding vector 622 of the first speaker and the one-hot speaker ID vector 521 of the second speaker are input to the decoder RNN and the attention RNN together,
  • FIG. 7 is a diagram illustrating a network that extracts an embedded vector 622 that can identify each of a plurality of speakers in accordance with one embodiment of the present disclosure.
  • the network shown in FIG. 6 includes a convolutional network and a max-over-time pooling, receives a log-Mel-spectrogram and stores it as a speech sample or voice signal You can extract the dimension speaker embedding vector.
  • the speech sample or speech signal does not need to be speech data corresponding to the input text, and a speech signal that is arbitrarily selected may be used.
  • any spectrogram can be inserted into this network since there is no restriction on the use of the spectrogram.
  • an input spectrogram can have various lengths, for example, a fixed dimension vector of length 1 for the time axis can be input to the max-over-time pooling layer located at the end of the convolution layer.
  • FIG. 7 illustrates a network including a convolutional network and a max over time pooling
  • a network including various layers can be constructed to extract a speaker's utterance characteristic. For example, if the speech characteristic pattern changes over time, such as the intonation of the speaker's speech characteristics, the network can be implemented to extract features using the RNN (Recurrent Neural Network).
  • RNN Recurrent Neural Network
  • FIG. 8 is a diagram illustrating a configuration of a text-to-speech synthesizer based on an artificial neural network according to an embodiment of the present disclosure.
  • the description of the text-to-speech synthesizing apparatus of FIG. 8 is omitted from the description of the text-to-speech synthesizing apparatus of FIG. 5 or 6.
  • the encoder 810 may receive the input text.
  • the encoder 810 may have input text in multiple languages.
  • the input text may include at least one of words, phrases or sentences used in one or more languages. For example, a Korean sentence such as "Hello" or "How are you?" Such as an English sentence, can be input.
  • the encoder 810 can separate the received input text into alphabet, letter, and phoneme units.
  • the encoder 810 may receive input text separated in alphabet, letter, and phoneme units.
  • the encoder 810 may receive the character embedding for the input text.
  • the encoder 810 may be configured to generate at least one embedded layer.
  • at least one embedded layer of the encoder 810 may generate character embedding based on input text separated in alphabet, character, and phoneme units.
  • the encoder 810 may use an already learned machine learning model (e.g., a probabilistic model or an artificial neural network) to obtain character embedding based on the separated input text.
  • the encoder 810 may update the machine learning model while performing machine learning. If the machine learning model is updated, the character embedding for the discrete input text can also be changed.
  • the encoder 810 may pass the character embedding to a Deep Neural Network (DNN) module configured as a fully-connected layer.
  • DNNs may include a general feedforward layer or a linear layer.
  • the encoder 810 may provide the output of the DNN to a module including at least one of a convolutional neural network (CNN) or a recurrent neural network (RNN).
  • the encoder 810 may also receive the speech feature embedding vector s of the speaker generated based on the speaker speech data at the decoder 820.
  • CNN can capture local characteristics according to the convolution kernel size, while RNN can capture long term dependency.
  • the encoder 810 may output the output of the DNN and the speech feature embedding vector s of the speaker into at least one of the CNN or the RNN to output the hidden states h of the encoder 810.
  • Decoder 820 can receive speech data of the speaker.
  • the decoder 820 may generate the speech feature embedding vector s of the speaker based on the speaker speech data.
  • the embedding layer can receive speech data of the speaker.
  • the embedding layer can generate the speech characteristics of the speaker based on the speech data of the speaker.
  • the speaker's utterance characteristic may have different characteristics for each individual.
  • the embedding layer may, for example, distinguish speaker perceptual features based on machine learning.
  • the embedding layer may generate a speech feature embedding vector (s) of the speaker that represents the speech feature of the speaker.
  • the decoder 820 may use the already learned machine learning model to transform the speaker's speech characteristics into the speaker's speech feature embedding vector s.
  • the decoder can update the machine learning model while performing machine learning.
  • the speech characteristic embedding vector (s) of the speaker representing the speech characteristic of the speaker can also be changed.
  • the utterance characteristic of the speaker can be extracted from the voice data of the speaker received using the voice extracting network of Fig. 7 described above.
  • the speaker's vocal feature embedding vector s may be output to at least one of the CNN or RNN of the encoder 810. Also, the speech characteristic embedding vector (s) of the speaker can be output to the decoder RNN and the attention RNN of the decoder.
  • the attention of the decoder 820 may receive the hidden states h of the encoder from the encoder 810.
  • the hidden states (h) may represent the results from the machine learning model of the encoder (810).
  • hidden states (h) may include some elements of a single artificial neural network text-speech synthesis model according to one embodiment of the present disclosure.
  • the attentions of the decoder 820 may receive information from the Attention RNN.
  • the information received from the Attention RNN may include information on what speech the decoder 820 has generated up to the previous time-step.
  • the attitude of the decoder 820 can also output the context vector based on the information received from the Attention RNN and the information of the encoder.
  • the information of the encoder 810 may include information on the input text to generate the voice.
  • the context vector may include information for determining which portion of the input text is to be generated at the current time-step (time-step).
  • the attentions of the decoder 820 may include information for generating a speech based on the beginning of the input text at the beginning of speech generation and for generating a speech based on the later part of the input text as the speech is generated Can be output.
  • the decoder 820 may configure the structure of the artificial neural network to input the speech feature embedding vector s of the speaker to the attention RNN and the decoder RNN to decode differently for each speaker.
  • a text-to-speech synthesis system can use a database that exists as a pair of speech, speech, and speech signals, a speech, a speech, a speech, to learn an artificial neural network.
  • the database may be constructed using a one-hot vector instead of the speaker's vocal feature embedding vector (s), which describes the speaker's vocal characteristics, as described in FIG.
  • the speech characteristic embedding vector (s) of the speaker and the one-hot vector may be used together to construct a database.
  • the dummy frames are frames that are input to the decoder if no previous time-step is present.
  • RNNs can do machine learning with autoregressive. That is, the r frame output in the immediately preceding time-step 822 may be the input of the current time-step 823.
  • the decoder 820 can input the dummy frame into the original time-step machine learning network.
  • the decoder 820 may include a DNN configured as a fully-connected layer.
  • the DNN may include at least one of a general feedforward layer or a linear layer.
  • decoder 820 may include an attention RNN configured with a GRU.
  • Attention RNN is a layer that outputs information to be used in Attention. Attention is already described above, so a detailed explanation is omitted.
  • Decoder 820 may include a decoder RNN configured with a residual GRU.
  • the decoder RNN may receive location information of the input text from the Attention. That is, the location information may include information about which location of the input text the decoder 820 is converting to speech.
  • the decoder RNN may receive information from the Attention RNN.
  • the information received from the Attention RNN may include information on what speech the decoder 820 has generated up to the previous time-step.
  • the decoder RNN can generate the next output speech that will follow the speech generated so far. For example, the output speech may have a mel-spectrogram shape, and the output speech may include r frames.
  • the operation of the DNN, the Attention RNN and the Decoder RNN may be repeatedly performed for text-to-speech synthesis.
  • the r frames obtained in the initial time-step 821 may be the inputs of the next time-step 822.
  • the r frames output in the time-step 822 may be the inputs of the next time-step 823.
  • the text-to-speech synthesis system may concatenate mel-spectrograms for each time-step in chronological order to obtain the speech of the mel-spectrogram for the entire text.
  • the voice of the mel spectrogram for the entire text can be output to the vocoder 830.
  • the CNN or RNN of the vocoder 830 in accordance with an embodiment of the present disclosure may be similar to the CNN or RNN of the encoder 810. [ That is, the CNN or RNN of vocoder 830 can capture local characteristics and long-term dependencies. Accordingly, the CNN or RNN of the vocoder 830 may output a linear-scale spectrogram. For example, a linear-scale spectrogram may include a magnitude spectrogram. The vocoder 830 can predict the phase of the spectrogram through the Griffin-Lim algorithm, as shown in FIG. The vocoder 830 may output a time domain voice signal using Inverse Short-Time Fourier Transform.
  • a vocoder in accordance with another embodiment of the present disclosure may generate a speech signal from a melrospectogram based on a machine learning model.
  • the machine learning model can include a machine-learned model of the correlation between the mel-spectrogram and the speech signal.
  • an artificial neural network model such as WaveNet or WaveGlow may be used.
  • the artificial neural network-based speech synthesizer is learned by using a large-capacity database existing in a pair of text and speech signals in one or more languages.
  • the speech synthesis apparatus can receive the text and compare the output speech signal with the correct speech signal to define a loss function.
  • the speech synthesis apparatus learns the loss function through an error back propagation algorithm and finally obtains an artificial neural network in which desired speech output is obtained when arbitrary text is input.
  • text, speech characteristics of a speaker, and the like can be input to an artificial neural network and a speech signal can be output.
  • the text-to-speech synthesizer can generate output speech data in which the text is read by the speech of the speaker when the speech and the speech signal of the speaker are compared by learning the output speech signal and the correct speech signal.
  • FIG. 9 is a flowchart illustrating an operation of the utterance feature adjuster 900 according to an embodiment of the present disclosure.
  • the vocal feature adjuster 900 of FIG. 8 may include the same or similar configuration of the vocal feature adjuster 220 of FIG. The description overlapping with FIG. 2 is omitted.
  • the utterance feature adjuster 900 may receive an embedding vector indicating speaker information.
  • an embedding vector may include an embedding vector for the speech feature of the speaker.
  • the embedding vector for the speaker information can be expressed as a weighted sum of a plurality of sub-embedding vectors orthogonal to each other among the speaker's utterance characteristics.
  • the utterance feature adjuster 900 may separate the embedded elements of the embedding vector with respect to the received speaker information. For example, the utterance feature adjuster 900 may obtain a plurality of unit embedding vectors that are orthogonal to each other based on an embedding vector for speaker information.
  • the method of separating the elements embedded in the embedding vector includes independent component analysis (ICA), independent vector analysis (IVA), sparse coding, independent factor analysis (IFA), independent subspace analysis (nonnegative matrix factorization).
  • ICA independent component analysis
  • IVA independent vector analysis
  • IFA independent factor analysis
  • the text-to-speech synthesizer can perform regularization on the learning expression of the text-to-speech synthesizer when learning the embedding vector for the speaker information so that the elements inherent in the embedding vector can be separated.
  • the embedding vector can be learned by a sparse vector. Accordingly, the text-to-speech synthesis apparatus can correctly separate the inherent elements by using principle component analysis (PCA), in an embedded vector learned with a sparse vector.
  • PCA principle component analysis
  • the utterance feature adjuster 900 may be configured to receive additional input to the output voice data.
  • the utterance feature adjuster 900 may modify an embedding vector that indicates a speaker's utterance characteristics based on additional input.
  • the utterance feature adjuster 900 may change the weights for the plurality of unit embedding vectors based on the additional input.
  • the utterance feature adjuster 900 may be configured to modify an embedding vector that indicates a speaker's utterance characteristics based on the received additional input. For example, the utterance characteristic adjuster 900 may re-synthesize an embedding vector for speaker information by multiplying a plurality of unit embedding vectors by a modified weight according to an additional input. The utterance characteristic adjuster 900 may output an embedding vector for the changed speaker information.
  • the text-to-speech synthesizer can input the modified embedding vector into a single artificial neural network text-to-speech synthesis model, and convert the output speech data into speech data for the input text in which the information included in the additional input is reflected.
  • FIG. 10 illustrates an example of a user interface that alters the characteristics of the output speech in accordance with one embodiment of the present disclosure.
  • the text-to-speech synthesizer can receive text entered from the user into the text window.
  • the reproduction button shown in FIG. 10 is selected (for example, when it is touched or touched)
  • the text-to-speech synthesizer generates output speech data corresponding to the input text and transmits it to a user terminal .
  • the text-to-speech synthesizer may receive additional input from the user. Additional inputs to the output voice data may include at least one of information about gender, information about age, information about the intonation by region, information about the speed of utterance, or information about the pitch height and the size of the utterance.
  • the text-to-speech synthesizer can transmit the speech feature of the currently selected or designated speaker to the user terminal through the communication unit, and the characteristic of the current speech is displayed on the display unit (E.g., lines, polygons, circles, and the like).
  • the user can change at least one of information on sex, information on age, information on intonation by region, information on speed of utterance, information on height of voice and size of utterance by using input unit,
  • the changed output voice can be output based on the output voice.
  • the user can select a sex close to the female, an approximate age of about 10, and an intonation of Chungcheong province, as shown in Fig.
  • the characteristic of the current voice is changed according to the selected input, and the characteristic of the changed voice is reflected to the user terminal or the synthesized voice can be outputted.
  • the embedded element of the embedding vector may be changed by expressing it as an attribute of a speech synthesis markup language (SSML).
  • SSML speech synthesis markup language
  • ⁇ gender value "6">
  • FIG. 11 is a block diagram of a text-to-speech synthesis system 1100 in accordance with one embodiment of the present disclosure.
  • the text-to-speech synthesis system 1100 may include a data learning unit 1110 and a data recognition unit 1120.
  • the data learning unit 1110 can input data and acquire a machine learning model.
  • the data recognition unit 302 can also apply the data to the machine learning model to generate output speech.
  • the text-to-speech synthesis system 1100 as described above may include a processor and a memory.
  • the data learning unit 1110 can learn speech about text.
  • the data learning unit 1110 can learn a criterion as to which voice to output according to the text.
  • the data learning unit 1110 can learn a criterion as to which voice feature should be used to output the voice.
  • the feature of the speech may include at least one of pronunciation of the phoneme, tone of the user, accentuation, or accentuation.
  • the data learning unit 1110 acquires data to be used for learning, and applies the obtained data to a data learning model, which will be described later, so as to learn a voice based on the text.
  • the data recognizing unit 1120 can output a voice for the text based on the text.
  • the data recognizing unit 1120 can output speech from a predetermined text using the learned data learning model.
  • the data recognizing unit 1120 can acquire predetermined text (data) according to a preset reference by learning. Further, the data recognizing unit 1120 can output a voice based on predetermined data by using the data learning model with the obtained data as an input value. Further, the resultant value output by the data learning model with the obtained data as an input value can be used to update the data learning model.
  • At least one of the data learning unit 1110 or the data recognizing unit 1120 may be manufactured in at least one hardware chip form and mounted on the electronic device.
  • at least one of the data learning unit 1110 and the data recognition unit 1120 may be fabricated in the form of a dedicated hardware chip for artificial intelligence (AI) Or an application processor) or a graphics processor (e.g., a GPU), and may be mounted on various electronic devices already described.
  • AI artificial intelligence
  • an application processor e.g., an application processor
  • a graphics processor e.g., a GPU
  • the data learning unit 1110 and the data recognition unit 1120 may be mounted on separate electronic devices, respectively.
  • one of the data learning unit 1110 and the data recognizing unit 1120 may be included in the electronic device, and the other may be included in the server.
  • the data learning unit 1110 and the data recognizing unit 1120 may provide the model information constructed by the data learning unit 1110 to the data recognizing unit 1120 via the wired or wireless network, 1120 may be provided to the data learning unit 1110 as additional learning data.
  • At least one of the data learning unit 1110 and the data recognition unit 1120 may be implemented as a software module.
  • the software module may be a memory or a computer- And may be stored in non-transitory computer readable media.
  • the at least one software module may be provided by an operating system (OS) or by a predetermined application.
  • OS operating system
  • OS operating system
  • OS operating system
  • the data learning unit 1110 includes a data acquisition unit 1111, a preprocessor 1112, a learning data selection unit 1113, a model learning unit 1114, and a model evaluation unit 1115 .
  • the data acquisition unit 1111 can acquire data necessary for machine learning. Since a lot of data is required for learning, the data acquisition unit 1111 can receive a plurality of texts and a voice corresponding thereto.
  • the preprocessing unit 1112 can preprocess the acquired data so that the acquired data can be used for machine learning to determine the psychological state of the user.
  • the preprocessing unit 1112 can process the acquired data into a predetermined format so that it can be used by the model learning unit 1114 to be described later.
  • the preprocessing unit 1112 may morpheme text and speech to obtain morpheme embedding.
  • the learning data selection unit 1113 can select data necessary for learning from the preprocessed data.
  • the selected data may be provided to the model learning unit 1114.
  • the learning data selection unit 1113 can select data necessary for learning from among the preprocessed data according to a predetermined criterion.
  • the learning data selection unit 1113 can also select data according to a predetermined reference by learning by the model learning unit 1114, which will be described later.
  • the model learning unit 1114 can learn a criterion as to which voice to output according to the text based on the learning data. Also, the model learning unit 1114 can learn by using a learning model for outputting a voice according to text as learning data.
  • the data learning model may include a pre-built model.
  • the data learning model may include a pre-built model that receives basic learning data (e.g., a sample image, etc.).
  • the data learning model can be constructed considering the application field of the learning model, the purpose of learning, or the computer performance of the device.
  • the data learning model may include, for example, a model based on a neural network.
  • models such as Deep Neural Network (DNN), Recurrent Neural Network (RNN), Long Short-Term Memory models (LSTM), Bidirectional Recurrent Deep Neural Network (BRDNN), and Convolutional Neural Networks But is not limited thereto.
  • the model learning unit 1114 can determine a data learning model with which the input learning data and the basic learning data are highly relevant, have.
  • the basic learning data may be pre-classified according to the type of data, and the data learning model may be pre-built for each data type.
  • the basic learning data may be pre-classified by various criteria such as an area where the learning data is generated, a time at which the learning data is generated, a size of the learning data, a genre of the learning data, a creator of the learning data, .
  • model learning unit 1114 can learn a data learning model using, for example, a learning algorithm including an error back-propagation method or a gradient descent method.
  • the model learning unit 1114 can learn the data learning model through supervised learning using, for example, learning data as input values. In addition, the model learning unit 1114 learns, for example, the types of data necessary for the situation determination without any further guidance, and thereby, through unsupervised learning that finds a criterion for determining the situation, The model can be learned. Also, the model learning unit 1114 can learn the data learning model through reinforcement learning using, for example, feedback as to whether the result of the situation judgment based on learning is correct.
  • the model learning unit 1114 can store the learned data learning model.
  • the model learning unit 1114 can store the learned data learning model in the memory of the electronic device including the data recognition unit 1120.
  • the model learning unit 1114 may store the learned data learning model in the memory of the server connected to the electronic device and the wired or wireless network.
  • the memory in which the learned data learning model is stored may also store instructions or data associated with, for example, at least one other component of the electronic device.
  • the memory may also store software and / or programs.
  • the program may include, for example, a kernel, a middleware, an application programming interface (API), and / or an application program (or "application").
  • the model evaluation unit 1115 inputs the evaluation data to the data learning model and can cause the model learning unit 1114 to learn again when the result output from the evaluation data does not satisfy the predetermined criterion.
  • the evaluation data may include predetermined data for evaluating the data learning model.
  • the model evaluation unit 1115 when the number or ratio of evaluation data whose recognition result is not correct is greater than a predetermined threshold value among the results of the learned data learning model for evaluation data, the model evaluation unit 1115 .
  • a predetermined criterion is defined as a ratio of 2%, and the learned data learning model outputs an incorrect recognition result for evaluation data exceeding 20 out of a total of 1000 evaluation data, Can be assessed as inappropriate.
  • the model evaluating unit 1115 evaluates whether each of the learned moving learning models satisfies a predetermined criterion, and uses a model satisfying a predetermined criterion as a final data learning model You can decide. In this case, when there are a plurality of models satisfying a predetermined criterion, the model evaluating unit 1115 can determine any one or a predetermined number of models previously set in descending order of the evaluation score, using the final data learning model.
  • At least one of the data acquiring unit 1111, the preprocessing unit 1112, the learning data selecting unit 1113, the model learning unit 1114, or the model evaluating unit 1115 in the data learning unit 1110 includes at least one And can be mounted on an electronic device.
  • at least one of the data acquisition unit 1111, the preprocessor 1112, the learning data selection unit 1113, the model learning unit 1114, or the model evaluation unit 1115 may be an artificial intelligence (AI) Or may be implemented as part of a conventional general-purpose processor (e.g., a CPU or an application processor) or a graphics-only processor (e.g., a GPU) and mounted on the various electronic devices described above.
  • AI artificial intelligence
  • a conventional general-purpose processor e.g., a CPU or an application processor
  • a graphics-only processor e.g., a GPU
  • the data acquisition unit 1111, the preprocessor 1112, the learning data selection unit 1113, the model learning unit 1114, and the model evaluation unit 1115 may be mounted on one electronic device, Electronic devices, respectively.
  • some of the data acquisition unit 1111, the preprocessor 1112, the learning data selection unit 1113, the model learning unit 1114, and the model evaluation unit 1115 are included in the electronic device, May be included in the server.
  • At least one of the data acquisition unit 1111, the preprocessing unit 1112, the learning data selection unit 1113, the model learning unit 1114, and the model evaluation unit 1115 may be implemented as a software module.
  • At least one of the data acquisition unit 1111, the preprocessor 1112, the learning data selection unit 1113, the model learning unit 1114 or the model evaluation unit 1115 is a software module (or a program including an instruction) Module), the software module may be stored in a computer-readable, readable non-transitory computer readable media.
  • the at least one software module may be provided by an operating system (OS) or by a predetermined application.
  • OS operating system
  • some of the at least one software module may be provided by an operating system (OS)
  • some of the software modules may be provided by a predetermined application.
  • the data recognizing unit 1120 includes a data obtaining unit 1121, a preprocessing unit 1122, a recognition data selecting unit 1123, a recognition result providing unit 1124, and a model updating unit 1125, . ≪ / RTI >
  • the data acquisition unit 1121 can acquire the text necessary for outputting the voice. Conversely, the data acquisition unit 1121 can acquire the voice necessary for outputting the text.
  • the preprocessing section 1122 can preprocess acquired data so that the data obtained to output voice or text can be used.
  • the preprocessing unit 1122 can process the acquired data into a predetermined format so that the recognition result providing unit 1124, which will be described later, can use the data obtained for outputting voice or text.
  • the recognition data selection unit 1123 can select data necessary for outputting voice or text among the preprocessed data.
  • the selected data may be provided to the recognition result provider 1124.
  • the recognition data selection unit 1123 can select some or all of the preprocessed data according to predetermined criteria for outputting voice or text.
  • the recognition data selection unit 1123 can also select data according to a predetermined criterion by learning by the model learning unit 1114.
  • the recognition result providing unit 1124 can output the voice or text by applying the selected data to the data learning model.
  • the recognition result providing unit 1124 can apply the selected data to the data learning model by using the data selected by the recognition data selecting unit 1123 as an input value.
  • the recognition result can be determined by the data learning model.
  • the model updating unit 1125 can cause the data learning model to be updated based on the evaluation of the recognition result provided by the recognition result providing unit 1124.
  • the model updating unit 1125 may allow the model learning unit 1114 to update the data learning model by providing the model learning unit 1114 with the recognition result provided by the recognition result providing unit 1124 have.
  • At least one of the data acquiring unit 1121, the preprocessing unit 1122, the recognition data selection unit 1123, the recognition result providing unit 1124 or the model updating unit 1125 in the data recognizing unit 1120 is a It can be manufactured in the form of one hardware chip and mounted on the electronic device.
  • at least one of the data acquisition unit 1121, the preprocessing unit 1122, the recognition data selection unit 1123, the recognition result providing unit 1124, and the model updating unit 1125 may be an artificial intelligence Or may be mounted on a variety of electronic devices as described above and manufactured as part of a conventional general purpose processor (e.g., a CPU or an application processor) or a graphics dedicated processor (e.g., a GPU).
  • a conventional general purpose processor e.g., a CPU or an application processor
  • a graphics dedicated processor e.g., a GPU
  • some of the data acquisition unit 1121, the preprocessing unit 1122, the recognition data selection unit 1123, the recognition result providing unit 1124, and the model updating unit 1125 are included in the electronic device, May be included in the server.
  • At least one of the data acquisition unit 1121, the preprocessing unit 1122, the recognition data selection unit 1123, the recognition result providing unit 1124, and the model updating unit 1125 may be implemented as a software module.
  • At least one of the data acquisition unit 1121, the preprocessing unit 1122, the recognition data selection unit 1123, the recognition result providing unit 1124, or the model updating unit 1125 is a software module Program modules), the software modules may be stored in a computer-readable, readable non-transitory computer readable media.
  • the at least one software module may be provided by an operating system (OS) or by a predetermined application.
  • OS operating system
  • OS operating system
  • some of the software module may be provided by an operating system (OS)
  • some of the software modules may be provided by a predetermined application.
  • the embodiments of the present invention described above can be embodied in a general-purpose digital computer that can be created as a program that can be executed by a computer and operates the program using a computer-readable recording medium.
  • the computer readable recording medium includes a storage medium such as a magnetic storage medium (e.g., ROM, floppy disk, hard disk, etc.), optical reading medium (e.g., CD ROM, DVD, etc.).

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

The present disclosure relates to a method for synthesizing speech from text and an apparatus for reproducing the synthesized speech. A text-to-speech synthesis method using machine learning comprises the steps of: generating a single artificial neural network text-to-speech synthesis model by performing machine learning on the basis of multiple learning texts and speech data corresponding to the multiple learning texts; receiving input text; receiving an utterer's articulatory characteristics; and generating output speech data which corresponds to the input text and reflects the utterer's articulatory characteristics, by inputting the utterer's articulatory characteristics to the single artificial neural network text-to-speech synthesis model.

Description

기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체Text-speech synthesis method using machine learning, apparatus and computer-readable storage medium
본 개시는 입력 텍스트를 수신하고 입력 텍스트에 대한 음성을 합성하는 방법 및 합성된 음성을 재생하는 장치에 관한 것이다.The present disclosure relates to a method for receiving an input text and composing a voice for the input text and an apparatus for reproducing the synthesized voice.
음성(speech)은 인간의 기초적이고 효과적인 의사를 전달할 수 있는 도구 중 하나이다. 음성 기반 통신은 사용자에게 직관적이고 편리한 서비스를 제공하고, 일부 장치는 음성을 사용하여 상호 작용할 수 있는 음성 사용자 인터페이스를 사용하고 있다. 종래의 음성 사용자 인터페이스에서 음성 응답을 구현하는 간단한 방법은 오디오 녹음이지만, 녹음된 음성만이 이용될 수 있다는 한계가 있었다. 이러한 장치는 녹음되지 않은 음성에 대해서는 응답 서비스를 제공할 수 없기 때문에, 장치 사용의 유연성이 떨어진다. 예를 들어, Apple Siri 및 Amazon Alexa 등과 같은 인공 지능(AI) 에이전트는 사용자의 쿼리(queries)가 임의적일 수 있으므로, 사용자의 쿼리에 대한 응답 서비스를 위하여 다양한 문장을 생성할 수 있어야 한다. 이러한 응용 프로그램에서 가능한 모든 응답을 녹음하는 경우 상당한 시간과 비용이 요구된다. 이러한 환경에서, 많은 연구자들이 자연스럽고 빠른 음성 합성 모델을 만들려고 노력하고 있다. 또한, 텍스트로부터 음성을 생성할 수 있는 TTS (text-to-speech)라고도 하는 텍스트-음성 합성이 널리 연구되고 있다.Speech is one of the tools to communicate basic and effective doctors. Voice-based communications use a voice user interface that provides intuitive and convenient services to the user, and some devices can interact using voice. A simple way to implement a voice response in a conventional voice user interface is audio recording, but there is a limitation that only the recorded voice can be used. Such a device is not flexible enough to use the device because it can not provide answering service for unrecorded voice. For example, an AI agent such as Apple Siri and Amazon Alexa may be able to generate various sentences for answering the user's query, since the user's queries may be arbitrary. Significant time and expense is required when recording all possible responses from these applications. In this environment, many researchers are trying to create a natural and fast speech synthesis model. Text-to-speech synthesis, also referred to as TTS (text-to-speech), has been extensively studied to generate speech from text.
일반적으로, TTS 기술은 Concatenative TTS, Parametric TTS 등 다양한 음성 합성 방법이 있다. 예를 들어, Concatenative TTS는 음성을 음소 등 아주 짧은 단위로 미리 잘라서 저장해두고, 합성할 문장을 구성하는 음성들을 결합하여 음성을 합성할 수 있으며, Parametric TTS는 음성의 특징을 parameter로 표현하고 합성할 문장을 구성하는 음성 특징들을 나타내는 parameter들을 보코더(vocoder)를 이용하여 문장에 대응하는 음성으로 합성할 수 있다. In general, TTS technology has various speech synthesis methods such as Concatenative TTS and Parametric TTS. For example, Concatenative TTS can synthesize voice by combining the voices composing the sentence to be synthesized in advance by cutting and storing the voice in a very short unit such as a phoneme, and Parametric TTS can express the characteristic of voice as a parameter and synthesize The parameters representing the speech features that make up the sentence can be synthesized with vocoder corresponding to the sentence using a vocoder.
한편, 최근에는 인공 신경망(예를 들어, 딥 뉴럴 네트워크) 기반의 음성 합성 방법이 활발히 연구되고 있으며, 이러한 음성 합성 방법에 따라 합성된 음성은, 기존의 방법에 비해 훨씬 자연스러운 음성 특징을 포함하고 있다. 하지만, 인공신경망 기반의 음성 합성 방법으로 새로운 화자를 위한 음성 합성 서비스를 제공하기 위해서는 그 화자의 목소리에 해당하는 많은 데이터가 필요하고, 이 데이터를 이용한 인공 신경망 모델의 재학습이 요구된다. Recently, a speech synthesis method based on an artificial neural network (for example, a deep neural network) has been actively studied, and a speech synthesized according to the speech synthesis method includes a more natural speech characteristic than an existing method . However, in order to provide a speech synthesis service for a new speaker by using a speech synthesis method based on an artificial neural network, a large amount of data corresponding to the voice of the speaker is required, and re-learning of the artificial neural network model using the data is required.
본 개시에 따른 방법 및 장치는 새로운 화자에 대한 많은 데이터 또는 정보의 입력 없이 그 새로운 화자의 발성 특성이 반영된, 입력텍스트에 대한 출력 음성 데이터를 제공하는 음성 합성 방법 및 장치에 관한 것이다. 또한, 본 개시에 따른 방법 및 장치는 별도의 기계학습 없이 새로운 화자를 확장하여 음성 합성 서비스를 제공할 수 있다. The method and apparatus according to the present disclosure is directed to a speech synthesis method and apparatus that provides output speech data for an input text that reflects the speech characteristics of the new speaker without inputting much data or information to a new speaker. In addition, the method and apparatus of the present disclosure can provide a speech synthesis service by extending a new speaker without additional machine learning.
본 개시의 일 실시예에 따른 기계학습을 이용한 텍스트-음성 합성(text-to-speech synthesis) 방법은 복수의 학습 텍스트 및 복수의 학습 텍스트에 대응되는 음성 데이터에 기초하여 기계학습을 수행하여 생성된 단일 인공 신경망 텍스트-음성 합성(text-to-speech synthesis) 모델을 생성하는 단계, 입력 텍스트를 수신하는 단계, 화자의 발성 특징을 수신하는 단계 및 화자의 발성 특징을 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 화자의 발성 특징이 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 포함할 수 있다.A method of text-to-speech synthesis using machine learning according to an embodiment of the present disclosure includes generating a plurality of training texts and a plurality of training texts, A method of generating a single artificial neural network text-to-speech synthesis model, receiving input text, receiving a speaker's vocal characteristics, and comparing the speaker's vocal characteristics with a single artificial neural network text- And generating output speech data for the input text in which the speech characteristic of the speaker is reflected.
본 개시의 일 실시예에 따른 기계학습을 이용한 텍스트-음성 합성 방법의 화자의 발성 특징을 수신하는 단계는, 음성 샘플을 수신하는 단계, 및 음성 샘플로부터 화자의 발성 특징을 나타내는 임베딩 벡터를 추출하는 단계를 포함할 수 있다. The step of receiving a speaker's speech feature of the text-to-speech synthesis method using machine learning according to an embodiment of the present disclosure includes receiving a speech sample and extracting an embedding vector representing a speaker's speech feature from the speech sample Step < / RTI >
본 개시의 일 실시예에 따른 기계학습을 이용한 텍스트-음성 합성 방법의 음성 샘플로부터 화자의 발성 특징을 나타내는 임베딩 벡터를 추출하는 단계는 화자의 운율 특징을 나타내는 제1 서브 임베딩 벡터를 추출하는 단계를 포함하고, 여기서, 운율 특징은, 발화 속도에 대한 정보, 발음 강세에 대한 정보, 휴지 구간에 대한 정보 또는 음 높이에 대한 정보 중 적어도 하나를 포함하고, 화자의 발성 특징이 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계는 운율 특징을 나타내는 제1 서브 임베딩 벡터를 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여 화자의 운율 특징이 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 포함할 수 있다.The step of extracting the embedding vector representing the utterance characteristic of the speaker from the speech samples of the text-to-speech synthesis method using machine learning according to an embodiment of the present disclosure includes a step of extracting a first sub- Wherein the prosodic feature includes at least one of information on a speech rate, information on a pronunciation strength, information on a dormant section, or information on a pitch height, and includes an output for an input text in which a speech characteristic of a speaker is reflected The step of generating the voice data may include inputting a first sub-embedding vector representing a prosodic feature to a single artificial neural network text-to-speech synthesis model to generate output speech data for the input text in which the prosodic characteristic of the speaker is reflected .
본 개시의 일 실시예에 따른 기계학습을 이용한 텍스트-음성 합성 방법의 음성 샘플로부터 화자의 발성 특징을 나타내는 임베딩 벡터를 추출하는 단계는 화자의 감정 특징을 나타내는 제2 서브 임베딩 벡터를 추출하는 단계를 포함하고, 여기서, 감정 특징은 화자의 발화 내용에 내재된 감정에 대한 정보를 포함하고, 화자의 발성 특징이 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계는 감정 특징을 나타내는 제2 서브 임베딩 벡터를 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여 화자의 감정 특징이 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 포함할 수 있다.The step of extracting the embedding vector representing the utterance characteristic of the speaker from the speech sample of the text-speech synthesis method using the machine learning according to an embodiment of the present invention includes extracting the second subembedding vector representing the emotion characteristic of the speaker Wherein the step of generating the output speech data for the input text in which the speech characteristic of the speaker is reflected includes the information about the emotion contained in the speech contents of the speaker and the second sub- May be input to a single artificial neural network text-to-speech synthesis model to generate output speech data for the input text in which the emotion characteristic of the speaker is reflected.
본 개시의 일 실시예에 따른 기계학습을 이용한 텍스트-음성 합성 방법의 음성 샘플로부터 화자의 발성 특징을 나타내는 임베딩 벡터를 추출하는 단계는 화자의 음색 및 음 높이에 대한 특징을 나타내는 제3 서브 임베딩 벡터를 추출하는 단계를 포함하고, 화자의 발성 특징이 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계는 화자의 음색 및 음 높이에 대한 특징을 나타내는 제3 서브 임베딩 벡터를 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여 화자의 음색 및 음 높이에 대한 특징이 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 포함할 수 있다.The step of extracting the embedding vector representing the utterance characteristic of the speaker from the speech samples of the text-to-speech synthesis method using the machine learning according to an embodiment of the present disclosure includes a step of extracting a third sub-embedding vector Wherein the step of generating output speech data for an input text that reflects a speaker's utterance characteristic comprises generating a third subembedding vector representing characteristics of a speaker's tone and pitch by a single artificial neural network text- And generating output speech data for an input text that is input to the model to reflect features of the speaker's tone color and tone height.
본 개시의 일 실시예에 따른 기계학습을 이용한 텍스트-음성 합성 방법의 화자의 발성 특징이 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계는 출력 음성 데이터에 대한 추가적인 입력을 수신하는 단계, 추가적인 입력에 기초하여 화자의 발성 특징을 나타내는 임베딩 벡터를 수정하는 단계, 및 수정된 임베딩 벡터를 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 출력 음성 데이터를 추가적인 입력에 포함된 정보가 반영된 입력 텍스트에 대한 음성 데이터로 변환하는 단계를 포함할 수 있다.The step of generating output speech data for an input text that reflects a speaker's vocal characteristics of the method of text-to-speech synthesis using machine learning in accordance with an embodiment of the present disclosure includes receiving additional input for output speech data, Modifying an embedding vector representing a speaker's utterance characteristic based on the input speech data and inputting the modified embedding vector into a single artificial neural network text-to-speech synthesis model, And converting the voice data into voice data.
본 개시의 일 실시예에 따른 기계학습을 이용한 텍스트-음성 합성 방법의 출력 음성 데이터에 대한 추가적인 입력은 성별에 대한 정보, 연령에 대한 정보, 지역별 억양에 대한 정보, 발성의 속도에 대한 정보, 음 높이 또는 발성의 크기에 대한 정보 중 적어도 하나를 포함할 수 있다.Further input to the output speech data of the text-to-speech synthesis method using machine learning according to an embodiment of the present disclosure may include information on gender, information on age, information on intonation by region, information on speed of utterance, Height, or information on the size of the utterance.
본 개시의 일 실시예에 따른 기계학습을 이용한 텍스트-음성 합성 방법의 음성 샘플을 수신하는 단계는, 미리 결정된 시간 구간 내에 화자로부터 입력된 음성을 음성 샘플로서 실시간으로 수신하는 단계를 포함할 수 있다.The step of receiving the speech samples of the text-to-speech synthesis method using machine learning according to an embodiment of the present disclosure may include receiving in real time as speech samples speech input from a speaker within a predetermined time period .
본 개시의 일 실시예에 따른 기계학습을 이용한 텍스트-음성 합성 방법의 음성 샘플을 수신하는 단계는, 미리 결정된 시간 구간 내에 화자로부터 입력된 음성을 음성 데이터베이스로부터 수신하는 단계를 포함할 수 있다.The step of receiving the speech samples of the text-to-speech synthesis method using machine learning in accordance with an embodiment of the present disclosure may include receiving speech input from the speaker within a predetermined time period from the speech database.
또한, 상술한 바와 같은 기계학습을 이용한 텍스트-음성 합성 방법을 구현하기 위한 프로그램은 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다.In addition, a program for implementing the text-to-speech synthesis method using the above-described machine learning may be recorded in a computer-readable recording medium.
또한, 상술한 바와 같은 기계학습을 이용한 텍스트-음성 합성 방법과 연관된 장치 및 기술적 수단 등을 또한 개시할 수 있다. Further, apparatuses and technical means related to the text-to-speech synthesis method using the above-described machine learning can also be disclosed.
도 1은 본 개시의 일 실시예에 따른 텍스트-음성 합성 단말기를 나타낸 도면이다.1 is a diagram of a text-to-speech synthesis terminal according to an embodiment of the present disclosure;
도 2는 본 개시의 일 실시예에 따른 텍스트-음성 합성 장치를 나타낸 도면이다.2 is a block diagram of a text-to-speech synthesizer according to an embodiment of the present disclosure.
도 3은 본 개시의 일 실시예에 따른 텍스트-음성 합성 방법을 나타낸 흐름도이다.3 is a flow diagram illustrating a text-to-speech synthesis method in accordance with one embodiment of the present disclosure.
도 4는 본 개시의 일 실시예에 따른 텍스트-음성 합성 장치를 나타낸 도면이다.4 is a block diagram of a text-to-speech synthesizer according to an embodiment of the present disclosure.
도 5는 인공 신경망 기반의 텍스트-음성 합성 장치의 구성을 나타내는 도면이다. 5 is a diagram showing a configuration of a text-to-speech synthesizer based on an artificial neural network.
도 6은 본 개시의 일 실시예에 따른 인공 신경망 기반의 텍스트-음성 합성 장치의 구성을 나타내는 도면이다.FIG. 6 is a diagram illustrating a configuration of a text-to-speech synthesizer based on an artificial neural network according to an embodiment of the present disclosure.
도 7는 본 개시의 일 실시예에 따른 복수의 화자의 각각을 구분할 수 있는 발성 특징을 나타내는 임베딩 벡터를 추출하는 네트워크를 나타내는 도면이다. 7 is a diagram illustrating a network for extracting embedding vectors representing vocal characteristics that can distinguish each of a plurality of speakers in accordance with one embodiment of the present disclosure.
도 8은 본 개시의 일 실시예에 따른 인공 신경망 기반의 텍스트-음성 합성 장치의 구성을 나타내는 도면이다.FIG. 8 is a diagram illustrating a configuration of a text-to-speech synthesizer based on an artificial neural network according to an embodiment of the present disclosure.
도 9은 본 개시의 일 실시예에 따른 발성 특징 조절부의 동작을 나타낸 흐름도이다.FIG. 9 is a flowchart illustrating an operation of a vocal characteristic adjusting unit according to an embodiment of the present disclosure.
도 10는 본 개시의 일 실시예에 따라 출력 음성의 특성을 변경하는 사용자 인터페이스의 예시를 나타낸다.10 illustrates an example of a user interface that alters the characteristics of the output speech in accordance with one embodiment of the present disclosure.
도 11은 본 개시의 일 실시예에 따른 텍스트-음성 합성 시스템의 블록도이다.11 is a block diagram of a text-to-speech synthesis system in accordance with one embodiment of the present disclosure.
개시된 실시예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 개시가 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다.BRIEF DESCRIPTION OF THE DRAWINGS The advantages and features of the disclosed embodiments, and how to accomplish them, will become apparent with reference to the embodiments described below with reference to the accompanying drawings. It should be understood, however, that the present disclosure is not limited to the embodiments disclosed herein but may be embodied in many different forms and should not be construed as limited to the embodiments set forth herein, It is only provided to give the complete scope of the invention to the person.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시예에 대해 구체적으로 설명하기로 한다. The terms used in this specification will be briefly described, and the disclosed embodiments will be described in detail.
본 명세서에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다. As used herein, terms used in the present specification are taken to be those of ordinary skill in the art and are not intended to limit the scope of the present invention. Also, in certain cases, there may be a term selected arbitrarily by the applicant, in which case the meaning thereof will be described in detail in the description of the corresponding invention. Accordingly, the terms used in this disclosure should be defined based on the meaning of the term rather than on the name of the term, and throughout the present disclosure.
본 명세서에서의 단수의 표현은 문맥상 명백하게 단수인 것으로 특정하지 않는 한, 복수의 표현을 포함한다. 또한 복수의 표현은 문맥상 명백하게 복수인 것으로 특정하지 않는 한, 단수의 표현을 포함한다.The singular expressions herein include plural referents unless the context clearly dictates otherwise. Also, plural expressions include singular expressions unless the context clearly dictates otherwise.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. When an element is referred to as "including" an element throughout the specification, it is to be understood that the element may include other elements as well, without departing from the spirit or scope of the present invention.
또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어 또는 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.In addition, the term "part" used in the specification means software or hardware component, and "part " However, "part" is not meant to be limited to software or hardware. "Part" may be configured to reside on an addressable storage medium and may be configured to play back one or more processors. Thus, by way of example, and not limitation, "part (s) " refers to components such as software components, object oriented software components, class components and task components, and processes, Subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays and variables. The functions provided in the components and "parts " may be combined into a smaller number of components and" parts " or further separated into additional components and "parts ".
본 개시의 일 실시예에 따르면 "부"는 프로세서 및 메모리로 구현될 수 있다. 용어 "프로세서" 는 범용 프로세서, 중앙 처리 장치 (CPU), 마이크로프로세서, 디지털 신호 프로세서 (DSP), 제어기, 마이크로제어기, 상태 머신 등을 포함하도록 넓게 해석되어야 한다. 몇몇 환경에서는, "프로세서" 는 주문형 반도체 (ASIC), 프로그램가능 로직 디바이스 (PLD), 필드 프로그램가능 게이트 어레이 (FPGA) 등을 지칭할 수도 있다. 용어 "프로세서" 는, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들의 조합, DSP 코어와 결합한 하나 이상의 마이크로프로세서들의 조합, 또는 임의의 다른 그러한 구성들의 조합과 같은 처리 디바이스들의 조합을 지칭할 수도 있다.In accordance with one embodiment of the present disclosure, "part" may be embodied in a processor and memory. The term "processor" should be broadly interpreted to include a general purpose processor, a central processing unit (CPU), a microprocessor, a digital signal processor (DSP), a controller, a microcontroller, In some circumstances, a "processor" may refer to an application specific integrated circuit (ASIC), a programmable logic device (PLD), a field programmable gate array (FPGA) The term "processor" refers to a combination of processing devices, such as, for example, a combination of a DSP and a microprocessor, a combination of a plurality of microprocessors, a combination of one or more microprocessors in conjunction with a DSP core, It can also be called.
용어 "메모리" 는 전자 정보를 저장 가능한 임의의 전자 컴포넌트를 포함하도록 넓게 해석되어야 한다. 용어 메모리는 임의 액세스 메모리 (RAM), 판독-전용 메모리 (ROM), 비-휘발성 임의 액세스 메모리 (NVRAM), 프로그램가능 판독-전용 메모리 (PROM), 소거-프로그램가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능 PROM (EEPROM), 플래쉬 메모리, 자기 또는 광학 데이터 저장장치, 레지스터들 등과 같은 프로세서-판독가능 매체의 다양한 유형들을 지칭할 수도 있다. 프로세서가 메모리로부터 정보를 판독하고/하거나 메모리에 정보를 기록할 수 있다면 메모리는 프로세서와 전자 통신 상태에 있다고 불린다. 프로세서에 집적된 메모리는 프로세서와 전자 통신 상태에 있다.The term "memory" should be broadly interpreted to include any electronic component capable of storing electronic information. The terminology memory may be any suitable memory such as random access memory (RAM), read-only memory (ROM), non-volatile random access memory (NVRAM), programmable read-only memory (PROM), erase- May refer to various types of processor-readable media such as erasable programmable read-only memory (PROM), flash memory, magnetic or optical data storage devices, registers, and the like. The memory is said to be in electronic communication with the processor if the processor is able to read information from and / or write information to the memory. The memory integrated in the processor is in electronic communication with the processor.
아래에서는 첨부한 도면을 참고하여 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. In order to clearly explain the present disclosure in the drawings, portions not related to the description will be omitted.
도 1은 본 개시의 일 실시예에 따른 텍스트-음성 합성 단말기(100)를 나타낸 도면이다.1 is a diagram of a text-to-speech synthesis terminal 100 in accordance with an embodiment of the present disclosure.
텍스트-음성 합성 단말기(100)는 적어도 하나의 프로세서와 메모리를 포함할 수 있다. 예를 들어, 텍스트-음성 합성 단말기(100)는 스마트폰, 컴퓨터, 또는 휴대폰 등에서 구현될 수 있다. 텍스트-음성 합성 단말기(100)는 통신부를 포함하여 외부 장치(예를 들어, 서버 장치)와 통신할 수 있다. The text-to-speech synthesis terminal 100 may include at least one processor and a memory. For example, the text-to-speech synthesis terminal 100 may be implemented in a smart phone, a computer, a mobile phone, or the like. The text-to-speech synthesis terminal 100 may communicate with an external device (e.g., a server device) including a communication unit.
텍스트-음성 합성 단말기(100)는 사용자(110)로부터 텍스트 입력과 특정 화자 입력을 수신할 수 있다. 예를 들어, 도 1에 도시된 바와 같이, 텍스트-음성 합성 단말기(100)는 텍스트 입력으로써 "How are you?"를 수신할 수 있다. 또한, 텍스트-음성 합성 단말기(100)는 화자 입력으로써 "사람 1"을 수신할 수 있다. 여기서, "사람 1"은 미리 설정된 화자, 즉 "사람 1"의 발성 특징을 나타낼 수 있다. 텍스트-음성 합성 단말기(100)는 복수의 사람의 발성 특징 중 적어도 하나의 발성 특징(예를 들어, "사람 1")을 미리 설정하도록 구성될 수 있다. 예를 들어, 이러한 복수의 사람의 발성 특징은 통신부를 통해 서버 장치 등의 외부 장치로부터 수신될 수 있다. 도 1에서는 미리 설정된 화자를 지정할 수 있는 사용자 인터페이스를 도시하고 있으나, 이에 한정하는 것은 아니며, 사용자는 특정 텍스트에 대한 음성을 텍스트-음성 합성 단말기(100)에 제공할 수 있으며, 텍스트-음성 합성 단말기(100)는 수신된 음성의 발성 특징을 추출하여 음성 합성을 위한 사용자의 발성 특징이 선택되도록 표시할 수 있다. 예를 들어, 수신된 음성으로부터 음성의 발성 특징이 추출될 수 있으며, 음성의 발성 특징은 임베딩 벡터로 나타낼 수 있다. The text-to-speech synthesis terminal 100 may receive text input and a specific speaker input from the user 110. For example, as shown in FIG. 1, the text-to-speech synthesis terminal 100 may receive "How are you?" As text input. Also, the text-to-speech synthesis terminal 100 may receive "Person 1" as a speaker input. Here, "person 1" may represent the utterance characteristic of a preset speaker, i.e., "person 1 ". The text-to-speech synthesis terminal 100 may be configured to preset at least one vocal characteristic (e.g., "person 1") of a plurality of human vocal characteristics. For example, the vocal characteristics of the plurality of persons can be received from an external apparatus such as a server apparatus through the communication unit. 1 shows a user interface for specifying a preset speaker. However, the present invention is not limited thereto. The user can provide a voice for specific text to the text-to-speech synthesis terminal 100, The controller 100 may extract the voice feature of the received voice and display the voice feature of the user for voice synthesis to be selected. For example, the speech feature of the speech can be extracted from the received speech, and the speech feature of the speech can be represented by the embedding vector.
텍스트-음성 합성 단말기(100)는 지정된 화자의 발성 특징이 반영된 입력텍스트에 대한 음성 데이터를 출력하도록 구성될 수 있다. 예를 들어, 도 1에 도시된 바와 같이, "How are you"의 입력텍스트에 대한 출력 음성 데이터을 생성하는데 있어서, 선택된 "사람 1"의 발성 특징이 출력 음성 데이터에 반영되도록 구성될 수 있다. 여기서, 특정 화자의 발성 특징은 그 화자의 음성을 모사하는 것뿐만 아니라, 그 발성을 구성할 수 있는 스타일, 운율, 감정, 음색, 음높이 등 다양한 요소들 중 적어도 하나를 포함할 수 있다. 이러한 출력 음성 데이터를 생성하기 위하여, 텍스트-음성 합성 단말기(100)는 텍스트-음성 합성 장치에 입력 텍스트 및 지정된 화자를 제공할 수 있으며, 텍스트-음성 합성 장치로보부터 합성된 음성 데이터(예를 들어, "사람 1"의 발성 특징이 반영된 "How are you"의 음성 데이터)를 수신할 수 있다. 텍스트-음성 합성 장치에 대해서 아래 도 2에서 보다 자세히 설명한다. 텍스트-음성 합성 단말기(100)는 합성된 음성 데이터는 사용자(110)에게 출력할 수 있다. 이와 달리, 텍스트-음성 합성 단말기(100)는 텍스트-음성 합성 장치를 포함하도록 구성될 수 있다. The text-to-speech synthesis terminal 100 may be configured to output speech data for the input text in which the speech characteristic of the designated speaker is reflected. For example, in generating output speech data for the input text of "How are you ", as shown in Fig. 1, the speech characteristic of the selected" person 1 " Here, the utterance characteristic of the specific speaker may include not only the voice of the speaker but also at least one of various factors such as a style, a rhyme, an emotion, a tone color, and a pitch capable of constituting the utterance. In order to generate such output speech data, the text-to-speech synthesis terminal 100 may provide input text and a designated speaker to the text-to-speech synthesis apparatus and may provide speech data synthesized from the text- , "How are you" in which the utterance characteristic of "Person 1 " is reflected). The text-to-speech synthesizer will be described in more detail below with reference to FIG. The text-to-speech synthesis terminal 100 can output the synthesized speech data to the user 110. Alternatively, the text-to-speech synthesis terminal 100 may be configured to include a text-to-speech synthesis device.
도 2는 본 개시의 일 실시예에 따른 텍스트-음성 합성 장치(200)를 나타낸 도면이다.2 is a block diagram of a text-to-speech synthesis apparatus 200 according to an embodiment of the present disclosure.
도 2의 텍스트-음성 합성 장치(200)가 사용하는 데이터 학습부(미도시) 및 데이터 인식부(미도시)는 후술될 도 11의 텍스트-음성 합성 장치(1100)의 구성과 동일 또는 유사한 구성을 포함할 수 있다. 텍스트-음성 합성 장치(200)는 발성 특징 추출부(210), 발성 특징 조절부(220), 음성 데이터베이스(230), 인코더(240), 디코더(250), 후처리 프로세서(260) 및 통신부(270)를 포함할 수 있다.The data learning unit (not shown) and the data recognition unit (not shown) used by the text-to-speech synthesizer 200 of FIG. 2 are the same as or similar to the configuration of the text-to-speech synthesizer 1100 of FIG. . ≪ / RTI > The speech synthesis apparatus 200 includes a speech feature extraction unit 210, a speech feature adjustment unit 220, a speech database 230, an encoder 240, a decoder 250, a postprocessing processor 260, 270).
일 실시예에 따르면, 발성 특징 추출부(210)는 화자의 음성 신호(예를 들어, 음성 샘플)을 수신하고, 수신된 음성 신호로부터 화자의 발성 특징을 추출하도록 구성될 수 있다. 여기서, 수신된 음성 신호 또는 샘플은 화자의 발성 특징과 관련된 정보를 나타내는 음성 스펙트럼 데이터를 포함할 수 있다. 화자의 발성 특징을 추출하는데 있어서, 화자의 음성 신호로부터 발성 특징을 추출할 수 있는 임의의 알려진 적절한 특징 추출 방법이 사용될 수 있다. 예를 들어, 멜 주파수 셉스트럴(MFC)과 같은 음성 처리 방법을 이용하여 수신된 음성 신호 또는 샘플로부터 발성 특징을 추출할 수 있다. 이와 달리, 음성 샘플을 학습된 발성 특징 추출 모델(예를 들어, 인공신경망)에 입력하여 발성 특징을 추출될 수 있다. 예를 들어, 추출된 화자의 발성 특징은 임베딩 벡터로 나타낼 수 있다. 다른 실시예에 따르면, 발성 특징 추출부(210)는 텍스트 및 비디오 중 적어도 하나를 수신할 수 있고, 수신된 텍스트 및 비디오로부터 화자의 발성 특징을 추출하도록 구성될 수 있다. 추출된 화자의 발성 특징은 인코더(240) 또는 디코더(250) 중 적어도 하나에 제공할 수 있다. According to one embodiment, the utterance feature extraction unit 210 may be configured to receive a speaker's speech signal (e. G., A voice sample) and extract the speaker's utterance characteristics from the received speech signal. Here, the received speech signal or sample may include speech spectral data representing information related to a speech feature of the speaker. In extracting a speaker's vocal feature, any known appropriate feature extraction method capable of extracting a vocal feature from a speaker's speech signal can be used. For example, a speech processing method, such as Mel frequency synthesizer (MFC), can be used to extract speech features from a received speech signal or sample. Alternatively, speech samples may be input to a learned speech feature extraction model (e.g., an artificial neural network) to extract speech features. For example, the utterance characteristic of the extracted speaker can be represented by an embedding vector. According to another embodiment, the utterance feature extraction section 210 can receive at least one of text and video, and can be configured to extract the utterance characteristics of the speaker from the received text and video. The speech feature of the extracted speaker may be provided to at least one of the encoder 240 or the decoder 250.
일 실시예에 따르면, 발성 특징 추출부(210)로부터 추출된 화자의 발성 특징은 저장매체(예를 들어, 음성 데이터베이스(230)) 또는 외부 저장 장치에 저장될 수 있다. 이에 따라, 입력 텍스트에 대한 음성 합성 시, 저장매체에 미리 저장된 복수의 화자의 발성 특징 중 하나 이상의 화자의 발성 특징이 선택 또는 지정될 수 있고, 선택 또는 지정된 복수의 화자의 발성 특징이 음성 합성에 이용될 수 있다. According to one embodiment, the utterance characteristics of the speaker extracted from the utterance feature extraction section 210 may be stored in a storage medium (e.g., voice database 230) or an external storage device. Accordingly, at the time of speech synthesis for the input text, one or more speech characteristics of a plurality of speakers, which are stored in advance in the storage medium, can be selected or designated, and the speech characteristics of a selected or designated plurality of speakers Can be used.
발성 특징 조절부(220)는 화자의 발성 특징을 조절하도록 구성될 수 있다. 일 실시예에 따르면, 발성 특징 조절부(220)는 화자의 발성 특징을 조절하기 위한 정보를 수신할 수 있다. 예를 들어, 화자의 발성 특징을 조절하기 위한 정보는 발성 특징 조절부(220)에 의해 사용자로부터 입력 받을 수 있다. 사용자로부터 수신한 정보에 기초하여, 발성 특징 조절부(220)는 발성 특징 추출부(210)에서 추출된 화자의 발성 특징을 조절할 수 있다.The utterance characteristic adjuster 220 may be configured to adjust the utterance characteristics of the speaker. According to one embodiment, the utterance feature adjuster 220 may receive information for adjusting the speaker's utterance characteristics. For example, information for adjusting a speaker's utterance characteristic may be input from a user by the utterance characteristic adjuster 220. Based on the information received from the user, the utterance characteristic adjusting unit 220 can adjust the utterance characteristic of the speaker extracted by the utterance characteristic extracting unit 210. [
일 실시예에 따르면, 음성 데이터베이스(230)는 학습 텍스트 및 복수의 학습 텍스트에 대응되는 음성을 저장할 수 있다. 학습 텍스트는 적어도 하나의 언어로 작성될 수 있으며, 사람이 이해할 수 있는 단어, 구문 및 문장 중 적어도 하나를 포함할 수 있다. 또한, 음성 데이터베이스(230)에 저장된 음성은 복수의 화자가 학습 텍스트를 읽은 음성 데이터를 포함할 수 있다. 학습 텍스트 및 음성 데이터는 음성 데이터베이스(230)에 미리 저장되어 있거나, 통신부(270)로부터 수신될 수 있다. 음성 데이터베이스(230)가 저장하고 있는 학습 텍스트 및 음성에 기초하여 인코더(240) 및 디코더(250) 중 적어도 하나는 단일 인공 신경망 텍스트-음성 합성 모델을 포함하거나 생성할 수 있다. 예를 들어, 인코더(240) 및 디코더(250)가 단일 인공 신경망 텍스트-합성 모델을 구성할 수 있다. According to one embodiment, the voice database 230 may store a learning text and a voice corresponding to a plurality of learning texts. The learning text may be written in at least one language and may include at least one of words, phrases, and sentences that a person can understand. In addition, the voice stored in the voice database 230 may include voice data in which a plurality of speakers have read the learning text. The learning text and voice data may be stored in advance in the voice database 230 or may be received from the communication unit 270. [ At least one of the encoder 240 and the decoder 250 may include or generate a single artificial neural network text-speech synthesis model based on the learning text and speech stored in the speech database 230. For example, the encoder 240 and the decoder 250 may constitute a single artificial neural network text-synthesis model.
일 실시예에 따르면, 음성 데이터베이스(230)는 발성 특징 추출부(210)로부터 추출된 하나 이상의 화자의 발성 특징을 저장하도록 구성될 수 있다. 저장된 화자의 발성 특징(예를 들어, 화자의 발성 특징을 나타내는 임베딩 벡터)는 음성 합성 시 인코더(240) 또는 디코더 중 적어도 하나에 제공될 수 있다.According to one embodiment, the speech database 230 may be configured to store speech characteristics of one or more speakers extracted from the speech feature extraction section 210. [ The speech feature of the stored speech (e.g., an embedding vector representing the speech feature of the speaker) may be provided to at least one of the encoder 240 or the decoder during speech synthesis.
또한, 인코더(240)는 입력 텍스트를 수신할 수 있으며, 입력 텍스트를 문자 임베딩으로 변환하여 생성하도록 구성될 수 있다. 이러한 문자 임베딩은 단일 인공 신경망 텍스트-음성 합성 모델(예를 들어, pre-net, CBHG 모듈, DNN, CNN+DNN 등)에 입력하여 인코더(240)의 숨겨진 상태들을 생성할 수 있다. 일 실시예에 따르면, 인코더(240)는 발성 특징 추출부(210) 또는 발성 특징 조절부(220) 중 적어도 하나로부터 화자의 발성 특징을 더 수신하고, 문자 임베딩 및 화자의 발성 특징을 단일 인공 신경망 텍스트-음성 합성 모델(예를 들어, pre-net, CBHG 모듈, DNN, CNN+DNN 등)에 입력하여 인코더(240)의 숨겨진 상태들(hidden states)을 생성할 수 있다. 이렇게 생성된 인코더(240)의 숨겨진 상태들은 디코더(820)에 제공될 수 있다. In addition, the encoder 240 can receive the input text and can be configured to generate the input text by converting it into character embedding. Such character embedding may be entered into a single artificial neural network text-to-speech synthesis model (e.g., pre-net, CBHG module, DNN, CNN + DNN, etc.) to generate the hidden states of the encoder 240. According to one embodiment, the encoder 240 further receives the speaker's utterance characteristics from at least one of the utterance feature extraction unit 210 or the utterance feature control unit 220, and performs character embedding and speaker's utterance characteristics on a single artificial neural network (E.g., pre-net, CBHG module, DNN, CNN + DNN, etc.) to generate hidden states of the encoder 240. [ The thus generated hidden states of the encoder 240 may be provided to the decoder 820. [
디코더(250)는 화자의 발성 특징을 수신하도록 구성될 수 있다. 디코더(250)는 발성 특징 추출부(210) 및 발성 특징 조절부(220) 중 적어도 하나로부터 화자의 발성 특징을 수신할 수 있다. 하지만 이에 한정되는 것은 아니며, 디코더(250)는 통신부(270) 또는 입출력부((I/O부; 미도시)로부터 화자의 발성 특징을 수신할 수 있다.The decoder 250 may be configured to receive the speaker's speech characteristics. The decoder 250 can receive the speaker's utterance characteristic from at least one of the utterance feature extraction unit 210 and the utterance feature control unit 220. However, the present invention is not limited thereto, and the decoder 250 can receive the utterance characteristic of the speaker from the communication unit 270 or the input / output unit (I / O unit: not shown).
디코더(250)는 인코더(240)로부터 입력 텍스트에 대응한 숨겨진 상태들을 수신할 수 있다. 일 실시예에 따르면, 디코더(250)는 현재 시간-단계(time-step)에서 입력 텍스트 중 어떤 부분으로부터 음성을 생성할지 결정하도록 구성된 어텐션 모듈을 포함할 수 있다. The decoder 250 may receive hidden states corresponding to the input text from the encoder 240. According to one embodiment, the decoder 250 may include an attention module configured to determine from which part of the input text to generate the speech at the current time-step (time-step).
디코더(250)는 화자의 발성 특징 및 입력 텍스트를 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여 입력 텍스트에 대응되는 출력 음성 데이터를 생성할 수 있다. 이러한 출력 음성 데이터는 화자의 발성 특징이 반영된 합성 음성 데이터를 포함할 수 있다. 일 실시예에 따르면, 미리 설정된 제1 화자의 발성 특징에 기초하여, 제1 화자가 입력 텍스트를 읽는 것으로 보이는 출력 음성 데이터가 생성될 수 있다. 예를 들면, 출력 음성 데이터는 멜 스펙트로그램으로 표현될 수 있다. 하지만 이에 한정되는 것은 아니며, 출력 음성 데이터는 선형 스펙트로그램으로 표현될 수 있다. 이러한 출력 음성 데이터는 스피커, 후처리 프로세서(260) 또는 통신부(270) 중 적어도 하나로 출력될 수 있다. Decoder 250 may generate the output speech data corresponding to the input text by inputting the speech characteristics and input text of the speaker into a single artificial neural network text-speech synthesis model. Such output speech data may include synthesized speech data that reflects the speech characteristics of the speaker. According to one embodiment, output speech data in which the first speaker appears to read the input text may be generated based on the speech characteristics of the first speaker set in advance. For example, output speech data may be represented by a mel-spectrogram. However, the present invention is not limited to this, and the output speech data may be represented by a linear spectrogram. The output audio data may be output to at least one of a speaker, a post-processing processor 260, and a communication unit 270.
일 실시예에 따르면, 후처리 프로세서(260)는 디코더(250)에서 생성된 출력 음성 데이터를 스피커에서 출력 가능한 음성으로 변환하도록 구성될 수 있다. 예를 들어, 변화된 출력 가능한 음성은 웨이브폼(waveform)으로 나타낼 수 있다. 후처리 프로세서(260)는 디코더(250)에서 생성된 출력 음성 데이터가 스피커에서 출력되기에 부적절한 경우에만 작동하도록 구성될 수 있다. 즉, 디코더(250)에서 생성된 출력 음성 데이터가 스피커에서 출력되기에 적절한 경우, 출력 음성 데이터는 후처리 프로세서(260)를 거치지 않고 바로 스피커로 출력될 수 있다. 이에 따라, 도 2에서는 후처리 프로세서(260)가 텍스트-음성 합성 장치(200)에 포함되도록 도시되어 있지만, 후처리 프로세서(260)가 텍스트-음성 합성 장치(200)에 포함되지 않도록 구성될 수 있다.According to one embodiment, the post-processor 260 may be configured to convert the output speech data generated at the decoder 250 into speech output from the speaker. For example, a changed outputable voice can be represented by a waveform. The post-processor 260 may be configured to operate only when the output voice data generated at the decoder 250 is inappropriate for output from the speaker. That is, if the output voice data generated at the decoder 250 is suitable for output from the speaker, the output voice data can be output directly to the speaker without going through the post-processor 260. [ Thus, although post processor 260 is shown in FIG. 2 as being included in text-to-speech synthesizer 200, post processor 260 may be configured not to be included in text-to-speech synthesizer 200 have.
일 실시예에 따르면, 후처리 프로세서(260)는 디코더(250)에서 생성된 멜 스펙트로그램으로 표현된 출력 음성 데이터를 시간 도메인의 웨이브폼으로 변환하도록 구성될 수 있다. 또한, 후처리 프로세서(260)는 출력 음성 데이터의 신호의 크기가 미리 결정된 기준 크기에 도달하지 못한 경우, 출력 음성 데이터의 크기를 증폭시킬 수 있다. 후처리 프로세서(260)는 변환된 출력 음성 데이터를 스피커 또는 통신부(270) 중 적어도 하나로 출력할 수 있다.According to one embodiment, the post-processor 260 may be configured to convert the output speech data represented by the mel-spectrogram generated in the decoder 250 into a waveform in the time domain. In addition, the post-processor 260 may amplify the size of the output speech data if the size of the signal of the output speech data does not reach a predetermined reference size. The post-processor 260 may output the converted output voice data to at least one of the speaker or the communication unit 270.
통신부(270)는 텍스트-음성 합성 장치(200)가 외부 장치와 신호 또는 데이터를 송수신하도록 구성될 수 있다. 외부 장치는 도 1의 텍스트-음성 합성 단말기(100)를 포함할 수 있다. 이와 달리, 외부장치는 다른 텍스트-음성 합성 장치를 포함할 수 있다. 또는 외부 장치는 음성 데이터베이스를 포함한 임의의 장치일 수 있다. The communication unit 270 may be configured such that the text-to-speech synthesizer 200 transmits / receives signals or data to / from an external device. The external device may include the text-to-speech synthesis terminal 100 of FIG. Alternatively, the external device may include another text-to-speech synthesizer. Or the external device may be any device, including a voice database.
일 실시예에 따르면, 통신부(270)는 외부 장치로부터 텍스트를 수신하도록 구성될 수 있다. 여기서, 텍스트는 단일 인공 신경망 텍스트-음성 합성 모델의 학습을 위해 사용될 학습 텍스트를 포함할 수 있다. 이와 달리, 텍스트는 사용자 단말기로부터 수신된 입력 텍스트를 포함할 수 있다. 이러한 텍스트는 인코더(240) 또는 디코더(250) 중 적어도 하나에 제공될 수 있다. According to one embodiment, the communication unit 270 can be configured to receive text from an external device. Here, the text may include a learning text to be used for learning of a single artificial neural network text-speech synthesis model. Alternatively, the text may include input text received from a user terminal. This text may be provided to at least one of the encoder 240 or the decoder 250.
일 실시예에서, 통신부(270)는 외부 장치부터 화자의 발성 특징을 수신할 수 있다. 통신부(270)는 외부 장치로부터 화자의 음성 신호 또는 샘플을 수신하여 발성 특징 추출부(210)로 송신할 수 있다. In one embodiment, the communication unit 270 can receive the speech characteristics of the speaker from an external device. The communication unit 270 can receive the speech signal or sample of the speaker from the external device and transmit the speech signal to the speech feature extraction unit 210.
통신부(270)는 사용자 단말기로부터 입력된 정보를 수신할 수 있다. 예를 들어, 통신부(270)는 화자의 발성 특징을 조절하기 위한 입력 정보를 수신하고, 수신된 입력 정보를 발성 특징 조절부(220)에 제공할 수 있다. The communication unit 270 may receive the information input from the user terminal. For example, the communication unit 270 may receive the input information for adjusting the speaker's utterance characteristics and provide the received utterance information to the utterance characteristic adjuster 220.
통신부(270)는 임의의 신호 또는 데이터를 외부장치에 송신할 수 있다. 예를 들어, 통신부(270)는 생성된 출력 음성과 관련된 정보, 즉, 출력 음성 데이터를 외부장치로 송신할 수 있다. 또한, 생성된 단일 인공 신경망 텍스트-음성 합성 모델은 통신부(270)를 통해 텍스트-음성 합성 단말기(100) 또는 다른 텍스트-음성 합성 장치에 송신될 수 있다.The communication unit 270 can transmit any signal or data to the external device. For example, the communication unit 270 can transmit information related to the generated output voice, that is, output voice data to an external device. Also, the generated single artificial neural network text-to-speech synthesis model may be transmitted to the text-to-speech synthesis terminal 100 or another text-to-speech synthesis apparatus through the communication unit 270.
일 실시예에 따르면, 텍스트-음성 합성 장치(200)는 입출력부(I/O 장치; 미도시)를 더 포함할 수 있다. 입출력부는 사용자로부터 입력을 직접 수신할 수 있다. 또한, 입출력부는 사용자에게 음성, 영상 또는 텍스트 중 적어도 하나를 출력할 수 있다.According to one embodiment, the text-to-speech synthesizer 200 may further include an input / output unit (not shown). The input / output unit can receive the input directly from the user. Also, the input / output unit may output at least one of voice, image, and text to the user.
도 3은 본 개시의 일 실시예에 따른 텍스트-음성 합성 방법을 나타낸 흐름도이다.3 is a flow diagram illustrating a text-to-speech synthesis method in accordance with one embodiment of the present disclosure.
먼저, 310 단계에서, 텍스트-음성 합성 장치(200)는 복수의 학습 텍스트 및 복수의 학습 텍스트에 대응되는 음성 데이터에 기초하여 기계학습을 수행하여 생성된 단일 인공 신경망 텍스트-음성 합성(text-to-speech synthesis) 모델을 생성하는 단계를 수행할 수 있다. 텍스트-음성 합성 장치(200)는 320 단계에서, 입력 텍스트를 수신하는 단계를 수행할 수 있다. 단계 330에서, 텍스트-음성 합성 장치(200)는 화자의 발성 특징을 수신하는 단계를 수행할 수 있다. 텍스트-음성 합성 장치(200)는 화자의 발성 특징을 미리 학습된 텍스트-음성 합성 모델에 입력하여, 화자의 발성 특징이 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 단계 340에서 수행할 수 있다.First, in step 310, the text-to-speech synthesis apparatus 200 generates a single artificial neural network text-to-speech synthesis by performing a machine learning based on a plurality of learning texts and speech data corresponding to a plurality of learning texts -peech synthesis) model can be performed. In step 320, the text-to-speech synthesizer 200 may perform the step of receiving the input text. In step 330, the text-to-speech synthesizer 200 And a step of receiving the utterance characteristic of the speaker can be performed. The text-to-speech synthesis apparatus 200 can perform the step of generating the output speech data for the input text in which the speech characteristic of the speaker is reflected by inputting the speech characteristic of the speaker into the pre-learned text-speech synthesis model have.
이하에서는 도 4와 함께 텍스트-음성 합성 방법을 보다 자세히 설명한다.Hereinafter, the text-speech synthesis method will be described in more detail with reference to FIG.
도 4는 본 개시의 일 실시예에 따른 텍스트-음성 합성 장치(400)를 나타낸 도면이다. 도 4의 텍스트-음성 합성 장치(400)는 도 2의 텍스트-음성 합성 장치(200)의 구성과 동일 또는 유사한 구성을 포함할 수 있다. 텍스트-음성 합성 장치(400)는 발성 특징 추출부(410), 음성 데이터베이스(430), 통신부(470), 인코더(440) 및 디코더(450)를 포함할 수 있다. 도 4의 발성 특징 추출부(410)는 도 2 의 발성 특징 추출부(210)의 구성과 동일 또는 유사한 구성을 포함할 수 있다. 도 4의 음성 데이터베이스(430)는 도 2의 음성 데이터베이스(230)의 구성과 동일 또는 유사한 구성을 포함할 수 있다. 도 4의 통신부(470)는 도 2의 통신부(270)의 구성과 동일 또는 유사한 구성을 포함할 수 있다. 도 4의 인코더(440)는 도 2의 인코더(240)의 구성과 동일 또는 유사한 구성을 포함할 수 있다. 도 4의 디코더(450)는 도 2의 디코더(250)의 구성과 동일 또는 유사한 구성을 포함할 수 있다. 도 2의 텍스트-음성 합성 장치(200)의 설명과 도 4의 텍스트-음성 합성 장치(400)의 설명 중 중복되는 내용은 생략된다.4 is a diagram of a text-to-speech synthesizer 400 according to an embodiment of the present disclosure. The text-to-speech synthesizer 400 of FIG. 4 may have the same or similar configuration as that of the text-to-speech synthesizer 200 of FIG. The text-to-speech synthesis apparatus 400 may include a speech feature extraction unit 410, a speech database 430, a communication unit 470, an encoder 440, and a decoder 450. The utterance feature extraction unit 410 of FIG. 4 may have the same or similar configuration as that of the utterance feature extraction unit 210 of FIG. The voice database 430 of FIG. 4 may include the same or similar configuration as the voice database 230 of FIG. The communication unit 470 of FIG. 4 may include the same or similar configuration as the communication unit 270 of FIG. The encoder 440 of FIG. 4 may include the same or similar configuration as the encoder 240 of FIG. The decoder 450 of FIG. 4 may include the same or similar configuration as the decoder 250 of FIG. The description of the text-to-speech synthesizer 200 of FIG. 2 and the description of the text-to-speech synthesizer 400 of FIG. 4 are omitted.
일 실시예에 따르면, 텍스트-음성 합성 장치(400)는 화자의 음성 샘플 또는 신호를 수신할 수 있다. 예를 들어, 음성 샘플은 통신부(470)를 통해 사용자 단말기로부터 수신될 수 있다. 또 다른 예로서, 이러한 화자의 음성 샘플 또는 신호는 음성 데이터베이스를 포함한 텍스트-음성 합성 단말기로부터 수신될 수 있다. 이러한 화자의 음성 샘플 또는 신호는 발성 특징 추출부(410)으로 제공될 수 있다. 화자의 음성 샘플 또는 신호는 미리 결정된 시간 구간 내에 화자로부터 입력된 음성 데이터를 포함할 수 있다. 예를 들어, 미리 결정된 시간 구간은 화자가 자신의 음성을 입력할 수 있는 비교적 짧은 시간(예시: 수초, 수십초 또는 수십분 이내)을 나타낼 수 있다.According to one embodiment, the text-to-speech synthesizer 400 may receive speech samples or signals of the speaker. For example, the voice samples may be received from the user terminal via the communication unit 470. As another example, the speech samples or signals of such speakers may be received from a text-to-speech synthesis terminal including a speech database. The speech samples or signals of these speakers may be provided to the vocal feature extraction unit 410. The speech sample or signal of the speaker may include speech data input from the speaker within a predetermined time period. For example, the predetermined time interval may represent a relatively short time (e.g., several seconds, tens seconds, or even tens of minutes) in which the speaker can input his voice.
일 실시예에 따르면, 텍스트-음성 합성 장치(400)는 음성 합성의 대상인 입력 텍스트를 송신하도록 구성될 수 있다. 예를 들어, 입력 텍스트는 사용자 단말기로부터 통신부(470)를 통해 수신될 수 있다. 이와 달리, 텍스트-음성 합성 장치(400)는 입출력 장치(미도시)를 포함하고 있어서, 이러한 입력 텍스트를 입력받을 수 있다. 수신된 입력 텍스트는 발성 특징 추출부(410)으로 제공될 수 있다. According to one embodiment, the text-to-speech synthesizer 400 may be configured to transmit input text that is the subject of speech synthesis. For example, the input text may be received from the user terminal via the communication unit 470. Alternatively, the text-to-speech synthesizer 400 may include an input / output device (not shown) to receive the input text. The received input text may be provided to the vocal feature extraction unit 410.
일 실시예에 따르면, 음성 데이터베이스(430)는 하나 이상의 화자의 음성 샘플 또는 신호를 저장하도록 구성될 수 있다. 이러한 화자의 음성 샘플 또는 신호는 발성 특징 추출부(410)에 제공될 수 있다. According to one embodiment, the speech database 430 may be configured to store speech samples or signals of one or more speakers. The speech samples or signals of these speakers may be provided to the speech feature extraction unit 410.
발성 특징 추출부(410)는 음성 샘플 또는 신호로부터 화자의 발성 특징을 나타내는 임베딩 벡터를 추출하는 단계를 수행할 수 있다. 발성 특징 추출부(410)는 운율 특징 추출부(412), 감정 특징 추출부(414) 및 음색 및 음높이 추출부(416)를 포함할 수 있다. 도 4에서의 발성 특징 추출부(410)는 운율 특징 추출부(412), 감정 특징 추출부(414) 및 음색 및 음높이 추출부(416)를 포함하도록 도시되어 있으나, 운율 특징 추출부(412), 감정 특징 추출부(414) 및 음색 및 음높이 추출부(416) 중 적어도 하나를 포함하도록 구성될 수 있다.The utterance feature extraction unit 410 may extract the embedding vector representing the utterance characteristic of the speaker from the speech sample or signal. The utterance feature extraction unit 410 may include a prosody feature extraction unit 412, an emotion feature extraction unit 414, and a tone color and pitch extraction unit 416. 4, the utterance feature extraction unit 410 includes a rhyme feature extraction unit 412, a feeling feature extraction unit 414, and a tone color and pitcher extraction unit 416. The rhyme feature extraction unit 412, The emotion feature extracting unit 414, and the tone color and pitch extracting unit 416. [0064]
운율 특징 추출부(412)는 화자의 운율 특징을 나타내는 제1 서브 임베딩 벡터를 추출하도록 구성될 수 있다. 여기서, 운율 특징은, 발화 속도에 대한 정보, 발음 강세에 대한 정보, 휴지 구간에 대한 정보 및 음 높이에 대한 정보 중 적어도 하나를 포함할 수 있다. 추출된 화자의 운율 특징을 나타내는 제 1 서브 임베딩 벡터는 인코더(440) 또는 디코더(450) 중 적어도 하나로 제공될 수 있다. 일 실시예에 따르면, 인코더(440) 및 디코더(450)는 운율 특징을 나타내는 제1 서브 임베딩 벡터를 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여 화자의 운율 특징이 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성할 수 있다.The prosodic feature extraction unit 412 may be configured to extract a first sub-embedding vector that indicates a prosodic feature of the speaker. Here, the rhyme feature may include at least one of information on the speaking speed, information on the pronunciation strength, information on the idle period, and information on the pitch height. The first sub-embedding vector representing the prosodic feature of the extracted speaker may be provided to at least one of the encoder 440 or the decoder 450. According to one embodiment, the encoder 440 and the decoder 450 input a first sub-embedding vector representing the rhyme characteristics into a single artificial neural network text-to-speech synthesis model to generate output speech data Lt; / RTI >
감정 특징 추출부(414) 화자의 감정 특징을 나타내는 제2 서브 임베딩 벡터를 추출하도록 구성될 수 있다. 여기서, 감정 특징은 화자의 발화 내용에 내재된 감정에 대한 정보를 포함할 수 있다. 예를 들어, 감정 특징은 미리 정해진 미리 결정된 감정에 한정되지 않고, 화자의 음성에 내재되어 있는 하나 이상의 감정의 각각에 대한 정도 및/또는 내재된 감정들의 조합 등의 정보를 포함할 수 있다. 추출된 화자의 감정 특징을 나타내는 제2 서브 임베딩 벡터는 인코더(440) 또는 디코더(450) 중 적어도 하나로 제공될 수 있다. 일 실시예에 따르면, 인코더(440) 및 디코더(450)는 감정 특징을 나타내는 제2 서브 임베딩 벡터를 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여 화자의 감정 특징이 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성할 수 있다.The emotion feature extraction unit 414 may be configured to extract a second sub-embedding vector indicating the emotion characteristics of the speaker. Here, the emotion feature may include information on the emotion inherent in the utterance contents of the speaker. For example, the emotion feature is not limited to a predetermined predetermined emotion, but may include information such as the degree of each of the one or more emotions inherent in the speaker's voice and / or a combination of emotional emotions. A second sub-embedding vector representing the emotion characteristics of the extracted speaker may be provided to at least one of the encoder 440 or the decoder 450. [ According to one embodiment, the encoder 440 and the decoder 450 input a second sub-embedding vector representing emotion characteristics into a single artificial neural network text-to-speech synthesis model to generate output speech data for the input text that reflects the emotion characteristics of the speaker Lt; / RTI >
음색 및 음높이 추출부(416)는 화자의 음색 및 음 높이에 대한 특징을 나타내는 제3 서브 임베딩 벡터를 추출하도록 구성될 수 있다. 추출된 화자의 음색 및 음 높이에 대한 특징을 나타내는 제3 서브 임베딩 벡터는 인코더(440) 또는 디코더(450) 중 적어도 하나로 제공될 수 있다. 일 실시예에 따르면, 인코더(440) 및 디코더(450)는 화자의 음색 및 음 높이에 대한 특징을 나타내는 제3 서브 임베딩 벡터를 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여 화자의 음색 및 음 높이에 대한 특징이 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성할 수 있다. The tone color and pitch extracting unit 416 may be configured to extract a third sub-embedding vector indicating characteristics of the tone color and pitch height of the speaker. A third sub-embedding vector indicating characteristics of the tone and height of the extracted speaker may be provided to at least one of the encoder 440 or the decoder 450. [ According to one embodiment, the encoder 440 and the decoder 450 input a third subembedding vector, which characterizes the tone and pitch of the speaker, into a single artificial neural network text-to-speech synthesis model, The output speech data for the input text in which the characteristic of the input text is reflected can be generated.
일 실시예에 따르면, 인코더(440)는 추출된 화자의 발성 특징을 나타내는 임베딩 벡터를 수신할 수 있다. 인코더(440)는 미리 기계 학습된 하나 이상의 화자의 발성 특징을 나타내는 임베딩 벡터 및 수신된 화자의 발성 특징을 나타내는 임베딩 벡터에 기초하여 단일 인공 신경망 텍스트-음성 합성 모델을 생성 또는 갱신함으로써, 보다 유사한 화자의 음성을 합성할 수 있다.According to one embodiment, the encoder 440 may receive an embedding vector representing the utterance characteristics of the extracted speaker. Encoder 440 may generate or update a single artificial neural network text-speech synthesis model based on an embedding vector representing the speech feature of one or more speakers previously learned mechanically and an embedding vector representing the speech feature of the received speaker, Can be synthesized.
도 4에는 하나의 화자의 음성 샘플 또는 신호로부터 감정 특징, 운율 특징 또는 음성 및 음높이 중 적어도 하나를 추출하여 음성을 합성하는 것으로 도시되어 있으나, 이에 한정되지 않는다. 다른 실시예에서, 감정 특징, 운율 특징 또는 음성 및 음높이 중 적어도 하나가 다른 화자의 음성 샘플 또는 신호로부터 추출될 수도 있다. 예를 들어, 발성 특징 추출부(410)는 제1 화자의 음성 샘플 또는 신호를 수신하고, 수신된 제1 화자의 음성 샘플 또는 신호로부터 감정 특징 및 운율 특징을 추출하되, 제2 화자의 음성 샘플 또는 신호(예시: 유명인의 음성)를 수신하고, 수신된 제2 화자의 음성 샘플 또는 신호로부터 음색 및 음높이 특징을 추출할 수 있다. 이렇게 추출된 두 화자의 발성 특징들은 음성 합성 시 인코더(440) 또는 디코더(450) 중 적어도 하나에 제공될 수 있다. 이에 따라, 합성되는 음성에는 제1 화자의 음성 샘플 또는 신호 내에 포함된 음성을 발화한 제1 화자의 감정과 운율이 반영되지만, 제2 화자(예시: 유명인)의 음성 샘플 또는 신호 내에 포함된 음성을 발화한 제2 화자의 음색 및 음높이가 반영될 수 있다.In FIG. 4, speech is synthesized by extracting at least one of emotion feature, prosody feature, or speech and pitch from a speech sample or signal of one speaker, but the present invention is not limited thereto. In another embodiment, at least one of the emotion feature, the rhyme feature, or the speech and pitch may be extracted from the speech samples or signals of the other speaker. For example, the utterance feature extraction unit 410 receives the voice samples or signals of the first speaker, extracts emotion characteristics and rhyme characteristics from the voice samples or signals of the first speaker, Or a signal (e.g., a voice of a celebrity), and extract tone color and pitch characteristics from the speech sample or signal of the received second speaker. The speech characteristics of the two speakers thus extracted may be provided to at least one of the encoder 440 or the decoder 450 during speech synthesis. Accordingly, the synthesized voice reflects the emotion and the rhyme of the first speaker who uttered the voice of the first speaker or the voice contained in the signal, but the voice or voice contained in the signal of the second speaker (e.g., a famous person) The tone and pitch of the second speaker can be reflected.
도 5는 인공 신경망 기반의 텍스트-음성 합성 장치의 구성을 나타내는 도면이다. 5 is a diagram showing a configuration of a text-to-speech synthesizer based on an artificial neural network.
일 실시예에 따르면, 인코더(510)는 텍스트를 발음 정보로 생성하도록 구성될 수 있다. 또한 생성된 발음 정보는 어텐션 모듈를 포함한 디코더(520)에 제공되고, 디코더(520)는 이러한 발음 정보를 음성으로 생성하도록 구성될 수 있다. According to one embodiment, the encoder 510 may be configured to generate text as pronunciation information. The generated pronunciation information may be provided to a decoder 520 including an attention module, and the decoder 520 may be configured to generate such pronunciation information by speech.
인코더(510)는 입력 텍스트를 문자 임베딩(character embedding)로 변환하여 생성할 수 있다. 인코더(510)에서, 생성된 문자 임베딩은 완전연결층(fully-connected layer)을 포함한 프리넷(pre-net)에 통과될 수 있다. 또한, 인코더(510)는 프리넷(pre-net)으로부터의 출력을 CBHG 모듈에 제공하여, 도 5에 도시된 바와 같이, 인코더의 숨겨진 상태들(Encorder hidden states) ei을 출력할 수 있다. 예를 들어, CBHG 모듈은 1차원 컨볼루션 뱅크(1D convolution bank), 맥스 풀링(max pooling), 하이웨이 네트워크(highway network), 양방향 GRU(bidirectional gated recurrent unit)를 포함할 수 있다.The encoder 510 may generate the input text by converting it into character embedding. At encoder 510, the generated character embedding may be passed through a pre-net including a fully-connected layer. In addition, the encoder 510 may provide an output from the pre-net to the CBHG module to output Encorder hidden states e i , as shown in FIG. For example, the CBHG module may include a 1D convolution bank, a max pooling, a highway network, and a bidirectional gated recurrent unit (GRU).
디코더(520)는, 완전연결층으로 구성된 프리넷과 GRU(gated recurrnt unit)로를 포함한 어텐션(attention) RNN(recurrent neural network), 레지듀얼 GRU(residual GRU)를 포함한 디코더 RNN(decoder RNN)을 포함할 수 있다. 예를 들어, 디코더(520)로부터의 출력은 멜스케일 스펙트로그램(mel-scale spectrogram)으로 표현될 수 있다. The decoder 520 includes a decoder RNN (Decoder RNN) including an attention RNN (residual neural network) including a pre-network composed of a fully connected layer and a gated recurnt unit (GRU), and a residual GRU can do. For example, the output from decoder 520 may be represented by a mel-scale spectrogram.
디코더(520)의 어텐션 RNN 및 디코더 RNN은 음성의 화자에 해당하는 정보를 수신할 수 있다. 예를 들어 디코더(520)는 원-핫 화자 ID 벡터(521)를 수신할 수 있다. 디코더(520)는 원-핫 화자 ID 벡터(521)에 기초하여 화자 임베딩 벡터(522)를 생성할 수 있다. 디코더(520)의 어텐션 RNN 및 디코더 RNN은 화자 임베딩 벡터(522)를 수신하여, 주어 화자마다 다르게 출력 음성 데이터를 생성할 수 있도록, 단일 인공 신경망 텍스트-음성 합성 모델을 갱신할 수 있다. The Attention RNN and Decoder RNN of the decoder 520 may receive information corresponding to the speaker of the voice. For example, the decoder 520 may receive the one-hot speaker ID vector 521. Decoder 520 may generate the speaker embedding vector 522 based on the one-hot speaker ID vector 521. [ The Attention RNN and Decoder RNN of the decoder 520 may receive the speaker embedding vector 522 and update the single artificial neural network text-speech synthesis model so that output speech data may be generated differently for different speakers.
또한, 디코더(520)는 인코더(510)와 마찬가지로 단일 인공 신경망 텍스트-음성 합성 모델을 생성 또는 갱신하기 위해서, 입력 텍스트, 화자와 관련된 정보 및 입력 텍스트에 대응되는 음성 신호의 쌍으로 존재하는 데이터베이스를 이용할 수 있다. 디코더(520)는 입력 텍스트, 화자와 관련된 정보를 각각 인공 신경망의 입력으로 하고 해당 입력 텍스트에 대응되는 음성 신호를 정답으로 하여 학습할 수 있다. 디코더(520)는 입력 텍스트와 화자와 관련된 정보를 갱신된 단일 인공 신경망 텍스트-음성 합성 모델에 적용하여, 해당 화자의 음성을 출력할 수 있다.The decoder 520 also includes a database that exists as a pair of speech signals corresponding to the input text, the information associated with the speaker, and the input text, in order to create or update a single artificial neural network text-to- Can be used. The decoder 520 can learn the input text and the information related to the speaker as the input of the artificial neural network and the speech signal corresponding to the input text as the correct answer. The decoder 520 may apply the input text and the information associated with the speaker to the updated single artificial neural network text-speech synthesis model to output the speech of the speaker.
또한, 디코더(520)의 출력은 후처리 프로세서(530)에 제공될 수 있다. 후처리 프로세서(530)의 CBHG는 디코더(520)의 멜 스케일 스펙트로그램을 리니어스케일 스펙트로그램(linear-scale spectrogram)으로 변환하도록 구성될 있다. 예를 들어, 후처리 프로세서(530)의 CBHG의 출력 신호는 매그니튜드 스펙트로그램(magnitude spectrogram)를 포함할 수 있다. 후처리 프로세서(530)의 CBHG의 출력 신호의 위상(phase)은 그리핀-림(Griffin-Lim) 알고리즘을 통해 복원되고, 역 단시간 퓨리어 변환(inverse short-time fourier transform)될 수 있다. 후처리 프로세서(530)는 시간 도메인(time domain)의 음성 신호로 출력할 수 있다.The output of the decoder 520 may also be provided to the post-processor 530. The CBHG of post-processor 530 may be configured to convert the Mel Scale Spectrogram of decoder 520 to a linear-scale spectrogram. For example, the output signal of the CBHG of post-processor 530 may include a magnitude spectrogram. The phase of the output signal of the CBHG of post-processor 530 may be recovered through a Griffin-Lim algorithm and may be inverse short-time fourier transformed. The post-processor 530 may output a voice signal in a time domain.
이러한 인공 신경망 기반의 텍스트-음성 합성 장치는, 텍스트와 음성 신호의 쌍으로 존재하는 대용량의 데이터 베이스를 이용하여 학습될 수 있다. 입력으로 텍스트를 넣고 나온 출력을 해당하는 정답 음성 신호와 비교하여 손실 함수(loss function)를 정의할 수 있다. 텍스트-음성 합성 장치는 손실 함수를 오차 역전파(error back propagation) 알고리즘을 통해 학습하여, 최종적으로 임의의 텍스트를 입력했을 때 원하는 음성 출력이 나오는 단일 인공 신경망 텍스트-음성 합성 모델을 얻을 수 있다. The artificial neural network-based text-to-speech synthesizer can be learned by using a large-capacity database existing as a pair of text and speech signals. A loss function can be defined by comparing the output of the input text with the corresponding speech signal of interest. The text-to-speech synthesizer learns the loss function through an error back propagation algorithm and finally obtains a single artificial neural network text-speech synthesis model in which desired speech output is obtained when arbitrary text is input.
도 6은 본 개시의 일 실시예에 따른 인공 신경망 기반의 텍스트-음성 합성 장치의 구성을 나타내는 도면이다.FIG. 6 is a diagram illustrating a configuration of a text-to-speech synthesizer based on an artificial neural network according to an embodiment of the present disclosure.
도 6에서, 도 5에서 설명된 내용과 중복되는 내용은 생략된다. 도 6의 디코더(620)는 인코더(610)로부터 인코더의 숨겨진 상태들 ei를 수신할 수 있다. 또한, 도 6의 디코더(620)는 도 5의 디코더(520)와 다르게 화자의 음성 데이터(621)를 수신할 수 있다. 여기서 음성 데이터(621)는 미리 결정된 시간 구간(짧은 시간 구간, 예를 들어 수초, 수십초 또는 수십분) 내에 화자로부터 입력된 음성을 나타내는 데이터를 포함할 수 있다. 예를 들어, 화자의 음성 데이터(621)는 음성 스펙트로그램 데이터(예를 들어, log-mel-spectrogram)를 포함할 수 있다. 디코더(620)는 화자의 음성 데이터에 기초하여 화자의 발성 특징을 나타내는 화자의 발성특징 임베딩 벡터(622)를 획득할 수 있다. 디코더(620)는 화자의 발성특징 임베딩 벡터(622)를 어텐션 RNN 및 디코더 RNN에 제공될 수 있다.In FIG. 6, the contents overlapping with those described in FIG. 5 are omitted. The decoder 620 of FIG. 6 may receive the hidden states e i of the encoder from the encoder 610. In addition, the decoder 620 of FIG. 6 can receive the speaker's voice data 621 differently from the decoder 520 of FIG. Here, the voice data 621 may include data representing voice inputted from the speaker within a predetermined time period (a short time period, for example, several seconds, tens seconds, or tens of minutes). For example, the speech data 621 of the speaker may include speech spectrogram data (e.g., a log-mel-spectrogram). The decoder 620 may obtain a speech feature embedding vector 622 of the speaker that represents the speech feature of the speaker based on the speech data of the speaker. Decoder 620 may be provided to the Attention RNN and Decoder RNN with the Speech Feature Embedding Vector 622 of the Speaker.
도 5에 도시된 텍스트-음성 합성 시스템은, 화자의 발성 특징을 나타내는 정보로서 화자(speaker) ID를 사용하고, 이러한 화자 ID는 원-핫 벡터 (single-hot vector)로서 표현될 수 있다. 다만, 이러한 원-핫 화자 ID 벡터는 학습 데이터에 없는 새로운 화자에 대한 ID를 쉽게 확장할 수 없다. 이러한 텍스트-음성 합성 시스템은 원-핫 벡터로 표현된 화자에 대해서만 임베딩을 학습했으므로 새로운 화자의 임베딩을 얻을 수 있는 방법이 없다. 새로운 화자의 음성을 생성하려면 전체 TTS 모델을 재학습하거나 TTS 모델의 임베디드 레이어를 미세 조정해야 한다. 이러한 작업은 GPU가 장착된 장비를 이용하는 경우 시간이 많이 소요되는 프로세스에 해당된다. 이에 반하여, 도 6에 도시된 텍스트-음성 합성 시스템은, 새로운 화자 벡터를 생성하기 위하여 TTS 모델을 추가로 학습하거나 화자 임베딩 벡터를 수동으로 검색하는 것 없이 새로운 화자의 음성을 즉시 생성할 수 있는 TTS 시스템을 제공한다. 즉, 텍스트-음성 합성 시스템은 복수의 화자에 적응적으로 변경된 음성을 생성할 수 있다.The text-to-speech synthesis system shown in Fig. 5 uses a speaker ID as information indicating a speaker's utterance characteristic, and the speaker ID can be expressed as a single-hot vector. However, this one-hot speaker ID vector can not easily expand the ID for a new speaker that is not in the learning data. Since the text-to-speech synthesis system learned embedding only for the speaker represented by the one-hot vector, there is no way to obtain a new speaker's embedding. To generate a new speaker's voice, you must re-learn the entire TTS model or fine-tune the embedded layer of the TTS model. This is a time-consuming process when using GPU-equipped equipment. On the other hand, the text-to-speech synthesis system shown in FIG. 6 is a system for generating a new speaker vector by adding a TTS model capable of instantly generating a new speaker's voice without learning additional TTS models or manually searching a speaker embedding vector. System. That is, the text-to-speech synthesis system can generate speech adaptively changed to a plurality of speakers.
일 실시예에 따르면, 도 6에서는 입력 텍스트에 대한 음성 합성 시, 제1 화자의 음성 데이터(621)로부터 추출된 제1 화자의 발성특징 임베딩 벡터(622)가 디코더 RNN 및 어텐션 RNN에 입력되도록 구성되어 있으나, 도 5에서 도시된 제2 화자의 원-핫 화자 ID 벡터(521)도 함께 디코더 RNN 및 어텐션 RNN에 입력될 수 있다. 예를 들어, 발성특징 임베딩 벡터(622)와 연관된 제1 화자와 원-핫 화자 ID 벡터(521)와 연관된 제2 화자는 동일할 수 있다. 또 다른 예로서, 발성특징 임베딩 벡터(622)와 연관된 제1 화자와 원-핫 화자 ID 벡터(521)와 연관된 제2 화자는 상이할 수 있다. 이에 따라, 입력 텍스트에 대한 음성 합성 시, 제1 화자의 발성특징 임베딩 벡터(622) 및 제2 화자의 원-핫 화자 ID 벡터(521)가 함께 디코더 RNN 및 어텐션 RNN에 입력됨으로써, 입력 텍스트에 대응되는 제2 화자의 음성에 제1 화자의 발성특징 임베딩 벡터(622)에 포함된 운율 특징, 감정 특징, 또는 음색 및 음높이 특징 중 적어도 하나의 특징이 반영된 합성 음성이 생성될 수 있다. 즉, 원-핫 화자 ID 벡터(521)와 연관된 제2 화자의 목소리에 제1 화자의 발성 특징, 즉, 운율 특징, 감정 특징, 또는 음색 및 음높이 특징 중 적어도 하나의 특징이 반영된 합성 음성이 생성될 수 있다. According to one embodiment, in the speech synthesis for the input text, the speech characteristic embedding vector 622 of the first speaker extracted from the speech data 621 of the first speaker is input to the decoder RNN and the attention RNN , But the circle-hot speaker ID vector 521 of the second speaker shown in FIG. 5 may also be input to the decoder RNN and the attention RNN. For example, the first speaker associated with the vocal feature embedding vector 622 and the second speaker associated with the one-hot speaker ID vector 521 may be the same. As another example, the first speaker associated with the vocal feature embedding vector 622 and the second speaker associated with the one-hot speaker ID vector 521 may be different. Accordingly, at the time of speech synthesis for the input text, the voiced feature embedding vector 622 of the first speaker and the one-hot speaker ID vector 521 of the second speaker are input to the decoder RNN and the attention RNN together, A synthesized voice in which at least one characteristic of a rhyme characteristic, an emotion characteristic, or a tone color and a pitch characteristic included in the voicing characteristic embedding vector 622 of the first speaker is reflected to the voice of the corresponding second speaker. That is, a synthesized voice in which at least one characteristic of the first speaker's vocal characteristic, that is, a prosodic characteristic, an emotional characteristic, or a tone and pitch characteristic is reflected, is generated in the voice of the second speaker associated with the one-hot speaker ID vector 521 .
도 7는 본 개시의 일 실시예에 따른 복수의 화자의 각각을 구분할 수 있는 임베딩 벡터(622)를 추출하는 네트워크를 나타내는 도면이다. 7 is a diagram illustrating a network that extracts an embedded vector 622 that can identify each of a plurality of speakers in accordance with one embodiment of the present disclosure.
일 실시예에 따르면, 도 6에 도시된 네트워크는 컨볼루션 네트워크(convulutional network) 및 맥스 오버 타임 풀링(max over time pooling)를 포함하고, log-Mel-spectrogram을 입력받아서 음성 샘플 또는 음성 신호로서 고정 차원 화자 임베딩 벡터를 추출할 수 있디. 여기서, 음성 샘플 또는 음성 신호는, 입력 텍스트에 해당하는 음성 데이터일 필요가 없으며 임의로 선택된 음성신호가 사용될 수 있다. According to one embodiment, the network shown in FIG. 6 includes a convolutional network and a max-over-time pooling, receives a log-Mel-spectrogram and stores it as a speech sample or voice signal You can extract the dimension speaker embedding vector. Here, the speech sample or speech signal does not need to be speech data corresponding to the input text, and a speech signal that is arbitrarily selected may be used.
이러한 네트워크에서, 스펙트로그램이 이용되는데 제약이 없기 때문에 임의의 스펙트로그램이 이 네트워크에 삽입될 수 있다. 또한, 이를 통해 네트워크의 즉각적인 적응을 통해 새로운 화자를 위한 발성 특징을 나타내는 임베딕 벡터(622)을 생성할 수 있다. 입력 스펙트로그램은 다양한 길이를 가질 수 있지만, 예를 들어, 시간 축에 대해 길이가 1인 고정된 차원 벡터가 컨볼루션 레이어 끝단에 위치한 max-over-time 풀링 레이어에 입력될 수 있다. In such a network, any spectrogram can be inserted into this network since there is no restriction on the use of the spectrogram. In addition, through this instant adaptation of the network, it is possible to generate an implicit vector 622 that represents a speech feature for a new speaker. An input spectrogram can have various lengths, for example, a fixed dimension vector of length 1 for the time axis can be input to the max-over-time pooling layer located at the end of the convolution layer.
도 7에서는 컨볼루션 네트워크(convulutional network) 및 맥스 오버 타임 풀링(max over time pooling)을 포함한 네트워크를 도시하고 있으나, 화자의 발성 특징을 추출하기 위하여 다양한 층을 포함한 네트워크를 구축할 수 있다. 예를 들어, 화자의 발성 특징 중 억양과 같이 시간에 따른 음성 특징 패턴의 변화를 나타내는 경우 RNN(Recurrent neural network)을 사용하여 특징을 추출하도록 네트워크를 구현할 수 있다. Although FIG. 7 illustrates a network including a convolutional network and a max over time pooling, a network including various layers can be constructed to extract a speaker's utterance characteristic. For example, if the speech characteristic pattern changes over time, such as the intonation of the speaker's speech characteristics, the network can be implemented to extract features using the RNN (Recurrent Neural Network).
도 8은 본 개시의 일 실시예에 따른 인공 신경망 기반의 텍스트-음성 합성 장치의 구성을 나타내는 도면이다. 도 8의 텍스트-음성 합성 장치에 대한 설명 중 도 5 또는 도 6의 텍스트-음성 합성 장치와 중복되는 설명은 생략한다.FIG. 8 is a diagram illustrating a configuration of a text-to-speech synthesizer based on an artificial neural network according to an embodiment of the present disclosure. The description of the text-to-speech synthesizing apparatus of FIG. 8 is omitted from the description of the text-to-speech synthesizing apparatus of FIG. 5 or 6.
도 8에 있어서, 인코더(810)는 입력 텍스트를 수신할 수 있다. 예를 들어, 인코더(810)는 입력 텍스트는 복수의 언어로 되어 있을 수 있다. 일 실시예에 따르면, 입력 텍스트는 하나 이상의 언어에서 사용되는 단어, 문구 또는 문장 중 적어도 하나를 포함할 수 있다. 예를 들어, "안녕하세요" 등과 같은 한국어 문장 또는 "How are you?" 등과 같은 영어 문장과 같은 텍스트를 입력받을 수 있다. 입력 텍스트가 수신되면, 인코더(810)는 수신된 입력 텍스트를 자모단위, 글자단위, 음소(phoneme) 단위로 분리할 수 있다. 다른 실시예에 따르면, 인코더(810)는 자모단위, 글자단위, 음소(phoneme) 단위로 분리된 입력 텍스트를 수신할 수 있다. 또 다른 실시예에 따르면, 인코더(810)는 입력 텍스트에 대한 글자 임베딩을 수신할 수 있다.In Fig. 8, the encoder 810 may receive the input text. For example, the encoder 810 may have input text in multiple languages. According to one embodiment, the input text may include at least one of words, phrases or sentences used in one or more languages. For example, a Korean sentence such as "Hello" or "How are you?" Such as an English sentence, can be input. When the input text is received, the encoder 810 can separate the received input text into alphabet, letter, and phoneme units. According to another embodiment, the encoder 810 may receive input text separated in alphabet, letter, and phoneme units. According to another embodiment, the encoder 810 may receive the character embedding for the input text.
인코더(810)가 입력 텍스트 또는 분리된 입력 텍스트를 수신한 경우, 인코더(810)는 적어도 하나의 임베딩 레이어를 생성하도록 구성될 수 있다. 일 실시예에 따르면, 인코더(810)의 적어도 하나의 임베딩 레이어는 자모단위, 글자단위, 음소(phoneme)단위로 분리된 입력 텍스트에 기초하여 글자 임베딩을 생성할 수 있다. 예를 들어, 인코더(810)는 분리된 입력 텍스트에 기초하여 글자 임베딩을 획득하기 위하여 이미 학습된 기계 학습 모델(예를 들어, 확률 모델 또는 인공신경망 등)을 사용할 수 있다. 나아가, 인코더(810)는 기계 학습을 수행하면서 기계 학습 모델을 갱신할 수 있다. 기계 학습 모델이 갱신되는 경우, 분리된 입력 텍스트에 대한 글자 임베딩도 변경될 수 있다.If the encoder 810 receives the input text or the separate input text, the encoder 810 may be configured to generate at least one embedded layer. According to one embodiment, at least one embedded layer of the encoder 810 may generate character embedding based on input text separated in alphabet, character, and phoneme units. For example, the encoder 810 may use an already learned machine learning model (e.g., a probabilistic model or an artificial neural network) to obtain character embedding based on the separated input text. Further, the encoder 810 may update the machine learning model while performing machine learning. If the machine learning model is updated, the character embedding for the discrete input text can also be changed.
인코더(810)는 글자 임베딩을 완전연결층(fully-connected layer)으로 구성된 DNN(Deep Neural Network) 모듈에 통과시킬 수 있다. DNN은 일반적인 피드포워드 레이어(feedforward layer) 또는 선형 레이어(linear layer)를 포함할 수 있다. The encoder 810 may pass the character embedding to a Deep Neural Network (DNN) module configured as a fully-connected layer. DNNs may include a general feedforward layer or a linear layer.
인코더(810)는 DNN의 출력을 CNN(convolutional neural network) 또는 RNN(Recurrent Neural Network) 중 적어도 하나가 포함된 모듈에 제공할 수 있다. 또한, 인코더(810)는 디코더(820)에서 화자 음성 데이터에 기초하여 생성된 화자의 발성 특징 임베딩 벡터(s)를 수신할 수 있다. CNN은 컨볼루션 커널(convolution kernel) 사이즈에 따른 지역적 특성을 포착할 수 있는 반면에, RNN은 장기 의존성(long term dependency)을 포착할 수 있다. 인코더(810)는 DNN의 출력 및 화자의 발성 특징 임베딩 벡터(s)를 CNN 또는 RNN 중 적어도 하나에 입력하여 인코더(810)의 숨겨진 상태들(h)을 출력할 수 있다.The encoder 810 may provide the output of the DNN to a module including at least one of a convolutional neural network (CNN) or a recurrent neural network (RNN). The encoder 810 may also receive the speech feature embedding vector s of the speaker generated based on the speaker speech data at the decoder 820. [ CNN can capture local characteristics according to the convolution kernel size, while RNN can capture long term dependency. The encoder 810 may output the output of the DNN and the speech feature embedding vector s of the speaker into at least one of the CNN or the RNN to output the hidden states h of the encoder 810. [
디코더(820)는 화자의 음성 데이터를 수신할 수 있다. 디코더(820)는 화자 음성 데이터에 기초하여 화자의 발성 특징 임베딩 벡터(s)를 생성할 수 있다. 임베딩 레이어는 화자의 음성 데이터를 수신할 수 있다. 임베딩 레이어는 화자의 음성 데이터에 기초하여 화자의 발성 특징을 생성할 수 있다. 여기서, 화자의 발성 특징은 개인별로 다른 특징을 가질 수 있다. 임베딩 레이어는 예를 들어, 기계 학습에 기초하여 화자 별 발성 특징을 구별할 수 있다. 예를 들어, 임베딩 레이어는 화자의 발성 특징을 나타내는 화자의 발성 특징 임베딩 벡터(s)를 생성할 수 있다. 일 실시예에 따르면, 디코더(820)는 화자의 발성 특징을 화자의 발성 특징 임베딩 벡터(s)로 변환하기 위하여 이미 학습된 기계 학습 모델을 사용할 수 있다. 디코더는 기계 학습을 수행하면서 기계 학습 모델을 갱신할 수 있다. 기계 학습 모델이 갱신되는 경우, 화자의 발성 특징을 나타내는 화자의 발성 특징 임베딩 벡터(s)도 변경될 수 있다. 예를 들어, 전술한 도 7의 음성 추출 네트워크를 이용하여 수신된 화자의 음성 데이터로부터 화자의 발성 특징을 추출될 수 있다. Decoder 820 can receive speech data of the speaker. The decoder 820 may generate the speech feature embedding vector s of the speaker based on the speaker speech data. The embedding layer can receive speech data of the speaker. The embedding layer can generate the speech characteristics of the speaker based on the speech data of the speaker. Here, the speaker's utterance characteristic may have different characteristics for each individual. The embedding layer may, for example, distinguish speaker perceptual features based on machine learning. For example, the embedding layer may generate a speech feature embedding vector (s) of the speaker that represents the speech feature of the speaker. According to one embodiment, the decoder 820 may use the already learned machine learning model to transform the speaker's speech characteristics into the speaker's speech feature embedding vector s. The decoder can update the machine learning model while performing machine learning. When the machine learning model is updated, the speech characteristic embedding vector (s) of the speaker representing the speech characteristic of the speaker can also be changed. For example, the utterance characteristic of the speaker can be extracted from the voice data of the speaker received using the voice extracting network of Fig. 7 described above.
화자의 발성 특징 임베딩 벡터(s)는 인코더(810)의 CNN 또는 RNN 중 적어도 하나로 출력될 수 있다. 또한 화자의 발성 특징 임베딩 벡터(s)는 디코더의 디코더 RNN 및 어텐션 RNN으로 출력될 수 있다.The speaker's vocal feature embedding vector s may be output to at least one of the CNN or RNN of the encoder 810. Also, the speech characteristic embedding vector (s) of the speaker can be output to the decoder RNN and the attention RNN of the decoder.
디코더(820)의 어텐션(attention)은 인코더(810)로부터 인코더의 숨겨진 상태들(h)을 수신할 수 있다. 숨겨진 상태들(h)은 인코더(810)의 기계 학습 모델로부터의 결과값을 나타낼 수 있다. 예를 들어 숨겨진 상태들(h)은 본 개시의 일 실시예에 따른 단일 인공 신경망 텍스트-음성 합성 모델의 일부 구성 요소를 포함할 수 있다. 또한 디코더(820)의 어텐션은 어텐션 RNN으로부터 정보를 수신할 수 있다. 어텐션 RNN으로부터 수신한 정보는 디코더(820)가 이전 시간-단계(time-step)까지 어떤 음성을 생성했는지에 대한 정보를 포함할 수 있다. 또한 디코더(820)의 어텐션은 어텐션 RNN으로부터 수신한 정보 및 인코더의 정보에 기초하여 컨텍스트 벡터를 출력할 수 있다. 인코더(810)의 정보는 음성을 생성해야 할 입력 텍스트에 대한 정보를 포함할 수 있다. 컨텍스트 벡터는 현재 시간-단계(time-step)에서 입력 텍스트 중 어떤 부분으로부터 음성을 생성할지 결정하기 위한 정보를 포함할 수 있다. 예를 들어, 디코더(820)의 어텐션은 음성 생성의 초반에는 입력 텍스트의 앞부분에 기초하여 음성을 생성하고, 음성이 생성되어 감에 따라, 점점 입력 텍스트의 뒷부분에 기초하여 음성을 생성하도록 하는 정보를 출력할 수 있다.The attention of the decoder 820 may receive the hidden states h of the encoder from the encoder 810. The hidden states (h) may represent the results from the machine learning model of the encoder (810). For example, hidden states (h) may include some elements of a single artificial neural network text-speech synthesis model according to one embodiment of the present disclosure. Also, the attentions of the decoder 820 may receive information from the Attention RNN. The information received from the Attention RNN may include information on what speech the decoder 820 has generated up to the previous time-step. The attitude of the decoder 820 can also output the context vector based on the information received from the Attention RNN and the information of the encoder. The information of the encoder 810 may include information on the input text to generate the voice. The context vector may include information for determining which portion of the input text is to be generated at the current time-step (time-step). For example, the attentions of the decoder 820 may include information for generating a speech based on the beginning of the input text at the beginning of speech generation and for generating a speech based on the later part of the input text as the speech is generated Can be output.
디코더(820)는 화자의 발성 특징 임베딩 벡터(s)를 어텐션(attention) RNN 및 디코더(decoder) RNN에 입력하여, 화자 마다 다르게 디코딩을 하도록 인공 신경망의 구조를 구성할 수 있다. 일 실시예에 따르면, 텍스트-음성 합성 시스템은 인공 신경망을 학습하기 위해, 텍스트, 화자의 발성 특징 임베딩 벡터(s), 음성 신호의 쌍으로 존재하는 데이터베이스를 이용할 수 있다. 다른 실시예에서, 도 5에서 설명드린 바와 같이, 화자의 발성 특징을 나타내는 화자의 발성 특징 임베딩 벡터(s) 대신에 원-핫 벡터를 사용하여 데이터베이스가 구축될 수 있다. 또는, 화자의 발성 특징 임베딩 벡터(s)와 원-핫 벡터가 함께 사용되어 데이터베이스가 구축될 수 있다.The decoder 820 may configure the structure of the artificial neural network to input the speech feature embedding vector s of the speaker to the attention RNN and the decoder RNN to decode differently for each speaker. According to one embodiment, a text-to-speech synthesis system can use a database that exists as a pair of speech, speech, and speech signals, a speech, a speech, a speech, to learn an artificial neural network. In another embodiment, the database may be constructed using a one-hot vector instead of the speaker's vocal feature embedding vector (s), which describes the speaker's vocal characteristics, as described in FIG. Alternatively, the speech characteristic embedding vector (s) of the speaker and the one-hot vector may be used together to construct a database.
더미 프레임들은 이전 시간-단계(time-step)가 존재하지 않는 경우 디코더에 입력되는 프레임이다. RNN은 자동-회귀(autoregressive)로 기계학습을 할 수 있다. 즉, 직전 시간-단계(822)에서 출력된 r 프레임은 현재 시간-단계(823)의 입력이 될 수 있다. 최초 시간-단계(821)에서는 직전 시간-단계가 있을 수 없으므로, 디코더(820)는 최초 시간-단계의 기계 학습 네트워크에 더미 프레임을 입력할 수 있다.The dummy frames are frames that are input to the decoder if no previous time-step is present. RNNs can do machine learning with autoregressive. That is, the r frame output in the immediately preceding time-step 822 may be the input of the current time-step 823. In the initial time-step 821, since there can not be an immediately preceding time-step, the decoder 820 can input the dummy frame into the original time-step machine learning network.
일 실시예에 따르면, 디코더(820)는 완전연결층(fully-connected layer)으로 구성된 DNN을 포함할 수 있다. DNN은 일반적인 피드포워드 레이어(feedforward layer) 또는 선형 레이어(linear layer) 중 적어도 하나를 포함할 수 있다. According to one embodiment, the decoder 820 may include a DNN configured as a fully-connected layer. The DNN may include at least one of a general feedforward layer or a linear layer.
일 실시예에서, 디코더(820)는 GRU로 구성된 어텐션(attention) RNN을 포함할 수 있다. 어텐션 RNN은 어텐션에서 사용될 정보를 출력하는 레이어이다. 어텐션에 대해서는 위에서 이미 설명되었으므로 자세한 설명은 생략한다.In one embodiment, decoder 820 may include an attention RNN configured with a GRU. Attention RNN is a layer that outputs information to be used in Attention. Attention is already described above, so a detailed explanation is omitted.
디코더(820)는 레지듀얼(residual) GRU로 구성된 디코더(decoder) RNN을 포함할 수 있다. 디코더 RNN은 어텐션으로부터 입력 텍스트의 위치 정보를 수신할 수 있다. 즉, 위치 정보는 디코더(820)가 입력 텍스트의 어떤 위치를 음성으로 변환하고 있는지에 관한 정보를 포함할 수 있다. 디코더 RNN은 어텐션 RNN으로부터 정보를 수신할 수 있다. 어텐션 RNN으로부터 수신한 정보는 디코더(820)가 이전 시간-단계(time-step)까지 어떤 음성을 생성했는지에 대한 정보를 포함할 수 있다. 디코더 RNN은 지금까지 생성한 음성에 이어질 다음 출력 음성을 생성할 수 있다. 예를 들어, 출력 음성은 멜 스펙트로그램 형태를 가질 수 있으며, 출력 음성은 r개의 프레임을 포함할 수 있다. Decoder 820 may include a decoder RNN configured with a residual GRU. The decoder RNN may receive location information of the input text from the Attention. That is, the location information may include information about which location of the input text the decoder 820 is converting to speech. The decoder RNN may receive information from the Attention RNN. The information received from the Attention RNN may include information on what speech the decoder 820 has generated up to the previous time-step. The decoder RNN can generate the next output speech that will follow the speech generated so far. For example, the output speech may have a mel-spectrogram shape, and the output speech may include r frames.
텍스트-음성 합성을 위하여 DNN, 어텐션 RNN 및 디코더 RNN의 동작은 반복적으로 수행될 수 있다. 예를 들어, 최초 시간-단계(821)에서 획득된 r개의 프레임은 다음 시간-단계(822)의 입력이 될 수 있다. 또한 시간-단계(822)에서 출력된 r개의 프레임은 다음 시간-단계(823)의 입력이 될 수 있다.The operation of the DNN, the Attention RNN and the Decoder RNN may be repeatedly performed for text-to-speech synthesis. For example, the r frames obtained in the initial time-step 821 may be the inputs of the next time-step 822. Also, the r frames output in the time-step 822 may be the inputs of the next time-step 823.
상술한 바와 같은 과정을 통하여 텍스트의 모든 단위에 대한 음성이 생성될 수 있다. 일 실시예에 따르면, 텍스트-음성 합성 시스템은 각각의 시간-단계마다 나온 멜 스펙트로그램을 시간 순으로 연결(concatenate)하여 전체 텍스트에 대한 멜 스펙트로그램의 음성을 획득할 수 있다. 전체 텍스트에 대한 멜 스펙트로그램의 음성은 보코더(830)로 출력될 수 있다.Through the above-described process, speech for all units of text can be generated. According to one embodiment, the text-to-speech synthesis system may concatenate mel-spectrograms for each time-step in chronological order to obtain the speech of the mel-spectrogram for the entire text. The voice of the mel spectrogram for the entire text can be output to the vocoder 830. [
본 개시의 일 실시예에 따른 보코더(830)의 CNN 또는 RNN은 인코더(810)의 CNN 또는 RNN과 유사한 동작을 할 수 있다. 즉, 보코더(830)의 CNN 또는 RNN은 지역적 특성과 장기 의존성을 포착할 수 있다. 이에 따라, 보코더(830)의 CNN 또는 RNN은 선형-스케일 스펙트로그램(linear-scale spectrogram)을 출력할 수 있다. 예를 들어, 선형-스케일 스펙트로그램은 크기 스펙트로그램(magnitude spectrogram)를 포함할 수 있다. 보코더(830)는 도 8에 도시된 바와 같이, 스펙트로그램의 위상(phase)을 Griffin-Lim 알고리즘을 통해 예측할 수 있다. 보코더(830)는 역 단기 푸리에 변환(Inverse Short-Time Fourier Transform)을 이용하여 시간 도메인(time domain)의 음성 신호를 출력할 수 있다.The CNN or RNN of the vocoder 830 in accordance with an embodiment of the present disclosure may be similar to the CNN or RNN of the encoder 810. [ That is, the CNN or RNN of vocoder 830 can capture local characteristics and long-term dependencies. Accordingly, the CNN or RNN of the vocoder 830 may output a linear-scale spectrogram. For example, a linear-scale spectrogram may include a magnitude spectrogram. The vocoder 830 can predict the phase of the spectrogram through the Griffin-Lim algorithm, as shown in FIG. The vocoder 830 may output a time domain voice signal using Inverse Short-Time Fourier Transform.
본 개시의 다른 실시예에 따른 보코더는 기계학습모델에 기초하여 멜 스펙트로그램으로부터 음성 신호를 생성할 수 있다. 기계학습모델은 멜 스펙트로그램과 음성 신호 사이의 상관 관계를 기계학습한 모델을 포함할 수 있다. 예를 들어 WaveNet 또는 WaveGlow 등과 같은 인공 신경망 모델이 사용될 수 있다.A vocoder in accordance with another embodiment of the present disclosure may generate a speech signal from a melrospectogram based on a machine learning model. The machine learning model can include a machine-learned model of the correlation between the mel-spectrogram and the speech signal. For example, an artificial neural network model such as WaveNet or WaveGlow may be used.
이러한 인공 신경망 기반의 음성 합성 장치는, 하나 이상의 언어로 이루어진 텍스트와 음성 신호의 쌍으로 존재하는 대용량의 데이터 베이스를 이용하여 학습된다. 일 실시예에 따르면, 음성 합성 장치는 텍스트를 수신하고, 출력된 음성 신호를 정답 음성 신호와 비교하여 손실 함수(loss function)을 정의할 수 있다. 음성 합성 장치는 손실 함수를 오차 역전파 (error back propagation) 알고리즘을 통해 학습하여, 최종적으로 임의의 텍스트를 입력했을 때 원하는 음성 출력이 나오는 인공 신경망을 얻을 수 있다. The artificial neural network-based speech synthesizer is learned by using a large-capacity database existing in a pair of text and speech signals in one or more languages. According to one embodiment, the speech synthesis apparatus can receive the text and compare the output speech signal with the correct speech signal to define a loss function. The speech synthesis apparatus learns the loss function through an error back propagation algorithm and finally obtains an artificial neural network in which desired speech output is obtained when arbitrary text is input.
이러한 인공 신경망 기반의 음성 합성 장치에서, 텍스트, 화자의 발성 특징 등이 인공 신경망에 입력되어 음성 신호가 출력될 수 있다. 텍스트-음성 합성 장치는 출력된 음성 신호와 정답 음성 신호를 비교하여 학습함으로써, 텍스트와 화자의 발성 특징을 수신할 때 해당 화자의 음성으로 텍스트를 읽은 출력 음성 데이터를 생성할 수 있다.In this artificial neural network-based speech synthesis apparatus, text, speech characteristics of a speaker, and the like can be input to an artificial neural network and a speech signal can be output. The text-to-speech synthesizer can generate output speech data in which the text is read by the speech of the speaker when the speech and the speech signal of the speaker are compared by learning the output speech signal and the correct speech signal.
도 9은 본 개시의 일 실시예에 따른 발성 특징 조절부(900)의 동작을 나타낸 흐름도이다.9 is a flowchart illustrating an operation of the utterance feature adjuster 900 according to an embodiment of the present disclosure.
도 8의 발성 특징 조절부(900)는 도 2의 발성 특징 조절부(220)의 동일 또는 유사한 구성을 포함할 수 있다. 도 2와 중복되는 설명은 생략한다.The vocal feature adjuster 900 of FIG. 8 may include the same or similar configuration of the vocal feature adjuster 220 of FIG. The description overlapping with FIG. 2 is omitted.
발성 특징 조절부(900)는 화자 정보를 나타내는 임베딩 벡터를 수신할 수 있다. 일 실시예에 따르면, 이러한 임베딩 벡터는 화자의 발성 특징에 대한 임베딩 벡터를 포함할 수 있다. 예를 들어, 화자 정보에 대한 임베딩 벡터는 화자의 발성 특징 중 서로 직교하는 복수의 서브 임베딩 벡터의 가중합으로 나타낼 수 있다. The utterance feature adjuster 900 may receive an embedding vector indicating speaker information. According to one embodiment, such an embedding vector may include an embedding vector for the speech feature of the speaker. For example, the embedding vector for the speaker information can be expressed as a weighted sum of a plurality of sub-embedding vectors orthogonal to each other among the speaker's utterance characteristics.
발성 특징 조절부(900)는 수신된 화자 정보에 대한 임베딩 벡터의 내재 요소를 분리할 수 있다. 예를 들어 발성 특징 조절부(900)는 화자 정보에 대한 임베딩 벡터에 기초하여 서로 직교하는 복수의 단위 임베딩 벡터를 획득할 수 있다. 일 실시예에 따르면, 임베딩 벡터에 내재된 요소를 분리하는 방법으로는 ICA (independent component analysis), IVA (independent vector analysis), sparse coding, IFA (independent factor analysis), ISA (independent subspace analysis), NMF (nonnegative matrix factorization) 등 다양한 방법이 있을 수 있다. 그리고 임베딩 벡터에 내재된 요소들이 분리가 될 수 있도록, 텍스트-음성 합성 장치는 화자 정보에 대한 임베딩 벡터를 학습할 때 텍스트-음성 합성 장치의 학습식에 정규화(regularization)를 수행할 수 있다. 텍스트-음성 합성 장치가 학습식에 정규화를 수행하여 기계학습을 하는 경우, 임베딩 벡터는 희소 벡터(sparse vector)로 학습될 수 있다. 이에 따라, 텍스트-음성 합성 장치는 희소 벡터로 학습된 임베딩 벡터에서, PCA(principle component analysis)를 이용하여, 내재된 요소를 정확하게 분리할 수 있다.The utterance feature adjuster 900 may separate the embedded elements of the embedding vector with respect to the received speaker information. For example, the utterance feature adjuster 900 may obtain a plurality of unit embedding vectors that are orthogonal to each other based on an embedding vector for speaker information. According to one embodiment, the method of separating the elements embedded in the embedding vector includes independent component analysis (ICA), independent vector analysis (IVA), sparse coding, independent factor analysis (IFA), independent subspace analysis (nonnegative matrix factorization). The text-to-speech synthesizer can perform regularization on the learning expression of the text-to-speech synthesizer when learning the embedding vector for the speaker information so that the elements inherent in the embedding vector can be separated. When a text-to-speech synthesizer performs machine learning by performing normalization on a learning expression, the embedding vector can be learned by a sparse vector. Accordingly, the text-to-speech synthesis apparatus can correctly separate the inherent elements by using principle component analysis (PCA), in an embedded vector learned with a sparse vector.
일 실시예에 따르면, 발성 특징 조절부(900)는 출력 음성 데이터에 대한 추가적인 입력을 수신하도록 구성될 수 있다. 발성 특징 조절부(900)는 추가적인 입력에 기초하여 화자의 발성 특징을 나타내는 임베딩 벡터를 수정할 수 있다. 예를 들어, 발성 특징 조절부(900)는 추가적인 입력에 기초하여 복수의 단위 임베딩 벡터에 대한 가중치를 변경할 수 있다. According to one embodiment, the utterance feature adjuster 900 may be configured to receive additional input to the output voice data. The utterance feature adjuster 900 may modify an embedding vector that indicates a speaker's utterance characteristics based on additional input. For example, the utterance feature adjuster 900 may change the weights for the plurality of unit embedding vectors based on the additional input.
일 실시예에서, 발성 특징 조절부(900)는 수신된 추가적인 입력을 기초로 화자의 발성 특징을 나타내는 임베딩 벡터를 수정하도록 구성될 수 있다. 예를 들어, 발성 특징 조절부(900)는 추가적인 입력에 따라 변경된 가중치를 복수의 단위 임베딩 벡터에 곱하여 더함으로써, 화자 정보에 대한 임베딩 벡터를 재합성할 수 있다. 발성 특징 조절부(900)는 변경된 화자 정보에 대한 임베딩 벡터를 출력할 수 있다. 텍스트-음성 합성 장치는 수정된 임베딩 벡터를 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 출력 음성 데이터를 추가적인 입력에 포함된 정보가 반영된 입력 텍스트에 대한 음성 데이터로 변환할 수 있다.In one embodiment, the utterance feature adjuster 900 may be configured to modify an embedding vector that indicates a speaker's utterance characteristics based on the received additional input. For example, the utterance characteristic adjuster 900 may re-synthesize an embedding vector for speaker information by multiplying a plurality of unit embedding vectors by a modified weight according to an additional input. The utterance characteristic adjuster 900 may output an embedding vector for the changed speaker information. The text-to-speech synthesizer can input the modified embedding vector into a single artificial neural network text-to-speech synthesis model, and convert the output speech data into speech data for the input text in which the information included in the additional input is reflected.
도 10은 본 개시의 일 실시예에 따라 출력 음성의 특성을 변경하는 사용자 인터페이스의 예시를 나타낸다.10 illustrates an example of a user interface that alters the characteristics of the output speech in accordance with one embodiment of the present disclosure.
텍스트-음성 합성 장치는 사용자로부터 텍스트 창에 입력된 텍스트를 수신할 수 있다. 도 10에 도시된 재생버튼이 선택되는 경우(예를 들어, 터치되거나 눌러지는 경우), 텍스트-음성 합성 장치는 입력된 텍스트에 대응되는 출력 음성 데이터를 생성하여 사용자 인터페이스를 포함하고 있는 사용자 단말기로 제공할 수 있다. The text-to-speech synthesizer can receive text entered from the user into the text window. When the reproduction button shown in FIG. 10 is selected (for example, when it is touched or touched), the text-to-speech synthesizer generates output speech data corresponding to the input text and transmits it to a user terminal .
텍스트-음성 합성 장치는 사용자로부터 추가적인 입력을 수신할 수 있다. 출력 음성 데이터에 대한 추가적인 입력은, 성별에 대한 정보, 연령에 대한 정보, 지역별 억양에 대한 정보, 발성의 속도에 대한 정보 또는 음 높이 및 발성의 크기에 대한 정보 중 적어도 하나를 포함할 수 있다.The text-to-speech synthesizer may receive additional input from the user. Additional inputs to the output voice data may include at least one of information about gender, information about age, information about the intonation by region, information about the speed of utterance, or information about the pitch height and the size of the utterance.
일 실시예에 따르면, 텍스트-음성 합성 장치는 현재 선택되거나 지정된 화자의 발성 특징을 통신부를 통해 사용자 단말기에 전송할 수 있으며, 현재 음성의 특징이, 도 9에 도시된 바와 같이, 사용자 단말기의 디스플레이부에 소정의 모양(예를 들어, 선, 다각형, 원형 등)으로 표시될 수 있다. 사용자는 입력부를 이용하여 성별에 대한 정보, 연령에 대한 정보, 지역별 억양에 대한 정보, 발성의 속도에 대한 정보, 음 높이 및 발성의 크기에 대한 정보 중 적어도 하나를 변경할 수 있으며, 사용자의 입력에 기초하여 변경된 출력 음성이 출력될 수 있다. 예를 들어, 사용자는 도 9에 도시된 바와 같이, 여성에 가까운 성별, 60대보다 10대에 가까운 나이, 충청 지방의 억양을 선택할 수 있다. 선택된 입력에 따라 현재 음성의 특징이 변경되어 사용자 단말기에 변경된 음성의 특징이 반영되거나 합성된 음성이 출력될 수 있다. According to one embodiment, the text-to-speech synthesizer can transmit the speech feature of the currently selected or designated speaker to the user terminal through the communication unit, and the characteristic of the current speech is displayed on the display unit (E.g., lines, polygons, circles, and the like). The user can change at least one of information on sex, information on age, information on intonation by region, information on speed of utterance, information on height of voice and size of utterance by using input unit, The changed output voice can be output based on the output voice. For example, the user can select a sex close to the female, an approximate age of about 10, and an intonation of Chungcheong province, as shown in Fig. The characteristic of the current voice is changed according to the selected input, and the characteristic of the changed voice is reflected to the user terminal or the synthesized voice can be outputted.
이상과 같이 여러 실시예들에 따라 화자 정보에 대한 임베딩 벡터 중에 내재된 요소들의 하나 이상을 변경하여 목소리의 특성을 변경하는 구성들을 설명하였으나, 본 발명은 이에 한정되는 것은 아니며, 다른 적절한 방식에 따라 구성할 수도 있다. 일 실시예에 따르면, 임베딩 벡터의 내재된 요소를 SSML(speech synthesis markup language)의 속성(attribute)으로 표현하여 변경할 수도 있다. 예를 들면 <gender value = “6”><region value = “3,4,5”>과 같이 SSML의 속성으로 표현할 수 있다.As described above, according to various embodiments, there has been described the configuration in which one or more of the elements embedded in the embedding vector for the speaker information is changed to change the characteristics of the voices. However, the present invention is not limited to this, . According to an embodiment, the embedded element of the embedding vector may be changed by expressing it as an attribute of a speech synthesis markup language (SSML). For example, <gender value = "6"> <region value = "3,4,5"> can be expressed as attributes of SSML.
도 11은 본 개시의 일 실시예에 따른 텍스트-음성 합성 시스템(1100)의 블록도이다.11 is a block diagram of a text-to-speech synthesis system 1100 in accordance with one embodiment of the present disclosure.
도 11을 참조하면, 일 실시예에 따른 텍스트-음성 합성 시스템(1100)은 데이터 학습부(1110) 및 데이터 인식부(1120)를 포함할 수 있다. 데이터 학습부(1110)는 데이터를 입력하여 기계학습모델을 획득할 수 있다. 또한 데이터 인식부(302)는 데이터를 기계학습모델에 적용하여 출력 음성을 생성할 수 있다. 상술한 바와 같은 텍스트-음성 합성 시스템(1100)은 프로세서 및 메모리를 포함할 수 있다.Referring to FIG. 11, the text-to-speech synthesis system 1100 according to an embodiment may include a data learning unit 1110 and a data recognition unit 1120. The data learning unit 1110 can input data and acquire a machine learning model. The data recognition unit 302 can also apply the data to the machine learning model to generate output speech. The text-to-speech synthesis system 1100 as described above may include a processor and a memory.
데이터 학습부(1110)는 텍스트에 대한 음성 학습할 수 있다. 데이터 학습부(1110)는 텍스트에 따라 어떤 음성을 출력할지에 관한 기준을 학습할 수 있다. 또한, 데이터 학습부(1110)는 어떤 음성의 특징을 이용하여 음성을 출력할지에 관한 기준을 학습할 수 있다. 음성의 특징은 음소의 발음, 사용자의 어조, 억양 또는 강세 중 적어도 하나를 포함할 수 있다. 데이터 학습부(1110)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 데이터 학습모델에 적용함으로써, 텍스트에 따른 음성을 학습할 수 있다.The data learning unit 1110 can learn speech about text. The data learning unit 1110 can learn a criterion as to which voice to output according to the text. In addition, the data learning unit 1110 can learn a criterion as to which voice feature should be used to output the voice. The feature of the speech may include at least one of pronunciation of the phoneme, tone of the user, accentuation, or accentuation. The data learning unit 1110 acquires data to be used for learning, and applies the obtained data to a data learning model, which will be described later, so as to learn a voice based on the text.
데이터 인식부(1120)는 텍스트에 기초하여 텍스트에 대한 음성을 출력할 수 있다. 데이터 인식부(1120)는 학습된 데이터 학습모델을 이용하여, 소정의 텍스트로부터 음성을 출력할 수 있다. 데이터 인식부(1120)는 학습에 의한 미리 설정된 기준에 따라 소정의 텍스트(데이터)를 획득할 수 있다. 또한, 데이터 인식부(1120)는 획득된 데이터를 입력 값으로 하여 데이터 학습모델을 이용함으로써, 소정의 데이터에 기초한 음성을 출력할 수 있다. 또한, 획득된 데이터를 입력 값으로 하여 데이터 학습모델에 의해 출력된 결과 값은, 데이터 학습모델을 갱신하는데 이용될 수 있다.The data recognizing unit 1120 can output a voice for the text based on the text. The data recognizing unit 1120 can output speech from a predetermined text using the learned data learning model. The data recognizing unit 1120 can acquire predetermined text (data) according to a preset reference by learning. Further, the data recognizing unit 1120 can output a voice based on predetermined data by using the data learning model with the obtained data as an input value. Further, the resultant value output by the data learning model with the obtained data as an input value can be used to update the data learning model.
데이터 학습부(1110) 또는 데이터 인식부(1120) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1110) 또는 데이터 인식부(1120) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 이미 설명한 각종 전자 장치에 탑재될 수도 있다.At least one of the data learning unit 1110 or the data recognizing unit 1120 may be manufactured in at least one hardware chip form and mounted on the electronic device. For example, at least one of the data learning unit 1110 and the data recognition unit 1120 may be fabricated in the form of a dedicated hardware chip for artificial intelligence (AI) Or an application processor) or a graphics processor (e.g., a GPU), and may be mounted on various electronic devices already described.
또한 데이터 학습부(1110) 및 데이터 인식부(1120)는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(1110) 및 데이터 인식부(1120) 중 하나는 전자 장치에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(1110) 및 데이터 인식부(1120)는 유선 또는 무선으로 통하여, 데이터 학습부(1110)가 구축한 모델 정보를 데이터 인식부(1120)로 제공할 수도 있고, 데이터 인식부(1120)로 입력된 데이터가 추가 학습 데이터로써 데이터 학습부(1110)로 제공될 수도 있다.Further, the data learning unit 1110 and the data recognition unit 1120 may be mounted on separate electronic devices, respectively. For example, one of the data learning unit 1110 and the data recognizing unit 1120 may be included in the electronic device, and the other may be included in the server. The data learning unit 1110 and the data recognizing unit 1120 may provide the model information constructed by the data learning unit 1110 to the data recognizing unit 1120 via the wired or wireless network, 1120 may be provided to the data learning unit 1110 as additional learning data.
한편, 데이터 학습부(1110) 또는 데이터 인식부(1120) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1110) 및 데이터 인식부(1120) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction)을 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 메모리 또는 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 이와 달리, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다. At least one of the data learning unit 1110 and the data recognition unit 1120 may be implemented as a software module. When at least one of the data learning unit 1110 and the data recognition unit 1120 is implemented as a software module (or a program module including instructions), the software module may be a memory or a computer- And may be stored in non-transitory computer readable media. Also, in this case, the at least one software module may be provided by an operating system (OS) or by a predetermined application. Alternatively, some of the at least one software module may be provided by an operating system (OS), and some of the software modules may be provided by a predetermined application.
본 개시의 일 실시예에 따른 데이터 학습부(1110)는 데이터 획득부(1111), 전처리부(1112), 학습 데이터 선택부(1113), 모델 학습부(1114) 및 모델 평가부(1115)를 포함할 수 있다.The data learning unit 1110 according to an embodiment of the present disclosure includes a data acquisition unit 1111, a preprocessor 1112, a learning data selection unit 1113, a model learning unit 1114, and a model evaluation unit 1115 .
데이터 획득부(1111)는 기계학습에 필요한 데이터를 획득할 수 있다. 학습을 위해서는 많은 데이터가 필요하므로, 데이터 획득부(1111)는 복수의 텍스트 및 그에 대응되는 음성을 수신할 수 있다. The data acquisition unit 1111 can acquire data necessary for machine learning. Since a lot of data is required for learning, the data acquisition unit 1111 can receive a plurality of texts and a voice corresponding thereto.
전처리부(1112)는 사용자의 심리 상태 판단을 위하여 획득된 데이터가 기계학습에 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1112)는 후술할 모델 학습부(1114)가 이용할 수 있도록, 획득된 데이터를 미리 설정된 포맷으로 가공할 수 있다. 예를 들어 전처리부(1112)는 텍스트 및 음성을 형태소 분석하여 형태소 임베딩을 획득할 수 있다.The preprocessing unit 1112 can preprocess the acquired data so that the acquired data can be used for machine learning to determine the psychological state of the user. The preprocessing unit 1112 can process the acquired data into a predetermined format so that it can be used by the model learning unit 1114 to be described later. For example, the preprocessing unit 1112 may morpheme text and speech to obtain morpheme embedding.
학습 데이터 선택부(1113)는 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 모델 학습부(1114)에 제공될 수 있다. 학습 데이터 선택부(1113)는 기 설정된 기준에 따라, 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 또한, 학습 데이터 선택부(1113)는 후술할 모델 학습부(1114)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.The learning data selection unit 1113 can select data necessary for learning from the preprocessed data. The selected data may be provided to the model learning unit 1114. The learning data selection unit 1113 can select data necessary for learning from among the preprocessed data according to a predetermined criterion. The learning data selection unit 1113 can also select data according to a predetermined reference by learning by the model learning unit 1114, which will be described later.
모델 학습부(1114)는 학습 데이터에 기초하여 텍스트에 따라 어떤 음성을 출력할 지에 관한 기준을 학습할 수 있다. 또한, 모델 학습부(1114)는 텍스트에 따라 음성을 출력하는 학습모델을 학습 데이터로써 이용하여 학습시킬 수 있다. 이 경우, 데이터 학습모델은 미리 구축된 모델을 포함할 수 있다. 예를 들어, 데이터 학습모델은 기본 학습 데이터(예를 들어, 샘플 이미지 등)을 입력 받아 미리 구축된 모델을 포함할 수 있다.The model learning unit 1114 can learn a criterion as to which voice to output according to the text based on the learning data. Also, the model learning unit 1114 can learn by using a learning model for outputting a voice according to text as learning data. In this case, the data learning model may include a pre-built model. For example, the data learning model may include a pre-built model that receives basic learning data (e.g., a sample image, etc.).
데이터 학습모델은, 학습모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 데이터 학습모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델을 포함할 수 있다. 예컨대, Deep Neural Network (DNN), Recurrent Neural Network (RNN), Long Short-Term Memory models (LSTM), BRDNN (Bidirectional Recurrent Deep Neural Network), Convolutional Neural Networks (CNN) 등과 같은 모델이 데이터 학습모델로써 사용될 수 있으나, 이에 한정되지 않는다.The data learning model can be constructed considering the application field of the learning model, the purpose of learning, or the computer performance of the device. The data learning model may include, for example, a model based on a neural network. For example, models such as Deep Neural Network (DNN), Recurrent Neural Network (RNN), Long Short-Term Memory models (LSTM), Bidirectional Recurrent Deep Neural Network (BRDNN), and Convolutional Neural Networks But is not limited thereto.
다양한 실시예에 따르면, 모델 학습부(1114)는 미리 구축된 데이터 학습모델이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 데이터 학습모델을 학습할 데이터 학습모델로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 데이터 학습모델은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 오브젝트의 종류 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다. According to various embodiments, when there are a plurality of pre-built data learning models, the model learning unit 1114 can determine a data learning model with which the input learning data and the basic learning data are highly relevant, have. In this case, the basic learning data may be pre-classified according to the type of data, and the data learning model may be pre-built for each data type. For example, the basic learning data may be pre-classified by various criteria such as an area where the learning data is generated, a time at which the learning data is generated, a size of the learning data, a genre of the learning data, a creator of the learning data, .
또한, 모델 학습부(1114)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 데이터 학습모델을 학습시킬 수 있다.In addition, the model learning unit 1114 can learn a data learning model using, for example, a learning algorithm including an error back-propagation method or a gradient descent method.
또한, 모델 학습부(1114)는, 예를 들어, 학습 데이터를 입력 값으로 하는 지도 학습(supervised learning)을 통하여, 데이터 학습모델을 학습할 수 있다. 또한, 모델 학습부(1114)는, 예를 들어, 별다른 지도없이 상황 판단을 위해 필요한 데이터의 종류를 스스로 학습함으로써, 상황 판단을 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 데이터 학습모델을 학습할 수 있다. 또한, 모델 학습부(1114)는, 예를 들어, 학습에 따른 상황 판단의 결과가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 데이터 학습모델을 학습할 수 있다.Also, the model learning unit 1114 can learn the data learning model through supervised learning using, for example, learning data as input values. In addition, the model learning unit 1114 learns, for example, the types of data necessary for the situation determination without any further guidance, and thereby, through unsupervised learning that finds a criterion for determining the situation, The model can be learned. Also, the model learning unit 1114 can learn the data learning model through reinforcement learning using, for example, feedback as to whether the result of the situation judgment based on learning is correct.
또한, 데이터 학습모델이 학습되면, 모델 학습부(1114)는 학습된 데이터 학습모델을 저장할 수 있다. 이 경우, 모델 학습부(1114)는 학습된 데이터 학습모델을 데이터 인식부(1120)를 포함하는 전자 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1114)는 학습된 데이터 학습모델을 전자 장치와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.Further, when the data learning model is learned, the model learning unit 1114 can store the learned data learning model. In this case, the model learning unit 1114 can store the learned data learning model in the memory of the electronic device including the data recognition unit 1120. [ Alternatively, the model learning unit 1114 may store the learned data learning model in the memory of the server connected to the electronic device and the wired or wireless network.
이 경우, 학습된 데이터 학습모델이 저장되는 메모리는, 예를 들면, 전자 장치의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다.In this case, the memory in which the learned data learning model is stored may also store instructions or data associated with, for example, at least one other component of the electronic device. The memory may also store software and / or programs. The program may include, for example, a kernel, a middleware, an application programming interface (API), and / or an application program (or "application").
모델 평가부(1115)는 데이터 학습모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(1114)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 데이터 학습모델을 평가하기 위한 기 설정된 데이터를 포함할 수 있다. The model evaluation unit 1115 inputs the evaluation data to the data learning model and can cause the model learning unit 1114 to learn again when the result output from the evaluation data does not satisfy the predetermined criterion. In this case, the evaluation data may include predetermined data for evaluating the data learning model.
예를 들어, 모델 평가부(1115)는 평가 데이터에 대한 학습된 데이터 학습모델의 결과 중에서, 인식 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 데이터 학습모델이 총 1000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 인식 결과를 출력하는 경우, 모델 평가부(1115)는 학습된 데이터 학습모델이 적합하지 않은 것으로 평가할 수 있다.For example, when the number or ratio of evaluation data whose recognition result is not correct is greater than a predetermined threshold value among the results of the learned data learning model for evaluation data, the model evaluation unit 1115 . For example, when a predetermined criterion is defined as a ratio of 2%, and the learned data learning model outputs an incorrect recognition result for evaluation data exceeding 20 out of a total of 1000 evaluation data, Can be assessed as inappropriate.
한편, 학습된 데이터 학습모델이 복수 개가 존재하는 경우, 모델 평가부(1115)는 각각의 학습된 동영상 학습모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 데이터 학습모델로써 결정할 수 있다. 이 경우, 소정 기준을 만족하는 모델이 복수 개인 경우, 모델 평가부(1115)는 평가 점수가 높은 순으로 미리 설정된 어느 하나 또는 소정 개수의 모델을 최종 데이터 학습모델로써 결정할 수 있다.On the other hand, when there are a plurality of learned data learning models, the model evaluating unit 1115 evaluates whether each of the learned moving learning models satisfies a predetermined criterion, and uses a model satisfying a predetermined criterion as a final data learning model You can decide. In this case, when there are a plurality of models satisfying a predetermined criterion, the model evaluating unit 1115 can determine any one or a predetermined number of models previously set in descending order of the evaluation score, using the final data learning model.
한편, 데이터 학습부(1110) 내의 데이터 획득부(1111), 전처리부(1112), 학습 데이터 선택부(1113), 모델 학습부(1114) 또는 모델 평가부(1115) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1111), 전처리부(1112), 학습 데이터 선택부(1113), 모델 학습부(1114) 또는 모델 평가부(1115) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.At least one of the data acquiring unit 1111, the preprocessing unit 1112, the learning data selecting unit 1113, the model learning unit 1114, or the model evaluating unit 1115 in the data learning unit 1110 includes at least one And can be mounted on an electronic device. For example, at least one of the data acquisition unit 1111, the preprocessor 1112, the learning data selection unit 1113, the model learning unit 1114, or the model evaluation unit 1115 may be an artificial intelligence (AI) Or may be implemented as part of a conventional general-purpose processor (e.g., a CPU or an application processor) or a graphics-only processor (e.g., a GPU) and mounted on the various electronic devices described above.
또한, 데이터 획득부(1111), 전처리부(1112), 학습 데이터 선택부(1113), 모델 학습부(1114) 및 모델 평가부(1115)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1111), 전처리부(1112), 학습 데이터 선택부(1113), 모델 학습부(1114) 및 모델 평가부(1115) 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.The data acquisition unit 1111, the preprocessor 1112, the learning data selection unit 1113, the model learning unit 1114, and the model evaluation unit 1115 may be mounted on one electronic device, Electronic devices, respectively. For example, some of the data acquisition unit 1111, the preprocessor 1112, the learning data selection unit 1113, the model learning unit 1114, and the model evaluation unit 1115 are included in the electronic device, May be included in the server.
또한, 데이터 획득부(1111), 전처리부(1112), 학습 데이터 선택부(1113), 모델 학습부(1114) 또는 모델 평가부(1115) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1111), 전처리부(1112), 학습 데이터 선택부(1113), 모델 학습부(1114) 또는 모델 평가부(1115) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 이와 달리, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.At least one of the data acquisition unit 1111, the preprocessing unit 1112, the learning data selection unit 1113, the model learning unit 1114, and the model evaluation unit 1115 may be implemented as a software module. At least one of the data acquisition unit 1111, the preprocessor 1112, the learning data selection unit 1113, the model learning unit 1114 or the model evaluation unit 1115 is a software module (or a program including an instruction) Module), the software module may be stored in a computer-readable, readable non-transitory computer readable media. Also, in this case, the at least one software module may be provided by an operating system (OS) or by a predetermined application. Alternatively, some of the at least one software module may be provided by an operating system (OS), and some of the software modules may be provided by a predetermined application.
본 개시의 일 실시예에 따른 데이터 인식부(1120)는 데이터 획득부(1121), 전처리부(1122), 인식 데이터 선택부(1123), 인식 결과 제공부(1124) 및 모델 갱신부(1125)를 포함할 수 있다.The data recognizing unit 1120 according to an embodiment of the present invention includes a data obtaining unit 1121, a preprocessing unit 1122, a recognition data selecting unit 1123, a recognition result providing unit 1124, and a model updating unit 1125, . &Lt; / RTI &gt;
데이터 획득부(1121)는 음성을 출력하기 위해 필요한 텍스트를 획득할 수 있다. 반대로 데이터 획득부(1121)는 텍스트를 출력하기 위해 필요한 음성을 획득할 수 있다. 전처리부(1122)는 음성 또는 텍스트를 출력하기 위해 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1122)는 후술할 인식 결과 제공부(1124)가 음성 또는 텍스트를 출력하기 위해 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다. The data acquisition unit 1121 can acquire the text necessary for outputting the voice. Conversely, the data acquisition unit 1121 can acquire the voice necessary for outputting the text. The preprocessing section 1122 can preprocess acquired data so that the data obtained to output voice or text can be used. The preprocessing unit 1122 can process the acquired data into a predetermined format so that the recognition result providing unit 1124, which will be described later, can use the data obtained for outputting voice or text.
인식 데이터 선택부(1123)는 전처리된 데이터 중에서 음성 또는 텍스트를 출력하기 위해 필요한 데이터를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(1124)에게 제공될 수 있다. 인식 데이터 선택부(1123)는 음성 또는 텍스트를 출력하기 위한 기 설정된 기준에 따라, 전처리된 데이터 중에서 일부 또는 전부를 선택할 수 있다. 또한, 인식 데이터 선택부(1123)는 모델 학습부(1114)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.The recognition data selection unit 1123 can select data necessary for outputting voice or text among the preprocessed data. The selected data may be provided to the recognition result provider 1124. The recognition data selection unit 1123 can select some or all of the preprocessed data according to predetermined criteria for outputting voice or text. The recognition data selection unit 1123 can also select data according to a predetermined criterion by learning by the model learning unit 1114. [
인식 결과 제공부(1124)는 선택된 데이터를 데이터 학습모델에 적용하여 음성 또는 텍스트를 출력할 수 있다. 인식 결과 제공부(1124)는 인식 데이터 선택부(1123)에 의해 선택된 데이터를 입력 값으로 이용함으로써, 선택된 데이터를 데이터 학습모델에 적용할 수 있다. 또한, 인식 결과는 데이터 학습모델에 의해 결정될 수 있다.The recognition result providing unit 1124 can output the voice or text by applying the selected data to the data learning model. The recognition result providing unit 1124 can apply the selected data to the data learning model by using the data selected by the recognition data selecting unit 1123 as an input value. In addition, the recognition result can be determined by the data learning model.
모델 갱신부(1125)는 인식 결과 제공부(1124)에 의해 제공되는 인식 결과에 대한 평가에 기초하여, 데이터 학습모델이 갱신되도록 할 수 있다. 예를 들어, 모델 갱신부(1125)는 인식 결과 제공부(1124)에 의해 제공되는 인식 결과를 모델 학습부(1114)에게 제공함으로써, 모델 학습부(1114)가 데이터 학습모델을 갱신하도록 할 수 있다.The model updating unit 1125 can cause the data learning model to be updated based on the evaluation of the recognition result provided by the recognition result providing unit 1124. [ For example, the model updating unit 1125 may allow the model learning unit 1114 to update the data learning model by providing the model learning unit 1114 with the recognition result provided by the recognition result providing unit 1124 have.
한편, 데이터 인식부(1120) 내의 데이터 획득부(1121), 전처리부(1122), 인식 데이터 선택부(1123), 인식 결과 제공부(1124) 또는 모델 갱신부(1125) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1121), 전처리부(1122), 인식 데이터 선택부(1123), 인식 결과 제공부(1124) 또는 모델 갱신부(1125) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.At least one of the data acquiring unit 1121, the preprocessing unit 1122, the recognition data selection unit 1123, the recognition result providing unit 1124 or the model updating unit 1125 in the data recognizing unit 1120 is a It can be manufactured in the form of one hardware chip and mounted on the electronic device. For example, at least one of the data acquisition unit 1121, the preprocessing unit 1122, the recognition data selection unit 1123, the recognition result providing unit 1124, and the model updating unit 1125 may be an artificial intelligence Or may be mounted on a variety of electronic devices as described above and manufactured as part of a conventional general purpose processor (e.g., a CPU or an application processor) or a graphics dedicated processor (e.g., a GPU).
또한, 데이터 획득부(1121), 전처리부(1122), 인식 데이터 선택부(1123), 인식 결과 제공부(1124) 및 모델 갱신부(1125)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1121), 전처리부(1122), 인식 데이터 선택부(1123), 인식 결과 제공부(1124) 및 모델 갱신부(1125) 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.The data acquisition unit 1121, the preprocessing unit 1122, the recognition data selection unit 1123, the recognition result providing unit 1124 and the model updating unit 1125 may be mounted on one electronic device, Lt; RTI ID = 0.0 &gt; electronic devices, respectively. For example, some of the data acquisition unit 1121, the preprocessing unit 1122, the recognition data selection unit 1123, the recognition result providing unit 1124, and the model updating unit 1125 are included in the electronic device, May be included in the server.
또한, 데이터 획득부(1121), 전처리부(1122), 인식 데이터 선택부(1123), 인식 결과 제공부(1124) 또는 모델 갱신부(1125) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1121), 전처리부(1122), 인식 데이터 선택부(1123), 인식 결과 제공부(1124) 또는 모델 갱신부(1125) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 이와 달리, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.At least one of the data acquisition unit 1121, the preprocessing unit 1122, the recognition data selection unit 1123, the recognition result providing unit 1124, and the model updating unit 1125 may be implemented as a software module. At least one of the data acquisition unit 1121, the preprocessing unit 1122, the recognition data selection unit 1123, the recognition result providing unit 1124, or the model updating unit 1125 is a software module Program modules), the software modules may be stored in a computer-readable, readable non-transitory computer readable media. Also, in this case, the at least one software module may be provided by an operating system (OS) or by a predetermined application. Alternatively, some of the at least one software module may be provided by an operating system (OS), and some of the software modules may be provided by a predetermined application.
이제까지 다양한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.Various embodiments have been described above. It will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. Therefore, the disclosed embodiments should be considered in an illustrative rather than a restrictive sense. The scope of the present invention is defined by the appended claims rather than by the foregoing description, and all differences within the scope of equivalents thereof should be construed as being included in the present invention.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.The embodiments of the present invention described above can be embodied in a general-purpose digital computer that can be created as a program that can be executed by a computer and operates the program using a computer-readable recording medium. The computer readable recording medium includes a storage medium such as a magnetic storage medium (e.g., ROM, floppy disk, hard disk, etc.), optical reading medium (e.g., CD ROM, DVD, etc.).

Claims (10)

  1. 기계학습을 이용한 텍스트-음성 합성(text-to-speech synthesis) 방법으로서,A method for text-to-speech synthesis using machine learning,
    복수의 학습 텍스트 및 상기 복수의 학습 텍스트에 대응되는 음성 데이터에 기초하여 기계학습을 수행하여 생성된 단일 인공 신경망 텍스트-음성 합성(text-to-speech synthesis) 모델을 생성하는 단계;Generating a single artificial neural network text-to-speech synthesis model generated by performing a machine learning based on a plurality of learning texts and voice data corresponding to the plurality of learning texts;
    입력 텍스트를 수신하는 단계;Receiving input text;
    화자의 발성 특징을 수신하는 단계; 및Receiving a speech feature of the speaker; And
    상기 화자의 발성 특징을 상기 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 상기 화자의 발성 특징이 반영된 상기 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계Inputting the speech characteristic of the speaker into the single artificial neural network text-speech synthesis model, and generating output speech data for the input text in which the speech characteristic of the speaker is reflected
    를 포함하는 하는 텍스트-음성 합성 방법.To-speech &lt; / RTI &gt; synthesis method.
  2. 제1항에 있어서, The method according to claim 1,
    상기 화자의 발성 특징을 수신하는 단계는,Wherein the step of receiving the speech feature of the speaker comprises:
    음성 샘플을 수신하는 단계; 및Receiving a voice sample; And
    상기 음성 샘플로부터 상기 화자의 발성 특징을 나타내는 임베딩 벡터를 추출하는 단계를 포함하는,And extracting an embedding vector representing the utterance characteristic of the speaker from the speech sample.
    텍스트-음성 합성 방법. Text-to-speech synthesis method.
  3. 제2항에 있어서, 3. The method of claim 2,
    상기 음성 샘플로부터 상기 화자의 발성 특징을 나타내는 임베딩 벡터를 추출하는 단계는 상기 화자의 운율 특징을 나타내는 제1 서브 임베딩 벡터를 추출하는 단계를 포함하고, 여기서, 상기 운율 특징은, 발화 속도에 대한 정보, 발음 강세에 대한 정보, 휴지 구간에 대한 정보 또는 음 높이에 대한 정보 중 적어도 하나를 포함하고, Wherein extracting an embedding vector representing the utterance characteristic of the speaker from the speech sample comprises extracting a first subembedding vector representing a prosodic characteristic of the speaker, , Information on the pronunciation strength, information on the idle period, or information on the pitch height,
    상기 화자의 발성 특징이 반영된 상기 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계는 상기 운율 특징을 나타내는 제1 서브 임베딩 벡터를 상기 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여 상기 화자의 운율 특징이 반영된 상기 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 포함하는,Wherein the step of generating output speech data for the input text in which the speaker's utterance characteristic is reflected comprises inputting a first sub-embedding vector representing the prosodic feature to the single artificial neural network text-speech synthesis model, Generating output speech data for the input text;
    텍스트-음성 합성 방법.Text-to-speech synthesis method.
  4. 제2항에 있어서, 3. The method of claim 2,
    상기 음성 샘플로부터 상기 화자의 발성 특징을 나타내는 임베딩 벡터를 추출하는 단계는 상기 화자의 감정 특징을 나타내는 제2 서브 임베딩 벡터를 추출하는 단계를 포함하고, 여기서, 상기 감정 특징은 상기 화자의 발화 내용에 내재된 감정에 대한 정보를 포함하고, Wherein the step of extracting an embedding vector representing the utterance characteristic of the speaker from the speech sample comprises extracting a second subembedding vector representing the emotion characteristics of the speaker, Contains information about the underlying emotions,
    상기 화자의 발성 특징이 반영된 상기 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계는 상기 감정 특징을 나타내는 제2 서브 임베딩 벡터를 상기 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여 상기 화자의 감정 특징이 반영된 상기 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 포함하는,Wherein the step of generating output speech data for the input text in which the speech characteristic of the speaker is reflected comprises inputting a second sub-embedding vector expressing the emotion characteristic to the single artificial neural network text-speech synthesis model, Generating output speech data for the input text;
    텍스트-음성 합성 방법. Text-to-speech synthesis method.
  5. 제2항에 있어서, 3. The method of claim 2,
    상기 음성 샘플로부터 상기 화자의 발성 특징을 나타내는 임베딩 벡터를 추출하는 단계는 상기 화자의 음색 및 음 높이에 대한 특징을 나타내는 제3 서브 임베딩 벡터를 추출하는 단계를 포함하고, Wherein extracting the embedding vector representing the utterance characteristic of the speaker from the speech sample comprises extracting a third subembedding vector characterizing the tone and pitch of the speaker,
    상기 화자의 발성 특징이 반영된 상기 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계는 상기 화자의 음색 및 음 높이에 대한 특징을 나타내는 제3 서브 임베딩 벡터를 상기 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여 상기 화자의 음색 및 음 높이에 대한 특징이 반영된 상기 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 포함하는,Wherein the step of generating output speech data for the input text in which the speaker's utterance characteristic is reflected comprises inputting a third subembedding vector characterizing the tone and height of the speaker into the single artificial neural network text- And generating output speech data for the input text in which characteristics of the speaker's tone color and tone height are reflected.
    텍스트-음성 합성 방법. Text-to-speech synthesis method.
  6. 제2항에 있어서,3. The method of claim 2,
    상기 화자의 발성 특징이 반영된 상기 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계는,Wherein the step of generating output speech data for the input text, in which the speech characteristic of the speaker is reflected,
    상기 출력 음성 데이터에 대한 추가적인 입력을 수신하는 단계;Receiving additional input to the output speech data;
    상기 추가적인 입력에 기초하여 상기 화자의 발성 특징을 나타내는 임베딩 벡터를 수정하는 단계; 및Modifying an embedding vector representing the utterance characteristic of the speaker based on the further input; And
    상기 수정된 임베딩 벡터를 상기 단일 인공 신경망 텍스트-음성 합성 모델에 입력하여, 상기 출력 음성 데이터를 상기 추가적인 입력에 포함된 정보가 반영된 상기 입력 텍스트에 대한 음성 데이터로 변환하는 단계Inputting the modified embedding vector into the single artificial neural network text-to-speech synthesis model and converting the output speech data into speech data for the input text reflecting information contained in the additional input
    를 포함하는 텍스트-음성 합성 방법.Wherein the text-to-speech synthesis method comprises the steps of:
  7. 제6항에 있어서,The method according to claim 6,
    상기 출력 음성 데이터에 대한 추가적인 입력에 포함된 정보는, 성별에 대한 정보, 연령에 대한 정보, 지역별 억양에 대한 정보, 발성의 속도에 대한 정보, 음 높이 또는 발성의 크기에 대한 정보 중 적어도 하나를 포함하는 텍스트-음성 합성 방법.The information included in the additional input to the output voice data may include at least one of information on sex, information on age, information on intonation by region, information on speed of utterance, Wherein the text-to-speech synthesis method comprises:
  8. 제2항에 있어서, 3. The method of claim 2,
    상기 음성 샘플을 수신하는 단계는,Wherein the step of receiving the speech samples comprises:
    미리 결정된 시간 구간 내에 상기 화자로부터 입력된 음성을 상기 음성 샘플로서 실시간으로 수신하는 단계를 포함하는, And receiving in real time the speech inputted from the speaker within the predetermined time period as the speech sample.
    텍스트-음성 합성 방법.Text-to-speech synthesis method.
  9. 제2항에 있어서, 3. The method of claim 2,
    상기 음성 샘플을 수신하는 단계는,Wherein the step of receiving the speech samples comprises:
    미리 결정된 시간 구간 내에 상기 화자로부터 입력된 음성을 음성 데이터베이스로부터 수신하는 단계를 포함하는, Receiving from the speech database a voice input from the speaker within a predetermined time period;
    텍스트-음성 합성 방법. Text-to-speech synthesis method.
  10. 제1항의 기계학습을 이용한 텍스트-음성 합성 방법에 따른 각각의 단계를 수행하는 명령어를 포함하는 프로그램이 기록된, 컴퓨터 판독가능 저장매체. 11. A computer-readable storage medium having stored thereon instructions for performing the respective steps according to the method for text-to-speech synthesis using machine learning of claim 1.
PCT/KR2019/000512 2018-01-11 2019-01-11 Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium WO2019139430A1 (en)

Priority Applications (6)

Application Number Priority Date Filing Date Title
EP19738381.3A EP3739572A4 (en) 2018-01-11 2019-01-11 Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium
JP2020538659A JP7082357B2 (en) 2018-01-11 2019-01-11 Text-to-speech synthesis methods using machine learning, devices and computer-readable storage media
CN201980007953.1A CN111587455B (en) 2018-01-11 2019-01-11 Text-to-speech method and apparatus using machine learning and computer-readable storage medium
US16/682,438 US11514887B2 (en) 2018-01-11 2019-11-13 Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium
JP2022081878A JP7355306B2 (en) 2018-01-11 2022-05-18 Text-to-speech synthesis method, device, and computer-readable storage medium using machine learning
US17/969,078 US20230067505A1 (en) 2018-01-11 2022-10-19 Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
KR20180004066 2018-01-11
KR10-2018-0004066 2018-01-11
KR20180004234 2018-01-12
KR20180004235 2018-01-12
KR10-2018-0004234 2018-01-12
KR10-2018-0004235 2018-01-12
KR10-2019-0004186 2019-01-11
KR1020190004186A KR102401512B1 (en) 2018-01-11 2019-01-11 Method and computer readable storage medium for performing text-to-speech synthesis using machine learning

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/682,438 Continuation US11514887B2 (en) 2018-01-11 2019-11-13 Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium

Publications (1)

Publication Number Publication Date
WO2019139430A1 true WO2019139430A1 (en) 2019-07-18

Family

ID=67219761

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/000512 WO2019139430A1 (en) 2018-01-11 2019-01-11 Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium

Country Status (1)

Country Link
WO (1) WO2019139430A1 (en)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111133507A (en) * 2019-12-23 2020-05-08 深圳市优必选科技股份有限公司 Voice synthesis method and device, intelligent terminal and readable medium
CN111223475A (en) * 2019-11-29 2020-06-02 北京达佳互联信息技术有限公司 Voice data generation method and device, electronic equipment and storage medium
CN111312228A (en) * 2019-12-09 2020-06-19 中国南方电网有限责任公司 End-to-end-based voice navigation method applied to electric power enterprise customer service
CN111369968A (en) * 2020-03-19 2020-07-03 北京字节跳动网络技术有限公司 Sound reproduction method, device, readable medium and electronic equipment
CN111429881A (en) * 2020-03-19 2020-07-17 北京字节跳动网络技术有限公司 Sound reproduction method, device, readable medium and electronic equipment
CN111489734A (en) * 2020-04-03 2020-08-04 支付宝(杭州)信息技术有限公司 Model training method and device based on multiple speakers
CN111696579A (en) * 2020-06-17 2020-09-22 厦门快商通科技股份有限公司 Speech emotion recognition method, device, equipment and computer storage medium
CN112052889A (en) * 2020-08-28 2020-12-08 西安电子科技大学 Laryngoscope image identification method based on double-gating recursive unit decoding
CN112382270A (en) * 2020-11-13 2021-02-19 北京有竹居网络技术有限公司 Speech synthesis method, apparatus, device and storage medium
CN112509552A (en) * 2020-11-27 2021-03-16 北京百度网讯科技有限公司 Speech synthesis method, speech synthesis device, electronic equipment and storage medium
WO2021104189A1 (en) * 2019-11-28 2021-06-03 科大讯飞股份有限公司 Method, apparatus, and device for generating high-sampling rate speech waveform, and storage medium
CN114566143A (en) * 2022-03-31 2022-05-31 北京帝派智能科技有限公司 Speech synthesis method and speech synthesis system capable of locally modifying content
JP2022097353A (en) * 2020-12-18 2022-06-30 ハイパーコネクト インコーポレイテッド Speech synthesis device and method therefor
JP2022539914A (en) * 2019-09-17 2022-09-13 北京京▲東▼尚科信息技▲術▼有限公司 Speech synthesis method and device, storage medium
US20230377591A1 (en) * 2022-05-19 2023-11-23 Lemon Inc. Method and system for real-time and low latency synthesis of audio using neural networks and differentiable digital signal processors

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080235024A1 (en) * 2007-03-20 2008-09-25 Itzhack Goldberg Method and system for text-to-speech synthesis with personalized voice
US20090076819A1 (en) * 2006-03-17 2009-03-19 Johan Wouters Text to speech synthesis
US20130262096A1 (en) * 2011-09-23 2013-10-03 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
US20170092258A1 (en) * 2015-09-29 2017-03-30 Yandex Europe Ag Method and system for text-to-speech synthesis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090076819A1 (en) * 2006-03-17 2009-03-19 Johan Wouters Text to speech synthesis
US20080235024A1 (en) * 2007-03-20 2008-09-25 Itzhack Goldberg Method and system for text-to-speech synthesis with personalized voice
US20130262096A1 (en) * 2011-09-23 2013-10-03 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
US20170092258A1 (en) * 2015-09-29 2017-03-30 Yandex Europe Ag Method and system for text-to-speech synthesis

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIN WANG: "Using Continuous Representation of Various Linguistic Units for Recurrent Neural Network based TTS Synthesis", IPSJ SIG TECHNICAL REPORT, vol. 2016 -SL, no. 7, 6 February 2016 (2016-02-06), pages 1 - 34, XP055625112 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7238204B2 (en) 2019-09-17 2023-03-13 北京京▲東▼尚科信息技▲術▼有限公司 Speech synthesis method and device, storage medium
JP2022539914A (en) * 2019-09-17 2022-09-13 北京京▲東▼尚科信息技▲術▼有限公司 Speech synthesis method and device, storage medium
WO2021104189A1 (en) * 2019-11-28 2021-06-03 科大讯飞股份有限公司 Method, apparatus, and device for generating high-sampling rate speech waveform, and storage medium
CN111223475B (en) * 2019-11-29 2022-10-14 北京达佳互联信息技术有限公司 Voice data generation method and device, electronic equipment and storage medium
CN111223475A (en) * 2019-11-29 2020-06-02 北京达佳互联信息技术有限公司 Voice data generation method and device, electronic equipment and storage medium
CN111312228A (en) * 2019-12-09 2020-06-19 中国南方电网有限责任公司 End-to-end-based voice navigation method applied to electric power enterprise customer service
CN111133507B (en) * 2019-12-23 2023-05-23 深圳市优必选科技股份有限公司 Speech synthesis method, device, intelligent terminal and readable medium
CN111133507A (en) * 2019-12-23 2020-05-08 深圳市优必选科技股份有限公司 Voice synthesis method and device, intelligent terminal and readable medium
US11417316B2 (en) * 2019-12-23 2022-08-16 Ubtech Robotics Corp Ltd Speech synthesis method and apparatus and computer readable storage medium using the same
CN111429881B (en) * 2020-03-19 2023-08-18 北京字节跳动网络技术有限公司 Speech synthesis method and device, readable medium and electronic equipment
CN111429881A (en) * 2020-03-19 2020-07-17 北京字节跳动网络技术有限公司 Sound reproduction method, device, readable medium and electronic equipment
CN111369968A (en) * 2020-03-19 2020-07-03 北京字节跳动网络技术有限公司 Sound reproduction method, device, readable medium and electronic equipment
CN111369968B (en) * 2020-03-19 2023-10-13 北京字节跳动网络技术有限公司 Speech synthesis method and device, readable medium and electronic equipment
CN111489734B (en) * 2020-04-03 2023-08-22 支付宝(杭州)信息技术有限公司 Model training method and device based on multiple speakers
CN111489734A (en) * 2020-04-03 2020-08-04 支付宝(杭州)信息技术有限公司 Model training method and device based on multiple speakers
CN111696579B (en) * 2020-06-17 2022-10-28 厦门快商通科技股份有限公司 Speech emotion recognition method, device, equipment and computer storage medium
CN111696579A (en) * 2020-06-17 2020-09-22 厦门快商通科技股份有限公司 Speech emotion recognition method, device, equipment and computer storage medium
CN112052889B (en) * 2020-08-28 2023-05-05 西安电子科技大学 Laryngoscope image recognition method based on double-gating recursion unit decoding
CN112052889A (en) * 2020-08-28 2020-12-08 西安电子科技大学 Laryngoscope image identification method based on double-gating recursive unit decoding
CN112382270A (en) * 2020-11-13 2021-02-19 北京有竹居网络技术有限公司 Speech synthesis method, apparatus, device and storage medium
CN112509552A (en) * 2020-11-27 2021-03-16 北京百度网讯科技有限公司 Speech synthesis method, speech synthesis device, electronic equipment and storage medium
CN112509552B (en) * 2020-11-27 2023-09-26 北京百度网讯科技有限公司 Speech synthesis method, device, electronic equipment and storage medium
JP2022097353A (en) * 2020-12-18 2022-06-30 ハイパーコネクト インコーポレイテッド Speech synthesis device and method therefor
JP7254114B2 (en) 2020-12-18 2023-04-07 ハイパーコネクト リミテッド ライアビリティ カンパニー Speech synthesizer and method
CN114566143A (en) * 2022-03-31 2022-05-31 北京帝派智能科技有限公司 Speech synthesis method and speech synthesis system capable of locally modifying content
US20230377591A1 (en) * 2022-05-19 2023-11-23 Lemon Inc. Method and system for real-time and low latency synthesis of audio using neural networks and differentiable digital signal processors

Similar Documents

Publication Publication Date Title
WO2019139430A1 (en) Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium
KR102668866B1 (en) Method and computer readable storage medium for performing text-to-speech synthesis using machine learning
JP7178028B2 (en) Speech translation method and system using multilingual text-to-speech synthesis model
US11929059B2 (en) Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature
WO2020027619A1 (en) Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature
WO2019139431A1 (en) Speech translation method and system using multilingual text-to-speech synthesis model
WO2019139428A1 (en) Multilingual text-to-speech synthesis method
KR102306844B1 (en) Method and apparatus for translating speech of video and providing lip-synchronization for translated speech in video
WO2020209647A1 (en) Method and system for generating synthetic speech for text through user interface
WO2022045651A1 (en) Method and system for applying synthetic speech to speaker image
Vadwala et al. Survey paper on different speech recognition algorithm: challenges and techniques
WO2023279976A1 (en) Speech synthesis method, apparatus, device, and storage medium
CN113903326A (en) Speech synthesis method, apparatus, device and storage medium
WO2022034982A1 (en) Method for performing synthetic speech generation operation on text
Sajini et al. Speaker Independent Text to Speech for Malayalam

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19738381

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020538659

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019738381

Country of ref document: EP

Effective date: 20200811