WO2020027619A1 - Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature - Google Patents

Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature Download PDF

Info

Publication number
WO2020027619A1
WO2020027619A1 PCT/KR2019/009659 KR2019009659W WO2020027619A1 WO 2020027619 A1 WO2020027619 A1 WO 2020027619A1 KR 2019009659 W KR2019009659 W KR 2019009659W WO 2020027619 A1 WO2020027619 A1 WO 2020027619A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
rhyme
sequential
data
speech
Prior art date
Application number
PCT/KR2019/009659
Other languages
French (fr)
Korean (ko)
Inventor
김태수
이영근
Original Assignee
네오사피엔스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020190094065A external-priority patent/KR20200015418A/en
Application filed by 네오사피엔스 주식회사 filed Critical 네오사피엔스 주식회사
Publication of WO2020027619A1 publication Critical patent/WO2020027619A1/en
Priority to US17/004,460 priority Critical patent/US11929059B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Definitions

  • the present disclosure relates to a method and system for text-to-speech synthesis using machine learning based on sequential rhyme features. More particularly, the present invention relates to a method and system for generating an output speech text for an input text in which sequential rhyme features are input to an artificial neural network text-voice synthesis model.
  • Speech synthesis is a technology that requires not to pre-record the actual voice in applications that require human speech, such as announcements, navigation, and AI assistants. It is a technique used to play voice.
  • a typical method of speech synthesis is to pre-cut and store speech in very short units such as phonemes, and to express the characteristics of speech as parameters by a concatenative TTS that synthesizes speech by combining the phonemes constituting the sentence to be synthesized.
  • the speech synthesis method based on an artificial neural network has been actively studied, and the speech synthesized according to the speech synthesis method includes natural voice features as compared to the conventional methods.
  • the conventional speech synthesis method regardless of the length of the input text or the length of the reference speech, only a fixed length rhyme feature is applied, so that the rhyme at a specific point in time of the synthesized speech cannot be controlled. The reason is that the probability of loss of information in time is quite high when a fixed length feature is forcibly applied to the reference voice. Accordingly, the conventional speech synthesis method cannot provide fine control of the rhythm for the synthesized speech in order to accurately represent the intentions or emotions of the people.
  • the difference between the pitch range of the source speaker and the pitch of the target speaker is large, it may be difficult to reflect the rhyming characteristics of the source speaker as the target speaker. For example, if the source speaker is female and the target speaker is male, synthesizing the source speaker's rhymes with the target speaker's voice could result in the synthesized voice of the target speaker having a higher pitch than the normal pitch. . Considering this situation, it may be required to preprocess the rhyme feature before applying the rhyme feature to the artificial neural network model in order to improve the quality of the synthesized voice reflecting the rhyme feature.
  • the method and apparatus according to the present disclosure may generate output voice data for input text reflecting a sequential rhyme feature having a rhyme feature over time to solve the above problem.
  • the sequential rhyme feature may be input to at least one of an encoder and a decoder of an artificial neural network text-to-speech synthesis model, and the sequential rhyme feature of a variable length is inputted to the length and / or synthesis of the input text. Attention modules may be used to tailor the length of speech.
  • the method and apparatus according to the present disclosure may normalize a plurality of embedding vectors corresponding to sequential rhyme features, and apply the normalized plurality of embedding vectors to an artificial neural network text-voice synthesis model.
  • the present disclosure can be implemented in a variety of ways, including a computer readable storage medium storing a method, system, apparatus, or instructions.
  • a text-to-speech synthesis method using machine learning based on sequential rhyme features includes receiving an input text and receiving a sequential prosody feature. And inputting the input text and the received sequential rhyme features into an artificial neural network text-voice synthesis model to generate output speech data for the input text reflecting the received sequential rhyme features.
  • the artificial neural network text-to-speech synthesis model of the text-to-speech synthesis method using machine learning based on sequential rhyme characteristics may include data representing a plurality of learning texts and a learning voice corresponding to the plurality of learning texts. Based on the machine learning based on the generated data, the data representing the learning voice may include a sequential rhyme feature of the learning voice.
  • the sequential rhyme feature of the text-to-speech synthesis method using machine learning based on the sequential rhyme feature may correspond to at least one unit of a frame, a character, a phoneme, a syllable, or a word.
  • Information in chronological order, and the rhyme information includes at least one of information about a loudness of sound, information about a height of a sound, information about a length of a sound, information about a sound pause period, or information about a style of a sound. It may include.
  • Receiving a sequential rhyme feature of the text-voice synthesis method using machine learning based on the sequential rhyme feature includes receiving a plurality of embedding vectors representing the sequential rhyme feature. Each of the plurality of embedding vectors may correspond to rhyme information included in chronological order.
  • An artificial neural network text-voice synthesis model of a text-voice synthesis method using machine learning based on sequential rhyme features includes an encoder and a decoder, and text using machine learning based on sequential rhyme features.
  • the voice synthesis method further comprises inputting the received plurality of embedding vectors into an attention module to generate a plurality of transform embedding vectors corresponding to respective portions of the input text provided to the encoder, wherein the plurality of transform embedding vectors
  • the length is variable according to the length of the input text
  • the step of generating output speech data for the input text includes inputting the generated plurality of transform embedding vectors into an encoder of the artificial neural network text-to-speech synthesis model and a plurality of transform embeddings. Generating output speech data for the input text in which the vector is reflected.
  • An artificial neural network text-to-speech synthesis model of a text-to-speech synthesis method using machine learning based on sequential rhyme characteristics includes an encoder and a decoder, and generates output speech data for input text.
  • the method may include inputting the received plurality of embedding vectors into the decoder of the neural network text-voice synthesis model and generating output speech data for the input text in which the plurality of embedding vectors are reflected.
  • Text-to-speech synthesis method using machine learning based on sequential rhyme feature further comprises the step of receiving the speaker's utterance feature, the step of generating output speech data for the input text is a speaker And generating output speech data for the input text in which a plurality of embedding vectors reflecting sequential rhyme characteristics are simulated.
  • Receiving a speaker's utterance feature of a text-to-speech synthesis method using machine learning based on the sequential rhyme feature includes receiving a sequential rhyme feature of the speaker, and includes a plurality of embedding vectors
  • the extracting step may include normalizing the extracted plurality of embedding vectors based on the sequential rhythm characteristics of the speaker, and generating the output speech data for the input text by simulating the speaker's speech and normalizing the plurality of embeddings. And generating output speech data for the input text in which the vector is reflected.
  • Normalizing the extracted plurality of embedding vectors of the text-to-speech synthesis method using machine learning based on the sequential rhyme characteristics may include: The method may include calculating an average value and subtracting the extracted plurality of embedding vectors by an average value of the embedding vectors calculated at each time step.
  • Receiving a sequential rhyme feature of a text-to-speech synthesis method using machine learning based on the sequential rhyme feature comprises: receiving rhyme information for at least a portion of the input text through a user interface And generating output speech data for the input text in which the received sequential rhyme features are reflected, and generating output speech data for the input text in which rhyme information for at least a portion of the input text is reflected. have.
  • rhyme information for at least a portion of the input text may be input through a tag provided in a speech synthesis markup language.
  • a text-voice synthesis method using machine learning based on sequential rhyme features may include receiving rhyme information on at least a portion of input text through a user interface and at least a portion of the received input text. The method may further include changing the received sequential rhyme feature based on the rhyme information, and generating the output voice data for the input text in which the received sequential rhyme feature is reflected, the input text in which the changed sequential rhyme feature is reflected. And generating output speech data for the.
  • rhyme information for at least a portion of the input text which is used to change the received sequential rhyme feature, may be input through a tag provided in a speech synthesis markup language.
  • a program for implementing a text-to-speech synthesis method using machine learning based on the sequential rhyme characteristics as described above may be recorded in a computer-readable recording medium.
  • fine rhyme control for synthesized speech is provided because text-to-speech synthesis using machine learning is provided on the basis of sequential rhyme features having variable lengths over time. It is possible to more accurately convey the intention or emotion of a person through speech synthesis.
  • the use of an attention in applying sequential rhyme features of varying lengths to at least one of an encoder and a decoder of an artificial neural network text-voice synthesis model results in input text and / or synthesis. Because it can be adjusted to correspond to the length of the voice, a variable length sequential rhyme feature can be effectively applied to the input text and / or synthesized voice regardless of its length.
  • preprocessing is performed to normalize a plurality of embedding vectors corresponding to the sequential rhyme feature.
  • FIG. 1 is an exemplary diagram illustrating a process of receiving input text and sequential rhyme features by a voice synthesizer according to an embodiment of the present disclosure and outputting a synthesized voice.
  • FIG. 2 is an exemplary diagram illustrating a process of outputting a synthesized speech using sequential rhyme features and input text extracted from a sequential rhyme feature extractor by a speech synthesizer according to an embodiment of the present disclosure.
  • FIG. 3 is an exemplary diagram illustrating a process of outputting a synthesized voice by applying a sequential rhyme feature and a speaker's utterance feature to input text by a voice synthesizer according to an embodiment of the present disclosure.
  • FIG. 4 is a block diagram of a text-to-speech synthesis system according to an embodiment of the present disclosure.
  • FIG. 5 is a flowchart illustrating a text-voice synthesis method using machine learning based on sequential rhyme characteristics according to an embodiment of the present disclosure.
  • FIG. 6 is an exemplary diagram illustrating a configuration of an artificial neural network based text-to-speech synthesis system according to an embodiment of the present disclosure.
  • FIG. 7 is an exemplary diagram illustrating a process of generating a synthesized speech by inputting sequential rhyme features to a decoder of a text-to-speech synthesis system in an artificial neural network based text-to-speech synthesis system according to an embodiment of the present disclosure.
  • FIG. 8 is an exemplary diagram illustrating a process of generating a synthesized speech by inputting a sequential rhyme feature to an encoder of the text-voice synthesis system in an artificial neural network based text-to-speech synthesis system according to an embodiment of the present disclosure.
  • FIG. 9 is an exemplary diagram illustrating a network of a sequential rhyme feature extraction unit configured to extract a plurality of embedding vectors representing sequential rhyme features from a voice signal or a sample according to an embodiment of the present disclosure.
  • FIG. 10 is a schematic diagram of a text-to-speech synthesis system for outputting synthesized speech by applying a tag provided in a markup language to an input text according to an embodiment of the present disclosure.
  • FIG. 11 is a block diagram of a text-to-speech synthesis system according to an embodiment of the present disclosure.
  • a "part” or “module” refers to a software or hardware component, and the 'part' or 'module' plays certain roles.
  • “part” or “module” is not meant to be limited to software or hardware.
  • the 'unit' or 'module' may be configured to be in an addressable storage medium or may be configured to play one or more processors.
  • a "part” or “module” may be used to refer to components such as software components, object-oriented software components, class components, and task components, processes, functions, properties, Procedures, subroutines, segments of program code, drivers, firmware, microcode, circuits, data, databases, data structures, tables, arrays, and variables. Functions provided within components and 'parts' or 'modules' may be combined into smaller numbers of components and 'parts' or 'modules' or into additional components and 'parts' or 'modules'. Can be further separated.
  • the “unit” or “module” may be implemented as a processor and a memory.
  • the term processor is to be broadly interpreted to include general purpose processors, central processing units (CPUs), microprocessors, digital signal processors (DSPs), controllers, microcontrollers, state machines, and the like.
  • a 'processor' may refer to an application specific semiconductor (ASIC), a programmable logic device (PLD), a field programmable gate array (FPGA), or the like.
  • 'processor' refers to a combination of processing devices such as, for example, a combination of a DSP and a microprocessor, a combination of a plurality of microprocessors, a combination of one or more microprocessors in conjunction with a DSP core, or a combination of any other such configuration. May be referred to.
  • the term 'memory' should be interpreted broadly to include any electronic component capable of storing electronic information.
  • the term memory refers to random access memory (RAM), read-only memory (ROM), non-volatile random access memory (NVRAM), programmable read-only memory (PROM), erase-programmable read-only memory (EPROM), electrical May also refer to various types of processor-readable media, such as erasable PROM (EEPROM), flash memory, magnetic or optical data storage, registers, and the like. If the processor can read information from and / or write information to the memory, the memory is said to be in electronic communication with the processor.
  • the memory integrated in the processor is in electronic communication with the processor.
  • the 'sequential rhyme feature' may include rhyme information corresponding to at least one unit of a frame, phoneme, letter, syllable, or word in chronological order.
  • the rhyme information may include at least one of information on the size of the sound, information on the height of the sound, information on the length of the sound, information on the pause period of the sound, or information on the style of the sound.
  • the style of sound may include any form, manner, or nuance that the sound or voice represents, and may include, for example, tone, intonation, emotion, and the like inherent in the sound or voice.
  • the sequential rhyme feature may be represented by a plurality of embedding vectors, and each of the plurality of embedding vectors may correspond to rhyme information included in chronological order.
  • the speech synthesizer 110 may be configured to output a synthesized speech corresponding to the input text using the artificial neural network text-to-speech synthesis model.
  • the neural network text-voice synthesis model may be a single neural network text-voice synthesis model.
  • the speech synthesizer 110 may correspond to the data recognizer 455 of FIG. 4 and / or the data recognizer 1020 of FIG. 10.
  • the speech synthesizer 110 may be included or provided in a user terminal or a text-to-speech synthesis system.
  • the text input to the speech synthesizer 110 may include text received through an arbitrary interface (not shown).
  • the voice recognizer (not shown) may receive a specific voice, convert it into a character corresponding to the input voice, and provide the converted character to the voice synthesizer 110 as input text.
  • the speech synthesizer 110 may receive a text 'HELLO' as a text input through an interface or a speech recognizer.
  • speech synthesizer 110 may be configured to receive sequential rhyme features.
  • the sequential rhyme feature may include rhyme information of each time unit according to a predetermined time unit.
  • the sequential rhyme feature may include information about a sound height, and may include, for example, information indicating a pitch over time of '11113'.
  • this sequential rhyme feature may be extracted or determined from any extractor capable of extracting the rhyme feature for the sound, for example from a pitch tracker.
  • the speech synthesizer 110 may receive arbitrary information indicating sequential rhyme information about the sound, for example, may receive information indicated by the score.
  • speech synthesizer 110 receives sequential rhyme features corresponding to attribute values expressed in speech synthesis markup language over time for text input from any device. can do. This attribute value is described in detail below with reference to FIG. 9.
  • the speech synthesizer 110 may be configured to generate output data for the input text reflecting the received sequential rhyme characteristics. To this end, the speech synthesizer 110 may apply rhyme information according to the time sequence represented by the sequential rhyme characteristics to the input text. For example, as illustrated in FIG. 1, the speech synthesizer 110 may generate output speech data by reflecting '11113', which is information indicating a pitch according to time, received in the input text 'HELLO'. That is, the speech synthesizer 110 may generate an output voice corresponding to the questionable text 'HELLO?' Having a pitch of 'o' which is the last character of the input text higher than other characters. The voice thus generated may be output through an output device such as a speaker, or may be transmitted to another device having an I / O device.
  • an output device such as a speaker
  • FIG. 2 outputs the synthesized speech 240 using the sequential rhyme feature 210 and the input text 120 extracted from the sequential rhyme feature extractor 230 by the speech synthesizer 110 according to an embodiment of the present disclosure. It is an exemplary view showing the process of doing.
  • the sequential rhyme feature extractor 230 may correspond to the sequential rhyme feature extractor 410 of FIG. 4. Since the input text 120 and the speech synthesizer 110 have been described with reference to FIG. 1, redundant description thereof will be omitted.
  • the sequential rhyme feature extractor 230 may receive a voice signal or a voice sample 220 and extract the sequential rhyme feature 210 from the received voice signal or sample.
  • the received voice signal or sample may include voice spectral data representing information related to the sequential rhyme feature 210, and may include, for example, a melody, a voice of a specific speaker, and the like.
  • any known suitable feature extraction method capable of extracting the sequential rhyme feature 210 from the speech signal or sample 220 may be used.
  • an artificial neural network or a machine learning model may be used to extract sequential rhyme features.
  • the neural network or machine learning model used in the sequential rhyme feature extractor 230 may include a recurrent neural network (RNN), a long short-term memory model (LSTM), a deep neural network (DNN), and a convolution neural (CNN). It can be composed of any one or a combination of various artificial neural network models, including the network).
  • the sequential rhyme feature extractor 230 may extract a plurality of feature vectors (embedding vectors) representing the sequential rhyme features 210 by inputting the received voice signal or voice sample into the artificial neural network rhyme feature model.
  • each of the plurality of embedding vectors may correspond to a predetermined time unit (eg, frame, phoneme, letter, syllable or word).
  • the vector may include one of various speech feature vectors such as mel frequency cepstral coefficient (MFCC), linear predictive coefficients (LPC), perceptual linear prediction (PLP), and the like, but is not limited thereto.
  • MFCC mel frequency cepstral coefficient
  • LPC linear predictive coefficients
  • PGP perceptual linear prediction
  • the length of the vector may be variable or different depending on the length of the input speech sample.
  • the speech synthesizer 110 may generate voice output data reflecting the sequential rhyme features 210 extracted from the sequential rhyme feature extractor 230 in the received text 120.
  • the speech synthesizer 110 inputs embedding information corresponding to the input 'HELLO' text and a plurality of embedding vectors extracted by the sequential rhyme feature extractor 230 into the artificial neural network text-to-speech synthesis model and sequentially. It is possible to generate 'HELLO' voice data reflecting rhyme characteristics.
  • the generated voice may be output through an output device such as a speaker, or transmitted to another device having an I / O device.
  • FIG. 3 illustrates a sequential rhyme feature 210 and a speaker's utterance feature according to an embodiment of the present disclosure.
  • the speech synthesizer 110 may receive an input text 120, a sequential rhyme feature 210, and a speaker's utterance feature 330.
  • the sequential rhyme feature 210 may be extracted from the sequential rhyme feature extractor 230 based on the voice signal or the voice sample 220, and the speaker's utterance feature 330 may be used to extract the voice signal or the voice sample 320.
  • the speaker's utterance feature extractor 310 may be extracted.
  • the voice signal or voice sample 220 input to the sequential rhyme feature extractor 230 may be different from the voice signal or voice sample 320 input to the voice feature extractor 310.
  • the two voice signals or voice samples 220, 320 may be identical to each other. Since the speech synthesizer 110, the input text 120, the sequential rhyme feature 210, the speech signal or the voice sample 220, and the sequential rhyme feature extractor 230 have been described with reference to FIGS. The description is omitted.
  • the speech feature extractor 310 may be configured to extract the speaker's speech feature from the speech data.
  • the speaker's utterance feature may include at least one of various elements such as style, rhyme, emotion, tone, pitch, etc., which may not only simulate the speaker's voice but also constitute the utterance.
  • the speaker's utterance feature may include a one-hot speaker ID-vector representing the speaker.
  • the speaker's utterance feature may include an embedding vector representing the speaker's utterance feature.
  • the speech feature extractor 310 may correspond to the speech feature extractor 415 of FIG. 4.
  • the speech synthesizer 110 may generate the output speech 340 by inputting the input text 120, the sequential rhyme feature 210, and the speaker's speech feature 330 into the artificial neural network text-to-speech synthesis model.
  • the output voice 340 may include output voice data for the input text 120 reflecting the sequential rhyme feature 210 and the speaker's utterance feature 330. That is, the output voice 340 simulates the speaker's voice based on the speaker's utterance feature and reflects the sequential rhyme feature 210, thereby converting the input text 120 into the sequential rhyme feature 210 to which the speaker is input. It may be data synthesized by talking voice.
  • the second speaker's voice is the time of the second speaker.
  • the voice saying 'HELLO' may be output based on the rhyme information according to FIG.
  • the voice thus generated may be output through an output device such as a speaker, or may be transmitted to another device having an I / O device.
  • the speech synthesizer 110 receives a plurality of embedding vectors over time representing the sequential rhyme features 210 extracted from the sequential rhyme feature extractor 230, but is not limited thereto.
  • the synthesizer 110 may receive an input value for a plurality of embedding vectors over time indicating the sequential rhyme feature 210 through an I / O device (not shown).
  • a plurality of embedding vectors according to time representing the sequential rhyme feature 210 may be stored in advance in a storage medium (not shown), and the voice synthesizer 110 may access the storage medium to receive the plurality of embedding vectors. Can be.
  • the modified information on the plurality of embedded vectors thus extracted or stored may be received through the I / O device, the plurality of embedded vectors may be modified according to the received modified information, and the modified plurality of embedded vectors may be speech synthesizers. May be received at 110.
  • the speaker's utterance feature 330 is illustrated as being extracted from the utterance feature extractor 310 and provided to the voice synthesizer 110, but the present disclosure is not limited thereto.
  • An input value for the embedded embedding vector may be received through an I / O device (not shown).
  • an embedding vector representing the utterance feature may be stored in advance in a storage medium (not shown), and the speech synthesizer 110 may access the storage medium to receive the embedding vector representing the utterance feature.
  • FIG. 4 is a block diagram of a text-to-speech synthesis system 400 according to one embodiment of the present disclosure.
  • the text-to-speech synthesis system 400 includes a communication unit 405, a sequential rhyme feature extractor 410, a speech feature extractor 415, a normalizer 420, a voice database 425, an attention module 430, an encoder.
  • the communication unit 405 may be configured such that the text-to-speech synthesis system 400 transmits and receives signals or data with an external device.
  • the external device may include a user terminal for providing a text-to-speech service.
  • the external device may include other text-to-speech synthesis systems.
  • the external device can be any device including a voice database.
  • the communication unit 405 may be configured to receive text from an external device.
  • the text may include training text to be used for training the neural network text-voice synthesis model.
  • the text may include input text that will be used to generate synthesized speech via an artificial neural network text-to-speech synthesis model.
  • Such text may be provided to at least one of the voice database 425, the encoder 435, the decoder 440, the data learner 450, and the data recognizer 455.
  • the communication unit 405 may be configured to receive a voice signal or a voice sample through an external device. According to an embodiment, such a voice signal or a sample may be transmitted to the sequential rhyme feature extractor 410 to extract the sequential rhyme feature from the voice signal or the sample. According to another exemplary embodiment, the voice signal or sample may be transmitted to the voice feature extractor 415 so that the speaker's voice feature may be extracted from the voice signal or sample. The extracted sequential rhyme feature and / or speaker's utterance feature may be transmitted to the encoder 435 and / or the decoder 440 through the data learner 450 and used to train the neural network text-voice synthesis model. .
  • the extracted sequential rhyme features and / or speaker's speech features are transmitted to the encoder 435 and / or the decoder 440 through the data recognizer 455 to synthesize synthesized speech from the artificial neural network text-voice synthesis model. Can be used to generate
  • the communication unit 405 may receive a sequential rhyme feature from an external device.
  • the text-to-speech synthesis system 400 may receive the sequential rhyme feature extracted through the sequential rhyme feature extractor 230 of FIG. 2 through the communication unit 405.
  • the communication unit 405 may receive the speaker's speech feature from an external device.
  • the communicator 405 may transmit / receive the speaker's voice feature 330 from the speaker's voice feature extractor 310 of FIG. 3.
  • the received sequential rhyme feature and / or the speaker's utterance feature are the normalizer 420, the voice database 425, the attention module 430, the encoder 435, the decoder 440, the data learner 450, or the data. It may be provided to at least one of the recognition unit 455.
  • the communication unit 405 may receive rhyme information on the input text from the external device as a sequential rhyme feature.
  • the rhyme information may include an attribute value input through a tag provided in a speech synthesis markup language for each part (eg, phoneme, letters, syllables, words, etc.) of the input text.
  • the communication unit 405 may transmit information related to the generated output voice, that is, output voice data to an external device.
  • the generated neural network text-to-speech synthesis model may be transmitted to the user terminal or another text-to-speech synthesis system through the communication unit 405.
  • the text-to-speech synthesis system 400 receives a text, a voice signal or a sample, a sequential rhyme feature, and a speaker's voice feature through the communication unit 405, or output voice data and an artificial neural network text-to-speech synthesis model. Although illustrated as being output through the communication unit 405, the text-to-speech synthesis system 400 may further include an input / output device (I / O device; not shown). Accordingly, the text-to-speech synthesis system 400 may directly receive an input from the user and output at least one of text, voice, and video to the user.
  • I / O device input / output device
  • the sequential rhyme feature extractor 410 may be configured to receive a voice signal or a sample through the communication unit 405 or an input / output device, and extract the sequential rhyme feature from the received voice signal or sample.
  • the sequential rhyme feature extractor 410 may correspond to the sequential rhyme feature extractor 230 of FIGS. 2 and 3.
  • the sequential rhyme feature extractor 410 may extract the sequential rhyme features from the received voice signal or sample using a speech processing method such as Mel frequency sestol (MFC).
  • MFC Mel frequency sestol
  • sequential rhyme features may be extracted by inputting a trained rhyme feature extraction model (eg, an artificial neural network) using a voice sample.
  • the sequential rhyme feature may be represented by a plurality of embedding vectors corresponding to a predetermined unit over time.
  • the predetermined unit may correspond to at least one unit such as a frame, a phoneme, a letter, a syllable, a word, a word, and the like.
  • the sequential rhyme feature extractor 410 may receive at least one of information about video, music or sheet music, and may be configured to extract sequential rhyme features from the received video, music and / or sheet music. Can be.
  • correction information for a plurality of embedding vectors indicating sequential rhyme characteristics may be received through an I / O device (not shown), and the plurality of embedding vectors may be modified through the received information.
  • the extracted or modified sequential rhyme feature may be provided to the data learner 450 and / or the data recognizer 455 and provided to at least one of the encoder 414 and / or the decoder 440.
  • the sequential rhyme feature may be provided to the normalizer 420 and / or the attention module 430 before being provided to the data learner 450 and / or the data recognizer 455.
  • the sequential rhyme features extracted from the sequential rhyme feature extractor 410 may be stored in a storage medium (eg, the voice database 425) or an external storage device. Accordingly, when synthesizing the input text, one or more of a plurality of sequential rhyme features previously stored in the storage medium may be selected or specified, and the selected or specified sequential rhyme features may be used for speech synthesis.
  • the speech feature extractor 415 may be configured to receive the speaker's speech signal (eg, a voice sample) and extract the speaker's speech feature from the received speech signal.
  • the extracted utterance feature may simulate the speaker, and may include any feature included in the speaker's voice, for example, may be represented by a plurality of embedding vectors.
  • any known suitable feature extraction method that can extract the speech characteristics from the speaker's speech signal may be used.
  • the voice feature extractor 415 may extract the speaker's voice feature from the voice sample using an artificial neural network or a machine learning model.
  • the speaker's utterance feature extractor 415 may correspond to the speaker's utterance feature extractor 310 of FIG. 3.
  • the extracted speaker's voice feature may be provided to at least one of the data learner 450, the data recognizer 455, the encoder 435, or the decoder 440.
  • the speaker's voice feature extracted from the voice feature extractor 415 may be stored in the voice database 425 or an external storage device. Accordingly, when speech synthesis is performed on the input text, one or more of the voice features of the plurality of speakers previously stored in the storage medium may be selected or designated, and the voice features of the selected or designated speakers may be used for voice synthesis.
  • the speaker's utterance feature may include a speaker's sequential rhyme feature.
  • the speaker's voice feature extractor 415 may be configured to extract the speaker's sequential rhyme feature from the voice sample.
  • the speaker's voice feature extractor 415 may provide a voice sample to the sequential rhyme feature extractor 410 to receive the speaker's sequential rhyme features extracted from the voice sample.
  • the extracted sequential rhyme features of the speaker may be provided to the normalizer 420.
  • the sequential rhyme feature extraction unit 410 and the speaker's utterance feature extraction unit 415 are illustrated as being configured as separate units, but are not limited thereto and may be configured as one unit.
  • the normalizer 420 may receive the speaker's sequential rhyme features (multiple embedding vectors) from the sequential rhyme features and the vocalization feature extractor 415 as the speaker's utterance features. .
  • sequential rhyme features received from the sequential rhyme feature extractor 410 will be referred to as first sequential rhyme features
  • the sequential rhyme features of the speaker from the vocalization feature extractor 415 will be referred to as second sequential rhyme features. Can be.
  • the normalizer 420 may be configured to normalize the first sequential rhyme feature (eg, the plurality of embedding vectors) based on the second sequential rhyme feature (eg, the plurality of embedding vectors).
  • the first sequential rhyme feature may be a feature extracted from a speaker different from the speaker associated with the second sequential rhyme feature.
  • the normalizer 420 may be configured to calculate an average value of a plurality of embedding vectors corresponding to the second sequential rhyme feature at each time step.
  • the normalizer 420 may normalize the plurality of embedding vectors representing the first sequential rhyme features by subtracting the plurality of embedding vectors representing the first sequential rhyme features to an average value of the embedding vectors calculated at each time step. .
  • the plurality of normalized embedding vectors may be provided to at least one of the voice database 425, the attention module 430, the encoder 435, the decoder 440, the data learner 450, or the data recognizer 455. Can be. Since a plurality of embedding vectors corresponding to the first sequential rhyme feature is normalized using an average value of the plurality of embedding vectors corresponding to the second sequential rhyme feature, an artificial neural network text-voice synthesis model is used to associate the second sequential rhyme feature. When a synthesized voice corresponding to an arbitrary text is generated to simulate the speaker and reflect the first sequential rhyme feature extracted from another speaker, the first sequential rhyme feature may be more naturally applied to the voices of different speakers.
  • the voice database 425 may store a learning text and a voice corresponding to the plurality of learning texts, and may be accessed by the learning text and the corresponding voice sound data learning unit 450.
  • the learning text may be written in at least one language, and may include at least one of words, phrases, and sentences that can be understood by a person.
  • the voice stored in the voice database 425 may include voice data from which a plurality of speakers read a training text.
  • the training text and the voice data may be stored in advance in the voice database 425 or may be received from the communication unit 405.
  • the data learning unit 450 may generate or learn an artificial neural network text-voice synthesis model.
  • the neural network text-synthesis model may include an encoder 435 and a decoder 440.
  • the neural network text-synthesis model may include an encoder 435, a decoder 440, and a post processing processor 445.
  • the voice database 425 may be configured to store one or more sequential rhyme features.
  • the one or more sequential rhyme features may include sequential rhyme features normalized from the normalizer 420.
  • the voice feature extraction unit 415 may be configured to store voice features of one or more speakers.
  • the stored sequential rhyme feature may be provided to at least one of the encoder 435 or the decoder 440 during speech synthesis by the data learner 450 and / or the data recognizer 455.
  • the stored speaker's utterance feature may be provided to at least one of the encoder 435 or the decoder 440 during speech synthesis by the data learner 450 and / or the data recognizer 455.
  • the attention module 430 may receive the sequential rhyme feature or the normalized sequential rhyme feature from the sequential rhyme feature extractor 410 or the normalizer 420. According to an embodiment, the attention module 430 may be configured to receive a plurality of embedding vectors representing sequential rhyme characteristics and generate a plurality of transform embedding vectors corresponding to respective portions of the input text provided to the encoder 435. Can be. For example, the attention module 430 may be configured to determine which portion of the plurality of embedding vectors over time corresponds to which portion of the input text at the current time-step. The plurality of transform embedding vectors generated by the attention module 430 may be provided to the encoder 435 for speech synthesis.
  • the encoder 435 may receive the input text and may be configured to convert the input text into character embedding to generate it.
  • the encoder 435 may be configured as part of the neural network text-to-speech synthesis model.
  • Such character embedding is input to a first artificial neural network text-voice synthesis model (eg, pre-net, CBHG module, DNN, CNN + DNN, etc.) corresponding to encoder 435 to hide hidden states of encoder 435. Can be generated.
  • the first neural network text-voice synthesis model may be included in the artificial neural network text-voice synthesis model.
  • the encoder 435 may further receive the sequential rhyme feature from the sequential rhyme feature extractor 410, the normalizer 420, or the attention module 430.
  • Character embedding and sequential rhyme features may be input to the first artificial neural network text-to-speech synthesis model to generate hidden states of the encoder 435.
  • the encoder 435 may further receive the talker's talk feature from the talk feature extractor 415.
  • the speaker's utterance feature may be input into the first artificial neural network text-to-speech synthesis model along with the character embedding and the sequential rhyme feature to generate hidden states of the encoder 435.
  • the hidden states of the encoder 435 thus generated may be provided to the decoder 440.
  • Decoder 440 may be configured as part of an artificial neural network text-to-speech synthesis model.
  • decoder 440 may be configured to receive sequential rhyme features.
  • the decoder 440 may receive the sequential rhyme feature from at least one of the sequential rhyme feature extractor 410 or the normalizer 420.
  • the decoder 440 may receive hidden states corresponding to the input text from the encoder 435.
  • Decoder 440 may also include an attention module configured to determine which portion of the input text is to be generated at the current time-step.
  • the sequential rhyme features and / or hidden states corresponding to the input text may include a second artificial neural network text-voice synthesis model corresponding to the decoder 440 (eg, attention module, decoder RNN, attention RNN, pre-net). , DNN, etc.) to generate output voice data corresponding to the input text.
  • the second neural network text-to-speech synthesis model may be included in the artificial neural network text-to-speech synthesis model.
  • the decoder 440 may be configured to further receive the speaker's voice feature from the voice feature extractor 415.
  • the sequential rhyme feature, the hidden states corresponding to the input text, and / or the speaker's utterance feature are input to a second artificial neural network text-to-speech synthesis model corresponding to the decoder 440 to generate output speech data corresponding to the input text.
  • Such output speech data may include output speech data for input text that simulates the speaker's speech and reflects sequential rhyme characteristics.
  • the output voice data generated in this way may be represented by a mel spectrogram.
  • the present invention is not limited thereto, and the output voice data may be represented by a linear spectrogram.
  • the output voice data may be output to at least one of a speaker, a post processor 445, and a communication unit 405.
  • the post-processing processor 445 may be configured to convert the output voice data generated by the decoder 440 into voices output from the speaker.
  • the changed outputable speech can be represented by a waveform.
  • Post-processing processor 445 may be configured to operate only if the output speech data generated at decoder 440 is inappropriate to be output from a speaker. That is, when the output voice data generated by the decoder 440 is suitable to be output from the speaker, the output voice data may be directly output to the speaker without passing through the post-processing processor 445. Accordingly, although the post-processing processor 445 is shown in FIG. 4 to be included in the text-to-speech synthesis system 400, the post-processing processor 445 may be configured not to be included in the text-to-speech synthesis system 400. have.
  • the post-processing processor 445 may be configured to convert the output speech data represented by the mel spectrogram generated by the decoder 440 into a waveform in the time domain.
  • the post-processing processor 445 may amplify the size of the output voice data when the size of the signal of the output voice data does not reach a predetermined reference size.
  • the post-processing processor 445 may output the converted output voice data to at least one of the speaker or the communication unit 405.
  • the data learner 450 may correspond to the data learner 1010 of FIG. 10.
  • the data learner 450 may receive data representing a plurality of learning texts and corresponding learning voices through the voice database 425 or the communication unit 405.
  • the data representing the learning text may include information on at least one letter.
  • the data representing the learning text may include a phoneme sequence corresponding to the learning text using a Grapheme-to-phoneme (G2P) algorithm.
  • G2P Grapheme-to-phoneme
  • the data representing the learning speech may be data obtained by recording the speech read by a human text, a sound feature extracted from such recording data, a spectrogram, or the like.
  • the data representing the learning voice may include sequential rhyme features of the learning voice.
  • the data representing the learning voice may further include a utterance characteristic of the speaker who spoke the learning voice.
  • the data learner 450 may generate an artificial neural network text-to-speech synthesis model by performing machine learning based on a pair of learning data corresponding to a plurality of learning texts and corresponding learning voices.
  • the learning text may be provided to a first artificial neural network text-to-speech synthesis model corresponding to the encoder of the artificial neural network text-to-speech synthesis model, wherein the sequential rhyme feature is the first artificial neural network text-to-speech synthesis model and / or It may be input to a second artificial neural network text-to-speech synthesis model corresponding to the decoder.
  • the data recognizer 455 may be configured to receive an input text and to receive a sequential rhyme feature.
  • the input text and the sequential rhyme features may be input to the artificial neural network text-voice synthesis model to generate output speech data for the input text reflecting the received rhyme features.
  • the input text may be provided to the first artificial neural network text-voice synthesis model
  • the sequential rhyme feature may be input to the first artificial neural network text-voice synthesis model and / or the second artificial neural network text-voice synthesis model.
  • output speech data corresponding to the input text in which the sequential rhyme features are reflected can be generated from the artificial neural network text-voice synthesis model.
  • the data recognizer 455 may be configured to further receive the speaker's speech characteristics.
  • the received speaker's utterance feature may be provided to the second artificial neural network text-to-speech synthesis model as well as the sequential rhyme feature.
  • output speech data corresponding to the input text that simulates the speaker's speech and reflects the sequential rhyme characteristics can be generated from the artificial neural network text-to-speech synthesis model.
  • the text speech-synthesis system 400 generates an artificial neural network text-voice synthesis model generated by performing machine learning based on a plurality of learning texts and voice data corresponding to the plurality of learning texts. Can be done.
  • the neural network text-voice synthesis model may be a single neural network text-voice synthesis model.
  • the text-to-speech synthesis system 400 may perform a step of receiving an input text at S520. In step S530, the text-to-speech synthesis system 400 Receiving a sequential rhyme feature may be performed.
  • the text-to-speech synthesis system 400 may input the input text and the sequential rhyme feature into a pre-learned text-to-speech synthesis model to generate output speech data for the input text in which the sequential rhyme feature is reflected in S540. have.
  • each of encoder 610 and decoder 620 and post-processor 630 may correspond to each of encoder 435, decoder 440 and post-processor 445 of FIG. 4.
  • the encoder 610 may receive character embedding for the input text, as shown in FIG. 6.
  • the input text may include at least one of a word, phrase, or sentence used in one or more languages. For example, text such as a sentence such as 'HELLO' may be input.
  • the encoder 610 may divide the received input text into a letter unit, a letter unit, and a phoneme unit.
  • the encoder 610 may receive input text divided into a Jamo unit, a character unit, and a phoneme unit. The encoder 610 may then generate the input text by converting it into character embedding.
  • the encoder 610 may be configured to generate text as pronunciation information.
  • encoder 610 may pass the generated character embedding to a pre-net including a fully-connected layer.
  • the encoder 610 may provide an output from the pre-net to the CBHG module to output encoder hidden states e i of the encoder, as shown in FIG. 6.
  • the CBHG module may include a 1D convolution bank, max pooling, highway network, and bidirectional gated recurrent unit (GRU).
  • encoder 610 when encoder 610 receives input text or separated input text, encoder 610 may be configured to generate at least one embedding layer.
  • at least one embedding layer of the encoder 610 may generate character embedding based on input text divided into a Jamo unit, a character unit, and a phoneme unit.
  • the encoder 610 may use a machine learning model (eg, a probabilistic model or an artificial neural network) that has already been trained to obtain character embedding based on the separated input text. Further, the encoder 610 may update the machine learning model while performing machine learning. When the machine learning model is updated, the character embedding for the separated input text may also change.
  • a machine learning model eg, a probabilistic model or an artificial neural network
  • the encoder 610 may pass the character embedding to a deep neural network (DNN) module configured with a fully-connected layer.
  • the DNN may include a general feedforward layer or a linear layer.
  • the encoder 610 may provide an output of the DNN to a module including at least one of a convolutional neural network (CNN) or a recurrent neural network (RNN), and may generate hidden states of the encoder 610.
  • CNNs can capture local characteristics according to convolution kernel size, while RNNs can capture long term dependencies.
  • the hidden states of the encoder 610 that is, pronunciation information about the input text, are provided to the decoder 620 including an attention module, and the decoder 620 may be configured to generate such pronunciation information as a voice.
  • the decoder 620 may receive the hidden states e i of the encoder from the encoder 610.
  • the decoder 620 includes an attention module, a freenet consisting of a fully connected layer, and a gated recurrnt unit (GRU) and an attention recurrent neural network (RNN), a residual.
  • the decoder may include a decoder RNN including a residual GRU.
  • the attention RNN may output information to be used in the attention module.
  • the decoder RNN may receive position information of the input text from the attention module. That is, the location information may include information regarding which location of the input text the decoder 620 is converting to speech.
  • the decoder RNN may receive information from the attention RNN.
  • the information received from the attention RNN may include information about which voice the decoder 620 produced up to a previous time-step.
  • the decoder RNN may generate the next output voice following the voice thus far generated.
  • the output voice may have a mel spectrogram form, and the output voice may include r frames.
  • the freenet included in the decoder 620 may be replaced with a DNN configured with a fully-connected layer.
  • the DNN may include at least one of a general feedforward layer or a linear layer.
  • decoder 620 may be configured to receive sequential rhyme features.
  • the sequential rhyme feature extractor 410 may include a plurality of embedding vectors p1, p2,... Pn representing sequential rhyme features from a speech signal or a sample, where n is a speech sample. Proportional to the length of.
  • Each of the plurality of embedding vectors may include a rhyme feature or information for each unit time. The manner in which the sequential rhythm feature extractor 410 inputs a plurality of embedding vectors p1, p2, ... pn from the voice signal or the sample to the decoder will be described in detail with reference to FIG.
  • the decoder 620 may be configured to further receive the speaker's speech characteristics.
  • the speaker's utterance feature may include a speaker ID input to the utterance feature extraction unit 415 to generate a speaker embedding vector e corresponding to the speaker's utterance feature as the speaker's utterance feature. have.
  • the speaker's utterance feature may be generated by extracting the speaker's embedding vector from a voice signal or sample other than the speaker ID.
  • the attention module of the decoder 620 may receive information from the attention RNN.
  • the information received from the attention RNN may include information about which voice the decoder 620 produced up to a previous time-step.
  • the attention module of the decoder 620 may output the context vector based on the information received from the attention RNN and the information of the encoder.
  • the information of the encoder 610 may include information about input text to generate speech.
  • the context vector may include information for determining which portion of the input text to generate a speech at the current time-step. For example, the attention module of the decoder 620 generates a voice based on the front part of the input text at the beginning of the voice generation, and gradually generates a voice based on the back part of the input text as the voice is generated. Information can be output.
  • the decoder 620 inputs each of the embedding vectors p1, p2, ... pn and the speaker embedding vector e for each of the attentional RNN and decoder RNN in the sequential rhyme features.
  • the structure of the neural network can be configured to decode differently for each speaker, and for each part of the input text.
  • FIG. 6 although a plurality of embedding vectors p1, p2,... Pn are illustrated as being extracted from the sequential rhyme feature extraction unit 410, the present invention is not limited thereto, and the decoder 620 may be normalized from the normalizer 420.
  • a plurality of embedding vectors corresponding to the sequential rhyme features may be received, and the plurality of embedding vectors corresponding to the normalized sequential rhyme features are input for each time step of the attention RNN and the decoder RNN together with the embedding vector e of the speaker. Can be.
  • the dummy frames are frames that are input to the decoder 620 when there is no previous time-step.
  • RNNs can do machine learning autoregressive. That is, the r frame output in the previous time-step 622 may be an input of the current time-step 623. Since there cannot be a previous time-step in the initial time-step 621, the decoder 620 may input a dummy frame into the initial time-step machine learning network.
  • the operations of the DNN, the attention RNN, and the decoder RNN may be performed repeatedly for text-to-speech synthesis.
  • the r frames obtained in the first time-step 621 may be input to the next time-step 622.
  • the r frames output in the time-step 622 may be input to the next time-step 623.
  • the text-to-speech synthesis system can control fine rhymes for the synthesized voice in order to more accurately convey people's intentions or emotions.
  • the decoder 620 may concatenate the mel spectrograms generated for each time-step in chronological order to obtain a voice of the mel spectrogram for the entire text.
  • the voice of the mel spectrogram for the entire text may be output to the post processor 630.
  • the post processing processor 630 may correspond to the post processing processor 445 of FIG. 4.
  • the CBHG of the post-processor 630 may be configured to convert the mel scale spectrogram of the decoder 620 into a linear-scale spectrogram, as shown in FIG. 6.
  • the output signal of the CBHG of the post processing processor 630 may include a magnitude spectrogram.
  • the phase of the output signal of the CBHG of the post-processor 630 may be recovered through a Griffin-Lim algorithm and may be inverse short-time fourier transform.
  • the post processing processor 630 may output a voice signal in a time domain.
  • post-processing processor 630 is configured to include a CNN or RNN, which CNN or RNN is associated with a CNN or RNN of encoder 610. Similar operations can be performed. That is, the CNN or RNN of the post processor 630 may capture local characteristics and long term dependencies.
  • the post processing processor 630 may be a vocoder. Accordingly, the CNN or RNN of the post processor 630 may output a linear-scale spectrogram.
  • the linear-scale spectrogram may include a magnitude spectrogram.
  • the post-processing processor 630 may predict the phase of the spectrogram through the Griffin-Lim algorithm.
  • the post processing processor 630 may output a voice signal of a time domain using an inverse short-time fourier transform.
  • the post processing processor 630 may generate a speech signal from the mel spectrogram based on the machine learning model.
  • the machine learning model may include a model of machine learning the correlation between the mel spectrogram and the speech signal.
  • an artificial neural network model such as WaveNet or WaveGlow may be used.
  • the neural network-based text-to-speech synthesis system can be trained using a large database that exists as a pair of training texts and voice signals.
  • the speech synthesizing apparatus may receive a text and define a loss function by comparing the output speech signal with a correct answer speech signal.
  • the speech synthesis apparatus learns a loss function through an error back propagation algorithm, and finally obtains an artificial neural network that generates a desired speech output when an arbitrary text is input.
  • text, speech characteristics, sequential rhyme characteristics, etc. may be input to an artificial neural network text-voice synthesis model to output a speech signal.
  • the text-to-speech synthesis system compares the output speech signal with the correct speech signal and learns it.
  • the output speech data reads the text reflecting the sequential rhyme characteristics of the speaker. Can be generated.
  • FIG. 7 is an exemplary diagram illustrating a process of generating a synthesized speech by inputting sequential rhyme features to the decoder 720 of the text-to-speech synthesis system in an artificial neural network based text-to-speech synthesis system according to an embodiment of the present disclosure.
  • each of the encoder 710, the decoder 720, the sequential rhyme feature extractor 730, and the attention module 740 is an encoder 435, a decoder 440, and a sequential rhyme feature extractor 410 of FIG. 4.
  • the encoder 710 and the decoder 720 may correspond to each of the encoder 610 and the decoder 620 of FIG. 6.
  • the length N of the voice is assumed to be 4, and the length T of the text is 3, but the present invention is not limited thereto.
  • the length N of the voice and the length T of the text may be any positive numbers different from each other.
  • the sequential rhyme feature extractor 730 receives the spectrograms y 1 , y 2 , y 3 , y n , and includes a plurality of embeddings that represent sequential rhyme features. It can be configured to extract the vectors P 1 , P 2 , P 3 , P n .
  • the plurality of embedding vectors P 1 , P 2 , P 3 , and P n extracted in this way may be provided to the decoder 720.
  • the extracted plurality of embedding vectors P 1 , P 2 , P 3 , P n may be provided to the N decoders RNNs and the attention RNNs of the decoder 720.
  • hidden states e 1 , e 2 , e T provided from the encoder 710 may be provided to the attention module 740, and the attention module 740 may be hidden states e 1 , e 2 , e. T ) may generate transform hidden states e ' 1 , e' 2 , e ' 3, e' N to correspond to the lengths of the spectrograms P 1 , P 2 , P 3 , P n .
  • the generated transform hidden states e ' 1 , e' 2 , e ' 3, e' N are connected together with the extracted plurality of embedding vectors P 1 , P 2 , P 3 , P n to form N decoders.
  • the processing in the decoder 720 is a process overlapping with the processing described with reference to FIG. 6, a detailed description thereof will be omitted.
  • the neural network text-voice synthesis model included in the encoder 710 and the decoder 720 may be trained so that the sequential rhyme characteristics may be more naturally reflected.
  • spectrograms y 1 , y 2 , y 3 , y n representing a specific voice are provided to the sequential rhythm feature extractor 730, and the same spectrograms y 1 and y 2 are provided through the decoder 620. , y 3 , y n ) is described.
  • the present invention is not limited thereto, and a voice having a different length from that output through the decoder 720 may be input to the sequential rhythm feature extractor 730.
  • an additional attention module (not shown) receives the plurality of embedding vectors extracted from the sequential rhyme feature extractor and converts the lengths of the received embedding vectors to correspond to the lengths of the voices output through the decoder 720. You can. Then, the transformed plurality of embedding vectors may be provided to the decoder 720.
  • FIG. 8 is an exemplary diagram illustrating a process of generating a synthesized speech by inputting sequential rhyme features to an encoder 820 of a text-to-speech synthesis system in an artificial neural network based text-to-speech synthesis system according to an embodiment of the present disclosure.
  • each of the attention module 810, the encoder 820, the decoder 830, and the sequential rhyme feature extractor 840 is the attention module 430, the encoder 435, the decoder 440, and the sequential rhyme of FIG. 4.
  • Each feature extractor 410 may correspond to each other.
  • the encoder 810 and the decoder 820 may correspond to each of the encoder 610 and the decoder 620 of FIG. 6.
  • FIG. 8 illustrates that the voice length N is 4 and the text length T is 3, the present invention is not limited thereto, and the voice length N and the text length T may be any positive numbers different from each other.
  • the sequential rhyme feature extractor 840 receives the spectrograms y 1 , y 2 , y 3 , y n , and includes a plurality of embeddings that represent sequential rhyme features. It can be configured to extract the vectors P 1 , P 2 , P 3 , P n .
  • the plurality of embedding vectors P 1 , P 2 , P 3 , and P n extracted in this way may be provided to the attention module 810.
  • the attention module 810 converts the plurality of input embedding vectors P 1 , P 2 , P 3 , and P n to correspond to the length T of the phoneme sequence corresponding to the encoder 820.
  • each of the plurality of transform embedding vectors P 1 ′, P 2 ′, and P T ′ generated in this manner may include hidden states e 1 , e 2 , and s corresponding to a phoneme sequence of the input text. e T ) may be connected to correspond to each other.
  • the connected hidden states e 1 , e 2 , e T and the plurality of transform embedding vectors P 1 ′, P 2 ′, and P T ′ may be provided to the decoder 830.
  • the decoder 830 stores the received hidden states e 1 , e 2 , e T and the transform embedding vectors P 1 ′, P 2 ′, P T ′ in the attention module of the decoder 830.
  • a phoneme sequence y 1 , y 2 , y 3 , y n can be generated using the pre-net, N decoders RNN, and the attention RNN.
  • a plurality of transform embedding vectors corresponding to a word ( , , ..., ) Is generated, a plurality of transform embedding vectors ( , , ..., Each of) may be connected to correspond to each of the hidden states corresponding to the word sequence of the input text.
  • the processing in the decoder is a process overlapping with the processing described with reference to FIG. 6, a detailed description thereof will be omitted.
  • the neural network text-voice synthesis model included in the encoder 820 and the decoder 830 may be trained to more naturally reflect the sequential rhyme characteristics.
  • the network of the sequential rhyme feature extraction unit 920 may include a convolutional neural network (CNN), batch-normalization (BN), a rectifier linear unit (ReLU), and a gated recurrent unit (GRU).
  • CNN, BN, and ReLU receive a voice signal or a sample and input the output value to a gated recurrent unit (GRU)
  • the CNN, BN, and ReLU may output a plurality of embedding vectors indicating sequential rhyme characteristics.
  • the voice signal or sample may be received in the form of log-Mel-spectrogram.
  • the speech signal or sample need not be speech data corresponding to the input text, and a randomly selected speech signal may be used.
  • the speech signal or sample may include speech data corresponding to the input text.
  • any spectrogram can be inserted into this network because there is no restriction in using the spectrogram.
  • the spectrogram input as a voice signal or a sample may have a variable length, and lengths of a plurality of embedding vectors may vary according to the length.
  • FIG. 9 illustrates a network including CNN, BN, ReLU, and GRU, a network including various layers may be constructed to extract sequential rhyme characteristics.
  • FIG. 10 is a schematic diagram of a text-to-speech synthesis system 1000 for outputting synthesized speech by applying an attribute value input to a tag provided in a markup language according to an embodiment of the present disclosure to an input text.
  • the text-to-speech synthesis system 1000 may correspond to the text-to-speech synthesis system 400 of FIG. 4 and / or the text-to-speech synthesis system 1100 of FIG. 11.
  • the text-to-speech synthesis system 1000 may receive rhyme information for at least a portion of the text through the interface device.
  • the interface device may include any interface device directly connected to the text-voice synthesis system 1000 or connected through wired and / or wireless communication, and may include, for example, an interface of a user terminal.
  • rhyme information for at least a portion of the text may be received through any text editor or voice editor capable of entering and editing any text.
  • the speech synthesis system 1000 may receive, as rhyme information, an attribute value corresponding to each part of the input text using a tag of any speech synthesis markup language provided in an arbitrary text editor.
  • a tag provided in a speech synthesis markup language may include any tag for indicating an attribute included in a sequential rhyme feature.
  • Rhyme information corresponding to the text portion between the start tag and the end tag may be input.
  • ⁇ speed 1.5> I'm a boy.
  • ⁇ / speed> ' may include rhyme information indicating a speed in a part of I'm a boy between the start tag and the end tag.
  • Figure 10 '2. This is what ⁇ style emphasis> I ⁇ / style> have. ' May include rhyme information that highlights the letter I between the start and end tags.
  • the text-to-speech synthesis system 1000 generates sequential rhyme information based on rhyme information on at least a portion of the received input text, or changes rhyme information corresponding to the input text among sequential rhyme information corresponding to the input text.
  • the synthesized speech corresponding to the input text reflecting the generated or changed sequential rhyme information may be generated.
  • the text-to-speech synthesis system 1000 may apply rhyme information (eg, attribute values) corresponding to each portion of the input text input to the reference embedding vector corresponding to the reference sequential rhyme information.
  • the reference embedding vector may include a plurality of embedding vectors representing predetermined sequential rhyme feature information.
  • the reference embedding vector includes a rhyme feature vector over time
  • each rhyme feature information includes a plurality of sub-embedding vectors (eg, height, size, length, rest period, style vector, etc.) orthogonal to each other. It can be expressed as the weighted sum of.
  • the text-to-speech synthesis system 1000 can separate the intrinsic elements of the reference embedding vector. For example, the text-to-speech synthesis system 1000 may obtain a plurality of unit embedding vectors orthogonal to each other based on the reference embedding vector.
  • a method of separating elements embedded in an embedding vector may include independent component analysis (ICA), independent vector analysis (IVA), sparse coding, independent factor analysis (IAF), independent subspace analysis (ISA), and NMF.
  • ICA independent component analysis
  • IVA independent vector analysis
  • IAF independent factor analysis
  • ISA independent subspace analysis
  • NMF nonnegative matrix factorization
  • the text-voice synthesis system 1000 can perform regularization when learning the text-voice synthesis system when learning the embedding vector for the sequential rhyme feature. have. This normalization may be performed through the normalizer 420 of FIG. 4.
  • the reference embedding vector may be learned as a sparse vector.
  • the text-to-speech synthesis system 900 can accurately separate intrinsic elements using PCA (principle component analysis) in embedding vectors learned from sparse vectors.
  • the text-to-speech synthesis system 1000 may modify the reference embedding vector based on the attribute values in the tags provided by the speech synthesis markup language. For example, the text-to-speech synthesis system 1000 may change the weights for the plurality of unit embedding vectors based on the attribute values in the received tags.
  • the text-to-speech synthesis system 1000 may be configured to modify the reference embedding vector based on attribute values in a tag provided by the received speech synthesis markup language. For example, the text-to-speech synthesis system 1000 may resynthesize the embedding vector corresponding to the sequential rhyme feature by multiplying and adding the weights changed according to the received attribute value to the plurality of unit embedding vectors. The text-to-speech synthesis system 1000 may output an embedding vector for the changed sequential rhyme feature information.
  • the text-to-speech synthesis system 1000 inputs the modified embedding vector into the neural network text-to-speech synthesis model, and outputs the output speech data to the input text reflecting the information contained in the attribute value in the tag provided by the speech synthesis markup language. Can be converted into voice data.
  • FIG. 11 is a block diagram of a text-to-speech synthesis system 1100 according to one embodiment of the disclosure.
  • the text-to-speech synthesis system 1100 may include a data learner 1110 and a data recognizer 1120.
  • Each of the data learner 1110 and the data recognizer 1120 of the text-to-speech synthesis system of FIG. 11 is a data learner 450 and the data recognizer used by the text-to-speech synthesis system 400 of FIG. 4. 455 may correspond to each other.
  • the data learner 1110 may obtain data to obtain a machine learning model.
  • the data recognizer 1120 may generate the output voice by applying the data to the machine learning model.
  • the text-to-speech synthesis system 1100 as described above may include a processor and a memory.
  • the data learner 1110 may perform voice learning on text.
  • the data learner 1110 may learn a criterion about which voice to output according to the text.
  • the data learner 1110 may learn a criterion about which voice feature to output a voice.
  • the characteristic of the voice may include at least one of a phoneme pronunciation, a user's tone, intonation, or accentuation.
  • the data learner 1110 acquires data to be used for learning and applies the acquired data to a data learning model to be described later, thereby learning a voice according to text.
  • the data recognizer 1120 may output a voice for the text based on the text.
  • the data recognizer 1120 may output a voice from a predetermined text by using the learned data learning model.
  • the data recognizer 1120 may obtain a predetermined text (data) according to a preset criterion by learning.
  • the data recognizing unit 1120 may output a voice based on predetermined data by using the data learning model using the acquired data as an input value.
  • the result value output by the data learning model using the acquired data as an input value may be used to update the data learning model.
  • At least one of the data learner 1110 or the data recognizer 1120 may be manufactured in the form of at least one hardware chip and mounted on the electronic device.
  • at least one of the data learner 1110 or the data recognizer 1120 may be manufactured in the form of a dedicated hardware chip for artificial intelligence (AI), or an existing general purpose processor (eg, a CPU).
  • AI artificial intelligence
  • the electronic device may be manufactured as a part of an application processor or a graphics dedicated processor (eg, a GPU) and mounted on the electronic devices described above.
  • the data learner 1110 and the data recognizer 1120 may be mounted on separate electronic devices, respectively.
  • one of the data learner 1110 and the data recognizer 1120 may be included in the electronic device, and the other may be included in the server.
  • the data learner 1110 and the data recognizer 1120 may provide model information constructed by the data learner 1110 to the data recognizer 1120 via a wired or wireless connection.
  • the data input to 1120 may be provided to the data learner 1110 as additional learning data.
  • At least one of the data learner 1110 or the data recognizer 1120 may be implemented as a software module.
  • the software module may be a memory or computer readable non-readable. It may be stored in a non-transitory computer readable media.
  • at least one software module may be provided by an operating system (OS) or by a predetermined application.
  • OS operating system
  • OS operating system
  • others may be provided by a given application.
  • the data learner 1110 may include a data acquirer 1111, a preprocessor 1112, a training data selector 1113, a model learner 1114, and a model evaluator 1115. It may include.
  • the data acquirer 1111 may acquire data necessary for machine learning. Since a large amount of data is required for learning, the data acquirer 1111 may receive a plurality of texts and corresponding voices.
  • the preprocessor 1112 may preprocess the acquired data so that the acquired data may be used for machine learning to determine the mental state of the user.
  • the preprocessor 1112 may process the acquired data into a preset format for use by the model learner 1114, which will be described later.
  • the preprocessor 1112 may acquire morpheme embedding by morphologically analyzing text and voice.
  • the training data selector 1113 may select data necessary for learning from the preprocessed data.
  • the selected data may be provided to the model learner 1114.
  • the training data selector 1113 may select data required for learning from preprocessed data according to a preset criterion.
  • the training data selector 1113 may select data according to preset criteria by learning by the model learner 1114 to be described later.
  • the model learner 1114 may learn a criterion about which voice to output according to the text based on the training data. In addition, the model learner 1114 may learn by using a learning model that outputs a voice according to text as learning data.
  • the data learning model may include a pre-built model.
  • the data learning model may include a model built in advance by receiving basic training data (eg, a sample image).
  • the data learning model may be constructed in consideration of the application field of the learning model, the purpose of learning, or the computer performance of the device.
  • the data learning model may include, for example, a model based on a neural network.
  • models such as Deep Neural Network (DNN), Recurrent Neural Network (RNN), Long Short-Term Memory models (LSTM), Bidirectional Recurrent Deep Neural Network (BRDNN), and Convolutional Neural Networks (CNN) can be used as data learning models. But it is not limited thereto.
  • the model learning unit 1114 may determine a data learning model having a large correlation between the input learning data and the basic learning data as a data learning model to be trained.
  • the basic training data may be previously classified by the type of data, and the data learning model may be pre-built for each type of data.
  • the basic training data is classified based on various criteria such as the region where the training data is generated, the time at which the training data is generated, the size of the training data, the genre of the training data, the creator of the training data, and the types of objects in the training data. It may be.
  • model learner 1114 may train the data learning model using, for example, a learning algorithm including an error back-propagation method or a gradient descent method.
  • model learner 1114 may learn the data learning model through, for example, supervised learning using the learning data as an input value.
  • the model learner 1114 learns data through unsupervised learning that finds a criterion for situation determination by, for example, self-learning a type of data necessary for situation determination without any guidance. You can train the model.
  • the model learner 1114 may learn the data learning model through, for example, reinforcement learning using feedback on whether the result of the situation determination according to the learning is correct.
  • the model learner 1114 may store the learned data learning model.
  • the model learner 1114 may store the learned data learning model in a memory of the electronic device including the data recognizer 1120.
  • the model learner 1114 may store the learned data learning model in a memory of a server connected to the electronic device through a wired or wireless network.
  • the memory in which the learned data learning model is stored may store, for example, commands or data related to at least one other element of the electronic device.
  • the memory may also store software and / or programs.
  • the program may include, for example, a kernel, middleware, an application programming interface (API) and / or an application program (or 'application'), or the like.
  • the model evaluator 1115 may input the evaluation data into the data learning model, and may cause the model learner 1114 to learn again when the result output from the evaluation data does not satisfy a predetermined criterion.
  • the evaluation data may include preset data for evaluating the data learning model.
  • the model evaluator 1115 may not satisfy a predetermined criterion when the number or ratio of the evaluation data whose recognition result is not accurate among the results of the learned data learning model for the evaluation data exceeds a preset threshold. It can be evaluated as. For example, when a predetermined criterion is defined at a ratio of 2%, when the trained data learning model outputs an incorrect recognition result for more than 20 evaluation data out of a total of 1000 evaluation data, the model evaluator 1115 learns. The data learning model can be evaluated as not suitable.
  • the model evaluator 1115 evaluates whether each of the learned video learning models satisfies a predetermined criterion and uses the model satisfying the predetermined criterion as the final data learning model. You can decide. In this case, when there are a plurality of models satisfying a predetermined criterion, the model evaluator 1115 may determine any one or a predetermined number of models which are preset in the order of the highest evaluation score as the final data learning model.
  • At least one of the data acquirer 1111, the preprocessor 1112, the training data selector 1113, the model learner 1114, or the model evaluator 1115 in the data learner 1110 may be at least one. May be manufactured in the form of a hardware chip and mounted on an electronic device.
  • at least one of the data acquirer 1111, the preprocessor 1112, the training data selector 1113, the model learner 1114, or the model evaluator 1115 may be artificial intelligence (AI). It may be manufactured in the form of a dedicated hardware chip, or may be manufactured as part of an existing general purpose processor (eg, a CPU or an application processor) or a graphics dedicated processor (eg, a GPU) and mounted on the above-mentioned various electronic devices.
  • AI artificial intelligence
  • the data acquirer 1111, the preprocessor 1112, the training data selector 1113, the model learner 1114, and the model evaluator 1115 may be mounted in one electronic device or may be separate. Each of the electronic devices may be mounted. For example, some of the data acquirer 1111, the preprocessor 1112, the training data selector 1113, the model learner 1114, and the model evaluator 1115 are included in the electronic device, and the other part thereof is included in the electronic device. Can be included on the server.
  • At least one of the data acquirer 1111, the preprocessor 1112, the training data selector 1113, the model learner 1114, or the model evaluator 1115 may be implemented as a software module.
  • Module may be stored on a computer readable non-transitory computer readable media.
  • at least one software module may be provided by an operating system (OS) or by a predetermined application.
  • some of the at least one software module may be provided by an operating system (OS) and others may be provided by a given application.
  • the data recognizer 1120 may include a data acquirer 1121, a preprocessor 1122, a recognition data selector 1123, a recognition result provider 1124, and a model updater 1125. It may include.
  • the data acquirer 1121 may acquire text required to output voice. In contrast, the data acquirer 1121 may acquire a voice required for outputting text.
  • the preprocessor 1122 may preprocess the acquired data so that the obtained data may be used to output voice or text.
  • the preprocessor 1122 may process the acquired data into a preset format so that the recognition result providing unit 1124, which will be described later, may use the acquired data for outputting voice or text.
  • the recognition data selector 1123 may select data necessary for outputting voice or text from the preprocessed data.
  • the selected data may be provided to the recognition result provider 1124.
  • the recognition data selector 1123 may select some or all of the preprocessed data according to preset criteria for outputting voice or text.
  • the recognition data selector 1123 may select data according to a predetermined criterion by learning by the model learner 1114.
  • the recognition result providing unit 1124 may output the voice or the text by applying the selected data to the data learning model.
  • the recognition result provider 1124 may apply the selected data to the data learning model by using the data selected by the recognition data selector 1123 as an input value.
  • the recognition result may be determined by the data learning model.
  • the model updater 1125 may cause the data learning model to be updated based on the evaluation of the recognition result provided by the recognition result provider 1124.
  • the model updater 1125 may allow the model learner 1114 to update the data learning model by providing the model learner 1114 with the recognition result provided by the recognition result provider 1124. have.
  • At least one of the data acquisition unit 1121, the preprocessing unit 1122, the recognition data selection unit 1123, the recognition result providing unit 1124, or the model updating unit 1125 in the data recognizing unit 1120 is at least one. It may be manufactured in the form of one hardware chip and mounted on an electronic device.
  • at least one of the data acquirer 1121, the preprocessor 1122, the recognition data selector 1123, the recognition result provider 1124, or the model updater 1125 may be artificial intelligence (AI). ) May be manufactured in the form of a dedicated hardware chip, or may be manufactured as a part of an existing general purpose processor (eg, a CPU or an application processor) or a graphics dedicated processor (eg, a GPU) and mounted on the aforementioned various electronic devices.
  • AI artificial intelligence
  • the data obtaining unit 1121, the preprocessor 1122, the recognition data selecting unit 1123, the recognition result providing unit 1124, and the model updating unit 1125 may be mounted in one electronic device or may be separate. May be mounted on the electronic devices.
  • some of the data obtaining unit 1121, the preprocessing unit 1122, the recognition data selecting unit 1123, the recognition result providing unit 1124, and the model updating unit 1125 are included in the electronic device, and some of the remaining units are included in the electronic device. May be included in the server.
  • At least one of the data acquirer 1121, the preprocessor 1122, the recognition data selector 1123, the recognition result provider 1124, or the model updater 1125 may be implemented as a software module.
  • At least one of the data acquisition unit 1121, the preprocessor 1122, the recognition data selection unit 1123, the recognition result providing unit 1124, and the model updating unit 1125 includes a software module (or instruction). If implemented as a program module, the software module may be stored in a computer readable non-transitory computer readable media. In this case, at least one software module may be provided by an operating system (OS) or by a predetermined application. Alternatively, some of the at least one software module may be provided by an operating system (OS) and others may be provided by a given application.
  • OS operating system
  • OS operating system
  • a user terminal providing the text-to-speech synthesis system and text-to-speech service described herein includes a wireless telephone, a cellular telephone, a laptop computer, a wireless multimedia device, a wireless communications personal computer (PC) card, a PDA, It may represent various types of devices, such as an external modem, an internal modem, a device communicating over a wireless channel, and the like.
  • the device may be an access terminal (AT), an access unit, a subscriber unit, a mobile station, a mobile device, a mobile unit, a mobile telephone, a mobile, a remote station, a remote terminal, a remote unit, a user device, user equipment, It may have various names, such as a handheld device. Any device described herein may have memory for storing instructions and data, as well as hardware, software, firmware, or combinations thereof.
  • the processing units used to perform the techniques may include one or more ASICs, DSPs, digital signal processing devices (DSPDs), programmable logic devices (PLDs) ), Field programmable gate arrays (FPGAs), processors, controllers, microcontrollers, microprocessors, electronic devices, other electronic units designed to perform the functions described herein. May be implemented within a computer, or a combination thereof.
  • a general purpose processor may be a microprocessor, but in the alternative, the processor may be any conventional processor, controller, microcontroller, or state machine.
  • a processor may also be implemented as a combination of computing devices, eg, a combination of a DSP and a microprocessor, a plurality of microprocessors, one or more microprocessors in conjunction with a DSP core, or any other such configuration.
  • the techniques may include random access memory (RAM), read-only memory (ROM), non-volatile random access memory (NVRAM), PROM (On computer readable media such as programmable read-only memory (EPROM), erasable programmable read-only memory (EPROM), electrically erasable PROM (EEPROM), flash memory, compact disc (CD), magnetic or optical data storage devices, and the like. It may also be implemented as stored instructions. The instructions may be executable by one or more processors, and may cause the processor (s) to perform certain aspects of the functionality described herein.
  • Computer-readable media includes both computer storage media and communication media including any medium that facilitates transfer of a computer program from one place to another.
  • Storage media may be any available media that can be accessed by a computer.
  • such computer-readable media may be in the form of RAM, ROM, EEPROM, CD-ROM or other optical disk storage, magnetic disk storage or other magnetic storage devices, or desired program code in the form of instructions or data structures.
  • any connection is properly termed a computer readable medium.
  • the software is transmitted from a website, server, or other remote source using coaxial cable, fiber optic cable, twisted pair, digital subscriber line (DSL), or wireless technologies such as infrared, wireless, and microwave
  • coaxial cable , Fiber optic cable, twisted pair, digital subscriber line, or wireless technologies such as infrared, wireless, and microwave
  • disks and disks include CDs, laser disks, optical disks, digital versatile discs, floppy disks, and Blu-ray disks, where the disks are usually Magnetically reproduce the data, while discs discs optically reproduce the data using a laser. Combinations of the above should also be included within the scope of computer-readable media.
  • the software module may reside in RAM memory, flash memory, ROM memory, EPROM memory, EEPROM memory, registers, hard disk, removable disk, CD-ROM, or any other type of storage medium known in the art.
  • An exemplary storage medium may be coupled to the processor such that the processor can read information from or write information to the storage medium.
  • the storage medium may be integral to the processor.
  • the processor and the storage medium may reside in an ASIC.
  • the ASIC may be present in the user terminal.
  • the processor and the storage medium may reside as discrete components in a user terminal.
  • example implementations may refer to utilizing aspects of the presently disclosed subject matter in the context of one or more standalone computer systems, the subject matter is not so limited, but rather in connection with any computing environment, such as a network or a distributed computing environment. It may be implemented. Moreover, aspects of the presently disclosed subject matter may be implemented in or across a plurality of processing chips or devices, and storage may be similarly affected across a plurality of devices. Such devices may include PCs, network servers, and handheld devices.
  • Computer-readable recording media include all kinds of recording devices that store data that can be read by a computer system. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disks, optical data storage devices, and the like.
  • the computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion. And, the functional program, code and code segments for implementing the embodiments can be easily inferred by programmers in the art to which the present invention belongs.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)

Abstract

The present disclosure relates to a method for text-to-speech synthesis using machine learning on the basis of a sequential prosody feature. The text-to-speech synthesis using machine learning on the basis of a sequential prosody feature comprises the steps of: receiving input text; receiving a sequential prosody feature; and inputting the input text and the received sequential prosody feature to an artificial neural network text-to-speech synthesis model, so as to generate output speech data corresponding to the input text in which the received sequential prosody feature is reflected.

Description

순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체Text-Speech Synthesis Method, Apparatus and Computer-readable Storage Media Using Machine Learning Based on Sequential Rhymes Features
본 개시는 순차적 운율 특징을 기초로 기계 학습을 이용한 텍스트-음성 합성 방법 및 시스템에 관한 것이다. 보다 상세하게는, 순차적 운율 특징을 인공신경망 텍스트-음성 합성 모델에 입력하여, 순차적 운율 특징이 반영된 입력 텍스트에 대한 출력 음성 텍스트를 생성하는 방법 및 시스템에 관한 것이다. The present disclosure relates to a method and system for text-to-speech synthesis using machine learning based on sequential rhyme features. More particularly, the present invention relates to a method and system for generating an output speech text for an input text in which sequential rhyme features are input to an artificial neural network text-voice synthesis model.
일반적으로 텍스트-음성 합성 기술(TTS; Text-To-Speech)이라고 불리는 음성 합성 기술은 안내방송, 네비게이션, 인공지능 비서 등과 같이 사람의 음성이 필요한 어플리케이션에서 실제의 음성을 사전에 녹음해 두지 않고 필요한 음성을 재생하기 위해 사용되는 기술이다. 음성 합성의 전형적인 방법은, 음성을 음소 등 아주 짧은 단위로 미리 잘라서 저장해두고, 합성할 문장을 구성하는 음소들을 결합하여 음성을 합성하는 연결 합성 방식(concatenative TTS)와, 음성의 특징을 파라미터로 표현하고 합성할 문장을 구성하는 음성 특징들을 나타내는 파라미터들을 보코더(vocoder)를 이용해 문장에 대응하는 음성으로 합성하는 매개 변수 합성 방식(parametric TTS)이 있다.Speech synthesis, commonly referred to as Text-To-Speech (TTS), is a technology that requires not to pre-record the actual voice in applications that require human speech, such as announcements, navigation, and AI assistants. It is a technique used to play voice. A typical method of speech synthesis is to pre-cut and store speech in very short units such as phonemes, and to express the characteristics of speech as parameters by a concatenative TTS that synthesizes speech by combining the phonemes constituting the sentence to be synthesized. There is a parametric TTS for synthesizing parameters representing speech features constituting a sentence to be synthesized into a speech corresponding to a sentence using a vocoder.
한편, 최근에는 인공신경망(artificial neural network) 기반의 음성 합성 방법이 활발히 연구되고 있으며, 이러한 음성 합성 방법에 따라 합성된 음성은, 기존의 방법에 비해 자연스러운 음성 특징을 포함하고 있다. 하지만, 종래의 음성 합성 방법에서, 입력 텍스트의 길이나 참조 음성의 길이와 관계없이, 미리 고정된 길이의 운율 특징만이 적용되어, 합성되는 음성의 특정 시점에서의 운율이 제어될 수 없었다. 그 이유는, 고정된 길이의 특징이 참조 음성에 억지로 적용할 때 시간상 정보의 손실이 일어나는 확률은 상당히 높기 때문이다. 이에 따라, 종래의 음성 합성 방법은 사람들의 의도 또는 감정을 정확히 나타내기 위하여, 합성 음성에 대한 미세한 운율의 제어를 제공할 수 없었다. On the other hand, in recent years, the speech synthesis method based on an artificial neural network has been actively studied, and the speech synthesized according to the speech synthesis method includes natural voice features as compared to the conventional methods. However, in the conventional speech synthesis method, regardless of the length of the input text or the length of the reference speech, only a fixed length rhyme feature is applied, so that the rhyme at a specific point in time of the synthesized speech cannot be controlled. The reason is that the probability of loss of information in time is quite high when a fixed length feature is forcibly applied to the reference voice. Accordingly, the conventional speech synthesis method cannot provide fine control of the rhythm for the synthesized speech in order to accurately represent the intentions or emotions of the people.
또한, 소스 화자의 음의 높이(pitch) 범위와 대상 화자의 음의 높이 사이의 차이가 클 경우, 소스 화자의 운율 특징을 대상 화자로 반영하기 어려울 수 있다. 예를 들어, 소스 화자가 여자이고 대상 화자가 남자인 경우, 소스 화자의 운율을 대상 화자의 음성에 합성하면, 대상 화자의 합성 음성이 보통의 음의 높이 보다 더 높은 음의 높이를 가질 수 있었다. 이러한 사정을 고려하면, 운율 특징을 반영한 합성 음성의 퀄리티를 향상시키기 위하여 인공신경망 모델에 운율 특징을 적용하기 이전에, 운율 특징을 전처리하는 것이 요구될 수 있다. In addition, when the difference between the pitch range of the source speaker and the pitch of the target speaker is large, it may be difficult to reflect the rhyming characteristics of the source speaker as the target speaker. For example, if the source speaker is female and the target speaker is male, synthesizing the source speaker's rhymes with the target speaker's voice could result in the synthesized voice of the target speaker having a higher pitch than the normal pitch. . Considering this situation, it may be required to preprocess the rhyme feature before applying the rhyme feature to the artificial neural network model in order to improve the quality of the synthesized voice reflecting the rhyme feature.
본 개시에 따른 방법 및 장치는 상기와 같은 문제점을 해결하기 위한 시간에 따른 운율 특징을 가진 순차적 운율 특징이 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성할 수 있다.The method and apparatus according to the present disclosure may generate output voice data for input text reflecting a sequential rhyme feature having a rhyme feature over time to solve the above problem.
또한, 본 개시에 따른 방법 및 장치는 순차적 운율 특징은 인공신경망 텍스트-음성 합성 모델의 인코더 및 디코더 중 적어도 하나에 입력될 수 있으며, 가변적인 길이의 순차적 운율 특징을 입력 텍스트의 길이 및/또는 합성 음성의 길이에 맞추기 위하여 어텐션(attention) 모듈이 사용될 수 있다.In addition, in the method and apparatus according to the present disclosure, the sequential rhyme feature may be input to at least one of an encoder and a decoder of an artificial neural network text-to-speech synthesis model, and the sequential rhyme feature of a variable length is inputted to the length and / or synthesis of the input text. Attention modules may be used to tailor the length of speech.
또한, 본 개시에 따른 방법 및 장치는 순차적 운율 특징에 대응되는 복수의 임베딩 벡터를 정규화하고, 정규화된 복수의 임베딩 벡터를 인공신경망 텍스트-음성 합성 모델에 적용할 수 있다. In addition, the method and apparatus according to the present disclosure may normalize a plurality of embedding vectors corresponding to sequential rhyme features, and apply the normalized plurality of embedding vectors to an artificial neural network text-voice synthesis model.
본 개시는 방법, 시스템, 장치 또는 명령어들을 저장하는 컴퓨터 판독가능 저장 매체를 포함한 다양한 방식으로 구현될 수 있다.The present disclosure can be implemented in a variety of ways, including a computer readable storage medium storing a method, system, apparatus, or instructions.
본 개시의 일 실시예에 따른 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성(text-to-speech synthesis) 방법은 입력 텍스트를 수신하는 단계, 순차적 운율(sequential prosody) 특징을 수신하는 단계 및 입력 텍스트 및 수신된 순차적 운율 특징을 인공신경망 텍스트-음성 합성 모델에 입력하여, 수신된 순차적 운율 특징이 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 포함할 수 있다.A text-to-speech synthesis method using machine learning based on sequential rhyme features according to an embodiment of the present disclosure includes receiving an input text and receiving a sequential prosody feature. And inputting the input text and the received sequential rhyme features into an artificial neural network text-voice synthesis model to generate output speech data for the input text reflecting the received sequential rhyme features.
본 개시의 일 실시예에 따른 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법의 인공신경망 텍스트-음성 합성 모델은, 복수의 학습 텍스트 및 복수의 학습 텍스트에 대응하는 학습 음성을 나타내는 데이터에 기초하여 기계학습을 수행하여 생성되고, 학습 음성을 나타내는 데이터는 학습 음성의 순차적 운율 특징을 포함할 수 있다. The artificial neural network text-to-speech synthesis model of the text-to-speech synthesis method using machine learning based on sequential rhyme characteristics according to an embodiment of the present disclosure may include data representing a plurality of learning texts and a learning voice corresponding to the plurality of learning texts. Based on the machine learning based on the generated data, the data representing the learning voice may include a sequential rhyme feature of the learning voice.
본 개시의 일 실시예에 따른 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법의 순차적 운율 특징은, 프레임, 글자(character), 음소, 음절 또는 단어 중 적어도 하나의 단위에 대응되는 운율 정보를 시간 순으로 포함하고, 운율 정보는, 소리의 크기에 대한 정보, 소리의 높이에 대한 정보, 소리의 길이에 대한 정보, 소리의 휴지 기간에 대한 정보 또는 소리의 스타일에 대한 정보 중 적어도 하나를 포함할 수 있다. The sequential rhyme feature of the text-to-speech synthesis method using machine learning based on the sequential rhyme feature according to an embodiment of the present disclosure may correspond to at least one unit of a frame, a character, a phoneme, a syllable, or a word. Information in chronological order, and the rhyme information includes at least one of information about a loudness of sound, information about a height of a sound, information about a length of a sound, information about a sound pause period, or information about a style of a sound. It may include.
본 개시의 일 실시예에 따른 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법의 순차적 운율 특징을 수신하는 단계는 순차적인 운율 특징을 나타내는 복수의 임베딩 벡터를 수신하는 단계를 포함하고, 복수의 임베딩 벡터의 각각은 시간 순으로 포함된 운율 정보에 대응될 수 있다.Receiving a sequential rhyme feature of the text-voice synthesis method using machine learning based on the sequential rhyme feature according to an embodiment of the present disclosure includes receiving a plurality of embedding vectors representing the sequential rhyme feature. Each of the plurality of embedding vectors may correspond to rhyme information included in chronological order.
본 개시의 일 실시예에 따른 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법의 인공신경망 텍스트-음성 합성 모델은 인코더 및 디코더를 포함하고, 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법은 수신된 복수의 임베딩 벡터를 어텐션 모듈에 입력하여, 인코더에 제공된 입력 텍스트의 각 부분들과 대응되는 복수의 변환 임베딩 벡터를 생성하는 단계를 더 포함하고, 복수의 변환 임베딩 벡터의 길이는 입력 텍스트의 길이에 따라 가변적이고, 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계는, 생성된 복수의 변환 임베딩 벡터를 인공신경망 텍스트-음성 합성 모델의 인코더에 입력하는 단계 및 복수의 변환 임베딩 벡터가 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 포함할 수 있다. An artificial neural network text-voice synthesis model of a text-voice synthesis method using machine learning based on sequential rhyme features according to an embodiment of the present disclosure includes an encoder and a decoder, and text using machine learning based on sequential rhyme features. The voice synthesis method further comprises inputting the received plurality of embedding vectors into an attention module to generate a plurality of transform embedding vectors corresponding to respective portions of the input text provided to the encoder, wherein the plurality of transform embedding vectors The length is variable according to the length of the input text, and the step of generating output speech data for the input text includes inputting the generated plurality of transform embedding vectors into an encoder of the artificial neural network text-to-speech synthesis model and a plurality of transform embeddings. Generating output speech data for the input text in which the vector is reflected. The.
본 개시의 일 실시예에 따른 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법의 인공신경망 텍스트-음성 합성 모델은 인코더 및 디코더를 포함하고, 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계는, 수신된 복수의 임베딩 벡터를 인공신경망 텍스트-음성 합성 모델의 디코더에 입력하는 단계 및 복수의 임베딩 벡터가 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 포함할 수 있다. An artificial neural network text-to-speech synthesis model of a text-to-speech synthesis method using machine learning based on sequential rhyme characteristics according to an embodiment of the present disclosure includes an encoder and a decoder, and generates output speech data for input text. The method may include inputting the received plurality of embedding vectors into the decoder of the neural network text-voice synthesis model and generating output speech data for the input text in which the plurality of embedding vectors are reflected.
본 개시의 일 실시예에 따른 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법은 화자의 발성 특징을 수신하는 단계를 더 포함하고, 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계는 화자의 음성을 모사하고 순차적 운율 특징을 나타내는 복수의 임베딩 벡터가 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 포함할 수 있다.Text-to-speech synthesis method using machine learning based on sequential rhyme feature according to an embodiment of the present disclosure further comprises the step of receiving the speaker's utterance feature, the step of generating output speech data for the input text is a speaker And generating output speech data for the input text in which a plurality of embedding vectors reflecting sequential rhyme characteristics are simulated.
본 개시의 일 실시예에 따른 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법의 화자의 발성 특징을 수신하는 단계는 화자의 순차적 운율 특징을 수신하는 단계를 포함하고, 복수의 임베딩 벡터를 추출하는 단계는 화자의 순차적 운율 특징에 기초하여 추출된 복수의 임베딩 벡터를 정규화하는 단계를 포함하고, 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계는 화자의 음성을 모사하고 정규화된 복수의 임베딩 벡터가 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 포함할 수 있다.Receiving a speaker's utterance feature of a text-to-speech synthesis method using machine learning based on the sequential rhyme feature according to an embodiment of the present disclosure includes receiving a sequential rhyme feature of the speaker, and includes a plurality of embedding vectors The extracting step may include normalizing the extracted plurality of embedding vectors based on the sequential rhythm characteristics of the speaker, and generating the output speech data for the input text by simulating the speaker's speech and normalizing the plurality of embeddings. And generating output speech data for the input text in which the vector is reflected.
본 개시의 일 실시예에 따른 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법의 추출된 복수의 임베딩 벡터를 정규화하는 단계는, 각 시간 단계에서 화자의 순차적 운율 특징을 나타내는 임베딩 벡터의 평균값을 산출하는 단계 및 추출된 복수의 임베딩 벡터를 각 시간 단계에서 산출된 임베딩 벡터의 평균값으로 감산하는 단계를 포함할 수 있다. Normalizing the extracted plurality of embedding vectors of the text-to-speech synthesis method using machine learning based on the sequential rhyme characteristics according to an embodiment of the present disclosure may include: The method may include calculating an average value and subtracting the extracted plurality of embedding vectors by an average value of the embedding vectors calculated at each time step.
본 개시의 일 실시예에 따른 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법의 순차적 운율 특징을 수신하는 단계는, 입력 텍스트의 적어도 일부에 대한 운율 정보를 사용자 인터페이스를 통해 수신하는 단계를 포함하고,, 수신된 순차적 운율 특징이 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계는 입력 텍스트의 적어도 일부에 대한 운율 정보가 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 포함할 수 있다.Receiving a sequential rhyme feature of a text-to-speech synthesis method using machine learning based on the sequential rhyme feature according to an embodiment of the present disclosure comprises: receiving rhyme information for at least a portion of the input text through a user interface And generating output speech data for the input text in which the received sequential rhyme features are reflected, and generating output speech data for the input text in which rhyme information for at least a portion of the input text is reflected. have.
본 개시의 일 실시예에 따르면, 입력 텍스트의 적어도 일부에 대한 운율 정보는 음성 합성 마크업 언어에서 제공되는 태그를 통해 입력될 수 있다. According to one embodiment of the present disclosure, rhyme information for at least a portion of the input text may be input through a tag provided in a speech synthesis markup language.
본 개시의 일 실시예에 따른 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법은 입력 텍스트의 적어도 일부에 대한 운율 정보를 사용자 인터페이스를 통해 수신받는 단계 및 수신된 입력 텍스트의 적어도 일부에 대한 운율 정보를 기초로 수신된 순차적 운율 특징을 변경하는 단계를 더 포함할 수 있고, 수신된 순차적 운율 특징이 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계는, 변경된 순차적 운율 특징이 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 포함할 수 있다. According to an embodiment of the present disclosure, a text-voice synthesis method using machine learning based on sequential rhyme features may include receiving rhyme information on at least a portion of input text through a user interface and at least a portion of the received input text. The method may further include changing the received sequential rhyme feature based on the rhyme information, and generating the output voice data for the input text in which the received sequential rhyme feature is reflected, the input text in which the changed sequential rhyme feature is reflected. And generating output speech data for the.
본 개시의 일 실시예에 따르면, 수신된 순차적 운율 특징을 변경하는데 사용되는, 입력 텍스트의 적어도 일부에 대한 운율 정보는 음성 합성 마크업 언어에서 제공되는 태그를 통해 입력될 수 있다. According to one embodiment of the present disclosure, rhyme information for at least a portion of the input text, which is used to change the received sequential rhyme feature, may be input through a tag provided in a speech synthesis markup language.
또한, 상술한 바와 같은 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법을 구현하기 위한 프로그램은 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다.Also, a program for implementing a text-to-speech synthesis method using machine learning based on the sequential rhyme characteristics as described above may be recorded in a computer-readable recording medium.
또한, 상술한 바와 같은 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법과 연관된 장치 및 기술적 수단 등이 또한 개시될 수 있다. In addition, apparatus and technical means associated with the method of text-to-speech synthesis using machine learning based on the sequential rhyme characteristics as described above may also be disclosed.
본 개시의 일부 실시예들에 따르면, 시간에 따른 운율 정보를 포함하고 가변적인 길이를 가진 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성이 제공되기 때문에, 합성 음성에 대한 미세한 운율의 제어가 가능하여, 음성 합성을 통한 사람의 의도 또는 감정을 보다 정확히 전달할 수 있다.According to some embodiments of the present disclosure, fine rhyme control for synthesized speech is provided because text-to-speech synthesis using machine learning is provided on the basis of sequential rhyme features having variable lengths over time. It is possible to more accurately convey the intention or emotion of a person through speech synthesis.
본 개시의 일부 실시예들에 따르면, 가변적인 길이의 순차적 운율 특징을 인공신경망 텍스트-음성 합성 모델의 인코더 및 디코더 중 적어도 하나에 적용함에 있어서 어텐션을 사용하여 순차적 운율 특징을 입력 텍스트 및/또는 합성 음성의 길이에 대응되도록 조절할 수 있기 때문에, 가변적인 길이의 순차적 운율 특징이 그 길이에 상관없이 입력 텍스트 및/또는 합성 음성에 효과적으로 적용될 수 있다. According to some embodiments of the present disclosure, the use of an attention in applying sequential rhyme features of varying lengths to at least one of an encoder and a decoder of an artificial neural network text-voice synthesis model results in input text and / or synthesis. Because it can be adjusted to correspond to the length of the voice, a variable length sequential rhyme feature can be effectively applied to the input text and / or synthesized voice regardless of its length.
본 개시의 일부 실시예에 따르면, 순차적 운율 특징을 인공신경망 텍스트-음성 합성 모델에 적용하기 이전에, 순차적 운율 특징에 대응하는 복수의 임베딩 벡터를 정규화하는 전처리를 수행하기 때문에, 한 사람의 운율 특징을 다른 사람의 합성 음성에 적용하는 경우, 운율 특징이 반영된 합성 음성의 퀄리티를 더욱 향상시킬 수 있다. According to some embodiments of the present disclosure, prior to applying the sequential rhyme feature to an artificial neural network text-to-speech synthesis model, preprocessing is performed to normalize a plurality of embedding vectors corresponding to the sequential rhyme feature. In the case of applying to the synthesized voice of another person, it is possible to further improve the quality of the synthesized voice reflecting the rhyme characteristics.
본 개시의 실시예들은, 이하 설명하는 첨부 도면들을 참조하여 설명될 것이며, 여기서 유사한 참조 번호는 유사한 요소들을 나타내지만, 이에 한정되지는 않는다.Embodiments of the present disclosure will be described with reference to the accompanying drawings, which will be described below, wherein like reference numerals denote similar elements, but are not limited thereto.
도 1은 본 개시의 일 실시예에 따른 음성 합성기에 의해 입력 텍스트 및 순차적 운율 특징을 입력받아 합성 음성을 출력하는 과정을 나타내는 예시도이다. 1 is an exemplary diagram illustrating a process of receiving input text and sequential rhyme features by a voice synthesizer according to an embodiment of the present disclosure and outputting a synthesized voice.
도 2는 본 개시의 일 실시예에 따른 음성 합성기에 의해 순차적 운율 특징 추출기로부터 추출된 순차적 운율 특징 및 입력 텍스트를 이용하여 합성 음성을 출력하는 과정을 나타내는 예시도이다. FIG. 2 is an exemplary diagram illustrating a process of outputting a synthesized speech using sequential rhyme features and input text extracted from a sequential rhyme feature extractor by a speech synthesizer according to an embodiment of the present disclosure.
도 3은 본 개시의 일 실시예에 따른 음성 합성기에 의해 순차적 운율 특징 및 화자의 발성 특징을 입력 텍스트에 적용하여 합성 음성을 출력하는 과정을 나타내는 예시도이다. 3 is an exemplary diagram illustrating a process of outputting a synthesized voice by applying a sequential rhyme feature and a speaker's utterance feature to input text by a voice synthesizer according to an embodiment of the present disclosure.
도 4는 본 개시의 일 실시예에 따른 텍스트-음성 합성 시스템의 블록도이다. 4 is a block diagram of a text-to-speech synthesis system according to an embodiment of the present disclosure.
도 5는 본 개시의 일 실시예에 따른 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법을 나타내는 흐름도이다. 5 is a flowchart illustrating a text-voice synthesis method using machine learning based on sequential rhyme characteristics according to an embodiment of the present disclosure.
도 6은 본 개시의 일 실시예에 따른 인공신경망 기반의 텍스트-음성 합성 시스템의 구성을 나타내는 예시도이다.6 is an exemplary diagram illustrating a configuration of an artificial neural network based text-to-speech synthesis system according to an embodiment of the present disclosure.
도 7은 본 개시의 일 실시예에 따른 인공신경망 기반의 텍스트-음성 합성 시스템에서, 순차적 운율 특징을 텍스트-음성 합성 시스템의 디코더에 입력하여 합성 음성을 생성하는 과정을 보여주는 예시도이다. FIG. 7 is an exemplary diagram illustrating a process of generating a synthesized speech by inputting sequential rhyme features to a decoder of a text-to-speech synthesis system in an artificial neural network based text-to-speech synthesis system according to an embodiment of the present disclosure.
도 8은 본 개시의 일 실시예에 따른 인공신경망 기반의 텍스트-음성 합성 시스템에서, 순차적 운율 특징을 텍스트-음성 합성 시스템의 인코더에 입력하여 합성 음성을 생성하는 과정을 보여주는 예시도이다. 8 is an exemplary diagram illustrating a process of generating a synthesized speech by inputting a sequential rhyme feature to an encoder of the text-voice synthesis system in an artificial neural network based text-to-speech synthesis system according to an embodiment of the present disclosure.
도 9은 본 개시의 일 실시예에 따른 음성 신호 또는 샘플으로부터 순차적 운율 특징을 나타내는 복수의 임베딩 벡터를 추출하도록 구성된 순차적 운율 특징 추출부의 네트워크를 나타내는 예시도이다.9 is an exemplary diagram illustrating a network of a sequential rhyme feature extraction unit configured to extract a plurality of embedding vectors representing sequential rhyme features from a voice signal or a sample according to an embodiment of the present disclosure.
도 10는 본 개시의 일 실시예에 따른 마크업 언어에서 제공되는 태크를 입력 텍스트에 적용하여 합성 음성을 출력하는 텍스트-음성 합성 시스템의 개요도이다. 10 is a schematic diagram of a text-to-speech synthesis system for outputting synthesized speech by applying a tag provided in a markup language to an input text according to an embodiment of the present disclosure.
도 11은 본 개시의 일 실시예에 따른 텍스트-음성 합성 시스템의 블록도이다. 11 is a block diagram of a text-to-speech synthesis system according to an embodiment of the present disclosure.
개시된 실시예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 개시가 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다.Advantages and features of the disclosed embodiments and methods of achieving them will be apparent with reference to the embodiments described below in conjunction with the accompanying drawings. However, the present disclosure is not limited to the embodiments disclosed below, but may be implemented in various forms, and the present embodiments are merely provided to make the present disclosure complete, and those of ordinary skill in the art to which the present disclosure belongs. It is provided only to fully inform the scope of the invention.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시예에 대해 구체적으로 설명하기로 한다. Terms used herein will be briefly described, and the disclosed embodiments will be described in detail.
본 명세서에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다. The terminology used herein is to select general terms that are currently widely used as possible in consideration of the functions in the present disclosure, but may vary according to the intention or precedent of the person skilled in the relevant field, the emergence of new technologies and the like. In addition, in certain cases, there is a term arbitrarily selected by the applicant, and in this case, the meaning will be described in detail in the description of the invention. Therefore, the terms used in the present disclosure should be defined based on the meanings of the terms and the contents throughout the present disclosure, rather than simply the names of the terms.
본 명세서에서의 단수의 표현은 문맥상 명백하게 단수인 것으로 특정하지 않는 한, 복수의 표현을 포함한다. 또한 복수의 표현은 문맥상 명백하게 복수인 것으로 특정하지 않는 한, 단수의 표현을 포함한다.A singular expression in this specification includes a plural expression unless the context clearly indicates that it is singular. Also, the plural expressions include the singular expressions unless the context clearly indicates the plural.
명세서 전체에서 어떤 부분이 어떤 구성요소를 '포함'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. When a part of the specification 'includes' a certain component, this means that unless otherwise stated, it may include other components other than to exclude other components.
또한, 명세서에서 사용되는 '부' 또는 '모듈'이라는 용어는 소프트웨어 또는 하드웨어 구성요소를 의미하며, '부' 또는 '모듈'은 어떤 역할들을 수행한다. 그렇지만 '부' 또는 '모듈'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '부' 또는 '모듈'은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '부' 또는 '모듈'은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '부' 또는 '모듈'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '부' 또는 '모듈'들로 결합되거나 추가적인 구성요소들과 '부' 또는 '모듈'들로 더 분리될 수 있다.In addition, the term 'part' or 'module' as used herein refers to a software or hardware component, and the 'part' or 'module' plays certain roles. However, "part" or "module" is not meant to be limited to software or hardware. The 'unit' or 'module' may be configured to be in an addressable storage medium or may be configured to play one or more processors. Thus, as an example, a "part" or "module" may be used to refer to components such as software components, object-oriented software components, class components, and task components, processes, functions, properties, Procedures, subroutines, segments of program code, drivers, firmware, microcode, circuits, data, databases, data structures, tables, arrays, and variables. Functions provided within components and 'parts' or 'modules' may be combined into smaller numbers of components and 'parts' or 'modules' or into additional components and 'parts' or 'modules'. Can be further separated.
본 개시의 일 실시예에 따르면 '부' 또는 '모듈'은 프로세서 및 메모리로 구현될 수 있다. 용어 '프로세서' 는 범용 프로세서, 중앙 처리 장치 (CPU), 마이크로프로세서, 디지털 신호 프로세서 (DSP), 제어기, 마이크로제어기, 상태 머신 등을 포함하도록 넓게 해석되어야 한다. 몇몇 환경에서는, '프로세서' 는 주문형 반도체 (ASIC), 프로그램가능 로직 디바이스 (PLD), 필드 프로그램가능 게이트 어레이 (FPGA) 등을 지칭할 수도 있다. 용어 '프로세서' 는, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들의 조합, DSP 코어와 결합한 하나 이상의 마이크로프로세서들의 조합, 또는 임의의 다른 그러한 구성들의 조합과 같은 처리 디바이스들의 조합을 지칭할 수도 있다.According to an embodiment of the present disclosure, the “unit” or “module” may be implemented as a processor and a memory. The term processor is to be broadly interpreted to include general purpose processors, central processing units (CPUs), microprocessors, digital signal processors (DSPs), controllers, microcontrollers, state machines, and the like. In some circumstances, a 'processor' may refer to an application specific semiconductor (ASIC), a programmable logic device (PLD), a field programmable gate array (FPGA), or the like. The term 'processor' refers to a combination of processing devices such as, for example, a combination of a DSP and a microprocessor, a combination of a plurality of microprocessors, a combination of one or more microprocessors in conjunction with a DSP core, or a combination of any other such configuration. May be referred to.
용어 '메모리' 는 전자 정보를 저장 가능한 임의의 전자 컴포넌트를 포함하도록 넓게 해석되어야 한다. 용어 메모리는 임의 액세스 메모리 (RAM), 판독-전용 메모리 (ROM), 비-휘발성 임의 액세스 메모리 (NVRAM), 프로그램가능 판독-전용 메모리 (PROM), 소거-프로그램가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능 PROM (EEPROM), 플래쉬 메모리, 자기 또는 광학 데이터 저장장치, 레지스터들 등과 같은 프로세서-판독가능 매체의 다양한 유형들을 지칭할 수도 있다. 프로세서가 메모리로부터 정보를 판독하고/하거나 메모리에 정보를 기록할 수 있다면 메모리는 프로세서와 전자 통신 상태에 있다고 불린다. 프로세서에 집적된 메모리는 프로세서와 전자 통신 상태에 있다.The term 'memory' should be interpreted broadly to include any electronic component capable of storing electronic information. The term memory refers to random access memory (RAM), read-only memory (ROM), non-volatile random access memory (NVRAM), programmable read-only memory (PROM), erase-programmable read-only memory (EPROM), electrical May also refer to various types of processor-readable media, such as erasable PROM (EEPROM), flash memory, magnetic or optical data storage, registers, and the like. If the processor can read information from and / or write information to the memory, the memory is said to be in electronic communication with the processor. The memory integrated in the processor is in electronic communication with the processor.
본 개시에서, '순차적 운율 특징'은 프레임, 음소, 글자, 음절 또는 단어 중 적어도 하나의 단위에 대응되는 운율 정보를 시간 순으로 포함할 수 있다. 여기서, 운율 정보는 소리의 크기에 대한 정보, 소리의 높이에 대한 정보, 소리의 길이에 대한 정보, 소리의 휴지 기간에 대한 정보 또는 소리의 스타일에 대한 정보 중 적어도 하나를 포함할 수 있다. 또한, 소리의 스타일은 소리 또는 음성이 나타내는 임의의 양식, 방식 또는 뉘앙스를 포함할 수 있으며, 예를 들어, 소리 또는 음성에 내재된 어조, 억양, 감정 등이 포함될 수 있다. 또한 순차적 운율 특징은 복수의 임베딩 벡터로 표현될 수 있는데, 복수의 임베딩 벡터의 각각은 시간 순으로 포함된 운율 정보에 대응될 수 있다. In the present disclosure, the 'sequential rhyme feature' may include rhyme information corresponding to at least one unit of a frame, phoneme, letter, syllable, or word in chronological order. Here, the rhyme information may include at least one of information on the size of the sound, information on the height of the sound, information on the length of the sound, information on the pause period of the sound, or information on the style of the sound. In addition, the style of sound may include any form, manner, or nuance that the sound or voice represents, and may include, for example, tone, intonation, emotion, and the like inherent in the sound or voice. In addition, the sequential rhyme feature may be represented by a plurality of embedding vectors, and each of the plurality of embedding vectors may correspond to rhyme information included in chronological order.
아래에서는 첨부한 도면을 참고하여 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.DETAILED DESCRIPTION Hereinafter, exemplary embodiments will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present disclosure. In the drawings, parts irrelevant to the description are omitted for clarity.
도 1은 본 개시의 일 실시예에 따른 음성 합성기(110)에 의해 입력 텍스트(120) 및 순차적 운율 특징(130)을 입력받아 합성 음성(140)을 출력하는 과정을 나타내는 예시도이다. 음성 합성기(110)는 인공신경망 텍스트-음성 합성 모델을 이용하여 입력된 텍스트에 대응하는 합성 음성을 출력하도록 구성될 수 있다. 여기서, 인공신경망 텍스트-음성 합성 모델은 단일 인공신경망 텍스트-음성 합성 모델일 수 있다. 일 실시예에서, 음성 합성기(110)는 도 4의 데이터 인식부(455) 및/또는 도 10의 데이터 인식부(1020)에 대응될 수 있다. 또한, 음성 합성기(110)는 사용자 단말기 또는 텍스트-음성 합성 시스템에 포함되거나 제공될 수 있다. 1 is an exemplary view illustrating a process of outputting a synthesized voice 140 by receiving an input text 120 and a sequential rhyme feature 130 by the voice synthesizer 110 according to an embodiment of the present disclosure. The speech synthesizer 110 may be configured to output a synthesized speech corresponding to the input text using the artificial neural network text-to-speech synthesis model. Here, the neural network text-voice synthesis model may be a single neural network text-voice synthesis model. In one embodiment, the speech synthesizer 110 may correspond to the data recognizer 455 of FIG. 4 and / or the data recognizer 1020 of FIG. 10. In addition, the speech synthesizer 110 may be included or provided in a user terminal or a text-to-speech synthesis system.
일 실시예에 따르면, 음성 합성기(110)에 입력되는 텍스트는 임의의 인터페이스(미도시)를 통해 수신된 텍스트를 포함할 수 있다. 다른 실시예에 따르면, 음성 인식기(미도시)는 특정 음성을 입력받아, 입력된 음성에 대응하는 문자로 변환할 수 있으며, 변환된 문자를 음성 합성기(110)에 입력 텍스트로서 제공할 수 있다. 이에 따라, 도 1에 도시된 바와 같이, 음성 합성기(110)는 'HELLO'라는 문자를 인터페이스 또는 음성 인식기를 통해 텍스트 입력으로써 수신할 수 있다. According to an embodiment, the text input to the speech synthesizer 110 may include text received through an arbitrary interface (not shown). According to another embodiment, the voice recognizer (not shown) may receive a specific voice, convert it into a character corresponding to the input voice, and provide the converted character to the voice synthesizer 110 as input text. Accordingly, as shown in FIG. 1, the speech synthesizer 110 may receive a text 'HELLO' as a text input through an interface or a speech recognizer.
일 실시예에 따르면, 음성 합성기(110)는 순차적 운율 특징을 수신하도록 구성될 수 있다. 여기서, 순차적 운율 특징은 미리 결정된 시간 단위에 따라 각 시간 단위의 운율 정보를 포함할 수 있다. 도 1에 도시된 바와 같이, 순차적 운율 특징은 소리의 높이에 대한 정보를 포함할 수 있으며, 예를 들어, '11113'이라는 시간에 따른 피치(pitch)를 나타내는 정보를 포함할 수 있다. 일 실시예에 따르면, 이러한 순차적 운율 특징은 소리에 대한 운율 특징을 추출할 수 있는 임의의 추출기로부터 추출되거나 결정될 수 있고, 예를 들어, 피치 트랙커(pitch tracker)로부터 추출될 수 있다. 다른 실시예에 따르면, 음성 합성기(110)는 소리에 대한 순차적 운율 정보를 나타내는 임의의 정보를 수신할 수 있으며, 예를 들어, 악보가 나타내는 정보를 수신할 수 있다. 또 다른 실시예에 따르면, 음성 합성기(110)는 임의의 장치로부터 입력된 텍스트에 대한 시간에 따른 음성 합성 마크업 언어(speech synthesis markup language)로 표현된 속성값에 대응하는 순차적인 운율 특징을 수신할 수 있다. 이러한 속성값과 관련하여 이하에서 도 9를 참조하여 상세히 설명된다. According to one embodiment, speech synthesizer 110 may be configured to receive sequential rhyme features. Here, the sequential rhyme feature may include rhyme information of each time unit according to a predetermined time unit. As illustrated in FIG. 1, the sequential rhyme feature may include information about a sound height, and may include, for example, information indicating a pitch over time of '11113'. According to one embodiment, this sequential rhyme feature may be extracted or determined from any extractor capable of extracting the rhyme feature for the sound, for example from a pitch tracker. According to another embodiment, the speech synthesizer 110 may receive arbitrary information indicating sequential rhyme information about the sound, for example, may receive information indicated by the score. According to another embodiment, speech synthesizer 110 receives sequential rhyme features corresponding to attribute values expressed in speech synthesis markup language over time for text input from any device. can do. This attribute value is described in detail below with reference to FIG. 9.
음성 합성기(110)는 수신된 순차적 운율 특징이 반영된 입력 텍스트에 대한 출력 데이터를 생성하도록 구성될 수 있다. 이를 위해, 음성 합성기(110)는 순차적 운율 특징이 나타내는 시간 순에 따른 운율 정보를 입력 텍스트에 적용할 수 있다. 예를 들어, 도 1에 도시된 바와 같이, 음성 합성기(110)는 입력 텍스트 'HELLO'에 수신된 시간에 따른 피치를 나타내는 정보인 '11113'을 반영하여 출력 음성 데이터를 생성할 수 있다. 즉, 음성 합성기(110)는 입력 텍스트의 마지막 글자(character)인 'o'의 피치를 다른 글자보다 더 높인 의문형 텍스트인 'HELLO?'에 대응하는 출력 음성을 생성할 수 있다. 이렇게 생성된 음성은 스피커 등과 같은 출력 장치를 통해 출력되거나 I/O 장치를 가진 다른 장치로 전송될 수 있다. The speech synthesizer 110 may be configured to generate output data for the input text reflecting the received sequential rhyme characteristics. To this end, the speech synthesizer 110 may apply rhyme information according to the time sequence represented by the sequential rhyme characteristics to the input text. For example, as illustrated in FIG. 1, the speech synthesizer 110 may generate output speech data by reflecting '11113', which is information indicating a pitch according to time, received in the input text 'HELLO'. That is, the speech synthesizer 110 may generate an output voice corresponding to the questionable text 'HELLO?' Having a pitch of 'o' which is the last character of the input text higher than other characters. The voice thus generated may be output through an output device such as a speaker, or may be transmitted to another device having an I / O device.
도 2는 본 개시의 일 실시예에 따른 음성 합성기(110)에 의해 순차적 운율 특징 추출기(230)으로부터 추출된 순차적 운율 특징(210) 및 입력 텍스트(120)를 이용하여 합성 음성(240)을 출력하는 과정을 나타내는 예시도이다. 일 실시예에서, 순차적 운율 특징 추출기(230)는 도 4의 순차적 운율 특징 추출부(410)에 대응될 수 있다. 입력 텍스트(120) 및 음성 합성기(110)에 대해서는 도 1을 참조하여 설명하였으므로, 중복되는 설명은 생략된다.FIG. 2 outputs the synthesized speech 240 using the sequential rhyme feature 210 and the input text 120 extracted from the sequential rhyme feature extractor 230 by the speech synthesizer 110 according to an embodiment of the present disclosure. It is an exemplary view showing the process of doing. In one embodiment, the sequential rhyme feature extractor 230 may correspond to the sequential rhyme feature extractor 410 of FIG. 4. Since the input text 120 and the speech synthesizer 110 have been described with reference to FIG. 1, redundant description thereof will be omitted.
일 실시예에 따르면, 순차적 운율 특징 추출기(230)는 음성 신호 또는 음성 샘플(220)을 수신하고, 수신된 음성 신호 또는 샘플로부터 순차적 운율 특징(210)을 추출할 수 있다. 여기서, 수신된 음성 신호 또는 샘플은 순차적 운율 특징(210)과 관련된 정보를 나타내는 음성 스펙트럼 데이터를 포함할 수 있으며, 예를 들어, 멜로디, 특정 화자의 음성 등을 포함할 수 있다. According to an embodiment, the sequential rhyme feature extractor 230 may receive a voice signal or a voice sample 220 and extract the sequential rhyme feature 210 from the received voice signal or sample. Here, the received voice signal or sample may include voice spectral data representing information related to the sequential rhyme feature 210, and may include, for example, a melody, a voice of a specific speaker, and the like.
일 실시예에 따르면, 순차적 운율 특징(210)을 추출하는데 있어서, 음성 신호 또는 샘플(220)로부터 순차적 운율 특징(210)을 추출할 수 있는 임의의 알려진 적절한 특징 추출 방법이 사용될 수 있다. 일 실시예에 따르면, 순차적인 운율 특징을 추출하기 위하여 인공신경망 또는 기계학습 모델이 사용될 수 있다. 예를 들어, 순차적 운율 특징 추출기(230)에 사용되는 인공신경망 또는 기계학습 모델은, RNN(recurrent neural network), LSTM(long short-term memory model), DNN(deep neural network), CNN(convolution neural network) 등을 포함하는 다양한 인공신경망 모델 중의 어느 하나 또는 이들의 조합으로 구성될 수 있다. According to one embodiment, in extracting the sequential rhyme feature 210, any known suitable feature extraction method capable of extracting the sequential rhyme feature 210 from the speech signal or sample 220 may be used. According to an embodiment, an artificial neural network or a machine learning model may be used to extract sequential rhyme features. For example, the neural network or machine learning model used in the sequential rhyme feature extractor 230 may include a recurrent neural network (RNN), a long short-term memory model (LSTM), a deep neural network (DNN), and a convolution neural (CNN). It can be composed of any one or a combination of various artificial neural network models, including the network).
순차적 운율 특징 추출기(230)는 수신된 음성 신호 또는 음성 샘플을 인공신경망 운율 특징 모델에 입력하여 순차적인 운율 특징(210)을 나타내는 복수의 특징 벡터(임베딩 벡터)를 추출할 수 있다. 여기서, 복수의 임베딩 벡터의 각각은 미리 결정된 시간 단위(예를 들어, 프레임, 음소, 글자, 음절 또는 단어 등)에 대응될 수 있다. 예를 들어, 이러한 벡터는 MFCC(mel frequency cepstral coefficient), LPC(linear predictive coefficients), PLP(perceptual linear prediction) 등과 같은 다양한 음성 특징 벡터들 중의 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 또한, 이렇게 추출된 복수의 임베딩 벡터는 시간 순에 따라 운율 특징 또는 정보를 포함하고 있으므로, 이러한 벡터의 길이는 입력된 음성 샘플의 길이에 따라 가변적이거나 상이할 수 있다. The sequential rhyme feature extractor 230 may extract a plurality of feature vectors (embedding vectors) representing the sequential rhyme features 210 by inputting the received voice signal or voice sample into the artificial neural network rhyme feature model. Here, each of the plurality of embedding vectors may correspond to a predetermined time unit (eg, frame, phoneme, letter, syllable or word). For example, the vector may include one of various speech feature vectors such as mel frequency cepstral coefficient (MFCC), linear predictive coefficients (LPC), perceptual linear prediction (PLP), and the like, but is not limited thereto. In addition, since the plurality of embedding vectors thus extracted include a rhyme feature or information in chronological order, the length of the vector may be variable or different depending on the length of the input speech sample.
음성 합성기(110)는 수신된 텍스트(120)에 순차적 운율 특징 추출기(230)로부터 추출된 순차적인 운율 특징(210)을 반영한 음성 출력 데이터를 생성할 수 있다. 예를 들어, 음성 합성기(110)는 입력된 'HELLO' 텍스트에 대응하는 임베딩 정보 및 순차적 운율 특징 추출기(230)에 의해 추출된 복수의 임베딩 벡터를 인공신경망 텍스트-음성 합성 모델에 입력하여 순차적인 운율 특징이 반영된 'HELLO' 음성 데이터를 생성할 수 있다. 이렇게 생성된 음성은 스피커 등과 같은 출력 장치를 통해 출력되거나 I/O 장치를 가진 다른 장치로 전송될 수 있다.도 3은 본 개시의 일 실시예에 따른 순차적 운율 특징(210) 및 화자의 발성 특징(330)을 입력 텍스트(120)에 적용하여 합성 음성을 출력하는 음성 합성기(110)의 개요도이다. 도 3에 도시된 바와 같이, 음성 합성기(110)는 입력 텍스트(120), 순차적 운율 특징(210) 및 화자의 발성 특징(330)을 수신할 수 있다. 여기서, 순차적 운율 특징(210)은 음성 신호 또는 음성 샘플(220)을 기초로 순차적 운율 특징 추출기(230)으로부터 추출될 수 있으며, 화자의 발성 특징(330)은 음성 신호 또는 음성 샘플(320)을 기초로 화자의 발성 특징 추출기(310)으로부터 추출될 수 있다. 일 실시예에 따르면, 순차적 운율 특징 추출기(230)에 입력되는 음성 신호 또는 음성 샘플(220)은 발성 특징 추출기(310)에 입력되는 음성 신호 또는 음성 샘플(320)과 상이할 수 있다. 다른 실시예에서, 두 음성 신호 또는 음성 샘플(220, 320)은 서로 동일할 수 있다. 음성 합성기(110), 입력 텍스트(120), 순차적인 운율 특징(210), 음성 신호 또는 음성 샘플(220) 및 순차적 운율 특징 추출기(230)에 대해서는 도 1 및 도 2를 참조하여 설명하였으므로, 중복되는 설명은 생략된다.The speech synthesizer 110 may generate voice output data reflecting the sequential rhyme features 210 extracted from the sequential rhyme feature extractor 230 in the received text 120. For example, the speech synthesizer 110 inputs embedding information corresponding to the input 'HELLO' text and a plurality of embedding vectors extracted by the sequential rhyme feature extractor 230 into the artificial neural network text-to-speech synthesis model and sequentially. It is possible to generate 'HELLO' voice data reflecting rhyme characteristics. The generated voice may be output through an output device such as a speaker, or transmitted to another device having an I / O device. FIG. 3 illustrates a sequential rhyme feature 210 and a speaker's utterance feature according to an embodiment of the present disclosure. It is a schematic diagram of the speech synthesizer 110 for outputting synthesized speech by applying 330 to the input text 120. As shown in FIG. 3, the speech synthesizer 110 may receive an input text 120, a sequential rhyme feature 210, and a speaker's utterance feature 330. Here, the sequential rhyme feature 210 may be extracted from the sequential rhyme feature extractor 230 based on the voice signal or the voice sample 220, and the speaker's utterance feature 330 may be used to extract the voice signal or the voice sample 320. Based on the speaker's utterance feature extractor 310 may be extracted. According to an embodiment, the voice signal or voice sample 220 input to the sequential rhyme feature extractor 230 may be different from the voice signal or voice sample 320 input to the voice feature extractor 310. In other embodiments, the two voice signals or voice samples 220, 320 may be identical to each other. Since the speech synthesizer 110, the input text 120, the sequential rhyme feature 210, the speech signal or the voice sample 220, and the sequential rhyme feature extractor 230 have been described with reference to FIGS. The description is omitted.
발성 특징 추출기(310)는 음성 데이터로부터 화자의 발성 특징을 추출하도록 구성될 수 있다. 화자의 발성 특징은 그 화자의 음성을 모사하는 것뿐만 아니라, 그 발성을 구성할 수 있는 스타일, 운율, 감정, 음색, 음높이 등 다양한 요소들 중 적어도 하나를 포함할 수 있다. 일 실시예에 따르면, 화자의 발성 특징은 화자를 나타내는 원-핫 화자 ID-벡터를 포함할 수 있다. 다른 실시예에 따르면, 화자의 발성 특징은 화자의 발성 특징을 나타내는 임베딩 벡터를 포함할 수 있다. 일 실시예에서, 발성 특징 추출기(310)는 도 4의 발성 특징 추출부(415)에 대응될 수 있다. The speech feature extractor 310 may be configured to extract the speaker's speech feature from the speech data. The speaker's utterance feature may include at least one of various elements such as style, rhyme, emotion, tone, pitch, etc., which may not only simulate the speaker's voice but also constitute the utterance. According to one embodiment, the speaker's utterance feature may include a one-hot speaker ID-vector representing the speaker. According to another embodiment, the speaker's utterance feature may include an embedding vector representing the speaker's utterance feature. In one embodiment, the speech feature extractor 310 may correspond to the speech feature extractor 415 of FIG. 4.
음성 합성기(110)는 입력 텍스트(120), 순차적인 운율 특징(210) 및 화자의 발성 특징(330)을 인공신경망 텍스트-음성 합성 모델에 입력하여 출력 음성(340)을 생성할 수 있다. 출력 음성(340)은 순차적 운율 특징(210) 및 화자의 발성 특징(330)이 반영된 입력 텍스트(120)에 대한 출력 음성 데이터를 포함할 수 있다. 즉, 출력 음성(340)은 화자의 발성 특징을 기초로 해당 화자의 음성을 모사하고 순차적 운율 특징(210)을 반영함으로써, 해당 화자가 입력된 순차적 운율 특징(210)으로 입력 텍스트(120)를 말하는 음성으로 합성된 데이터일 수 있다. 예를 들어, 순차적 운율 특징(210) 및 화자의 발성 특징(330)이 제1 화자 및 제1 화자와 상이한 제2 화자의 음성으로부터 각각 추출된 경우, 제2 화자가 목소리로 제2 화자의 시간에 따른 운율 정보를 기초로 'HELLO'를 말하는 음성이 출력될 수 있다. 이렇게 생성된 음성은 스피커 등과 같은 출력 장치를 통해 출력되거나 I/O 장치를 가진 다른 장치로 전송될 수 있다.The speech synthesizer 110 may generate the output speech 340 by inputting the input text 120, the sequential rhyme feature 210, and the speaker's speech feature 330 into the artificial neural network text-to-speech synthesis model. The output voice 340 may include output voice data for the input text 120 reflecting the sequential rhyme feature 210 and the speaker's utterance feature 330. That is, the output voice 340 simulates the speaker's voice based on the speaker's utterance feature and reflects the sequential rhyme feature 210, thereby converting the input text 120 into the sequential rhyme feature 210 to which the speaker is input. It may be data synthesized by talking voice. For example, when the sequential rhyme feature 210 and the speaker's utterance feature 330 are extracted from the first speaker and the second speaker's voice different from the first speaker, respectively, the second speaker's voice is the time of the second speaker. The voice saying 'HELLO' may be output based on the rhyme information according to FIG. The voice thus generated may be output through an output device such as a speaker, or may be transmitted to another device having an I / O device.
도 2 및 3에서는 음성 합성기(110)가 순차적 운율 특징 추출기(230)으로부터 추출된 순차적인 운율 특징(210)을 나타내는 시간에 따른 복수의 임베딩 벡터를 수신하도록 도시되어 있으나, 이에 한정되지 않으며, 음성 합성기(110)는 순차적 운율 특징(210)을 나타내는 시간에 따른 복수의 임베딩 벡터에 대한 입력값을 I/O 장치(미도시)를 통해 수신할 수 있다. 이와 달리, 순차적 운율 특징(210)을 나타내는 시간에 따른 복수의 임베딩 벡터가 저장매체(미도시)에 미리 저장될 수 있으며, 음성 합성기(110)는 저장매체에 접근하여 복수의 임베딩 벡터를 수신할 수 있다. 또한, 이렇게 추출되거나 저장된 복수의 임베딩 벡터에 대한 수정 정보가 I/O 장치를 통해 수신될 수 있으며, 수신된 수정 정보에 따라 복수의 임베딩 벡터를 수정할 수 있으며, 수정된 복수의 임베딩 벡터가 음성 합성기(110)에 수신될 수 있다. 2 and 3 illustrate that the speech synthesizer 110 receives a plurality of embedding vectors over time representing the sequential rhyme features 210 extracted from the sequential rhyme feature extractor 230, but is not limited thereto. The synthesizer 110 may receive an input value for a plurality of embedding vectors over time indicating the sequential rhyme feature 210 through an I / O device (not shown). Alternatively, a plurality of embedding vectors according to time representing the sequential rhyme feature 210 may be stored in advance in a storage medium (not shown), and the voice synthesizer 110 may access the storage medium to receive the plurality of embedding vectors. Can be. In addition, the modified information on the plurality of embedded vectors thus extracted or stored may be received through the I / O device, the plurality of embedded vectors may be modified according to the received modified information, and the modified plurality of embedded vectors may be speech synthesizers. May be received at 110.
또한, 도 3에서는, 화자의 발성 특징(330)이 발성 특징 추출기(310) 로부터 추출되어 음성 합성기(110)에 제공되는 것으로 도시되어 있으나, 이에 한정되지 않으며, 음성 합성기(110)는 발성 특징을 나타내는 임베딩 벡터에 대한 입력값을 I/O 장치(미도시)를 통해 수신할 수 있다. 이와 달리, 발성 특징을 나타내는 임베딩 벡터가 저장매체(미도시)에 미리 저장될 수 있으며, 음성 합성기(110)는 저장매체에 접근하여 발성 특징을 나타내는 임베딩 벡터를 수신할 수 있다. 또한, 이렇게 추출되거나 저장된 발성 특징에 대한 수정 정보가 I/O 장치를 통해 수신될 수 있으며, 수신된 정보에 따라 발성 특징을 나타내는 임베딩 벡터가 수정될 수 있으며, 수정된 발성 특징을 나타내는 임베딩 벡터가 음성 합성기(110)에 수신될 수 있다.도 4는 본 개시의 일 실시예에 따른 텍스트-음성 합성 시스템(400)의 블록도이다. 텍스트-음성 합성 시스템(400)은 통신부(405), 순차적 운율 특징 추출부(410), 발성 특징 추출부(415), 정규화기(420), 음성 데이터베이스(425), 어텐션 모듈(430), 인코더(435), 디코더(440), 후처리 프로세서(445), 데이터 학습부(450), 데이터 인식부(455)를 포함할 수 있다. 통신부(405)는 텍스트-음성 합성 시스템(400)이 외부 장치와 신호 또는 데이터를 송수신하도록 구성될 수 있다. 외부 장치는 텍스트-음성 합성 서비스를 제공하는 사용자 단말을 포함할 수 있다. 이와 달리, 외부장치는 다른 텍스트-음성 합성 시스템을 포함할 수 있다. 또는, 외부 장치는 음성 데이터베이스를 포함한 임의의 장치일 수 있다. 3, the speaker's utterance feature 330 is illustrated as being extracted from the utterance feature extractor 310 and provided to the voice synthesizer 110, but the present disclosure is not limited thereto. An input value for the embedded embedding vector may be received through an I / O device (not shown). Alternatively, an embedding vector representing the utterance feature may be stored in advance in a storage medium (not shown), and the speech synthesizer 110 may access the storage medium to receive the embedding vector representing the utterance feature. In addition, the extracted information about the extracted or stored utterance feature may be received through the I / O device, an embedding vector indicating the utterance feature may be modified according to the received information, and an embedding vector indicating the modified utterance feature may be Voice synthesizer 110. FIG. 4 is a block diagram of a text-to-speech synthesis system 400 according to one embodiment of the present disclosure. The text-to-speech synthesis system 400 includes a communication unit 405, a sequential rhyme feature extractor 410, a speech feature extractor 415, a normalizer 420, a voice database 425, an attention module 430, an encoder. 435, a decoder 440, a post processor 445, a data learner 450, and a data recognizer 455. The communication unit 405 may be configured such that the text-to-speech synthesis system 400 transmits and receives signals or data with an external device. The external device may include a user terminal for providing a text-to-speech service. Alternatively, the external device may include other text-to-speech synthesis systems. Or, the external device can be any device including a voice database.
일 실시예에 따르면, 통신부(405)는 외부 장치로부터 텍스트를 수신하도록 구성될 수 있다. 여기서, 텍스트는 인공신경망 텍스트-음성 합성 모델의 학습을 위해 사용될 학습 텍스트를 포함할 수 있다. 이와 달리, 텍스트는 인공신경망 텍스트-음성 합성 모델을 통해 합성 음성을 생성하기 위해 사용될 입력 텍스트를 포함할 수 있다. 이러한 텍스트는 음성 데이터베이스(425), 인코더(435), 디코더(440), 데이터 학습부(450), 데이터 인식부(455) 중 적어도 하나에 제공될 수 있다. According to an embodiment, the communication unit 405 may be configured to receive text from an external device. Here, the text may include training text to be used for training the neural network text-voice synthesis model. Alternatively, the text may include input text that will be used to generate synthesized speech via an artificial neural network text-to-speech synthesis model. Such text may be provided to at least one of the voice database 425, the encoder 435, the decoder 440, the data learner 450, and the data recognizer 455.
통신부(405)는 외부 장치를 통해 음성 신호 또는 음성 샘플을 수신하도록 구성될 수 있다. 일 실시예에 따르면, 이러한 음성 신호 또는 샘플은 순차적 운율 특징 추출부(410)에 전달되어, 음성 신호 또는 샘플로부터 순차적 운율 특징이 추출될 수 있다. 다른 실시예에 따르면, 이러한 음성 신호 또는 샘플은 발성 특징 추출부(415)에 전달되어, 음성 신호 또는 샘플로부터 화자의 발성 특징이 추출될 수 있다. 이렇게 추출된 순차적 운율 특징 및/또는 화자의 발성 특징은 데이터 학습부(450)를 통해 인코더(435) 및/또는 디코더(440)에 전달되어 인공신경망 텍스트-음성 합성 모델을 학습하는데에 사용될 수 있다. 이와 달리, 이렇게 추출된 순차적 운율 특징 및/또는 화자의 발성 특징은 데이터 인식부(455)를 통해 인코더(435) 및/또는 디코더(440)에 전달되어 인공신경망 텍스트-음성 합성 모델로부터 합성 음성을 생성하는데에 사용될 수 있다.The communication unit 405 may be configured to receive a voice signal or a voice sample through an external device. According to an embodiment, such a voice signal or a sample may be transmitted to the sequential rhyme feature extractor 410 to extract the sequential rhyme feature from the voice signal or the sample. According to another exemplary embodiment, the voice signal or sample may be transmitted to the voice feature extractor 415 so that the speaker's voice feature may be extracted from the voice signal or sample. The extracted sequential rhyme feature and / or speaker's utterance feature may be transmitted to the encoder 435 and / or the decoder 440 through the data learner 450 and used to train the neural network text-voice synthesis model. . Alternatively, the extracted sequential rhyme features and / or speaker's speech features are transmitted to the encoder 435 and / or the decoder 440 through the data recognizer 455 to synthesize synthesized speech from the artificial neural network text-voice synthesis model. Can be used to generate
일 실시예에서, 통신부(405)는 외부 장치부터 순차적 운율 특징을 수신할 수 있다. 예를 들어, 텍스트-음성 합성 시스템(400)은 도 2의 순차적 운율 특징 추출기(230)를 통해 추출된 순차적 운율 특징을 통신부(405)를 통해 수신할 수 있다. 다른 실시예예서, 통신부(405)는 외부 장치로부터 화자의 발성 특징을 수신할 수 있다. 예를 들어, 통신부(405)는 도 3의 화자의 발성 특징 추출기(310)로부터 화자의 발성 특징(330)을 송수신할 수 있다. 이렇게 수신된 순차적 운율 특징 및/또는 화자의 발성 특징은 정규화기(420), 음성 데이터베이스(425), 어텐션 모듈(430), 인코더(435), 디코더(440), 데이터 학습부(450) 또는 데이터 인식부(455) 중 적어도 하나에 제공할 수 있다. In one embodiment, the communication unit 405 may receive a sequential rhyme feature from an external device. For example, the text-to-speech synthesis system 400 may receive the sequential rhyme feature extracted through the sequential rhyme feature extractor 230 of FIG. 2 through the communication unit 405. In another embodiment, the communication unit 405 may receive the speaker's speech feature from an external device. For example, the communicator 405 may transmit / receive the speaker's voice feature 330 from the speaker's voice feature extractor 310 of FIG. 3. The received sequential rhyme feature and / or the speaker's utterance feature are the normalizer 420, the voice database 425, the attention module 430, the encoder 435, the decoder 440, the data learner 450, or the data. It may be provided to at least one of the recognition unit 455.
일 실시예에서, 통신부(405)는 외부 장치로부터 입력 텍스트에 대한 운율 정보를 순차적 운율 특징으로서 수신할 수 있다. 여기서, 운율 정보는 입력 텍스트의 각 부분(예를 들어, 음소, 글자, 음절, 어절 등)에 대한 음성 합성 마크업 언어에서 제공되는 태그를 통해 입력된 속성 값을 포함할 수 있다. In one embodiment, the communication unit 405 may receive rhyme information on the input text from the external device as a sequential rhyme feature. Here, the rhyme information may include an attribute value input through a tag provided in a speech synthesis markup language for each part (eg, phoneme, letters, syllables, words, etc.) of the input text.
일 실시예에 따르면, 통신부(405)는 생성된 출력 음성과 관련된 정보, 즉, 출력 음성 데이터를 외부장치로 송신할 수 있다. 또한, 생성된 인공신경망 텍스트-음성 합성 모델은 통신부(405)를 통해 사용자 단말기 또는 다른 텍스트-음성 합성 시스템에 송신될 수 있다.According to an embodiment, the communication unit 405 may transmit information related to the generated output voice, that is, output voice data to an external device. In addition, the generated neural network text-to-speech synthesis model may be transmitted to the user terminal or another text-to-speech synthesis system through the communication unit 405.
도 4에서, 텍스트-음성 합성 시스템(400)은 통신부(405)를 통해 텍스트, 음성 신호 또는 샘플, 순차적 운율 특징 및 화자의 발성 특징 등을 수신하거나 출력 음성 데이터 및 인공신경망 텍스트-음성 합성 모델은 통신부(405)를 통해 출력되는 것으로 도시되어 있으나, 텍스트-음성 합성 시스템(400)은 입출력장치(I/O 장치; 미도시)를 더 포함할 수 있다. 이에 따라, 텍스트-음성 합성 시스템(400)은 사용자로부터 입력을 직접 수신할 수 있으며, 사용자에게 텍스트, 음성, 영상 중 적어도 하나를 출력할 수 있다. In FIG. 4, the text-to-speech synthesis system 400 receives a text, a voice signal or a sample, a sequential rhyme feature, and a speaker's voice feature through the communication unit 405, or output voice data and an artificial neural network text-to-speech synthesis model. Although illustrated as being output through the communication unit 405, the text-to-speech synthesis system 400 may further include an input / output device (I / O device; not shown). Accordingly, the text-to-speech synthesis system 400 may directly receive an input from the user and output at least one of text, voice, and video to the user.
순차적 운율 특징 추출부(410)는 통신부(405) 또는 입출력장치를 통해 음성 신호 또는 샘플을 수신하고, 수신된 음성 신호 또는 샘플로부터 순차적 운율 특징을 추출하도록 구성될 수 있다. 일 실시예에서, 순차적 운율 특징 추출부(410)는 도 2 및 3의 순차적 운율 특징 추출기(230)에 대응될 수 있다. 예를 들어, 순차적 운율 특징 추출부(410)는 멜 주파수 셉스트럴(MFC)과 같은 음성 처리 방법을 이용하여 수신된 음성 신호 또는 샘플로부터 순차적 운율 특징을 추출할 수 있다. 이와 달리, 음성 샘플을 이용하여 학습된 운율 특징 추출 모델(예를 들어, 인공신경망)에 입력하여 순차적 운율 특징이 추출될 수 있다. 예를 들어, 순차적 운율 특징은 시간에 따라 일정 단위에 대응하는 복수의 임베딩 벡터로 나타낼 수 있다. 여기서, 일정 단위는 프레임, 음소, 글자, 음절, 단어, 어절 등 적어도 하나의 단위에 대응될 수 있다. 다른 실시예에 따르면, 순차적 운율 특징 추출부(410)는 비디오, 음악 또는 악보에 대한 정보 중 적어도 하나를 수신할 수 있고, 수신된 비디오, 음악 및/또는 악보로부터 순차적 운율 특징을 추출하도록 구성될 수 있다. 일 실시예에 따르면, 순차적 운율 특징을 나타내는 복수의 임베딩 벡터에 대한 수정 정보가 I/O 장치(미도시)를 통해 수신될 수 있으며, 수신된 정보를 통해 복수의 임베딩 벡터가 수정될 수 있다. The sequential rhyme feature extractor 410 may be configured to receive a voice signal or a sample through the communication unit 405 or an input / output device, and extract the sequential rhyme feature from the received voice signal or sample. In one embodiment, the sequential rhyme feature extractor 410 may correspond to the sequential rhyme feature extractor 230 of FIGS. 2 and 3. For example, the sequential rhyme feature extractor 410 may extract the sequential rhyme features from the received voice signal or sample using a speech processing method such as Mel frequency sestol (MFC). Alternatively, sequential rhyme features may be extracted by inputting a trained rhyme feature extraction model (eg, an artificial neural network) using a voice sample. For example, the sequential rhyme feature may be represented by a plurality of embedding vectors corresponding to a predetermined unit over time. Here, the predetermined unit may correspond to at least one unit such as a frame, a phoneme, a letter, a syllable, a word, a word, and the like. According to another embodiment, the sequential rhyme feature extractor 410 may receive at least one of information about video, music or sheet music, and may be configured to extract sequential rhyme features from the received video, music and / or sheet music. Can be. According to an embodiment, correction information for a plurality of embedding vectors indicating sequential rhyme characteristics may be received through an I / O device (not shown), and the plurality of embedding vectors may be modified through the received information.
추출되거나 수정된 순차적 운율 특징은 데이터 학습부(450) 및/또는 데이터 인식부(455)에 제공되어 인코더(414) 및/또는 디코더(440) 중 적어도 하나에 제공될 수 있다. 일 실시예에 따르면, 순차적 운율 특징은 데이터 학습부(450) 및/또는 데이터 인식부(455)에 제공되기 이전에, 정규화기(420) 및/또는 어텐션 모듈(430)에 제공될 수 있다. 일 실시예에 따르면, 순차적 운율 특징 추출부(410)로부터 추출된 순차적 운율 특징은 저장매체(예를 들어, 음성 데이터베이스(425)) 또는 외부 저장 장치에 저장될 수 있다. 이에 따라, 입력 텍스트에 대한 음성 합성 시, 저장매체에 미리 저장된 복수의 순차적 운율 특징 중 하나 이상을 선택 또는 지정될 수 있고, 선택 또는 지정된 순차적 운율 특징이 음성 합성에 이용될 수 있다.  The extracted or modified sequential rhyme feature may be provided to the data learner 450 and / or the data recognizer 455 and provided to at least one of the encoder 414 and / or the decoder 440. According to an embodiment, the sequential rhyme feature may be provided to the normalizer 420 and / or the attention module 430 before being provided to the data learner 450 and / or the data recognizer 455. According to an embodiment, the sequential rhyme features extracted from the sequential rhyme feature extractor 410 may be stored in a storage medium (eg, the voice database 425) or an external storage device. Accordingly, when synthesizing the input text, one or more of a plurality of sequential rhyme features previously stored in the storage medium may be selected or specified, and the selected or specified sequential rhyme features may be used for speech synthesis.
발성 특징 추출부(415)는 화자의 음성 신호(예를 들어, 음성 샘플)을 수신하고, 수신된 음성 신호로부터 화자의 발성 특징을 추출하도록 구성될 수 있다. 여기서, 추출된 발성 특징은 화자를 모사하고, 화자의 음성에 포함된 임의의 특징을 포함할 수 있고, 예를 들어, 복수의 임베딩 벡터로 표현될 수 있다. 화자의 발성 특징을 추출하는데 있어서, 화자의 음성 신호로부터 발성 특징을 추출할 수 있는 임의의 알려진 적절한 특징 추출 방법이 사용될 수 있다. 예를 들어, 발성 특징 추출부(415)는 인공신경망 또는 기계학습 모델을 이용하여 음성 샘플로부터 화자의 발성 특징을 추출할 수 있다. 일 실시예에서, 화자의 발성 특징 추출부(415)는 도 3의 화자의 발성 특징 추출기(310)에 대응될 수 있다. 이렇게 추출된 화자의 발성 특징은 데이터 학습부(450), 데이터 인식부(455), 인코더(435) 또는 디코더(440) 중 적어도 하나에 제공될 수 있다. The speech feature extractor 415 may be configured to receive the speaker's speech signal (eg, a voice sample) and extract the speaker's speech feature from the received speech signal. Here, the extracted utterance feature may simulate the speaker, and may include any feature included in the speaker's voice, for example, may be represented by a plurality of embedding vectors. In extracting the speaker's speech characteristics, any known suitable feature extraction method that can extract the speech characteristics from the speaker's speech signal may be used. For example, the voice feature extractor 415 may extract the speaker's voice feature from the voice sample using an artificial neural network or a machine learning model. In one embodiment, the speaker's utterance feature extractor 415 may correspond to the speaker's utterance feature extractor 310 of FIG. 3. The extracted speaker's voice feature may be provided to at least one of the data learner 450, the data recognizer 455, the encoder 435, or the decoder 440.
일 실시예에 따르면, 발성 특징 추출부(415)로부터 추출된 화자의 발성 특징은 음성 데이터베이스(425) 또는 외부 저장 장치에 저장될 수 있다. 이에 따라, 입력 텍스트에 대한 음성 합성 시, 저장매체에 미리 저장된 복수의 화자의 발성 특징 중 하나 이상을 선택 또는 지정될 수 있고, 선택 또는 지정된 화자의 발성 특징이 음성 합성에 이용될 수 있다. According to an embodiment, the speaker's voice feature extracted from the voice feature extractor 415 may be stored in the voice database 425 or an external storage device. Accordingly, when speech synthesis is performed on the input text, one or more of the voice features of the plurality of speakers previously stored in the storage medium may be selected or designated, and the voice features of the selected or designated speakers may be used for voice synthesis.
일 실시예에 따르면, 화자의 발성 특징은 화자의 순차적 운율 특징을 포함할 수 있다. 이를 위하여, 예를 들어, 화자의 발성 특징 추출부(415)는 음성 샘플로부터 화자의 순차적 운율 특징을 추출하도록 구성될 수 있다. 또 다른 예로서, 화자의 발성 특징 추출부(415)는 음성 샘플을 순차적 운율 특징 추출부(410)에 제공하여 음성 샘플로부터 추출된 화자의 순차적 운율 특징을 수신할 수 있다. 이렇게 추출된 화자의 순차적 운율 특징은 정규화기(420)에 제공될 수 있다. 도 4에서 순차적 운율 특징 추출부(410) 및 화자의 발성 특징 추출부(415)는 별도의 유닛으로 구성된 것으로 도시되어 있으나, 이에 한정되지 않으며, 하나의 유닛으로 구성될 수 있다. According to an embodiment, the speaker's utterance feature may include a speaker's sequential rhyme feature. To this end, for example, the speaker's voice feature extractor 415 may be configured to extract the speaker's sequential rhyme feature from the voice sample. As another example, the speaker's voice feature extractor 415 may provide a voice sample to the sequential rhyme feature extractor 410 to receive the speaker's sequential rhyme features extracted from the voice sample. The extracted sequential rhyme features of the speaker may be provided to the normalizer 420. In FIG. 4, the sequential rhyme feature extraction unit 410 and the speaker's utterance feature extraction unit 415 are illustrated as being configured as separate units, but are not limited thereto and may be configured as one unit.
정규화기(420)는 순차적 운율 특징 추출부(410)으로부터 수신된 순차적 운율 특징 및 발성 특징 추출부(415)로부터 화자의 순차적 운율 특징(복수의 임베딩 벡터)을 화자의 발성 특징으로써 수신할 수 있다. 설명을 위해, 이하에서는 순차적 운율 특징 추출부(410)으로부터 수신된 순차적 운율 특징를 제1 순차적 운율 특징이라고 지칭되고, 발성 특징 추출부(415)로부터 화자의 순차적 운율 특징는 제2 순차적 운율 특징이라고 지칭될 수 있다. The normalizer 420 may receive the speaker's sequential rhyme features (multiple embedding vectors) from the sequential rhyme features and the vocalization feature extractor 415 as the speaker's utterance features. . For clarity, sequential rhyme features received from the sequential rhyme feature extractor 410 will be referred to as first sequential rhyme features, and the sequential rhyme features of the speaker from the vocalization feature extractor 415 will be referred to as second sequential rhyme features. Can be.
정규화기(420)는 제2 순차적 운율 특징(예를 들어, 복수의 임베딩 벡터)을 기초로 제1 순차적 운율 특징(예를 들어, 복수의 임베딩 벡터)을 정규화하도록 구성될 수 있다. 여기서, 제1 순차적 운율 특징은 제2 순차적 운율 특징과 연관된 화자와 상이한 화자로부터 추출된 특징일 수 있다. 일 실시예에 따르면, 정규화기(420)는 각 시간 단계에서 제2 순차적 운율 특징에 대응하는 복수의 임베딩 벡터의 평균값을 산출하도록 구성될 수 있다. 또한, 정규화기(420)는 제1 순차적 운율 특징을 나타내는 복수의 임베딩 벡터를 각 시간 단계에서 산출된 임베딩 벡터의 평균값으로 감산함으로써, 제1 순차적 운율 특징을 나타내는 복수의 임베딩 벡터를 정규화할 수 있다. 이렇게 정규화된 복수의 임베딩 벡터는 음성 데이터베이스(425), 어텐션 모듈(430), 인코더(435), 디코더(440), 데이터 학습부(450), 또는 데이터 인식부(455) 중 적어도 하나에 제공될 수 있다. 제2 순차적 운율 특징에 대응하는 복수의 임베딩 벡터의 평균값을 이용하여 제1 순차적 운율 특징에 대응하는 복수의 임베딩 벡터가 정규화되므로, 인공신경망 텍스트-음성 합성 모델을 이용하여 제2 순차적 운율 특징에 연관된 화자를 모사하고 다른 화자로부터 추출된 제1 순차적 운율 특징이 반영되도록 임의의 텍스트에 대응하는 합성 음성이 생성되는 경우, 제1 순차적 운율 특징이 상이한 화자의 음성에 더욱 자연스럽게 적용될 수 있다. The normalizer 420 may be configured to normalize the first sequential rhyme feature (eg, the plurality of embedding vectors) based on the second sequential rhyme feature (eg, the plurality of embedding vectors). Here, the first sequential rhyme feature may be a feature extracted from a speaker different from the speaker associated with the second sequential rhyme feature. According to one embodiment, the normalizer 420 may be configured to calculate an average value of a plurality of embedding vectors corresponding to the second sequential rhyme feature at each time step. In addition, the normalizer 420 may normalize the plurality of embedding vectors representing the first sequential rhyme features by subtracting the plurality of embedding vectors representing the first sequential rhyme features to an average value of the embedding vectors calculated at each time step. . The plurality of normalized embedding vectors may be provided to at least one of the voice database 425, the attention module 430, the encoder 435, the decoder 440, the data learner 450, or the data recognizer 455. Can be. Since a plurality of embedding vectors corresponding to the first sequential rhyme feature is normalized using an average value of the plurality of embedding vectors corresponding to the second sequential rhyme feature, an artificial neural network text-voice synthesis model is used to associate the second sequential rhyme feature. When a synthesized voice corresponding to an arbitrary text is generated to simulate the speaker and reflect the first sequential rhyme feature extracted from another speaker, the first sequential rhyme feature may be more naturally applied to the voices of different speakers.
음성 데이터베이스(425)는 학습 텍스트 및 복수의 학습 텍스트에 대응되는 음성을 저장할 수 있으며, 이러한 학습 텍스트 및 이에 대응하는 음성음 데이터 학습부(450)에 의해 접근될 수 있다. 학습 텍스트는 적어도 하나의 언어로 작성될 수 있으며, 사람이 이해할 수 있는 단어, 구문 및 문장 중 적어도 하나를 포함할 수 있다. 또한, 음성 데이터베이스(425)에 저장된 음성은 복수의 화자가 학습 텍스트를 읽은 음성 데이터를 포함할 수 있다. 학습 텍스트 및 음성 데이터는 음성 데이터베이스(425)에 미리 저장되어 있거나, 통신부(405)로부터 수신될 수 있다. 음성 데이터베이스(425)가 저장하고 있는 학습 텍스트 및 음성에 기초하여 데이터 학습부(450)는 인공신경망 텍스트-음성 합성 모델을 생성하거나 학습할 수 있다. 예를 들어, 인공신경망 텍스트-합성 모델은 인코더(435) 및 디코더(440)를 포함할 수 있다. 또 다른 예로서, 인공신경망 텍스트-합성 모델은 인코더(435), 디코더(440) 및 후처리 프로세서(445)를 포함할 수 있다. The voice database 425 may store a learning text and a voice corresponding to the plurality of learning texts, and may be accessed by the learning text and the corresponding voice sound data learning unit 450. The learning text may be written in at least one language, and may include at least one of words, phrases, and sentences that can be understood by a person. In addition, the voice stored in the voice database 425 may include voice data from which a plurality of speakers read a training text. The training text and the voice data may be stored in advance in the voice database 425 or may be received from the communication unit 405. Based on the training text and the voice stored in the voice database 425, the data learning unit 450 may generate or learn an artificial neural network text-voice synthesis model. For example, the neural network text-synthesis model may include an encoder 435 and a decoder 440. As another example, the neural network text-synthesis model may include an encoder 435, a decoder 440, and a post processing processor 445.
일 실시예에 따르면, 음성 데이터베이스(425)는 하나 이상의 순차적 운율 특징을 저장하도록 구성될 수 있다. 예를 들어, 하나 이상의 순차적 운율 특징은 정규화기(420)으로부터 정규화된 순차적 운율 특징을 포함할 수 있다. 다른 실시예에서, 발성 특징 추출부(415)로부터 추출된 하나 이상의 화자의 발성 특징을 저장하도록 구성될 수 있다. 저장된 순차적 운율 특징은 데이터 학습부(450) 및/또는 데이터 인식부(455)에 의해 음성 합성 시 인코더(435) 또는 디코더(440) 중 적어도 하나에 제공될 수 있다. 또한, 저장된 화자의 발성 특징은 데이터 학습부(450) 및/또는 데이터 인식부(455)에 의해 음성 합성 시 인코더(435) 또는 디코더(440) 중 적어도 하나에 제공될 수 있다.According to one embodiment, the voice database 425 may be configured to store one or more sequential rhyme features. For example, the one or more sequential rhyme features may include sequential rhyme features normalized from the normalizer 420. In another embodiment, the voice feature extraction unit 415 may be configured to store voice features of one or more speakers. The stored sequential rhyme feature may be provided to at least one of the encoder 435 or the decoder 440 during speech synthesis by the data learner 450 and / or the data recognizer 455. In addition, the stored speaker's utterance feature may be provided to at least one of the encoder 435 or the decoder 440 during speech synthesis by the data learner 450 and / or the data recognizer 455.
어텐션 모듈(430)은 순차적 운율 특징 추출부(410) 또는 정규화기(420)으로부터 순차적 운율 특징 또는 정규화된 순차적 운율 특징을 수신할 수 있다. 일 실시예에 따르면, 어텐션 모듈(430)은 순차적 운율 특징을 나타내는 복수의 임베딩 벡터를 입력받아서, 인코더(435)에 제공 된 입력 텍스트의 각 부분에 대응되는 복수의 변환 임베딩 벡터를 생성하도록 구성될 수 있다. 예를 들어, 어텐션 모듈(430)은 시간에 따른 복수의 임베딩 벡터 중 어떤 부분이 현재 시간-단계(time-step)에서 입력 텍스트 중 어떤 부분에 대응시킬지 결정하도록 구성될 수 있다. 어텐션 모듈(430)에 의해 생성된 복수의 변환 임베딩 벡터는 음성 합성을 위해 인코더(435)에 제공될 수 있다. The attention module 430 may receive the sequential rhyme feature or the normalized sequential rhyme feature from the sequential rhyme feature extractor 410 or the normalizer 420. According to an embodiment, the attention module 430 may be configured to receive a plurality of embedding vectors representing sequential rhyme characteristics and generate a plurality of transform embedding vectors corresponding to respective portions of the input text provided to the encoder 435. Can be. For example, the attention module 430 may be configured to determine which portion of the plurality of embedding vectors over time corresponds to which portion of the input text at the current time-step. The plurality of transform embedding vectors generated by the attention module 430 may be provided to the encoder 435 for speech synthesis.
인코더(435)는 입력 텍스트를 수신할 수 있으며, 입력 텍스트를 문자 임베딩으로 변환하여 생성하도록 구성될 수 있다. 예를 들어, 인코더(435)는 인공신경망 텍스트-음성 합성 모델의 일부로서 구성될 수 있다. 이러한 문자 임베딩은 인코더(435)에 대응하는 제1 인공신경망 텍스트-음성 합성 모델(예를 들어, pre-net, CBHG 모듈, DNN, CNN+DNN 등)에 입력하여 인코더(435)의 숨겨진 상태들을 생성할 수 있다. 제1 인공신경망 텍스트-음성 합성 모델은 인공신경망 텍스트-음성 합성 모델에 포함될 수 있다. 일 실시예에 따르면, 인코더(435)는 순차적 운율 특징 추출부(410), 정규화기(420) 또는 어텐션 모듈(430)으로부터 순차적 운율 특징을 더 수신할 수 있다. 문자 임베딩 및 순차적 운율 특징은 제1 인공신경망 텍스트-음성 합성 모델에 입력되어 인코더(435)의 숨겨진 상태들(hidden states)이 생성될 수 있다. 다른 실시예에서, 인코더(435)는 발성 특징 추출부(415)로부터 화자의 발성 특징을 더 수신할 수 있다. 화자의 발성 특징은 문자 임베딩 및 순차적 운율 특징과 함께 제1 인공신경망 텍스트-음성 합성 모델에 입력되어 인코더(435)의 숨겨진 상태들(hidden states)이 생성될 수 있다. 이렇게 생성된 인코더(435)의 숨겨진 상태들은 디코더(440)에 제공될 수 있다. The encoder 435 may receive the input text and may be configured to convert the input text into character embedding to generate it. For example, the encoder 435 may be configured as part of the neural network text-to-speech synthesis model. Such character embedding is input to a first artificial neural network text-voice synthesis model (eg, pre-net, CBHG module, DNN, CNN + DNN, etc.) corresponding to encoder 435 to hide hidden states of encoder 435. Can be generated. The first neural network text-voice synthesis model may be included in the artificial neural network text-voice synthesis model. According to an embodiment, the encoder 435 may further receive the sequential rhyme feature from the sequential rhyme feature extractor 410, the normalizer 420, or the attention module 430. Character embedding and sequential rhyme features may be input to the first artificial neural network text-to-speech synthesis model to generate hidden states of the encoder 435. In another embodiment, the encoder 435 may further receive the talker's talk feature from the talk feature extractor 415. The speaker's utterance feature may be input into the first artificial neural network text-to-speech synthesis model along with the character embedding and the sequential rhyme feature to generate hidden states of the encoder 435. The hidden states of the encoder 435 thus generated may be provided to the decoder 440.
디코더(440)는 인공신경망 텍스트-음성 합성 모델의 일부로서 구성될 수 있다. 일 실시예에서, 디코더(440)는 순차적 운율 특징을 수신하도록 구성될 수 있다. 디코더(440)는 순차적 운율 특징 추출부(410) 또는 정규화기(420) 중 적어도 하나로부터 순차적 운율 특징을 수신할 수 있다. 디코더(440)는 인코더(435)로부터 입력 텍스트에 대응한 숨겨진 상태들을 수신할 수 있다. 또한, 디코더(440)는 현재 시간-단계(time-step)에서 입력 텍스트 중 어떤 부분으로부터 음성을 생성할지 결정하도록 구성된 어텐션 모듈을 포함할 수 있다. 이에 따라, 순차적 운율 특징 및/또는 입력 텍스트에 대응한 숨겨진 상태들은 디코더(440)에 대응하는 제2 인공신경망 텍스트-음성 합성 모델(예를 들어, 어텐션 모듈, 디코더 RNN, 어텐션 RNN, Pre-net, DNN 등)에 입력되어 입력 텍스트에 대응되는 출력 음성 데이터가 생성될 수 있다. 제2 인공신경망 텍스트-음성 합성 모델은 인공신경망 텍스트-음성 합성 모델에 포함될 수 있다. Decoder 440 may be configured as part of an artificial neural network text-to-speech synthesis model. In one embodiment, decoder 440 may be configured to receive sequential rhyme features. The decoder 440 may receive the sequential rhyme feature from at least one of the sequential rhyme feature extractor 410 or the normalizer 420. The decoder 440 may receive hidden states corresponding to the input text from the encoder 435. Decoder 440 may also include an attention module configured to determine which portion of the input text is to be generated at the current time-step. Accordingly, the sequential rhyme features and / or hidden states corresponding to the input text may include a second artificial neural network text-voice synthesis model corresponding to the decoder 440 (eg, attention module, decoder RNN, attention RNN, pre-net). , DNN, etc.) to generate output voice data corresponding to the input text. The second neural network text-to-speech synthesis model may be included in the artificial neural network text-to-speech synthesis model.
다른 실시예에서, 디코더(440)는 발성 특징 추출부(415)로부터 화자의 발성 특징을 더 수신하도로 구성될 수 있다. 순차적 운율 특징, 입력 텍스트에 대응한 숨겨진 상태들 및/또는 화자의 발성 특징은 디코더(440)에 대응하는 제2 인공신경망 텍스트-음성 합성 모델에 입력되어 입력 텍스트에 대응되는 출력 음성 데이터가 생성될 수 있다. 이러한 출력 음성 데이터는 화자의 음성을 모사하고 순차적 운율 특징이 반영된 입력 텍스트에 대한 출력 음성 데이터를 포함할 수 있다. In another embodiment, the decoder 440 may be configured to further receive the speaker's voice feature from the voice feature extractor 415. The sequential rhyme feature, the hidden states corresponding to the input text, and / or the speaker's utterance feature are input to a second artificial neural network text-to-speech synthesis model corresponding to the decoder 440 to generate output speech data corresponding to the input text. Can be. Such output speech data may include output speech data for input text that simulates the speaker's speech and reflects sequential rhyme characteristics.
이렇게 생성된 출력 음성 데이터는 멜 스펙트로그램으로 표현될 수 있다. 하지만 이에 한정되는 것은 아니며, 출력 음성 데이터는 선형 스펙트로그램으로 표현될 수 있다. 이러한 출력 음성 데이터는 스피커, 후처리 프로세서(445) 또는 통신부(405) 중 적어도 하나로 출력될 수 있다.The output voice data generated in this way may be represented by a mel spectrogram. However, the present invention is not limited thereto, and the output voice data may be represented by a linear spectrogram. The output voice data may be output to at least one of a speaker, a post processor 445, and a communication unit 405.
일 실시예에 따르면, 후처리 프로세서(445)는 디코더(440)에서 생성된 출력 음성 데이터를 스피커에서 출력 가능한 음성으로 변환하도록 구성될 수 있다. 예를 들어, 변화된 출력 가능한 음성은 웨이브폼(waveform)으로 나타낼 수 있다. 후처리 프로세서(445)는 디코더(440)에서 생성된 출력 음성 데이터가 스피커에서 출력되기에 부적절한 경우에만 작동하도록 구성될 수 있다. 즉, 디코더(440)에서 생성된 출력 음성 데이터가 스피커에서 출력되기에 적절한 경우, 출력 음성 데이터는 후처리 프로세서(445)를 거치지 않고 바로 스피커로 출력될 수 있다. 이에 따라, 도 4에서는 후처리 프로세서(445)가 텍스트-음성 합성 시스템(400)에 포함되도록 도시되어 있지만, 후처리 프로세서(445)가 텍스트-음성 합성 시스템(400)에 포함되지 않도록 구성될 수 있다.According to an embodiment, the post-processing processor 445 may be configured to convert the output voice data generated by the decoder 440 into voices output from the speaker. For example, the changed outputable speech can be represented by a waveform. Post-processing processor 445 may be configured to operate only if the output speech data generated at decoder 440 is inappropriate to be output from a speaker. That is, when the output voice data generated by the decoder 440 is suitable to be output from the speaker, the output voice data may be directly output to the speaker without passing through the post-processing processor 445. Accordingly, although the post-processing processor 445 is shown in FIG. 4 to be included in the text-to-speech synthesis system 400, the post-processing processor 445 may be configured not to be included in the text-to-speech synthesis system 400. have.
일 실시예에 따르면, 후처리 프로세서(445)는 디코더(440)에서 생성된 멜 스펙트로그램으로 표현된 출력 음성 데이터를 시간 도메인의 웨이브폼으로 변환하도록 구성될 수 있다. 또한, 후처리 프로세서(445)는 출력 음성 데이터의 신호의 크기가 미리 결정된 기준 크기에 도달하지 못한 경우, 출력 음성 데이터의 크기를 증폭시킬 수 있다. 후처리 프로세서(445)는 변환된 출력 음성 데이터를 스피커 또는 통신부(405) 중 적어도 하나로 출력할 수 있다.According to one embodiment, the post-processing processor 445 may be configured to convert the output speech data represented by the mel spectrogram generated by the decoder 440 into a waveform in the time domain. In addition, the post-processing processor 445 may amplify the size of the output voice data when the size of the signal of the output voice data does not reach a predetermined reference size. The post-processing processor 445 may output the converted output voice data to at least one of the speaker or the communication unit 405.
데이터 학습부(450)는 도 10의 데이터 학습부(1010)에 대응될 수 있다. 데이터 학습부(450)는 복수의 학습 텍스트 및 이에 대응하는 학습 음성을 나타내는 데이터를 음성 데이터베이스(425) 또는 통신부(405)를 통해 수신할 수 있다. 학습 텍스트를 나타내는 데이터는 적어도 하나의 글자에 대한 정보를 포함할 수 있다. 예를 들어, 학습 텍스트를 나타내는 데이터는 G2P(Grapheme-to-phoneme) 알고리즘을 사용하여 학습 텍스트에 대응하는 음소 시퀀스(phoneme sequence)를 포함할 수 있다. 학습 음성을 나타내는 데이터는 학습 텍스트를 사람이 읽은 음성을 녹음한 데이터, 그러한 녹음 데이터로부터 추출된 사운드 피처(sound feature), 또는 스펙트로그램(spectrogram) 등일 수 있다. 일 실시예에서, 학습 음성을 나타내는 데이터는 학습 음성의 순차적 운율 특징을 포함할 수 있다. 다른 실시예에서, 학습 음성을 나타내는 데이터는 학습 음성을 발화한 화자의 발성 특징을 더 포함할 수 있다. 데이터 학습부(450)는 복수의 학습 텍스트 및 이에 대응하는 학습 음성에 대응하는 학습 데이터의 쌍을 기초로 기계학습을 수행하여, 인공신경망 텍스트-음성 합성 모델을 생성할 수 있다. 이러한 학습 시, 학습 텍스트는 인공신경망 텍스트-음성 합성 모델의 인코더에 대응하는 제1 인공신경망 텍스트-음성 합성 모델에 제공될 수 있으며, 순차적 운율 특징은 제1 인공신경망 텍스트-음성 합성 모델 및/또는 디코더에 대응하는 제2 인공신경망 텍스트-음성 합성 모델에 입력될 수 있다. The data learner 450 may correspond to the data learner 1010 of FIG. 10. The data learner 450 may receive data representing a plurality of learning texts and corresponding learning voices through the voice database 425 or the communication unit 405. The data representing the learning text may include information on at least one letter. For example, the data representing the learning text may include a phoneme sequence corresponding to the learning text using a Grapheme-to-phoneme (G2P) algorithm. The data representing the learning speech may be data obtained by recording the speech read by a human text, a sound feature extracted from such recording data, a spectrogram, or the like. In one embodiment, the data representing the learning voice may include sequential rhyme features of the learning voice. In another embodiment, the data representing the learning voice may further include a utterance characteristic of the speaker who spoke the learning voice. The data learner 450 may generate an artificial neural network text-to-speech synthesis model by performing machine learning based on a pair of learning data corresponding to a plurality of learning texts and corresponding learning voices. In such learning, the learning text may be provided to a first artificial neural network text-to-speech synthesis model corresponding to the encoder of the artificial neural network text-to-speech synthesis model, wherein the sequential rhyme feature is the first artificial neural network text-to-speech synthesis model and / or It may be input to a second artificial neural network text-to-speech synthesis model corresponding to the decoder.
일 실시예예 따르면, 데이터 인식부(455)는 입력 텍스트를 수신하고 순차적 운율 특징을 수신하도록 구성될 수 있다. 입력 텍스트 및 순차적 운율 특징을 인공신경망 텍스트-음성 합성 모델에 입력하여 수신된 운율 특징이 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성할 수 있다. 여기서, 입력 텍스트는 제1 인공신경망 텍스트-음성 합성 모델에 제공될 수 있으며, 순차적 운율 특징은 제1 인공신경망 텍스트-음성 합성 모델 및/또는 제2 인공신경망 텍스트-음성 합성 모델에 입력될 수 있다. 그 결과, 순차적 운율 특징이 반영된 입력 텍스트에 대응하는 출력 음성 데이터가 인공신경망 텍스트-음성 합성 모델로부터 생성될 수 있다. 다른 실시예에 따르면, 데이터 인식부(455)는 화자의 발성 특징을 더 수신하도록 구성될 수 있다. 수신된 화자의 발성 특징은 순차적 운율 특징과 마찬가지로 제2 인공신경망 텍스트-음성 합성 모델에 제공될 수 있다. 이러한 동작 하에서, 화자의 음성을 모사하고 순차적 운율 특징이 반영된 입력 텍스트에 대응하는 출력 음성 데이터가 인공신경망 텍스트-음성 합성 모델로부터 생성될 수 있다.According to an embodiment, the data recognizer 455 may be configured to receive an input text and to receive a sequential rhyme feature. The input text and the sequential rhyme features may be input to the artificial neural network text-voice synthesis model to generate output speech data for the input text reflecting the received rhyme features. Here, the input text may be provided to the first artificial neural network text-voice synthesis model, and the sequential rhyme feature may be input to the first artificial neural network text-voice synthesis model and / or the second artificial neural network text-voice synthesis model. . As a result, output speech data corresponding to the input text in which the sequential rhyme features are reflected can be generated from the artificial neural network text-voice synthesis model. According to another embodiment, the data recognizer 455 may be configured to further receive the speaker's speech characteristics. The received speaker's utterance feature may be provided to the second artificial neural network text-to-speech synthesis model as well as the sequential rhyme feature. Under this operation, output speech data corresponding to the input text that simulates the speaker's speech and reflects the sequential rhyme characteristics can be generated from the artificial neural network text-to-speech synthesis model.
도 5는 본 개시의 일 실시예에 따른 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법을 나타내는 흐름도이다. 먼저, S510에서, 텍스트 음성-합성 시스템(400)은 복수의 학습 텍스트 및 복수의 학습 텍스트에 대응되는 음성 데이터에 기초하여 기계학습을 수행하여 생성된 인공신경망 텍스트-음성 합성 모델을 생성하는 단계를 수행할 수 있다. 여기서, 인공신경망 텍스트-음성 합성 모델은 단일 인공신경망 텍스트-음성 합성 모델일 수 있다. 5 is a flowchart illustrating a text-voice synthesis method using machine learning based on sequential rhyme characteristics according to an embodiment of the present disclosure. First, in S510, the text speech-synthesis system 400 generates an artificial neural network text-voice synthesis model generated by performing machine learning based on a plurality of learning texts and voice data corresponding to the plurality of learning texts. Can be done. Here, the neural network text-voice synthesis model may be a single neural network text-voice synthesis model.
텍스트-음성 합성 시스템(400)은 S520에서, 입력 텍스트를 수신하는 단계를 수행할 수 있다. 단계 S530에서, 텍스트-음성 합성 시스템(400)은 순차적 운율 특징을 수신하는 단계를 수행할 수 있다. 텍스트-음성 합성 시스템(400)은 입력 텍스트 및 순차적 운율 특징을 미리 학습된 텍스트-음성 합성 모델에 입력하여, 순차적 운율 특징이 반영된 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 S540에서 수행할 수 있다.The text-to-speech synthesis system 400 may perform a step of receiving an input text at S520. In step S530, the text-to-speech synthesis system 400 Receiving a sequential rhyme feature may be performed. The text-to-speech synthesis system 400 may input the input text and the sequential rhyme feature into a pre-learned text-to-speech synthesis model to generate output speech data for the input text in which the sequential rhyme feature is reflected in S540. have.
도 6은 본 개시의 일 실시예에 따른 인공신경망 기반의 텍스트-음성 합성 시스템의 구성을 나타내는 예시도이다. 일 실시예에서, 인코더(610) 및 디코더(620) 및 후처리 프로세서(630)의 각각은 도 4의 인코더(435), 디코더(440) 및 후처리 프로세서(445)의 각각에 대응할 수 있다. 6 is an exemplary diagram illustrating a configuration of an artificial neural network based text-to-speech synthesis system according to an embodiment of the present disclosure. In one embodiment, each of encoder 610 and decoder 620 and post-processor 630 may correspond to each of encoder 435, decoder 440 and post-processor 445 of FIG. 4.
일 실시예에 따르면, 인코더(610)는 도 6에 도시된 바와 같이, 입력 텍스트에 대한 글자 임베딩을 수신할 수 있다. 다른 실시예에 따르면, 입력 텍스트는 하나 이상의 언어에서 사용되는 단어, 문구 또는 문장 중 적어도 하나를 포함할 수 있다. 예를 들어, 'HELLO' 등과 같은 문장과 같은 텍스트를 입력받을 수 있다. 입력 텍스트가 수신되면, 인코더(610)는 수신된 입력 텍스트를 자모단위, 글자단위, 음소(phoneme) 단위로 분리할 수 있다. 또 다른 실시예에 따르면, 인코더(610)는 자모단위, 글자단위, 음소(phoneme) 단위로 분리된 입력 텍스트를 수신할 수 있다. 그리고 나서, 인코더(610)는 입력 텍스트를 문자 임베딩(character embedding)로 변환하여 생성할 수 있다.  According to an embodiment, the encoder 610 may receive character embedding for the input text, as shown in FIG. 6. According to another embodiment, the input text may include at least one of a word, phrase, or sentence used in one or more languages. For example, text such as a sentence such as 'HELLO' may be input. When the input text is received, the encoder 610 may divide the received input text into a letter unit, a letter unit, and a phoneme unit. According to another embodiment, the encoder 610 may receive input text divided into a Jamo unit, a character unit, and a phoneme unit. The encoder 610 may then generate the input text by converting it into character embedding.
인코더(610)는 텍스트를 발음 정보로 생성하도록 구성될 수 있다. 일 실시예에서, 인코더(610)는 생성된 문자 임베딩을 완전연결층(fully-connected layer)을 포함한 프리넷(pre-net)에 통과시킬 수 있다. 또한, 인코더(610)는 프리넷(pre-net)으로부터의 출력을 CBHG 모듈에 제공하여, 도 6에 도시된 바와 같이, 인코더의 숨겨진 상태들(encoder hidden states) ei을 출력할 수 있다. 예를 들어, CBHG 모듈은 1차원 컨볼루션 뱅크(1D convolution bank), 맥스 풀링(max pooling), 하이웨이 네트워크(highway network), 양방향 GRU(bidirectional gated recurrent unit)를 포함할 수 있다.The encoder 610 may be configured to generate text as pronunciation information. In one embodiment, encoder 610 may pass the generated character embedding to a pre-net including a fully-connected layer. In addition, the encoder 610 may provide an output from the pre-net to the CBHG module to output encoder hidden states e i of the encoder, as shown in FIG. 6. For example, the CBHG module may include a 1D convolution bank, max pooling, highway network, and bidirectional gated recurrent unit (GRU).
또 다른 실시예에서, 인코더(610)가 입력 텍스트 또는 분리된 입력 텍스트를 수신한 경우, 인코더(610)는 적어도 하나의 임베딩 레이어를 생성하도록 구성될 수 있다. 일 실시예에 따르면, 인코더(610)의 적어도 하나의 임베딩 레이어는 자모단위, 글자단위, 음소(phoneme)단위로 분리된 입력 텍스트에 기초하여 글자 임베딩을 생성할 수 있다. 예를 들어, 인코더(610)는 분리된 입력 텍스트에 기초하여 글자 임베딩을 획득하기 위하여 이미 학습된 기계 학습 모델(예를 들어, 확률 모델 또는 인공신경망 등)을 사용할 수 있다. 나아가, 인코더(610)는 기계 학습을 수행하면서 기계 학습 모델을 갱신할 수 있다. 기계 학습 모델이 갱신되는 경우, 분리된 입력 텍스트에 대한 글자 임베딩도 변경될 수 있다. 인코더(610)는 글자 임베딩을 완전연결층(fully-connected layer)으로 구성된 DNN(Deep Neural Network) 모듈에 통과시킬 수 있다. DNN은 일반적인 피드포워드 레이어(feedforward layer) 또는 선형 레이어(linear layer)를 포함할 수 있다. 인코더(610)는 DNN의 출력을 CNN(convolutional neural network) 또는 RNN(Recurrent Neural Network) 중 적어도 하나가 포함된 모듈에 제공할 수 있으며, 인코더(610)의 숨겨진 상태들을 생성할 수 있다. CNN은 컨볼루션 커널(convolution kernel) 사이즈에 따른 지역적 특성을 포착할 수 있는 반면에, RNN은 장기 의존성(long term dependency)을 포착할 수 있다. 이러한 인코더(610)의 숨겨진 상태들, 즉 입력 텍스트에 대한 발음 정보는 어텐션 모듈를 포함한 디코더(620)에 제공되고, 디코더(620)는 이러한 발음 정보를 음성으로 생성하도록 구성될 수 있다. In another embodiment, when encoder 610 receives input text or separated input text, encoder 610 may be configured to generate at least one embedding layer. According to an embodiment of the present disclosure, at least one embedding layer of the encoder 610 may generate character embedding based on input text divided into a Jamo unit, a character unit, and a phoneme unit. For example, the encoder 610 may use a machine learning model (eg, a probabilistic model or an artificial neural network) that has already been trained to obtain character embedding based on the separated input text. Further, the encoder 610 may update the machine learning model while performing machine learning. When the machine learning model is updated, the character embedding for the separated input text may also change. The encoder 610 may pass the character embedding to a deep neural network (DNN) module configured with a fully-connected layer. The DNN may include a general feedforward layer or a linear layer. The encoder 610 may provide an output of the DNN to a module including at least one of a convolutional neural network (CNN) or a recurrent neural network (RNN), and may generate hidden states of the encoder 610. CNNs can capture local characteristics according to convolution kernel size, while RNNs can capture long term dependencies. The hidden states of the encoder 610, that is, pronunciation information about the input text, are provided to the decoder 620 including an attention module, and the decoder 620 may be configured to generate such pronunciation information as a voice.
디코더(620)는, 인코더(610)로부터 인코더의 숨겨진 상태들 ei를 수신할 수 있다. 일 실시예에서, 도 6에 도시된 바와 같이, 디코더(620)는 어텐션 모듈, 완전연결층으로 구성된 프리넷과 GRU(gated recurrnt unit)를 포함하고 어텐션(attention) RNN(recurrent neural network), 레지듀얼 GRU(residual GRU)를 포함한 디코더 RNN(decoder RNN)을 포함할 수 있다. 여기서, 어텐션 RNN은 어텐션 모듈에서 사용될 정보를 출력할 수 있다. 또한, 디코더 RNN은 어텐션 모듈로부터 입력 텍스트의 위치 정보를 수신할 수 있다. 즉, 위치 정보는 디코더(620)가 입력 텍스트의 어떤 위치를 음성으로 변환하고 있는지에 관한 정보를 포함할 수 있다. 디코더 RNN은 어텐션 RNN으로부터 정보를 수신할 수 있다. 어텐션 RNN으로부터 수신한 정보는 디코더(620)가 이전 시간-단계(time-step)까지 어떤 음성을 생성했는지에 대한 정보를 포함할 수 있다. 디코더 RNN은 지금까지 생성한 음성에 이어질 다음 출력 음성을 생성할 수 있다. 예를 들어, 출력 음성은 멜 스펙트로그램 형태를 가질 수 있으며, 출력 음성은 r개의 프레임을 포함할 수 있다. The decoder 620 may receive the hidden states e i of the encoder from the encoder 610. In one embodiment, as shown in FIG. 6, the decoder 620 includes an attention module, a freenet consisting of a fully connected layer, and a gated recurrnt unit (GRU) and an attention recurrent neural network (RNN), a residual. The decoder may include a decoder RNN including a residual GRU. Here, the attention RNN may output information to be used in the attention module. In addition, the decoder RNN may receive position information of the input text from the attention module. That is, the location information may include information regarding which location of the input text the decoder 620 is converting to speech. The decoder RNN may receive information from the attention RNN. The information received from the attention RNN may include information about which voice the decoder 620 produced up to a previous time-step. The decoder RNN may generate the next output voice following the voice thus far generated. For example, the output voice may have a mel spectrogram form, and the output voice may include r frames.
다른 실시예에서, 디코더(620)에 포함된 프리넷은 완전연결층(fully-connected layer)으로 구성된 DNN으로 대체될 수 있다. 여기서, DNN은 일반적인 피드포워드 레이어(feedforward layer) 또는 선형 레이어(linear layer) 중 적어도 하나를 포함할 수 있다. In another embodiment, the freenet included in the decoder 620 may be replaced with a DNN configured with a fully-connected layer. Here, the DNN may include at least one of a general feedforward layer or a linear layer.
일 실시예에서, 디코더(620)는 순차적 운율 특징을 수신하도록 구성될 수 있다. 예를 들어, 도 6에 도시된 바와 같이, 순차적 운율 특징 추출부(410)는 음성 신호 또는 샘플로부터 순차적 운율 특징을 나타내는 복수의 임베딩 벡터 p1, p2, ... pn(여기서, n은 음성 샘플의 길이에 비례함)를 추출할 수 있다. 복수의 임베딩 벡터의 각각은 단위 시간 별 운율 특징 또는 정보를 포함할 수 있다. 순차적 운율 특징 추출부(410)가 음성 신호 또는 샘플로부터 복수의 임베딩 벡터 p1, p2, ... pn를 디코더에 입력하는 방식은 이하에서 도 7을 참조하여 상세히 설명된다. In one embodiment, decoder 620 may be configured to receive sequential rhyme features. For example, as shown in FIG. 6, the sequential rhyme feature extractor 410 may include a plurality of embedding vectors p1, p2,... Pn representing sequential rhyme features from a speech signal or a sample, where n is a speech sample. Proportional to the length of. Each of the plurality of embedding vectors may include a rhyme feature or information for each unit time. The manner in which the sequential rhythm feature extractor 410 inputs a plurality of embedding vectors p1, p2, ... pn from the voice signal or the sample to the decoder will be described in detail with reference to FIG.
일 실시예에서 디코더(620)는 화자의 발성 특징을 더 수신하도록 구성될 수 있다. 예를 들어, 도 6에 도시된 바와 같이, 화자의 발성 특징은 화자 ID가 발성 특징 추출부(415)에 입력되어 화자의 발성 특징에 대응하는 화자 임베딩 벡터 e가 화자의 발성 특징으로서 생성될 수 있다. 다른 예로서, 화자의 발성 특징은 화자 ID가 아닌 음성 신호 또는 샘플로부터 화자의 임베딩 벡터를 추출함으로써 생성될 수 있다. In one embodiment, the decoder 620 may be configured to further receive the speaker's speech characteristics. For example, as shown in FIG. 6, the speaker's utterance feature may include a speaker ID input to the utterance feature extraction unit 415 to generate a speaker embedding vector e corresponding to the speaker's utterance feature as the speaker's utterance feature. have. As another example, the speaker's utterance feature may be generated by extracting the speaker's embedding vector from a voice signal or sample other than the speaker ID.
또한 디코더(620)의 어텐션 모듈은 어텐션 RNN으로부터 정보를 수신할 수 있다. 어텐션 RNN으로부터 수신한 정보는 디코더(620)가 이전 시간-단계(time-step)까지 어떤 음성을 생성했는지에 대한 정보를 포함할 수 있다. 또한 디코더(620)의 어텐션 모듈은 어텐션 RNN으로부터 수신한 정보 및 인코더의 정보에 기초하여 컨텍스트 벡터를 출력할 수 있다. 인코더(610)의 정보는 음성을 생성해야 할 입력 텍스트에 대한 정보를 포함할 수 있다. 컨텍스트 벡터는 현재 시간-단계(time-step)에서 입력 텍스트 중 어떤 부분으로부터 음성을 생성할지 결정하기 위한 정보를 포함할 수 있다. 예를 들어, 디코더(620)의 어텐션 모듈은 음성 생성의 초반에는 입력 텍스트의 앞부분에 기초하여 음성을 생성하고, 음성이 생성되어 감에 따라, 점점 입력 텍스트의 뒷부분에 기초하여 음성을 생성하도록 하는 정보를 출력할 수 있다.Also, the attention module of the decoder 620 may receive information from the attention RNN. The information received from the attention RNN may include information about which voice the decoder 620 produced up to a previous time-step. Also, the attention module of the decoder 620 may output the context vector based on the information received from the attention RNN and the information of the encoder. The information of the encoder 610 may include information about input text to generate speech. The context vector may include information for determining which portion of the input text to generate a speech at the current time-step. For example, the attention module of the decoder 620 generates a voice based on the front part of the input text at the beginning of the voice generation, and gradually generates a voice based on the back part of the input text as the voice is generated. Information can be output.
디코더(620)는 순차적인 운율 특징 중 시간 단위에 따른 임베딩 벡터인 p1, p2, ... pn의 각각 및 화자 임베딩 벡터 e를 어텐션(attention) RNN 및 디코더(decoder) RNN의 시간 단계 별로 입력하여, 화자 마다 그리고 입력 텍스트의 각 부분 마다 다르게 디코딩하도록 인공신경망의 구조를 구성할 수 있다. 도 6에서는, 복수의 임베딩 벡터 p1, p2, ... pn 가 순차적 운율 특징 추출부(410)으로부터 추출된 것으로 도시되어 있으나, 이에 한정되지 않으며, 디코더(620)는 정규화기(420)으로부터 정규화된 순차적 운율 특징에 대응하는 복수의 임베딩 벡터를 수신할 수 있고, 정규화된 순차적 운율 특징에 대응하는 복수의 임베딩 벡터는 화자의 임베딩 벡터 e와 함께 어텐션 RNN 및 디코더(decoder) RNN의 시간 단계 별로 입력될 수 있다. The decoder 620 inputs each of the embedding vectors p1, p2, ... pn and the speaker embedding vector e for each of the attentional RNN and decoder RNN in the sequential rhyme features. The structure of the neural network can be configured to decode differently for each speaker, and for each part of the input text. In FIG. 6, although a plurality of embedding vectors p1, p2,... Pn are illustrated as being extracted from the sequential rhyme feature extraction unit 410, the present invention is not limited thereto, and the decoder 620 may be normalized from the normalizer 420. A plurality of embedding vectors corresponding to the sequential rhyme features may be received, and the plurality of embedding vectors corresponding to the normalized sequential rhyme features are input for each time step of the attention RNN and the decoder RNN together with the embedding vector e of the speaker. Can be.
더미 프레임들은 이전 시간-단계(time-step)가 존재하지 않는 경우 디코더(620)에 입력되는 프레임이다. RNN은 자동-회귀(autoregressive)로 기계학습을 할 수 있다. 즉, 직전 시간-단계(622)에서 출력된 r 프레임은 현재 시간-단계(623)의 입력이 될 수 있다. 최초 시간-단계(621)에서는 직전 시간-단계가 있을 수 없으므로, 디코더(620)는 최초 시간-단계의 기계 학습 네트워크에 더미 프레임을 입력할 수 있다.The dummy frames are frames that are input to the decoder 620 when there is no previous time-step. RNNs can do machine learning autoregressive. That is, the r frame output in the previous time-step 622 may be an input of the current time-step 623. Since there cannot be a previous time-step in the initial time-step 621, the decoder 620 may input a dummy frame into the initial time-step machine learning network.
텍스트-음성 합성을 위하여 DNN, 어텐션 RNN 및 디코더 RNN의 동작은 반복적으로 수행될 수 있다. 예를 들어, 최초 시간-단계(621)에서 획득된 r개의 프레임은 다음 시간-단계(622)의 입력이 될 수 있다. 또한 시간-단계(622)에서 출력된 r개의 프레임은 다음 시간-단계(623)의 입력이 될 수 있다.The operations of the DNN, the attention RNN, and the decoder RNN may be performed repeatedly for text-to-speech synthesis. For example, the r frames obtained in the first time-step 621 may be input to the next time-step 622. In addition, the r frames output in the time-step 622 may be input to the next time-step 623.
상술한 바와 같은 과정을 통하여 입력 텍스트를 화자 마다 음성 합성이 가능할 뿐만 아니라 나아가 입력 텍스트에 시간 순으로 각 부분에 대한 운율 특징을 반영할 수 있다. 즉, 입력 텍스트에 대응하는 합성 음성의 특정 시점에서의 운율 특징을 제어하는 것이 가능하다. 이에 따라, 텍스트-음성 합성 시스템은 사람들의 의도 도는 감정을 보다 정확히 전달하기 위하여, 합성 음성에 대한 미세한 운율의 제어가 가능하다. Through the above-described process, not only the input text can be synthesized for each speaker, but also the rhyme characteristic for each part can be reflected in the input text in chronological order. That is, it is possible to control the rhyme characteristic at a specific time point of the synthesized speech corresponding to the input text. Accordingly, the text-to-speech synthesis system can control fine rhymes for the synthesized voice in order to more accurately convey people's intentions or emotions.
일 실시예에 따르면, 디코더(620)는 각각의 시간-단계마다 나온 멜 스펙트로그램을 시간 순으로 연결(concatenate)하여 전체 텍스트에 대한 멜 스펙트로그램의 음성을 획득할 수 있다. 전체 텍스트에 대한 멜 스펙트로그램의 음성은 후처리 프로세서(630)로 출력될 수 있다. 예를 들어, 후처리 프로세서(630)는 도 4의 후처리 프로세서(445)에 대응될 수 있다. According to an embodiment, the decoder 620 may concatenate the mel spectrograms generated for each time-step in chronological order to obtain a voice of the mel spectrogram for the entire text. The voice of the mel spectrogram for the entire text may be output to the post processor 630. For example, the post processing processor 630 may correspond to the post processing processor 445 of FIG. 4.
일 실시예에 따르면, 후처리 프로세서(630)의 CBHG는 도 6에 도시된 바와 같이, 디코더(620)의 멜 스케일 스펙트로그램을 선형 스펙트로그램(linear-scale spectrogram)으로 변환하도록 구성될 수 있다. 예를 들어, 후처리 프로세서(630)의 CBHG의 출력 신호는 매그니튜드 스펙트로그램(magnitude spectrogram)를 포함할 수 있다. 후처리 프로세서(630)의 CBHG의 출력 신호의 위상(phase)은 그리핀-림(Griffin-Lim) 알고리즘을 통해 복원되고, 역 단시간 퓨리어 변환(inverse short-time fourier transform)될 수 있다. 후처리 프로세서(630)는 시간 도메인(time domain)의 음성 신호로 출력할 수 있다.According to an embodiment, the CBHG of the post-processor 630 may be configured to convert the mel scale spectrogram of the decoder 620 into a linear-scale spectrogram, as shown in FIG. 6. For example, the output signal of the CBHG of the post processing processor 630 may include a magnitude spectrogram. The phase of the output signal of the CBHG of the post-processor 630 may be recovered through a Griffin-Lim algorithm and may be inverse short-time fourier transform. The post processing processor 630 may output a voice signal in a time domain.
다른 실시예에 따르면, 인코더(610)가 CNN 또는 RNN을 포함하도록 구성되면, 후처리 프로세서(630)는 CNN 또는 RNN를 포함하도록 구성되고, 이러한 CNN 또는 RNN은 인코더(610)의 CNN 또는 RNN과 유사한 동작을 수행할 수 있다. 즉, 후처리 프로세서(630)의 CNN 또는 RNN은 지역적 특성과 장기 의존성을 포착할 수 있다. 예를 들어, 후처리 프로세서(630)는 보코더일 수 있다. 이에 따라, 후처리 프로세서(630)의 CNN 또는 RNN은 선형-스케일 스펙트로그램(linear-scale spectrogram)을 출력할 수 있다. 예를 들어, 선형-스케일 스펙트로그램은 크기 스펙트로그램(magnitude spectrogram)를 포함할 수 있다. 후처리 프로세서(630)는 스펙트로그램의 위상(phase)을 Griffin-Lim 알고리즘을 통해 예측할 수 있다. 후처리 프로세서(630)는 역 단기 푸리에 변환(Inverse Short-Time Fourier Transform)을 이용하여 시간 도메인(time domain)의 음성 신호를 출력할 수 있다.According to another embodiment, if encoder 610 is configured to include a CNN or RNN, post-processing processor 630 is configured to include a CNN or RNN, which CNN or RNN is associated with a CNN or RNN of encoder 610. Similar operations can be performed. That is, the CNN or RNN of the post processor 630 may capture local characteristics and long term dependencies. For example, the post processing processor 630 may be a vocoder. Accordingly, the CNN or RNN of the post processor 630 may output a linear-scale spectrogram. For example, the linear-scale spectrogram may include a magnitude spectrogram. The post-processing processor 630 may predict the phase of the spectrogram through the Griffin-Lim algorithm. The post processing processor 630 may output a voice signal of a time domain using an inverse short-time fourier transform.
또 다른 실시예에 따르면, 후처리 프로세서(630)는 기계학습모델에 기초하여 멜 스펙트로그램으로부터 음성 신호를 생성할 수 있다. 기계학습모델은 멜 스펙트로그램과 음성 신호 사이의 상관 관계를 기계학습한 모델을 포함할 수 있다. 예를 들어 WaveNet 또는 WaveGlow 등과 같은 인공신경망 모델이 사용될 수 있다.According to another embodiment, the post processing processor 630 may generate a speech signal from the mel spectrogram based on the machine learning model. The machine learning model may include a model of machine learning the correlation between the mel spectrogram and the speech signal. For example, an artificial neural network model such as WaveNet or WaveGlow may be used.
이러한 인공신경망 기반의 텍스트-음성 합성 시스템은, 학습 텍스트와 음성 신호의 쌍으로 존재하는 대용량의 데이터 베이스를 이용하여 학습될 수 있다. 일 실시예에 따르면, 음성 합성 장치는 텍스트를 수신하고, 출력된 음성 신호를 정답 음성 신호와 비교하여 손실 함수(loss function)을 정의할 수 있다. 음성 합성 장치는 손실 함수를 오차 역전파(error back propagation) 알고리즘을 통해 학습하여, 최종적으로 임의의 텍스트를 입력했을 때 원하는 음성 출력이 나오는 인공신경망을 얻을 수 있다. The neural network-based text-to-speech synthesis system can be trained using a large database that exists as a pair of training texts and voice signals. According to an embodiment, the speech synthesizing apparatus may receive a text and define a loss function by comparing the output speech signal with a correct answer speech signal. The speech synthesis apparatus learns a loss function through an error back propagation algorithm, and finally obtains an artificial neural network that generates a desired speech output when an arbitrary text is input.
이러한 인공신경망 기반의 음성 합성 장치에서, 텍스트, 화자의 발성 특징, 순차적 운율 특징 등이 인공신경망 텍스트-음성 합성 모델에 입력되어 음성 신호가 출력될 수 있다. 텍스트-음성 합성 시스템은 출력된 음성 신호와 정답 음성 신호를 비교하여 학습함으로써, 텍스트, 화자의 발성 특징 및 순차적 운율 특징을 수신할 때 해당 화자의 음성으로 순차적 운율 특징이 반영된 텍스트를 읽는 출력 음성 데이터를 생성할 수 있다.In such a neural network-based speech synthesis apparatus, text, speech characteristics, sequential rhyme characteristics, etc. may be input to an artificial neural network text-voice synthesis model to output a speech signal. The text-to-speech synthesis system compares the output speech signal with the correct speech signal and learns it. When receiving the text, the speaker's speech characteristics, and the sequential rhyme characteristics, the output speech data reads the text reflecting the sequential rhyme characteristics of the speaker. Can be generated.
도 7은 본 개시의 일 실시예에 따른 인공신경망 기반의 텍스트-음성 합성 시스템에서, 순차적 운율 특징을 텍스트-음성 합성 시스템의 디코더(720)에 입력하여 합성 음성을 생성하는 과정을 보여주는 예시도이다. 여기서, 인코더(710), 디코더(720), 순차적 운율 특징 추출부(730) 및 어텐션 모듈(740)의 각각은 도 4의 인코더(435), 디코더(440), 순차적 운율 특징 추출부(410) 및 어텐션 모듈(430)의 각각에 대응될 수 있다. 또한, 인코더(710) 및 디코더(720)는 도 6의 인코더(610) 및 디코더(620)의 각각에 대응될 수 있다. 도 7에서 음성의 길이인 N은 4이고, 텍스트의 길이 T는 3인 것으로 가정하고 도시되었으나, 이에 한정되지 않으며, 음성의 길이인 N 및 텍스트의 길이 T는 서로 상이한 임의의 양수일 수 있다. FIG. 7 is an exemplary diagram illustrating a process of generating a synthesized speech by inputting sequential rhyme features to the decoder 720 of the text-to-speech synthesis system in an artificial neural network based text-to-speech synthesis system according to an embodiment of the present disclosure. . Here, each of the encoder 710, the decoder 720, the sequential rhyme feature extractor 730, and the attention module 740 is an encoder 435, a decoder 440, and a sequential rhyme feature extractor 410 of FIG. 4. And the attention module 430. Also, the encoder 710 and the decoder 720 may correspond to each of the encoder 610 and the decoder 620 of FIG. 6. In FIG. 7, the length N of the voice is assumed to be 4, and the length T of the text is 3, but the present invention is not limited thereto. The length N of the voice and the length T of the text may be any positive numbers different from each other.
일 실시예에 따르면, 도 7에 도시된 바와 같이, 순차적 운율 특징 추출부(730)는 스펙트로그램(y1, y2, y3, yn)을 수신하고, 순차적 운율 특징을 나타내는 복수의 임베딩 벡터(P1, P2, P3, Pn)을 추출하도록 구성될 수 있다. 이렇게 추출된 복수의 임베딩 벡터(P1, P2, P3, Pn)는 디코더(720)에 제공될 수 있다. 예를 들어, 추출된 복수의 임베딩 벡터(P1, P2, P3, Pn)는 디코더(720)의 N개의 디코더 RNN 및 어텐션 RNN에 제공될 수 있다. 또한, 인코더(710)로부터 제공된 숨겨진 상태들(e1, e2, eT)이 어텐션 모듈(740)에 제공될 수 있으며, 어텐션 모듈(740)은 숨겨진 상태들(e1, e2, eT)는 스펙트로그램(P1, P2, P3, Pn)의 길이에 대응되도록 변환 숨겨진 상태들(e'1, e'2, e'3, e'N)을 생성할 수 있다. 생성된 변환 숨겨진 상태들(e'1, e'2, e'3, e'N)은 추출된 복수의 임베딩 벡터(P1, P2, P3, Pn)와 함께 연결되어 N개의 디코더 RNN 및 어텐션 RNN의 각각에서 입력되어 처리될 수 있다. 이러한 디코더(720) 내의 처리 과정은 도 6에서 설명한 처리 과정과 중복되는 과정이므로 자세한 설명은 생략된다. 이러한 과정을 통하여 인코더(710) 및 디코더(720)에 포함된 인공신경망 텍스트-음성 합성 모델을 학습시켜서 순차적 운율 특징이 더욱 자연스럽게 반영되도록 할 수 있다. According to an embodiment, as shown in FIG. 7, the sequential rhyme feature extractor 730 receives the spectrograms y 1 , y 2 , y 3 , y n , and includes a plurality of embeddings that represent sequential rhyme features. It can be configured to extract the vectors P 1 , P 2 , P 3 , P n . The plurality of embedding vectors P 1 , P 2 , P 3 , and P n extracted in this way may be provided to the decoder 720. For example, the extracted plurality of embedding vectors P 1 , P 2 , P 3 , P n may be provided to the N decoders RNNs and the attention RNNs of the decoder 720. In addition, hidden states e 1 , e 2 , e T provided from the encoder 710 may be provided to the attention module 740, and the attention module 740 may be hidden states e 1 , e 2 , e. T ) may generate transform hidden states e ' 1 , e' 2 , e ' 3, e' N to correspond to the lengths of the spectrograms P 1 , P 2 , P 3 , P n . The generated transform hidden states e ' 1 , e' 2 , e ' 3, e' N are connected together with the extracted plurality of embedding vectors P 1 , P 2 , P 3 , P n to form N decoders. It can be entered and processed in each of the RNN and the attention RNN. Since the processing in the decoder 720 is a process overlapping with the processing described with reference to FIG. 6, a detailed description thereof will be omitted. Through this process, the neural network text-voice synthesis model included in the encoder 710 and the decoder 720 may be trained so that the sequential rhyme characteristics may be more naturally reflected.
도 7에서는 특정 음성을 나타내는 스펙트로그램(y1, y2, y3, yn)가 순차적 운율 특징 추출부(730)에 제공되고, 디코더(620)를 통해 동일한 스펙트로그램(y1, y2, y3, yn)이 출력되는 과정을 설명하고 있으나, 이에 한정되지 않으며, 디코더(720)를 통해 출력되는 음성과 다른 길이의 음성이 순차적 운율 특징 추출부(730)에 입력될 수 있다. 이 경우, 추가적인 어텐션 모듈(미도시)이 순차적 운율 특징 추출부로부터 추출된 복수의 임베딩 벡터를 수신하고 수신된 복수의 임베딩 벡터의 길이를 디코더(720)를 통해 출력되는 음성의 길이에 대응되도록 변환시킬 수 있다. 그리고 나서, 변환된 복수의 임베딩 벡터는 디코더(720)에 제공될 수 있다. In FIG. 7, spectrograms y 1 , y 2 , y 3 , y n representing a specific voice are provided to the sequential rhythm feature extractor 730, and the same spectrograms y 1 and y 2 are provided through the decoder 620. , y 3 , y n ) is described. However, the present invention is not limited thereto, and a voice having a different length from that output through the decoder 720 may be input to the sequential rhythm feature extractor 730. In this case, an additional attention module (not shown) receives the plurality of embedding vectors extracted from the sequential rhyme feature extractor and converts the lengths of the received embedding vectors to correspond to the lengths of the voices output through the decoder 720. You can. Then, the transformed plurality of embedding vectors may be provided to the decoder 720.
도 8은 본 개시의 일 실시예에 따른 인공신경망 기반의 텍스트-음성 합성 시스템에서, 순차적 운율 특징을 텍스트-음성 합성 시스템의 인코더(820)에 입력하여 합성 음성을 생성하는 과정을 보여주는 예시도이다. 여기서, 어텐션 모듈(810), 인코더(820), 디코더(830) 및 순차적 운율 특징 추출부(840)의 각각은 도 4의 어텐션 모듈(430), 인코더(435), 디코더(440) 및 순차적 운율 특징 추출부(410)의 각각에 대응될 수 있다. 또한, 인코더(810) 및 디코더(820)는 도 6의 인코더(610) 및 디코더(620)의 각각에 대응될 수 있다. 도 8에서 음성의 길이인 N은 4이고, 텍스트의 길이 T는 3인 것으로 가정하고 도시되었으나, 이에 한정되지 않으며, 음성의 길이인 N 및 텍스트의 길이 T는 서로 상이한 임의의 양수일 수 있다. FIG. 8 is an exemplary diagram illustrating a process of generating a synthesized speech by inputting sequential rhyme features to an encoder 820 of a text-to-speech synthesis system in an artificial neural network based text-to-speech synthesis system according to an embodiment of the present disclosure. . Here, each of the attention module 810, the encoder 820, the decoder 830, and the sequential rhyme feature extractor 840 is the attention module 430, the encoder 435, the decoder 440, and the sequential rhyme of FIG. 4. Each feature extractor 410 may correspond to each other. Also, the encoder 810 and the decoder 820 may correspond to each of the encoder 610 and the decoder 620 of FIG. 6. Although FIG. 8 illustrates that the voice length N is 4 and the text length T is 3, the present invention is not limited thereto, and the voice length N and the text length T may be any positive numbers different from each other.
일 실시예에 따르면, 도 8에 도시된 바와 같이, 순차적 운율 특징 추출부(840)는 스펙트로그램(y1, y2, y3, yn)을 수신하고, 순차적 운율 특징을 나타내는 복수의 임베딩 벡터(P1, P2, P3, Pn)을 추출하도록 구성될 수 있다. 이렇게 추출된 복수의 임베딩 벡터(P1, P2, P3, Pn)는 어텐션 모듈(810)에 제공될 수 있다. 어텐션 모듈(810)은 입력된 복수의 임베딩 벡터(P1, P2, P3, Pn)를 인코더(820)에 대응되는 음소 시퀀스의 길이(T)와 대응되도록 복수의 변환 임베딩 벡터(P1', P2', PT')를 생성하도록 구성될 수 있다. 다른 실시예에 따르면, 순차적 운율 특징 추출부(840)는 음소가 아닌, 단어에 대응되도록 복수의 변환 임베딩 벡터를 생성할 수 있다. 예를 들어, i번째 음소와 j번째 음소가 같은 단어 (v)에 속하는 경우 Pi'=Pj'의 값을 가질 수 있으며, 어텐션 모듈(810)은 단어에 대응하는 복수의 변환 임베딩 벡터(
Figure PCTKR2019009659-appb-I000001
,
Figure PCTKR2019009659-appb-I000002
, ...,
Figure PCTKR2019009659-appb-I000003
)를 생성하도록 구성될 수 있다. 단어의 길이
Figure PCTKR2019009659-appb-I000004
은 N, T와 상이한 임의의 양수일 수 있다.
Figure PCTKR2019009659-appb-I000005
를 구하는 한가지 예시로, 같은 단어에 속하는 음소들의 변환 임베딩 벡터들의 평균을 사용할 수 있으나, 이에 한정되지 않으며, 추가적인 어텐션 모듈 등이 이용될 수 있다.
According to an embodiment, as shown in FIG. 8, the sequential rhyme feature extractor 840 receives the spectrograms y 1 , y 2 , y 3 , y n , and includes a plurality of embeddings that represent sequential rhyme features. It can be configured to extract the vectors P 1 , P 2 , P 3 , P n . The plurality of embedding vectors P 1 , P 2 , P 3 , and P n extracted in this way may be provided to the attention module 810. The attention module 810 converts the plurality of input embedding vectors P 1 , P 2 , P 3 , and P n to correspond to the length T of the phoneme sequence corresponding to the encoder 820. 1 ′, P 2 ′, P T ′). According to another embodiment, the sequential rhyme feature extractor 840 may generate a plurality of transform embedding vectors to correspond to words rather than phonemes. For example, when the i-th phone and the j-th phone belong to the same word (v), it may have a value of P i '= P j ', and the attention module 810 may include a plurality of transform embedding vectors corresponding to the word (
Figure PCTKR2019009659-appb-I000001
,
Figure PCTKR2019009659-appb-I000002
, ...,
Figure PCTKR2019009659-appb-I000003
Can be configured to generate Word length
Figure PCTKR2019009659-appb-I000004
May be any positive number different from N, T.
Figure PCTKR2019009659-appb-I000005
As an example of obtaining A, an average of transform embedding vectors of phonemes belonging to the same word may be used, but is not limited thereto, and an additional attention module may be used.
도 8에 도시된 바와 같이, 이렇게 생성된 복수의 변환 임베딩 벡터(P1', P2', PT')의 각각은 입력 텍스트의 음소 시퀀스에 대응하는 숨겨진 상태들(e1, e2, eT)의 각각에 대응되도록 연결될 수 있다. 이렇게 연결된 숨겨진 상태들(e1, e2, eT)과 복수의 변환 임베딩 벡터(P1', P2', PT')는 디코더(830)에 제공될 수 있다. 이와 달리, 디코더(830)는 이렇게 수신된 숨겨진 상태들(e1, e2, eT)과 변환 임베딩 벡터(P1', P2', PT')를 디코더(830)의 어텐션 모듈, Pre-net, N개의 디코더 RNN 및 어텐션 RNN을 이용하여 음소 시퀀스 y1, y2, y3, yn을 생성할 수 있다. 이와 달리, 단어에 대응하는 복수의 변환 임베딩 벡터(
Figure PCTKR2019009659-appb-I000006
,
Figure PCTKR2019009659-appb-I000007
, ...,
Figure PCTKR2019009659-appb-I000008
)가 생성된 경우, 복수의 변환 임베딩 벡터(
Figure PCTKR2019009659-appb-I000009
,
Figure PCTKR2019009659-appb-I000010
, ...,
Figure PCTKR2019009659-appb-I000011
)의 각각은 입력 텍스트의 단어 시퀀스에 대응하는 숨겨진 상태들의 각각에 대응되도록 연결될 수 있다. 이러한 디코더 내의 처리 과정은 도 6에서 설명한 처리 과정과 중복되는 과정이므로 자세한 설명은 생략된다. 이러한 과정을 통하여 인코더(820) 및 디코더(830)에 포함된 인공신경망 텍스트-음성 합성 모델을 학습시켜서 순차적 운율 특징이 더욱 자연스럽게 반영되도록 할 수 있다.
As illustrated in FIG. 8, each of the plurality of transform embedding vectors P 1 ′, P 2 ′, and P T ′ generated in this manner may include hidden states e 1 , e 2 , and s corresponding to a phoneme sequence of the input text. e T ) may be connected to correspond to each other. The connected hidden states e 1 , e 2 , e T and the plurality of transform embedding vectors P 1 ′, P 2 ′, and P T ′ may be provided to the decoder 830. In contrast, the decoder 830 stores the received hidden states e 1 , e 2 , e T and the transform embedding vectors P 1 ′, P 2 ′, P T ′ in the attention module of the decoder 830. A phoneme sequence y 1 , y 2 , y 3 , y n can be generated using the pre-net, N decoders RNN, and the attention RNN. In contrast, a plurality of transform embedding vectors corresponding to a word (
Figure PCTKR2019009659-appb-I000006
,
Figure PCTKR2019009659-appb-I000007
, ...,
Figure PCTKR2019009659-appb-I000008
) Is generated, a plurality of transform embedding vectors (
Figure PCTKR2019009659-appb-I000009
,
Figure PCTKR2019009659-appb-I000010
, ...,
Figure PCTKR2019009659-appb-I000011
Each of) may be connected to correspond to each of the hidden states corresponding to the word sequence of the input text. Since the processing in the decoder is a process overlapping with the processing described with reference to FIG. 6, a detailed description thereof will be omitted. Through this process, the neural network text-voice synthesis model included in the encoder 820 and the decoder 830 may be trained to more naturally reflect the sequential rhyme characteristics.
도 9은 본 개시의 일 실시예에 따른 음성 신호 또는 샘플(910)으로부터 순차적 운율 특징을 나타내는 복수의 임베딩 벡터(930)를 추출하도록 구성된 순차적 운율 특징 추출부(920)의 네트워크를 나타내는 예시도이다. 일 실시예에서, 순차적 운율 특징 추출부(920)의 네트워크는 CNN(convolutional neural network), BN(batch-normalization), ReLU(rectifier linear unit) 및 GRU(gated recurrent unit)을 포함할 수 있다. CNN, BN 및 ReLU는 음성 신호 또는 샘플을 입력 받아 그 출력 값을 GRU(gated recurrent unit)에 입력하면, 순차적 운율 특징을 나타내는 복수의 임베딩 벡터를 출력할 수 있다. 예를 들어, 음성 신호 또는 샘플은 log-Mel-spectrogram의 형식으로 수신될 수 있다. 9 is an exemplary diagram illustrating a network of a sequential rhyme feature extraction unit 920 configured to extract a plurality of embedding vectors 930 representing sequential rhyme features from a voice signal or a sample 910 according to an embodiment of the present disclosure. . In one embodiment, the network of the sequential rhyme feature extraction unit 920 may include a convolutional neural network (CNN), batch-normalization (BN), a rectifier linear unit (ReLU), and a gated recurrent unit (GRU). When the CNN, BN, and ReLU receive a voice signal or a sample and input the output value to a gated recurrent unit (GRU), the CNN, BN, and ReLU may output a plurality of embedding vectors indicating sequential rhyme characteristics. For example, the voice signal or sample may be received in the form of log-Mel-spectrogram.
일 실시에서, 데이터 인식부(455)가 음성 합성을 추론하는 경우, 음성 신호 또는 샘플은, 입력 텍스트에 해당하는 음성 데이터일 필요가 없으며 임의로 선택된 음성신호가 사용될 수 있다. 이와 달리, 데이터 학습부(450)가 음성 합성을 학습하는 경우, 음성 신호 또는 샘플은, 입력 텍스트에 대응하는 음성 데이터를 포함할 수 있다. In one embodiment, when the data recognizer 455 infers speech synthesis, the speech signal or sample need not be speech data corresponding to the input text, and a randomly selected speech signal may be used. In contrast, when the data learner 450 learns speech synthesis, the speech signal or sample may include speech data corresponding to the input text.
이러한 네트워크에서, 스펙트로그램이 이용되는데 제약이 없기 때문에 임의의 스펙트로그램이 이 네트워크에 삽입될 수 있다. 또한, 이를 통해 네트워크의 즉각적인 적응을 통해 순차적인 운율 특징을 나타내는 임베딕 벡터(930)를 생성할 수 있다. 음성 신호 또는 샘플로서 입력되는 스펙트로그램은 가변적인 길이를 가질 수 있고, 그 길이에 따라 복수의 임베딩 벡터의 길이가 달라질 수 있다. 도 9에서는 CNN, BN, ReLU 및 GRU를 포함한 네트워크를 도시하고 있으나, 순차적인 운율 특징을 추출하기 위하여 다양한 층을 포함한 네트워크를 구축할 수 있다. In such a network, any spectrogram can be inserted into this network because there is no restriction in using the spectrogram. In addition, through this, it is possible to generate an embedded vector 930 representing sequential rhyme characteristics through immediate adaptation of the network. The spectrogram input as a voice signal or a sample may have a variable length, and lengths of a plurality of embedding vectors may vary according to the length. Although FIG. 9 illustrates a network including CNN, BN, ReLU, and GRU, a network including various layers may be constructed to extract sequential rhyme characteristics.
도 10는 본 개시의 일 실시예에 따른 마크업 언어에서 제공되는 태크에 입력된 속성값을 입력 텍스트에 적용하여 합성 음성을 출력하는 텍스트-음성 합성 시스템(1000)의 개요도이다. 일 실시예에서, 텍스트-음성 합성 시스템(1000)은 도 4의 텍스트-음성 합성 시스템(400) 및/또는 도 11의 텍스트-음성 합성 시스템(1100)에 대응될 수 있다. 10 is a schematic diagram of a text-to-speech synthesis system 1000 for outputting synthesized speech by applying an attribute value input to a tag provided in a markup language according to an embodiment of the present disclosure to an input text. In one embodiment, the text-to-speech synthesis system 1000 may correspond to the text-to-speech synthesis system 400 of FIG. 4 and / or the text-to-speech synthesis system 1100 of FIG. 11.
순차적 운율 정보를 생성, 조절 또는 변경하기 위하여, 텍스트-음성 합성 시스템(1000)은 인터페이스 장치를 통해 텍스트의 적어도 일부분에 대한 운율 정보를 수신할 수 있다. 여기서, 인터페이스 장치는 텍스트-음성 합성 시스템(1000)에 직접 연결되거나 유선 및/또는 무선 통신을 통해 연결된 임의의 인터페이스 장치를 포함할 수 있으며, 예를 들어, 사용자 단말의 인터페이스를 포함할 수 있다. 또한, 텍스트의 적어도 일부분에 대한 운율 정보는 임의의 텍스트를 입력하고 편집할 수 있는 임의의 문서 편집기 또는 음성 편집기를 통해 수신될 수 있다. In order to generate, adjust, or change the sequential rhyme information, the text-to-speech synthesis system 1000 may receive rhyme information for at least a portion of the text through the interface device. Here, the interface device may include any interface device directly connected to the text-voice synthesis system 1000 or connected through wired and / or wireless communication, and may include, for example, an interface of a user terminal. In addition, rhyme information for at least a portion of the text may be received through any text editor or voice editor capable of entering and editing any text.
일 실시예에 따르면, 음성 합성 시스템(1000)은 임의의 문서 편집기에서 제공되는 임의의 음성 합성 마크업 언어의 태그를 이용하여 입력 텍스트의 각 부분에 대응하는 속성값을 운율 정보로서 수신할 수 있다. 예를 들어, 음성 합성 마크업 언어에서 제공하는 태그는 순차적 운율 특징에 포함된 속성을 나타내기 위한 임의의 태그를 포함할 수 있다. 시작 태그와 종료 태그 사이의 텍스트 부분에 대응하는 운율 정보가 입력될 수 있다. 예를 들어, 도 10에 도시된 바와 같이, '1. <speed=1.5>I'm a boy.</speed>'는 시작 태그와 종료 태그 사이에 있는 I'm a boy라는 부분에 속도를 나타내는 운율 정보를 포함할 수 있다. 또 다른 예로서, 도 10에 도시된 바와 같이, '2. This is what <style=emphasis>I</style>have.'는 시작 태그와 종료 태그 사이에 있는 I라는 글자(character)에 강조를 나타내는 운율 정보를 포함할 수 있다. According to an embodiment, the speech synthesis system 1000 may receive, as rhyme information, an attribute value corresponding to each part of the input text using a tag of any speech synthesis markup language provided in an arbitrary text editor. . For example, a tag provided in a speech synthesis markup language may include any tag for indicating an attribute included in a sequential rhyme feature. Rhyme information corresponding to the text portion between the start tag and the end tag may be input. For example, as shown in FIG. 10, '1. <speed = 1.5> I'm a boy. </ speed> 'may include rhyme information indicating a speed in a part of I'm a boy between the start tag and the end tag. As another example, as shown in Figure 10, '2. This is what <style = emphasis> I </ style> have. 'May include rhyme information that highlights the letter I between the start and end tags.
텍스트-음성 합성 시스템(1000)은 수신된 입력 텍스트의 적어도 일부분에 대한 운율 정보를 기초로, 순차적 운율 정보를 생성하거나, 입력 텍스트에 대응되는 순차적 운율 정보 중 입력 텍스트에 대응하는 운율 정보를 변경하고, 생성되거나 변경된 순차적 운율 정보이 반영된 입력 텍스트에 대응하는 합성 음성을 생성할 수 있다. 일 실시예에 따르면, 텍스트-음성 합성 시스템(1000)은 기준 순차적 운율 정보에 대응하는 기준 임베딩 벡터에 입력된 입력 텍스트의 각 부분에 대응하는 운율 정보(예를 들어, 속성값)을 적용할 수 있다. 여기서, 기준 임베딩 벡터는 미리 결정된 순차적 운율 특징 정보를 나타내는 복수의 임베딩 벡터를 포함할 수 있다. 예를 들어, 기준 임베딩 벡터는 시간에 따른 운율 특징 벡터를 포함하고 있으며, 각 운율 특징 정보는 서로 직교하는 복수의 서브 임베딩 벡터(예를 들어, 높이, 크기, 길이, 휴지 기간, 스타일 벡터 등)의 가중합으로 나타낼 수 있다. 텍스트-음성 합성 시스템(1000)은 기준 임베딩 벡터의 내재 요소를 분리할 수 있다. 예를 들어, 텍스트-음성 합성 시스템(1000)은 기준 임베딩 벡터에 기초하여 서로 직교하는 복수의 단위 임베딩 벡터를 획득할 수 있다. 일 실시예에 따르면, 임베딩 벡터에 내재된 요소를 분리하는 방법으로는 ICA (independent component analysis), IVA (independent vector analysis), sparse coding, IFA (independent factor analysis), ISA (independent subspace analysis), NMF (nonnegative matrix factorization) 등 다양한 방법이 있을 수 있다. 그리고 임베딩 벡터에 내재된 요소들이 분리가 될 수 있도록, 텍스트-음성 합성 시스템(1000)은 순차적 운율 특징에 대한 임베딩 벡터를 학습할 때 텍스트-음성 합성 시스템의 학습 시 정규화(regularization)를 수행할 수 있다. 이러한 정규화는 도 4의 정규화기(420)를 통해 수행될 수 있다. 텍스트-음성 합성 시스템(1000)이 학습 시 정규화를 수행하여 기계학습을 하는 경우, 기준 임베딩 벡터는 희소 벡터(sparse vector)로 학습될 수 있다. 이에 따라, 텍스트-음성 합성 시스템(900)은 희소 벡터로 학습된 임베딩 벡터에서, PCA(principle component analysis)를 이용하여, 내재된 요소를 정확하게 분리할 수 있다. 이러한 구성 하에서, 텍스트-음성 합성 시스템(1000)은 음성 합성 마크업 언어에서 제공하는 태그 내의 속성값을 기초로 기준 임베딩 벡터를 수정할 수 있다. 예를 들어, 텍스트-음성 합성 시스템(1000)은 수신된 태그 내의 속성값에 기초하여 복수의 단위 임베딩 벡터에 대한 가중치를 변경할 수 있다. The text-to-speech synthesis system 1000 generates sequential rhyme information based on rhyme information on at least a portion of the received input text, or changes rhyme information corresponding to the input text among sequential rhyme information corresponding to the input text. The synthesized speech corresponding to the input text reflecting the generated or changed sequential rhyme information may be generated. According to an embodiment, the text-to-speech synthesis system 1000 may apply rhyme information (eg, attribute values) corresponding to each portion of the input text input to the reference embedding vector corresponding to the reference sequential rhyme information. have. Here, the reference embedding vector may include a plurality of embedding vectors representing predetermined sequential rhyme feature information. For example, the reference embedding vector includes a rhyme feature vector over time, and each rhyme feature information includes a plurality of sub-embedding vectors (eg, height, size, length, rest period, style vector, etc.) orthogonal to each other. It can be expressed as the weighted sum of. The text-to-speech synthesis system 1000 can separate the intrinsic elements of the reference embedding vector. For example, the text-to-speech synthesis system 1000 may obtain a plurality of unit embedding vectors orthogonal to each other based on the reference embedding vector. According to an embodiment, a method of separating elements embedded in an embedding vector may include independent component analysis (ICA), independent vector analysis (IVA), sparse coding, independent factor analysis (IAF), independent subspace analysis (ISA), and NMF. There may be various methods such as nonnegative matrix factorization. And so that the elements inherent in the embedding vector can be separated, the text-voice synthesis system 1000 can perform regularization when learning the text-voice synthesis system when learning the embedding vector for the sequential rhyme feature. have. This normalization may be performed through the normalizer 420 of FIG. 4. When the text-to-speech synthesis system 1000 performs machine learning by performing normalization during learning, the reference embedding vector may be learned as a sparse vector. Accordingly, the text-to-speech synthesis system 900 can accurately separate intrinsic elements using PCA (principle component analysis) in embedding vectors learned from sparse vectors. Under this configuration, the text-to-speech synthesis system 1000 may modify the reference embedding vector based on the attribute values in the tags provided by the speech synthesis markup language. For example, the text-to-speech synthesis system 1000 may change the weights for the plurality of unit embedding vectors based on the attribute values in the received tags.
일 실시예에서, 텍스트-음성 합성 시스템(1000)은 수신된 음성 합성 마크업 언어에서 제공하는 태그 내의 속성값을 기초로 기준 임베딩 벡터를 수정하도록 구성될 수 있다. 예를 들어, 텍스트-음성 합성 시스템(1000)은 수신된 속성값에 따라 변경된 가중치를 복수의 단위 임베딩 벡터에 곱하여 더함으로써, 순차적 운율 특징에 대응하는 임베딩 벡터를 재합성할 수 있다. 텍스트-음성 합성 시스템(1000)은 변경된 순차적 운율 특징 정보에 대한 임베딩 벡터를 출력할 수 있다. 텍스트-음성 합성 시스템(1000)은 수정된 임베딩 벡터를 인공신경망 텍스트-음성 합성 모델에 입력하여, 출력 음성 데이터를 음성 합성 마크업 언어에서 제공하는 태그 내의 속성값에 포함된 정보가 반영된 입력 텍스트에 대한 음성 데이터로 변환할 수 있다.In one embodiment, the text-to-speech synthesis system 1000 may be configured to modify the reference embedding vector based on attribute values in a tag provided by the received speech synthesis markup language. For example, the text-to-speech synthesis system 1000 may resynthesize the embedding vector corresponding to the sequential rhyme feature by multiplying and adding the weights changed according to the received attribute value to the plurality of unit embedding vectors. The text-to-speech synthesis system 1000 may output an embedding vector for the changed sequential rhyme feature information. The text-to-speech synthesis system 1000 inputs the modified embedding vector into the neural network text-to-speech synthesis model, and outputs the output speech data to the input text reflecting the information contained in the attribute value in the tag provided by the speech synthesis markup language. Can be converted into voice data.
도 11은 본 개시의 일 실시예에 따른 텍스트-음성 합성 시스템(1100)의 블록도이다. 11 is a block diagram of a text-to-speech synthesis system 1100 according to one embodiment of the disclosure.
도 11을 참조하면, 일 실시예에 따른 텍스트-음성 합성 시스템(1100)은 데이터 학습부(1110) 및 데이터 인식부(1120)를 포함할 수 있다. 도 11의 텍스트-음성 합성 시스템의 데이터 학습부(1110) 및 데이터 인식부(1120)의 각각은 도 4의 텍스트-음성 합성 시스템(400)이 사용하는 데이터 학습부(450) 및 데이터 인식부(455)의 각각에 대응될 수 있다. Referring to FIG. 11, the text-to-speech synthesis system 1100 may include a data learner 1110 and a data recognizer 1120. Each of the data learner 1110 and the data recognizer 1120 of the text-to-speech synthesis system of FIG. 11 is a data learner 450 and the data recognizer used by the text-to-speech synthesis system 400 of FIG. 4. 455 may correspond to each other.
데이터 학습부(1110)는 데이터를 입력하여 기계학습모델을 획득할 수 있다. 또한 데이터 인식부(1120)는 데이터를 기계학습모델에 적용하여 출력 음성을 생성할 수 있다. 상술한 바와 같은 텍스트-음성 합성 시스템(1100)은 프로세서 및 메모리를 포함할 수 있다.The data learner 1110 may obtain data to obtain a machine learning model. In addition, the data recognizer 1120 may generate the output voice by applying the data to the machine learning model. The text-to-speech synthesis system 1100 as described above may include a processor and a memory.
데이터 학습부(1110)는 텍스트에 대한 음성 학습할 수 있다. 데이터 학습부(1110)는 텍스트에 따라 어떤 음성을 출력할지에 관한 기준을 학습할 수 있다. 또한, 데이터 학습부(1110)는 어떤 음성의 특징을 이용하여 음성을 출력할지에 관한 기준을 학습할 수 있다. 음성의 특징은 음소의 발음, 사용자의 어조, 억양 또는 강세 중 적어도 하나를 포함할 수 있다. 데이터 학습부(1110)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 데이터 학습모델에 적용함으로써, 텍스트에 따른 음성을 학습할 수 있다.The data learner 1110 may perform voice learning on text. The data learner 1110 may learn a criterion about which voice to output according to the text. In addition, the data learner 1110 may learn a criterion about which voice feature to output a voice. The characteristic of the voice may include at least one of a phoneme pronunciation, a user's tone, intonation, or accentuation. The data learner 1110 acquires data to be used for learning and applies the acquired data to a data learning model to be described later, thereby learning a voice according to text.
데이터 인식부(1120)는 텍스트에 기초하여 텍스트에 대한 음성을 출력할 수 있다. 데이터 인식부(1120)는 학습된 데이터 학습모델을 이용하여, 소정의 텍스트로부터 음성을 출력할 수 있다. 데이터 인식부(1120)는 학습에 의한 미리 설정된 기준에 따라 소정의 텍스트(데이터)를 획득할 수 있다. 또한, 데이터 인식부(1120)는 획득된 데이터를 입력 값으로 하여 데이터 학습모델을 이용함으로써, 소정의 데이터에 기초한 음성을 출력할 수 있다. 또한, 획득된 데이터를 입력 값으로 하여 데이터 학습모델에 의해 출력된 결과 값은, 데이터 학습모델을 갱신하는데 이용될 수 있다.The data recognizer 1120 may output a voice for the text based on the text. The data recognizer 1120 may output a voice from a predetermined text by using the learned data learning model. The data recognizer 1120 may obtain a predetermined text (data) according to a preset criterion by learning. In addition, the data recognizing unit 1120 may output a voice based on predetermined data by using the data learning model using the acquired data as an input value. Also, the result value output by the data learning model using the acquired data as an input value may be used to update the data learning model.
데이터 학습부(1110) 또는 데이터 인식부(1120) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1110) 또는 데이터 인식부(1120) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 이미 설명한 각종 전자 장치에 탑재될 수도 있다.At least one of the data learner 1110 or the data recognizer 1120 may be manufactured in the form of at least one hardware chip and mounted on the electronic device. For example, at least one of the data learner 1110 or the data recognizer 1120 may be manufactured in the form of a dedicated hardware chip for artificial intelligence (AI), or an existing general purpose processor (eg, a CPU). Alternatively, the electronic device may be manufactured as a part of an application processor or a graphics dedicated processor (eg, a GPU) and mounted on the electronic devices described above.
또한 데이터 학습부(1110) 및 데이터 인식부(1120)는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(1110) 및 데이터 인식부(1120) 중 하나는 전자 장치에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(1110) 및 데이터 인식부(1120)는 유선 또는 무선으로 통하여, 데이터 학습부(1110)가 구축한 모델 정보를 데이터 인식부(1120)로 제공할 수도 있고, 데이터 인식부(1120)로 입력된 데이터가 추가 학습 데이터로써 데이터 학습부(1110)로 제공될 수도 있다.In addition, the data learner 1110 and the data recognizer 1120 may be mounted on separate electronic devices, respectively. For example, one of the data learner 1110 and the data recognizer 1120 may be included in the electronic device, and the other may be included in the server. In addition, the data learner 1110 and the data recognizer 1120 may provide model information constructed by the data learner 1110 to the data recognizer 1120 via a wired or wireless connection. The data input to 1120 may be provided to the data learner 1110 as additional learning data.
한편, 데이터 학습부(1110) 또는 데이터 인식부(1120) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1110) 및 데이터 인식부(1120) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction)을 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 메모리 또는 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 이와 달리, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다. Meanwhile, at least one of the data learner 1110 or the data recognizer 1120 may be implemented as a software module. When at least one of the data learning unit 1110 and the data recognizing unit 1120 is implemented as a software module (or a program module including an instruction), the software module may be a memory or computer readable non-readable. It may be stored in a non-transitory computer readable media. In this case, at least one software module may be provided by an operating system (OS) or by a predetermined application. Alternatively, some of the at least one software module may be provided by an operating system (OS) and others may be provided by a given application.
본 개시의 일 실시예에 따른 데이터 학습부(1110)는 데이터 획득부(1111), 전처리부(1112), 학습 데이터 선택부(1113), 모델 학습부(1114) 및 모델 평가부(1115)를 포함할 수 있다.The data learner 1110 according to an embodiment of the present disclosure may include a data acquirer 1111, a preprocessor 1112, a training data selector 1113, a model learner 1114, and a model evaluator 1115. It may include.
데이터 획득부(1111)는 기계학습에 필요한 데이터를 획득할 수 있다. 학습을 위해서는 많은 데이터가 필요하므로, 데이터 획득부(1111)는 복수의 텍스트 및 그에 대응되는 음성을 수신할 수 있다. The data acquirer 1111 may acquire data necessary for machine learning. Since a large amount of data is required for learning, the data acquirer 1111 may receive a plurality of texts and corresponding voices.
전처리부(1112)는 사용자의 심리 상태 판단을 위하여 획득된 데이터가 기계학습에 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1112)는 후술할 모델 학습부(1114)가 이용할 수 있도록, 획득된 데이터를 미리 설정된 포맷으로 가공할 수 있다. 예를 들어 전처리부(1112)는 텍스트 및 음성을 형태소 분석하여 형태소 임베딩을 획득할 수 있다.The preprocessor 1112 may preprocess the acquired data so that the acquired data may be used for machine learning to determine the mental state of the user. The preprocessor 1112 may process the acquired data into a preset format for use by the model learner 1114, which will be described later. For example, the preprocessor 1112 may acquire morpheme embedding by morphologically analyzing text and voice.
학습 데이터 선택부(1113)는 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 모델 학습부(1114)에 제공될 수 있다. 학습 데이터 선택부(1113)는 기 설정된 기준에 따라, 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 또한, 학습 데이터 선택부(1113)는 후술할 모델 학습부(1114)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.The training data selector 1113 may select data necessary for learning from the preprocessed data. The selected data may be provided to the model learner 1114. The training data selector 1113 may select data required for learning from preprocessed data according to a preset criterion. In addition, the training data selector 1113 may select data according to preset criteria by learning by the model learner 1114 to be described later.
모델 학습부(1114)는 학습 데이터에 기초하여 텍스트에 따라 어떤 음성을 출력할 지에 관한 기준을 학습할 수 있다. 또한, 모델 학습부(1114)는 텍스트에 따라 음성을 출력하는 학습모델을 학습 데이터로써 이용하여 학습시킬 수 있다. 이 경우, 데이터 학습모델은 미리 구축된 모델을 포함할 수 있다. 예를 들어, 데이터 학습모델은 기본 학습 데이터(예를 들어, 샘플 이미지 등)을 입력 받아 미리 구축된 모델을 포함할 수 있다.The model learner 1114 may learn a criterion about which voice to output according to the text based on the training data. In addition, the model learner 1114 may learn by using a learning model that outputs a voice according to text as learning data. In this case, the data learning model may include a pre-built model. For example, the data learning model may include a model built in advance by receiving basic training data (eg, a sample image).
데이터 학습모델은, 학습모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 데이터 학습모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델을 포함할 수 있다. 예컨대, Deep Neural Network (DNN), Recurrent Neural Network (RNN), Long Short-Term Memory models (LSTM), BRDNN (Bidirectional Recurrent Deep Neural Network), Convolutional Neural Networks (CNN) 등과 같은 모델이 데이터 학습모델로써 사용될 수 있으나, 이에 한정되지 않는다.The data learning model may be constructed in consideration of the application field of the learning model, the purpose of learning, or the computer performance of the device. The data learning model may include, for example, a model based on a neural network. For example, models such as Deep Neural Network (DNN), Recurrent Neural Network (RNN), Long Short-Term Memory models (LSTM), Bidirectional Recurrent Deep Neural Network (BRDNN), and Convolutional Neural Networks (CNN) can be used as data learning models. But it is not limited thereto.
다양한 실시예에 따르면, 모델 학습부(1114)는 미리 구축된 데이터 학습모델이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 데이터 학습모델을 학습할 데이터 학습모델로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 데이터 학습모델은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 오브젝트의 종류 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다. According to various embodiments of the present disclosure, when there are a plurality of pre-built data learning models, the model learning unit 1114 may determine a data learning model having a large correlation between the input learning data and the basic learning data as a data learning model to be trained. have. In this case, the basic training data may be previously classified by the type of data, and the data learning model may be pre-built for each type of data. For example, the basic training data is classified based on various criteria such as the region where the training data is generated, the time at which the training data is generated, the size of the training data, the genre of the training data, the creator of the training data, and the types of objects in the training data. It may be.
또한, 모델 학습부(1114)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 데이터 학습모델을 학습시킬 수 있다.In addition, the model learner 1114 may train the data learning model using, for example, a learning algorithm including an error back-propagation method or a gradient descent method.
또한, 모델 학습부(1114)는, 예를 들어, 학습 데이터를 입력 값으로 하는 지도 학습(supervised learning)을 통하여, 데이터 학습모델을 학습할 수 있다. 또한, 모델 학습부(1114)는, 예를 들어, 별다른 지도없이 상황 판단을 위해 필요한 데이터의 종류를 스스로 학습함으로써, 상황 판단을 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 데이터 학습모델을 학습할 수 있다. 또한, 모델 학습부(1114)는, 예를 들어, 학습에 따른 상황 판단의 결과가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 데이터 학습모델을 학습할 수 있다.In addition, the model learner 1114 may learn the data learning model through, for example, supervised learning using the learning data as an input value. In addition, the model learner 1114 learns data through unsupervised learning that finds a criterion for situation determination by, for example, self-learning a type of data necessary for situation determination without any guidance. You can train the model. In addition, the model learner 1114 may learn the data learning model through, for example, reinforcement learning using feedback on whether the result of the situation determination according to the learning is correct.
또한, 데이터 학습모델이 학습되면, 모델 학습부(1114)는 학습된 데이터 학습모델을 저장할 수 있다. 이 경우, 모델 학습부(1114)는 학습된 데이터 학습모델을 데이터 인식부(1120)를 포함하는 전자 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1114)는 학습된 데이터 학습모델을 전자 장치와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.In addition, when the data learning model is trained, the model learner 1114 may store the learned data learning model. In this case, the model learner 1114 may store the learned data learning model in a memory of the electronic device including the data recognizer 1120. Alternatively, the model learner 1114 may store the learned data learning model in a memory of a server connected to the electronic device through a wired or wireless network.
이 경우, 학습된 데이터 학습모델이 저장되는 메모리는, 예를 들면, 전자 장치의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 '어플리케이션') 등을 포함할 수 있다.In this case, the memory in which the learned data learning model is stored may store, for example, commands or data related to at least one other element of the electronic device. The memory may also store software and / or programs. The program may include, for example, a kernel, middleware, an application programming interface (API) and / or an application program (or 'application'), or the like.
모델 평가부(1115)는 데이터 학습모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(1114)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 데이터 학습모델을 평가하기 위한 기 설정된 데이터를 포함할 수 있다. The model evaluator 1115 may input the evaluation data into the data learning model, and may cause the model learner 1114 to learn again when the result output from the evaluation data does not satisfy a predetermined criterion. In this case, the evaluation data may include preset data for evaluating the data learning model.
예를 들어, 모델 평가부(1115)는 평가 데이터에 대한 학습된 데이터 학습모델의 결과 중에서, 인식 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 데이터 학습모델이 총 1000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 인식 결과를 출력하는 경우, 모델 평가부(1115)는 학습된 데이터 학습모델이 적합하지 않은 것으로 평가할 수 있다.For example, the model evaluator 1115 may not satisfy a predetermined criterion when the number or ratio of the evaluation data whose recognition result is not accurate among the results of the learned data learning model for the evaluation data exceeds a preset threshold. It can be evaluated as. For example, when a predetermined criterion is defined at a ratio of 2%, when the trained data learning model outputs an incorrect recognition result for more than 20 evaluation data out of a total of 1000 evaluation data, the model evaluator 1115 learns. The data learning model can be evaluated as not suitable.
한편, 학습된 데이터 학습모델이 복수 개가 존재하는 경우, 모델 평가부(1115)는 각각의 학습된 동영상 학습모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 데이터 학습 모델로써 결정할 수 있다. 이 경우, 소정 기준을 만족하는 모델이 복수 개인 경우, 모델 평가부(1115)는 평가 점수가 높은 순으로 미리 설정된 어느 하나 또는 소정 개수의 모델을 최종 데이터 학습 모델로써 결정할 수 있다.On the other hand, when there are a plurality of trained data learning models, the model evaluator 1115 evaluates whether each of the learned video learning models satisfies a predetermined criterion and uses the model satisfying the predetermined criterion as the final data learning model. You can decide. In this case, when there are a plurality of models satisfying a predetermined criterion, the model evaluator 1115 may determine any one or a predetermined number of models which are preset in the order of the highest evaluation score as the final data learning model.
한편, 데이터 학습부(1110) 내의 데이터 획득부(1111), 전처리부(1112), 학습 데이터 선택부(1113), 모델 학습부(1114) 또는 모델 평가부(1115) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1111), 전처리부(1112), 학습 데이터 선택부(1113), 모델 학습부(1114) 또는 모델 평가부(1115) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.At least one of the data acquirer 1111, the preprocessor 1112, the training data selector 1113, the model learner 1114, or the model evaluator 1115 in the data learner 1110 may be at least one. May be manufactured in the form of a hardware chip and mounted on an electronic device. For example, at least one of the data acquirer 1111, the preprocessor 1112, the training data selector 1113, the model learner 1114, or the model evaluator 1115 may be artificial intelligence (AI). It may be manufactured in the form of a dedicated hardware chip, or may be manufactured as part of an existing general purpose processor (eg, a CPU or an application processor) or a graphics dedicated processor (eg, a GPU) and mounted on the above-mentioned various electronic devices.
또한, 데이터 획득부(1111), 전처리부(1112), 학습 데이터 선택부(1113), 모델 학습부(1114) 및 모델 평가부(1115)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1111), 전처리부(1112), 학습 데이터 선택부(1113), 모델 학습부(1114) 및 모델 평가부(1115) 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.In addition, the data acquirer 1111, the preprocessor 1112, the training data selector 1113, the model learner 1114, and the model evaluator 1115 may be mounted in one electronic device or may be separate. Each of the electronic devices may be mounted. For example, some of the data acquirer 1111, the preprocessor 1112, the training data selector 1113, the model learner 1114, and the model evaluator 1115 are included in the electronic device, and the other part thereof is included in the electronic device. Can be included on the server.
또한, 데이터 획득부(1111), 전처리부(1112), 학습 데이터 선택부(1113), 모델 학습부(1114) 또는 모델 평가부(1115) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1111), 전처리부(1112), 학습 데이터 선택부(1113), 모델 학습부(1114) 또는 모델 평가부(1115) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 이와 달리, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.In addition, at least one of the data acquirer 1111, the preprocessor 1112, the training data selector 1113, the model learner 1114, or the model evaluator 1115 may be implemented as a software module. A program in which at least one of the data obtaining unit 1111, the preprocessor 1112, the training data selecting unit 1113, the model learning unit 1114, or the model evaluating unit 1115 includes a software module (or instruction). Module may be stored on a computer readable non-transitory computer readable media. In this case, at least one software module may be provided by an operating system (OS) or by a predetermined application. Alternatively, some of the at least one software module may be provided by an operating system (OS) and others may be provided by a given application.
본 개시의 일 실시예에 따른 데이터 인식부(1120)는 데이터 획득부(1121), 전처리부(1122), 인식 데이터 선택부(1123), 인식 결과 제공부(1124) 및 모델 갱신부(1125)를 포함할 수 있다.The data recognizer 1120 according to an exemplary embodiment of the present disclosure may include a data acquirer 1121, a preprocessor 1122, a recognition data selector 1123, a recognition result provider 1124, and a model updater 1125. It may include.
데이터 획득부(1121)는 음성을 출력하기 위해 필요한 텍스트를 획득할 수 있다. 반대로 데이터 획득부(1121)는 텍스트를 출력하기 위해 필요한 음성을 획득할 수 있다. 전처리부(1122)는 음성 또는 텍스트를 출력하기 위해 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1122)는 후술할 인식 결과 제공부(1124)가 음성 또는 텍스트를 출력하기 위해 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다. The data acquirer 1121 may acquire text required to output voice. In contrast, the data acquirer 1121 may acquire a voice required for outputting text. The preprocessor 1122 may preprocess the acquired data so that the obtained data may be used to output voice or text. The preprocessor 1122 may process the acquired data into a preset format so that the recognition result providing unit 1124, which will be described later, may use the acquired data for outputting voice or text.
인식 데이터 선택부(1123)는 전처리된 데이터 중에서 음성 또는 텍스트를 출력하기 위해 필요한 데이터를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(1124)에게 제공될 수 있다. 인식 데이터 선택부(1123)는 음성 또는 텍스트를 출력하기 위한 기 설정된 기준에 따라, 전처리된 데이터 중에서 일부 또는 전부를 선택할 수 있다. 또한, 인식 데이터 선택부(1123)는 모델 학습부(1114)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.The recognition data selector 1123 may select data necessary for outputting voice or text from the preprocessed data. The selected data may be provided to the recognition result provider 1124. The recognition data selector 1123 may select some or all of the preprocessed data according to preset criteria for outputting voice or text. In addition, the recognition data selector 1123 may select data according to a predetermined criterion by learning by the model learner 1114.
인식 결과 제공부(1124)는 선택된 데이터를 데이터 학습모델에 적용하여 음성 또는 텍스트를 출력할 수 있다. 인식 결과 제공부(1124)는 인식 데이터 선택부(1123)에 의해 선택된 데이터를 입력 값으로 이용함으로써, 선택된 데이터를 데이터 학습모델에 적용할 수 있다. 또한, 인식 결과는 데이터 학습모델에 의해 결정될 수 있다.The recognition result providing unit 1124 may output the voice or the text by applying the selected data to the data learning model. The recognition result provider 1124 may apply the selected data to the data learning model by using the data selected by the recognition data selector 1123 as an input value. In addition, the recognition result may be determined by the data learning model.
모델 갱신부(1125)는 인식 결과 제공부(1124)에 의해 제공되는 인식 결과에 대한 평가에 기초하여, 데이터 학습모델이 갱신되도록 할 수 있다. 예를 들어, 모델 갱신부(1125)는 인식 결과 제공부(1124)에 의해 제공되는 인식 결과를 모델 학습부(1114)에게 제공함으로써, 모델 학습부(1114)가 데이터 학습모델을 갱신하도록 할 수 있다.The model updater 1125 may cause the data learning model to be updated based on the evaluation of the recognition result provided by the recognition result provider 1124. For example, the model updater 1125 may allow the model learner 1114 to update the data learning model by providing the model learner 1114 with the recognition result provided by the recognition result provider 1124. have.
한편, 데이터 인식부(1120) 내의 데이터 획득부(1121), 전처리부(1122), 인식 데이터 선택부(1123), 인식 결과 제공부(1124) 또는 모델 갱신부(1125) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1121), 전처리부(1122), 인식 데이터 선택부(1123), 인식 결과 제공부(1124) 또는 모델 갱신부(1125) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.Meanwhile, at least one of the data acquisition unit 1121, the preprocessing unit 1122, the recognition data selection unit 1123, the recognition result providing unit 1124, or the model updating unit 1125 in the data recognizing unit 1120 is at least one. It may be manufactured in the form of one hardware chip and mounted on an electronic device. For example, at least one of the data acquirer 1121, the preprocessor 1122, the recognition data selector 1123, the recognition result provider 1124, or the model updater 1125 may be artificial intelligence (AI). ) May be manufactured in the form of a dedicated hardware chip, or may be manufactured as a part of an existing general purpose processor (eg, a CPU or an application processor) or a graphics dedicated processor (eg, a GPU) and mounted on the aforementioned various electronic devices.
또한, 데이터 획득부(1121), 전처리부(1122), 인식 데이터 선택부(1123), 인식 결과 제공부(1124) 및 모델 갱신부(1125)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1121), 전처리부(1122), 인식 데이터 선택부(1123), 인식 결과 제공부(1124) 및 모델 갱신부(1125) 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.In addition, the data obtaining unit 1121, the preprocessor 1122, the recognition data selecting unit 1123, the recognition result providing unit 1124, and the model updating unit 1125 may be mounted in one electronic device or may be separate. May be mounted on the electronic devices. For example, some of the data obtaining unit 1121, the preprocessing unit 1122, the recognition data selecting unit 1123, the recognition result providing unit 1124, and the model updating unit 1125 are included in the electronic device, and some of the remaining units are included in the electronic device. May be included in the server.
또한, 데이터 획득부(1121), 전처리부(1122), 인식 데이터 선택부(1123), 인식 결과 제공부(1124) 또는 모델 갱신부(1125) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1121), 전처리부(1122), 인식 데이터 선택부(1123), 인식 결과 제공부(1124) 또는 모델 갱신부(1125) 중 적어도 하나가 소프트웨어 모듈(또는, 인스트럭션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 이와 달리, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.In addition, at least one of the data acquirer 1121, the preprocessor 1122, the recognition data selector 1123, the recognition result provider 1124, or the model updater 1125 may be implemented as a software module. At least one of the data acquisition unit 1121, the preprocessor 1122, the recognition data selection unit 1123, the recognition result providing unit 1124, and the model updating unit 1125 includes a software module (or instruction). If implemented as a program module, the software module may be stored in a computer readable non-transitory computer readable media. In this case, at least one software module may be provided by an operating system (OS) or by a predetermined application. Alternatively, some of the at least one software module may be provided by an operating system (OS) and others may be provided by a given application.
일반적으로, 본 명세서에 설명된 텍스트-음성 합성 시스템 및 텍스트-음성 합성 서비스를 제공하는 사용자 단말기는, 무선 전화기, 셀룰러 전화기, 랩탑 컴퓨터, 무선 멀티미디어 디바이스, 무선 통신 PC (personal computer) 카드, PDA, 외부 모뎀이나 내부 모뎀, 무선 채널을 통해 통신하는 디바이스 등과 같은 다양한 타입들의 디바이스들을 나타낼 수도 있다. 디바이스는, 액세스 단말기 (access terminal; AT), 액세스 유닛, 가입자 유닛, 이동국, 모바일 디바이스, 모바일 유닛, 모바일 전화기, 모바일, 원격국, 원격 단말, 원격 유닛, 유저 디바이스, 유저 장비 (user equipment), 핸드헬드 디바이스 등과 같은 다양한 이름들을 가질 수도 있다. 본 명세서에 설명된 임의의 디바이스는 명령들 및 데이터를 저장하기 위한 메모리, 뿐만 아니라 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합들을 가질 수도 있다. In general, a user terminal providing the text-to-speech synthesis system and text-to-speech service described herein includes a wireless telephone, a cellular telephone, a laptop computer, a wireless multimedia device, a wireless communications personal computer (PC) card, a PDA, It may represent various types of devices, such as an external modem, an internal modem, a device communicating over a wireless channel, and the like. The device may be an access terminal (AT), an access unit, a subscriber unit, a mobile station, a mobile device, a mobile unit, a mobile telephone, a mobile, a remote station, a remote terminal, a remote unit, a user device, user equipment, It may have various names, such as a handheld device. Any device described herein may have memory for storing instructions and data, as well as hardware, software, firmware, or combinations thereof.
본 명세서에 기술된 기법들은 다양한 수단에 의해 구현될 수도 있다. 예를 들어, 이러한 기법들은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 조합으로 구현될 수도 있다. 본 명세서의 개시와 연계하여 설명된 다양한 예시 적인 논리적 블록들, 모듈들, 회로들, 및 알고리즘 단계들은 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 조합들로 구현될 수도 있음을 당업자들은 더 이해할 것이다. 하드웨어 및 소프트웨어의 이러한 상호교환성을 명확하게 설명하기 위해, 다양한 예시 적인 컴포넌트들, 블록들, 모듈들, 회로들, 및 단계들이 그들의 기능성의 관점에서 일반적으로 위에서 설명되었다. 그러한 기능이 하드웨어로서 구현되는지 또는 소프트웨어로서 구현되는 지의 여부는, 특정 애플리케이션 및 전체 시스템에 부과되는 설계 제약들에 따라 달라진다. 당업자들은 각각의 특정 애플리케이션을 위해 다양한 방식들로 설명된 기능을 구현할 수도 있으나, 그러한 구현 결정들은 본 개시의 범위로부터 벗어나게 하는 것으로 해석되어서는 안된다. The techniques described herein may be implemented by various means. For example, these techniques may be implemented in hardware, firmware, software, or a combination thereof. Those skilled in the art will further appreciate that the various illustrative logical blocks, modules, circuits, and algorithm steps described in connection with the disclosure herein may be implemented in electronic hardware, computer software, or a combination of both. To clearly illustrate this interchangeability of hardware and software, various illustrative components, blocks, modules, circuits, and steps have been described above generally in terms of their functionality. Whether such functionality is implemented as hardware or software depends on the particular application and design constraints imposed on the overall system. Skilled artisans may implement the described functionality in varying ways for each particular application, but such implementation decisions should not be interpreted as causing a departure from the scope of the present disclosure.
하드웨어 구현에서, 기법들을 수행하는 데 이용되는 프로세싱 유닛들은, 하나 이상의 ASIC들, DSP들, 디지털 신호 프로세싱 디바이스들 (digital signal processing devices; DSPD들), 프로그램가능 논리 디바이스들 (programmable logic devices; PLD들), 필드 프로그램가능 게이트 어레이들 (field programmable gate arrays; FPGA들), 프로세서들, 제어기들, 마이크로제어기들, 마이크로프로세서들, 전자 디바이스들, 본 명세서에 설명된 기능들을 수행하도록 설계된 다른 전자 유닛들, 컴퓨터, 또는 이들의 조합 내에서 구현될 수도 있다. In a hardware implementation, the processing units used to perform the techniques may include one or more ASICs, DSPs, digital signal processing devices (DSPDs), programmable logic devices (PLDs) ), Field programmable gate arrays (FPGAs), processors, controllers, microcontrollers, microprocessors, electronic devices, other electronic units designed to perform the functions described herein. May be implemented within a computer, or a combination thereof.
따라서, 본 명세서의 개시와 연계하여 설명된 다양한 예시 적인 논리 블록들, 모듈들, 및 회로들은 범용 프로세서, DSP, ASIC, FPGA나 다른 프로그램 가능 논리 디바이스, 이산 게이트나 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 본 명세서에 설명된 기능들을 수행하도록 설계된 것들의 임의의 조합으로 구현되거나 수행될 수도 있다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안에서, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 프로세서는 또한 컴퓨팅 디바이스들의 조합, 예를 들면, DSP와 마이크로프로세서, 복수의 마이크로프로세서들, DSP 코어와 연계한 하나 이상의 마이크로프로세서들, 또는 임의의 다른 그러한 구성의 조합으로써 구현될 수도 있다. Accordingly, various illustrative logic blocks, modules, and circuits described in connection with the disclosure herein may be used in general purpose processors, DSPs, ASICs, FPGAs or other programmable logic devices, discrete gate or transistor logic, discrete hardware components, Or may be implemented or performed in any combination of those designed to perform the functions described herein. A general purpose processor may be a microprocessor, but in the alternative, the processor may be any conventional processor, controller, microcontroller, or state machine. A processor may also be implemented as a combination of computing devices, eg, a combination of a DSP and a microprocessor, a plurality of microprocessors, one or more microprocessors in conjunction with a DSP core, or any other such configuration.
펌웨어 및/또는 소프트웨어 구현에 있어서, 기법들은 랜덤 액세스 메모리 (random access memory; RAM), 판독 전용 메모리 (read-only memory; ROM), 불휘발성 RAM (non-volatile random access memory; NVRAM), PROM (programmable read-only memory), EPROM (erasable programmable read-only memory), EEPROM (electrically erasable PROM), 플래시 메모리, 컴팩트 디스크 (compact disc; CD), 자기 또는 광학 데이터 스토리지 디바이스 등과 같은 컴퓨터 판독가능 매체 상에 저장된 명령들로써 구현될 수도 있다. 명령들은 하나 이상의 프로세서들에 의해 실행 가능할 수도 있고, 프로세서(들)로 하여금 본 명세서에 설명된 기능의 특정 양태들을 수행하게 할 수도 있다. In firmware and / or software implementations, the techniques may include random access memory (RAM), read-only memory (ROM), non-volatile random access memory (NVRAM), PROM ( On computer readable media such as programmable read-only memory (EPROM), erasable programmable read-only memory (EPROM), electrically erasable PROM (EEPROM), flash memory, compact disc (CD), magnetic or optical data storage devices, and the like. It may also be implemented as stored instructions. The instructions may be executable by one or more processors, and may cause the processor (s) to perform certain aspects of the functionality described herein.
소프트웨어로 구현되면, 상기 기능들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독 가능한 매체 상에 저장되거나 또는 컴퓨터 판독 가능한 매체를 통해 전송될 수도 있다. 컴퓨터 판독가능 매체들은 한 장소에서 다른 장소로 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함하여 컴퓨터 저장 매체들 및 통신 매체들 양자를 포함한다. 저장 매체들은 컴퓨터에 의해 액세스될 수 있는 임의의 이용 가능한 매체들일 수도 있다. 비제한적인 예로서, 이러한 컴퓨터 판독가능 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들, 또는 소망의 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 이송 또는 저장하기 위해 사용될 수 있으며 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 접속이 컴퓨터 판독가능 매체로 적절히 칭해진다. If implemented in software, the functions may be stored on or transmitted over as one or more instructions or code on a computer-readable medium. Computer-readable media includes both computer storage media and communication media including any medium that facilitates transfer of a computer program from one place to another. Storage media may be any available media that can be accessed by a computer. By way of non-limiting example, such computer-readable media may be in the form of RAM, ROM, EEPROM, CD-ROM or other optical disk storage, magnetic disk storage or other magnetic storage devices, or desired program code in the form of instructions or data structures. Or any other medium that can be used for transfer or storage to a computer and that can be accessed by a computer. Also, any connection is properly termed a computer readable medium.
예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선 (DSL), 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들을 사용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 전송되면, 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선, 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들은 매체의 정의 내에 포함된다. 본 명세서에서 사용된 디스크 (disk) 와 디스크 (disc)는, CD, 레이저 디스크, 광 디스크, DVD (digital versatile disc), 플로피디스크, 및 블루레이 디스크를 포함하며, 여기서 디스크들 (disks) 은 보통 자기적으로 데이터를 재생하고, 반면 디스크들 (discs) 은 레이저를 이용하여 광학적으로 데이터를 재생한다. 위의 조합들도 컴퓨터 판독가능 매체들의 범위 내에 포함되어야 한다. For example, if the software is transmitted from a website, server, or other remote source using coaxial cable, fiber optic cable, twisted pair, digital subscriber line (DSL), or wireless technologies such as infrared, wireless, and microwave, the coaxial cable , Fiber optic cable, twisted pair, digital subscriber line, or wireless technologies such as infrared, wireless, and microwave are included within the definition of the medium. As used herein, disks and disks include CDs, laser disks, optical disks, digital versatile discs, floppy disks, and Blu-ray disks, where the disks are usually Magnetically reproduce the data, while discs discs optically reproduce the data using a laser. Combinations of the above should also be included within the scope of computer-readable media.
소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터들, 하드 디스크, 이동식 디스크, CD-ROM, 또는 공지된 임의의 다른 형태의 저장 매체 내에 상주할 수도 있다. 예시 적인 저장 매체는, 프로세가 저장 매체로부터 정보를 판독하거나 저장 매체에 정보를 기록할 수 있도록, 프로세서에 커플링 될 수 있다. 대안으로, 저장 매체는 프로세서에 통합될 수도 있다. 프로세서와 저장 매체는 ASIC 내에 존재할 수도 있다. ASIC은 유저 단말 내에 존재할 수도 있다. 대안으로, 프로세서와 저장 매체는 유저 단말에서 개별 컴포넌트들로써 존재할 수도 있다. The software module may reside in RAM memory, flash memory, ROM memory, EPROM memory, EEPROM memory, registers, hard disk, removable disk, CD-ROM, or any other type of storage medium known in the art. An exemplary storage medium may be coupled to the processor such that the processor can read information from or write information to the storage medium. In the alternative, the storage medium may be integral to the processor. The processor and the storage medium may reside in an ASIC. The ASIC may be present in the user terminal. In the alternative, the processor and the storage medium may reside as discrete components in a user terminal.
본 개시의 앞선 설명은 당업자들이 본 개시를 행하거나 이용하는 것을 가능하게 하기 위해 제공된다. 본 개시의 다양한 수정예들이 당업자들에게 쉽게 자명할 것이고, 본 명세서에 정의된 일반적인 원리들은 본 개시의 취지 또는 범위를 벗어나지 않으면서 다양한 변형예들에 적용될 수도 있다. 따라서, 본 개시는 본 명세서에 설명된 예들에 제한되도록 의도된 것이 아니고, 본 명세서에 개시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위가 부여되도록 의도된다. The previous description of the disclosure is provided to enable a person skilled in the art to make or use the disclosure. Various modifications of the disclosure will be readily apparent to those skilled in the art, and the generic principles defined herein may be applied to various modifications without departing from the spirit or scope of the disclosure. Thus, the present disclosure is not intended to be limited to the examples described herein but is to be accorded the widest scope consistent with the principles and novel features disclosed herein.
비록 예시 적인 구현예들이 하나 이상의 독립형 컴퓨터 시스템의 맥락에서 현재 개시된 주제의 양태들을 활용하는 것을 언급할 수도 있으나, 본 주제는 그렇게 제한되지 않고, 오히려 네트워크나 분산 컴퓨팅 환경과 같은 임의의 컴퓨팅 환경과 연계하여 구현될 수도 있다. 또 나아가, 현재 개시된 주제의 양상들은 복수의 프로세싱 칩들이나 디바이스들에서 또는 그들에 걸쳐 구현될 수도 있고, 스토리지는 복수의 디바이스들에 걸쳐 유사하게 영향을 받게 될 수도 있다. 이러한 디바이스들은 PC들, 네트워크 서버들, 및 핸드헬드 디바이스들을 포함할 수도 있다. Although the example implementations may refer to utilizing aspects of the presently disclosed subject matter in the context of one or more standalone computer systems, the subject matter is not so limited, but rather in connection with any computing environment, such as a network or a distributed computing environment. It may be implemented. Moreover, aspects of the presently disclosed subject matter may be implemented in or across a plurality of processing chips or devices, and storage may be similarly affected across a plurality of devices. Such devices may include PCs, network servers, and handheld devices.
비록 본 주제가 구조적 특징들 및/또는 방법론적 작용들에 특정한 언어로 설명되었으나, 첨부된 청구항들에서 정의된 주제가 위에서 설명된 특정 특징들 또는 작용들로 반드시 제한되는 것은 아님이 이해될 것이다. 오히려, 위에서 설명된 특정 특징들 및 작용들은 청구항들을 구현하는 예시 적인 형태로서 설명된다. Although the subject matter has been described in language specific to structural features and / or methodological acts, it will be understood that the subject matter defined in the appended claims is not necessarily limited to the specific features or acts described above. Rather, the specific features and acts described above are described as example forms of implementing the claims.
이 명세서에서 언급된 방법은 특정 실시예들을 통하여 설명되었지만, 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽힐 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 실시예들을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다. Although the method referred to in this specification has been described with reference to specific embodiments, it is possible to implement it as computer readable code on a computer readable recording medium. Computer-readable recording media include all kinds of recording devices that store data that can be read by a computer system. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disks, optical data storage devices, and the like. The computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion. And, the functional program, code and code segments for implementing the embodiments can be easily inferred by programmers in the art to which the present invention belongs.
본 명세서에서는 본 개시가 일부 실시예들과 관련하여 설명되었지만, 본 발명이 속하는 기술분야의 통상의 기술자가 이해할 수 있는 본 개시의 범위를 벗어나지 않는 범위에서 다양한 변형 및 변경이 이루어질 수 있다는 점을 알아야 할 것이다. 또한, 그러한 변형 및 변경은 본 명세서에 첨부된 특허청구의 범위 내에 속하는 것으로 생각되어야 한다. While the present disclosure has been described in connection with some embodiments, it is to be understood that various modifications and changes can be made without departing from the scope of the present disclosure to those skilled in the art. something to do. Also, such modifications and variations are intended to fall within the scope of the claims appended hereto.

Claims (14)

  1. 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성(text-to-speech synthesis) 방법으로서,A text-to-speech synthesis method using machine learning based on sequential rhyme characteristics,
    입력 텍스트를 수신하는 단계;Receiving input text;
    순차적 운율(sequential prosody) 특징을 수신하는 단계; 및Receiving a sequential prosody feature; And
    상기 입력 텍스트 및 상기 수신된 순차적 운율 특징을 인공신경망 텍스트-음성 합성 모델에 입력하여, 상기 수신된 순차적 운율 특징이 반영된 상기 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계Inputting the input text and the received sequential rhyme features into an artificial neural network text-voice synthesis model to generate output speech data for the input text reflecting the received sequential rhyme features;
    를 포함하는 텍스트-음성 합성 방법.Text-voice synthesis method comprising a.
  2. 제1항에 있어서, The method of claim 1,
    상기 인공신경망 텍스트-음성 합성 모델은, 복수의 학습 텍스트 및 상기 복수의 학습 텍스트에 대응하는 학습 음성을 나타내는 데이터에 기초하여 기계학습을 수행하여 생성되고, The artificial neural network text-voice synthesis model is generated by performing machine learning based on a plurality of learning texts and data representing learning speech corresponding to the plurality of learning texts,
    상기 학습 음성을 나타내는 데이터는 상기 학습 음성의 순차적 운율 특징을 포함하는, 텍스트-음성 합성 방법. And the data indicative of the learning speech comprises a sequential rhyme feature of the learning speech.
  3. 제1항에 있어서, The method of claim 1,
    상기 순차적 운율 특징은, 프레임, 글자, 음소, 음절 또는 단어 중 적어도 하나의 단위에 대응되는 운율 정보를 시간 순으로 포함하고, The sequential rhyme feature includes rhyme information corresponding to at least one unit of a frame, letter, phoneme, syllable, or word in chronological order,
    상기 운율 정보는, 소리의 크기에 대한 정보, 상기 소리의 높이에 대한 정보, 상기 소리의 길이에 대한 정보, 상기 소리의 휴지 기간에 대한 정보 또는 상기 소리의 스타일에 대한 정보 중 적어도 하나를 포함하는, 텍스트-음성 합성 방법. The rhyme information includes at least one of information on a loudness of the sound, information on the height of the sound, information on the length of the sound, information on the pause period of the sound, or information on the style of the sound. , Text-to-speech synthesis method.
  4. 제3항에 있어서, 상기 순차적 운율 특징을 수신하는 단계는 상기 순차적 운율 특징을 나타내는 복수의 임베딩 벡터를 수신하는 단계를 포함하고, The method of claim 3, wherein receiving the sequential rhyme feature comprises receiving a plurality of embedding vectors representing the sequential rhyme feature.
    상기 복수의 임베딩 벡터의 각각은 상기 시간 순으로 포함된 운율 정보에 대응되는, 텍스트-음성 합성 방법.Each of the plurality of embedding vectors corresponds to rhyme information included in the chronological order.
  5. 제4항에 있어서, The method of claim 4, wherein
    상기 인공신경망 텍스트-음성 합성 모델은 인코더 및 디코더를 포함하고,The neural network text-voice synthesis model comprises an encoder and a decoder,
    상기 수신된 복수의 임베딩 벡터를 어텐션 모듈에 입력하여, 상기 인코더에 제공된 입력 텍스트의 각 부분들과 대응되는 복수의 변환 임베딩 벡터를 생성하는 단계 - 상기 복수의 변환 임베딩 벡터의 길이는 상기 입력 텍스트의 길이에 따라 가변적임 -를 더 포함하고, Inputting the received plurality of embedding vectors into an attention module to generate a plurality of transform embedding vectors corresponding to respective portions of the input text provided to the encoder, wherein the length of the plurality of transform embedding vectors is equal to the length of the input text. Variable depending on length;
    상기 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계는,Generating output voice data for the input text may include:
    상기 생성된 복수의 변환 임베딩 벡터를 상기 인공신경망 텍스트-음성 합성 모델의 인코더에 입력하는 단계; 및 Inputting the generated plurality of transform embedding vectors into an encoder of the neural network text-to-speech synthesis model; And
    상기 복수의 변환 임베딩 벡터가 반영된 상기 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계Generating output speech data for the input text in which the plurality of transform embedding vectors are reflected.
    를 포함하는, 텍스트-음성 합성 방법. Comprising a text-to-speech synthesis method.
  6. 제4항에 있어서, The method of claim 4, wherein
    상기 인공신경망 텍스트-음성 합성 모델은 인코더 및 디코더를 포함하고,The neural network text-voice synthesis model comprises an encoder and a decoder,
    상기 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계는,Generating output voice data for the input text may include:
    상기 수신된 복수의 임베딩 벡터를 상기 인공신경망 텍스트-음성 합성 모델의 디코더에 입력하는 단계; 및 Inputting the received plurality of embedding vectors into a decoder of the neural network text-to-speech synthesis model; And
    상기 복수의 임베딩 벡터가 반영된 상기 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계Generating output speech data for the input text reflecting the plurality of embedding vectors
    를 포함하는, 텍스트-음성 합성 방법. Comprising a text-to-speech synthesis method.
  7. 제4항에 있어서, The method of claim 4, wherein
    화자의 발성 특징을 수신하는 단계를 더 포함하고,Receiving a speaker's utterance feature,
    상기 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계는 상기 화자의 음성을 모사하고 상기 순차적 운율 특징을 나타내는 복수의 임베딩 벡터가 반영된 상기 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 포함하는, 텍스트-음성 합성 방법.Generating output speech data for the input text includes generating output speech data for the input text that mimics the speaker's speech and reflects a plurality of embedding vectors representing the sequential rhyme characteristics. Speech synthesis method.
  8. 제7항에 있어서,The method of claim 7, wherein
    상기 화자의 발성 특징을 수신하는 단계는 상기 화자의 순차적 운율 특징을 수신하는 단계를 포함하고, Receiving the speaker's utterance feature comprises receiving a sequential rhyme feature of the speaker,
    상기 복수의 임베딩 벡터를 추출하는 단계는 상기 화자의 순차적 운율 특징에 기초하여 상기 추출된 복수의 임베딩 벡터를 정규화하는 단계를 포함하고, The extracting of the plurality of embedding vectors may include normalizing the extracted plurality of embedding vectors based on the sequential rhyme characteristic of the speaker.
    상기 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계는 상기 화자의 음성을 모사하고 상기 정규화된 복수의 임베딩 벡터가 반영된 상기 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 포함하는, 텍스트-음성 합성 방법.Generating output speech data for the input text comprises simulating speech of the speaker and generating output speech data for the input text reflecting the normalized plurality of embedding vectors. .
  9. 제8항에 있어서, The method of claim 8,
    상기 추출된 복수의 임베딩 벡터를 정규화하는 단계는, Normalizing the extracted plurality of embedding vectors may include:
    각 시간 단계에서 상기 화자의 순차적 운율 특징을 나타내는 임베딩 벡터의 평균값을 산출하는 단계; 및 Calculating an average value of an embedding vector representing the sequential rhyme characteristic of the speaker at each time step; And
    상기 추출된 복수의 임베딩 벡터를 상기 각 시간 단계에서 산출된 임베딩 벡터의 평균값으로 감산하는 단계Subtracting the extracted plurality of embedding vectors by an average value of the embedding vectors calculated in each time step.
    를 포함하는, 텍스트-음성 합성 방법. Comprising a text-to-speech synthesis method.
  10. 제1항에 있어서, The method of claim 1,
    상기 순차적 운율 특징을 수신하는 단계는, 상기 입력 텍스트의 적어도 일부에 대한 운율 정보를 사용자 인터페이스를 통해 수신하는 단계를 포함하고, Receiving the sequential rhyme feature, receiving rhyme information for at least a portion of the input text via a user interface,
    상기 수신된 순차적 운율 특징이 반영된 상기 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계는 상기 입력 텍스트의 적어도 일부에 대한 운율 정보가 반영된 상기 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 포함하는, 텍스트-음성 합성 방법.Generating output speech data for the input text in which the received sequential rhyme feature is reflected includes generating output speech data for the input text in which rhyme information for at least a portion of the input text is reflected. -Speech synthesis method.
  11. 제10항에 있어서, The method of claim 10,
    상기 입력 텍스트의 적어도 일부에 대한 운율 정보는 음성 합성 마크업 언어에서 제공되는 태그를 통해 입력되는, Rhyme information for at least a portion of the input text is input through a tag provided in a speech synthesis markup language,
    텍스트-음성 합성 방법.Text-to-speech synthesis method.
  12. 제1항에 있어서,The method of claim 1,
    상기 입력 텍스트의 적어도 일부에 대한 운율 정보를 사용자 인터페이스를 통해 수신받는 단계; 및Receiving rhyme information on at least a portion of the input text through a user interface; And
    상기 수신된 입력 텍스트의 적어도 일부에 대한 운율 정보를 기초로 상기 수신된 순차적 운율 특징을 변경하는 단계를 더 포함하고, Changing the received sequential rhyme feature based on rhyme information for at least a portion of the received input text,
    상기 수신된 순차적 운율 특징이 반영된 상기 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계는, 상기 변경된 순차적 운율 특징이 반영된 상기 입력 텍스트에 대한 출력 음성 데이터를 생성하는 단계를 포함하는, 텍스트-음성 합성 방법.Generating output speech data for the input text that reflects the received sequential rhyme feature includes generating output speech data for the input text that reflects the changed sequential rhyme feature. .
  13. 제12항에 있어서, The method of claim 12,
    상기 수신된 순차적 운율 특징을 변경하는데 사용되는, 상기 입력 텍스트의 적어도 일부에 대한 운율 정보는 음성 합성 마크업 언어에서 제공되는 태그를 통해 입력되는, 텍스트-음성 합성 방법.Rhyme information for at least a portion of the input text, used to change the received sequential rhyme feature, is input via a tag provided in a speech synthesis markup language.
  14. 제1항의 순차적 운율 특징을 이용한 기계학습을 이용한 텍스트-음성 합성 방법에 따른 각각의 단계를 수행하는 명령어를 포함하는 프로그램이 기록된, 컴퓨터 판독가능 저장매체.A computer-readable storage medium having recorded thereon a program comprising instructions for performing each step according to the method of text-to-speech synthesis using machine learning using the sequential rhyme feature of claim 1.
PCT/KR2019/009659 2018-08-02 2019-08-02 Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature WO2020027619A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/004,460 US11929059B2 (en) 2018-08-02 2020-08-27 Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2018-0090134 2018-08-02
KR20180090134 2018-08-02
KR1020190094065A KR20200015418A (en) 2018-08-02 2019-08-01 Method and computer readable storage medium for performing text-to-speech synthesis using machine learning based on sequential prosody feature
KR10-2019-0094065 2019-08-01

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/004,460 Continuation US11929059B2 (en) 2018-08-02 2020-08-27 Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature

Publications (1)

Publication Number Publication Date
WO2020027619A1 true WO2020027619A1 (en) 2020-02-06

Family

ID=69231829

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/009659 WO2020027619A1 (en) 2018-08-02 2019-08-02 Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature

Country Status (2)

Country Link
KR (2) KR20220000391A (en)
WO (1) WO2020027619A1 (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738437A (en) * 2020-07-17 2020-10-02 支付宝(杭州)信息技术有限公司 Training method, text generation device and electronic equipment
CN112532439A (en) * 2020-11-24 2021-03-19 山东科技大学 Network flow prediction method based on attention multi-component space-time cross-domain neural network model
CN112530403A (en) * 2020-12-11 2021-03-19 上海交通大学 Voice conversion method and system based on semi-parallel corpus
CN112581963A (en) * 2020-11-23 2021-03-30 厦门快商通科技股份有限公司 Voice intention recognition method and system
CN112712789A (en) * 2020-12-21 2021-04-27 深圳市优必选科技股份有限公司 Cross-language audio conversion method and device, computer equipment and storage medium
CN112750419A (en) * 2020-12-31 2021-05-04 科大讯飞股份有限公司 Voice synthesis method and device, electronic equipment and storage medium
CN113096634A (en) * 2021-03-30 2021-07-09 平安科技(深圳)有限公司 Speech synthesis method, apparatus, server and storage medium
CN113470615A (en) * 2020-03-13 2021-10-01 微软技术许可有限责任公司 Cross-speaker style transfer speech synthesis
WO2022095743A1 (en) * 2020-11-03 2022-05-12 北京有竹居网络技术有限公司 Speech synthesis method and apparatus, storage medium, and electronic device
US20220230623A1 (en) * 2021-01-21 2022-07-21 Qualcomm Incorporated Synthesized speech generation
WO2022156654A1 (en) * 2021-01-22 2022-07-28 华为技术有限公司 Text data processing method and apparatus

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070090745A (en) * 2006-03-03 2007-09-06 인터내셔널 비지네스 머신즈 코포레이션 Communicating across voice and text channels with emotion preservation
KR20170107683A (en) * 2016-03-16 2017-09-26 한국전자통신연구원 Text-to-Speech Synthesis Method using Pitch Synchronization in Deep Learning Based Text-to-Speech Synthesis System
KR20180071029A (en) * 2016-12-19 2018-06-27 삼성전자주식회사 Method and apparatus for speech recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070090745A (en) * 2006-03-03 2007-09-06 인터내셔널 비지네스 머신즈 코포레이션 Communicating across voice and text channels with emotion preservation
KR20170107683A (en) * 2016-03-16 2017-09-26 한국전자통신연구원 Text-to-Speech Synthesis Method using Pitch Synchronization in Deep Learning Based Text-to-Speech Synthesis System
KR20180071029A (en) * 2016-12-19 2018-06-27 삼성전자주식회사 Method and apparatus for speech recognition

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
AI IMPLICATIONS IN SPEECH SYNTHESIS, 28 September 2018 (2018-09-28) *
LEE, YOUNGGUN: "The Past and Present of Speech Synthesis", REPUBLIC OF KOREA SEOUL HANSUNG SCIENCE HIGH SCHOOL, 25 May 2019 (2019-05-25), pages entire documents *
XIN WANG: "Investigation of Using Continuous Representation of Various Linguistic Units in Neural Network Based Text-to-Speech Synthesis", IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, vol. E99-D, no. 10, 5 October 2016 (2016-10-05) *
YOUNGGUN LEE, CONTROLLABILITY IN SPEECH SYNTHESIS, 11 June 2019 (2019-06-11) *
YOUNGGUN LEE, CONTROLLABILITY IN SPEECH SYNTHESIS, 31 July 2019 (2019-07-31) *
YOUNGGUN LEE, ROBUST AND FINE-GRAINED PROSODY CONTROL OF END-TO-END SPEECH SYNTHESIS, 15 October 2019 (2019-10-15), Retrieved from the Internet <URL:https://arxiv.org/abs/1811.02122v1> *
YOUNGGUN LEE, ROBUST AND FINE-GRAINED PROSODY CONTROL OF END-TO-END SPEECH SYNTHESIS, 16 May 2019 (2019-05-16) *
YOUNGGUN LEE, ROBUST AND FINE-GRAINED PROSODY CONTROL OF END-TO-END SPEECH SYNTHESIS, 18 February 2019 (2019-02-18), Retrieved from the Internet <URL:https://arxiv.org/abs/1811.02122v2> *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470615B (en) * 2020-03-13 2024-03-12 微软技术许可有限责任公司 Cross-speaker style transfer speech synthesis
CN113470615A (en) * 2020-03-13 2021-10-01 微软技术许可有限责任公司 Cross-speaker style transfer speech synthesis
CN111738437A (en) * 2020-07-17 2020-10-02 支付宝(杭州)信息技术有限公司 Training method, text generation device and electronic equipment
WO2022095743A1 (en) * 2020-11-03 2022-05-12 北京有竹居网络技术有限公司 Speech synthesis method and apparatus, storage medium, and electronic device
CN112581963A (en) * 2020-11-23 2021-03-30 厦门快商通科技股份有限公司 Voice intention recognition method and system
CN112581963B (en) * 2020-11-23 2024-02-20 厦门快商通科技股份有限公司 Voice intention recognition method and system
CN112532439A (en) * 2020-11-24 2021-03-19 山东科技大学 Network flow prediction method based on attention multi-component space-time cross-domain neural network model
CN112532439B (en) * 2020-11-24 2022-08-23 山东科技大学 Network flow prediction method based on attention multi-component space-time cross-domain neural network model
CN112530403B (en) * 2020-12-11 2022-08-26 上海交通大学 Voice conversion method and system based on semi-parallel corpus
CN112530403A (en) * 2020-12-11 2021-03-19 上海交通大学 Voice conversion method and system based on semi-parallel corpus
CN112712789A (en) * 2020-12-21 2021-04-27 深圳市优必选科技股份有限公司 Cross-language audio conversion method and device, computer equipment and storage medium
CN112712789B (en) * 2020-12-21 2024-05-03 深圳市优必选科技股份有限公司 Cross-language audio conversion method, device, computer equipment and storage medium
CN112750419A (en) * 2020-12-31 2021-05-04 科大讯飞股份有限公司 Voice synthesis method and device, electronic equipment and storage medium
CN112750419B (en) * 2020-12-31 2024-02-13 科大讯飞股份有限公司 Speech synthesis method, device, electronic equipment and storage medium
US20220230623A1 (en) * 2021-01-21 2022-07-21 Qualcomm Incorporated Synthesized speech generation
US11676571B2 (en) * 2021-01-21 2023-06-13 Qualcomm Incorporated Synthesized speech generation
WO2022156654A1 (en) * 2021-01-22 2022-07-28 华为技术有限公司 Text data processing method and apparatus
CN113096634A (en) * 2021-03-30 2021-07-09 平安科技(深圳)有限公司 Speech synthesis method, apparatus, server and storage medium
CN113096634B (en) * 2021-03-30 2024-03-01 平安科技(深圳)有限公司 Speech synthesis method, device, server and storage medium

Also Published As

Publication number Publication date
KR20220000391A (en) 2022-01-03
KR20230043084A (en) 2023-03-30

Similar Documents

Publication Publication Date Title
WO2020027619A1 (en) Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature
US11929059B2 (en) Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature
WO2019139430A1 (en) Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium
KR102265972B1 (en) Method and apparatus for voice translation using a multilingual text-to-speech synthesis model
WO2019139431A1 (en) Speech translation method and system using multilingual text-to-speech synthesis model
KR102668866B1 (en) Method and computer readable storage medium for performing text-to-speech synthesis using machine learning
WO2020190050A1 (en) Speech synthesis apparatus and method therefor
WO2020190054A1 (en) Speech synthesis apparatus and method therefor
WO2020145439A1 (en) Emotion information-based voice synthesis method and device
WO2019139428A1 (en) Multilingual text-to-speech synthesis method
WO2016209924A1 (en) Input speech quality matching
EP3818518A1 (en) Electronic apparatus and method for controlling thereof
WO2022045651A1 (en) Method and system for applying synthetic speech to speaker image
WO2020209647A1 (en) Method and system for generating synthetic speech for text through user interface
WO2023279976A1 (en) Speech synthesis method, apparatus, device, and storage medium
WO2022260432A1 (en) Method and system for generating composite speech by using style tag expressed in natural language
WO2021085661A1 (en) Intelligent voice recognition method and apparatus
Ajayi et al. Systematic review on speech recognition tools and techniques needed for speech application development
WO2022034982A1 (en) Method for performing synthetic speech generation operation on text
Sethi et al. Survey on automatic speech recognition systems for indic languages
Abdullaeva et al. Uzbek Speech synthesis using deep learning algorithms
Deekshitha et al. Prosodically guided phonetic engine
US20240363098A1 (en) Speech translation method and system using multilingual text-to-speech synthesis model
WO2022102987A1 (en) Electronic device and control method thereof
Louw Text-to-speech duration models for resource-scarce languages in neural architectures

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19843375

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19843375

Country of ref document: EP

Kind code of ref document: A1