WO2022031060A1 - 인공 신경망을 이용한 다화자 음성 합성 방법 및 장치 - Google Patents

인공 신경망을 이용한 다화자 음성 합성 방법 및 장치 Download PDF

Info

Publication number
WO2022031060A1
WO2022031060A1 PCT/KR2021/010307 KR2021010307W WO2022031060A1 WO 2022031060 A1 WO2022031060 A1 WO 2022031060A1 KR 2021010307 W KR2021010307 W KR 2021010307W WO 2022031060 A1 WO2022031060 A1 WO 2022031060A1
Authority
WO
WIPO (PCT)
Prior art keywords
speaker
neural network
vector
voice
artificial neural
Prior art date
Application number
PCT/KR2021/010307
Other languages
English (en)
French (fr)
Inventor
장준혁
이재욱
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to US17/596,037 priority Critical patent/US11908447B2/en
Publication of WO2022031060A1 publication Critical patent/WO2022031060A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Definitions

  • the present invention relates to a method and apparatus for synthesizing a multi-speaker voice using an artificial neural network, and more particularly, to a technology for quickly and accurately generating a new speaker's voice learning model using a previously learned user's voice synthesis model. It is an invention.
  • Voice is the most natural means of communication and information transfer, and it is a meaningful sound made by humans as a means of realizing language.
  • speech information processing technologies When such speech information processing technologies are broadly classified, they may be classified into categories such as speech recognition, speech synthesis, speaker identification and verification, and speech coding.
  • Speech recognition is a technology that recognizes the spoken voice and converts it into a character string.
  • Speech synthesis is a technology that converts a character string into an original voice using data or parameters obtained from voice analysis. It is a technique for estimating or authenticating, and voice coding is a technique for effectively compressing and encoding a voice signal.
  • a text-to-speech (TTS) system is a technology for generating a voice for an arbitrary sentence using a small synthesized unit voice and language processing.
  • TTS text-to-speech
  • the input sentence is matched with a combination of appropriate compound units, and the appropriate intonation and duration are extracted from the sentence to determine the prosody of the synthesized sound.
  • speech is synthesized by the combination of phonemes and syllables, which are the basic units of language, there is no restriction on the target vocabulary for synthesis, and it is mainly applied to TTS (Text-to-Speech) devices and CTS (Context-to-Speech) devices.
  • Speech synthesis technology is a technology for generating speech data from sentence data, and generally follows the following three steps.
  • sentence data analysis stage phoneme data and duration data for each phoneme are analyzed from sentence data using rule-based technology.
  • the second step is a step of synthesizing speech feature vectors by determining which speech data is closest to the input phoneme data using a pre-trained acoustic model based on the phoneme data.
  • the probabilistic model for each phoneme used is called an acoustic model.
  • the third step is to synthesize actual speech based on speech feature vectors, and a model that performs this task is called a vocoder.
  • the quality of the synthesized voice generated according to the speech synthesis technology can be evaluated in two scales: naturalness and sound quality.
  • the naturalness of the two scales is greatly influenced by the first of the three levels.
  • the sound quality is greatly affected by the acoustic model and the performance of the vocoder. Since the acoustic model greatly influences the sound quality, many new algorithms have been proposed.
  • a speech synthesis model using an artificial neural network replaces the acoustic model part with an artificial neural network, and the artificial neural network may synthesize speech parameters based on analyzed sentence data.
  • learning is done through deep learning without human intervention is called End-to-End (E2E).
  • E2E speech synthesis models (hereinafter, speech synthesis models) that generate speech from text through end-to-end learning have been proposed.
  • the multi-speaker speech synthesis model which is one of the speech synthesis models, refers to a speech synthesis model capable of generating the voices of several people from one model.
  • the multi-speaker speech synthesis model can be implemented by changing the acoustic model.
  • an acoustic model for each speaker is constructed using voice data for each speaker, and voices are synthesized for each speaker by changing the acoustic model. Since the acoustic model synthesizes the speech feature vector, it is possible to synthesize the speech feature vector for each speaker that reflects each speech characteristic through the replacement of the acoustic model.
  • the conventional multi-speaker speech synthesis model has the advantage that it is possible to generate voices using the voices of several speakers, but also has a disadvantage in that it requires a lot of data to learn multiple speakers. If the multi-speaker speech synthesis model is to be trained with the voices of desired speakers, tens of minutes of speech data and texts of the speech are needed for each speaker. Collecting such large-capacity data is problematic in terms of time and money, and in particular, it is difficult for individuals or small businesses to do so in various circumstances.
  • the multi-speaker speech synthesis method and system using an artificial neural network is an invention designed to solve the above-described problems.
  • the purpose of this is to promote efficiency in synthesizing the voices of multiple users by enabling
  • the present invention has the characteristics most similar to the new user's voice, and at the same time, by learning about the new user's voice based on the already learned user's voice learning model, the new user's voice can be obtained with relatively little data. You can synthesize speech.
  • a multi-speaker speech synthesis method using an artificial neural network includes generating and storing a voice learning model for a plurality of users by learning a synthetic artificial neural network of a speech synthesis model based on voice data of a plurality of users.
  • step generating a speaker vector for a new unlearned user and the plurality of previously learned users using a speaker recognition model, according to a preset criterion among the speaker vectors of the plurality of pre-trained users determining a speaker vector having the most similar relationship to the new user's speaker vector, and using the determined user's speaker embedding value of the determined speaker vector as an initial value, based on the new user's speaker data, synthetic artificial intelligence of the speech synthesis model It may include training the neural network to generate and learn the speaker embedding of the new user.
  • a value calculated by performing an inner product between the speaker vector of the new user and the speaker vectors of a plurality of previously learned users It may include making a decision based on
  • the determining of the speaker vector having the most similar relationship according to the preset criterion may include using the user's speaker vector calculated as the largest value among the calculated inner product values as the speaker vector having the most similar relationship to the new user's speaker vector. It may include the step of determining.
  • the generating of the new user's voice learning model may include learning the synthetic artificial neural network of the voice synthesis model only for a preset time to prevent overfitting.
  • the preset time may include a range of 10 seconds to 60 seconds.
  • the generating of the speaker vector may include using the user's voice signal as an input value and generating using an artificial neural network of a speaker recognition model.
  • the multi-speaker speech synthesis method using the artificial neural network may further include converting a Mel-scale spectrogram calculated through the synthetic artificial neural network of the speech synthesis model into a voice through a Griffin-Lim algorithm. have.
  • the synthetic artificial neural network model of the speech synthesis model may include a Tacotron algorithm.
  • a multi-speaker speech synthesis apparatus using an artificial neural network is a speech synthesizer configured to generate a voice learning model for a plurality of users by learning a synthetic artificial neural network of a speech synthesis model based on voice data of a plurality of users.
  • a storage unit that stores information on the generated voice learning model, a speaker vector generator that generates speaker vectors for a new user who has not been trained using the speaker recognition model and the plurality of users who have already been trained, and the and a similarity vector determiner configured to determine a speaker vector having the most similar relationship to the new user's speaker vector according to a preset criterion from among the previously learned speaker vectors of a plurality of users, wherein the speech synthesizing unit comprises:
  • the new user's speaker embedding may be generated and learned by setting the user's speaker embedding value as an initial value and learning the synthetic artificial neural network of the speech synthesis model based on the new user's speaker data.
  • the similarity vector determiner is configured to determine a relationship most similar to the speaker vector of the new user based on a value calculated by performing an inner product of the speaker vector of the new user and the speaker vectors of a plurality of pre-learned users. branch can determine the speaker vector.
  • the similarity vector determiner may determine the user's speaker vector calculated as the largest value among the calculated inner product values as the speaker vector having the most similar relationship to the new user's speaker vector.
  • the speech synthesizing unit may perform learning of the synthetic artificial neural network of the speech model only for a preset time to prevent overfitting.
  • the preset time may include a range of 10 seconds to 60 seconds.
  • the speaker vector generator may use the user's voice signal as an input value and generate it using an artificial neural network of a speaker recognition model.
  • a multi-speaker speech synthesis apparatus using an artificial neural network trains a synthetic artificial neural network of a speech synthesis model based on the speech data of a plurality of users, and transmits information on the speech learning model for the plurality of users to an external server.
  • a communication unit that receives from the communicator, a speaker vector generator that generates a speaker vector for a new user who has not been trained using a speaker recognition model and a speaker vector for the plurality of previously learned users, and among the previously learned speaker vectors of the plurality of users and a similarity vector determiner that determines a speaker vector having the most similar relationship to the new user's speaker vector according to a preset criterion, wherein the speech synthesizing unit sets the user's speaker embedding value of the determined speaker vector as an initial value,
  • the new user's speaker embedding may be generated and learned by training the synthetic artificial neural network of the speech synthesis model based on the user's speaker data.
  • the voice synthesis method and apparatus using an artificial neural network has the most similar characteristics of the new user's voice and performs learning on the new user's voice based on the already learned user's voice learning model. , there is an advantage of synthesizing a new user's voice with relatively little data, unlike the prior art.
  • the method and apparatus for synthesizing speech using an artificial neural network learn by setting the initial value of the speaker embedding of a new speaker as the speaker embedding of the speaker with the most similar voice when learning using the artificial neural network. Therefore, there is an effect of preventing overfitting while performing learning with a small amount of learning data.
  • FIG. 1 is a block diagram illustrating some components of a multi-speaker speech synthesis system using an artificial neural network according to an embodiment.
  • FIG. 2 is a block diagram illustrating some components of an apparatus for synthesizing a multi-speaker voice using an artificial neural network according to an embodiment.
  • FIG. 3 is a diagram for explaining a voice learning model according to an embodiment.
  • FIG. 4 is a diagram for explaining a Tacotron2 algorithm applied to a voice learning model, according to an embodiment.
  • FIG. 5 is a diagram for explaining a speaker vector generator, according to an embodiment.
  • FIG. 6 is a flowchart illustrating an operation sequence of an apparatus for synthesizing a multi-speaker voice using an artificial neural network according to an exemplary embodiment.
  • FIG. 1 is a block diagram illustrating some components of a multi-speaker speech synthesis system 10 using an artificial neural network according to an embodiment.
  • the multi-speaker speech synthesis apparatus 100 , the user terminal 200 , and the server 300 communicate with each other through a network 400 . may be connected.
  • the multi-speaker speech synthesis apparatus 100 , the user terminal 200 , and the server 300 using an artificial neural network may be connected to each other in a 5G communication environment.
  • the multi-speaker speech synthesizing apparatus 100 using an artificial neural network will be referred to as the speech synthesizing apparatus 100 .
  • the speech synthesis apparatus 100 is a device that generates and outputs the input target text as the voice of a specific user, and is not only a device for outputting voice, but also includes devices necessary to perform various artificial intelligence algorithms, and uses an artificial neural network. Data necessary for operation may be stored.
  • the speech synthesis device 100 is a device capable of outputting a user's voice synthesized by learning and inference by an artificial neural network module, and is a server, a PC, a tablet PC, a smart phone, and a smart watch. watch), a smart glass (smart glass), a wearable device (wearable device), etc. may be implemented as a device, it may be implemented as a specific application or program.
  • the user terminal 200 After accessing a voice synthesis application or a voice synthesis site, the user terminal 200 is capable of monitoring status information of the voice synthesis apparatus 100 or driving or controlling the multi-talker voice synthesis apparatus 100 through an authentication process. service can be provided.
  • the user terminal 200 which has completed the authentication process, may select, for example, a voice learning model for generating text and voice for synthesizing a voice, and the voice synthesis apparatus 100 based on the selected target text and voice learning model. It is possible to receive the audio result output by the user terminal 200, which has completed the authentication process, may select, for example, a voice learning model for generating text and voice for synthesizing a voice, and the voice synthesis apparatus 100 based on the selected target text and voice learning model. It is possible to receive the audio result output by the
  • the user terminal 200 is a desktop computer, a smartphone, a notebook computer, a tablet PC, a smart TV, a mobile phone, a personal digital assistant (PDA), a laptop, a media player, a micro server, a global positioning (GPS) operated by a user. system) devices, e-book terminals, digital broadcast terminals, navigation devices, kiosks, MP3 players, digital cameras, home appliances, and other mobile or non-mobile computing devices, but are not limited thereto.
  • the user terminal 200 may be a wearable terminal such as a watch, glasses, a hair band, and a ring having a communication function and a data processing function.
  • the user terminal 200 is not limited to the above description, and a terminal capable of web browsing may be borrowed without limitation.
  • the server 300 may be a database server that provides big data necessary for applying various artificial intelligence algorithms and data for operating the speech synthesis apparatus 100 .
  • the server 300 may include a web server or an application server for remotely controlling the operation of the voice synthesis apparatus 100 using a voice synthesis application installed in the user terminal 200 or a voice synthesis web browser.
  • AI artificial intelligence
  • artificial intelligence does not exist by itself, but is directly or indirectly related to other fields of computer science.
  • attempts are being made to introduce artificial intelligence elements in various fields of information technology and use them to solve problems in that field.
  • Machine learning is a branch of artificial intelligence, which can include fields of study that give computers the ability to learn without explicit programming.
  • machine learning can be said to be a technology to study and build a system and algorithms for learning based on empirical data, making predictions, and improving its own performance.
  • Algorithms in machine learning can take the approach of building specific models to make predictions or decisions based on input data, rather than executing rigidly set static program instructions.
  • the server 300 may transmit/receive signals to and from the artificial speech synthesis apparatus 100 and/or the user terminal 200 .
  • the server 300 may transmit the received information to the speech synthesis apparatus 100 after receiving the text to be converted into the received voice from the user terminal 200 and information against the selected voice synthesis model.
  • the server 300 may generate a voice using an artificial neural network based on the text and voice synthesis model selected by the user terminal 200 , and may transmit information about the generated voice to the voice synthesis apparatus 100 . .
  • the server 300 may selectively transmit only necessary data to the voice synthesizer 100 so that the multi-speaker voice synthesizer 100 can synthesize the voice. That is, the user's voice synthesis and artificial intelligence processor may be performed by the server 300 or may be performed by the voice synthesis apparatus 100 .
  • the network 400 may serve to connect the multi-speaker speech synthesis apparatus 100 using an artificial neural network, the user terminal 200, and the server 300 .
  • the network 400 is, for example, a wired network such as local area networks (LANs), wide area networks (WANs), metropolitan area networks (MANs), and integrated service digital networks (ISDNs), wireless LANs, CDMA, Bluetooth, and satellite communication. It may cover a wireless network such as, but the scope of the present invention is not limited thereto. Also, the network 400 may transmit/receive information using short-distance communication and/or long-distance communication.
  • the short-distance communication may include Bluetooth, radio frequency identification (RFID), infrared data association (IrDA), ultra-wideband (UWB), ZigBee, and wireless fidelity (Wi-Fi) technologies.
  • Communication may include code division multiple access (CDMA), frequency division multiple access (FDMA), time division multiple access (TDMA), orthogonal frequency division multiple access (OFDMA), single carrier frequency division multiple access (SC-FDMA) technology.
  • CDMA code division multiple access
  • FDMA frequency division multiple access
  • TDMA time division multiple access
  • OFDMA orthogonal frequency division multiple access
  • SC-FDMA single carrier frequency division multiple access
  • Network 400 may include connections of network elements such as hubs, bridges, routers, switches, and gateways.
  • Network 400 may include one or more connected networks, eg, multiple network environments, including public networks such as the Internet and private networks such as secure enterprise private networks. Access to network 400 may be provided via one or more wired or wireless access networks.
  • the network 400 may support an Internet of Things (IoT) network and/or 5G communication that exchanges and processes information between distributed components such as things.
  • IoT Internet of Things
  • FIG. 2 is a block diagram illustrating some components of an apparatus for synthesizing a multi-speaker voice using an artificial neural network according to an embodiment
  • FIG. 3 is a diagram for explaining a voice learning model according to an embodiment
  • 4 is a diagram for explaining a Tacotron2 algorithm applied to a voice learning model, according to an embodiment
  • FIG. 5 is a diagram for explaining a speaker vector generator, according to an embodiment.
  • the speech synthesis apparatus 100 includes a speaker vector generator 110 , a similar vector determiner 120 , a speech synthesizer 130 , a storage 140 , a microphone 150 , It may include a communication unit 160 and an input unit 170 , and the like.
  • the communication unit 160 may receive various commands for voice synthesis while performing communication with the user terminal 200 and the server 300 , and may receive various information necessary for voice synthesis from the server 300 . have.
  • the communication unit 160 is a long-term evolution (LTE), LTE Advance (LTE-A), CDMA (code division multiple access), WCDMA (wideband CDMA), WiBro (Wireless BroaDBand), WiFi (wireless fidelity), Bluetooth (Bluetooth), NFC (near field communication), GPS (Global Positioning System) or GNSS (global navigation satellite system) according to a method such as wireless communication can be performed.
  • the communication unit 110 may perform wired communication according to a method such as universal serial bus (USB), high definition multimedia interface (HDMI), recommended standard232 (RS-232), or plain old telephone service (POTS). have.
  • USB universal serial bus
  • HDMI high definition multimedia interface
  • RS-232 recommended standard232
  • POTS plain old telephone service
  • the voice synthesizer 130 may synthesize text input from the input unit 170 into voice. Specifically, when text is input, the speech synthesizing unit 130 may convert the text into a natural synthesized sound and output it through a process of interpreting the input text as a language and synthesizing it into a voice, and this process is a text-to-voice (TTS) process. This can be done through speech).
  • TTS text-to-voice
  • the speech synthesis unit 130 converts the verification target text into a preprocessed speech through three steps of language processing, prosody generation, and waveform synthesis. It is possible to analyze the grammatical structure of the text to be verified (language processing step), to generate a prosody like a human reads by the analyzed grammatical structure, and to generate a synthesized sound by collecting basic units according to the generated prosody.
  • the speech synthesis unit 130 in an embodiment converts text into a speech spectrogram using a tacotron2 algorithm, and converts the speech spectrogram to obtain a voice 60 can be printed out.
  • the tacotron algorithm is a 'sequence-to-sequence' model using a recurrent neural network (RNN) encoder-decoder.
  • RNN recurrent neural network
  • a decoder 133 that synthesizes speech from the text feature vector output from the encoder 131 and the encoder 131, and a vocoder 134 that converts a Mel Spectrogram output from the decoder 133 into speech may include
  • the encoder 131 decomposes the input text 10 into character units and outputs a character embedding 20 in the form of a vector, and the output character embedding 20 passes through a neural network. It may be output as a text embedding vector (30, text encoding vector).
  • a neural network used in the encoder a neural network in which a CBHG module, that is, a convolutional neural network, a highway network, and a bi-directional recurrent neural network, is sequentially stacked may be used. .
  • the weighted sum of text embedding vectors (30, text encoding vectors) and the last decoder output value of the previous t-1 time step may be used as an input value of the decoder network at the t time step.
  • the output value of the decoder 133 is a mel-scale spectrogram (40, mel-scale spectrogram), and r vectors may be output for each starting stage. Only the last vector among the r vectors can be used as the decoder input value of the next time step.
  • mel-scale spectrogram 40 is a frequency domain and divides the entire frequency range by Log-Scale.
  • frequencies constituting an actual human voice have a characteristic of being widely distributed in a low frequency range. Therefore, when the frequency range is divided by log-scale, the low frequencies are finely divided, so that the frequency characteristics of the human voice can be well represented. do.
  • Mel-scale spectrogram vectors 40a, 40b, and 40c generated r at each time step are combined in the decoder time step direction to form a Mel-scale spectrogram of the entire synthesized speech, and this spectrogram forms an additional neural network. can be converted into a linear-scale spectrogram 50 through
  • the linear-scale spectrogram 50 is converted into a wave form through the 'Griffin-Lim reconstruction' algorithm, and when this is used as a ' ⁇ .wav' file, a voice 60 file may be generated.
  • the attention unit 132 may play a role of determining whether to generate the mel scale spectrogram 40 by reflecting each letter several times through the text embedding vector 30 output from the encoder 131 .
  • the decoder 134 when converting text to speech, the length of the speech corresponding to each text is different each time, so the length of the Mel-scale spectrogram generated for each character in the process of converting text to speech is different. Therefore, when the decoder 134 generates the mel scale spectrogram 40, rather than viewing the entire text and sequentially outputting the mel scale spectrogram 40, the output mel scale spectrogram 40 is in a certain character. It is most efficient to determine whether it is applicable and to generate the mel scale spectrogram 40 by largely reflecting the text embedding vector 30 output from the encoder 131 for the character.
  • the attention unit 132 plays a role in determining whether to generate the mel scale spectrogram 40 by reflecting each letter several times through the text embedding vector 30 output from the encoder 131 using the attention algorithm can do. That is, the attention unit 132 assigns a weight to the text embedding vector 30 and inputs it to the decoder 134 . Thereafter, the decoder 134 may generate the mel-scale spectrogram 40 based on the input value.
  • Various information about the voice information for a specific user generated by the voice synthesizer 130 and the voice synthesis model for the specific user learned by the artificial neural network in the voice synthesizer 130 are stored in the storage 140 . This information can be used as basic information when creating a voice learning model for a new speaker.
  • the storage unit 140 may store various data and may include volatile and/or non-volatile memory.
  • Such a multi-speaker speech synthesis model has the advantage of being able to generate voices with the voices of several speakers, but requires a lot of data to learn multiple speakers. If the multi-speaker speech synthesis model is to be trained with the voices of desired speakers, tens of minutes of speech data for each speaker and corresponding speech text are required. Collecting such large amounts of data is problematic in time and money, and it is particularly difficult for individuals or small businesses to do so.
  • the voice synthesis method and apparatus 100 is an invention designed to solve this problem, and when learning a voice learning model for a new speaker, learning can be performed with relatively little speaker data. It aims to increase efficiency in synthesizing the voices of multiple users. Learn more below.
  • a general multi-speaker speech synthesis model (eg DeepVoice2) consists of a very large amount of neural networks, of which the recurrent neural network is the main one. That is, the recurrent neural network has an output value as an input value again, and has a neural network structure that repeats this several times to generate an output value.
  • This recurrent neural network generates an appropriate output value at each turn through the method in which the hidden state is updated whenever this process is repeated several times. If the initial hidden state of the recurrent neural network is speaker embedding, speech can be synthesized with the speaker's voice corresponding to the speaker embedding.
  • the artificial neural network When generating voices from the voices of multiple speakers, the artificial neural network does not perform different operations for multiple speakers. That is, while performing the same operation, voices are generated with different voices by the numbers constituting the speaker embedding. Therefore, in order to generate similar voices, it can be concluded that the values of speaker embeddings are similar.
  • the speaker embeddings of the two speakers will be composed of significantly different values, and the speaker embedding values of the voices of the two speakers with similar characteristics are similar. Therefore, when learning a new speaker's voice, if you start learning from the already learned speaker embedding value while having a similar voice to the new speaker, you can get the speaker embedding value suitable for the new speaker only with a relatively small number of times. can Therefore, if the voice is synthesized based on this, there is an advantage in that it is possible to quickly synthesize a voice for a new speaker with relatively little data.
  • a method of determining an already-learned user who has the most similar characteristics to a new user who is trying to synthesize a voice will be described again with reference to FIGS. 2 and 5 .
  • the speaker vector generator 110 may generate the speaker vector 80 .
  • the speaker vector generator 110 receives the user's voice signal 70 input from the microphone 150 and applies it to a speaker recognition algorithm to generate a speaker vector containing information about the characteristics of the speaker's voice. can create That is, the speaker vector 80 means a vector having a different value for each speaker, and if this is input together for each speaker into the single-speaker speech synthesis model, the single-speaker speech synthesis model can classify and learn multiple speakers.
  • the speaker vector generator 110 converts the input voice signal 70 into a Mel scale spectrogram, divides it into predetermined sizes, and inputs it to the cyclic neural network of the speaker recognition model to generate a speaker vector. . After several speaker vectors are generated from one voice signal, the average value of the speaker vectors is the final speaker vector 80 for the input voice signal.
  • speaker recognition algorithm borrowed from the speaker vector generator 110 various types of algorithms can be used.
  • the speaker recognition models Li Wan, Quan Wang, Alan Papir, Ignacio Lopez
  • Moreno, Generalized End-to-End Loss for Speaker Verification, ICASSP 2018 can be borrowed.
  • the similarity vector determiner 120 may determine the degree of similarity of voices between users based on the speaker vector 80 generated by the speaker vector generator 110 rk. Specifically, since the speaker vector 80 is expressed as a vector, it can be determined through cosine similarity that can express a close relationship between vectors. Cosine similarity can be expressed as the following equation by using the inner product of the vector and the absolute value of the vector.
  • the similarity vector determiner 120 may dot product between the two vectors using the above equation, and then calculate the similarity between the two vectors based on the values.
  • the will vector determiner 120 uses the aforementioned speaker recognition model to perform a dot product on the speaker vector of the user who is trying to synthesize a new voice and the speaker vectors of the already learned users, respectively, By calculating the cosine similarity value, the speaker with the highest value can be found. Cosine similarity value will be calculated within the range [0, 1]. Characteristically, the closer to 1, the more similar the voices of each other, and the closer to 0, the less similar the voices. Therefore, the fact that the cosine similarity value with a specific user is calculated the highest means that the speaker has the most similar speaker embedding to the new speaker's speaker embedding.
  • the voice synthesizer 130 uses the determined user's voice learning model. Thus, learning for new users can be performed.
  • the speech synthesizing unit 130 sets the determined speaker embedding value of the new speaker as the initial speaker embedding value of the new speaker and then learns can be performed.
  • the present invention learns about the new user's voice based on the already learned voice learning model that has the most similar characteristics of the new user's voice. There is an advantage of being able to synthesize speech.
  • the learning process of a general deep learning model learning proceeds to predict a value similar to the actual answer. That is, the output value according to the input value is learned through the learning data. Therefore, considering many cases, the more it learns, the better the performance, so the learning data is composed of data with various characteristics so that various variables can be considered. This is because it can be robust against new data only when it is optimized for various characteristics. However, if the characteristics of the training data are not diverse, it is optimized for a small number of characteristics, which makes it difficult to respond to new data, and this is called overfitting. To prevent this problem from occurring, the speech synthesis model is also trained with multiple sentences reflecting various characteristics, and it is common to learn using data of several tens of minutes or hours.
  • the speech synthesizing apparatus performs learning with only a small amount of data for a new speaker, the overfitting phenomenon is likely to occur as the number of times of learning increases due to the small amount of data. If the speech synthesis apparatus 100 according to the present invention performs learning without considering the speaker embedding of another speaker, an overfitting problem tends to occur due to a small amount of data.
  • speaker embedding suitable for a new speaker is implemented In order to be able to generate it, since learning is performed using the initial value of the speaker embedding of a new speaker and the speaker embedding of the speaker with the most similar voice, overfitting does not occur even when learning is performed with a small amount of learning data. There is an advantage that it is possible to generate a new speaker's voice.
  • FIG. 6 is a flowchart illustrating an operation sequence of an apparatus for synthesizing a multi-speaker voice using an artificial neural network according to an exemplary embodiment.
  • the speech synthesis apparatus 100 in order to generate a speech synthesis model for a new speaker, the speech synthesis apparatus 100 generates speaker vectors for a new user who has not been trained using the speaker recognition model and a plurality of previously learned users. can create (S10, S20)
  • the speech synthesizing apparatus 100 may determine a speaker vector having the most similar relationship to the new user's speaker vector according to a preset criterion from among the previously learned speaker vectors of a plurality of users. (S30)
  • the user having the most similar voice to the new speaker's voice may be determined based on the inner product of the new user's speaker vector and the previously learned speaker vectors of a plurality of users.
  • the speech synthesis apparatus 100 uses the determined speaker embedding value of the user of the speaker vector as an initial value, and generates a new user speaker embedding by learning a synthetic artificial neural network of the speech synthesis model based on the speaker data of the new user. It is possible to synthesize the voice for a new user by learning and learning. (S40)
  • the voice synthesis method and apparatus using an artificial neural network has the most similar characteristics of the new user's voice and performs learning on the new user's voice based on the already learned user's voice learning model. , there is an advantage of synthesizing a new user's voice with relatively little data, unlike the prior art.
  • the method and apparatus for synthesizing speech using an artificial neural network learn by setting the initial value of the speaker embedding of a new speaker as the speaker embedding of the speaker with the most similar voice when learning using the artificial neural network. Therefore, there is an effect of preventing overfitting while performing learning with a small amount of learning data.
  • components, units, modules, components, etc. described as " ⁇ " described in this specification may be implemented together or individually as interoperable logic devices. Depictions of different features of modules, units, etc. are intended to emphasize different functional embodiments, and do not necessarily imply that they must be realized by separate hardware or software components. Rather, functionality associated with one or more modules or units may be performed by separate hardware or software components or integrated within common or separate hardware or software components.
  • a computer program (also known as a program, software, software application, script or code) may be written in any form of any programming language, including compiled or interpreted language or a priori or procedural language, and may be a stand-alone program or module; It can be deployed in any form, including components, subroutines, or other units suitable for use in a computer environment.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Telephonic Communication Services (AREA)

Abstract

일 실시예에 따른 인공 신경망을 이용한 다화자 음성 합성 방법은, 복수의 사용자의 음성 데이터를 기초로 음성 합성 모델의 합성 인공 신경망을 학습시켜 상기 복수의 사용자들에 대한 음성학습모델을 생성하고 저장하는 단계, 화자인식모델을 이용하여 학습되지 않은 새로운 사용자 및 기 학습되어 있는 상기 복수의 사용자들에 대한 화자벡터를 생성하는 단계, 상기 기 학습되어 있는 복수의 사용자들의 화자벡터 중에서 미리 설정된 기준에 따라 상기 새로운 사용자의 화자벡터와 가장 유사한 관계를 가지는 화자벡터를 결정하는 단계, 및 상기 결정된 화자벡터의 사용자의 화자임베딩 값을 초기값으로 하고, 새로운 사용자의 화자 데이터를 기초로 상기 음성 합성 모델의 합성 인공 신경망을 학습시켜 상기 새로운 사용자의 화자 임베딩을 생성하고 학습하는 단계를 포함할 수 있다.

Description

인공 신경망을 이용한 다화자 음성 합성 방법 및 장치
본 발명은 인공 신경망을 이용한 다화자 음성 합성 방법 및 장치에 관한 발명으로서, 보다 구체적으로는 기존에 학습되어 있는 사용자의 음성합성모델을 이용하여 새로운 화자의 음성학습모델을 빠르고 정확하게 생성하는 기술에 관한 발명이다.
음성은 인간의 가장 자연스러운 의사 소통 수단이면서 정보 전달 수단이자, 언어를 구현하는 수단으로서 인간이 내는 의미 있는 소리이다.
기술이 발전함에 따라 인간과 기계 사이의 음성을 통한 통신 구현에 대한 연구가 계속 이루어지고 있다. 더욱이 최근 음성 정보를 효과적으로 처리하기 위한 음성 정보 처리 기술(speech information technology;SIT) 분야가 괄목할 만한 발전을 이룩함에 따라 실생활에서도 적용이 되고 있다.
이러한 음성 정보 처리 기술을 크게 분류하면, 음성 인식(speech recognition), 음성 합성(speech synthesis), 화자 인증(speaker identification and verification), 음성 코딩(speech coding) 등의 카테고리로 분류될 수 있다.
음성 인식은 발화된 음성을 인식하여 문자열로 변환하는 기술이고, 음성 합성은 문자열을 음성 분석에서 얻어진 데이터나 파라미터를 이용하여 원래의 음성으로 변환하는 기술이며, 화자 인증은 발화된 음성을 통하여 발화자를 추정하 거나 인증하는 기술이고, 음성 코딩은 음성 신호를 효과적으로 압축하여 부호화하는 기술이다.
이 중에서, 음성합성기술의 발전 과정을 살펴보면, 오늘날에는 컴퓨터의 급속한 발달에 힘입어, 컴퓨터 기반 음성 합성 방식이 음성 합성 방식의 주류를 이루게 되었으며, 음성합성 기술은 실제 응용방식에 따라 크게 두 가지로 구분될 수 있다. 제한된 어휘 개수와 구문구조의 문장만을 합성하는 제한 어휘합성 또는 자동음성응답시스템(ARS; Automatic Response System)과 임의의 문장을 입력 받아 음성 합성하는 무제한 어휘합성 또는 텍스트-음성 변환(TTS; Text-to-Speech) 시스템이 있다.
그 중, 텍스트-음성 변환(TTS) 시스템은 작은 합성 단위음성과 언어 처리를 이용하여 임의의 문장에 대한 음성을 생성하는 기술이다. 언어 처리를 이용하여 입력된 문장을 적당한 합성 단위의 조합으로 대응시키고, 문장으로부터 적당한 억양과 지속시간을 추출하여 합성음의 운율을 결정한다. 언어의 기본 단위인 음소, 음절 등의 조합에 의해 음성을 합성해 내므로 합성 대상 어휘에 제한이 없으며 주로 TTS(Text-to-Speech) 장치 및 CTS(Context-to-Speech) 장치 등에 적용된다.
음성 합성 기술은 문장 데이터로부터 음성 데이터를 생성해내는 기술로, 일반적으로 다음과 같은 세 단계를 따른다.
첫 번째 단계인 문장 데이터 분석 단계에서는 규칙 기반 기술을 이용하여 문장 데이터에서 음소 데이터와 각 음소별 지속시간 데이터를 분석한다.
두 번째 단계는 음소 데이터를 바탕으로 미리 학습된 음향 모델을 이용하여 입력된 음소 데이터가 어떤 음성 데이터에 가장 가까운지 판단하여, 이로부터 음성 특징벡터를 합성하는 단계이다. 이 때, 사용되는 각 음소별 확률 모델을 음향 모델이라고 부른다.
세 번째 단계는 음성 특징벡터를 바탕으로 실제 음성을 합성하는 단계로, 이러한 작업을 수행 하는 모델을 보코더(Vocoder)라고 한다.
음성 합성 기술에 따라 생성된 합성 음성의 품질은 자연스러움과 음질 두 가지 척도로 평가할 수 있다. 여기서, 두 가지 척도 중 자연스러움은 세 단계 중 첫 번째 단계의 영향을 크게 받는다. 음질은 음향 모델과 보코더의 성능에 영향을 크게 받는다. 음향 모델은 음질을 크게 좌우하기 때문에 다양한 알고리즘이 새롭게 많이 제시되고 있다.
특히, 인공 지능 기술이 발달함에 따라 인공 신경망 기반 알고리즘은 기존 모델 대비 큰 성능 향상을 보여주고 있다. 일반적으로 인공 신경망을 이용한 음성 합성 모델은 음향 모델 부분을 인공 신경망으로 대신하여, 인공 신경망이 분석된 문장 데이터를 기반으로 음성 파라미터를 합성할 수 있다. 텍스트에서 음성으로 변환하는 과정에서, 사람이 개입하지 않고 모든 것을 딥러닝을 통해 학습이 이루어지는 것을 End-to-End(E2E)라고 한다. End-to-End 학습을 통해, 텍스트로부터 음성을 생성하는 E2E 음성합성모델(이하 음성합성모델)들이 많이 제안되고 있다.
음성합성모델 중 하나인 다화자 음성합성모델은 하나의 모델에서 여러 사람의 목소리를 생성하는 것이 가능한 음성합성모델을 의미한다.
다화자 음성 합성 모델은 음향 모델의 변경을 통해 구현될 수 있다. 먼저, 각 화자에 대한 음성 데이터를 이용하여 화자별 음향 모델을 구성하고, 음향 모델의 변경을 통해 화자별로 음성을 합성한다. 음향 모델이 음성 특징벡터를 합성하기 때문에 음향 모델의 교체를 통해 각 음성 특성을 반영하는 화자별 음성 특징벡터를 합성할 수 있다.
그러나, 종래의 다화자 음성합성모델은 여러 명의 화자의 목소리로, 음성을 생성하는 것이 가능하다는 장점이 있지만, 여러 화자를 학습시키기 위한 데이터가 많이 필요하다는 단점 또한 존재한다. 만약, 원하는 화자들의 목소리로 다화자 음성합성모델을 학습시키려면, 각 화자별로 수 십분 분량의 음성데이터와 그 음성의 텍스트가 필요하다. 이와 같은 대용량 데이터를 수집하는 것은 시간과 금전적으로 많은 문제가 발생하며, 특히 개인이나 소규모 기업에서 이를 실시하는 것은 여러 환경상 많은 어려움이 존재하였다.
따라서, 일 실시예에 따른 인공 신경망을 이용한 다화자 음성 합성 방법 및 시스템은 앞서 설명한 문제점을 해결하기 위해 고안된 발명으로서, 새로운 화자에 대해 음성학습모델을 학습하고 생성할 때, 비교적 적은 화자 데이터만으로 학습을 수행할 수 있도록 하여 여러 사용자의 음성을 합성하는데 효율성을 도모하는데 그 목적이 있다.
구체적으로, 본 발명은 새로운 사용자의 목소리와 가장 유사한 특징을 가지고 있으면서, 동시에 이미 학습이 되어 있는 사용자의 음성학습모델을 기초로, 새로운 사용자의 목소리에 대해 학습을 함으로써, 비교적 적은 데이터만으로는 새로운 사용자의 음성을 합성할 수 있다.
일 실시예에 따른 인공 신경망을 이용한 다화자 음성 합성 방법은, 복수의 사용자의 음성 데이터를 기초로 음성 합성 모델의 합성 인공 신경망을 학습시켜 상기 복수의 사용자들에 대한 음성학습모델을 생성하고 저장하는 단계, 화자인식모델을 이용하여 학습되지 않은 새로운 사용자 및 기 학습되어 있는 상기 복수의 사용자들에 대한 화자벡터를 생성하는 단계, 상기 기 학습되어 있는 복수의 사용자들의 화자벡터 중에서 미리 설정된 기준에 따라 상기 새로운 사용자의 화자벡터와 가장 유사한 관계를 가지는 화자벡터를 결정하는 단계, 및 상기 결정된 화자벡터의 사용자의 화자임베딩 값을 초기값으로 하고, 새로운 사용자의 화자 데이터를 기초로 상기 음성 합성 모델의 합성 인공 신경망을 학습시켜 상기 새로운 사용자의 화자 임베딩을 생성하고 학습하는 단계를 포함할 수 있다.
상기 미리 설정된 기준에 따라 가장 유사한 관계를 가지는 화자벡터를 결정하는 단계는, 상기 새로운 사용자의 화자벡터와 상기 기 학습되어 있는 복수의 사용자들의 화자벡터와의 내적(inner product)을 하여 산출한 값을 기초로 결정하는 단계를 포함할 수 있다..
상기 미리 설정된 기준에 따라 가장 유사한 관계를 가지는 화자벡터를 결정하는 단계는, 산출된 내적 값들 중에서 가장 큰 값으로 산출된 사용자의 화자벡터를 상기 새로운 사용자의 화자벡터와 가장 유사한 관계를 가지는 화자벡터로 결정하는 단계를 포함할 수 있다.
상기 새로운 사용자의 음성학습모델을 생성하는 단계는, 오버 피팅(over fitting)을 방지하기 위해 미리 설정된 시간동안에만 상기 음성 합성 모델의 합성 인공 신경망의 학습을 수행하는 단계를 포함할 수 있다.
상기 미리 설정된 시간은 10초 내지 60초의 범위를 포함할 수 있다.
상기 화자벡터를 생성하는 단계는, 상기 사용자의 음성신호를 입력값으로 하고, 화자인식모델의 인공신경망을 이용하여 생성하는 단계를 포함할 수 있다.
상기 인공 신경망을 이용한 다화자 음성 합성 방법은, 상기 음성 합성 모델의 합성 인공 신경망을 통해 산출된 멜 스케일 스펙트로그램 을 그리핀-림(Griffin-Lim) 알고리즘을 통해 음성으로 변환하는 단계를 더 포함할 수 있다.
상기 음성 합성 모델의 합성 인공 신경망 모델은, 타코트론(Tacotron) 알고리즘을 포함할 수 있다.
일 실시예에 따른 인공 신경망을 이용한 다화자 음성 합성 장치는 복수의 사용자의 음성 데이터를 기초로 음성 합성 모델의 합성 인공 신경망을 학습시켜 상기 복수의 사용자들에 대한 음성학습모델을 생성하는 음성 합성부, 상긴 생성된 음성학습모델에 대한 정보를 저장하는 저장부, 화자인식모델을 이용하여 학습되지 않은 새로운 사용자 및 기 학습되어 있는 상기 복수의 사용자들에 대한 화자벡터를 생성하는 화자벡터 생성부 및 상기 기 학습되어 있는 복수의 사용자들의 화자벡터 중에서 미리 설정된 기준에 따라 상기 새로운 사용자의 화자벡터와 가장 유사한 관계를 가지는 화자벡터를 결정하는 유사벡터 결정부를 포함하고, 상기 음성합성부는, 상기 결정된 화자벡터의 사용자의 화자임베딩 값을 초기값으로 하고, 새로운 사용자의 화자 데이터를 기초로 상기 음성 합성 모델의 합성 인공 신경망을 학습시켜 상기 새로운 사용자의 화자 임베딩을 생성하고 학습할 수 있다.
상기 유사벡터 결정부는, 상기 새로운 사용자의 화자벡터와 상기 기 학습되어 있는 복수의 사용자들의 화자벡터와의 내적(inner product)을 하여 산출한 값을 기초로 상기 새로운 사용자의 화자벡터와 가장 유사한 관계를 가지는 화자벡터를 결정할 수 있다.
상기 유사벡터 결정부는, 산출된 내적 값들 중에서 가장 큰 값으로 산출된 사용자의 화자벡터를 상기 새로운 사용자의 화자벡터와 가장 유사한 관계를 가지는 화자벡터로 결정할 수 있다.
상기 음성 합성부는, 오버 피팅(over fitting)을 방지하기 위해 미리 설정된 시간동안에만 상기 음성 모델의 합성 인공 신경망의 학습을 수행할 수 있다.
상기 미리 설정된 시간은, 10초 내지 60초의 범위를 포함할 수 있다.
상기 화자벡터 생성부는, 상기 사용자의 음성신호를 입력값으로 하고, 화자인식모델의 인공신경망을 이용하여 생성할 수 있다.
다른 실시예에 따른 인공 신경망을 이용한 다화자 음성 합성 장치는 복수의 사용자의 음성 데이터를 기초로 음성 합성 모델의 합성 인공 신경망을 학습시켜 상기 복수의 사용자들에 대한 음성학습모델에 대한 정보를 외부 서버로부터 수신하는 통신부, 화자인식모델을 이용하여 학습되지 않은 새로운 사용자 및 기 학습되어 있는 상기 복수의 사용자들에 대한 화자벡터를 생성하는 화자벡터 생성부 및 상기 기 학습되어 있는 복수의 사용자들의 화자벡터 중에서 미리 설정된 기준에 따라 상기 새로운 사용자의 화자벡터와 가장 유사한 관계를 가지는 화자벡터를 결정하는 유사벡터 결정부를 포함하고 상기 음성합성부는, 상기 결정된 화자벡터의 사용자의 화자임베딩 값을 초기값으로 하고, 새로운 사용자의 화자 데이터를 기초로 상기 음성 합성 모델의 합성 인공 신경망을 학습시켜 상기 새로운 사용자의 화자 임베딩을 생성하고 학습할 수 있다.
일 실시예에 따른 인공 신경망을 이용한 음성 합성 방법 및 장치는 새로운 사용자의 목소리의 가장 유사한 특징을 가지고 있으면서, 이미 학습이 되어 있는 사용자의 음성학습모델을 기초로 새로운 사용자의 목소리에 대해 학습을 수행하므로, 종래 기술과 다르게 비교적 적은 데이터만으로는 새로운 사용자의 음성을 합성할 수 있는 장점이 존재한다.
또한, 일 실시예에 따른 인공 신경망을 이용한 음성 합성 방법 및 장치는, 인공신경망을 이용하여 학습을 수행함에 있어서, 새로운 화자의 화자임베딩의 초기값을, 가장 목소리가 비슷한 화자의 화자임베딩으로 하여 학습을 수행하므로, 적은 양의 학습데이터를 가지고 학습을 수행하면서도 동시에 오버피팅을 방지할 수 있는 효과가 존재한다.
도 1은 일 실시예에 따른 인공 신경망을 이용한 다화자 음성 합성 시스템의 일부 구성 요소를 도시한 블럭도이다.
도 2는 일 실시예에 따른 인공 신경망을 이용한 다화자 음성 합성 장치의 일부 구성 요소를 도시한 블럭도이다.
도 3은 일 실시예에 따른 음성학습모델을 설명하기 위한 도면이다.
도 4는 일 실시예에 따라, 음성학습모델에 적용되는 타코트론2 (Tacotron2) 알고리즘을 설명하기 위한 도면이다.
도 5는 일 실시예에 따른, 화자벡터 생성부를 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 인공 신경망을 이용한 다화자 음성 합성 장치의 동작 순서를 도시한 순서도이다.
이하, 본 발명에 따른 실시 예들은 첨부된 도면들을 참조하여 설명한다. 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시 예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 실시 예들을 설명할 것이나, 본 발명의 기술적 사상은 이에 한정되거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있다.
또한, 본 명세서에서 사용한 용어는 실시 예를 설명하기 위해 사용된 것으로, 개시된 발명을 제한 및/또는 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 명세서에서, "포함하다", "구비하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는다.
또한, 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함하며, 본 명세서에서 사용한 "제 1", "제 2" 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되지는 않는다.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.
도 1은 일 실시예에 따른 인공 신경망을 이용한 다화자 음성 합성 시스템(10)의 일부 구성 요소를 도시한 블럭도이다.
도 1에 도시된 바와 같이, 인공 신경망을 이용한 다화자 음성 합성 시스템(10)은, 다화자 음성 합성 장치(100), 사용자 단말기(200) 및 서버(300)가 네트워크(400)에 의해 서로 통신 연결되어 있을 수 있다. 인공 신경망을 이용한 다화자 음성 합성 장치(100), 사용자 단말기(200) 및 서버(300)는 5G 통신 환경에서 서로 연결될 수 있다.
또한, 도 1에 도시된 기기 들 이외에 가정 또는 사무실에서 사용되는 다양한 전자 기기들이 사물 인터넷 환경 하에서 서로 연결되어 동작할 수 있다. 이하 설명의 편의를 위해 인공 신경망을 이용한 다화자 음성 합성 장치(100)는 음성 합성 장치(100)로 지칭하여 설명하도록 한다.
음성 합성 장치(100)는 입력되는 대상 텍스트를 특정 사용자의 목소리로 생성하여 출력하는 장치로서, 음성을 출력하는 장치일 뿐 만 아니라, 각종 인공지능 알고리즘을 수행하는데 필요한 장치들이 마련되어 있으며, 인공 신경망을 동작시키는데 필요한 데이터가 저장되어 있을 수 있다.
음성 합성 장치(100)는 인공 신경망 모듈에 의한 학습과 추론 및 합성된 사용자의 음성을 출력할 수 있는 장치로, 서버(Server), PC, 태블릿 PC, 스마트 폰(smart phobne), 스마트와치(smart watch), 스마트 글라스(smart glass), 웨어러블 기기(wearable device) 등과 같은 장치로 구현될 수 있으며, 특정 어플리케이션이나 프로그램으로 구현될 수 도 있다.
사용자 단말기(200)는 음성 합성 어플리케이션 또는 음성 합성 사이트에 접속한 후 인증 과정을 통하여 음성 합성 장치(100)의 상태 정보를 모니터링 하거나, 다화자 음성 합성 장치(100)를 구동하거나 또는 제어할 수 있는 서비스를 제공받을 수 있다.
본 실시 예에서 인증 과정을 마친 사용자 단말기(200)는 일 예로, 음성을 합성할 텍스트 및 음성을 생성할 음성 학습 모델을 선택할 수 있고, 선택한 대상 텍스트 및 음성 학습 모델에 의해 음성 합성 장치(100)가 출력하는 음성 결과를 수신할 수 있다.
본 실시 예에서 사용자 단말기(200)는 사용자가 조작하는 데스크 탑 컴퓨터, 스마트폰, 노트북, 태블릿 PC, 스마트 TV, 휴대폰, PDA(personal digital assistant), 랩톱, 미디어 플레이어, 마이크로 서버, GPS(global positioning system) 장치, 전자책 단말기, 디지털방송용 단말기, 네비게이션, 키오스크, MP3 플레이어, 디지털 카메라, 가전기기 및 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다. 또한, 사용자 단말기(200)는 통신 기능 및 데이터 프로세싱 기능을 구비한 시계, 안경, 헤어 밴드 및 반지 등의 웨어러블 단말기 일 수 있다. 사용자 단말기(200)는 상술한 내용에 제한되지 아니하며, 웹 브라우징이 가능한 단말기는 제한 없이 차용될 수 있다.
서버(300)는 각종 인공지능 알고리즘을 적용하는데 필요한 빅데이터 및 음성 합성 장치(100)를 동작시키는 데이터를 제공하는 데이터베이스 서버일 수 있다. 그 밖에 서버(300)는 사용자 단말기(200)에 설치된 음성 합성 어플리케이션 또는 음성 합성 웹 브라우저를 이용하여 음성 합성 장치(100)의 동작을 원격적으로 제어할 수 있도록 하는 웹 서버 또는 애플리케이션 서버를 포함할 수 있다.
여기서 인공 지능(artificial intelligence, AI)은, 인간의 지능으로 할 수 있는 사고, 학습, 자기계발 등을 컴퓨터가 할 수 있도록 하는 방법을 연구하는 컴퓨터 공학 및 정보기술의 한 분야로, 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 것을 의미할 수 있다.
또한, 인공지능은 그 자체로 존재하는 것이 아니라, 컴퓨터 과학의 다른 분야와 직간접으로 많은 관련을 맺고 있다. 특히 현대에는 정보기술의 여러 분야에서 인공지능적 요소를 도입하여, 그 분야의 문제 풀이에 활용하려는 시도가 매우 활발하게 이루어지고 있다.
머신 러닝(machine learning)은 인공지능의 한 분야로, 컴퓨터에 명시적인 프로그램 없이 배울 수 있는 능력을 부여하는 연구 분야를 포함할 수 있다.
구체적으로 머신 러닝은, 경험적 데이터를 기반으로 학습을 하고 예측을 수행하고 스스로의 성능을 향상시키는 시스템과 이를 위한 알고리즘을 연구하고 구축하는 기술이라 할 수 있다. 머신 러닝의 알고리즘들은 엄격하게 정해진 정적인 프로그램 명령들을 수행하는 것이라기보다, 입력 데이터를 기반으로 예측이나 결정을 이끌어내기 위해 특정한 모델을 구축하는 방식을 취할 수 있다.
또한, 서버(300)는 인공 음성 합성 장치(100) 및/또는 사용자 단말기(200)와 신호를 송수신할 수 있다.
서버(300)는 사용자 단말기(200)로부터 수신한 음성으로 변환할 텍스트 및 선택된 음성 합성 모델에 대항 정보를 수신한 후, 수신한 정보를 음성 합성 장치(100)로 전송할 수 있다.
서버(300)는 사용자 단말기(200)가 선택한 텍스트 및 음성 합성 모델에 기초하여 음성을 인공 신경망을 이용하여 생성할 수 있으며, 생성된 음성에 대한 정보를 음성 합성 장치(100)로 송신할 수 있다.
이와 다르게, 서버(300)는 다화자 음성 합성 장치(100)가 음성을 합성할 수 있도록 필요한 데이터만 선택적으로 음성 합성 장치(100)로 송신할 수 있다. 즉, 사용자의 음성 합성 및 인공지능 프로세서는 서버(300)에 의해 수행될 수도 있고, 음성 합성 장치(100)에 의해서도 수행될 수 있다.
네트워크(400)는 인공 신경망을 이용한 다화자 음성 합성 장치(100)와, 사용자 단말기(200)와, 서버(300)를 연결하는 역할을 수행할 수 있다. 이러한 네트워크(400)는 예컨대 LANs(local area networks), WANs(wide area networks), MANs(metropolitan area networks), ISDNs(integrated service digital networks) 등의 유선 네트워크나, 무선 LANs, CDMA, 블루투스, 위성 통신 등의 무선 네트워크를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다. 또한 네트워크(400)는 근거리 통신 및/또는 원거리 통신을 이용하여 정보를 송수신할 수 있다. 여기서 근거리 통신은 블루투스(Bluetooth), RFID(radio frequency identification), 적외선 통신(IrDA, infrared data association), UWB(ultra-wideband), ZigBee, Wi-Fi (wireless fidelity) 기술을 포함할 수 있고, 원거리 통신은 CDMA(code division multiple access), FDMA(frequency division multiple access), TDMA(time division multiple access), OFDMA(orthogonal frequency division multiple access), SC-FDMA(single carrier frequency division multiple access) 기술을 포함할 수 있다.
네트워크(400)는 허브, 브리지, 라우터, 스위치 및 게이트웨이와 같은 네트워크 요소들의 연결을 포함할 수 있다. 네트워크(400)는 인터넷과 같은 공용 네트워크 및 안전한 기업 사설 네트워크와 같은 사설 네트워크를 비롯한 하나 이상의 연결된 네트워크들, 예컨대 다중 네트워크 환경을 포함할 수 있다. 네트워크(400)에의 액세스는 하나 이상의 유선 또는 무선 액세스 네트워크들을 통해 제공될 수 있다. 더 나아가 네트워크(400)는 사물 등 분산된 구성 요소들 간에 정보를 주고 받아 처리하는 IoT(Internet of Things, 사물인터넷) 망 및/또는 5G 통신을 지원할 수 있다.
도 2는 일 실시예에 따른 인공 신경망을 이용한 다화자 음성 합성 장치의 일부 구성 요소를 도시한 블럭도이고, 도 3은 일 실시예에 따른 음성학습모델을 설명하기 위한 도면이다. 도 4는 일 실시예에 따라, 음성학습모델에 적용되는 타코트론2(Tacotron2) 알고리즘을 설명하기 위한 도면이고, 도5는 일 실시예에 따른, 화자벡터 생성부를 설명하기 위한 도면이다.
도 2 내지 도 5를 참고하면, 음성 합성 장치(100)는 화자벡터 생성부(110), 유사벡터 결정부(120), 음성 합성부(130), 저장부(140), 마이크(150), 통신부(160) 및 입력부(170) 등을 포함할 수 있다.
통신부(160)는, 사용자 단말기(200) 및 서버(300)와 통신을 수행하면서 음성 합성에 대한 각종 명령을 수신 받을 수 있으며, 서버(300)로부터 음성을 합성함에 있어서 필요한 다양한 정보들을 수신받을 수 있다.
따라서, 통신부(160)는 LTE(long-term evolution), LTE-A(LTE Advance), CDMA(code division multiple access), WCDMA(wideband CDMA), WiBro(Wireless BroaDBand), WiFi(wireless fidelity), 블루투스(Bluetooth), NFC(near field communication), GPS(Global Positioning System) 또는 GNSS(global navigation satellite system) 등의 방식에 따른 무선 통신을 수행할 수 있다. 예를 들어, 통신부(110)는 USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard232) 또는 POTS(plain old telephone service) 등의 방식에 따른 유선 통신을 수행할 수 있다.
음성합성부(130)는 입력부(170)로부터 입력되는 텍스트를 음성으로 합성할 수 있다. 구체적으로, 음성합성부(130)는 텍스트가 입력되면 입력되는 텍스트를 언어 해석하고 음성으로 합성하는 처리과정을 통해 텍스트를 자연스러운 합성음으로 변환시켜 출력할 수 있으며, 이러한 과정은 TTS(text-to-speech)를 통해 이루어 질 수 있다.
따라서, 음성합성부(130)는 언어처리, 운율 생성 및 파형 합성의 3단계를 통하여 검증 대상 텍스트를 전처리 음성으로 변환한다. 검증 대상 텍스트의 문법적 구조를 분석(언어처리 단계)하고, 분석된 문법적 구조에 의해 사람이 읽는 것과 같은 운율을 생성하고, 생성된 운율에 따른 기본 단위를 모아 합성음을 생성할 수 있다.
도 3과 도 4를 참고하면, 일 실시예에서의 음성 합성부(130)는 타코트론 2(tacotron2)알고리즘을 이용하여, 텍스트를 음성 스펙트로그램 변환하고, 음성 스펙트로그램 변환하여 음성(60)을 출력할 수 있다.
타코트론 알고리즘은 순환 신경망(RNN: recurrent neural network) 인코더-디코더(encoder-decoder)를 활용한 'sequence-to-sequence' 모델로서 도 3에 도시된 바와 같이 텍스트(10)에서 필요한 정보를 추출하는 인코더(131)와 인코더(131)에서 출력되는 텍스트 특징 벡터로부터 음성을 합성하는 디코더(133) 및 디코더(133)에서 출력하는 멜 스펙토그램(Mel Spectrogram)을 음성으로 만들어주는 보코더(134)를 포함할 수 있다.
인코더(131)는 입력된 텍스트(10)를 문자(character) 단위로 분해하여 벡터 형태인 문자 임베딩(20, character embedding)을 출력하고, 출력된 문자 임베딩(20)은 신경망(neural network)을 거쳐 텍스트 임베딩 벡터(30, text encoding vector)로 출력될 수 있다.
인코더에서 사용되는 신경망(neural network)으로, CBHG 모듈 즉, 컨벌루션 신경망(convolutional neural network), 하이웨이 네트워크(highway network) 및 양방향성 순환 신경망(bi-directional recurrent neural network)을 순서대로 쌓은 신경망이 사용될 수 있다.
디코더(133)에서는, t시간 단계에서의 디코더 네트워크(Decoder network)의 입력값으로는 텍스트 임베딩 벡터(30, text encoding vector)들의 가중합과 이전 t-1시간단계의 마지막 디코더 출력값이 합쳐져 사용될 수 있다.
디코더(133)의 출력값은 멜 스케일 스펙트로그램(40,mel-scale spectrogram)으로 매 시단 단계당 r개의 벡터를 출력할 수 있다. r개의 벡터 중 마지막 벡터만 다음 시간 단계의 디코더 입력값으로 사용될 수 있다.
도 4에는 일 예로 3개의 멜 스케일 스펙트로크램(40a, 40b, 40c)을 도시하였지만, 멜 스케일 스펙토크램의 개수는 입력되는 텍스트(10)에 따라 다양한 개수로 출력될 수 있다. 멜 스케일 스펙트로크램(40)은 주파수 도메인이며, 전체 주파수를 Log-Scale로 범위를 나눈 것이다
가청 주파수(20~20000Hz)의 범위에서, 실제 사람의 음성을 구성하는 주파수는 낮은 주파수 범위에 많이 분포하는 특징을 가지고 있다. 따라서, Log-Scale로 주파수 범위를 나누게 되면, 낮은 주파수를 세밀하게 분할하게 되어, 사람의 음성에 대한 주파수 특징을 잘 나타낼 수 있어, 디고터(133)에서 멜 스케일 스펙트로크램(40)이 많이 이용된다.
시간 단계마다 r개씩 생성된 멜 스케일 스펙트로그램 벡터(40a, 40b, 40c)들은 디코더 타임 스텝방향으로 합쳐져 합성된 음성 전체의 멜 스케일 스펙트로그램을 이루게 되며, 이 스펙트로그램은 추가적인 신경망(neural network)를 거쳐 선형-스케일 스펙트로그램(50)으로 변환될 수 있다.
이후 선형-스케일 스펙트로그램(50)이 'Griffin-Lim reconstruction' 알고리즘을 통해 파형(wave form)으로 변환이 되어 이것이 '~.wav' 파일로 쓰게 되면 음성(60) 파일이 생성될 수 있다
어텐션부(132)는 인코더(131)에서 출력된 텍스트 임베딩 벡터(30)를 통해, 각 글자를 몇 번씩 반영하여 멜 스케일 스펙트로그램(40)을 생성할지 결정하는 역할을 할 수 있다.
이를 자세히 살펴보면, 텍스트를 음성으로 변환할 때, 각 텍스트에 해당하는 음성의 길이는 매번 다르므로 텍스트를 음성으로 변환하는 과정에서, 한 글자마다 생성되는 멜 스케일 스펙트로그램의 길이는 다르다. 따라서, 디코더(134)에서 멜 스케일 스펙트로그램(40)을 생성할 때 전체 텍스트를 보고 멜 스케일 스펙트로그램(40)을 순차적으로 출력하는 것보다는, 출력되는 멜 스케일 스펙트로그램(40)이 어떤 글자에 해당하는지 파악하고 그 글자에 대한 인코더(131)에서 출력되는 텍스트 임베팅 벡터(30)를 크게 반영하여 멜 스케일 스펙트로그램(40)을 생성하는 것이 가장 효율적이다.
따라서, 어텐션부(132)는 어텐션 알고리즘을 사용하여 인코더(131)에서 출력된 텍스트 임베팅 벡터(30)를 통해, 각 글자를 몇 번 반영해서 멜 스케일 스펙트로그램(40)을 생성할지 결정하는 역할을 할 수 있다. 즉, 어텐션부(132)는 텍스트 임베딩 벡터(30)에 가중치를 부여하여 디코더(134)에 입력한다. 그 후 디코더(134)는 입력된 값에 기초하여 멜 스케일 스펙트로그램(40)을 생성할 수 있다.
음성 합성부(130)에 의해 생성된 특정 사용자에 대한 음성 정보와, 음성 합성부(130)에서 인공 신경망에 의해 학습된 특정 사용자에 대한 음성합성모델에 대한 각종 정보는 저장부(140)에 저장될 수 있으며, 이러한 정보는 새로운 화자에 대한 음성학습모델을 생성할 때, 기초 정보로 활용될 수 있다.
따라서, 저장부(140)는 다양한 데이터를 저장할 수 있으며, 휘발성 및/또는 비휘발성 메모리를 포함할 수 있다.
일반적으로, 화자임베딩을 통해 다화자 음성합성모델을 학습시키는 경우, 여러 명의 화자에 대한 데이터가 필요하며, 다화자 음성합성모델에서 가장 많이 사용되는 DeepVoice2알고리즘((Sercan Arik, Gregory Diamos, Andrew Gibiansky, John Miller,Kainan Peng, Wei Ping, Jonathan Raiman, Yanqi Zhou, Deep Voice 2: Multi-Speaker Neural Text-to-Speech, NIPS 2017)에 의하더라도 최소 각 화자마다 20분 이상의 데이터를 사용하여야 학습이 효율적으로 이루어질 수 있다.
이와 같은 다화자 음성합성모델은 여러 명의 화자의 목소리로, 음성을 생성하는 것이 가능하다는 장점이 있지만, 여러 화자를 학습시키기 위한 데이터가 많이 필요하다. 만약, 원하는 화자들의 목소리로 다화자 음성합성모델을 학습시키려면, 각 화자별로 수 십분 분량의 음성데이터와 그에 대응되는 음성 텍스트가 필요하다. 이와 같은 대용량 데이터를 수집하는 것은 시간과 금전적으로 많은 문제가 발생하며, 특히 개인이나 소규모 기업에서 이를 행하는 것은 어려운 일이다.
따라서, 일 실시예에 따른 음성 합성 방법 및 장치(100)는 이러한 문제점을 해결하기 위해 고안된 발명으로서, 새로운 화자에 대해 음성학습모델을 학습할 때, 비교적 적은 화자 데이터만으로 학습을 수행할 수 있도록 하여 여러 사용자의 음성을 합성하는데 효율성을 도모하는데 그 목적이 있다. 이하 자세히 알아본다.
일반적인 다화자 음성합성모델(예를 들어, DeepVoice2)는 굉장히 많은 양의 신경망으로 구성되어 있는데,, 그 중 순환신경망이 주를 이루고 있다. 즉, 순환신경망은 출력값을 다시 입력값으로 하며, 이를 여러 번 반복하여 출력값을 생성하는 신경망 구조를 가지고 있다.
이 순환신경망은 이러한 과정을 여러 차례 반복할 때마다 은닉상태가 업데이트 되는 방식을 통해 각 차례에서 적합한 출력값을 생성한다. 순환신경망의 초기 은닉상태를, 화자임베딩으로 하면, 그 화자임베딩에 해당하는 화자의 목소리로 음성을 합성할 수 있다.
여러 명의 화자의 목소리로 음성을 생성할 때, 여러 화자에 대해서 인공신경망이 다른 연산을 수행하는 것은 아니다. 즉, 같은 연산을 수행하면서 화자임베딩을 구성하는 숫자들에 의해 각각 다른 목소리로 음성이 생성된다. 따라서, 비슷한 목소리를 생성하기 위해선 화자임베딩의 값이 유사하다는 결론을 도출할 수 있다.
예를 들어, 남성 화자와 여성 화자와 같이 음색의 차이가 심한 경우, 이 둘의 화자임베딩은 차이가 심한 값으로 구성이 될 것이며, 특징이 유사한 두 화자의 목소리의 화자임베딩 값은 비슷하다. 따라서, 새로운 화자의 목소리를 학습할 때, 새로운 화자와 비슷한 목소리를 가지면서, 이미 학습되어 있는 화자의 화자임베딩의 값부터 학습을 시작하면, 비교적 적은 횟수만으로 새로운 화자에 적합한 화자임베딩의 값을 얻을 수 있다. 따라서 이에 기초하여 음성을 합성하면 비교적 적은 데이터 만으로도 빠르게 새로운 화자에 대한 음성을 합성할 수 있는 장점이 존재한다. 음성을 합성하려고 하는 새로운 사용자와 가장 비슷한 특징을 가지고 있는 이미 학습되어 있는 사용자를 판단하는 방법에 대해 다시 도 2와 도5를 기준으로 설명한다.
도 2와 도5를 참고하면, 화자벡터 생성부(110)는 화자벡터(80)를 생성할 수 있다. 구체적으로, 화자벡터 생성부(110)는 마이크(150)로부터 입력되는 사용자의 음성신호(70)를 수신하고 이를 화자인식 알고리즘에 적용하여 해당 화자의 목소리의 특징에 대한 정보가 담겨 있는 화자 벡터를 생성할 수 있다. 즉, 화자벡터(80)는 화자마다 서로 다른 값을 가지는 벡터를 의미하며, 이것을 단일 화자 음성합성모델에 각 화자마다 함께 입력하면 단일 화자 음성합성모델은 여러 명의 화자를 구분하여 학습할 수 있다.
구제적으로, 화자벡터 생성부(110)는 입력된 음성신호(70)를 멜 스케일 스펙트로그램으로 변환한 후, 일정한 크기로 나누어서, 화자인식모델의 순환신경망에 입력하여 화자벡터를 생성할 수 있다. 하나의 음성신호에서 여러 개의 화자벡터가 생성된 후, 이 화자벡터끼리 평균 낸 값이 입력된 음성신호에 대한 최종 화자벡터(80)이다.
화자벡터 생성부(110)에서 차용되는 화자인식 알고리즘은 여러 종류의 알고리즘이 차용될 수 있는데 본 발명에서는 화자인식 알고리즘으로 대표적으로 많이 사용되고 있는 화자인식모델(Li Wan, Quan Wang, Alan Papir, Ignacio Lopez Moreno, Generalized End-to-End Loss for Speaker Verification, ICASSP 2018)을 차용될 수 있다.
유사벡터 결정부(120)는 화자벡터 생성부(110)rk 생성한 화자벡터(80)를 기준으로 사용자들끼리의 음성이 유사한 정도에 대해 판단할 수 있다. 구체적으로 화자벡터(80)는 벡터로 표현되므로, 벡터끼리의 밀접한 관계도를 표현할 수 있는 Cosine Similarity를 통해 이를 판단할 수 있다. Cosine Similarity는 벡터의 내적(inner product)과 벡터의 절대값을 이용하여 아래 식과 같이 표현될 수 있다.
Figure PCTKR2021010307-appb-I000001
유사벡터 결정부(120)는, 벡터 A와 B가 있을 때, 위 식을 이용하여 두 벡터를 내적한 후, 그 값에 기초하여 두 벡터 사이의 유사도를 구할 수 있다.
구체적으로, 유서벡터 결정부(120)는 앞서 언급한 화자인식모델을 이용하여, 새롭게 음성을 합성하려고 하는 사용자의 화자벡터와 이미 학습되어 있는 사용자들의 화자벡터들에 대해 각각 내적을 수행한 후, Cosine Similarity값을 산출하여 가장 높은 값을 가지를 화자를 찾을 수 있다. Cosine Similarity값은 [0, 1]범위 내로 산출될 것이며, 특징상 1에 가까울수록 서로의 목소리가 유사한 것을 의미하며, 0에 가까울수록 목소리가 유사하지 않다는 것을 의미한다. 따라서, 특정 사용자와의 Cosine Similarity값이 가장 높게 산출되었다는 것은 이는 새로운 화자의 화자임베딩과 가장 유사한 화자임베딩을 갖는 화자라는 것을 의미한다.
따라서, 유사벡터 결정부(120)가 새롭게 음성을 합성하려고 하는 사용자와 가장 유사한 특징을 가지고 있으면서, 이미 학습이 되어 있는 사용자를 결정하면, 음성 합성부(130)는 결정된 사용자의 음성학습모델을 이용하여 새로운 사용자에 대한 학습을 수행할 수 있다.
구체적으로, 유사벡터 결정부(120)가 결정한 사용자는 새로운 화자와 가장 목소리가 유사한 화자이므로, 음성 합성부(130)는 결정된 화자의 화자임베딩 값을 새로운 화자의 화자임베딩 초기값으로 설정한 후 학습을 수행할 수 있다. 본 발명은 새로운 사용자의 목소리의 가장 유사한 특징을 가지고 있는 이미 학습이 되어 있는 사용자들의 음성학습모델을 기초로, 새로운 사용자의 목소리에 대해 학습을 하기 때문에, 종래 기술과 다르게 비교적 적은 데이터만으로는 새로운 사용자의 음성을 합성할 수 있는 장점이 존재한다.
일반적인 딥러닝 모델의 학습과정은 실제 정답과 유사한 값을 예측할 수 있도록 학습을 진행한다. 즉, 학습데이터를 통해 입력값에 따른 출력값을 학습한다. 따라서 많은 경우를 고려하여 학습할수록 좋은 성능을 가지게 되므로 학습데이터는 여러 가지의 변수를 고려할 수 있도록, 다양한 특성을 가진 데이터로 구성된다. 여러 특성에 대해 최적화가 되어야 새로운 데이터에 대해서 강인해 질 수 있기 때문이다. 하지만 학습데이터의 특성이 다양하지 않다면, 적은 특성에 대해 최적화되며, 이것은 새로운 데이터에 대응하기 어려워지는 문제점이 발생하며, 이것을 오버피팅이라고 한다. 음성합성모델 또한 이러한 문제가 발생하지 않도록 학습데이터도 다양한 특성이 반영된 여러 문장으로 학습하며, 수십분 또는 수시간의 데이터를 사용하여 학습하는 것이 일반적이다.
만약, 음성 합성 장치가 새로운 화자에 대한 적은 데이터만으로 학습이 진행된다면, 데이터가 적기 때문에 학습 횟수가 많아질수록 오버피팅 현상이 발생하기 쉽다. 만약에 본 발명에 따른 음성 합성 장치(100)가 다른 화자의 화자임베딩을 고려하지 않고 학습을 수행한다면, 적은 데이터로 인해 오버피팅 문제가 발생하기 쉽지만, 본 발명의 경우 새로운 화자에 적합한 화자임베딩을 생성할 수 있도록, 새로운 화자의 화자임베딩의 초기값으로 하고, 가장 목소리가 비슷한 화자의 화자임베딩으로 하여 학습을 수행하므로, 적은 양의 학습데이터를 가지고 학습을 수행하여도 오버피팅이 발생하지 않으면서 새로운 화자의 음성을 생성하는 것이 가능한 장점이 있다.
즉, 본 발명의 경우 수십초에서 일분 정도의 데이터만으로도 새로운 화자에 대한 음성학습모델을 생성하므로, 비교적 적은 데이터와 빠른 시간으로 새로운 화자에 대한 음성학습모델을 생성할 수 있는 장점이 존재한다.
도 6은 일 실시예에 따른 인공 신경망을 이용한 다화자 음성 합성 장치의 동작 순서를 도시한 순서도이다.
도 6을 참고하면, 음성 합성 장치(100)는 새로운 화자에 대한 음성합성모델을 생성하기 위해, 화자인식모델을 이용하여 학습되지 않은 새로운 사용자 및 기 학습되어 있는 복수의 사용자들에 대한 화자벡터를 생성할 수 있다. (S10, S20)
그 후, 음성 합성 장치(100)는 기 학습되어 있는 복수의 사용자들의 화자벡터 중에서 미리 설정된 기준에 따라 새로운 사용자의 화자벡터와 가장 유사한 관계를 가지는 화자벡터를 결정할 수 있다. (S30)
구체적으로, 새로운 사용자의 화자벡터와 기 학습되어 있는 복수의 사용자들의 화자벡터와의 내적(inner product) 값을 기초로 새로운 화자의 목소리와 가장 유사한 목소리를 가지고 있는 사용자를 결정할 수 있다.
그 후, 음성 합성 장치(100)는 결정된 화자벡터의 사용자의 화자임베딩 값을 초기값으로 하고, 새로운 사용자의 화자 데이터를 기초로 음성 합성 모델의 합성 인공 신경망을 학습시켜 새로운 사용자의 화자 임베딩을 생성하고 학습하는 방법으로 새로운 사용자에 대한 음성을 합성할 수 있다. (S40)
일 실시예에 따른 인공 신경망을 이용한 음성 합성 방법 및 장치는 새로운 사용자의 목소리의 가장 유사한 특징을 가지고 있으면서, 이미 학습이 되어 있는 사용자의 음성학습모델을 기초로 새로운 사용자의 목소리에 대해 학습을 수행하므로, 종래 기술과 다르게 비교적 적은 데이터만으로는 새로운 사용자의 음성을 합성할 수 있는 장점이 존재한다.
또한, 일 실시예에 따른 인공 신경망을 이용한 음성 합성 방법 및 장치는, 인공신경망을 이용하여 학습을 수행함에 있어서, 새로운 화자의 화자임베딩의 초기값을, 가장 목소리가 비슷한 화자의 화자임베딩으로 하여 학습을 수행하므로, 적은 양의 학습데이터를 가지고 학습을 수행하면서도 오버피팅을 방지할 수 있는 효과가 존재한다.
한편, 본 명세서에 기재된 "~부"로 기재된 구성요소들, 유닛들, 모듈들, 컴포넌트들 등은 함께 또는 개별적이지만 상호 운용 가능한 로직 디바이스들로서 개별적으로 구현될 수 있다. 모듈들, 유닛들 등에 대한 서로 다른 특징들의 묘사는 서로 다른 기능적 실시예들을 강조하기 위해 의도된 것이며, 이들이 개별 하드웨어 또는 소프트웨어 컴포넌트들에 의해 실현되어야만 함을 필수적으로 의미하지 않는다. 오히려, 하나 이상의 모듈들 또는 유닛들과 관련된 기능은 개별 하드웨어 또는 소프트웨어 컴포넌트들에 의해 수행되거나 또는 공통의 또는 개별의 하드웨어 또는 소프트웨어 컴포넌트들 내에 통합될 수 있다.
특정한 순서로 작동들이 도면에 도시되어 있지만, 이러한 작동들이 원하는 결과를 달성하기 위해 도시된 특정한 순서, 또는 순차적인 순서로 수행되거나, 또는 모든 도시된 작동이 수행되어야 할 필요가 있는 것으로 이해되지 말아야 한다. 임의의 환경에서는, 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다. 더욱이, 상술한 실시예에서 다양한 구성요소들의 구분은 모든 실시예에서 이러한 구분을 필요로 하는 것으로 이해되어서는 안되며, 기술된 구성요소들이 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키징될 수 있다는 것이 이해되어야 한다.
컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 또는 코드로도 알려져 있음)은 컴파일되거나 해석된 언어나 선험적 또는 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 또는 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다.
부가적으로, 본 특허문헌에서 기술하는 논리 흐름과 구조적인 블럭도는 개시된 구조적인 수단의 지원을 받는 대응하는 기능과 단계의 지원을 받는 대응하는 행위 및/또는 특정한 방법을 기술하는 것으로, 대응하는 소프트웨어 구조와 알고리즘과 그 등가물을 구축하는 데에도 사용 가능하다.
본 명세서에서 기술하는 프로세스와 논리 흐름은 입력 데이터 상에서 작동하고 출력을 생성함으로써 기능을 수행하기 위하여 하나 이상이 컴퓨터 프로그램을 실행하는 하나 이상이 프로그래머블 프로세서에 의하여 수행 가능하다.
본 기술한 설명은 본 발명의 최상의 모드를 제시하고 있으며, 본 발명을 설명하기 위하여, 그리고 당업자가 본 발명을 제작 및 이용할 수 있도록 하기 위한 예를 제공하고 있다. 이렇게 작성된 명세서는 그 제시된 구체적인 용어에 본 발명을 제한하는 것이 아니다.
이상에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자 또는 해당 기술 분야에 통상의 지식을 갖는 자라면, 후술될 특허청구범위에 기재된 본 발명의 사상 및 기술 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
따라서, 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허청구범위에 의해 정해져야 할 것이다.

Claims (15)

  1. 복수의 사용자의 음성 데이터를 기초로 음성 합성 모델의 합성 인공 신경망을 학습시켜 상기 복수의 사용자들에 대한 음성학습모델을 생성하고 저장하는 단계;
    화자인식모델을 이용하여 학습되지 않은 새로운 사용자 및 기 학습되어 있는 상기 복수의 사용자들에 대한 화자벡터를 생성하는 단계;
    상기 기 학습되어 있는 복수의 사용자들의 화자벡터 중에서 미리 설정된 기준에 따라 상기 새로운 사용자의 화자벡터와 가장 유사한 관계를 가지는 화자벡터를 결정하는 단계;
    상기 결정된 화자벡터의 사용자의 화자임베딩 값을 초기값으로 하고, 새로운 사용자의 화자 데이터를 기초로 상기 음성 합성 모델의 합성 인공 신경망을 학습시켜 상기 새로운 사용자의 화자 임베딩을 생성하고 학습하는 단계;를 포함하는 인공 신경망을 이용한 다화자 음성 합성 방법.
  2. 제 1항에 있어서,
    상기 미리 설정된 기준에 따라 가장 유사한 관계를 가지는 화자벡터를 결정하는 단계는,
    상기 새로운 사용자의 화자벡터와 상기 기 학습되어 있는 복수의 사용자들의 화자벡터와의 내적(inner product)을 하여 산출한 값을 기초로 결정하는 단계;를 포함하는,인공 신경망을 이용한 다화자 음성 합성 방법.
  3. 제 2항에 있어서,
    상기 미리 설정된 기준에 따라 가장 유사한 관계를 가지는 화자벡터를 결정하는 단계는,
    산출된 내적 값들을 기초로 Cosine Similarity값을 계산하여, 상기 Cosine Similarity값이 가장 큰 사용자의 화자벡터를 상기 새로운 사용자의 화자벡터와 가장 유사한 관계를 가지는 화자벡터로 결정하는 단계;를 포함하는, 인공 신경망을 이용한 다화자 음성 합성 방법.
  4. 제 1항에 있어서,
    상기 새로운 사용자의 음성학습모델을 생성하는 단계는,
    오버 피팅(over fitting)을 방지하기 위해 미리 설정된 시간동안에만 상기 음성 합성 모델의 합성 인공 신경망의 학습을 수행하는 단계;를 포함하는 인공 신경망을 이용한 다화자 음성 합성 방법.
  5. 제4항에 있어서,
    상기 미리 설정된 시간은
    10초 내지 60초의 범위를 포함하는, 인공 신경망을 이용한 다화자 음성 합성 방법.
  6. 제1항에 있어서,
    상기 화자벡터를 생성하는 단계는,
    상기 사용자의 음성신호를 입력값으로 하여, 화자인식모델의 인공신경망을 이용하여 상기 화자벡터를 생성하는 단계;를 포함하는, 인공 신경망을 이용한 다화자 음성 합성 방법
  7. 제 1항에 있어서,
    상기 음성 합성 모델의 합성 인공 신경망을 통해 산출된 멜 스케일 스펙트로그램 을 그리핀-림(Griffin-Lim) 알고리즘을 통해 음성으로 변환하는 단계;를 더 포함하는, 인공 신경망을 이용한 다화자 음성 합성 방법.
  8. 제 1항에 있어서,
    상기 음성 합성 모델의 합성 인공 신경망 모델은, 타코트론2(Tacotron2) 알고리즘을 포함하는, 인공 신경망을 이용한 다화자 음성 합성 방법.
  9. 복수의 사용자의 음성 데이터를 기초로 음성 합성 모델의 합성 인공 신경망을 학습시켜 상기 복수의 사용자들에 대한 음성학습모델을 생성하는 음성 합성부;
    상긴 생성된 음성학습모델에 대한 정보를 저장하는 저장부;
    화자인식모델을 이용하여 학습되지 않은 새로운 사용자 및 기 학습되어 있는 상기 복수의 사용자들에 대한 화자벡터를 생성하는 화자벡터 생성부; 및
    상기 기 학습되어 있는 복수의 사용자들의 화자벡터 중에서 미리 설정된 기준에 따라 상기 새로운 사용자의 화자벡터와 가장 유사한 관계를 가지는 화자벡터를 결정하는 유사벡터 결정부;를 포함하고
    상기 음성합성부는,
    상기 결정된 화자벡터의 사용자의 화자임베딩 값을 초기값으로 하고, 새로운 사용자의 화자 데이터를 기초로 상기 음성 합성 모델의 합성 인공 신경망을 학습시켜 상기 새로운 사용자의 화자 임베딩을 생성하고 학습하는, 인공 신경망을 이용한 다화자 음성 합성 장치.
  10. 제 9항에 있어서,
    상기 유사벡터 결정부는,
    상기 새로운 사용자의 화자벡터와 상기 기 학습되어 있는 복수의 사용자들의 화자벡터와의 내적(inner product)을 하여 산출한 값을 기초로 상기 새로운 사용자의 화자벡터와 가장 유사한 관계를 가지는 화자벡터를 결정하는, 인공 신경망을 이용한 다화자 음성 합성 장치.
  11. 제 10항에 있어서,
    상기 유사벡터 결정부는,
    산출된 내적 값들을 기초로 Cosine Similarity값을 계산한 후, 상기 Cosine Similarity값이 가장 큰 사용자의 화자벡터를 상기 새로운 사용자의 화자벡터와 가장 유사한 관계를 가지는 화자벡터로 결정하는, 인공 신경망을 이용한 다화자 음성 합성 장치.
  12. 제 9항에 있어서,
    상기 음성 합성부는,
    오버 피팅(over fitting)을 방지하기 위해 미리 설정된 시간동안에만 상기 음성 모델의 합성 인공 신경망의 학습을 수행하는, 인공 신경망을 이용한 다화자 음성 합성 장치.
  13. 제12항에 있어서,
    상기 미리 설정된 시간은
    10초 내지 60초의 범위를 포함하는, 인공 신경망을 이용한 다화자 음성 합성 장치.
  14. 제9항에 있어서,
    상기 화자벡터 생성부는,
    상기 사용자의 음성신호를 입력값으로 하여, 화자인식모델의 인공신경망을 이용하여 상기 화자벡터를 생성하는, 인공 신경망을 이용한 다화자 음성 합성 장치.
  15. 복수의 사용자의 음성 데이터를 기초로 음성 합성 모델의 합성 인공 신경망을 학습시켜 상기 복수의 사용자들에 대한 음성학습모델에 대한 정보를 외부 서버로부터 수신하는 통신부;
    화자인식모델을 이용하여 학습되지 않은 새로운 사용자 및 기 학습되어 있는 상기 복수의 사용자들에 대한 화자벡터를 생성하는 화자벡터 생성부; 및
    상기 기 학습되어 있는 복수의 사용자들의 화자벡터 중에서 미리 설정된 기준에 따라 상기 새로운 사용자의 화자벡터와 가장 유사한 관계를 가지는 화자벡터를 결정하는 유사벡터 결정부;를 포함하고
    상기 음성합성부는,
    상기 결정된 화자벡터의 사용자의 화자임베딩 값을 초기값으로 하고, 새로운 사용자의 화자 데이터를 기초로 상기 음성 합성 모델의 합성 인공 신경망을 학습시켜 상기 새로운 사용자의 화자 임베딩을 생성하고 학습하는, 인공 신경망을 이용한 다화자 음성 합성 장치.
PCT/KR2021/010307 2020-08-04 2021-08-04 인공 신경망을 이용한 다화자 음성 합성 방법 및 장치 WO2022031060A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/596,037 US11908447B2 (en) 2020-08-04 2021-08-04 Method and apparatus for synthesizing multi-speaker speech using artificial neural network

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200097585A KR20220017285A (ko) 2020-08-04 2020-08-04 인공 신경망을 이용한 다화자 음성 합성 방법 및 장치
KR10-2020-0097585 2020-08-04

Publications (1)

Publication Number Publication Date
WO2022031060A1 true WO2022031060A1 (ko) 2022-02-10

Family

ID=80118363

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/010307 WO2022031060A1 (ko) 2020-08-04 2021-08-04 인공 신경망을 이용한 다화자 음성 합성 방법 및 장치

Country Status (3)

Country Link
US (1) US11908447B2 (ko)
KR (1) KR20220017285A (ko)
WO (1) WO2022031060A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180113325A (ko) * 2017-04-06 2018-10-16 한국과학기술원 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치
KR20190008137A (ko) * 2017-07-13 2019-01-23 한국전자통신연구원 다중 화자 데이터를 이용한 딥러닝 기반 음성 합성 장치 및 방법
KR20190085882A (ko) * 2018-01-11 2019-07-19 네오사피엔스 주식회사 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
KR20190127233A (ko) * 2018-05-04 2019-11-13 한양대학교 산학협력단 심화 신경망을 이용한 다화자 음성 합성 방법 및 시스템

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9922641B1 (en) * 2012-10-01 2018-03-20 Google Llc Cross-lingual speaker adaptation for multi-lingual speech synthesis
US9542948B2 (en) * 2014-04-09 2017-01-10 Google Inc. Text-dependent speaker identification
US20190019500A1 (en) * 2017-07-13 2019-01-17 Electronics And Telecommunications Research Institute Apparatus for deep learning based text-to-speech synthesizing by using multi-speaker data and method for the same
US11200884B1 (en) * 2018-11-06 2021-12-14 Amazon Technologies, Inc. Voice profile updating

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180113325A (ko) * 2017-04-06 2018-10-16 한국과학기술원 음성변조를 위한 음성모델 부호화를 이용한 음성합성 기술 및 장치
KR20190008137A (ko) * 2017-07-13 2019-01-23 한국전자통신연구원 다중 화자 데이터를 이용한 딥러닝 기반 음성 합성 장치 및 방법
KR20190085882A (ko) * 2018-01-11 2019-07-19 네오사피엔스 주식회사 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
KR20190127233A (ko) * 2018-05-04 2019-11-13 한양대학교 산학협력단 심화 신경망을 이용한 다화자 음성 합성 방법 및 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YE JIA; YU ZHANG; RON J. WEISS; QUAN WANG; JONATHAN SHEN; FEI REN; ZHIFENG CHEN; PATRICK NGUYEN; RUOMING PANG; IGNACIO LOPEZ MOREN: "Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 12 June 2018 (2018-06-12), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081425976 *

Also Published As

Publication number Publication date
US20230178066A1 (en) 2023-06-08
KR20220017285A (ko) 2022-02-11
US11908447B2 (en) 2024-02-20

Similar Documents

Publication Publication Date Title
WO2020190054A1 (ko) 음성 합성 장치 및 그 방법
CN111402855B (zh) 语音合成方法、装置、存储介质和电子设备
US10726826B2 (en) Voice-transformation based data augmentation for prosodic classification
WO2019139430A1 (ko) 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
CN112037754B (zh) 一种语音合成训练数据的生成方法及相关设备
WO2022188734A1 (zh) 一种语音合成方法、装置以及可读存储介质
WO2015005679A1 (ko) 음성 인식 방법, 장치 및 시스템
WO2021189984A1 (zh) 语音合成方法、装置、设备及计算机可读存储介质
CN111968618A (zh) 语音合成方法、装置
Malcangi Text-driven avatars based on artificial neural networks and fuzzy logic
Neekhara et al. Expressive neural voice cloning
WO2022045651A1 (ko) 합성 음성을 화자 이미지에 적용하는 방법 및 시스템
WO2023160553A1 (zh) 语音合成方法、装置、计算机可读介质及电子设备
CN113205793B (zh) 音频生成方法、装置、存储介质及电子设备
WO2020054980A1 (ko) 음소기반 화자모델 적응 방법 및 장치
Cao et al. [Retracted] Optimization of Intelligent English Pronunciation Training System Based on Android Platform
WO2020246641A1 (ko) 복수의 화자 설정이 가능한 음성 합성 방법 및 음성 합성 장치
WO2022265273A1 (ko) 고인을 모사하는 가상 인물과 대화를 수행하는 서비스를 제공하는 방법 및 시스템
WO2022203152A1 (ko) 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치
WO2022031060A1 (ko) 인공 신경망을 이용한 다화자 음성 합성 방법 및 장치
CN114783407B (zh) 语音合成模型训练方法、装置、计算机设备及存储介质
CN116665639A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
Novitasari et al. Dynamically Adaptive Machine Speech Chain Inference for TTS in Noisy Environment: Listen and Speak Louder.
US20220383850A1 (en) System and method for posthumous dynamic speech synthesis using neural networks and deep learning
WO2021182199A1 (ja) 情報処理方法、情報処理装置及び情報処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21852949

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21852949

Country of ref document: EP

Kind code of ref document: A1