WO2023248398A1 - 学習装置、学習方法、学習プログラム及び音声合成装置 - Google Patents

学習装置、学習方法、学習プログラム及び音声合成装置 Download PDF

Info

Publication number
WO2023248398A1
WO2023248398A1 PCT/JP2022/024985 JP2022024985W WO2023248398A1 WO 2023248398 A1 WO2023248398 A1 WO 2023248398A1 JP 2022024985 W JP2022024985 W JP 2022024985W WO 2023248398 A1 WO2023248398 A1 WO 2023248398A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
model
speech
parameters
text data
Prior art date
Application number
PCT/JP2022/024985
Other languages
English (en)
French (fr)
Inventor
直輝 牧島
亮 増村
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/024985 priority Critical patent/WO2023248398A1/ja
Publication of WO2023248398A1 publication Critical patent/WO2023248398A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Definitions

  • Non-Patent Document 1 describes, as a method for collaborative learning, a method in which a speech synthesis and speech recognition pipeline (TTS-ASR pipeline) is formed and the pipeline is trained using reconstruction errors. ing.
  • TTS-ASR pipeline speech synthesis and speech recognition pipeline
  • the speech synthesis model tends to output unnatural speech that is easily recognized by the speech recognition model.
  • unnatural speech may not be recognized as high-quality speech.
  • the learning device uses the first model to acquire data related to synthesized speech from first embedded data representing characteristics of the speaker and first text data.
  • a recognition unit that uses a second model to generate second text data from data related to the synthesized speech, the first embedded data, and characteristics of the speaker of the synthesized speech. updating parameters of the first model and parameters of the second model so that the second embedded data represented is similar, and the first text data and the second text data are similar; It is characterized by having a part.
  • the speech synthesis device uses the first model to perform synthesis from the first embedded data representing the characteristics of the speaker's utterance and the first text data.
  • Generate data related to voice use a second model to generate second text data from the data related to the synthesized voice, and combine the first embedded data and second text data representing characteristics of the utterance of the synthesized voice.
  • Parameters are updated by a process of updating the parameters of the first model and the parameters of the second model so that the embedded data is similar and the first text data and the second text data are similar.
  • the present invention is characterized by comprising a synthesis unit that generates data regarding synthesized speech from third embedded data representing characteristics of the speaker's utterance and third text data using the already completed first model.
  • FIG. 1 is a diagram illustrating an overview of learning processing according to the first embodiment.
  • FIG. 2 is a diagram showing an example of the configuration of the learning device.
  • FIG. 3 is a diagram illustrating the processing contents of the first learning device.
  • FIG. 4 is a diagram illustrating the processing contents of the second learning device.
  • FIG. 5 is a diagram illustrating the processing contents of the third learning device.
  • FIG. 6 is a diagram illustrating the processing contents of the fourth learning device.
  • FIG. 7 is a flowchart showing the flow of learning processing according to the first embodiment.
  • FIG. 8 is a diagram illustrating the processing contents of the speech recognition device.
  • FIG. 9 is a diagram illustrating the processing contents of the speech synthesis device.
  • FIG. 10 is a diagram illustrating the processing contents of the fourth learning device according to the second embodiment.
  • FIG. 11 is a diagram illustrating the processing contents of the fifth learning device and the sixth learning device according to the third embodiment.
  • FIG. 12 is a diagram showing the experimental results.
  • FIG. 1 is a diagram illustrating an overview of learning processing according to the first embodiment.
  • the parameters of each trained model are output by the first learning device 10, the second learning device 20, the third learning device 30, and the fourth learning device 40. be done.
  • FIG. 1 provides an overview of the entire learning process. Details of the processing in each learning device will be described later.
  • the model here includes a speech recognition model and a speech synthesis model.
  • Speech recognition models and speech synthesis models each include different neural networks.
  • a speech recognition model is a model that inputs speech data and outputs text data.
  • the voice data is a feature amount of voice, and for example, it is desirable for a voice recognition model to output text data that is a transcription of the voice indicated by the input voice data.
  • the speech synthesis model is a model that receives text data and reference speech data as input and outputs synthesized speech or synthesized speech data that is a feature amount of the synthesized speech. In this embodiment, it is assumed that the speech synthesis model outputs synthesized speech data. It is also assumed that the synthesized speech data can be converted into synthesized speech as appropriate.
  • the reference speech data is the feature amount of the speech of a single speaker or multiple speakers. For example, it is desirable for a speech synthesis model to generate synthesized speech that sounds like a speaker corresponding to reference speech data is reading out text data.
  • the supervised voice data and the supervised text data are paired data.
  • supervised voice data can be obtained by actually reading out supervised text data by a human.
  • machine learning using a sufficient amount of paired data of supervised audio data and supervised text data as learning data is referred to as supervised learning.
  • machine learning that uses a small amount of paired data and unsupervised text data as learning data is called semi-supervised learning.
  • Semi-supervised learning also includes cases where the learning data does not include paired data at all.
  • part of the learning process is performed by supervised learning, and the other part is performed by semi-supervised learning.
  • the second learning device 20 receives input of supervised speech data, supervised text data, and reference speech data, and independently performs learning of a speech synthesis model. In other words, the second learning device 20 performs supervised learning on the speech synthesis model. The second learning device 20 outputs the parameters of the trained speech synthesis model.
  • the second learning device 20 acquires embedded data from the reference audio data.
  • Speech synthesis models utilize embedded data to adapt synthesized speech data to the speaker.
  • the third learning device 30 receives input of parameters of a trained speech recognition model, parameters of a trained speech synthesis model, unsupervised text data, and reference speech data. Then, the third learning device 30 performs learning of a speech recognition model using synthesized speech data based on the input data.
  • a small amount of paired data may be used along with unsupervised text data. That is, the third learning device 30 performs semi-supervised learning on the speech synthesis model.
  • the third learning device 30 obtains synthesized speech data by inputting unsupervised text data and reference speech data to a speech synthesis model constructed from the parameters of a trained speech synthesis model.
  • the third learning device 30 further updates the parameters of the trained speech synthesis model. On the other hand, the third learning device 30 does not update the parameters of the trained speech synthesis model.
  • the third learning device 30 can prevent the speech synthesis model from outputting unnatural speech that is likely to be recognized by the speech recognition model. Furthermore, according to the third learning device 30, it is possible to improve the recognition accuracy of synthesized speech data using a speech recognition model.
  • the fourth learning device 40 receives input of parameters of a trained speech recognition model, parameters of a trained speech synthesis model, unsupervised text data, and reference speech data. Based on the input data, the fourth learning device 40 uses the recognition result (text data) of the synthesized speech data and the embedded data obtained from the synthesized speech to create a speech recognition model and a speech synthesis model. Perform both learning.
  • a small amount of paired data may be used along with unsupervised text data. That is, the fourth learning device 40 performs semi-supervised learning for both the speech recognition model and the speech synthesis model.
  • the fourth learning device 40 obtains synthesized speech data by inputting unsupervised text data and reference speech data to a speech synthesis model constructed from the parameters of a trained speech synthesis model.
  • the fourth learning device 40 obtains embedded data from the synthesized speech data.
  • the fourth learning device 40 receives the recognition result (text data) obtained by inputting the synthesized speech data into a speech recognition model constructed from the parameters of the trained speech recognition model, and the recognition result (text data) obtained from the synthesized speech data.
  • the parameters of both the speech synthesis model and the speech recognition model are updated based on the embedded data.
  • the fourth learning device 40 it is possible to prevent the speech synthesis model from outputting unnatural speech that is likely to be recognized by the speech recognition model. Furthermore, according to the fourth learning device 40, it is possible to improve the recognition accuracy of synthesized speech by the speech recognition model.
  • the third learning device 30 and the fourth learning device 40 it is possible to prevent the recognition accuracy of the speech recognition model from decreasing due to overfitting of the synthesized speech data to the speech recognition model.
  • the first learning device 10, second learning device 20, third learning device 30, and fourth learning device 40 in FIG. 1 may be realized by different devices.
  • the first learning device 10, the second learning device 20, the third learning device 30, and the fourth learning device 40 may be realized by one learning device as shown in FIG. 2.
  • FIG. 2 is a diagram showing an example of the configuration of the learning device.
  • the first learning device 10, second learning device 20, third learning device 30, and fourth learning device 40 in FIG. may be replaced with the learning step and the fourth learning step.
  • the learning device 5 shown in FIG. 2 executes a first learning step, a second learning step, a third learning step, and a fourth learning step.
  • the learning device 5 includes a communication section 51, a storage section 52, and a control section 53.
  • the communication unit 51 performs data communication with other devices.
  • the communication unit 51 is a NIC (Network Interface Card).
  • the communication unit 51 may be an interface for inputting and outputting data between an input device (for example, a mouse and a keyboard) and an output device (for example, a display).
  • the storage unit 52 is a storage device such as an HDD (Hard Disk Drive), an SSD (Solid State Drive), or an optical disk. Note that the storage unit 52 may be a data-rewritable semiconductor memory such as RAM (Random Access Memory), flash memory, NVSRAM (Non Volatile Static Random Access Memory), or the like.
  • the storage unit 52 stores an OS (Operating System) and various programs executed by the learning device 5.
  • the storage unit 52 stores speech recognition model parameters 521 and speech synthesis model parameters 522.
  • the speech recognition model parameters 521 and the speech synthesis model parameters 522 are updated as appropriate at each learning step.
  • the control unit 53 controls the entire learning device 5.
  • the control unit 53 is an electronic circuit such as a CPU (Central Processing Unit), an MPU (Micro Processing Unit), a GPU (Graphics Processing Unit), an ASIC (Application Specific Integrated Circuit), or an FPGA (Field Programmable Gate Array). integrated circuit Realized.
  • a CPU Central Processing Unit
  • MPU Micro Processing Unit
  • GPU Graphics Processing Unit
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • control unit 53 has an internal memory for storing programs and control data that define various processing procedures, and executes each process using the internal memory. Further, the control unit 53 functions as various processing units by running various programs.
  • control unit 53 includes an embedding unit 531, a combining unit 532, a recognition unit 533, and an updating unit 534.
  • the embedding unit 531 obtains embedded data from the audio data.
  • the synthesis unit 532 generates synthesized speech data from the text data and embedded data.
  • the synthesis unit 532 inputs text data and embedded data to a speech synthesis model, and outputs synthesized speech data.
  • the recognition unit 533 recognizes audio data.
  • the recognition unit 533 inputs voice data to a voice recognition model and outputs text data.
  • the updating unit 534 updates the parameters of the speech recognition model and the speech synthesis model. For example, the updating unit 534 updates the parameters of each model so that the error function created based on the output of at least one of the speech recognition model and the speech synthesis model is optimized.
  • each learning device learning step shown in FIG. 1
  • the embedding unit, synthesis unit, recognition unit, and update unit perform the same processing as the embedding unit 531, synthesis unit 532, recognition unit 533, and update unit 534 of the learning device 5, regardless of the attached symbols. It shall be practicable.
  • parameters for the speech recognition model and speech synthesis model are updated as appropriate for each learning device (learning step).
  • each learning device performs step-wise model optimization to improve the quality of synthesized speech, prevent overfitting of synthesized speech, and improve speech recognition.
  • the objective is to improve the accuracy of
  • FIG. 3 is a diagram illustrating the processing contents of the first learning device.
  • the first learning device 10 includes a recognition section 101 and an updating section 102.
  • the first learning device 10 performs supervised learning of a speech recognition model.
  • Supervised audio data X and supervised text data Y are input to the first learning device 10.
  • the supervised audio data X is expressed as (x 1 , . . . , x T ).
  • the element xt of the supervised audio data X is the feature amount of the t-th frame of the frames of length T, and is data with a predetermined number of dimensions.
  • the audio feature is, for example, log Mel filter bank coefficients (FBANK).
  • the features of the voice are not limited to the logarithmic mel filter van, but also MFCC (Mel frequency cepstral coefficient), ⁇ MFCC (first derivative of MFCC), ⁇ MFCC (second derivative of MFCC), logarithmic power, ⁇ logarithmic power (logarithmic power (first-order differential), etc.
  • the recognition unit 101 inputs supervised speech data X to the speech recognition model and outputs text data y.
  • the speech recognition model at this point may be in an initial state with arbitrary parameters set, for example, or may be one that has been trained to some extent.
  • the text data y can be said to be text data inferred by a speech recognition model.
  • Equation (1) The posterior probability of equation (1) is obtained by equations (2), (3), and (4).
  • TransformerDec( ⁇ ) is a part corresponding to a decoder of the speech recognition model.
  • the decoder includes an embedding layer and an attention mechanism between the encoder and the decoder.
  • ⁇ dec asr is a parameter of the decoder of the speech recognition model.
  • softmax( ⁇ ) is a softmax layer with a linear transformation layer.
  • ⁇ linear asr is a parameter of the softmax layer.
  • the first learning device 10 outputs the updated parameters as speech recognition model parameters 1a.
  • FIG. 4 is a diagram illustrating the processing contents of the second learning device.
  • the second learning device 20 includes an embedding section 201, a combining section 202, and an updating section 203.
  • the second learning device 20 performs supervised learning of a speech synthesis model.
  • SpeakerModel ( ⁇ ) is a trained model for acquiring embedded data.
  • ⁇ speaker is a parameter of SpeakerModel( ⁇ ). Note that in this embodiment, the parameter ⁇ speaker is not updated.
  • the synthesis unit 202 inputs supervised text data and embedded data to a speech synthesis model, and outputs synthesized speech data.
  • the synthetic speech model outputs synthetic speech data based on a method called "FastSpeech 2" (for example, see Reference 2), which is a transformer-type neural network.
  • Reference 2 Y. Ren, C. Hu, X. Tan, T. Qin, S. Zhao, Z. Zhao, and T. Liu, “FastSpeech 2: Fast and high-quality end-to-end text to speech ,”in Proc. ICLR, 2021.
  • the speech synthesis model outputs synthesized speech data ⁇ X (directly above X) using equations (7), (8), (9), and (10).
  • FastSpeech2Enc( ⁇ ) is a part corresponding to the encoder of the speech synthesis model.
  • the encoder includes a self-attention mechanism.
  • ⁇ enc tts is a parameter of the encoder of the speech synthesis model.
  • VarianceAdaptor (•) is a part of the speech synthesis model, and is a part that extracts parameters representing speaker characteristics from embedded data. VarianceAdaptor (•) extracts parameters regarding the pitch (p), energy (e), and duration (d) of the voice. ⁇ v tts is a parameter of VarianceAdaptor( ⁇ ).
  • FastSpeech2Dec(•) is a part of the speech synthesis model and corresponds to a decoder of the speech synthesis model.
  • the decoder is equipped with a self-attention mechanism.
  • ⁇ dec tts is a parameter of the decoder of the speech synthesis model.
  • the decoder uses the parameters extracted by VarianceAdaptor (•). This allows the synthesized speech data to match the speaker.
  • PostNet (.) is a part in the speech synthesis model that further converts the output from the decoder.
  • ⁇ post tts is a parameter of PostNet( ⁇ ).
  • ⁇ tts is the sum of ⁇ enc tts , ⁇ v tts , ⁇ dec tts and ⁇ post tts .
  • the updating unit 203 updates ⁇ tts so that the error function L TTS in equation (11) is minimized.
  • the updating unit 203 updates the parameters of the neural network using an error backpropagation method.
  • 1 is the L1 norm.
  • 2 is the L2 norm. Note that p, e, and d without ⁇ mean correct data for each predetermined parameter.
  • the second learning device 20 outputs the updated parameters as speech synthesis model parameters 1b.
  • FIG. 5 is a diagram illustrating the processing contents of the third learning device.
  • the third learning device 30 includes an embedding section 301, a synthesizing section 302, a recognizing section 303, and an updating section 304.
  • the third learning device 30 performs semi-supervised learning of a speech recognition model.
  • Unsupervised text data Yu and reference audio data ⁇ X are input to the third learning device 30. Further, the third learning device 30 constructs a model by referring to the speech recognition model parameters 1a and the speech synthesis model parameters 1b.
  • the synthesis unit 302 Similar to the synthesis unit 202, the synthesis unit 302 inputs text data and embedded data to a speech synthesis model, and outputs synthesized speech data. However, unlike the synthesis unit 202, the synthesis unit 302 inputs supervised text data to the speech synthesis model.
  • the recognition unit 303 inputs voice data to the voice recognition model and outputs text data. However, unlike the recognition unit 101, the recognition unit 303 inputs the synthesized speech data output by the synthesis unit 302 to the speech recognition model.
  • the updating unit 304 updates ⁇ asr so that the error function (cross entropy) L cycle in equation (12) is minimized. In this case, the updating unit 304 updates the speech recognition model parameter 1a to the speech recognition model parameter 2a.
  • the fourth learning device 40 updates the voice recognition model parameter 2a and outputs it as a voice recognition model parameter 3a. Furthermore, the fourth learning device 40 updates the speech synthesis model parameter 1b and outputs it as the speech synthesis model parameter 2b.
  • the embedding unit 404 obtains embedded data ⁇ s from the synthesized speech data ⁇ X output by the synthesizing unit 402, as shown in equation (14).
  • the updating unit 405 updates ⁇ asr and ⁇ tts so that the error function L prop in equation (16) is minimized.
  • the updating unit 405 updates the speech recognition model parameter 2a to the speech recognition model parameter 3a.
  • the updating unit 405 updates the speech synthesis model parameter 1b to the speech synthesis model parameter 2b.
  • the error function LSC is obtained by attaching a negative sign to the cosine similarity between the embedded data ⁇ s and the embedded data ⁇ s, both of which are vectors. Therefore, the updating unit 405 updates the parameters of the speech synthesis model and the parameters of the speech recognition model so that the cosine similarity between the embedded data ⁇ s, which is a vector, and the embedded data ⁇ s, which is a vector, increases. Can be done.
  • the learning device 5 first performs supervised learning of a speech recognition model (step S101). Next, the learning device 5 performs supervised learning of the speech synthesis model (step S102).
  • Steps S101 and S102 may be performed in advance by another device. In that case, the parameters of the updated speech recognition model and speech synthesis model are passed to the learning device 5.
  • the learning device 5 uses the synthesized speech data to perform semi-supervised learning of the speech recognition model (step S103).
  • the learning device 5 can obtain synthesized speech data from the unsupervised text data using the speech synthesis model trained in step S102.
  • the learning device 5 may simultaneously perform supervised learning of the speech recognition model using a smaller amount of supervised speech data and supervised text data than the unsupervised text data.
  • the learning device 5 performs semi-supervised learning of the speech recognition model and the speech synthesis model using the synthesized speech data and the embedded data of the synthesized speech data (step S104).
  • the learning device 5 can obtain synthesized speech data from the unsupervised text data using the speech synthesis model trained in step S102. Further, the learning device 5 can obtain the recognition result (reconstructed text data) of the synthesized speech data using the speech recognition model trained in step S103.
  • the learning device 5 may simultaneously perform supervised learning of the speech recognition model and the speech synthesis model using a smaller amount of supervised speech data and supervised text data than the unsupervised text data. .
  • step S103 the learning device 5 uses the cooperative learning method to learn only the speech recognition model after fixing the speech synthesis model. Then, in step S104, the learning device 5 unfixes the speech synthesis model and performs learning on both the speech recognition model and the speech synthesis model using the cooperative learning method.
  • FIG. 8 is a diagram illustrating the processing contents of the speech recognition device.
  • FIG. 9 is a diagram illustrating the processing contents of the speech synthesis device.
  • the speech recognition device 80 includes a recognition section 801.
  • the recognition unit 801 uses a speech recognition model constructed from the speech recognition model parameters 3a to generate text data from the speech model.
  • the speech recognition model parameters 3a have been updated by the fourth learning device 40.
  • the text data that becomes a pair of audio data may be unknown.
  • the speech synthesis device 90 includes an embedding section 901 and a synthesizing section 902.
  • the embedding unit 901 obtains embedding data from reference audio data.
  • the synthesis unit 902 generates speech data from the embedded data and text data using the speech synthesis model parameters 2b.
  • the speech synthesis model parameters 2b have been updated by the fourth learning device 40.
  • the audio data that is a pair of text data may be unknown.
  • the reference speech data input to the speech synthesis device 90 and the embedded data acquired from the reference speech data are the reference speech data and embedded data at the time of learning, that is, the reference speech data shown in FIGS. 4, 5, and 6. and the embedded data (output of the embedding unit) may be the same or may be different.
  • the speech recognition device 80 and the speech synthesis device 90 may be realized as one function of the learning device 5, or may be realized as independent devices.
  • the synthesis unit 532 uses the first model to generate data regarding synthesized speech from the first embedded data representing the characteristics of the speaker's utterance and the first text data. .
  • the recognition unit 533 uses the second model to generate second text data from data related to synthesized speech.
  • the updating unit 534 updates the first embedded data so that the first embedded data and the second embedded data representing the characteristics of the utterance of the synthesized speech are similar, and the first text data and the second text data are similar.
  • the parameters of the model and the parameters of the second model are updated. Note that this configuration corresponds to the fourth learning device 40.
  • the learning device 5 performs speech recognition so that the characteristics of the speaker obtained from the reference speech data (the first embedded data) and the features of the utterance obtained from the synthesized speech data (the second embedded data) are close to each other. Update the parameters of both the model (second model) and the speech synthesis model (first model). As a result, the speech synthesis model can be prevented from synthesizing unnatural speech that is easily recognized by the speech recognition model, and the quality of the synthesized speech can be improved.
  • the synthesis unit 532 uses the first model to generate data regarding synthesized speech from the third embedded data representing the characteristics of the speaker's utterance and the third text data.
  • the recognition unit 533 uses the second model to generate fourth text data from data related to synthesized speech.
  • the updating unit 534 updates the parameters of the first model so that the third text data and the fourth text data are similar.
  • the synthesis unit 532 uses the first model whose parameters have been updated in the first stage to generate first embedded data representing the characteristics of the speaker's utterance. Data regarding synthesized speech is generated from the first text data.
  • the recognition unit 533 uses the second model to generate second text data from data related to synthesized speech.
  • the update unit 534 determines whether the first embedded data and second embedded data representing the characteristics of the utterance of the synthesized speech are similar, and the first text data and the second text data are similar.
  • the parameters of the first model and the parameters of the second model are updated accordingly. Note that the configuration of the first stage corresponds to the third learning device 30. Further, the configuration of the second stage corresponds to the fourth learning device 40.
  • both the third learning device 30 and the fourth learning device 40 can provide a certain amount of effects such as improving the quality of synthesized speech and suppressing overfitting of the speech synthesis model.
  • the updating unit 534 updates the parameters of the first model and the parameters of the second model so that the degree of similarity between the first embedded data, which is a vector, and the second embedded data, which is a vector, increases.
  • the similarity may be any index that represents the closeness between data (between vectors), and is not limited to cosine similarity but may be Euclidean distance or the like.
  • the synthesis unit 532 uses the first model whose parameters have been updated by the update unit 534 to extract data related to synthesized speech from the fourth embedded data representing the characteristics of the speaker's utterance and the fifth text data. generate.
  • the fourth learning device 40 receives the speech recognition model parameters 1a from the first learning device 10.
  • the quality of synthesized speech can be improved with a simple configuration.
  • FIG. 11 is a diagram illustrating the processing contents of the fifth learning device and the sixth learning device according to the third embodiment.
  • the processing by the fourth learning device 40 is omitted, and the same processing as the third learning device 30 is realized by two-step learning by the fifth learning device 50 and the sixth learning device 60. be done.
  • reference audio data and embedded data are not used.
  • the fifth learning device 50 includes a synthesizing section 501, a recognizing section 502, and an updating section 503.
  • the sixth learning device 60 includes a synthesizing section 601, a recognizing section 602, and an updating section 603.
  • the fifth learning device 50 does not update the speech synthesis model parameter 1b. As a result, similar to the first embodiment, the effect of gradual learning can be obtained.
  • the sixth learning device 60 constructs a speech recognition model from the speech recognition model parameters 5a and a speech synthesis model from the speech synthesis model parameters 1b.
  • the fifth learning device 50 outputs a speech recognition model parameter 6a that is an updated version of the speech recognition model parameter 5a, and a speech synthesis model parameter 6b that is an updated version of the speech synthesis model parameter 1b.
  • overfitting of the speech synthesis model can be suppressed with no need for embedded data and a simple configuration.
  • the learning device provides a specific improvement over the conventional machine learning method as described in Non-Patent Document 1, and is related to speech recognition and speech synthesis using a machine learning model. It shows improvement in the technical field.
  • FIG. 12 shows the results of an experiment comparing the embodiment and the conventional technology.
  • FIG. 12 is a diagram showing the experimental results.
  • the conventional technique shown in FIG. 12 uses supervised learning to update the parameters of the speech recognition model based on the error function L CE shown in equation (5), and supervised learning to update the parameters of the speech recognition model based on the error function L TTS shown in equation (11).
  • This is a method in which the parameters of the voice recognition synthesis model are updated, and the parameters of both the voice recognition recognition model and the voice recognition synthesis model are updated by semi-supervised learning based on the error function L cycle shown in equation (12).
  • PER is an index that indicates the accuracy of a speech recognition model.
  • MCD and F0 RMSE are indicators of the accuracy of the speech synthesis model. The smaller each index is, the higher the accuracy is.
  • the embodiment produced better results than the conventional technology in terms of PER, MCD, and F0 RMSE.
  • each component of each device shown in the drawings is functionally conceptual, and does not necessarily need to be physically configured as shown in the drawings.
  • the specific form of distributing and integrating each device is not limited to what is shown in the diagram, and all or part of the devices may be functionally or physically distributed or integrated in arbitrary units depending on various loads and usage conditions. Can be integrated and configured.
  • each processing function performed by each device is realized in whole or in part by a CPU (Central Processing Unit) and a program that is analyzed and executed by the CPU, or by hardware using wired logic. It can be realized as Note that the program may be executed not only by the CPU but also by another processor such as a GPU.
  • a CPU Central Processing Unit
  • the learning device 5 can be implemented by installing a learning program that executes the above-described learning process into a desired computer as packaged software or online software. For example, by causing the information processing device to execute the above learning program, the information processing device can be made to function as the learning device 5.
  • the information processing device referred to here includes a desktop or notebook personal computer.
  • information processing devices include mobile communication terminals such as smartphones, mobile phones, and PHSs (Personal Handyphone Systems), as well as slate terminals such as PDAs (Personal Digital Assistants).
  • the learning device 5 can also be implemented as a learning server device that uses a terminal device used by a user as a client and provides services related to the above-mentioned learning processing to the client.
  • a learning server device is implemented as a server device that provides a learning service that takes learning data as input and outputs parameters of a trained model.
  • the learning server device may be implemented as a Web server, or may be implemented as a cloud that provides services related to the above-mentioned learning processing by outsourcing.
  • FIG. 13 is a diagram showing an example of a computer that executes a learning program.
  • Computer 1000 includes, for example, a memory 1010 and a CPU 1020.
  • the computer 1000 also includes a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These parts are connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012.
  • the ROM 1011 stores, for example, a boot program such as BIOS (Basic Input Output System).
  • Hard disk drive interface 1030 is connected to hard disk drive 1090.
  • Disk drive interface 1040 is connected to disk drive 1100.
  • Serial port interface 1050 is connected to, for example, mouse 1110 and keyboard 1120.
  • Video adapter 1060 is connected to display 1130, for example.
  • the hard disk drive 1090 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. That is, a program that defines each process of the learning device 5 is implemented as a program module 1093 in which computer-executable code is written.
  • Program module 1093 is stored in hard disk drive 1090, for example.
  • a program module 1093 for executing processing similar to the functional configuration of the learning device 5 is stored in the hard disk drive 1090.
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the setting data used in the processing of the embodiment described above is stored as program data 1094 in, for example, the memory 1010 or the hard disk drive 1090. Then, the CPU 1020 reads out the program module 1093 and program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary, and executes the processing of the embodiment described above.
  • program module 1093 and the program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like.
  • the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). The program module 1093 and program data 1094 may then be read by the CPU 1020 from another computer via the network interface 1070.
  • LAN Local Area Network
  • WAN Wide Area Network
  • the processor includes: Using the first model, generate data regarding synthesized speech from first embedded data representing characteristics of the speaker's utterance and first text data; generating second text data from data regarding the synthesized speech using a second model; The first embedded data and the second embedded data representing characteristics of the utterance of the synthesized speech are similar, and the first text data and the second text data are similar.
  • a learning device that updates parameters of a model and parameters of the second model.
  • a non-transitory storage medium storing a program executable by a computer to perform a learning process, The learning process is Using the first model, generate data regarding synthesized speech from first embedded data representing characteristics of the speaker's utterance and first text data; generating second text data from data regarding the synthesized speech using a second model; The first embedded data and the second embedded data representing characteristics of the utterance of the synthesized speech are similar, and the first text data and the second text data are similar. and the parameters of the second model.
  • a non-transitory storage medium storing a program executable by a computer to perform a learning process, The learning process is Using the first model, generate data regarding synthesized speech from first embedded data representing characteristics of the speaker's utterance and first text data; generating second text data from data regarding the synthesized speech using a second model; The first embedded data and the second embedded data representing characteristics of the utterance of the synthesized speech are similar, and the first text data and the second text data are similar. and the parameters of the second
  • the processor includes: In the first step, using the first model, generate data regarding synthesized speech from third embedded data representing characteristics of the speaker's utterance and third text data, In the first step, using the second model, generate fourth text data from data regarding the synthesized speech, In the first step, parameters of the first model are updated so that the third text data and the fourth text data are similar; In a second step after the first step, the first embedded data representing the characteristics of the speaker's utterance and the first Generate data related to synthesized speech from the text data of in the second step, using the second model to generate the second text data from data regarding the synthesized speech; In the second step, the first embedded data and second embedded data representing characteristics of the utterance of the synthesized speech are similar, and the first text data and the second text data are similar.
  • a learning device that updates parameters of the first model and parameters of the second model so as to update parameters of the first model and the second model.
  • a non-transitory storage medium storing a program executable by a computer to perform a learning process,
  • the learning process is In the first step, using the first model, generate data regarding synthesized speech from third embedded data representing characteristics of the speaker's utterance and third text data, In the first step, using the second model, generate fourth text data from data regarding the synthesized speech, In the first step, parameters of the first model are updated so that the third text data and the fourth text data are similar; In a second step after the first step, the first embedded data representing the characteristics of the speaker's utterance and the first Generate data related to synthesized speech from the text data of in the second step, using the second model to generate the second text data from data regarding the synthesized speech; In the second step, the first embedded data and second embedded data representing characteristics of the utterance of the synthesized speech are similar, and the first text data and the second text data are similar. updating the parameters of the first model and the parameters of the second model so as to update the parameters of the first model and
  • a first model is used to generate data related to synthesized speech from first embedded data representing characteristics of the speaker's utterance and first text data
  • a second model is used to generate data related to the synthesized speech.
  • second text data is generated from the data, the first embedded data and second embedded data representing characteristics of the utterance of the synthesized speech are similar, and the first text data and the second embedded data are similar;
  • a speech synthesis device comprising a synthesis section that generates data related to synthesized speech from fourth embedded data representing characteristics of a speaker's utterance and fifth text data.
  • a speech synthesis method executed by a speech synthesis device wherein data regarding synthesized speech is generated from first embedded data representing characteristics of a speaker's utterance and first text data using a first model. Then, using a second model, second text data is generated from the data regarding the synthesized voice, and the first embedded data and second embedded data representing the characteristics of the utterance of the synthesized voice are similar. and the first text data whose parameters have been updated by a process of updating the parameters of the first model and the parameters of the second model so that the first text data and the second text data are similar.
  • a speech synthesis method comprising a synthesis step of generating data regarding synthesized speech from fourth embedded data representing characteristics of a speaker's utterance and fifth text data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

第4の学習装置(40)は、音声合成モデルを用いて、話者の発話の特徴を表す第1の埋め込みデータと第1のテキストデータとから、合成音声に関するデータを生成する。第4の学習装置(40)は、音声合成モデルを用いて、合成音声に関するデータから第2のテキストデータを生成する。第4の学習装置(40)は、第1の埋め込みデータと、合成音声の発話の特徴を表す第2の埋め込みデータとが類似し、かつ第1のテキストデータと第2のテキストデータが類似するように、音声合成モデルのパラメータ及び音声合成モデルのパラメータを更新する。

Description

学習装置、学習方法、学習プログラム及び音声合成装置
 本発明は、学習装置、学習方法、学習プログラム及び音声合成装置に関する。
 従来、音声認識(ASR:automatic speech recognition)モデルと音声合成(TTS:text to speech)モデルの協調学習を行う技術が知られている。
 音声認識モデルは、音声を入力としてその発話内容を出力するモデルである。音声合成モデルは、テキストと参照音声を入力として参照音声の話者でテキストを読み上げた音声を出力するモデルである。モデルは、例えばニューラルネットワークである。
 音声認識モデル及び音声合成モデルの学習をそれぞれ単独で行う場合には、音声とテキストのペアデータが大量に用意されていること、すなわち教師あり条件が満たされていることが必要である。
 一方で、音声認識モデルと音声合成モデルの協調学習を行う場合には、音声とテキストの少量のペアデータと大量のテキストのみのデータ(以降、テキストデータと記載する)が用意されていればよい。すなわち、音声認識モデルと音声合成モデルの協調学習を行う場合には、半教師あり条件が満たされていればよい。
 例えば、非特許文献1には、協調学習を行うための手法として、音声合成と音声認識のパイプライン(TTS-ASR pipeline)を形成し,当該パイプラインを再構成誤差で学習する手法が記載されている。
M. K. Baskar, L. Burget, S. Watanabe, R. F. Astudillo, and J. H. Cernocky, "Eat: Enhanced ASR-TTS for self-supervised speech recognition," in Proc. ICASSP, 2021, pp. 6753-6757.
 しかしながら、従来の技術には、品質の良い合成音声が得られない場合があるという問題がある。
 例えば、非特許文献1に記載された手法で音声認識モデルと音声合成モデルの協調学習を行う場合、音声合成モデルは、音声認識モデルによって認識されやすい不自然な音声を出力するようになる傾向がある。
 例えば、人間が話しているような自然な合成音声が求められている場合、不自然な音声は品質の良い音声と認められないことがある。
 上述した課題を解決し、目的を達成するために、学習装置は、第1のモデルを用いて、話者の特徴を表す第1の埋め込みデータと第1のテキストデータとから、合成音声に関するデータを生成する合成部と、第2のモデルを用いて、前記合成音声に関するデータから第2のテキストデータを生成する認識部と、前記第1の埋め込みデータと、前記合成音声の話者の特徴を表す第2の埋め込みデータとが類似し、かつ前記第1のテキストデータと前記第2のテキストデータが類似するように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する更新部と、を有することを特徴とする。
 上述した課題を解決し、目的を達成するために、音声合成装置は、第1のモデルを用いて、話者の発話の特徴を表す第1の埋め込みデータと第1のテキストデータとから、合成音声に関するデータを生成し、第2のモデルを用いて、前記合成音声に関するデータから第2のテキストデータを生成し、前記第1の埋め込みデータと、前記合成音声の発話の特徴を表す第2の埋め込みデータとが類似し、かつ前記第1のテキストデータと前記第2のテキストデータが類似するように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する処理によってパラメータが更新済みの前記第1のモデルを用いて、話者の発話の特徴を表す第3の埋め込みデータと第3のテキストデータとから、合成音声に関するデータを生成する合成部を有することを特徴とする。
 本発明によれば、品質の良い合成音声を得ることができる。
図1は、第1の実施形態に係る学習処理の概要を説明する図である。 図2は、学習装置の構成例を示す図である。 図3は、第1の学習装置の処理内容を説明する図である。 図4は、第2の学習装置の処理内容を説明する図である。 図5は、第3の学習装置の処理内容を説明する図である。 図6は、第4の学習装置の処理内容を説明する図である。 図7は、第1の実施形態に係る学習処理の流れを示すフローチャートである。 図8は、音声認識装置の処理内容を説明する図である。 図9は、音声合成装置の処理内容を説明する図である。 図10は、第2の実施形態に係る第4の学習装置の処理内容を説明する図である。 図11は、第3の実施形態に係る第5の学習装置及び第6の学習装置の処理内容を説明する図である。 図12は、実験結果を示す図である。 図13は、学習プログラムを実行するコンピュータの一例を示す図である。
 以下に、本願に係る学習装置、学習方法、学習プログラム及び音声合成装置の実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。
[第1の実施形態]
 まず、図1を用いて、第1の実施形態の概要を説明する。図1は、第1の実施形態に係る学習処理の概要を説明する図である。
 図1に示すように、本実施形態では、第1の学習装置10、第2の学習装置20、第3の学習装置30及び第4の学習装置40により、学習済みの各モデルのパラメータが出力される。なお、図1では、学習処理全体の概要を説明する。各学習装置における処理の詳細については後述する。
 ここでいうモデルには、音声認識モデルと音声合成モデルが含まれる。音声認識モデル及び音声合成モデルは、それぞれが異なるニューラルネットワークを含む。
 音声認識モデルは、音声データを入力として、テキストデータを出力するモデルである。音声データは、音声の特徴量であり、例えば、音声認識モデルには、入力された音声データが示す音声を書き起こしたようなテキストデータを出力することが望まれる。
 音声合成モデルは、テキストデータ及び参照音声データを入力として、合成音声又は合成音声の特徴量である合成音声データを出力するモデルである。本実施形態では、音声合成モデルは合成音声データを出力するものとする。また、合成音声データは適宜合成音声に変換可能であるものとする。
 参照音声データは、単独又は複数の話者の音声の特徴量である。例えば、音声合成モデルには、参照音声データに対応する話者が、テキストデータを読み上げているような合成音声を生成することが望まれる。
 ここで、教師あり音声データ及び教師ありテキストデータはペアになったデータである。例えば、教師ありテキストデータを実際に人間が読み上げることにより、教師あり音声データが得られる。
 一方で、教師なしテキストデータとペアとなる音声データは存在していなくてもよい。このため、教師なしテキストデータを大量に用意することは、音声データ及び教師ありテキストデータを大量に用意することに比べて容易である。
 つまり、モデルの学習において、教師なし条件は、教師あり条件に比べて容易に満たすことができる。
 本実施形態では、十分な量の教師あり音声データ及び教師ありテキストデータのペアデータを学習データとして用いた機械学習を教師あり学習と呼ぶ。また、少量のペアデータと教師なしテキストデータを学習データとして用いた機械学習を半教師あり学習と呼ぶ。半教師あり学習には、学習データにペアデータが全く含まれない場合も含まれる。
 本実施形態では、学習処理の一部が教師あり学習により行われ、他の部分は半教師あり学習により行われる。
 図1に示すように、第1の学習装置10は、教師あり音声データと教師ありテキストデータの入力を受け付け、音声認識モデルの学習を独立して行う。言い換えると、第1の学習装置10は、音声認識モデルについて教師あり学習を行う。第1の学習装置10は、学習済みの音声認識モデルのパラメータを出力する。
 第2の学習装置20は、教師あり音声データ、教師ありテキストデータ及び参照音声データの入力を受け付け、音声合成モデルの学習を独立して行う。言い換えると、第2の学習装置20は、音声合成モデルについて教師あり学習を行う。第2の学習装置20は、学習済みの音声合成モデルのパラメータを出力する。
 第2の学習装置20は、参照音声データから埋め込みデータを取得する。音声合成モデルは、埋め込みデータを利用して合成音声データを話者に適応させる。
 第3の学習装置30は、学習済みの音声認識モデルのパラメータ、学習済みの音声合成モデルのパラメータ、教師なしテキストデータ及び参照音声データの入力を受け付ける。そして、第3の学習装置30は、入力されたデータを基に、合成音声データを使った音声認識モデルの学習を行う。第3の学習装置30は、第2の学習装置20と同様に、参照音声データから埋め込みデータを取得する。
 第3の学習装置30では、教師なしテキストデータとともに、少量のペアデータが用いられてもよい。すなわち、第3の学習装置30は、音声合成モデルについて半教師あり学習を行う。
 第3の学習装置30は、学習済みの音声合成モデルのパラメータから構築された音声合成モデルに教師なしテキストデータ及び参照音声データを入力することにより合成音声データを得る。
 また、第3の学習装置30は、学習済みの音声合成モデルのパラメータをさらに更新する。一方で、第3の学習装置30は、学習済みの音声合成モデルのパラメータを更新しない。
 このため、第3の学習装置30によれば、音声合成モデルが、音声認識モデルに認識されやすい不自然な音声を出力するようになることを防止できる。さらに、第3の学習装置30によれば、音声認識モデルによる合成音声データに対する認識精度を向上させることができる。
 第4の学習装置40は、学習済みの音声認識モデルのパラメータ、学習済みの音声合成モデルのパラメータ、教師なしテキストデータ及び参照音声データの入力を受け付ける。そして、第4の学習装置40は、入力されたデータを基に、合成音声データの認識結果(テキストデータ)と、合成音声から得られる埋め込みデータと、を使って、音声認識モデルと音声合成モデルの両方の学習を実行する。
 第4の学習装置40では、教師なしテキストデータとともに、少量のペアデータが用いられてもよい。すなわち、第4の学習装置40は、音声認識モデルと音声合成モデルの両方について半教師あり学習を行う。
 第4の学習装置40は、学習済みの音声合成モデルのパラメータから構築された音声合成モデルに教師なしテキストデータ及び参照音声データを入力することにより合成音声データを得る。
 さらに、第4の学習装置40は、合成音声データから埋め込みデータを取得する。
 そして、第4の学習装置40は、学習済みの音声認識モデルのパラメータから構築された音声認識モデルに合成音声データを入力して得られた認識結果(テキストデータ)と、合成音声データから取得された埋め込みデータを基に、音声合成モデルと音声認識モデルの両方のパラメータを更新する。
 これにより、第4の学習装置40によれば、音声合成モデルが、音声認識モデルに認識されやすい不自然な音声を出力するようになることを防止できる。さらに、第4の学習装置40によれば、音声認識モデルによる合成音声に対する認識精度を向上させることができる。
 また、第3の学習装置30及び第4の学習装置40によれば、合成音声データが音声認識モデルに過適合することで音声認識モデルの認識精度が低下することを抑止できる。
 図1の第1の学習装置10、第2の学習装置20、第3の学習装置30及び第4の学習装置40は、それぞれ異なる装置により実現されてもよい。一方で、第1の学習装置10、第2の学習装置20、第3の学習装置30及び第4の学習装置40は、図2に示すような1つの学習装置により実現されてもよい。図2は、学習装置の構成例を示す図である。
 例えば、図1の第1の学習装置10、第2の学習装置20、第3の学習装置30及び第4の学習装置40は、それぞれ第1の学習ステップ、第2の学習ステップ、第3の学習ステップ及び第4の学習ステップと置き換えられてもよい。この場合、図2に示す学習装置5が、第1の学習ステップ、第2の学習ステップ、第3の学習ステップ及び第4の学習ステップを実行する。
 図2に示すように、学習装置5は、通信部51、記憶部52及び制御部53を有する。
 通信部51は、他の装置との間でデータ通信を行う。例えば、通信部51はNIC(Network Interface Card)である。また、通信部51は、入力装置(例えばマウス及びキーボード)及び出力装置(例えばディスプレイ)との間でデータの入出力を行うためのインタフェースであってもよい。
 記憶部52は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、光ディスク等の記憶装置である。なお、記憶部52は、RAM(Random Access Memory)、フラッシュメモリ、NVSRAM(Non Volatile Static Random Access Memory)等のデータを書き換え可能な半導体メモリであってもよい。記憶部52は、学習装置5で実行されるOS(Operating System)や各種プログラムを記憶する。
 記憶部52は、音声認識モデルパラメータ521及び音声合成モデルパラメータ522を記憶する。音声認識モデルパラメータ521及び音声合成モデルパラメータ522は、各学習ステップにおいて適宜更新される。
 制御部53は、学習装置5全体を制御する。例えば、制御部53は、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)といった電子回路又は集積回路により実現される。
 また、制御部53は、各種の処理手順を規定したプログラム及び制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部53は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部53は、埋め込み部531、合成部532、認識部533及び更新部534を有する。
 埋め込み部531は、音声データから埋め込みデータを取得する。
 合成部532は、テキストデータと埋め込みデータから合成音声データを生成する。合成部532は、音声合成モデルにテキストデータと埋め込みデータを入力し、合成音声データを出力させる。
 認識部533は、音声データの認識を行う。認識部533は、音声データを音声認識モデルに入力し、テキストデータを出力させる。
 更新部534は、音声認識モデル及び音声合成モデルのパラメータを更新する。例えば、更新部534は、音声認識モデル及び音声合成モデルの少なくともいずれかの出力を基に作成された誤差関数が最適化されるように、各モデルのパラメータを更新する。
 図1に示した各学習装置(学習ステップ)の詳細を説明する。以降の説明では、埋め込み部、合成部、認識部及び更新部は、付された符号にかかわらず、学習装置5の埋め込み部531、合成部532、認識部533及び更新部534と同様の処理を実行可能であるものとする。
 ただし、各部に入力されるデータは、学習装置(学習ステップ)ごとに異なる。例えば、認識部に入力される音声データは、教師あり音声データであってもよいし、教師なし音声データであってもよいし、教師あり音声データと教師なし音声データの両方であってもよい。
 また、更新部については、各学習装置(学習ステップ)において、音声認識モデル、音声合成モデル又はその両方のパラメータを更新するという点で共通する一方で、パラメータの更新のために作成される誤差関数はそれぞれ異なる場合がある。
 また、音声認識モデルと音声合成モデルについては、学習装置(学習ステップ)ごとに適宜パラメータが更新されていく。
 一例として、本実施形態では、各学習装置(学習ステップ)による段階的な(step-wise)モデルの最適化を行うことにより、合成音声の品質向上、及び合成音声の過適合の防止、音声認識の精度の向上といった目的が達成される。
[第1の学習装置]
 図3は、第1の学習装置の処理内容を説明する図である。図3に示すように、第1の学習装置10は、認識部101及び更新部102を有する。第1の学習装置10は、音声認識モデルの教師あり学習を行う。
 第1の学習装置10には、教師あり音声データX及び教師ありテキストデータYが入力される。
 教師あり音声データXは(x,…,x)のように表される。ただし、教師あり音声データXの要素xは長さTのフレームのうちの第tフレームの特徴量であり、所定の次元数のデータである。
 音声の特徴量は、例えば対数メルフィルタバンク(FBANK:log Mel filterbank coefficients)である。また、音声の特徴量は対数メルフィルタバンに限られず、MFCC(Mel frequency cepstral coefficient)、ΔMFCC(MFCCの1階微分)、ΔΔMFCC(MFCCの2階微分)、対数パワー、Δ対数パワー(対数パワーの1階微分)等であってもよい。
 認識部101は、音声認識モデルに教師あり音声データXを入力し、テキストデータyを出力させる。この時点での音声認識モデルは、例えば任意のパラメータが設定された初期状態のものであってよいし、ある程度学習が行われたものであってもよい。テキストデータyは、音声認識モデルによって推論されたテキストデータということができる。
 テキストデータyは(y,…,y)のように表される。ただし、テキストデータyの要素yは、トークン化されたテキストの第lトークンである。Lはトークンの系列の長さである。例えば、テキストは音素ごとにトークン化される。
 更新部102は、(1)式の事後確率が最大化されるように、音声認識モデルのパラメータを更新する。
Figure JPOXMLDOC01-appb-M000001
 ここで、本実施形態の音声認識モデルは、エンコーダ及びデコーダを備えた、トランスフォーマ型のニューラルネットワークであるものとする(例えば参考文献1を参照)。Θasrは、ニューラルネットワークの重み及びバイアス等のパラメータである。
 参考文献1: L. Dong, S. Xu, and B. Xu, “Speech-transformer: A norecurrencesequence-to-sequence model for speech recognition,” in Proc. ICASSP, 2018, pp. 5884-5888.
 (1)式の事後確率は、(2)式、(3)式及び(4)式によって得られる。
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
 ただし、TransformerEnc(・)は、音声認識モデルのエンコーダに相当する部分である。ただし、エンコーダは、自己注意機構を備える。θenc asrは、音声認識モデルのエンコーダのパラメータである。
 また、TransformerDec(・)は、音声認識モデルのデコーダに相当する部分である。ただし、デコーダは、埋め込み層及びエンコーダとデコーダとの間の注意機構を備える。θdec asrは、音声認識モデルのデコーダのパラメータである。
 softmax(・)は、線形変換層を持ったソフトマックス層である。θlinear asrは、ソフトマックス層のパラメータである。
 [y]は、教師ありテキストデータYの要素yに対応する確率である。学習においては、音声認識モデルが、yからyl-1までの要素の系列から、次の要素としてylを予測する確率が最大化される。
 また、Θasrは、θenc asr、θdec asr及びθlinear asrを合わせたものである。更新部102は、(5)式の誤差関数(クロスエントロピー)LCEが最小化されるようにΘasrを更新する。例えば、更新部102は、誤差逆伝播法によりニューラルネットワークのパラメータを更新する。
Figure JPOXMLDOC01-appb-M000005
 第1の学習装置10は、更新されたパラメータを、音声認識モデルパラメータ1aとして出力する。
[第2の学習装置]
 図4は、第2の学習装置の処理内容を説明する図である。図4に示すように、第2の学習装置20は、埋め込み部201、合成部202及び更新部203を有する。第2の学習装置20は、音声合成モデルの教師あり学習を行う。
 第2の学習装置20には、教師あり音声データX、教師ありテキストデータY及び参照音声データ~X(Xの直上に~)が入力される。
 参照音声データ~Xは、話者の発する音声の特徴を示すデータであり、教師あり音声データXと同様の形式で表される。例えば、教師あり音声データXと参照音声データ~Xの各要素の次元数は等しい。ただし、参照音声データ~Xの要素数(フレームの長さ)は教師あり音声データXと異なっていてもよい。
 埋め込み部201は、参照音声データ~Xから埋め込みデータを取得する。埋め込みデータは、人手等によりあらかじめ1以上の次元数が設定されたベクトルである。埋め込みデータの各要素は連続値を取る。
 埋め込み部201は、例えばリカレントニューラルネットワーク等の任意の関数により参照音声データを埋め込みデータに変換することができる。埋め込み部201は、(6)式のように埋め込みデータ~sを計算する。
Figure JPOXMLDOC01-appb-M000006
 ただし、SpeakerModel(・)は埋め込みデータを取得するための学習済みのモデルである。また、θspeakerは、SpeakerModel(・)のパラメータである。なお、本実施形態ではパラメータθspeakerの更新は行われない。
 合成部202は、教師ありテキストデータ及び埋め込みデータを音声合成モデルに入力し、合成音声データを出力させる。例えば、合成音声モデルは、トランスフォーマ型のニューラルネットワークである「FastSpeech 2」と呼ばれる手法(例えば、参考文献2を参照)に基づき、合成音声データを出力する。
 参考文献2: Y. Ren, C. Hu, X. Tan, T. Qin, S. Zhao, Z. Zhao, and T. Liu,“FastSpeech 2: Fast and high-quality end-to-end text to speech,”in Proc. ICLR, 2021.
 音声合成モデルは、(7)式、(8)式、(9)式及び(10)式により合成音声データ^X(Xの直上に^)を出力する。
Figure JPOXMLDOC01-appb-M000007
Figure JPOXMLDOC01-appb-M000008
Figure JPOXMLDOC01-appb-M000009
Figure JPOXMLDOC01-appb-M000010
 ただし、FastSpeech2Enc(・)は、音声合成モデルのエンコーダに相当する部分である。ただし、エンコーダは、自己注意機構を備える。θenc ttsは、音声合成モデルのエンコーダのパラメータである。
 VarianceAdaptor(・)は、音声合成モデルの一部であって、埋め込みデータから話者の特徴を表すパラメータを抽出する部分である。VarianceAdaptor(・)は、音声のピッチ(p)エネルギー(e)、継続時間(d)に関するパラメータを抽出する。θva ttsは、VarianceAdaptor(・)のパラメータである。
 また、FastSpeech2Dec(・)は、音声合成モデルの一部であって、音声合成モデルのデコーダに相当する部分である。ただし、デコーダは、自己注意機構を備える。θdec ttsは、音声合成モデルのデコーダのパラメータである。
 デコーダでは、VarianceAdaptor(・)によって抽出されたパラメータが用いられる。これにより、合成音声データは話者に適合する。
 また、PostNet(・)は、音声合成モデルにおいて、デコーダからの出力をさらに変換する部分である。θpost ttsは、PostNet(・)のパラメータである。
 また、Θttsは、θenc tts、θva tts、θdec tts及びθpost ttsを合わせたものである。更新部203は、(11)式の誤差関数LTTSが最小化されるようにΘttsを更新する。例えば、更新部203は、誤差逆伝播法によりニューラルネットワークのパラメータを更新する。||・||は、L1ノルムである。||・||は、L2ノルムである。なお、^が付かないp、e、dは、あらかじめ定められた各パラメータの正解データを意味する。
Figure JPOXMLDOC01-appb-M000011
 第2の学習装置20は、更新されたパラメータを、音声合成モデルパラメータ1bとして出力する。
[第3の学習装置]
 図5は、第3の学習装置の処理内容を説明する図である。図5に示すように、第3の学習装置30は、埋め込み部301、合成部302、認識部303及び更新部304を有する。第3の学習装置30は、音声認識モデルの半教師あり学習を行う。
 第3の学習装置30には、教師なしテキストデータYu及び参照音声データ~Xが入力される。また、第3の学習装置30には、音声認識モデルパラメータ1a及び音声合成モデルパラメータ1bを参照してモデルを構築する。
 また、第3の学習装置30は、音声認識モデルパラメータ1aを更新し、音声認識モデルパラメータ2aとして出力する。一方で、第3の学習装置30は、音声合成モデルパラメータ1bを更新しない。
 埋め込み部301は、埋め込み部201と同様に、参照音声データ~Xから埋め込みデータを取得する。
 合成部302は、合成部202と同様に、テキストデータ及び埋め込みデータを音声合成モデルに入力し、合成音声データを出力させる。ただし、合成部302は、合成部202と異なり、教師ありテキストデータを音声合成モデルに入力する。
 認識部303は、認識部101と同様に、音声認識モデルに音声データを入力し、テキストデータを出力させる。ただし、認識部303は、認識部101と異なり、合成部302によって出力された合成音声データを音声認識モデルに入力する。
 更新部304は、(12)式の誤差関数(クロスエントロピー)Lcycleが最小化されるようにΘasrを更新する。この場合、更新部304は、音声認識モデルパラメータ1aを音声認識モデルパラメータ2aに更新する。
Figure JPOXMLDOC01-appb-M000012
 (5)式では教師あり音声データXが用いられているのに対し、(12)式では合成音声データ^Xが用いられている。
 なお、埋め込み部301及び合成部302は、(13)式のように、参照音声データ~X及び教師なしテキストデータYu((13)式のy)から、合成音声データ^Xを得る。ただし、TTS(・)は埋め込みデータを取得するためのモデルと音声合成モデルを合わせたものであり、(6)式、(7)式、(8)式、(9)式及び(10)式を合わせたものに相当する。
Figure JPOXMLDOC01-appb-M000013
 第3の学習装置30は、更新されたパラメータを、音声認識モデルパラメータ2aとして出力する。
[第4の学習装置]
 図6は、第4の学習装置の処理内容を説明する図である。図6に示すように、第4の学習装置40は、埋め込み部401、合成部402、認識部403、埋め込み部404及び更新部405を有する。第4の学習装置40は、音声認識モデルと音声合成モデルの半教師あり学習を行う。
 第4の学習装置40には、教師なしテキストデータYu及び参照音声データ~Xが入力される。また、第4の学習装置40には、音声認識モデルパラメータ2a及び音声合成モデルパラメータ1bを参照してモデルを構築する。
 また、第4の学習装置40は、音声認識モデルパラメータ2aを更新し、音声認識モデルパラメータ3aとして出力する。また、第4の学習装置40は、音声合成モデルパラメータ1bを更新し、音声合成モデルパラメータ2bとして出力する。
 埋め込み部401は、埋め込み部301と同様に、参照音声データ~Xから埋め込みデータ~sを取得する。
 合成部402は、合成部302と同様に、教師なしテキストデータYu及び埋め込みデータ~Xを音声合成モデルに入力し、合成音声データを出力させる。
 認識部403は、認識部303と同様に、音声認識モデルに、合成部402によって出力された合成音声データを入力し、テキストデータを出力させる。このとき得られるテキストデータは、再構成テキストデータと呼ばれる。
 埋め込み部404は、(14)式に示すように、合成部402によって出力された合成音声データ^Xから埋め込みデータ^sを取得する。
Figure JPOXMLDOC01-appb-M000014
 更新部405は、音声合成モデルパラメータ1bと音声認識モデルパラメータ2aを更新する。その際、更新部405は、音声合成モデルに関する誤差関数LSCを、(15)式のように作成する。
Figure JPOXMLDOC01-appb-M000015
 誤差関数LSCは、埋め込み部401によって取得された埋め込みデータ~sと、埋め込み部404によって取得された埋め込みデータ^sとが類似しているほど小さくなる。誤差関数LSCは、埋め込みデータ~sと、埋め込みデータ^sとがかい離しているほど大きくなる。
 このように、誤差関数LSCは、音声合成の前後における話者性の一貫性を表している。なお、参考文献3には、音声合成モデルの学習を単独で行う際に、コサイン類似度が話者性を保存する役割で用いられることが記載されている。また、誤差関数LSCは、コサイン類似度に限らず、距離ユークリッド距離等のデータ間の類似度を表す任意の指標により定義されていればよい。
 参考文献3:Z. Cai, C. Zhang, and M. Li, “From speaker verification to multispeaker speech synthesis, deep transfer with feedback constraint,” in Proc. INTERSPEECH, 2020, pp. 3974-3978.
 さらに、(16)式に示すように、更新部405は、誤差関数Lcycle((12)式)及び誤差関数LSC((15)式)から、誤差関数Lpropを作成する。αは任意に定められる重みである。
Figure JPOXMLDOC01-appb-M000016
 更新部405は、(16)式の誤差関数Lpropが最小化されるようにΘasr及びΘttsを更新する。この場合、更新部405は、音声認識モデルパラメータ2aを音声認識モデルパラメータ3aに更新する。また、更新部405は、音声合成モデルパラメータ1bを音声合成モデルパラメータ2bに更新する。
 また、誤差関数LSCは、いずれもベクトルである埋め込みデータ~sと埋め込みデータ^sとのコサイン類似度にマイナスの符号を付けたものである。そのため、更新部405は、ベクトルである埋め込みデータ~sと、ベクトルである埋め込みデータ^sとのコサイン類似度が大きくなるように、音声合成モデルのパラメータ及び音声認識モデルのパラメータを更新するということができる。
 第4の学習装置40は、更新されたパラメータを、音声認識モデルパラメータ3a及び音声合成モデルパラメータ2bとして出力する。
 第4の学習装置40は、音声合成モデルを用いて、話者の発話の特徴を表す埋め込みデータと教師なしテキストデータとから、合成音声データ(合成音声に関するデータの一例)を生成する。第4の学習装置40は、音声認識モデルを用いて、合成音声データからテキストデータ(音声認識モデルの認識結果)を生成する。更新部534は、合成音声の生成に用いられた埋め込みデータ(埋め込み部401の出力)と、合成音声の発話の特徴を表す埋め込みデータ(埋め込み部404の出力)とが類似し、かつ教師なしテキストデータと合成音声から生成されたテキストデータが類似するように、音声合成モデルのパラメータ及び音声認識モデルのパラメータを更新する。
 また、第4の学習装置40による処理を第2の段階の処理とすると、第3の学習装置30による処理は第1の段階の処理に相当する。
[第1の実施形態の処理]
 図7を用いて、第1の実施形態の学習処理の流れを説明する。ここでは、学習装置5が各処理を実行するものとする。
 図7示すように、まず、学習装置5は、音声認識モデルの教師あり学習を実行する(ステップS101)。次に、学習装置5は、音声合成モデルの教師あり学習を実行する(ステップS102)。
 ステップS101及びS102は、他の装置により事前に行われていてもよい。その場合、更新済みの音声認識モデル及び音声合成モデルのパラメータが学習装置5に受け渡される。
 続いて、学習装置5は、合成音声データを使って、音声認識モデルの半教師あり学習を実行する(ステップS103)。ここでは、学習装置5は、ステップS102で学習済みの音声合成モデルを使って、教師なしテキストデータから合成音声データを得ることができる。
 また、ステップS103において、学習装置5は、教師なしテキストデータに比べて少量の教師あり音声データと教師ありテキストデータを使って、音声認識モデルの教師あり学習を同時に行ってもよい。
 そして、学習装置5は、合成音声データと合成音声データの埋め込みデータを使って、音声認識モデルと音声合成モデルの半教師あり学習を実行する(ステップS104)。ここでは、学習装置5は、ステップS102で学習済みの音声合成モデルを使って、教師なしテキストデータから合成音声データを得ることができる。また、学習装置5は、ステップS103で学習済みの音声認識モデルを使って、合成音声データの認識結果(再構成テキストデータ)を得ることができる。
 また、ステップS104において、学習装置5は、教師なしテキストデータに比べて少量の教師あり音声データと教師ありテキストデータを使って、音声認識モデルと音声合成モデルの教師あり学習を同時に行ってもよい。
 このように、ステップS103では、学習装置5は、音声合成モデルが固定した上で、協調学習の手法を用いて、音声認識モデルについてのみ学習を行う。そして、ステップS104では、学習装置5は、音声合成モデルの固定を解除し、協調学習の手法を用いて、音声認識モデルと音声合成モデルの両方について学習を行う。
[推論フェーズ]
 これまで音声認識モデル及び音声合成モデルの学習フェーズについて説明してきた。学習済みの各モデルは、図8及び図9に示す態様により実際に推論フェーズにおいて利用される。図8は、音声認識装置の処理内容を説明する図である。図9は、音声合成装置の処理内容を説明する図である。
 図8に示すように、音声認識装置80は、認識部801を有する。認識部801は、音声認識モデルパラメータ3aから構築した音声認識モデルを用いて、音声モデルからテキストデータを生成する。音声認識モデルパラメータ3aは、第4の学習装置40によって更新済みである。また、音声データのペアとなるテキストデータは未知であってよい。
 図9に示すように、音声合成装置90は、埋め込み部901及び合成部902を有する。埋め込み部901は、参照音声データから埋め込みデータを取得する。合成部902は、音声合成モデルパラメータ2bを用いて、埋め込みデータ及びテキストデータから音声データを生成する。音声合成モデルパラメータ2bは、第4の学習装置40によって更新済みである。また、テキストデータのペアとなる音声データは未知であってよい。
 音声合成装置90に入力される参照音声データ、及び当該参照音声データから取得される埋め込みデータは、学習時の参照音声データ及び埋め込みデータ、すなわち、図4、図5、図6に示す参照音声データ及び埋め込みデータ(埋め込み部の出力)と同じであってもよいし、異なっていてもよい。
 なお、音声認識装置80及び音声合成装置90は、学習装置5の1つの機能として実現されてもよいし、それぞれ独立した装置として実現されてもよい。
[第1の実施形態の効果]
 学習装置5がこれまでに説明してきた学習処理を行うものとして、第1の実施形態の効果を説明する。なお、学習装置5の機能が第1の学習装置10、第2の学習装置20、第3の学習装置30、第4の学習装置40に分散している場合であっても、同様の効果が得られる。
 これまで説明してきたように、合成部532は、第1のモデルを用いて、話者の発話の特徴を表す第1の埋め込みデータと第1のテキストデータとから、合成音声に関するデータを生成する。認識部533は、第2のモデルを用いて、合成音声に関するデータから第2のテキストデータを生成する。更新部534は、第1の埋め込みデータと、合成音声の発話の特徴を表す第2の埋め込みデータとが類似し、かつ第1のテキストデータと第2のテキストデータが類似するように、第1のモデルのパラメータ及び第2のモデルのパラメータを更新する。なお、この構成は第4の学習装置40に相当する。
 このように、学習装置5は、参照音声データから得らえる話者の特徴(第1の埋め込みデータ)と合成音声データから得られる発話の特徴(第2の埋め込みデータ)が近づくように音声認識モデル(第2のモデル)と音声合成モデル(第1のモデル)の両方のパラメータを更新する。その結果、音声合成モデルが音声認識モデルによって認識されやすい不自然な音声を合成することを抑止し、合成音声の品質を向上させることができる。
 また、第1の段階において、合成部532は、第1のモデルを用いて、話者の発話の特徴を表す第3の埋め込みデータと第3のテキストデータとから、合成音声に関するデータを生成する。第1の段階において、認識部533は、第2のモデルを用いて、合成音声に関するデータから第4のテキストデータを生成する。第1の段階において、更新部534は、第3のテキストデータと第4のテキストデータが類似するように、第1のモデルのパラメータを更新する。第1の段階より後の第2の段階において、合成部532は、第1の段階でパラメータが更新された第1のモデルを用いて、話者の発話の特徴を表す第1の埋め込みデータと第1のテキストデータとから、合成音声に関するデータを生成する。第2の段階において、認識部533は、第2のモデルを用いて、合成音声に関するデータから第2のテキストデータを生成する。第2の段階において、更新部534は、第1の埋め込みデータと、合成音声の発話の特徴を表す第2の埋め込みデータとが類似し、かつ第1のテキストデータと第2のテキストデータが類似するように、第1のモデルのパラメータ及び第2のモデルのパラメータを更新する。なお、第1の段階の構成は、第3の学習装置30に相当する。また、第2の段階の構成は、第4の学習装置40に相当する。
 このように、第1の段階で音声合成モデルを固定し、音声認識モデルについてのみ学習を行うことで、音声認識モデルの精度の低下及び音声合成モデルの過学習を抑止できる。
 なお、第3の学習装置30及び第4の学習装置40のいずれからも、合成音声の品質向上、及び音声合成モデルの過学習の抑止といった効果は一定量得られる。
 更新部534は、ベクトルである第1の埋め込みデータと、ベクトルである第2の埋め込みデータとの類似度が大きくなるように、第1のモデルのパラメータ及び第2のモデルのパラメータを更新する。
 これにより、音声合成モデルに、話者性(話者の発話の特徴)を保持させることが可能になる。なお、類似度は、データ間(ベクトル間)の近さを表す指標であればよく、コサイン類似度に限らず、ユークリッド距離等であってもよい。
 本実施形態は、自然な話し言葉又は方言の合成音声を生成する音声合成モデルの生成に利用可能である。この場合、例えば話し言葉又は方言で記述された教師なしテキストデータが用いられる。
 また、本実施形態は、特に品質が低下しやすい多話者の音声合成において効果を生じさせやすいが、単話者の音声合成においても埋め込みデータが使用されるため、一定量の効果を生じさせる。
 また、合成部532は、更新部534によってパラメータが更新された第1のモデルを用いて、話者の発話の特徴を表す第4の埋め込みデータと第5のテキストデータとから、合成音声に関するデータを生成する。
 このように、本実施形態により学習が行われた音声合成モデルを用いることで、推論フェーズにおいて実際に高品質な合成音声を得ることができる。
 第1の実施の形態に係る学習装置は、非特許文献1に記載のような従来の機械学習手法に対して特定の改善を提供するものであり、機械学習モデルによる音声認識及び音声合成に係る技術分野の向上を示すものである。
[第2の実施形態]
 図10は、第2の実施形態に係る第4の学習装置の処理内容を説明する図である。第2の実施形態では、第3の学習装置30による処理が省略される。
 図6の例では、第4の学習装置40は音声認識モデルパラメータ1aから音声認識モデルを構築していたのに対し、図10の例では、音声認識モデルパラメータ1aから音声認識モデルを構築する。
 第2の実施形態では、第4の学習装置40は、第1の学習装置10から音声認識モデルパラメータ1aを受け取る。
 そして、第4の学習装置40は、音声認識モデルパラメータ1aを更新した音声認識モデルパラメータ4a、及び音声合成モデルパラメータ1bを更新した音声合成モデルパラメータ3bを出力する。
 第2の実施形態では、簡易な構成で合成音声の品質を向上させることができる。
 第2の実施の形態に係る学習装置は、非特許文献1に記載のような従来の機械学習手法に対して特定の改善を提供するものであり、機械学習モデルによる音声認識及び音声合成に係る技術分野の向上を示すものである。
[第3の実施形態]
 図11は、第3の実施形態に係る第5の学習装置及び第6の学習装置の処理内容を説明する図である。第3の実施形態では、第4の学習装置40による処理が省略され、第3の学習装置30と同等の処理が、第5の学習装置50と第6の学習装置60による2段階学習により実現される。また、第3の実施形態では、参照音声データ及び埋め込みデータは利用されない。
 図11に示すように、第5の学習装置50は、合成部501、認識部502、及び更新部503を有する。また、第6の学習装置60は、合成部601、認識部602及び更新部603を有する。
 第5の学習装置50は、音声認識モデルパラメータ1aから音声認識モデルを構築し、音声合成モデルパラメータ1bから音声合成モデルを構築する。第5の学習装置50は、音声認識モデルパラメータ1aを更新した音声認識モデルパラメータ5aを第6の学習装置60に受け渡す。
 第5の学習装置50は、音声合成モデルパラメータ1bを更新しない。これにより、第1の実施形態と同様に、段階的な学習による効果が得られる。
 第6の学習装置60は、音声認識モデルパラメータ5aから音声認識モデルを構築し、音声合成モデルパラメータ1bから音声合成モデルを構築する。第5の学習装置50は、音声認識モデルパラメータ5aを更新した音声認識モデルパラメータ6a、及び、音声合成モデルパラメータ1bを更新した音声合成モデルパラメータ6bを出力する。
 第3の実施形態では、埋め込みデータが不要かつ簡易な構成で音声合成モデルの過学習を抑止することができる。
 第3の実施の形態に係る学習装置は、非特許文献1に記載のような従来の機械学習手法に対して特定の改善を提供するものであり、機械学習モデルによる音声認識及び音声合成に係る技術分野の向上を示すものである。
[実験]
 図12に、実施形態と従来の技術とを比較する実験を行った結果を図12に示す。図12は、実験結果を示す図である。
 図12の従来の技術は、教師あり学習により(5)式に示す誤差関数LCEに基づき音声認識モデルのパラメータの更新を行い、教師あり学習により(11)式に示す誤差関数LTTSに基づき音声認合成モデルのパラメータの更新を行い、半教師あり学習により(12)式に示す誤差関数Lcycleに基づき音声認認識モデル及び音声認合成モデルの両方のパラメータの更新を行う方法である。
 図12の実施形態は、教師あり学習により(5)式に示す誤差関数LCEに基づき音声認識モデルのパラメータの更新を行い、教師あり学習により(11)式に示す誤差関数LTTSに基づき音声認合成モデルのパラメータの更新を行い、半教師あり学習により(16)式に示す誤差関数Lpropに基づき音声認認識モデル及び音声認合成モデルの両方のパラメータの更新を行う方法である。
 実験に用いられたデータは下記の通りである。
 教師ありデータ:LibriTTSデータセットの「train-clean-100」セット
 教師なしデータ:LibriTTSデータセットの「train-clean-360」セット
 評価用データ:LibriTTSデータセットの「dev-clean」セットと「 test-clean-100」セット
 また、埋め込みデータを取得するためのモデルの事前学習には、VoxCeleb2データセットの「dev」セットが用いられた。
 VoxCeleb2については、参考文献4に記載されている。また、LibriTTSについては参考文献5に記載されている。
 参考文献4:J. S. Chung, A. Nagrani, and A. Zisserman, “VoxCeleb2: Deepspeaker recognition,” in Proc. INTERSPEECH, 2018, pp. 1086-1090.
 参考文献5:H. Zen, V. Dang, R. Clark, Y. Zhang, R. J. Weiss, Y. Jia, Z. Chen,and Y.Wu, “LibriTTS: A corpus derived from librispeech for textto-speech,” in Proc. INTERSPEECH, 2019, pp. 1526-1530.
 図12に示すように、実施形態と従来の技術との比較は、PER(phoneme error rate)、MCD(mel-cepstral distortion)、F0 RMSE(root mean square error of fundamental frequency)という3つの指標によって行われた。
 PERは音声認識モデルの精度を示す指標である。MCDとF0 RMSEは音声合成モデルの精度を示す指標である。いずれの指標も小さいほど精度が高いことを意味する。
 図12に示すように、PER、MCD、F0 RMSEのいずれについても、実施形態の方が従来の技術より良い結果が出た。
 特に、MCDとF0 RMSEについては、損失関数において話者の一貫性を考慮したことにより実施形態の結果が良くなったものと考えられる。また、PERについては、段階的なパラメータの更新により実施形態の結果が良くなったものと考えられる。
[システム構成等]
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。なお、プログラムは、CPUだけでなく、GPU等の他のプロセッサによって実行されてもよい。
 また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 一実施形態として、学習装置5は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理を実行する学習プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置5として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
 また、学習装置5は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理に関するサービスを提供する学習サーバ装置として実装することもできる。例えば、学習サーバ装置は、学習用のデータを入力とし、学習済みのモデルのパラメータを出力とする学習サービスを提供するサーバ装置として実装される。この場合、学習サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の学習処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
 図13は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、学習装置5の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、学習装置5における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上の実施形態に関し、更に以下の付記を開示する。
 (付記項1)
 メモリと、
 前記メモリに接続された少なくとも1つのプロセッサと、
 を含み、
 前記プロセッサは、
 第1のモデルを用いて、話者の発話の特徴を表す第1の埋め込みデータと第1のテキストデータとから、合成音声に関するデータを生成し、
 第2のモデルを用いて、前記合成音声に関するデータから第2のテキストデータを生成し、
 前記第1の埋め込みデータと、前記合成音声の発話の特徴を表す第2の埋め込みデータとが類似し、かつ前記第1のテキストデータと前記第2のテキストデータが類似するように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する
 学習装置。
 (付記項2)
 学習処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
 前記学習処理は、
 第1のモデルを用いて、話者の発話の特徴を表す第1の埋め込みデータと第1のテキストデータとから、合成音声に関するデータを生成し、
 第2のモデルを用いて、前記合成音声に関するデータから第2のテキストデータを生成し、
 前記第1の埋め込みデータと、前記合成音声の発話の特徴を表す第2の埋め込みデータとが類似し、かつ前記第1のテキストデータと前記第2のテキストデータが類似するように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する
 非一時的記憶媒体。
 (付記項3)
 メモリと、
 前記メモリに接続された少なくとも1つのプロセッサと、
 を含み、
 前記プロセッサは、
 第1の段階において、前記第1のモデルを用いて、話者の発話の特徴を表す第3の埋め込みデータと第3のテキストデータとから、合成音声に関するデータを生成し、
 前記第1の段階において、前記第2のモデルを用いて、前記合成音声に関するデータから第4のテキストデータを生成し、
 前記第1の段階において、前記第3のテキストデータと前記第4のテキストデータが類似するように、前記第1のモデルのパラメータを更新し、
 前記第1の段階より後の第2の段階において、前記第1の段階でパラメータが更新された前記第1のモデルを用いて、話者の発話の特徴を表す第1の埋め込みデータと第1のテキストデータとから、合成音声に関するデータを生成し、
 前記第2の段階において、前記第2のモデルを用いて、前記合成音声に関するデータから前記第2のテキストデータを生成し、
 前記第2の段階において、前記第1の埋め込みデータと、前記合成音声の発話の特徴を表す第2の埋め込みデータとが類似し、かつ前記第1のテキストデータと前記第2のテキストデータが類似するように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する
 学習装置。
 (付記項4)
 学習処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
 前記学習処理は、
 第1の段階において、前記第1のモデルを用いて、話者の発話の特徴を表す第3の埋め込みデータと第3のテキストデータとから、合成音声に関するデータを生成し、
 前記第1の段階において、前記第2のモデルを用いて、前記合成音声に関するデータから第4のテキストデータを生成し、
 前記第1の段階において、前記第3のテキストデータと前記第4のテキストデータが類似するように、前記第1のモデルのパラメータを更新し、
 前記第1の段階より後の第2の段階において、前記第1の段階でパラメータが更新された前記第1のモデルを用いて、話者の発話の特徴を表す第1の埋め込みデータと第1のテキストデータとから、合成音声に関するデータを生成し、
 前記第2の段階において、前記第2のモデルを用いて、前記合成音声に関するデータから前記第2のテキストデータを生成し、
 前記第2の段階において、前記第1の埋め込みデータと、前記合成音声の発話の特徴を表す第2の埋め込みデータとが類似し、かつ前記第1のテキストデータと前記第2のテキストデータが類似するように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する
 非一時的記憶媒体。
 (付記項5)
 付記項1に記載の学習装置であって、前記プロセッサは、
 ベクトルである前記第1の埋め込みデータと、ベクトルである前記第2の埋め込みデータとの類似度が大きくなるように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する
 学習装置。
 (付記項6)
 付記項2に記載の非一時的記憶媒体であって、前記学習処理は、
 ベクトルである前記第1の埋め込みデータと、ベクトルである前記第2の埋め込みデータとの類似度が大きくなるように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する
 非一時的記憶媒体。
 (付記項7)
 付記項1に記載の学習装置であって、前記プロセッサは、
 パラメータが更新された前記第1のモデルを用いて、話者の発話の特徴を表す第4の埋め込みデータと第5のテキストデータとから、合成音声に関するデータを生成する
 学習装置。
 (付記項8)
 付記項2に記載の非一時的記憶媒体であって、前記学習処理は、
 パラメータが更新された前記第1のモデルを用いて、話者の発話の特徴を表す第4の埋め込みデータと第5のテキストデータとから、合成音声に関するデータを生成する
 非一時的記憶媒体。
 (付記項9)
 第1のモデルを用いて、話者の発話の特徴を表す第1の埋め込みデータと第1のテキストデータとから、合成音声に関するデータを生成し、第2のモデルを用いて、前記合成音声に関するデータから第2のテキストデータを生成し、前記第1の埋め込みデータと、前記合成音声の発話の特徴を表す第2の埋め込みデータとが類似し、かつ前記第1のテキストデータと前記第2のテキストデータが類似するように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する処理によってパラメータが更新済みの前記第1のモデルを用いて、
 話者の発話の特徴を表す第4の埋め込みデータと第5のテキストデータとから、合成音声に関するデータを生成する合成部を有することを特徴とする音声合成装置。
 (付記項10)
 音声合成装置によって実行される音声合成方法であって、第1のモデルを用いて、話者の発話の特徴を表す第1の埋め込みデータと第1のテキストデータとから、合成音声に関するデータを生成し、第2のモデルを用いて、前記合成音声に関するデータから第2のテキストデータを生成し、前記第1の埋め込みデータと、前記合成音声の発話の特徴を表す第2の埋め込みデータとが類似し、かつ前記第1のテキストデータと前記第2のテキストデータが類似するように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する処理によってパラメータが更新済みの前記第1のモデルを用いて、
 話者の発話の特徴を表す第4の埋め込みデータと第5のテキストデータとから、合成音声に関するデータを生成する合成工程を含むことを特徴とする音声合成方法。
 (付記項11)
 音声合成装置によって実行される音声合成方法であって、第1のモデルを用いて、話者の発話の特徴を表す第1の埋め込みデータと第1のテキストデータとから、合成音声に関するデータを生成し、第2のモデルを用いて、前記合成音声に関するデータから第2のテキストデータを生成し、前記第1の埋め込みデータと、前記合成音声の発話の特徴を表す第2の埋め込みデータとが類似し、かつ前記第1のテキストデータと前記第2のテキストデータが類似するように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する処理によってパラメータが更新済みの前記第1のモデルを用いて、
 話者の発話の特徴を表す第4の埋め込みデータと第5のテキストデータとから、合成音声に関するデータを生成する合成ステップをコンピュータに実行させることを特徴とする音声合成方法。
 5 学習装置
 51 通信部
 52 記憶部
 53 制御部
 1a、2a、3a、4a、5a、6a、521 音声認識モデルパラメータ
 1b、2b、3b、6b、522 音声合成モデルパラメータ
 201、301、401、404、531、901 埋め込み部
 202、302、402、532、902 合成部
 101、303、403、533、801 認識部
 102、203、304、405、534 更新部

Claims (6)

  1.  第1のモデルを用いて、話者の発話の特徴を表す第1の埋め込みデータと第1のテキストデータとから、合成音声に関するデータを生成する合成部と、
     第2のモデルを用いて、前記合成音声に関するデータから第2のテキストデータを生成する認識部と、
     前記第1の埋め込みデータと、前記合成音声の発話の特徴を表す第2の埋め込みデータとが類似し、かつ前記第1のテキストデータと前記第2のテキストデータが類似するように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する更新部と、
     を有することを特徴とする学習装置。
  2.  第1の段階において、前記合成部は、前記第1のモデルを用いて、話者の発話の特徴を表す第3の埋め込みデータと第3のテキストデータとから、合成音声に関するデータを生成し、
     前記第1の段階において、前記認識部は、前記第2のモデルを用いて、前記合成音声に関するデータから第4のテキストデータを生成し、
     前記第1の段階において、前記更新部は、前記第3のテキストデータと前記第4のテキストデータが類似するように、前記第1のモデルのパラメータを更新し、
     前記第1の段階より後の第2の段階において、前記合成部は、前記第1の段階でパラメータが更新された前記第1のモデルを用いて、話者の発話の特徴を表す第1の埋め込みデータと第1のテキストデータとから、合成音声に関するデータを生成し、
     前記第2の段階において、前記認識部は、前記第2のモデルを用いて、前記合成音声に関するデータから前記第2のテキストデータを生成し、
     前記第2の段階において、前記更新部は、前記第1の埋め込みデータと、前記合成音声の発話の特徴を表す第2の埋め込みデータとが類似し、かつ前記第1のテキストデータと前記第2のテキストデータが類似するように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新することを特徴とする請求項1に記載の学習装置。
  3.  前記更新部は、ベクトルである前記第1の埋め込みデータと、ベクトルである前記第2の埋め込みデータとの類似度が大きくなるように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新することを特徴とする請求項1に記載の学習装置。
  4.  学習装置によって実行される学習方法であって、
     第1のモデルを用いて、話者の発話の特徴を表す第1の埋め込みデータと第1のテキストデータとから、合成音声に関するデータを生成する合成工程と、
     第2のモデルを用いて、前記合成音声に関するデータから第2のテキストデータを生成する認識工程と、
     前記第1の埋め込みデータと、前記合成音声の発話の特徴を表す第2の埋め込みデータとが類似し、かつ前記第1のテキストデータと前記第2のテキストデータが類似するように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する更新工程と、
     を含むことを特徴とする学習方法。
  5.  第1のモデルを用いて、話者の発話の特徴を表す第1の埋め込みデータと第1のテキストデータとから、合成音声に関するデータを生成する合成ステップと、
     第2のモデルを用いて、前記合成音声に関するデータから第2のテキストデータを生成する認識ステップと、
     前記第1の埋め込みデータと、前記合成音声の発話の特徴を表す第2の埋め込みデータとが類似し、かつ前記第1のテキストデータと前記第2のテキストデータが類似するように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する更新ステップと、
     をコンピュータに実行させることを特徴とする学習プログラム。
  6.  第1のモデルを用いて、話者の発話の特徴を表す第1の埋め込みデータと第1のテキストデータとから、合成音声に関するデータを生成し、第2のモデルを用いて、前記合成音声に関するデータから第2のテキストデータを生成し、前記第1の埋め込みデータと、前記合成音声の発話の特徴を表す第2の埋め込みデータとが類似し、かつ前記第1のテキストデータと前記第2のテキストデータが類似するように、前記第1のモデルのパラメータ及び前記第2のモデルのパラメータを更新する処理によってパラメータが更新済みの前記第1のモデルを用いて、
     話者の発話の特徴を表す第3の埋め込みデータと第3のテキストデータとから、合成音声に関するデータを生成する合成部を有することを特徴とする音声合成装置。
PCT/JP2022/024985 2022-06-22 2022-06-22 学習装置、学習方法、学習プログラム及び音声合成装置 WO2023248398A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/024985 WO2023248398A1 (ja) 2022-06-22 2022-06-22 学習装置、学習方法、学習プログラム及び音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/024985 WO2023248398A1 (ja) 2022-06-22 2022-06-22 学習装置、学習方法、学習プログラム及び音声合成装置

Publications (1)

Publication Number Publication Date
WO2023248398A1 true WO2023248398A1 (ja) 2023-12-28

Family

ID=89379298

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/024985 WO2023248398A1 (ja) 2022-06-22 2022-06-22 学習装置、学習方法、学習プログラム及び音声合成装置

Country Status (1)

Country Link
WO (1) WO2023248398A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019120841A (ja) * 2018-01-09 2019-07-22 国立大学法人 奈良先端科学技術大学院大学 スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法
JP2021039218A (ja) * 2019-09-02 2021-03-11 日本電信電話株式会社 学習装置、学習方法及び学習プログラム
JP2021157145A (ja) * 2020-03-30 2021-10-07 国立研究開発法人情報通信研究機構 推論器および推論器の学習方法
US20220068255A1 (en) * 2020-05-07 2022-03-03 Google Llc Speech Recognition Using Unspoken Text and Speech Synthesis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019120841A (ja) * 2018-01-09 2019-07-22 国立大学法人 奈良先端科学技術大学院大学 スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法
JP2021039218A (ja) * 2019-09-02 2021-03-11 日本電信電話株式会社 学習装置、学習方法及び学習プログラム
JP2021157145A (ja) * 2020-03-30 2021-10-07 国立研究開発法人情報通信研究機構 推論器および推論器の学習方法
US20220068255A1 (en) * 2020-05-07 2022-03-03 Google Llc Speech Recognition Using Unspoken Text and Speech Synthesis

Similar Documents

Publication Publication Date Title
US20200380952A1 (en) Multilingual speech synthesis and cross-language voice cloning
AU2019395322B2 (en) Reconciliation between simulated data and speech recognition output using sequence-to-sequence mapping
AU2019347734B2 (en) Conversational agent pipeline trained on synthetic data
Blaauw et al. A neural parametric singing synthesizer
CN106688034B (zh) 具有情感内容的文字至语音转换
US20200082807A1 (en) Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium
JP2023089256A (ja) 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法
WO2022252904A1 (zh) 基于人工智能的音频处理方法、装置、设备、存储介质及计算机程序产品
Bimbot et al. An overview of the CAVE project research activities in speaker verification
KR102611024B1 (ko) 음성 합성 방법, 장치, 기기 및 컴퓨터 기록 매체
Zhang et al. Deepconversion: Voice conversion with limited parallel training data
CN109326278B (zh) 一种声学模型构建方法及装置、电子设备
US11990117B2 (en) Using speech recognition to improve cross-language speech synthesis
JP2021039219A (ja) 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
JP7423056B2 (ja) 推論器および推論器の学習方法
Kumar et al. Towards building text-to-speech systems for the next billion users
CN113077783A (zh) 小语种语音语料扩增方法、装置及电子设备和存储介质
Wu et al. Denoising Recurrent Neural Network for Deep Bidirectional LSTM Based Voice Conversion.
KR102198598B1 (ko) 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법
WO2023248398A1 (ja) 学習装置、学習方法、学習プログラム及び音声合成装置
KR20200092500A (ko) 뉴럴 보코더 및 화자 적응형 모델을 구현하기 위한 뉴럴 보코더의 훈련 방법
CN112951200B (zh) 语音合成模型的训练方法、装置、计算机设备及存储介质
JP2018146821A (ja) 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
JP6625961B2 (ja) 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム
US11908454B2 (en) Integrating text inputs for training and adapting neural network transducer ASR models

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22947959

Country of ref document: EP

Kind code of ref document: A1