WO2020071213A1 - 音響モデル学習装置、音声合成装置、及びプログラム - Google Patents

音響モデル学習装置、音声合成装置、及びプログラム

Info

Publication number
WO2020071213A1
WO2020071213A1 PCT/JP2019/037620 JP2019037620W WO2020071213A1 WO 2020071213 A1 WO2020071213 A1 WO 2020071213A1 JP 2019037620 W JP2019037620 W JP 2019037620W WO 2020071213 A1 WO2020071213 A1 WO 2020071213A1
Authority
WO
WIPO (PCT)
Prior art keywords
acoustic
model
speaker
data
speech
Prior art date
Application number
PCT/JP2019/037620
Other languages
English (en)
French (fr)
Inventor
裕紀 金川
勇祐 井島
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/275,268 priority Critical patent/US11545135B2/en
Publication of WO2020071213A1 publication Critical patent/WO2020071213A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Definitions

  • the present invention relates to an acoustic model learning device, a speech synthesis device, and a program.
  • Patent Document 1 discloses a speech synthesizer that learns a DNN acoustic model at low cost by efficiently using natural speech data of a plurality of speakers.
  • the above-described DNN acoustic model calculates a mean squared error (MSE) between an acoustic feature based on natural speech data and a synthetic acoustic feature estimated by the DNN acoustic model as shown in the following equation (1). , Built to minimize. [Equation 1] Mean square error:
  • the synthesized voice feature amount is excessively smoothed, and thus the real voice feeling of the synthesized voice data generated by the voice synthesis unit tends to be impaired.
  • a signal processing approach such as a post filter
  • a parameter generation in consideration of intra-sequence variation during speech synthesis see Non-Patent Document 2
  • an adversarial generation network has been used as learning data, such as acoustic features extracted from single-speaker natural speech data and language features extracted from text data corresponding to single-speaker natural speech data.
  • GAN Generative Adversarial Network
  • Non-Patent Document 3 has been developing a speech synthesizer (see Non-Patent Document 4) that alternately learns an acoustic model and a discrimination model (see FIG. 6).
  • the acoustic model based on the hostile generation network makes the synthetic acoustic feature estimated by the acoustic model closer to the acoustic feature based on the natural speech data, that is, the natural / synthesized speech discriminating model represented by the following equation (2). It is constructed so as to minimize the loss function and the loss function of the acoustic model shown in the following equation (3).
  • Equation 2 Loss function of natural / synthesized speech discrimination model:
  • the synthesized speech generated by using the acoustic model learned by the speech synthesis device using the natural speech data of a plurality of speakers as learning data as shown in FIG. 5 is a so-called machine speech without intonation. Therefore, in order to make the user feel like natural voice, there is a problem that the voice needs to be separately processed such as a post filter. For example, in navigation for automobiles and the like these days, navigation is generally performed using an audio signal close to natural audio. In many cases, arithmetic devices mounted on automobiles do not have high performance, and it may be difficult to perform the above-described processing every time a sound signal for navigation is emitted to a user.
  • the model learning unit discriminates the speakers. Instead, the acoustic model and the discrimination model are learned. In particular, if there are speakers whose learning features have greatly different distributions of feature values among the learning speakers, the natural / synthesis discriminator alone cannot consider the speaker information and is strongly affected by the data. Cannot learn acoustic models and discriminant models. When inappropriate learning is performed, there is a problem that the synthesized speech is deteriorated by hostile learning.
  • An object of the present invention which has been made in view of such circumstances, is to provide an acoustic model learning device, a speech synthesis device, and a program capable of generating high-quality synthesized speech.
  • an acoustic model learning device for obtaining an acoustic model used for synthesizing an inflected audio signal, comprising: a speech discrimination model and a speaker discrimination model.
  • a second learning unit that learns the voice discrimination model, and that a speaker of the synthetic acoustic feature is a predetermined speaker based on the plurality of acoustic features and the plurality of synthetic acoustic features. Said to determine the authenticity Characterized in that it comprises a third learning unit for learning the user discriminant model, the.
  • a voice synthesizer for synthesizing voice data having characteristics of a desired speaker, wherein the voice synthesizer synthesizes text data and a speaker indicating the desired speaker.
  • a synthesizing unit for synthesizing synthesized speech data which is speech data corresponding to the text data and having characteristics of the desired speaker, from the data, wherein the synthesized speech data is a natural sound and a It is characterized in that the voice is determined to be a voice uttered by a desired speaker.
  • an acoustic model learning device for obtaining an acoustic model used for synthesizing an inflected audio signal, comprising: Using the model, learning the acoustic model for estimating a plurality of synthetic acoustic features based on a plurality of acoustic features, a plurality of language features corresponding to the plurality of acoustic features, and a plurality of emotion data.
  • a second learning unit that learns, based on the plurality of acoustic features and the plurality of synthesized acoustic features, that the emotion of the synthesized acoustic feature is an acoustic feature indicating a predetermined emotion.
  • Fake Characterized in that it comprises a third learning unit for learning the emotion discrimination model different to, the.
  • a program according to the present invention causes a computer to function as the acoustic model learning device.
  • high-quality synthesized speech can be generated.
  • FIG. 11 is a block diagram illustrating an example of a configuration of a conventional speech synthesis device.
  • FIG. 11 is a block diagram illustrating an example of a configuration of a conventional speech synthesis device.
  • FIG. 1 is a diagram illustrating an example of a configuration of a speech synthesis device 100 according to the first embodiment.
  • the speech synthesis device 100 includes a model learning unit 10 and a speech synthesis unit 20.
  • the model learning unit 10 uses natural speech data of a plurality of speakers, a plurality of text data corresponding to the natural speech data of a plurality of speakers, a plurality of speaker data, and the like as learning data as a hostile generation network (GAN: Generative Adversarial). Network), the acoustic model and the discrimination model are learned alternately.
  • the speech synthesizer 20 uses the acoustic model to generate synthesized speech data of a target speaker (a speaker for which synthetic speech data is to be generated) from arbitrary text data.
  • natural voice means a natural voice uttered by a speaker
  • synthetic voice means an artificial voice generated by the voice synthesizer 20.
  • acoustic feature amount means an acoustic feature amount based on natural speech data
  • synthetic acoustic feature amount means an acoustic feature amount estimated by an acoustic model. I do.
  • the model learning unit 10 includes an acoustic feature amount calculating unit 11, a language feature amount calculating unit 12, an acoustic model learning unit (first learning unit) 13, an acoustic feature amount generating unit 14, a natural / synthesized speech discriminating model learning unit (first 2), a speaker discrimination model learning unit (third learning unit) 16, a database (not shown), and the like.
  • the acoustic feature calculation unit 11 calculates a plurality of acoustic features based on natural speech data (learning data) of a plurality of speakers.
  • the acoustic feature amount is represented by a vector, and includes, for example, a mel-cepstral representing a phoneme or a timbre, a fundamental frequency representing a pitch of a voice, an aperiodic index representing a degree of blurring of a voice, and the like.
  • the acoustic feature calculation unit 11 extracts the acoustic feature for each frame set in advance from the natural voice data of a plurality of speakers, and determines in the database which speaker the acoustic feature corresponds to.
  • the acoustic feature quantity is stored together with the indicated speaker data.
  • the language feature calculation unit 12 calculates a plurality of language features based on a plurality of text data (learning data) corresponding to natural speech data of a plurality of speakers.
  • the language feature amount is represented by a vector, for example, a phoneme, an accent, a mora length, and the like.
  • the language feature calculation unit 12 performs a text analysis process such as morphological analysis on a plurality of text data, extracts a language feature, and stores the language feature in a database.
  • the acoustic model learning unit 13 uses a discrimination model (for example, a natural / synthesized speech discrimination model, a speaker discrimination model) to store a plurality of acoustic features stored in the database and a plurality of language features stored in the database. And a plurality of speaker data stored in the database as learning data to learn an acoustic model for estimating a plurality of synthetic acoustic features.
  • the speaker data is represented by a vector, for example, a speaker code.
  • the acoustic model learning unit 13 causes the synthetic acoustic feature amount to approach the acoustic feature amount of a predetermined speaker (for example, one of the plurality of speakers, which is a generation target of the synthetic acoustic feature amount). That is, the acoustic model is learned so as to minimize the loss function of the acoustic model represented by the following equation (4). The acoustic model learning unit 13 learns the acoustic model so as to spoof the discrimination model. [Equation 4] Acoustic model loss function:
  • the acoustic feature generation unit 14 generates a plurality of synthetic acoustic features based on a plurality of language features stored in the database and a plurality of speaker data stored in the database, using the acoustic model.
  • the acoustic feature generation unit 14 estimates the language feature and the acoustic feature corresponding to the speaker data using the language feature and the speaker data.
  • a dynamic feature having difference information before and after the frame is converted from a static feature having only one frame of information of the acoustic feature. Can be changed to In order to actually synthesize speech, it is necessary to convert a dynamic feature into a static feature. In this case, an algorithm such as maximum likelihood parameter generation (MLPG) based on the dynamic feature can be used.
  • MLPG maximum likelihood parameter generation
  • the natural / synthesized speech discriminating model learning unit 15 uses the plurality of acoustic features stored in the database and the plurality of synthesized acoustic features stored in the database to generate the synthesized acoustic feature with a predetermined acoustic feature. For example, when the synthetic acoustic feature is included in the distribution of the feature based on the natural sound data, a natural / synthesized speech discriminating model indicating false judgment, that is, discrimination as natural sound data is learned.
  • the natural / synthesized speech discriminating model learning unit 15 learns the natural / synthesized speech discriminating model so as to minimize the loss function of the natural / synthesized speech discriminating model represented by the following equation (5).
  • the natural / synthesized speech discriminating model learning unit 15 learns a natural / synthesized speech discriminating model so as to detect spoofing by the acoustic model.
  • the following equation (6) is a loss function for natural speech
  • the following equation (7) is a loss function for synthesized speech.
  • the model learning unit 10 learns the acoustic model so that the synthesized acoustic feature amount is not determined to be a synthesized sound by the natural / synthesized speech discrimination model.
  • / Synthesized speech discrimination model and “false” means discrimination by the natural / synthesized speech discrimination model. Therefore, the natural / synthesized speech discrimination model determines that the synthetic acoustic feature generated by the acoustic feature generating unit 14 is not a predetermined acoustic feature, and sets the result to “true”. It is determined that the characteristic amount is a predetermined acoustic characteristic amount as “false”, and the synthetic acoustic characteristic amount is determined. Also, the natural / synthesized speech discrimination model is optimized simultaneously with the speaker discrimination model.
  • the speaker discrimination model learning unit 16 determines that the speaker of the synthetic acoustic feature is a predetermined speaker based on the plurality of acoustic features stored in the database and the plurality of synthetic acoustic features stored in the database. Learn a speaker discrimination model that discriminates the truth of a certain thing. Note that the plurality of speaker data stored in the database need not be input to the speaker discriminating model learning unit 16, but may be input as auxiliary feature amounts.
  • the speaker discrimination model learning unit 16 learns the speaker discrimination model so as to minimize the loss function of the speaker discrimination model represented by the following equation (8).
  • the speaker discriminating model learning unit 16 learns the speaker discriminating model so as to detect spoofing by the acoustic model.
  • the following equation (9) is a loss function for the case where the speaker of the acoustic feature is not determined to be the predetermined speaker, and the following equation (10) assumes that the speaker of the synthetic acoustic feature is the predetermined speaker. It is a loss function for being determined.
  • the model learning unit 10 learns the acoustic model so as not to be discriminated by the speaker discrimination model, “true” means that it is not discriminated by the speaker discrimination model. Is determined by the speaker determination model.
  • the probability that the input vector x is “true” can be represented by the following equation (11).
  • the probability that the input vector x is “true” is the probability that the speaker of the synthesized acoustic feature generated by the acoustic feature generator 14 is not determined as a predetermined speaker in the learning data by the speaker determination model, That is, the probability that the speaker of the synthetic acoustic feature amount will not be classified as a K classifier.
  • the speaker discrimination model sets “true” that the speaker of the synthetic acoustic feature generated by the acoustic feature generator 14 is not determined to be a predetermined speaker in the learning data. Is determined to be "false” when the speaker of the synthetic acoustic feature amount generated by is determined to be a predetermined speaker in the learning data, and the speaker of the synthetic acoustic feature amount is determined.
  • the speaker discrimination model is optimized simultaneously with the natural / synthesized speech discrimination model.
  • the predetermined speakers in the training data are, for example, three speakers “Speaker A”, “Speaker B”, and “Speaker C”, the speaker discrimination model is a three-dimensional vector Is the output. [Equation 11]
  • the probability that the input vector x is “false” can be represented by 1 ⁇ D SPK (x).
  • the probability that the input vector x is “false” is the probability that the speaker of the synthetic acoustic feature generated by the acoustic feature generator 14 is determined to be a predetermined speaker in the learning data by the speaker determination model. That is, the probability that the speaker of the synthetic acoustic feature amount is classified as a classifier of K class.
  • the model learning section 10 includes the speaker discriminating model learning section 16 in addition to the acoustic model learning section 13 and the natural / synthesized speech discriminating model learning section 15, so that the model learning section 10 , The acoustic model and the discrimination model can be learned. Since the synthesized speech generated using this acoustic model is similar to a so-called real voice with inflection, it is not necessary to separately process the speech.
  • the model learning unit 10 can make the synthesized acoustic feature amount close to a predetermined acoustic feature amount in the hostile learning of the voice discrimination task, and in the hostile learning of the speaker determination task, Can be brought closer to a predetermined speaker.
  • the conventional model learning unit has performed learning so that the synthetic acoustic feature amount estimated by the acoustic model is close to the average acoustic feature amount of a plurality of speakers (the learning without discriminating the speakers). Has been performed), and a model learning unit 10 that performs learning that clearly reflects speaker characteristics can be realized.
  • the speech synthesizer 20 includes a language feature calculator 21, an acoustic feature generator 22, a waveform generator 23, a database (not shown), and the like.
  • the language feature calculator 21 calculates a language feature based on arbitrary text data.
  • the language feature amount is represented by a vector, for example, a phoneme, an accent, a mora length, and the like.
  • the language feature calculation unit 21 performs text analysis processing such as morphological analysis on arbitrary text data to extract a language feature, and stores the language feature in a database in the speech synthesis unit 20.
  • Arbitrary text data is arbitrarily set by a user using the speech synthesizer 100.
  • the acoustic feature generation unit 22 uses the above-described acoustic model to convert the linguistic features stored in the database in the speech synthesis unit 20 and the speaker data of the target speaker stored in the database in the speech synthesis unit 20. Then, a synthetic acoustic feature amount of the target speaker is generated based on the target speaker.
  • the target speakers for example, speaker A, speaker B, and speaker C
  • speaker A, speaker B, and speaker C are arbitrarily set by a user who uses the speech synthesizer 100.
  • the waveform generator 23 generates the target speaker's synthesized speech data based on the target speaker's synthesized acoustic feature. For example, when the target speaker set by the user is the speaker A, the waveform generation unit 23 generates the synthesized voice data of the speaker A. For example, when the target speaker set by the user is the speaker B, the waveform generation unit 23 generates the synthesized voice data of the speaker B. For example, when the target speaker set by the user is the speaker C, the waveform generation unit 23 generates the synthesized voice data of the speaker C.
  • the model learning unit 10 and the speech synthesis unit 20 are described separately, but the model learning unit 10 and the speech synthesis unit 20 are formed integrally. Is also good. Therefore, the speech synthesis unit 20 may include each unit included in the model learning unit 10.
  • the model learning unit 10 learns the acoustic model and the discrimination model while discriminating the speaker in addition to whether or not the sound is a natural sound.
  • the quality of the synthesized speech data of the target speaker generated using the model can be improved. That is, it is possible to realize the speech synthesizer 100 capable of generating a high-quality synthesized speech.
  • the natural / synthesized speech discrimination model and the speaker discrimination model are optimized at the same time. Accuracy can be improved.
  • the speech synthesizer 100 according to the first embodiment, as in the related art, a signal processing approach for suppressing excessive smoothing of a synthetic acoustic feature amount and a variation in a sequence during speech synthesis are considered. There is no need to generate such parameters. Thereby, the speech synthesizer 100 can be realized with a simple configuration.
  • FIG. 2 is a diagram illustrating an example of a configuration of a speech synthesis device 200 according to the second embodiment.
  • the difference between the speech synthesis device 200 according to the second embodiment and the speech synthesis device 100 according to the first embodiment is that the model learning unit 10 in the speech synthesis device 100 according to the first embodiment uses a natural / synthesized speech discrimination model. While two discriminating model learning units, namely a learning unit 15 and a speaker discriminating model learning unit 16 are provided, the model learning unit 10A in the speech synthesis device 200 according to the second embodiment is different from the natural / synthesized speech discriminating model learning unit. 15 and a speaker discrimination model learning unit 16 in which one discrimination model learning unit called a natural / synthesized speech discrimination and speaker discrimination model learning unit 30 is integrated.
  • the other configuration is the same as that of the speech synthesizer 100 according to the first embodiment, and a duplicate description will be omitted.
  • the model learning unit 10A includes an acoustic feature amount calculating unit 11, a language feature amount calculating unit 12, an acoustic model learning unit (first learning unit) 13, an acoustic feature amount generating unit 14, a natural / synthesizing unit.
  • the natural / synthesized speech discriminating / speaker discriminating model learning unit 30 determines the synthesized acoustic feature based on a plurality of acoustic features stored in the database and a plurality of synthesized acoustic features stored in the database. Learn a natural / synthesized speech discrimination model and a speaker discrimination model for discriminating whether the speaker is an acoustic feature (an acoustic feature based on natural speech data of a speaker for which a synthetic acoustic feature is to be generated). .
  • the plurality of speaker data stored in the database need not be input to the natural / synthesized speech discriminating and speaker discriminating model learning unit 30, but may be input as auxiliary feature amounts.
  • the natural / synthesized speech discrimination / speaker discrimination model learning unit 30 minimizes the loss function of the natural / synthesis speech discrimination / speaker discrimination model represented by the following equation (12). Learn the discriminant model.
  • the natural / synthesized speech discriminating / speaker discriminating model learning unit 30 learns the natural / synthesized speech discriminating and speaker discriminating model so as to detect spoofing by the acoustic model.
  • Equation 12 Loss functions for natural / synthetic speech discrimination and speaker discrimination models:
  • the model learning unit 10 learns the acoustic model so as not to be discriminated by the natural / synthesized speech discrimination model and the speaker discrimination model. It is not determined by the speaker identification model, and “false” is determined by the natural / synthesized speech identification and speaker identification model. Therefore, the natural / synthesized speech discrimination and speaker discrimination model sets “true” that the synthesized speech feature generated by the sound feature generation unit 14 is not discriminated as the acoustic feature of a predetermined speaker in the learning data.
  • the synthetic acoustic feature generated by the acoustic feature generating unit 14 is determined to be the acoustic feature of a predetermined speaker in the learning data as “false”, the synthetic acoustic feature and the synthetic acoustic The speaker of the feature amount is determined. Also, in the natural / synthesized speech discrimination and speaker discrimination model, the natural / synthesized speech discrimination and the speaker discrimination are optimized simultaneously.
  • the natural / synthesized speech discrimination model and the speaker discrimination model may be constructed by one network except for the output layer.
  • the natural / synthesized speech discrimination and speaker discrimination model may be constructed by branching one network in the middle.
  • the model learning unit 10A uses the two models as one loss function. This makes it possible to learn in an integrated manner. Further, the model learning unit 10A simultaneously learns a plurality of tasks (speech discrimination task, speaker discrimination task), thereby acquiring a common factor for each task, improving prediction accuracy of each task, and performing learning. Can be stabilized.
  • model learning unit 10A can simultaneously learn a plurality of tasks (speech discrimination task, speaker discrimination task) and thereby share the parameters of both models, the number of parameters to be estimated is reduced, and robustness to over-learning is reduced. Also, an effect such as becoming is obtained.
  • the model learning unit 10A since the model learning unit 10A includes the natural / synthesized speech discriminating and speaker discriminating model learning unit 30, the model learning unit 10A discriminates the speaker in addition to whether or not the sound is a natural sound. While learning the acoustic model and the discrimination model. Since the synthesized speech generated using this acoustic model is similar to a so-called real voice with inflection, it is not necessary to separately process the speech. Further, the model learning unit 10A can make the synthetic acoustic feature amount close to a predetermined acoustic feature amount in the hostile learning of the voice discrimination task, and in the hostile learning of the speaker determination task, the speaker of the synthetic acoustic feature amount Can be brought closer to a predetermined speaker. This avoids the problem that the conventional model learning unit has performed learning so that the synthetic acoustic features estimated by the acoustic model approach the average acoustic features of multiple speakers. Model learning unit 10A that performs learning that clearly reflects the above.
  • the model learning unit 10A does not individually learn the natural / synthesized speech discrimination model and the speaker discrimination model, but instead uses the natural / synthesis speech discrimination model and the speaker. Learn by integrating with the discriminant model.
  • the model learning unit 10A learns the acoustic model, the natural / synthesized speech discrimination, and the speaker discrimination model while discriminating the speaker, so that the quality of the synthesized speech data of the target speaker generated using this acoustic model. Can be increased. That is, the speech synthesizer 200 capable of generating high-quality synthesized speech can be realized.
  • FIG. 3 is a diagram illustrating an example of a configuration of a speech synthesis device 300 according to the third embodiment.
  • the difference between the voice synthesizer 300 according to the third embodiment and the voice synthesizer 100 according to the first embodiment is that the model learning unit 10 in the voice synthesizer 100 according to the first embodiment uses the data amount between speakers. Is not provided, the model learning unit 10B in the speech synthesizer 300 according to the third embodiment has an inter-speaker data amount for controlling the inter-speaker data amount. The control unit 40 is provided.
  • the other configuration is the same as that of the speech synthesizer 100 according to the first embodiment, and a duplicate description will be omitted.
  • the model learning unit 10B includes an acoustic feature amount calculating unit 11, a language feature amount calculating unit 12, an acoustic model learning unit 13, an acoustic feature amount generating unit 14, a natural / synthetic speech discriminating model learning unit 15, It includes a speaker discrimination model learning unit 16, an inter-speaker data amount control unit (data amount control unit) 40, and the like.
  • the inter-speaker data amount control unit 40A is disposed, for example, between the acoustic feature amount calculation unit 11 and the natural / synthesized speech discrimination model learning unit 15.
  • the inter-speaker data amount control unit 40B is disposed between the acoustic feature amount calculation unit 11 and the speaker discrimination model learning unit 16, for example.
  • the inter-speaker data amount control unit 40C is disposed, for example, between the acoustic feature amount generation unit 14 and the natural / synthesized speech discrimination model learning unit 15.
  • the inter-speaker data amount control unit 40D is arranged, for example, between the acoustic feature amount generation unit 14 and the speaker discrimination model learning unit 16.
  • FIG. 3 illustrates an example in which the model learning unit 10B includes four inter-speaker data amount control units 40, the number of inter-speaker data amount control units 40 is particularly limited. Not something.
  • the inter-speaker data amount control unit 40A controls, for example, the data amount of a plurality of acoustic feature amounts extracted from natural speech data (learning data) of a plurality of speakers input to the natural / synthesized speech discrimination model learning unit 15. I do.
  • the inter-speaker data amount control unit 40 ⁇ / b> A controls the acoustic feature amount corresponding to each speaker so as to equalize the difference in the data amount generated between the speakers, and sends the result to the natural / synthesized speech discrimination model learning unit 15. Output.
  • the inter-speaker data amount control unit 40B controls, for example, the data amount of a plurality of acoustic feature amounts extracted from the natural speech data (learning data) of a plurality of speakers input to the speaker discrimination model learning unit 16.
  • the inter-speaker data amount control unit 40B controls the acoustic feature amount corresponding to each speaker so as to equalize the difference in the data amount generated between the speakers, and outputs it to the speaker discrimination model learning unit 16. .
  • the inter-speaker data amount control unit 40C controls, for example, the data amount of a plurality of synthesized acoustic feature amounts generated by the acoustic feature amount generation unit 14 input to the natural / synthesized speech discrimination model learning unit 15.
  • the inter-speaker data amount control unit 40C controls the synthesized acoustic feature amount corresponding to each speaker so as to equalize the difference in the data amount generated between the speakers, and sends the result to the natural / synthesized speech discrimination model learning unit 15. Is output.
  • the inter-speaker data amount control unit 40D controls, for example, the data amount of a plurality of synthetic acoustic feature amounts generated by the acoustic feature amount generation unit 14 input to the speaker discrimination model learning unit 16.
  • the inter-speaker data amount control unit 40D controls the synthesized acoustic feature amount corresponding to each speaker so as to equalize the difference in data amount generated between the speakers, and outputs it to the speaker discrimination model learning unit 16. I do.
  • the model learning unit 10B includes the inter-speaker data amount control unit 40, the model learning unit 10B performs the acoustic model, the natural / synthesized speech synthesis in a state where the difference in the data amount generated between a plurality of speakers is equalized.
  • the discrimination model and the speaker discrimination model can be learned. Accordingly, even when the difference in the data amount generated between a plurality of speakers is extremely large, the model learning unit 10B does not perform the learning specialized for the speaker having a large data amount, and the On the other hand, uniform learning can be performed. Therefore, the learning of the model learning unit 10B can be stabilized, and the learning accuracy can be improved.
  • the model learning unit 10B since the model learning unit 10B includes the speaker discriminating model learning unit 16 in addition to the acoustic model learning unit 13 and the natural / synthesized speech discriminating model learning unit, the model learning unit 10B discriminates the speaker. , An acoustic model and a discrimination model can be learned. Since the synthesized speech generated using this acoustic model is similar to a so-called real voice with inflection, it is not necessary to separately process the speech.
  • the model learning unit 10B learns the acoustic model and the discrimination model while discriminating the speaker in addition to whether or not the sound is a natural sound.
  • the quality of the synthesized speech data of the target speaker generated using the model can be improved. That is, the speech synthesizer 300 capable of generating a high-quality synthesized speech can be realized.
  • FIG. 4 is a diagram illustrating an example of a configuration of a speech synthesis device 400 according to the fourth embodiment.
  • the difference between the speech synthesis device 400 according to the fourth embodiment and the speech synthesis device 100 according to the first embodiment is that the model learning unit 10 in the speech synthesis device 100 according to the first embodiment uses a natural / synthesized speech discrimination model. While two discriminating model learning units, namely a learning unit 15 and a speaker discriminating model learning unit 16, are provided, the model learning unit 10C in the speech synthesis device 400 according to the fourth embodiment is different from the natural / synthesized speech discriminating model learning unit. 15 and an emotion discrimination model learning unit 50. That is, the speech synthesis device 400 according to the fourth embodiment includes an emotion discrimination model learning unit 50 instead of the speech synthesis device 100 according to the first embodiment including the speaker discrimination model learning unit 16. The other configuration is the same as that of the speech synthesizer 100 according to the first embodiment, and a duplicate description will be omitted.
  • the model learning unit 10C included in the speech synthesis device 400 according to the fourth embodiment learns an acoustic model and a discrimination model while discriminating an emotion. Therefore, the speech synthesizer 400 according to the fourth embodiment is particularly useful when a plurality of natural speech data having the same speaker and different emotional expressions are used as learning data.
  • the speech synthesis device 400 includes a model learning unit 10C and a speech synthesis unit 20.
  • the model learning unit 10 ⁇ / b> C uses the hostile generation network as a learning data, using natural voice data of a plurality of speakers, a plurality of text data corresponding to the natural voice data of a plurality of speakers, a plurality of emotion data, and the like as learning data. And the discriminant model are learned alternately.
  • the speech synthesis unit 20 generates synthetic speech data indicating a target emotion (emotion for which synthetic speech data is to be generated) from arbitrary text data using an acoustic model.
  • Emotion data is represented by a vector, for example, an emotion code.
  • Elements of the emotion include, for example, “joy”, “sadness”, “anger”, “give up”, “surprise”, “disgust”, “fear”, and the like.
  • the model learning unit 10C includes an acoustic feature amount calculation unit 11, a language feature amount calculation unit 12, an acoustic model learning unit 13, an acoustic feature amount generation unit 14, a natural / synthetic speech discrimination model learning unit 15, an emotion discrimination model learning unit 50, A database (not shown).
  • the emotion discriminating model learning unit 50 Based on the plurality of acoustic features stored in the database and the plurality of synthetic acoustic features stored in the database, the emotion discriminating model learning unit 50 converts the emotion of the synthesized acoustic feature into a predetermined emotion (synthetic acoustic feature). An emotion discriminating model for discriminating whether the speaker is a speaker whose quantity is to be generated) is learned. Note that the plurality of emotion data stored in the database may not be input to the emotion discrimination model learning unit 50, but may be input as auxiliary feature amounts.
  • the emotion discrimination model learning unit 50 learns the emotion discrimination model so as to minimize the loss function of the emotion discrimination model represented by the following equation (13).
  • the emotion discriminating model learning unit 50 learns the emotion discriminating model so as to detect spoofing by the acoustic model.
  • the following equation (14) is a loss function with respect to the fact that the emotion of the acoustic feature is not determined as indicating the predetermined emotion, and the following equation (15) is determined as the emotion of the synthetic acoustic feature is determined as indicating the predetermined emotion.
  • the emotion discrimination model is generated by the acoustic feature generation unit 14 to indicate that the emotion of the synthetic acoustic feature generated by the acoustic feature generation unit 14 is not determined to be a predetermined emotion in the learning data.
  • the emotion of the synthesized acoustic feature is determined to be “false” when the emotion is determined to be a predetermined emotion in the learning data, and the emotion of the synthesized acoustic feature is determined.
  • the emotion discrimination model is optimized at the same time as the natural / synthesized speech discrimination model.
  • the predetermined emotions in the learning data are, for example, seven emotions of “joy”, “sadness”, “anger”, “give up”, “surprise”, “disgust”, and “fear”, emotion determination is performed.
  • the model outputs a seven-dimensional vector.
  • the probability that the input vector x is “true” can be expressed as in the following expression (16).
  • the probability that the input vector x is “true” is the probability that the emotion of the synthetic acoustic feature generated by the acoustic feature generator 14 is not discriminated as a predetermined emotion in the learning data by the emotion discrimination model, This is the probability that the emotion of the synthetic acoustic feature is not classified into the J class classifier. [Equation 16]
  • the probability that the input vector x is “false” can be represented by 1-D EMO (x).
  • the probability that the input vector x is “false” is the probability that the emotion of the synthetic acoustic feature generated by the acoustic feature generator 14 is determined to be a predetermined emotion in the learning data by the emotion determination model, that is, This is the probability that the emotion of the synthetic acoustic feature is classified into a J-class classifier.
  • the emotion discrimination model is integrated with the natural / synthesis speech discrimination model, and the model learning unit 10C It is also possible to learn the tasks at the same time.
  • the emotion discrimination model according to the speech synthesis device 400 according to the fourth embodiment is the model provided in the speech synthesis device 100 according to the first embodiment, the model included in the speech synthesis device 200 according to the second embodiment, the third embodiment. It is also possible to add an emotion discrimination model to the model of each embodiment by appropriately combining with the model provided in the speech synthesis apparatus 300 according to the embodiment.
  • the model learning unit 10C includes the emotion discriminating model learning unit 50 in addition to the acoustic model learning unit 13 and the natural / synthesized speech discriminating model learning unit. While learning the acoustic model and the discrimination model. Since the synthesized speech generated using this acoustic model is similar to a so-called real voice with inflection, it is not necessary to separately process the speech. Further, the model learning unit 10C can make the synthesized acoustic feature amount close to a predetermined acoustic feature amount in the hostile learning of the voice discrimination task. You can get closer to the feeling of.
  • the conventional model learning unit has performed learning such that the synthetic acoustic feature amount estimated by the acoustic model is close to the average acoustic feature amount extracted from a plurality of natural speech data having different emotional expressions.
  • the problem described above can be avoided, and a model learning unit 10C that performs learning that clearly reflects emotional expressions can be realized.
  • the speech synthesizer 20 includes a language feature calculator 21, an acoustic feature generator 22, a waveform generator 23, a database (not shown), and the like.
  • the language feature calculator 21 calculates a language feature based on arbitrary text data.
  • the language feature amount is represented by a vector, for example, a phoneme, an accent, a mora length, and the like.
  • the language feature calculation unit 21 performs text analysis processing such as morphological analysis on arbitrary text data to extract a language feature, and stores the language feature in a database in the speech synthesis unit 20.
  • Arbitrary text data is arbitrarily set by a user using the speech synthesizer 100.
  • the acoustic feature generation unit 22 uses the above-described acoustic model to generate a language feature stored in a database in the speech synthesis unit 20 and emotion data indicating a target emotion stored in the database in the speech synthesis unit 20. , A synthetic acoustic feature quantity indicating a target emotion is generated.
  • Target emotions for example, “joy”, “sadness”, “anger”, “give up”, “surprise”, “disgust”, and “fear” are arbitrarily set by the user using the speech synthesizer 400. Is done.
  • the waveform generation unit 23 generates synthetic speech data indicating the target emotion based on the synthetic acoustic feature indicating the target emotion. For example, when the target emotion set by the user is “joy”, the waveform generation unit 23 generates synthetic voice data indicating “joy”. For example, when the target emotion set by the user is “sadness”, the waveform generation unit 23 generates synthesized voice data indicating “sadness”.
  • the model learning unit 10C learns the acoustic model and the discrimination model while discriminating the emotion in addition to whether the sound is a natural sound. Can be used to improve the quality of synthesized speech data indicating a target emotion. That is, it is possible to realize the speech synthesizer 400 capable of generating high-quality synthesized speech.
  • the speech synthesizer 400 even if the emotional expressions having different utterance styles are mixed and made to be learned by the model learning unit 10C, the emotional expressions are not reduced and the learning performance is not reduced. It is possible to generate a synthesized voice that is clearly reflected.
  • the discrimination model applied to the speech synthesis device is not limited to the speaker discrimination model.
  • a computer-readable recording medium for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. The distribution of the program is performed, for example, by selling, transferring, lending, or the like, a portable recording medium such as a DVD or a CD-ROM on which the program is recorded.
  • the program may be stored in a storage device of a server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage unit. Then, when executing the processing, the computer reads the program stored in its own storage unit and executes the processing according to the read program.
  • a computer may directly read the program from a portable recording medium and execute processing according to the program. Further, each time a program is transferred from the server computer to the computer, processing according to the received program may be sequentially performed.
  • ASP Application Service Provider
  • the program includes information to be used for processing by the computer and which is similar to the program (such as data that is not a direct command to the computer but has properties that define the processing of the computer).
  • each device is configured by executing a predetermined program on a computer, but at least a part of the processing contents may be realized by hardware.
  • Reference Signs List 10 model learning unit 11 acoustic feature calculation unit 12 language feature calculation unit 13 acoustic model learning unit (first learning unit) 14 acoustic feature generation unit 15 natural / synthesized speech discrimination model learning unit (second learning unit) 16 Speaker discrimination model learning unit (third learning unit) Reference Signs List 20 speech synthesis unit 21 language feature calculation unit 22 acoustic feature generation unit (generation unit) 23 Waveform generation unit 30 Natural / synthesized speech discrimination and speaker discrimination model learning unit (second learning unit) 40A Inter-speaker data amount control unit (data amount control unit) 40B Inter-speaker data amount control unit (data amount control unit) 40C Inter-speaker data amount control unit (data amount control unit) 40D Inter-speaker data amount control unit (data amount control unit) 50 Emotion discrimination model learning unit (second learning unit) REFERENCE SIGNS LIST 100 voice synthesizer 200 voice synthesizer 300 voice synthesizer 400 voice synthesizer

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

音響モデル学習装置(10)は、抑揚のある音声信号を合成するために用いる音響モデルを得るための音響モデル学習装置であって、音声判別モデル及び話者判別モデルを用いて、複数話者の複数の音響特徴量、前記複数の音響特徴量に対応する複数の言語特徴量、及び複数の話者データに基づいて、複数の合成音響特徴量を推定する前記音響モデルを学習する第1の学習部(13)と、前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量が、所定の音響特徴量であることの真偽を判別する前記音声判別モデルを学習する第2の学習部(15)と、前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量の話者が、所定の話者であることの真偽を判別する前記話者判別モデルを学習する第3の学習部(16)と、を備える。

Description

音響モデル学習装置、音声合成装置、及びプログラム
 本発明は、音響モデル学習装置、音声合成装置、及びプログラムに関する。
 従来、複数話者の自然音声データから抽出された複数の音響特徴量、複数話者の自然音声データに対応する複数のテキストデータから抽出された複数の言語特徴量、複数の話者データ、などを学習データとして、DNN(Deep Neural Network)による音響モデルを学習し、任意のテキストデータから目標話者の合成音声データを生成する音声合成装置が知られている(図5参照)。例えば、特許文献1には、複数話者の自然音声データを効率的に活用することで、DNN音響モデルを低コストで学習する音声合成装置が開示されている。
 上述のDNN音響モデルは、次式(1)に示すように、自然音声データに基づく音響特徴量とDNN音響モデルにより推定される合成音響特徴量との平均二乗誤差(Mean Squared Error; MSE)を、最小化するように構築される。
  [数1]
平均二乗誤差:
Figure JPOXMLDOC01-appb-I000001
 しかしながら、上述のDNN音響モデルでは、合成音響特徴量が過剰に平滑化されるため、音声合成部により生成された合成音声データの肉声感が損なわれる傾向がある。この対策として、ポストフィルタなどの信号処理的アプローチ(非特許文献1参照)、音声合成時における系列内変動を考慮したパラメータ生成(非特許文献2参照)、などの手法が提案されているが、自然音声データから得られる音響特徴量の再現には、不十分であるといえる。
 そこで近年、単一話者の自然音声データから抽出された音響特徴量、単一話者の自然音声データに対応するテキストデータから抽出された言語特徴量、などを学習データとして、敵対的生成ネットワーク(GAN :Generative Adversarial Network)(非特許文献3参照)により、音響モデルと判別モデルとを交互に学習する音声合成装置(非特許文献4参照)の開発が進められている(図6参照)。
 敵対的生成ネットワークによる音響モデルは、音響モデルにより推定される合成音響特徴量を、自然音声データに基づく音響特徴量に近づけるように、即ち、次式(2)に示す自然/合成音声判別モデルの損失関数及び次式(3)に示す音響モデルの損失関数を最小化するように、構築される。
 [数2]
自然/合成音声判別モデルの損失関数:
Figure JPOXMLDOC01-appb-I000002
 [数3]
音響モデルの損失関数:
Figure JPOXMLDOC01-appb-I000003
特開2017-32839号公報
Takayoshi. Yoshimura, Keiichi. Tokuda, Takashi. Masuko, Takao. Kobayashi, and Tadashi. Kitamura, "Incorporating a mixed excitation model and postfilter into HMM-based text-to-speech synthesis," IEICE Trans. on Information and Systems, vol. J87-D-II, no. 8, pp. 1563-1571, 2004. Tomoki. Toda, Keiichi. Tokuda. A speech parameter generation algorithm considering global variance for HMM-based speech synthesis. IEICE Transactions, Vol. E90-D, No. 5, pp. 816-824, May 2007. Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron, Courville, and Yoshua Bengio, "Generative adversarial nets," Proc. NIPS, pp. 2672-2680, 2014. Yuki Saito, Shinnosuke Takamichi, and Hiroshi Saruwatari, "Training algorithm to deceive anti-spoofing verification for DNN-based speech synthesis," Proc. ICASSP, pp. 4900--4904, 2017.
 図5に示す複数話者の自然音声データを学習データとする音声合成装置によって学習された音響モデルを用いて生成された合成音声は、抑揚のない所謂機械音声に近い音声である。したがって自然音声のようにユーザに感じさせるためには、当該音声に対してポストフィルタなど別途加工処理を施す必要があるという問題があった。例えば、昨今の自動車向けのナビゲーション等では自然音声に近い音声信号でナビゲーションを行うことは一般的に行われている。自動車に実装された演算装置は高性能ではない場合も多く、ナビゲーションのための音声信号をユーザに向けて放音する毎に上記加工処理を行うことは困難な場合もある。
 また、図5に示すような複数話者の自然音声データを学習データとする音声合成装置に、図6に示すような敵対的学習を単純に適用すると、モデル学習部は、話者を判別せずに、音響モデル及び判別モデルを学習してしまう。特に学習話者の中に特徴量の分布形状が大きく異なる話者が存在する場合、自然・合成判別装置だけでは話者情報を考慮できず、その当該データの影響を強く受けてしまい、適切に音響モデルおよび判別モデルを学習できない。不適切な学習が行われた場合、敵対的学習することでかえって合成音声が劣化するという問題があった。
 かかる事情に鑑みてなされた本発明の目的は、高品質な合成音声を生成することが可能な音響モデル学習装置、音声合成装置、及びプログラムを提供することにある。
 上記課題を解決するため、本発明に係る音響モデル学習装置は、抑揚のある音声信号を合成するために用いる音響モデルを得るための音響モデル学習装置であって、音声判別モデル及び話者判別モデルを用いて、複数話者の複数の音響特徴量、前記複数の音響特徴量に対応する複数の言語特徴量、及び複数の話者データに基づいて、複数の合成音響特徴量を推定する前記音響モデルを学習する第1の学習部と、前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量が、所定の音響特徴量であることの真偽を判別する前記音声判別モデルを学習する第2の学習部と、前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量の話者が、所定の話者であることの真偽を判別する前記話者判別モデルを学習する第3の学習部と、を備えることを特徴とする。
 また、上記課題を解決するため、本発明に係る音声合成装置は、所望の話者の特徴を有する音声データを合成する音声合成装置であって、テキストデータと前記所望の話者を示す話者データから、前記テキストデータに対応するかつ前記所望の話者の特徴を有する音声データである合成音声データを合成する合成部を有し、前記合成音声データは、所定の判別器により自然音かつ前記所望の話者が発した音声であると判定されることを特徴とする。
 また、上記課題を解決するため、本発明に係る音響モデル学習装置は、抑揚のある音声信号を合成するために用いる音響モデルを得るための音響モデル学習装置であって、音声判別モデル及び感情判別モデルを用いて、複数の音響特徴量、前記複数の音響特徴量に対応する複数の言語特徴量、及び複数の感情データに基づいて、複数の合成音響特徴量を推定する前記音響モデルを学習する第1の学習部と、前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量が、所定の音響特徴量であることの真偽を判別する前記音声判別モデルを学習する第2の学習部と、前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量の感情が、所定の感情を示す音響特徴量であることの真偽を判別する前記感情判別モデルを学習する第3の学習部と、を備えることを特徴とする。
 また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記音響モデル学習装置として機能させることを特徴とする。
 本発明によれば、高品質な合成音声を生成することができる。
本発明の第1実施形態に係る音声合成装置の構成の一例を示すブロック図である。 本発明の第2実施形態に係る音声合成装置の構成の一例を示すブロック図である。 本発明の第3実施形態に係る音声合成装置の構成の一例を示すブロック図である。 本発明の第4実施形態に係る音声合成装置の構成の一例を示すブロック図である。 従来の音声合成装置の構成の一例を示すブロック図である。 従来の音声合成装置の構成の一例を示すブロック図である。
 以下、本発明の一実施形態について、図面を参照して詳細に説明する。
<第1実施形態>
 図1を参照して、第1実施形態に係る音声合成装置100について説明する。図1は、第1実施形態に係る音声合成装置100の構成の一例を示す図である。
 上述した通り話者が判別されない音響モデルを用いると結果と適切な学習が行われず、かえって敵対的学習をしない場合よりも劣化した音声信号が合成される。このため、話者の識別も行うよう学習させた音響モデルと判別モデルのうち、音響モデルを用いることで、学習話者の特徴量分布に大きな差異があったとしても安定して敵対的学習でき、当初の目的通りの肉声感のある音声信号を合成できる。
 図1に示すように、音声合成装置100は、モデル学習部10と、音声合成部20と、を備える。モデル学習部10は、複数話者の自然音声データ、複数話者の自然音声データに対応する複数のテキストデータ、複数の話者データ、などを学習データとして、敵対的生成ネットワーク(GAN :Generative Adversarial Network)を用いて、音響モデルと判別モデルとを交互に学習する。音声合成部20は、当該音響モデルを用いて、任意のテキストデータから目標話者(合成音声データの生成対象となる話者)の合成音声データを生成する。
 本明細書において、「自然音声」とは、話者が発する自然な音声を意味し、「合成音声」とは、音声合成部20によって生成される人工的な音声を意味するものとする。また、本明細書において、「音響特徴量」とは、自然音声データに基づく音響特徴量を意味し、「合成音響特徴量」とは、音響モデルにより推定される音響特徴量を意味するものとする。
〔モデル学習部の構成〕
 まず、モデル学習部10について説明する。モデル学習部10は、音響特徴量計算部11、言語特徴量計算部12、音響モデル学習部(第1の学習部)13、音響特徴量生成部14、自然/合成音声判別モデル学習部(第2の学習部)15、話者判別モデル学習部(第3の学習部)16、データベース(不図示)、などを備える。
 音響特徴量計算部11は、複数話者の自然音声データ(学習データ)に基づいて、複数の音響特徴量を計算する。音響特徴量は、ベクトルで表され、例えば、音韻や声色を表すメルケプストラム、声の高さを表す基本周波数、声のかすれ具合を表す非周期性指標、などである。例えば、音響特徴量計算部11は、複数話者の自然音声データから、予め設定されるフレームごとに、音響特徴量を抽出し、データベースに該音響特徴量がいずれの話者に対応するかを示す話者データとともに、当該音響特徴量を格納する。
 言語特徴量計算部12は、複数話者の自然音声データに対応する複数のテキストデータ(学習データ)に基づいて、複数の言語特徴量を計算する。言語特徴量は、ベクトルで表され、例えば、音素、アクセント、モーラ長、などである。例えば、言語特徴量計算部12は、複数のテキストデータに、形態素解析などのテキスト解析処理を施して、言語特徴量を抽出し、データベースに当該言語特徴量を格納する。
 音響モデル学習部13は、判別モデル(例えば、自然/合成音声判別モデル、話者判別モデル)を用いて、データベースに格納される複数の音響特徴量と、データベースに格納される複数の言語特徴量と、及びデータベースに格納される複数の話者データと、を学習データとして複数の合成音響特徴量を推定する音響モデルを学習する。話者データは、ベクトルで表され、例えば、話者コード、などである。話者コードは、例えば、ある要素を1、他の要素を0、として表現したK(=話者の数)次元のベクトルで表すことができる。
 音響モデル学習部13は、合成音響特徴量を、所定の話者(合成音響特徴量の生成対象となる、例えば上記複数の話者のいずれかの、話者)の音響特徴量に近づけるように、即ち、次式(4)に示す音響モデルの損失関数を最小化するように、音響モデルを学習する。音響モデル学習部13は、判別モデルを詐称するように、音響モデルを学習する。
 [数4]
 音響モデルの損失関数:
Figure JPOXMLDOC01-appb-I000004
 音響特徴量生成部14は、音響モデルを用いて、データベースに格納される複数の言語特徴量、及びデータベースに格納される複数の話者データに基づいて、複数の合成音響特徴量を生成する。音響特徴量生成部14は、言語特徴量と話者データとを用いて、該言語特徴量と該話者データに対応する音響特徴量を推定する。このとき、より連続性の高い滑らかな音声を生成するための工夫として、音響特徴量を1フレーム分の情報しか持たない静的特徴量から、当該フレームの前後の差分情報を持つ動的特徴量に変更することもできる。実際に音声合成するには、動的特徴量から静的特徴量に変換する必要があるが、その際は動的特徴量に基づく最尤パラメータ生成(MLPG)などのアルゴリズムが利用できる。
 自然/合成音声判別モデル学習部15は、データベースに格納される複数の音響特徴量、及びデータベースに格納される複数の合成音響特徴量に基づいて、当該合成音響特徴量が所定の音響特徴量であるとは、例えば、当該合成音響特徴量が自然音データに基づく特徴量の分布に含まれる場合は偽、すなわち自然音声データであると判別することを示す自然/合成音声判別モデルを学習する。
 自然/合成音声判別モデル学習部15は、次式(5)に示す自然/合成音声判別モデルの損失関数を最小化するように、自然/合成音声判別モデルを学習する。自然/合成音声判別モデル学習部15は、音響モデルによる詐称を見破るように、自然/合成音声判別モデルを学習する。次式(6)は、自然音声に対する損失関数であり、次式(7)は、合成音声に対する損失関数である。
 [数5]
自然/合成音声判別モデルの損失関数:
Figure JPOXMLDOC01-appb-I000005
 [数6]
自然音声に対する損失関数:
Figure JPOXMLDOC01-appb-I000006
 [数7]
合成音声に対する損失関数:
Figure JPOXMLDOC01-appb-I000007
 敵対的生成ネットワークにおいて、モデル学習部10は、合成音響特徴量が自然/合成音声判別モデルに合成音であると判別されてしまわないように音響モデルを学習するため、「真」とは、自然/合成音声判別モデルに判別されないことであり、「偽」とは、自然/合成音声判別モデルに判別されることである。
 従って、自然/合成音声判別モデルは、音響特徴量生成部14により生成された合成音響特徴量が、所定の音響特徴量でないことを「真」、音響特徴量生成部14により生成された合成音響特徴量が、所定の音響特徴量であることを「偽」、として、当該合成音響特徴量を判別する。また、自然/合成音声判別モデルは、話者判別モデルと同時に最適化される。
 話者判別モデル学習部16は、データベースに格納される複数の音響特徴量、及びデータベースに格納される複数の合成音響特徴量に基づいて、当該合成音響特徴量の話者が所定の話者であることの真偽を判別する話者判別モデルを学習する。なお、データベースに格納される複数の話者データは、話者判別モデル学習部16に入力されなくてもよいが、補助特徴量として入力されても構わない。
 話者判別モデル学習部16は、次式(8)に示す話者判別モデルの損失関数を最小化するように、話者判別モデルを学習する。話者判別モデル学習部16は、音響モデルによる詐称を見破るように、話者判別モデルを学習する。次式(9)は音響特徴量の話者が所定の話者であるとして判別されないことに対する損失関数であり、次式(10)は合成音響特徴量の話者が所定の話者であるとして判別されることに対する損失関数である。
 [数8]
 話者判別モデルの損失関数: 
Figure JPOXMLDOC01-appb-I000008
 [数9]
 音響特徴量の話者が所定の話者であるとして判別されないことに対する損失関数:
Figure JPOXMLDOC01-appb-I000009
 [数10]
 合成音響特徴量の話者が所定の話者であるとして判別されることに対する損失関数:
Figure JPOXMLDOC01-appb-I000010
 敵対的生成ネットワークにおいて、モデル学習部10は、話者判別モデルに判別されてしまわないように音響モデルを学習するため、「真」とは、話者判別モデルに判別されないことであり、「偽」とは、話者判別モデルに判別されることである。
 例えば、入力ベクトルxが「真」である確率は、次式(11)のように表すことができる。入力ベクトルxが「真」である確率とは、音響特徴量生成部14により生成された合成音響特徴量の話者が、話者判別モデルにより学習データ内の所定の話者に判別されない確率、即ち、当該合成音響特徴量の話者がKクラスの判別器に分類されない確率である。
 従って、話者判別モデルは、音響特徴量生成部14により生成された合成音響特徴量の話者が、学習データ内の所定の話者に判別されないことを「真」、音響特徴量生成部14により生成された合成音響特徴量の話者が、学習データ内の所定の話者に判別されることを「偽」、として、当該合成音響特徴量の話者を判別する。また、話者判別モデルは、自然/合成音声判別モデルと同時に最適化される。
 話者判別モデルは、例えば、学習データ内の所定の話者がK人である場合、K(=話者の数)次元のベクトルを出力とし、K人の話者に判別される確率を与えるモデルである。学習データ内の所定の話者が、例えば、「話者A」、「話者B」、「話者C」、の3人の話者である場合、話者判別モデルは、3次元のベクトルを出力とする。
 [数11]
Figure JPOXMLDOC01-appb-I000011
 例えば、入力ベクトルxが「偽」である確率は、1-DSPK(x)で表すことができる。入力ベクトルxが「偽」である確率とは、音響特徴量生成部14により生成された合成音響特徴量の話者が、話者判別モデルにより学習データ内の所定の話者に判別される確率、即ち、当該合成音響特徴量の話者がKクラスの判別器に分類される確率である。
 上述のように、モデル学習部10が、音響モデル学習部13及び自然/合成音声判別モデル学習部15に加えて、話者判別モデル学習部16を備えることで、モデル学習部10は、話者を判別しながら、音響モデル及び判別モデルを学習することができる。この音響モデルを用いて生成された合成音声は、抑揚のある所謂肉声に近い音声であるため、当該音声に対して別途加工処理などを施すことが不要となる。
 また、モデル学習部10は、音声判別タスクの敵対的学習において、合成音響特徴量を所定の音響特徴量に近づけることができ、話者判別タスクの敵対的学習において、合成音響特徴量の話者を所定の話者に近づけることができる。これにより、従来のモデル学習部が、音響モデルにより推定された合成音響特徴量を、複数話者の平均的な音響特徴量に近づけるような学習を行っていた(話者を判別せずに学習を行っていた)という問題を回避し、話者性を明確に反映させた学習を行うモデル学習部10を実現できる。
〔音声合成部の構成〕
 次に、音声合成部20について説明する。音声合成部20は、言語特徴量計算部21、音響特徴量生成部22、波形生成部23、データベース(不図示)、などを備える。
 言語特徴量計算部21は、任意のテキストデータに基づいて、言語特徴量を計算する。言語特徴量は、ベクトルで表され、例えば、音素、アクセント、モーラ長、などである。例えば、言語特徴量計算部21は、任意のテキストデータに、形態素解析などのテキスト解析処理を施して、言語特徴量を抽出し、音声合成部20内のデータベースに当該言語特徴量を格納する。任意のテキストデータは、音声合成装置100を利用する利用者によって任意に設定される。
 音響特徴量生成部22は、上述の音響モデルを用いて、音声合成部20内のデータベースに格納される言語特徴量、音声合成部20内のデータベースに格納される目標話者の話者データに基づいて、目標話者の合成音響特徴量を生成する。目標話者(例えば、話者A、話者B、話者C)は、音声合成装置100を利用する利用者によって任意に設定される。
 波形生成部23は、目標話者の合成音響特徴量に基づいて、目標話者の合成音声データを生成する。例えば、波形生成部23は、利用者によって設定された目標話者が話者Aである場合、話者Aの合成音声データを生成する。例えば、波形生成部23は、利用者によって設定された目標話者が話者Bである場合、話者Bの合成音声データを生成する。例えば、波形生成部23は、利用者によって設定された目標話者が話者Cである場合、話者Cの合成音声データを生成する。
 なお、図1に示す音声合成装置100においては、モデル学習部10と音声合成部20とを分けて記載しているが、モデル学習部10と音声合成部20とは一体的に形成されていてもよい。したがって、音声合成部20が、モデル学習部10が備える各部を備えていてもよい。
 第1実施形態に係る音声合成装置100によれば、モデル学習部10が、自然音であるか否かに加え、話者を判別しながら、音響モデル及び判別モデルを学習することで、この音響モデルを用いて生成された目標話者の合成音声データの品質を高めることができる。即ち、高品質な合成音声を生成することが可能な音声合成装置100を実現できる。
 また、第1実施形態に係る音声合成装置100によれば、自然/合成音声判別モデルと話者判別モデルとは、同時に最適化されるため、モデル学習部10の学習を安定化させて、学習精度を向上させることができる。
 また、第1実施形態に係る音声合成装置100によれば、従来のように、合成音響特徴量の過剰な平滑化を抑制するための、信号処理的アプローチや音声合成時における系列内変動を考慮したパラメータ生成などが不要である。これにより、簡易な構成で音声合成装置100を実現できる。
<第2実施形態>
 図2を参照して、第2実施形態に係る音声合成装置200について説明する。図2は、第2実施形態に係る音声合成装置200の構成の一例を示す図である。
 第2実施形態に係る音声合成装置200が、第1実施形態に係る音声合成装置100と異なる点は、第1実施形態に係る音声合成装置100におけるモデル学習部10が、自然/合成音声判別モデル学習部15及び話者判別モデル学習部16という2つの判別モデル学習部を備えるのに対して、第2実施形態に係る音声合成装置200におけるモデル学習部10Aは、自然/合成音声判別モデル学習部15と話者判別モデル学習部16とが統合された自然/合成音声判別及び話者判別モデル学習部30という1つの判別モデル学習部を備える点である。なお、その他の構成は、第1実施形態に係る音声合成装置100と同じであるため、重複した説明を省略する。
 図2に示すように、モデル学習部10Aは、音響特徴量計算部11、言語特徴量計算部12、音響モデル学習部(第1の学習部)13、音響特徴量生成部14、自然/合成音声判別及び話者判別モデル学習部(第2の学習部)30、などを備える。
 自然/合成音声判別及び話者判別モデル学習部30は、データベースに格納される複数の音響特徴量、及びデータベースに格納される複数の合成音響特徴量に基づいて、当該合成音響特徴量が所定の話者の音響特徴量(合成音響特徴量の生成対象となる話者の自然音声データに基づく音響特徴量)であることの真偽を判別する自然/合成音声判別及び話者判別モデルを学習する。なお、データベースに格納される複数の話者データは、自然/合成音声判別及び話者判別モデル学習部30に入力されなくてもよいが、補助特徴量として入力されても構わない。
 自然/合成音声判別及び話者判別モデル学習部30は、次式(12)に示す自然/合成音声判別及び話者判別モデルの損失関数を最小化するように、自然/合成音声判別及び話者判別モデルを学習する。自然/合成音声判別及び話者判別モデル学習部30は、音響モデルによる詐称を見破るように、自然/合成音声判別及び話者判別モデルを学習する。
 [数12]
 自然/合成音声判別及び話者判別モデルの損失関数:
Figure JPOXMLDOC01-appb-I000012
 敵対的生成ネットワークにおいて、モデル学習部10は、自然/合成音声判別及び話者判別モデルに判別されてしまわないように音響モデルを学習するため、「真」とは、自然/合成音声判別及び話者判別モデルに判別されないことであり、「偽」とは、自然/合成音声判別及び話者判別モデルに判別されることである。
 従って、自然/合成音声判別及び話者判別モデルは、音響特徴量生成部14により生成された合成音響特徴量が、学習データ内の所定の話者の音響特徴量に判別されないことを「真」、音響特徴量生成部14により生成された合成音響特徴量が、学習データ内の所定の話者の音響特徴量に判別されることを「偽」、として、当該合成音響特徴量及び当該合成音響特徴量の話者を判別する。また、自然/合成音声判別及び話者判別モデルにおいて、自然/合成音声判別と話者判別とは同時に最適化される。
 例えば、自然/合成音声判別及び話者判別モデルは、出力層を除いて、1つのネットワークで構築されてもよい。例えば、自然/合成音声判別及び話者判別モデルは、1つのネットワークが途中で分岐されて構築されてもよい。
 自然/合成音声判別モデルと話者判別モデルとが統合された自然/合成音声判別及び話者判別モデルを音声合成装置200に採用することで、モデル学習部10Aは、両モデルを1つの損失関数により統合的に学習することが可能になる。また、モデル学習部10Aが、複数のタスク(音声判別タスク、話者判別タスク)を同時に学習することで、各タスクに共通の要因を獲得し、各タスクの予測精度を向上させて、学習を安定化させることができる。また、モデル学習部10Aが、複数のタスク(音声判別タスク、話者判別タスク)を同時に学習することで、両モデルのパラメータを共有できるため、推定すべきパラメータ数が減り、過学習に頑健になる等の効果も得られる。
 上述のように、モデル学習部10Aが、自然/合成音声判別及び話者判別モデル学習部30を備えることで、モデル学習部10Aは、自然音であるか否かに加え、話者を判別しながら、音響モデル及び判別モデルを学習することができる。この音響モデルを用いて生成された合成音声は、抑揚のある所謂肉声に近い音声であるため、当該音声に対して別途加工処理などを施すことが不要となる。
 また、モデル学習部10Aは、音声判別タスクの敵対的学習において、合成音響特徴量を所定の音響特徴量に近づけることができ、話者判別タスクの敵対的学習において、合成音響特徴量の話者を所定の話者に近づけることができる。これにより、従来のモデル学習部が、音響モデルにより推定された合成音響特徴量を、複数話者の平均的な音響特徴量に近づけるような学習を行っていたという問題を回避し、話者性を明確に反映させた学習を行うモデル学習部10Aを実現できる。
 第2実施形態に係る音声合成装置200によれば、モデル学習部10Aが、自然/合成音声判別モデルと話者判別モデルとを個別に学習するのではなく、自然/合成音声判別モデルと話者判別モデルとを統合して学習する。モデル学習部10Aが、話者を判別しながら、音響モデル及び自然/合成音声判別及び話者判別モデルを学習することで、この音響モデルを用いて生成された目標話者の合成音声データの品質を高めることができる。即ち、高品質な合成音声を生成することが可能な音声合成装置200を実現できる。
<第3実施形態>
 図3を参照して、第3実施形態に係る音声合成装置300について説明する。図3は、第3実施形態に係る音声合成装置300の構成の一例を示す図である。
 第3実施形態に係る音声合成装置300が、第1実施形態に係る音声合成装置100と異なる点は、第1実施形態に係る音声合成装置100におけるモデル学習部10が、話者間のデータ量を制御する話者間データ量制御部を備えていないのに対して、第3実施形態に係る音声合成装置300におけるモデル学習部10Bは、話者間のデータ量を制御する話者間データ量制御部40を備える点である。なお、その他の構成は、第1実施形態に係る音声合成装置100と同じであるため、重複した説明を省略する。
 図3に示すように、モデル学習部10Bは、音響特徴量計算部11、言語特徴量計算部12、音響モデル学習部13、音響特徴量生成部14、自然/合成音声判別モデル学習部15、話者判別モデル学習部16、話者間データ量制御部(データ量制御部)40、などを備える。
 話者間データ量制御部40Aは、例えば、音響特徴量計算部11と自然/合成音声判別モデル学習部15との間に配置される。また、話者間データ量制御部40Bは、例えば、音響特徴量計算部11と話者判別モデル学習部16との間に配置される。また、話者間データ量制御部40Cは、例えば、音響特徴量生成部14と自然/合成音声判別モデル学習部15との間に配置される。また、話者間データ量制御部40Dは、例えば、音響特徴量生成部14と話者判別モデル学習部16との間に配置される。なお、図3では、モデル学習部10Bが、話者間データ量制御部40を4つ備える構成を一例に挙げて説明するが、話者間データ量制御部40の個数は、特に限定されるものではない。
 話者間データ量制御部40Aは、例えば、自然/合成音声判別モデル学習部15に入力される複数話者の自然音声データ(学習データ)から抽出された複数の音響特徴量のデータ量を制御する。話者間データ量制御部40Aは、話者間に生じるデータ量の差を均一化するように、各話者に対応する音響特徴量を制御し、自然/合成音声判別モデル学習部15へと出力する。
 話者間データ量制御部40Bは、例えば、話者判別モデル学習部16に入力される複数話者の自然音声データ(学習データ)から抽出された複数の音響特徴量のデータ量を制御する。話者間データ量制御部40Bは、話者間に生じるデータ量の差を均一化するように、各話者に対応する音響特徴量を制御し、話者判別モデル学習部16へと出力する。
 話者間データ量制御部40Cは、例えば、自然/合成音声判別モデル学習部15に入力される音響特徴量生成部14により生成された複数の合成音響特徴量のデータ量を制御する。話者間データ量制御部40Cは、話者間に生じるデータ量の差を均一化するように、各話者に対応する合成音響特徴量を制御し、自然/合成音声判別モデル学習部15へと出力する。
 話者間データ量制御部40Dは、例えば、話者判別モデル学習部16に入力される音響特徴量生成部14により生成された複数の合成音響特徴量のデータ量を制御する。話者間データ量制御部40Dは、話者間に生じるデータ量の差を均一化するように、各話者に対応する合成音響特徴量を制御し、話者判別モデル学習部16へと出力する。
 モデル学習部10Bが話者間データ量制御部40を備えることで、モデル学習部10Bは、複数話者の間に生じるデータ量の差が均一化された状態で、音響モデル、自然/合成音声判別モデル、及び話者判別モデルを学習することができる。これにより、複数話者の間に生じるデータ量の差が極端に大きい場合であっても、モデル学習部10Bは、データ量が大きい話者に特化した学習を行うことなく、各話者に対して、均一な学習を行うことができる。従って、モデル学習部10Bの学習を安定化させて、学習精度を向上させることができる。
 また、モデル学習部10Bが、音響モデル学習部13及び自然/合成音声判別モデル学習部に加えて、話者判別モデル学習部16を備えることで、モデル学習部10Bは、話者を判別しながら、音響モデル及び判別モデルを学習することができる。この音響モデルを用いて生成された合成音声は、抑揚のある所謂肉声に近い音声であるため、当該音声に対して別途加工処理などを施すことが不要となる。
 第3実施形態に係る音声合成装置300によれば、モデル学習部10Bが、自然音であるか否かに加え、話者を判別しながら、音響モデル及び判別モデルを学習することで、この音響モデルを用いて生成された目標話者の合成音声データの品質を高めることができる。即ち、高品質な合成音声を生成することが可能な音声合成装置300を実現できる。
<第4実施形態>
 図4を参照して、第4実施形態に係る音声合成装置400について説明する。図4は、第4実施形態に係る音声合成装置400の構成の一例を示す図である。
 第4実施形態に係る音声合成装置400が、第1実施形態に係る音声合成装置100と異なる点は、第1実施形態に係る音声合成装置100におけるモデル学習部10が、自然/合成音声判別モデル学習部15及び話者判別モデル学習部16という2つの判別モデル学習部を備えるのに対して、第4実施形態に係る音声合成装置400におけるモデル学習部10Cは、自然/合成音声判別モデル学習部15と感情判別モデル学習部50という2つの判別モデル学習部を備える点である。即ち、第4実施形態に係る音声合成装置400は、第1実施形態に係る音声合成装置100が話者判別モデル学習部16を備える代わりに、感情判別モデル学習部50を備える。なお、その他の構成は、第1実施形態に係る音声合成装置100と同じであるため、重複した説明を省略する。
 第4実施形態に係る音声合成装置400が備えるモデル学習部10Cは、感情を判別しながら、音響モデル及び判別モデルを学習する。従って、第4実施形態に係る音声合成装置400は、話者が同一であり、感情表現の異なる複数の自然音声データが学習データとして使用される場合に、特に有用である。
 図4に示すように、音声合成装置400は、モデル学習部10Cと、音声合成部20と、を備える。モデル学習部10Cは、複数話者の自然音声データ、複数話者の自然音声データに対応する複数のテキストデータ、複数の感情データ、などを学習データとして、敵対的生成ネットワークを用いて、音響モデルと判別モデルとを交互に学習する。音声合成部20は、音響モデルを用いて、任意のテキストデータから目標とする感情(合成音声データの生成対象となる感情)を示す合成音声データを生成する。
 感情データは、ベクトルで表され、例えば、感情コード、などである。感情コードは、ある要素を1、他の要素を0、として表現したJ(J=感情の個数)次元のベクトルで表すことができる。感情の要素としては、例えば、「喜び」、「悲しみ」、「怒り」、「諦め」、「驚き」、「嫌悪」、「恐怖」、などが挙げられる。
〔モデル学習部の構成〕
 まず、モデル学習部10Cについて説明する。モデル学習部10Cは、音響特徴量計算部11、言語特徴量計算部12、音響モデル学習部13、音響特徴量生成部14、自然/合成音声判別モデル学習部15、感情判別モデル学習部50、データベース(不図示)、などを備える。
 感情判別モデル学習部50は、データベースに格納される複数の音響特徴量、及びデータベースに格納される複数の合成音響特徴量に基づいて、当該合成音響特徴量の感情が所定の感情(合成音響特徴量の生成対象となる話者)であることの真偽を判別する感情判別モデルを学習する。なお、データベースに格納される複数の感情データは、感情判別モデル学習部50に入力されなくてもよいが、補助特徴量として入力されても構わない。
 感情判別モデル学習部50は、次式(13)に示す感情判別モデルの損失関数を最小化するように、感情判別モデルを学習する。感情判別モデル学習部50は、音響モデルによる詐称を見破るように、感情判別モデルを学習する。次式(14)は音響特徴量の感情が所定の感情を示すものとして判別されないことに対する損失関数であり、次式(15)は合成音響特徴量の感情が所定の感情を示すものとして判別されることに対する損失関数である。
 [数13]
 感情判別モデルの損失関数:
Figure JPOXMLDOC01-appb-I000013
 [数14]
 音響特徴量の感情が所定の感情を示すものとして判別されないことに対する損失関数:
Figure JPOXMLDOC01-appb-I000014
 [数15]
 合成音響特徴量の感情が所定の感情を示すものとして判別されることに対する損失関数:
Figure JPOXMLDOC01-appb-I000015
 敵対的生成ネットワークにおいて、モデル学習部10Cは、感情判別モデルに判別されてしまわないように音響モデルを学習するため、「真」とは、感情判別モデルに判別されないことであり、「偽」とは、感情判別モデルに判別されることである。
 従って、感情判別モデルは、音響特徴量生成部14により生成された合成音響特徴量の感情が、学習データ内の所定の感情に判別されないことを「真」、音響特徴量生成部14により生成された合成音響特徴量の感情が、学習データ内の所定の感情に判別されることを「偽」、として、当該合成音響特徴量の感情を判別するモデルである。また、感情判別モデルは、自然/合成音声判別モデルと同時に最適化される。
 感情判別モデルは、例えば、学習データ内の所定の感情がJ個である場合、J(=感情の個数)次元のベクトルを出力とし、J個の感情に判別される確率を与えるモデルである。学習データ内の所定の感情が、例えば、「喜び」、「悲しみ」、「怒り」、「諦め」、「驚き」、「嫌悪」、「恐怖」、の7個の感情である場合、感情判別モデルは、7次元のベクトルを出力とする。
 例えば、入力ベクトルxが「真」である確率は、次式(16)のように表すことができる。
入力ベクトルxが「真」である確率とは、音響特徴量生成部14により生成された合成音響特徴量の感情が、感情判別モデルにより学習データ内の所定の感情に判別されない確率、即ち、当該合成音響特徴量の感情がJクラスの判別器に分類されない確率である。
 [数16] 
Figure JPOXMLDOC01-appb-I000016
 例えば、入力ベクトルxが「偽」である確率は、1-DEMO(x)で表すことができる。入力ベクトルxが「偽」である確率とは、音響特徴量生成部14により生成された合成音響特徴量の感情が、感情判別モデルにより学習データ内の所定の感情に判別される確率、即ち、当該合成音響特徴量の感情がJクラスの判別器に分類される確率である。
 なお、第4実施形態に係る音声合成装置400において、第2実施形態に係る音声合成装置200と同様に、感情判別モデルを、自然/合成音声判別モデルと統合し、モデル学習部10Cが、複数のタスクを同時に学習することも可能である。また、第4実施形態に係る音声合成装置400に係る感情判別モデルを、第1実施形態に係る音声合成装置100が備えるモデル、第2実施形態に係る音声合成装置200が備えるモデル、第3実施形態に係る音声合成装置300が備えるモデルと、適宜組み合わせて、各実施形態のモデルに、更に感情判別モデルを追加することも可能である。
 上述のように、モデル学習部10Cが、音響モデル学習部13及び自然/合成音声判別モデル学習部に加えて、感情判別モデル学習部50を備えることで、モデル学習部10Cは、感情を判別しながら、音響モデル及び判別モデルを学習することができる。この音響モデルを用いて生成された合成音声は、抑揚のある所謂肉声に近い音声であるため、当該音声に対して別途加工処理などを施すことが不要となる。
 また、モデル学習部10Cは、音声判別タスクの敵対的学習において、合成音響特徴量を所定の音響特徴量に近づけることができ、感情判別タスクの敵対的学習において、合成音響特徴量の感情を所定の感情に近づけることができる。これにより、従来のモデル学習部が、音響モデルにより推定された合成音響特徴量を、感情表現の異なる複数の自然音声データから抽出された平均的な音響特徴量に近づけるような学習を行っていたという問題を回避し、感情表現を明確に反映させた学習を行うモデル学習部10Cを実現できる。
〔音声合成部の構成〕
 次に、音声合成部20について説明する。音声合成部20は、言語特徴量計算部21、音響特徴量生成部22、波形生成部23、データベース(不図示)、などを備える。
 言語特徴量計算部21は、任意のテキストデータに基づいて、言語特徴量を計算する。言語特徴量は、ベクトルで表され、例えば、音素、アクセント、モーラ長、などである。例えば、言語特徴量計算部21は、任意のテキストデータに、形態素解析などのテキスト解析処理を施して、言語特徴量を抽出し、音声合成部20内のデータベースに当該言語特徴量を格納する。任意のテキストデータは、音声合成装置100を利用する利用者によって任意に設定される。
 音響特徴量生成部22は、上述の音響モデルを用いて、音声合成部20内のデータベースに格納される言語特徴量、音声合成部20内のデータベースに格納される目標とする感情を示す感情データに基づいて、目標とする感情を示す合成音響特徴量を生成する。目標とする感情(例えば、「喜び」、「悲しみ」、「怒り」、「諦め」、「驚き」、「嫌悪」、「恐怖」)は、音声合成装置400を利用する利用者によって任意に設定される。
 波形生成部23は、目標とする感情を示す合成音響特徴量に基づいて、目標とする感情を示す合成音声データを生成する。例えば、波形生成部23は、利用者によって設定された目標とする感情が「喜び」である場合、「喜び」を示す合成音声データを生成する。例えば、波形生成部23は、利用者によって設定された目標とする感情が「悲しみ」である場合、「悲しみ」を示す合成音声データを生成する。
 第4実施形態に係る音声合成装置400によれば、モデル学習部10Cが、自然音であるか否かに加え、感情を判別しながら、音響モデル及び判別モデルを学習することで、この音響モデルを用いて生成された目標とする感情を示す合成音声データの品質を高めることができる。即ち、高品質な合成音声を生成することが可能な音声合成装置400を実現できる。
 また、第4実施形態に係る音声合成装置400によれば、感情表現という発話様式が異なるものを混在させて、モデル学習部10Cに学習させても、学習性能が低下することなく、感情表現が明確に反映された合成音声を生成することが可能になる。
<変形例>
 本実施形態に係る音声合成装置に適用される判別モデルは、話者判別モデルに限定されるものではない。例えば、話者の年齢に依存して、表現の異なる複数の自然音声データが学習データとして使用される場合を想定した年齢判別モデルを採用することも可能である。例えば、話者の性別に依存して、表現の異なる複数の自然音声データ(男女混合データ)が学習データとして使用される場合を想定した性別判定モデルを採用することも可能である。任意の基準で対象を判別できるモデルであれば、どのようなものであってもよい。
<その他の変形例>
 本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
 また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
 上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
 10  モデル学習部
 11  音響特徴量計算部
 12  言語特徴量計算部
 13  音響モデル学習部(第1の学習部)
 14  音響特徴量生成部
 15  自然/合成音声判別モデル学習部(第2の学習部)
 16  話者判別モデル学習部(第3の学習部)
 20  音声合成部
 21  言語特徴量計算部
 22  音響特徴量生成部(生成部)
 23  波形生成部
 30  自然/合成音声判別及び話者判別モデル学習部(第2の学習部)
 40A 話者間データ量制御部(データ量制御部)
 40B 話者間データ量制御部(データ量制御部)
 40C 話者間データ量制御部(データ量制御部)
 40D 話者間データ量制御部(データ量制御部)
 50  感情判別モデル学習部(第2の学習部)
 100 音声合成装置
 200 音声合成装置
 300 音声合成装置
 400 音声合成装置
 
 
 
 
 

Claims (7)

  1.  抑揚のある音声信号を合成するために用いる音響モデルを得るための音響モデル学習装置であって、
     音声判別モデル及び話者判別モデルを用いて、複数話者の複数の音響特徴量、前記複数の音響特徴量に対応する複数の言語特徴量、及び複数の話者データに基づいて、複数の合成音響特徴量を推定する前記音響モデルを学習する第1の学習部と、
     前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量が、所定の音響特徴量であることの真偽を判別する前記音声判別モデルを学習する第2の学習部と、
     前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量の話者が、所定の話者であることの真偽を判別する前記話者判別モデルを学習する第3の学習部と、
     を備える音響モデル学習装置。
  2.  前記第1の学習部は、前記音響モデルの損失関数を最小化するように前記音響モデルを学習し、
     前記第2の学習部は、前記音声判別モデルの損失関数を最小化するように前記音声判別モデルを学習し、
     前記第3の学習部は、前記話者判別モデルの損失関数を最小化するように前記話者判別モデルを学習する、
     請求項1に記載の音響モデル学習装置。
  3.  前記音声判別モデルと前記話者判別モデルとは、同時に最適化される、
     請求項1または2に記載の音響モデル学習装置。
  4.  前記複数話者の間に生じるデータ量の差を均一化するデータ量制御部を更に備える、
     請求項1から3のいずれか一項に記載の音響モデル学習装置。
  5.  所望の話者の特徴を有する音声データを合成する音声合成装置であって、
     テキストデータと前記所望の話者を示す話者データから、前記テキストデータに対応するかつ前記所望の話者の特徴を有する音声データである合成音声データを合成する合成部を有し、
     前記合成音声データは、所定の判別器により自然音かつ前記所望の話者が発した音声であると判定される、
     音声合成装置。
  6.  抑揚のある音声信号を合成するために用いる音響モデルを得るための音響モデル学習装置であって、
     音声判別モデル及び感情判別モデルを用いて、複数の音響特徴量、前記複数の音響特徴量に対応する複数の言語特徴量、及び複数の感情データに基づいて、複数の合成音響特徴量を推定する前記音響モデルを学習する第1の学習部と、
     前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量が、所定の音響特徴量であることの真偽を判別する前記音声判別モデルを学習する第2の学習部と、
     前記複数の音響特徴量及び前記複数の合成音響特徴量に基づいて、前記合成音響特徴量の感情が、所定の感情を示す音響特徴量であることの真偽を判別する前記感情判別モデルを学習する第3の学習部と、
     を備える音響モデル学習装置。
  7.  コンピュータを、請求項1から4、または6のいずれか一項に記載の音響モデル学習装置として機能させるためのプログラム。
     
     
PCT/JP2019/037620 2018-10-05 2019-09-25 音響モデル学習装置、音声合成装置、及びプログラム WO2020071213A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/275,268 US11545135B2 (en) 2018-10-05 2019-09-25 Acoustic model learning device, voice synthesis device, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018190462A JP7125608B2 (ja) 2018-10-05 2018-10-05 音響モデル学習装置、音声合成装置、及びプログラム
JP2018-190462 2018-10-05

Publications (1)

Publication Number Publication Date
WO2020071213A1 true WO2020071213A1 (ja) 2020-04-09

Family

ID=70055025

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/037620 WO2020071213A1 (ja) 2018-10-05 2019-09-25 音響モデル学習装置、音声合成装置、及びプログラム

Country Status (3)

Country Link
US (1) US11545135B2 (ja)
JP (1) JP7125608B2 (ja)
WO (1) WO2020071213A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11741941B2 (en) * 2020-06-12 2023-08-29 SoundHound, Inc Configurable neural speech synthesis
WO2023157066A1 (ja) * 2022-02-15 2023-08-24 日本電信電話株式会社 音声合成学習方法、音声合成方法、音声合成学習装置、音声合成装置及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297199A (ja) * 2001-03-29 2002-10-11 Toshiba Corp 合成音声判別方法と装置及び音声合成装置
JP2006293026A (ja) * 2005-04-11 2006-10-26 Oki Electric Ind Co Ltd 音声合成装置,音声合成方法およびコンピュータプログラム
JP2011215742A (ja) * 2010-03-31 2011-10-27 Nec Corp 対話システム、対話フローの更新方法およびプログラム
JP2012141354A (ja) * 2010-12-28 2012-07-26 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、音声合成装置及び音声合成プログラム
JP2017058513A (ja) * 2015-09-16 2017-03-23 株式会社東芝 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
JP2018146803A (ja) * 2017-03-06 2018-09-20 日本放送協会 音声合成装置及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104112444B (zh) * 2014-07-28 2018-11-06 中国科学院自动化研究所 一种基于文本信息的波形拼接语音合成方法
JP6622505B2 (ja) 2015-08-04 2019-12-18 日本電信電話株式会社 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP6505346B1 (ja) * 2017-08-29 2019-04-24 大学共同利用機関法人情報・システム研究機構 Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム
CN107945786B (zh) * 2017-11-27 2021-05-25 北京百度网讯科技有限公司 语音合成方法和装置
CN108615524A (zh) * 2018-05-14 2018-10-02 平安科技(深圳)有限公司 一种语音合成方法、系统及终端设备
KR102127126B1 (ko) * 2018-08-03 2020-06-26 엘지전자 주식회사 음성 판독 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297199A (ja) * 2001-03-29 2002-10-11 Toshiba Corp 合成音声判別方法と装置及び音声合成装置
JP2006293026A (ja) * 2005-04-11 2006-10-26 Oki Electric Ind Co Ltd 音声合成装置,音声合成方法およびコンピュータプログラム
JP2011215742A (ja) * 2010-03-31 2011-10-27 Nec Corp 対話システム、対話フローの更新方法およびプログラム
JP2012141354A (ja) * 2010-12-28 2012-07-26 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、音声合成装置及び音声合成プログラム
JP2017058513A (ja) * 2015-09-16 2017-03-23 株式会社東芝 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
JP2018146803A (ja) * 2017-03-06 2018-09-20 日本放送協会 音声合成装置及びプログラム

Also Published As

Publication number Publication date
US11545135B2 (en) 2023-01-03
JP7125608B2 (ja) 2022-08-25
JP2020060633A (ja) 2020-04-16
US20220051655A1 (en) 2022-02-17

Similar Documents

Publication Publication Date Title
US11847727B2 (en) Generating facial position data based on audio data
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
WO2019102884A1 (ja) ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
Lee et al. Many-to-many voice conversion using conditional cycle-consistent adversarial networks
JP5175325B2 (ja) 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体
JP6680933B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
WO2019116889A1 (ja) 信号処理装置および方法、学習装置および方法、並びにプログラム
JP2006084875A (ja) インデキシング装置、インデキシング方法およびインデキシングプログラム
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
WO2020071213A1 (ja) 音響モデル学習装置、音声合成装置、及びプログラム
Ivanko et al. An experimental analysis of different approaches to audio–visual speech recognition and lip-reading
JP2009086581A (ja) 音声認識の話者モデルを作成する装置およびプログラム
US11797769B1 (en) Artificial intelligence system using hybrid technique for task-oriented dialog management
Al-Radhi et al. Deep Recurrent Neural Networks in speech synthesis using a continuous vocoder
KR20200138993A (ko) 감정 토큰을 이용한 감정 음성 합성 방법 및 장치
US20090222266A1 (en) Apparatus, method, and recording medium for clustering phoneme models
JP6082657B2 (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
CN114581570B (zh) 一种三维脸部动作生成方法和系统
WO2020166359A1 (ja) 推定装置、推定方法、及びプログラム
JP7363107B2 (ja) 発想支援装置、発想支援システム及びプログラム
Jaiswal et al. A generative adversarial network based ensemble technique for automatic evaluation of machine synthesized speech
CN110431546A (zh) 发音者检索装置、发音者检索方法以及发音者检索程序
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
JP6626052B2 (ja) 音響モデル生成方法、音声合成方法、音響モデル生成装置、音声合成装置、プログラム
JP5486565B2 (ja) 話者クラスタリング方法、話者クラスタリング装置、プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19869455

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19869455

Country of ref document: EP

Kind code of ref document: A1