WO2016042626A1 - 音声処理装置、音声処理方法及びプログラム - Google Patents

音声処理装置、音声処理方法及びプログラム Download PDF

Info

Publication number
WO2016042626A1
WO2016042626A1 PCT/JP2014/074581 JP2014074581W WO2016042626A1 WO 2016042626 A1 WO2016042626 A1 WO 2016042626A1 JP 2014074581 W JP2014074581 W JP 2014074581W WO 2016042626 A1 WO2016042626 A1 WO 2016042626A1
Authority
WO
WIPO (PCT)
Prior art keywords
tone
model
prediction
calm
speech
Prior art date
Application number
PCT/JP2014/074581
Other languages
English (en)
French (fr)
Inventor
大和 大谷
悠 那須
正統 田村
眞弘 森田
Original Assignee
株式会社東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社東芝 filed Critical 株式会社東芝
Priority to PCT/JP2014/074581 priority Critical patent/WO2016042626A1/ja
Priority to JP2016548480A priority patent/JP6271748B2/ja
Publication of WO2016042626A1 publication Critical patent/WO2016042626A1/ja
Priority to US15/433,690 priority patent/US10157608B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Definitions

  • Embodiments described herein relate generally to a voice processing device, a voice processing method, and a program.
  • Speech synthesis is known in which arbitrary text input is converted into speech and output. Speech synthesis requires a speech model that represents speech prosody and phonemes. As a technique for statistically creating the speech model, for example, a speech synthesis technique based on a hidden Markov model is known.
  • Junichi YAMAGISHI and Takao KOBAYASHI “Average-Voice-Based Speech Synthesis Usage HSMM-Based SpeakerAdaptationTradeIonSensingTradeIonSTITreverIonSonTradeIntSonTradeIsSonTradeIonSTrAntEntIonSTrAntIsTrAntIonSTrAvSTrAInSTrAntIonSTrAntIsTrAntIonSTrAntIsTrAntIonSTrAntIsTrAntIonTrAS E90-D No. 2 pp. 533-543, 2007 Langzhou Chen, Norbert Braunschweiler, “Unsupervised Speaker and Expression Fabrication for Multi-Speaker Expressive Sessence Spenced” 1042-1045, 2013
  • the speech processing apparatus includes an input unit, a determination unit, and a prediction unit.
  • the input unit accepts calm tone data representing the speech of the speaker's calm tone.
  • the determination unit determines a prediction parameter according to the calm tone data.
  • the prediction unit predicts a tone conversion model that converts the calm tone of the speaker into a target tone using the prediction parameter.
  • FIG. 1 is a diagram illustrating an example of the configuration of the speech processing apparatus 100 according to the first embodiment.
  • the speech processing apparatus 100 according to the first embodiment includes an input unit 1, a determination unit 2, and a prediction unit 3.
  • the speech processing apparatus 100 according to the first embodiment stores the prediction parameter model 21 and the tone conversion model 22 in a storage unit that is not illustrated in FIG.
  • the prediction parameter model 21 is stored in advance in the storage unit of the speech processing apparatus 100, but the tone conversion model 22 is stored in the prediction unit 3.
  • the input unit 1 accepts calm tone data representing the speech of the speaker's calm tone.
  • the calm tone data of the first embodiment is a voice model representing the features of the speaker's calm tone.
  • the speech model is a probability model obtained by statistically modeling parameters extracted from acoustic feature data based on context (language attribute data).
  • the acoustic feature data is, for example, a prosody, a speech continuation length, and a speech spectrum representing phonology or voice color.
  • the speech model is, for example, a hidden Markov model (HMM: Hidden Markov Model), a hidden semi-Markov model (HSMM: Hidden Semi-Markov Model), or the like.
  • HMM Hidden Markov Model
  • HSMM Hidden Semi-Markov Model
  • the input unit 1 transmits calm tone data (HSMM) to the determination unit 2 and the prediction unit 3.
  • HSMM calm tone data
  • the decision unit 2 receives calm tone data (HSMM) from the input unit 1.
  • the determination unit 2 determines a prediction parameter from the prediction parameter model 21 according to calm tone data (HSMM).
  • FIG. 2 is a diagram showing an example of the configuration of the prediction parameter model 21 of the first embodiment.
  • the prediction parameter model 21 includes a plurality of calm tone prediction models 31 (a calm tone prediction model 31-1, a calm tone prediction model 31-2,..., A calm tone prediction model 31-S), and a tone conversion prediction model 41 ( Tone conversion prediction model 41-1, tone conversion prediction model 41-2, ..., tone conversion prediction model 41-S).
  • Each calm tone prediction model 31 is associated with a tone conversion prediction model 41 optimized for conversion to a target tone.
  • the calm tone prediction model 31-1, the calm tone prediction model 31-2,..., And the calm tone prediction model 31-S are speech models of S speakers.
  • the calm tone prediction model 31 is an HSMM learned from, for example, acoustic feature data of a speaker's calm tone and language attribute data of the speaker's calm tone.
  • the calm tone prediction model 31 may be configured by an HSMM generated by the speaker adaptation technique of Non-Patent Document 1 and a distribution selection decision tree described in Non-Patent Document 1.
  • the tone conversion prediction model 41 includes acoustic feature amount data of one type of tone to which the calm tone is converted (hereinafter referred to as “target tone”), and language attributes of one type of target tone. It is a model learned using data based on cluster adaptive learning (CAT: Cluster Adaptive Training) described in Non-Patent Document 2. However, the tone conversion prediction model 41 is a model having two clusters including a bias cluster. Specifically, the tone conversion prediction model 41 fixes the bias cluster to a speech model representing a calm tone, and obtains model parameters such that the other cluster represents the difference between the calm tone and the target tone. It is a model learned with constraints.
  • the calm tone prediction model 31 and the tone conversion prediction model 41 are associated on a one-to-one basis, but two or more types of tone conversion prediction models 41 are added to one calm tone prediction model 31. You may associate.
  • the number of clusters of the tone conversion prediction model 41 in this case is the sum of the number of target tone and the bias cluster. That is, the tone conversion prediction model 41 in this case is constrained so that model parameters can be obtained such that each cluster represents a difference between a calm tone and each target tone, as in the case of one type of target tone. It is a learned model.
  • the determination unit 2 calculates the distance between the calm tone data (HSMM) and the calm tone prediction model 31 using a predetermined distance function. Specifically, the determination unit 2 determines the distance between the calm tone data (HSMM) and the calm tone prediction model 31, for example, an average vector of the calm tone data (HSMM) and an average vector of the calm tone prediction model 31. Calculate by distance.
  • the distance function is a function for calculating, for example, the Euclidean distance, the Mahalanobis distance, the Batachariya distance, the Herringer distance, and the like. Also, Symmetric Kullback-Leibler divergence may be used as a measure instead of the distance function.
  • the determination unit 2 determines that the calm tone prediction model 31 that is closest to the calm tone data (HSMM) is the calm tone prediction model 31 that is most similar to the calm tone data (HSMM). And the determination part 2 determines the tone conversion prediction model 41 matched with the calm tone prediction model 31 with the nearest distance with calm tone data (HSMM) as a prediction parameter.
  • the determination unit 2 may determine the prediction parameter using one distance function, or may determine the prediction parameter using a plurality of distance functions.
  • the determination unit 2 may determine a prediction parameter from a plurality of distance functions, for example, by weighting or prioritizing the distance obtained by each distance function.
  • the determination unit 2 transmits the prediction parameter to the prediction unit 3.
  • the prediction unit 3 receives the prediction parameter from the determination unit 2.
  • the prediction unit 3 predicts a tone conversion model 22 that converts calm tone data (HSMM) into a target tone using prediction parameters.
  • HSMM calm tone data
  • FIG. 3 is a flowchart showing an example of the voice processing method of the first embodiment.
  • the input unit 1 accepts calm tone data (HSMM) representing speech of a speaker's calm tone (step S1).
  • the determination unit 2 calculates the distance between the calm tone data (HSMM) and the calm tone prediction model 31 using a predetermined distance function (step S2).
  • the determination unit 2 determines the tone conversion prediction model 41 associated with the calm tone prediction model 31 that is closest to the calm tone data (HSMM) as a prediction parameter (step S3).
  • the prediction unit 3 predicts a tone conversion model 22 that converts calm tone data (HSMM) into a target tone using the prediction parameter (step S4).
  • the tone conversion prediction model 41 associated with the calm tone prediction model 31 in which the determination unit 2 is closest to the calm tone data (HSMM) Determine the prediction parameter.
  • the prediction unit 3 predicts the tone conversion model 22 that converts the calm tone of the speaker into the target tone using the prediction parameter.
  • the speech processing apparatus 100 according to the modification of the first embodiment is different from the speech processing apparatus 100 of the first embodiment in the format of calm tone data received by the input unit 1.
  • the description of the configuration of the speech processing apparatus 100 according to the modified example of the first embodiment is the same as the configuration of the first embodiment (see FIG. 1), and will be omitted. In the description of the modified example of the first embodiment, portions different from the first embodiment will be described.
  • the input unit 1 accepts calm tone data representing the speech of the speaker's calm tone.
  • the calm tone data of the modified example of the first embodiment includes acoustic feature data of speech of the speaker's calm tone and language attribute data of the speech of the calm tone.
  • the acoustic feature data is data indicating the characteristics of the voice obtained by analyzing the voice.
  • the acoustic feature data is parameters related to prosody extracted from speech uttered by a person, and parameters extracted from a speech spectrum representing phonemes and voice colors.
  • the parameter related to the prosody is a time sequence of the fundamental frequency representing the pitch of the voice.
  • Parameters representing phonemes and timbres represent time series such as cepstrum, mel cepstrum, LPC, mel LPC, LSP, mel LSP, etc., indices representing the ratio of periodicity / non-periodicity of speech, and time changes of these acoustic data It is a feature quantity.
  • Language attribute data is data indicating language attributes obtained by analyzing speech or text.
  • the language attribute data is data obtained from character string information of spoken speech, for example.
  • language attribute data includes phonemes, pronunciation method information, phrase end position, sentence length, expiratory paragraph length, expiratory paragraph position, accent phrase length, accent phrase position, word length, word position, mora length, These include the mora position, accent type, dependency information, grammatical information, and phoneme boundary information regarding the preceding, preceding, succeeding, and succeeding features.
  • the determination unit 2 receives calm tone data (acoustic feature data and language attribute data) from the input unit 1.
  • the determination unit 2 determines a prediction parameter from the prediction parameter model 21 according to calm tone data (acoustic feature data and language attribute data).
  • the determination unit 2 calculates the likelihood of the calm tone prediction model 31 for the calm tone data (acoustic feature data and language attribute data).
  • ⁇ Likelihood is an index that quantifies how well the statistical model matches the input data.
  • the likelihood is represented by a probability P ( ⁇
  • the determination unit 2 determines the tone conversion prediction model 41 associated with the calm tone prediction model 31 selected based on the likelihood as a prediction parameter. That is, the determination unit 2 determines the tone conversion prediction model 41 associated with the calm tone prediction model 31 having the highest likelihood for the calm tone data (acoustic feature data and language attribute data) as a prediction parameter.
  • the prediction unit 3 receives the prediction parameter from the determination unit 2.
  • the prediction unit 3 predicts a tone conversion model 22 that converts calm tone data (acoustic feature data and language attribute data) into a target tone using prediction parameters.
  • the determination unit 2 corresponds to the calm tone prediction model 31 having the highest likelihood for calm tone data (acoustic feature data and language attribute data).
  • the attached tone conversion prediction model 41 is determined as a prediction parameter.
  • the prediction unit 3 predicts the tone conversion model 22 that converts the calm tone of the speaker into the target tone using the prediction parameter. This prevents the deterioration of the quality of the synthesized speech that is output even if the calm tone data (acoustic feature data and language attribute data) of any speaker is converted into data that represents a different tone by speaker adaptation technology. Can do.
  • the speech processing apparatus 100 according to the second embodiment is different from the speech processing apparatus 100 according to the first embodiment in the prediction parameter determination method by the determination unit 2.
  • the description of the configuration of the speech processing apparatus 100 of the second embodiment is the same as the configuration of the first embodiment (see FIG. 1), and will be omitted. In the description of the second embodiment, portions different from the first embodiment will be described.
  • the decision unit 2 receives calm tone data (HSMM) from the input unit 1.
  • the determination unit 2 determines a prediction parameter from the prediction parameter model 21 according to calm tone data (HSMM). Specifically, the determination unit 2 determines a prediction parameter suitable for calm tone data (HSMM) from the calm tone prediction model 31 and the tone conversion prediction model 41 using a predetermined prediction function.
  • the predetermined prediction function is, for example, a linear transformation function such as multiple regression and affine transformation, or a nonlinear transformation function such as kernel regression and neural network.
  • a prediction function for determining a prediction parameter for predicting two or more different tone conversion models 22 may be used at the same time.
  • a predetermined prediction function is a multiple linear regression function and a prediction parameter for predicting one type of tone conversion model 22 is determined.
  • the calm tone prediction model 31 of S speakers is the same. That is, it is assumed that the number of parameters of all the calm tone prediction models 31 and the corresponding relationship are uniquely determined. Therefore, the calm tone prediction model 31 of the second embodiment is constructed by speaker adaptation using maximum likelihood linear regression.
  • the tone conversion prediction model 41 of the second embodiment performs the shared decision tree context clustering described in Non-Patent Document 1 on the speech data of the target tone of the S speakers and the speech model of the calm tone.
  • the structure of the model it is created from the speech data of the target tone of the S speakers and the speech model of the calm tone.
  • FIG. 4 is a flowchart illustrating an example of a prediction parameter determination method according to the second embodiment.
  • the determination unit 2 calculates a super vector (step S11). Specifically, the determination unit 2 first extracts a parameter relating to the average of the calm tone prediction model 31-1 and a parameter relating to the average of the tone conversion prediction model 41-1. Then, the determination unit 2 combines the parameter related to the average of the calm tone prediction model 31-1 and the parameter related to the average of the tone conversion prediction model 41-1 to thereby obtain the calm tone prediction model 31-1 and the tone conversion prediction. A super vector indicating the average of the model 41-1 and the model 41-1 is calculated. Similarly, the determination unit 2 calculates super vectors for the calm tone prediction model 31-2 and the tone conversion prediction model 41-2, ..., the calm tone prediction model 31-S and the tone conversion prediction model 41-S. .
  • the determination unit 2 performs eigenvalue decomposition or singular value decomposition on the S super vectors to extract an average vector (bias vector) of the super vectors and S-1 eigen vectors (step S12). .
  • the determination unit 2 creates a prediction function using the average vector and the eigenvector as shown in the following formula (1) (step S13).
  • ⁇ b is an average vector of calm tone data (HSMM).
  • ⁇ c is an average vector of the tone conversion model 22.
  • e b (s) is the s-th eigenvector of the calm tone prediction model 31.
  • e c (s) is the s-th eigenvector of the tone conversion prediction model 41.
  • e b (0) is a vector indicating the dimension component corresponding to the calm tone prediction model 31 of the bias vector.
  • e c (0) is a vector indicating a dimension component corresponding to the tone vector conversion prediction model 41 of the bias vector.
  • w (s) is a coefficient (weight) of the sth eigenvector.
  • the determination unit 2 determines the coefficient (weight) w (s) of the prediction function represented by the equation (1) (step S14). Specifically, the determination unit 2 determines a combination (coefficient (weight)) w (s) of the prediction function (the following formula (3)) by the following formula (2).
  • the determination unit 2 calculates the linear sum of the average vector ⁇ b of the calm tone data (HSMM), the eigenvector e b of the calm tone prediction model 31 and the bias vector e b (0) of the calm tone prediction model 31 (the right side of Expression (1)).
  • the weight w (s) is determined so that the difference between the first component and the second component is minimized.
  • the prediction unit 3 of the second embodiment calculates the average of the tone conversion model 22 from the combination of the coefficient (weight) w (s) of the prediction function determined by Expression (2) (Expression (3)) and Expression (1). to predict the vector ⁇ c. That prediction unit 3 using predictive function expressed by the following equation (4), to predict the mean vector mu c of tone conversion model 22.
  • FIG. 5 is a conceptual diagram of the prediction function of the second embodiment.
  • the determination unit 2 predicts the tone conversion model 22 of the calm tone data (HSMM) from the plurality of calm tone prediction models 31 and the plurality of tone conversion prediction models 41. 4)) is determined as a prediction parameter. Then, the prediction unit 3 uses the prediction parameter to predict the tone conversion model 22 that converts the calm tone of the speaker into the target tone.
  • the prediction unit 3 uses the prediction parameter to predict the tone conversion model 22 that converts the calm tone of the speaker into the target tone.
  • the speech processing apparatus 100 of the second embodiment even if the calm tone data (HSMM) of an arbitrary speaker is converted into data representing a different tone depending on the speaker adaptation technique, it is output. Degradation of the quality of synthesized speech can be prevented.
  • HSMM calm tone data
  • the speech processing apparatus 100 according to the modification of the second embodiment is different from the speech processing apparatus 100 of the second embodiment in the format of calm tone data received by the input unit 1.
  • the description of the configuration of the speech processing apparatus 100 according to the modified example of the second embodiment is the same as the configuration of the first embodiment (see FIG. 1), and will be omitted. In the description of the modified example of the second embodiment, portions different from the second embodiment will be described.
  • the input unit 1 accepts calm tone data representing the speech of the speaker's calm tone.
  • the calm tone data of the modified example of the second embodiment includes the acoustic feature data of the speech of the speaker's calm tone and the language attribute data of the speech of the calm tone.
  • the description of the acoustic feature quantity data and the language attribute data is the same as the description of the modified example of the first embodiment, and is omitted.
  • the determination unit 2 receives calm tone data (acoustic feature data and language attribute data) from the input unit 1.
  • the determination unit 2 determines a prediction parameter from the prediction parameter model 21 according to calm tone data (acoustic feature data and language attribute data).
  • the determination unit 2 creates the prediction function of Expression (1) in the same manner as in the case of the speech processing apparatus 100 of the second embodiment.
  • the determination unit 2 of the modified example of the second embodiment uses the cluster adaptive learning described in Non-Patent Document 2, and uses the following formulas (5) and (6) to determine the weight w (s ) Combination (formula (3)) is determined.
  • N (;) indicates a normal distribution.
  • indicates a covariance matrix.
  • the prediction unit 3 calculates the average vector of the tone conversion model 22 from the combination of the coefficients (weights) w (s) of the prediction function determined by the equations (5) and (6) (equation (3)) and the equation (1). to predict the ⁇ c. That prediction unit 3 predicts the mean vector mu c of tone conversion model 22 by equation (4).
  • the determination unit 2 includes a plurality of calm tone prediction models 31 and a plurality of tone conversion prediction models 41 according to calm tone data.
  • a prediction parameter for predicting the tone conversion model 22 of calm tone data is determined.
  • the prediction unit 3 uses the prediction parameter to predict the tone conversion model 22 that converts the calm tone of the speaker into the target tone. This prevents the deterioration of the quality of the synthesized speech that is output even if the calm tone data (acoustic feature data and language attribute data) of any speaker is converted into data that represents a different tone by speaker adaptation technology. Can do.
  • the speech processing apparatus 100 of the third embodiment is created by the processes of the determination unit 2 and the prediction unit 3 of the first embodiment, the modification example of the first embodiment, the second embodiment, or the modification example of the second embodiment. Speech synthesis is performed using the tone conversion model 22.
  • FIG. 6 is a diagram illustrating an example of the configuration of the speech processing apparatus 100 according to the third embodiment.
  • the speech processing apparatus 100 according to the third embodiment includes an input unit 1, a determination unit 2, a prediction unit 3, an analysis unit 4, a selection unit 5, a generation unit 6, a synthesis unit 7, and an output unit 8.
  • the speech processing apparatus 100 according to the third embodiment stores the prediction parameter model 21, the tone conversion model 22, and the target speaker model 23 in a storage unit that is not illustrated in FIG.
  • the input unit 1 accepts text data or calm tone data.
  • Text data is data indicating an arbitrary character string.
  • the calm tone data is HSMM or acoustic feature data and language attribute data.
  • the tone conversion model 22 is created by the processing of the determination unit 2 and the prediction unit 3. Since the processes of the determination unit 2 and the prediction unit 3 are the same as those of the first embodiment, the modified example of the first embodiment, the second embodiment, or the modified example of the second embodiment, description thereof is omitted.
  • the input unit 1 When the input unit 1 accepts text data, the input unit 1 transmits the text data to the analysis unit 4.
  • the analysis unit 4 receives text data from the input unit 1.
  • the analysis unit 4 analyzes the text data and acquires the language attribute data described above.
  • the analysis unit 4 transmits language attribute data to the selection unit 5.
  • the selection unit 5 receives language attribute data from the analysis unit 4.
  • the selection unit 5 selects model parameters from the tone conversion model 22 and the target speaker model 23 using a predetermined decision tree based on the language attribute data.
  • the tone conversion model 22 is associated with the target speaker model 23 indicating the speech model of the target speaker's calm tone. That is, the tone conversion model 22 is a model parameter for converting the target speaker's calm tone speech model (target speaker model 23) into the target tone.
  • the speech processing apparatus 100 may include a plurality of tone conversion models 22. Thereby, for example, according to an operation input indicating the type of tone from the user, it is possible to perform speech synthesis with different tone. Similarly, the speech processing apparatus 100 may include a plurality of target speaker models 23.
  • the selection unit 5 transmits the model parameter to the generation unit 6.
  • the generation unit 6 receives model parameters from the selection unit 5.
  • the generation unit 6 generates a voice parameter based on the model parameter.
  • the generation unit 6 generates a speech parameter from the model parameter by a method described in Non-Patent Document 2, for example.
  • the generation unit 6 transmits the voice parameter to the synthesis unit 7.
  • the synthesizing unit 7 receives the voice parameter from the generating unit 6.
  • the synthesizer 7 synthesizes a speech waveform from speech parameters.
  • the synthesizer 7 transmits the speech waveform to the output unit 8.
  • the output unit 8 receives a speech waveform from the synthesis unit 7.
  • the output unit 8 outputs sound corresponding to the sound waveform.
  • the output unit 8 outputs, for example, audio as an audio file.
  • the output unit 8 outputs, for example, sound through a sound output device such as a speaker.
  • FIG. 7 is a flowchart showing an example of the voice processing method of the third embodiment.
  • the input unit 1 receives text data (step S21).
  • the analysis part 4 analyzes text data and acquires the above-mentioned language attribute data (step S22).
  • the selection unit 5 selects model parameters from the tone conversion model 22 and the target speaker model 23 using a predetermined decision tree based on the language attribute data (step S23).
  • generation part 6 produces
  • the synthesis unit 7 synthesizes a speech waveform from the speech parameters (step S25).
  • the output unit 8 outputs a sound corresponding to the sound waveform (step S26).
  • the determination unit 2 and the prediction of the first embodiment, the modified example of the first embodiment, the second embodiment, or the modified example of the second embodiment can be synthesized from text data.
  • the voice processing apparatus 100 converts the tone of the input voice data into a target tone, and outputs the converted voice data.
  • the tone conversion model 22 created by the processing of the determination unit 2 and the prediction unit 3 of the modification of the first embodiment or the modification of the second embodiment is used.
  • FIG. 8 is a diagram illustrating an example of the configuration of the speech processing apparatus 100 according to the fourth embodiment.
  • the speech processing apparatus 100 according to the fourth embodiment includes an input unit 1, a determination unit 2, a prediction unit 3, an analysis unit 4, a selection unit 5, a generation unit 6, a synthesis unit 7, an output unit 8, a recognition unit 9, and an extraction unit 10. Is provided.
  • the speech processing apparatus 100 according to the fourth embodiment stores the prediction parameter model 21, the tone conversion model 22, the speech recognition model 24, and the speech data 25 in a storage unit that is not illustrated in FIG.
  • the input unit 1 accepts voice data including arbitrary utterance contents.
  • the input unit 1 receives audio data from an audio input device such as a microphone. Further, the input unit 1 accepts audio data, for example, using an audio file.
  • the input unit 1 transmits voice data to the recognition unit 9 and the extraction unit 10.
  • the recognition unit 9 receives voice data from the input unit 1.
  • the recognition unit 9 obtains text data from the speech data by performing speech recognition using the speech recognition model 24.
  • the speech recognition model 24 is model data necessary for recognizing text data from speech data.
  • the recognizing unit 9 simultaneously recognizes the phoneme time boundary, and also acquires phoneme boundary information indicating the phoneme time boundary.
  • the recognition unit 9 transmits text data and phoneme boundary information to the analysis unit 4.
  • the analysis unit 4 receives text data and phoneme boundary information from the recognition unit 9.
  • the analysis unit 4 analyzes the text data and acquires the language attribute data described above.
  • the analysis unit 4 associates phoneme boundary information with language attribute data.
  • Extraction unit 10 receives audio data from input unit 1.
  • the extraction unit 10 extracts acoustic feature data including parameters related to prosody (basic frequency time series representing voice pitch) or parameters related to prosody and timbre (such as cepstrum) from the speech data.
  • the voice data 25 stores text data and phoneme boundary information recognized by the recognition unit 9, language attribute data acquired by the analysis unit 4, and acoustic feature amount data extracted by the extraction unit 10.
  • the determining unit 2 determines a prediction parameter from the prediction parameter model 21 according to the language attribute data and the acoustic feature amount data included in the audio data 25. Since the description of the process in which the determination part 2 determines a prediction parameter is the same as the process of the determination part 2 of the modification of 1st Embodiment or the modification of 2nd Embodiment, it abbreviate
  • the determination unit 2 transmits the prediction parameter to the prediction unit 3.
  • the prediction unit 3 receives the prediction parameter from the determination unit 2.
  • the prediction unit 3 predicts a tone conversion model 22 that converts the voice represented by the voice data 25 into a target tone using the prediction parameter.
  • the description of the process in which the prediction unit 3 predicts the tone conversion model 22 is the same as the process of the prediction unit 3 in the modified example of the first embodiment or the modified example of the second embodiment, and will not be repeated.
  • the selection unit 5 selects model parameters from the tone conversion model 22 based on the language attribute data included in the voice data 25.
  • the selection unit 5 arranges the model parameters in a time series as a model parameter series based on the phoneme boundary information associated with the language attribute data of the speech data 25.
  • the generating unit 6 adds a model parameter series to the time series of the acoustic feature amount data included in the audio data 25, thereby generating an audio parameter representing the audio obtained by converting the tone of the audio data received by the input unit 1.
  • the generation unit 6 performs a smoothing process using a feature amount that represents a temporal change included in the acoustic feature amount data.
  • the smoothing process includes, for example, a speech parameter generation method based on the likelihood maximization standard used in Non-Patent Document 1 and Non-Patent Document 2, a Kalman filter and a Kalman smoother used in a linear dynamic system, and the like. At this time, shared information in each frame of the acoustic feature data is necessary, but the distributed information may be arbitrarily determined.
  • the generation unit 6 transmits the voice parameter to the synthesis unit 7.
  • the synthesizing unit 7 receives the voice parameter from the generating unit 6.
  • the synthesizer 7 synthesizes a speech waveform from speech parameters.
  • the synthesizer 7 transmits the speech waveform to the output unit 8.
  • the output unit 8 receives a speech waveform from the synthesis unit 7.
  • the output unit 8 outputs sound corresponding to the sound waveform.
  • the output unit 8 outputs, for example, audio as an audio file.
  • the output unit 8 outputs, for example, sound through a sound output device such as a speaker.
  • FIG. 9 is a flowchart showing an example of the voice processing method according to the fourth embodiment.
  • the input unit 1 receives audio data including arbitrary utterance content (step S31).
  • the recognition unit 9 performs voice recognition of the voice data (step S32). Specifically, the recognition unit 9 acquires text data from the speech data by performing speech recognition using the speech recognition model 24. The recognizing unit 9 simultaneously recognizes the phoneme time boundary, and also acquires phoneme boundary information indicating the phoneme time boundary.
  • the analysis unit 4 analyzes the text data (step S33). Specifically, the analysis unit 4 analyzes the text data and acquires the language attribute data described above. The analysis unit 4 associates phoneme boundary information with language attribute data.
  • the extraction unit 10 extracts acoustic feature data including parameters related to prosody (basic frequency time series representing voice pitch) or parameters related to prosody and tone (such as cepstrum) from the speech data (step) S34).
  • the determination unit 2 determines a prediction parameter from the prediction parameter model 21 according to the language attribute data and the acoustic feature amount data (step S35).
  • the prediction unit 3 predicts the tone conversion model 22 that converts the voice represented by the voice data 25 into the target tone using the prediction parameter (step S36).
  • the selection unit 5 selects a model parameter from the tone conversion model 22 (step S37). Specifically, the selection unit 5 selects model parameters from the tone conversion model 22 based on the language attribute data included in the audio data 25. The selection unit 5 arranges the model parameters in a time series as a model parameter series based on the phoneme boundary information associated with the language attribute data of the speech data 25.
  • the generating unit 6 adds the model parameter series to the time series of the acoustic feature amount data included in the audio data 25, so that an audio parameter representing the audio obtained by converting the tone of the audio data received in step S31 is obtained.
  • Generate step S38).
  • the synthesizer 7 synthesizes a speech waveform from the speech parameters (step S39).
  • the output unit 8 outputs a sound corresponding to the sound waveform (step S40).
  • the tone conversion model created by the determination unit 2 and the prediction unit 3 of the modification of the first embodiment or the modification of the second embodiment. 22 can be used to convert the tone of the input voice and output it.
  • the processing of the recognition unit 9, the analysis unit 4, the determination unit 2, and the prediction unit 3 may be performed in real time or in advance.
  • the voice data 25 may be stored as a voice model such as HSMM.
  • the processes of the determination unit 2 and the prediction unit 3 in this case are the same as those of the speech processing device 100 of the first embodiment or the second embodiment.
  • FIG. 10 is a diagram illustrating an example of a hardware configuration of the speech processing apparatus 100 according to the first to fourth embodiments.
  • the sound processing apparatus 100 according to the first to fourth embodiments includes a control device 51, a main storage device 52, an auxiliary storage device 53, a display device 54, an input device 55, a communication device 56, a microphone 57, and a speaker 58.
  • the control device 51, main storage device 52, auxiliary storage device 53, display device 54, input device 55, communication device 56, microphone 57 and speaker 58 are connected to each other via a bus 59.
  • the control device 51 executes the program read from the auxiliary storage device 53 to the main storage device 52.
  • the main storage device 52 is a memory such as a ROM (Read Only Memory) or a RAM (Random Access Memory).
  • the auxiliary storage device 53 is an HDD (Hard Disk Drive), an optical drive, or the like.
  • the display device 54 displays the state of the voice processing device 100 and the like.
  • the display device 54 is, for example, a liquid crystal display.
  • the input device 55 is an interface for operating the voice processing device 100.
  • the input device 55 is, for example, a keyboard or a mouse.
  • the communication device 56 is an interface for connecting to a network.
  • the microphone 57 acquires sound.
  • the speaker 58 outputs sound.
  • the programs executed by the sound processing apparatus 100 are files in an installable or executable format, such as a CD-ROM, a memory card, a CD-R, and a DVD (Digital Versatile Disk).
  • the program is recorded on a computer-readable storage medium and provided as a computer program product.
  • the program executed by the speech processing apparatus 100 according to the first to fourth embodiments may be provided by being stored on a computer connected to a network such as the Internet and downloaded via the network. .
  • the program executed by the speech processing apparatus 100 according to the first to fourth embodiments may be provided via a network such as the Internet without being downloaded.
  • the program of the speech processing apparatus 100 of the first to fourth embodiments may be provided by being incorporated in advance in a ROM or the like.
  • the program executed by the speech processing apparatus 100 of the first to fourth embodiments includes the above-described functional blocks (input unit 1, determination unit 2, prediction unit 3, analysis unit 4, selection unit 5, generation unit 6, synthesis). Unit 7, output unit 8, recognition unit 9 and extraction unit 10).
  • each functional block is loaded onto the main storage device 52 by the control device 51 reading and executing the program from the storage medium. That is, each functional block is generated on the main storage device 52.
  • Note that some or all of the functional blocks described above may not be realized by software, but may be realized by hardware such as an IC (Integrated Circuit).

Abstract

 実施形態の音声処理装置は、入力部と、決定部と、予測部と、を備える。入力部は話者の平静口調の音声を表す平静口調データを受け付ける。決定部は平静口調データに応じて予測パラメータを決定する。予測部は予測パラメータを使用して、話者の平静口調を目標の口調に変換する口調変換モデルを予測する。

Description

音声処理装置、音声処理方法及びプログラム
 本発明の実施形態は音声処理装置、音声処理方法及びプログラムに関する。
 入力された任意のテキストを音声に変換して出力する音声合成が知られている。音声合成では、音声の韻律や音素片を表す音声モデルが必要となる。この音声モデルを統計的に作成する技術として、例えば隠れマルコフモデルに基づく音声合成技術が知られている。
 隠れマルコフモデルに基づく音声合成では、ある目標の話者の音声波形から抽出された、韻律パラメータ及び音声スペクトル等を表現したパラメータと、音素及び文法等の言語属性を表現するコンテキストと、を用いて隠れマルコフモデルを学習する。これにより目標の話者の声色や口調の特徴を再現した合成音声を生成することができる。また隠れマルコフモデルに基づく音声合成では、音声に関するパラメータをモデル化しているため、様々な処理を柔軟に行うことができる。例えば既存の音声モデルと、ある話者の目標の口調を表わす少量の音声データと、から話者適応技術により当該話者の目標の口調の音声モデルを作成することができる。
特開2011-28130号公報
Junichi YAMAGISHI and Takao KOBAYASHI "Average-Voice-Based Speech Synthesis Using HSMM-Based Speaker Adaptation and Adaptive Training," IEICE TRANSACTIONS on Information and Systems Vol.E90-D No.2 pp.533-543, 2007 Langzhou Chen, Norbert Braunschweiler, "Unsupervised Speaker and Expression Factorization for Multi-Speaker Expressive Synthesis of Ebooks," Proceedings in Interspeech 2013, pp. 1042-1045, 2013
 しかしながら従来の技術では、任意の話者の平静口調を表すデータを、話者適応技術によって異なる口調を表すデータに変換すると、出力される合成音声の品質が劣化する場合があった。
 実施形態の音声処理装置は、入力部と、決定部と、予測部と、を備える。入力部は話者の平静口調の音声を表す平静口調データを受け付ける。決定部は前記平静口調データに応じて予測パラメータを決定する。予測部は前記予測パラメータを使用して、前記話者の平静口調を目標の口調に変換する口調変換モデルを予測する。
第1実施形態の音声処理装置の構成の例を示す図。 第1実施形態の予測パラメータモデルの構成の例を示す図。 第1実施形態の音声処理方法の例を示すフローチャート。 第2実施形態の予測パラメータの決定方法の例を示すフローチャート。 第2実施形態の予測関数の概念図。 第3実施形態の音声処理装置の構成の例を示す図。 第3実施形態の音声処理方法の例を示すフローチャート。 第4実施形態の音声処理装置の構成の例を示す図。 第4実施形態の音声処理方法の例を示すフローチャート。 第1乃至第4実施形態の音声処理装置のハードウェア構成の例を示す図。
(第1実施形態)
 図1は第1実施形態の音声処理装置100の構成の例を示す図である。第1実施形態の音声処理装置100は、入力部1、決定部2及び予測部3を備える。また第1実施形態の音声処理装置100は、図1では図示されていない記憶部に、予測パラメータモデル21及び口調変換モデル22を記憶する。なお予測パラメータモデル21は予め音声処理装置100の記憶部に記憶されているが、口調変換モデル22は予測部3により記憶される。
 入力部1は話者の平静口調の音声を表す平静口調データを受け付ける。第1実施形態の平静口調データは、話者の平静口調の音声の特徴を表す音声モデルである。音声モデルは音響特徴量データから抽出されたパラメータを、コンテキスト(言語属性データ)に基づいて統計的にモデル化した確率モデルである。音響特徴量データは、例えば韻律、発話の継続長、及び、音韻や声色を表す音声スペクトル等である。
 音声モデルは、具体的には、例えば隠れマルコフモデル(HMM:Hidden Markov Model)、及び隠れセミマルコフモデル(HSMM:Hidden Semi-Markov Model)等である。以下、第1実施形態の説明では、平静口調データがHSMMである場合について説明する。
 入力部1は平静口調データ(HSMM)を決定部2及び予測部3に送信する。
 決定部2は入力部1から平静口調データ(HSMM)を受信する。決定部2は平静口調データ(HSMM)に応じて予測パラメータモデル21から予測パラメータを決定する。
 ここで予測パラメータモデル21について説明する。
 図2は第1実施形態の予測パラメータモデル21の構成の例を示す図である。予測パラメータモデル21は、複数の平静口調予測モデル31(平静口調予測モデル31-1、平静口調予測モデル31-2、・・・、平静口調予測モデル31-S)と、口調変換予測モデル41(口調変換予測モデル41-1、口調変換予測モデル41-2、・・・、口調変換予測モデル41-S)とを含む。それぞれの平静口調予測モデル31には、目標の口調に変換するために最適化された口調変換予測モデル41が対応付けられている。
 平静口調予測モデル31-1、平静口調予測モデル31-2、・・・、平静口調予測モデル31-SはS人の話者の平静口調の音声モデルである。平静口調予測モデル31は、例えば話者の平静口調の音響特徴量データと、話者の平静口調の言語属性データと、から学習されたHSMMである。なお平静口調予測モデル31は非特許文献1の話者適応技術により生成されたHSMM、及び非特許文献1に記載の分布選択用の決定木により構成されていてもよい。
 口調変換予測モデル41は、平静口調の変換先の1種類の口調(以下、平静口調の変換先の口調を「目標口調」という。)の音響特徴量データ、及び1種類の目標口調の言語属性データを用いて、非特許文献2に記載のクラスタ適応学習(CAT:Cluster Adaptive Training)に基づいて学習されたモデルである。ただし口調変換予測モデル41はバイアスクラスタを含めて、クラスタの数が2つのモデルである。具体的には、口調変換予測モデル41は、バイアスクラスタを、平静口調を表す音声モデルに固定し、もう1つのクラスタが平静口調と目標口調との差を表すようなモデルパラメータが得られるように制約を付けて学習されたモデルである。
 なお図2の例では、平静口調予測モデル31と口調変換予測モデル41とが1対1に対応付けられているが、1つの平静口調予測モデル31に、2種類以上の口調変換予測モデル41を対応付けてもよい。この場合の口調変換予測モデル41のクラスタ数は、目標口調の数とバイアスクラスタとの合計である。すなわち、この場合の口調変換予測モデル41は、目標口調が1種類の場合と同様に、各クラスタが平静口調と各目標口調との差を表すようなモデルパラメータが得られるように制約を付けて学習されたモデルである。
 図1に戻り、決定部2が予測パラメータを決定する方法について説明する。まず決定部2は平静口調データ(HSMM)と、平静口調予測モデル31と、の距離を所定の距離関数によって算出する。具体的には、決定部2は平静口調データ(HSMM)と、平静口調予測モデル31との距離を、例えば平静口調データ(HSMM)の平均ベクトルと、平静口調予測モデル31の平均ベクトルと、の距離により算出する。
 ここで、距離関数は、例えばユークリッド距離、マハラノビス距離、バタチャリヤ距離及びヘリンジャー距離等を算出する関数である。また距離関数の代わりの尺度としてSymmetric Kullback-Leibler divergenceが用いられてもよい。
 決定部2は平静口調データ(HSMM)に距離が最も近い平静口調予測モデル31を、平静口調データ(HSMM)に最も類似する平静口調予測モデル31と判断する。そして決定部2は平静口調データ(HSMM)との距離が最も近い平静口調予測モデル31に対応付けられた口調変換予測モデル41を、予測パラメータに決定する。
 なお決定部2は、1つの距離関数を使用して予測パラメータを決定してもよいし、複数の距離関数を使用して予測パラメータを決定してもよい。決定部2は、例えば各距離関数により得られた距離に重み付け、又は優先度付け等を行うことにより、複数の距離関数から予測パラメータを決定してもよい。
 決定部2は予測パラメータを予測部3に送信する。
 予測部3は決定部2から予測パラメータを受信する。予測部3は予測パラメータを使用して、平静口調データ(HSMM)を目標の口調に変換する口調変換モデル22を予測する。
 図3は第1実施形態の音声処理方法の例を示すフローチャートである。はじめに、入力部1が、話者の平静口調の音声を表す平静口調データ(HSMM)を受け付ける(ステップS1)。次に、決定部2が、平静口調データ(HSMM)と、平静口調予測モデル31と、の距離を所定の距離関数によって算出する(ステップS2)。次に、決定部2が、平静口調データ(HSMM)との距離が最も近い平静口調予測モデル31に対応付けられた口調変換予測モデル41を、予測パラメータに決定する(ステップS3)。次に、予測部3は予測パラメータを使用して、平静口調データ(HSMM)を目標の口調に変換する口調変換モデル22を予測する(ステップS4)。
 以上説明したように、第1実施形態の音声処理装置100では、決定部2が平静口調データ(HSMM)との距離が最も近い平静口調予測モデル31に対応付けられた口調変換予測モデル41を、予測パラメータに決定する。そして予測部3が予測パラメータを使用して、話者の平静口調を目標の口調に変換する口調変換モデル22を予測する。これにより任意の話者の平静口調データ(HSMM)を、話者適応技術によって異なる口調を表すデータに変換しても、出力される合成音声の品質の劣化を防ぐことができる。
(第1実施形態の変形例)
 次に第1実施形態の変形例について説明する。第1実施形態の変形例の音声処理装置100は、入力部1が受け付ける平静口調データの形式が第1実施形態の音声処理装置100と異なる。第1実施形態の変形例の音声処理装置100の構成の説明は、第1実施形態の構成と同じ(図1参照)なので省略する。第1実施形態の変形例の説明では、第1実施形態と異なる箇所について説明する。
 入力部1は話者の平静口調の音声を表す平静口調データを受け付ける。第1実施形態の変形例の平静口調データは、話者の平静口調の音声の音響特徴量データと、平静口調の音声の言語属性データと、を含む。
 音響特徴量データは、音声を分析することにより得られた音声の特徴を示すデータである。具体的には、音響特徴量データは、人が発話した音声から抽出した韻律に関するパラメータ、及び、音韻や声色を表す音声スペクトルから抽出したパラメータである。韻律に関するパラメータは、声の高さを表す基本周波数の時間系列である。音韻や音色を表すパラメータは、ケプストラム、メルケプストラム、LPC、メルLPC、LSP、メルLSP等の時間系列、音声の周期・非周期性の割合を表す指標、及び、これら音響データの時間変化を表す特徴量である。
 言語属性データは、音声又はテキストを分析することにより得られた言語の属性を示すデータである。言語属性データは、例えば発話された音声の文字列情報から得られるデータである。具体的には、言語属性データは、音素、発音方法に関わる情報、句末位置、文長、呼気段落長、呼気段落位置、アクセント句長、アクセント句位置、単語長、単語位置、モーラ長、モーラ位置、アクセント型、係り受け情報、文法情報、及び、各特徴の先行、先々行、後続、後々続に関する音素境界情報等である。
 決定部2は入力部1から平静口調データ(音響特徴量データ及び言語属性データ)を受信する。決定部2は平静口調データ(音響特徴量データ及び言語属性データ)に応じて予測パラメータモデル21から予測パラメータを決定する。
 具体的には、決定部2は平静口調データ(音響特徴量データ及び言語属性データ)に対する平静口調予測モデル31の尤度を算出する。
 尤度は、入力データに対して統計モデルがどのくらいデータに合っているかを数値化した指標である。尤度は、確率P(λ|X)(λ:モデルパラメータ、X:データ)で表される。
 決定部2は尤度に基づいて選択した平静口調予測モデル31に対応付けられた口調変換予測モデル41を予測パラメータに決定する。すなわち決定部2は平静口調データ(音響特徴量データ及び言語属性データ)に対する尤度が、最も高い平静口調予測モデル31に対応付けられた口調変換予測モデル41を予測パラメータに決定する。
 予測部3は決定部2から予測パラメータを受信する。予測部3は予測パラメータを使用して、平静口調データ(音響特徴量データ及び言語属性データ)を目標の口調に変換する口調変換モデル22を予測する。
 以上説明したように、第1実施形態の変形例の音声処理装置100では、決定部2が平静口調データ(音響特徴量データ及び言語属性データ)に対する尤度が最も高い平静口調予測モデル31に対応付けられた口調変換予測モデル41を、予測パラメータに決定する。そして予測部3は予測パラメータを使用して、話者の平静口調を目標の口調に変換する口調変換モデル22を予測する。これにより任意の話者の平静口調データ(音響特徴量データ及び言語属性データ)を、話者適応技術によって異なる口調を表すデータに変換しても、出力される合成音声の品質の劣化を防ぐことができる。
(第2実施形態)
 次に第2実施形態について説明する。第2実施形態の音声処理装置100は、決定部2による予測パラメータの決定方法が第1実施形態の音声処理装置100と異なる。第2実施形態の音声処理装置100の構成の説明は、第1実施形態の構成と同じ(図1参照)なので省略する。第2実施形態の説明では、第1実施形態と異なる箇所について説明する。
 決定部2は入力部1から平静口調データ(HSMM)を受信する。決定部2は平静口調データ(HSMM)に応じて予測パラメータモデル21から予測パラメータを決定する。具体的には、決定部2は所定の予測関数により、平静口調予測モデル31及び口調変換予測モデル41から、平静口調データ(HSMM)に適した予測パラメータを決定する。
 所定の予測関数は、例えば重回帰及びアフィン変換等の線形変換関数、又はカーネル回帰及びニューラルネット等の非線形変換関数である。なお同時に2種類以上の異なる口調変換モデル22を予測する予測パラメータを決定する予測関数を使用してもよい。
 第2実施形態の説明では、所定の予測関数を重回帰形の線形変換関数とし、1種類の口調変換モデル22を予測する予測パラメータを決定する場合について説明する。
 なお重回帰形の線形変換を用いる場合では、S人の話者の平静口調予測モデル31の構造が一致していることを想定する。すなわち全ての平静口調予測モデル31のパラメータ数と、その対応関係が一意に決まっていることを想定する。そこで第2実施形態の平静口調予測モデル31は、最尤線形回帰を用いた話者適応により構築されているものする。
 また同様に、重回帰形の線形変換を用いる場合では、それぞれの話者の口調変換予測モデル41の構造が一致していることを想定する。そのため第2実施形態の口調変換予測モデル41は、S人の話者の目標口調の音声データと、平静口調の音声モデルと、を非特許文献1に記載された共有決定木コンテキストクラスタリングを行うことにより、モデルの構造を共有化した後に、S人の話者の目標口調の音声データと、平静口調の音声モデルと、から作成される。
 次に第2実施形態の予測パラメータの決定方法について説明する。
 図4は第2実施形態の予測パラメータの決定方法の例を示すフローチャートである。はじめに、決定部2はスーパーベクトルを算出する(ステップS11)。具体的には、まず決定部2は、平静口調予測モデル31-1の平均に関するパラメータと、口調変換予測モデル41-1の平均に関するパラメータと、を抽出する。そして決定部2が、平静口調予測モデル31-1の平均に関するパラメータと、口調変換予測モデル41-1の平均に関するパラメータと、を結合することにより、平静口調予測モデル31-1と、口調変換予測モデル41-1と、の平均を示すスーパーベクトルを算出する。同様に、決定部2は、平静口調予測モデル31-2及び口調変換予測モデル41-2、・・・、平静口調予測モデル31-S及び口調変換予測モデル41-Sについてもスーパーベクトルを算出する。
 次に、決定部2はS本のスーパーベクトルに、固有値分解又は特異値分解を行うことにより、スーパーベクトルの平均ベクトル(バイアスベクトル)と、S-1本の固有ベクトルとを抽出する(ステップS12)。次に、決定部2は平均ベクトルと固有ベクトルとにより、下記式(1)のように予測関数を作成する(ステップS13)。
Figure JPOXMLDOC01-appb-M000001
 ここで、μは平静口調データ(HSMM)の平均ベクトルである。μは口調変換モデル22の平均ベクトルである。e (s)は平静口調予測モデル31のs番目の固有ベクトルである。e (s)は口調変換予測モデル41のs番目の固有ベクトルである。e (0)はバイアスベクトルの平静口調予測モデル31に対応する次元の成分を示すベクトルである。e (0)はバイアスベクトルの口調変換予測モデル41に対応する次元の成分を示すベクトルである。w(s)はs番目の固有ベクトルの係数(重み)である。
 次に、決定部2は式(1)により表される予測関数の係数(重み)w(s)を決定する(ステップS14)。具体的には、決定部2は下記式(2)により予測関数の係数(重み)w(s)の組み合わせ(下記式(3))を決定する。
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
 すなわち決定部2は平静口調データ(HSMM)の平均ベクトルμと、平静口調予測モデル31の固有ベクトルe及び平静口調予測モデル31のバイアスベクトルe (0)の線形和(式(1)右辺の第1成分参照)と、の差が最小となるように重みw(s)を決定する。
 第2実施形態の予測部3は、式(2)により決定した予測関数の係数(重み)w(s)の組み合わせ(式(3))、及び式(1)から、口調変換モデル22の平均ベクトルμを予測する。すなわち予測部3は下記式(4)により表現される予測関数を使用して、口調変換モデル22の平均ベクトルμを予測する。
Figure JPOXMLDOC01-appb-M000004
 図5は第2実施形態の予測関数の概念図である。決定部2が平静口調データ20に応じて、複数の平静口調予測モデル31と、複数の口調変換予測モデル41とから、平静口調データ(HSMM)の口調変換モデル22を予測する予測関数(式(4))を、予測パラメータとして決定する。そして予測部3が当該予測パラメータを使用して、話者の平静口調を目標の口調に変換する口調変換モデル22を予測する。
 以上説明したように、第2実施形態の音声処理装置100によれば、任意の話者の平静口調データ(HSMM)を、話者適応技術によって異なる口調を表すデータに変換しても、出力される合成音声の品質の劣化を防ぐことができる。
(第2実施形態の変形例)
 次に第2実施形態の変形例について説明する。第2実施形態の変形例の音声処理装置100は、入力部1が受け付ける平静口調データの形式が第2実施形態の音声処理装置100と異なる。第2実施形態の変形例の音声処理装置100の構成の説明は、第1実施形態の構成と同じ(図1参照)なので省略する。第2実施形態の変形例の説明では、第2実施形態と異なる箇所について説明する。
 入力部1は話者の平静口調の音声を表す平静口調データを受け付ける。第2実施形態の変形例の平静口調データは、話者の平静口調の音声の音響特徴量データと、平静口調の音声の言語属性データと、を含む。音響特徴量データ及び言語属性データの説明は第1実施形態の変形例の説明と同じなので省略する。
 決定部2は入力部1から平静口調データ(音響特徴量データ及び言語属性データ)を受信する。決定部2は平静口調データ(音響特徴量データ及び言語属性データ)に応じて予測パラメータモデル21から予測パラメータを決定する。
 具体的には、決定部2は第2実施形態の音声処理装置100の場合と同様にして、式(1)の予測関数を作成する。第2実施形態の変形例の決定部2は、非特許文献2に記載のクラスタ適応学習を使用し、下記式(5)及び(6)により、尤度が最大となるように重みw(s)の組み合わせ(式(3))を決定する。
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000006
 ここでN(;)は正規分布を示す。Σは共分散行列を示す。
 予測部3は、式(5)及び(6)により決定した予測関数の係数(重み)w(s)の組み合わせ(式(3))、及び式(1)から、口調変換モデル22の平均ベクトルμを予測する。すなわち予測部3は式(4)により口調変換モデル22の平均ベクトルμを予測する。
 以上説明したように、第2実施形態の変形例の音声処理装置100では、決定部2が平静口調データに応じて、複数の平静口調予測モデル31と、複数の口調変換予測モデル41とから、平静口調データ(音響特徴量データ及び言語属性データ)の口調変換モデル22を予測する予測パラメータを決定する。そして予測部3が当該予測パラメータを使用して、話者の平静口調を目標の口調に変換する口調変換モデル22を予測する。これにより任意の話者の平静口調データ(音響特徴量データ及び言語属性データ)を、話者適応技術によって異なる口調を表すデータに変換しても、出力される合成音声の品質の劣化を防ぐことができる。
(第3実施形態)
 次に第3実施形態について説明する。第3実施形態の音声処理装置100は、第1実施形態、第1実施形態の変形例、第2実施形態又は第2実施形態の変形例の決定部2及び予測部3の処理により作成された口調変換モデル22を使用して音声合成を行う。
 図6は第3実施形態の音声処理装置100の構成の例を示す図である。第3実施形態の音声処理装置100は、入力部1、決定部2、予測部3、解析部4、選択部5、生成部6、合成部7及び出力部8を備える。また第3実施形態の音声処理装置100は、図6では図示されていない記憶部に、予測パラメータモデル21、口調変換モデル22及び目標話者モデル23を記憶する。
 入力部1はテキストデータ又は平静口調データを受け付ける。テキストデータは任意の文字列を示すデータである。平静口調データは、HSMM、又は、音響特徴量データ及び言語属性データである。
 入力部1が平静口調データを受け付けた場合、決定部2及び予測部3の処理により口調変換モデル22が作成される。決定部2及び予測部3の処理は、第1実施形態、第1実施形態の変形例、第2実施形態又は第2実施形態の変形例と同じなので説明を省略する。
 入力部1がテキストデータを受け付けた場合、入力部1はテキストデータを解析部4に送信する。
 解析部4は入力部1からテキストデータを受信する。解析部4はテキストデータを解析し、上述の言語属性データを取得する。解析部4は言語属性データを選択部5に送信する。
 選択部5は解析部4から言語属性データを受信する。選択部5は言語属性データに基づいて、所定の決定木により、口調変換モデル22及び目標話者モデル23からモデルパラメータを選択する。
 ここで、口調変換モデル22は、目標の話者の平静口調の音声モデルを示す目標話者モデル23に関連付けられている。すなわち口調変換モデル22は、目標話者の平静口調の音声モデル(目標話者モデル23)を、目標の口調に変換するためのモデルパラメータである。
 なお音声処理装置100は口調変換モデル22を複数備えていてもよい。これにより、例えばユーザからの口調の種類を示す操作入力に応じて、異なる口調の音声合成を行うことができる。同様に音声処理装置100は目標話者モデル23を複数備えていてもよい。
 選択部5はモデルパラメータを生成部6に送信する。
 生成部6は選択部5からモデルパラメータを受信する。生成部6はモデルパラメータに基づいて音声パラメータを生成する。生成部6は、例えば非特許文献2に記載されている方法によりモデルパラメータから音声パラメータを生成する。生成部6は音声パラメータを合成部7に送信する。
 合成部7は生成部6から音声パラメータを受信する。合成部7は音声パラメータから音声波形を合成する。合成部7は音声波形を出力部8に送信する。
 出力部8は合成部7から音声波形を受信する。出力部8は音声波形に応じた音声を出力する。出力部8は、例えば音声を音声ファイルとして出力する。また出力部8は、例えば音声をスピーカー等の音声出力用デバイスを通じて出力する。
 次に第3実施形態の音声処理方法について説明する。
 図7は第3実施形態の音声処理方法の例を示すフローチャートである。はじめに、入力部1が、テキストデータを受け付ける(ステップS21)。次に、解析部4が、テキストデータを解析し、上述の言語属性データを取得する(ステップS22)。次に、選択部5が、言語属性データに基づいて、所定の決定木により、口調変換モデル22及び目標話者モデル23からモデルパラメータを選択する(ステップS23)。次に、生成部6が、モデルパラメータに基づいて音声パラメータを生成する(ステップS24)。次に、合成部7が、音声パラメータから音声波形を合成する(ステップS25)。次に、出力部8が、音声波形に応じた音声を出力する(ステップS26)。
 以上説明したように、第3実施形態の音声処理装置100によれば、第1実施形態、第1実施形態の変形例、第2実施形態又は第2実施形態の変形例の決定部2及び予測部3により作成された口調変換モデル22を使用して、テキストデータから音声を合成することができる。
 (第4実施形態)
 次に第4実施形態について説明する。第4実施形態の音声処理装置100は、入力された音声データの口調を目標の口調に変換し、変換後の音声データを出力する。このとき第1実施形態の変形例、又は第2実施形態の変形例の決定部2及び予測部3の処理により作成された口調変換モデル22が使用される。
 図8は第4実施形態の音声処理装置100の構成の例を示す図である。第4実施形態の音声処理装置100は、入力部1、決定部2、予測部3、解析部4、選択部5、生成部6、合成部7、出力部8、認識部9及び抽出部10を備える。また第4実施形態の音声処理装置100は、図8では図示されていない記憶部に、予測パラメータモデル21、口調変換モデル22、音声認識用モデル24及び音声データ25を記憶する。
 入力部1は任意の発話内容を含む音声データを受け付ける。入力部1は、例えばマイク等の音声入力デバイスから音声データを受け付ける。また入力部1は、例えば音声ファイルにより音声データを受け付ける。入力部1は音声データを認識部9及び抽出部10に送信する。
 認識部9は入力部1から音声データを受信する。認識部9は音声認識用モデル24を使用して音声認識を行うことにより、音声データからテキストデータを取得する。ここで、音声認識用モデル24は、音声データからテキストデータを認識するために必要なモデルデータである。また認識部9は、同時に音素の時間境界を認識し、音素の時間境界を示す音素境界情報も取得する。認識部9はテキストデータ及び音素境界情報を解析部4に送信する。
 解析部4は認識部9からテキストデータ及び音素境界情報を受信する。解析部4はテキストデータを解析し、上述の言語属性データを取得する。また解析部4は言語属性データに音素境界情報を関連付ける。
 抽出部10は入力部1から音声データを受信する。抽出部10は音声データから、韻律に関するパラメータ(声の高さを表す基本周波数の時間系列)、又は韻律及び音色に関するパラメータ(ケプストラム等)を含む音響特徴量データを抽出する。
 音声データ25は、認識部9により認識されたテキストデータ及び音素境界情報、解析部4により取得された言語属性データ、及び、抽出部10により抽出された音響特徴量データを記憶する。
 決定部2は音声データ25に含まれる言語属性データ及び音響特徴量データに応じて予測パラメータモデル21から予測パラメータを決定する。決定部2が予測パラメータを決定する処理の説明は、第1実施形態の変形例、又は第2実施形態の変形例の決定部2の処理と同様なので省略する。決定部2は予測パラメータを予測部3に送信する。
 予測部3は決定部2から予測パラメータを受信する。予測部3は予測パラメータを使用して、音声データ25が表す音声を目標の口調に変換する口調変換モデル22を予測する。予測部3が口調変換モデル22を予測する処理の説明は、第1実施形態の変形例、又は第2実施形態の変形例の予測部3の処理と同様なので省略する。
 選択部5は音声データ25に含まれる言語属性データに基づいて、口調変換モデル22からモデルパラメータを選択する。また選択部5は音声データ25の言語属性データに関連付けられた音素境界情報に基づいて、モデルパラメータをモデルパラメータ系列として時系列に並べる。
 生成部6は音声データ25に含まれる音響特徴量データの時系列に、モデルパラメータ系列を加算することにより、入力部1で受け付けた音声データの口調を変換した音声を表す音声パラメータを生成する。
 ここで、モデルパラメータ系列はモデルパラメータの種類が変わると離散的に変化する系列であるため、モデルパラメータを加算した音響特徴量データに離散的な変化の影響が生じる。そこで、この影響を緩和するために、生成部6は音響特徴量データに含まれる時間変化を表す特徴量を用いて平滑化処理を行う。平滑化処理は、例えば非特許文献1及び非特許文献2で用いられている尤度最大化基準による音声パラメータ生成法、及び、線形動的システムで用いられるカルマンフィルタ・カルマンスムーザ等である。この際、音響特徴量データの各フレームにおける分散情報が必要となるが、分散情報は任意に決定してよい。
 生成部6は音声パラメータを合成部7に送信する。
 合成部7は生成部6から音声パラメータを受信する。合成部7は音声パラメータから音声波形を合成する。合成部7は音声波形を出力部8に送信する。
 出力部8は合成部7から音声波形を受信する。出力部8は音声波形に応じた音声を出力する。出力部8は、例えば音声を音声ファイルとして出力する。また出力部8は、例えば音声をスピーカー等の音声出力用デバイスを通じて出力する。
 次に第4実施形態の音声処理方法について説明する。
 図9は第4実施形態の音声処理方法の例を示すフローチャートである。はじめに、入力部1が、任意の発話内容を含む音声データを受け付ける(ステップS31)。
 次に、認識部9が、音声データの音声認識を行う(ステップS32)。具体的には、認識部9は音声認識用モデル24を使用して音声認識を行うことにより、音声データからテキストデータを取得する。また認識部9は、同時に音素の時間境界を認識し、音素の時間境界を示す音素境界情報も取得する。
 次に、解析部4が、テキストデータを解析する(ステップS33)。具体的には、解析部4はテキストデータを解析し、上述の言語属性データを取得する。また解析部4は言語属性データに音素境界情報を関連付ける。
 次に、抽出部10が、音声データから、韻律に関するパラメータ(声の高さを表す基本周波数の時間系列)、又は韻律及び音色に関するパラメータ(ケプストラム等)を含む音響特徴量データを抽出する(ステップS34)。
 次に、決定部2が、言語属性データ及び音響特徴量データに応じて予測パラメータモデル21から予測パラメータを決定する(ステップS35)。次に、予測部3が、予測パラメータを使用して、音声データ25が表す音声を目標の口調に変換する口調変換モデル22を予測する(ステップS36)。
 次に、選択部5が、口調変換モデル22からモデルパラメータを選択する(ステップS37)。具体的には、選択部5は音声データ25に含まれる言語属性データに基づいて、口調変換モデル22からモデルパラメータを選択する。また選択部5は音声データ25の言語属性データに関連付けられた音素境界情報に基づいて、モデルパラメータをモデルパラメータ系列として時系列に並べる。
 次に、生成部6が、音声データ25に含まれる音響特徴量データの時系列に、モデルパラメータ系列を加算することにより、ステップS31で受け付けた音声データの口調を変換した音声を表す音声パラメータを生成する(ステップS38)。
 次に、合成部7が、音声パラメータから音声波形を合成する(ステップS39)。次に、出力部8が、音声波形に応じた音声を出力する(ステップS40)。
 以上説明したように、第4実施形態の音声処理装置100によれば、第1実施形態の変形例、又は第2実施形態の変形例の決定部2及び予測部3により作成された口調変換モデル22を使用して、入力された音声の口調を変換して出力することができる。
 なお認識部9、解析部4、決定部2及び予測部3の処理は、リアルタイムに行っても、事前に行ってもよい。
 また音声データ25を、HSMM等の音声モデルとして記憶してもよい。この場合の決定部2及び予測部3の処理は、第1実施形態又は第2実施形態の音声処理装置100と同様である。
 最後に、第1乃至第4実施形態の音声処理装置100のハードウェア構成の例について説明する。
 図10は第1乃至第4実施形態の音声処理装置100のハードウェア構成の例を示す図である。第1乃至第4実施形態の音声処理装置100は、制御装置51、主記憶装置52、補助記憶装置53、表示装置54、入力装置55、通信装置56、マイク57及びスピーカー58を備える。制御装置51、主記憶装置52、補助記憶装置53、表示装置54、入力装置55、通信装置56、マイク57及びスピーカー58は、バス59を介して互いに接続されている。
 制御装置51は補助記憶装置53から主記憶装置52に読み出されたプログラムを実行する。主記憶装置52はROM(Read Only Memory)やRAM(Random Access Memory)等のメモリである。補助記憶装置53はHDD(Hard Disk Drive)や光学ドライブ等である。
 表示装置54は音声処理装置100の状態等を表示する。表示装置54は、例えば、液晶ディスプレイである。入力装置55は音声処理装置100を操作するためのインタフェースである。入力装置55は、例えばキーボードやマウス等である。通信装置56はネットワークに接続するためのインタフェースである。
 マイク57は音声を取得する。スピーカー58は音声を出力する。
 第1乃至第4実施形態の音声処理装置100で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、メモリカード、CD-R及びDVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。
 また第1乃至第4実施形態の音声処理装置100で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また第1乃至第4実施形態の音声処理装置100で実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。
 また第1乃至第4実施形態の音声処理装置100のプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
 第1乃至第4実施形態の音声処理装置100で実行されるプログラムは、上述した各機能ブロック(入力部1、決定部2、予測部3、解析部4、選択部5、生成部6、合成部7、出力部8、認識部9及び抽出部10)を含むモジュール構成となっている。当該各機能ブロックは、実際のハードウェアとしては、制御装置51が上記記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置52上にロードされる。すなわち上記各機能ブロックは主記憶装置52上に生成される。なお上述した各機能ブロックの一部又は全部をソフトウェアにより実現せずに、IC(Integrated Circuit)等のハードウェアにより実現してもよい。
 本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims (10)

  1.  話者の平静口調の音声を表す平静口調データを受け付ける入力部と、
     前記平静口調データに応じて予測パラメータを決定する決定部と、
     前記予測パラメータを使用して、前記話者の平静口調を目標の口調に変換する口調変換モデルを予測する予測部と、
     を備える音声処理装置。
  2.  前記決定部は、複数の平静口調予測モデルに、それぞれの前記平静口調予測モデルを前記目標の口調に変換するために最適化された口調変換予測モデルが対応付けられた予測パラメータモデルに基づいて前記予測パラメータを決定する、
     請求項1に記載の音声処理装置。
  3.  前記平静口調データは、前記話者の平静口調の音声の特徴を表す音声モデルであり、
     前記決定部は、前記音声モデルと、前記平静口調予測モデルと、の距離を所定の距離関数によって算出し、算出された距離に基づいて選択した前記平静口調予測モデルに対応付けられた前記口調変換予測モデルを前記予測パラメータに決定する、
     請求項2に記載の音声処理装置。
  4.  前記音声モデルは、隠れマルコフモデル又は隠れセミマルコフモデルであり、
     前記距離は、前記隠れマルコフモデル又は前記隠れセミマルコフモデルと、前記平静口調予測モデルとの距離である、
     請求項3に記載の音声処理装置。
  5.  前記隠れマルコフモデル又は前記隠れセミマルコフモデルと、前記平静口調予測モデルとの距離は、前記隠れマルコフモデルの平均ベクトル又は前記隠れセミマルコフモデルの平均ベクトルと、前記平静口調予測モデルの平均ベクトルとの距離である、
     請求項4に記載の音声処理装置。
  6.  前記平静口調データは、前記話者の平静口調の音声を分析することにより得られた音声の特徴を示す音響特徴量データと、前記話者の平静口調の音声を分析することにより得られた言語の属性を示す言語属性データと、であり、
     前記決定部は、前記音響特徴量データと、前記言語属性データと、に対する前記平静口調予測モデルの尤度を算出し、算出された尤度に基づいて選択した前記平静口調予測モデルに対応付けられた前記口調変換予測モデルを前記予測パラメータに決定する、
     請求項2に記載の音声処理装置。
  7.  前記平静口調データは、前記話者の平静口調の音声の特徴を表す音声モデルであり、
     前記決定部は、前記音声モデルに応じて前記複数の平静口調予測モデルの重みを決定し、前記口調変換予測モデルそれぞれのモデルパラメータに、対応する前記平静口調予測モデルに対して決定された前記重みを付与して前記予測パラメータを決定する、
     請求項2に記載の音声処理装置。
  8.  前記平静口調データは、前記話者の平静口調の音声を分析することにより得られた音声の特徴を示す音響特徴量データと、前記話者の平静口調の音声を分析することに得られた言語の属性を示す言語属性データと、であり、
     前記決定部は、前記音響特徴量データと、前記言語属性データと、に対する前記複数の平静口調予測モデルに基づくベクトルの線形和の尤度を算出し、算出された尤度が最大になる線形和の係数を重みとして決定し、前記口調変換予測モデルそれぞれのモデルパラメータに、対応する前記平静口調予測モデルに対して決定された前記重みを付与して生成された予測パラメータを決定する、
     請求項2に記載の音声処理装置。
  9.  入力部が、話者の平静口調の音声を表す平静口調データを受け付けるステップと、
     決定部が、前記平静口調データに応じて予測パラメータを決定するステップと、
     予測部が、前記予測パラメータを使用して、前記話者の平静口調を目標の口調に変換する口調変換モデルを予測するステップと、
     を含む音声処理方法。
  10.  コンピュータを、
     話者の平静口調の音声を表す平静口調データを受け付ける入力部と、
     前記平静口調データに応じて予測パラメータを決定する決定部と、
     前記予測パラメータを使用して、前記話者の平静口調を目標の口調に変換する口調変換モデルを予測する予測部、
     として機能させるためのプログラム。
PCT/JP2014/074581 2014-09-17 2014-09-17 音声処理装置、音声処理方法及びプログラム WO2016042626A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2014/074581 WO2016042626A1 (ja) 2014-09-17 2014-09-17 音声処理装置、音声処理方法及びプログラム
JP2016548480A JP6271748B2 (ja) 2014-09-17 2014-09-17 音声処理装置、音声処理方法及びプログラム
US15/433,690 US10157608B2 (en) 2014-09-17 2017-02-15 Device for predicting voice conversion model, method of predicting voice conversion model, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/074581 WO2016042626A1 (ja) 2014-09-17 2014-09-17 音声処理装置、音声処理方法及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/433,690 Continuation US10157608B2 (en) 2014-09-17 2017-02-15 Device for predicting voice conversion model, method of predicting voice conversion model, and computer program product

Publications (1)

Publication Number Publication Date
WO2016042626A1 true WO2016042626A1 (ja) 2016-03-24

Family

ID=55532692

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/074581 WO2016042626A1 (ja) 2014-09-17 2014-09-17 音声処理装置、音声処理方法及びプログラム

Country Status (3)

Country Link
US (1) US10157608B2 (ja)
JP (1) JP6271748B2 (ja)
WO (1) WO2016042626A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6461660B2 (ja) * 2015-03-19 2019-01-30 株式会社東芝 検出装置、検出方法およびプログラム
US10304447B2 (en) * 2017-01-25 2019-05-28 International Business Machines Corporation Conflict resolution enhancement system
KR102401512B1 (ko) * 2018-01-11 2022-05-25 네오사피엔스 주식회사 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
US11373633B2 (en) * 2019-09-27 2022-06-28 Amazon Technologies, Inc. Text-to-speech processing using input voice characteristic data

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187187A (ja) * 1996-12-24 1998-07-14 Tooa Syst:Kk 音声特徴変換システム
JP2008058696A (ja) * 2006-08-31 2008-03-13 Nara Institute Of Science & Technology 声質変換モデル生成装置及び声質変換システム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2868587A1 (fr) 2004-03-31 2005-10-07 France Telecom Procede et systeme de conversion rapides d'un signal vocal
FR2868586A1 (fr) 2004-03-31 2005-10-07 France Telecom Procede et systeme ameliores de conversion d'un signal vocal
JP5275102B2 (ja) * 2009-03-25 2013-08-28 株式会社東芝 音声合成装置及び音声合成方法
JP2011028130A (ja) 2009-07-28 2011-02-10 Panasonic Electric Works Co Ltd 音声合成装置
GB2478314B (en) * 2010-03-02 2012-09-12 Toshiba Res Europ Ltd A speech processor, a speech processing method and a method of training a speech processor
JP5320341B2 (ja) 2010-05-14 2013-10-23 日本電信電話株式会社 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
JP5194197B2 (ja) * 2011-07-14 2013-05-08 パナソニック株式会社 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法
EP2595143B1 (en) * 2011-11-17 2019-04-24 Svox AG Text to speech synthesis for texts with foreign language inclusions
TWI471854B (zh) * 2012-10-19 2015-02-01 Ind Tech Res Inst 引導式語者調適語音合成的系統與方法及電腦程式產品
US20150046164A1 (en) * 2013-08-07 2015-02-12 Samsung Electronics Co., Ltd. Method, apparatus, and recording medium for text-to-speech conversion
US9183830B2 (en) * 2013-11-01 2015-11-10 Google Inc. Method and system for non-parametric voice conversion
WO2015092936A1 (ja) * 2013-12-20 2015-06-25 株式会社東芝 音声合成装置、音声合成方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187187A (ja) * 1996-12-24 1998-07-14 Tooa Syst:Kk 音声特徴変換システム
JP2008058696A (ja) * 2006-08-31 2008-03-13 Nara Institute Of Science & Technology 声質変換モデル生成装置及び声質変換システム

Also Published As

Publication number Publication date
JP6271748B2 (ja) 2018-01-31
JPWO2016042626A1 (ja) 2017-04-27
US10157608B2 (en) 2018-12-18
US20170162187A1 (en) 2017-06-08

Similar Documents

Publication Publication Date Title
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP6523893B2 (ja) 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
JP5631915B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
JP7018659B2 (ja) 声質変換装置、声質変換方法およびプログラム
JP6293912B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2015180966A (ja) 音声処理システム
WO2008038082A2 (en) Prosody conversion
JP2005221678A (ja) 音声認識システム
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
WO2015092936A1 (ja) 音声合成装置、音声合成方法およびプログラム
JP2008242317A (ja) 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法
US10157608B2 (en) Device for predicting voice conversion model, method of predicting voice conversion model, and computer program product
JP5411845B2 (ja) 音声合成方法、音声合成装置及び音声合成プログラム
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
WO2010050103A1 (ja) 音声合成装置
JP4922225B2 (ja) 音声認識装置及び音声認識プログラム
JP6840124B2 (ja) 言語処理装置、言語処理プログラムおよび言語処理方法
JP2011197124A (ja) データ作成システム及びプログラム
JP6748607B2 (ja) 音声合成学習装置、音声合成装置、これらの方法及びプログラム
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP6234134B2 (ja) 音声合成装置
JP4282609B2 (ja) 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP2018004997A (ja) 音声合成装置及びプログラム
Sulír et al. The influence of adaptation database size on the quality of HMM-based synthetic voice based on the large average voice model

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14901876

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016548480

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14901876

Country of ref document: EP

Kind code of ref document: A1