WO2018151125A1 - 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム - Google Patents

単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム Download PDF

Info

Publication number
WO2018151125A1
WO2018151125A1 PCT/JP2018/004995 JP2018004995W WO2018151125A1 WO 2018151125 A1 WO2018151125 A1 WO 2018151125A1 JP 2018004995 W JP2018004995 W JP 2018004995W WO 2018151125 A1 WO2018151125 A1 WO 2018151125A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
vector
model
learning
vectorization
Prior art date
Application number
PCT/JP2018/004995
Other languages
English (en)
French (fr)
Inventor
勇祐 井島
伸克 北条
太一 浅見
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2018568548A priority Critical patent/JP6777768B2/ja
Priority to US16/485,067 priority patent/US20190362703A1/en
Publication of WO2018151125A1 publication Critical patent/WO2018151125A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Definitions

  • the present invention relates to a technique for vectorizing words used in natural language processing such as speech synthesis and speech recognition.
  • Word2Vec is known as a technique for vectorizing words (Non-Patent Document 1, etc.).
  • the word vectorization device 90 receives a vectorization target word sequence and outputs a word vector indicating each word (see FIG. 1).
  • Word vectorization techniques such as Word2Vec vectorize words and make them easier to handle on a computer.
  • word vectorization technology is used in various natural language processing technologies such as speech synthesis, speech recognition, machine translation, dialogue system, and search system handled on a computer.
  • the model f used in the current word vectorization technique is learned only with word notation information (text data) tex L (see FIG. 2).
  • word vectors such as Continuous Bag of Words (CBOW, see FIG. 3A) for estimating a certain word from preceding and following words and Skip-gram (see FIG. 3B) for estimating a preceding and following word from a certain word.
  • CBOW Continuous Bag of Words
  • Skip-gram see FIG. 3B
  • the present invention relates to a word vectorization device that converts a word into a word vector that also considers the acoustic features of the word, a word vectorization model learning device that learns a word vectorization model used in the word vectorization device,
  • An object of the present invention is to provide a speech synthesizer, a method, and a program for generating synthesized speech data using a word vector.
  • a word vectorization model learning device includes a vector w L, s (t) indicating a word y L, s (t) included in learning text data.
  • the word vectorization model is Includes a learning unit for learning.
  • the word vectorization model includes a neural network that receives a vector representing a word as an input and outputs an acoustic feature amount of speech data corresponding to the word, and the word vectorization model uses an output value of any intermediate layer as a word vector. Model.
  • a word vectorization model learning method executed by a word vectorization model learning apparatus includes a word y L, s (t vector w L indicating a), s (a t), a word an acoustic feature quantity of the audio data corresponding to the training text data y L, s (t) acoustic features corresponding to af L, s (t) And a learning step of learning a word vectorization model.
  • the word vectorization model includes a neural network that receives a vector representing a word as an input and outputs an acoustic feature amount of speech data corresponding to the word, and the word vectorization model uses an output value of any intermediate layer as a word vector. Model.
  • the figure for demonstrating the word vectorization apparatus based on a prior art The figure for demonstrating the word vectorization model learning apparatus based on a prior art.
  • the functional block diagram of the word vectorization model learning apparatus which concerns on 1st, 2nd, 3rd embodiment The figure which shows the example of the processing flow of the word vectorization model learning apparatus which concerns on 1st, 2nd, 3rd embodiment.
  • the figure for demonstrating the word vectorization model learning apparatus which concerns on 1st embodiment.
  • speech data is used as learning data of the word vectorization model in addition to conventionally used text (word (morpheme) notation). For example, using a large amount of speech data and text, learn a model that estimates the acoustic features (spectrum, pitch parameter, etc.) and temporal variation of the word from the input word (text data), Use as a word vectorization model.
  • FIG. 4 is a functional block diagram of the word vectorization model learning device 110 according to the first embodiment, and FIG. 5 shows a processing flow thereof.
  • the word vectorization model learning device 110 includes (1) learning text data tex L , (2) information x L based on speech data corresponding to the learning text data tex L , and (3) a word y in the speech data.
  • the word segmentation information seg L, s (t) indicating when L, s (t) is spoken is input, and a word vectorization model fw ⁇ af learned using the information is output.
  • a major difference from the conventional word vectorization model learning device 91 is that the word vectorization model learning device 91 uses only text data as learning data of the word vectorization model, but this embodiment Then, voice data and its text data are used.
  • word information (information w L, s (t indicating the word y L, s (t) included in the learning text data tex L ) is input as the word vectorization model f w ⁇ af. t)), by using speech information (acoustic feature quantity af L, s (t) of the word y L, s (t)) as an output (see FIG. 6), the acoustic feature quantity of the word from the word is obtained.
  • Learn the neural network (word vectorization model) to be estimated.
  • the word vectorization model learning apparatus 110 includes a CPU, a RAM, and a computer including a ROM that stores a program for executing the following processing, and is functionally configured as follows.
  • the word vectorization model learning device 110 includes a word expression conversion unit 111, an audio data division unit 112, and a learning unit 113.
  • a corpus composed of a large amount of speech data and transcription text data thereof can be used. That is, a voice (voice data) uttered in large quantities by a person and a sentence (text data) added to the voice (S sentences each).
  • voice data only voice data uttered by a single speaker may be used, or voice data uttered by various speakers may be mixed.
  • word segmentation information seg L, s (t) (see FIG. 7) indicating when the word y L, s (t) in the speech data is uttered is given.
  • the start time and the end time of each word are used as the word segmentation information, but other information may be used.
  • the word segmentation information may be any information as long as it can indicate when the word y L, s (t) is spoken. This word segmentation information may be given manually or automatically from voice data or text data using a voice recognizer or the like.
  • information x L (t) based on speech data and word segmentation information seg L, s (t) are input to the word vectorization model learning device 110.
  • word vectorization model learning device 110 only the information x L (t) based on the speech data is input to the word vectorization model learning device 110, and word boundaries of each word are given by forced alignment in the word vectorization model learning device 110, and word segmentation information seg A configuration for obtaining L, s (t) may be adopted.
  • normal text data does not include a word that expresses silence (short pause, etc.) during utterance, but in this embodiment, in order to ensure consistency with voice data, the word “pause” for silence is used. Is used.
  • Information x L based on the audio data may be the actual voice data may be acoustic features that can be obtained from the voice data.
  • acoustic feature amounts (spectrum parameters, pitch parameters (F0)) extracted from audio data are used.
  • the acoustic feature quantity either one of the spectrum and the pitch parameter, or both can be used.
  • acoustic features for example, mel cepstrum, aperiodicity index, logarithm F0, voiced / unvoiced flag, etc.
  • information x L actual audio data based on audio data may be provided an arrangement for extracting acoustic features from speech data.
  • the word expression conversion unit 111 receives the learning text data tex L as an input, the word y L, s (t) included in the learning text data tex L , and a vector w L indicating the word y L, s (t). , s (t) (S111) and output.
  • the word y L, s (t) in the learning text data tex L is converted into an expression (numerical expression) that can be used by the learning unit 113 in the subsequent stage.
  • the vector w L, s (t) is also referred to as post-expression conversion word data.
  • the most common one is the one hot expression.
  • each word is treated as an N-dimensional vector w L, s (t) in the one hot expression.
  • w L, s (t) [w L, s (t) (1),..., w L, s (t) (n),..., w L, s (t) (N)]
  • w L, s (t) is the t th (1 ⁇ t ⁇ T s ) (T s is the s th sentence) of the s th (1 ⁇ s ⁇ S) sentence in the text data for learning tex L. Word number).
  • w L, s (t) (n) represents the nth dimension information of w L, s (t).
  • a vector is constructed in which the dimension w L, s (t) (n) corresponding to the word is 1 and the other dimensions are 0.
  • the speech data dividing unit 112 receives the word segmentation information seg L, s (t) and the acoustic feature quantity that is the information x L based on the speech data, and uses the word segmentation information seg L, s (t)
  • the feature amount is divided according to the classification of the word y L, s (t) (S112), and the acoustic feature amount af L, s (t) of the divided speech data is output.
  • the learning unit 113 in the subsequent stage needs to express the divided acoustic feature quantity af L, s (t) as a vector having an arbitrary fixed length (dimension number D). Therefore, the acoustic feature quantity af L, s (t) after dividing each word is obtained by the following procedure. (1) Based on the time information of the word y L, s (t) in the word segmentation information seg L, s (t), the time-series acoustic feature quantity is divided for each word y L, s (t). For example, when the frame shift of the audio data is 5 ms, in the example of FIG.
  • the acoustic feature amounts from the first frame to the 70th frame are obtained as the acoustic feature amount of the silence word “pause”.
  • the word “This” is an acoustic feature amount from the 71st frame to the 120th frame.
  • acoustic feature quantity af L, s (t) after division data obtained by performing dimension compression on the obtained acoustic feature quantity after division by some kind of dimension compression method.
  • the dimension compression method for example, a principal component analysis (PCA), a discrete cosine transform (DCT), a self-encoder based on a neural network (Auto encoder), or the like can be used.
  • PCA principal component analysis
  • DCT discrete cosine transform
  • Auto encoder a self-encoder based on a neural network
  • the learning unit 113 receives the vector w L, s (t) and the acoustic feature quantity af L, s (t) of the divided speech data, and uses these values to generate the word vectorization model f w ⁇ af is learned (S113).
  • the word vectorization model is a neural network that converts a vector w L, s (t) (for example, N-dimensional one hot expression) indicating a word into an acoustic feature amount (for example, a D-dimensional vector) of speech data corresponding to the word. is there.
  • the word vectorization model fw ⁇ af is expressed by the following equation.
  • ⁇ af L, s (t) f w ⁇ af (w L, s (t))
  • RNN recurrent neural network
  • RNN-LSTM long short term memory
  • FIG. 8 is a functional block diagram of the word vectorization device 120 according to the first embodiment, and FIG. 9 shows a processing flow thereof.
  • the word vectorization device 120 receives the text data tex o to be vectorized as an input, and uses the learned word vectorization model fw ⁇ af to convert the word yo , s (t) contained in the text data tex o. Convert to word vector wo_2, s (t) and output.
  • 1 ⁇ s ⁇ S o S o is the total number of sentences included in the text data tex o to be vectorized
  • T s is a vector This is the total number of words y o, s (t) included in the sentence s included in the text data tex o to be converted.
  • the word vectorization device 120 is configured by a computer including a CPU, a RAM, and a ROM that records a program for executing the following processing, and is functionally configured as follows.
  • the word vectorization device 120 includes a word expression conversion unit 121 and a word vector conversion unit 122. Prior to vectorization, the word vectorization device 120 receives the word vectorization model fw ⁇ af in advance and sets it in the word vector conversion unit 122.
  • Word representation conversion unit 121 text data tex o as input, the vector w O_1 word y o included in the text data tex o, s a (t), shows the word y o, s a (t), s (t ) (S121) and output.
  • a method corresponding to the word expression conversion unit 111 may be used.
  • the word vector conversion unit 122 receives the vector w o_1, s (t) as an input, and uses the word vectorization model f w ⁇ af to convert the vector w o_1, s (t) into the word vector w o_2, s (t). Convert (S122) and output.
  • forward propagation processing of a neural network of the word vectorization model f w ⁇ af is performed with the vector w o_1, s (t) as input, and the output value (bottleneck feature) of any intermediate layer (bottleneck layer) is the word y o, s (t) of the word vector w o_2, by output as s (t), to convert the vector w o_1, from s (t) word vector w o_2, to s (t).
  • the word vectorization model learning apparatus may include only the learning unit 130.
  • the word y L included in the learning text data s vector w L indicating a (t), and s (t), the word y L, s acoustic features af L corresponding to (t), s (t) What is calculated with another apparatus may be used.
  • the word vectorization device may include only the word vector conversion unit 122.
  • the vector w O_1 showing word y o included in the text data to be vectorized, s a (t), s (t) is a separate device, it may be used those calculated.
  • a normalized to the acoustic feature quantity is information x L based on the audio data to each speaker.
  • FIG. 4 is a functional block diagram of the word vectorization model learning device 210 according to the second embodiment, and FIG. 5 shows the processing flow.
  • the word vectorization model learning device 210 includes a word expression conversion unit 111, a speech data normalization unit 214 (indicated by a broken line in FIG. 4), a speech data division unit 112, and a learning unit 113.
  • the voice data normalization unit 214 receives the acoustic feature quantity that is information x L based on the voice data, normalizes the acoustic feature quantity of the voice data corresponding to the text data for learning of the same speaker (S121), Output.
  • a normalization method for example, when the information of the speaker of each sentence is given in the acoustic feature amount, the average and variance are obtained from the acoustic feature amount of the same speaker, and z-score is obtained. For example, when the speaker information is not given, it is assumed that the speaker is different for each sentence, and the average and variance are obtained from the acoustic feature amount for each sentence, and z-score is obtained. Then, z-score is used as a normalized acoustic feature quantity.
  • the audio data dividing unit 112 uses the normalized acoustic feature quantity.
  • an acoustic feature amount corresponding to speech data and its text data are used.
  • the type N of words included in generally usable speech data is small compared to a large amount of text data available from the Web or the like. Therefore, there is a problem that an unknown word is likely to be generated, compared to the conventional word vectorization model that is learned only with learning text data.
  • the word expression conversion units 111 and 121 use a word vectorization model in which learning is performed using only conventional text data for learning.
  • the word expression conversion units 311 and 321 having differences will be described (see FIGS. 4 and 8).
  • the word expression conversion unit 311 receives the learning text data tex L as an input, the word y L, s (t) included in the learning text data tex L , and the vector w L indicating the word y L, s (t). , s (t) (S311; see FIG. 5) and output.
  • a word vectorization model based on language information is used to represent the word that can be used by the learning unit 133 in the subsequent stage. Convert to (numerical representation) to get the vector w L, s (t).
  • Word2Vec listed in Non-Patent Document 1 or the like can be used.
  • the word is converted into a one hot expression.
  • the number of dimensions N is the type of word in the learning text data tex L in the first embodiment.
  • the learning text data used for learning the word vectorization model based on language information. It is different in that it is a type of word.
  • a vector w L, s (t) is obtained by using a word vectorization model based on linguistic information for the obtained vector of one hot representation of each word.
  • the vector conversion method differs depending on the word vectorization model based on the linguistic information, but in the case of Word2Vec, the forward propagation process is performed in the same manner as in the present invention, and the output vector of the intermediate layer (bottleneck layer) is extracted to obtain the vector w L, s (t) can be obtained.
  • ⁇ Fourth embodiment> In the present embodiment, an example in which the word vectors generated in the first to third embodiments are used for speech synthesis will be described. However, it goes without saying that word vectors can be used for purposes other than speech synthesis, and this embodiment does not limit the use of word vectors.
  • FIG. 10 is a functional block diagram of the speech synthesizer 400 according to the fourth embodiment, and FIG. 11 shows its processing flow.
  • the voice synthesizer 400 receives text data tex O for voice synthesis and outputs synthesized voice data z o .
  • the speech synthesizer 400 includes a CPU, a RAM, and a computer including a ROM that stores a program for executing the following processing, and is functionally configured as follows.
  • the speech synthesizer 400 includes a phoneme extraction unit 410, a word vectorization device 120 or 320, and a synthesized speech generation unit 420.
  • the processing contents of the word vectorization device 120 or 320 are as described in the first embodiment or the third embodiment (corresponding to S120 and S320).
  • the word vectorization device 120 or 320 Prior to speech synthesis processing, receives the word vectorization model fw ⁇ af in advance and sets it in the word vector conversion unit 122.
  • Phoneme extraction unit 410 inputs the text data tex O for speech synthesis, and extracts the phoneme information p o corresponding to the text data tex O (S410), and outputs. Note that any existing technique may be used as the phoneme extraction method, and an optimal method may be selected as appropriate in accordance with the usage environment.
  • the synthesized speech generation unit 420 receives the phoneme information p o and the word vector w o_2, s (t) as input, generates synthesized speech data z o (S420), and outputs it.
  • the synthesized speech generation unit 420 includes a speech synthesis model.
  • a speech synthesis model receives a phoneme information of a word and a word vector corresponding to the word, and outputs information for generating synthesized speech data for the word (for example, a deep neural network (DNN) model) ).
  • DNN deep neural network
  • As information for generating the synthesized speech data a mel cepstrum, an aperiodic index, F0, a voiced / unvoiced flag, etc. (hereinafter, a vector having such information as an element is also referred to as a feature vector) can be considered.
  • the synthesized speech generation unit 420 Prior to the speech synthesis process, phoneme information corresponding to learning text data, a word vector, and a feature vector are given to learn a speech synthesis model. Further, the synthesized speech generation unit 420 inputs the phoneme information p o and the word vector w o_2, s (t) to the above-described speech synthesis model, and acquires a feature vector corresponding to the text data tex O for speech synthesis. Then, the synthesized speech data z o is generated from the feature vector using a vocoder or the like and output.
  • synthesized speech data can be generated using a word vector that also takes acoustic features into consideration, and synthesized speech data that is more natural than before can be generated.
  • the word vectorization model is learned by any one of the first to third embodiments.
  • a speech recognition corpus or the like can be used when learning a word vectorization model.
  • the word vectorization model is learned using the speech recognition corpus, the acoustic feature amount varies depending on the speaker. Therefore, the obtained word vector is not necessarily optimal for the speaker of the speech synthesis corpus. Therefore, in order to obtain a word vector more suitable for the speaker of the speech synthesis corpus, the word vectorization model learned from the speech recognition corpus is re-learned using the speech synthesis corpus.
  • FIG. 10 is a functional block diagram of the speech synthesizer 500 according to the fifth embodiment, and FIG. 11 shows the processing flow.
  • the speech synthesizer 500 includes a phoneme extraction unit 410, a word vectorization device 120 or 320, a synthesized speech generation unit 420, and a relearning unit 530 (shown by a broken line in FIG. 10). The processing content of the relearning unit 530 will be described.
  • the re-learning unit 530 Prior to re-learning, uses the speech data and text data obtained from the synthesized speech corpus in advance, and the vector w v, s (t) and the acoustic feature quantity af of the divided speech data. Find v, s (t). Note that the vector w v, s (t) and the acoustic feature quantity af v, s (t) of the divided audio data are obtained by the same method as the word expression conversion units 111 and 311 and the audio data division unit 112, respectively. Can be sought. Note that the acoustic feature amount af v, s (t) of the divided speech data can be said to be the acoustic feature amount of speech data for speech synthesis.
  • the re-learning unit 530 uses the word vectorization model fw ⁇ af , the vector w v, s (t), and the acoustic feature quantity af v, s (t) of the divided speech data to generate a word vector.
  • the model fw ⁇ af is relearned, and the word vectorized model fw ⁇ af after learning is output.
  • the text data tex o to be vectorized is input, and the word yo, s (t) included in the text data tex o is converted into a word vectorization model f w ⁇ Using af , convert to word vector wo_2, s (t) and output.
  • the Bidirectional LSTM (BLSTM) 3 layers are used as the intermediate layer, and the output of the second intermediate layer is the bottleneck layer.
  • the number of units in each layer other than the bottleneck layer was 256, and a rectied linear unit (ReLU) was used as the activation function.
  • ReLU rectied linear unit
  • a pause is also treated as a word ("PAUSE").
  • PAUSE a word
  • a total of 26,663 dimensions including “UNK” and “PAUSE” were used as the input of the word vectorization model fw ⁇ af .
  • F0 of each word was resampled to a fixed length (32 samples), and the first to fifth orders of the DCT values were used.
  • 1% randomly selected from all data was used as development data for early stopping, and other data was used as learning data.
  • the sampling frequency of the audio signal was 22.05 kHz and the frame shift was 5 ms.
  • 4,400 and 100 sentences were used as learning and development data for the speech synthesis model, respectively, and the remaining 83 sentences were used as evaluation data.
  • the following six types were used as input for speech synthesis models. 1. Phoneme only (Quinphone) 2. 1+ prosodic information label (Prosodic) 3. 1+ text data word vector (TxtVec) 4. 1+ Proposed method word vector (PropVec) 5. 1+ Proposed method word vector after re-learning (PropVecFT) 6.
  • prosodic information label PropVecFT + Prosodic
  • syllable, word, and phrase position information stress information for each syllable, and ToBI endtone.
  • Unidirectional LSTM is used as a speech synthesis model, so the word vector of the previous word cannot be considered.
  • word vector 3. to 6.
  • the word vector one word ahead is used as the input vector of the speech synthesis model.
  • 13A and 13B show the cosine similarity between word vectors obtained by the respective methods for sentences (1) and (2), respectively.
  • cosine similarity is very high when words with similar prosodic information (piece, peace, etc.) are compared.
  • words with similar meanings piece, patch, etc.
  • the vector obtained by the proposed method can reflect the prosodic similarity between words. It is thought that there is.
  • the prosody information similarity does not necessarily match and the prosodic similarity cannot be considered.
  • the word vector (TxtVec) of the conventional method has improved F0 generation accuracy compared to Quinphone, but the generation accuracy is lower than when using prosodic information (Prosodic). A similar trend was obtained. Comparing the conventional method with the proposed method (PropVec, fourth embodiment), it can be seen that the proposed method has improved F0 generation accuracy over TxtVec regardless of the number of dimensions of the word vector. In this experimental condition, the highest performance was obtained when the number of dimensionality of the word vector was 64, and the performance comparable to Prosodic was obtained. It can also be seen that the word vector after re-learning (PropVecFT, the fifth embodiment) has higher F0 generation accuracy regardless of the number of dimensions of the word vector.
  • the program describing the processing contents can be recorded on a computer-readable recording medium.
  • a computer-readable recording medium for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
  • this program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores a program recorded on a portable recording medium or a program transferred from a server computer in its storage unit. When executing the process, this computer reads the program stored in its own storage unit and executes the process according to the read program.
  • a computer may read a program directly from a portable recording medium and execute processing according to the program. Further, each time a program is transferred from the server computer to the computer, processing according to the received program may be executed sequentially.
  • the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes a processing function only by an execution instruction and result acquisition. It is good.
  • the program includes information provided for processing by the electronic computer and equivalent to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
  • each device is configured by executing a predetermined program on a computer, at least a part of these processing contents may be realized by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

単語を、その単語の持つ音響的な特徴も考慮した単語ベクトルに変換する単語ベクトル化装置を提供する。単語ベクトル化モデル学習装置は、学習用テキストデータに含まれる単語yL,s(t)を示すベクトルwL,s(t)と、学習用テキストデータに対応する音声データの音響特徴量であって単語yL,s(t)に対応する音響特徴量afL,s(t)とを用いて、単語ベクトル化モデルを学習する学習部を含む。単語ベクトル化モデルは単語を示すベクトルを入力とし、その単語に対応する音声データの音響特徴量を出力とするニューラルネットワークを含み、単語ベクトル化モデルは何れかの中間層の出力値を単語ベクトルとするモデルである。

Description

単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム
 本発明は、音声合成や音声認識などの自然言語処理で用いられる単語をベクトル化する技術に関する。
 自然言語処理等の分野で、単語をベクトル化する技術が提案されている。例えば、単語をベクトル化する技術としてWord2Vecが知られている(非特許文献1等)。単語ベクトル化装置90は、ベクトル化対象単語系列を入力とし、各単語を示す単語ベクトルを出力する(図1参照)。Word2Vec等の単語ベクトル化技術は、単語をベクトル化し、計算機上で扱いやすくすることができる。そのため、計算機上で扱われる音声合成、音声認識、機械翻訳、対話システム、検索システム等の様々な自然言語処理技術で単語ベクトル化技術が利用されている。
Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, "Efficient estimation of word representations in vector space", 2013, ICLR
 現在の単語ベクトル化技術で用いられているモデルfは、単語の表記の情報(テキストデータ)texLのみで学習される(図2参照)。例えば、Word2Vecでは、前後の単語からある単語を推定するContinuous Bag of Words(CBOW、図3A参照)、ある単語から前後の単語を推定するSkip-gram(図3B参照)等のニューラルネットワーク(単語ベクトル化モデル)92を学習することで、単語間の関係性を学習する。そのため、得られる単語ベクトルは、単語の意味(品詞等)等に基づきベクトル化しているものであり、発音等の情報を考慮することはできない。例えば、英単語"won't"、"want"、"don't"は、ストレスの位置が同じ、発音記号もほぼ同じであるため、発音がほぼ同一の単語だと考えられる。しかし、Word2Vec等ではそういった単語を類似したベクトルへ変換することができない。
 本発明は、単語を、その単語の持つ音響的な特徴も考慮した単語ベクトルに変換する単語ベクトル化装置、単語ベクトル化装置で利用される単語ベクトル化モデルを学習する単語ベクトル化モデル学習装置、単語ベクトルを用いて合成音声データを生成する音声合成装置、それらの方法、及びプログラムを提供することを目的とする。
 上記の課題を解決するために、本発明の一態様によれば、単語ベクトル化モデル学習装置は、学習用テキストデータに含まれる単語yL,s(t)を示すベクトルwL,s(t)と、学習用テキストデータに対応する音声データの音響特徴量であって単語yL,s(t)に対応する音響特徴量afL,s(t)とを用いて、単語ベクトル化モデルを学習する学習部を含む。単語ベクトル化モデルは単語を示すベクトルを入力とし、その単語に対応する音声データの音響特徴量を出力とするニューラルネットワークを含み、単語ベクトル化モデルは何れかの中間層の出力値を単語ベクトルとするモデルである。
 上記の課題を解決するために、本発明の他の態様によれば、単語ベクトル化モデル学習装置が実行する単語ベクトル化モデル学習方法は、学習用テキストデータに含まれる単語yL,s(t)を示すベクトルwL,s(t)と、学習用テキストデータに対応する音声データの音響特徴量であって単語yL,s(t)に対応する音響特徴量afL,s(t)とを用いて、単語ベクトル化モデルを学習する学習ステップを含む。単語ベクトル化モデルは単語を示すベクトルを入力とし、その単語に対応する音声データの音響特徴量を出力とするニューラルネットワークを含み、単語ベクトル化モデルは何れかの中間層の出力値を単語ベクトルとするモデルである。
 本発明によれば、音響的な特徴も考慮した単語ベクトルを得ることができるという効果を奏する。
従来技術に係る単語ベクトル化装置を説明するための図。 従来技術に係る単語ベクトル化モデル学習装置を説明するための図。 CBOWのニューラルネットワークを示す図。 Skip-gramのニューラルネットワークを示す図。 第一、第二、第三実施形態に係る単語ベクトル化モデル学習装置の機能ブロック図。 第一、第二、第三実施形態に係る単語ベクトル化モデル学習装置の処理フローの例を示す図。 第一実施形態に係る単語ベクトル化モデル学習装置を説明するための図。 単語セグメンテーション情報の例を示す図。 第一、第三実施形態に係る単語ベクトル化装置の機能ブロック図。 第一、第三実施形態に係る単語ベクトル化装置の処理フローの例を示す図。 第四、第五実施形態に係る音声合成装置の機能ブロック図。 第四、第五実施形態に係る音声合成装置の処理フローの例を示す図。 音声認識用コーパス、音声合成用コーパスに関する情報を示す図。 文章(1)に対して第四実施形態及び従来技術により得られた単語ベクトル間のコサイン類似度を示す図。 文章(2)に対して第四実施形態及び従来技術により得られた単語ベクトル間のコサイン類似度を示す図。 従来技術、第四実施形態、第五実施形態により得られたRMS誤差を示す図。 従来技術、第四実施形態、第五実施形態により得られた相関係数を示す図。
 以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
 近年、音声認識等の学習データとして、大量の音声データ及びその書き起こしテキスト(以下、音声認識用コーパスともいう)が用意されるようになっている。本実施形態では、単語ベクトル化モデルの学習データとして、従来用いられているテキスト(単語(形態素)の表記)に加え音声データを用いる。例えば、大量の音声データとテキストとを用いて、入力単語(テキストデータ)からその単語の持つ音響特徴量(スペクトル、音高パラメータ等)とその時間変動を推定するモデルを学習し、そのモデルを単語ベクトル化モデルとして使用する。
 このようにモデルを学習することで、単語間の発音等の類似性を考慮したベクトルを抽出することが可能になる。さらに、発音等の類似性を考慮した単語ベクトルの利用により、音声合成、音声認識等の音声処理技術の性能向上が可能となる。
<第一実施形態に係る単語ベクトル化モデル学習装置>
 図4は第一実施形態に係る単語ベクトル化モデル学習装置110の機能ブロック図を、図5はその処理フローを示す。
 単語ベクトル化モデル学習装置110は、(1)学習用テキストデータtexLと、(2)学習用テキストデータtexLに対応する音声データに基づく情報xLと、(3)音声データ中の単語yL,s(t)がいつ発話されたかを示す単語セグメンテーション情報segL,s(t)とを入力とし、これらの情報を用いて学習した単語ベクトル化モデルfw→afを出力する。
 従来の単語ベクトル化モデル学習装置91(図2参照)との大きな違いは、単語ベクトル化モデル学習装置91は単語ベクトル化モデルの学習データとしてテキストデータのみを用いているのに対し、本実施形態では音声データとそのテキストデータとを用いている点である。
 本実施形態では、学習の際には、単語ベクトル化モデルfw→afの入力として単語情報(学習用テキストデータtexLに含まれる単語yL,s(t)を示す情報wL,s(t))、出力として音声情報(その単語yL,s(t)の音響特徴量afL,s(t))を使用することで(図6参照)、単語からその単語の音響特徴量を推定するニューラルネットワーク(単語ベクトル化モデル)を学習する。
 単語ベクトル化モデル学習装置110は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。
 単語ベクトル化モデル学習装置110は、単語表現変換部111、音声データ分割部112と、学習部113を含む。
 単語ベクトル化モデルを学習する際に使用する学習データについて説明する。
 学習用テキストデータtexLと、学習用テキストデータtexLに対応する音声データとして、例えば、大量の音声データ及びその書き起こしテキストデータからなるコーパス(音声認識用コーパス)等を利用することができる。つまり、人が大量に発声した音声(音声データ)と音声に対して文章(テキストデータ)を付与したものである(それぞれS個の文章)。この音声データには、一人の話者が発話した音声データのみを使用してもよいし、様々な話者が発話した音声データが混在したものを使用してもよい。
 また、音声データ中の単語yL,s(t)がいつ発話されたかを示す単語セグメンテーション情報segL,s(t)(図7参照)も付与する。図7の例では、単語セグメンテーション情報として、各単語の開始時間と終了時間とを用いているが、他の情報を用いてもよい。例えば、ある単語の終了時間と次の単語の開始時間とが一致する場合には、開始時間と終了時間との何れか一方のみを単語セグメンテーション情報として用いてもよい。また、文章の開始時刻を指定し、発話時間だけを単語セグメンテーション情報として用いてもよい。例えば、"pause"=350, "This"=250, "is"=80,…とすることで、各単語の開始時間と終了時間とを特定することができる。要は、単語セグメンテーション情報は、単語yL,s(t)がいつ発話されたかを示すことができればどのような情報であってもよい。この単語セグメンテーション情報は人手で付与してもよいし、音声認識器等を使用して、音声データ、テキストデータから自動的に付与してもよい。本実施形態では、単語ベクトル化モデル学習装置110に音声データに基づく情報xL(t)と単語セグメンテーション情報segL,s(t)とが入力されている。ただし、単語ベクトル化モデル学習装置110に音声データに基づく情報xL(t)のみが入力され、単語ベクトル化モデル学習装置110内で強制アライメントにより各単語の単語境界を付与し、単語セグメンテーション情報segL,s(t)を求める構成としてもよい。
 また、通常のテキストデータには、発声中の無音(short pause等)を表現する単語は含まれないが、本実施形態では音声データとの整合性を取るために、無音用の単語"pause"を使用する。
 音声データに基づく情報xLは、実際の音声データであってもよいし、音声データから取得可能な音響特徴量であってもよい。本実施形態では、音声データから抽出した音響特徴量(スペクトルパラメータ、音高パラメータ(F0))とする。音響特徴量として、スペクトル、音高パラメータのどちらか一方、または両者を使用することも可能である。その他、音声データから信号処理等により抽出可能な音響特徴量(例えば、メルケプストラム、非周期性指標、対数F0、有声・無声フラグ等)を使用することも可能である。音声データに基づく情報xLが実際の音声データの場合には、音声データから音響特徴量を抽出する構成を設ければよい。
 以下、各部の処理内容を説明する。
<単語表現変換部111>
 単語表現変換部111は、学習用テキストデータtexLを入力とし、学習用テキストデータtexLに含まれる単語yL,s(t)を、その単語yL,s(t)を示すベクトルwL,s(t)に変換し(S111)、出力する。
 学習用テキストデータtexL中の単語yL,s(t)を後段の学習部113で使用可能な表現(数値表現)へ変換する。なお、ベクトルwL,s(t)を表現変換後単語データともいう。
 単語の数値表現の例として、最も一般的なものはone hot表現である。例えば、学習用テキストデータtexL中に含まれる単語がN種類であった場合、one hot表現では各単語をN次元のベクトルwL,s(t)として扱う。
wL,s(t)=[wL,s(t)(1),…,wL,s(t)(n),…,wL,s(t)(N)]
ここで、wL,s(t)は、学習用テキストデータtexL中のs番目(1≦s≦S)の文章のt番目(1≦t≦Ts)(Tsはs番目の文章に含まれる単語数)の単語のベクトルである。よって、各部で全てのs及び全てのtに対して処理を行う。また、wL,s(t)(n)は、wL,s(t)のn次元目の情報を表す。one-hot表現では、単語に該当する次元wL,s(t)(n)を1とし、それ以外の次元を0とするベクトルを構築する。
<音声データ分割部112>
 音声データ分割部112は、単語セグメンテーション情報segL,s(t)と音声データに基づく情報xLである音響特徴量とを入力とし、単語セグメンテーション情報segL,s(t)を用いて、音響特徴量を単語yL,s(t)の区分に応じて分割し(S112)、分割された音声データの音響特徴量afL,s(t)を出力する。
 本実施形態では、後段の学習部113において、分割後の音響特徴量afL,s(t)を任意の固定長(次元数D)のベクトルとして表現する必要がある。そのため、以下の手順により、各単語の分割後の音響特徴量afL,s(t)を得る。
(1)単語セグメンテーション情報segL,s(t)中の単語yL,s(t)の時間情報に基づき、時系列の音響特徴量を単語yL,s(t)毎に分割する。例えば、音声データのフレームシフトが5msの場合、図7の例では、無音用の単語"pause"の音響特徴量として、1フレーム目から70フレーム目までの音響特徴量を得る。同様に単語"This"は71フレーム目から120フレーム目までの音響特徴量となる。
(2)上述の(1)で得られた各単語の音響特徴量は、得られる音響特徴量のフレーム数が異なるため、各単語の音響特徴量の次元数は異なる。そのため、得られた各単語の音響特徴量を固定長のベクトルへ変換する必要がある。変換手法として最も単純なものは、フレーム数が異なる各音響特徴量を任意の固定フレーム数へ変換することである。この変換は、線形補間等により実現できる。
 また、得られた分割後の音響特徴量に対し、何らかの次元圧縮手法によって、次元圧縮を行ったデータも分割後の音響特徴量afL,s(t)として使用することも可能である。次元圧縮手法として、例えば主成分分析(PCA)や離散コサイン変換(DCT)、ニューラルネットワークに基づく自己符号化器(Auto encoder)等を使用することが可能である。
<学習部113>
 学習部113は、ベクトルwL,s(t)と、分割された音声データの音響特徴量afL,s(t)とを入力とし、これらの値を用いて、単語ベクトル化モデルfw→afを学習する(S113)。なお、単語ベクトル化モデルは単語を示すベクトルwL,s(t)(例えばN次元one hot表現)をその単語に対応する音声データの音響特徴量(例えばD次元ベクトル)に変換するニューラルネットワークである。例えば、単語ベクトル化モデルfw→afは次式により表される。
^afL,s(t)=fw→af(wL,s(t))
 本実施形態において、利用可能なニューラルネットワークとして、通常のMultilayer perceptron(MLP)だけでなく、Recurrent Neural Network(RNN)、RNN-LSTM(long short term memory)等の前後の単語を考慮可能なニューラルネットワーク、またそれらを組み合わせたニューラルネットワークを使用することが可能である。
<第一実施形態に係る単語ベクトル化装置>
 図8は第一実施形態に係る単語ベクトル化装置120の機能ブロック図を、図9はその処理フローを示す。
 単語ベクトル化装置120は、ベクトル化対象となるテキストデータtexoを入力とし、学習した単語ベクトル化モデルfw→afを用いて、テキストデータtexoに含まれる単語yo,s(t)を単語ベクトルwo_2,s(t)に変換し、出力する。ただし、単語ベクトル化装置120において、1≦s≦Soであり、Soはベクトル化対象となるテキストデータtexoに含まれる文章の総数、1≦t≦Tsであり、Tsはベクトル化対象となるテキストデータtexoに含まれる文章sに含まれる単語yo,s(t)の総数である。
 単語ベクトル化装置120は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。
 単語ベクトル化装置120は、単語表現変換部121と単語ベクトル変換部122とを含む。単語ベクトル化装置120は、ベクトル化に先立ち、予め単語ベクトル化モデルfw→afを受け取り、単語ベクトル変換部122に設定しておく。
<単語表現変換部121>
 単語表現変換部121は、テキストデータtexoを入力とし、テキストデータtexoに含まれる単語yo,s(t)を、その単語yo,s(t)を示すベクトルwo_1,s(t)に変換し(S121)、出力する。変換方法は、単語表現変換部111に対応する方法を用いればよい。
<単語ベクトル変換部122>
 単語ベクトル変換部122は、ベクトルwo_1,s(t)を入力とし、単語ベクトル化モデルfw→afを用いて、ベクトルwo_1,s(t)を単語ベクトルwo_2,s(t)に変換し(S122)、出力する。例えば、単語ベクトル化モデルfw→afのニューラルネットワークの順伝搬処理をベクトルwo_1,s(t)を入力として実施し、任意の中間層(ボトルネック層)の出力値(bottleneck feature)を単語yo,s(t)の単語ベクトルwo_2,s(t)として出力することで、ベクトルwo_1,s(t)から単語ベクトルwo_2,s(t)への変換を行う。
<効果>
 以上の構成により、音響的な特徴も考慮した単語ベクトルwo_2,s(t)を得ることができる。
<変形例>
 単語ベクトル化モデル学習装置は、学習部130のみを含む構成としてもよい。例えば、学習用テキストデータに含まれる単語yL,s(t)を示すベクトルwL,s(t)と、単語yL,s(t)に対応する音響特徴量afL,s(t)とは、別装置により、算出したものを用いてもよい。同様に、単語ベクトル化装置は、単語ベクトル変換部122のみを含む構成としてもよい。例えば、ベクトル化対象となるテキストデータに含まれる単語yo,s(t)を示すベクトルwo_1,s(t)は、別装置により、算出したものを用いてもよい。
<第二実施形態>
 第一実施形態と異なる部分を中心に説明する。
 第一実施形態では、音声データとして様々な話者の音声が含まれている場合、話者性の違いにより音声データが大きく異なってしまう。そのため、単語ベクトル化モデル学習を高精度に行うことは難しい。そこで、第二実施形態では、話者毎に音声データに基づく情報xLである音響特徴量に対し正規化を行う。このような構成とすることで、話者性の違いにより単語ベクトル化モデル学習の精度が下がる問題を軽減する。
 図4は第二実施形態に係る単語ベクトル化モデル学習装置210の機能ブロック図を、図5はその処理フローを示す。
 単語ベクトル化モデル学習装置210は、単語表現変換部111、音声データ正規化部214(図4中、破線で示す)と、音声データ分割部112と、学習部113とを含む。
<音声データ正規化部214>
 音声データ正規化部214は、音声データに基づく情報xLである音響特徴量を入力とし、同一の発話者の、学習用テキストデータに対応する音声データの音響特徴量を正規化し(S121)、出力する。
 正規化の手法として、例えば、音響特徴量中に各文章の発話者の情報が付与されている場合は、同一の発話者の音響特徴量から平均、分散を求め、z-scoreを求める。例えば、発話者の情報が付与されていない場合には、文章毎に話者が異なると想定し、文章ごとに音響特徴量から平均、分散を求め、z-scoreを求める。そして、z-scoreを正規化後音響特徴量として使用する。
 音声データ分割部112では、正規化後の音響特徴量を用いる。
<効果>
 このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、話者性の違いにより単語ベクトル化モデル学習の精度が下がる問題を軽減できる。
<第三実施形態>
 第一実施形態と異なる部分を中心に説明する。
 第一実施形態、第二実施形態では、単語ベクトル化モデル学習において、音声データに対応する音響特徴量とそのテキストデータを用いている。しかし、一般的に使用可能な音声データに含まれる単語の種類Nは、Web等から入手可能な大量のテキストデータに対して小さい。そのため、従来の学習用テキストデータのみで学習する単語ベクトル化モデルに対し、未知語が発生しやすくなるという課題がある。
 本実施形態では、その課題を解決するために、単語表現変換部111,121において、従来の学習用テキストデータのみで学習する単語ベクトル化モデルを使用する。以下、差分のある単語表現変換部311,321について説明する(図4、図8参照)。また、本実施形態と第二実施形態とを併用することも可能である。
<単語表現変換部311>
 単語表現変換部311は、学習用テキストデータtexLを入力とし、学習用テキストデータtexLに含まれる単語yL,s(t)を、その単語yL,s(t)を示すベクトルwL,s(t)に変換し(S311、図5参照)、出力する。
 本実施形態では、学習用テキストデータtexL中の各単語yL,s(t)に対して、言語情報に基づく単語ベクトル化モデルを用いて、単語を後段の学習部133で使用可能な表現(数値表現)へ変換し、ベクトルwL,s(t)を得る。言語情報に基づく単語ベクトル化モデルは、非特許文献1で挙げているWord2Vec等を用いることが可能である。
 本実施形態では、まず第一実施形態と同様に単語をone hot表現へ変換する。この際の次元数Nとして、第一実施形態では学習用テキストデータtexL中の単語の種類としていたが、本実施形態では言語情報に基づく単語ベクトル化モデルの学習に使用した学習用テキストデータ中の単語の種類とする点が異なる。次に得られた各単語のone hot表現のベクトルに対し、言語情報に基づく単語ベクトル化モデルを用いて、ベクトルwL,s(t)を得る。ベクトルの変換方法は言語情報に基づく単語ベクトル化モデルによって異なるが、Word2Vecの場合は、本発明と同様に順伝搬処理を行い、中間層(ボトルネック層)の出力ベクトルを取り出すことで、ベクトルwL,s(t)を得ることができる。
 単語表現変換部321においても同様の処理を行う(S321、図9参照)。
<効果>
 このような構成により、第一実施形態と同様の効果を得ることができる。さらに、未知語の発生を従来の単語ベクトル化モデルと同程度とすることができる。
<第四実施形態>
 本実施形態では、第一実施形態から第三実施形態で生成した単語ベクトルを音声合成に利用する例について説明する。ただし、単語ベクトルは、音声合成以外の用途に用いることができることは言うまでもなく、本実施形態は単語ベクトルの用途を限定するものではない。
 図10は第四実施形態に係る音声合成装置400の機能ブロック図を、図11はその処理フローを示す。
 音声合成装置400は、音声合成用のテキストデータtexOを入力とし、合成音声データzoを出力する。
 音声合成装置400は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。
 音声合成装置400は、音素抽出部410と、単語ベクトル化装置120または320と、合成音声生成部420とを含む。単語ベクトル化装置120または320の処理内容については第一実施形態または第三実施形態で説明した通りである(S120,S320に相当)。単語ベクトル化装置120または320は、音声合成処理に先立ち、予め単語ベクトル化モデルfw→afを受け取り、単語ベクトル変換部122に設定しておく。
<音素抽出部410>
 音素抽出部410は、音声合成用のテキストデータtexOを入力とし、テキストデータtexOに対応する音素情報poを抽出し(S410)、出力する。なお、音素抽出方法は既存のいかなる技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。
<合成音声生成部420>
 合成音声生成部420は、音素情報poと単語ベクトルwo_2,s(t)とを入力とし、合成音声データzoを生成し(S420)、出力する。
 例えば、合成音声生成部420は、音声合成用モデルを含む。例えば、音声合成用モデルは、単語の音素情報とその単語に対応する単語ベクトルとを入力とし、その単語に対する合成音声データを生成するための情報を出力するモデル(例えばdeep neural network(DNN)モデル)である。合成音声データを生成するための情報としては、メルケプストラム、非周期性指標、F0、有声・無声フラグ等(以下、これらの情報を要素とするベクトルを特徴ベクトルともいう)が考えられる。なお、音声合成処理に先立ち、学習用のテキストデータに対応する音素情報と単語ベクトルと特徴ベクトルとを与えて、音声合成用モデルを学習しておく。さらに、合成音声生成部420は、上述の音声合成用モデルに音素情報poと単語ベクトルwo_2,s(t)とを入力し、音声合成用のテキストデータtexOに対応する特徴ベクトルを取得し、ヴォコーダー等を用いて特徴ベクトルから合成音声データzoを生成し、出力する。
<効果>
 このような構成により、音響的な特徴も考慮した単語ベクトルを用いて合成音声データを生成することができ、従来よりも自然な合成音声データを生成することができる。
<第五実施形態>
 第四実施形態と異なる部分を中心に説明する。
 第四実施形態の音声合成法では、第一実施形態から第三実施形態の何れかの方法により単語ベクトル化モデルを学習する。第一実施形態の説明の中で、単語ベクトル化モデルを学習する際に音声認識用コーパス等を利用することができることを説明した。このとき、音声認識用コーパスを用いて、単語ベクトル化モデルを学習すると、音響特徴量は話者によって異なる。そのため、得られる単語ベクトルは音声合成用コーパスの話者にとって最適であるとは限らない。そこで、音声合成用コーパスの話者により適した単語ベクトルを得るために、音声認識用コーパスから学習した単語ベクトル化モデルに対して、音声合成用コーパスを用いて再学習を行う。
 図10は第五実施形態に係る音声合成装置500の機能ブロック図を、図11はその処理フローを示す。
 音声合成装置500は、音素抽出部410と単語ベクトル化装置120または320と、合成音声生成部420と再学習部530(図10中、破線で示す)を含む。再学習部530の処理内容について説明する。
<再学習部530>
 再学習部530は、再学習に先立ち、予め、合成音声用コーパスから得られる音声データとテキストデータとを用いて、ベクトルwv,s(t)と、分割された音声データの音響特徴量afv,s(t)とを求める。なお、ベクトルwv,s(t)と、分割された音声データの音響特徴量afv,s(t)とは、それぞれ単語表現変換部111、311、音声データ分割部112と同様の方法により、求めることができる。なお、分割された音声データの音響特徴量afv,s(t)は音声合成用の音声データの音響特徴量と言える。
 再学習部530は、単語ベクトル化モデルfw→afと、ベクトルwv,s(t)と、分割された音声データの音響特徴量afv,s(t)とを用いて、単語ベクトル化モデルfw→afを再学習し、学習後の単語ベクトル化モデルfw→afを出力する。
 単語ベクトル化装置120,320では、ベクトル化対象となるテキストデータtexoを入力とし、テキストデータtexoに含まれる単語yo,s(t)を、再学習後の単語ベクトル化モデルfw→afを用いて、単語ベクトルwo_2,s(t)に変換し、出力する。
<効果>
 このような構成により、単語ベクトルを音声合成用コーパスの話者にとって最適なものとし、従来よりも自然な合成音声データを生成することができる。
<シミュレーション>
 (実験条件)
 単語ベクトル化モデルfw→afの学習に用いる大規模音声データとして、英語ネイティブ話者5,372名が発話した約700時間の音声認識用コーパス(ASR corpus)を用いた。各発話には強制アライメントにより各単語の単語境界を付与している。音声合成用コーパス(TTS corpus)として、英語ネイティブ話者である女性1名のプロナレータが発話した約5時間の音声データを使用した。図12に両コーパスに関するその他の情報を示す。
 単語ベクトル化モデルfw→afは、中間層としてBidirectional LSTM(BLSTM)3層、2層目の中間層の出力をボトルネック層とした。ボトルネック層以外の各層のユニット数は256とし、活性化関数にはRectied Linear Unit(ReLU)を用いた。単語ベクトルの次元数による性能の変化を検証するため、ボトルネック層のユニット数を16、32、64、128、256と変更した5つのモデルを学習している。未知語へ対応するために、学習データ中に出現頻度が2回以下の単語は全て未知語("UNK")とし、一単語としている。また、テキストデータと異なり、音声データ中には文頭、文中、文末に無音(ポーズ)が挿入されるため、本シミュレーションではポーズも単語("PAUSE")として扱っている。その結果、"UNK"、"PAUSE"を含め、計26,663次元を単語ベクトル化モデルfw→afの入力とした。単語ベクトル化モデルfw→afの出力には、各単語のF0を固定長(32サンプル)へリサンプリングし、そのDCT値の1次から5次を使用した。学習には、全データからランダムに選択した1%を交差検証(early stopping)のための開発データとし、それ以外のデータを学習データとして使用した。音声合成用コーパスを用いた再学習時には、後述の音声合成用モデルと同様に学習、開発データとして、それぞれ4,400文章、100文章を使用した。提案法と比較を行うために、テキストデータのみから学習した単語ベクトルとして、従来法(参考文献1、2参照)と同様に、82,390単語からなる80次元の単語ベクトル(参考文献3)を使用した。
(参考文献1)P. Wang et al:, "Word embedding for recurrent neural network based TTS synthesis", in ICASSP 2015, p.4879-4883, 2015.
(参考文献2)X. Wang et al:, "Enhance the word vector with prosodic information for the recurrent neural network based TTS system", in INTERSPEECH 2016, p.2856-2860, 2016.
(参考文献3)Mikolov, et al:, "Recurrent neural network based language model", in INTERSPEECH 2010, p.1045-1048, 2010.
この中には、未知語("UNK")、ポーズ("PAUSE")に相当する単語が存在しないため、本シミュレーションでは未知語は全単語の単語ベクトルの平均、ポーズは文末記号("</s>")の単語ベクトルを使用した。音声合成用モデルには、2層の全結合層と2層のUnidirectional LSTM(参考文献4)から構成されるネットワークを使用した。
(参考文献4)Zen et al: "Unidirectional long short-term memory recurrent neural network with recurrent output layer for low-latency speech synthesis", in ICASSP 2015, p.4470-4474, 2015.
各層のユニット数は256とし、活性化関数にはReLUを使用した。音声の特徴ベクトルとして、STRAIGHT(参考文献5)により抽出した平滑化スペクトルから求めた0次から39次のメルケプストラム、5次元の非周期性指標、対数F0、有声・無声フラグの計47次元を用いた。
(参考文献5)Kawahara et al:, "Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a reptitive structure in sounds", Speech Communication, 27, p.187-207, 1999.
音声信号のサンプリング周波数は22.05kHz、フレームシフトは5msとした。音声合成用モデルの学習、開発データとして、それぞれ4,400文章、100文章を使用し、それ以外の83文章を評価用データとして使用した。従来法との比較のために、音声合成用モデルの入力として以下の6種類を用いた。
1. 音素のみ(Quinphone)
2. 上述の1+韻律情報ラベル(Prosodic)
3. 上述の1+テキストデータ単語ベクトル(TxtVec)
4. 上述の1+提案法単語ベクトル(PropVec)
5. 上述の1+再学習後提案法単語ベクトル(PropVecFT)
6. 上述の5+韻律情報ラベル(PropVecFT+Prosodic)
韻律情報ラベルには、音節、単語、句の位置情報、各音節のストレス情報、ToBIのendtoneを使用した。また、本シミュレーションでは音声合成用モデルとしてUnidirectional LSTMを使用しているため、先の単語の単語ベクトルを考慮することができない。この問題を回避するため、単語ベクトルを使用する手法(3.~6.)では、当該単語の単語ベクトルに加え、一単語先の単語ベクトルも音声合成用モデルの入力ベクトルとして使用した。
 (単語ベクトルの比較)
 まず、提案法(第四実施形態)で得られた単語ベクトルとテキストデータのみから学習した単語ベクトルとの比較を行った。比較対象には、韻律情報(音節数、ストレス位置)が類似しているが意味が異なる単語、反対に韻律情報は異なるが意味は類似した単語を使用し、これらの単語ベクトルのコサイン類似度を比較した。提案法の単語ベクトルとして、音声認識用コーパスのみから学習した64次元の単語ベクトルを用いた。また、提案法ではBLSTMを使用しているため、前後の単語系列に依存して得られる単語ベクトルも変化する。そこで、以下の疑似的に作成した2文章中の"{}"内の単語から得られる単語ベクトルを比較対象とした。
(1) I closed the {gate / date / late / door}.
(2) It's a {piece / peace / portion / patch} of cake.
図13A、図13Bは、それぞれ文章(1),(2)に対して、各手法により得られた単語ベクトル間のコサイン類似度を示す。まず提案法では、韻律情報が類似した単語(piece,peace等)を比較すると、非常に高いコサイン類似度が得られている。一方、意味が類似した単語(piece、patch等)の場合、韻律情報が類似した単語より類似度は低く、提案法で得られたベクトルは単語間の韻律の類似性を反映することができていると考えられる。一方、テキストデータのみから学習した単語ベクトルの場合、韻律情報の類似性とは必ずしも一致しておらず、韻律の類似性を考慮できていないことが分かる。
 (音声合成における性能評価)
 次に、提案法を音声合成へ利用した場合の有効性を評価するために客観評価を行った。客観評価尺度として、原音声と各手法から生成した対数F0のRMS誤差及び相関係数を用いた。各手法により得られたRMS誤差、相関係数をそれぞれ図14、図15に示す。
 まず、従来法3種類の比較を行う。従来法の単語ベクトル(TxtVec)は、Quinphoneに対し、F0の生成精度が向上しているが、韻律情報を使用した場合(Prosodic)と比較すると生成精度が低く、従来研究(参考文献1)と同様の傾向が得られた。従来法と提案法(PropVec,第四実施形態)とを比較すると、提案法は単語ベクトルの次元数によらず、TxtVecに対しF0生成精度が向上していることが分かる。また、今回の実験条件では単語ベクトルの次元数を64とした場合が最も性能が高く、Prosodicに匹敵する性能が得られた。また、再学習後の単語ベクトル(PropVecFT,第五実施形態)は、単語ベクトルの次元数によらず、より高いF0生成精度が得られていることが分かる。特に、単語ベクトルの次元数が64の場合、Prosodicより高いF0生成精度が得られている。これらの結果より、単語ベクトル化モデル学習に大規模音声データを用いる提案法は音声合成において有効であると考えられる。最後に、提案法による単語ベクトルと韻律情報を併用した場合の有効性を検証する。PropVecFTとPropVecFT+Prosdicとを比較すると、すべての場合において、PropVecFT+Prosdicが高いF0生成精度が得られた。また、Prosodicとの比較においても、PropVecFT+Prosodicが全ての場合で高い精度が得られており、韻律情報と提案法単語ベクトルを併用した場合でも有効であると考えられる。
<その他の変形例>
 本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
 また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1.  学習用テキストデータに含まれる単語yL,s(t)を示すベクトルwL,s(t)と、前記学習用テキストデータに対応する音声データの音響特徴量であって前記単語yL,s(t)に対応する音響特徴量afL,s(t)とを用いて、単語ベクトル化モデルを学習する学習部を含み、前記単語ベクトル化モデルは単語を示すベクトルを入力とし、その単語に対応する音声データの音響特徴量を出力とするニューラルネットワークを含み、前記単語ベクトル化モデルは何れかの中間層の出力値を単語ベクトルとするモデルである、
     単語ベクトル化モデル学習装置。
  2.  請求項1の単語ベクトル化モデル学習装置であって、
     学習用テキストデータに含まれる単語yL,s(t)を、その単語yL,s(t)を示す第一ベクトルwL,1,s(t)に変換し、第二単語ベクトル化モデルを用いて、前記第一ベクトルwL,1,s(t)を前記ベクトルwL,s(t)に変換する単語表現変換部を含み、前記第二単語ベクトル化モデルは音声データの音響特徴量を用いずに言語情報に基づき学習されたニューラルネットワークを含むモデルである、
     単語ベクトル化モデル学習装置。
  3.  請求項1または請求項2の単語ベクトル化モデル学習装置において学習された単語ベクトル化モデルを用いる単語ベクトル化装置であって、
     前記単語ベクトル化モデルを用いて、ベクトル化対象となるテキストデータに含まれる単語yo,s(t)を示すベクトルwo_1,s(t)を単語ベクトルwo_2,s(t)に変換する単語ベクトル変換部を含む、
     単語ベクトル化装置。
  4.  請求項3の単語ベクトル化装置を用いてベクトル化された単語ベクトルを用いて、合成音声データを生成する音声合成装置であって、
     ある単語の音素情報とその単語に対応する単語ベクトルとを入力とし、その単語に対する合成音声データを生成するための情報を出力するニューラルネットワークを含む音声合成モデルを用いて、前記単語yo,s(t)の音素情報と前記単語ベクトルwo_2,s(t)とを用いて、合成音声データを生成する合成音声生成部を含み、
     前記単語ベクトル化モデルは、前記ベクトルwL,s(t)と前記音響特徴量afL,s(t)とを用いて学習された単語ベクトル化モデルを、さらに、単語を示すベクトルと、その単語に対応する音声データであって、音声合成用の音声データの音響特徴量とを用いて再学習されたものである、
     音声合成装置。
  5.  学習用テキストデータに含まれる単語yL,s(t)を示すベクトルwL,s(t)と、前記学習用テキストデータに対応する音声データの音響特徴量であって前記単語yL,s(t)に対応する音響特徴量afL,s(t)とを用いて、単語ベクトル化モデルを学習する学習ステップを含み、前記単語ベクトル化モデルは単語を示すベクトルを入力とし、その単語に対応する音声データの音響特徴量を出力とするニューラルネットワークを含み、前記単語ベクトル化モデルは何れかの中間層の出力値を単語ベクトルとするモデルである、
     単語ベクトル化モデル学習装置が実行する単語ベクトル化モデル学習方法。
  6.  請求項5の単語ベクトル化モデル学習方法において学習された単語ベクトル化モデルを用いる単語ベクトル化方法であって、
     前記単語ベクトル化モデルを用いて、ベクトル化対象となるテキストデータに含まれる単語yo,s(t)を示すベクトルwo_1,s(t)を単語ベクトルwo_2,s(t)に変換する単語ベクトル変換ステップを含む、
     単語ベクトル化装置が実行する単語ベクトル化方法。
  7.  請求項6の単語ベクトル化方法を用いてベクトル化された単語ベクトルを用いて、合成音声データを生成する音声合成方法であって、
     ある単語の音素情報とその単語に対応する単語ベクトルとを入力とし、その単語に対する合成音声データを生成するための情報を出力するニューラルネットワークを含む音声合成モデルを用いて、前記単語yo,s(t)の音素情報と前記単語ベクトルwo_2,s(t)とを用いて、合成音声データを生成する合成音声生成ステップを含み、
     前記単語ベクトル化モデルは、前記ベクトルwL,s(t)と前記音響特徴量afL,s(t)とを用いて学習された単語ベクトル化モデルを、さらに、単語を示すベクトルと、その単語に対応する音声データであって、音声合成用の音声データの音響特徴量とを用いて再学習されたものである、
     音声合成装置が実行する音声合成方法。
  8.  請求項1若しくは請求項2の単語ベクトル化モデル学習装置、または、請求項3の単語ベクトル化装置、または、請求項4の音声合成装置として、コンピュータを機能させるためのプログラム。
PCT/JP2018/004995 2017-02-15 2018-02-14 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム WO2018151125A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018568548A JP6777768B2 (ja) 2017-02-15 2018-02-14 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム
US16/485,067 US20190362703A1 (en) 2017-02-15 2018-02-14 Word vectorization model learning device, word vectorization device, speech synthesis device, method thereof, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-025901 2017-02-15
JP2017025901 2017-02-15

Publications (1)

Publication Number Publication Date
WO2018151125A1 true WO2018151125A1 (ja) 2018-08-23

Family

ID=63169325

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/004995 WO2018151125A1 (ja) 2017-02-15 2018-02-14 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム

Country Status (3)

Country Link
US (1) US20190362703A1 (ja)
JP (1) JP6777768B2 (ja)
WO (1) WO2018151125A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110266675A (zh) * 2019-06-12 2019-09-20 成都积微物联集团股份有限公司 一种基于深度学习的xss攻击自动化检测方法
CN110288081A (zh) * 2019-06-03 2019-09-27 北京信息科技大学 一种基于fw机制及lstm的递归网络模型及学习方法
CN110427608A (zh) * 2019-06-24 2019-11-08 浙江大学 一种引入分层形声特征的中文词向量表示学习方法
JP2020056982A (ja) * 2018-09-30 2020-04-09 アイフライテック カンパニー,リミテッド 音声評価方法、装置、機器及び読み取り可能な記憶媒体
JP2021012315A (ja) * 2019-07-08 2021-02-04 日本電信電話株式会社 学習装置、推定装置、推定方法、およびプログラム
CN112352275A (zh) * 2018-12-13 2021-02-09 微软技术许可有限责任公司 具有多级别文本信息的神经文本到语音合成
JP2021056326A (ja) * 2019-09-27 2021-04-08 Kddi株式会社 音声合成装置、方法及びプログラム
CN113326310A (zh) * 2021-06-18 2021-08-31 立信(重庆)数据科技股份有限公司 基于nlp的调研数据标准化方法及系统

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111566655B (zh) * 2018-01-11 2024-02-06 新智株式会社 多种语言文本语音合成方法
US10741169B1 (en) * 2018-09-25 2020-08-11 Amazon Technologies, Inc. Text-to-speech (TTS) processing
US10872601B1 (en) * 2018-09-27 2020-12-22 Amazon Technologies, Inc. Natural language processing
US11141669B2 (en) * 2019-06-05 2021-10-12 Sony Corporation Speech synthesizing dolls for mimicking voices of parents and guardians of children
US11238865B2 (en) * 2019-11-18 2022-02-01 Lenovo (Singapore) Pte. Ltd. Function performance based on input intonation
US11302300B2 (en) * 2019-11-19 2022-04-12 Applications Technology (Apptek), Llc Method and apparatus for forced duration in neural speech synthesis
KR102140976B1 (ko) * 2020-03-30 2020-08-04 (주)위세아이텍 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 피처를 추출하는 장치 및 방법
CN111985209B (zh) * 2020-03-31 2024-03-29 北京来也网络科技有限公司 结合rpa和ai的文本语句识别方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62111296A (ja) * 1985-08-20 1987-05-22 ブリティッシュ・テクノロジー・グループ・リミテッド 音声認識方法およびその装置
JPH09212197A (ja) * 1996-01-31 1997-08-15 Just Syst Corp ニューラルネットワーク
JP2016134169A (ja) * 2015-01-19 2016-07-25 三星電子株式会社Samsung Electronics Co.,Ltd. 言語モデル学習方法及び装置、言語認識方法及び装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101578659B (zh) * 2007-05-14 2012-01-18 松下电器产业株式会社 音质转换装置及音质转换方法
JP5777178B2 (ja) * 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
US9934775B2 (en) * 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US11069335B2 (en) * 2016-10-04 2021-07-20 Cerence Operating Company Speech synthesis using one or more recurrent neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62111296A (ja) * 1985-08-20 1987-05-22 ブリティッシュ・テクノロジー・グループ・リミテッド 音声認識方法およびその装置
JPH09212197A (ja) * 1996-01-31 1997-08-15 Just Syst Corp ニューラルネットワーク
JP2016134169A (ja) * 2015-01-19 2016-07-25 三星電子株式会社Samsung Electronics Co.,Ltd. 言語モデル学習方法及び装置、言語認識方法及び装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020056982A (ja) * 2018-09-30 2020-04-09 アイフライテック カンパニー,リミテッド 音声評価方法、装置、機器及び読み取り可能な記憶媒体
CN112352275A (zh) * 2018-12-13 2021-02-09 微软技术许可有限责任公司 具有多级别文本信息的神经文本到语音合成
EP3895157A4 (en) * 2018-12-13 2022-07-27 Microsoft Technology Licensing, LLC NEURONAL TEXT-TO-Speech SYNTHESIS WITH MULTI-LEVEL TEXTUAL INFORMATION
CN110288081A (zh) * 2019-06-03 2019-09-27 北京信息科技大学 一种基于fw机制及lstm的递归网络模型及学习方法
CN110266675A (zh) * 2019-06-12 2019-09-20 成都积微物联集团股份有限公司 一种基于深度学习的xss攻击自动化检测方法
CN110266675B (zh) * 2019-06-12 2022-11-04 成都积微物联集团股份有限公司 一种基于深度学习的xss攻击自动化检测方法
CN110427608A (zh) * 2019-06-24 2019-11-08 浙江大学 一种引入分层形声特征的中文词向量表示学习方法
JP2021012315A (ja) * 2019-07-08 2021-02-04 日本電信電話株式会社 学習装置、推定装置、推定方法、およびプログラム
JP7093081B2 (ja) 2019-07-08 2022-06-29 日本電信電話株式会社 学習装置、推定装置、推定方法、およびプログラム
JP2021056326A (ja) * 2019-09-27 2021-04-08 Kddi株式会社 音声合成装置、方法及びプログラム
JP7162579B2 (ja) 2019-09-27 2022-10-28 Kddi株式会社 音声合成装置、方法及びプログラム
CN113326310A (zh) * 2021-06-18 2021-08-31 立信(重庆)数据科技股份有限公司 基于nlp的调研数据标准化方法及系统

Also Published As

Publication number Publication date
JPWO2018151125A1 (ja) 2019-12-12
JP6777768B2 (ja) 2020-10-28
US20190362703A1 (en) 2019-11-28

Similar Documents

Publication Publication Date Title
JP6777768B2 (ja) 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム
US11929059B2 (en) Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature
US11373633B2 (en) Text-to-speech processing using input voice characteristic data
Van Den Oord et al. Wavenet: A generative model for raw audio
Oord et al. Wavenet: A generative model for raw audio
Veaux et al. Intonation conversion from neutral to expressive speech
KR20190085883A (ko) 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
Jemine Real-time voice cloning
CN113470662A (zh) 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配
US11763797B2 (en) Text-to-speech (TTS) processing
CN111640418B (zh) 一种韵律短语识别方法、装置及电子设备
KR20230043084A (ko) 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
EP2070084A2 (en) Prosody conversion
CN105654940B (zh) 一种语音合成方法和装置
Jothilakshmi et al. Large scale data enabled evolution of spoken language research and applications
Bhatt et al. Continuous speech recognition technologies—a review
Suyanto et al. End-to-End speech recognition models for a low-resourced Indonesian Language
JP7357518B2 (ja) 音声合成装置及びプログラム
Ajayi et al. Systematic review on speech recognition tools and techniques needed for speech application development
Louw Neural speech synthesis for resource-scarce languages
Kamath et al. Automatic Speech Recognition
Hemakumar et al. Speaker Independent Isolated Kannada Word Recognizer
US20230018384A1 (en) Two-Level Text-To-Speech Systems Using Synthetic Training Data
Manjunath et al. Improvement of phone recognition accuracy using source and system features

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18754590

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018568548

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18754590

Country of ref document: EP

Kind code of ref document: A1