WO2015079885A1 - 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム - Google Patents

統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム Download PDF

Info

Publication number
WO2015079885A1
WO2015079885A1 PCT/JP2014/079490 JP2014079490W WO2015079885A1 WO 2015079885 A1 WO2015079885 A1 WO 2015079885A1 JP 2014079490 W JP2014079490 W JP 2014079490W WO 2015079885 A1 WO2015079885 A1 WO 2015079885A1
Authority
WO
WIPO (PCT)
Prior art keywords
dnn
learning
speaker
layer
hidden layer
Prior art date
Application number
PCT/JP2014/079490
Other languages
English (en)
French (fr)
Inventor
繁樹 松田
ルー・シュガン
Original Assignee
独立行政法人情報通信研究機構
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 独立行政法人情報通信研究機構 filed Critical 独立行政法人情報通信研究機構
Priority to EP14866448.5A priority Critical patent/EP3076389A4/en
Priority to CN201480063686.7A priority patent/CN105745700B/zh
Priority to US15/031,449 priority patent/US10629185B2/en
Publication of WO2015079885A1 publication Critical patent/WO2015079885A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • G10L15/075Adaptation to the speaker supervised, i.e. under machine guidance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Definitions

  • the present invention relates to a deep neural network (hereinafter referred to as “DNN” for the sake of brevity) used for recognition technology such as speech recognition, and in particular, the learning efficiency of DNN for a specific object. It relates to technology to improve.
  • DNN deep neural network
  • DNN is attracting attention as a method of machine learning.
  • DNN has been applied to, for example, image recognition and voice recognition, and it has been reported that it exhibits excellent performance such as an error rate being reduced by 20 to 30% compared to before (Non-Patent Documents 1 to 4). 3).
  • the DNN is a neural network having more layers than before.
  • the DNN includes an input layer, an output layer, and a plurality of hidden layers provided between the input layer and the output layer.
  • the input layer has a plurality of input nodes (neurons).
  • the output layer has as many neurons as the number of objects to be identified.
  • Each hidden layer has multiple neurons.
  • Information propagates in order from the input layer to the hidden layer, and finally an output is obtained at the output node. From this mechanism, the number of nodes included in the output node tends to be larger than that of other layers.
  • acoustic model For example, in speech recognition, machine learning of an acoustic model is performed using speech data with phoneme labels. Furthermore, a language model is prepared by taking statistics of the appearance frequency of words or word strings in the corpus in advance. Using the acoustic model and the language model, statistical speech recognition processing is performed on the input speech, and a character string having a high likelihood of generating the input speech is output as a recognition result.
  • SAT Sounder Adaptive Training
  • HMM Hidden Markov Model
  • SAT-HMM This type of HMM is called SAT-HMM.
  • DNN-HMM A speech recognition method using HMM that uses DNN instead of GMM in this way is hereinafter referred to as “DNN-HMM”. Since DNN is known to have high discrimination power, it is expected that DNN-HMM can provide high recognition accuracy.
  • Non-patent document 5 shows an example of speaker adaptation using such a DNN.
  • initialized DNN 30 for the acoustic model voice data 40 composed of the voice of a specific speaker, and Prepare.
  • DNN 30 includes an input layer 42, an output layer 54, and hidden layers 44, 46, 48, 50, and 52.
  • the DNN 30 adapted to the speaker is obtained by learning the entire DNN 30 using the voice data 40 thus prepared.
  • DNN 30 is learned using speaker-independent speech data 40 consisting of speech data of a large number of speakers as learning data, and a speaker-independent acoustic model is created.
  • speaker-independent voice data 40 instead of the speaker-independent voice data 40, speaker-specific voice data 60 for a specific speaker is prepared.
  • the hidden layer for example, hidden layer 46 for speaker adaptation among DNN30 is determined.
  • the hidden layer 46 is adapted by the voice data 60 of the specific speaker.
  • An acoustic model adapted to a specific speaker can be obtained by using the DNN 30 that has performed such learning in place of the GMM in the conventional HMM.
  • the layers other than the hidden layer 46 are fixed as they are when the speaker-independent learning is performed. Therefore, in speaker adaptation, it is necessary to absorb differences in acoustic characteristics between speakers only by the hidden layer 46. For this purpose, if there is not enough voice data of a specific speaker, there is a problem that DNN cannot be learned accurately. That is, even if the conventional SAT-HMM technology is simply applied to DNN, there is a problem that it is difficult to increase the accuracy of speech recognition efficiently.
  • an object of the present invention is to perform adaptation efficiently and improve accuracy when adapting an acoustic model using DNN using learning data obtained under specific conditions. It is intended to provide a statistical acoustic model adaptation method that can be performed, and an acoustic model learning method suitable for statistical acoustic model adaptation.
  • the adaptation method according to the first aspect of the present invention is an adaptation method of a statistical acoustic model for speech recognition with respect to a specific condition (for example, speech data of a specific speaker or speech data under a specific noise).
  • DNN is used for this acoustic model.
  • the DNN includes three or more layers.
  • a first computer-readable storage device stores speech data under a plurality of conditions separately, and a computer prepares a plurality of hidden layer modules according to a plurality of conditions. And the computer switches and selects the utterance data under a plurality of conditions, and dynamically replaces a specific layer in the plurality of layers with a hidden layer module corresponding to the selected utterance data.
  • the adaptive method further includes a step of performing DNN condition-independent learning with a large amount of speech data without distinction of speech conditions and a step of performing condition-independent learning prior to the step of the computer performing learning.
  • the step of replacing includes a step of copying the hidden layer parameter stored in the third storage device to the parameter of the specific layer of the DNN that has been learned in the step of performing preliminary learning.
  • the acoustic model learning method is an acoustic model learning method suitable for adaptation of a statistical acoustic model for speech recognition under specific conditions.
  • DNN is used for this acoustic model.
  • the DNN includes three or more layers.
  • a first computer-readable storage device stores utterance data under a plurality of conditions separately, and a computer prepares a plurality of hidden layer modules according to a plurality of conditions. Steps and the computer switch all the utterance data under a plurality of conditions, and dynamically replace a specific layer in the plurality of layers with a hidden layer module corresponding to the selected utterance data.
  • Performing preparatory learning for each layer and storing, in a storage medium, parameters of a layer other than the specific layer of the DNN that has completed learning in the step of performing preparatory learning.
  • the learning method further includes a step of performing DNN condition-independent learning with a large amount of speech data without distinction of speech conditions and a step of performing condition-independent learning prior to the step of the computer performing learning. And adding the hidden layer parameters of the specific layer of the DNN after learning to the storage medium.
  • a storage medium is a storage medium storing parameters for constructing a DNN for learning an acoustic model suitable for adaptation of a statistical acoustic model for speech recognition under specific conditions. is there.
  • the parameters stored in the storage medium are for constructing a DNN including a plurality of layers of three or more.
  • the storage medium further fixes the parameters of the layers other than the specific layer of the DNN constructed using the parameters stored in the storage medium, and learns the DNN using the audio data, whereby the specific layer of the DNN A program for learning only is stored. This specific layer is determined in advance corresponding to the DNN stored in the storage medium.
  • a computer program according to the fourth aspect of the present invention is a computer program for adapting a statistical acoustic model for speech recognition under specific conditions.
  • DNN is used for the acoustic model.
  • the DNN includes three or more layers.
  • the computer program stores, in the computer, utterance data under a plurality of conditions separately from a computer-readable first storage device, and a step of preparing a hidden layer module according to a plurality of conditions according to the plurality of conditions While switching and selecting utterance data under a plurality of conditions, a specific layer in the plurality of layers is dynamically replaced with a hidden layer module corresponding to the selected utterance data, and all layers of the DNN
  • FIG. 1 It is a figure for demonstrating the structure of the apparatus for implement
  • FIG. It is a figure which shows the result of the experiment conducted according to embodiment of this invention with a table type compared with the result of a prior art.
  • it is a flowchart showing a control structure of a program for learning DNN constituting an acoustic model suitable for speaker adaptation.
  • It is an external view of the computer system which performs the learning process of DNN which concerns on embodiment.
  • the same reference numerals are assigned to the same parts. Therefore, detailed description thereof will not be repeated.
  • the following embodiment mainly relates to an example relating to adaptation under the condition of a specific speaker in speech recognition, but the present invention is not limited to such an embodiment.
  • the present invention can be applied to adaptation to a noise environment.
  • speaker adaptation layer when preparing a DNN for a speaker-independent acoustic model, it is assumed that speaker adaptation is performed in advance using a specific layer (hereinafter referred to as “speaker adaptation layer”). And Based on this assumption, preparatory learning of parameters of layers other than the speaker adaptation layer is performed so that speaker adaptation to the speaker adaptation layer performed later can be performed efficiently. Specifically, it is as follows.
  • the speaker independent DNN 30 is learned using all the utterance data by the method shown in FIG.
  • DNN is normally initialized using Restricted Boltmann Machine (RBM).
  • RBM Restricted Boltmann Machine
  • CE cross-entropy
  • EBP error back propagation
  • the DNN 30 is basically a normal multilayer perceptron network. Each node of DNN 30 is provided with a connection weight and a bias. In the following description, it is assumed that the DNN 30 has seven layers. That is, the DNN 30 includes the input layer 42 and the output layer 54, and the five hidden layers 44, 46, and 48 disposed between the input layer 42 and the output layer 54 as described in the section of the problem to be solved by the invention. , 50 and 52.
  • connection weight of the nodes of the t- th layer L t and the previous t ⁇ 1-th layer L t ⁇ 1 is set to W t in a matrix format.
  • W SI t the weight matrix between the t- th layers L t and L t ⁇ 1 of the speaker-independent DNN 30 obtained by learning by EBP is written as “W SI t ” in this specification.
  • An HMM speech recognition method using a speaker-independent DNN such as DNN30 will be referred to as SI DNN-HMM in the following description.
  • SI means speaker independence. The same applies to the following description.
  • the DNN 80 is basically also a normal multilayer perceptron network. Each node of DNN 80 is given a connection weight and a bias.
  • the DNN 80 has seven layers similar to the DNN 30. That is, the DNN 80 includes an input layer 42 and an output layer 54, a hidden layer 44, a speaker module switching unit 110, and hidden layers 48, 50 and 52 arranged between the input layer 42 and the output layer 54. The output of the hidden layer 44 is connected to the input of the speaker module switching unit 110.
  • the output of the speaker module switching unit 110 is connected to the input of the hidden layer 48.
  • a speaker selection unit 100 that selectively extracts data of a specific speaker from the voice data 90, 92,. It has been.
  • the input layer 42, the hidden layers 44, 48, 50, and 52, and the output layer 54 are obtained by copying the parameters of the corresponding layer of the DNN 30.
  • the speaker module switching unit 110 includes speaker-specific modules 112, 114,..., 118, and 120 that constitute hidden layers corresponding to the speakers of the voice data 90, 92,.
  • an input selection unit 102 that couples the input of the speaker-specific modules 112, 114,..., 118, and 120 corresponding to the selected speaker to the output of the hidden layer 44;
  • the output of the speaker-specific modules 112, 114,..., 118 and 120 corresponding to the selected speaker is coupled to the input of hidden layer 48.
  • Output selection unit 104 is included in response to the selection of the speaker.
  • Each of the speaker-specific modules 112, 114,..., 118, and 120 has the same configuration as the hidden layer 44 and the like, and in this embodiment, each is obtained by copying W SI 2 to each weight matrix. A thing was used. That is, the parameters of the hidden layer 46 when the learning of the DNN 30 in FIG. 1 is completed are used.
  • the input layer 42 and the hidden layer are used while appropriately selecting and switching the speaker-specific modules 112, 114,..., 118 and 120 according to the speakers using voice data of a plurality of speakers. 44, the speaker module switching unit 110, the hidden layers 48, 50 and 52, and the output layer 54 can be learned. In this embodiment, EBP learning is also used at this time. However, since the number of bits of data representing voice data is usually limited, there is a risk of overlearning. Therefore, in this embodiment, restrictions are imposed to avoid overlearning. This restriction will be described later.
  • the input layer 42 and the hidden layer 44 are used.
  • the learning of the hidden layers 48, 50 and 52 and the output layer 54 is completed.
  • This learning is called preparatory learning in the present embodiment.
  • the purpose of the preparatory learning is not to learn the speaker specific modules 112, 114,..., 118 and 120, but the input layer 42 and the hidden layers 44, 48, 50 and 52 learned to be suitable for speaker adaptation.
  • the output layer 54 As shown in FIG. 4, by replacing the speaker module switching unit 110 of the DNN 80 obtained in this way with a dummy hidden layer 140, the DNN 130 for which preliminary learning has been completed is obtained.
  • This DNN 130 is suitable for speaker adaptation to the hidden layer at the position of the speaker module switching unit 110 as will be described later. Therefore, the parameters of DNN 130 are stored in the storage medium, and at the same time, a program (a program for executing the processing shown in FIG. 2) that only learns the hidden layer at the position of speaker module switching unit 110 is stored in the storage medium. Thus, data suitable for performing speaker adaptation of the DNN 130 is held in the storage medium. Note that the layer that is the target of speaker adaptation at this time is fixed to the hidden layer at the position of the speaker module switching unit 110, and it is not possible to obtain a result of performing speaker adaptation for other layers.
  • the speaker adaptation data 150 is prepared in advance.
  • the speaker adaptation data 150 includes speaker voice data 162 to be adapted and a speaker-specific adaptation module 160.
  • the adaptation module 160 has the same configuration as the speaker-specific modules 112, 114,..., 118 and 120, but corresponds to the initial value of the hidden layer before speaker adaptation.
  • the adaptation module 160 uses the hidden layer 46 at the same position as the speaker module switching unit 110 in the DNN 30 learned by the method shown in FIGS. That is, the weight matrix W mean 2 of the hidden layer 46 after the initial learning is copied to the weight matrix of the adaptation module 160.
  • “mean” means that data of all speakers is used for learning.
  • the adaptation module 160 of the DNN 130 is copied to the dummy hidden layer 140 (the weight matrix of the adaptation module 160 is copied to the weight matrix of the dummy hidden layer 140).
  • a new DNN 180 is obtained.
  • the DNN 180 before speaker adaptation obtained in this way is hereinafter referred to as a PT-SAT (Pre-Trained SAT) network.
  • parameters of the input layer 42, hidden layers 44, 48, 50 and 52, and the output layer 54 of the DNN 180 are fixed, and only the learning of the adaptation module 160 for each speaker is performed as speech data 162.
  • the learning is EBP learning using the CE loss minimization criterion as in the preparatory learning, and normalizes the voice data.
  • the DNN 180 obtained when the learning is completed becomes the DNN for the acoustic model adapted to the speaker by the voice data 162.
  • standardized EBP learning is used instead of normal learning.
  • a weight matrix W SI tSD which is an initial value for obtaining a network as shown in FIG. 3 and a network as shown in FIG.
  • the L 2 norm of the difference from the weight matrix W mean tSD which is an initial value for obtaining, and the weight matrix of the speaker-specific module are used.
  • this normalization term is introduced only into the module for each speaker and the module for adaptation.
  • the normalization term for SAT speech recognition learning is defined by the following equation (1).
  • W tSD and b tSD includes a weight matrix of t SD-th layer of the speaker-specific module, and the bias vector corresponding thereto, W mean tSD and b mean tSD the previous start of each speaker adaptation ( These are the initial values of the weight matrix and bias vector after speaker-independent learning.
  • W mean tSD and b mean tSD in equation (1) are replaced with the weight matrix of the t SD- th SI DNN and the corresponding bias vector.
  • speaker selecting unit 100 divides the audio data of audio data 90, 92,..., 98 into small fragments, and identifies information (speaker identification information) that identifies a speaker corresponding to each fragment.
  • a random selection unit 190 that selects these in a random order and combines them into one file
  • a random data storage unit 192 that stores a file output by the random selection unit 190
  • a random A data reading unit 194 that reads out the files stored in the data storage unit 192 in order from the top and outputs the speaker identification information to the input selection unit 102 and the output selection unit 104 of the speaker module switching unit 110 is included.
  • the output of the data reading unit 194 is connected to the input of the input layer 42 so that the read data is also supplied to the input layer 42.
  • the input selection unit 102 selects a module corresponding to an appropriate speaker among the speaker-specific modules 112, 114,..., 118 and 120 according to the speaker identification information from the data reading unit 194, and inputs the selected module.
  • This can be realized by a selector that connects the output of the hidden layer 44 to the output.
  • the output selection unit 104 can be realized by a selector that selects a module corresponding to an appropriate speaker among the speaker-specific modules 112, 114,..., 118 and 120 and connects the output to the input of the hidden layer 48.
  • the speaker module switching unit 110 is arranged at the position of the second hidden layer.
  • the hidden layer 44 exists between the input layer 42 and the input selection unit 102.
  • the position of the speaker module switching unit 110 can be changed, and the number of hidden layers is not limited to five. If the speaker module switching unit 110 is arranged at the position of the third hidden layer, there are two hidden layers between the input layer 42 and the input selection unit 102.
  • DNN 80 can be learned in an order that is not biased to the utterance data of one speaker at a time while randomly selecting the utterance data of each speaker. As a result, it is possible to perform preliminary learning of the DNN 80 while minimizing the influence of the order of selection of speech data.
  • the DNN speaker adaptation apparatus described above operates as follows. Voice data 90, 92,..., 98 of a plurality of speakers and a hidden layer 46 of the speaker-independent DNN 30 learned by the method shown in FIG.
  • this speaker adaptation apparatus operates as follows prior to the preparatory learning.
  • the random selection unit 190 divides the speech data 90, 92,... 98 into small fragments, and adds speaker identification information to each fragment. Further, the random selection unit 190 rearranges a large number of pieces of the utterance data prepared in this way in a random order and writes them into the random data storage unit 192 as one file.
  • the data reading unit 194 shown in FIG. 6 reads out pieces of speech data in order from the top of the random data storage unit 192, and the speaker identification information is input to the input selection unit 102 and the output selection unit. 104.
  • the input selection unit 102 selects a module corresponding to the speaker identification information among the speaker specific modules 112, 114,..., 118 and 120 according to the speaker identification information, and the output of the hidden layer 44 is selected. Connect to the hidden layer input.
  • the output selection unit 104 selects a module corresponding to the speaker identification information from among the speaker-specific modules 112, 114,..., 118 and 120 in accordance with the speaker identification information from the data reading unit 194. Connect the output to the input of the hidden layer 48.
  • the data reading unit 194 performs learning of the DNN 80 across all layers using the data read from the random data storage unit 192.
  • the data reading unit 194 When learning by the fragment read by the data reading unit 194 is completed, the data reading unit 194 reads the next fragment from the random data storage unit 192, and executes the above-described process again using the fragment.
  • the DNN 130 shown in FIG. 4 is obtained by replacing the speaker module switching unit 110 of the DNN 80 with a dummy hidden layer 140.
  • the DNN 130 prepared in this way and the adaptation module 160 obtained by copying the parameters of the hidden layer 46 from the DNN 30 (FIG. 1) previously learned as a speaker-independent DNN form one set.
  • these and a program for performing conventional learning as shown in FIG. 2 are distributed as a product. If a program such as that shown in FIG. 2 is readily available, distribution without this program can also be performed.
  • the layers to be applied are fixed, and it is meaningless to use other layers as the objects to be applied.
  • a user who wants to construct an acoustic model based on DNN adapted to a speaker obtains DNN 130 for which preliminary learning has been completed, an adaptation module 160 as an initial value, and a program for performing learning as shown in FIG.
  • the dummy hidden layer 140 of the DNN 130 is replaced with an adaptation module 160.
  • the weight matrix of the adaptation module 160 is copied to the weight matrix of the dummy hidden layer 140.
  • voice data 162 of a specific speaker that is a target of speaker adaptation is prepared, and the apparatus is set so that the voice data 162 is given to the input of the DNN 130.
  • the parameters of the input layer 42, the hidden layers 44, 48, 50, and 52 and the output layer 54 are fixed, the utterance data is read in order, and the utterance data is used as learning data. Only the adaptation module 160 is learned.
  • the DNN 180 after learning obtained as a result is adapted for the speaker of the speech data 162, and the acoustic model using the DNN 180 is an acoustic model adapted for the speaker.
  • the learning data consisted of utterance data of 300 speakers. Each speaker's utterance data was about 30 minutes long. The total time of learning data was about 150 hours.
  • the evaluation data consisted of 8 speakers' data. None of the speakers of evaluation data were speakers of learning data. This evaluation data was used to determine the optimum values (indicating a high recognition rate for the evaluation data itself) of DNN hyperparameters (learning rate for CE loss minimization, normalization rate, etc.).
  • test data consisted of 28 speakers. This data is used as a test data set of IWSLT 2013. All of these speakers were different from the learning data speakers and the evaluation data speakers.
  • SI-DNN employs a simple 7-layer DNN, and after all networks are initialized by RBM learning, learning is performed by minimizing CE loss using learning data.
  • SA-DNN is an adaptation of one hidden layer of SI-DNN using one utterance data selected from 28 test data speakers.
  • This hidden layer is the same layer as the hidden layer adapted to the speaker by SAT-DNN.
  • utterance data is divided into four subgroups for each speaker targeted for speaker adaptation, and a recognition result is obtained by adopting a four-way cross-confirmation (CV) method. It was. In this CV method, one subgroup is used for the test, and the remaining three subgroups are used as learning data to obtain recognition accuracy. Further, this is performed four times by changing the subgroup for the test, and the recognition is performed four times. The average accuracy was taken as the final recognition accuracy.
  • SAT-DNN As described above, for SAT-DNN, first, learning similar to SI-DNN was performed, and initial values of hidden layers for speaker adaptation were prepared. Next, the same number (300) of speaker-specific modules as the number of speakers of learning data were prepared. Next, with the configuration shown in FIGS. 3 and 6, DNN preparatory learning was performed using these speaker-specific modules. Thereafter, speaker adaptation was performed with the configuration shown in FIGS. 4 and 5 for one speaker to be selected selected from the 28 test speakers.
  • Equation (1) was applied to the update of the weight and bias of the hidden layer 140, and W mean lsd and b mean lsd were changed to W SI lsd and b SI lsd , respectively.
  • ⁇ ⁇ Voice data was first converted into a series of acoustic feature vectors. Each vector was calculated by a Hamming window with a length of 20 milliseconds and a shift interval of 10 milliseconds.
  • the acoustic feature vector has 39 dimensions, and its elements are 12 MFCCs (Mel-scale Frequency Cepstrum Coefficient), logarithmic power, 12 differential MFCCs, differential logarithmic power, and 12 secondary differential MFCCs. And secondary differential log power.
  • this 429-dimensional vector is a concatenation of a total of 11 acoustic feature vectors, five immediately before the Hamming window, five within the Hamming window, and five immediately after the Hamming window. Equivalent to. Each element of this vector was normalized so that its mean and variance were 0 and 1, respectively.
  • HMMs used a 4-gram language model.
  • This language model includes TED lectures, news commentary, and English Gigaword (H. Yamamoto, Y. Wu, C. LHuang, X. Lu, PRDixon, S. Matsuda, C. Hori, and H. Kashioka, “The NICT ASR System for IWSLT2012, “in Proceedings of IWSLT2012, 2012.”
  • Boosted MMI maximum mutual information
  • DNN used for speech recognition has 429 input nodes, 4909 output nodes, and 512 nodes for each hidden layer. There are seven layers, and in both SA-DNN and SAT-DNN, one of the five hidden layers is used for speaker adaptation, and the selected layer is changed from the first hidden layer to the last hidden layer. We examined the effect of layer selection in speaker adaptation by changing to different layers.
  • DNN learning it is sometimes necessary to finely adjust the learning rate. Therefore, at each repetition stage of learning, the following learning rate is adjusted based on the recognition accuracy for the evaluation data.
  • the learning rate was kept the same as the previous iteration stage (epoch). In other cases, the learning rate is updated to half of the previous time, and the network parameters (weight, etc.) are the ones with the lowest error rate in the previous learning epoch, and learning for them is updated. Resume using the learning rate.
  • learning is started with an initial value of the learning rate of 0.004 and 20 times (equivalent to 20 epochs) Iterated using update rules.
  • the initial value of the learning rate is 0.004
  • the number of epochs is 20, and the constraint coefficient is 0.1.
  • the learning rate was fixed to a value determined based on the recognition accuracy for the evaluation data.
  • the learning rate for speaker adaptation of the SA-DNN speech recognition apparatus was 0.005
  • the learning rate for speaker adaptation of the SAT-DNN speech recognition apparatus was 0.001.
  • These speaker adaptation processes were repeated 10 times with a constraint coefficient of 0.1. This constraint coefficient is also determined based on the recognition accuracy for the evaluation data.
  • FIG. 7 shows the evaluation of the performance of the four speech recognition apparatuses based on the word error rate.
  • SA-DNN and SAT-DNN are average word error rates obtained by the CV method described above.
  • the leftmost column shows the numbers of hidden layers targeted for speaker adaptation. 1 corresponds to the hidden layer 44 in FIG. 1, 2 corresponds to the hidden layer 46, and so on, and 5 corresponds to the hidden layer 52. Since SI-DNN has no speaker adaptation layer, the same value (26.4%) is shown in any case.
  • the SAT-DNN phonetic device achieved the lowest word error rate (18%). This figure is 8.4 points lower than the baseline SI-DNN value. According to the results of SA-DNN, it can be seen that a low word error rate of 18.7 to 20.0% can be obtained even with simple speaker adaptation to SI-DNN. This is a numerical value 6.4 to 7.7 points lower than the value according to SI-DNN. However, comparing the results for SAT-DNN with the results for SA-DNN, it can be clearly seen that SAT-DNN gives better results. Regardless of which layer is targeted for speaker adaptation, a better result than the numerical value obtained by SA-DNN with the same layer as the subject of speaker adaptation is obtained.
  • the result of PT-SAT-DNN has a slightly higher word error rate than SI-DNN. Therefore, it cannot be used as it is.
  • the PT-SAT-DNN is effective for obtaining the SAT-DNN. You can think of it as a starting platform.
  • the PT-SAT-DNN is prepared by a speech recognition device or software vendor, the initial module of the specific hidden layer that is subject to speaker adaptation, and its Providing a set of products stored in a storage medium with PT-SAT-DNN, which incorporates an initial module into a specific hidden layer, and learning software for only the initial module, it is possible for users to adapt to the speaker.
  • a speech recognition apparatus that can perform processing efficiently and has excellent performance can be obtained.
  • the table of FIG. 7 also shows that the lowest word error rate was obtained when the layer targeted for speaker adaptation was the third hidden layer in both SA-DNN and SAT-DNN. . Although it cannot be said immediately from this result, it seems that the effect of speaker adaptation becomes higher as the layer targeted for speaker adaptation is closer to the center of the hidden layer. From this result, DNN extracts some acoustic features necessary for speech recognition from the input in the part close to the input layer and transmits it to the upper layer, and by appropriately performing speaker adaptation, It can be inferred that the nodes that process the feature information for each speaker seem to be concentrated in the hidden layer near the center, and that speaker-independent linguistic processing is mainly performed near the output device.
  • the above-mentioned speaker adaptation method in speech recognition by SAT-DNN can be applied to a specific method such as speech recognition in a specific noise environment and communication channel adaptation in a specific communication path. It is considered that the present invention can be effectively applied to recognition using DNN under conditions.
  • the above-described DNN learning apparatus can be realized by computer hardware and a computer program cooperating with the computer hardware.
  • programs for performing SI DNN learning and DNN speaker adaptation shown in FIG. 5 programs for executing the processes shown in FIGS. 1 and 2 can be used.
  • the control structure of the program that realizes the configuration shown in FIG. 6 will be described below.
  • this program when this program is started, it first performs initialization processing such as initialization of storage areas, opening of audio data 90, 92,..., 98 and output files in random data storage unit 192. Performing step 220, dividing each of the audio data 90, 92,..., 98 into divided data composed of small pieces, and adding speaker identification information corresponding to each divided data; Step 224 of connecting in order and writing as a file in the random data storage unit 192, and step 226 of reading the divided data in order from the file written in the random data storage unit 192 and executing the following processing for each data Including.
  • initialization processing such as initialization of storage areas, opening of audio data 90, 92,..., 98 and output files in random data storage unit 192.
  • Step 226 is a step of selecting a speaker-specific module corresponding to the speaker identification information from among the speaker-specific modules 112, 114,..., 118 and 120 in accordance with the speaker identification information included in the read divided data. 228 and step 230 of performing a learning process across all layers of the formed DNN 80.
  • the preparatory learning of DNN 80 is completed by performing the process of step 226 on all the divided data.
  • This program closes all the files opened in step 220, releases all the memory secured in step 220 and subsequent processing, and terminates execution. Thereafter, by replacing the speaker module switching unit 110 of the DNN 80 with a dummy hidden layer 140, the DNN 130 having completed the preliminary learning is obtained.
  • FIG. 9 shows an external appearance of a computer system 930 that executes a computer program for realizing the above-described DNN learning and speaker adaptation
  • FIG. 10 shows an internal configuration of the computer system 930.
  • the computer system 930 includes a computer 940 having a memory port 952 and a DVD (Digital Versatile Disc) drive 950, a keyboard 946, a mouse 948, and a monitor 942.
  • a computer 940 having a memory port 952 and a DVD (Digital Versatile Disc) drive 950, a keyboard 946, a mouse 948, and a monitor 942.
  • DVD Digital Versatile Disc
  • the computer 940 boots up with a CPU (Central Processing Unit) 956, a bus 966 connected to the CPU 956, the memory port 952, and the DVD drive 950.
  • a read only memory (ROM) 958 that stores programs and the like, and a random access memory (RAM) 960 that is connected to the bus 966 and stores program instructions, system programs, work data, and the like.
  • the computer system 930 further includes a network interface (I / F) 944 that provides a connection to a network that enables communication with other terminals.
  • I / F network interface
  • a computer program for causing the computer system 930 to function as each functional unit of the system of the above-described embodiment is stored in the DVD drive 950 or the DVD 962 or the removable memory 964 attached to the memory port 952, and further transferred to the hard disk 954.
  • the program may be transmitted to the computer 940 through a network (not shown) and stored in the hard disk 954.
  • the program is loaded into the RAM 960 when executed.
  • the program may be loaded directly into the RAM 960 from the DVD 962, from the removable memory 964, or via a network.
  • This program includes an instruction sequence including a plurality of instructions for causing the computer 940 to function as each functional unit of the system according to the above-described embodiment.
  • Some of the basic functions required to perform this operation are dynamically performed at runtime by an operating system or third party program running on the computer 940, or various programming toolkits or program libraries installed on the computer 940. May be provided. Therefore, this program itself does not necessarily include all functions necessary for realizing the system and method of this embodiment.
  • This program is described above by dynamically calling the appropriate function or programming tool in the programming toolkit from within the computer storage in a controlled manner to achieve the desired result. It only needs to include an instruction for realizing a function as a system. Of course, all necessary functions may be provided only by the program.
  • learning data, parameters of each network, and the like are stored in the RAM 960 or the hard disk 954.
  • the network parameters may be further stored in a removable memory 964 such as a USB memory or a DVD 962, or may be transmitted to another computer via a communication medium such as a network.
  • the embodiment described above relates to speaker adaptation in speech recognition.
  • the present invention is not applicable only to speaker adaptation.
  • the present invention can be similarly applied to speech recognition under a specific noise environment.
  • any layer of DNN is determined in advance to be adapted to the noise environment.
  • Voices under various noise environments are collected and used as individual learning data for each type of noise environment.
  • a noise-specific module is prepared for each noise environment, and these noise-specific modules can be switched in a specific layer of DNN.
  • DNN learning is performed while switching the noise-specific modules in accordance with the type of noise environment of the learning data, similarly to the speech data described in the above embodiment.
  • the DNN preliminary learning is completed.
  • speech data under the noise environment to be adapted is prepared as learning data.
  • An initial module prepared in some form is set in the specific layer of the DNN that has undergone preliminary learning.
  • the parameters of layers other than the specific layer are fixed, and DNN learning is executed using the learning data.
  • the DNN obtained as a result of this learning can be suitably applied to an HMM for speech recognition in a noise environment to be adapted.
  • the present invention is not limited to such an embodiment. Theoretically, there may be two or more modules to be applied. There is no need to place these modules in successive layers. Furthermore, the position of the module to be applied is not limited to the hidden layer. The present invention can also be applied to the adaptation of the input layer or the output layer.
  • the above embodiment relates to an acoustic model for calculating the state output probability of the HMM using DNN.
  • the DNN adaptation method according to the present invention is not limited to such a method.
  • the present invention can also be applied to speaker adaptation in the case where acoustic analysis is performed using DNN and GMM-HMM learning similar to the conventional one is performed using the result, as in the above embodiment.
  • the present invention is applicable to a device and a service for assisting communication using a language between a person and a person or a person and a machine, and in particular, speech recognition for a specific speaker's utterance, a specific noise environment
  • the present invention can be applied to communication assisting devices and services that can improve recognition accuracy under specific conditions such as voice recognition below or adaptation of communication channels in specific communication paths.
  • DNN 40 60, 90, 92, 96, 98, 162 Audio data 42 Input layer 44, 46, 48, 50, 52 Hidden layer 54 Output layer 100 Speaker selection unit 102 Input selection unit 104 Output selection unit 110 Speaker module switching Units 112, 114, 118, 120 Modules for each speaker 140 Dummy hidden layer 150 Data for speaker adaptation 160 Module for adaptation 190 Random selection unit 192 Random data storage unit 194 Data reading unit

Abstract

【課題】特定の条件の学習データを用いてDNNを用いた音響モデルの適応化を効率的に行なえ、精度も高められる統計的音響モデルの適応方法を提供する。 【解決手段】DNNを用いた音響モデルの話者適応方法において、第1の記憶装置に、異なる話者の発話データ90~98を別々に記憶するステップと、話者別の隠れ層モジュール112~120を準備するステップと、発話データ90~98を切替えて選択しながら、特定レイヤ110を、選択された発話データに対応する隠れ層モジュール112~120で動的に置換しながらDNN80の全てのレイヤ42,44,110,48,50,52,54について準備的学習を行なうステップと、準備的学習が完了したDNNの特定レイヤ110を初期隠れ層で置換するステップと、初期隠れ層以外のレイヤのパラメータを固定して、特定話者の音声データでDNNの学習を行なうステップとを含む。

Description

統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
 この発明は、音声認識等の認識技術に用いられるディープ・ニューラル・ネットワーク(以下、記載を簡略にするために「DNN」と呼ぶ。)に関し、特に、特定の対象のためのDNNの学習効率を向上させる技術に関する。
 機械学習の1手法としてDNNが注目されている。DNNは例えば、画像認識及び音声認識等に適用されており、誤り率が以前より20~30%も低下する等、優れた性能を発揮していることが報告されている(非特許文献1~3)。
 DNNとは、従来よりも多くのレイヤ(層)を持つニューラルネットワークであるといえる。具体的には、DNNは、入力層と、出力層と、入力層と出力層との間に設けられた複数の隠れ層とを含む。入力層は複数個の入力ノード(ニューロン)を持つ。出力層は、識別対象の数だけのニューロンを持つ。各隠れ層はそれぞれ複数個のニューロンを持つ。情報は入力層から隠れ層を順番に伝播し、最終的に出力ノードに出力が得られる。この仕組みから、出力ノードに含まれるノード数は他のレイヤより多くなる傾向がある。
 DNNでは、レイヤの数だけではなく、各レイヤ内のニューロン数も多い。そのために学習のための計算量が膨大な量になる。以前はそのような計算を行なうことはほとんど不可能だったが、コンピュータ自体の高機能化、分散・並列処理技術の発達及び計算理論の発展により、DNNの学習を行なうことも可能となっている。しかし、学習のために大量のデータを使用する場合、依然として学習のために長時間を要することになる。例えば非特許文献4に記載された実験では、学習データとして200ピクセル×200ピクセルの画像1千万個を用い、1,000台の16コアのコンピュータを用いたDNNの学習に3日間を要したという。
Y. Bengio, "Learning deep architectures for AI," Foundations and Trends in Machine Learning, Vol. 2, No. 1, pp. 1-127, 2009. G. Hinton, L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, and B. Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups," IEEE Signal Processing Magazine, Vol. 29, No. 6, pp. 82-97, 2012. A. Mohamed, G. Dahl, and G. Hinton, "Acoustic Modeling using Deep Belief Networks," IEEE Transactions on Audio, Speech, and Language Processing, Vol. 20, No. 1, pp. 14-22, 2012. Quoc V. Le, Marc'Aurelio Ranzato, Rajat Monga, Matthieu Devin, Kai Chen, Greg S. Corrado, Jeff Dean Andrew Y. Ng, "Building High-level Features Using Large Scale Unsupervised Learning," Proc. ICML, 2012. H.Liao,"Speaker adaptation of context dependent deep neural networks," in Proc. ICASSP, 2013, pp. 7947-7951.
 例えば音声認識では、音素ラベル付きの音声データによる音響モデルの機械学習を行なう。さらに、予めコーパス内での単語又は単語列の出現頻度の統計をとることにより言語モデルを準備する。この音響モデル及び言語モデルを用いて、入力音声に対して統計的な音声認識処理を行ない、入力音声を生ずる尤度の高い文字列を認識結果として出力する。
 音声の特徴は話者の性別・年齢によって異なるため、音響モデルは話者の性別及び年齢によって別々に作成すると高い精度が得られる。そのために、同じ性別及び同程度の年齢の話者の大量の音声データを用いて音響モデルの学習を行なう。一方、認識対象の話者が特定の話者であることが分かっている場合には、その話者の音声データのみを用いて音響モデルの学習を行なえば、理論的にはその話者に対する音声認識精度は高くなる。しかし、特定の話者の音声データを大量に集めることは難しい。統計的音声認識では、学習のために大量の音声が必要であるため、このように特定話者のみのための学習を行なうのは難しい。
 この問題を解決するために、従来のHMM(隠れマルコフモデル)による音響モデルを用いた音声認識では、SAT(Speaker Adaptive Training)と呼ばれる話者適応の手法が導入され、よい結果を得ている。通常のHMMでは、HMMの各ステートからの音響特徴量の出力確率を推定するために、GMM(Gaussian Mixure Model)を採用している。SATは、音声信号中の話者に依存する音響の変動を正規化し、GMMを含む認識用のパラメータを最適化することにより、音響モデルを話者適応させ、認識精度を高めようとする学習方法である。この方式のHMMをSAT-HMMと呼ぶ。
 一方、最近、HMMによる音声認識装置において、話者独立な音声認識のためにGMMに代えてDNNを用いることが提案されている。このようにGMMに代えてDNNを用いるHMMによる音声認識方式を、以下「DNN-HMM」と呼ぶ。DNNは識別力が高いことが知られているため、DNN-HMMにより高い認識精度が得られることが期待される。
 このようなDNNで話者適応を行なう例として非特許文献5に示すものがある。図1を参照して、非特許文献5に示す話者適応方式で話者適応をする場合、音響モデルのための、初期化されたDNN30と、特定の話者の音声からなる音声データ40とを準備する。DNN30は、入力層42、出力層54、並びに隠れ層44、46、48、50、及び52を含むものとする。このようにして準備した音声データ40で、DNN30の全体の学習を行なうことにより話者適応したDNN30が得られる。
 しかし、精度の高い音声認識結果を得るためには、特定の話者データの音声データのみでは、十分な量の学習データが得られないという問題がある。そこで、上記したSAT-HMMの考え方をDNN-HMMに適用することが考えられる。この場合には、最初に、多数の話者の発話データからなる話者独立な音声データ40を学習データとしてDNN30の学習を行ない、話者独立な音響モデルを作成する。その後、図2に示すように、話者独立な音声データ40に代えて、特定の話者の話者適応用音声データ60を準備する。さらに、DNN30のうち、話者適応のための隠れ層(例えば隠れ層46)を決める。この隠れ層以外のレイヤのパラメータを全て固定しておいて、音声データ60を用いてDNN30の学習を行なう。その結果、隠れ層46が特定話者の音声データ60により適応化される。このような学習を行なったDNN30を従来のHMM中のGMMに代えて用いることにより、特定の話者に適応した音響モデルが得られる。
 ところで、このような方法では、隠れ層46以外のレイヤについては、話者独立な学習を行なった際のパラメータのままで固定される。したがって、話者適応では、隠れ層46のみで話者による音響の特徴の違いを吸収することが必要になる。そのためには特定話者の音声データが十分にないと、やはりDNNの学習を精度よく行なうことができないという問題がある。すなわち、従来のSAT-HMMの技術をDNNに単純に適用しても、音声認識の精度を効率的に高めることが難しいという問題がある。
 こうした問題は、特定話者という条件での音声認識を行なうための音響モデル適応のときだけでなく、たとえば特定の雑音環境下という条件で音声認識を行なうことが分かっている場合に、音響モデルをその雑音環境に適応させたり、一定の音声的な特徴を共有するあるグループについての音声認識という条件での音響モデルの学習をしたりする場合にも生ずる問題である。
 それゆえに本発明の目的は、特定の条件下で得られた学習データを用いてDNNを用いた音響モデルの適応化を行なう際に、適応を効率的に行なうことができ、精度も高めることができる統計的音響モデルの適応方法、及び統計的音響モデルの適応に適した音響モデルの学習方法を提供することである。
 この発明の第1の局面に係る適応方法は、特定条件(例えば特定話者の発話データ又は特定雑音下での発話データ、等)に対する音声認識用の統計的音響モデルの適応方法である。この音響モデルにはDNNを用いている。当該DNNは3以上の複数のレイヤを含む。この方法は、コンピュータ可読な第1の記憶装置が、複数の条件での発話データを別々に記憶するステップと、コンピュータが、複数の条件に応じた複数の条件別の隠れ層モジュールを準備するステップと、コンピュータが、複数の条件での発話データを切替えて選択しながら、複数のレイヤ内の特定レイヤを、選択された発話データに対応する隠れ層モジュールで動的に置換しながらDNNの全てのレイヤについての準備的学習を行なうステップと、コンピュータが、準備的学習を行なうステップでの学習が完了したDNNの、特定レイヤを、予め準備した初期隠れ層で置換するステップと、コンピュータ可読な第2の記憶装置が、適応対象の条件下での音声データを記憶するステップと、置換するステップにより得られたDNNの、初期隠れ層以外のレイヤのパラメータを固定して、適応対象の条件下での音声データを第2の記憶装置から読み出して、DNNの学習を行なうステップとを含む。
 好ましくは、この適応方法はさらに、コンピュータが、学習を行なうステップに先立って、発話条件の区別のない大量の音声データでDNNの条件独立な学習を行なうステップと、条件独立な学習を行なうステップでの学習後のDNNの特定レイヤの隠れ層のパラメータを第3の記憶装置に記憶するステップを含む。置換するステップは、コンピュータが、準備的学習を行なうステップでの学習が完了したDNNの、特定レイヤのパラメータに、第3の記憶装置に記憶された隠れ層のパラメータをコピーするステップを含む。
 この発明の第2の局面に係る音響モデルの学習方法は、特定条件の音声認識用の統計的音響モデルの適応に適した音響モデルの学習方法である。この音響モデルにはDNNを用いている。当該DNNは3以上の複数のレイヤを含む。この学習方法は、コンピュータ可読な第1の記憶装置が、複数の条件での発話データを別々に記憶するステップと、コンピュータが、複数の条件に応じた複数の条件別の隠れ層モジュールを準備するステップと、コンピュータが、複数の条件での発話データを切替えて選択しながら、複数のレイヤ内の特定レイヤを、選択された発話データに対応する隠れ層モジュールで動的に置換しながらDNNの全てのレイヤについての準備的学習を行なうステップと、コンピュータが、準備的学習を行なうステップでの学習が完了したDNNの、特定レイヤを除くレイヤのパラメータを記憶媒体に記憶するステップとを含む。
 好ましくは、この学習方法はさらに、コンピュータが、学習を行なうステップに先立って、発話条件の区別のない大量の音声データでDNNの条件独立な学習を行なうステップと、条件独立な学習を行なうステップでの学習後のDNNの特定レイヤの隠れ層のパラメータを記憶媒体に追加して格納するステップとを含む。
 この発明の第3の局面に係る記憶媒体は、特定条件の音声認識用の統計的音響モデルの適応に適した、音響モデルの学習のためのDNNを構築するためのパラメータを記憶した記憶媒体である。当該記憶媒体に記憶されたパラメータは、3以上の複数のレイヤを含むDNNを構築するためのものである。記憶媒体はさらに、記憶媒体に記憶されたパラメータを用いて構築されたDNNの、特定レイヤ以外のレイヤのパラメータを固定して、音声データを用いてDNNの学習を行なうことにより、DNNの特定レイヤのみの学習を行なうためのプログラムを記憶している。この特定レイヤは、記憶媒体に記憶されているDNNに対応して予め定められている。
 この発明の第4の局面に係るコンピュータプログラムは、特定条件の音声認識用の統計的音響モデルの適応を行なうためのコンピュータプログラムである。音響モデルにはDNNを用いている。当該DNNは3以上の複数のレイヤを含む。コンピュータプログラムは、コンピュータに、コンピュータ可読な第1の記憶装置から、複数の条件での発話データを別々に記憶するステップと、複数の条件に応じた複数の条件別の隠れ層モジュールを準備するステップと、複数の条件での発話データを切替えて選択しながら、複数のレイヤ内の特定レイヤを、選択された発話データに対応する隠れ層モジュールで動的に置換しながらDNNの全てのレイヤについての準備的学習を行なうステップと、準備的学習を行なうステップでの学習が完了したDNNの、特定レイヤを、予め準備した初期隠れ層で置換するステップと、置換するステップで得られたDNNのパラメータを記憶媒体に記憶させるステップと、を実行させる。
話者独立な音響モデルを構成するDNNの学習過程に先行技術を適用する方法を説明するための図である。 話者独立な音響モデルを構成するDNNの学習過程に先行技術を適用する方法の次のステップを説明するための図である。 本発明の実施の形態に係るDNNの学習において、話者適応に適した音響モデルを構成するDNNの準備方法を説明するための図である。 本発明の実施の形態に係るDNNの学習方法において、話者適応のための隠れ層の学習方法を説明するための図である。 本発明の実施の形態に係るDNNの学習方法において、話者適応のための隠れ層の学習方法を説明するための図である。 図3に示す処理を実現するための装置の構成を説明するための図である。 本発明の実施の形態にしたがって行なった実験結果を先行技術の結果と対比して表形式で示す図である。 本発明の実施の形態において、話者適応に適した音響モデルを構成するDNNの学習を行なうプログラムの制御構造を示すフローチャートである。 実施の形態に係るDNNの学習処理を実行するコンピュータシステムの外観図である。 図9に示すコンピュータの内部構成を示すブロック図である。
 以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。なお、以下の実施の形態は主に音声認識における、特定話者という条件での適応に関する例についてのものであるが、本発明はそのような実施の形態には限定されない。例えば雑音環境という条件に対する適応にも適用できる。
 [構成]
 上記したように、DNNを用いた音響モデルで話者適応を行なう場合には、話者独立な音声データでDNNの学習を行なった後、適応対象となる話者の音声データで、特定のレイヤのみの学習を行なう必要がある。その際、それ以外のレイヤのパラメータは固定し、学習を行なわない。しかしそのためには音声データが不足しがちであり、かつ適応のための学習に長時間を要するという問題がある。こうした問題を解決するために、以下に説明するようにDNNを用いた音響モデルの話者適応を行なう。実験によれば、この方法を採用することにより、特定話者のための話者適応を効率的に行なえる、DNNを用いた音響モデルを準備できることが示された。
 本実施の形態では、話者独立な音響モデルのためのDNNを準備する際に、予め特定のレイヤ(これを以下「話者適応レイヤ」と呼ぶ。)を用いて話者適応することを前提とする。この前提のもと、後に行われる話者適応レイヤに対する話者適応が効率的に行なえるよう、話者適応レイヤ以外のレイヤのパラメータの準備的学習を行なう。具体的には以下のとおりである。
 最初に、図1に示した方法で、全ての発話データを用いて話者独立なDNN30の学習を行なう。DNNは、通常はRestricted Boltzmann Machine(RBM)を用いて初期化する。しかし、RBMは非識別的学習な音声認識等には必ずしも適したものではない。そこで、本実施の形態では、識別的学習の1手法として、RBMにより初期化済のDNNを誤差逆伝搬(EBP)によりCross-Entropy(CE)損失最小化基準を用いて学習するものを採用する。
 DNN30は、基本的には通常の多層パーセプトロンネットワークである。DNN30の各ノードには、それぞれ接続ウェイトとバイアスとが付与されている。以下の説明では、DNN30は7つのレイヤを持つものとする。すなわち、DNN30は、発明が解決しようとする課題の項で説明したとおり、入力層42及び出力層54と、入力層42及び出力層54の間に配置された5つの隠れ層44、46、48、50及び52とを含む。
 DNN30において、t番目のレイヤLとその前のt-1番目のレイヤLt-1とのノードの接続ウェイトを行列形式でWとする。上記したようにEBPによる学習で得られた話者独立(Speaker-Independent)DNN30のt番目のレイヤL及びLt-1の間のウェイト行列を本明細書では「WSI 」と書く。DNN30のような話者独立なDNNを用いたHMM音声認識方式を以下の説明ではSI DNN-HMMと呼ぶ。「SI」は話者独立を意味する。以下の説明でも同様である。
 図3を参照して、この実施の形態では、DNN30のようなSI DNN-HMMが得られた後、話者適応の対象となるDNN80の準備的学習を行なう。この準備的学習では、話者別に用意した多数の音声データ90、92、…、98を用いる。DNN80も、基本的には通常の多層パーセプトロンネットワークである。DNN80の各ノードには、それぞれ接続ウェイトとバイアスとが付与されている。DNN80は、DNN30と同じく7つのレイヤ(層)を持つ。すなわち、DNN80は、入力層42及び出力層54と、入力層42及び出力層54の間に配置された隠れ層44、話者モジュール切替部110、隠れ層48、50及び52とを含む。隠れ層44の出力が話者モジュール切替部110の入力に接続されている。話者モジュール切替部110の出力は隠れ層48の入力に接続される。音声データ90、92、…、98と入力層42の入力との間には、音声データ90、92、…、98の中から特定話者のデータを選択的に取り出す話者選択部100が設けられている。入力層42、隠れ層44、48、50、及び52、並びに出力層54は、DNN30の対応するレイヤのパラメータをコピーすることで得られる。
 話者モジュール切替部110は、音声データ90、92、…、98の各話者に対応する隠れ層を構成する話者別モジュール112、114、…、118及び120と、話者選択部100による話者の選択に応答して、話者別モジュール112、114、…、118及び120のうち、選択された話者に対応するものの入力を、隠れ層44の出力に結合する入力選択部102と、話者選択部100による話者の選択に応答して、話者別モジュール112、114、…、118及び120のうち、選択された話者に対応するものの出力を隠れ層48の入力に結合する出力選択部104とを含む。話者別モジュール112、114、…、118及び120の各々は、隠れ層44等と同様の構成を持ち、本実施の形態ではいずれもWSI をそれぞれのウェイト行列にコピーすることにより得られるものを用いた。すなわち、図1のDNN30の学習が完了したときの隠れ層46のパラメータを用いた。
 この構成により、後述するように、複数の話者の音声データを用い、話者別モジュール112、114、…、118及び120を話者に応じて適宜選択し切替えながら、入力層42、隠れ層44、話者モジュール切替部110、隠れ層48、50及び52、並びに出力層54の学習を行なうことができる。本実施の形態では、この際にもEBP学習を用いた。ただし、音声データを表現するデータのビット数は通常制限されているため、過学習してしまう危険性がある。そこで、本実施の形態では、過学習を回避するために制約を課した。この制約については後述する。
 上記したように、話者別モジュール112、114、…、118及び120を話者に応じて切替えながら全発話者の音声データを用いてDNN80の学習を行なうことで、入力層42、隠れ層44、隠れ層48、50及び52、並びに出力層54の学習が完了する。この学習を本実施の形態では準備的学習と呼ぶ。準備的学習の目的は、話者別モジュール112、114、…、118及び120の学習を行なうことではなく、話者適応に適するように学習した入力層42、隠れ層44、48、50及び52、並びに出力層54を得ることである。図4に示すように、このようにして得られたDNN80の話者モジュール切替部110をダミーの隠れ層140で置換することにより、準備的学習が完了したDNN130が得られる。このDNN130は、後述するように話者モジュール切替部110の位置の隠れ層に対する話者適応に好適なものとなる。したがって、DNN130のパラメータを記憶媒体に格納し、同時に話者モジュール切替部110の位置の隠れ層のみの学習を行なうようなプログラム(図2に示す処理を実行するプログラム)をその記憶媒体に格納することで、DNN130の話者適応を行なうのに好適なデータが記憶媒体に保持されることになる。なお、この際の話者適応の対象となるレイヤは話者モジュール切替部110の位置の隠れ層に固定され、仮にそれ以外のレイヤに対する話者適応を行なってもよい結果は得られない。
 図4を参照して、準備的学習を完了したDNN130に対して話者適応を行なう方法について説明する。予め、話者適応用データ150を準備する。話者適応用データ150は、適応の対象となる話者の音声データ162と、話者別の適応用モジュール160とを含む。適応用モジュール160は、話者別モジュール112、114、…、118及び120と同様の構成を持つが、話者適応前の隠れ層の初期値に相当するものである。本実施の形態では、適応用モジュール160として、図1及び図2に示す方法で学習したDNN30のうち、話者モジュール切替部110と同じ位置の隠れ層46を用いる。すなわち、適応用モジュール160のウェイト行列に、初期学習後の隠れ層46のウェイト行列Wmean をコピーする。ここで「mean」とは、学習に全話者のデータが用いられたという意味である。
 話者適応の準備として、DNN130のうち、ダミーの隠れ層140に適応用モジュール160をコピーする(適応用モジュール160のウェイト行列をダミーの隠れ層140のウェイト行列にコピーする。)ことで、図5に示すように新たなDNN180を得る。このようにして得られた、話者適応前のDNN180を、以下、PT-SAT(Pre-Trained SAT)ネットワークと呼ぶ。
 図5に示すように、DNN180のうち、入力層42、隠れ層44,48、50及び52、並びに出力層54のパラメータを固定し、話者別の適応用モジュール160の学習のみを音声データ162を用いて行なう。学習は、準備的学習と同様、CE損失最小化基準を用いたEBP学習であり、音声データの規格化を行なう。この学習が終了したときに得られたDNN180が、音声データ162により話者適応した音響モデルのためのDNNとなる。
 前述した制約として、ここでは、通常の学習に代えて、規格化EBP学習を用いる。規格化の手法(定義)としてはいくつか考えられえるが、本実施の形態では、図3に示すようなネットワークを得るための初期値であるウェイト行列WSI tSDと図4に示すようなネットワークを得るための初期値であるウェイト行列Wmean tSDとの間の相違のLノルムと、話者別モジュールのウェイト行列とを用いる。この学習では、話者別モジュール及び適応用モジュールのための学習データの数には制限があるが、それ以外のレイヤは十分に多くのデータで学習が行われる。したがって、この実施の形態では、この規格化項を話者別モジュール及び適応用モジュールのみに導入する。
 SAT音声認識の学習のための規格化項は次の式(1)により定義される。
Figure JPOXMLDOC01-appb-M000001
ただし、WtSD及びbtSDは、tSD番目のレイヤの話者別モジュールのウェイト行列と、それに対応するバイアスベクトルとであり、Wmean tSD及びbmean tSDとはそれぞれ話者適応の開始直前(話者独立な学習後)におけるウェイト行列とバイアスベクトルとの初期値である。
 なお、図3に示すネットワークを得るためには、式(1)中のWmean tSD及びbmean tSDを、tSD番目のSI DNNのウェイト行列とそれに対応するバイアスベクトルとで置換する。
 なお、図3に示すような構成で話者を切替えながらDNN80の準備的学習を行なう場合、ある話者による発話データでの学習が全て完了した後に別の話者による発話データでの学習を開始する、というように順番に発話データを切替えると、後の発話データによる影響が先の発話データの影響よりもDNN80の各レイヤに残ってしまう傾向があり、好ましくない。したがって、準備的学習は以下のような構成を用いて行なうのが好ましい。
 図6を参照して、話者選択部100は、音声データ90、92、…、98の音声データをそれぞれ小さな断片に分割して各断片に対応する話者を識別する情報(話者識別情報と呼ぶ。)を付し、さらにこれらをランダムな順番で選択して1つのファイルに結合するランダム選択部190と、ランダム選択部190により出力されたファイルを格納するランダムデータ記憶部192と、ランダムデータ記憶部192に記憶されたファイルを先頭から順番に読み出し、話者識別情報を話者モジュール切替部110の入力選択部102及び出力選択部104に出力するデータ読出部194とを含む。データ読出部194の出力は、読み出したデータを入力層42にも与えるよう、入力層42の入力に接続されている。
 入力選択部102は、データ読出部194からの話者識別情報に応じて、話者別モジュール112、114、…、118及び120のうち、適切な話者に対応するモジュールを選択し、その入力に隠れ層44の出力を接続するセレクタにより実現できる。出力選択部104も同様、話者別モジュール112、114、…、118及び120のうち、適切な話者に対応するモジュールを選択し、その出力を隠れ層48の入力に接続するセレクタにより実現できる。なお、本実施の形態では、隠れ層が5つあり、そのうち話者モジュール切替部110が2番目の隠れ層の位置に配置されている。したがって入力層42と入力選択部102との間には隠れ層44しか存在しない。しかし、話者モジュール切替部110の位置は変更することができるし、隠れ層の数も5つには限定されない。仮に話者モジュール切替部110が3番目の隠れ層の位置に配置されていれば、入力層42と入力選択部102との間には2つの隠れ層が存在することになる。
 このような構成をとることにより、各話者の発話データをランダムに選択しながら、一時に一人の話者の発話データに偏ることのない順番でDNN80の学習が行なえる。その結果、発話データの選択の順番による影響を最小限に抑えながら、DNN80の準備的学習が行なえる。
 [動作]
 以上に構成を説明したDNNの話者適応装置は、以下のように動作する。予め複数の話者の音声データ90、92、…、98と、図1に示す方法により学習した話者独立なDNN30の隠れ層46とを準備する。
 図6を参照して、この話者適応装置は、準備的学習時に先立ち、以下のように動作する。ランダム選択部190は、音声データ90、92、…、98の発話データを小さな断片に分割し、各断片に話者識別情報を付す。ランダム選択部190はさらに、このようにして準備した発話データの多数の断片をランダムな順番で並べ替え、1つのファイルとしてランダムデータ記憶部192に書込む。
 準備的学習が開始されると、図6に示すデータ読出部194は、ランダムデータ記憶部192の先頭から順番に音声データの断片を読出し、その話者識別情報を入力選択部102及び出力選択部104に与える。入力選択部102はこの話者識別情報に応じて、話者別モジュール112、114、…、118及び120のうち、話者識別情報に対応するモジュールを選択し、隠れ層44の出力を選択された隠れ層の入力に接続する。出力選択部104も同様、データ読出部194からの話者識別情報に応じて、話者別モジュール112、114、…、118及び120のうち、話者識別情報に対応するモジュールを選択し、その出力を隠れ層48の入力に接続する。このようにしてDNN80の接続が確立した後、データ読出部194がランダムデータ記憶部192から読み出したデータを用いてDNN80の学習を全てのレイヤにわたって行なう。
 データ読出部194が読み出した断片による学習が完了すると、データ読出部194は次の断片をランダムデータ記憶部192から読出し、その断片を用いて上記した処理を再び実行する。
 こうした処理がランダムデータ記憶部192に格納されたファイル中の全ての断片について完了した時点で、DNN80の準備的学習が終了する。DNN80の話者モジュール切替部110をダミーの隠れ層140で置換することにより、図4に示すDNN130が得られる。
 通常は、このようにして準備したDNN130と、予め話者独立なDNNとして学習したDNN30(図1)から隠れ層46のパラメータをコピーして得た適応用モジュール160とが1つのセットとなる。例えば、これらと、図2に示すような従来の学習を行なうためのプログラムとがセットになって商品として流通する。図2に示すようなプログラムが容易に入手可能であれば、このプログラムなしのセットでの流通を行なうこともできる。この場合は、前述したとおり、適応の対象となるレイヤは固定されており、それ以外のレイヤを適応の対象としても意味がない。
 話者適応したDNNによる音響モデルを構築しようとするユーザは、準備的学習の終了したDNN130と、初期値としての適応用モジュール160と、図2に示すような学習を行なうプログラムとを入手した後、DNN130のダミーの隠れ層140を、適応用モジュール160で置換する。具体的には、ダミーの隠れ層140のウェイト行列に、適応用モジュール160のウェイト行列をコピーする。さらに、話者適応の対象となる特定の話者の音声データ162を準備し、DNN130の入力に音声データ162が与えられるように装置を設定する。
 この状態で、図5に示すように、入力層42、隠れ層44、48、50、及び52、並びに出力層54のパラメータを固定し、発話データを順番に読出してその発話データを学習データとして適応用モジュール160のみの学習を行なう。その結果得られた学習後のDNN180は、音声データ162の話者のために適応化されたものとなり、このDNN180を用いた音響モデルはその話者のために適応化された音響モデルとなる。
 [実験]
 上記した実施の形態に係るシステムに対し、ウェブ上のTEDの講演コーパスを用いて精度の評価実験を行なった。実験のために、学習データと、評価データと、テストデータとを準備した。
 学習データは300話者の発話データからなっていた。各話者の発話データは約30分の長さであった。学習データの合計時間は約150時間であった。
 評価データは、8人の話者のデータからなっていた。評価データの話者は、いずれも学習データの話者ではなかった。この評価データは、DNNのハイパーパラメータ(CE損失最小化の学習率、及び正規化率等)の最適値(評価データ自体に対して高い認識率を示すもの)を定めるために使用した。
 テストデータは、28人の話者からなっていた。このデータはIWSLT2013のテストデータセットとして用いられるものである。これら話者は、いずれも、学習データの話者とも評価データの話者とも異なっていた。
 実験では、従来のHMMを用いた音声認識装置において、HMMの各ステートのGMMに替え、上記したDNNを用いた音声認識装置を実現した。これをSAT-DNN-HMMと呼ぶことにする。SAT-DNN-HMMを評価するため、ベースラインとなる話者独立なDNNを使用したHMM音声認識装置と、図2に示すような方法で話者適応したDNNを使用したHMM音声認識装置とを準備した。前者をSI-DNNと呼び、後者をSA-DNNと呼ぶ。「SI」は「Speaker-Independent」の略であり、「SA」は「Speaker-Adapted」の略である。
 SI-DNNは単純な7レイヤのDNNを採用したもので、全ネットワークをRBM学習で初期化した後、学習データを用いたCE損失最小化により学習を行なったものである。
 SA-DNNはSI-DNNの1つの隠れ層を、テストデータの28人の話者から選んだ1人の発話データにより適応化したものである。この隠れ層は、SAT-DNNで話者適応した隠れ層と同じレイヤである。クローズド形式の学習に伴う問題を回避するため、話者適応の対象話者の各々について、発話データを4つのサブグループに分割し、4重クロス確認(CV)方式を採用して認識結果を得た。このCV方式では、1つのサブグループをテストに用い、残りの3つのサブグループを学習データとして認識精度を得て、さらにこれをテストのためのサブグループを変えて4回行ない、4回の認識精度の平均を最終的な認識精度とした。
 SAT-DNNについては、上述したとおり、最初にSI-DNNと同様の学習を行なって、話者適応のための隠れ層の初期値を準備した。次に、学習データの話者の数と同数(300)の話者別モジュールを準備した。次に、図3及び図6に示した構成により、これら話者別モジュールを使用してDNNの準備的学習を行なった。その後、28人のテスト用話者から選択した適応対象の1人の話者について、図4及び図5に示した構成で話者適応を行なった。
 このSAT-DNNの話者適応では、学習データが限られているため、過学習を避ける必要がある。したがって、式(1)中の制約項を隠れ層140のウェイトとバイアスとの更新について適用し、Wmean lsd及びbmean lsdをそれぞれWSI lsd及びbSI lsdに変更した。
 音声データを最初に一連の音響特徴ベクトルに変換した。各ベクトルは20ミリ秒の長さで10ミリ秒のシフト間隔のハミングウィンドウにより計算した。音響特徴ベクトルは39次元であり、その要素は12個のMFCC(Mel-scale Frequency Cepstrum Coefficient)と、対数パワーと、12個の差分MFCCと、差分対数パワーと、12個の2次差分MFCCと、2次差分対数パワーとである。
 さらに、連続する11個の音響特徴ベクトルを連結したもの(429次元)をDNNへの入力とした。ハミングウィンドウの位置を基準にして考えると、この429次元のベクトルは、ハミングウィンドウの直前5つ、ハミングウィンドウ内、及びハミングウィンドウの直後5つ、の合計11個の音響特徴ベクトルを連結したものに相当する。このベクトルの各要素は、その平均と分散とがそれぞれ0及び1となるように正規化した。
 音声認識装置では、HMMはいずれも4-グラムの言語モデルを用いた。この言語モデルはTEDの講演、ニュースコメンタリ、及び英語のGigaword(H.Yamamoto, Y.Wu, C. LHuang, X.Lu, P.R.Dixon, S.Matsuda, C. Hori, and H. Kashioka, “The NICT ASR System for IWSLT2012,” in Proceedings of IWSLT2012, 2012.)の書き起こし文により学習したものである。音響モデルとしては、Boosted MMI(最大相互情報量)学習により学習した文脈依存音響モデルを用いた。DNNの学習時、例えば言語モデル及び状態遷移確率等のHMMのパラメータは全て固定した。
 音声認識に用いたDNNは、429個の入力ノードと、4909個の出力ノードと、各隠れ層ごとに512個のノードとを持つものであった。レイヤは7つであり、SA-DNNとSAT-DNNとのいずれの場合も5つの隠れ層のうちの1つを話者適応に用いるようにし、選択したレイヤを最初の隠れ層から最後の隠れ層まで変化させることで話者適応におけるレイヤの選択の効果について検討した。
 DNNの学習では、時に学習率を細かく調整する必要がある。そのため、学習の各繰返し段階では、評価データに対する認識精度に基づいて以下のような学習率の調整を行なった。
 評価データに対する認識精度が低下した場合には、学習率を前回の繰返段階(エポック)と同一に維持した。それ以外の場合には学習率を前回の半分に更新し、ネットワークパラメータ(ウェイト等)については、前回の学習のエポックで最も誤り率の低かったものを採用し、それらに対する学習を、更新後の学習率を用いて再開した。
 SI-DNN音声認識装置及びPT-SAT-DNN音声認識装置については、学習率の初期値を0.004にして学習を開始し、20回(20エポックに相当)、上記したような学習率の更新規則を用いて繰返した。同様に図3及び図6に示すDNNの学習を行なう際にも、学習率の初期値は0.004、エポック数は20であり、さらに制約係数を0.1とした。
 これと異なり、図5に示す話者適応の段階では、学習率は評価データに対する認識精度に基づいて定めた値に固定した。SA-DNN音声認識装置の話者適応の学習率は0.005とし、SAT-DNN音声認識装置の話者適応の学習率は0.001とした。これらの話者適応の処理を、制約係数を0.1として10回繰返した。この制約係数も、評価データに対する認識精度に基づいて定めたものである。
 [結果]
 結果を図7に示す。図7に示したのは、4つの音声認識装置の性能を単語誤り率で評価したものである。SA-DNN及びSAT-DNNについては、前述したCV方式により得た平均の単語誤り率である。図7の表において、左端の欄に示したのは、話者適応の対象とした隠れ層の番号である。1は図1の隠れ層44に相当し、2は隠れ層46に相当し、以下同様で、5は隠れ層52に相当する。SI-DNNは話者適応層がないのでいずれの場合も同じ数値(26.4%)を示してある。
 図7から明らかなように、SAT-DNN音声式装置が最も低い単語誤り率(18%)を達成した。この数値は、ベースラインとなるSI-DNNの値より8.4ポイント低い。SA-DNNの結果によれば、SI-DNNに対する単純な話者適応でも、18.7~20.0%という低い単語誤り率が得られることが分かる。これは、SI-DNNによる値より6.4~7.7ポイント低い数値である。しかし、SAT-DNNに対する結果をSA-DNNによる結果と比較すると、明らかにSAT-DNNの方がよい結果をもたらすことが分かる。どのレイヤを話者適応の対象にしたとしても、同じレイヤを話者適応の対象としたSA-DNNによる数値より良い結果が得られている。
 一方、PT-SAT-DNNの結果はSI-DNNよりもやや単語誤り率が高い値となっている。したがってこれ自身をそのまま使用することはできない。しかし、このPT-SAT-DNNの特定のレイヤを話者適応したSAT-DNNが上記したようなよい結果を残したことから考えると、PT-SAT-DNNはSAT-DNNを得るための有効なスタート台と考えることができる。話者適応が主としてユーザの環境で行われることに鑑みると、PT-SAT-DNNを音声認識装置又はソフトウェアのベンダで準備し、話者適応の対象となる特定の隠れ層の初期モジュールと、その初期モジュールを特定の隠れ層に組み込んだPT-SAT-DNNの、初期モジュールのみの学習を行なうソフトウェアとを一組として記憶媒体に格納した商品の形で提供することにより、ユーザにおける話者適応の処理が効率的に行なえ、かつ性能も優れた音声認識装置を得ることができる。
 図7の表からはまた、SA-DNN及びSAT-DNNのいずれにおいても、話者適応の対象としたレイヤが第3の隠れ層であるときに最も低い単語誤り率が得られたことが分かる。この結果からは直ちには言えないが、話者適応の対象となるレイヤが隠れ層の中央に近いほど、話者適応の効果が高くなるように思われる。この結果からは、DNNでは入力層に近い部分で入力から音声認識に必要な何らかの音響的な特徴を抽出し、上位のレイヤに伝達していること、話者適応を適切に行なうことにより、話者ごとの特徴情報の処理を行なうノードが中央付近の隠れ層に集中するらしいこと、及び出力装置近い部分では話者独立な言語的処理が主としてなされることが推測できる。
 このような実験結果を考慮すると、上記したSAT-DNNによる音声認識における話者適応の手法は、例えば特定の雑音環境下における音声認識、及び特定の通信経路における通信チャネルの適応化等、特定の条件でのDNNを用いた認識にも効果的に適用できると考えられる。
 [コンピュータによる実現]
 上記したDNNの学習装置は、コンピュータハードウェアと、コンピュータハードウェアと協働するコンピュータプログラムとにより実現できる。ここでSI DNNの学習と、図5に示すDNNの話者適応とを行なうプログラムは、それぞれ図1及び図2に示す処理を実行するものを利用できる。以下、図6に示す構成を実現するプログラムの制御構造について説明する。
 図8を参照して、このプログラムは、起動すると、最初に記憶領域の初期化、音声データ90、92、…、98、及びランダムデータ記憶部192内の出力ファイルのオープン等の初期化処理を行なうステップ220と、音声データ90、92、…、98の各々を小さな断片からなる分割データに分割し、各分割データに対応する話者の識別情報を付与するステップ222と、分割データをランダムな順番で連結し、ランダムデータ記憶部192にファイルとして書込むステップ224と、ランダムデータ記憶部192内に書込んだファイルから分割データを順番に読出し、各データについて以下の処理を実行するステップ226を含む。
 ステップ226は、読み出した分割データに含まれる話者識別情報に応じ、話者別モジュール112、114、…、118及び120のうち、その話者識別情報に対応する話者別モジュールを選択するステップ228と、形成されたDNN80の全てのレイヤにわたる学習処理を実行するステップ230とを含む。
 ステップ226の処理を全ての分割データに対して行なうことにより、DNN80の準備的学習が終了する。このプログラムは、ステップ220でオープンしたファイルを全てクローズし、ステップ220及びその後の処理で確保したメモリを全て解放して実行を終了する。この後、DNN80の話者モジュール切替部110をダミーの隠れ層140で置換することにより、準備的学習の完了したDNN130が得られる。
 [ハードウェア構成]
 図9は、上記したDNNの学習及び話者適応を実現するコンピュータプログラムを実行するコンピュータシステム930の外観を示し、図10はコンピュータシステム930の内部構成を示す。
 図9を参照して、このコンピュータシステム930は、メモリポート952及びDVD(Digital Versatile Disc)ドライブ950を有するコンピュータ940と、キーボード946と、マウス948と、モニタ942とを含む。
 図10を参照して、コンピュータ940は、メモリポート952及びDVDドライブ950に加えて、CPU(中央処理装置)956と、CPU956、メモリポート952及びDVDドライブ950に接続されたバス966と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)958と、バス966に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)960とを含む。コンピュータシステム930はさらに、他端末との通信を可能とするネットワークへの接続を提供するネットワークインターフェイス(I/F)944を含む。
 コンピュータシステム930を上記した実施の形態のシステムの各機能部として機能させるためのコンピュータプログラムは、DVDドライブ950又はメモリポート952に装着されるDVD962又はリムーバブルメモリ964に記憶され、さらにハードディスク954に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ940に送信されハードディスク954に記憶されてもよい。プログラムは実行の際にRAM960にロードされる。DVD962から、リムーバブルメモリ964から、又はネットワークを介して、直接にRAM960にプログラムをロードしてもよい。
 このプログラムは、コンピュータ940を、上記実施の形態に係るシステムの各機能部として機能させるための複数の命令からなる命令列を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ940上で動作するオペレーティングシステム若しくはサードパーティのプログラム、又は、コンピュータ940にインストールされる各種プログラミングツールキット又はプログラムライブラリにより実行時に動的に提供されることがある。したがって、このプログラム自体はこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールをコンピュータの記憶装置内から動的に呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能をすべて提供するようにしてもよい。
 図3~図10に示す本実施の形態では、学習データ及び各ネットワークのパラメータ等は、RAM960又はハードディスク954に記憶される。ネットワークのパラメータはさらに、USBメモリ等のリムーバブルメモリ964又はDVD962等に記憶されてもよいし、ネットワーク等の通信媒体を介して他のコンピュータに送信されてもよい。
 コンピュータプログラムを実行する際のコンピュータシステム930の動作は周知である。したがってここではその詳細については繰返さない。
 [変形例]
 上記した実施の形態は音声認識における話者適応に関するものであった。しかし、本発明は話者適応のみに適用可能なわけではない。例えば、特定雑音環境下での音声認識についても同様に適用できる。この場合、DNNのいずれかのレイヤを雑音環境に適応化するよう予め決定しておく。様々な雑音環境下での音声を収集し、雑音環境の種類ごとに個別の学習データとする。さらに雑音環境ごとに雑音別モジュールを準備し、DNNの特定レイヤにおいて、これら雑音別モジュールを切替可能にする。雑音環境ごとの学習データを用い、上記実施の形態で述べた発話データと同様に学習データの雑音環境の種類に応じて雑音別モジュールを切替えながらDNNの学習を行なう。この学習が完了することで、DNNの準備的学習が完了する。
 適応処理では、適応対象の雑音環境下の音声データを学習データとして準備する。準備的学習が終わったDNNの上記特定レイヤに、何らかの形で準備した初期モジュールを設定する。この特定レイヤ以外のレイヤのパラメータを固定して、学習データを用いてDNNの学習を実行する。この学習の結果得られたDNNは、適応対象の雑音環境下での音声認識のためのHMMに好適に適用できるものとなる。
 さらに、上記実施の形態では、適応対象となる話者別モジュールは1つだけであった。しかし本発明はそのような実施の形態には限定されない。理論的には、適応対象となるモジュールは2つ以上であってもよい。それらモジュールを連続したレイヤに配置する必要もない。さらに、適応対象となるモジュールの位置は隠れ層のみには限定されない。入力層又は出力層の適応化に対しても本発明は適用可能である。
 また、上記実施の形態は、HMMの状態出力確率をDNNを用いて計算する音響モデルに関するものであった。しかし、本発明に係るDNNの適応方法はそのようなものには限定されない。例えば、音響分析をDNNを用いて行ない、その結果を用いて従来と同様のGMM-HMMの学習を行なう場合の話者適応にも上記実施の形態と同様に適用できる。
 今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
 この発明は、人と人、又は人と機械との間で言語を用いたコミュニケーションを補助するための装置、及びサービスに適用可能で、特に、特定話者の発声に対する音声認識、特定の雑音環境下における音声認識、又は特定の通信経路における通信チャネルの適応化等、特定の条件での認識精度が高められるようなコミュニケーション補助用の装置及びサービスに適用可能である。
30,80,130,180 DNN
40,60,90,92,96,98,162 音声データ
42 入力層
44,46,48,50,52 隠れ層
54 出力層
100 話者選択部
102 入力選択部
104 出力選択部
110 話者モジュール切替部
112、114、118、120 話者別モジュール
140 ダミーの隠れ層
150 話者適応用データ
160 適応用モジュール
190 ランダム選択部
192 ランダムデータ記憶部
194 データ読出部

Claims (6)

  1.  特定の条件に対する音声認識用の統計的音響モデルの適応方法であって、
     前記音響モデルは、ディープ・ニューラル・ネットワーク、すなわちDNNを用いた音響モデルであって、当該DNNは3以上の複数のレイヤを含み、
     コンピュータ可読な第1の記憶装置が、複数の条件での発話データを別々に記憶するステップと、
     コンピュータが、前記複数の条件に応じた複数の条件別の隠れ層モジュールを準備するステップと、
     コンピュータが、前記複数の条件での発話データを切り替えて選択しながら、前記複数のレイヤ内の特定レイヤを、選択された発話データに対応する隠れ層モジュールで動的に置換しながら前記DNNの全てのレイヤについての準備的学習を行なうステップと、
     コンピュータが、前記準備的学習を行なうステップでの学習が完了した前記DNNの、前記特定レイヤを、予め準備した初期隠れ層で置換するステップと、
     コンピュータ可読な第2の記憶装置が、適応対象の条件下での音声データを記憶するステップと、
     前記置換するステップにより得られたDNNの、前記初期隠れ層以外のレイヤのパラメータを固定して、前記適応対象の条件下での音声データを前記第2の記憶装置から読み出して、前記DNNの学習を行なうステップとを含む、方法。
  2.  前記方法はさらに、コンピュータが、前記学習を行なうステップに先立って、発話条件の区別のない大量の音声データで前記DNNの条件独立な学習を行なうステップと、
     前記条件独立な学習を行なうステップでの学習後の前記DNNの前記特定レイヤの隠れ層のパラメータを第3の記憶装置に記憶するステップを含み、
     前記置換するステップは、コンピュータが、前記準備的学習を行なうステップでの学習が完了した前記DNNの、前記特定レイヤのパラメータに、前記第3の記憶装置に記憶された隠れ層のパラメータをコピーするステップを含む、請求項1に記載の方法。
  3.  特定条件の音声認識用の統計的音響モデルの適応に適した音響モデルの学習方法であって、
     前記音響モデルは、ディープ・ニューラル・ネットワーク、すなわちDNNを用いた音響モデルであって、当該DNNは3以上の複数のレイヤを含み、
     コンピュータ可読な第1の記憶装置が、複数の条件での発話データを別々に記憶するステップと、
     コンピュータが、前記複数の条件に応じた複数の条件別の隠れ層モジュールを準備するステップと、
     コンピュータが、前記複数の条件での発話データを切り替えて選択しながら、前記複数のレイヤ内の特定レイヤを、選択された発話データに対応する隠れ層モジュールで動的に置換しながら前記DNNの全てのレイヤについての準備的学習を行なうステップと、
     コンピュータが、前記準備的学習を行なうステップでの学習が完了した前記DNNの、前記特定レイヤを除くレイヤのパラメータを記憶媒体に記憶するステップとを含む、方法。
  4.  前記学習方法はさらに、
     コンピュータが、前記学習を行なうステップに先立って、発話条件の区別のない大量の音声データで前記DNNの条件独立な学習を行なうステップと、
     前記条件独立な学習を行なうステップでの学習後の前記DNNの前記特定レイヤの隠れ層のパラメータを前記記憶媒体に追加して記憶するステップとを含む、請求項3に記載の方法。
  5.  特定条件の音声認識用の統計的音響モデルの適応に適した音響モデルのためのディープ・ニューラル・ネットワーク、すなわちDNNを構築するためのパラメータを記憶した記憶媒体であって、
     当該記憶媒体に記憶されたパラメータは、3以上の複数のレイヤを含むDNNを構築するためのものであり、
     前記記憶媒体はさらに、
     前記記憶媒体に記憶されたパラメータを用いて構築されたDNNの、特定レイヤ以外のレイヤのパラメータを固定して、音声データを用いて前記DNNの学習を行なうことにより、前記DNNの前記特定レイヤのみの学習を行なうためのプログラムを記憶しており、
     前記特定レイヤは、前記記憶媒体に記憶されているDNNに対応して予め定められている、記憶媒体。
  6.  特定条件の音声認識用の統計的音響モデルの適応を行なうためのコンピュータプログラムであって、
     前記音響モデルは、ディープ・ニューラル・ネットワーク、すなわちDNNを用いた音響モデルであって、当該DNNは3以上の複数のレイヤを含み、
     前記コンピュータプログラムは、コンピュータに、
     コンピュータ可読な第1の記憶装置から、複数の条件での発話データを別々に記憶するステップと、
     前記複数の条件に応じた複数の条件別の隠れ層モジュールを準備するステップと、
     前記複数の条件での発話データを切り替えて選択しながら、前記複数のレイヤ内の特定レイヤを、選択された発話データに対応する隠れ層モジュールで動的に置換しながら前記DNNの全てのレイヤについての準備的学習を行なうステップと、
     前記準備的学習を行なうステップでの学習が完了した前記DNNの、前記特定レイヤを、予め準備した初期隠れ層で置換するステップと、
     前記置換するステップで得られたDNNのパラメータを記憶媒体に記憶させるステップと、
     を実行させる、コンピュータプログラム。
     
PCT/JP2014/079490 2013-11-27 2014-11-06 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム WO2015079885A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP14866448.5A EP3076389A4 (en) 2013-11-27 2014-11-06 Statistical-acoustic-model adaptation method, acoustic-model learning method suitable for statistical-acoustic-model adaptation, storage medium in which parameters for building deep neural network are stored, and computer program for adapting statistical acoustic model
CN201480063686.7A CN105745700B (zh) 2013-11-27 2014-11-06 统计声学模型的自适应方法以及学习方法、记录介质
US15/031,449 US10629185B2 (en) 2013-11-27 2014-11-06 Statistical acoustic model adaptation method, acoustic model learning method suitable for statistical acoustic model adaptation, storage medium storing parameters for building deep neural network, and computer program for adapting statistical acoustic model

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013245098A JP5777178B2 (ja) 2013-11-27 2013-11-27 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
JP2013-245098 2013-11-27

Publications (1)

Publication Number Publication Date
WO2015079885A1 true WO2015079885A1 (ja) 2015-06-04

Family

ID=53198833

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/079490 WO2015079885A1 (ja) 2013-11-27 2014-11-06 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム

Country Status (5)

Country Link
US (1) US10629185B2 (ja)
EP (1) EP3076389A4 (ja)
JP (1) JP5777178B2 (ja)
CN (1) CN105745700B (ja)
WO (1) WO2015079885A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017134396A (ja) * 2016-01-18 2017-08-03 株式会社東芝 話者適応型の音声認識
CN108701453A (zh) * 2016-03-04 2018-10-23 微软技术许可有限责任公司 模块化深度学习模型
US11468901B2 (en) 2016-09-12 2022-10-11 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
US11657823B2 (en) 2016-09-19 2023-05-23 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US11670304B2 (en) 2016-09-19 2023-06-06 Pindrop Security, Inc. Speaker recognition in the call center
US11870932B2 (en) 2019-02-06 2024-01-09 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10754925B2 (en) 2014-06-04 2020-08-25 Nuance Communications, Inc. NLU training with user corrections to engine annotations
US10373711B2 (en) 2014-06-04 2019-08-06 Nuance Communications, Inc. Medical coding system with CDI clarification request notification
JP6543820B2 (ja) * 2015-06-04 2019-07-17 国立大学法人電気通信大学 声質変換方法および声質変換装置
CN106254888B (zh) * 2015-06-09 2020-06-02 同济大学 一种图像编码及解码方法、图像处理设备
WO2016208789A1 (ko) * 2015-06-26 2016-12-29 삼성전자 주식회사 소리를 판별하는 방법 및 이를 위한 장치
US10304440B1 (en) * 2015-07-10 2019-05-28 Amazon Technologies, Inc. Keyword spotting using multi-task configuration
US10157279B2 (en) * 2015-07-15 2018-12-18 Cylance Inc. Malware detection
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
KR102386854B1 (ko) * 2015-08-20 2022-04-13 삼성전자주식회사 통합 모델 기반의 음성 인식 장치 및 방법
US10147442B1 (en) * 2015-09-29 2018-12-04 Amazon Technologies, Inc. Robust neural network acoustic model with side task prediction of reference signals
CN106683677B (zh) * 2015-11-06 2021-11-12 阿里巴巴集团控股有限公司 语音识别方法及装置
JP6679898B2 (ja) * 2015-11-24 2020-04-15 富士通株式会社 キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム
US10366687B2 (en) * 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
CN105702250B (zh) * 2016-01-06 2020-05-19 福建天晴数码有限公司 语音识别方法和装置
GB2558629B (en) * 2017-01-11 2019-08-07 Toshiba Kk Speaker-adaptive speech recognition
US11836650B2 (en) * 2016-01-27 2023-12-05 Microsoft Technology Licensing, Llc Artificial intelligence engine for mixing and enhancing features from one or more trained pre-existing machine-learning models
US11841789B2 (en) 2016-01-27 2023-12-12 Microsoft Technology Licensing, Llc Visual aids for debugging
US11868896B2 (en) 2016-01-27 2024-01-09 Microsoft Technology Licensing, Llc Interface for working with simulations on premises
US10671938B2 (en) 2016-01-27 2020-06-02 Bonsai AI, Inc. Artificial intelligence engine configured to work with a pedagogical programming language to train one or more trained artificial intelligence models
US11775850B2 (en) 2016-01-27 2023-10-03 Microsoft Technology Licensing, Llc Artificial intelligence engine having various algorithms to build different concepts contained within a same AI model
JP6637078B2 (ja) 2016-02-02 2020-01-29 日本電信電話株式会社 音響モデル学習装置、音響モデル学習方法及びプログラム
US10510001B2 (en) * 2016-03-18 2019-12-17 Mindtrace Limited Neuromorphic training algorithm for a Restricted Boltzmann Machine
WO2017165551A1 (en) * 2016-03-22 2017-09-28 Sri International Systems and methods for speech recognition in unseen and noisy channel conditions
CN106228976B (zh) 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN106251859B (zh) 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别处理方法和装置
JP6588874B2 (ja) * 2016-08-01 2019-10-09 日本電信電話株式会社 単語予測装置、プログラム
JP6324647B1 (ja) * 2016-08-09 2018-05-16 三菱電機株式会社 話者適応化装置、音声認識装置および音声認識方法
CN107785015A (zh) * 2016-08-26 2018-03-09 阿里巴巴集团控股有限公司 一种语音识别方法及装置
US10949602B2 (en) 2016-09-20 2021-03-16 Nuance Communications, Inc. Sequencing medical codes methods and apparatus
CN106503461B (zh) * 2016-10-26 2018-12-07 广东产品质量监督检验研究院 一种基于深度学习法构建的光伏组件加速退化模型及光伏组件寿命预测方法
US10170110B2 (en) * 2016-11-17 2019-01-01 Robert Bosch Gmbh System and method for ranking of hybrid speech recognition results with neural networks
JP6728083B2 (ja) * 2017-02-08 2020-07-22 日本電信電話株式会社 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム
WO2018151125A1 (ja) * 2017-02-15 2018-08-23 日本電信電話株式会社 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム
US11270686B2 (en) * 2017-03-28 2022-03-08 International Business Machines Corporation Deep language and acoustic modeling convergence and cross training
US10929749B2 (en) * 2017-04-24 2021-02-23 Intel Corporation Neural network optimization mechanism
CN107507612B (zh) * 2017-06-30 2020-08-28 百度在线网络技术(北京)有限公司 一种声纹识别方法及装置
US11133091B2 (en) 2017-07-21 2021-09-28 Nuance Communications, Inc. Automated analysis system and method
JP6955155B2 (ja) * 2017-10-17 2021-10-27 富士通株式会社 学習装置、学習方法及び学習プログラム
US11024424B2 (en) 2017-10-27 2021-06-01 Nuance Communications, Inc. Computer assisted coding systems and methods
CN107808659A (zh) * 2017-12-02 2018-03-16 宫文峰 智能语音信号模式识别系统装置
CN108492820B (zh) * 2018-03-20 2021-08-10 华南理工大学 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
US10832660B2 (en) * 2018-04-10 2020-11-10 Futurewei Technologies, Inc. Method and device for processing whispered speech
KR20190129580A (ko) 2018-05-11 2019-11-20 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
US10839791B2 (en) * 2018-06-27 2020-11-17 International Business Machines Corporation Neural network-based acoustic model with softening target-layer
JP7231181B2 (ja) * 2018-07-17 2023-03-01 国立研究開発法人情報通信研究機構 耐雑音音声認識装置及び方法、並びにコンピュータプログラム
JP7251079B2 (ja) * 2018-09-14 2023-04-04 富士フイルムビジネスイノベーション株式会社 画像処理装置及びプログラム
US11494612B2 (en) * 2018-10-31 2022-11-08 Sony Interactive Entertainment Inc. Systems and methods for domain adaptation in neural networks using domain classifier
CN109637526A (zh) * 2019-01-08 2019-04-16 西安电子科技大学 基于个人身份特征的dnn声学模型的自适应方法
CN109887511A (zh) * 2019-04-24 2019-06-14 武汉水象电子科技有限公司 一种基于级联dnn的语音唤醒优化方法
KR20220007160A (ko) * 2019-05-28 2022-01-18 구글 엘엘씨 스트리밍 엔드-투-엔드 모델을 사용한 대규모 다국어 음성 인식
KR102246936B1 (ko) 2019-06-20 2021-04-29 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
JP6811811B1 (ja) * 2019-07-04 2021-01-13 Jcc株式会社 メタデータ生成システム、映像コンテンツ管理システム及びプログラム
KR102321798B1 (ko) * 2019-08-15 2021-11-05 엘지전자 주식회사 인공 신경망 기반의 음성 인식 모델을 학습시키는 방법 및 음성 인식 디바이스
JPWO2022044425A1 (ja) * 2020-08-28 2022-03-03
US20220083914A1 (en) * 2020-09-11 2022-03-17 Actapio, Inc. Learning apparatus, learning method, and a non-transitory computer-readable storage medium
CN112259079A (zh) * 2020-10-19 2021-01-22 北京有竹居网络技术有限公司 语音识别的方法、装置、设备和计算机可读介质
CN114664292B (zh) * 2020-12-22 2023-08-01 马上消费金融股份有限公司 模型训练、语音识别方法、装置、设备及可读存储介质
CN112908359A (zh) * 2021-01-31 2021-06-04 云知声智能科技股份有限公司 语音测评方法、装置、电子设备及计算机可读介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008216488A (ja) * 2007-03-01 2008-09-18 Univ Waseda 音声処理装置及び音声認識装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5317673A (en) 1992-06-22 1994-05-31 Sri International Method and apparatus for context-dependent estimation of multiple probability distributions of phonetic classes with multilayer perceptrons in a speech recognition system
FR2756073B1 (fr) * 1996-11-18 1999-01-15 Commissariat Energie Atomique Procede d'apprentissage generant des reseaux de neurones de petites tailles pour la classification de donnees
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation
JP2002366187A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP4413867B2 (ja) * 2003-10-03 2010-02-10 旭化成株式会社 データ処理装置及びデータ処理装置制御プログラム
TWI297486B (en) * 2006-09-29 2008-06-01 Univ Nat Chiao Tung Intelligent classification of sound signals with applicaation and method
KR100908121B1 (ko) * 2006-12-15 2009-07-16 삼성전자주식회사 음성 특징 벡터 변환 방법 및 장치
CN102237086A (zh) * 2010-04-28 2011-11-09 三星电子株式会社 用于语音识别设备的补偿装置和方法
US8965819B2 (en) * 2010-08-16 2015-02-24 Oracle International Corporation System and method for effective caching using neural networks
US9235799B2 (en) * 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
US9524730B2 (en) * 2012-03-30 2016-12-20 Ohio State Innovation Foundation Monaural speech filter
CN103117060B (zh) * 2013-01-18 2015-10-28 中国科学院声学研究所 用于语音识别的声学模型的建模方法、建模系统
CN103400577B (zh) * 2013-08-01 2015-09-16 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
US9401148B2 (en) * 2013-11-04 2016-07-26 Google Inc. Speaker verification using neural networks

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008216488A (ja) * 2007-03-01 2008-09-18 Univ Waseda 音声処理装置及び音声認識装置

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
A. MOHAMED; G. DAHL; G. HINTON: "Acoustic Modeling using Deep Belief Networks", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 20, no. L, 2012, pages 14 - 22, XP011390317, DOI: doi:10.1109/TASL.2011.2109382
FRANK SEIDE ET AL.: "Feature Engineering in Context-Dependent Deep Neural Networks for Conversational Speech Transcription", 2011 IEEE WORKSHOP ON AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING(ASRU, pages 24 - 29, XP032126095 *
G. HINTON; L. DENG; D. YU; G. DAHL; A. MOHAMED; N. JAITLY; A. SENIOR; V. VANHOUCKE; P. NGUYEN; T. SAINATH: "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups", IEEE SIGNAL PROCESSING MAGAZINE, vol. 29, no. 6, 2012, pages 82 - 97, XP011469727, DOI: doi:10.1109/MSP.2012.2205597
GEOFFREY HINTON ET AL.: "Deep Neural Networks for Acoustic Modeling in Speech Recognition", IEEE SIGNAL PROCESSING MAGAZINE, November 2012 (2012-11-01), pages 82 - 97, XP011469727 *
GEORGE E. DAHL ET AL.: "Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 20, no. 1, January 2012 (2012-01-01), pages 30 - 42, XP011476706 *
H. LIAO: "Speaker adaptation of context dependent deep neural networks", PROC. ICASSP, 2013, pages 7947 - 7951, XP032508263, DOI: doi:10.1109/ICASSP.2013.6639212
QUOC V. LE; MARC'AURELIO RANZATO; RAJAT MONGA; MATTHIEU DEVIN; KAI CHEN; GREG S. CORRADO; JEFF DEAN ANDREW Y. NG: "Building High-level Features Using Large Scale Unsupervised Learning", PROC. ICML, 2012
See also references of EP3076389A4
Y. BENGIO: "Learning deep architectures for AI", FOUNDATIONS AND TRENDS IN MACHINE LEARNING, vol. 2, no. 1, 2009, pages 1 - 127, XP055013582, DOI: doi:10.1561/2200000006

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017134396A (ja) * 2016-01-18 2017-08-03 株式会社東芝 話者適応型の音声認識
US10013973B2 (en) 2016-01-18 2018-07-03 Kabushiki Kaisha Toshiba Speaker-adaptive speech recognition
CN108701453A (zh) * 2016-03-04 2018-10-23 微软技术许可有限责任公司 模块化深度学习模型
US10235994B2 (en) 2016-03-04 2019-03-19 Microsoft Technology Licensing, Llc Modular deep learning model
CN108701453B (zh) * 2016-03-04 2023-04-04 微软技术许可有限责任公司 模块化深度学习模型
US11468901B2 (en) 2016-09-12 2022-10-11 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
US11657823B2 (en) 2016-09-19 2023-05-23 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US11670304B2 (en) 2016-09-19 2023-06-06 Pindrop Security, Inc. Speaker recognition in the call center
US11870932B2 (en) 2019-02-06 2024-01-09 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network

Also Published As

Publication number Publication date
CN105745700B (zh) 2019-11-01
JP5777178B2 (ja) 2015-09-09
CN105745700A (zh) 2016-07-06
EP3076389A1 (en) 2016-10-05
EP3076389A4 (en) 2017-10-04
US20160260428A1 (en) 2016-09-08
JP2015102806A (ja) 2015-06-04
US10629185B2 (en) 2020-04-21

Similar Documents

Publication Publication Date Title
JP5777178B2 (ja) 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
Fer et al. Multilingually trained bottleneck features in spoken language recognition
Huang et al. A unified approach to transfer learning of deep neural networks with applications to speaker adaptation in automatic speech recognition
Lozano-Diez et al. An analysis of the influence of deep neural network (DNN) topology in bottleneck feature based language recognition
Das et al. A deep dive into deep learning techniques for solving spoken language identification problems
Yi et al. CTC regularized model adaptation for improving LSTM RNN based multi-accent mandarin speech recognition
Hashimoto et al. Trajectory training considering global variance for speech synthesis based on neural networks
Kadyan et al. A comparative study of deep neural network based Punjabi-ASR system
Yu et al. Deep neural network-hidden markov model hybrid systems
Kurimo et al. Modeling under-resourced languages for speech recognition
Guo et al. Deep neural network based i-vector mapping for speaker verification using short utterances
Hong et al. A genetic classification method for speaker recognition
KR20190136578A (ko) 음성 인식 방법 및 장치
Pakoci et al. Improvements in Serbian speech recognition using sequence-trained deep neural networks
Bahmaninezhad et al. An investigation of domain adaptation in speaker embedding space for speaker recognition
Falavigna et al. DNN adaptation by automatic quality estimation of ASR hypotheses
JP7423056B2 (ja) 推論器および推論器の学習方法
Ons et al. Fast vocabulary acquisition in an NMF-based self-learning vocal user interface
Chen et al. Building acoustic model ensembles by data sampling with enhanced trainings and features
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
Ragni et al. Stimulated training for automatic speech recognition and keyword search in limited resource conditions
Minh et al. The system for detecting Vietnamese mispronunciation
Higuchi et al. Speaker Adversarial Training of DPGMM-Based Feature Extractor for Zero-Resource Languages.
Carvalho et al. TRIBUS: An end-to-end automatic speech recognition system for European Portuguese.
Das et al. Deep Auto-Encoder Based Multi-Task Learning Using Probabilistic Transcriptions.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14866448

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15031449

Country of ref document: US

REEP Request for entry into the european phase

Ref document number: 2014866448

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2014866448

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE