WO2018066436A1 - 音響モデルの学習装置及びそのためのコンピュータプログラム - Google Patents

音響モデルの学習装置及びそのためのコンピュータプログラム Download PDF

Info

Publication number
WO2018066436A1
WO2018066436A1 PCT/JP2017/035018 JP2017035018W WO2018066436A1 WO 2018066436 A1 WO2018066436 A1 WO 2018066436A1 JP 2017035018 W JP2017035018 W JP 2017035018W WO 2018066436 A1 WO2018066436 A1 WO 2018066436A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
speech
acoustic model
ctc
sequence
Prior art date
Application number
PCT/JP2017/035018
Other languages
English (en)
French (fr)
Inventor
直之 神田
Original Assignee
国立研究開発法人情報通信研究機構
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立研究開発法人情報通信研究機構 filed Critical 国立研究開発法人情報通信研究機構
Publication of WO2018066436A1 publication Critical patent/WO2018066436A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Definitions

  • the present invention relates to speech recognition technology, and more particularly to a learning device for improving the accuracy of a CTC (Connectionist Temporal Classification) acoustic model (CTC-AM) used in a speech recognition device.
  • CTC Connectionist Temporal Classification
  • CTC-AM acoustic model
  • voice input / output is also used to operate a mobile phone.
  • speech input / output the recognition accuracy of the speech recognition device that forms the basis of the input / output needs to be as high as possible.
  • a general technique for speech recognition uses a model obtained by statistical machine learning.
  • HMM Hidden Markov Model
  • the word pronunciation dictionary for calculating the probability that a phoneme string can be obtained from the character string generated in the process of speech recognition, and the probability that a word string in a certain language will appear A language model or the like for calculating is also used.
  • the first term of the numerator of this formula can be obtained by HMM as follows.
  • T is the state series S 1 of the HMM, ..., shows the S T.
  • the first term on the right side of Equation (3) represents the output probability of the HMM. From the expressions (1) to (3), the word string to W as a result of speech recognition can be obtained by the following expression.
  • S 1: T ) of the HMM in equation (4) can be calculated by the following equation.
  • s t ) is calculated by a Gaussian mixture model (GMM).
  • Equation (4) P (S 1: T
  • the denominator P (X 1: T ) is a common value for each hypothesis and can therefore be ignored when performing the arg max operation.
  • DNN-HMM hybrid method in which the output probability in the HMM is calculated not by the GMM but by the deep neural network (DNN), has been studied.
  • the DNN-HMM hybrid system has been attracting attention because it achieves higher accuracy than the acoustic model using GMM.
  • the DNN-HMM hybrid method has yielded excellent results, so instead of DNN, neural networks such as convolutional neural networks (CNN), recurrent neural networks (RNN), or long short term memory networks (LSTM) A method using (NN) has been proposed. It can be expected that the accuracy of voice recognition is further improved by these methods.
  • CNN convolutional neural networks
  • RNN recurrent neural networks
  • LSTM long short term memory networks
  • End-to-end type NN is a subword sequence (phonetic sequence, phonetic symbol sequence, phoneme sequence, character string, etc.) s posterior probability P (s
  • the end-to-end type NN will be described later in connection with the embodiment.
  • the end-to-end type NN generally used in the end-to-end type NN is described. Explain the concept of speech recognition by type RNN. Note that the present invention is applicable to all end-to-end NNs and is not necessarily limited to RNNs.
  • RNN is not only a unidirectional connection between nodes from the input layer side to the output layer side, but also a connection between nodes from the output layer to the adjacent input layer, a connection between nodes in the same layer And a structure including self-feedback coupling. Because of this structure, the RNN has a character that cannot be expressed in a normal feed-forward neural network that can represent time-dependent information. Speech is typical for time-dependent information. Therefore, RNN is considered suitable for acoustic models.
  • the label output by the End-to-End type RNN is, for example, the state of an arbitrary subword such as a phoneme or syllable, a character, or an HMM.
  • an end-to-end type RNN is used for an acoustic model, it is not necessary to forcibly deform the output of the NN as compared with the case of using an HMM, so that the recognition accuracy can be improved.
  • the end-to-end type RNN learns the direct mapping from the input observation sequence X to the subword sequence s.
  • This subword string c is converted into a subword string s independent of the number of frames by a function called a mapping function ⁇ .
  • the mapping function ⁇ deletes the empty label ⁇ from the sub-word string c in units of frames, and outputs a sub-word string s that does not depend on the number of frames by regarding the repetition of the label as one output.
  • X) that the observation sequence X is the subword string s can be formulated as follows.
  • y t ct is an output score for the output label c t of the RNN at time t.
  • ⁇ ⁇ 1 is an inverse function of the mapping function ⁇ . That is, ⁇ ⁇ 1 (s) represents a set of all phoneme sequences c that can be mapped to the subword sequence s by the mapping function ⁇ .
  • Non-Patent Document 2 uses a model called Attention-based Recurrent Sequence Generator.
  • the End-to-End type NN directly learns the probability P (s
  • This NN also has the characteristics of both an acoustic model and a language model. Therefore, at first, it was attempted to decode using only NN without using language model. However, it has been found that decoding without an independent language model does not give the best results, and recently, the use of a language model in addition to the end-to-end type NN is the mainstream. In this case, however, how to combine the two becomes a problem.
  • an acoustic model based on an end-to-end type NN is usually learned in subword units (characters, phonemes, etc.), the output score is also in subword units. Since the score of the language model is at the word level, there is a problem in that it is difficult to combine both.
  • the word string to W is calculated by simple interpolation of both scores as shown in the following equation.
  • Non-Patent Document 1 proposes to divide the posterior probability by the prior probability P (c t ) in each frame.
  • an object of the present invention is to provide an acoustic model learning device capable of improving speech recognition accuracy in an acoustic model utilizing the characteristics of NN.
  • the acoustic model learning device when given an observation sequence of speech, calculates an end-to-to-probability for calculating a probability that the observation sequence is an arbitrary subword sequence.
  • This acoustic model learning device stores learning data consisting of an aligned set of an observation sequence of learning speech and a correct subword sequence corresponding to the learning speech, and a word model storing the appearance frequency of the word sequence. Used in connection with a computer-readable storage means.
  • This learning device optimizes the end-to-end neural network so that the total sum of the posterior probabilities of the correct subword sequence of the learning data over the entire learning data when the observation sequence of the learning speech is given is maximized.
  • the first optimization means to be converted and the observation sequence of the evaluation data are given, the expected value of the accuracy of the word string hypothesis estimated using the end-to-end neural network and the language model is And a second optimization means for further optimizing the end-to-end neural network so as to be maximized.
  • the second optimizing means generates a word string hypothesis by performing speech recognition on the observation sequence using an end-to-end neural network and a language model over the entire learning speech.
  • a speech recognition means for performing, a first calculation means for calculating a recognition accuracy for a word string constituting a hypothesis based on the hypothesis and a correct subword string of the learning data over the entire learning voice,
  • the second calculation means for calculating the expected value by calculating the sum of the products of the posterior probabilities of the hypothesis calculated by the language model at the time of hypothesis generation and the recognition accuracy of the word strings constituting the hypothesis
  • updating means for updating the acoustic model parameter set so that the expected value calculated by the second calculating means is increased, and updating of the acoustic model parameter set by the updating means is completed.
  • a determination unit that executes a determination process regarding whether or not the end condition is satisfied, and a first end of learning of the end-to-end neural network in response to the determination by the determination unit
  • the speech recognition means, the first calculation means, the second calculation processing, the hypothesis generation processing using the learning speech, the recognition accuracy calculation, the expected value calculation, the parameter set update, and the determination processing are performed again.
  • a control unit that selectively executes a second process for controlling the calculation unit, the update unit, and the determination unit. More preferably, the observation sequence is prepared in units of frames of speech signals representing learning speech, and the first calculation means inputs each subword of a hypothetical word string output from the end-to-end neural network.
  • a subword coincidence number calculating means for calculating the number of subwords in the subword string paired with the observed sequence and the number corresponding to each subword. More preferably, the determination means includes a hypothesis generation process for the entire learning speech by the speech recognition means, a recognition accuracy calculation process by the first calculation means, and a sum calculation process by the second calculation means. Means for determining that the end condition has been satisfied when it has been performed a predetermined number of times. The determination means includes means for determining that the end condition is satisfied in response to the difference between the parameter set defining the end-to-end type neural network and the previous processing being less than or equal to the threshold value. But you can.
  • the computer program according to the second aspect of the present invention functions to operate the computer as each unit of the acoustic model learning device described above.
  • FIG. 8 is a flowchart showing a control structure of a program that realizes processing for improving the accuracy of CTC-AM that has been initially learned in the method shown in FIG. It is a graph which shows the effect by repetition of learning by the method concerning one embodiment of the present invention. It is a graph which shows the effect by repetition of learning by the method concerning one embodiment of the present invention. It is a figure which shows the external appearance of the computer which implement
  • DNN 70 includes an input layer 72 and an output layer 78, and a plurality of hidden layers 74 and 76 provided between input layer 72 and output layer 78.
  • Each layer has a plurality of nodes.
  • the number of nodes in each layer is the same, which is five, but these numbers are usually various.
  • Adjacent nodes are coupled to each other. However, data flows only in one direction from the input layer side to the output layer side.
  • Each combination is assigned a weight and a bias. These weights and biases are learned from the learning data by the error back propagation method using the learning data.
  • the state estimated value S t of the HMM is output from the output layer 78.
  • the number of nodes in the output layer 78 is often designed to match the number of phonemes in the target language.
  • the output of each node in the output layer is the input speech.
  • the probability that the feature quantity is the phoneme represented by the node is shown. Therefore, the sum of the predicted state values output by each node of the output layer 78 is 1.
  • P (x t ) is common to the states of each HMM and can therefore be ignored in the arg max operation.
  • P (s t ) can be estimated by counting the number of each state in the aligned learning data. After all, in the case of the DNN-HMM hybrid system, the DNN output P (S t
  • FIG. 3 shows the relationship between RNN100 (t ⁇ 1) at time t ⁇ 1, RNN100 (t) at time t, and RNN (t + 1) at time t + 1.
  • each node in the hidden layer of RNN100 (t) receives its own output of RNN100 (t ⁇ 1) as well as each node in the input layer.
  • the RNN 100 can generate an output for a time series of input voice feature values.
  • the end-to-end type RNN in CTC, in addition to the node corresponding to the label (for example, phoneme), the node corresponding to the empty label ⁇ (shown at the right end in FIG. 3) is provided in the RNN output layer. Including. That is, the number of nodes in the output layer is the number of labels + 1.
  • the End-to-End type RNN as shown in FIG. 3 directly models the probability P (s
  • the output of the RNN is formulated as shown in the above equations (6) and (7).
  • FIG. 4 shows such a new framework.
  • the present embodiment relates to an apparatus for performing speech recognition along this framework.
  • CTC is adopted as an end-to-end type RNN, and a pronunciation sequence is adopted as a subword unit.
  • a new framework that recognizes speech using the characteristics of End-to-End RNN, and improve the learning method of CTC itself.
  • the probability of a plurality of phoneme strings 110 including label strings including empty label ⁇ is obtained from observation sequence 36 using RNN. This probability is modeled as Equation (7) above.
  • a mapping function ⁇ is applied to these phoneme strings 110 to obtain a plurality of pronunciation strings (subword strings) 112 as intermediate products. For example, the label sequence “AA ⁇ B ⁇ CC ⁇ ” and the label sequence “ ⁇ A ⁇ BB ⁇ C ⁇ ” are both mapped to the subword sequence “ABC” by the mapping function ⁇ .
  • the probability of the pronunciation sequence s when the observation sequence X is given is modeled as shown in Equation (6) above.
  • the probabilities of a plurality of word strings 30 obtained from the pronunciation string (subword string) 112 are further obtained. This probability is modeled by a word-level language model as P (W). Finally, the word string 30 with the highest probability is output as the speech recognition result. From the relationship described above, the word sequence ⁇ W of the speech recognition result for the observation sequence X is obtained by the following equation.
  • Equation (12) P (s
  • is the scaling factor.
  • the pronunciation sequence s and the observation sequence X need to satisfy the constraint of Equation (9).
  • the Viterbi algorithm is used to approximate equation (12). Note that P (W
  • P (s) is the language model probability in units of subwords
  • is the scaling factor.
  • P (s) can be calculated in the same way as a conventional language model. That is, it can be realized by an N-gram language model or a neural network.
  • the language model in units of subwords needs to be learned with a subword corpus.
  • the subword corpus can be easily realized by a method of converting words into subwords with respect to a normal text corpus.
  • W) indicates the word-subword conversion probability.
  • the conversion from word to subword is often a one-to-one conversion (eg, breaking a word into characters).
  • W) becomes 1, and the expression (13) is simplified as the following expression (14).
  • Equation (12) Substituting the right side of equation (13) into P (W
  • the recognition score is calculated by interpolating the posterior probability output from RNN and the language model probability.
  • W) related to a certain hypothesis a word obtained from a language model at the same word level as in the past.
  • the hypothesis score is calculated by dividing the product of the language model score P (W) and the subword posterior probability P (s
  • MAP posteriori
  • the target function F CTC ( ⁇ ) ( ⁇ is a parameter including an input / output weight matrix and a bias value of each node constituting the CTC-AM is expressed by the following equation: A parameter set ⁇ that maximizes the set) is obtained.
  • su represents a correct subword string for the u-th learning speech
  • X u represents the u-th learning speech
  • Pr ⁇ represents a score output by CTC-AM under the parameter set ⁇ .
  • the activation function value of the softmax function in the output of CTC-AM is calculated by the following formula.
  • the above equation is known to be able to be efficiently calculated using a forward-backward algorithm, and is used for learning by the back propagation method of the NN parameter set.
  • Equation (22) can be calculated efficiently using a forward-backward algorithm.
  • the voice recognition device 280 has a function of performing voice recognition on the input voice 282 and outputting the voice recognition text 284.
  • the voice recognition device 280 performs an analog / digital (A / D) conversion on the input voice 282 and outputs it as a digital signal, and the digitized signal output from the A / D conversion circuit 300
  • a frame processing unit 302 that frames audio data using a window that partially overlaps with a predetermined length and a predetermined shift amount, and performs predetermined signal processing on each frame output from the frame processing unit 302
  • a feature quantity extraction unit 304 that extracts a voice feature quantity of the frame and outputs a feature quantity vector is included.
  • MFCC Mel-Frequency Cepstrum Coefficient
  • An observation sequence is composed of feature vectors obtained in time series.
  • the speech recognition apparatus 280 further receives a feature quantity storage unit 306 for temporarily storing the feature quantity vector output from the feature quantity extraction unit 304 and a feature quantity vector stored in the feature quantity storage unit 306 as input, at each time point.
  • An acoustic model 308 composed of an end-to-end type RNN (CTC-AM) based on CTC, which outputs a vector indicating the posterior probability corresponding to a certain phoneme for each frame, and an output vector of the acoustic model 308
  • a decoder 310 for outputting a word string having the highest score (probability) as the speech recognition text 284 corresponding to the input speech 282.
  • the element of the vector output from the acoustic model 308 is a value indicating the probability that the frame is each phoneme for each phoneme. From this vector obtained in time series, each phoneme is selected for each frame, connected with a posteriori probability, and each phoneme is represented by a corresponding label, whereby a label string candidate is obtained in a lattice format.
  • This label column candidate may include an empty label ⁇ .
  • the posterior probability of each label sequence candidate can be calculated from the posterior probabilities of phonemes on each path of the lattice constituting the label sequence candidate.
  • the decoder 310 calculates a plurality of hypotheses that can be represented by the input observation sequence using the posterior probabilities of the label sequence candidates calculated by the acoustic model, outputs them together with the probabilities, and outputs them as hypotheses with a recognition score. Based on the score, the hypothesis having the highest score (probability) is output as speech recognition text 284.
  • the number of nodes in the input layer of the RNN constituting the acoustic model 308 matches the number of elements of the input vector (observation vector).
  • the number of nodes in the output layer of the RNN is equal to the number of subwords in the target language plus one. That is, the node of the output layer represents each subword (for example, phoneme) of the acoustic model by the HMM and the empty label ⁇ .
  • Each node of the output layer outputs a probability that the voice input at a certain time is a subword (including an empty label) represented by the node. Therefore, the output of the acoustic model 308 is a vector whose element is the probability that the input speech at that time is a subword represented by each node. The sum of the values of the elements of this vector is 1.
  • the decoder 310 calculates the probability of the word string W candidate for each element of the vector output from the acoustic model 308, generates a lattice while appropriately pruning the low probability branch, and calculates the hypothesis and the probability. Calculate the included recognition score.
  • the decoder 310 outputs the word string having the highest recognition score (high occurrence probability) among the word strings finally obtained as the speech recognition text 284. At this time, the decoder 310 calculates the recognition score while directly using the output of the acoustic model 308. Unlike the conventional DNN-HMM framework, it is not necessary to convert the output of the RNN in accordance with the output format of the HMM, and the recognition efficiency can be increased.
  • X) by calculating the word posterior probability P (W
  • the recognition accuracy can be increased theoretically.
  • the CTC-AM learning method adopts a method that optimizes the parameter set so that the error is minimized when the speech recognition is performed in combination with the language model (F MBR is maximized). is doing. Therefore, the final recognition accuracy can be further increased as compared with a method that maximizes the F CTC .
  • a learning system 350 for performing learning of CTC-AM 364 according to the present invention will be described with reference to FIG.
  • the learning system 350 uses a learning data storage unit 360 that stores data for learning of the CTC-AM 364, and learning data stored in the learning data storage unit 360, and when an observation sequence of learning speech is given,
  • CTC-AM 364 and language model An expression that is the expected value of the word recognition accuracy consisting of the sum of the posterior probabilities of the word string hypothesis estimated using and the recognition accuracy of the words constituting the word string hypothesis over the entire learning data Shown in (18)
  • the CTC-AM 364 and language model
  • the evaluation data storage unit 376 that stores evaluation data for evaluating the accuracy of the hypothesis by speech recognition by the CTC-AM 364, and the learning process of the CTC-AM 364 by the MBR learning processing unit 366 are completed once.
  • speech recognition is performed using the CTC-AM 364 using the evaluation data stored in the evaluation data storage unit 376, the word language model 368, the phoneme language model 370, and the word pronunciation dictionary 372, and based on the hypothesis.
  • the product of the recognition accuracy for the word constituting the hypothesis and the posterior probability of the hypothesis calculated by the language model at the time of hypothesis generation, and the recognition accuracy of the word constituting the hypothesis over the entire learning speech and accuracy evaluating unit 374 for evaluating the value of the objective function F MBR is the expected value of the speech recognition accuracy by calculating the sum of, commentary by accuracy evaluation unit 374
  • FIG. 7 is a flowchart showing a control structure of a program that realizes learning of CTC-AM 364 by the learning system 350.
  • the program based on the equation (17), the value of the (F CTC to maximize the value of F CTC using the learning data stored in the learning data storage unit 360 increases Step 400 for performing learning by updating the parameter set of CTC-AM 364, Step 402 for evaluating the accuracy of CTC-AM 364 for which learning has been completed in Step 400, A step 404 of storing the accuracy of the CTC-AM 364 evaluated immediately before in a storage device such as a memory (not shown) and maximizing the value of the target function F MBR shown in the equation (18) for the CTC-AM 364 (F MBR learning is performed by updating the parameter set of CTC-AM 364 to update the parameter set of CTC-AM 364, and evaluation accuracy is used to evaluate the accuracy of CTC-AM 364 for which MBR learning has been completed in step 406.
  • Step 408 and the evaluation result obtained in Step 408 are compared with the previous evaluation value stored in Step 404, and CTC-AM 364 is learned in response to whether the difference is equal to or less than a predetermined threshold value.
  • the learning end condition is not limited to this.
  • the learning may be terminated when MBR learning is completed a predetermined number of times.
  • FIG. 8 shows a control structure of a program for initializing CTC-AM executed in step 400 of FIG. 6 in a flowchart format.
  • the program includes a step 440 for initializing CTC-AM 364.
  • each parameter of CTC-AM 364 is initialized with a random number according to a normal distribution.
  • the learning data is divided into multiple batches.
  • learning of CTC-AM 364 is performed for each batch. That is, the program further executes step 442 for executing the processing 443 for all batches, step 448 for evaluating the CTC-AM 364 after learning, and completion of the evaluation results in step 448. And step 450 for determining whether or not the condition is satisfied. If the determination in step 450 is affirmative, the execution of this program ends. Otherwise, control returns to step 442.
  • Processing 443 includes step 444 of executing processing 446 for each sentence in the batch.
  • the process 446 first inputs the speech data of the sentence to the speech recognition apparatus using the CTC-AM 364 to estimate the phoneme string, and the phoneme string estimated in the step 460 and the phoneme label string attached to the learning speech. Are calculated by using the error back-propagation method so that the value of the target function F MBR shown in the equation (18) is increased by using the error calculated in step 462 and the error calculated in step 462. Modifying the parameter set.
  • [Operation] Learning of CTC-AM 364 by the learning system 350 described above is performed as follows. First, learning data including a correct subword sequence that is a phoneme sequence of the learning speech and its transcription is stored in the learning data storage unit 360. Similarly, evaluation data including a voice and a transcription thereof is stored in the evaluation data storage unit 376. As the word language model 368, the phoneme language model 370, and the word pronunciation dictionary 372, those that already exist may be used or may be created from the learning data storage unit 360. The learning data stored in the learning data storage unit 360 is divided into several batches.
  • the learning processing unit 362 learns the CTC-AM 364 using the learning data stored in the learning data storage unit 360 (step 400 in FIG. 7). Specifically, referring to FIG. 8, first, each parameter of CTC-AM 364 is initialized with a random number according to a normal distribution. Subsequently, the following processing is performed for each batch (step 442 in FIG. 8).
  • a phoneme label string is estimated by speech recognition by CTC-AM 364 for speech of a sentence in a batch being processed (step 460). Subsequently, an error is calculated using the estimation result and the transcription of the voice (step 462). Further, using this error, the parameter set of CTC-AM 364 is corrected so that the value of the target function F CTC becomes large (step 464).
  • step 446 is executed for all statements in the batch being processed. When the processing for a certain batch ends, the same processing is repeated for the next batch.
  • step 444 is completed for all batches of learning data
  • CTC-AM 364 is evaluated in step 448 (this is called one epoch). This evaluation is performed not by the accuracy evaluation unit 374 shown in FIG. 6, but by the learning processing unit 362, and the accuracy of the result of speech recognition of the evaluation data (not shown) by the learning processing unit 362 is integrated over the entire evaluation data. Is obtained by calculating In the present embodiment, if the difference between this accuracy and the accuracy obtained in the previous processing is equal to or greater than a threshold value, the same learning processing for CTC-AM 364 is repeated using the entire learning data again. When the difference in accuracy is less than the threshold value, the initial learning of CTC-AM 364 is terminated.
  • MBR learning processing unit 366 performs MBR learning for CTC-AM 364 (step 406 in FIG. 7).
  • the learning data stored in the learning data storage unit 360 is also used for this learning.
  • process 482 is executed for each learning speech included in learning data storage unit 360 (step 480).
  • CTC-AM 364 is used as an acoustic model, speech recognition is performed on the speech data to be processed using the word language model 368, the phoneme language model 370, and the word pronunciation dictionary 372, and a lattice composed of the speech recognition hypothesis is created.
  • Step 510 Within this lattice, error calculation is performed in accordance with the aforementioned equation (19) (step 512).
  • the parameter set of the CTC-AM 364 is corrected by the error back propagation method so that the value of the target function F MBR becomes large with respect to the CTC-AM 364 (step 514).
  • This process is executed for all audio data (this is also referred to as one epoch as in the process by the learning processing unit 362).
  • the accuracy of CTC-AM 364 is evaluated in step 484. This evaluation is performed by the accuracy evaluation unit 374 of FIG. 6 using the evaluation data stored in the evaluation data storage unit 376, the word language model 368, the phoneme language model 370, and the word pronunciation dictionary 372.
  • the evaluation itself of CTC-AM 364 is the same as that performed by the learning processing unit 362.
  • step 486 it is determined whether or not the MBR learning end condition is satisfied (by the learning / evaluation control unit 378 in FIG. 6). Specifically, it is determined in step 486 whether the difference between the accuracy evaluated in step 484 and the previous accuracy is less than a threshold value. If the determination is affirmative, MBR learning for CTC-AM 364 is completed. If the determination is negative, that is, if the difference between the current accuracy and the previous accuracy is greater than or equal to the threshold value, control returns to step 480, and MBR learning is performed again by the MBR learning processing unit 366 using the entire learning data. Is executed for CTC-AM 364.
  • the CTC-AM 364 may be used for the acoustic model 308 in FIG.
  • FIG. 10 and FIG. 11 show experimental results relating to changes in the speech recognition accuracy according to the above-described embodiment of the present invention and the speech recognition accuracy according to the conventional interpolation method due to repetition of MRB learning.
  • the Wall Street Journal (WSJ) corpus known as LDC93S6B and LDC94S13 was used as the learning corpus.
  • the learning speech was 77.5 hours, and the verification data was 3.8 hours.
  • As the CTC-AM a CTC-AM having a hidden layer of four layers made of phoneme-based bidirectional LSTM (BLSTM) was used. Each hidden layer has 320 nodes, and learning is performed with a 120-dimensional filter bank feature amount (40-dimensional filter bank feature amount + ⁇ + ⁇ ) in which both mean and variance are normalized. Initial learning was performed at a learning rate of 0.00004 and a momentum parameter of 0.95.
  • WSJ standard pruned trigram language model (pruned trigram LM) was used as the word language model.
  • the bigram phoneme language model was used for decoding by the MAP method.
  • the parameters scaling factors ⁇ and ⁇ , and word insertion penalty
  • the best parameters were used to decode the “eval92” set in the WSJ corpus.
  • FIG. 10 is for dev93 and FIG. 11 is for eval92.
  • a graph 530 is a graph according to a conventional interpolation method, and a graph 532 is according to the above embodiment.
  • a graph 540 is based on the conventional interpolation method, and a graph 542 is based on the above embodiment.
  • the CTC word error rate (7.5%) by the MAP method is considerably lower than that of the interpolation method (8.5%).
  • the word error rate is improved in both cases.
  • the MAP method word error rate was consistently lower than the interpolation method word error rate.
  • the accuracy of the method according to equation (15) is higher than that of the interpolation method, and further, the accuracy of CTC-AM is further improved by performing MBR learning on the CTC-AM, Was confirmed.
  • the speech recognition apparatus 280 and the learning system 350 according to the embodiment of the present invention can be realized by computer hardware and a computer program executed on the computer hardware.
  • FIG. 12 shows the external appearance of the computer system 630
  • FIG. 13 shows the internal configuration of the computer system 630.
  • this computer system 630 includes a computer 640 having a memory port 652 and a DVD (Digital Versatile Disk) drive 650, a keyboard 646, a mouse 648, and a monitor 642.
  • DVD Digital Versatile Disk
  • the computer 640 includes a CPU (Central Processing Unit) 656, a bus 666 connected to the CPU 656, the memory port 652, and the DVD drive 650, and a boot program. And the like, a read only memory (ROM) 658 for storing etc., a random access memory (RAM) 660 connected to the bus 666 for storing program instructions, system programs, work data and the like, and a hard disk 654.
  • Computer system 630 further includes a network interface (I / F) 644 that provides a connection to network 668 that allows communication with other terminals.
  • I / F network interface
  • a computer program for causing the computer system 630 to function as each function unit of the speech recognition device 280 and the learning system 350 according to the above-described embodiment is stored in the DVD 662 or the removable memory 664 that is mounted on the DVD drive 650 or the memory port 652. And further transferred to the hard disk 654.
  • the program may be transmitted to the computer 640 through the network 668 and stored in the hard disk 654.
  • the program is loaded into the RAM 660 when executed.
  • the program may be loaded directly from the DVD 662 to the RAM 660 from the removable memory 664 or via the network 668.
  • This program includes an instruction sequence including a plurality of instructions for causing the computer 640 to function as each functional unit of the speech recognition apparatus 280 and the learning system 350 according to the above embodiment.
  • Some of the basic functions necessary to cause computer 640 to perform this operation are an operating system or third party program running on computer 640 or various dynamically linked programming toolkits or programs installed on computer 640. Provided by the library. Therefore, this program itself does not necessarily include all the functions necessary for realizing the system, apparatus, and method of this embodiment.
  • the program is a system as described above by dynamically calling an appropriate program in an appropriate function or programming toolkit or program library in a controlled manner to obtain a desired result among instructions, It is only necessary to include an instruction for realizing a function as an apparatus or a method. Of course, all necessary functions may be provided only by the program.
  • learning that maximizes the objective function is performed in CTC-AM learning.
  • the present invention is not limited to such an embodiment.
  • learning may be performed in which a loss function is determined and the value of the loss function is maximized.
  • CTC-AM having LSTM as a constituent element was used.
  • CTC-AM is not limited to those using LSTM.
  • the target may be extended to all RNNs, or CNN may be used.
  • the difference between the accuracy of CTC-AM after learning and the accuracy before learning is less than a predetermined value in both learning by the learning processing unit 362 and learning by the accuracy evaluating unit 374.
  • the present invention is not limited to such an embodiment.
  • the number of repetitions may be a fixed value, and the learning may be terminated when the number of learning repetitions reaches that value.
  • the value represented by the equation (19) is used as a scale representing the accuracy of the word string W.
  • the present invention is not limited to such an embodiment.
  • the average of the probabilities obtained for the paths that pass through the word W among the paths of the lattice obtained by speech recognition using CTC-AM as the evaluation data is adopted as a measure representing the accuracy of the word string W. May be.
  • a value obtained by dividing this value by the probability of all paths in the lattice may be used.
  • the present invention can be used in a wide range of industries using voice, such as providing voice recognition devices, consumer and industrial devices that use voice recognition devices, and services that employ user interfaces that use voice recognition.
  • Word sequence 32 Pronunciation sequence 34 State sequence 36 Observation sequence 70 DNN 100 RNN 110 Phoneme sequence 112 Pronunciation sequence (subword sequence) 280 Speech recognition device 282 Input speech 302 Framing processing unit 304 Feature amount extraction unit 306 Feature amount storage unit 308 Acoustic model 310 Decoder 350 Learning system 362 Learning processing unit 364 CTC-AM 366 MBR learning processing unit 374 Accuracy evaluation unit 378 Learning / evaluation control unit 630 Computer system 640 Computer 654 Hard disk 656 CPU 658 ROM 660 RAM

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

【課題】ニューラルネットワーク(NN)の特性を活かした音響モデルにおいて、音声認識精度を高めることができる音響モデルの学習装置を提供する。 【解決手段】学習装置350は、学習データ記憶部360に記憶された学習データ内の観測系列が与えられたときの、学習データの正解サブワード列の事後確率の、学習データ全体に亘る和が最大となるように、NNによるConnectionist Temporal Classification音響モデル(CTC-AM)364を最適化する学習処理部362と、評価データ記憶部376に記憶された評価用データの観測系列が与えられたときに、CTC-AM364と言語モデル368、370とを用いて推定した単語列の仮説の精度を表す評価値の期待値が最大となるように、CTC-AM364をさらに最適化するMBR学習処理部366、精度評価部374及び学習・評価制御部378を含む。

Description

音響モデルの学習装置及びそのためのコンピュータプログラム
 この発明は音声認識技術に関し、特に、音声認識装置で用いられるCTC(Connectionist Temporal Classification)音響モデル(CTC-AM)を高精度化するための学習装置に関する。
 人間とコンピュータとのインターフェイスとして音声による入出力を用いる装置及びサービスが増えている。例えば携帯電話の操作にも音声による入出力が利用されている。音声による入出力では、その基盤をなす音声認識装置の認識精度はできるだけ高くする必要がある。
 音声認識として一般的な技術は統計的機械学習により得られたモデルを用いる。例えば音響モデルとしてはHMM(隠れマルコフモデル)が使用されることが多い。また、音声認識の過程で生成される文字列から、音素列がどの程度の確率で得られるかを算出するための単語発音辞書、及び、ある言語の単語列がどの程度の確率で出現するかを算出するための言語モデル等も使用される。
 従来のHMMを用いた音声認識装置における音声認識の基本的考え方について図1を参照して説明する。従来は、単語列30(単語列W)が様々なノイズの影響を経て観測系列36として観測されると考え、最終的な観測系列36を与える尤度が最も高くなるような単語列を音声認識の結果として出力する。この過程では、単語列Wが生成される確率をP(W)で表す。その単語列Wから、中間生成物である発音列32を経てHMMの状態系列S(状態系列34)が生成される確率をP(S|W)とする。さらに状態系列Sから観測Xが得られる確率をP(X|S)で表す。
 音声認識の過程では、先頭から時刻Tまでの観測系列X1:Tが与えられたときに、そのような観測系列を与える尤度が最大となるような単語列が音声認識の結果として出力される。すなわち、音声認識の結果の単語列Wは次の式(1)により求められる。なお、数式において文字の直上に記されている記号「~」は、明細書中では文字の直前に記載している。
Figure JPOXMLDOC01-appb-M000001
 この式の右辺をベイズの式により変形すると次が得られる。
Figure JPOXMLDOC01-appb-M000002
 さらにこの式の分子の第1項はHMMにより次のように求めることができる。
Figure JPOXMLDOC01-appb-M000003
 この式で状態系列S1:TはHMMの状態系列S1,…,STを示す。式(3)の右辺の第1項はHMMの出力確率を示す。式(1)~式(3)より、音声認識の結果の単語列~Wは次の式で求められる。
Figure JPOXMLDOC01-appb-M000004
 HMMでは、時刻tにおける観測値xtは状態stにしか依存しない。したがって、式(4)における、HMMの出力確率P(X1:T|S1:T)は次の式によって算出できる。
Figure JPOXMLDOC01-appb-M000005
 確率P(xt|st)は、ガウス混合モデル(GMM)により算出される。
 式(4)の他の項のうち、P(S1:T|W)はHMMの状態遷移確率と単語の発音確率との積により算出され、P(W)は言語モデルにより算出される。分母のP(X1:T)は各仮説について共通する値であり、したがってarg max演算の実行時には無視できる。
 最近、HMMにおける出力確率を、GMMではなくディープニューラルネットワーク(DNN)により算出するという、DNN-HMMハイブリッド方式と呼ばれるフレームワークについて研究がされている。DNN-HMMハイブリッド方式により、GMMを用いた音響モデルより高い精度が達成され、注目されている。さらに、DNN-HMMハイブリッド方式が優れた結果をもたらしていることから、DNNに替えて
畳み込みニューラルネットワーク(CNN)、リカレント型ニューラルネットワーク(RNN)、又はロングショートタームメモリネットワーク(LSTM)等のニューラルネットワーク(NN)を用いる方式が提案されている。これら方式により音声認識の精度がより高くなることが期待できる。
 しかし、このようなNN-HMMハイブリッド方式では、NNの出力が事後確率P(St|Xt)を表すため、そのままでは、出力確率P(Xt|St)を用いるHMMを用いた従来の枠組みに適合しない。この問題を解決するため、DNNの出力する事後確率P(St|Xt)に対してベイズの法則を適用して無理に式(5)に適合するよう出力確率P(Xt|St)を用いる形にNNの出力を変形して用いる必要がある。このような変形を用いないような音声認識方式が実現できれば、さらなる精度の向上が期待できる。
Y. Miao, M. Gowayyed, and F. Metze, "EESEN: End-to-end speech recognition using deep RNN models and WFST-based decoding," in Proc. ASRU, 2015, pp. 167-174. Dzmitry Bahdanau, Jan Chorowski, Dmitriy Serdyuk, Philemon Brakel and Yoshua Bengio, "End-to-end attention-based large vocabulary speech recognition", in Proc. ICASSP, 2016, pp 4945-4949.
 最近、音声認識のための音響モデルとして、End-to-End型のNNを用いることが提案されている(非特許文献1)。End-to-End型NNは、観測(音声特徴量)系列Xに対するサブワード列(発音列、発音記号列、音素列、又は文字列等)sの事後確率P(s|X)を、HMM等を介さずに直接表現する。したがって、DNN-HMMハイブリッドのような無理な変形を行うことなく音声認識に適用できる可能性がある。End-to-End型NNについては実施の形態に関連して後述するが、ここでは従来の方式の問題点について述べるために、End-to-End型NNで一般に利用されるEnd-to-End型RNNによる音声認識の考え方を説明する。なお、本発明はEnd-to-End型NN全般に対して適用可能なものであり、必ずしもRNNに限定されるものではない。
 RNNは、入力層側から出力層側への一方向のノード間の結合だけではなく、出力側の層から、隣接する入力側の層へのノード間の結合、同じ層内のノード間の結合、及び自己帰還結合等を含む構造を持つ。この構造のため、RNNは時間に依存する情報を表すことができるという、通常のフィードフォワード型のニューラルネットワークにはない性格を備えている。音声は、時間に依存する情報としては典型的である。したがってRNNは音響モデルに適していると考えられる。
 End-to-End型RNNの出力するラベルは、例えば音素又は音節等の任意のサブワード、文字又はHMMの状態等である。End-to-End型RNNを音響モデルに使用すると、HMMを用いた場合と比較して、NNの出力を無理に変形する必要がないので、認識精度の向上が期待できる。
 End-to-End型RNNは、前述したとおり、入力される観測系列Xからサブワード列sへの直接的なマッピングを学習する。End-to-End型RNNの代表例はCTCと呼ばれるモデルである。観測系列Xは通常サブワード列sよりも遥かに長いので、CTCではその長さの相違を吸収するためにRNNの出力に空ラベルφを追加する。すなわち、出力層に空ラベルφに対応するノードを設ける。この結果、RNNの出力にはフレーム単位のサブワード列c={c1,...,cT}(空ラベルφを含む。)が得られる。このサブワード列cをマッピング関数Φと呼ばれる関数によりフレーム数に依存しないサブワード列sに変換する。マッピング関数Φは、フレーム単位のサブワード列cから空ラベルφを削除し、さらにラベルの繰返しを1出力とみなすことでフレーム数に依存しないサブワード列sを出力する。マッピング関数Φを用いることで、以下のように観測系列Xがサブワード列sである確率P(s|X)を定式化できる。
Figure JPOXMLDOC01-appb-M000006
 ここで、yt ctは、時刻tにおけるRNNの出力ラベルctに対する出力スコアである。Φ-1はマッピング関数Φの逆関数である。すなわち、Φ-1(s)は、マッピング関数Φによりサブワード列sにマッピングされ得る全ての音素列cの集合を表す。
 End-to-End型NNは観測系列Xがサブワード列sを表す確率P(s|X)をニューラルネットワークで直接学習している点が特徴である。CTC以外の方式として、非特許文献2ではAttention-based Recurrent Sequence Generatorと呼ばれるモデルで表現している。
 End-to-End型NNは、HMMと異なり、観測系列Xがサブワード列sを表す確率P(s|X)を直接学習しているため、従来のHMMを用いたデコード方式を採用できない。このNNはまた、音響モデルと言語モデルとの双方の性格を持つ。そのために当初は言語モデルを用いずにNNのみを用いてデコードを行うことが試みられた。しかし、独立した言語モデルなしのデコードでは最良の結果が得られないことが判明し、最近ではEnd-to-End型NNに加えて言語モデルを用いたものが主流である。しかし、この場合には両者をどのように組み合わせるかが問題となる。さらに、End-to-End型のNNに基づく音響モデルは、通常はサブワード単位(文字、音素等)での学習が行われるため、出力されるスコアもサブワード単位である。言語モデルのスコアは単語レベルであるため、この点でも両者を組み合わせることが難しいという問題がある。
 従来は、両者のスコアを組み合わせる手法として、次式に示すような両スコアの単純な内挿により単語列Wを計算していた。
Figure JPOXMLDOC01-appb-M000007
 関数Ψは、単語列Wを全ての可能なサブワード列sの集合に変換する関数である。非特許文献1では、各フレームにおいて事後確率を事前確率P(ct)で除算することを提案している。
 しかし、このような内挿方式で計算したスコアを利用することには理論的根拠がなく、十分に高い認識性能も得られていない。NNを用いた音響モデルにおいて、明確な理論的根拠に基づいてNNを学習することにより、音声認識の精度をさらに高める必要がある。
 それ故に本発明の目的は、NNの特性を活かした音響モデルにおいて、音声認識精度を高めることができる音響モデルの学習装置を提供することである。
 本発明の第1の実施の形態に係る音響モデルの学習装置は、音声の観測系列が与えられたときに、当該観測系列が任意のサブワード列である確率を算出するための、End-to-End型ニューラルネットワークに基づく音響モデルの学習を行う。この音響モデルの学習装置は、学習音声の観測系列と、当該学習音声に対応する正解サブワード列との、アライメント済の組からなる学習データ、及び、単語列の出現頻度を記憶した単語モデルを記憶する、コンピュータ読取り可能な記憶手段に接続して用いられる。この学習装置は、学習音声の観測系列が与えられたときの、学習データの正解サブワード列の事後確率の学習データの全体に亘る和が最大となるようにEnd-to-End型ニューラルネットワークを最適化する第1の最適化手段と、評価用データの観測系列が与えられたときに、End-to-End型ニューラルネットワークと言語モデルとを用いて推定した単語列の仮説の精度の期待値が最大となるように、End-to-End型ニューラルネットワークをさらに最適化する第2の最適化手段とを含む。
 好ましくは、第2の最適化手段は、学習音声の全体に亘り、End-to-End型ニューラルネットワーク及び言語モデルを用いて、観測系列に対する音声認識を行うことにより、単語列の仮説の生成を行う音声認識手段と、学習音声の全体に亘り、当該仮説及び学習データの正解サブワード列に基づいて、仮説を構成する単語列に対する認識精度を算出する第1の算出手段と、学習音声の全体に亘り、仮説生成の際の言語モデルにより算出された仮説の事後確率と、当該仮説を構成する単語列の認識精度との積の和を算出することにより、期待値を算出する第2の算出手段と、第2の算出手段により算出される期待値が増加するように、音響モデルのパラメータセットを更新する更新手段と、更新手段による音響モデルのパラメータセットの更新が終了したことに応答して、終了条件が充足されているか否かに関する判定処理を実行する判定手段と、判定手段による判定に応答して、End-to-End型ニューラルネットワークの学習を終了する第1の処理と、学習音声を用いた仮説の生成処理、認識精度の算出、期待値の算出、パラメータセットの更新、及び判定処理を再度行うよう、音声認識手段、第1の算出手段、第2の算出手段、更新手段、及び判定手段を制御する第2の処理とを選択的に実行する制御手段とを含む。
 より好ましくは、観測系列は学習音声を表す音声信号のフレーム単位で準備されており、第1の算出手段は、End-to-End型ニューラルネットワークの出力する仮説の単語列の各サブワードが、入力された観測系列と組になったサブワード列の各サブワードとフレーム単位で一致している数を算出するためのサブワード一致数算出手段を含む。
 さらに好ましくは、判定手段は、音声認識手段による学習音声全体に亘る仮説の生成処理、第1の算出手段による認識精度の算出処理、及び、第2の算出手段による和の算出処理が、予め定められた回数だけ行われたときに、終了条件が充足されたと判定する手段を含む。
 判定手段は、End-to-End型ニューラルネットワークを規定するパラメータセットの前回の処理時との差がしきい値以下となったことに応答して、終了条件が充足されたと判定する手段を含んでもよい。
 本発明の第2の局面に係るコンピュータプログラムは、上記したいずれかの音響モデルの学習装置の各手段としてコンピュータを動作させるよう機能する。
従来の音声認識の考え方を示す図である。 通常のDNNの構成を模式的に示す図である。 RNNの構成と、異なる時刻のRNNのノード間の結合の例を模式的に示す図である。 本発明の1実施の形態における音声認識の考え方を示す図である。 本発明の1実施の形態に係る方法により学習したNNを採用する音声認識装置の構成を示すブロック図である。 本発明の1実施の形態に係る、CTC-AMの学習方法を実行する装置の概略ブロック図である。 本発明の1実施の形態に係る、CTC-AMの学習方法を実現するプログラムの制御構造を示すフローチャートである。 図7に示す方法においてCTC-AMの初期学習を行う処理を実現するプログラムの制御構造を示すフローチャートである。 図7に示す方法において、初期学習済のCTC-AMを高精度化する処理を実現するプログラムの制御構造を示すフローチャートである。 本発明の1実施の形態に係る方法による学習の繰返しによる効果を示すグラフである。 本発明の1実施の形態に係る方法による学習の繰返しによる効果を示すグラフである。 本発明の1実施の形態に係る音声認識装置を実現するコンピュータの外観を示す図である。 図12に示すコンピュータのハードウェア構成を示すブロック図である。
 以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。
 最初に、従来の技術で使用されていたDNNとRNNとの相違について説明する。図2を参照して、DNN70は、入力層72及び出力層78と、入力層72と出力層78との間に設けられた複数の隠れ層74及び76とを含む。この例では隠れ層は2層のみ示したが、隠れ層の数は2には限定されない。各層は複数個のノードを持つ。図2では各層におけるノード数はいずれも5個で同じであるが、これらの数は通常は様々である。隣り合うノード間は互いに結合されている。ただし、データは入力層側から出力層側へと一方向にしか流れない。各結合には重み及びバイアスが割り当てられている。これら重み及びバイアスは、学習データを用いた誤差逆伝搬法により学習データから学習される。
 DNN70においては、時刻tにおいて入力層72に時刻tにおける音声特徴量Xtが与えられると、出力層78からHMMの状態予測値Stが出力される。音響モデルの場合、出力層78のノード数は、対象となる言語の音素の数と一致するよう設計されることが多く、その場合には、出力層の各ノードの出力は、入力された音声特徴量がそのノードの表す音素である確率を示す。したがって、出力層78の各ノードの出力する状態予測値を合計すると1になる。
 図2に示すDNNにより求められるものは、P(St|Xt)である。すなわち、時刻tに音声特徴量Xtを観測したときの、HMMの状態Stの確率である。この例では、HMMの状態Stは音素に対応する。これを前記した式(5)と比較すると、DNNの場合、その出力をそのまま式(5)に適用(代入)できないことが分かる。そのため、従来は、以下に示すようにベイズの法則を用いてDNNの出力をP(Xt|St)に変換している。
Figure JPOXMLDOC01-appb-M000008
 式(10)において、P(xt)は各HMMの状態に共通であり、したがってarg max演算では無視できる。P(st)はアライメントされた学習データにおいて各状態の数を数えることで推定できる。結局、DNN-HMMハイブリッド方式の場合、DNNの出力P(St|Xt)を確率P(St)で割ることにより、従来のHMMを用いた枠組みの中でDNNを用いて認識スコアを計算していることになる。
 一方、End-to-End型RNNの構成の例を図3に示す。図3は、時刻t-1におけるRNN100(t-1)と、時刻tにおけるRNN100(t)と、時刻t+1におけるRNN(t+1)の間の関係を示す。この例では、RNN100(t)の隠れ層内の各ノードは、入力層の各ノードだけではなく、RNN100(t-1)の自分自身の出力を受けている。すなわち、RNN100は入力される音声特徴量の時系列に対する出力を生成できる。さらに、End-to-End型RNNのうち、CTCでは、RNNの出力層に、ラベル(例えば音素)に対応するノードに加えて空ラベルφに対応するノード(図3においては右端に示す)を含む。すなわち出力層のノード数はラベル数+1である。
 図3に示すようなEnd-to-End型RNNは、音声(音声特徴量)Xが発音列sである確率P(s|X)を直接モデル化する。したがってこうしたRNNを用いる音声認識はHMMには依存しない。RNNの出力は前掲の式(6)及び式(7)のように定式化される。
 End-to-End型RNNの特徴を活かして精度の高い音声認識を行うためには、DNN-HMMハイブリッド方式以外の枠組みを用いることが必要である。図4に、そのような新しい枠組みについて示す。本実施の形態はこの枠組に沿って音声認識を行う装置に関する。本実施の形態では、End-to-End型RNNとしてCTCを採用し、またサブワードの単位として発音系列を採用している。End-to-End型RNNの特性を活かして音声認識を行う新しい枠組みに基づいてCTCを用いたデコード方式を改良し、それにあわせてCTC自身の学習方法を改善する。
 図4を参照して、本実施の形態では、観測系列36からRNNを用いて空ラベルφを含むラベル列からなる複数の音素列110の確率を求める。この確率は前掲の式(7)のようにモデル化される。これら音素列110にマッピング関数Φを適用して中間生成物である複数の発音列(サブワード列)112を得る。例えばラベル列「AAφφBφCCφ」及びラベル列「φAφBBφCφ」はマッピング関数Φによりいずれもサブワード列「ABC」にマッピングされる。このマッピング関数により、観測系列Xが与えられたときの発音列sの確率は前掲の式(6)のようにモデル化される。ここでさらに発音列(サブワード列)112から得られる複数の単語列30の確率を求める。この確率はP(W)として単語レベルの言語モデルによりモデル化される。最終的に確率が最大となる単語列30が音声認識結果として出力される。以上の関係から、以下の式によって観測系列Xに対する音声認識結果の単語列~Wが得られる。
Figure JPOXMLDOC01-appb-M000009
 この式は以下のように変形・近似できる。
Figure JPOXMLDOC01-appb-M000010
 式(12)において、P(s|X)はCTCによる音響モデルのスコア(事後確率)を表す。αはそのスケーリングファクタである。発音列s及び観測系列Xは式(9)の制約を満たす必要がある。式(12)の近似にはビタビ・アルゴリズムを用いる。なお、RNNの学習時には、式(12)の第2式にしたがってP(W|s)を全てのsにわたって計算するが、デコード時には第3式のように近似することが多い。
 式(12)中で、P(W|s)は以下の式(13)により計算できる。
Figure JPOXMLDOC01-appb-M000011
 式(13)のうち、P(s)はサブワード単位の言語モデル確率であり、βはそのスケーリングファクタである。P(s)は従来の言語モデルと同様に計算できる。すなわち、Nグラム言語モデルでも、ニューラルネットワークでも実現できる。ただし、サブワード単位の言語モデルはサブワードコーパスで学習する必要がある。サブワードコーパスは、通常のテキストコーパスに対して単語をサブワードに変換する方法で容易に実現できる。
 式(13)の分子の第1項、P(s|W)は単語‐サブワード変換確率を示す。単語からサブワードへの変換は、多くの場合、1対1変換(例えば単語を各文字に分解すること)である。そうした場合には、P(s|W)は1になり、式(13)は次の式(14)のように簡略化される。
Figure JPOXMLDOC01-appb-M000012
 以上をまとめると、以下のようになる。式(12)のP(W|s)に式(13)の右辺を代入すると以下の式(15)が得られる。この式(15)に従って仮説のスコアを計算し、最もよいスコアの仮説を音声認識結果として選択する。
Figure JPOXMLDOC01-appb-M000013
 結局、RNNを用いる従来法では、式(6)~式(9)に示されるように、RNNの出力する事後確率と言語モデル確率とを内挿して認識スコアを算出している。これに対し、本実施の形態に係る手法では、式(15)に示すように、ある仮説に関する単語‐サブワード変換確率P(s|W)、従来と同様の単語レベルの言語モデルから得られる単語言語モデルスコアP(W)、及びRNNの出力するサブワード事後確率P(s|X)αの積を、サブワードレベルの言語モデルから得られる確率P(s)βで割ることにより仮説のスコアを算出する。各仮説についてこのスコアを算出し、最もよいスコアが得られる仮説を音声認識結果として選択する。RNNの出力する事後確率を最大化するという意味で、この方式をmaximum a
posteriori(MAP)方式デコーディングと呼ぶ。
 なお、上記式におけるCTC-AMの学習においては、以下の式により表される目標関数FCTC(θ)(θはCTC-AMを構成する各ノードの入出力の重み行列及びバイアス値を含むパラメータセット)を最大化するようなパラメータセットθを求める。
Figure JPOXMLDOC01-appb-M000014
この式において、suはu番目の学習音声に対する正解サブワード列、Xuはu番目の学習音声、PrθはパラメータセットθのもとでCTC-AMが出力するスコアを表す。この条件でCTC-AMの出力におけるsoftmax関数の活性化関数値は以下の式により計算される。
Figure JPOXMLDOC01-appb-M000015
上式は、フォワード‐バックワードアルゴリズムを用いて効率的に計算できることが知られており、NNパラメータセットの誤差逆伝搬法による学習に用いられている。
 ところで、MAP方式デコーディングに関してこのFCTCを最大化するということは、CTC-AMそれ自体を最適化しているということができる。しかし、実際にはCTC-AMを言語モデルと組み合わせて音声をデコードするので、CTC-AMを最適化したからといって単語認識率が最大化するとは限らない。そこで、本実施の形態では、FCTCを最大化する学習を行った後、さらに以下の式により示される目標関数FMBRを最大化するようにCTC-AMの学習を行う。
Figure JPOXMLDOC01-appb-M000016
Figure JPOXMLDOC01-appb-M000017
 FMBRをyt t(c)で微分することにより次式(21)を得る。
Figure JPOXMLDOC01-appb-M000018
 この結果、最終層のsoftmax層の活性化関数値au t(c)に関する誤差信号は以下のように計算される。
Figure JPOXMLDOC01-appb-M000019
 式(22)はフォワード・バックワードアルゴリズムを用いて効率的に計算できる。
 図5を参照して、本実施の形態に係る方法により学習したCTC-AMを用いる音声認識装置280について説明する。音声認識装置280は、入力音声282に対する音声認識を行って、音声認識テキスト284として出力する機能を持つ。音声認識装置280は、入力音声282に対してアナログ/デジタル(A/D)変換を行ってデジタル信号として出力するA/D変換回路300と、A/D変換回路300の出力するデジタル化された音声データを、所定長及び所定シフト量で一部重複するようなウィンドウを用いてフレーム化するフレーム化処理部302と、フレーム化処理部302の出力する各フレームに対して所定の信号処理を行うことにより、そのフレームの音声特徴量を抽出し特徴量ベクトルを出力する特徴量抽出部304とを含む。各フレーム及び特徴量ベクトルには、入力音声282の例えば先頭に対する相対時刻等の情報が付されている。音声特徴量としては、MFCC(Mel-Frequency Cepstrum Coefficient:メル周波数ケプストラム係数)、その一次微分、二次微分、及びパワー等が用いられるが、フィルタバンクの出力をそのまま特徴量として用いても良い。時系列で得られる特徴量ベクトルにより観測系列が構成される。
 音声認識装置280はさらに、特徴量抽出部304が出力する特徴量ベクトルを一時記憶するための特徴量記憶部306と、特徴量記憶部306に記憶された特徴量ベクトルを入力として、各時刻における各フレームがある音素に対応する事後確率を音素ごとに示すベクトルを出力する、CTCに基づくEnd-to-End型RNN(CTC-AM)からなる音響モデル308と、音響モデル308の出力するベクトルを用いて、入力音声282に対応する音声認識テキスト284として最もスコア(確率)の高い単語列を出力するためのデコーダ310とを含む。音響モデル308が出力するベクトルの要素は、そのフレームが各音素である確率を音素ごとに示す値である。時系列で得られるこのベクトルから、フレームごとに各音素を選択して事後確率付で連結し、各音素を対応するラベルで表すことにより、ラベル列候補がラティス形式で得られる。このラベル列候補には空ラベルφも含まれることがある。各ラベル列候補の事後確率は、そのラベル列候補を構成するラティスの各パス上の音素の事後確率から算出できる。
 デコーダ310は、音響モデルにより算出されたラベル列候補の事後確率を用いて、入力された観測系列が表しうる複数の仮説を、それらの確率とともに算出して認識スコア付の仮説として出力し、認識スコアに基づき、最もスコア(確率)の高い仮説を音声認識テキスト284として出力する。
 本実施の形態に係る音響モデル308を構成するRNNの入力層のノードの数は、入力ベクトル(観測ベクトル)の要素の数と一致する。RNNの出力層のノードの数は、対象となる言語のサブワードの数に1を加算したものと一致する。すなわち、出力層のノードは、HMMによる音響モデルの各サブワード(例えば音素)と、空ラベルφとを表す。出力層の各ノードには、ある時刻で入力された音声が、そのノードの表すサブワード(空ラベルを含む)である確率が出力される。したがって音響モデル308の出力は、その時刻での入力音声が、各ノードの表すサブワードである確率を要素とするベクトルである。このベクトルの要素の値を合計すると1になる。
 デコーダ310は、音響モデル308が出力するベクトルの各要素について、単語列Wの候補の確率計算をし、確率の低い枝については適宜枝刈りを行いながらラティスを生成して、仮説と確率計算を含めた認識スコアの計算をする。デコーダ310が、最終的に得られる単語列の中で最も認識スコアが高い(生起確率の高い)単語列を音声認識テキスト284として出力する。この際、デコーダ310は音響モデル308の出力を直接使いながら認識スコアを計算する。従来のDNN-HMMフレームワークのようにHMMの出力形式にあわせてRNNの出力を変換することが不要であり、認識の効率を高めることができる。また、End-to-End型RNNから得られた事後確率P(s|X)と、確率P(W|s)とを組み合わせて単語事後確率P(W|X)を算出することで、単語事後確率P(W|X)が最大となる仮説を探索する。End-to-end型RNNを用いる従来の方式のように理論的根拠のない内挿スコアを用いるものと異なり、理論的にも認識の精度を高めることが可能となる。またCTC-AMの学習方法として前述したように言語モデルと組み合わせて音声認識を行ったときに最も誤差が少なくなるように(FMBRが最大となるように)パラメータセットを最適化する方法を採用している。したがって、FCTCを最大化するような方式と比較して、最終的な認識精度をさらに高めることができる。
 図6を参照して、本発明に係るCTC-AM364の学習を行うための学習システム350  について説明する。学習システム350は、CTC-AM364の学習のためのデータを記憶する学習データ記憶部360と、学習データ記憶部360に記憶された学習データを用い、学習音声の観測系列が与えられたときの、学習データの正解サブワード列の事後確率の、学習データの全体に亘る和である式(16)に示すFCTCを最大化するようにCTC-AM364の学習(最適化)を行うための学習処理部362と、学習処理部362による学習が済んだCTC-AM364に対し、学習データ記憶部360に記憶された学習データを用い、学習音声の観測系列が与えられたときに、CTC-AM364と言語モデルとを用いて推定した単語列の仮説の事後確率と、当該単語列の仮説を構成する単語の認識精度との積の、学習データ全体に亘る和からなる単語の認識精度の期待値である式(18)に示したFMBRを最大化することにより、CTC-AM364をさらに最適化するよう、上記したMBR学習を行うためのMBR学習処理部366と、MBR学習処理部366がCTC-AM364による学習を行う際に参照する単語言語モデル368、音素言語モデル370、及び単語発音辞書372とを含む。
 学習システム350はさらに、CTC-AM364による音声認識による仮説の精度を評価するための評価データを記憶する評価データ記憶部376と、MBR学習処理部366によるCTC-AM364の学習処理が1回終了するごとに、評価データ記憶部376に記憶された評価データ、単語言語モデル368、音素言語モデル370、及び単語発音辞書372を用いて、CTC-AM364を用いて音声認識を行い、その仮説に基づいて、仮説を構成する単語に対する認識精度と、仮説生成の際の言語モデルにより算出された仮説の事後確率とを算出し、さらに学習音声全体に亘る、当該仮説を構成する単語の認識精度との積の和を算出することにより音声認識精度の期待値である目標関数FMBRの値を評価するための精度評価部374と、精度評価部374により評価された精度の期待値に基づいて、MBR学習処理部366によるMBR学習の終了条件が充足されたか否かを判定し、その結果にしたがってMBR学習処理部366を制御するための学習・評価制御部378とを含む。
 図7に、学習システム350によるCTC-AM364の学習を実現するプログラムの制御構造をフローチャート形式で示す。図7を参照して、このプログラムは、式(17)に基づいて、学習データ記憶部360に記憶された学習データを用いてFCTCの値を最大化するように(FCTCの値が増加するように)CTC-AM364のパラメータセットを更新することによる学習を行うステップ400と、ステップ400で学習が終了したCTC-AM364の精度を評価するステップ402と、MBR学習の終了判定のために、直前に評価されたCTC-AM364の精度を図示しないメモリ等の記憶装置に記憶するステップ404と、CTC-AM364に対して式(18)に示す目標関数FMBRの値を最大化するよう(FMBRの値が増加するよう)、CTC-AM364のパラメータセットを更新することによりMBR学習を行うステップ406と、評価データを用いて、ステップ406によりMBR学習が終了したCTC-AM364の精度を評価するステップ408と、ステップ408で得られた評価結果をステップ404で記憶された前回の評価値と比較し、その差が所定のしきい値以下か否かに応答してCTC-AM364の学習を終了する処理と、制御をステップ404に戻してMBR学習を繰り返す処理とを選択的に実行するステップ410とを含む。すなわち、本実施の形態では、MBR学習の結果得られたCTC-AM364による音声認識精度が、前回の音声認識精度からわずかしか向上しなかったときに学習を終了する。もちろん学習の終了条件はこれに限らない。例えば所定回数だけMBR学習が終了した時点で学習を終了させるようにしても良い。
 図8に、図6のステップ400で実行されるCTC-AMの初期化を行うプログラムの制御構造をフローチャート形式で示す。図8を参照して、このプログラムは、CTC-AM364を初期化するステップ440を含む。このステップでは、例えばCTC-AM364の各パラメータを、正規分布に従った乱数で初期化する。
 学習データは、複数のバッチに分割されている。以下の処理では、バッチごとにCTC-AM364の学習を行う。すなわち、このプログラムはさらに、全てのバッチについて、処理443を実行するステップ442と、ステップ442が終了した後に、学習後のCTC-AM364の評価を行うステップ448と、ステップ448での評価結果が終了条件を充足しているか否かを判定するステップ450とを含む。ステップ450での判定が肯定ならこのプログラムの実行は終了する。さもなければ制御はステップ442に戻る。
 処理443は、バッチ内の各文について処理446を実行するステップ444を含む。
 処理446は、まずCTC-AM364を用いる音声認識装置にその文の音声データを入力して音素列を推定するステップ460と、ステップ460で推定された音素列と学習音声に付された音素ラベル列とを比較して誤差を算出するステップ462と、ステップ462で算出された誤差を用いて、式(18)に示す目標関数FMBRの値が大きくなるよう、誤差逆伝播方式によりCTC-AM364のパラメータセットを修正するステップ464とを含む。
 [動作]
 上記した学習システム350によるCTC-AM364の学習は以下のように行われる。まず、学習音声とその書き起こしとの音素列である正解サブワード列を含む学習データが学習データ記憶部360に記憶される。また、同様に、音声とその書き起こしとを含む評価データが評価データ記憶部376に記憶される。単語言語モデル368、音素言語モデル370及び単語発音辞書372については、既に存在するものを用いても良いし、学習データ記憶部360から作成するようにしてもよい。学習データ記憶部360に記憶された学習データはいくつかのバッチに分割される。
 まず学習処理部362が学習データ記憶部360に記憶された学習データによりCTC-AM364の学習を行う(図7のステップ400)。具体的には、図8を参照して、最初にCTC-AM364の各パラメータを、正規分布に従った乱数で初期化する。続いて、各バッチに対して以下の処理を行う(図8のステップ442)。
 まず、処理中のバッチ中のある文の音声について、CTC-AM364による音声認識でその音素ラベル列の推定を行う(ステップ460)。続いて、その推定結果とその音声の書き起こしとを用いて誤差を算出する(ステップ462)。さらに、この誤差を用いて目標関数FCTCの値が大きくなるようにCTC-AM364のパラメータセットを修正する(ステップ464)。
 以上の処理446を、処理中のバッチ中の全ての文について実行する。あるバッチに対する処理が終わると、次のバッチに対して同じ処理を繰返す。こうして、学習データの全てのバッチについてステップ444を終了すると、ステップ448でCTC-AM364の評価を行う(これを1エポックという)。この評価は、図6に示す精度評価部374ではなく、学習処理部362が行うもので、図示しない評価データを学習処理部362によって音声認識した結果の誤差を評価データ全体にわたり総合してその精度を計算することにより得る。本実施の形態では、この精度と、前回の処理で得られた精度との差がしきい値以上であれば、再度、学習データ全体を使用してCTC-AM364に対する同じ学習処理を繰返す。精度の差がしきい値未満になったところでCTC-AM364の初期学習を終了する。
 CTC-AM364の初期学習が終了すると、MBR学習処理部366がCTC-AM364に対するMBR学習を行う(図7のステップ406)。本実施の形態では、この学習にも学習データ記憶部360に記憶された学習データを用いる。
 具体的には、図9を参照して、学習データ記憶部360に含まれる各学習音声について、処理482を実行する(ステップ480)。処理482では、CTC-AM364を音響モデルとし、単語言語モデル368、音素言語モデル370、及び単語発音辞書372を用いて処理対象の音声データに対する音声認識を行い、音声認識仮説からなるラティスを作成する(ステップ510)。このラティス内で、前述した式(19)にしたがって誤差計算を行う(ステップ512)。この誤差を用い、CTC-AM364に対し、目標関数FMBRの値が大きくなるようにCTC-AM364のパラメータセットを誤差逆伝播法により修正する(ステップ514)。この処理を全ての音声データに対して実行する(これも、学習処理部362による処理と同様、1エポックという。)。1エポックが終了すると、ステップ484でCTC-AM364の精度の評価を行う。この評価は図6の精度評価部374が評価データ記憶部376に記憶された評価データと、単語言語モデル368、音素言語モデル370、及び単語発音辞書372を用いて行う。CTC-AM364の評価自体は学習処理部362が行うものと同様である。
 続いてステップ486でMBR学習の終了条件が充足されているか否かが(図6の学習・評価制御部378により)判定される。具体的には、ステップ484で評価された精度と、前回の精度との差がしきい値未満か否かがステップ486において判定される。判定が肯定であればCTC-AM364に対するMBR学習は終了である。判定が否定であれば、すなわち今回の精度と前回の精度との差がしきい値以上であれば、制御はステップ480に戻り、もう一度、学習データ全体を用いてMBR学習処理部366によるMBR学習がCTC-AM364に対して実行される。
 このようにして学習が終わったCTC-AM364を用いて音声認識を行う場合には、図5の音響モデル308にこのCTC-AM364を用いるようにすればよい。
 [実験結果]
 図10及び図11に、上記した本発明の一実施例による音声認識精度と、従来の内挿方式による音声認識精度との、MRB学習の繰返しに伴う変化に関する実験結果を示す。
 実験では、学習コーパスとしてLDC93S6B及びLDC94S13として知られるウォール・ストリート・ジャーナル(WSJ)コーパスを用いた。学習音声は77.5時間分、検証データは3.8時間分であった。CTC-AMとしては、音素に基づく双方向LSTM(BLSTM)からなる、4層の隠れ層を持つものを用いた。各隠れ層は320ノードを持ち、平均及び分散がともに正規化された120次元のフィルタバンク特徴量(40次元のフィルタバンク特徴量+Δ+ΔΔ)により学習した。初期学習は学習率=0.00004及びモーメンタムパラメータ=0.95で行った。CTC-BLSTM-AMの学習後、この音響モデルに基づいてラティスを生成した。このとき、学習データ内の書き起こしデータを用いてスケーリングファクタα=1で学習した1グラム単語言語モデルを用いた。また、MAP方式によるラティスを生成する際には、学習音声の書き起こしを音素に変換したものにより学習したバイグラム音素言語モデルを、β=0.5として用いた(式(13)(14)(15)参照)。MBR学習は学習率=0.000001及びモーメンタムパラメータ=0.9に固定して5エポック行った。
 評価では、単語言語モデルとしてはWSJ標準のプルーンドトライグラム言語モデル(pruned trigram LM)を用いた。MAP方式によるデコーディングにおいては、バイグラム音素言語モデルを用いた。デコード時、パラメータ(スケーリングファクタα及びβ、並びに単語挿入ペナルティ)はWSJコーパス中の「dev93」セットにより調整し、最もよいパラメータをWSJコーパス中の「eval92」セットのデコードに用いた。
 図10及び図11において、横軸はMBR学習の繰返し回数を示し、縦軸は各繰返し終了時のCTC-AMによる音声認識結果の単語誤り率(WER)を示す。図10はdev93に対するものであり、図11はeval92に対するものである。
 図10において、グラフ530は従来の内挿方式によるグラフであり、グラフ532は上記実施の形態によるものである。同様に、図11において、グラフ540は従来の内挿方式によるものであり、グラフ542は上記実施の形態によるものである。
 図10及び図11において、MBR繰返し回数=0でのMAP方式の精度は、FCTCによる学習のみ行ったCTC-AMによる精度を表す。この時点でMAP方式によるCTCの単語誤り率(7.5%)が内挿方式のもの(8.5%)と比較してかなり低いことが分かる。MBR学習を行うと、両者とも単語誤り率は改善されていく。しかしこの場合も、一貫してMAP方式の単語誤り率が内挿方式の単語誤り率より低いという結果となった。
 すなわち、内挿方式のものよりも式(15)に従った方式の方の精度が高いこと、さらにそのCTC-AMに対してMBR学習を行うことによりCTC-AMの精度はさらに高くなること、が確認できた。
 [コンピュータによる実現]
 本発明の実施の形態に係る音声認識装置280及び学習システム350は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図12はこのコンピュータシステム630の外観を示し、図13はコンピュータシステム630の内部構成を示す。
 図12を参照して、このコンピュータシステム630は、メモリポート652及びDVD(Digital Versatile Disk)ドライブ650を有するコンピュータ640と、キーボード646と、マウス648と、モニタ642とを含む。
 図13を参照して、コンピュータ640は、メモリポート652及びDVDドライブ650に加えて、CPU(中央処理装置)656と、CPU656、メモリポート652及びDVDドライブ650に接続されたバス666と、ブートプログラム等を記憶する読出専用メモリ(ROM)658と、バス666に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するランダムアクセスメモリ(RAM)660と、ハードディスク654を含む。コンピュータシステム630はさらに、他端末との通信を可能とするネットワーク668への接続を提供するネットワークインターフェイス(I/F)644を含む。
 コンピュータシステム630を上記した実施の形態に係る音声認識装置280及び学習システム350の各機能部として機能させるためのコンピュータプログラムは、DVDドライブ650又はメモリポート652に装着されるDVD662又はリムーバブルメモリ664に記憶され、さらにハードディスク654に転送される。又は、プログラムはネットワーク668を通じてコンピュータ640に送信されハードディスク654に記憶されてもよい。プログラムは実行の際にRAM660にロードされる。DVD662から、リムーバブルメモリ664から又はネットワーク668を介して、直接にRAM660にプログラムをロードしてもよい。
 このプログラムは、コンピュータ640を、上記実施の形態に係る音声認識装置280及び学習システム350の各機能部として機能させるための複数の命令からなる命令列を含む。コンピュータ640にこの動作を行わせるのに必要な基本的機能のいくつかはコンピュータ640上で動作するオペレーティングシステム若しくはサードパーティのプログラム又はコンピュータ640にインストールされる、ダイナミックリンク可能な各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム、装置及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット又はプログラムライブラリ内の適切なプログラムを実行時に動的に呼出すことにより、上記したシステム、装置又は方法としての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供してもよい。
 上記実施の形態では、CTC-AMの学習では目標関数を最大化するような学習を行っている。しかし本発明はそのような実施の形態には限定されない。例えば、そのような目標関数ではなく、損失関数を定め、その損失関数の値を最大化するような学習を行っても良い。
 また上記実験では、CTC-AMとして、LSTMを構成要素とするものを用いた。しかし、当業者には明らかであるように、CTC-AMはLSTMを用いるものには限定されない。例えばRNN全般に対象を広げても良いし、CNNを用いるようにしてもよい。また上記実施の形態では、学習処理部362による学習及び精度評価部374による学習の双方において、学習後のCTC-AMの精度と学習前の精度との差が所定の値未満になることを終了条件としている。しかし本発明はそのような実施の形態には限定されない。例えば上記した学習のいずれか又は双方において、繰返し回数を固定した値とし、学習の繰返し回数がその値に達したら学習を終了するようにすることも可能である。
 さらに、上記実施の形態では、単語列Wの精度を表す尺度として式(19)により表される値を使用している。しかし本発明はそのような実施の形態には限定されない。例えば、評価データをCTC-AMを用いて音声認識することにより得られるラティスの各パスのうち、単語Wを通るものについて得られる確率を平均したものを単語列Wの精度を表す尺度として採用してもよい。又は、この値を、ラティスの全てのパスの確率で割ったものを用いても良い。
 本発明は、音声認識装置、音声認識装置を用いる民生用及び産業用機器、並びに音声認識を用いるユーザインターフェイスを採用したサービスの提供等、音声を利用した幅広い産業に利用できる。
 今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
30 単語列
32 発音列
34 状態系列
36 観測系列
70 DNN
100 RNN
110 音素列
112 発音列(サブワード列)
280 音声認識装置
282 入力音声
302 フレーム化処理部
304 特徴量抽出部
306 特徴量記憶部
308 音響モデル
310 デコーダ
350 学習システム
362 学習処理部
364 CTC-AM
366 MBR学習処理部
374 精度評価部
378 学習・評価制御部
630 コンピュータシステム
640 コンピュータ
654 ハードディスク
656 CPU
658 ROM
660 RAM

Claims (6)

  1.  音声の観測系列が与えられたときに、当該観測系列が任意のサブワード列である確率を算出するための、End-to-End型ニューラルネットワークに基づく音響モデルの学習を行う音響モデルの学習装置であって、
     前記音響モデルの学習装置は、学習音声の観測系列と当該学習音声に対応する正解サブワード列との、アライメント済の組からなる学習データ、及び、単語列の出現頻度を記憶した単語モデルを記憶する、コンピュータ読取り可能な記憶手段に接続して用いられ、
     前記学習音声の前記観測系列が与えられたときの、前記学習データの正解サブワード列の事後確率の前記学習データの全体に亘る和が最大となるように前記End-to-End型ニューラルネットワークを最適化する第1の最適化手段と、
     学習音声の観測系列が与えられたときに、前記前記End-to-End型ニューラルネットワークと前記言語モデルとを用いて推定した単語列の仮説の精度の期待値が最大となるように、前記第1の最適化手段により最適化された前記End-to-End型ニューラルネットワークをさらに最適化する第2の最適化手段とを含む、音響モデルの学習装置。
  2.  前記第2の最適化手段は、
     前記学習音声の全体に亘り、前記End-to-End型ニューラルネットワーク及び前記言語モデルを用いて、前記観測系列に対する音声認識を行うことにより、単語列の仮説の生成を行う音声認識手段と、
     前記学習音声の全体に亘り、当該仮説及び前記学習データの正解サブワード列に基づいて、前記仮説を構成する単語列に対する認識精度を算出する第1の算出手段と、
     前記学習音声の全体に亘り、前記仮説生成の際の前記言語モデルにより算出された仮説の事後確率と、当該仮説を構成する単語列の認識精度との積の和を算出することにより、前記期待値を算出する第2の算出手段と、
     前記第2の算出手段により算出される前記期待値が増加するように、前記音響モデルのパラメータセットを更新する更新手段と、
     前記更新手段による前記音響モデルのパラメータセットの更新が完了したことに応答して、終了条件が充足されているか否かに関する判定処理を実行する判定手段と、
     前記判定手段による判定に応答して、前記End-to-End型ニューラルネットワークの学習を終了する第1の処理と、前記学習音声を用いた前記仮説の生成、前記認識精度の算出、前記期待値の算出、前記パラメータセットの更新、及び前記判定処理を再度行うよう、前記音声認識手段、前記第1の算出手段、前記第2の算出手段、前記更新手段、及び前記判定手段を制御する第2の処理とを選択的に実行する制御手段とを含む、請求項1に記載の音響モデルの学習装置。
  3.  前記観測系列は前記学習音声を表す音声信号のフレーム単位で準備されており、
     第1の算出手段は、前記End-to-End型ニューラルネットワークの出力する前記仮説の単語列の各サブワードが、入力された観測系列と組になったサブワード列の各サブワードとフレーム単位で一致している数を算出するためのサブワード一致数算出手段を含む、請求項2に記載の音響モデルの学習装置。
  4.  前記判定手段は、前記音声認識手段による前記学習音声全体に亘る仮説の生成処理、前記第1の算出手段による前記認識精度の算出処理、前記第2の算出手段による前記和の算出処理、及び前記更新手段による前記音響モデルのパラメータセットの更新が、予め定められた回数だけ行われたときに、前記終了条件が充足されたと判定する手段を含む、請求項2又は請求項3に記載の音響モデルの学習装置。
  5.  前記判定手段は、前記End-to-End型ニューラルネットワークを規定するパラメータセットの、最新の処理時の値と前回の処理時の値との相違がしきい値未満となったことに応答して、前記終了条件が充足されたと判定する手段を含む、請求項2又は請求項3に記載の音響モデルの学習装置。
  6. 請求項1~請求項5のいずれかに記載の各手段としてコンピュータを動作させるよう機能する、コンピュータプログラム。
PCT/JP2017/035018 2016-10-05 2017-09-27 音響モデルの学習装置及びそのためのコンピュータプログラム WO2018066436A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016197107A JP6884946B2 (ja) 2016-10-05 2016-10-05 音響モデルの学習装置及びそのためのコンピュータプログラム
JP2016-197107 2016-10-05

Publications (1)

Publication Number Publication Date
WO2018066436A1 true WO2018066436A1 (ja) 2018-04-12

Family

ID=61830945

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/035018 WO2018066436A1 (ja) 2016-10-05 2017-09-27 音響モデルの学習装置及びそのためのコンピュータプログラム

Country Status (2)

Country Link
JP (1) JP6884946B2 (ja)
WO (1) WO2018066436A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109559749A (zh) * 2018-12-24 2019-04-02 苏州思必驰信息科技有限公司 用于语音识别系统的联合解码方法及系统
CN111508501A (zh) * 2020-07-02 2020-08-07 成都晓多科技有限公司 一种电话机器人中带口音的语音识别方法及系统
CN113223504A (zh) * 2021-04-30 2021-08-06 平安科技(深圳)有限公司 声学模型的训练方法、装置、设备和存储介质
CN114267337A (zh) * 2022-03-02 2022-04-01 合肥讯飞数码科技有限公司 一种语音识别系统及实现前向运算的方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020196021A1 (ja) * 2019-03-28 2020-10-01 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
US20220262356A1 (en) * 2019-08-08 2022-08-18 Nippon Telegraph And Telephone Corporation Determination device, training device, determination method, and determination program
CN110556099B (zh) * 2019-09-12 2021-12-21 出门问问信息科技有限公司 一种命令词控制方法及设备
WO2021144901A1 (ja) * 2020-01-16 2021-07-22 日本電信電話株式会社 音声認識装置、方法及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KANDA, NAOYUKI ET AL.: "Maximum A Posteriori based Decoding for CTC Acoustic Models", PROC. INTERSPEECH, 8 September 2016 (2016-09-08), pages 1868 - 1872, XP055498597 *
KINGSBURY, BRIAN: "Lattice-based Optimization of Sequence Classification Criteria for Neural-network Acoustic Modeling", PROC. ICASSP 2009, 19 April 2009 (2009-04-19), pages 3761 - 3764, XP031460091 *
SAK, HASIM ET AL.: "Learning Acoustic Frame Labeling for Speech Recognition with Recurrent Neural Networks", PROC. ICASSP 2015, 19 April 2015 (2015-04-19), pages 4280 - 4284, XP033064506 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109559749A (zh) * 2018-12-24 2019-04-02 苏州思必驰信息科技有限公司 用于语音识别系统的联合解码方法及系统
CN109559749B (zh) * 2018-12-24 2021-06-18 思必驰科技股份有限公司 用于语音识别系统的联合解码方法及系统
CN111508501A (zh) * 2020-07-02 2020-08-07 成都晓多科技有限公司 一种电话机器人中带口音的语音识别方法及系统
CN111508501B (zh) * 2020-07-02 2020-09-29 成都晓多科技有限公司 一种电话机器人中带口音的语音识别方法及系统
CN113223504A (zh) * 2021-04-30 2021-08-06 平安科技(深圳)有限公司 声学模型的训练方法、装置、设备和存储介质
CN113223504B (zh) * 2021-04-30 2023-12-26 平安科技(深圳)有限公司 声学模型的训练方法、装置、设备和存储介质
CN114267337A (zh) * 2022-03-02 2022-04-01 合肥讯飞数码科技有限公司 一种语音识别系统及实现前向运算的方法

Also Published As

Publication number Publication date
JP2018060047A (ja) 2018-04-12
JP6884946B2 (ja) 2021-06-09

Similar Documents

Publication Publication Date Title
JP6727607B2 (ja) 音声認識装置及びコンピュータプログラム
WO2018066436A1 (ja) 音響モデルの学習装置及びそのためのコンピュータプログラム
CN107615376B (zh) 声音识别装置及计算机程序记录介质
US8972253B2 (en) Deep belief network for large vocabulary continuous speech recognition
Kuo et al. Maximum entropy direct models for speech recognition
Dua et al. Discriminatively trained continuous Hindi speech recognition system using interpolated recurrent neural network language modeling
JP2023545988A (ja) トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP5249967B2 (ja) 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
CN112908317B (zh) 一种针对认知障碍的语音识别系统
Razavi et al. Acoustic data-driven grapheme-to-phoneme conversion in the probabilistic lexical modeling framework
JP4861912B2 (ja) 知識源を組込むための確率計算装置及びコンピュータプログラム
JP2004109590A (ja) 音響モデル作成方法および音声認識装置
JP5288378B2 (ja) 音響モデルの話者適応装置及びそのためのコンピュータプログラム
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP3589044B2 (ja) 話者適応化装置
JP2005156593A (ja) 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置
Yu Adaptive training for large vocabulary continuous speech recognition
Zhang et al. Application of pronunciation knowledge on phoneme recognition by lstm neural network
Ganji et al. Exploring recurrent neural network based acoustic and linguistic modeling for children's speech recognition
Khorram et al. Soft context clustering for F0 modeling in HMM-based speech synthesis
Sakti et al. Probabilistic Pronunciation Variation Model Based on Bayesian Network for Conversational Speech Recognition
Mahmoudi et al. A persian spoken dialogue system using pomdps
Fink et al. Integrated Search Methods

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17858274

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17858274

Country of ref document: EP

Kind code of ref document: A1