WO2021024491A1 - 判定装置、学習装置、判定方法及び判定プログラム - Google Patents

判定装置、学習装置、判定方法及び判定プログラム Download PDF

Info

Publication number
WO2021024491A1
WO2021024491A1 PCT/JP2019/031517 JP2019031517W WO2021024491A1 WO 2021024491 A1 WO2021024491 A1 WO 2021024491A1 JP 2019031517 W JP2019031517 W JP 2019031517W WO 2021024491 A1 WO2021024491 A1 WO 2021024491A1
Authority
WO
WIPO (PCT)
Prior art keywords
hypotheses
hypothesis
accuracy
model
auxiliary
Prior art date
Application number
PCT/JP2019/031517
Other languages
English (en)
French (fr)
Inventor
小川 厚徳
マーク デルクロア
成樹 苅田
中谷 智広
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2021537548A priority Critical patent/JP7192995B2/ja
Priority to US17/625,336 priority patent/US20220262356A1/en
Priority to PCT/JP2019/031517 priority patent/WO2021024491A1/ja
Publication of WO2021024491A1 publication Critical patent/WO2021024491A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Definitions

  • the present invention relates to a determination device, a learning device, a determination method, and a determination program.
  • Speech recognition is a technology that converts human-generated speech (utterances) into word strings (text) using a computer.
  • the speech recognition system outputs one word string (one best hypothesis), which is the highest hypothesis (speech recognition result) of the speech recognition score, for one input utterance.
  • the accuracy of voice recognition by the voice recognition device is not 100%. Therefore, instead of outputting only one best hypothesis for one input speech, N ( ⁇ 2) hypotheses are output, and the N best rescoring device is used to output the N hypotheses.
  • N-best rescoring There is a method called N-best rescoring that outputs the hypothesis estimated to have the highest speech recognition accuracy as the final speech recognition result.
  • N best rescoring and N best reranking are treated as synonymous.
  • N a predetermined number (N) of hypotheses with high scores are output from the hypotheses that are the voice recognition results. Then, in the N best rescoring method, a plausible hypothesis is output as a speech recognition result.
  • the hypothesis that maximizes the score is not always the best hypothesis. For this reason, a reranking device has been proposed that selects a plausible hypothesis by repeatedly applying a two-choice problem that selects a plausible hypothesis (a hypothesis close to the correct answer) among the two hypotheses in a tournament method (for example, See Non-Patent Document 1).
  • N hypotheses are arranged in descending order of score, two hypotheses are selected in order from the first hypothesis (hypothesis with the highest score), and a neural network that solves a learned two-choice problem. It is described that by inputting these hypotheses into (NN), the process of selecting one of the hypotheses is repeated, and the finally selected hypothesis is output as a speech recognition result.
  • the voice recognition result is output with a certain accuracy, but in recent years, the output of the voice recognition result is required to be stabilized in accuracy.
  • the present invention has been made in view of the above, and is a determination device capable of determining the most accurate hypothesis with stable accuracy for a plurality of hypotheses listed as solution candidates for a certain audio signal.
  • An object of the present invention is to provide a learning device, a determination method, and a determination program.
  • the determination device has an input unit that accepts the input of the N-best hypothesis associated with the score of the voice recognition accuracy, and the N-best hypothesis that accepts the input.
  • the two hypotheses are converted into hidden state vectors, and based on the hidden state vectors of the two hypotheses.
  • the accuracy of two hypotheses is based on multiple auxiliary models represented by a neural network that can determine the accuracy of the two hypotheses and the hidden state vectors of the two hypotheses transformed by the multiple auxiliary models. It is characterized by having a determination unit for determining the accuracy of two hypotheses by using a main model represented by a neural network capable of determining the height of the two hypotheses.
  • the learning device has an input unit that accepts inputs of two hypotheses for learning whose voice recognition accuracy is known, and when two hypotheses are given, converts the two hypotheses into a hidden state vector.
  • Hidden state of two hypotheses A plurality of auxiliary models represented by a neural network that can judge the accuracy of two hypotheses based on the vector, and two hypotheses transformed by multiple auxiliary models.
  • Each neural network individually performs the task of determining the accuracy of the two hypotheses with respect to the main model represented by the neural network, which can determine the accuracy of the two hypotheses based on the state vector. It is characterized by having a learning unit for performing multi-task learning regarded as.
  • the determination method is a determination method executed by the determination apparatus, and is one of a step of accepting input of the N best hypothesis associated with a score of voice recognition accuracy and an N best hypothesis that accepts the input.
  • the accuracy of the two hypotheses can be determined. It is characterized by including a step of determining the accuracy of two hypotheses using a main model represented by a neural network that can be determined.
  • the determination program selects two hypotheses to be determined from the step of accepting the input of the N-best hypothesis associated with the score of the voice recognition accuracy and the N-best hypothesis that accepts the input.
  • a neural that transforms the two hypotheses into hidden state vectors and can determine the accuracy of the two hypotheses based on the hidden state vectors of the two hypotheses. It is represented by a neural network that can determine the accuracy of the two hypotheses based on the multiple auxiliary models represented by the network and the hidden state vectors of the two hypotheses transformed by the multiple auxiliary models. Using the main model, let the computer perform the steps of determining the accuracy of the two hypotheses.
  • FIG. 1 is a diagram showing an example of a functional configuration of the reranking device according to the first embodiment.
  • FIG. 2 is a diagram for explaining the configurations of the first auxiliary model to the M auxiliary model and the main model.
  • FIG. 3 is a diagram showing a construction example of the first auxiliary model.
  • FIG. 4 is a flowchart showing a processing procedure of the reranking process according to the first embodiment.
  • FIG. 5 is a diagram illustrating a reranking process executed by the reranking apparatus shown in FIG. 1 for the N-best hypothesis.
  • FIG. 6 is a diagram showing an example of the functional configuration of the learning device according to the second embodiment.
  • FIG. 7 is a diagram illustrating the processing of the replacement unit shown in FIG. FIG.
  • FIG. 8 is a flowchart showing a processing procedure of the learning process according to the second embodiment.
  • FIG. 9 is a diagram showing a configuration of a main part of the reranking device according to the third embodiment.
  • FIG. 10 is a flowchart showing a processing procedure of the reranking process according to the third embodiment.
  • FIG. 11 is a diagram showing an example of a computer in which a reranking device and a learning device are realized by executing a program.
  • a model is used to obtain the hypothesis (word string) having the highest speech recognition accuracy, which is the final speech recognition result, among the N (N ⁇ 2) best hypotheses, which are the speech recognition results.
  • a ranking device and a learning device that realizes a model used for N-best re-ranking processing will be described.
  • this embodiment will be described in a unified manner with N-best re-ranking instead of N-best rescoring.
  • the purpose of this embodiment is to find the hypothesis with the highest speech recognition accuracy (Oracle hypothesis) from the N best hypothesis as the final speech recognition result.
  • the minimum function necessary for the model to find the Oracle hypothesis from the N-best hypothesis by re-ranking is, when focusing on the two hypotheses in the N-best hypothesis, which hypothesis We focused on the fact that it is possible to determine whether or not the person has higher speech recognition accuracy.
  • the minimum function required for the model in this embodiment is to be able to perform a one-to-one hypothesis comparison for two hypotheses in the N-best hypothesis.
  • the reranking device has a function of determining a hypothesis having a higher speech recognition accuracy among the two hypotheses by using a model having a function of comparing two one-to-one hypotheses.
  • a model a main model represented by a neural network (NN) and a plurality of auxiliary models represented by NN are used.
  • Each auxiliary model is a model that, when two hypotheses are given, converts the two hypotheses into hidden state vectors and determines the accuracy of the two hypotheses based on the hidden state vectors of the two hypotheses.
  • the main model is a model that determines the accuracy of the two hypotheses based on the hidden state vectors of the two hypotheses transformed by the plurality of auxiliary models.
  • the reranking device selects two hypotheses in ascending order of the score of the N best hypothesis, and of the two selected hypotheses, the hypothesis with higher speech recognition accuracy is selected as one of the following determination targets.
  • the other hypothesis is selected in ascending order from the undetermined hypothesis, and comparison is performed using a plurality of auxiliary models and main models.
  • the reranking device selects the hypothesis determined to have higher speech recognition accuracy in the previous determination as one hypothesis to be determined, and the hypothesis having the lowest rank among the undetermined hypotheses is the other. It is selected as the hypothesis of, and the comparison process for the two hypotheses by the plurality of auxiliary models and the main model is repeated. This made it possible to find the Oracle hypothesis from the N-best hypothesis with stable accuracy in the present embodiment.
  • FIG. 1 is a diagram showing an example of the functional configuration of the reranking device according to the first embodiment.
  • a predetermined program is read into, for example, a computer including a ROM (Read Only Memory), a RAM (Random Access Memory), a CPU (Central Processing Unit), and the CPU. It is realized by executing a predetermined program.
  • the reranking device 10 receives the input of the N best hypothesis output from the voice recognition device 2. Then, the reranking device 10 executes a judgment on the high or low voice recognition accuracy for two of the N best hypotheses for all N best hypotheses, and scores the hypothesis that remains as a hypothesis with high voice recognition accuracy. Is associated with and output as the final voice recognition result.
  • the voice recognition device 2 performs voice recognition using, for example, a voice recognition model, and outputs the N best hypothesis as the voice recognition result.
  • the model for speech recognition is learned (model parameters are optimized) using a plurality of utterances for learning and transcriptions (correct word strings) corresponding to each utterance as learning data.
  • the reranking device 10 includes a model storage unit 11, a hypothesis input unit 12, a hypothesis selection unit 13 (selection unit), a feature amount extraction unit 14, a determination unit 15, an execution control unit 16, and an output unit 17.
  • the model storage unit 11 stores the auxiliary model and the main model 110.
  • the model storage unit 11 stores the first auxiliary model 111 to the M auxiliary model 11M as auxiliary models.
  • the first auxiliary model 111 to M auxiliary model 11M and the main model 110 are models represented by NN.
  • the first auxiliary model 111 to the M auxiliary model 11M and the main model 110 are learned in advance using the N-best hypothesis for learning whose speech recognition accuracy is known.
  • the first auxiliary model auxiliary 111 to the M auxiliary model 11M convert two hypotheses into hidden state vectors when two selected hypotheses are given, and two hypotheses based on the hidden state vectors of the two hypotheses. It is represented by NN so that the level of accuracy of can be determined.
  • the first auxiliary model 111 to the M auxiliary model 11M can determine the level of speech recognition accuracy of the two hypotheses when two of the N best hypotheses for learning are given. To be learned.
  • the first auxiliary model 111 to the M auxiliary model 11M convert the two hypotheses into hidden state vectors using RNNs, respectively. Then, the first auxiliary model 111 to the M auxiliary model 11M use NN to generate posterior probabilities indicating that the order of accuracy of the two hypotheses is correct based on the hidden state vector.
  • the main model 110 is represented by NN so that the accuracy of the two hypotheses can be determined based on the hidden state vectors of the two hypotheses transformed in the first auxiliary model 111 to the M auxiliary model 11M, respectively. ..
  • the main model 110 is learned so that the accuracy of the two hypotheses can be determined based on the hidden state vectors of the two hypotheses for learning transformed in the first auxiliary model 111 to the M auxiliary model 11M, respectively. ..
  • the accuracy of the two hypotheses is arranged based on the hidden state vectors of the two hypotheses for learning transformed in the first auxiliary model 111 to the M auxiliary model 11M using NN. Generate posterior probabilities that indicate correctness.
  • the first auxiliary model 111 to the M auxiliary model 11M and the main model 110 are learned by multi-task learning, which is regarded as each neural network individually performing a task of determining the accuracy of the two hypotheses.
  • the hypothesis input unit 12 accepts the input of the N best hypothesis.
  • the N-best hypothesis is output by the voice recognition device 2.
  • another device may input the N-best hypothesis to the reranking device 10 via a network or the like.
  • the hypothesis selection unit 13 selects two hypotheses that are one-to-one comparison targets among the N best hypotheses that have received input, in ascending order of the scores of the N best hypotheses. In the first determination, the hypothesis selection unit 13 selects a hypothesis having the lowest score and a hypothesis one rank higher than the lowest hypothesis among the N best hypotheses as determination targets. In the subsequent determination, the hypothesis selection unit 13 selects a hypothesis whose voice recognition accuracy is higher in the previous determination as one of the two hypotheses. Then, the hypothesis selection unit 13 selects the hypothesis having the lowest score among the undetermined hypotheses as the other hypothesis of the two hypotheses. In this way, the hypothesis selection unit 13 selects two hypotheses to be compared in ascending order from the N-best hypotheses so that a one-to-one comparison is executed for all N-best hypotheses.
  • the feature amount extraction unit 14 extracts each feature amount for two hypotheses that are one-to-one comparison targets.
  • the feature extraction unit 14 describes the v-position hypothesis in the N-best hypothesis and the u (u ⁇ v ⁇ N) -position hypothesis (word string) in the N-best hypothesis, which are one-to-one comparison targets, respectively. Extract features.
  • the feature amount extraction unit 14 extracts a feature amount vector for each word in the hypothesis.
  • the feature vector of each word is, for example, a word vector in which a discrete value word ID is expressed as a continuous value vector by word embedding processing by NN, and an acoustic score (log-likelihood) of each word obtained by speech recognition processing. ) And language score (logistic probability) are used as auxiliary features and are linked to a word vector.
  • the determination unit 15 determines the accuracy of the two hypotheses by using the first auxiliary model 111 to the M auxiliary model 11M and the main model 110 for the two hypotheses to be compared one-on-one.
  • the determination unit 15 inputs the v-position hypothesis and the u-position hypothesis, which are one-to-one comparison targets, into the first auxiliary model 111 to the M auxiliary model 11M, respectively, and uses the output result of the main model 110 to determine which one.
  • Judge whether the hypothesis of is having high speech recognition accuracy.
  • the ranks of the hypotheses represented by the u-position and the v-position are those already given in the N-best hypothesis.
  • the re-ranking device 10 does not reset the ranking.
  • the u-position hypothesis is more voice-recognized than the v-position hypothesis.
  • the main model 110 when the hidden state vectors of the two hypotheses transformed in the first auxiliary model 111 to the M auxiliary model 11M are input, the u-position hypothesis has higher speech recognition accuracy than the v-position hypothesis.
  • the posterior probability indicating that is output.
  • the determination unit 15 determines that the u-position hypothesis has higher speech recognition accuracy than the v-position hypothesis. Further, when the posterior probability according to the main model 110 is less than 0.5, the determination unit 15 determines that the hypothesis at position v has higher speech recognition accuracy than the hypothesis at position u.
  • the first auxiliary model 111 to the M auxiliary model 11M may have the function of the feature amount extraction unit 14.
  • the determination unit 15 inputs two hypotheses to be compared into the first auxiliary model 111 to the M auxiliary model 11M, respectively.
  • the determination unit 15 leaves the hypothesis determined to have higher accuracy among the two series of comparison targets as the comparison target at the time of the next determination, and excludes the other hypothesis from the subsequent comparison targets.
  • the hypothesis selection unit 13 selects a hypothesis determined to be highly accurate by the determination unit 15 as one of the two series of hypotheses, and the hypothesis with the lowest score among the hypotheses not determined by the determination unit 15. Is selected as the other hypothesis. Specifically, as described above, the hypothesis selection unit 13 selects the hypothesis left by the determination unit 15 as one of the two hypotheses, and ranks the hypotheses that were previously compared among the N best hypotheses. The hypothesis of the next higher rank of is selected as the other hypothesis of the two hypotheses.
  • the execution control unit 16 controls to repeat the determination process by the determination unit 15 and the selection process by the hypothesis selection unit 13 until a predetermined condition is reached. In this case, the execution control unit 16 selects the two hypotheses to be compared in the hypothesis selection unit 13 and the feature extraction process in the feature extraction unit 14 so that a one-to-one comparison is executed for all N best hypotheses. , And the determination unit 15 controls to repeat the determination process. Specifically, the execution control unit 16 controls to repeat the hypothesis selection process, the feature amount extraction process, and the determination process until the comparison process is performed on the first-ranked hypothesis.
  • the output unit 17 selects the hypothesis that remains as a comparison target among the N best hypotheses.
  • the hypothesis with the highest speech recognition accuracy, that is, the final speech recognition result is output.
  • the output unit 17 outputs a hypothesis determined to have high accuracy in the final determination process as the final speech recognition result.
  • W (u) w 1 (u) , w 2 (u) , ..., W L (W (u)) (u ) is defined as the u-position hypothesis (word string) in the N-best hypothesis. .. Further, L (W (u) ) is defined as the length (number of words ) of W (u) .
  • a (u) a 1 (u) , a 2 (u) , ...,
  • a L (W (u)) (u) is defined as an auxiliary feature vector sequence corresponding to W (u). .. W (u) i-th word w i in the auxiliary feature vector a i of (u) (u) is, for example, an acoustic score obtained as a result of the speech recognition process performed by the speech recognition device (log likelihood) and language Score (logarithmic probability), etc.
  • log likelihood a result of the speech recognition process performed by the speech recognition device
  • language Score logarithmic probability
  • the auxiliary feature vector ai (u) includes a 17-dimensional basic auxiliary feature vector. Further, in the auxiliary feature vector ai (u) , the word prediction score of the forward (forword) LSTMLM may be used as the 18-dimensional auxiliary feature.
  • LSTMLM is a recurrent neural network (RNN) language model using a long short-term memory (LSTM) unit, and as will be described later, each of the first to third embodiments of the present embodiment. It is a model that constitutes an auxiliary model. Then, in the auxiliary feature vector ai (u) , the word prediction score of the backword LSTMLM may be used as the 19-dimensional auxiliary feature.
  • the backward LSTMLM predicts the occurrence probability of the current word from the future word string, and since it has a word prediction ability complementary to the forward LSTMLM, it is expected that the accuracy of the judgment information output by each auxiliary model will be improved. it can.
  • concat ( ⁇ ) represents a vector concatenation process.
  • embedded ( ⁇ ) is a word embedding process by NN (a process of expressing a discrete value word ID with a continuous value vector) (for details, for example, Yuta Tsuboi, Yuya Unno, Jun Suzuki, natural language by deep learning). Processing, MLP Machine Learning Professional Series, Kodansha, 2017. (Refer to Reference 2 below)).
  • the NN that performs embedded ( ⁇ ) is also a part of the first auxiliary model 111 to the M auxiliary model 11M, and its parameters are learned (optimized) at the same time as the parameters of the encoder RNN and the two-class classification FFNN described later.
  • X (u) , X (v) ) is defined as a posterior probability indicating that the sequence of high and low accuracy of the two hypotheses W (u) and W (v) is correct.
  • X (u) , X (v) ) is generated in each of the first auxiliary model 111 to the M auxiliary model 11M and the main model 110.
  • FIG. 2 is a diagram illustrating configurations of the first auxiliary model 111 to the M auxiliary model 11M and the main model 110.
  • a determination unit 15 is also described in order to explain the flow of processing.
  • each auxiliary model has two first conversion units, a first connection unit, and a determination information generation unit, respectively.
  • the first auxiliary model 111 will be described as an example.
  • the first auxiliary model 111 has two first conversion units 111-1u and 111-1v, a first coupling unit 111-2, and a determination information generation unit 111-3.
  • the first conversion unit 111-1u receives the input of the feature amount X (u) of the hypothesis W (u) out of the two hypotheses W (u) and W (v) to be compared, and converts it into a hidden state vector. ..
  • the first conversion unit 111-1v receives the input of the feature amount X (v) of the hypothesis W (v) out of the two hypotheses W (u) and W (v) to be compared, and converts it into a hidden state vector. ..
  • the first coupling unit 111-2 combines the two hidden state vectors converted by the first conversion unit 111-1u and the first conversion unit 111-1v.
  • the judgment information generation unit 111-3 sets posterior probabilities P (0
  • the other auxiliary models have the same configuration as the first auxiliary model 111, and for the two given hypotheses W (u) and W (v) , the transformation of the hidden state vector, the combination of the hidden state vectors, and the combination of the hidden state vectors, respectively. , Tasks including generation of judgment information can be executed respectively.
  • each auxiliary model has a different initial value at the time of random initialization at the time of learning.
  • the main model 110 has a main coupling unit 110-1 and a determination information generation unit 110-2.
  • the main coupling unit 110-1 combines the hidden state vectors of the two hypotheses transformed in the first auxiliary model 111 to the M auxiliary model 11M, respectively.
  • the judgment information generation unit 111-3 sets posterior probabilities P (0
  • the feature vector sequences X (u) and X (v) of the u-th hypothesis W (u) and the v-th hypothesis W (v) (u ⁇ v ⁇ N) in the N-best hypothesis are given to each auxiliary model. Then, the main model 110 outputs the posterior probability P (0
  • X (u) , X (v) ) of the symbol y ⁇ 0 ⁇ .
  • the determination unit 15 receives the posterior probabilities P (0
  • X (u) , X (v) ) is u.
  • the hierarchical relationship between the rank hypothesis and the v-rank hypothesis is the posterior probability that stochastically expresses the correctness.
  • the determination unit 15 determines the posterior probability P (0
  • u) , X (v) ) are acquired, and the acquired posterior probabilities are compared with a predetermined threshold to determine which of the u-position hypothesis and the v-position hypothesis has higher speech recognition accuracy.
  • X (u) , X (v) ) is less than 0.5, the determination unit 15 has higher speech recognition accuracy in the v-position hypothesis than in the u-position hypothesis. Is determined, and y 1 is output.
  • the determination unit 15 determines which of the u-position hypothesis and the v-position hypothesis has higher speech recognition accuracy.
  • the determination unit 15 determines that the hypothesis W (u) has a speech recognition accuracy equal to or higher than the hypothesis W (v) . Further, when the inequality of Eq. (1-2) is satisfied, the determination unit 15 determines that W (u) has a lower speech recognition accuracy than W (v) .
  • the determination unit 15 treats W (v) as a hypothesis with lower speech recognition accuracy than W (u), and excludes it from the hypothesis candidate with the highest speech recognition accuracy, that is, the candidate for the final speech recognition result. To do.
  • the determination unit 15 treats the original W (u) as a hypothesis with lower speech recognition accuracy than the original W (v) , and is a candidate for the hypothesis with the highest speech recognition accuracy, that is, the final speech recognition result. Exclude from the candidates.
  • FIG. 3 is a diagram showing a construction example of the first auxiliary model 111.
  • the NN that performs the word embedding process embed (.) Is omitted. The details will be described below.
  • the first auxiliary model 111 transforms the features of the two hypotheses into a hidden state vector using RNN. Specifically, in order to perform this processing, the first auxiliary model 111 uses the encoder RNN111-1a of the encoder-decoder model (see, for example, Reference 2) as the first conversion unit 111-1u, 111-. It has as 1v.
  • the first auxiliary model 111 uses the encoder RNN111-1a to represent W (u) and W (v) as a fixed-length hidden state vector. Then, the first auxiliary model 111 to the M auxiliary model 11M can compare W (u) and W (v) fairly by using these hidden state vectors.
  • the encoder RNN111-1a has a long short-term memory (LSTM) unit (see, for example, Reference 2) which is a kind of RNN.
  • LSTM unit includes a W feature vector x i of the i-th word w i of (u) (u) (u ), i-1 th hidden state vector h ⁇ i-1 ⁇ (u ) is given when, it gives the i-th hidden state vector h i and (u) as in the following equation (2).
  • Encoder RNN111-1a also performs for similar processing feature vector sequence X (v), obtaining X (v) encodes a hidden state vector h L (W (v)) (v).
  • the LSTM unit that processes X (u) and the LSTM unit that processes X (v) are the same, that is, the parameters may be shared or they are different LSTM units. You may. Further, in FIG. 3, x L (W (u)) (u) , x L (W (v)) (v) , h L (W (u)) (u) , h L (W (v)) The subscript portion L (W (u)) of (v) is indicated as L (W (u) ).
  • the two hidden state vectors h L (W (u)) (u) and h L (W (v)) (v) obtained above are connected by the first coupling portion 111-2.
  • the hidden state vector h ⁇ (u, v) ⁇ is obtained as the output of the encoder RNN111-a as shown in Eq. (3) below.
  • the first auxiliary model 111 uses a one-layer feedforward type NN (FFNN) 111-3a (see, for example, Reference 2) as a NN for one-class classification, and a determination information generation unit 113. Used as.
  • X (u) , X (v) ) can be obtained as the following equations (4) and (5).
  • linear ( ⁇ ) represents a linear conversion process (for details, refer to Reference 2, for example).
  • sigmoid ( ⁇ ) represents sigmoid processing.
  • the main coupling portion 110-1 performs the same vector connection processing as the first coupling portion 111-2.
  • the determination information generation unit 110-3 is composed of the one-class classification FFNN having the same configuration as the one-layer one-class classification FFNN111-3a of the determination information generation unit 111-3.
  • auxiliary model and main model 1 The first auxiliary model 111 and the main model 110 may be subjected to softmax processing instead of the sigmoid processing in the one-class classification FFNN.
  • X (u) , X (v) ) is the first posterior probability that the hierarchical relationship between the u-position hypothesis and the v-position hypothesis stochastically expresses the correctness.
  • X (u) , X (v) ) is a second posterior probability that stochastically expresses that the hierarchical relationship between the u-position hypothesis and the v-position hypothesis is incorrect.
  • softmax (.) Represents a softmax process.
  • softmax (.) Y represents the y-th element (probability value) of the posterior probability vector obtained as a result of the softmax processing.
  • the determination unit 15 determines the first posterior probabilities P (0
  • the determination unit 15 determines.
  • the u-position hypothesis is determined to have higher speech recognition accuracy than the v-position hypothesis.
  • the determination unit 15 determines that the first posterior probability P (0
  • the LSTM unit of the encoder RNN111-1a shown in FIG. 3 is a single-layer unidirectional LSTM unit, but it may be a multi-layer or bidirectional LSTM unit.
  • auxiliary model 3 [Other construction example 3 of auxiliary model]
  • a simple RNN having a sigmoid function or the like as an activation function
  • a Gated Recurrent Unit GRU
  • auxiliary model and main model 4 a one-layer feedforward type NN is used as the one-class classification NN in the construction example of FIG. 3, but a plurality of layers of feedforward type NN may be used.
  • a sigmod function, a tanh function, a Selected Liner Unit (ReLU) function, a Rectifier ReLU (PReLU) function, or the like can be used as the activation function.
  • ReLU Selected Liner Unit
  • PReLU Rectifier ReLU
  • auxiliary model the score calculated by the conventional N best rescoring model (for example, RNN language model) can be added and used as a new dimension in the feature quantity vector.
  • the conventional N best rescoring model for example, RNN language model
  • FIG. 4 is a flowchart showing a processing procedure of the reranking process according to the first embodiment.
  • the feature amount extraction unit 14 extracts the feature amounts of the hypotheses W (u) and W (v) (step S4).
  • the determination unit 15 inputs the features (X (u) , X (v) ) of the hypotheses W (u) and W (v ) into each auxiliary model (first auxiliary model 111 to M auxiliary model 11M) ( Step S5).
  • the determination unit 15 acquires the output result from the N best reranking model (step S6). Specifically, the determination unit 15 acquires posterior probabilities P (0
  • the determination unit 15 determines whether or not P (0
  • X (u) , X (v) ) ⁇ 0.5 (step S7: Yes), the determination unit 15 determines that the u-position hypothesis has higher speech recognition accuracy than the v-position hypothesis. After making a determination, the execution control unit 16 sets k u for k (step S8). k is the ranking (ranking) in the N best hypothesis of the hypothesis with the highest speech recognition accuracy among the hypotheses after the comparison processing.
  • step S7 when P (0
  • the execution control unit 16 tells the hypothesis selection unit 13 that the next hypothesis to be compared is displayed. Let them make a choice.
  • the reranking device 10 executes the processes of steps S4 to S10 for the N best hypotheses W (u) and W (v) .
  • step S10 Yes
  • the execution control unit 16 estimates that W (k) at the k-position has the highest voice recognition accuracy.
  • the hypothesis, that is, the final speech recognition result is output (step S12), and the process is terminated.
  • the hypothesis estimated to have the highest speech recognition accuracy is obtained by combining any two hypotheses into one set and repeating the determination of the high and low speech recognition accuracy for each of the plurality of sets. It can be output as the final voice recognition result.
  • the reranking device 10 determines a hypothesis having a higher speech recognition accuracy among the two hypotheses by using a model having a function of comparing two one-to-one hypotheses. I gave it a function. Further, the reranking device 10 uses a main model 110 represented by a neural network (NN) and a plurality of auxiliary models represented by NN as models.
  • NN neural network
  • each auxiliary model is made to execute a task for two input hypotheses. Even if the structure of each auxiliary model is the same, since the parameters are randomly initialized at the time of learning, different hidden state vectors are output even for the same input hypothesis. This increases the possibility that another auxiliary model can output an appropriate hidden state vector even if the hidden state vector output by one auxiliary model is not appropriate for one of the two input hypotheses. That is, there is a high possibility that a hidden state vector suitable for generating an accurate hypothesis judgment result is output from any of the auxiliary networks.
  • the reranking model according to the first embodiment can find the Oracle hypothesis from the N-best hypothesis with stable accuracy.
  • FIG. 5 is a diagram illustrating a reranking process executed by the reranking device 10 shown in FIG. 1 for the N-best hypothesis.
  • a hypothesis with a high score is more likely to be a more plausible hypothesis. If the hypotheses are selected in descending order of score, the hypothesis with the highest score will not be selected as the final output hypothesis unless it wins the N-1 judgment process, and it will be difficult to select it as a plausible hypothesis. It ends up.
  • the reranking device 10 starts with the hypothesis having the lowest score among the N best hypotheses so that the hypothesis that is likely to be finally selected as the output hypothesis can be determined with a small number of times. Select hypothesis pairs in order. In other words, as shown in FIG. 5, the reranking device 10 gives a seed right to the hypothesis with the highest score so that the comparison process is performed later in the comparison process for the entire N best hypothesis. , Makes it easy to be selected as a plausible hypothesis. In this way, the reranking device 10 finds out the Oracle hypothesis from the N best hypotheses with stable accuracy because the hypothesis that is likely to be finally selected as the output hypothesis is easily selected as a plausible hypothesis. Can be done.
  • FIG. 6 is a diagram showing an example of the functional configuration of the learning device according to the second embodiment.
  • the learning device 20 according to the second embodiment is realized by, for example, reading a predetermined program into a computer or the like including a ROM, RAM, a CPU, etc., and the CPU executing the predetermined program.
  • the model storage unit 21 and the learning device 20 have a hypothesis input unit 22 and a learning unit 23.
  • the model storage unit 21 stores the first auxiliary model 111 to the M auxiliary model 11M and the main model 110 to be learned.
  • the first auxiliary model 111 to the M auxiliary model 11M and the main model 110 convert the two hypotheses into hidden state vectors when the two selected hypotheses are given, and based on the hidden state vectors of the two hypotheses. It is represented by NN so that the accuracy of the two hypotheses can be judged.
  • the first auxiliary model 111 to the M auxiliary model 11M and two of the N best hypotheses are converted into hidden state vectors using RNN. Then, the first auxiliary model 111 to the M auxiliary model 11M use NN to generate posterior probabilities indicating that the arrangement of high and low accuracy of the two hypotheses is correct based on the hidden state vector as judgment information.
  • the main model 110 is represented by NN so that the accuracy of the two hypotheses can be determined based on the hidden state vectors of the two hypotheses transformed in the first auxiliary model 111 to the M auxiliary model 11M, respectively. ..
  • the accuracy of the two hypotheses is arranged based on the hidden state vectors of the two hypotheses for learning transformed in the first auxiliary model 111 to the M auxiliary model 11M using NN.
  • Generate posterior probabilities that indicate correctness.
  • the hypothesis input unit 22 accepts the input of the N best hypothesis for learning whose voice recognition accuracy is known.
  • the N-best hypothesis for learning it is assumed that voice recognition is performed for each utterance in the learning data and the N-best hypothesis of each utterance is obtained. Moreover, since it is learning data, the speech recognition accuracy of all hypotheses is known. Further, it is assumed that the feature vector sequence is extracted for all the hypotheses in the N-best hypothesis as described above.
  • the learning unit 23 has two NNs for each of the first auxiliary model 111 to the M auxiliary model 11M and the main model 110. Have students perform multi-task learning, which is considered to be performed individually for tasks that determine the accuracy of one hypothesis.
  • the learning unit 23 calculates a predetermined loss for each task executed by each NN, and sets the weighted sum of each loss as the total loss function. Then, the learning unit 23 updates the value of the parameter of each NN based on the total loss function.
  • the learning unit 23 may weight each loss with equal weight. Further, since the determination information output by the main model 110 is used for the determination in the determination unit 15, the learning unit 23 may give the main model 110 a larger weight than the other auxiliary models.
  • the learning unit 23 uses the first auxiliary model 111 to M auxiliary model 111 to M auxiliary so that the first auxiliary model 111 to M auxiliary model 11M and the main model 110 can correctly determine the level of speech recognition accuracy of these two hypotheses. Training (optimization of parameters) of the model 11M and the main model 110 is performed.
  • the learning unit 23 inputs the feature quantity vector sequence and the corresponding teacher label into the first auxiliary model 111 to the M auxiliary model 11M, and inputs the first auxiliary model 111 to the M auxiliary model 11M and the main.
  • the first auxiliary model 111 to the M auxiliary model 11M and the main model 110 are trained so that the model 110 can correctly output the corresponding teacher labels when these feature quantity vectors are given.
  • the learning unit 23 has a teacher labeling unit 231 and a replacement unit 232.
  • 1 Auxiliary model 111 to M
  • the auxiliary model 11M and the main model 110 are trained.
  • the first auxiliary model 111 to M auxiliary model 11M and the main model 110 are trained.
  • the replacement unit 232 learns the first auxiliary model 111 to the M auxiliary model 11M and the main model 110 by exchanging the order of two hypotheses among the N best hypotheses for learning and also exchanging the corresponding teacher labels.
  • FIG. 7 is a diagram illustrating the processing of the replacement unit 232 shown in FIG.
  • the order of the two hypotheses is exchanged and the teacher label y is changed to 1 ((2) in FIG. 7). reference).
  • the order of the two hypotheses is exchanged and the teacher label y is changed to 0.
  • FIG. 8 is a flowchart showing a processing procedure of the learning process according to the second embodiment.
  • W (u) and W (v) are given as two hypotheses from the N best hypothesis, and the accuracy of W (u) is higher than the accuracy of W (v).
  • the processing procedure of the learning process when it is high is shown.
  • the learning unit 23 causes the first auxiliary model 111 to the M auxiliary model 11M and the main model 110 to perform multi-task learning, and sets the model parameters of the first auxiliary model 111 to the M auxiliary model 11M and the main model 110. It is updated (step S23).
  • the first auxiliary model 111 when the feature quantities vectors X (u) and X (v) of these two hypotheses W (u) and W (v) are input to the first auxiliary model 111 to the M auxiliary model 11M, the first auxiliary model Ideally, the 111th to Mth auxiliary models 11M and the main model 110 should output posterior probabilities of P (0
  • the learning unit 23 Based on the above input, the learning unit 23 performs model parameters (encoder RNN (LSTM unit), one class classification FFNN, and word embedding process embedded (..)) of the first auxiliary model 111 to M auxiliary model 11M and the main model 110. ) Is updated at the same time as the NN parameter.
  • model parameters encoder RNN (LSTM unit), one class classification FFNN, and word embedding process embedded (..)
  • the replacement unit 232 replaces the order of the hypotheses W (u) and W (v) (step S24). That is, the replacement unit 232 sets the hypothesis that was originally W (v) as W (u) and the hypothesis that was originally W (u) as W (v) . In this case, the accuracy of W (u) is lower than the accuracy of W (v) .
  • the first auxiliary model 111 to the M auxiliary model 11M and the main model 110 should ideally output posterior probabilities of P (0
  • X (u) , X (v) ) 0.
  • the learning unit 23 causes the first auxiliary model 111 to the M auxiliary model 11M and the main model 110 to perform multitask learning, and causes the first auxiliary model 111 to the M auxiliary model 11M and the main model to perform multitask learning. 110 is updated (step S27), and the learning process for the two hypotheses W (u) and W (v) is completed.
  • the learning device 20 repeats the above procedure for the N best hypothesis of each utterance in the learning data, and further repeats the repetition itself several times (how many epochs).
  • the learning unit 23 can perform further specific procedure of learning in the same manner as the conventional NN learning (see, for example, Reference 2 for details).
  • the learning device 20 has two of the N best hypotheses for learning in which the first auxiliary model 111 to the M auxiliary model 11M and the main model 110 have known speech recognition accuracy.
  • the hypothesis As one set, multi-task learning is performed in advance so that the level of speech recognition accuracy can be determined for each of the plurality of sets. Therefore, the learning device 20 can realize the first auxiliary model 111 to the M auxiliary model 11M and the main model 110, which are optimal for performing N best re-ranking, based on the latest NN.
  • the reranking device 10 can accurately compare the two hypotheses one-to-one by using the first auxiliary model 111 to the M auxiliary model 11M and the main model 110 learned in the learning device 20. It is possible to extract the Oracle hypothesis with a stable system.
  • Example 1 for improving the efficiency of learning processing The processing procedure of the learning process shown in FIG. 8 has a high calculation cost. For example, assuming that E is the number of epochs and M is the number of utterances in the learning data, the maximum number of times the model parameters are updated in the above learning procedure is E ⁇ M ⁇ N ⁇ 2 ⁇ NC 2 . Normally, E is about several tens, M is at least tens of thousands, and N is about 100 to 1000 as described above, so that the number of times the model parameters are updated reaches an enormous number. Therefore, in the present embodiment, it is preferable to improve the efficiency of learning. Therefore, an example 1 of improving learning efficiency will be described below.
  • N-best rescoring the main purpose of N-best rescoring is to find the Oracle hypothesis as the final speech recognition result from the N-best hypothesis. In other words, it suffices if the Oracle hypothesis can be accurately distinguished from the other N-1 hypotheses. In order to realize this, one of the two hypotheses input to the N best re-ranking model during learning is set as the Oracle hypothesis. As a result, the number of times the model parameters are updated can be reduced to E ⁇ M ⁇ N ⁇ 2 ⁇ (N-1).
  • Example 2 for improving learning efficiency will be described.
  • Learning Efficiency In Example 1, when the N-best hypothesis was given, the Oracle hypothesis contained therein was compared with the other N-1 hypotheses. Improving the efficiency of learning processing In Example 2, the number of other hypotheses to be compared with the Oracle hypothesis is narrowed down.
  • Hypothesis 1 is a hypothesis with the next highest speech recognition accuracy after the Oracle hypothesis.
  • Hypothesis 2 is the hypothesis with the highest speech recognition score.
  • Hypothesis 3 is a hypothesis with the lowest speech recognition accuracy.
  • Hypothesis 4 is the hypothesis with the lowest speech recognition score.
  • Hypothesis 1 and 2 are hypotheses with high (or presumed high) speech recognition accuracy, and are difficult to distinguish from the Oracle hypothesis.
  • Hypothesis 3 and Hypothesis 4 are hypotheses with low (or presumed low) speech recognition accuracy, and are easy to distinguish from the Oracle hypothesis (must be surely distinguished).
  • the number of model parameter updates can be reduced to E ⁇ M ⁇ N ⁇ 2 ⁇ 4.
  • the remaining N-5 excluding the Oracle hypothesis and these four hypotheses from the N best hypothesis may be selected and used as an alternative hypothesis together with the above four hypotheses.
  • a predetermined number of hypotheses extracted according to a predetermined rule may be selected and used as an alternative hypothesis together with the above four hypotheses.
  • Q hypotheses can be obtained at regular intervals or at random. Select and use as the other hypothesis along with the four hypotheses.
  • the number of times the model parameters are updated is E ⁇ M ⁇ N ⁇ 2 ⁇ (4 + Q).
  • Q is 5 to 50.
  • the numerical values in the table are the WER (Word error rate) rate [%], and indicate Dev (Development) and Eval (Evaluation).
  • the serial number "1" in Table 1 is the N best re-ranking result described in Non-Patent Document 1.
  • the serial number “2” in Table 1 is a result when the reranking device 10 according to the first embodiment has eight auxiliary models.
  • the serial number "3” uses the word prediction scores of the forward and backward LSTMLM as auxiliary features of the 18th period and the 19th dimension.
  • the serial number "4" is the oracle shown for reference.
  • Non-Patent Document 1 of serial number "1” can sufficiently reduce WER, but the reranking device 10 having eight auxiliary models of serial number “2” further WER reduction can be realized.
  • the evaluation result of the serial number "3” it was confirmed that a complementary WER reduction effect can be obtained by using the word prediction score of LSTMLM in both directions and eight auxiliary models.
  • the evaluation was also performed with a configuration in which the number of auxiliary models was 2 or 4, and it was confirmed that the WER can be reduced as the number of auxiliary models is increased.
  • the reranking device 10 according to the first embodiment can realize stable WER reduction as compared with the reranking method described in Non-Patent Document 1.
  • FIG. 9 is a diagram showing a configuration of a main part of the reranking device according to the third embodiment.
  • the reranking device has a weighting unit 18 in front of the determination unit 15.
  • the weighting unit 18 acquires all the determination information output from the first auxiliary model 111 to the M auxiliary model 11M and the main model 110, and calculates the weighted sum for each determination information.
  • the weight corresponding to each judgment information is set in advance.
  • the weighting unit 18 may weight each determination information with equal weight for all auxiliary models and the main model 110. Further, the weighting unit 18 may give the main model 110 a larger weight than the other auxiliary models. Further, the weighting unit 18 has one layer of linear NN in which the weights for each determination information are learned in advance, and when each determination information is input, the weight for each determination target may be obtained.
  • the determination unit 15 determines the accuracy of the two hypotheses based on the value of the weighted sum calculated by the weighting unit 18. For example, in the determination unit 15, the value obtained by normalizing the weighted sum of the determination information so as to fall within the range of 0 to 1 is 0, assuming that each of the determination information indicates the probability that the hypothesis W (u) is selected. If it is 5.5 or more, select hypothesis W (u) , otherwise select hypothesis W (v) .
  • FIG. 10 is a flowchart showing a processing procedure of the reranking process according to the third embodiment.
  • Steps S31 to S36 shown in FIG. 10 are the same processes as steps S1 to S6 shown in FIG.
  • the weighting unit 18 acquires all the determination information output from the first auxiliary model 111 to the M auxiliary model 11M and the main model 110, and performs a weighting process for calculating the weighted sum for each determination information (step S37). ). Then, the accuracy of the two hypotheses is determined based on the value of the weighted sum calculated by the weighting unit 18.
  • Steps S38 to S43 are the same processes as steps S7 to S12 shown in FIG.
  • each determination information is weighted according to each auxiliary model or main model 110, and the accuracy of the two hypotheses is determined based on the value of the weighted sum. Therefore, the Oracle hypothesis is used. The extraction accuracy can be maintained.
  • the first auxiliary model 111 to the M auxiliary model 11M and the main model 110 illustrated in FIG. 1 have been described as models for re-ranking the N-best hypothesis of speech recognition.
  • the first auxiliary model 111 to M auxiliary model 11M and the main model 110 of the first to third embodiments of the present embodiment are not limited to application of speech recognition to the N-best hypothesis, and all tasks adopting the N-best hypothesis. Applicable to.
  • this embodiment can be applied to machine translation, sentence summarization, and the like.
  • a model represented by NN is used for two of the series.
  • the series with higher accuracy can be determined.
  • the series determined to have higher accuracy is left as the comparison target, the other series is excluded from the comparison target, and the series determined to have higher accuracy are two.
  • Select as one hypothesis of the series and select one of the multiple series that has not been determined as the other hypothesis.
  • the determination process and the selection process are sequentially executed until a predetermined condition is reached.
  • the series remaining as the comparison target when the predetermined conditions are reached can be output as the most accurate series, that is, the final output.
  • the accuracy of the two series is high or low.
  • the first auxiliary model 111 to the M auxiliary model 11M and the main model 110 represented by NN are made to perform multi-task learning so that the above can be determined.
  • a teacher label indicating the correct answer is given when the series having higher accuracy (less error) among the two series is given a higher rank than the other series.
  • the first auxiliary model 111 to the M auxiliary model 11M and the main model 110 are trained.
  • a teacher label indicating an error is given to the place where the higher accuracy (less error) series of the two series is given a lower rank than the other series.
  • the first auxiliary model 111 to the M auxiliary model 11M and the main model 110 are trained.
  • the first auxiliary model 111 to the M auxiliary model 11M and the main model 110 can compare two one-to-one series with high accuracy, and as a result, the most accurate one is achieved. High series can be obtained with high accuracy.
  • each component of each of the illustrated devices is a functional concept and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of the device is functionally or physically dispersed / physically distributed in an arbitrary unit according to various loads and usage conditions. It can be integrated and configured.
  • the reranking device 10 and the learning device 20 may be an integrated device.
  • each processing function performed by each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as hardware by wired logic.
  • all or part of the processes described as being automatically performed can be manually performed, or the processes described as being manually performed. All or part of it can be done automatically by a known method.
  • each process described in the present embodiment is not only executed in chronological order according to the order of description, but may also be executed in parallel or individually depending on the processing capacity of the device that executes the process or if necessary. ..
  • the processing procedure, control procedure, specific name, and information including various data and parameters shown in the above document and drawings can be arbitrarily changed unless otherwise specified.
  • FIG. 11 is a diagram showing an example of a computer in which the reranking device 10 or the learning device 20 is realized by executing the program.
  • the computer 1000 has, for example, a memory 1010 and a CPU 1020.
  • the computer 1000 also has a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. Each of these parts is connected by a bus 1080.
  • Memory 1010 includes ROM 1011 and RAM 1012.
  • the ROM 1011 stores, for example, a boot program such as a BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to the hard disk drive 1031.
  • the disk drive interface 1040 is connected to the disk drive 1041.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1041.
  • the serial port interface 1050 is connected to, for example, a mouse 1110 and a keyboard 1120.
  • the video adapter 1060 is connected to, for example, the display 1130.
  • the hard disk drive 1031 stores, for example, the OS 1091, the application program 1092, the program module 1093, and the program data 1094. That is, the program that defines each process of the reranking device 10 or the learning device 20 is implemented as a program module 1093 in which a code that can be executed by the computer 1000 is described.
  • the program module 1093 is stored in, for example, the hard disk drive 1031.
  • the program module 1093 for executing the same processing as the functional configuration in the reranking device 10 or the learning device 20 is stored in the hard disk drive 1031.
  • the hard disk drive 1031 may be replaced by an SSD (Solid State Drive).
  • the setting data used in the processing of the above-described embodiment is stored as program data 1094 in, for example, the memory 1010 or the hard disk drive 1031. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1031 into the RAM 1012 and executes them as needed.
  • the program module 1093 and the program data 1094 are not limited to those stored in the hard disk drive 1031, but may be stored in, for example, a removable storage medium and read by the CPU 1020 via the disk drive 1041 or the like. Alternatively, the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Then, the program module 1093 and the program data 1094 may be read by the CPU 1020 from another computer via the network interface 1070.
  • LAN Local Area Network
  • WAN Wide Area Network
  • Speech recognition device 10 Reranking device 11 and 21 Model storage unit 12 Hypothesis input unit 13 Hypothesis selection unit 14 Feature extraction unit 15 Judgment unit 16 Execution control unit 17 Output unit 18 Weighting unit 20 Learning device 22 Hypothesis input unit 23 Learning unit 110 Main model 111-11M 1st auxiliary model-Mth auxiliary model 231 Teacher label giving part 232 Replacement part

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

リランキング装置(10)は、音声認識精度のスコアが対応付けられたNベスト仮説の入力を受け付ける仮説入力部(12)と、入力を受け付けたNベスト仮説のうち、判定対象である二つの仮説を選択する仮説選択部(13)と、選択された二つの仮説が与えられたとき、二つの仮説を隠れ状態ベクトルに変換し、二つの仮説の隠れ状態ベクトルを基に二つの仮説の精度の高低を判定できるような、ニューラルネットワークで表される複数の第1補助モデル(111)~第M補助モデル(11M)と、複数の補助モデルでそれぞれ変換された二つの仮説の隠れ状態ベクトルを基に、二つの仮説の精度の高低を判定できるような、ニューラルネットワークで表されるメインモデル(110)とを用いて、二つの仮説の精度の高低を判定する判定部(15)と、を有する。

Description

判定装置、学習装置、判定方法及び判定プログラム
 本発明は、判定装置、学習装置、判定方法及び判定プログラムに関する。
 音声認識は、人間が発した音声(発話)を計算機により単語列(テキスト)に変換する技術である。通常、音声認識システムは、入力された一つの発話に対して、音声認識スコアの最も高い仮説(音声認識結果)である一つの単語列(1ベスト仮説)を出力する。ただし、音声認識装置による音声認識の精度は、100%ではない。このため、一つの入力発話に対して、1ベスト仮説のみを出力するのではなく、N(≧2)個の仮説を出力して、Nベストリスコアリング装置を用いて、そのN個仮説の中から音声認識精度が最も高いと推定される仮説を最終的な音声認識結果として出力する、Nベストリスコアリングと呼ばれる手法がある。なお、NベストリスコアリングとNベストリランキングとは同義として扱われている。
 Nベストリスコアリング方法では、音声認識結果である仮説の中からスコアの高い所定数(N個)の仮説を出力する。そして、Nベストリスコアリング方法では、この中から尤もらしい仮説を音声認識結果として出力する。ここで、スコアが最大となる仮説が必ずしもベストな仮説とは限らない。このため、二つの仮説のうち尤もらしい仮説(正解に近い仮説)を選択する二択問題をトーナメント方式で繰り返し適用することで、尤もらしい仮説を選択するリランキング装置が提案されている(例えば、非特許文献1参照)。
Atsunori Ogawa, Marc Delcroix, Shigeki Karita, Tomohiro Nakatani, "RESCORING N-BEST SPEECH RECOGNITION LIST BASED ON ONE-ON-ONE HYPOTHESIS COMPARISON USING ENCODER-CLASSIFIER MODEL", IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) , pp. 6099-6103, 2018.
 非特許文献1に記載のリランキング方法では、N仮説をスコアの降順に並べ、先頭の仮説(スコアが最も高い仮説)から順に二つの仮説を選択し、学習済みの二択問題を解くニューラルネットワーク(NN)にこれらの仮説を入力することによって、いずれかの仮説を選択する処理を繰り返し行い、最終的に選択された仮説を音声認識結果として出力することが記載されている。非特許文献1に記載のリランキング方法では、一定の精度で音声認識結果を出力するが、さらに、近年では、音声認識結果の出力に対して、精度の安定化が要求されている。
 本発明は、上記に鑑みてなされたものであって、ある音声信号に対する解の候補として挙げられた複数の仮説に対し、最も精度が高い仮説を安定した精度で判定することができる判定装置、学習装置、判定方法及び判定プログラムを提供することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明に係る判定装置は、音声認識精度のスコアが対応付けられたNベスト仮説の入力を受け付ける入力部と、入力を受け付けたNベスト仮説のうち、判定対象である二つの仮説を選択する選択部と、選択された二つの仮説が与えられたとき、二つの仮説を隠れ状態ベクトルに変換し、二つの仮説の隠れ状態ベクトルを基に二つの仮説の精度の高低を判定できるような、ニューラルネットワークで表される複数の補助モデルと、複数の補助モデルでそれぞれ変換された二つの仮説の隠れ状態ベクトルを基に、二つの仮説の精度の高低を判定できるような、ニューラルネットワークで表されるメインモデルとを用いて、二つの仮説の精度の高低を判定する判定部と、を有することを特徴とする。
 また、本発明に係る学習装置は、音声認識精度が既知である学習用の二つの仮説の入力を受け付ける入力部と、二つの仮説が与えられたとき、二つの仮説を隠れ状態ベクトルに変換し、二つの仮説の隠れ状態ベクトルを基に二つの仮説の精度の高低を判定できるような、ニューラルネットワークで表される複数の補助モデルと、複数の補助モデルでそれぞれ変換された二つの仮説の隠れ状態ベクトルを基に、二つの仮説の精度の高低を判定できるような、ニューラルネットワークで表されるメインモデルとに対し、各ニューラルネットワークが二つの仮説の精度の高低を判定するタスクを個別に行うとみなしたマルチタスク学習を行わせる学習部と、を有することを特徴とする。
 また、本発明に係る判定方法は、判定装置が実行する判定方法であって、音声認識精度のスコアが対応付けられたNベスト仮説の入力を受け付ける工程と、入力を受け付けたNベスト仮説のうち、判定対象である二つの仮説を選択する工程と、選択された二つの仮説が与えられたとき、二つの仮説を隠れ状態ベクトルに変換し、二つの仮説の隠れ状態ベクトルを基に二つの仮説の精度の高低を判定できるような、ニューラルネットワークで表される複数の補助モデルと、複数の補助モデルでそれぞれ変換された二つの仮説の隠れ状態ベクトルを基に、二つの仮説の精度の高低を判定できるような、ニューラルネットワークで表されるメインモデルとを用いて、二つの仮説の精度の高低を判定する工程と、を含んだことを特徴とする。
 また、本発明に係る判定プログラムは、音声認識精度のスコアが対応付けられたNベスト仮説の入力を受け付けるステップと、入力を受け付けたNベスト仮説のうち、判定対象である二つの仮説を選択するステップと、選択された二つの仮説が与えられたとき、二つの仮説を隠れ状態ベクトルに変換し、二つの仮説の隠れ状態ベクトルを基に二つの仮説の精度の高低を判定できるような、ニューラルネットワークで表される複数の補助モデルと、複数の補助モデルでそれぞれ変換された二つの仮説の隠れ状態ベクトルを基に、二つの仮説の精度の高低を判定できるような、ニューラルネットワークで表されるメインモデルとを用いて、二つの仮説の精度の高低を判定するステップと、をコンピュータに実行させる。
 本発明によれば、ある音声信号に対する解の候補として挙げられた複数の仮説に対し、最も精度が高い仮説を、安定した精度で判定することができる。
図1は、実施の形態1に係るリランキング装置の機能構成の一例を示す図である。 図2は、第1補助モデル~第M補助モデル及びメインモデルの構成を説明する図である。 図3は、第1補助モデルの構築例を示す図である。 図4は、実施の形態1に係るリランキング処理の処理手順を示すフローチャートである。 図5は、図1に示すリランキング装置が、Nベスト仮説に対して実行するリランキング処理を説明する図である。 図6は、実施の形態2に係る学習装置の機能構成の一例を示す図である。 図7は、図6に示す入替部の処理を説明する図である。 図8は、実施の形態2に係る学習処理の処理手順を示すフローチャートである。 図9は、実施の形態3に係るリランキング装置の要部構成を示す図である。 図10は、実施の形態3に係るリランキング処理の処理手順を示すフローチャートである。 図11は、プログラムが実行されることにより、リランキング装置及び学習装置が実現されるコンピュータの一例を示す図である。
 以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
 本実施の形態では、音声認識結果であるN(N≧2)ベスト仮説のうち、最終的な音声認識結果である最も音声認識精度が高い仮説(単語列)を得るためのモデルを用いたリランキング装置、及び、Nベストのリランキング処理に用いるモデルを実現する学習装置について説明する。なお、本実施の形態については、Nベストリスコアリングではなく、Nベストリランキングと表現を統一して説明する。
 まず、本実施の形態に係るリランキング装置がNベスト仮説のリランキングを行う上で、本実施の形態におけるモデルが有すべき必要最低限な機能について述べる。本実施の形態では、Nベスト仮説から最も音声認識精度が高い仮説(オラクル仮説)を、最終的な音声認識結果として見つけ出すことが目的である。
 すなわち、本実施の形態では、Nベスト仮説の中からオラクル仮説をリランキングにより見つけ出すためにモデルに必要最低限な機能は、Nベスト仮説中の二つの仮説に着目したときに、どちらの仮説の方がより高い音声認識精度を有しているかを判定できることである点に着目した。言い換えると、本実施の形態におけるモデルに必要最低限な機能は、Nベスト仮説中の二つの仮説を対象に、一対一の仮説比較を行うことができることである。
 そこで、本実施の形態に係るリランキング装置は、一対一の二つの仮説の比較を行う機能を持つモデルを用いることによって、二つの仮説のうち音声認識精度がより高い仮説を判定する機能を持たせた。さらに、本実施の形態では、モデルとして、ニューラルネットワーク(NN)で表されるメインモデルと、NNで表される複数の補助モデルとを用いる。各補助モデルは、二つの仮説が与えられたとき、二つの仮説を隠れ状態ベクトルに変換し、二つの仮説の隠れ状態ベクトルを基に二つの仮説の精度の高低を判定するモデルである。メインモデルは、複数の補助モデルでそれぞれ変換された二つの仮説の隠れ状態ベクトルを基に、二つの仮説の精度の高低を判定するモデルである。
 そして、本実施の形態に係るリランキング装置は、Nベスト仮説のスコアの昇順に二つの仮説を選択し、選択した二つの仮説のうち、音声認識精度がより高い仮説を次の判定対象の一方の仮説として残し、未判定の仮説から昇順に他方の仮説を選択して、複数の補助モデル及びメインモデルを用いた比較を行う。本実施の形態に係るリランキング装置は、前回の判定で音声認識精度がより高いと判定された仮説を判定対象の一方の仮説として選択し、未判定の仮説のうち最も順位の低い仮説を他方の仮説として選択し、複数の補助モデル及びメインモデルによる二つの仮説に対する比較処理を繰り返す。これによって、本実施の形態では、安定した精度で、Nベスト仮説の中からオラクル仮説を見つけ出すことを可能にした。
[実施の形態1]
[リランキング装置]
 まず、実施の形態1に係るリランキング装置について説明する。このリランキング装置は、音声認識結果であるNベスト仮説のうちの二つの仮説に対して音声認識精度の高低の判定を繰り返し実行して、最も音声認識精度の高い仮説を最終的な音声認識結果として出力する。
 図1は、実施の形態1に係るリランキング装置の機能構成の一例を示す図である。実施の形態1に係るリランキング装置10は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。
 リランキング装置10は、音声認識装置2から出力されたNベスト仮説の入力を受け付ける。そして、リランキング装置10は、このNベスト仮説のうち、二つの仮説に対する音声認識精度の高低についての判定を、全Nベスト仮説について実行し、音声認識精度が高い仮説として残った仮説を、スコアと対応付けて、最終的な音声認識結果として出力する。なお、音声認識装置2は、1発話が入力されると、例えば、音声認識用のモデルを用いて音声認識を行い、音声認識結果としてNベスト仮説を出力する。音声認識用のモデルは、学習用の複数の発話と、各発話に対応する書き起こし(正解単語列)を学習データとして用いて学習(モデルパラメータが最適化)されている。
 リランキング装置10は、モデル記憶部11、仮説入力部12、仮説選択部13(選択部)、特徴量抽出部14、判定部15、実行制御部16及び出力部17を有する。
 モデル記憶部11は、補助モデル及びメインモデル110を記憶する。図1の例では、モデル記憶部11は、補助モデルとして、第1補助モデル111~第M補助モデル11Mを記憶する。第1補助モデル111~第M補助モデル11M及びメインモデル110は、NNで表されるモデルである。第1補助モデル111~第M補助モデル11M及びメインモデル110は、音声認識精度が既知である学習用のNベスト仮説を用いて予め学習される。
 第1補助モデル補助111~第M補助モデル11Mは、選択された二つの仮説が与えられたとき、二つの仮説を隠れ状態ベクトルに変換し、二つの仮説の隠れ状態ベクトルを基に二つの仮説の精度の高低を判定できるような、NNで表される。第1補助モデル111~第M補助モデル11Mは、学習用のNベスト仮説のうち二つの仮説が与えられたときに、二つの仮説について、その二つの仮説の音声認識精度の高低を判定できるように学習される。第1補助モデル111~第M補助モデル11Mは、二つの仮説を、それぞれRNNを用いて隠れ状態ベクトルに変換する。そして、第1補助モデル111~第M補助モデル11Mは、NNを用いて、隠れ状態ベクトルを基に二つの仮説の精度の高低の並びが正しいことを示す事後確率をそれぞれ生成する。
 メインモデル110は、第1補助モデル111~第M補助モデル11Mにおいてそれぞれ変換された二つの仮説の隠れ状態ベクトルを基に、二つの仮説の精度の高低を判定できるような、NNで表される。メインモデル110は、第1補助モデル111~第M補助モデル11Mにおいてそれぞれ変換された学習用の二つの仮説の隠れ状態ベクトルを基に、二つの仮説の精度の高低を判定できるように学習される。メインモデル110は、NNを用いて、第1補助モデル111~第M補助モデル11Mにおいてそれぞれ変換された学習用の二つの仮説の隠れ状態ベクトルを基に、二つの仮説の精度の高低の並びが正しいことを示す事後確率を生成する。
 第1補助モデル111~第M補助モデル11M及びメインモデル110は、各ニューラルネットワークが二つの仮説の精度の高低を判定するタスクを個別に行うとみなしたマルチタスク学習によって学習が実行される。
 仮説入力部12は、Nベスト仮説の入力を受け付ける。Nベスト仮説は、音声認識装置2が出力する。或いは、他の装置が、ネットワーク等を介して、Nベスト仮説をリランキング装置10に入力してもよい。
 仮説選択部13は、入力を受け付けたNベスト仮説のうち、一対一の比較対象である二つの仮説を、Nベスト仮説のスコアの昇順に選択する。仮説選択部13は、最初の判定においては、Nベスト仮説のうち、スコアが最下位である仮説と、最下位の仮説より1つ順位が高い仮説とを判定対象として選択する。仮説選択部13は、以降の判定においては、二つの仮説の一方の仮説として、前回の判定で音声認識精度がより高いと判定された仮説を選択する。そして、仮説選択部13は、二つの仮説の他方の仮説として、未判定の仮説のうち、最もスコアの順位が低い仮説を選択する。このように、仮説選択部13は、全Nベスト仮説について一対一の比較が実行されるように、Nベスト仮説から、昇順に、比較対象の二つの仮説を選択する。
 特徴量抽出部14は、一対一の比較対象である二つの仮説について、それぞれの特徴量を抽出する。特徴量抽出部14は、一対一の比較対象であるNベスト仮説中のv位の仮説とNベスト仮説中のu(u<v≦N)位の仮説(単語列)と、について、それぞれの特徴量を抽出する。特徴量抽出部14は、仮説中の各単語単位で特徴量ベクトルを抽出する。各単語の特徴量ベクトルは、例えば、離散値である単語IDをNNによる単語の埋め込み処理により連続値のベクトルとして表現した単語ベクトルに、音声認識処理により得られる単語単位の音響スコア(対数尤度)や言語スコア(対数確率)などを補助特徴量として、単語ベクトルに連結したものである。
 判定部15は、一対一の比較対象の二つの仮説に対し、第1補助モデル111~第M補助モデル11M及びメインモデル110を用いて、二つの仮説の精度の高低を判定する。判定部15は、一対一の比較対象であるv位の仮説とu位の仮説とを第1補助モデル111~第M補助モデル11Mにそれぞれ入力し、メインモデル110による出力結果を用いて、どちらの仮説が高い音声認識精度を有しているかを判定する。u位及びv位で表す仮説の順位は、Nベスト仮説において既に付与されているものである。リランキング装置10では、順位の再設定を行わない。
 ここで、第1補助モデル111~第M補助モデル11Mは、u位の仮説の特徴量及びv位の仮説の特徴量が入力されると、u位の仮説がv位の仮説よりも音声認識精度が高いことを示す事後確率を出力する。メインモデル110は、第1補助モデル111~第M補助モデル11Mにおいてそれぞれ変換された二つの仮説の隠れ状態ベクトルが入力されると、u位の仮説がv位の仮説よりも音声認識精度が高いことを示す事後確率を出力する。判定部15は、メインモデル110による事後確率が0.5以上である場合には、u位の仮説がv位の仮説よりも音声認識精度が高いと判定する。また、判定部15は、メインモデル110による事後確率が0.5未満である場合には、v位の仮説がu位の仮説よりも音声認識精度が高いと判定する。
 なお、リランキング装置10では、特徴量抽出部14の機能を、第1補助モデル111~第M補助モデル11Mが有してもよい。この場合、判定部15は、比較対象である二つの仮説を第1補助モデル111~第M補助モデル11Mにそれぞれ入力する。
 そして、判定部15は、比較対象の二つの系列のうち、より精度が高いと判定した仮説を次の判定時における比較対象として残し、他方の仮説を以降の比較対象から外す。仮説選択部13は、判定部15によって精度が高いと判定された仮説を二つの系列の一方の仮説として選択し、判定部15による判定が行われていない仮説のうち最もスコアの順位が低い仮説を他方の仮説として選択する。具体的には、前述したように、仮説選択部13は、判定部15が残した仮説を二つの仮説の一方の仮説として選択し、Nベスト仮説のうち、前回比較対象となった仮説の順位の1つ上の順位の仮説を二つの仮説の他方の仮説として選択する。
 実行制御部16は、判定部15による判定処理と仮説選択部13による選択処理とを、所定条件に達するまで繰り返す制御を行う。この場合、実行制御部16は、全Nベスト仮説について一対一の比較が実行されるように、仮説選択部13における比較対象の二つの仮説の選択処理、特徴量抽出部14における特徴量抽出処理、及び、判定部15における判定処理を繰り返す制御を行う。具体的に、実行制御部16は、1位の仮説に対して比較処理が行われるまで、仮説の選択処理、特徴量抽出処理及び判定処理を繰り返す制御を行う。
 出力部17は、仮説の選択処理、特徴量抽出処理、判定処理及び順位の設定処理が繰り返された結果、所定条件に達した場合、Nベスト仮説のうち、比較対象として残っている仮説を、最も音声認識精度が高い仮説、すなわち、最終的な音声認識結果として出力する。出力部17は、最後の判定処理で精度が高いと判定された仮説を最終的な音声認識結果として出力する
[定義]
 まず、リランキング装置10に必要最低限な機能要件を数式で定義する。W(u)=w (u),w (u),・・・,wL(W(u)) (u)を、Nベスト仮説中のu位の仮説(単語列)と定義する。また、L(W(u))を、W(u)の長さ(単語数)と定義する。
 また、A(u)=a (u),a (u),・・・,aL(W(u)) (u)をW(u)に対応する補助特徴量ベクトル列と定義する。W(u)中のi番目の単語w (u)の補助特徴量ベクトルa (u)は、例えば、音声認識装置による音声認識処理の結果として得られる音響スコア(対数尤度)や言語スコア(対数確率)などである(詳細は、例えば、A. Ogawa and T. Hori, “Error detection and accuracy estimation in automatic speech recognition using deep bidirectional recurrent neural networks”, Speech Communication, vol. 89, pp.70-83, May 2017.(以降、参考文献1とする。)を参照)。
 補助特徴量ベクトルa (u)は、17次元の基本の補助特徴量ベクトルを含む。さらに、補助特徴量ベクトルa (u)では、前向き(forword)LSTMLMの単語予測スコアを18次元の補助特徴量として用いてもよい。LSTMLMは、長短期記憶メモリ(long short-term memory:LSTM)ユニットを用いた再帰的ニューラルネットワーク(Recurrent Neural Network:RNN)言語モデルであり、後述するように、本実施の形態1~3における各補助モデルを構成するモデルである。そして、補助特徴量ベクトルa (u)では、後向き(backword)LSTMLMの単語予測スコアを19次元の補助特徴量として用いてもよい。後向きLSTMLMは、未来の単語列から現在の単語の生起確率を予測するものであるであり、前向きLSTMLMと相補的な単語予測能力を持つことから各補助モデルが出力する判定情報の精度向上が期待できる。
 また、X(u)=x (u),x (u),・・・,xL(W(u)) (u)をW(u)に対応する特徴量ベクトル列と定義する。W(u)中のi番目の単語w (u)の特徴量ベクトルx (u)は、x (u)=concat(embed(w (u)),a (u))で得られる。ここで、concat(・)は、ベクトルの連結処理を表す。また、embed(・)は、NNによる単語の埋め込み処理(離散値の単語IDを連続値のベクトルで表現する処理)(詳細は、例えば、坪井祐太,海野裕也,鈴木潤,深層学習による自然言語処理,MLP機械学習プロフェッショナルシリーズ,講談社,2017.(以降、参考文献2とする。)を参照)を表す。なお、embed(・)を行うNNも第1補助モデル111~第M補助モデル11Mの一部であり、そのパラメータは、後述のエンコーダRNN及び2クラス分類FFNNのパラメータと同時に学習(最適化)される。
 そして、P(0|X(u),X(v))を、二つの仮説W(u),W(v)の精度の高低の並びが正しいことを示す事後確率と定義する。P(0|X(u),X(v))は、第1補助モデル111~第M補助モデル11M及びメインモデル110のそれぞれにおいて、生成される。
[補助モデル及びメインモデルの構成]
 第1補助モデル111~第M補助モデル11M、メインモデル及び構成について説明する。図2は、第1補助モデル111~第M補助モデル11M及びメインモデル110の構成を説明する図である。図2では、処理の流れを説明するため、判定部15も記載される。
 図2に示すように、各補助モデルは、それぞれ、二つの第1変換部、第1結合部及び判定情報生成部を有する。具体的に、第1補助モデル111を例に説明する。第1補助モデル111は、二つの第1変換部111-1u,111-1v、第1結合部111-2及び判定情報生成部111-3を有する。
 第1変換部111-1uは、比較対象の二つの仮説W(u),W(v)のうち、仮説W(u)の特徴量X(u)の入力を受け付け、隠れ状態ベクトルに変換する。第1変換部111-1vは、比較対象の二つの仮説W(u),W(v)のうち、仮説W(v)の特徴量X(v)の入力を受け付け、隠れ状態ベクトルに変換する。
 第1結合部111-2は、第1変換部111-1u,第1変換部111-1vが変換した二つの隠れ状態ベクトルを結合する。判定情報生成部111-3は、二つの仮説W(u),W(v)の精度の高低の並びが正しいことを示す事後確率P(0|X(u),X(v))を、判定情報として生成する。他の補助モデルも、第1補助モデル111と同じ構成であり、与えられた二つの仮説W(u),W(v)に対し、それぞれ、隠れ状態ベクトルの変換、隠れ状態ベクトルの結合、及び、判定情報の生成を含むタスクをそれぞれ実行できるようにしている。なお、各補助モデルは、学習時におけるランダム初期化時における初期値がそれぞれ異なる。
 メインモデル110は、メイン結合部110-1と、判定情報生成部110-2とを有する。メイン結合部110-1は、第1補助モデル111~第M補助モデル11Mでそれぞれ変換された二つの仮説の隠れ状態ベクトルを結合する。判定情報生成部111-3は、二つの仮説W(u),W(v)の精度の高低の並びが正しいことを示す事後確率P(0|X(u),X(v))を、判定情報として生成する。
 Nベスト仮説中のu番目の仮説W(u)とv番目の仮説W(v)(u<v≦N)の特徴量ベクトル列X(u),X(v)が各補助モデルに与えられたとき、メインモデル110は、記号y={0}の事後確率P(0|X(u),X(v))を出力する。
 判定部15は、メインモデル110が出力した事後確率P(0|X(u),X(v)を受け取り、判定を行う。P(0|X(u),X(v))は、u位の仮説とv位の仮説との順位の上下関係が正しさを確率的に表現する事後確率である。判定部15は、Nベストリランキングモデルから出力された事後確率P(0|X(u),X(v))を取得し、取得した事後確率を所定の閾値と比較して、u位の仮説及びv位の仮説のいずれがより音声認識精度が高いかを判定する。
 具体的には、判定部15は、事後確率P(0|X(u),X(v))が0.5以上である場合には、u位の仮説がv位の仮説よりも音声認識精度が高いと判定し、y=0を出力する。また、判定部15は、事後確率P(0|X(u),X(v))が0.5未満である場合には、v位の仮説がu位の仮説よりも音声認識精度が高いと判定し、y=1を出力する。
 すなわち、判定部15は、以下の(1-1)式及び(1-2)式に示すように、u位の仮説及びv位の仮説のいずれがより音声認識精度が高いかを判定する。
 P(0|X(u),X(v))≧0.5
 if WER(Word error rate) of W(u)≦WER of W(v)・・・(1-1)
 P(0|X(u),X(v))<0.5
 otherwise       ・・・(1-2)
 ここで、与えられた仮説(単語列)の音声認識精度を返す関数ΣP(y|X(u),X(v))=1であるため、(1-1)式の1段目に示す不等式が満足される場合、判定部15は、仮説W(u)は仮説W(v)以上の音声認識精度を持つと判定する。また、(1-2)式の不等式が満足される場合、判定部15は、W(u)はW(v)よりも低い音声認識精度を持つと判定する。
 したがって、(1-1)式の1段目に示す不等式が満足される場合、W(u)及びW(v)のランキングの上下関係(u<v)が正しいと推定される。このため、判定部15は、W(u)を、W(v)との一対一の仮説比較においてW(v)よりも音声認識精度が高い仮説として残し、次の一対一の仮説比較では、W(v)として使用する。なお、判定部15は、W(v)を、W(u)よりも音声認識精度が低い仮説として扱い、最も音声認識精度が高い仮説の候補、すなわち、最終的な音声認識結果の候補から除外する。
 そして、(1-2)式の1段目不等式が満足される場合は、W(u)及びW(v)のランキングの上下関係は、誤りであると推定される。すなわち、W(u)及びW(v)のランキングの上下関係は逆であると推定される。このため、判定部15は、W(v)を、W(u)との一対一の仮説比較においてW(u)よりも音声認識精度が高い仮説として残し、次の一対一の仮説比較では、W(v)として引き続き使用する。なお、判定部15は、元のW(u)を、元のW(v)よりも音声認識精度が低い仮説として扱い、最も音声認識精度が高い仮説の候補、すなわち、最終的な音声認識結果の候補から除外する。
[補助モデルの構築例]
 第1補助モデル111~第M補助モデル11Mの構築例について説明する。第1補助モデル111~第M補助モデル11Mは、同じ構成であるため、図3を参照し、第1補助モデル111の構築例を説明する。図3は、第1補助モデル111の構築例を示す図である。なお、図3では、簡単のため、単語の埋め込み処理embed(・)を行うNNは省略されている。以下、その詳細について説明する。
 比較対象の仮説W(u)の長さ(単語数)L(W(u))と仮説W(v)(u<v≦N)の長さL(W(v))とが異なる可能性がある。この長さの違いを吸収するため、第1補助モデル111は、二つの仮説の特徴量を、RNNを用いて隠れ状態ベクトルに変換する。具体的には、第1補助モデル111は、この処理を行うために、エンコーダ-デコーダモデル(詳細は、例えば、参考文献2参照)のエンコーダRNN111-1aを第1変換部111-1u,111-1vとして有する。
 第1補助モデル111は、エンコーダRNN111-1aを用いてW(u)とW(v)を固定長の隠れ状態ベクトルで表現する。そして、第1補助モデル111~第M補助モデル11Mは、これらの隠れ状態ベクトルを用いることによって、W(u)とW(v)とを公平に比較することが可能になる。
 エンコーダRNN111-1aの処理について説明する。エンコーダRNN111-1aは、RNNの一種である長短期記憶メモリ(long short-term memory:LSTM)ユニット(詳細は、例えば、参考文献2参照)を有する。LSTMユニットは、W(u)のi番目の単語w (u)の特徴量ベクトルx (u)と、i-1番目の隠れ状態ベクトルh{i-1} (u)が与えられたとき、i番目の隠れ状態ベクトルh (u)を以下の(2)式のように与える。
 h (u)=lstm(x (u), h{i-1} (u))・・・(2)
 ここで、lstm(・)は、1層単方向(unidirectional)のLSTMユニットの処理を示す。また、h (u)=0(ゼロベクトル)である。h (u)は、単語列w (u),w (u),・・・,w (u)の特徴量ベクトル列x (u),x (u),・・・,x (u)をエンコード(符号化)したものである。エンコーダRNN111-1aは、この処理を、特徴量ベクトル列X(u)中の各特徴量ベクトルx (u)に対して繰り返すことで、X(u)をエンコードした隠れ状態ベクトルhL(W(u)) (u)を得ることができる。
 エンコーダRNN111-1aは、同様の処理を特徴量ベクトル列X(v)に対しても行い、X(v)をエンコードした隠れ状態ベクトルhL(W(v)) (v)を得る。なお、X(u)に対して処理を行うLSTMユニットと、X(v)に対して処理を行うLSTMユニットは同じもの、すなわち、パラメータが共有されていてもよいし、別のLSTMユニットであってもよい。また、図3では、xL(W(u)) (u),xL(W(v)) (v),hL(W(u)) (u),hL(W(v)) (v)の下付き部分L(W(u))は、L(W(u))と示している。
 第1補助モデル111は、以上で得た二つの隠れ状態ベクトルhL(W(u)) (u),hL(W(v)) (v)を、第1結合部111-2で連結した隠れ状態ベクトルh{(u,v)}をエンコーダRNN111-aの出力として以下の(3)式のように得る。
 h{(u,v)}=concat(hL(W(u)) (u),hL(W(v)) (v))・・・(3)
 そして、第1補助モデル111は、エンコーダRNN111-1aの後段に、クラス分類(y=0 or 1)を行うためのNNを連結する。例えば、第1補助モデル111は、1クラス分類のためのNNとして、1層のフィードフォワード型NN(FFNN)111-3a(詳細は、例えば、参考文献2を参照)を、判定情報生成部113として用いる。エンコーダRNN111-1aの出力として得た隠れ状態ベクトルh{(u,v)}が、1層の1クラス分類FFNN111-3aに入力され、最終的に、1クラスのy={0}の事後確率P(y|X(u),X(v))を以下の(4),(5)式のように得ることができる。
 z{(u,v)}=linear(h{(u,v)})・・・(4)
 P(y|X(u),X(v))=sigmoid(z{(u,v)}・・・(5)
 ここで、linear(・)は、線形変換処理(詳細は、例えば、参考文献2を参照)を表す。sigmoid(・)は、シグモイド処理を表す。
 また、メインモデル110では、メイン結合部110-1は、第1結合部111-2と同様のベクトル連結処理を行う。また、メインモデル110では、判定情報生成部110-3は、判定情報生成部111-3の1層の1クラス分類FFNN111-3aと同様の構成の1クラス分類FFNNによって構成される。
[補助モデル及びメインモデルの他の構築例1]
 なお、第1補助モデル111及びメインモデル110は、1クラス分類FFNNにおけるシグモイド処理に代えて、ソフトマックス処理を行ってもよい。この場合、エンコーダRNNの出力として得た隠れ状態ベクトルh{(u,v)}が、1層の2クラス分類FFNNに入力され、最終的に、2クラスの記号y={0,1}の事後確率P(y|X(u),X(v))を以下(6),(7)式のように得ることができる。なお、y=0は、W(u)及び仮説W(v)の順位の上下関係が正しいことを示す。また、y=1は、W(u)及び仮説W(v)の順位の上下関係が誤りであることを示す。P(0|X(u),X(v))は、u位の仮説とv位の仮説との順位の上下関係が正しさを確率的に表現する第1の事後確率である。P(1|X(u),X(v))は、u位の仮説とv位の仮説との順位の上下関係が誤りであることを確率的に表現する第2の事後確率である。
 z{(u,v)}=linear(h{(u,v)}) ・・・(6)
 P(y|X(u),X(v))=softmax(z{(u,v)} ・・・(7)
 ここで、softmax(・)は、ソフトマックス処理を表す。また、softmax(・)は、ソフトマックス処理の結果として得られる事後確率ベクトルのy番目の要素(確率値)を表す。
 この場合、判定部15は、メインモデル110から出力された第1の事後確率P(0|X(u),X(v))及び第2の事後確率P(1|X(u),X(v))を取得し、取得した二つの事後確率の大小を比較して、u位の仮説及びv位の仮説のいずれがより音声認識精度が高いかを判定する。判定部15は、第1の事後確率P(0|X(u),X(v))が第2の事後確率P(1|X(u),X(v))よりも高い場合には、u位の仮説がv位の仮説よりも音声認識精度が高いと判定する。また、判定部15は、第1の事後確率P(0|X(u),X(v))が第2の事後確率P(1|X(u),X(v))よりも低い場合には、v位の仮説がu位の仮説よりも音声認識精度が高いと判定する。
[補助モデルの他の構築例2]
 なお、図3に示すエンコーダRNN111-1aのLSTMユニットは、1層単方向のLSTMユニットとしたが、複数層または双方向(bidirectional)のLSTMユニットであってもよい。
[補助モデルの他の構築例3]
 また、LSTMユニットの代わりに、単純な(sigmoid関数等を活性化関数として持つ。)RNNや、Gated Recurrent Unit(GRU)を用いてもよい。
[補助モデル及びメインモデルの他の構築例4]
 さらに、補助モデル及びメインモデル110は、図3の構築例では、1クラス分類NNとして、1層のフィードフォワード型NNを用いたが、複数層のフィードフォワード型NNを用いてもよい。Nベストリランキングモデルは、複数層のフィードフォワード型NNを用いる場合、活性化関数として、sigmoid関数、tanh関数、Rectified Linear Unit(ReLU)関数、Parametric ReLU(PReLU)関数などを用いることができる。なお、補助モデル及びメインモデル110の他の構築例1~4の用語の詳細については、例えば、参考文献2を参照いただきたい。
[補助モデルの他の構築例5]
 また、補助モデルは、従来のNベストリスコアリングモデル(例えばRNN言語モデル)により計算されたスコアを、特徴量ベクトルにおける新たな次元として追加して利用することも可能である。
[リランキング処理の処理手順]
 次に、図1に示すリランキング装置10が実行するリランキング処理の処理手順について説明する。図4は、実施の形態1に係るリランキング処理の処理手順を示すフローチャートである。
 まず、仮説入力部12が、リランキング対象のNベスト仮説の入力を受け付けると(ステップS1)、仮説選択部13は、入力を受け付けたNベスト仮説のうち、スコアの昇順に、一対一の比較対象であるu位及びv位の二つの仮説を選択する(u<v≦N)。まず、仮説選択部13は、u=N-1、v=Nに設定する(ステップS2)。そして、仮説選択部13は、入力を受け付けたNベスト仮説から、u位及びv位の二つの仮説W(u),W(v)をNベスト仮説から選択する(ステップS3)。続いて、特徴量抽出部14は、仮説W(u),W(v)の特徴量を抽出する(ステップS4)。判定部15は、仮説W(u),W(v)の特徴量(X(u),X(v))を各補助モデル(第1補助モデル111~第M補助モデル11M)に入力する(ステップS5)。
 判定部15は、Nベストリランキングモデルからの出力結果を取得する(ステップS6)。具体的には、判定部15は、事後確率P(0|X(u),X(v))を取得する。
 そして、(1-1)式及び(1-2)式において説明したように、判定部15は、P(0|X(u),X(v))≧0.5であるか否かを判定する(ステップS7)。P(0|X(u),X(v))≧0.5である場合(ステップS7:Yes)、判定部15は、u位の仮説がv位の仮説よりも音声認識精度が高いと判定し、実行制御部16は、kについてk=uと設定する(ステップS8)。kは、比較処理後の仮説のうち、最も音声認識精度が高い仮説のNベスト仮説における順位(ランキング)である。一方、P(0|X(u),X(v))≧0.5でない場合(ステップS7:No)、判定部15は、v位の仮説がu位の仮説よりも音声認識精度が高いと判定し、実行制御部16は、k=vと設定する(ステップS9)。
 続いて、実行制御部16は、u=1であるか否かを判定する(ステップS10)。u=1でない場合(ステップS10:No)、必要な一対一の仮説比較処理がまだ全ては終了していないため、実行制御部16は、仮説選択部13に対し、比較対象の次の仮説の選択を行わせる。具体的には、仮説選択部13は、u=u-1、v=kに設定し(ステップS11)、ステップS3に戻り、次の判定対象のNベスト仮説W(u),W(v)を選択する。そして、リランキング装置10は、このNベスト仮説W(u),W(v)に対して、ステップS4~ステップS10の処理を実行する。
 また、u=1である場合(ステップS10:Yes)、必要な一対一の比較処理が全て終了したため、実行制御部16は、k位のW(k)を最も音声認識精度が高いと推定される仮説、すなわち、最終的な音声認識結果として出力し(ステップS12)、処理を終了する。このように、リランキング装置10では、任意の二つの仮説を1組とし、複数の組についてそれぞれ音声認識精度の高低の判定を繰り返すことで、最も音声認識精度が高いと推定される仮説を、最終的な音声認識結果として出力することができる。
 このように、実施の形態1に係るリランキング装置10は、一対一の二つの仮説の比較を行う機能を持つモデルを用いることによって、二つの仮説のうち音声認識精度がより高い仮説を判定する機能を持たせた。さらに、リランキング装置10では、モデルとして、ニューラルネットワーク(NN)で表されるメインモデル110と、NNで表される複数の補助モデルとを用いる。
 すなわち、リランキング装置10では、複数の補助モデルを設け、入力された二つの仮説に対して、各補助モデルにタスクを実行させている。各補助モデルの構造は同じであっても、学習時においてパラメータのランダム初期化を行うので、同じ入力仮説に対しても異なる隠れ状態ベクトルを出力する。これにより、ある二つの入力仮説に対して、ある補助モデルが出力する隠れ状態ベクトルが適切なものでなかったとしても、別の補助モデルが適切な隠れ状態ベクトルを出力できる可能性が高まる。つまり、正確な仮説の判定結果を生成するのに適した隠れ状態ベクトルが、いずれかの補助ネットワークから出力される可能性が高くなる。この結果、リランキング装置10のメインモデル110には、適切な二つの仮説に対応する隠れ状態ベクトルが安定して入力されるため、メインモデル110の出力値の精度も安定する。このように、実施の形態1に係るリランキングモデルは、安定した精度で、Nベスト仮説の中からオラクル仮説を見つけ出すことができる。
 また、リランキング装置10は、Nベスト仮説のスコアの昇順に二つの仮説を選択する。言い換えると、リランキング装置10は、Nベスト仮説のうち、スコアが最も低い仮説から順に仮説ペアを選択する。図5は、図1に示すリランキング装置10が、Nベスト仮説に対して実行するリランキング処理を説明する図である。
 一般には、スコアが高い仮説の方が、尤もらしい仮説である可能性が高い。スコアの高い順に仮説を選択していくと、最もスコアの高い仮説は、N-1回の判定処理に勝ち抜かなければ、最終的な出力仮説として選択されず、尤もらしい仮説として選ばれにくくなってしまう。
 そこで、図5に示すように、リランキング装置10は、最終的に出力仮説として選ばれる可能性の高い仮説について、少ない判定回数で済むように、Nベスト仮説のうち、スコアが最も低い仮説から順に仮説ペアを選択する。言い換えると、リランキング装置10は、図5に示すように、スコアの最も高い仮説については、シード権を与え、Nベスト仮説全体に対する比較処理の後の方の処理で比較処理が行われるようにし、尤もらしい仮説として選ばれやすくしている。このように、リランキング装置10は、最終的に出力仮説として選ばれる可能性の高い仮説が、尤もらしい仮説として選ばれやすいため、安定した精度で、Nベスト仮説の中からオラクル仮説を見つけ出すことができる。
[実施の形態2]
[学習装置]
 次に、実施の形態2として、リランキング装置10が用いるNベストリランキングモデルを学習する学習装置について説明する。図6は、実施の形態2に係る学習装置の機能構成の一例を示す図である。実施の形態2に係る学習装置20は、例えば、ROM、RAM、CPU等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。図6に示すように、モデル記憶部21、学習装置20は、仮説入力部22及び学習部23を有する。
 モデル記憶部21は、学習対象の第1補助モデル111~第M補助モデル11M及びメインモデル110を記憶する。第1補助モデル111~第M補助モデル11M及びメインモデル110は、選択された二つの仮説が与えられたとき、二つの仮説を隠れ状態ベクトルに変換し、二つの仮説の隠れ状態ベクトルを基に二つの仮説の精度の高低を判定できるような、NNで表される。第1補助モデル111~第M補助モデル11M及びは、Nベスト仮説のうちの二つの仮説を、RNNを用いて隠れ状態ベクトルに変換する。そして、第1補助モデル111~第M補助モデル11Mは、NNを用いて、隠れ状態ベクトルを基に二つの仮説の精度の高低の並びが正しいことを示す事後確率を判定情報として生成する。
 メインモデル110は、第1補助モデル111~第M補助モデル11Mにおいてそれぞれ変換された二つの仮説の隠れ状態ベクトルを基に、二つの仮説の精度の高低を判定できるような、NNで表される。メインモデル110は、NNを用いて、第1補助モデル111~第M補助モデル11Mにおいてそれぞれ変換された学習用の二つの仮説の隠れ状態ベクトルを基に、二つの仮説の精度の高低の並びが正しいことを示す事後確率を生成する。
 仮説入力部22は、音声認識精度が既知である学習用のNベスト仮説の入力を受け付ける。学習用のNベスト仮説として、学習データ中の各発話に対して音声認識が行われ、各発話のNベスト仮説が得られているものとする。また学習データであるので、全ての仮説の音声認識精度は、既知である。また、Nベスト仮説中の全ての仮説に対して、前述のように、特徴量ベクトル列が抽出されているものとする。
 学習部23は、学習用のNベスト仮説のうちの二つの仮説の特徴量がそれぞれ与えられたときに、第1補助モデル111~第M補助モデル11M及びメインモデル110に対し、各NNが二つの仮説の精度の高低を判定するタスクを個別に行うとみなしたマルチタスク学習を行わせる。学習部23は、各NNによって実行された各タスクについて所定の損失をそれぞれ計算し、各損失の重み付け和を全体の損失関数とする。そして、学習部23は、この全体の損失関数に基づいて、各NNのパラメータの値を更新する。
 なお、学習部23は、各損失に対し、等重みで重み付けをしてもよい。また、メインモデル110が出力する判定情報が判定部15における判定に使用されるため、学習部23は、メインモデル110に、他の補助モデルよりも多めの重みを付けてもよい。
 学習部23では、学習用のNベスト仮説のうちの二つの仮説の特徴量ベクトル列と、これらに対応する教師ラベル(後述)とを、第1補助モデル111~第M補助モデル11M及びメインモデル110に与える。これによって、学習部23は、第1補助モデル111~第M補助モデル11M及びメインモデル110がこれら二つの仮説の音声認識精度の高低を正しく判定できるように、第1補助モデル111~第M補助モデル11M及びメインモデル110の学習(パラメータの最適化)を行う。
 具体的には、学習部23は、特徴量ベクトル列と、対応する教師ラベルとを第1補助モデル111~第M補助モデル11Mに入力し、第1補助モデル111~第M補助モデル11M及びメインモデル110がこれらの特徴量ベクトルを与えられたときに対応する教師ラベルを正しく出力できるように、第1補助モデル111~第M補助モデル11M及びメインモデル110の学習を行う。学習部23は、教師ラベル付与部231及び入替部232を有する。
 教師ラベル付与部231は、二つの仮説のうち音声認識精度がより高い仮説に他方の仮説よりも高い順位が付与されている場合に正解を表す教師ラベル(y=0)を付与して、第1補助モデル111~第M補助モデル11M及びメインモデル110に学習させる。また、教師ラベル付与部231は、二つの仮説のうち音声認識精度がより高い仮説に他方の仮説よりも低い順位が付与されている場合に誤りを表す教師ラベル(y=1)を付与し、第1補助モデル111~第M補助モデル11M及びメインモデル110に学習させる。
 入替部232は、学習用のNベスト仮説のうちの二つの仮説の順位を入れ換え、対応する教師ラベルも入れ換えて、第1補助モデル111~第M補助モデル11M及びメインモデル110の学習を行う。図7は、図6に示す入替部232の処理を説明する図である。例えば、教師ラベルとしてy=0が付与されている二つの仮説については(図7の(1)参照)、二つの仮説の順位を入れ換え、教師ラベルyを1に変える(図7の(2)参照)。一方、教師ラベルとしてy=1が付与されている二つの仮説については、二つの仮説の順位を入れ換え、教師ラベルyを0に変える。
[学習処理の処理手順]
 次に、図6に示す学習装置20が実行する学習処理の処理手順について説明する。図8は、実施の形態2に係る学習処理の処理手順を示すフローチャートである。図8では、Nベスト仮説から二つの仮説としてW(u),W(v)(u<v≦N)が与えられ、かつ、W(u)の精度は、W(v)の精度よりも高いときの学習処理の処理手順を示す。
 図8に示すように、教師ラベル付与部231が、教師ラベルy=0を付与し(ステップS21)、W(u),W(v)の特徴量X(u),X(v)を第1補助モデル111~第M補助モデル11Mに入力する(ステップS22)。そして、学習部23は、第1補助モデル111~第M補助モデル11M及びメインモデル110にマルチタスク学習を行わせて、第1補助モデル111~第M補助モデル11M及びメインモデル110のモデルパラメータを更新させる(ステップS23)。
 すなわち、この二つの仮説のW(u),W(v)の特徴量ベクトルX(u),X(v)を第1補助モデル111~第M補助モデル11Mに入力した場合、第1補助モデル111~第M補助モデル11M及びメインモデル110は、理想的には、P(0|X(u),X(v))=1の事後確率を出力すべきである。このため、教師ラベル付与部231は、教師ラベルとして、y=0を与える。以上の入力を基に、学習部23は、第1補助モデル111~第M補助モデル11M及びメインモデル110のモデルパラメータ(エンコーダRNN(LSTMユニット)、1クラス分類FFNN及び単語の埋め込み処理embed(・)を行うNNのパラメータを同時に)を更新させる。
 そして、入替部232は、仮説W(u),W(v)の順位を入れ替える(ステップS24)。すなわち、入替部232は、元々、W(v)であった仮説をW(u)とし、元々、W(u)であった仮説をW(v)とする。この場合には、W(u)の精度は、W(v)の精度よりも低い。よって、この二つの仮説W(u),W(v)の特徴量ベクトルX(u),X(v)を第1補助モデル111~第M補助モデル11M及びメインモデル110に入力した場合、第1補助モデル111~第M補助モデル11M及びメインモデル110は、理想的には,P(0|X(u),X(v))=0の事後確率を出力すべきである。
 このため、教師ラベル付与部231は、教師ラベルとして、y=1を付与し(ステップS25)、W(u),W(v)の特徴量X(u),X(v)を第1補助モデル111~第M補助モデル11M及びメインモデル110に入力する(ステップS26)。学習部23は、以上の入力を基に、第1補助モデル111~第M補助モデル11M及びメインモデル110にマルチタスク学習を行わせて、第1補助モデル111~第M補助モデル11M及びメインモデル110を更新させて(ステップS27)、二つの仮説W(u),W(v)に対する学習処理を終了する。
 学習装置20は、上記の手順を、学習データ中の各発話のNベスト仮説について繰り返し、更にはその繰り返し自体を何度か(何エポックか)繰り返す。学習部23は、学習の更なる具体的な手順については、従来のNNの学習(詳細は、例えば、参考文献2参照)と同様に行うことができる。
[実施の形態2の効果]
 このように、実施の形態2に係る学習装置20は、第1補助モデル111~第M補助モデル11M及びメインモデル110に、音声認識精度が既知である学習用のNベスト仮説のうちの二つの仮説を1組として、複数の組についてそれぞれ音声認識精度の高低を判定できるように予めマルチタスク学習を行わせている。したがって、学習装置20は、Nベストリランキングを行う上で最適な第1補助モデル111~第M補助モデル11M及びメインモデル110を、最新のNNに基づき実現することができる。そして、リランキング装置10は、学習装置20において学習された第1補助モデル111~第M補助モデル11M及びメインモデル110を使用することによって、一対一の二つの仮説の比較を精度よく行うことができ、安定した制度でオラクル仮説を抽出することができる。
[学習処理の効率化例1]
 図8に示す学習処理の処理手順は、計算コストが高い。例えば、Eをエポック数、Mを学習データ中の発話数とすると、上記の学習手順におけるモデルパラメータの更新回数は、最大で、E×M×N×2×になる。通常、Eは数十程度、Mは少なくとも数万、Nは上記の通り100~1000程度であるので、モデルパラメータの更新回数は、膨大な数に達する。このため、本実施の形態では、学習の効率化を図ることが好ましい。そこで、以下に、学習の効率化例1について述べる。
 上述したように、Nベストリスコアリングの主な目的は、Nベスト仮説からオラクル仮説を最終的な音声認識結果として見つけ出すことである。言い換えれば、オラクル仮説をその他のN-1個の仮説から精度よく区別できればよい。これを実現するために、学習の際に、Nベストリランキングモデルに入力する二つの仮説のうちの一方をオラクル仮説とする。これにより、モデルパラメータの更新回数を、E×M×N×2×(N-1)に削減することができる。
[学習処理の効率化例2]
 次に、学習の効率化例2について説明する。学習の効率化例1では、Nベスト仮説が与えられたとき、その中に含まれるオラクル仮説とその他のN-1個の仮説とを比較していた。学習処理の効率化例2では、オラクル仮説と比較するその他の仮説の個数を絞り込む。
 例えば、まず、下の典型的な四つの仮説を選択する。
 仮説1は、オラクル仮説の次に高い音声認識精度を持つ仮説である。
 仮説2は、音声認識スコアが最も高い仮説である。
 仮説3は、最も低い音声認識精度を持つ仮説である。
 仮説4は、音声認識スコアが最も低い仮説である。
 仮説1と仮説2とは、音声認識精度が高い(または高いと推定される)仮説で、オラクル仮説との区別が難しい仮説である。一方、仮説3と仮説4とは、音声認識精度が低い(または低いと推定される)仮説で、オラクル仮説との区別が容易な(確実に区別しないといけない)仮説である。その他の仮説をこの四つのみに絞り込む場合は、モデルパラメータの更新回数は、E×M×N×2×4にまで削減することができる。
 ただし、上記の四つの仮説のみではオラクル仮説の対立仮説としての多様性が十分に確保できないと考えられる場合、Nベスト仮説から、オラクル仮説とこれらの四つの仮説を除いた、残りのN-5個の仮説から、所定のルールにしたがって抽出した所定数の仮説を選択して前記四つの仮説と共に対立仮説として用いてもよい。例えば、二つの仮説のうちの他方の仮説として、オラクル仮説とこれらの四つの仮説を除いた、残りのN-5個の仮説から、等間隔に、或いは、はランダムに、Q個の仮説を選択して四つの仮説と共に他方の仮説として用いる。このとき、モデルパラメータの更新回数は、E×M×N×2×(4+Q)となる。例えば、Qは、5~50である。
[評価]
 実際に、実施の形態1におけるNベストリランキングと、非特許文献1記載のNベストリランキングとの比較評価を行った。表1は、CSJ音声コーパスを用いて、非特許文献1記載のNベストリランキングとの比較評価する100(=N)ベストリランキング評価を行った結果を示す表である。表の数値は、WER(Word error rate)率[%]であり、Dev(Development)、Eval(Evaluation)を示す。
Figure JPOXMLDOC01-appb-T000001
 表1の通番「1」は、非特許文献1記載のNベストリランキング結果である。表1の通番「2」は、実施の形態1に係るリランキング装置10であって8個の補助モデルを有する場合の結果である。通番「3」は、通番「2」の条件に加え、前向き及び後ろ向きLSTMLMの単語予測スコアを18時限目及び19次元目の補助特徴として用いている。通番「4」は、参考のために示されたオラクルである。
 表1に示すように、通番「1」の非特許文献1記載のリランキング方法でも、十分にWERを削減できるが、通番「2」の8個の補助モデルを有するリランキング装置10では、さらにWER削減が実現できる。また、通番「3」の評価結果に示すように、両方向のLSTMLMの単語予測スコアと8個の補助モデルを用いることで、相補的なWER削減効果が得られることが確認できた。また、通番「2」以外にも、補助モデルの個数を、2または4とした構成でも評価を行っており、補助モデルの個数を増やすほどWERを削減できる傾向が確認できた。
 この評価結果から、本実施の形態1に係るリランキング装置10は、非特許文献1記載のリランキング方法と比して、安定したWER削減が実現できる。
[実施の形態3]
 なお、実施の形態1のリランキング装置10は、メインモデル110の出力を用いて判定を行ったが、メインモデル110の出力の他に各補助モデルの出力を用いて判定を行ってもよい。図9は、実施の形態3に係るリランキング装置の要部構成を示す図である。
 図3に示すように、リランキング装置は、判定部15の前段に、重み付け部18を有する。重み付け部18は、第1補助モデル111~第M補助モデル11M及びメインモデル110から出力された全ての判定情報を取得し、各判定情報に対して重み付け和を計算する。
 なお、各判定情報に対応する重みは予め設定されている。重み付け部18は、各判定情報に対し、全補助モデル及びメインモデル110に対して等重みで重み付けをしてもよい。また、重み付け部18は、メインモデル110に、他の補助モデルよりも多めの重みを付けてもよい。また、重み付け部18は、予め各判定情報に対する重みを学習した1層の線形NNを有し、各判定情報が入力されると各判定対象に対する重みを求めてもよい。
 判定部15は、重み付け部18が計算した重み付け和の値に基づいて二つの仮説の精度の高低を判定する。例えば、判定部15は、判定情報のそれぞれが、仮説W(u)が選択される確率を示すものとして、判定情報の重みづけ和を0~1の範囲に収まるように正規化した値が0.5以上であれば仮説W(u)を選択し、そうでなければ仮説W(v)を選択する。
[判定処理の処理手順]
 図10は、実施の形態3に係るリランキング処理の処理手順を示すフローチャートである。
 図10に示すステップS31~ステップS36は、図4に示すステップS1~ステップS6と同じ処理である。重み付け部18は、第1補助モデル111~第M補助モデル11M及びメインモデル110から出力された全ての判定情報を取得し、各判定情報に対して重み付け和を計算する重み付け処理を行う(ステップS37)。そして、重み付け部18が計算した重み付け和の値に基づいて二つの仮説の精度の高低を判定する。ステップS38~ステップS43は、図4に示すステップS7~ステップS12と同じ処理である。
[実施の形態3の効果]
 この実施の形態3に示すように、メインモデル110による判定情報に加え、全補助モデルによる判定情報を用いて、判定を行うことも可能である。この際、実施の形態3では、各補助モデル或いはメインモデル110に応じて、各判定情報に対する重み付けを行い、重み付け和の値に基づいて二つの仮説の精度の高低を判定するため、オラクル仮説を抽出精度を保持することができる。
 なお、本実施の形態では、全ての仮説に対して、比較処理を行うため、Nベスト仮説のソートも可能である。
 また、本実施の形態1~3では、音声認識のNベスト仮説をリランキングするためのモデルとして、図1に例示する第1補助モデル111~第M補助モデル11M及びメインモデル110について説明した。ただし、本実施の形態1~3の第1補助モデル111~第M補助モデル11M及びメインモデル110は、音声認識のNベスト仮説への適用にとどまらず、Nベスト仮説を採用しているあらゆるタスクに適用可能である。例えば、機械翻訳や文章要約などにも本実施の形態を適用することが可能である。また、文字列に限らず、数字やアルファベットを含む複数の系列にも本実施の系列を適用することが可能である。
 このため、本実施の形態1~3は、ある一つの入力に対する解の候補として挙げられた複数の系列であれば、このうちの二つの系列に対し、NNで表されるモデルを用いて、二つの系列のうちより精度が高い(誤りが少ない)系列を判定できる。そして、本実施の形態1~3では、二つの系列のうち、より精度が高いと判定した系列を比較対象として残し、他方の系列を比較対象から外し、精度が高いと判定した系列を二つの系列の一方の仮説として選択し、複数の系列のうち、判定が行われていない系列のいずれかを他方の仮説として選択する。そして、本実施の形態1~3では、判定処理と選択処理とを、所定条件に達するまで順次実行させせる。これによって、本実施の形態1~3によれば、所定条件に達した場合に比較対象として残っている系列を、最も精度が高い系列、すなわち、最終的な出力として出力することができる。
 また、この場合には、本実施の形態1~3では、精度が既知である学習用の複数の系列のうちの二つの系列の特徴量が与えられたとき、それら二つの系列の精度の高低が判定できるような、NNで表される第1補助モデル111~第M補助モデル11M及びメインモデル110にマルチタスク学習を行わせる。そして、本実施の形態1~3では、二つの系列のうち精度がより高い(誤りがより少ない)系列に他方の系列よりも高い順位が付与されている場合に正解を示す教師ラベルを付与して第1補助モデル111~第M補助モデル11M及びメインモデル110に学習させる。そして、本実施の形態1~3では、二つの系列のうち精度がより高い(誤りがより少ない)系列に他方の系列よりも低い順位が付与されている場に誤りを示す教師ラベルを付与して第1補助モデル111~第M補助モデル11M及びメインモデル110に学習させる。本実施の形態1~3では、この第1補助モデル111~第M補助モデル11M及びメインモデル110によって、一対一の二つの系列の比較が高精度で行うことができ、この結果、最も精度の高い系列を精度よく得ることができる。
[システム構成等]
 図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。例えば、リランキング装置10及び学習装置20は、一体の装置であってもよい。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。また、本実施形態において説明した各処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 図11は、プログラムが実行されることにより、リランキング装置10或いは学習装置20が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、リランキング装置10或いは学習装置20の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1031に記憶される。例えば、リランキング装置10或いは学習装置20における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。なお、ハードディスクドライブ1031は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
 2 音声認識装置
 10 リランキング装置
 11,21 モデル記憶部
 12 仮説入力部
 13 仮説選択部
 14 特徴量抽出部
 15 判定部
 16 実行制御部
 17 出力部
 18 重み付け部
 20 学習装置
 22 仮説入力部
 23 学習部
 110 メインモデル
 111~11M 第1補助モデル~第M補助モデル
 231 教師ラベル付与部
 232 入替部

Claims (10)

  1.  音声認識精度のスコアが対応付けられたNベスト仮説の入力を受け付ける入力部と、
     入力を受け付けた前記Nベスト仮説のうち、判定対象である二つの仮説を選択する選択部と、
     選択された二つの仮説が与えられたとき、前記二つの仮説を隠れ状態ベクトルに変換し、前記二つの仮説の隠れ状態ベクトルを基に前記二つの仮説の精度の高低を判定できるような、ニューラルネットワークで表される複数の補助モデルと、前記複数の補助モデルでそれぞれ変換された前記二つの仮説の隠れ状態ベクトルを基に、前記二つの仮説の精度の高低を判定できるような、ニューラルネットワークで表されるメインモデルとを用いて、前記二つの仮説の精度の高低を判定する判定部と、
     を有することを特徴とする判定装置。
  2.  前記選択部は、前記Nベスト仮説のスコアの昇順に前記二つの仮説を選択することを特徴とする請求項1に記載の判定装置。
  3.  前記判定部は、前記メインモデルから出力された判定情報、または、各補助モデルから出力された判定情報と前記メインモデルから出力された判定情報とに対して計算した重み付け和の値、に基づいて前記二つの仮説の精度の高低を判定することを特徴とする請求項1または2に記載の判定装置。
  4.  各補助モデルは、前記二つの仮説を、再帰的ニューラルネットワークを用いて隠れ状態ベクトルに変換し、ニューラルネットワークを用いて、前記隠れ状態ベクトルを基に二つの系列の精度の高低の並びが正しいことを示す事後確率を出力し、
     前記メインモデルは、ニューラルネットワークを用いて、前記複数の補助モデルでそれぞれ変換された前記二つの仮説の隠れ状態ベクトルを基に二つの系列の精度の高低の並びが正しいことを示す事後確率を出力する
     ことを特徴とする請求項1~3のいずれか一つに記載の判定装置。
  5.  音声認識精度が既知である学習用の二つの仮説の入力を受け付ける入力部と、
     前記二つの仮説が与えられたとき、前記二つの仮説を隠れ状態ベクトルに変換し、前記二つの仮説の隠れ状態ベクトルを基に前記二つの仮説の精度の高低を判定できるような、ニューラルネットワークで表される複数の補助モデルと、前記複数の補助モデルでそれぞれ変換された前記二つの仮説の隠れ状態ベクトルを基に、前記二つの仮説の精度の高低を判定できるような、ニューラルネットワークで表されるメインモデルとに対し、各ニューラルネットワークが前記二つの仮説の精度の高低を判定するタスクを個別に行うとみなしたマルチタスク学習を行わせる学習部と、
     を有することを特徴とする学習装置。
  6.  前記学習部は、前記二つの仮説のうち音声認識精度がより高い仮説に他方の仮説よりも高い順位が付与されている場合に正解ラベルを付与して前記複数の補助モデル及び前記メインモデルに学習させ、前記二つの仮説のうち音声認識精度がより高い仮説に他方の仮説よりも低い順位が付与されている場合に誤りラベルを付与して前記複数の補助モデル及び前記メインモデルに学習させることを特徴とする請求項5に記載の学習装置。
  7.  前記学習部は、各ニューラルネットワークによって実行された各タスクについて所定の損失をそれぞれ計算し、各損失の重み付け和に基づいて、各ニューラルネットワークのパラメータの値を更新することを特徴とする請求項5または6に記載の学習装置。
  8.  各補助モデルは、前記二つの仮説を、再帰的ニューラルネットワークを用いて隠れ状態ベクトルに変換し、ニューラルネットワークを用いて、前記隠れ状態ベクトルを基に二つの系列の精度の高低の並びが正しいことを示す事後確率を出力し、
     前記メインモデルは、ニューラルネットワークを用いて、前記複数の補助モデルでそれぞれ変換された前記二つの仮説の隠れ状態ベクトルを基に二つの系列の精度の高低の並びが正しいことを示す事後確率を出力する
     ことを特徴とする請求項5~7のいずれか一つに記載の学習装置。
  9.  判定装置が実行する判定方法であって、
     音声認識精度のスコアが対応付けられたNベスト仮説の入力を受け付ける工程と、
     入力を受け付けた前記Nベスト仮説のうち、判定対象である二つの仮説を選択する工程と、
     選択された二つの仮説が与えられたとき、前記二つの仮説を隠れ状態ベクトルに変換し、前記二つの仮説の隠れ状態ベクトルを基に前記二つの仮説の精度の高低を判定できるような、ニューラルネットワークで表される複数の補助モデルと、前記複数の補助モデルでそれぞれ変換された前記二つの仮説の隠れ状態ベクトルを基に、前記二つの仮説の精度の高低を判定できるような、ニューラルネットワークで表されるメインモデルとを用いて、前記二つの仮説の精度の高低を判定する工程と、
     を含んだことを特徴とする判定方法。
  10.  音声認識精度のスコアが対応付けられたNベスト仮説の入力を受け付けるステップと、
     入力を受け付けた前記Nベスト仮説のうち、判定対象である二つの仮説を選択するステップと、
     選択された二つの仮説が与えられたとき、前記二つの仮説を隠れ状態ベクトルに変換し、前記二つの仮説の隠れ状態ベクトルを基に前記二つの仮説の精度の高低を判定できるような、ニューラルネットワークで表される複数の補助モデルと、前記複数の補助モデルでそれぞれ変換された前記二つの仮説の隠れ状態ベクトルを基に、前記二つの仮説の精度の高低を判定できるような、ニューラルネットワークで表されるメインモデルとを用いて、前記二つの仮説の精度の高低を判定するステップと、
     をコンピュータに実行させるための判定プログラム。
PCT/JP2019/031517 2019-08-08 2019-08-08 判定装置、学習装置、判定方法及び判定プログラム WO2021024491A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021537548A JP7192995B2 (ja) 2019-08-08 2019-08-08 判定装置、学習装置、判定方法及び判定プログラム
US17/625,336 US20220262356A1 (en) 2019-08-08 2019-08-08 Determination device, training device, determination method, and determination program
PCT/JP2019/031517 WO2021024491A1 (ja) 2019-08-08 2019-08-08 判定装置、学習装置、判定方法及び判定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/031517 WO2021024491A1 (ja) 2019-08-08 2019-08-08 判定装置、学習装置、判定方法及び判定プログラム

Publications (1)

Publication Number Publication Date
WO2021024491A1 true WO2021024491A1 (ja) 2021-02-11

Family

ID=74502632

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/031517 WO2021024491A1 (ja) 2019-08-08 2019-08-08 判定装置、学習装置、判定方法及び判定プログラム

Country Status (3)

Country Link
US (1) US20220262356A1 (ja)
JP (1) JP7192995B2 (ja)
WO (1) WO2021024491A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6849621B2 (ja) * 2018-02-02 2021-03-24 日本電信電話株式会社 学習装置、学習方法及び学習プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011243147A (ja) * 2010-05-21 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム
US20170221474A1 (en) * 2016-02-02 2017-08-03 Mitsubishi Electric Research Laboratories, Inc. Method and System for Training Language Models to Reduce Recognition Errors
JP2018060047A (ja) * 2016-10-05 2018-04-12 国立研究開発法人情報通信研究機構 音響モデルの学習装置及びそのためのコンピュータプログラム
US10032463B1 (en) * 2015-12-29 2018-07-24 Amazon Technologies, Inc. Speech processing with learned representation of user interaction history
JP2019133084A (ja) * 2018-02-02 2019-08-08 日本電信電話株式会社 学習装置、学習方法及び学習プログラム
JP2019133085A (ja) * 2018-02-02 2019-08-08 日本電信電話株式会社 判定装置、判定方法及び判定プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6490964B2 (en) * 2000-01-24 2002-12-10 Delphi Technologies, Inc. Master brake cylinders having overmolded seals
US20040186714A1 (en) * 2003-03-18 2004-09-23 Aurilab, Llc Speech recognition improvement through post-processsing
US9811775B2 (en) * 2012-12-24 2017-11-07 Google Inc. Parallelizing neural networks during training
US20150324686A1 (en) * 2014-05-12 2015-11-12 Qualcomm Incorporated Distributed model learning
US10181098B2 (en) * 2014-06-06 2019-01-15 Google Llc Generating representations of input sequences using neural networks
JP6671020B2 (ja) * 2016-06-23 2020-03-25 パナソニックIpマネジメント株式会社 対話行為推定方法、対話行為推定装置及びプログラム
US20180330718A1 (en) * 2017-05-11 2018-11-15 Mitsubishi Electric Research Laboratories, Inc. System and Method for End-to-End speech recognition
US11043214B1 (en) * 2018-11-29 2021-06-22 Amazon Technologies, Inc. Speech recognition using dialog history

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011243147A (ja) * 2010-05-21 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム
US10032463B1 (en) * 2015-12-29 2018-07-24 Amazon Technologies, Inc. Speech processing with learned representation of user interaction history
US20170221474A1 (en) * 2016-02-02 2017-08-03 Mitsubishi Electric Research Laboratories, Inc. Method and System for Training Language Models to Reduce Recognition Errors
JP2018060047A (ja) * 2016-10-05 2018-04-12 国立研究開発法人情報通信研究機構 音響モデルの学習装置及びそのためのコンピュータプログラム
JP2019133084A (ja) * 2018-02-02 2019-08-08 日本電信電話株式会社 学習装置、学習方法及び学習プログラム
JP2019133085A (ja) * 2018-02-02 2019-08-08 日本電信電話株式会社 判定装置、判定方法及び判定プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
OGAWA ATSUNORI ET AL.: "Rescoring of N-Best speech recognition hypotheses using an encoder-classifier model that performs one-to-one hypothesis comparison", LECTURE PROCEEDINGS OF 2018 SPRING RESEARCH CONFERENCE OF THE ACOUSTICAL SOCIETY OF JAPAN (CD-ROM), March 2018 (2018-03-01), pages 23 - 24 *
TANAKA TOMOHIRO ET AL.: "Neural Error corrective language models with multiple hypotheses", IEICE TECHNICAL, vol. 118, no. 198, August 2018 (2018-08-01), pages 31 - 36 *

Also Published As

Publication number Publication date
JPWO2021024491A1 (ja) 2021-02-11
US20220262356A1 (en) 2022-08-18
JP7192995B2 (ja) 2022-12-20

Similar Documents

Publication Publication Date Title
JP6849621B2 (ja) 学習装置、学習方法及び学習プログラム
JP6911785B2 (ja) 判定装置、判定方法及び判定プログラム
US11361758B2 (en) Multi-stage machine learning and recognition
CN113544703B (zh) 高效的离策略信用分配
CN113656570B (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
US20170372694A1 (en) Dialogue act estimation method, dialogue act estimation apparatus, and storage medium
CN108073574A (zh) 用于处理自然语言以及训练自然语言模型的方法和设备
JP6831343B2 (ja) 学習装置、学習方法及び学習プログラム
CN110377916B (zh) 词预测方法、装置、计算机设备及存储介质
KR20160066441A (ko) 음성 인식 방법 및 음성 인식 장치
CN110490320B (zh) 基于预测机制和遗传算法融合的深度神经网络结构优化方法
CN114443827A (zh) 基于预训练语言模型的局部信息感知对话方法及系统
CN111145729A (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN109308316B (zh) 一种基于主题聚类的自适应对话生成系统
JP6495814B2 (ja) 言語確率算出方法、言語確率算出装置および言語確率算出プログラム
Zhang et al. Learning noise invariant features through transfer learning for robust end-to-end speech recognition
CN113505225A (zh) 一种基于多层注意力机制的小样本医疗关系分类方法
Moriya et al. Evolution-strategy-based automation of system development for high-performance speech recognition
WO2021024491A1 (ja) 判定装置、学習装置、判定方法及び判定プログラム
CN114528387A (zh) 基于对话流自举的深度学习对话策略模型构建方法和系统
CN114626518A (zh) 使用深度聚类的知识蒸馏
Song et al. Exploiting different word clusterings for class-based RNN language modeling in speech recognition
US9336774B1 (en) Pattern recognizing engine
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
Gunasekara et al. Quantized-dialog language model for goal-oriented conversational systems

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19940382

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021537548

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19940382

Country of ref document: EP

Kind code of ref document: A1