WO2019151506A1 - 学習装置、学習方法及び学習プログラム - Google Patents

学習装置、学習方法及び学習プログラム Download PDF

Info

Publication number
WO2019151506A1
WO2019151506A1 PCT/JP2019/003734 JP2019003734W WO2019151506A1 WO 2019151506 A1 WO2019151506 A1 WO 2019151506A1 JP 2019003734 W JP2019003734 W JP 2019003734W WO 2019151506 A1 WO2019151506 A1 WO 2019151506A1
Authority
WO
WIPO (PCT)
Prior art keywords
hypothesis
learning
model
hypotheses
sequences
Prior art date
Application number
PCT/JP2019/003734
Other languages
English (en)
French (fr)
Inventor
小川 厚徳
マーク デルクロア
成樹 苅田
中谷 智広
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US16/966,056 priority Critical patent/US20200365143A1/en
Publication of WO2019151506A1 publication Critical patent/WO2019151506A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Definitions

  • the present invention relates to a learning device, a learning method, and a learning program.
  • Speech recognition is a technology that converts speech (utterances) produced by humans into word strings (text) using a computer.
  • the speech recognition system outputs one word string (one best hypothesis) which is a hypothesis (speech recognition result) having the highest speech recognition score for one input utterance.
  • the accuracy of speech recognition by the speech recognition device is not 100%. Therefore, instead of outputting only one best hypothesis for one input utterance, N ( ⁇ 2) hypotheses are output, and the N best hyposcoring device is used to There is a method called N-best rescoring that outputs a hypothesis that is estimated to have the highest speech recognition accuracy as a final speech recognition result.
  • N best re-scoring (model) and N best re-ranking (model) are treated as synonymous.
  • FIG. 8 is a diagram showing a processing procedure for N best rescoring.
  • N best rescoring first, when an input of one utterance is received (step S31), speech recognition is performed (step S32), and N hypotheses as speech recognition results are descended in order based on their respective scores. Are sorted and output (step S33). The output hypothesis is the N best hypothesis. Using this N best hypothesis, an N best rescoring process is executed (step S34). In the N best rescoring process, as a post-process, a score is used to score again the N best hypothesis. As the model, for example, an N best rescoring model is used.
  • the N best re-scoring process re-ranking is performed to sort the N best hypotheses in descending order based on the reassigned scores.
  • the hypothesis ranked at the top of the N best hypothesis is extracted as a result of sorting, and the extracted hypothesis is output as a final speech recognition result.
  • N is usually set to about 100 to 1000. In some cases, even if N is set to 2 or more, only one hypothesis can be obtained. In that case, there is no point in performing N best rescoring.
  • FIG. 9 is a diagram showing a specific example of the N best hypothesis.
  • speech recognition is performed with N set to 5 or more, and five hypotheses up to the fifth place are obtained.
  • “[]” indicates that there is essentially no word there.
  • Hypotheses are sorted in descending order based on the speech recognition score.
  • the third hypothesis is the Oracle hypothesis with the highest speech recognition accuracy (the least error). It is expected that the third-rank hypothesis is reranked to the first rank by the N-best re-scoring process.
  • N a language model that expresses (evaluates) probabilities of word connection in a probabilistic manner, focusing on the correctness of the word sequence that is the speech recognition hypothesis as the language, is adopted.
  • the correctness of a word string as a language is the naturalness of the word string and the correctness of the connection between words.
  • n-chain of words included in each hypothesis in the N best hypothesis (n is usually about 1 to 3) is used as a feature, and a higher score is given to a hypothesis having higher recognition accuracy based on a log linear model.
  • Discriminative language models have been actively studied.
  • NN neural networks
  • RNN recurrent neural network
  • the discriminative language model is learned using the N best hypothesis, it is a model for performing N best rescoring in consideration of speech recognition errors, but is not a model based on the latest NN.
  • the RNN language model is a model based on the latest NN, since learning is performed using a correct word string that does not include errors, speech recognition errors cannot be considered.
  • the RNN language model is a model that estimates which word is likely to occur next to a word string when a word string is given, although it shows a high N best rescoring accuracy. That is, the RNN language model is not strictly a model for performing N best rescoring. In other words, it can be said that the function of estimating the next word of the RNN language model is a function that is more than a function necessary for performing N best rescoring.
  • the highest accuracy is obtained for a plurality of sequences. It is expected that an optimal model for determining a high candidate is realized based on the latest NN, not the discriminative language model or the RNN language model.
  • the present invention has been made in view of the above, and learning that realizes an optimum model for determining the most accurate candidate for a plurality of sequences listed as solution candidates for a certain input
  • An object is to provide an apparatus, a learning method, and a learning program.
  • a learning device includes an input unit that receives input of a plurality of sequences for learning whose accuracy is known, and two sequences of the plurality of sequences And a learning unit that learns a model represented by a neural network that can determine whether the accuracy of these two sequences is high or low.
  • an optimal model is realized for determining a candidate with the highest accuracy for a plurality of sequences listed as solution candidates for a certain input.
  • FIG. 1 is a diagram illustrating an example of a functional configuration of the reranking apparatus according to the embodiment.
  • FIG. 2 is a diagram illustrating a construction example of the N best rescoring model.
  • FIG. 3 is a flowchart showing a processing procedure of the reranking process executed by the reranking apparatus shown in FIG.
  • FIG. 4 is a diagram illustrating an example of a functional configuration of the learning device according to the embodiment.
  • FIG. 5 is a flowchart showing a processing procedure of learning processing executed by the learning apparatus shown in FIG.
  • FIG. 6 is a diagram illustrating an evaluation result of N best reranking.
  • FIG. 1 is a diagram illustrating an example of a functional configuration of the reranking apparatus according to the embodiment.
  • FIG. 2 is a diagram illustrating a construction example of the N best rescoring model.
  • FIG. 3 is a flowchart showing a processing procedure of the reranking process executed by the reranking apparatus shown in FIG
  • FIG. 7 is a diagram illustrating an example of a computer in which a reranking device and a learning device are realized by executing a program.
  • FIG. 8 is a diagram showing a processing procedure for N best rescoring.
  • FIG. 9 is a diagram illustrating a specific example of the N best hypothesis.
  • the N (N ⁇ 2) best hypothesis that is a speech recognition result will be described as an example of a plurality of sequences listed as candidates for a certain correct answer.
  • a learning apparatus for realizing the N best reranking model will be described. Note that this embodiment will be described in terms of N best reranking (model) instead of N best rescoring (model).
  • the N best hypotheses are sorted so that the scores are in descending order as a result of rescoring.
  • the main purpose of N best rescoring is to find a hypothesis (Oracle hypothesis) with the highest speech recognition accuracy from the N best hypothesis as a final speech recognition result. For this reason, the N best hypotheses after rescoring need not necessarily be sorted. This embodiment has focused on this point.
  • the minimum function necessary for the N best reranking model in order to find the Oracle hypothesis from the N best hypotheses by reranking is based on the two hypotheses in the N best hypothesis.
  • the minimum function necessary for the N best reranking model is that one-to-one hypothesis comparison can be performed on two hypotheses in the N best hypothesis.
  • the reranking apparatus uses the N best reranking model that is represented by NN and has a function of comparing two hypotheses on a one-to-one basis. A function to judge higher hypotheses was added. Then, the reranking apparatus according to the present embodiment leaves a hypothesis with higher speech recognition accuracy as one hypothesis of the next determination target, selects the other hypothesis from undetermined hypotheses, and selects the N best reranking model Make a comparison using. The reranking apparatus according to the present embodiment selects a hypothesis determined to have higher speech recognition accuracy in the previous determination as one hypothesis to be determined, and selects one of the undetermined hypotheses as the other hypothesis. Then, the comparison process for the two hypotheses by the N best reranking model is repeated. Thus, in the present embodiment, it is possible to find the Oracle hypothesis from the N best hypotheses.
  • This reranking apparatus repeatedly executes the determination of the level of speech recognition accuracy using the N best reranking model represented by NN for two hypotheses of the N best hypotheses that are the results of speech recognition. A hypothesis with high recognition accuracy is output as the final speech recognition result.
  • FIG. 1 is a diagram illustrating an example of a functional configuration of the reranking apparatus according to the embodiment.
  • the reranking apparatus 10 according to the first embodiment is configured such that a predetermined program is read into a computer or the like including a ROM (Read Only Memory), a RAM (Random Access Memory), a CPU (Central Processing Unit), and the like. This is realized by executing a predetermined program.
  • a predetermined program is read into a computer or the like including a ROM (Read Only Memory), a RAM (Random Access Memory), a CPU (Central Processing Unit), and the like. This is realized by executing a predetermined program.
  • the reranking device 10 accepts the input of the N best hypothesis output from the speech recognition device 2. Then, the reranking apparatus 10 performs a determination on the level of speech recognition accuracy for two hypotheses among the N best hypotheses for all N best hypotheses, and finalizes the remaining hypotheses as hypotheses with high speech recognition accuracy. As a typical speech recognition result. Note that when one utterance is input, the speech recognition apparatus 2 performs speech recognition using, for example, a speech recognition model, and outputs the N best hypothesis as a speech recognition result.
  • the speech recognition model is learned (model parameters are optimized) by using a plurality of learning utterances and a transcription (correct word sequence) corresponding to each utterance as learning data.
  • the reranking apparatus 10 includes an N best reranking model storage unit 11, a hypothesis input unit 12, a hypothesis selection unit 13, a feature amount extraction unit 14, a determination unit 15, an execution control unit 16, and an output unit 17.
  • the N best reranking model storage unit 11 stores the N best reranking model.
  • the N best reranking model is a model represented by NN.
  • the N best reranking model is learned in advance using an N best hypothesis for learning whose speech recognition accuracy is known.
  • the N best reranking model can determine the level of speech recognition accuracy of two sequences when given feature quantities of two sequences for a plurality of combinations of two sequences of N best hypotheses for learning. To be learned.
  • the N best reranking model converts two hypotheses into a hidden state vector using RNN.
  • the first posterior probability indicating that the high and low accuracy of the two hypotheses are correct based on the hidden state vector and the high and low accuracy of the two hypotheses are used.
  • a second posterior probability indicating an error is output.
  • the two-class classification FFNN is connected to the subsequent stage of the RNN.
  • the two-class classification FFNN is based on the hidden state vector converted by the RNN, the first posterior probability indicating that the hierarchical relation of the two hypotheses in the N best hypothesis is correct, and the rank of the two hypotheses in the N best hypothesis.
  • a second posterior probability indicating that the vertical relation of is an error is output.
  • the hypothesis input unit 12 receives input of the N best hypothesis.
  • the speech recognition apparatus 2 outputs the N best hypothesis.
  • another device may input the N best hypothesis to the reranking device 10 via a network or the like.
  • the hypothesis selection unit 13 selects two hypotheses that are one-to-one comparison targets among the N best hypotheses that have received the input.
  • the hypothesis selection unit 13 selects any two hypotheses as a set from the N best hypotheses according to a certain rule. Specifically, the hypothesis selection unit 13 selects a hypothesis that is estimated to have the highest accuracy at the time of comparison as one of the two hypotheses.
  • the hypothesis selection unit 13 selects a hypothesis subsequent to the hypothesis to be compared last time as the other hypothesis of the two hypotheses. In this way, the hypothesis selection unit 13 selects two hypotheses to be compared from the N best hypotheses so that a one-to-one comparison is performed for all N best hypotheses.
  • the feature quantity extraction unit 14 extracts feature quantities of two hypotheses that are one-to-one comparison targets.
  • the feature amount extraction unit 14 performs the u-th hypothesis (word string) in the N best hypothesis and the v-th hypothesis (u ⁇ v ⁇ N) in the N best hypothesis, which are one-to-one comparison targets, respectively. Extract features.
  • the feature quantity extraction unit 14 extracts a feature quantity vector for each word in the hypothesis.
  • the feature quantity vector of each word is, for example, an acoustic score (logarithmic likelihood) obtained by speech recognition processing on a word vector expressing a discrete value word ID as a continuous value vector by NN word embedding processing. ) And language score (logarithmic probability), etc., are connected to the word vector as auxiliary feature quantities.
  • the determining unit 15 determines which hypothesis has higher speech recognition accuracy by using the N best reranking model for the two hypotheses to be compared on a one-to-one basis. Specifically, feature quantities of the u-th hypothesis that is a one-to-one comparison target and the v (u ⁇ v ⁇ N) -th hypothesis are input to the N best reranking model, and output by the N best reranking model. The result is used to determine which hypothesis has high speech recognition accuracy.
  • the ranks of the hypotheses represented by the u-position and the v-position are those already assigned in the N best hypothesis.
  • the reranking device 10 does not reset the ranking.
  • the N best reranking model indicates that the u-th hypothesis has higher speech recognition accuracy than the v-th hypothesis when the u-th hypothesis feature and the v-th hypothesis feature are input.
  • a first posterior probability and a second posterior probability indicating that the v-th hypothesis has higher speech recognition accuracy than the u-th hypothesis are output.
  • the determination unit 15 determines that the u-th hypothesis has higher speech recognition accuracy than the v-th hypothesis.
  • the determination unit 15 determines that the speech recognition accuracy is higher than the u-rank hypothesis than the v-rank hypothesis.
  • the N best reranking model may have the function of the feature amount extraction unit 14.
  • the determination unit 15 inputs two hypotheses to be compared to the N best reranking model.
  • the hypothesis selection unit 13 selects a hypothesis determined to be highly accurate by the determination unit 15 as one hypothesis of the two sequences, and is one of the hypotheses that have not been determined by the determination unit 15 among the N best hypotheses. Is selected as the other hypothesis. Specifically, as described above, the hypothesis selection unit 13 selects the hypothesis left by the determination unit 15 as one of the two hypotheses, and among the N best hypotheses, the rank of the hypothesis to be compared last time Is selected as the other hypothesis of the two hypotheses.
  • the execution control unit 16 performs control to repeat the determination process by the determination unit 15 and the selection process by the hypothesis selection unit 14 until a predetermined condition is reached. In this case, the execution control unit 16 selects the two hypotheses to be compared in the hypothesis selection unit 13 and the feature amount extraction processing in the feature amount extraction unit 14 so that the one-to-one comparison is executed for all N best hypotheses. And the control which repeats the determination process in the determination part 15 is performed. Specifically, the execution control unit 16 performs control to repeat the hypothesis selection process, the feature quantity extraction process, and the determination process until the rank of the hypothesis to be compared becomes N.
  • the output unit 17 repeats the hypothesis selection process, the feature amount extraction process, the determination process, and the rank setting process, and as a result, the hypothesis remaining as a comparison target when the predetermined condition is reached among the N best hypotheses, A hypothesis having the highest speech recognition accuracy, that is, a final speech recognition result is output.
  • the output unit 17 outputs a hypothesis determined to have high accuracy in the final determination process as a final speech recognition result.
  • W (u) w 1 (u) , w 2 (u) ,..., W L (W (u)) (u ) is defined as the u-th hypothesis (word string) in the N best hypothesis. . L (W (u) ) is defined as the length (number of words ) of W (u) .
  • W (u) i-th word w i in the auxiliary feature vector a i of (u) (u) is, for example, an acoustic score obtained as a result of the speech recognition process performed by the speech recognition device (log likelihood) and language It is a score (logarithmic probability) or the like (for details, see Non-Patent Document 2, for example).
  • concat (•) represents a vector concatenation process.
  • Embed ( ⁇ ) is a word embedding process by NN (a process of expressing a discrete word ID as a vector of continuous values) (for example, Yuta Tsuboi, Yuya Unno, Jun Suzuki, natural language by deep learning) Processing, MLP Machine Learning Professional Series, Kodansha, 2017. (Refer to Reference 1 hereinafter)).
  • NN a process of expressing a discrete word ID as a vector of continuous values
  • the NN that performs embed ( ⁇ ) is also a part of the N best rescoring model, and its parameters are learned (optimized) simultaneously with the parameters of the encoder RNN and the two-class classification FFNN described later.
  • X (u) , X (v) ) is a first posterior probability that the vertical relationship between the u-th hypothesis and the v-th hypothesis expresses the correctness stochastically.
  • X (u) , X (v) ) is a second posterior probability that probabilistically represents that the hierarchical relationship between the u-th hypothesis and the v-th hypothesis is incorrect.
  • the determination unit 15 outputs the first posterior probability P (0
  • the determination unit 15 determines the first posterior probability P (0
  • the determination unit 15 also determines that the first posterior probability P (0
  • the v-th hypothesis is determined to have higher speech recognition accuracy than the u-th hypothesis.
  • the determination unit 15 determines which of the u-th hypothesis and the v-th hypothesis has higher speech recognition accuracy.
  • acc ( ⁇ ) is a function ⁇ y P (y
  • X (u) , X (v) ) 1 that returns the speech recognition accuracy of a given hypothesis (word string).
  • the determination unit 15 determines that the hypothesis W (u) has a voice recognition accuracy equal to or higher than the hypothesis W (v) .
  • the determination unit 15 determines that W (u) has a voice recognition accuracy lower than W (v) .
  • the determination unit 15 treats W (v) as a hypothesis having a lower voice recognition accuracy than W (u) and excludes it from a hypothesis candidate having the highest voice recognition accuracy, that is, a final voice recognition result candidate. To do.
  • the determination unit 15 If the first-stage inequality of equation (1-2) is satisfied, it is presumed that the vertical relationship between the rankings of W (u) and W (v) is incorrect. That is, it is presumed that the vertical relationship between the rankings of W (u) and W (v) is reversed. Therefore, the determination unit 15, W (v) a, W leaving a one-to-one hypothesis hypotheses high speech recognition accuracy than W (u) in comparison to (u), W in the next one-to-one hypothesis comparison Used as (u) . Note that the determination unit 15 treats the original W (u) as a hypothesis having a lower voice recognition accuracy than the original W (v) , and a hypothesis candidate having the highest voice recognition accuracy, that is, a final voice recognition result. Exclude from candidates.
  • the N best reranking model has a first posterior probability P (0
  • FIG. 2 is a diagram illustrating a construction example of the N best reranking model.
  • the NN that performs the word embedding process embed (•) is omitted. The details will be described below.
  • the N best ranking model converts the two hypotheses into a hidden state vector using RNN.
  • the N best reranking model has an encoder RNN 111 of an encoder-decoder model (for example, refer to Reference 1 for details) in order to perform this process.
  • the N best reranking model can represent W (u) and W (v) with a fixed-length hidden state vector using the encoder RNN111.
  • the N best reranking model can compare W (u) and W (v) fairly by using these hidden state vectors.
  • the encoder RNN 111 has a long short-term memory (LSTM) unit (for example, see Reference 1 for details) which is a kind of RNN.
  • LSTM unit includes a W feature vector x i of the i-th word w i of (u) (u) (u ), i-1 th hidden state vector h ⁇ i-1 ⁇ (u ) is given The i-th hidden state vector h i (u) is given by the following equation (2).
  • h i (u) lstm (x i (u) , h ⁇ i ⁇ 1 ⁇ (u) ) (2)
  • lstm (•) indicates the processing of a one-layer unidirectional LSTM unit.
  • h i (u) 0 (zero vector).
  • h i (u) the word sequence w 1 (u), w 2 (u), ⁇ , feature vector column x 1 of the w i (u) (u) , x 2 (u), ⁇ , X i (u) is encoded.
  • the encoder RNN 111 repeats this processing for each feature quantity vector x i (u) in the feature quantity vector sequence X (u) , thereby encoding a hidden state vector h L (W (u ) that encodes X (u). )) (U) can be obtained.
  • Encoder RNN111 also performs for similar processing feature vector sequence X (v), obtaining X (v) encodes a hidden state vector h L (W (v)) (v).
  • LSTM unit that processes X (u) and the LSTM unit that processes X (v) are the same, that is, the parameters may be shared or different LSTM units. May be.
  • the subscript L (W (u)) of (v) is indicated as L (W (u) ).
  • the N best reranking model is a hidden state vector h ⁇ (u, ) obtained by connecting the two hidden state vectors h L (W (u)) (u) and h L (W (v)) (v) obtained above .
  • v) ⁇ is obtained from the encoder RNN11 as shown in the following equation (3).
  • the N best reranking model uses a one-layer feedforward NN (FFNN) 112 (refer to, for example, Reference 1 for details) as an NN for two-class classification.
  • X (u) , X (v) ) can be obtained by the following equations (4) and (5).
  • linear (•) represents a linear transformation process (for details, see, for example, Reference 1).
  • softmax ( ⁇ ) represents softmax processing.
  • Softmax ( ⁇ ) y represents the y-th element (probability value) of the posterior probability vector obtained as a result of the softmax process.
  • the LSTM unit of encoder RNN 111 shown in FIG. 2 is a single-layer unidirectional LSTM unit, but it may be a multi-layer or bi-directional LSTM unit.
  • LSTM unit a simple RNN (having the following sigmoid function or the like as an activation function) or a gated recurrent unit (GRU) may be used.
  • GRU gated recurrent unit
  • the N best reranking model uses a single-layer feedforward NN as the two-class classification NN, but a multiple-layer feedforward NN may be used.
  • a sigmoid function, a tanh function, a rectified linear unit (ReLU) function, a Parametric ReLU (PREReLU) function, or the like can be used as an activation function.
  • ReLU rectified linear unit
  • PREReLU Parametric ReLU
  • the N best reranking model can use a score calculated by a conventional N best rescoring model (for example, an RNN language model) as a new dimension in the feature vector.
  • a conventional N best rescoring model for example, an RNN language model
  • FIG. 3 is a flowchart showing a processing procedure of the reranking process executed by the reranking apparatus 10 shown in FIG.
  • the determination unit 15 acquires an output result from the N best reranking model (step S6). Specifically, the determination unit 15 uses the first posterior probability P (0
  • the determination unit 15 determines whether or not acc (W (u) ) ⁇ acc (W (v) ) ( Step S7).
  • X (u) , X (v) ) the determination unit 15 determines that acc (W (u) ) ⁇ acc (W (v ) )
  • the determination unit 15 determines that acc (W (u) ) ⁇ acc (W (V) It is determined that this is not the case.
  • step S10 Yes
  • step S12 the reranking device 10 sets two arbitrary hypotheses as one set, and repeats the determination of the level of the voice recognition accuracy for each of the plurality of sets, thereby determining the hypothesis that is estimated to have the highest voice recognition accuracy.
  • the final voice recognition result can be output.
  • FIG. 4 is a diagram illustrating an example of a functional configuration of the learning device according to the embodiment.
  • the learning device 20 according to the first embodiment is realized, for example, by a predetermined program being read into a computer or the like including a ROM, a RAM, a CPU, and the like, and the CPU executing the predetermined program.
  • the N best reranking model storage unit 21 and the learning device 20 include a hypothesis input unit 22 and a learning unit 23.
  • the N best reranking model storage unit 21 stores the N best reranking model to be learned.
  • the N best reranking model is represented by NN.
  • the N best reranking model converts two of the N best hypotheses into a hidden state vector using RNN.
  • the first posterior probability indicating that the high and low accuracy of the two hypotheses are correct based on the hidden state vector and the high and low accuracy of the two hypotheses are used.
  • a second posterior probability indicating an error is output.
  • the hypothesis input unit 22 receives an input of N best hypotheses for learning whose speech recognition accuracy is known.
  • N best hypothesis for learning speech recognition is performed for each utterance in the learning data, and the N best hypothesis for each utterance is obtained.
  • the speech recognition accuracy of all hypotheses is known.
  • feature vector sequences are extracted for all hypotheses in the N best hypothesis.
  • the learning unit 23 learns an N best reranking model that can determine the level of accuracy of two hypotheses when given the feature values of two hypotheses of the N best hypotheses for learning. .
  • feature quantity vector strings of two hypotheses out of the N best hypotheses for learning and teacher labels (described later) corresponding thereto are given to the N best reranking model.
  • the learning unit 23 learns the N best reranking model (parameter optimization) so that the N best reranking model can correctly determine the level of speech recognition accuracy of these two hypotheses.
  • the learning unit 23 inputs a feature vector sequence and a corresponding teacher label to the N best reranking model, and the N best reranking model corresponds to when these feature vectors are given.
  • the N best reranking model is learned so that the teacher label can be output correctly.
  • the learning unit 23 includes a teacher label assignment unit 231 and a replacement unit 232.
  • FIG. 5 is a flowchart showing a processing procedure of learning processing executed by the learning apparatus shown in FIG.
  • W (u) and W (v) (u ⁇ v ⁇ N) are given as two hypotheses from the N best hypothesis, and acc (W (u) ) ⁇ acc (W (v) )
  • acc (W (u) ) ⁇ acc (W (v) ) A processing procedure of learning processing at a certain time is shown.
  • the best reranking model is input (step S22), the N best reranking model is learned, and the model parameters of the N best reranking model are updated (step S23). That is, according to the equation (1-1), when the feature vectors X (u) and X (v) of the two hypotheses W (u) and W (v) are input to the N best reranking model, Should ideally output a posteriori probability of P (0
  • X (u) , X (v) ) 1.
  • the learning unit 23 updates the model parameters (encoder RNN (LSTM unit), two-class classification FFNN, and NN parameters for performing embedding (•) of a word simultaneously).
  • the replacement unit 232 switches the order of the hypotheses W (u) and W (v) (step S24). That is, the hypothesis that was originally W (v) is W (u), and the hypothesis that was originally W (u) is W (v) . In this case, acc (W (u) ) ⁇ acc (W (v) ) is not satisfied. Therefore, according to the equation (1-2), when the feature vectors X (u) and X (v) of these two hypotheses W (u) and W (v) are input to the N best reranking model, Should ideally output a posteriori probability of P (1
  • X (u) , X (v) ) 1.
  • the learning device 20 repeats the above procedure for the N best hypothesis of each utterance in the learning data, and further repeats the repetition itself several times (how many epochs).
  • the learning unit 23 can perform a further specific procedure of learning in the same manner as the conventional NN learning (for example, refer to Reference 1 for details).
  • [Learning processing efficiency example 1] The processing procedure of the learning process shown in FIG. 5 has a high calculation cost.
  • E is the number of epochs and M is the number of utterances in the learning data
  • the maximum number of model parameter updates in the above learning procedure is E ⁇ M ⁇ N ⁇ 2 ⁇ NC 2 .
  • E is about several tens
  • M is at least tens of thousands
  • N is about 100 to 1000 as described above, so the number of model parameter updates reaches a huge number. For this reason, in this Embodiment, it is preferable to aim at the efficiency of learning. Therefore, learning efficiency example 1 will be described below.
  • N best rescoring the main purpose of N best rescoring is to find the Oracle hypothesis from the N best hypothesis as the final speech recognition result. In other words, it is sufficient that the Oracle hypothesis can be accurately distinguished from the other N-1 hypotheses. In order to realize this, one of two hypotheses input to the N best reranking model during learning is set as an Oracle hypothesis. As a result, the number of model parameter updates can be reduced to E ⁇ M ⁇ N ⁇ 2 ⁇ (N ⁇ 1).
  • Example 2 of learning process efficiency improvement Next, a learning efficiency example 2 will be described.
  • the learning efficiency example 1 when the N best hypothesis is given, the Oracle hypothesis included in the hypothesis is compared with the other N-1 hypotheses.
  • the number of other hypotheses to be compared with the Oracle hypothesis is narrowed down.
  • Hypothesis 1 is a hypothesis having the second highest speech recognition accuracy after the Oracle hypothesis.
  • Hypothesis 2 is a hypothesis having the highest speech recognition score.
  • Hypothesis 3 is a hypothesis having the lowest speech recognition accuracy.
  • Hypothesis 4 is a hypothesis having the lowest speech recognition score.
  • Hypothesis 1 and hypothesis 2 are hypotheses with high (or estimated to be high) speech recognition accuracy, and are difficult to distinguish from the Oracle hypothesis.
  • Hypothesis 3 and Hypothesis 4 are hypotheses with low (or estimated to be low) speech recognition accuracy, and are easy to distinguish from the Oracle hypothesis (must be surely distinguished).
  • the number of model parameter updates can be reduced to E ⁇ M ⁇ N ⁇ 2 ⁇ 4.
  • the remaining N-5 is obtained by removing the Oracle hypothesis and these four hypotheses from the N best hypothesis.
  • a predetermined number of hypotheses extracted according to a predetermined rule from the hypotheses may be selected and used as an alternative hypothesis together with the four hypotheses. For example, as the other hypothesis of two hypotheses, Q hypotheses can be obtained at regular intervals or at random from the remaining N-5 hypotheses excluding the Oracle hypothesis and these four hypotheses. Select it and use it as the other hypothesis along with four hypotheses.
  • the number of model parameter updates is E ⁇ M ⁇ N ⁇ 2 ⁇ (4 + Q). For example, Q is 5 to 50.
  • the comparative evaluation between the N best rescoring in the present embodiment and the conventional RNN language model was performed.
  • the model follows the equations (1-1) and (1-2), and the two classes of posterior probabilities P (y
  • X (u) , X (v ) ), Y ⁇ 0, 1 ⁇ is estimated.
  • the reranking apparatus 10 may perform N best reranking using these posterior probabilities as they are.
  • the reranking apparatus 10 weights the original speech recognition score and the score (logarithmic value of the posterior probability) based on the N best reranking model using equation (6).
  • N best reranking may be performed based on the value obtained by addition.
  • Score (1- ⁇ ) ⁇ Speech recognition score + ⁇ ⁇ N Score based on best reranking model (6)
  • Equation (6) ⁇ is the weight of the N best reranking model, and 0 ⁇ ⁇ ⁇ 1.
  • 1 is set, the reranking apparatus 10 performs N best reranking using only the score based on the N best reranking model without using the speech recognition score.
  • FIG. 6 is a diagram illustrating an evaluation result of N best reranking.
  • a Japanese spoken language corpus is used, the conventional RNN language model, the N best reranking model used by the reranking device 10 of the present embodiment, and the RNN language.
  • the result of comparative evaluation of the N best reranking model (other construction example 4) in which the model score is added as one dimension of the feature vector is shown.
  • N best reranking is performed using a score obtained by weight-adding the speech recognition score and the score based on the N best reranking model according to the equation (6).
  • the N best reranking model of the present embodiment can steadily improve the speech recognition accuracy than the conventional RNN language model. It can also be seen that the speech recognition accuracy of the N best reranking model can be further improved by adding the score of the RNN language model as a one-dimensional feature quantity vector as in the construction example 4.
  • FIG. 6 shows that in the conventional RNN language model, it is necessary to use a speech recognition score, and the weight ⁇ has a relatively narrow optimum value.
  • the N best reranking model of the present embodiment it can be seen that the range of the optimum value of ⁇ is wider than that of the conventional RNN language model. That is, the N best reranking model of the present embodiment is robust to the value of ⁇ .
  • the reranking device 10 performs the reranking of the N best hypothesis
  • the minimum necessary function that the N best reranking model should have is the most accurate hypothesis (the Oracle hypothesis) from the N best hypothesis. Is found as the final speech recognition result. For this reason, the N best hypotheses after rescoring need not necessarily be sorted.
  • the N best reranking model uses either one of the two hypotheses in the N best hypothesis to have a higher speech. A function to determine whether or not it has recognition accuracy was added.
  • the N best reranking model has a function capable of performing a one-to-one hypothesis comparison for two hypotheses in the N best hypothesis.
  • the reranking apparatus 10 uses an N best reranking model represented by NN and has a function of comparing two hypotheses on a one-to-one basis. By repeating the comparison process for the hypotheses, it is possible to find the Oracle hypothesis from the N best hypotheses.
  • the learning device 20 determines, in the N best reranking model, two hypotheses of N best hypotheses for learning whose speech recognition accuracy is known as one set, and determines the level of speech recognition accuracy for each of the plurality of sets. We learn in advance so that we can do it. Therefore, the learning device 20 can realize an optimum model for performing N best reranking based on the latest NN.
  • the reranking device 10 can accurately compare two hypotheses one to one by using the N best reranking model learned in the learning device 20, and the Oracle hypothesis by the reranking device 10. Can be extracted with high accuracy.
  • the present embodiment it is possible to realize an N best reranking model represented by NN that can obtain a final speech recognition result from the N best hypotheses with high accuracy.
  • the final speech recognition result can be obtained with high accuracy by using the N best reranking model.
  • the processing is terminated when a hypothesis that is estimated to be an Oracle hypothesis (the most accurate hypothesis) is found in the one-to-one hypothesis comparison, but the hypothesis that is presumed to be an Oracle hypothesis is excluded.
  • the hypothesis that is estimated to be the second most accurate can be found by performing the same processing as that for finding the Oracle hypothesis for the N-1 hypotheses. Thereafter, the N best hypotheses can be sorted by repeating this process.
  • the N best reranking model illustrated in FIG. 2 has been described as a model for reranking the N best hypothesis of speech recognition.
  • the model of the present embodiment is not limited to the application of speech recognition to the N best hypothesis, and can be applied to any task that employs the N best hypothesis.
  • the present embodiment can be applied to machine translation and sentence summarization.
  • the present embodiment can be applied not only to character strings but also to a plurality of sequences including numbers and alphabets.
  • two sequences are used by using a model represented by NN for two sequences.
  • a sequence with higher accuracy can be determined.
  • the sequence determined to have higher accuracy is left as the comparison target, the other sequence is excluded from the comparison target, and the sequence determined to be high in accuracy is one of the two sequences.
  • the determination process and the selection process are sequentially executed until a predetermined condition is reached.
  • a sequence remaining as a comparison target when a predetermined condition is reached can be output as a sequence with the highest accuracy, that is, as a final output.
  • the present embodiment when the feature quantities of two sequences among a plurality of sequences for learning whose accuracy is known are given, it is possible to determine whether the accuracy of these two sequences is high or low.
  • a model represented by NN is learned.
  • a teacher label indicating a correct answer is assigned to the model. Let them learn.
  • a teacher label indicating an error is assigned to a model in which a higher accuracy (less error) of two sequences is given a lower rank than the other sequence. Let them learn.
  • this model makes it possible to compare two one-to-one sequences with high accuracy. As a result, the most accurate sequence can be obtained with high accuracy.
  • each component of each illustrated device is functionally conceptual and does not necessarily need to be physically configured as illustrated.
  • the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or a part of the distribution / integration is functionally or physically distributed in arbitrary units according to various loads or usage conditions.
  • the reranking device 10 and the learning device 20 may be an integrated device.
  • all or a part of each processing function performed in each device can be realized by a CPU and a program that is analyzed and executed by the CPU, or can be realized as hardware by wired logic.
  • all or a part of the processes described as being automatically performed can be manually performed, or the processes described as being manually performed can be performed. All or a part can be automatically performed by a known method.
  • each process described in the present embodiment is not only executed in time series according to the order of description, but may be executed in parallel or individually as required by the processing capability of the apparatus that executes the process. .
  • the processing procedure, control procedure, specific name, and information including various data and parameters shown in the above-described document and drawings can be arbitrarily changed unless otherwise specified.
  • FIG. 7 is a diagram illustrating an example of a computer in which the reranking device 10 or the learning device 20 is realized by executing a program.
  • the computer 1000 includes a memory 1010 and a CPU 1020, for example.
  • the computer 1000 also includes a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These units are connected by a bus 1080.
  • the memory 1010 includes a ROM 1011 and a RAM 1012.
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to the hard disk drive 1031.
  • the disk drive interface 1040 is connected to the disk drive 1041.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1041.
  • the serial port interface 1050 is connected to a mouse 1110 and a keyboard 1120, for example.
  • the video adapter 1060 is connected to the display 1130, for example.
  • the hard disk drive 1031 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. That is, a program that defines each process of the reranking device 10 or the learning device 20 is implemented as a program module 1093 in which a code executable by the computer 1000 is described.
  • the program module 1093 is stored in the hard disk drive 1031, for example.
  • a program module 1093 for executing processing similar to the functional configuration in the reranking device 10 or the learning device 20 is stored in the hard disk drive 1031.
  • the hard disk drive 1031 may be replaced by an SSD (Solid State Drive).
  • the setting data used in the processing of the above-described embodiment is stored as program data 1094 in, for example, the memory 1010 or the hard disk drive 1031. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1031 to the RAM 1012 as necessary, and executes them.
  • the program module 1093 and the program data 1094 are not limited to being stored in the hard disk drive 1031, but may be stored in, for example, a removable storage medium and read out by the CPU 1020 via the disk drive 1041 or the like. Alternatively, the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Then, the program module 1093 and the program data 1094 may be read by the CPU 1020 from another computer via the network interface 1070.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

学習装置(20)は、精度が既知である学習用の複数の系列として、音声認識精度が既知である学習用のNベスト仮説の入力を受け付ける仮説入力部(22)と、複数の仮説のうちの二つの仮説の特徴量がそれぞれ与えられたとき、それら二つの系列の精度の高低を判定できるような、ニューラルネットワークで表されるモデルを学習する学習部(23)と、を有する。

Description

学習装置、学習方法及び学習プログラム
 本発明は、学習装置、学習方法及び学習プログラムに関する。
 音声認識は、人間が発した音声(発話)を計算機により単語列(テキスト)に変換する技術である。通常、音声認識システムは、入力された一つの発話に対して、音声認識スコアの最も高い仮説(音声認識結果)である一つの単語列(1ベスト仮説)を出力する。ただし、音声認識装置による音声認識の精度は、100%ではない。このため、一つの入力発話に対して、1ベスト仮説のみを出力するのではなく、N(≧2)個の仮説を出力して、Nベストリスコアリング装置を用いて、そのN個仮説の中から音声認識精度が最も高いと推定される仮説を最終的な音声認識結果として出力する、Nベストリスコアリングと呼ばれる手法がある。なお、Nベストリスコアリング(モデル)とNベストリランキング(モデル)とは同義として扱われている。
T. Oba, T. Hori, A. Nakamura, and A. Ito, "Round-Robin Duel Discriminative Language Models", IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no.4, pp.1244-1255, May 2012. A. Ogawa and T. Hori, "Error detection and accuracy estimation in automatic speech recognition using deep bidirectional recurrent neural networks", Speech Communication, vol. 89, pp.70-83, May 2017.
 図8は、Nベストリスコアリングの処理手順を示す図である。このNベストリスコアリングでは、まず、1発話の入力を受け付けると(ステップS31)、音声認識を行い(ステップS32)、音声認識結果であるN個の仮説を、これらの各スコアを基に降順でソートして出力する(ステップS33)。出力した仮説は、Nベスト仮説である。このNベスト仮説を用いて、Nベストリスコアリング処理が実行される(ステップS34)。Nベストリスコアリング処理では、後処理として、モデルを用いて、そのNベスト仮説に対して再度スコア付けを行う。モデルは、例えば、Nベストリスコアリングモデルを用いる。
 そして、Nベストリスコアリング処理では、それらの再度付与されたスコアを基にNベスト仮説を降順にソートするリランキングを行う。Nベストリスコアリング処理では、ソートの結果、Nベスト仮説の最上位にランキングされた仮説を抽出し、抽出した仮説を、最終的な音声認識結果として出力する。
 Nの値としては、通常、100~1000程度が設定されることが多い。なお、Nを2以上に設定しても、一つの仮説しか得られない場合もある。その場合は、Nベストリスコアリングを行う意味はない。
 図9は、Nベスト仮説の具体例を示す図である。図9では、Nを5以上に設定して音声認識を行い、5位までの五つの仮説が得られている。図9において、「[]」は、本来そこには単語がないことを示す。仮説は、音声認識スコアを基準として降順にソートされている。図9の例では、3位仮説が最も音声認識精度が高い(最も誤りが少ない)オラクル仮説である。Nベストリスコアリングの処理によって、この3位仮説が1位にリランキングされることが期待される。
 ここで、Nベストリスコアリングモデルとして、音声認識仮説である単語列の言語としての正しさに着目して、単語のつながり易さを確率統計的に表現する(評価する)言語モデルが採用されることが多い。単語列の言語としての正しさは、単語列の自然さ、単語同士のつながりの正しさである。
 従来、例えば、Nベスト仮説中の各仮説に含まれる単語のn連鎖(nは通常1~3程度)を素性として、ログリニアモデルに基づき、認識精度がより高い仮説により高いスコアを与えるような識別的言語モデルが盛んに研究されていた。
 また、近年では、ニューラルネットワーク(Neural Network:NN)の発展に基づき、NNに基づくNN言語モデルのうち、再帰的ニューラルネットワーク(Recurrent Neural Network:RNN)に基づくRNN言語モデルがNベストリスコアリングモデルとして盛んに利用されている。
 ここで、識別的言語モデルは、Nベスト仮説を用いて学習されるため、音声認識誤りを考慮したNベストリスコアリングを行うためのモデルであるものの、最新のNNに基づくモデルではない。
 一方、RNN言語モデルは、最新のNNに基づくモデルであるものの、その学習は誤りを含まない正しい単語列を用いて行われるため、音声認識誤りを考慮できない。また、RNN言語モデルは高いNベストリスコアリング精度を示すものの、本来は単語列が与えられたときに、その単語列の次にどの単語が生起しやすいかを推定するモデルである。すなわち、RNN言語モデルは、厳密には、Nベストリスコアリングを行うためのモデルではない。言い換えると、RNN言語モデルの次単語を推定する機能は、Nベストリスコアリングを行う上で必要な機能以上の機能であると言える。
 このように、ある一つの入力に対する解の候補として挙げられた複数の系列に対して、最も精度が高い(最も誤りが少ない)候補を判定するために、複数の系列に対して、最も精度が高い候補を判定するうえで最適なモデルを、識別的言語モデルやRNN言語モデルではなく、最新のNNに基づき実現することが期待されている。
 本発明は、上記に鑑みてなされたものであって、ある一つの入力に対する解の候補として挙げられた複数の系列に対し、最も精度が高い候補を判定する上で最適なモデルを実現する学習装置、学習方法及び学習プログラムを提供することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明に係る学習装置は、精度が既知である学習用の複数の系列の入力を受け付ける入力部と、複数の系列のうちの二つの系列の特徴量がそれぞれ与えられたとき、それら二つの系列の精度の高低を判定できるような、ニューラルネットワークで表されるモデルを学習する学習部と、を有することを特徴とする。
 本発明によれば、ある一つの入力に対する解の候補として挙げられた複数の系列に対し、最も精度が高い候補を判定する上で最適なモデルを実現する。
図1は、実施の形態に係るリランキング装置の機能構成の一例を示す図である。 図2は、Nベストリスコアリングモデルの構築例を示す図である。 図3は、図1に示すリランキング装置が実行するリランキング処理の処理手順を示すフローチャートである。 図4は、実施の形態に係る学習装置の機能構成の一例を示す図である。 図5は、図4に示す学習装置が実行する学習処理の処理手順を示すフローチャートである。 図6は、Nベストリランキングの評価結果を示す図である。 図7は、プログラムが実行されることにより、リランキング装置及び学習装置が実現されるコンピュータの一例を示す図である。 図8は、Nベストリスコアリングの処理手順を示す図である。 図9は、Nベスト仮説の具体例を示す図である。
 以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。本実施の形態では、ある正解に対する候補として挙げられた複数の系列として、音声認識結果であるN(N≧2)ベスト仮説を例として説明する。そして、本実施の形態では、Nベスト仮説のうち、最終的な音声認識結果である最も音声認識精度が高い仮説(単語列)を得るためのNベストリランキングモデルを用いたリランキング装置、及び、Nベストリランキングモデルを実現する学習装置について説明する。なお、本実施の形態については、Nベストリスコアリング(モデル)ではなく、Nベストリランキング(モデル)と表現を統一して説明する。
 まず、本実施の形態に係るリランキング装置がNベスト仮説のリランキングを行う上で、Nベストリランキングモデルが有すべき必要最低限な機能について述べる。従来の方法では、Nベスト仮説は、リスコアリングの結果、スコアが降順になるようにソートされる。しかしながら、Nベストリスコアリングの主な目的は、Nベスト仮説から最も音声認識精度が高い仮説(オラクル仮説)を、最終的な音声認識結果として見つけ出すことである。このため、リスコアリング後のNベスト仮説は、必ずしもソートされている必要はない。本実施の形態ではこの点に着目した。
 すなわち、本実施の形態では、Nベスト仮説の中からオラクル仮説をリランキングにより見つけ出すためにNベストリランキングモデルに必要最低限な機能は、Nベスト仮説中の二つの仮説に着目したときに、どちらの仮説の方がより高い音声認識精度を有しているかを判定できることである点に着目した。言い換えると、Nベストリランキングモデルに必要最低限な機能は、Nベスト仮説中の二つの仮説を対象に、一対一の仮説比較を行うことができることである。
 そこで、本実施の形態に係るリランキング装置は、NNで表され、一対一の二つの仮説の比較を行う機能を持つNベストリランキングモデルを用いることによって、二つの仮説のうち音声認識精度がより高い仮説を判定する機能を持たせた。そして、本実施の形態に係るリランキング装置は、音声認識精度がより高い仮説を次の判定対象の一方の仮説として残し、未判定の仮説から他方の仮説を選択して、Nベストリランキングモデルを用いた比較を行う。本実施の形態に係るリランキング装置は、前回の判定で音声認識精度がより高いと判定された仮説を判定対象の一方の仮説として選択し、未判定の仮説のいずれかを他方の仮説として選択し、Nベストリランキングモデルによる二つの仮説に対する比較処理を繰り返す。これによって、本実施の形態では、Nベスト仮説の中からオラクル仮説を見つけ出すことを可能にした。
[実施の形態]
[リランキング装置]
 次に、実施の形態に係るリランキング装置について説明する。このリランキング装置は、音声認識結果であるNベスト仮説のうちの二つの仮説に対する、NNで表されるNベストリランキングモデルを用いた音声認識精度の高低の判定を繰り返し実行して、最も音声認識精度の高い仮説を最終的な音声認識結果として出力する。
 図1は、実施の形態に係るリランキング装置の機能構成の一例を示す図である。実施の形態1に係るリランキング装置10は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。
 リランキング装置10は、音声認識装置2から出力されたNベスト仮説の入力を受け付ける。そして、リランキング装置10は、このNベスト仮説のうち、二つの仮説に対する音声認識精度の高低についての判定を、全Nベスト仮説について実行し、音声認識精度が高い仮説として残った仮説を、最終的な音声認識結果として出力する。なお、音声認識装置2は、1発話が入力されると、例えば、音声認識用のモデルを用いて音声認識を行い、音声認識結果としてNベスト仮説を出力する。音声認識用のモデルは、学習用の複数の発話と、各発話に対応する書き起こし(正解単語列)を学習データとして用いて学習(モデルパラメータが最適化)されている。
 リランキング装置10は、Nベストリランキングモデル記憶部11、仮説入力部12、仮説選択部13、特徴量抽出部14、判定部15、実行制御部16及び出力部17を有する。
 Nベストリランキングモデル記憶部11は、Nベストリランキングモデルを記憶する。Nベストリランキングモデルは、NNで表されるモデルである。Nベストリランキングモデルは、音声認識精度が既知である学習用のNベスト仮説を用いて予め学習される。Nベストリランキングモデルは、学習用のNベスト仮説のうち二つの系列の複数の組み合わせについて、二つの系列の特徴量が与えられたときに、その二つの系列の音声認識精度の高低を判定できるように学習される。Nベストリランキングモデルは、二つの仮説を、RNNを用いて隠れ状態ベクトルに変換する。そして、Nベストリランキングモデルは、NNを用いて、隠れ状態ベクトルを基に二つの仮説の精度の高低の並びが正しいことを示す第1の事後確率及び二つの仮説の精度の高低の並びが誤りであることを示す第2の事後確率を出力する。言い換えると、Nベストリランキングモデルでは、RNNの後段に2クラス分類FFNNが接続される。この2クラス分類FFNNは、RNNが変換した隠れ状態ベクトルを基に、二つの仮説のNベスト仮説における順位の上下関係が正しいことを示す第1の事後確率及び二つの仮説のNベスト仮説における順位の上下関係が誤りであることを示す第2の事後確率を出力する。
 仮説入力部12は、Nベスト仮説の入力を受け付ける。Nベスト仮説は、音声認識装置2が出力する。或いは、他の装置が、ネットワーク等を介して、Nベスト仮説をリランキング装置10に入力してもよい。
 仮説選択部13は、入力を受け付けたNベスト仮説のうち、一対一の比較対象である二つの仮説を選択する。仮説選択部13は、一定のルールに従い、Nベスト仮説の中から、任意の二つの仮説を1組とし選択する。具体的には、仮説選択部13は、二つの仮説の一方の仮説として、比較対象時に最高の精度を持つと推定される仮説を選択する。仮説選択部13は、二つの仮説の他方の仮説として、前回比較対象となった仮説の順位の次の順位の仮説を選択する。このように、仮説選択部13は、全Nベスト仮説について一対一の比較が実行されるように、Nベスト仮説から、比較対象の二つの仮説を選択する。
 特徴量抽出部14は、一対一の比較対象である二つの仮説について、それぞれの特徴量を抽出する。特徴量抽出部14は、一対一の比較対象であるNベスト仮説中のu位の仮説(単語列)と、Nベスト仮説中のv位(u<v≦N)の仮説とについて、それぞれの特徴量を抽出する。特徴量抽出部14は、仮説中の各単語単位で特徴量ベクトルを抽出する。各単語の特徴量ベクトルは、例えば、離散値である単語IDをNNによる単語の埋め込み処理により連続値のベクトルとして表現した単語ベクトルに、音声認識処理により得られる単語単位の音響スコア(対数尤度)や言語スコア(対数確率)などを補助特徴量として、単語ベクトルに連結したものである。
 判定部15は、一対一の比較対象の二つの仮説に対し、Nベストリランキングモデルを用いて、いずれの仮説がより高い音声認識精度を有しているかを判定する。具体的には、一対一の比較対象であるu位の仮説と、v(u<v≦N)位の仮説との特徴量をNベストリランキングモデルに入力し、Nベストリランキングモデルによる出力結果を用いて、どちらの仮説が高い音声認識精度を有しているかを判定する。u位及びv位で表す仮説の順位は、Nベスト仮説において既に付与されているものである。リランキング装置10では、順位の再設定を行わない。
 ここで、Nベストリランキングモデルは、u位の仮説の特徴量及びv位の仮説の特徴量が入力されると、u位の仮説がv位の仮説よりも音声認識精度が高いことを示す第1の事後確率と、v位の仮説がu位の仮説よりも音声認識精度が高いことを示す第2の事後確率とを出力する。判定部15は、第1の事後確率が第2の事後確率よりも高い場合には、u位の仮説がv位の仮説よりも音声認識精度が高いと判定する。また、判定部15は、第1の事後確率が第2の事後確率よりも低い場合には、v位の仮説よりもu位の仮説よりも音声認識精度が高いと判定する。
 なお、リランキング装置10では、特徴量抽出部14の機能を、Nベストリランキングモデルが有してもよい。この場合、判定部15は、比較対象である二つの仮説をNベストリランキングモデルに入力する。
 そして、判定部15は、比較対象の二つの系列のうち、より精度が高いと判定した仮説を次の判定時における比較対象として残し、他方の仮説を以降比較対象から外す。仮説選択部13は、判定部15によって精度が高いと判定された仮説を二つの系列の一方の仮説として選択し、Nベスト仮説のうち、判定部15による判定が行われていない仮説のいずれかを他方の仮説として選択する。具体的には、前述したように、仮説選択部13は、判定部15が残した仮説を二つの仮説の一方の仮説として選択し、Nベスト仮説のうち、前回比較対象となった仮説の順位の次の順位の仮説を二つの仮説の他方の仮説として選択する。
 実行制御部16は、判定部15による判定処理と仮説選択部14による選択処理とを、所定条件に達するまで繰り返す制御を行う。この場合、実行制御部16は、全Nベスト仮説について一対一の比較が実行されるように、仮説選択部13における比較対象の二つの仮説の選択処理、特徴量抽出部14における特徴量抽出処理、及び、判定部15における判定処理を繰り返す制御を行う。具体的に、実行制御部16は、比較対象である仮説の順位がNになるまで、仮説の選択処理、特徴量抽出処理及び判定処理を繰り返す制御を行う。
 出力部17は、仮説の選択処理、特徴量抽出処理、判定処理及び順位の設定処理が繰り返された結果、Nベスト仮説のうち、所定条件に達した場合、比較対象として残っている仮説を、最も音声認識精度が高い仮説、すなわち、最終的な音声認識結果として出力する。出力部17は、最後の判定処理で精度が高いと判定された仮説を最終的な音声認識結果として出力する。
 次に、Nベストリランキングモデルに必要最低限な機能要件を数式で定義する。W(u)=w (u),w (u),・・・,wL(W(u)) (u)を、Nベスト仮説中のu位の仮説(単語列)と定義する。また、L(W(u))を、W(u)の長さ(単語数)と定義する。
 また、A(u)=a (u),a (u),・・・,aL(W(u)) (u)をW(u)に対応する補助特徴量ベクトル列と定義する。W(u)中のi番目の単語w (u)の補助特徴量ベクトルa (u)は、例えば、音声認識装置による音声認識処理の結果として得られる音響スコア(対数尤度)や言語スコア(対数確率)などである(詳細は、例えば、非特許文献2を参照)。
 また、X(u)=x (u),x (u),・・・,xL(W(u)) (u)をW(u)に対応する特徴量ベクトル列と定義する。W(u)中のi番目の単語w (u)の特徴量ベクトルx (u)は、x (u)=concat(embed(w (u)),a (u))で得られる。ここで、concat(・)は、ベクトルの連結処理を表す。また、embed(・)は、NNによる単語の埋め込み処理(離散値の単語IDを連続値のベクトルで表現する処理)(詳細は、例えば、坪井祐太,海野裕也,鈴木潤,深層学習による自然言語処理,MLP機械学習プロフェッショナルシリーズ,講談社,2017.(以降、参考文献1とする。)を参照)を表す。なお、embed(・)を行うNNもNベストリスコアリングモデルの一部であり、そのパラメータは、後述のエンコーダRNN及び2クラス分類FFNNのパラメータと同時に学習(最適化)される。
 Nベスト仮説中のu番目の仮説W(u)とv番目の仮説W(v)(u<v≦N)の特徴量ベクトル列X(u),X(v)が与えられたとき、リランキング装置10におけるNベストリランキングモデルは、2クラスの記号y={0,1}の事後確率Pを出力する。y=0は、W(u)及び仮説W(v)の順位の上下関係が正しいことを示す。また、y=1は、W(u)及び仮説W(v)の順位の上下関係が誤りであることを示す。P(0|X(u),X(v))は、u位の仮説とv位の仮説との順位の上下関係が正しさを確率的に表現する第1の事後確率である。P(1|X(u),X(v))は、u位の仮説とv位の仮説との順位の上下関係が誤りであることを確率的に表現する第2の事後確率である。
 判定部15は、Nベストリランキングモデルから出力された第1の事後確率P(0|X(u),X(v))及び第2の事後確率P(1|X(u),X(v))を取得し、取得した二つの事後確率の大小を比較して、u位の仮説及びv位の仮説のいずれがより音声認識精度が高いかを判定する。判定部15は、第1の事後確率P(0|X(u),X(v))が第2の事後確率P(1|X(u),X(v))よりも高い場合には、u位の仮説がv位の仮説よりも音声認識精度が高いと判定する。また、判定部15は、第1の事後確率P(0|X(u),X(v))が第2の事後確率P(1|X(u),X(v))よりも低い場合には、v位の仮説がu位の仮説よりも音声認識精度が高いと判定する。
 すなわち、判定部15は、以下の(1-1)式及び(1-2)式に示すように、u位の仮説及びv位の仮説のいずれがより音声認識精度が高いかを判定する。
 P(0|X(u),X(v))≧P(1|X(u),X(v)
if acc(W(u))≧acc(W(v))    ・・・(1-1)
 P(0|X(u),X(v))<P(1|X(u),X(v)
otherwise                 ・・・(1-2)
 ここで、acc(・)は、与えられた仮説(単語列)の音声認識精度を返す関数ΣP(y|X(u),X(v))=1である。(1-1)式の1段目に示す不等式が満足される場合、判定部15は、仮説W(u)は仮説W(v)以上の音声認識精度を持つと判定する。また、(1-2)式の不等式が満足される場合、判定部15は、W(u)はW(v)よりも低い音声認識精度を持つと判定する。
 したがって、(1-1)式の1段目に示す不等式が満足される場合、W(u)及びW(v)のランキングの上下関係(u<v)が正しいと推定される。このため、判定部15は、W(u)を、W(v)との一対一の仮説比較においてW(v)よりも音声認識精度が高い仮説として残し、次の一対一の仮説比較でもW(u)として引き続き使用する。なお、判定部15は、W(v)を、W(u)よりも音声認識精度が低い仮説として扱い、最も音声認識精度が高い仮説の候補、すなわち、最終的な音声認識結果の候補から除外する。
 そして、(1-2)式の1段目不等式が満足される場合は、W(u)及びW(v)のランキングの上下関係は、誤りであると推定される。すなわち、W(u)及びW(v)のランキングの上下関係は逆であると推定される。このため、判定部15は、W(v)を、W(u)との一対一の仮説比較においてW(u)よりも音声認識精度が高い仮説として残し、次の一対一の仮説比較ではW(u)として使用する。なお、判定部15は、元のW(u)を、元のW(v)よりも音声認識精度が低い仮説として扱い、最も音声認識精度が高い仮説の候補、すなわち、最終的な音声認識結果の候補から除外する。なお、Nベストリランキングモデルは、第1の事後確率P(0|X(u),X(v))及び第2の事後確率P(1|X(u),X(v))の事後確率の大小を比較して、u位の仮説及びv位の仮説のいずれがより音声認識精度が高いかを判定し、仮説の残存の判定までを推定してもよい。
[Nベストリランキングモデルの構築例]
 図2は、Nベストリランキングモデルの構築例を示す図である。なお、図2では、簡単のため、単語の埋め込み処理embed(・)を行うNNは省略されている。以下、その詳細について説明する。
 比較対象の仮説W(u)の長さ(単語数)L(W(u))と仮説W(v)(u<v≦N)の長さL(W(v))とが異なる可能性がある。この長さの違いを吸収するため、Nベストランキングモデルは、二つの仮説を、RNNを用いて隠れ状態ベクトルに変換する。具体的には、Nベストリランキングモデルは、この処理を行うために、エンコーダ-デコーダモデル(詳細は、例えば、参考文献1参照)のエンコーダRNN111を有する。
 Nベストリランキングモデルは、エンコーダRNN111を用いてW(u)とW(v)を固定長の隠れ状態ベクトルで表現することができる。そして、Nベストリランキングモデルは、これらの隠れ状態ベクトルを用いることによって、W(u)とW(v)とを公平に比較することが可能になる。
 エンコーダRNN111の処理について説明する。エンコーダRNN111は、RNNの一種である長短期記憶メモリ(long short-term memory:LSTM)ユニット(詳細は、例えば、参考文献1参照)を有する。LSTMユニットは、W(u)のi番目の単語w (u)の特徴量ベクトルx (u)と、i-1番目の隠れ状態ベクトルh{i-1} (u)が与えられたとき、i番目の隠れ状態ベクトルh (u)を以下の(2)式のように与える。
 h (u)=lstm(x (u), h{i-1} (u))    ・・・(2)
 ここで、lstm(・)は、1層単方向(unidirectional)のLSTMユニットの処理を示す。また、h (u)=0(ゼロベクトル)である。h (u)は、単語列w (u),w (u),・・・,w (u)の特徴量ベクトル列x (u),x (u),・・・,x (u)をエンコード(符号化)したものである。エンコーダRNN111は、この処理を、特徴量ベクトル列X(u)中の各特徴量ベクトルx (u)に対して繰り返すことで、X(u)をエンコードした隠れ状態ベクトルhL(W(u)) (u)を得ることができる。
 エンコーダRNN111は、同様の処理を特徴量ベクトル列X(v)に対しても行い、X(v)をエンコードした隠れ状態ベクトルhL(W(v)) (v)を得る。なお、X(u)に対して処理を行うLSTMユニットと、X(v)に対して処理を行うLSTMユニットは同じもの、すなわち、パラメータが共有されていてもよいし、別のLSTMユニットであってもよい。また、図2では、xL(W(u)) (u),xL(W(v)) (v),hL(W(u)) (u),hL(W(v)) (v)の下付き部分L(W(u))は、L(W(u))と示している。
 Nベストリランキングモデルは、以上で得た二つの隠れ状態ベクトルhL(W(u)) (u),hL(W(v)) (v)を連結した隠れ状態ベクトルh{(u,v)}をエンコーダRNN11の出力として以下の(3)式のように得る。
 h{(u,v)}=concat(hL(W(u)) (u),hL(W(v)) (v))  ・・・(3)
 そして、Nベストリランキングモデルは、エンコーダRNN111の後段に、クラス分類(y=0 or 1)を行うためのNNを連結する。例えば、Nベストリランキングモデルは、2クラス分類のためのNNとして、1層のフィードフォワード型NN(FFNN)112(詳細は、例えば、参考文献1を参照)を用いる。エンコーダRNN111の出力として得た隠れ状態ベクトルh{(u,v)}が、1層の2クラス分類FFNNに入力され、最終的に、2クラスの記号y={0,1}の事後確率P(y|X(u),X(v))を以下の(4),(5)式のように得ることができる。
 z{(u,v)}=linear(h{(u,v)})   ・・・(4)
 P(y|X(u),X(v))=softmax(z{(u,v)} 
                           ・・・(5)
 ここで、linear(・)は、線形変換処理(詳細は、例えば、参考文献1を参照)を表す。softmax(・)は、ソフトマックス処理を表す。また、softmax(・)は、ソフトマックス処理の結果として得られる事後確率ベクトルのy番目の要素(確率値)を表す。
[Nベストリランキングモデルの他の構築例1]
 なお、図2に示すエンコーダRNN111のLSTMユニットは、1層単方向のLSTMユニットとしたが、複数層または双方向(bidirectional)のLSTMユニットであってもよい。
[Nベストリランキングモデルの他の構築例2]
 また、LSTMユニットの代わりに、単純な(下記のsigmoid関数等を活性化関数として持つ。)RNNや、Gated Recurrent Unit(GRU)を用いてもよい。
[Nベストリランキングモデルの他の構築例3]
 さらに、Nベストリランキングモデルは、図2の構築例では、2クラス分類NNとして、1層のフィードフォワード型NNを用いたが、複数層のフィードフォワード型NNを用いてもよい。Nベストリランキングモデルは、複数層のフィードフォワード型NNを用いる場合、活性化関数として、sigmoid関数、tanh関数、Rectified Linear Unit(ReLU)関数、Parametric ReLU(PReLU)関数などを用いることができる。なお、Nベストリランキングモデルの他の構築例1~3の用語の詳細については、例えば、参考文献1を参照いただきたい。
[Nベストリランキングモデルの他の構築例4]
 また、Nベストリランキングモデルは、従来のNベストリスコアリングモデル(例えばRNN言語モデル)により計算されたスコアを、特徴量ベクトルにおける新たな次元として追加して利用することも可能である。
[リランキング処理の処理手順]
 次に、図1に示すリランキング装置10が実行するリランキング処理の処理手順について説明する。図3は、図1に示すリランキング装置10が実行するリランキング処理の処理手順を示すフローチャートである。
 まず、仮説入力部12が、リランキング対象のNベスト仮説の入力を受け付けると(ステップS1)、仮説選択部13は、入力を受け付けたNベスト仮説のうち、順次、一対一の比較対象であるu位及びv位の二つの仮説を選択する(u<v≦N)。まず、仮説選択部13は、u=1、v=2に設定する(ステップS2)。そして、仮説選択部13は、入力を受け付けたNベスト仮説から、u位及びv位の二つの仮説W(u),W(v)をNベスト仮説から選択する(ステップS3)。続いて、特徴量抽出部14は、仮説W(u),W(v)の特徴量を抽出する(ステップS4)。判定部15は、仮説W(u),W(v)の特徴量(X(u),X(v))をNベストリランキングモデルに入力する(ステップS5)。
 判定部15は、Nベストリランキングモデルからの出力結果を取得する(ステップS6)。具体的には、判定部15は、第1の事後確率P(0|X(u),X(v))及び第2の事後確率P(1|X(u),X(v))を取得する。
 そして、(1-1)式及び(1-2)式において説明したように、判定部15は、acc(W(u))≧acc(W(v))であるか否かを判定する(ステップS7)。判定部15は、P(0|X(u),X(V))≧P(1|X(u),X(v))の場合、acc(W(u))≧acc(W(v))であると判定する。一方、判定部15は、P(0|X(u),X(v))<P(1|X(u),X(v))の場合、acc(W(u))≧acc(W(v))でないと判定する。
 判定部15がacc(W(u))≧acc(W(v))であると判定した場合(ステップS7:Yes)、順位設定部16は、kについてk=uと設定する(ステップS8)。kは、最も音声認識精度が高い仮説のNベスト仮説における順位(ランキング)である。一方、判定部15がacc(W(u))≧acc(W(v))でないと判定した場合(ステップS7:No)、順位設定部16は、k=vと設定する(ステップS9)。
 続いて、実行制御部16は、v=Nであるか否かを判定する(ステップS10)。実行制御部16は、v=Nでないと判定した場合(ステップS10:No)、必要な一対一の仮説比較処理がまだ全ては終了していないため、仮説選択部13に対し、比較対象の次の仮説の選択を行わせる。具体的には、仮説選択部13は、u=k、v=v+1に設定し(ステップS11)、ステップS3に戻り、次の判定対象のNベスト仮説W(u),W(v)を選択する。そして、リランキング装置10は、このNベスト仮説W(u),W(v)に対して、ステップS4~ステップS10の処理を実行する。
 また、実行制御部16は、v=Nであると判定した場合(ステップS10:Yes)、必要な一対一の比較処理が全て終了したため、k位のW(k)を最も音声認識精度が高いと推定される仮説、すなわち、最終的な音声認識結果として出力し(ステップS12)、処理を終了する。このように、リランキング装置10では、任意の二つの仮説を1組とし、複数の組についてそれぞれ音声認識精度の高低の判定を繰り返すことで、最も音声認識精度が高いと推定される仮説を、最終的な音声認識結果として出力することができる。
[学習装置]
 次に、リランキング装置10が用いるNベストリランキングモデルを学習する学習装置について説明する。図4は、実施の形態に係る学習装置の機能構成の一例を示す図である。実施の形態1に係る学習装置20は、例えば、ROM、RAM、CPU等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。図4に示すように、Nベストリランキングモデル記憶部21、学習装置20は、仮説入力部22及び学習部23を有する。
 Nベストリランキングモデル記憶部21は、学習対象のNベストリランキングモデルを記憶する。Nベストリランキングモデルは、NNで表される。Nベストリランキングモデルは、Nベスト仮説のうちの二つの仮説を、RNNを用いて隠れ状態ベクトルに変換する。そして、Nベストリランキングモデルは、NNを用いて、隠れ状態ベクトルを基に二つの仮説の精度の高低の並びが正しいことを示す第1の事後確率及び二つの仮説の精度の高低の並びが誤りであることを示す第2の事後確率を出力する。
 仮説入力部22は、音声認識精度が既知である学習用のNベスト仮説の入力を受け付ける。学習用のNベスト仮説として、学習データ中の各発話に対して音声認識が行われ、各発話のNベスト仮説が得られているものとする。また学習データであるので、全ての仮説の音声認識精度は、既知である。また、Nベスト仮説中の全ての仮説に対して、前述のように、特徴量ベクトル列が抽出されているものとする。
 学習部23は、学習用のNベスト仮説のうちの二つの仮説の特徴量がそれぞれ与えられたときに、それら二つの仮説の精度の高低が判定できるような、Nベストリランキングモデルを学習する。学習部23では、学習用のNベスト仮説のうちの二つの仮説の特徴量ベクトル列と、これらに対応する教師ラベル(後述)とを、Nベストリランキングモデルに与える。これによって、学習部23は、Nベストリランキングモデルがこれら二つの仮説の音声認識精度の高低を正しく判定できるように、Nベストリランキングモデルの学習(パラメータの最適化)を行う。具体的には、学習部23は、特徴量ベクトル列と、対応する教師ラベルとをNベストリランキングモデルに入力し、Nベストリランキングモデルがこれらの特徴量ベクトルを与えられたときに対応する教師ラベルを正しく出力できるように、Nベストリランキングモデルの学習を行う。学習部23は、教師ラベル付与部231及び入替部232を有する。
 教師ラベル付与部231は、二つの仮説のうち音声認識精度がより高い仮説に他方の仮説よりも高い順位が付与されている場合に正解を表す教師ラベル(y=0)を付与して、Nベストリランキングモデルに学習させる。また、教師ラベル付与部231は、二つの仮説のうち音声認識精度がより高い仮説に他方の仮説よりも低い順位が付与されている場合に誤りを表す教師ラベル(y=1)を付与し、Nベストリランキングモデルに学習させる。
 入替部232は、学習用のNベスト仮説のうちの二つの仮説の順位を入れ換え、対応する教師ラベルも入れ換えて、Nベストリランキングモデルの学習を行う。例えば、教師ラベルとしてy=0が付与されている二つの仮説については、二つの仮説の順位を入れ換え、教師ラベルyを1に変える。一方、教師ラベルとしてy=1が付与されている二つの仮説については、二つの仮説の順位を入れ換え、教師ラベルyを0に変える。
[学習処理の処理手順]
 次に、図4に示す学習装置20が実行する学習処理の処理手順について説明する。図5は、図4に示す学習装置が実行する学習処理の処理手順を示すフローチャートである。図5では、Nベスト仮説から二つの仮説としてW(u),W(v)(u<v≦N)が与えられ、かつ、acc(W(u))≧acc(W(v))であるときの学習処理の処理手順を示す。
 図5に示すように、教師ラベル付与部231が、教師ラベルy=0を付与し(ステップS21)、W(u),W(v)の特徴量X(u),X(v)をNベストリランキングモデルに入力し(ステップS22)、Nベストリランキングモデルを学習させ、Nベストリランキングモデルのモデルパラメータを更新させる(ステップS23)。すなわち、(1-1)式に従うと、この二つの仮説のW(u),W(v)の特徴量ベクトルX(u),X(v)をNベストリランキングモデルに入力した場合、モデルは、理想的には、P(0|X(u),X(v))=1との事後確率を出力すべきである。このため、教師ラベル付与部231は、教師ラベルとして、y=0を与える。以上の入力を基に、学習部23は、モデルパラメータ(エンコーダRNN(LSTMユニット)及び2クラス分類FFNN及び単語の埋め込み処理embed(・)を行うNNのパラメータを同時に)を更新させる。
 そして、入替部232は、仮説W(u),W(v)の順位を入れ替える(ステップS24)。すなわち、元々、W(v)であった仮説をW(u)とし、元々、W(u)であった仮説をW(v)とする。この場合には、acc(W(u))≧acc(W(v))ではない。よって、(1-2)式に従えば、この二つの仮説W(u),W(v)の特徴量ベクトルX(u),X(v)をNベストリランキングモデルに入力した場合、モデルは理想的には,P(1|X(u),X(v))=1との事後確率を出力すべきである。このため、教師ラベル付与部231は、教師ラベルとして、y=1を付与し(ステップS25)、W(u),W(v)の特徴量X(u),X(v)をNベストリランキングモデルに入力する(ステップS26)。学習部23は、以上の入力を基に、Nベストリランキングモデルを学習させ、Nベストリランキングモデルのモデルパラメータを更新させて(ステップS27)、二つの仮説W(u),W(v)に対する学習処理を終了する。
 学習装置20は、上記の手順を、学習データ中の各発話のNベスト仮説について繰り返し、更にはその繰り返し自体を何度か(何エポックか)繰り返す。学習部23は、学習の更なる具体的な手順については、従来のNNの学習(詳細は、例えば、参考文献1参照)と同様に行うことができる。
[学習処理の効率化例1]
 図5に示す学習処理の処理手順は、計算コストが高い。例えば、Eをエポック数、Mを学習データ中の発話数とすると、上記の学習手順におけるモデルパラメータの更新回数は、最大で、E×M×N×2×になる。通常、Eは数十程度、Mは少なくとも数万、Nは上記の通り100~1000程度であるので、モデルパラメータの更新回数は、膨大な数に達する。このため、本実施の形態では、学習の効率化を図ることが好ましい。そこで、以下に、学習の効率化例1について述べる。
 上述したように、Nベストリスコアリングの主な目的は、Nベスト仮説からオラクル仮説を最終的な音声認識結果として見つけ出すことである。言い換えれば、オラクル仮説をその他のN-1個の仮説から精度よく区別できればよい。これを実現するために、学習の際に、Nベストリランキングモデルに入力する二つの仮説のうちの一方をオラクル仮説とする。これにより、モデルパラメータの更新回数を、E×M×N×2×(N-1)に削減することができる。
[学習処理の効率化例2]
 次に、学習の効率化例2について説明する。学習の効率化例1では、Nベスト仮説が与えられたとき、その中に含まれるオラクル仮説とその他のN-1個の仮説とを比較していた。学習処理の効率化例2では、オラクル仮説と比較するその他の仮説の個数を絞り込む。
 例えば、まず、下の典型的な四つの仮説を選択する。
 仮説1は、オラクル仮説の次に高い音声認識精度を持つ仮説である。
 仮説2は、音声認識スコアが最も高い仮説である。
 仮説3は、最も低い音声認識精度を持つ仮説である。
 仮説4は、音声認識スコアが最も低い仮説である。
 仮説1と仮説2とは、音声認識精度が高い(または高いと推定される)仮説で、オラクル仮説との区別が難しい仮説である。一方、仮説3と仮説4とは、音声認識精度が低い(または低いと推定される)仮説で、オラクル仮説との区別が容易な(確実に区別しないといけない)仮説である。その他の仮説をこの四つのみに絞り込む場合は、モデルパラメータの更新回数は、E×M×N×2×4にまで削減することができる。
 ただし、上記の四つの仮説のみではオラクル仮説の対立仮説としての多様性が十分に確保できないと考えられる場合、Nベスト仮説から、オラクル仮説とこれらの四つの仮説を除いた、残りのN-5個の仮説から、所定のルールにしたがって抽出した所定数の仮説を選択して前記四つの仮説と共に対立仮説として用いてもよい。例えば、二つの仮説のうちの他方の仮説として、オラクル仮説とこれらの四つの仮説を除いた、残りのN-5個の仮説から、等間隔に、或いは、はランダムに、Q個の仮説を選択して四つの仮説と共に他方の仮説として用いる。このとき、モデルパラメータの更新回数は、E×M×N×2×(4+Q)となる。例えば、Qは、5~50である。
[評価]
 実際に、本実施の形態におけるNベストリスコアリングと、従来のRNN言語モデルとの比較評価を行った。Nベストリランキングモデルを使用する際(評価時)、モデルは、(1-1)式及び(1-2)式にしたがい、2クラスの事後確率P(y|X(u),X(v)),y={0,1}を推定する。リランキング装置10は、これらの事後確率をそのまま用いてNベストリランキングを行ってもよい。また、リランキング装置10は、従来のNベストリランキングモデルと同様に、(6)式を用いて、元々の音声認識スコアとNベストリランキングモデルによるスコア(事後確率の対数値)とを重み付け加算し、その値を基に、Nベストリランキングを行ってもよい。
 スコア=(1-λ)×音声認識スコア+λ×Nベストリランキングモデルによるスコア    ・・・(6)
 なお、(6)式において、λは、Nベストリランキングモデルの重みであり、0≦λ≦1である。リランキング装置10は、λ=1に設定した場合は、音声認識スコアを用いず、Nベストリランキングモデルによるスコアのみを用いて、Nベストリランキングを行う。
[評価結果]
 図6は、Nベストリランキングの評価結果を示す図である。図6では、Nベストリランキングの評価結果の例として、日本語話し言葉コーパスを用いて、従来のRNN言語モデル、本実施の形態のリランキング装置10が用いるNベストリランキングモデル、及び、RNN言語モデルのスコアを特徴量ベクトルの一次元として加えたNベストリランキングモデル(他の構築例4)を比較評価した結果を示す。評価は、(6)式に従い、音声認識スコアとNベストリランキングモデルによるスコアとを重み加算したスコアを用いてNベストリランキングを行っている。
 図6に示すように、従来のRNN言語モデルよりも、本実施の形態のNベストリランキングモデルの方が着実に音声認識精度を改善できることが分かる。また、構築例4のように、RNN言語モデルのスコアを特徴量ベクトルの一次元として加えることによって、Nベストリランキングモデルの音声認識精度をさらに改善できることが分かる。
 さらに、図6より、従来のRNN言語モデルでは、音声認識スコアを使用する必要があり、かつ、重みλに比較的狭い最適値があることが分かる。本評価では、従来のRNN言語モデルは、λ=0.8付近である。一方、本実施の形態のNベストリランキングモデルを用いた場合、従来のRNN言語モデルの場合と比較して、λの最適値の範囲が広いことが分かる。すなわち、本実施の形態のNベストリランキングモデルは、λの値に頑健である。或いは、本実施の形態のNベストリランキングモデルを用いた場合、λ=1において最高か最高に近い音声認識精度が得られているので、音声認識スコアを使用しなくてもよいことが分かる。
[実施の形態の効果]
 本実施の形態に係るリランキング装置10では、音声認識結果であるNベスト仮説の入力を受け付け、Nベスト仮説中の二つの仮説に対し、NNで表されるNベストリランキングモデルを用いて、いずれの仮説がより高い音声認識精度を有しているかを判定する。
 前述したように、リランキング装置10がNベスト仮説のリランキングを行う上で、Nベストリランキングモデルが有すべき必要最低限の機能は、Nベスト仮説から最も高精度な仮説(オラクル仮説)を、最終的な音声認識結果として見つけ出すことである。このため、リスコアリング後のNベスト仮説は、必ずしもソートされている必要はない。
 そこで、本実施の形態では、Nベスト仮説の中からオラクル仮説をリランキングにより見つけ出すために、Nベストリランキングモデルに、Nベスト仮説中の二つの仮説のうちどちらの仮説の方がより高い音声認識精度を有しているかを判定できる機能を持たせた。言い換えると、本実施の形態では、Nベストリランキングモデルに、Nベスト仮説中の二つの仮説を対象に、一対一の仮説比較を実行できる機能を持たせた。
 具体的には、リランキング装置10は、NNで表され、一対一の二つの仮説の比較を行う機能を持つNベストリランキングモデルを用い、Nベストリランキングモデルを用いた一対一の二つの仮説に対する比較処理を繰り返すことによって、Nベスト仮説の中からオラクル仮説を見つけ出すことを可能にしている。
 さらに、学習装置20は、Nベストリランキングモデルに、音声認識精度が既知である学習用のNベスト仮説のうちの二つの仮説を1組として、複数の組についてそれぞれ音声認識精度の高低を判定できるように予め学習させている。したがって、学習装置20は、Nベストリランキングを行う上で最適なモデルを、最新のNNに基づき実現することができる。そして、リランキング装置10は、学習装置20において学習されたNベストリランキングモデルを使用することによって、一対一の二つの仮説の比較を精度よく行うことができ、このリランキング装置10によるオラクル仮説の抽出を高精度にできる。
 このように、本実施の形態によれば、Nベスト仮説の中から最終的な音声認識結果を、精度よく得ることができる、NNで表されたNベストリランキングモデルを実現することができる。そして、本実施によれば、Nベストリランキングモデルを用いることによって、最終的な音声認識結果を精度よく得ることができる。
 なお、本実施の形態では、一対一の仮説比較をオラクル仮説(最も精度が高い仮説)と推定される仮説が見つかった時点で処理を終了していたが、オラクル仮説と推定される仮説を除いたN-1個の仮説に対して,オラクル仮説を見つけるのと同様の処理を行うことで、二番目に精度が高いと推定される仮説を見つけ出すことができる。以降、この処理を繰り返すことによって、Nベスト仮説のソートも可能である。
 また、本実施の形態では、音声認識のNベスト仮説をリランキングするためのモデルとして、図2に例示するNベストリランキングモデルについて説明した。ただし、本実施の形態のモデルは、音声認識のNベスト仮説への適用にとどまらず、Nベスト仮説を採用しているあらゆるタスクに適用可能である。例えば、機械翻訳や文章要約などにも本実施の形態を適用することが可能である。また、文字列に限らず、数字やアルファベットを含む複数の系列にも本実施の系列を適用することが可能である。
 このため、本実施の形態は、ある一つの入力に対する解の候補として挙げられた複数の系列であれば、このうちの二つの系列に対し、NNで表されるモデルを用いて、二つの系列のうちより精度が高い(誤りが少ない)系列を判定できる。そして、本実施の形態では、二つの系列のうち、より精度が高いと判定した系列を比較対象として残し、他方の系列を比較対象から外し、精度が高いと判定した系列を二つの系列の一方の仮説として選択し、複数の系列のうち、判定が行われていない系列のいずれかを他方の仮説として選択する。そして、本実施の形態では、判定処理と選択処理とを、所定条件に達するまで順次実行させせる。これによって、本実施の形態によれば、所定条件に達した場合に比較対象として残っている系列を、最も精度が高い系列、すなわち、最終的な出力として出力することができる。
 また、この場合には、本実施の形態では、精度が既知である学習用の複数の系列のうちの二つの系列の特徴量が与えられたとき、それら二つの系列の精度の高低が判定できるような、NNで表されるモデルを学習する。そして、本実施の形態では、二つの系列のうち精度がより高い(誤りがより少ない)系列に他方の系列よりも高い順位が付与されている場合に正解を示す教師ラベルを付与してモデルに学習させる。そして、本実施の形態では、二つの系列のうち精度がより高い(誤りがより少ない)系列に他方の系列よりも低い順位が付与されている場に誤りを示す教師ラベルを付与してモデルに学習させる。本実施の形態では、このモデルによって、一対一の二つの系列の比較が高精度で行うことができ、この結果、最も精度の高い系列を精度よく得ることができる。
[システム構成等]
 図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。例えば、リランキング装置10及び学習装置20は、一体の装置であってもよい。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。また、本実施形態において説明した各処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 図7は、プログラムが実行されることにより、リランキング装置10或いは学習装置20が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、リランキング装置10或いは学習装置20の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1031に記憶される。例えば、リランキング装置10或いは学習装置20における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。なお、ハードディスクドライブ1031は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
 2 音声認識装置
 10 リランキング装置
 11,21 Nベストリランキングモデル記憶部
 12 仮説入力部
 13 仮説選択部
 14 特徴量抽出部
 15 判定部
 16 実行制御部
 17 出力部
 20 学習装置
 22 仮説入力部
 23 学習部
 231 教師ラベル付与部
 232 入替部

Claims (9)

  1.  精度が既知である学習用の複数の系列の入力を受け付ける入力部と、
     前記複数の系列のうちの二つの系列の特徴量がそれぞれ与えられたとき、それら二つの系列の精度の高低を判定できるような、ニューラルネットワークで表されるモデルを学習する学習部と、
     を有することを特徴とする学習装置。
  2.  前記モデルは、二つの系列を、再帰的ニューラルネットワークを用いて隠れ状態ベクトルに変換し、ニューラルネットワークを用いて、前記隠れ状態ベクトルを基に二つの系列の精度の高低の並びが正しいことを示す第1の事後確率及び二つの系列の精度の高低の並びが誤りであることを示す第2の事後確率を出力することを特徴とする請求項1に記載の学習装置。
  3.  前記学習部は、前記二つの系列のうちより精度が高い系列に他方の系列よりも高い順位が付与されている場合に正解ラベルを付与して前記モデルに学習させ、前記二つの系列のうちより精度が高い系列に他方の系列よりも低い順位が付与されている場合に誤りラベルを付与して前記モデルに学習させることを特徴とする請求項1または2に記載の学習装置。
  4.  前記入力部は、音声認識精度が既知である学習用のNベスト仮説の入力を受け付け、
     前記学習部は、前記Nベスト仮説の二つの仮説のうち音声認識精度がより高い仮説に他方の仮説よりも高い順位が付与されている場合に正解ラベルを付与して前記モデルに学習させ、前記二つの仮説のうち音声認識精度がより高い仮説に他方の仮説よりも低い順位が付与されている場合に誤りラベルを付与して前記モデルに学習させることを特徴とする請求項3に記載の学習装置。
  5.  前記二つの仮説のうちの一方の仮説は、最も音声認識精度が高いオラクル仮説であることを特徴とする請求項4に記載の学習装置。
  6.  前記二つの仮説のうちの他方の仮説は、前記オラクル仮説の次に高い音声認識精度を持つ第1の仮説、Nベスト仮説における音声認識スコアが最も高い第2の仮説、最も低い音声認識精度を持つ第3の仮説、及び、Nベスト仮説における音声認識スコアが最も低い第4の仮説の少なくともいずれかを含むことを特徴とする請求項5に記載の学習装置。
  7.  前記二つの仮説のうちの他方の仮説は、Nベスト仮説から、前記オラクル仮説、前記第1の仮説、前記第2の仮説、前記第3の仮説及び前記第4の仮説を除いた仮説から所定のルールにしたがって抽出した所定数の仮説及び前記第1から第4の仮説であることを特徴とする請求項6に記載の学習装置。
  8.  学習装置が実行する学習方法であって、
     精度が既知である学習用の複数の系列の入力を受け付ける工程と、
     前記複数の系列のうちの二つの系列の特徴量がそれぞれ与えられたとき、それら二つの系列の精度の高低を判定できるような、ニューラルネットワークで表されるモデルを学習する工程と、
     を含んだことを特徴とする学習方法。
  9.  精度が既知である学習用の複数の系列の入力を受け付けるステップと、
     前記複数の系列のうちの二つの系列の特徴量がそれぞれ与えられたとき、それら二つの系列の精度の高低を判定できるような、ニューラルネットワークで表されるモデルを学習するステップと、
     をコンピュータに実行させるための学習プログラム。
PCT/JP2019/003734 2018-02-02 2019-02-01 学習装置、学習方法及び学習プログラム WO2019151506A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/966,056 US20200365143A1 (en) 2018-02-02 2019-02-01 Learning device, learning method, and learning program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-017224 2018-02-02
JP2018017224A JP6849621B2 (ja) 2018-02-02 2018-02-02 学習装置、学習方法及び学習プログラム

Publications (1)

Publication Number Publication Date
WO2019151506A1 true WO2019151506A1 (ja) 2019-08-08

Family

ID=67480007

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/003734 WO2019151506A1 (ja) 2018-02-02 2019-02-01 学習装置、学習方法及び学習プログラム

Country Status (3)

Country Link
US (1) US20200365143A1 (ja)
JP (1) JP6849621B2 (ja)
WO (1) WO2019151506A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11392984B2 (en) * 2019-11-20 2022-07-19 Walmart Apollo, Llc Methods and apparatus for automatically providing item advertisement recommendations
US11455656B2 (en) 2019-11-18 2022-09-27 Walmart Apollo, Llc Methods and apparatus for electronically providing item advertisement recommendations

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10721070B2 (en) 2018-03-07 2020-07-21 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11170084B2 (en) 2018-06-28 2021-11-09 Private Identity Llc Biometric authentication
US11502841B2 (en) 2018-03-07 2022-11-15 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11489866B2 (en) * 2018-03-07 2022-11-01 Private Identity Llc Systems and methods for private authentication with helper networks
US11394552B2 (en) 2018-03-07 2022-07-19 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11265168B2 (en) 2018-03-07 2022-03-01 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11210375B2 (en) 2018-03-07 2021-12-28 Private Identity Llc Systems and methods for biometric processing with liveness
US11392802B2 (en) 2018-03-07 2022-07-19 Private Identity Llc Systems and methods for privacy-enabled biometric processing
US11789699B2 (en) 2018-03-07 2023-10-17 Private Identity Llc Systems and methods for private authentication with helper networks
US10938852B1 (en) * 2020-08-14 2021-03-02 Private Identity Llc Systems and methods for private authentication with helper networks
US11138333B2 (en) 2018-03-07 2021-10-05 Private Identity Llc Systems and methods for privacy-enabled biometric processing
WO2021024491A1 (ja) * 2019-08-08 2021-02-11 日本電信電話株式会社 判定装置、学習装置、判定方法及び判定プログラム
US11640527B2 (en) * 2019-09-25 2023-05-02 Salesforce.Com, Inc. Near-zero-cost differentially private deep learning with teacher ensembles

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011243147A (ja) * 2010-05-21 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2810202B2 (ja) * 1990-04-25 1998-10-15 株式会社日立製作所 ニューラルネットワークによる情報処理装置
US20040186714A1 (en) * 2003-03-18 2004-09-23 Aurilab, Llc Speech recognition improvement through post-processsing
US9015093B1 (en) * 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US20150324686A1 (en) * 2014-05-12 2015-11-12 Qualcomm Incorporated Distributed model learning
JP6645063B2 (ja) * 2014-07-29 2020-02-12 ヤマハ株式会社 ターゲット文字列の推定
US20180330718A1 (en) * 2017-05-11 2018-11-15 Mitsubishi Electric Research Laboratories, Inc. System and Method for End-to-End speech recognition
US10911596B1 (en) * 2017-08-31 2021-02-02 Amazon Technologies, Inc. Voice user interface for wired communications system
US10762903B1 (en) * 2017-11-07 2020-09-01 Amazon Technologies, Inc. Conversational recovery for voice user interface
JP6911785B2 (ja) * 2018-02-02 2021-07-28 日本電信電話株式会社 判定装置、判定方法及び判定プログラム
US11145293B2 (en) * 2018-07-20 2021-10-12 Google Llc Speech recognition with sequence-to-sequence models
US11107463B2 (en) * 2018-08-01 2021-08-31 Google Llc Minimum word error rate training for attention-based sequence-to-sequence models
US11295739B2 (en) * 2018-08-23 2022-04-05 Google Llc Key phrase spotting
US11170761B2 (en) * 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US11017778B1 (en) * 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
CN113811946A (zh) * 2019-05-03 2021-12-17 谷歌有限责任公司 数字序列的端到端自动语音识别
WO2021024491A1 (ja) * 2019-08-08 2021-02-11 日本電信電話株式会社 判定装置、学習装置、判定方法及び判定プログラム
US11908468B2 (en) * 2020-09-21 2024-02-20 Amazon Technologies, Inc. Dialog management for multiple users
US11537661B2 (en) * 2020-10-02 2022-12-27 PolyAI Limited Systems and methods for conversing with a user
US11132988B1 (en) * 2020-10-22 2021-09-28 PolyAI Limited Dialogue system, a dialogue method, and a method of training
US11551663B1 (en) * 2020-12-10 2023-01-10 Amazon Technologies, Inc. Dynamic system response configuration

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011243147A (ja) * 2010-05-21 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> 素性重み学習装置、N−bestスコアリング装置、N−bestリランキング装置、それらの方法およびプログラム

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HERBRICH, RALF ET AL.: "Learning Preference Relations for Information Retrieval", AAAI TECHNICAL REPORT, 1998, pages 83 - 86, XP055628611 *
IWATATE, MASAKAZU: "Japanese Dependency Parsing Using a Tournament Model", JOURNAL OF NATURAL LANGUAGE PROCESSING, vol. 15, no. 5, 10 October 2008 (2008-10-10), pages 169 - 185 *
KUDO, TAKU: "Japanese Dependency Parsing using Relative Preference of Dependency", IPSJ JOURNAL, vol. 46, no. 4, April 2005 (2005-04-01), pages 1082 - 1092 *
OGAWA, ATSUNORI: "Rescoring of N-Best speech recognition hypotheses using an encoder-classifier model that performs one-to-one hypothesis comparison", PROCEEDINGS OF 2018 SPRING RESEARCH CONFERENCE OF THE ACOUSTICAL SOCIETY OF JAPAN, March 2018 (2018-03-01), pages 23 - 24 *
SHIMAOKA SONSE: "Learning of word vector in the autoencoder", PROCEEDINGS OF THE 19TH ANNUAL MEETING OF THE ASSOCIATION FOR NATURAL LANGUAGE PROCESSING, pages 612 - 615 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11455656B2 (en) 2019-11-18 2022-09-27 Walmart Apollo, Llc Methods and apparatus for electronically providing item advertisement recommendations
US11392984B2 (en) * 2019-11-20 2022-07-19 Walmart Apollo, Llc Methods and apparatus for automatically providing item advertisement recommendations

Also Published As

Publication number Publication date
US20200365143A1 (en) 2020-11-19
JP2019133084A (ja) 2019-08-08
JP6849621B2 (ja) 2021-03-24

Similar Documents

Publication Publication Date Title
WO2019151506A1 (ja) 学習装置、学習方法及び学習プログラム
WO2019151503A1 (ja) 判定装置、判定方法及び判定プログラム
CN110389996B (zh) 实现用于自然语言处理的全句递归神经网络语言模型
CN105654946B (zh) 用于语音识别的设备和方法
KR102339716B1 (ko) 음성 인식 방법 및 그 장치
JP6831343B2 (ja) 学習装置、学習方法及び学習プログラム
CN110517693B (zh) 语音识别方法、装置、电子设备和计算机可读存储介质
CN108073574A (zh) 用于处理自然语言以及训练自然语言模型的方法和设备
CN116127952A (zh) 一种多粒度中文文本纠错方法和装置
CN110852755A (zh) 针对交易场景的用户身份识别方法和装置
KR20200123544A (ko) 동의어 추출 방법
CN110275928B (zh) 迭代式实体关系抽取方法
CN110019795B (zh) 敏感词检测模型的训练方法和系统
CN112560485B (zh) 一种实体链接方法、装置、电子设备及存储介质
CN113505225B (zh) 一种基于多层注意力机制的小样本医疗关系分类方法
Kim et al. Sequential labeling for tracking dynamic dialog states
CN110837730B (zh) 一种未知实体词汇的确定方法及装置
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
JP5975938B2 (ja) 音声認識装置、音声認識方法及びプログラム
EP2985760B1 (en) Methods and apparatus for interpreting received speech data using speech recognition
JP6577900B2 (ja) 音素誤り獲得装置、音素誤り獲得方法、およびプログラム
WO2021024491A1 (ja) 判定装置、学習装置、判定方法及び判定プログラム
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
CN115098681A (zh) 一种基于有监督对比学习的开放服务意图检测方法
KR102292921B1 (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19747238

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19747238

Country of ref document: EP

Kind code of ref document: A1