WO2020246033A1 - 学習装置、音声認識装置、それらの方法、およびプログラム - Google Patents

学習装置、音声認識装置、それらの方法、およびプログラム Download PDF

Info

Publication number
WO2020246033A1
WO2020246033A1 PCT/JP2019/022774 JP2019022774W WO2020246033A1 WO 2020246033 A1 WO2020246033 A1 WO 2020246033A1 JP 2019022774 W JP2019022774 W JP 2019022774W WO 2020246033 A1 WO2020246033 A1 WO 2020246033A1
Authority
WO
WIPO (PCT)
Prior art keywords
recognition
parameter
acoustic feature
unit
hypothesis
Prior art date
Application number
PCT/JP2019/022774
Other languages
English (en)
French (fr)
Inventor
佐藤 宏
隆朗 福冨
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2019/022774 priority Critical patent/WO2020246033A1/ja
Priority to US17/616,138 priority patent/US20220246138A1/en
Priority to JP2021524644A priority patent/JP7173327B2/ja
Publication of WO2020246033A1 publication Critical patent/WO2020246033A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Definitions

  • the present invention relates to a learning device that learns a model used when estimating the optimum value of a recognition parameter in speech recognition, a speech recognition device that recognizes speech using the optimum value estimated using the model, methods thereof, and a program. ..
  • HMM Hidden Markov Model
  • end-to-end speech recognition there are scaling parameters between models for configurations that combine multiple models, which changes the behavior of the recognizer.
  • end-to-end speech recognition with a language model has a language weight as a parameter, which indicates the degree to which the output of the language model is considered.
  • the recognition accuracy is calculated using a data set in which voice data and transcription data are linked to a set of multiple parameters prepared manually, and the set of parameters with the best accuracy.
  • the method of adopting is generally adopted.
  • Non-Patent Document 1 There is a method of automatically setting appropriate recognition parameters based on a data set in which voice data and transcribed data are linked (see Non-Patent Document 1 and Non-Patent Document 2).
  • the language model weight is a parameter that balances both models in a speech recognizer that has an acoustic model and a language model.
  • the insertion penalty is a parameter that controls how much the recognition result with a large number of words or characters (hereinafter, also referred to as "the number of words") is suppressed. When the insertion penalty is increased, the recognition result with a small number of words or the like is obtained. It will be easier to get out.
  • the optimum recognition parameters are not constant for each sentence entered.
  • the language model is emphasized rather than the acoustic model. Therefore, the performance is improved by increasing the language model weight.
  • Non-Patent Document 1 and Non-Patent Document 2 in which certain recognition parameters are set for a data set of voice data and transcription data, the difference in the optimum recognition parameter due to the difference in the properties of each voice data is captured. , The recognition parameters cannot be changed dynamically.
  • Non-Patent Document 3 is mentioned as a method capable of grasping the difference in the optimum recognition parameter due to the difference in the property of each voice data.
  • the parameter estimation of Non-Patent Document 3 is based on the estimation result of noise, it is not possible to capture an acoustic phenomenon other than noise that may affect an appropriate parameter such as clipping.
  • the present invention is a voice recognition device that estimates an appropriate recognition parameter for each utterance and recognizes speech using the estimated recognition parameter, regardless of the noise estimation result, and a learning device that learns a model used for estimation.
  • the purpose is to provide those methods and programs.
  • a voice recognition unit that performs voice recognition processing for the series O using the recognition parameter ⁇ ini to obtain the recognition hypothesis H m and the total score x m , and the correct text that is the correct voice recognition result for the acoustic feature series O.
  • the total score x m, k is obtained for the recognition hypothesis H m , and the re-ranking part that assigns the rank m, k, and the optimum value of the recognition parameter based on the evaluation value E m and the rank rank m, k.
  • a regression model that estimates the optimum recognition parameter from the acoustic feature series by using the optimum parameter calculation unit that obtains the value indicating the inadequacy of the recognition parameter ⁇ k as the calculation result, and the acoustic feature series O and the calculation result. Includes a model learning unit to learn.
  • a voice recognition unit that performs voice recognition processing on the quantity series O using the recognition parameter ⁇ k to obtain the recognition result R k and the total score x k , and the correct answer that is the correct voice recognition result for the acoustic feature series O.
  • the speech recognition device uses a regression model that estimates the optimum recognition parameter from the acoustic feature sequence, and the acoustic feature sequence O for each utterance. It includes a model utilization unit for obtaining the recognition parameter ⁇ E for, and a voice recognition unit for performing voice recognition processing using the recognition parameter ⁇ E for the acoustic feature series O.
  • the functional block diagram of the learning apparatus which concerns on 1st Embodiment The figure which shows the example of the processing flow of the learning apparatus which concerns on 1st Embodiment.
  • the functional block diagram of the voice recognition apparatus which concerns on 2nd Embodiment The figure which shows the example of the processing flow of the voice recognition apparatus which concerns on 2nd Embodiment.
  • the functional block diagram of the learning apparatus which concerns on 3rd Embodiment The figure which shows the example of the processing flow of the learning apparatus which concerns on 3rd Embodiment.
  • the functional block diagram of the voice recognition apparatus which concerns on 4th Embodiment The figure which shows the example of the processing flow of the voice recognition apparatus which concerns on 4th Embodiment.
  • an appropriate recognition parameter is estimated directly from the acoustic feature sequence of each utterance using a neural network.
  • the recognition parameter is a combination of the language weight and the insertion parameter.
  • a large number of recognition result candidates (hereinafter, also referred to as "recognition hypothesis") are generated by performing speech recognition once with appropriate values for a limited number of recognition parameters such as language model weights and insertion parameters.
  • the recognition hypothesis is re-ranked by changing the recognition parameters in a pseudo manner.
  • Non-Patent Document 3 and the following Reference 1 are known for the dynamic control of language model weights.
  • Reference 1 Stemmer, G., Zeissler, V., Noeth, E., & Niemann, H., "Towards a dynamic adjustment of the language weight", Springer, Berlin, Heidelberg, In International Conference on Text, Speech and Dialogue, pp. 323-328, 2001.
  • Reference 1 suggests that dynamically changing the language weight for each utterance leads to improvement in recognition accuracy, and it is possible to use the speech speed and the reliability of the recognition result for estimating the language weight. It is written that there is sex. However, since the characteristics that affect the appropriate language weight are actually diverse, it is considered that sufficient estimation cannot be made even by using manually selected characteristics such as speaking speed and reliability of recognition results. Be done. In this method, by directly estimating the recognition parameters by using the feature quantity series as an input, it is possible to learn various information necessary for estimating the recognition parameters in a data-driven manner.
  • the method is applied as re-ranking.
  • the method is applied as re-ranking, it is possible to optimize the language model weights and recognition parameters called insertion errors on a sentence-by-sentence basis.
  • the first embodiment learns a model that estimates the optimum parameters for each sentence by reranking.
  • FIG. 1 shows a functional block diagram of the learning device according to the first embodiment
  • FIG. 2 shows a processing flow thereof.
  • the learning device includes a voice recognition unit 101, a hypothesis evaluation unit 102-1, a reranking unit 102-2, an optimum parameter calculation unit 102-3, and a model learning unit 103.
  • the learning device uses the acoustic feature series OL and p for learning and the transcribed data obtained by transcribing the corresponding voice data as inputs, and learns a regression model that estimates the optimum recognition parameters from the acoustic feature series. Then, the trained regression model is output.
  • the transcribed data corresponds to the correct text, which is the correct speech recognition result for the acoustic feature series.
  • the subscript L of O L and p is an index indicating that the data is for learning, and p is an index indicating an acoustic feature series.
  • a special program is loaded into a known or dedicated computer having a central processing unit (CPU: Central Processing Unit), a main storage device (RAM: Random Access Memory), and the like. It is a special device configured.
  • the learning device and the voice recognition device execute each process under the control of the central processing unit, for example.
  • the data input to the learning device and the voice recognition device and the data obtained by each process are stored in the main storage device, for example, and the data stored in the main storage device is read out to the central processing unit as needed. It is used for other processing.
  • At least a part of each processing unit of the learning device and the voice recognition device may be configured by hardware such as an integrated circuit.
  • Each storage unit included in the learning device and the voice recognition device can be configured by, for example, a main storage device such as RAM (RandomAccessMemory) or middleware such as a relational database or a key-value store.
  • a main storage device such as RAM (RandomAccessMemory) or middleware such as a relational database or a key-value store.
  • each storage unit does not necessarily have to be provided inside the learning device and the voice recognition device, and is composed of an auxiliary storage device composed of semiconductor memory elements such as a hard disk, an optical disk, or a flash memory. It may be configured to be provided outside the learning device and the voice recognition device.
  • the voice recognition unit 101 receives the acoustic feature sequence O of the utterance unit as an input, performs voice recognition processing on the acoustic feature sequence O of the utterance unit using the recognition parameter ⁇ ini (S101), and performs M voice recognition processes (S101).
  • the recognition result candidates corresponding to the total score x m of the top M may be adopted as the recognition hypothesis H m , or a predetermined number may be adopted.
  • the number of total scores x m exceeding the threshold may be M, and M recognition result candidates corresponding to M total scores x m may be adopted as the recognition hypothesis H m .
  • the number of candidates M is larger than that output as a candidate for a normal speech recognition result.
  • Speech recognition unit 101 outputs the M recognition hypothesis H m in hypothesis evaluation unit 102-1, the M composite score x M pieces of language m obtained in the course of obtaining the score x L, m, acoustic score x
  • the combination of nm such as A, m , and the number of words is output to the reranking unit 102-2.
  • the voice recognition unit 101 performs voice recognition using, for example, a known voice recognition technique, and outputs a sufficient number (M) of recognition hypotheses in sentence units.
  • the voice recognition unit 101 is required to be able to output an acoustic score, a language score, the number of words, and the like for each recognition hypothesis. Therefore, for example, it is required that the voice recognition unit 101 includes a language model and an acoustic model represented by HMM voice recognition.
  • the recognition parameter ⁇ ini in the speech recognition unit 101 does not need to be precisely adjusted in advance with respect to the data set by a method such as Non-Patent Document 1 and Non-Patent Document 2, and for example, a parameter of language weight W L is generally used.
  • the value used (eg 10) can be set.
  • Acoustic score, number of words, etc., and human-transcribed data are used to estimate the optimal language model weight and insertion penalty for the acoustic feature sequence for learning.
  • the hypothesis evaluation unit 102-1 inputs the recognition hypothesis H m and the correct answer text, evaluates the recognition hypothesis H m based on the correct answer text, obtains an evaluation value E m (S102-1), and outputs the evaluation value E m .
  • the hypothesis evaluation unit 102-1 is a part that gives an evaluation value indicating good recognition of the recognition hypothesis obtained by voice recognition by the voice recognition unit 101.
  • a known technique is used to calculate the sentence correct answer rate (0 or 1) and the character correct answer accuracy (real numbers from 0 to 1) for each recognition hypothesis.
  • the sentence correct answer rate is an evaluation method that sets 1 when the correct text transcribed by a person and the recognition result exactly match each sentence, and 0 in other cases.
  • the hypothesis evaluation unit 102-1 the set (H m, E m) with the value evaluated on a scale such as the recognition candidates as described above is outputted.
  • the recognition parameter ⁇ k consists of a combination of the language weights W L, k and the insertion penalty P I, k , but the recognition parameter ⁇ k is at least the language weight W L, k or the insertion penalty P I, Anything containing k may be used.
  • the re-ranking unit 102-2 re-ranks the recognition hypothesis H m obtained by recognition by the voice recognition unit 101 with K recognition parameters ⁇ k .
  • the total score x m, k for each recognition hypothesis H m when the language weight and insertion penalty parameters are changed little by little is calculated, and the recognition hypotheses are ranked.
  • the total score x m, k can be calculated by the following formula.
  • x m, k (1-W L, k ) x A, m + W L, k x L, m + P I, k n m (3)
  • x m, k is the total score
  • x A, m is the acoustic score
  • x L, m is the language score
  • nm m is the number of words, etc.
  • W L, k is the language weight
  • P I, k is the insertion penalty.
  • Equation (3) is obtained by scaling equation (1) so that the language weights W L and k are in the range of 0 to 1.
  • the acoustic score x A, m and the language score x L, m are the scores of each recognition hypothesis H m calculated in the acoustic model and the language model of the speech recognition unit, respectively, and the number of words etc. n m is the score of each recognition hypothesis H m. It counts how many words or letters it consists of. Since the acoustic score x A, m , the language score x L, m , the number of words, etc. n m are fixed for each recognition hypothesis H m , the values of the language weights W L, k and the insertion penalty P I, k are changed. The order of the recognition hypothesis will be changed by making it.
  • the values of the language weights W L, k and the insertion penalty P I, k vary, for example, the language weights W L, k from 0 to 1 in 0.01 increments, and the insertion penalty P I, k from 0 to 10. Change in 0.1 increments.
  • the total score x m, k is calculated for each recognition hypothesis H m , and the rank m, k is assigned.
  • rank rank m ', k' indicates the order of the 'recognition hypothesis H m in the' certain recognition parameters lambda k.
  • ⁇ Optimal parameter calculation unit 102-3> The optimum parameter calculation unit 102-3 inputs the evaluation value E m and the rank m, k , and based on these values, calculates the optimum value of the recognition parameter or the value indicating the inadequacy of the recognition parameter ⁇ k as the calculation result. Obtain (S102-3) and output.
  • the following loss function L ( ⁇ k ) representing the above is used as the output of the optimum parameter calculation unit 102-3.
  • the model learning unit 103 which will be described later, can learn the model based on L ( ⁇ k ).
  • Equation (4) qualitatively represents the badness of each recognition parameter ⁇ k , in other words, it is a value that represents inappropriateness.
  • Reference 2 is a known technique for designing such a loss function.
  • Reference 2 Och, F. J., "Minimum error rate training in statistical machine translation", Association for Computational Linguistics, In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1, pp. 160-167, 2003.
  • the model learning unit 103 learns so as to lower the score of the recognition hypothesis including an error among the recognition hypotheses up to the Nth position.
  • the model learning unit 103 takes the acoustic feature sequence O and the calculation result of the optimum parameter calculation unit 102-3 as inputs, and uses these values to learn a regression model that estimates the optimum recognition parameter from the acoustic feature sequence. (S103), the same processing is performed on P of the acoustic feature series O for learning and the transcribed data thereof, and the trained regression model is output.
  • the model learning unit 103 learns a regression model that estimates the optimum recognition parameters obtained by the optimum parameter estimation unit 102 from the acoustic feature sequence using a known deep learning technique.
  • the acoustic feature series of the audio file is used as the input feature, and the calculation result in the optimum parameter calculation unit 102-3 is used as the correct label.
  • the loss function uses, for example, the mean square error. It is recommended to model with RNN, LSTM, LSTM model with Attention, etc., which can consider long-time time series information.
  • the mean square error between the parameter obtained when the acoustic feature sequence is given to the model being trained and the optimum recognition parameter is lost. Find it as a function and train the model so that the loss function becomes small.
  • the model is learned so that the loss function becomes small.
  • hyperparameters such as the number of epochs that end learning are determined by dividing the training data into training data and validation data and evaluating the validation data.
  • FIG. 3 shows a functional block diagram of the voice recognition device according to the second embodiment
  • FIG. 4 shows a processing flow thereof.
  • the voice recognition device includes a voice recognition unit 201 and a model utilization unit 202.
  • Speech recognition apparatus inputs the acoustic features sequence O t of the audio data to be speech recognition target, the recognition result of the speech recognition using the recognition parameters lambda ini, in recognition parameters estimated using the learned regression model Re-rank and output the one with the highest ranking as the recognition result.
  • the subscript t is an index indicating that the data is a voice recognition target. In the present embodiment, since only the processing for the acoustic feature sequence O t of the voice data to be voice recognition is described, the index t is omitted.
  • the voice recognition unit 201 is the same as the voice recognition unit 101. That is, the voice recognition unit 201 takes the utterance unit acoustic feature sequence O as an input, and performs voice recognition processing on the utterance unit acoustic feature sequence O using the recognition parameter ⁇ ini (S201). Find the total score x m of the recognition hypotheses H m and M. However, the acoustic feature sequence O of the input utterance unit is the acoustic feature sequence of the voice data to be voice-recognized.
  • Speech recognition unit 201 and M recognition hypothesis H m, M number of total score x M pieces of language m obtained in the course of obtaining the score x L, m, acoustic score x A, m, number of words, etc. n m Is output to the model utilization unit 202.
  • the model utilization unit 202 obtains M total scores x E, m for M recognition hypotheses H m by using the obtained recognition parameters ⁇ E.
  • the model utilization unit 202 ranks (re-ranks) M recognition hypotheses H m based on the obtained total score x E, m (S202), and uses the highest-ranked recognition hypothesis as the recognition result. Output. That is, in the present embodiment, the voice recognition unit 201 performs voice recognition, and at the same time, the model utilization unit 202 estimates the recognition parameter ⁇ E and re-ranks the recognition hypothesis output from the voice recognition unit 201.
  • the recognition parameter ⁇ E is estimated for each utterance unit, and voice recognition with appropriate recognition parameters is performed for each utterance unit.
  • FIG. 5 shows the sentence error rate and the character error rate in the conventional method and this method. As shown in FIG. 5, by applying this method, a sentence error rate reduction of about 9% and a character error rate reduction of about 4% have been realized for the actual service log voice.
  • FIG. 6 shows an example of improvement by applying this method. Examples where particles abbreviated as colloquial expressions are correctly recognized (a), cases where blunt expressions are correctly recognized (b), cases where they are recognized grammatically correctly (c), backgrounds where recognition results should not be returned An example (d) was found in which the empty recognition result was correctly returned for the utterance.
  • this method When this method is applied as reranking as in the first embodiment, the applicable parameters are limited to the language model weight and insertion error. However, when this method is applied as preprocessing for speech recognition, this method can be applied to recognition parameters such as beam width and bias value in addition to language weights and insertion errors, and optimization is possible on a sentence-by-sentence basis. It becomes. In the present embodiment, a model for estimating the optimum parameter for each sentence is learned by performing recognition a plurality of times while changing each parameter.
  • FIG. 7 shows a functional block diagram of the learning device according to the third embodiment
  • FIG. 8 shows a processing flow thereof.
  • the learning device includes a voice recognition unit 301, a hypothesis evaluation unit 302-1, an optimum parameter calculation unit 302-2, and a model learning unit 303.
  • the learning device takes the acoustic feature sequence O for learning and the transcript data obtained by transcribing the corresponding audio data as input, and learns a regression model that estimates the optimum recognition parameter from the acoustic feature sequence. Output the trained regression model.
  • the voice recognition unit 301 receives the utterance unit acoustic feature sequence O as an input, and performs voice recognition processing on the utterance unit acoustic feature sequence O using K recognition parameters ⁇ k (S301). Find K recognition results R k and K total score x k .
  • the voice recognition unit 301 outputs K recognition results R k to the hypothesis evaluation unit 302-1 and outputs K total scores x k to the optimum parameter calculation unit 302-2.
  • the voice recognition unit 301 recognizes using a known voice recognition technique while gradually changing the set value of the recognition parameter to be optimized, and acquires the recognition result for each recognition parameter.
  • the optimum parameter estimation unit 302 consisting of the hypothesis evaluation unit 302-1 and the optimum parameter calculation unit 302-2, which will be described later, evaluates the recognition results of each recognition parameter output from the voice recognition unit 301 and outputs the optimum recognition parameter. ..
  • the optimum parameter estimation unit 102 of the first embodiment simulates the recognition result of each recognition parameter by reranking the recognition hypothesis with each recognition parameter in the reranking unit 102-2.
  • the voice recognition unit 301 since the voice recognition unit 301 has already performed recognition while changing the recognition parameters, the reranking step is unnecessary.
  • the recognition parameter ⁇ k of the present embodiment includes at least one or more of speech recognition parameters such as language weight, insertion penalty, beam width, and bias value.
  • the hypothesis evaluation unit 302-1 performs the same processing as the hypothesis evaluation unit 102-1 of the first embodiment. That is, the hypothesis evaluation unit 302-1 takes the recognition result R k and the correct answer text as input, evaluates the recognition result R k based on the correct answer text, obtains the evaluation value E k (S302-1), and outputs it.
  • the optimum parameter calculation unit 302-2 inputs the total score x k and the evaluation value E k with respect to the recognition result R k, and indicates the inappropriateness of the optimum value of the recognition parameter or the recognition parameter ⁇ k based on these values. The value is obtained as a calculation result (S302-2) and output.
  • the optimum parameter calculation unit 302-2 uses the recognition results for each recognition parameter and the evaluation values for them obtained by the hypothesis evaluation unit 302-1, and obtains the recognition result of what evaluation value for each recognition parameter.
  • the goodness of each recognition parameter is quantified by considering whether or not it is used. The details are the same as those of the optimum parameter calculation unit 102-3.
  • the evaluation value E k extracts the recognition parameter lambda k corresponding to the recognized result R k to be a 1, the center of gravity of the extracted recognition parameters lambda k is calculated, the calculated center of gravity Set to the optimum value of the recognition parameter.
  • the recognition parameter region S such that the recognition result R k in which the evaluation value E m such as the sentence correct answer rate is 1 becomes the first place.
  • the loss function L ( ⁇ k ) in Eq. (4) which expresses the distance of, is used as the output of the optimum parameter calculation unit 102-3. If a loss function such as the loss function L ( ⁇ k ) in Eq. (4) that can be calculated only from the recognition result of a certain parameter (and its surroundings) is used, the loss value is numerically differentiated by the recognition parameter and the gradient descends. It is possible to update the recognition parameters sequentially in the same way as.
  • the model learning unit 303 performs the same processing as the model learning unit 103 of the first embodiment. That is, the model learning unit 303 takes the acoustic feature amount series O and the calculation result of the optimum parameter calculation unit 302-2 as inputs, and uses these values to estimate the optimum recognition parameter from the acoustic feature amount series. (S303), the same processing is performed on P of the acoustic feature series O for learning and the transcribed data thereof, and the trained regression model is output.
  • the beam width and the bias value can be used as the recognition parameter ⁇ E estimated by the regression model.
  • the voice recognition process is performed using K recognition parameters ⁇ k , the amount of calculation is larger than that in the first embodiment.
  • the optimum parameter is estimated using the model learned in the third embodiment, and voice recognition is performed using it as a set value of the parameter of the voice recognition unit.
  • FIG. 9 shows a functional block diagram of the voice recognition device according to the fourth embodiment
  • FIG. 10 shows a processing flow thereof.
  • the voice recognition device includes a voice recognition unit 402 and a model utilization unit 401.
  • the voice recognition device takes the acoustic feature sequence O of the voice data to be voice recognition as an input, estimates the optimum recognition parameter using the trained regression model, and performs voice recognition using the estimated recognition parameter. Output the recognition result.
  • the model utilization unit 401 uses the acoustic feature sequence O as an input and uses a regression model that estimates the optimum recognition parameter from the acoustic feature sequence to obtain the recognition parameter ⁇ E for the acoustic feature sequence O for each utterance (S401). ),Output.
  • the regression model is a model learned in the third embodiment.
  • the model utilization unit 401 estimates an appropriate recognition parameter in the previous stage of the voice recognition process of the voice recognition unit 402, and performs voice recognition using it.
  • searching for a recognition result inside the voice recognition unit 402 it is possible to perform an appropriate hypothesis search by giving an estimated recognition parameter as a set value.
  • the voice recognition unit 402 receives the acoustic feature sequence O and the recognition parameter ⁇ E as inputs, and performs voice recognition processing on the acoustic feature sequence O for each utterance using the recognition parameter ⁇ E (S402). Output the recognition result.
  • the beam width and the bias value can be used as the estimated recognition parameter ⁇ E.
  • the program that describes this processing content can be recorded on a computer-readable recording medium.
  • the computer-readable recording medium may be, for example, a magnetic recording device, an optical disk, a photomagnetic recording medium, a semiconductor memory, or the like.
  • this program is carried out, for example, by selling, transferring, renting, etc., a portable recording medium such as a DVD or CD-ROM on which the program is recorded.
  • the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. Then, at the time of executing the process, the computer reads the program stored in its own recording medium and executes the process according to the read program. Further, as another execution form of this program, a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. It is also possible to execute the process according to the received program one by one each time.
  • ASP Application Service Provider
  • the program in this embodiment includes information used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property of defining the processing of the computer, etc.).
  • the present device is configured by executing a predetermined program on the computer, but at least a part of these processing contents may be realized by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

学習装置は、発話単位の音響特徴量系列Oに対して、認識パラメータλiniを用いて、音声認識処理を行い、認識仮説Hmと総合スコアxmを求める音声認識部と、音響特徴量系列Oに対する正しい音声認識結果である正解テキストを用いて、認識仮説Hmを評価し、評価値Emを求める仮説評価部と、認識パラメータλkを用いて、認識仮説Hmに対して総合スコアxm,kを求め、順位rankm,kを付けるリランキング部と、評価値Emと順位rankm,kとに基づき、認識パラメータの最適値または認識パラメータλkの不適切さを表す値を算出結果として求める最適パラメータ算出部と、音響特徴量系列Oと算出結果とを用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習するモデル学習部とを含む。

Description

学習装置、音声認識装置、それらの方法、およびプログラム
 本発明は、音声認識における認識パラメータの最適値を推定する際に用いるモデルを学習する学習装置、モデルを用いて推定した最適値を用いて音声認識する音声認識装置、それらの方法、およびプログラムに関する。
 HMM(Hidden Markov Model)音声認識において、認識機の挙動を調整するパラメータが多数存在し、認識パラメータと呼ばれている。
 end to end音声認識に関しても、複数のモデルを組み合わせる構成についてはモデル間のスケーリングパラメータが存在し、認識器の挙動を変化させる。例えば、言語モデルを持つend to end音声認識は言語モデルの出力を考慮する度合を表す言語重みをパラメータとして持っている。
 認識精度を向上させるためにはこうした認識パラメータを適切な値に設定することが必要である。
 認識パラメータを最適化する手法として、人手で用意した複数のパラメータの組に対し、音声データと書き起こしデータとが紐づいたデータセットを用いて認識精度を算出し、最も精度がよかったパラメータの組を採用する方法が一般的にとられている。
 音声データと書き起こしデータとが紐づいたデータセットを元に自動的に適切な認識パラメータを設定する手法が存在する(非特許文献1、非特許文献2参照)。
 さらに、音声データに含まれるノイズを推定し、推定結果を用いて各フレームで言語モデル重みを調整する手法が存在する(非特許文献3参照)。
 認識時に調整する必要のある認識パラメータとして例えば言語モデル重み、挿入ペナルティが存在する。言語モデル重みは音響モデルと言語モデルを持つ音声認識器において両者のモデルのバランスを取るパラメータである。また、挿入ペナルティは、単語数あるいは文字数(以下「単語数等」ともいう)の多い認識結果をどれだけ抑制するかを制御するパラメータであり、挿入ペナルティを大きくすると単語数等の少ない認識結果が出やすくなる。
Mak, B., & Ko, T., "Min-max discriminative training of decoding parameters using iterative linear programming", In Ninth Annual Conference of the International Speech Communication Association. 2008. 江森正, 大西祥史, 篠田浩一, 「音声認識における確率モデルの重み係数の自動推定」. 情報処理学会研究報告音声言語情報処理 (SLP), 2007(129 (2007-SLP-069)), 49-53,  2007. Novoa, J., Fredes, J., Poblete, V., & Yoma, N. B., "Uncertainty weighting and propagation in DNN-HMM-based speech recognition", Computer Speech & Language, 47, 30-46, 2018.
 しかしながら、入力される一文ごとに最適な認識パラメータは一定ではない。その事例として例えばノイズ交じりの音声については言語モデルを音響モデルより重視したほうが、正確な音声認識結果を取得しやすい。そのため、言語モデル重みを大きくすることにより性能が向上する。
 音声データと書き起こしデータのデータセットに対して、一定の認識パラメータを設定する非特許文献1、非特許文献2の手法では、音声データごとの性質の違いによる最適な認識パラメータの差異を捉えて、認識パラメータを動的に変化させることはできない。
 音声データごとの性質の違いによる最適な認識パラメータの差異を捉えることが可能な手法として非特許文献3が挙げられる。しかし、非特許文献3のパラメータ推定は、ノイズの推定結果に基づくため、ノイズ以外の、例えばクリッピングなどの適切なパラメータに影響を与えうる音響的な現象を捉えることができない。
 本発明は、ノイズの推定結果によらずに、発話ごとに適切な認識パラメータを推定し、推定した認識パラメータを用いて音声認識する音声認識装置、推定する際に用いるモデルを学習する学習装置、それらの方法、およびプログラムを提供することを目的とする。
 上記の課題を解決するために、本発明の一態様によれば、学習装置は、Mを1以上の整数の何れかとし、m=1,2,…,Mとし、発話単位の音響特徴量系列Oに対して、認識パラメータλiniを用いて、音声認識処理を行い、認識仮説Hmと総合スコアxmを求める音声認識部と、音響特徴量系列Oに対する正しい音声認識結果である正解テキストを用いて、認識仮説Hmを評価し、評価値Emを求める仮説評価部と、Kを1以上の整数の何れかとし、k=1,2,…,Kとし、認識パラメータλkを用いて、認識仮説Hmに対して総合スコアxm,kを求め、順位rankm,kを付けるリランキング部と、評価値Emと順位rankm,kとに基づき、認識パラメータの最適値または認識パラメータλkの不適切さを表す値を算出結果として求める最適パラメータ算出部と、音響特徴量系列Oと算出結果とを用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習するモデル学習部とを含む。
 上記の課題を解決するために、本発明の他の態様によれば、音声認識装置は、Mを1以上の整数の何れかとし、m=1,2,…,Mとし、発話単位の音響特徴量系列Oに対して、認識パラメータλiniを用いて、音声認識処理を行い、認識仮説Hmと総合スコアxmを求める音声認識部と、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを用いて、音響特徴量系列Oに対する認識パラメータλEを求め、求めた認識パラメータλEを用いて、認識仮説Hmに対する総合スコアxmを求め、求めた総合スコアxmに基づき認識仮説Hmに対して順位を付けるモデル利用部とを含む。
 上記の課題を解決するために、本発明の他の態様によれば、学習装置は、Kを1以上の整数の何れかとし、k=1,2,…,Kとし、発話単位の音響特徴量系列Oに対して、認識パラメータλkを用いて、音声認識処理を行い、認識結果Rkと総合スコアxkを求める音声認識部と、音響特徴量系列Oに対する正しい音声認識結果である正解テキストを用いて、認識結果Rkを評価し、評価値Ekを求める仮説評価部と、認識結果Rkに対する総合スコアxkと評価値Ekとに基づき、認識パラメータの最適値または認識パラメータλkの不適切さを表す値を算出結果として求める最適パラメータ算出部と、音響特徴量系列Oと算出結果とを用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習するモデル学習部とを含む。
 上記の課題を解決するために、本発明の他の態様によれば、音声認識装置は、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを用いて、発話単位の音響特徴量系列Oに対する認識パラメータλEを求めるモデル利用部と、音響特徴量系列Oに対して、認識パラメータλEを用いて、音声認識処理を行う音声認識部とを含む。
 本発明によれば、ノイズの推定結果によらずに、発話ごとに適切な認識パラメータを推定することができるという効果を奏する。
第一実施形態に係る学習装置の機能ブロック図。 第一実施形態に係る学習装置の処理フローの例を示す図。 第二実施形態に係る音声認識装置の機能ブロック図。 第二実施形態に係る音声認識装置の処理フローの例を示す図。 従来法と本手法における文誤り率と文字誤り率を示す図。 本手法の適用による改善事例を示す図。 第三実施形態に係る学習装置の機能ブロック図。 第三実施形態に係る学習装置の処理フローの例を示す図。 第四実施形態に係る音声認識装置の機能ブロック図。 第四実施形態に係る音声認識装置の処理フローの例を示す図。 本手法を適用するコンピュータの構成例を示す図。
 以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
 本実施形態では、発話単位の音響特徴量系列から適切な認識パラメータを直接ニューラルネットワークを用いて推定する。なお、本実施形態では、認識パラメータを言語重みおよび挿入パラメータとの組合せとする。本実施形態では、認識パラメータの中の言語モデル重み、挿入パラメータといった限られたものについて、一度適当な値で音声認識を行って生じた、多数の認識結果の候補(以下、「認識仮説」ともいう)に対して、疑似的に認識パラメータを変化させて認識仮説のリランキングを行う。
 従来こうした認識パラメータは一定の値を用いることが通例となっており、発話ごとに異なる認識パラメータを与えるという着眼点の研究は限られている。言語モデル重みの動的な制御については非特許文献3や以下の参考文献1が知られている。
(参考文献1)Stemmer, G., Zeissler, V., Noeth, E., & Niemann, H., "Towards a dynamic adjustment of the language weight", Springer, Berlin, Heidelberg, In International Conference on Text, Speech and Dialogue, pp. 323-328, 2001.
 参考文献1では、言語重みを発話単位で動的に変化させることが認識精度の改善に繋がることが示唆されており、話速や認識結果の信頼度を言語重みの推定に用いることができる可能性があると書かれている。しかし、適切な言語重みに対して影響を及ぼす特徴は現実的には多岐にわたるため、こうした話速や認識結果の信頼度のような人手で選定した特徴を用いても十分な推定はできないと考えられる。本手法では特徴量系列を入力として直接認識パラメータの推定を行うことで、認識パラメータの推定に必要な多様な情報をデータドリブンに学習することが可能である。
 本実施形態では、リランキングとして手法を適用する。リランキングとして手法を適用する場合、言語モデル重みと挿入誤りと呼ばれる認識パラメータについて、文単位での最適化が可能となる。第一実施形態はリランキングによって文単位での最適パラメータを推定するモデルを学習するものである。
<第一実施形態>
 図1は第一実施形態に係る学習装置の機能ブロック図を、図2はその処理フローを示す。
 学習装置は、音声認識部101と、仮説評価部102-1と、リランキング部102-2と、最適パラメータ算出部102-3と、モデル学習部103とを含む。
 学習装置は、学習用の音響特徴量系列OL,pと対応する音声データを人が書き起こした書き起こしデータとを入力とし、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習して、学習済みの回帰モデルを出力する。書き起こしデータは、音響特徴量系列に対する正しい音声認識結果である正解テキストに相当する。なお、OL,pの下付き添え字のLは、学習用のデータであることを表すインデックスであり、pは音響特徴量系列を示すインデックスである。例えば、学習装置は、P個の発話に対応するP個の学習用の音響特徴量系列OL,pとその書き起こしデータとを入力とし、p=1,2,…,Pとする。音声データごとの違いによる最適パラメータの差異を捉えることができるように様々な学習用の音声データを用意することが望ましい。本実施形態では、学習用の音響特徴量系列に対する処理の説明のみを行うため、インデックスLを省略する。また、p=1,2,…,Pに対して同様の処理を行うため、インデックスpを省略する。
 学習装置および後述する音声認識装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。学習装置および音声認識装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。学習装置および音声認識装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。学習装置および音声認識装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。学習装置および音声認識装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも学習装置および音声認識装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、学習装置および音声認識装置の外部に備える構成としてもよい。
 以下、各部について説明する。
<音声認識部101>
 音声認識部101は、発話単位の音響特徴量系列Oを入力とし、発話単位の音響特徴量系列Oに対して、認識パラメータλiniを用いて、音声認識処理を行い(S101)、M個の認識仮説HmとM個の総合スコアxmを求める。なお、Mを1以上の整数の何れかとし、m=1,2,…,Mとする。Mは認識仮説Hmとして採用する認識結果の候補の個数を示し、例えば、上位M個の総合スコアxmに対応する認識結果の候補を認識仮説Hmとして採用してもよいし、所定の閾値を超える総合スコアxmの個数をMとし、M個の総合スコアxmに対応するM個の認識結果の候補を認識仮説Hmとして採用してもよい。ただし、候補数Mは、通常の音声認識結果の候補として出力されるよりも多いほうが好ましい。認識仮説に対して各認識パラメータを変化させながらリランキングを行い、どの認識パラメータが適切かを判断する材料とするため、正解となる可能性のある幅広い認識結果を得る必要があり、候補数が多いほど精度が上がる可能性がある。
 音声認識部101は、M個の認識仮説Hmを仮説評価部102-1に出力し、M個の総合スコアxmを求める過程で得られるM個の言語スコアxL,m,音響スコアxA,m,単語数等nmの組合せをリランキング部102-2に出力する。
 音声認識部101は、例えば、公知の音声認識技術を用いて音声認識を行い、十分な数(M)の認識仮説を文単位で出力する。音声認識部101は、各認識仮説について音響スコア、言語スコア、単語数等を出力できることが必要とされる。したがって、例えば、HMM音声認識に代表される言語モデルと音響モデルとを備える音声認識部101であることが必要とされる。音声認識部101における認識パラメータλiniはデータセットに対して非特許文献1、非特許文献2のような方法で予め精密な調整を行う必要はなく、例えば言語重みWLというパラメータは一般的に用いられる値(例えば10など)を設定することができる。なお、言語重みWLとは
x=xA+WLxL+PIn     (1)
を用いて各認識仮説の総合スコアxを音響スコアxAと言語スコアxLの和で表すときの重みのパラメータである。ただし、PIは挿入ペナルティであり、nは単語数等である。
 後述する仮説評価部102-1、リランキング部102-2および最適パラメータ算出部102-3からなる最適パラメータ推定部102では、音声認識部101から出力されたそれぞれの認識仮説および各仮説の言語スコア、音響スコア、単語数等と、人が書き起こした書き起こしデータを用いて、学習用の音響特徴量系列に対して最適な言語モデル重み及び挿入ペナルティを推定する。
 以下、各部の処理内容を説明する。
<仮説評価部102-1>
 仮説評価部102-1は、認識仮説Hmと正解テキストとを入力とし、正解テキストに基づき、認識仮説Hmを評価し、評価値Emを求め(S102-1)、出力する。言い換えると、仮説評価部102-1は、音声認識部101で音声認識によって得られた認識仮説に対する認識の良さを表す評価値を与える部分である。評価手法は公知の技術を用い、各認識仮説に対して文正解率(0か1)や文字正解精度(0から1の実数)などを算出する。文正解率は各文に対して人が書き起こした正解テキストと認識結果が完全に一致している場合に1それ以外の場合に0とする評価方法で、文字正解精度cacc.は以下の式で計算されるものである。
cacc.=(HIT-INS)/(HIT+SUB+DEL)    (2)
ただしHITは正解文字数、DELは削除誤り文字数、SUBは置換誤り文字数、INSは挿入誤り文字数を表す。仮説評価部102-1では、各認識候補と上記のような尺度で評価された値との組(Hm,Em)が出力される。
<リランキング部102-2>
 リランキング部102-2は、M個の言語スコアxL,m,音響スコアxA,m,単語数等nmの組合せを入力とし、K個の認識パラメータλk=(WL,k,PI,k)を用いて、M個の認識仮説Hmに対してそれぞれK個の総合スコアxm,kを求め、各認識パラメータλkについてM個の認識仮説Hmの順位rankm,kを付け(S102-2)、出力する。なお、Kを1以上の整数の何れかとし、k=1,2,…,Kとする。なお、本実施形態では、認識パラメータλkは言語重みWL,kと挿入ペナルティPI,kとの組合せからなるが、認識パラメータλkは少なくとも言語重みWL,kまたは挿入ペナルティPI,kを含むものであればよい。
 リランキング部102-2は、音声認識部101で認識によって得られた認識仮説Hmを、K個の認識パラメータλkでリランキングする。ここでは言語重みと挿入ペナルティのパラメータを少しずつ変化させた時の、各認識仮説Hmに対する総合スコアxm,kを計算し、認識仮説の順位をつける。総合スコアxm,kを以下の式で算出することができる。
xm,k=(1-WL,k)xA,m+WL,kxL,m+PI,knm     (3)
ここでxm,kが総合スコア、xA,mは音響スコア、xL,mは言語スコア、nmは単語数等、WL,kは言語重み、PI,kは挿入ペナルティである。(3)式は、(1)式を言語重みWL,kが0から1の範囲になるようにスケーリングしたものである。音響スコアxA,mと言語スコアxL,mは、それぞれ音声認識部の音響モデルと言語モデルにおいて計算される各認識仮説Hmのスコアで、単語数等nmは各認識仮説Hmが何単語あるいは何文字から構成されるかを数えたものである。各認識仮説Hmに対して音響スコアxA,m、言語スコアxL,m、単語数等nmは決まっているため、言語重みWL,kと挿入ペナルティPI,kの値を変化させることによって認識仮説の順位が変わることになる。言語重みWL,kと挿入ペナルティPI,kの値は、例えば言語重みWL,kを0から1の間で0.01刻みで変化させ、挿入ペナルティPI,kを0から10の間で0.1刻みで変化させる。それぞれのパラメータの組み合わせ(この例では、100×100=10000通りでありK=10000)について、各認識仮説Hmに対して総合スコアxm,kを計算し、順位rankm,kをつける。例えば、総合スコアxm,kに基づいて、各認識パラメータλk=(WL,k,PI,k)ごとに認識仮説Hmの順位rankm,kを付ける。この場合、順位rankm',k'は、ある認識パラメータλk'におけるある認識仮説Hm'の順位を示す。
<最適パラメータ算出部102-3>
 最適パラメータ算出部102-3は、評価値Emと順位rankm,kを入力とし、これらの値に基づき、認識パラメータの最適値または認識パラメータλkの不適切さを表す値を算出結果として求め(S102-3)、出力する。
 例えば、最適パラメータ算出部102-3は、各々の認識パラメータλk=(WL,k,PI,k)に対してどういった評価値Emの認識仮説Hmが上位から並ぶかを算出することで、各認識パラメータλk=(WL,k,PI,k)の良さを計算する。
 例えば、認識パラメータの最適値を求める場合、各認識パラメータλk=(WL,k,PI,k)の値に対して第一位にリランキングされた認識仮説Hmに着目し、文正解率や文字正解精度などの評価値Emが1となる認識仮説Hmが第一位になるような認識パラメータλk=(WL,k,PI,k)の領域の、重心を計算し、認識パラメータの最適値とする。
 また、認識パラメータλkの不適切さを表す値を求める場合、例えば、文正解率などの評価値Emが1となる認識仮説が第一位になるような認識パラメータの領域Sとの距離を表す以下のロス関数L(λk)を最適パラメータ算出部102-3の出力とする。後述するモデル学習部103は、L(λk)をもとにモデルを学習することが可能である。
Figure JPOXMLDOC01-appb-M000001
ただし領域Sは文正解率などの評価値Emが1となる認識パラメータの領域Sから外縁部εを削ったものであり、λ∈Sは領域Sに属する認識パラメータである。式(4)は定性的には各認識パラメータλkの悪さを表すもの、言い換えると、不適切さを表す値となっている。
 また、第N位までの認識仮説を用いて識別的に正解となる認識仮説が上位に来やすくなるようなロス関数を設定する手法を採用することも可能である。こうしたロス関数の設計についての公知の技術として参考文献2があげられる。
(参考文献2)Och, F. J., "Minimum error rate training in statistical machine translation", Association for Computational Linguistics, In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1, pp. 160-167, 2003.
参考文献2では、第N位までの認識仮説のうち誤りを含む認識仮説のスコアを下げるようにモデル学習部103で学習する。
<モデル学習部103>
 モデル学習部103は、音響特徴量系列Oと最適パラメータ算出部102-3の算出結果とを入力とし、これらの値を用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習し(S103)、P個の学習用の音響特徴量系列Oとその書き起こしデータについて同様の処理を行い、学習済みの回帰モデルを出力する。
 例えば、モデル学習部103は、音響特徴量系列から最適パラメータ推定部102で得られた最適な認識パラメータを推定する回帰モデルを公知の深層学習技術を用いて学習する。教師有学習の枠組みで入力特徴量としては音声ファイルの音響特徴量系列を用い、正解ラベルとしては最適パラメータ算出部102―3における算出結果を用いる。ロス関数は例えば平均二乗誤差を用いる。長時間の時系列情報も考慮可能なRNN,LSTM,AttentionつきLSTMモデルなどでモデル化すると良い。
 最適パラメータ算出部102-3の算出結果が一意な最適な認識パラメータの場合、学習中のモデルに音響特徴量系列を与えたときに得られるパラメータと、最適な認識パラメータとの平均二乗誤差をロス関数として求め、ロス関数が小さくなるようにモデルを学習する。
 最適パラメータ算出部102-3の算出結果がロス関数の場合、ロス関数が小さくなるようにモデルを学習する。
 なお、学習を終了するエポック数などのハイパーパラメーターは、学習用のデータをトレーニングデータとバリデーションデータに分割し、バリデーションデータに対する評価を通して決定する。
<第二実施形態>
 第一実施形態と異なる部分を中心に説明する。
 本実施形態では、第一実施形態で説明した学習済みの回帰モデルを用いた音声認識方法について説明する。
 図3は第二実施形態に係る音声認識装置の機能ブロック図を、図4はその処理フローを示す。
 音声認識装置は、音声認識部201と、モデル利用部202とを含む。
 音声認識装置は、音声認識対象となる音声データの音響特徴量系列Otを入力とし、認識パラメータλiniを用いて音声認識した認識結果を、学習済みの回帰モデルを用いて推定した認識パラメータでリランキングし、最も順位の高いものを認識結果として出力する。なお、下付き添え字のtは、音声認識対象のデータであることを表すインデックスである。本実施形態では、音声認識対象となる音声データの音響特徴量系列Otに対する処理の説明のみを行うため、インデックスtを省略する。
 以下、各部について説明する。
<音声認識部201>
 音声認識部201は、音声認識部101と同様である。つまり、音声認識部201は、発話単位の音響特徴量系列Oを入力とし、発話単位の音響特徴量系列Oに対して、認識パラメータλiniを用いて、音声認識処理を行い(S201)、M個の認識仮説HmとM個の総合スコアxmを求める。ただし、入力の発話単位の音響特徴量系列Oは、音声認識対象となる音声データの音響特徴量系列である。
 音声認識部201は、M個の認識仮説Hmと、M個の総合スコアxmを求める過程で得られるM個の言語スコアxL,m,音響スコアxA,m,単語数等nmの組合せとをモデル利用部202に出力する。
<モデル利用部202>
 モデル利用部202は、発話単位の音響特徴量系列Oと、M個の認識仮説Hmと、M個の言語スコアxL,m,音響スコアxA,m,単語数等nmの組合せとを入力とし、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを用いて、音響特徴量系列Oに対する認識パラメータλE=(WL,E,PI,E)を求める。モデル利用部202は、求めた認識パラメータλEを用いて、M個の認識仮説Hmに対するM個の総合スコアxE,mを求める。
xE,m=(1-WL,E)xA,m+WL,ExL,m+PI,Enm    
モデル利用部202は、求めたM個の総合スコアxE,mに基づきM個の認識仮説Hmに対して順位(リランキング)を付け(S202)、最も順位の高い認識仮説を認識結果として出力する。つまり、本実施形態では、音声認識部201で音声認識を行うと同時に、モデル利用部202にて認識パラメータλEを推定し、音声認識部201から出力された認識仮説のリランキングを行う。
 認識パラメータλEの推定は1発話単位ごとに行い、1発話単位ごとに適切な認識パラメータでの音声認識が行われる。
 図5は、従来法と本手法における文誤り率と文字誤り率を示す。図5に示すように本手法の適用により、実サービスログ音声に対しておよそ9%の文誤り率削減とおよそ4%の文字誤り率削減が実現された。図6は、本手法の適用による改善事例を示す。口語表現として省略された助詞が正しく認識される例(a)、なまった表現が正しく認識される例(b)、文法的に正しく認識される例(c)、本来認識結果を返すべきでない背景発話に対して正しく空の認識結果を返す例(d)が見られた。
<効果>
 このような構成とすることで、ノイズの推定結果によらずに、発話ごとに適切な認識パラメータを推定することができるという効果を奏する。また、データセット全体に対して一定の認識パラメータを設定する場合と比較して認識精度が向上する。発話ごとの適切な認識パラメータの適用をリランキングとして行うことで、認識パラメータの推定を音声認識と並行して行うことが可能となり遅延なく適用できる。
<第三実施形態>
 第一実施形態と異なる部分を中心に説明する。
 第一実施形態のようにリランキングとして本手法を適用する場合、適用可能なパラメータは言語モデル重みと挿入誤りに限られている。しかし、音声認識の前処理として本手法を適用する場合は言語重みと挿入誤りに加えてビーム幅やバイアス値といった認識パラメータに対して本手法が適用可能であり、文単位での最適化が可能となる。本実施形態では、各パラメータを変化させながら複数回の認識を行うことで、文単位での最適パラメータを推定するモデルを学習する。
 図7は第三実施形態に係る学習装置の機能ブロック図を、図8はその処理フローを示す。
 学習装置は、音声認識部301と、仮説評価部302-1と、最適パラメータ算出部302-2と、モデル学習部303とを含む。
 学習装置は、学習用の音響特徴量系列Oと対応する音声データを人が書き起こした書き起こしデータとを入力とし、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習して、学習済みの回帰モデルを出力する。
 以下、各部について説明する。
<音声認識部301>
 音声認識部301は、発話単位の音響特徴量系列Oを入力とし、発話単位の音響特徴量系列Oに対して、K個の認識パラメータλkを用いて、音声認識処理を行い(S301)、K個の認識結果RkとK個の総合スコアxkを求める。
 音声認識部301は、K個の認識結果Rkを仮説評価部302-1に出力し、K個の総合スコアxkを最適パラメータ算出部302-2に出力する。
 音声認識部301は、最適化したい認識パラメータの設定値を少しずつ変化させながら公知の音声認識技術を用いて認識を行い、各認識パラメータに対する認識結果を取得する。
 後述する仮説評価部302-1および最適パラメータ算出部302-2からなる最適パラメータ推定部302では、音声認識部301から出力された各認識パラメータにおける認識結果を評価し、最適な認識パラメータを出力する。第一実施形態の最適パラメータ推定部102は、リランキング部102-2において認識仮説に対して各認識パラメータでリランキングすることで、各認識パラメータでの認識結果を模擬する。一方、本実施形態では、音声認識部301において既に認識パラメータを変化させながら認識を行っているのでリランキングの工程が不要である。
 なお、本実施形態の認識パラメータλkは、言語重み、挿入ペナルティ、ビーム幅、バイアス値等の音声認識のパラメータの少なくとも何れか1つ以上を含む。
<仮説評価部302-1>
 仮説評価部302-1は、第一実施形態の仮説評価部102-1と同様の処理を行う。つまり、仮説評価部302-1は、認識結果Rkと正解テキストとを入力とし、正解テキストに基づき、認識結果Rkを評価し、評価値Ekを求め(S302-1)、出力する。
<最適パラメータ算出部302-2>
 最適パラメータ算出部302-2は、認識結果Rkに対する総合スコアxkと評価値Ekとを入力とし、これらの値に基づき、認識パラメータの最適値または認識パラメータλkの不適切さを表す値を算出結果として求め(S302-2)、出力する。
 最適パラメータ算出部302-2は、各認識パラメータにおける認識結果と仮説評価部302-1で得られたそれらに対する評価値を用い、各々の認識パラメータに対してどういった評価値の認識結果が得られているかを考慮することで、各認識パラメータの良さを定量化する。詳細は、最適パラメータ算出部102―3と同様である。
 例えば、認識パラメータの最適値を求める場合、評価値Ekが1となる認識結果Rkに対応する認識パラメータλkを抽出し、抽出した認識パラメータλkの重心を計算し、計算した重心を認識パラメータの最適値とする。
 また、認識パラメータλkの不適切さを表す値を求める場合、例えば、文正解率などの評価値Emが1となる認識結果Rkが第一位になるような認識パラメータの領域Sとの距離を表す(4)式のロス関数L(λk)を最適パラメータ算出部102-3の出力とする。(4)式のロス関数L(λk)のようにあるパラメータ(とその周辺)における認識結果のみから計算できるようなロス関数を用いれば、ロスの値を認識パラメータで数値微分して勾配降下の要領で逐次的に認識パラメータを更新することが可能となる。
<モデル学習部303>
 モデル学習部303は、第一実施形態のモデル学習部103と同様の処理を行う。つまり、モデル学習部303は、音響特徴量系列Oと最適パラメータ算出部302-2の算出結果とを入力とし、これらの値を用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習し(S303)、P個の学習用の音響特徴量系列Oとその書き起こしデータについて同様の処理を行い、学習済みの回帰モデルを出力する。
<効果>
 このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、本実施形態の場合、回帰モデルが推定する認識パラメータλEとして、ビーム幅やバイアス値を用いることができる。ただし、本実施形態の場合、K個の認識パラメータλkを用いて、音声認識処理を行うため、第一実施形態よりも演算量が多くなる。
<第四実施形態>
 第二実施形態と異なる部分を中心に説明する。
 本実施形態では、第三実施形態に於いて学習したモデルを用いて最適なパラメータを推定し、それを音声認識部のパラメータの設定値として音声認識を行う。
 図9は第四実施形態に係る音声認識装置の機能ブロック図を、図10はその処理フローを示す。
 音声認識装置は、音声認識部402と、モデル利用部401とを含む。
 音声認識装置は、音声認識対象となる音声データの音響特徴量系列Oを入力とし、学習済みの回帰モデルを用いて、最適な認識パラメータを推定し、推定した認識パラメータを用いて音声認識して認識結果を出力する。
 以下、各部について説明する。
<モデル利用部401>
 モデル利用部401は、音響特徴量系列Oを入力とし、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを用いて、発話単位の音響特徴量系列Oに対する認識パラメータλEを求め(S401)、出力する。なお、回帰モデルは、第三実施形態で学習したモデルである。
 音声認識部402の音声認識処理の前段でモデル利用部401にて適切な認識パラメータを推定し、それを用いて音声認識を行う。音声認識部402の内部で認識結果を探索する際に、推定した認識パラメータを設定値として与えることで適切な仮説探索を行うことが可能である。
<音声認識部402>
 音声認識部402は、音響特徴量系列Oと認識パラメータλEとを入力とし、発話単位の音響特徴量系列Oに対して、認識パラメータλEを用いて、音声認識処理を行い(S402)、認識結果を出力する。
<効果>
 このような構成とすることで、第二実施形態と同様の効果を得ることができる。さらに、本実施形態の場合、推定する認識パラメータλEとして、ビーム幅やバイアス値を用いることができる。
<その他の変形例>
 本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
 上述の各種の処理は、図11に示すコンピュータの記録部2020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (9)

  1.  Mを1以上の整数の何れかとし、m=1,2,…,Mとし、発話単位の音響特徴量系列Oに対して、認識パラメータλiniを用いて、音声認識処理を行い、認識仮説Hmと総合スコアxmを求める音声認識部と、
     前記音響特徴量系列Oに対する正しい音声認識結果である正解テキストを用いて、前記認識仮説Hmを評価し、評価値Emを求める仮説評価部と、
     Kを1以上の整数の何れかとし、k=1,2,…,Kとし、認識パラメータλkを用いて、前記認識仮説Hmに対して総合スコアxm,kを求め、順位rankm,kを付けるリランキング部と、
     前記評価値Emと前記順位rankm,kとに基づき、認識パラメータの最適値または前記認識パラメータλkの不適切さを表す値を算出結果として求める最適パラメータ算出部と、
     前記音響特徴量系列Oと前記算出結果とを用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習するモデル学習部とを含む、
     学習装置。
  2.  Mを1以上の整数の何れかとし、m=1,2,…,Mとし、発話単位の音響特徴量系列Oに対して、認識パラメータλiniを用いて、音声認識処理を行い、認識仮説Hmと総合スコアxmを求める音声認識部と、
     音響特徴量系列から最適な認識パラメータを推定する回帰モデルを用いて、前記音響特徴量系列Oに対する認識パラメータλEを求め、求めた認識パラメータλEを用いて、前記認識仮説Hmに対する総合スコアxE,mを求め、求めた総合スコアxE,mに基づき前記認識仮説Hmに対して順位を付けるモデル利用部とを含む、
     音声認識装置。
  3.  Kを1以上の整数の何れかとし、k=1,2,…,Kとし、発話単位の音響特徴量系列Oに対して、認識パラメータλkを用いて、音声認識処理を行い、認識結果Rkと総合スコアxkを求める音声認識部と、
     前記音響特徴量系列Oに対する正しい音声認識結果である正解テキストを用いて、前記認識結果Rkを評価し、評価値Ekを求める仮説評価部と、
     前記認識結果Rkに対する総合スコアxkと前記評価値Ekとに基づき、認識パラメータの最適値または前記認識パラメータλkの不適切さを表す値を算出結果として求める最適パラメータ算出部と、
     前記音響特徴量系列Oと前記算出結果とを用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習するモデル学習部とを含む、
     学習装置。
  4.  音響特徴量系列から最適な認識パラメータを推定する回帰モデルを用いて、発話単位の音響特徴量系列Oに対する認識パラメータλEを求めるモデル利用部と、
     前記音響特徴量系列Oに対して、前記認識パラメータλEを用いて、音声認識処理を行う音声認識部とを含む、
     音声認識装置。
  5.  Mを1以上の整数の何れかとし、m=1,2,…,Mとし、発話単位の音響特徴量系列Oに対して、認識パラメータλiniを用いて、音声認識処理を行い、認識仮説Hmと総合スコアxmを求める音声認識ステップと、
     前記音響特徴量系列Oに対する正しい音声認識結果である正解テキストを用いて、前記認識仮説Hmを評価し、評価値Emを求める仮説評価ステップと、
     Kを1以上の整数の何れかとし、k=1,2,…,Kとし、認識パラメータλkを用いて、前記認識仮説Hmに対して総合スコアxm,kを求め、順位rankm,kを付けるリランキングステップと、
     前記評価値Emと前記順位rankm,kとに基づき、認識パラメータの最適値または前記認識パラメータλkの不適切さを表す値を算出結果として求める最適パラメータ算出ステップと、
     前記音響特徴量系列Oと前記算出結果とを用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習するモデル学習ステップとを含む、
     学習方法。
  6.  Mを1以上の整数の何れかとし、m=1,2,…,Mとし、発話単位の音響特徴量系列Oに対して、認識パラメータλiniを用いて、音声認識処理を行い、認識仮説Hmと総合スコアxmを求める音声認識ステップと、
     音響特徴量系列から最適な認識パラメータを推定する回帰モデルを用いて、前記音響特徴量系列Oに対する認識パラメータλEを求め、求めた認識パラメータλEを用いて、前記認識仮説Hmに対する総合スコアxE,mを求め、求めた総合スコアxE,mに基づき前記認識仮説Hmに対して順位を付けるモデル利用ステップとを含む、
     音声認識方法。
  7.  Kを1以上の整数の何れかとし、k=1,2,…,Kとし、発話単位の音響特徴量系列Oに対して、認識パラメータλkを用いて、音声認識処理を行い、認識結果Rkと総合スコアxkを求める音声認識ステップと、
     前記音響特徴量系列Oに対する正しい音声認識結果である正解テキストを用いて、前記認識結果Rkを評価し、評価値Ekを求める仮説評価ステップと、
     前記認識結果Rkに対する総合スコアxkと前記評価値Ekとに基づき、認識パラメータの最適値または前記認識パラメータλkの不適切さを表す値を算出結果として求める最適パラメータ算出ステップと、
     前記音響特徴量系列Oと前記算出結果とを用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習するモデル学習ステップとを含む、
     学習方法。
  8.  音響特徴量系列から最適な認識パラメータを推定する回帰モデルを用いて、発話単位の音響特徴量系列Oに対する認識パラメータλEを求めるモデル利用ステップと、
     前記音響特徴量系列Oに対して、前記認識パラメータλEを用いて、音声認識処理を行う音声認識ステップとを含む、
     音声認識方法。
  9.  請求項1もしくは請求項3の学習装置、または、請求項2もしくは請求項4の音声認識装置としてコンピュータを機能させるためのプログラム。
PCT/JP2019/022774 2019-06-07 2019-06-07 学習装置、音声認識装置、それらの方法、およびプログラム WO2020246033A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/022774 WO2020246033A1 (ja) 2019-06-07 2019-06-07 学習装置、音声認識装置、それらの方法、およびプログラム
US17/616,138 US20220246138A1 (en) 2019-06-07 2019-06-07 Learning apparatus, speech recognition apparatus, methods and programs for the same
JP2021524644A JP7173327B2 (ja) 2019-06-07 2019-06-07 学習装置、音声認識装置、それらの方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/022774 WO2020246033A1 (ja) 2019-06-07 2019-06-07 学習装置、音声認識装置、それらの方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2020246033A1 true WO2020246033A1 (ja) 2020-12-10

Family

ID=73652201

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/022774 WO2020246033A1 (ja) 2019-06-07 2019-06-07 学習装置、音声認識装置、それらの方法、およびプログラム

Country Status (3)

Country Link
US (1) US20220246138A1 (ja)
JP (1) JP7173327B2 (ja)
WO (1) WO2020246033A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06282295A (ja) * 1993-03-29 1994-10-07 A T R Jido Honyaku Denwa Kenkyusho:Kk 適応的探索方式
JP2004333738A (ja) * 2003-05-06 2004-11-25 Nec Corp 映像情報を用いた音声認識装置及び方法
JP2008139747A (ja) * 2006-12-05 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> 音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体
JP2008228129A (ja) * 2007-03-15 2008-09-25 Matsushita Electric Ind Co Ltd リモコン装置
JP2013114202A (ja) * 2011-11-30 2013-06-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法とその装置とプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3311467B2 (ja) * 1994-03-10 2002-08-05 富士通株式会社 音声認識システム
US5684924A (en) * 1995-05-19 1997-11-04 Kurzweil Applied Intelligence, Inc. User adaptable speech recognition system
ITTO980383A1 (it) * 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.
US20150325236A1 (en) * 2014-05-08 2015-11-12 Microsoft Corporation Context specific language model scale factors
US9959861B2 (en) * 2016-09-30 2018-05-01 Robert Bosch Gmbh System and method for speech recognition
US11482213B2 (en) * 2018-07-20 2022-10-25 Cisco Technology, Inc. Automatic speech recognition correction
US10810996B2 (en) * 2018-07-31 2020-10-20 Nuance Communications, Inc. System and method for performing automatic speech recognition system parameter adjustment via machine learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06282295A (ja) * 1993-03-29 1994-10-07 A T R Jido Honyaku Denwa Kenkyusho:Kk 適応的探索方式
JP2004333738A (ja) * 2003-05-06 2004-11-25 Nec Corp 映像情報を用いた音声認識装置及び方法
JP2008139747A (ja) * 2006-12-05 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> 音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体
JP2008228129A (ja) * 2007-03-15 2008-09-25 Matsushita Electric Ind Co Ltd リモコン装置
JP2013114202A (ja) * 2011-11-30 2013-06-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法とその装置とプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ITO, AKINORI: "Fast and Robust Optimization of Language Model Weight and Insertion Penalty from N-best Candidates", IPSJ SIG TECHNICAL REPORTS, pages 35 - 40 *

Also Published As

Publication number Publication date
US20220246138A1 (en) 2022-08-04
JPWO2020246033A1 (ja) 2020-12-10
JP7173327B2 (ja) 2022-11-16

Similar Documents

Publication Publication Date Title
US8548808B2 (en) Speech understanding apparatus using multiple language models and multiple language understanding models
KR101780760B1 (ko) 가변길이 문맥을 이용한 음성인식
JP6509694B2 (ja) 学習装置、音声検出装置、学習方法およびプログラム
JP5223673B2 (ja) 音声処理装置およびプログラム、並びに、音声処理方法
JP2015075706A (ja) 誤り修正モデル学習装置、及びプログラム
US20120221339A1 (en) Method, apparatus for synthesizing speech and acoustic model training method for speech synthesis
US20210074272A1 (en) Human resolution of repeated phrases in a hybrid transcription system
JP4852448B2 (ja) 誤り傾向学習音声認識装置及びコンピュータプログラム
US7788094B2 (en) Apparatus, method and system for maximum entropy modeling for uncertain observations
JP6615736B2 (ja) 音声言語識別装置、その方法、及びプログラム
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
Raju et al. Contextual language model adaptation for conversational agents
JP2014157323A (ja) 音声認識装置、音響モデル学習装置、その方法及びプログラム
Kurimo et al. Modeling under-resourced languages for speech recognition
US20220351634A1 (en) Question answering systems
WO2010100853A1 (ja) 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体
Qian et al. A prompt-aware neural network approach to content-based scoring of non-native spontaneous speech
JP2004198597A5 (ja)
JP2013117683A (ja) 音声認識装置、誤り傾向学習方法、及びプログラム
JP6366166B2 (ja) 音声認識装置、及びプログラム
WO2020246033A1 (ja) 学習装置、音声認識装置、それらの方法、およびプログラム
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
JP4537970B2 (ja) 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体
JP6518142B2 (ja) 言語モデル生成装置およびそのプログラム
KR20230156425A (ko) 자체 정렬을 통한 스트리밍 asr 모델 지연 감소

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19932131

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021524644

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19932131

Country of ref document: EP

Kind code of ref document: A1