WO2020044755A1 - 音声認識装置、音声認識方法、及びプログラム - Google Patents

音声認識装置、音声認識方法、及びプログラム Download PDF

Info

Publication number
WO2020044755A1
WO2020044755A1 PCT/JP2019/025187 JP2019025187W WO2020044755A1 WO 2020044755 A1 WO2020044755 A1 WO 2020044755A1 JP 2019025187 W JP2019025187 W JP 2019025187W WO 2020044755 A1 WO2020044755 A1 WO 2020044755A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech recognition
recognition result
learning
score
sequence
Prior art date
Application number
PCT/JP2019/025187
Other languages
English (en)
French (fr)
Inventor
智大 田中
亮 増村
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Publication of WO2020044755A1 publication Critical patent/WO2020044755A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Definitions

  • the present invention relates to a speech recognition device, a speech recognition method, and a program.
  • Non-Patent Document 1 It is known that the accuracy of voice recognition can be improved by rescoring a plurality of voice recognition result candidates obtained in the process of voice recognition in a voice recognition device.
  • rescoring using a language model based on an RNN (Recurrent Neural Network) capable of considering a past context is widely known (see Non-Patent Document 1).
  • the RNN language model is, for example, a word sequence of speech recognition result candidates.
  • W ⁇ w 1, w 2, ... , w s, ... w S ⁇ as input
  • the total product of the occurrence probabilities of all the words included in the word sequence of the speech recognition result candidate is a score corresponding to the word sequence of the speech recognition result candidate.
  • a word w s is converted into a word distributed expression E s as shown in the following equation (1).
  • the word distributed expression is to express a word by a word vector.
  • EMBEDDING () is a function having a function of converting a word into a word vector, and for example, a linear conversion function or the like can be applied.
  • NN () is a function having a function of converting a variable-length continuous value vector into a fixed-length continuous value vector.
  • the fixed-length continuous value vector hs is input to the discriminant function, and the occurrence probability Os + 1 of the word ws + 1 is calculated.
  • DISTRIBUTE () is a function having a function of calculating the occurrence probabilities of all words based on a fixed-length continuous value vector, and for example, a softmax function or the like can be applied.
  • Non-Patent Document 2 a method using a sequence-to-sequence model that can input a variable-length sequence and output a variable-length sequence
  • an acoustic feature sequence X ⁇ x 1 , x 2 ,..., x t ,... x T ⁇ is converted into one distributed expression C s as shown in the following equation (4). Is done.
  • an RNN is generally used as the NN, a caution mechanism can be used as one of the structures (see Non-Patent Document 3).
  • the speech recognition result symbol w s is converted into a distributed representation E s .
  • the speech recognition apparatus when re-scoring a plurality of speech recognition result candidates using the RNN language model as in the related art, although the score can be calculated in consideration of the context, it is actually input. The score could not be calculated taking into account the speech. For this reason, the conventional speech recognition apparatus has a problem that the accuracy of rescoring is insufficient and it is difficult to increase the accuracy of speech recognition.
  • An object of the present invention which has been made in view of the above problems, is to provide a speech recognition device, a speech recognition method, and a program capable of improving the accuracy of speech recognition.
  • a speech recognition device receives an audio feature amount sequence obtained from a speech signal and a symbol sequence of a speech recognition result candidate for the speech signal as input, and the speech recognition result candidate is a predetermined speech recognition result candidate.
  • a score calculation unit that calculates a plurality of the additional scores corresponding to a plurality of the voice recognition result candidates, and a plurality of the additional And a ranking unit that ranks the plurality of speech recognition result candidates based on a score.
  • the speech recognition method includes, as an input, an acoustic feature amount sequence obtained from a speech signal and a symbol sequence of a speech recognition result candidate for the speech signal, wherein the speech recognition result candidate is Calculating a plurality of additional scores corresponding to a plurality of candidate speech recognition results, using a calculation model that outputs an additional score indicating the likelihood of being a predetermined speech recognition result; and Ranking the plurality of speech recognition result candidates based on the score.
  • a program according to the present invention causes a computer to function as the above speech recognition device.
  • FIG. 1 is a diagram illustrating an example of a configuration of a speech recognition device according to the present embodiment.
  • FIG. 2 is a flowchart illustrating an example of the voice recognition method according to the present embodiment.
  • the speech recognition device 100 includes an additional score calculation unit (score calculation unit) 110 and a speech recognition result candidate ranking unit (ranking unit) 120.
  • the voice recognition device 100 is a device configured by reading a predetermined program into a known or dedicated computer having a central processing unit (CPU: Central Processing Unit), a main storage device (RAM: Random Access Memory), and the like. It is.
  • the speech recognition device 100 executes each process under the control of a central processing unit, for example.
  • the data input to the voice recognition device 100 and the data obtained in each process are stored in, for example, a main storage device, and the data stored in the main storage device is read out to a central processing unit as needed. Used for other processing.
  • At least a part of each processing unit of the voice recognition device 100 may be configured by hardware such as an integrated circuit.
  • Each storage unit included in the voice recognition device 100 can be configured by, for example, a main storage device such as a RAM or a middleware such as a relational database or a key-value store. However, each storage unit does not necessarily need to be provided in the voice recognition device 100, and is configured by an auxiliary storage device including a semiconductor memory element such as a hard disk, an optical disk, or a flash memory. May be provided.
  • a main storage device such as a RAM or a middleware such as a relational database or a key-value store.
  • auxiliary storage device including a semiconductor memory element such as a hard disk, an optical disk, or a flash memory. May be provided.
  • the term “score” means a value indicating the likelihood that a candidate speech recognition result obtained in the process of speech recognition is a predetermined speech recognition result.
  • the “additional score” means a score calculated by the additional score calculation unit 110 using a calculation model, corresponding to a speech recognition result candidate obtained in the process of speech recognition.
  • the “speech recognition score” means a score calculated in advance by a speech recognition unit (not shown) or the like corresponding to a speech recognition result candidate obtained in the process of speech recognition.
  • the “new score” corresponds to a speech recognition result candidate obtained in the process of speech recognition, and the additional score and the speech recognition score are weighted and added by the speech recognition result candidate ranking unit 120 to a score. Shall mean.
  • the additional score calculation unit 110 uses the calculation model to generate a plurality of (for example, N ( ⁇ 2)) audio feature sequences obtained from an audio signal representing an audio actually input to the audio recognition device 100 and an audio signal. ), A plurality of (for example, N ( ⁇ 2)) additional scores corresponding to the plurality of speech recognition results are calculated based on the symbol sequence of the speech recognition result candidate (see step S110 shown in FIG. 2). Then, the additional score calculation unit 110 outputs the plurality of additional scores to the speech recognition result candidate ranking unit 120.
  • a plurality of (for example, N ( ⁇ 2)) additional scores corresponding to the plurality of speech recognition results are calculated based on the symbol sequence of the speech recognition result candidate (see step S110 shown in FIG. 2). Then, the additional score calculation unit 110 outputs the plurality of additional scores to the speech recognition result candidate ranking unit 120.
  • the calculation model is a model in which an audio feature amount sequence obtained from a voice signal and a symbol sequence of a voice recognition result candidate for the voice signal are input and an additional score is output.
  • the calculation model is configured based on, for example, the RNN.
  • the speech recognition result candidate ranking section 120 ranks a plurality of speech recognition result candidates based on a plurality of additional scores input from the additional score calculation section 110 (see step S120 shown in FIG. 2). For example, the speech recognition result candidate ranking section 120 assigns an additional score corresponding to the plurality of speech recognition result candidates acquired from the additional score calculation section 110 and a plurality of speech recognition result candidates acquired from the speech recognition section (not shown). Based on a plurality of (for example, N ( ⁇ 2)) new scores obtained by weighting and adding the corresponding speech recognition scores, a plurality of speech recognition result candidates are ranked.
  • the voice recognition result candidate ranking section 120 calculates the voice recognition score S ASR , the additional score S ADD , and the weight ⁇ of the additional score (0 ⁇ ⁇ 1) as shown in the following equation (8). Based on this, calculate a new score S NEW . Note that the weight ⁇ (0 ⁇ ⁇ 1) of the additional score is appropriately adjusted.
  • the speech recognition result candidate ranking unit 120 calculates the S NEW_3, based on the three new score, the three speech recognition result Rank the candidates.
  • the first speech recognition result candidate is “the weather is fine today”
  • the weight ⁇ (0 ⁇ ⁇ 1) is “0.5”
  • the additional score S ADD_1 corresponding to the first speech recognition result candidate is “ 0.9 ”
  • the speech recognition score S ASR_1 corresponding to the first speech recognition result candidate is“ 0.7 ”
  • the speech recognition result candidate ranking unit 120 outputs the first speech recognition result candidate“
  • a new score S NEW_1 corresponding to “the weather is fine today” is calculated as “0.8” according to the equation (8).
  • the second voice recognition result candidate is “the weather was fine yesterday”, the weight ⁇ (0 ⁇ ⁇ 1) is “0.5”, and the additional score S ADD_2 corresponding to the second voice recognition result candidate is “ 0.6 ”, when the voice recognition score S ASR_2 corresponding to the second voice recognition result candidate is“ 0.8 ”, the voice recognition result candidate ranking unit 120 outputs the second voice recognition result candidate“ A new score S NEW_2 corresponding to “the weather was fine yesterday” is calculated as “0.7” according to the equation (8).
  • the third voice recognition result candidate “Yesterday's weather is rain”, the weight ⁇ (0 ⁇ ⁇ 1) is “0.5”, and the additional score S ADD — 3 corresponding to the third voice recognition result candidate is “0”.
  • the voice recognition result candidate ranking section 120 outputs the third voice recognition result candidate" Yesterday.
  • the new score S NEW — 3 corresponding to “the weather is rainy” is calculated as “0.45” according to equation (8).
  • the voice recognition result candidate ranking unit 120 determines that the new score S NEW_1 corresponding to the first voice recognition result candidate is “0.8” and the new score S NEW_2 corresponding to the second voice recognition result candidate is Based on the result that “0.7” and the new score S NEW_3 corresponding to the third speech recognition result candidate are “0.45”, the first speech recognition result candidate “Today's weather is fine”
  • the rank of the first voice recognition result candidate “Yesterday's weather is fine” is second
  • the rank of the third voice recognition result candidate “Yesterday's weather is rain” is third, and so on.
  • the speech recognition result candidate ranking unit 120 sorts the speech recognition result candidates sorted in ascending or descending order in accordance with the ranking of the three speech recognition result candidates together with the ranking of the three speech recognition result candidates. Output. For example, the voice recognition result candidate ranking unit 120 outputs “Today's weather is fine” in correspondence with the first rank of the first voice recognition result candidate, and outputs the rank of the second voice recognition result candidate. “Yesterday's weather is fine” is output according to the second place, and “Yesterday's weather is rainy” is output corresponding to the third rank of the third voice recognition result candidate.
  • S NEW_2 is "0.6”
  • the ranking of “Today's weather is fine” ranks first, the second voice recognition result candidate “Yesterday's weather is fine” ranks second, and the third voice recognition result candidate “Yesterday weather is rain”
  • FIG. 3 is a diagram illustrating an example of the configuration of the additional score calculation unit 110.
  • FIG. 4 is a flowchart illustrating an example of a calculation method of the additional score calculation unit 110.
  • the additional score calculation unit 110 includes a voice variance representation sequence conversion unit (first conversion unit) 111 and a symbol sequence score calculation unit 112. Further, the symbol sequence score calculation unit 112 includes a symbol distributed expression sequence conversion unit (second conversion unit) 1121 and a symbol sequence occurrence probability calculation unit (occurrence probability calculation unit) 1122.
  • Speech distributed expression sequence conversion unit 111 The input and output of the audio distributed representation sequence conversion unit 111 are as follows.
  • Input: Acoustic feature sequence X ⁇ x 1 , x 2 , ..., x t , ... x T ⁇ obtained from the audio signal
  • Symbol sequence W speech recognition result candidates for the speech signal ⁇ w 1, w 2, ... , w s, ... w S ⁇
  • Speech distributed representation C s NN ⁇ x 1 , x 2 ,..., x t ,... x T , w s ⁇
  • the voice variance representation sequence conversion unit 111 converts the acoustic feature amount sequence X into one variance representation (see step S111 shown in FIG. 4).
  • Distributed representation of acoustic features sequence X (voice distributed representation) C s can be expressed by the following equation (10).
  • the symbol distributed expression sequence conversion unit 1121 converts the symbol sequence of the speech recognition result candidate into a distributed expression (see step S1121 shown in FIG. 4).
  • Symbol sequence W speech recognition result candidates ⁇ w 1, w 2, ... , w s, ... w S ⁇ distributed representation of the symbol w s included in (the speech recognition result candidates distributed representation) E s, the following equation (11 ).
  • the symbol sequence occurrence probability calculation unit 1122 calculates the occurrence probability of the symbols included in the symbol sequence of the speech recognition result candidate by using the speech dispersion expression C s and the speech recognition result candidate dispersion expression E s (step shown in FIG. 4). See S1122).
  • Symbol sequence of the speech recognition result candidates W ⁇ w 1, w 2 , ..., w s, ... w S ⁇ probability O s + 1 symbol w s + 1 contained in, is calculated by the following equation (12)
  • the following equation (13) can be expressed using hs .
  • h s is a continuous value vector
  • O s + 1 is an output representing the occurrence probabilities of all registered symbols.
  • DISTRIBUTE () is a function having a function of calculating the occurrence probabilities of all symbols based on a fixed-length vector, and for example, a softmax function or the like can be applied.
  • the symbol sequence occurrence probability calculation unit 1122 repeatedly calculates the occurrence probabilities from the start symbol to the end symbol, and calculates the occurrence probabilities of all the symbols included in the symbol sequence of the speech recognition result candidate.
  • the symbol sequence occurrence probability calculation unit 1122 calculates the total product of the occurrence probabilities of all the symbols included in the symbol sequence of the speech recognition result candidate as an additional score corresponding to the symbol sequence of the speech recognition result candidate. Furthermore, the symbol sequence occurrence probability calculation unit 1122 calculates the total product of the occurrence probabilities of all the symbols included in each of the symbol sequences of the speech recognition result candidates for all of the symbol sequences of the plurality of speech recognition result candidates. Is calculated as an additional score corresponding to the symbol sequence of the candidate voice recognition result.
  • the symbol sequence occurrence probability calculation unit 1122 corresponds to the total product of the occurrence probabilities of all the symbols included in the symbol sequence of the first speech recognition result candidate corresponding to the symbol sequence of the first speech recognition result candidate. Calculated as additional score S ADD_1 .
  • the symbol sequence occurrence probability calculation unit 1122 corresponds to the total product of the occurrence probabilities of all the symbols included in the symbol sequence of the second speech recognition result candidate as the symbol sequence of the second speech recognition result candidate.
  • additional score S ADD_2 For example, the symbol sequence occurrence probability calculation unit 1122 corresponds to the total product of the occurrence probabilities of all the symbols included in the symbol sequence of the third speech recognition result candidate corresponding to the symbol sequence of the third speech recognition result candidate. Calculated as additional score S ADD_3 .
  • the additional score calculation unit 110 having the above configuration, not only the additional score can be calculated in consideration of the context, but also the additional score can be calculated in consideration of the actually input voice. As a result, the accuracy of rescoring can be improved, and the speech recognition device 100 capable of improving the accuracy of speech recognition can be realized.
  • the first voice recognition result candidate symbol sequence is “the weather is fine today”
  • the second voice recognition result candidate symbol sequence is “the weather is fine yesterday”
  • the third voice recognition result candidate symbol sequence is “ Yesterday's weather is rain.
  • the voice recognition result candidate ranking section 120 ranks the three voice recognition result candidates, and the first voice recognition result candidate “Today's weather is fine” ranks first and second.
  • Three (N 3) voices such that the ranking of the voice recognition result candidate “Yesterday's weather is fine” is second and the ranking of the third voice recognition result candidate “Yesterday's weather is rain” is third The recognition result candidates are ranked.
  • the additional score calculation unit 110 receives as input the acoustic feature amount sequence obtained from the speech signal and the symbol sequence of the speech recognition result candidate for the speech signal, A plurality of additional scores corresponding to the plurality of speech recognition result candidates are calculated using a calculation model that outputs an additional score indicating the likelihood that the speech recognition result candidate is a predetermined speech recognition result. Then, the speech recognition result candidate ranking unit 120 ranks the plurality of speech recognition result candidates based on the plurality of highly accurate additional scores S ADD calculated by the additional score calculation unit 110. Thereby, a plurality of speech recognition result candidates can be re-ranked with high accuracy, and the speech recognition device 100 capable of improving the accuracy of speech recognition can be realized.
  • Learning unit 210 for example, a P-number of acoustic features sequence for learning, P number of set S P (e.g., one set in the S P, Q P number of symbol sequences of the speech recognition result candidates for learning And a symbol sequence of one correct speech recognition result for learning are included).
  • the first set S 1 includes a Q one symbol sequence of the speech recognition result candidates for learning and one symbol sequence of the speech recognition result of the correct answer for learning.
  • the second set S 2 include, Q 2 symbols sequence of speech recognition result candidates for learning and one symbol sequence of the speech recognition result of the correct answer for learning.
  • the p-th set Sp includes Q p pieces of symbol sequences of speech recognition result candidates for learning and one symbol sequence of correct speech recognition results for learning.
  • Q p is either 1 or more integer.
  • the Q p pieces of symbol sequences of the speech recognition result candidates for learning at least, be a symbol sequence of the speech recognition result of the correct answer for learning includes symbol sequence of the speech recognition result candidates for different learning preferable.
  • the Q p pieces of the symbol sequence of the speech recognition result candidates for learning may be included symbol sequence of the speech recognition result of the correct answer for learning, it may not be included.
  • the symbol sequence of the speech recognition result candidate for learning is learning data for the learning unit 210 to learn the calculation model. For example, caption text or transcript of a TV program, transcript of conference voice, interview voice, and the like are used.
  • the symbol sequence of the correct speech recognition result for learning is learning data for the learning unit 210 to learn the calculation model, and is, for example, a caption text or transcript of a TV program, a transcript of a conference voice, a coverage voice, or the like. And the like, which is a symbol sequence of a correct sentence to be subjected to speech recognition.
  • the acoustic feature amount sequence for learning is learning data for the learning unit 210 to learn the calculation model, and is, for example, an acoustic feature amount sequence obtained from an audio signal representing a TV program audio, a conference audio, a coverage audio, or the like. And so on.
  • the learning unit 210 As (1) set S p, if one symbol sequence of the speech recognition result candidates for learning are input for example, the learning unit 210, audio feature amount sequence for learning obtained from predetermined audio signal, a predetermined Symbol sequence of one learning speech recognition result candidate selected from Q p learning speech recognition result candidate symbol sequences for one speech signal, and one correct speech recognition for learning The resulting symbol sequence is input.
  • the learning unit 210 is configured to perform a learning acoustic feature amount sequence, and a set of one learning speech recognition result candidate symbol sequence and one learning correct speech recognition result symbol sequence. Learning is performed for one symbol sequence of a speech recognition result candidate for learning, with a symbol sequence of a correct speech recognition result for learning as a target.
  • the learning unit 210 from the Q p symbols sequence of speech recognition result candidates for learning, using only one symbol sequence of the speech recognition result candidates for learning in the learning.
  • Learning unit 210 as one symbol sequence of the speech recognition result candidates for learning to be used for learning, for example, from the Q p symbols sequence of speech recognition result candidates for learning, the speech recognition score S ASR The largest one may be selected.
  • the learning unit 210 as one symbol sequence of the speech recognition result candidates for learning to be used for learning, for example, from the Q p symbols sequence of speech recognition result candidates for learning, the speech recognition score S The one with the smallest ASR may be selected.
  • the learning unit 210 performs a learning acoustic feature amount sequence, and a set of L symbol sequences of speech recognition result candidates for learning and one symbol sequence of a correct speech recognition result for learning.
  • a symbol sequence of one correct speech recognition result for learning is selected for one symbol sequence of speech recognition result candidates for learning selected from the symbol sequence of candidate speech recognition results for learning.
  • the learning unit 210 determines a learning acoustic feature amount sequence and a set of L symbol sequences of speech recognition result candidates for learning and one symbol sequence of a correct speech recognition result for learning.
  • one symbol sequence of the correct speech recognition result for learning is sequentially obtained. Learning is performed with the symbol sequence as the target.
  • the learning unit 210 is used from the Q p symbols sequence of speech recognition result candidates for learning, sequentially learning L symbols sequence of speech recognition result candidates for learning.
  • the symbol sequence of the L speech recognition result candidates for learning used by the learning unit 210 for example, the symbol sequence of the speech recognition score S ASR in the symbol sequence of Q p learning speech recognition result candidates is used.
  • a symbol sequence of L candidate speech recognition results for learning may be selected in descending order.
  • the learning unit 210 as the L symbol sequences of the speech recognition result candidates for learning to be used for learning, for example, in Q p symbols sequence of speech recognition result candidates for learning, the speech recognition score S A symbol sequence of L learning speech recognition result candidates may be selected in ascending order of ASR .
  • the learning unit 210 audio feature amount sequence for learning obtained from predetermined audio signal, A symbol sequence of L learning speech recognition result candidates selected from Q p learning speech recognition result candidate symbol sequences for a predetermined speech signal, and one learning speech recognition result candidate symbol sequence. Is input as the symbol sequence of the speech recognition result of the correct answer.
  • L is an integer of 1 ⁇ L ⁇ Q p.
  • the learning unit 210 is based on a set of the acoustic feature amount sequence for learning and all of the L symbol sequences of the speech recognition result candidates for learning and one symbol sequence of the correct speech recognition result for learning. Then, learning is performed for all of the L symbol sequences of the speech recognition result candidates for learning, using one symbol sequence of the correct speech recognition result for learning as a target.
  • the learning unit 210 is used from the Q p symbols sequence of speech recognition result candidates for learning, learning together L symbols sequence of speech recognition result candidates for learning.
  • Learning unit 210 as the L symbol sequences of the speech recognition result candidates for learning to be used for learning, for example, in Q p symbols sequence of speech recognition result candidates for learning, the L learning The speech recognition score S ASR of the symbol sequence of the speech recognition result candidate may be selected collectively from the largest one.
  • the learning unit 210, as the L symbol sequences of the speech recognition result candidates for learning to be used for learning, for example, in Q p symbols sequence of speech recognition result candidates for learning the L Learning May be selected collectively from the smallest speech recognition score S ASR of the symbol sequence of the candidate speech recognition result.
  • a confusion network or the like can be applied as the symbol series of L speech learning result candidate candidates for learning.
  • the learning unit 210 includes, for example, a voice distributed expression sequence conversion unit 211, a voice recognition result candidate distributed expression sequence conversion unit 212, and a model learning unit 213.
  • Speech distributed expression sequence conversion unit 211 The input and output of the audio distributed representation sequence converter 211 are as follows. Input: P acoustic feature sequence for learning, P sets (for example, a set including Q P learning speech recognition result candidate symbol sequences and one learning correct speech recognition result symbol sequence) Output: Speech distributed representation
  • the voice-dispersion-representation-sequence conversion unit 211 converts the P acoustic feature value sequences for learning into a voice-representation expression.
  • Speech recognition result candidate distributed expression sequence conversion unit 212 The input and output of the speech recognition result candidate distributed expression sequence conversion unit 212 are as follows. Input: P-number of pairs (e.g., a set including a Q P symbols sequence of speech recognition result candidates for learning and one symbol sequence of the speech recognition result of the correct answer for learning) Output: Speech recognition result candidate distributed representation
  • the speech recognition result candidate distributed expression sequence conversion unit 212 converts the symbol sequence of P ⁇ Q P learning speech recognition result candidates into a voice recognition result candidate distributed expression. Similarly, the speech recognition result candidate distributed expression series conversion unit 212 converts the P symbol sequences of the correct speech recognition results for learning into the speech recognition result candidate distributed expression.
  • Model learning unit 213 The inputs and outputs of the model learning unit 213 are as follows. Input: Speech distributed expression, Decentralized representation of speech recognition result candidate Output: Calculation model
  • the model learning unit 213 includes a speech distributed expression corresponding to the P acoustic feature quantity sequences for learning, a speech recognition result candidate distributed expression corresponding to the P ⁇ Q P symbol sequences of the speech recognition result candidates for learning, P
  • the calculation model is learned based on the voice recognition result candidate distributed representation corresponding to the symbol sequence of the correct voice recognition result for learning.
  • the conventional RNN language model performs learning using only text data as input, but the calculation model according to the present embodiment performs learning using text data and actual speech as input.
  • the additional score calculation unit 110 can calculate the additional score corresponding to a plurality of speech recognition result candidates with high accuracy. As a result, the accuracy of rescoring can be improved, and the speech recognition device 100 capable of improving the accuracy of speech recognition can be realized.
  • the speech recognition apparatus 100 performs a speech recognition process in a speech recognition unit (not shown), and executes a speech recognition result candidate symbol sequence (and a speech recognition score if necessary). ) Can be obtained.
  • the configuration of the voice recognition unit (not shown) is not particularly limited, and any configuration may be used as long as a symbol sequence of a voice recognition result candidate (and a voice recognition score as needed) can be obtained from the voice signal. May be something.
  • a computer-readable recording medium for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. The distribution of the program is performed, for example, by selling, transferring, lending, or the like, a portable recording medium such as a DVD or a CD-ROM on which the program is recorded.
  • the program may be stored in a storage device of a server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage unit. Then, when executing the processing, the computer reads the program stored in its own storage unit and executes the processing according to the read program.
  • a computer may directly read the program from a portable recording medium and execute processing according to the program. Further, each time a program is transferred from the server computer to the computer, processing according to the received program may be sequentially performed.
  • the program includes information to be used for processing by the computer and which is similar to the program (such as data that is not a direct command to the computer but has a property that defines the processing of the computer).
  • each device is configured by executing a predetermined program on a computer. However, at least a part of the processing content may be realized by hardware.
  • speech recognition device 110 additional score calculation unit (score calculation unit) 111 Voice Distributed Representation Sequence Converter (First Converter) 120 Voice recognition result candidate ranking section (ranking section) 210 Learning Unit 211 Speech Distributed Expression Sequence Conversion Unit 212 Speech Recognition Result Candidate Distributed Expression Sequence Conversion Unit 213 Model Learning Unit 1121 Symbol Distributed Expression Sequence Conversion Unit (Second Conversion Unit) 1122 Symbol sequence occurrence probability calculation unit (occurrence probability calculation unit)

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

音声認識装置100は、音声信号から得られる音響特徴量系列、及び前記音声信号に対する音声認識結果候補のシンボル系列を入力とし、前記音声認識結果候補が所定の音声認識結果であることの尤もらしさを示す追加スコアを出力とする計算モデルを用いて、複数の前記音声認識結果候補に対応する複数の前記追加スコアを計算するスコア計算部110と、複数の前記追加スコアに基づいて、複数の前記音声認識結果候補を順位付けする順位付け部120と、を備える。

Description

音声認識装置、音声認識方法、及びプログラム
 本発明は、音声認識装置、音声認識方法、及びプログラムに関する。
 音声認識装置において、音声認識の過程で得られる複数の音声認識結果候補をリスコアリングすることで、音声認識の精度を高められることが知られている。特に、過去の文脈を考慮することが可能なRNN(リカレントニューラルネットワーク)による言語モデルを用いたリスコアリングが広く知られている(非特許文献1参照)。
 RNN言語モデルは、例えば、音声認識結果候補の単語系列
W={w1,w2,…,ws,…wS}を入力とし、音声認識結果候補の単語系列W={w1,w2,…,ws,…wS}に含まれる単語wsの次に出現する単語ws+1の生起確率Os+1を出力とするモデルである。音声認識結果候補の単語系列に含まれる全ての単語の生起確率の総積が、この音声認識結果候補の単語系列に対応するスコアとなる。
 RNN言語モデルにおいて、まず、次式(1)に示すように単語wsが単語の分散表現Esに変換される。単語の分散表現とは、単語を単語ベクトルで表すことである。
Figure JPOXMLDOC01-appb-M000001
 EMBEDDING()は、単語を単語ベクトルに変換する機能を持つ関数であり、例えば、線形変換の関数などを適用することができる。
 次に、次式(2)に示すように単語の分散表現Esと過去の固定長の連続値ベクトルhs-1とがNNに入力される。
Figure JPOXMLDOC01-appb-M000002
 NN()は、可変長の連続値ベクトルを固定長の連続値ベクトルに変換する機能を持つ関数である。
 次に、次式(3)に示すように固定長の連続値ベクトルhsが識別関数に入力されて、単語ws+1の生起確率Os+1が計算される。
Figure JPOXMLDOC01-appb-M000003
 DISTRIBUTE()は、固定長の連続値ベクトルに基づいて、全ての単語の生起確率の計算を行う機能を持つ関数であり、例えば、softmax関数などを適用することができる。
 また、近年、入力された音声を単語や文字などのシンボル系列に直接変換可能なend-to-end音声認識に関する研究が盛んに行われている。特に、可変長の系列を入力として可変長の系列を出力とすることが可能なsequence-to-sequenceモデルを用いた手法(非特許文献2参照)が、高い精度を示すことが知られている。
 sequence-to-sequenceモデルは、例えば、音声信号から得られる音響特徴量系列X={x1,x2,…,xt,…xT}を入力とし、単語や文字のシンボルの系列W={w1,w2,…,ws,…wS}を音声認識結果として出力するモデルである。
 sequence-to-sequenceモデルにおいて、まず、次式(4)に示すように音響特徴量系列X={x1,x2,…,xt,…xT}が1つの分散表現Csに変換される。
Figure JPOXMLDOC01-appb-M000004
 NNには、一般的にRNNが用いられるが、構造の一つとして注意機構を利用することも可能である(非特許文献3参照)。
 次に、次式(5)に示すように音声認識結果シンボルwsが分散表現Esに変換される。
Figure JPOXMLDOC01-appb-M000005
 次に、次式(6)に示すように音声認識結果シンボルの分散表現Es、音響特徴量の分散表現Cs、及び固定長の連続値ベクトルhs-1が、NNに入力される。
Figure JPOXMLDOC01-appb-M000006
 次に、次式(7)に示すように固定長の連続値ベクトルhsが識別関数に入力されて、シンボルws+1の生起確率Os+1が計算される。
Figure JPOXMLDOC01-appb-M000007
 始端シンボルが出力されてから終端シンボルが出力されるまで生起確率が繰り返し計算され、その間に出力されたシンボル系列W={w1,w2,…,ws,…wS}が、音声認識結果となる。
Tomas Mikolov, Martin Karafiat, Lukas Burget, Jan Cernocky, Sanjeev Khudanpur, "Recurrent Neural Network Based Language Model",  In Proc. INTERSPEECH, pp. 1045-1048, 2010. J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, and Y. Bengio, "Attention-Based Models for Speech Recognition," in Proc. NIPS, 2015. pp. 577-585.. Minh-Thang Luong, Hieu Pham, Christopher D. Manning, "Effective Approaches to Attention-based Neural Machine Translation", In Proc. EMNLP, pp. 1412-1421, 2015.
 ところで、音声認識装置において、従来のようにRNN言語モデルを用いて、複数の音声認識結果候補をリスコアリングする場合、文脈を考慮してスコアを計算することはできるものの、実際に入力される音声を考慮してスコアを計算することはできなかった。このため、従来の音声認識装置では、リスコアリングの精度が不十分であり、音声認識の精度を高めることが困難であるという問題があった。
 上記のような問題点に鑑みてなされた本発明の目的は、音声認識の精度を高めることが可能な音声認識装置、音声認識方法、及びプログラムを提供することにある。
 上記課題を解決するため、本発明に係る音声認識装置は、音声信号から得られる音響特徴量系列、及び前記音声信号に対する音声認識結果候補のシンボル系列を入力とし、前記音声認識結果候補が所定の音声認識結果であることの尤もらしさを示す追加スコアを出力とする計算モデルを用いて、複数の前記音声認識結果候補に対応する複数の前記追加スコアを計算するスコア計算部と、複数の前記追加スコアに基づいて、複数の前記音声認識結果候補を順位付けする順位付け部と、を備えることを特徴とする。
 また、上記課題を解決するため、本発明に係る音声認識方法は、音声信号から得られる音響特徴量系列、及び前記音声信号に対する音声認識結果候補のシンボル系列を入力とし、前記音声認識結果候補が所定の音声認識結果であることの尤もらしさを示す追加スコアを出力とする計算モデルを用いて、複数の前記音声認識結果候補に対応する複数の前記追加スコアを計算するステップと、複数の前記追加スコアに基づいて、複数の前記音声認識結果候補を順位付けするステップと、を含むことを特徴とする。
 また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記の音声認識装置として機能させることを特徴とする。
 本発明によれば、音声認識の精度を高めることが可能な音声認識装置を提供できる。
本実施形態に係る音声認識装置の構成の一例を示す図である。 本実施形態に係る音声認識方法の一例を示すフローチャートである。 本実施形態に係る追加スコア計算部の構成の一例を示す図である。 本実施形態に係る追加スコア計算部の計算方法の一例を示すフローチャートである。 本実施形態に係るN=3の場合の処理結果の一例を示す図である。 本実施形態に係る計算モデルを学習する学習部の構成の一例を示す図である。
 以下、本発明を実施するための形態について、図面を参照しながら詳細に説明する。
<音声認識装置100の構成>
 図1及び図2を参照して、本実施形態に係る音声認識装置の構成及び音声認識方法について説明する。図1は、本実施形態に係る音声認識装置の構成の一例を示す図である。図2は、本実施形態に係る音声認識方法の一例を示すフローチャートである。
 図1に示すように、音声認識装置100は、追加スコア計算部(スコア計算部)110と、音声認識結果候補順位付け部(順位付け部)120と、を備える。
 音声認識装置100は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに所定のプログラムが読み込まれて構成された装置である。音声認識装置100は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声認識装置100に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音声認識装置100の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音声認識装置100が備える各記憶部は、例えば、RAMなどの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも音声認識装置100がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリのような半導体メモリ素子により構成される補助記憶装置により構成し、音声認識装置100の外部に備える構成としてもよい。
 以下、本明細書において、「スコア」とは、音声認識の過程で得られる音声認識結果候補が所定の音声認識結果であることの尤もらしさを示す値を意味するものとする。
 また、「追加スコア」とは、音声認識の過程で得られる音声認識結果候補に対応して、追加スコア計算部110によって、計算モデルを用いて計算されるスコアを意味するものとする。
 また、「音声認識スコア」とは、音声認識の過程で得られる音声認識結果候補に対応して、音声認識部(不図示)などによって、予め計算されたスコアを意味するものとする。
 また、「新スコア」とは、音声認識の過程で得られる音声認識結果候補に対応して、音声認識結果候補順位付け部120によって、追加スコアと音声認識スコアとが、重み付け加算されるスコアを意味するものとする。
 追加スコア計算部110は、計算モデルを用いて、音声認識装置100に実際に入力される音声を表す音声信号から得られる音響特徴量系列、及び音声信号に対する複数(例えば、N(≧2)個)の音声認識結果候補のシンボル系列に基づいて、複数の音声認識結果に対応する複数(例えば、N(≧2)個)の追加スコアを計算する(図2に示すステップS110参照)。そして、追加スコア計算部110は、複数の追加スコアを、音声認識結果候補順位付け部120へと出力する。
 計算モデルは、音声信号から得られる音響特徴量系列、及び音声信号に対する音声認識結果候補のシンボル系列を入力とし、追加スコアを出力とするモデルである。計算モデルは、例えば、RNNに基づいて構成される。
 音声認識結果候補順位付け部120は、追加スコア計算部110から入力される複数の追加スコアに基づいて、複数の音声認識結果候補を順位付けする(図2に示すステップS120参照)。例えば、音声認識結果候補順位付け部120は、追加スコア計算部110から取得した複数の音声認識結果候補に対応する追加スコアと、音声認識部(不図示)から取得した複数の音声認識結果候補に対応する音声認識スコアとを、それぞれ重み付け加算した複数(例えば、N(≧2)個)の新スコアに基づいて、複数の音声認識結果候補を順位付けする。
 具体的には、音声認識結果候補順位付け部120は、次式(8)に示すように、音声認識スコアSASR、追加スコアSADD、追加スコアの重みλ(0<λ≦1)、に基づいて、新スコアSNEWを計算する。なお、追加スコアの重みλ(0<λ≦1)は、適宜調整される。
Figure JPOXMLDOC01-appb-M000008
 例えば、N=3の場合、音声認識結果候補順位付け部120は、3個の新スコアSNEW_1、SNEW_2、SNEW_3を計算し、3個の新スコアに基づいて、3個の音声認識結果候補を順位付けする。
 1個目の音声認識結果候補が「今日の天気は晴れ」、重みλ(0<λ≦1)が「0.5」、1個目の音声認識結果候補に対応する追加スコアSADD_1が「0.9」、1個目の音声認識結果候補に対応する音声認識スコアSASR_1が「0.7」である場合、音声認識結果候補順位付け部120は、1個目の音声認識結果候補「今日の天気は晴れ」に対応する新スコアSNEW_1を、式(8)に従い「0.8」と計算する。
 2個目の音声認識結果候補が「昨日の天気は晴れ」、重みλ(0<λ≦1)が「0.5」、2個目の音声認識結果候補に対応する追加スコアSADD_2が「0.6」、2個目の音声認識結果候補に対応する音声認識スコアSASR_2が「0.8」である場合、音声認識結果候補順位付け部120は、2個目の音声認識結果候補「昨日の天気は晴れ」に対応する新スコアSNEW_2を、式(8)に従い「0.7」と計算する。
 3個目の音声認識結果候補「昨日の天気は雨」、重みλ(0<λ≦1)が「0.5」、3個目の音声認識結果候補に対応する追加スコアSADD_3が「0.4」、3個目の音声認識結果候補に対応する音声認識スコアSASR_3が「0.5」である場合、音声認識結果候補順位付け部120は、3個目の音声認識結果候補「昨日の天気は雨」に対応する新スコアSNEW_3を、式(8)に従い「0.45」と計算する。
 そして、音声認識結果候補順位付け部120は、1個目の音声認識結果候補に対応する新スコアSNEW_1が「0.8」、2個目の音声認識結果候補に対応する新スコアSNEW_2が「0.7」、3個目の音声認識結果候補に対応する新スコアSNEW_3が「0.45」、という結果に基づいて、1個目の音声認識結果候補「今日の天気は晴れ」の順位が1位、2個目の音声認識結果候補「昨日の天気は晴れ」の順位が2位、3個目の音声認識結果候補「昨日の天気は雨」の順位が3位というように、3個(N=3)の音声認識結果候補を順位付けする。
 更に、音声認識結果候補順位付け部120は、3個の音声認識結果候補の順位と共に、3個の音声認識結果候補の順位に対応させて、昇順或いは降順に並び替えられた音声認識結果候補を出力する。例えば、音声認識結果候補順位付け部120は、1個目の音声認識結果候補の順位1位に対応させて、「今日の天気は晴れ」を出力し、2個目の音声認識結果候補の順位2位に対応させて、「昨日の天気は晴れ」を出力し、3個目の音声認識結果候補の順位3位に対応させて、「昨日の天気は雨」を出力する。
 ここで、重みλ=1の場合、音声認識結果候補順位付け部120は、次式(9)に示すように、追加スコアSADDに基づいて、新スコアSNEWを計算する。
Figure JPOXMLDOC01-appb-M000009
 例えば、N=3の場合、音声認識結果候補順位付け部120は、3個の新スコアSNEW_1、SNEW_2、SNEW_3(追加スコアSADD_1、SADD_2、SADD_3)を計算し、3個の新スコアに基づいて、3個の音声認識結果候補を順位付けする。
 上述した例では、1個目の音声認識結果候補に対応する新スコア(=追加スコア)SNEW_1が「0.9」、2個目の音声認識結果候補に対応する新スコア(=追加スコア)SNEW_2が「0.6」、3個目の音声認識結果候補に対応する新スコア(=追加スコア)SNEW_3が「0.4」、という結果に基づいて、1個目の音声認識結果候補「今日の天気は晴れ」の順位が1位、2個目の音声認識結果候補「昨日の天気は晴れ」の順位が2位、3個目の音声認識結果候補「昨日の天気は雨」の順位が3位というように、3個(N=3)の音声認識結果候補を順位付けする。
 <追加スコア計算部110の構成>
 次に、図3及び図4を参照して、追加スコア計算部110の構成及び計算方法について詳細に説明する。図3は、追加スコア計算部110の構成の一例を示す図である。図4は、追加スコア計算部110の計算方法の一例を示すフローチャートである。
 図3に示すように、追加スコア計算部110は、音声分散表現系列変換部(第1変換部)111と、シンボル系列スコア計算部112と、を備える。更に、シンボル系列スコア計算部112は、シンボル分散表現系列変換部(第2変換部)1121と、シンボル系列生起確率計算部(生起確率計算部)1122と、を備える。
[音声分散表現系列変換部111]
 音声分散表現系列変換部111の入力及び出力は以下のとおりである。
 入力:音声信号から得られる音響特徴量系列X={x1,x2,…,xt,…xT}、
音声信号に対する音声認識結果候補のシンボル系列W={w1,w2,…,ws,…wS}
 出力:音声分散表現Cs=NN{x1,x2,…,xt,…xT,ws}
 音声分散表現系列変換部111は、音響特徴量系列Xを、1つの分散表現に変換する(図4に示すステップS111参照)。音響特徴量系列Xの分散表現(音声分散表現)Csは、次式(10)のように表すことができる。
Figure JPOXMLDOC01-appb-M000010
[シンボル系列スコア計算部112]
 シンボル系列スコア計算部112の入力及び出力は以下のとおりである。
 入力:音声分散表現Cs=NN{x1,x2,…,xt,…xT,ws}、
音声信号に対する音声認識結果候補のシンボル系列W={w1,w2,…,ws,…wS}
 出力:追加スコアSADD
 シンボル分散表現系列変換部1121は、音声認識結果候補のシンボル系列を、分散表現に変換する(図4に示すステップS1121参照)。音声認識結果候補のシンボル系列W={w1,w2,…,ws,…wS}に含まれるシンボルwsの分散表現(音声認識結果候補分散表現)Esは、次式(11)のように表すことができる。
Figure JPOXMLDOC01-appb-M000011
 シンボル系列生起確率計算部1122は、音声分散表現Cs及び音声認識結果候補分散表現Esを用いて、音声認識結果候補のシンボル系列に含まれるシンボルの生起確率を計算する(図4に示すステップS1122参照)。音声認識結果候補のシンボル系列W={w1,w2,…,ws,…wS}に含まれるシンボルws+1の生起確率Os+1は、次式(12)で求められるhsを用いて次式(13)のように表すことができる。
Figure JPOXMLDOC01-appb-M000012
Figure JPOXMLDOC01-appb-M000013
 ここで、hsは連続値ベクトルであり、Os+1は登録している全てのシンボルの生起確率を表す出力である。DISTRIBUTE()は、固定長ベクトルに基づいて、全てのシンボルの生起確率の計算を行う機能を持つ関数であり、例えば、softmax関数などを適用することができる。
 シンボル系列生起確率計算部1122は、始端シンボルから終端シンボルまで、生起確率を繰り返し計算し、音声認識結果候補のシンボル系列に含まれる全てのシンボルの生起確率を計算する。
 そして、シンボル系列生起確率計算部1122は、音声認識結果候補のシンボル系列に含まれる全てのシンボルの生起確率の総積を、この音声認識結果候補のシンボル系列に対応する追加スコアとして計算する。
 更に、シンボル系列生起確率計算部1122は、複数の音声認識結果候補のシンボル系列の全てに対して、それぞれの音声認識結果候補のシンボル系列に含まれる全てのシンボルの生起確率の総積を、それぞれの音声認識結果候補のシンボル系列に対応する追加スコアとして計算する。
 例えば、シンボル系列生起確率計算部1122は、1個目の音声認識結果候補のシンボル系列に含まれる全てのシンボルの生起確率の総積を、1個目の音声認識結果候補のシンボル系列に対応する追加スコアSADD_1として計算する。
 例えば、シンボル系列生起確率計算部1122は、2個目の音声認識結果候補のシンボル系列に含まれる全てのシンボルの生起確率の総積を、2個目の音声認識結果候補のシンボル系列に対応する追加スコアSADD_2として計算する。
 例えば、シンボル系列生起確率計算部1122は、3個目の音声認識結果候補のシンボル系列に含まれる全てのシンボルの生起確率の総積を、3個目の音声認識結果候補のシンボル系列に対応する追加スコアSADD_3として計算する。
 上述の構成を有する追加スコア計算部110によれば、文脈を考慮して追加スコアを計算するのみならず、実際に入力される音声を考慮して追加スコアを計算することができる。これにより、リスコアリングの精度を改善することができるため、音声認識の精度を高めることが可能な音声認識装置100を実現できる。
<音声認識結果候補が3個(N=3)である場合の具体例>
 図5は、音声認識結果候補が3個(N=3)である場合における音声認識装置100の処理結果の一例を示す図である。
 1個目の音声認識結果候補シンボル系列が「今日の天気は晴れ」、2個目の音声認識結果候補シンボル系列が「昨日の天気は晴れ」、3個目の音声認識結果候補シンボル系列が「昨日の天気は雨」であるとする。
 1個目の音声認識結果候補シンボル系列の音声認識スコアSASR_1が「0.7」、2個目の音声認識結果候補シンボル系列の音声認識スコアSASR_2が「0.8」、3個目の音声認識結果候補シンボル系列の音声認識スコアSASR_3が「0.5」であるとする。
 追加スコア計算部110は、計算モデルを用いて、1個目の音声認識結果候補シンボル系列及び音響特徴量系列に基づいて、追加スコアSADD_1=0.9を計算する。
 追加スコア計算部110は、計算モデルを用いて、2個目の音声認識結果候補シンボル系列及び音響特徴量系列に基づいて、追加スコアSADD_2=0.6を計算する。
 追加スコア計算部110は、計算モデルを用いて、3個目の音声認識結果候補シンボル系列及び音響特徴量系列に基づいて、追加スコアSADD_3=0.4を計算する。
 音声認識結果候補順位付け部120は、重みλ=0.5、音声認識スコアSASR_1=0.7、追加スコアSADD_1=0.9に基づいて、新スコアSNEW_1=(1-λ)×SASR_1+λ×SADD_1=(1-0.5)×0.7+0.5×0.9=0.8を計算する。
 音声認識結果候補順位付け部120は、重みλ=0.5、音声認識スコアSASR_2=0.8、追加スコアSADD_2=0.6に基づいて、新スコアSNEW_2=(1-λ)×SASR_2+λ×SADD_2=(1-0.5)×0.8+0.5×0.6=0.7を計算する。
 音声認識結果候補順位付け部120は、重みλ=0.5、音声認識スコアSASR_3=0.5、追加スコアSADD_3=0.4に基づいて、新スコアSNEW_3=(1-λ)×SASR_3+λ×SADD_3=(1-0.5)×0.5+0.5×0.4=0.45を計算する。
 更に、音声認識結果候補順位付け部120は、3個の音声認識結果候補の順位付けを行い、1個目の音声認識結果候補「今日の天気は晴れ」の順位が1位、2個目の音声認識結果候補「昨日の天気は晴れ」の順位が2位、3個目の音声認識結果候補「昨日の天気は雨」の順位が3位というように、3個(N=3)の音声認識結果候補を順位付けする。
 上述したように、本実施形態に係る音声認識装置100によれば、追加スコア計算部110により、音声信号から得られる音響特徴量系列、及び音声信号に対する音声認識結果候補のシンボル系列を入力とし、音声認識結果候補が所定の音声認識結果であることの尤もらしさを示す追加スコアを出力とする計算モデルを用いて、複数の音声認識結果候補に対応する複数の追加スコアを計算する。そして、音声認識結果候補順位付け部120により、追加スコア計算部110によって計算された精度の高い複数の追加スコアSADDに基づいて、複数の音声認識結果候補を順位付けする。これにより、複数の音声認識結果候補の高精度なリランキングが可能になるため、音声認識の精度を高めることが可能な音声認識装置100を実現できる。
 <学習部210>
 次に、図6を参照して、上述の計算モデルを学習する学習部210について説明する。
 学習部210は、例えば、P個の学習用の音響特徴量系列と、P個の組S(例えば、1つの組Sには、Q個の学習用の音声認識結果候補のシンボル系列と1個の学習用の正解の音声認識結果のシンボル系列とが含まれるものとする)とに基づいて、計算モデルを学習する。
 p=1,2,…,Pとして、p番目の組を組Sとすると、Qは、p番目の組Sにおいて、所定の音声信号に対して推定される全ての学習用の音声認識結果候補のシンボル系列の個数を表すものとする。
 例えば、1番目の組Sには、Q個の学習用の音声認識結果候補のシンボル系列と1個の学習用の正解の音声認識結果のシンボル系列とが含まれる。例えば、2番目の組Sには、Q個の学習用の音声認識結果候補のシンボル系列と1個の学習用の正解の音声認識結果のシンボル系列とが含まれる。例えば、p番目の組Sには、Q個の学習用の音声認識結果候補のシンボル系列と1個の学習用の正解の音声認識結果のシンボル系列とが含まれる。
 なお、Qは、1以上の整数の何れかである。また、Q個の学習用の音声認識結果候補のシンボル系列には、少なくとも、学習用の正解の音声認識結果のシンボル系列とは異なる学習用の音声認識結果候補のシンボル系列が含まれることが好ましい。また、Q個の学習用の音声認識結果候補のシンボル系列には、学習用の正解の音声認識結果のシンボル系列が含まれていてもよいし、含まれていなくてもよい。
 学習用の音声認識結果候補のシンボル系列は、学習部210が、計算モデルを学習するための学習データであり、例えば、テレビ番組の字幕テキストまたは書き起こし、会議音声、取材音声等の書き起こし等の音声認識の対象となる候補文のシンボル系列などである。
 学習用の正解の音声認識結果のシンボル系列は、学習部210が、計算モデルを学習するための学習データであり、例えば、テレビ番組の字幕テキストまたは書き起こし、会議音声、取材音声等の書き起こし等の音声認識の対象となる正解文のシンボル系列などである。
 学習用の音響特徴量系列は、学習部210が、計算モデルを学習するための学習データであり、例えば、テレビ番組の音声、会議音声、取材音声等を表す音声信号から得られる音響特徴量系列などである。
 ここで、学習部210に入力される学習データの組み合わせ(学習用の音声認識結果候補のシンボル系列と学習用の正解の音声認識結果のシンボル系列との組み合わせ)の一例について説明する。
(1)組Sとして、1個の学習用の音声認識結果候補のシンボル系列が入力される場合
 例えば、学習部210には、所定の音声信号から得られる学習用の音響特徴量系列、所定の音声信号に対するQ個の学習用の音声認識結果候補のシンボル系列の中から選択された1個の学習用の音声認識結果候補のシンボル系列、及び、1個の学習用の正解の音声認識結果のシンボル系列が入力される。
 学習部210は、学習用の音響特徴量系列、及び、1個の学習用の音声認識結果候補のシンボル系列と1個の学習用の正解の音声認識結果のシンボル系列との組に基づいて、1個の学習用の音声認識結果候補のシンボル系列について、1個の学習用の正解の音声認識結果のシンボル系列をターゲットとして、学習する。
 この場合、学習部210は、Q個の学習用の音声認識結果候補のシンボル系列の中から、1個の学習用の音声認識結果候補のシンボル系列のみを学習に使用する。学習部210が、学習に使用する1個の学習用の音声認識結果候補のシンボル系列として、例えば、Q個の学習用の音声認識結果候補のシンボル系列の中から、音声認識スコアSASRの最も大きいものが選択されてもよい。或いは、学習部210が、学習に使用する1個の学習用の音声認識結果候補のシンボル系列として、例えば、Q個の学習用の音声認識結果候補のシンボル系列の中から、音声認識スコアSASRの最も小さいものが選択されてもよい。
(2)組Sとして、複数の学習用の音声認識結果候補のシンボル系列が別々に入力される場合
 例えば、学習部210には、所定の音声信号から得られる学習用の音響特徴量系列、所定の音声信号に対するQ個の学習用の音声認識結果候補のシンボル系列の中から選択されたL個の学習用の音声認識結果候補のシンボル系列、及び、1個の学習用の正解の音声認識結果のシンボル系列が入力される。例えば、Lは、1≦L≦Qの整数である。
 学習部210は、学習用の音響特徴量系列、及び、L個の学習用の音声認識結果候補のシンボル系列と1個の学習用の正解の音声認識結果のシンボル系列との組に基づいて、まず、L個の学習用の音声認識結果候補のシンボル系列の中から選択された1個の学習用の音声認識結果候補のシンボル系列について、1個の学習用の正解の音声認識結果のシンボル系列をターゲットとして、学習する。
 そして、学習部210は、学習用の音響特徴量系列、及び、L個の学習用の音声認識結果候補のシンボル系列と1個の学習用の正解の音声認識結果のシンボル系列との組に基づいて、順次、L個の学習用の音声認識結果候補のシンボル系列の中から選択された1個の学習用の音声認識結果候補のシンボル系列について、1個の学習用の正解の音声認識結果のシンボル系列をターゲットとして、学習する。
 この場合、学習部210は、Q個の学習用の音声認識結果候補のシンボル系列の中から、L個の学習用の音声認識結果候補のシンボル系列を順次学習に使用する。学習部210が、学習に使用するL個の学習用の音声認識結果候補のシンボル系列として、例えば、Q個の学習用の音声認識結果候補のシンボル系列の中で、音声認識スコアSASRの大きいものから順に、L個の学習用の音声認識結果候補のシンボル系列が選択されてもよい。或いは、学習部210が、学習に使用するL個の学習用の音声認識結果候補のシンボル系列として、例えば、Q個の学習用の音声認識結果候補のシンボル系列の中で、音声認識スコアSASRの小さいものから順に、L個の学習用の音声認識結果候補のシンボル系列が選択されてもよい。
(3)組Sとして、複数の学習用の音声認識結果候補のシンボル系列がまとめて入力される場合
 例えば、学習部210には、所定の音声信号から得られる学習用の音響特徴量系列、所定の音声信号に対するQ個の学習用の音声認識結果候補のシンボル系列の中から選択されたL個の学習用の音声認識結果候補のシンボル系列がまとまったもの、及び、1個の学習用の正解の音声認識結果のシンボル系列が入力される。例えば、Lは、1≦L≦Qの整数である。
 学習部210は、学習用の音響特徴量系列、及び、L個の学習用の音声認識結果候補のシンボル系列の全てと1個の学習用の正解の音声認識結果のシンボル系列との組に基づいて、L個の学習用の音声認識結果候補のシンボル系列の全てについて、1個の学習用の正解の音声認識結果のシンボル系列をターゲットとして、学習する。
 この場合、学習部210は、Q個の学習用の音声認識結果候補のシンボル系列の中から、L個の学習用の音声認識結果候補のシンボル系列をまとめて学習に使用する。学習部210が、学習に使用するL個の学習用の音声認識結果候補のシンボル系列として、例えば、Q個の学習用の音声認識結果候補のシンボル系列の中で、L個の学習用の音声認識結果候補のシンボル系列の音声認識スコアSASRが大きいものからまとめて選択されてもよい。或いは、学習部210が、学習に使用するL個の学習用の音声認識結果候補のシンボル系列として、例えば、Q個の学習用の音声認識結果候補のシンボル系列の中で、L個の学習用の音声認識結果候補のシンボル系列の音声認識スコアSASRが小さいものからまとめて選択されてもよい。なお、L個のまとまった学習用の音声認識結果候補のシンボル系列としては、例えば、コンフュージョンネットワークなどを適用できる。
<学習部210の構成>
 次に、図6を参照して、学習部210の構成の一例について説明する。
 学習部210は、例えば、音声分散表現系列変換部211と、音声認識結果候補分散表現系列変換部212と、モデル学習部213と、を備える。
[音声分散表現系列変換部211]
 音声分散表現系列変換部211の入力及び出力は以下のとおりである。
 入力:P個の学習用の音響特徴量系列、
P個の組(例えば、Q個の学習用の音声認識結果候補のシンボル系列と1個の学習用の正解の音声認識結果のシンボル系列とを含む組)
 出力:音声分散表現
 音声分散表現系列変換部211は、P個の学習用の音響特徴量系列を、音声分散表現に変換する。
[音声認識結果候補分散表現系列変換部212]
 音声認識結果候補分散表現系列変換部212の入力及び出力は以下のとおりである。
 入力:P個の組(例えば、Q個の学習用の音声認識結果候補のシンボル系列と1個の学習用の正解の音声認識結果のシンボル系列とを含む組)
 出力:音声認識結果候補分散表現
 音声認識結果候補分散表現系列変換部212は、P×Q個の学習用の音声認識結果候補のシンボル系列を、音声認識結果候補分散表現に変換する。
 同様に、音声認識結果候補分散表現系列変換部212は、P個の学習用の正解の音声認識結果のシンボル系列を、音声認識結果候補分散表現に変換する。
[モデル学習部213]
 モデル学習部213の入力及び出力は以下のとおりである。
 入力:音声分散表現、
音声認識結果候補分散表現
 出力:計算モデル
 モデル学習部213は、P個の学習用の音響特徴量系列に対応する音声分散表現、P×Q個の学習用の音声認識結果候補のシンボル系列に対応する音声認識結果候補分散表現、P個の学習用の正解の音声認識結果のシンボル系列に対応する音声認識結果候補分散表現、に基づいて、計算モデルを学習する。
 即ち、従来のRNN言語モデルは、テキストデータのみを入力として学習が行われていたが、本実施形態に係る計算モデルは、テキストデータ及び実際の音声を入力として学習が行われる。当該計算モデルを適用することで、追加スコア計算部110は、複数の音声認識結果候補に対応する追加スコアを高精度に計算することができる。これにより、リスコアリングの精度を改善することができるため、音声認識の精度を高めることが可能な音声認識装置100を実現できる。
<変形例>
 本実施形態では、詳細な説明は省略しているが、音声認識装置100は、図示しない音声認識部において、音声認識処理を行い、音声認識結果候補のシンボル系列(さらに必要に応じて音声認識スコア)を求めることが可能である。また、図示しない音声認識部の構成は、特に限定されるものではなく、音声信号から音声認識結果候補のシンボル系列(さらに必要に応じて音声認識スコア)を求めることができるものであればどのようなものであってもよい。
<その他の変形例>
 本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
 また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
 上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形及び変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
 100      音声認識装置
 110      追加スコア計算部(スコア計算部)
 111      音声分散表現系列変換部(第1変換部)
 120      音声認識結果候補順位付け部(順位付け部)
 210      学習部
 211      音声分散表現系列変換部
 212      音声認識結果候補分散表現系列変換部
 213      モデル学習部
 1121     シンボル分散表現系列変換部(第2変換部)
 1122     シンボル系列生起確率計算部(生起確率計算部)

Claims (8)

  1.  音声信号から得られる音響特徴量系列、及び前記音声信号に対する音声認識結果候補のシンボル系列を入力とし、前記音声認識結果候補が所定の音声認識結果であることの尤もらしさを示す追加スコアを出力とする計算モデルを用いて、複数の前記音声認識結果候補に対応する複数の前記追加スコアを計算するスコア計算部と、
     複数の前記追加スコアに基づいて、複数の前記音声認識結果候補を順位付けする順位付け部と、
     を備える、音声認識装置。
  2.  前記スコア計算部は、
     前記音響特徴量系列を分散表現に変換して音声分散表現を出力する第1変換部と、
     前記音声認識結果候補のシンボル系列を分散表現に変換して音声認識結果候補分散表現を出力する第2変換部と、
     前記音声分散表現及び前記音声認識結果候補分散表現に基づいて、前記音声認識結果候補に含まれるシンボルの生起確率を計算する生起確率計算部と、
     を備える、請求項1に記載の音声認識装置。
  3.  前記順位付け部は、音声認識スコアと前記追加スコアとが重み付け加算される新スコアに基づいて、複数の前記音声認識結果候補を順位付けする、
     請求項1又は2に記載の音声認識装置。
  4.  前記計算モデルは、リカレントニューラルネットワークに基づいて構成される、
     請求項1から3のいずれか一項に記載の音声認識装置。
  5.  音声信号から得られる音響特徴量系列、及び前記音声信号に対する音声認識結果候補のシンボル系列を入力とし、前記音声認識結果候補が所定の音声認識結果であることの尤もらしさを示す追加スコアを出力とする計算モデルを用いて、複数の前記音声認識結果候補に対応する複数の前記追加スコアを計算するステップと、
     複数の前記追加スコアに基づいて、複数の前記音声認識結果候補を順位付けするステップと、
     を含む、音声認識方法。
  6.  前記追加スコアを計算するステップは、
     前記音響特徴量系列を分散表現に変換して音声分散表現を出力するステップと、
     前記音声認識結果候補のシンボル系列を分散表現に変換して音声認識結果候補分散表現を出力するステップと、
     前記音声分散表現及び前記音声認識結果候補分散表現に基づいて、前記音声認識結果候補に含まれるシンボルの生起確率を計算するステップと、
     を含む、請求項5に記載の音声認識方法。
  7.  前記音声認識結果候補を順位付けするステップは、
     音声認識スコアと前記追加スコアとが重み付け加算される新スコアに基づいて、複数の前記音声認識結果候補を順位付けする、
     請求項5又は6に記載の音声認識方法。
  8.  コンピュータを、請求項1から4のいずれか一項に記載の音声認識装置として機能させるプログラム。
PCT/JP2019/025187 2018-08-27 2019-06-25 音声認識装置、音声認識方法、及びプログラム WO2020044755A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-158780 2018-08-27
JP2018158780A JP2020034625A (ja) 2018-08-27 2018-08-27 音声認識装置、音声認識方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2020044755A1 true WO2020044755A1 (ja) 2020-03-05

Family

ID=69645089

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/025187 WO2020044755A1 (ja) 2018-08-27 2019-06-25 音声認識装置、音声認識方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP2020034625A (ja)
WO (1) WO2020044755A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220020362A1 (en) * 2020-07-17 2022-01-20 Samsung Electronics Co., Ltd. Speech signal processing method and apparatus

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001175276A (ja) * 1999-12-17 2001-06-29 Denso Corp 音声認識装置及び記録媒体
US20170220925A1 (en) * 2016-02-03 2017-08-03 Google Inc. Compressed recurrent neural network models
WO2018117094A1 (ja) * 2016-12-20 2018-06-28 日本電信電話株式会社 音声認識結果リランキング装置、音声認識結果リランキング方法、プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001175276A (ja) * 1999-12-17 2001-06-29 Denso Corp 音声認識装置及び記録媒体
US20170220925A1 (en) * 2016-02-03 2017-08-03 Google Inc. Compressed recurrent neural network models
WO2018117094A1 (ja) * 2016-12-20 2018-06-28 日本電信電話株式会社 音声認識結果リランキング装置、音声認識結果リランキング方法、プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220020362A1 (en) * 2020-07-17 2022-01-20 Samsung Electronics Co., Ltd. Speech signal processing method and apparatus
US11670290B2 (en) * 2020-07-17 2023-06-06 Samsung Electronics Co., Ltd. Speech signal processing method and apparatus

Also Published As

Publication number Publication date
JP2020034625A (ja) 2020-03-05

Similar Documents

Publication Publication Date Title
Schneider et al. wav2vec: Unsupervised pre-training for speech recognition
US11113479B2 (en) Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query
JP2795058B2 (ja) 時系列信号処理装置
US11869486B2 (en) Voice conversion learning device, voice conversion device, method, and program
CN110275939B (zh) 对话生成模型的确定方法及装置、存储介质、电子设备
JPH064093A (ja) Hmm作成装置、hmm記憶装置、尤度計算装置及び、認識装置
JP2015075706A (ja) 誤り修正モデル学習装置、及びプログラム
US11380301B2 (en) Learning apparatus, speech recognition rank estimating apparatus, methods thereof, and program
CN113268609A (zh) 基于知识图谱的对话内容推荐方法、装置、设备及介质
WO2019167296A1 (ja) 自然言語処理のための装置、方法及びプログラム
CN112084301B (zh) 文本修正模型的训练方法及装置、文本修正方法及装置
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
CN111191033B (zh) 一种基于分类效用的开集分类方法
CN113761841A (zh) 将文本数据转换为声学特征的方法
CN112668317A (zh) 用于确定输出词法单元的方法和设备
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN112989843B (zh) 意图识别方法、装置、计算设备及存储介质
WO2020044755A1 (ja) 音声認識装置、音声認識方法、及びプログラム
CN117033961A (zh) 一种上下文语境感知的多模态图文分类方法
CN114707518B (zh) 面向语义片段的目标情感分析方法、装置、设备及介质
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
WO2023017568A1 (ja) 学習装置、推定装置、学習方法、およびプログラム
CN117980915A (zh) 用于端到端自监督预训练的对比学习和掩蔽建模
US20220013136A1 (en) Language model score calculation apparatus, language model generation apparatus, methods therefor, program, and recording medium
CN114707509A (zh) 交通命名实体识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19855861

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19855861

Country of ref document: EP

Kind code of ref document: A1