WO2021117089A1 - モデル学習装置、音声認識装置、それらの方法、およびプログラム - Google Patents

モデル学習装置、音声認識装置、それらの方法、およびプログラム Download PDF

Info

Publication number
WO2021117089A1
WO2021117089A1 PCT/JP2019/048079 JP2019048079W WO2021117089A1 WO 2021117089 A1 WO2021117089 A1 WO 2021117089A1 JP 2019048079 W JP2019048079 W JP 2019048079W WO 2021117089 A1 WO2021117089 A1 WO 2021117089A1
Authority
WO
WIPO (PCT)
Prior art keywords
sequence
label
loss
matrix
kld
Prior art date
Application number
PCT/JP2019/048079
Other languages
English (en)
French (fr)
Inventor
崇史 森谷
雄介 篠原
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2019/048079 priority Critical patent/WO2021117089A1/ja
Priority to US17/783,230 priority patent/US20230009370A1/en
Priority to JP2021563454A priority patent/JP7298714B2/ja
Publication of WO2021117089A1 publication Critical patent/WO2021117089A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks

Definitions

  • the present invention relates to a model learning technique for speech recognition techniques.
  • Non-Patent Document 1 describes a method of learning a speech recognition model using a learning method by Connectionist Temporal Classification (CTC). .. In the method of Non-Patent Document 1, it is not necessary to prepare a correct label for each frame (frame-by-frame correct label) for learning, and the acoustic feature sequence and the correct symbol sequence corresponding to the whole (frame-by-frame correct label) are not required.
  • the label sequence corresponding to the acoustic feature sequence can be dynamically obtained and the speech recognition model can be trained.
  • inference processing using the speech recognition model learned by the method of Non-Patent Document 1 can be performed for each frame. Therefore, the method of Non-Patent Document 1 is suitable for a voice recognition system for online operation.
  • Non-Patent Document 2 a method using an Attention-based model that learns a speech recognition model using an acoustic feature sequence and a corresponding correct symbol sequence, which has better performance than the method using CTC, has also been proposed (for example, Non-Patent Document 2). reference).
  • the label to be output next is estimated and learned based on the attention weight calculated depending on the label series up to the previous time.
  • the attention weight indicates which frame should be focused on to determine the timing of the label to be output next. That is, the attention weight represents the degree of relevance of each frame to the timing at which the label appears. The value of the element of the frame with a large degree of attention to determine the label timing becomes very large, and the value of the other elements becomes small.
  • Alex Graves et.al “Connectionist temporal classification: Labeling unsegmented sequence data with recurrent neural networks,” ICML, pp. 369-376, 2016. Jan Chorowski et.al, “Attention-based Models for Speech Recognition,” NIPS, 2015.
  • the method of Non-Patent Document 1 is suitable for online operation, but the estimation accuracy is low.
  • the method of Non-Patent Document 2 has high estimation accuracy, but is not suitable for online operation.
  • the present invention has been made in view of such a point, and relates to a technique for learning a model having high estimation accuracy and suitable for online operation.
  • an output probability distribution vector z n having an element corresponding to the appearance probability of each entry k of the nth symbol cn with respect to the acoustic feature matrix based on the acoustic feature matrix, It is the sum for all the symbols c n care weight and vector alpha n, the product with the corresponding elements to the attention weight indicative relevance of the height of each frame t of the acoustic features sequences for timing symbol c n appears
  • the stochastic matrix P is obtained and the model parameters are given, the label sequence corresponding to the acoustic feature sequence is obtained, and the correct symbol sequence corresponding to the acoustic feature sequence and the label sequence are used to obtain the correct symbol sequence.
  • the CTC loss of the label series with respect to the stochastic matrix P is obtained, and the KLD loss of the label series with respect to the matrix corresponding to the stochastic matrix P is obtained by using the matrix corresponding to the stochastic matrix P and the KLD loss.
  • the model parameters are updated based on the integrated loss, and these processes are repeated until the termination condition is satisfied.
  • the estimation accuracy is high because the stochastic matrix P corresponding to the attention weight is taken into consideration.
  • the label sequence corresponding to the new acoustic feature sequence when the model parameter is given is output, and this process can be performed for each frame. As described above, in the present invention, it is possible to learn a model having high estimation accuracy and suitable for online operation.
  • FIG. 1 is a block diagram illustrating the functional configuration of the model learning device of the first embodiment.
  • FIG. 2 is a block diagram illustrating the hardware configuration of the model learning device of the first and second embodiments.
  • FIG. 3 is a block diagram illustrating the functional configuration of the model learning device of the second embodiment.
  • FIG. 4 is a block diagram illustrating the functional configuration of the voice recognition device of the third embodiment.
  • the model learning device 1 of the present embodiment has a voice distribution expression series conversion unit 101, 104, a CTC loss calculation unit 103, a symbol distribution expression conversion unit 105, a caution weight calculation unit 106, and a label estimation unit. It has 102, 107, a probability matrix calculation unit 108, a KLD loss calculation unit 109, a loss integration unit 110, and a control unit 111.
  • the voice distributed expression sequence conversion unit 101 and the label estimation unit 102 correspond to the estimation unit.
  • the model learning device 1 executes each process based on the control of the control unit 111.
  • FIG. 2 illustrates the hardware constituting the model learning device 1 of the present embodiment and the cooperation between the hardware and the software. This configuration is an example and does not limit the present invention.
  • the hardware constituting the model learning device 1 includes a CPU (Central Processing Unit) 10a, an input unit 10b, an output unit 10c, an auxiliary storage device 10d, a RAM (Random Access Memory) 10f, and a ROM ( Read Only Memory) 10e and 10g of bus.
  • the CPU 10a of this example has a control unit 10aa, a calculation unit 10ab, and a register 10ac, and executes various arithmetic processes according to various programs read into the register 10ac.
  • the input unit 10b is an input port, keyboard, mouse, etc. for inputting data
  • the output unit 10c is an output port, display, etc. for outputting data.
  • the auxiliary storage device 10d is, for example, a hard disk, MO (Magneto-Optical disc), semiconductor memory, or the like, and is a program area 10da that stores a program for executing the process of the present embodiment and a data area that stores various data. It has 10db.
  • the RAM 10f is a SRAM (Static Random Access Memory), a DRAM (Dynamic Random Access Memory), or the like, and has a program area 10fa in which a program is written and a data area 10fb in which various data are stored.
  • the bus 10g connects the CPU 10a, the input unit 10b, the output unit 10c, the auxiliary storage device 10d, the RAM 10f, and the ROM 10e in a communicable manner.
  • the CPU 10a writes the program stored in the program area 10da of the auxiliary storage device 10d to the program area 10fa of the RAM 10f according to the read OS (Operating System) program.
  • the CPU 10a writes the data stored in the data area 10db of the auxiliary storage device 10d to the data area 10fb of the RAM 10f.
  • the address on the RAM 10f in which this program or data is written is stored in the register 10ac of the CPU 10a.
  • the control unit 10aa of the CPU 10a sequentially reads out these addresses stored in the register 10ac, reads a program or data from the area on the RAM 10f indicated by the read address, and causes the arithmetic unit 10ab to sequentially execute the operations indicated by the program.
  • the calculation result is stored in the register 10ac.
  • the model learning device 1 illustrated in FIG. 1 is configured by reading and executing a program in the CPU 10a in this way.
  • the acoustic feature sequence X is a sequence of time-series acoustic features extracted from a time-series acoustic signal such as voice.
  • An example of the acoustic feature sequence X is a vector.
  • the correct answer symbol sequence C is a sequence of correct answer symbols represented by a time series acoustic signal corresponding to the acoustic feature quantity sequence X.
  • Examples of correct symbols are phonemes, letters, subwords, words, and so on.
  • An example of the correct symbol sequence C is a vector.
  • the correct answer symbol sequence C corresponds to the acoustic feature sequence X, but it is not specified which frame (time point) of the acoustic feature sequence X each correct symbol included in the correct symbol sequence C corresponds to.
  • the acoustic feature sequence X is input to the voice distributed expression sequence conversion unit 104.
  • the voice distribution expression sequence conversion unit 104 obtains and outputs an intermediate feature sequence H'corresponding to the acoustic feature sequence X when the conversion model parameter ⁇ 1 which is a model parameter is given (step S104).
  • An example of the voice distribution expression sequence conversion unit 104 is a multi-stage neural network, which outputs an intermediate feature sequence H'with an acoustic feature sequence X as an input.
  • the conversion model parameter ⁇ 1 of the speech distribution expression sequence conversion unit 104 has been learned and is set in advance.
  • the processing of the voice-distributed expression sequence conversion unit 104 is performed, for example, according to the equation (17) of Reference 1.
  • LSTM Long short-term memory
  • H' the intermediate feature series H'(Reference 2).
  • Reference 1 Shinji Watanabe, Senior Member, Takaaki Hori, Suyoun Kim, John R. Hershey, and Tomoki Hayashi, "Hybrid CTC / Attention Architecture for End-to-End Speech Recognition", IEEE journal of selected topics in signal processing, vol. 11, No. 8, December 2017.
  • Reference 2 Sepp Hochreiter, Jurgen Schmidhuber, "LONG SHORT-TERM MEMORY,” Computer Science, MedicinePublished in Neural Computation 1997.
  • the symbol distribution representation conversion unit 105 converts the character feature amount estimation model parameter ⁇ 3, which is a model parameter, into a character feature amount C n , which is a continuous value feature amount corresponding to the label z n , and outputs the character feature amount estimation model parameter ⁇ 3. (Step S105).
  • n represents the order of labels z n arranged in chronological order.
  • the character feature amount estimation model parameter ⁇ 3 of the symbol distribution representation conversion unit 105 has been learned and is set in advance.
  • the dimension value corresponding to K + 1 entries (including one redundant symbol "blank" entry) of the symbol corresponding to the label z n is a non-zero value (for example, a positive value). And it is a one-hot vector whose other dimension values are zero.
  • K is a positive integer and the total number of symbol entries is K + 1.
  • the calculation of the character feature amount C n using the label z n is performed by, for example, the formula (4) of Non-Patent Document 2.
  • ⁇ Caution weight calculation unit 106 a label z n outputted from the intermediate feature amount sequence H 'and label estimation unit 107 is output from the audio distributed representation stream conversion unit 104 is input. Note the weight calculator 106 uses the care weight vector alpha n-1 corresponding to the previous label z n-1 of the labels z n, and outputs the obtained attention weight vector alpha n corresponding to the label z n (Step S106).
  • the attention weight vector ⁇ n is an F-dimensional vector representing the attention weight.
  • each frame t 1 the acoustic features sequence X against timing symbol c n appears, ..., in F-dimensional vector with elements corresponding to the note weight indicative relevance of the height of the F is there.
  • F is a positive integer and represents the total number of frames of the acoustic feature series X.
  • the attention weight indicates which frame should be focused on to determine the timing of the label to be output next, and the attention weight vector ⁇ n is the degree to be focused on in determining the label timing.
  • the value of the element of the frame with large is very large, and the value of the other elements is small.
  • the calculation process of the attention weight vector ⁇ n is described in, for example, “2 Attention-Based Model for Speech Recognition” and “2.1 General Framework” of Non-Patent Document 2.
  • the attention weight vector ⁇ n is performed according to the equations (1)-(3) of Non-Patent Document 2.
  • the number of dimensions of the attention weight vector ⁇ n is 1 ⁇ F.
  • the label estimation model parameter ⁇ 2 of the label estimation unit 107 has been learned and is set in advance.
  • the output probability distribution vector z n is generated, for example, according to the equations (2) and (3) of Non-Patent Document 2.
  • ⁇ Stochastic matrix calculation unit 108 The label z n output from the label estimation unit 107 and the attention weight vector ⁇ n output from the attention weight calculation unit 106 are input to the probability matrix calculation unit 108.
  • Is. pt and k are elements of t rows and k columns of the stochastic matrix P, and correspond to the frame t and the entry k.
  • z n and k are elements in the kth column of the output probability distribution vector z n and correspond to the entry k.
  • ⁇ n and t are the t-th elements of the attention weight vector ⁇ n and correspond to the frame t.
  • ⁇ T represents the transpose of ⁇ .
  • the stochastic matrix P is a matrix of F (number of frames) ⁇ K + 1 (number of symbol entries) (step S108).
  • Voice distributed expression series conversion unit 101 The acoustic feature sequence X is input to the voice distributed expression sequence conversion unit 101.
  • the voice distribution expression sequence conversion unit 101 obtains and outputs an intermediate feature sequence H corresponding to the acoustic feature sequence X when the conversion model parameter ⁇ 1 which is a model parameter is given (step S101).
  • An example of the voice distribution expression sequence conversion unit 101 is a multi-stage neural network, which outputs an intermediate feature sequence H with an acoustic feature sequence X as an input.
  • the processing of the voice-distributed expression sequence conversion unit 101 is performed, for example, according to the equation (17) of Reference 1.
  • LSTM Long short-term memory
  • the intermediate feature amount series H output from the voice distribution expression series conversion unit 101 is input to the label estimation unit 102.
  • the label estimation unit 102 obtains and outputs the label sequence ⁇ L ⁇ 1 , L ⁇ 2 , ..., L ⁇ F ⁇ corresponding to the intermediate feature sequence H when the label estimation model parameter ⁇ 2 is given ( Step S102).
  • the label L ⁇ t is obtained, for example, according to the formula (16) of Reference 1.
  • CTC loss L CTC is obtained, for example, according to the formula (14) of Non-Patent Document 1.
  • ⁇ KLD loss calculation unit 109 The stochastic matrix P output from the stochastic matrix calculation unit 108 and the label series ⁇ L ⁇ 1 , L ⁇ 2 , ..., L ⁇ F ⁇ output from the label estimation unit 102 are input to the KLD loss calculation unit 109. ..
  • the KLD loss calculation unit 109 uses the probability matrix P and the label series ⁇ L ⁇ 1 , L ⁇ 2 , ..., L ⁇ F ⁇ to obtain and output the KLD loss L KLD of the label series for the matrix corresponding to the probability matrix P. (Step S109).
  • KLD loss L KLD is an index showing how much the label series ⁇ L ⁇ 1 , L ⁇ 2 , ..., L ⁇ F ⁇ deviates from the stochastic matrix P.
  • the KLD loss calculation unit 109 obtains and outputs the KLD loss L KLD by, for example, the following equation (2).
  • the KLD loss calculation unit 109 obtains and outputs the KLD loss L KLD by, for example, the following equation (4).
  • the CTC loss L CTC output from the CTC loss calculation unit 103 and the KLD loss L KLD output from the KLD loss calculation unit 109 are input to the loss integration unit 110.
  • the loss integration unit 110 obtains and outputs an integrated loss L CTC + KLD that integrates the CTC loss L CTC and the KLD loss L KLD (step S110).
  • the loss integration unit 110 integrates and outputs according to the following equation (5) using a coefficient ⁇ (however, 0 ⁇ ⁇ ⁇ 1).
  • L CTC + KLD (1- ⁇ ) L KLD + ⁇ L CTC (5)
  • Control unit 111 The integrated loss LCTC + KLD is input to the voice distribution expression sequence conversion unit 101 and the label estimation unit 102.
  • the voice distribution expression sequence conversion unit 101 updates the conversion model parameter ⁇ 1 based on the integrated loss L CTC + KLD
  • the label estimation unit 102 updates the label estimation model parameter ⁇ 2 based on the integrated loss L CTC + KLD . These updates are performed so that the integrated loss LCTC + KLD is small.
  • the control unit 111 causes the voice distribution expression sequence conversion unit 101 whose conversion model parameter ⁇ 1 has been updated to execute the processing of step S101, and causes the label estimation unit 102 whose label estimation model parameter ⁇ 2 has been updated to perform the processing of step S102.
  • the CTC loss calculation unit 103 is made to execute the process of step S103
  • the KLD loss calculation unit 109 is made to execute the process of step S109
  • the loss integration unit 110 is made to execute the process of step S110.
  • the control unit 111 updates the conversion model parameter ⁇ 1 and the label estimation model parameter ⁇ 2 based on the integrated loss LCTC + KLD , and the processing of step S101, the processing of step S102, the processing of step S103, and the step.
  • the process of S109 and the process of step S110 are repeated until the end condition is satisfied.
  • the end condition is not limited, and the number of repetitions may reach the threshold value, the amount of change in the integrated loss LCTC + KLD before and after the repetition may be below the threshold value, or before and after the repetition. It may be that the amount of change in the conversion model parameter ⁇ 1 and the label estimation model parameter ⁇ 2 is equal to or less than the threshold value.
  • the voice distribution expression sequence conversion unit 101 outputs the conversion model parameter ⁇ 1
  • the label estimation unit 102 outputs the label estimation model parameter ⁇ 2 .
  • the label series output from the label estimation unit 102 is used for both the calculation of the CTC loss L CTC by the CTC loss calculation unit 103 and the calculation of the KLD loss L KLD by the KLD loss calculation unit 109.
  • the probability matrix P calculated by the probability matrix calculation unit 108 may include an error.
  • the integrated loss LCTC + KLD is affected by the error of the probability matrix P, and the label estimation model 102 is used by the label estimation unit 102. It can also happen that the parameter ⁇ 2 is not updated properly.
  • the label estimation unit that estimates the label series to be used in the calculation of the CTC loss L CTC in the CTC loss calculation unit 103 and the label series to be used in the calculation of the KLD loss L KLD in the KLD loss calculation unit 109. May be separated from the label estimation unit that estimates. Further, the label estimation model parameter of the label estimation unit that estimates the label series used for the calculation of the KLD loss L KLD that is affected by the error of the stochastic matrix P is changed to the CTC loss L CTC that is not affected by the error of the stochastic matrix P. By updating based on this, the influence of the error of the stochastic matrix P can be suppressed.
  • the differences from the first embodiment will be mainly described, and the matters already described will be omitted.
  • the model learning device 2 of the present embodiment has a voice distribution expression series conversion unit 101, 104, a CTC loss calculation unit 103, a symbol distribution expression conversion unit 105, a caution weight calculation unit 106, and a label estimation unit. It has 102, 107, 202, a probability matrix calculation unit 108, a KLD loss calculation unit 209, a loss integration unit 110, and a control unit 111.
  • the model learning device 2 executes each process based on the control of the control unit 111.
  • ⁇ Label estimation unit 202 >> The intermediate feature amount series H output from the voice distribution expression series conversion unit 101 is input to the label estimation unit 202.
  • the label estimation unit 202 obtains the label sequence ⁇ L ⁇ 1 ', L ⁇ 2 ', ..., L ⁇ F ' ⁇ corresponding to the intermediate feature sequence H when the label estimation model parameter ⁇ 3 is given. Output (step S202).
  • the label L ⁇ t' is obtained, for example, according to equation (16) in reference 1.
  • the KLD loss calculation unit 209 contains a stochastic matrix P output from the stochastic matrix calculation unit 108 and a label series ⁇ L ⁇ 1 ', L ⁇ 2 ', ..., L ⁇ F ' ⁇ output from the label estimation unit 202. Entered.
  • the KLD loss calculation unit 209 uses the probability matrix P and the label series ⁇ L ⁇ 1 ', L ⁇ 2 ', ..., L ⁇ F ' ⁇ to calculate the KLD loss L KLD of the label series for the matrix corresponding to the probability matrix P. Obtain and output (step S209).
  • KLD loss L KLD is an index showing how much the label series ⁇ L ⁇ 1 ', L ⁇ 2 ', ..., L ⁇ F ' ⁇ deviates from the stochastic matrix P.
  • the KLD loss calculation unit 209 obtains and outputs the KLD loss L KLD by, for example, the above equations (2) and (4).
  • the KLD loss L KLD output from the KLD loss calculation unit 209 is input to the loss integration unit 110.
  • the integrated loss LCTC + KLD is input to the voice distribution expression sequence conversion unit 101 and the label estimation unit 102.
  • the voice distribution expression sequence conversion unit 101 updates the conversion model parameter ⁇ 1 based on the integrated loss L CTC + KLD
  • the label estimation unit 102 updates the label estimation model parameter ⁇ 2 based on the integrated loss L CTC + KLD . These updates are performed so that the integrated loss LCTC + KLD is small.
  • the CTC loss L CTC output from the CTC loss calculation unit 103 is input to the label estimation unit 202.
  • the label estimation unit 202 updates the label estimation model parameter ⁇ 3 based on the CTC loss L CTC. This update is performed so that the CTC loss L CTC is reduced.
  • the control unit 111 causes the voice distribution expression sequence conversion unit 101 whose conversion model parameter ⁇ 1 has been updated to execute the processing of step S101, and causes the label estimation unit 102 whose label estimation model parameter ⁇ 2 has been updated to perform the processing of step S102.
  • the label estimation unit 202 whose label estimation model parameter ⁇ 3 has been updated is made to execute the process of step S202, the CTC loss calculation unit 103 is made to execute the process of step S103, and the KLD loss calculation unit 209 is made to execute the process of step S209. Is executed, and the loss integration unit 110 is made to execute the process of step S110.
  • control unit 111 updates the conversion model parameter ⁇ 1 and the label estimation model parameter ⁇ 2 (first label estimation model parameter) based on the integrated loss L CTC + KLD , and the label estimation model parameter based on the CTC loss L CTC.
  • ⁇ 3 (second label estimation model parameter) is updated to perform the processing of step S101, the processing of step S102, the processing of step S103, the processing of step S202, the processing of step S209, and the processing of step S110. Repeat until the end condition is met.
  • the end condition is not limited, and the number of repetitions may reach the threshold value, the amount of change in the integrated loss LCTC + KLD before and after the repetition may be below the threshold value, or before and after the repetition.
  • the voice distribution expression sequence conversion unit 101 outputs the conversion model parameter ⁇ 1
  • the label estimation unit 102 outputs the label estimation model parameter ⁇ 2 .
  • the voice recognition device 3 of the present embodiment has a voice distribution expression sequence conversion unit 301 and a label estimation unit 302.
  • the voice distribution expression series conversion unit 301 is the same as the voice distribution expression series conversion unit 101 described above, except that the conversion model parameter ⁇ 1 output from the model learning device 1 or 2 is input and set.
  • the label estimation unit 302 is the same as the label estimation unit 102 described above, except that the label estimation model parameter ⁇ 2 output from the model learning device 1 or 2 is input and set.
  • the acoustic feature quantity sequence X "to be voice-recognized is input to the voice-distributed expression sequence conversion unit 301 of the voice recognition device 3.
  • the voice-distributed expression sequence conversion unit 301 is in the case where the conversion model parameter ⁇ 1 is given.
  • An intermediate feature sequence H "corresponding to the acoustic feature sequence X" is obtained and output (step S301).
  • the label estimation unit 302 is input with the intermediate feature quantity series H ”output from the speech distribution expression sequence conversion unit 301.
  • the label estimation unit 302 receives the intermediate features when the label estimation model parameter ⁇ 2 is given.
  • the label sequence ⁇ L ⁇ 1 , L ⁇ 2 , ..., L ⁇ F ⁇ corresponding to the quantity sequence H ” is obtained and output as the speech recognition result (step S302).
  • the processing contents of the functions that each device should have are described by a program. Then, by executing this program on a computer, the above processing function is realized on the computer.
  • the program describing the processing content can be recorded on a computer-readable recording medium.
  • An example of a computer-readable recording medium is a non-transitory recording medium. Examples of such a recording medium are a magnetic recording device, an optical disk, a photomagnetic recording medium, a semiconductor memory, and the like.
  • the distribution of this program is performed, for example, by selling, transferring, renting, or the like a portable recording medium such as a DVD or a CD-ROM in which the program is recorded.
  • the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. Then, when the process is executed, the computer reads the program stored in its own storage device and executes the process according to the read program.
  • a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. Each time, the processing according to the received program may be executed sequentially.
  • the above processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition without transferring the program from the server computer to this computer. May be.
  • the program in this embodiment includes information to be used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property of defining the processing of the computer, etc.).
  • the present device is configured by executing a predetermined program on the computer, but at least a part of these processing contents may be realized by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

音響特徴量系列に基づいて、音響特徴量系列に対するn番目のシンボルcの各エントリkの出現確率に対応する要素を持つ出力確率分布ベクトルzと、シンボルcが表れるタイミングに対する音響特徴量系列の各フレームtの関連性の高さ表す注意重みに対応する要素を持つ注意重みベクトルαと、の積の全シンボルcについての総和である確率行列Pを得、モデルパラメータが与えられた場合における、音響特徴量系列に対応するラベル系列を得、音響特徴量系列に対応するシンボル系列およびラベル系列を用い、シンボル系列に対するラベル系列のCTC損失を得、確率行列Pに対応する行列およびラベル系列を用い、確率行列Pに対応する行列に対するラベル系列のKLD損失を得、CTC損失とKLD損失を統合した統合損失に基づいてモデルパラメータを更新し、これらの処理を終了条件が満たされるまで繰り返す。

Description

モデル学習装置、音声認識装置、それらの方法、およびプログラム
 本発明は、音声認識技術のためのモデル学習技術に関する。
 近年のニューラルネットワークを用いた音声認識システムでは音響特徴量系列から単語系列を直接出力することができる。非特許文献1の「3. Connectionist Temporal Classification」および「4. Training the Network」の節には、Connectionist Temporal Classification(CTC)による学習方法を用いて、音声認識モデルを学習する方法が記載されている。非特許文献1の手法では、学習のためにフレームごとの正解ラベル(frame-by-frameの正解ラベル)を準備しておく必要がなく、音響特徴量系列とその全体に対応する正解シンボル系列(frame-by-frameではない正解シンボル系列)があれば、音響特徴量系列に対応するラベル系列を動的に得て音声認識モデルの学習を行うことができる。また、非特許文献1の手法で学習された音声認識モデルを用いた推論処理はフレームごとに行うことができる。そのため、非特許文献1の手法はオンライン動作用の音声認識システムに適している。
 一方、近年ではCTCによる手法よりも性能良く、音響特徴量系列とそれに対応する正解シンボル系列を用いて音声認識モデルを学習するAttention-based modelによる手法も提案されている(例えば、非特許文献2参照)。Attention-based modelによる手法では、直前までのラベル系列に依存して計算された注意重みに基づいて次に出力されるラベルを推定して学習を行う。注意重みは、次に出力されるラベルのタイミングをどのフレームに着目して定めるべきかを示す。すなわち、注意重みは、当該ラベルが表れるタイミングに対する各フレームの関連性の高さ表す。ラベルのタイミングを定めるために着目すべき度合が大きいフレームの要素の値が非常に大きくなり、それ以外の要素の値が小さくなる。これを考慮してラベリングを行うため、非特許文献2に手法を用いて学習される音声認識モデルは性能がよい。しかし、非特許文献2に手法を用いて学習された音声認識モデルを用いた推論処理はフレームごとに行うことできず、オンライン動作が困難である。
 以上のように、非特許文献1の手法はオンライン動作に適しているが推定精度が低い。一方、非特許文献2の手法は推定精度が高いがオンライン動作には不向きである。
 本発明はこのような点に鑑みてなされたものであり、推定精度が高く、オンライン動作に適したモデルを学習する技術に関する。
 上記の課題を解決するために、音響特徴量系列に基づいて、前記音響特徴量系列に対するn番目のシンボルcの各エントリkの出現確率に対応する要素を持つ出力確率分布ベクトルzと、シンボルcが表れるタイミングに対する前記音響特徴量系列の各フレームtの関連性の高さ表す注意重みに対応する要素を持つ注意重みベクトルαと、の積の全シンボルcについての総和である確率行列Pを得、モデルパラメータが与えられた場合における、前記音響特徴量系列に対応するラベル系列を得、前記音響特徴量系列に対応する正解シンボル系列および前記ラベル系列を用い、前記正解シンボル系列に対する前記ラベル系列のCTC損失を得、前記確率行列Pに対応する行列および前記ラベル系列を用い、前記確率行列Pに対応する行列に対する前記ラベル系列のKLD損失を得、前記CTC損失と前記KLD損失を統合した統合損失に基づいて前記モデルパラメータを更新し、これらの処理を終了条件が満たされるまで繰り返す。
 本発明では、注意重みに対応する確率行列Pを考慮するため推定精度が高い。推論処理ではモデルパラメータが与えられた場合における、新たな音響特徴量系列に対応するラベル系列を出力するが、この処理はフレームごとに行うことができる。このように、本発明では、推定精度が高く、オンライン動作に適したモデルを学習することができる。
図1は第1実施形態のモデル学習装置の機能構成を例示したブロック図である。 図2は第1,2実施形態のモデル学習装置のハードウェア構成を例示したブロック図である。 図3は第2実施形態のモデル学習装置の機能構成を例示したブロック図である。 図4は第3実施形態の音声認識装置の機能構成を例示したブロック図である。
 以下、図面を参照して本発明の実施形態を説明する。
 [第1実施形態]
 まず、本発明の第1実施形態を説明する。
 <モデル学習装置1の機能構成>
 図1に例示するように、本実施形態のモデル学習装置1は、音声分散表現系列変換部101,104、CTC損失計算部103、シンボル分散表現変換部105、注意重み計算部106、ラベル推定部102,107、確率行列計算部108、KLD損失計算部109、損失統合部110、および制御部111を有する。ここで、音声分散表現系列変換部101およびラベル推定部102は推定部に相当する。モデル学習装置1は、制御部111の制御に基づいて各処理を実行する。
 <ハードウェアおよび当該ハードウェアとソフトウェアとの協働>
 図2に本実施形態のモデル学習装置1を構成するハードウェアと、当該ハードウェアとソフトウェアとの協働について例示する。この構成は一例であって本発明を限定するものではない。
 図2に例示するように、モデル学習装置1を構成するハードウェアは、CPU(Central Processing Unit)10a、入力部10b、出力部10c、補助記憶装置10d、RAM(Random Access Memory)10f、ROM(Read Only Memory)10e及びバス10gを有している。この例のCPU10aは、制御部10aa、演算部10ab及びレジスタ10acを有し、レジスタ10acに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部10bは、データが入力される入力ポート、キーボード、マウス等であり、出力部10cは、データを出力する出力ポート、ディスプレイ等である。補助記憶装置10dは、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、本実施形態の処理を実行するためのプログラムを格納したプログラム領域10da及び各種データが格納されるデータ領域10dbを有している。また、RAM10fは、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)等であり、プログラムが書き込まれるプログラム領域10fa及び各種データが格納されるデータ領域10fbを有している。また、バス10gは、CPU10a、入力部10b、出力部10c、補助記憶装置10d、RAM10f及びROM10eを通信可能に接続している。
 例えば、CPU10aは、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置10dのプログラム領域10daに格納されているプログラムを、RAM10fのプログラム領域10faに書き込む。同様にCPU10aは、補助記憶装置10dのデータ領域10dbに格納されているデータを、RAM10fのデータ領域10fbに書き込む。そして、このプログラムやデータが書き込まれたRAM10f上のアドレスがCPU10aのレジスタ10acに格納される。CPU10aの制御部10aaは、レジスタ10acに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM10f上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部10abに順次実行させ、その演算結果をレジスタ10acに格納していく。図1に例示したモデル学習装置1は、このようにCPU10aにプログラムが読み込まれて実行されることで構成される。
 <モデル学習装置1の処理>
 モデル学習装置1によるモデル学習処理を説明する。
 モデル学習装置1は、音響特徴量系列Xとそれに対応する正解シンボル系列C={c,c,…,c}とを入力とし、音響特徴量系列Xに対応するラベル系列を生成して出力する装置である。ただし、Nは正整数であり、正解シンボル系列Cに含まれたシンボルの個数を表す。音響特徴量系列Xは、音声などの時系列音響信号から抽出された時系列の音響特徴量の系列である。音響特徴量系列Xの例はベクトルである。正解シンボル系列Cは、音響特徴量系列Xに対応する時系列の音響信号が表す正解シンボルの系列である。正解シンボルの例は、音素、文字、サブワード、単語などである。正解シンボル系列Cの例はベクトルである。正解シンボル系列Cは音響特徴量系列Xに対応するが、正解シンボル系列Cに含まれる各正解シンボルが音響特徴量系列Xのどのフレーム(時点)に対応しているのかは特定されていない。
 ≪音声分散表現系列変換部104≫
 音声分散表現系列変換部104には音響特徴量系列Xが入力される。音声分散表現系列変換部104は、モデルパラメータである変換モデルパラメータλが与えられた場合における、音響特徴量系列Xに対応する中間特徴量系列H’を得て出力する(ステップS104)。音声分散表現系列変換部104の例は、多段のニューラルネットワークであり、音響特徴量系列Xを入力として中間特徴量系列H’を出力する。音声分散表現系列変換部104の変換モデルパラメータλは学習済みであり、事前に設定されている。音声分散表現系列変換部104の処理は、例えば、参考文献1の式(17)に従って行われる。或いは、参考文献1の式(17)に代え、音響特徴量系列XにLSTM(Long short-term memory)を適用して中間特徴量系列H’を得てもよい(参考文献2)。
 参考文献1:Shinji Watanabe , Senior Member, Takaaki Hori, Suyoun Kim, John R. Hershey, and Tomoki Hayashi, "Hybrid CTC/Attention Architecture for End-to-End Speech Recognition", IEEE journal of selected topics in signal processing, vol. 11, No. 8, December 2017.
 参考文献2:Sepp Hochreiter, Jurgen Schmidhuber, "LONG SHORT-TERM MEMORY," Computer Science, MedicinePublished in Neural Computation 1997.
 ≪シンボル分散表現変換部105≫
 シンボル分散表現変換部105には、後述のようにラベル推定部107から出力されたラベルz(ただし、n=1,…,N)が入力される。シンボル分散表現変換部105は、モデルパラメータである文字特徴量推定モデルパラメータλが与えられた場合における、ラベルzに対応する連続値の特徴量である文字特徴量Cに変換して出力する(ステップS105)。nは時系列に並ぶラベルzの順序を表す。シンボル分散表現変換部105の文字特徴量推定モデルパラメータλは学習済みであり、事前に設定されている。文字特徴量Cの例は、ラベルzに対応するシンボルのK+1個のエントリ(1個の冗長シンボル"blank"エントリを含む)に対応する次元の値が零以外の値(例えば正値)で、それ以外の次元の値が零であるone-hotなベクトルである。ただし、Kは正整数であり、シンボルのエントリの総数はK+1である。ラベルzを用いた文字特徴量Cの算出は、例えば、非特許文献2の式(4)によって行われる。
 ≪注意重み計算部106≫
 注意重み計算部106には、音声分散表現系列変換部104から出力された中間特徴量系列H’およびラベル推定部107から出力されたラベルzが入力される。注意重み計算部106は、これらとラベルzの直前のラベルzn-1に対応する注意重みベクトルαn-1とを用い、ラベルzに対応する注意重みベクトルαを得て出力する(ステップS106)。注意重みベクトルαは注意重みを表すF次元ベクトルである。すなわち、注意重みベクトルαは、シンボルcが表れるタイミングに対する音響特徴量系列Xの各フレームt=1,…,Fの関連性の高さ表す注意重みに対応する要素を持つF次元ベクトルである。Fは正整数であり、音響特徴量系列Xの総フレーム数を表す。前述のように、注意重みは次に出力されるラベルのタイミングをどのフレームに着目して定めるべきかを示すものであり、注意重みベクトルαは、ラベルのタイミングを定めるために着目すべき度合が大きいフレームの要素の値が非常に大きくなり、それ以外の要素の値が小さくなる。注意重みベクトルαの算出過程は、例えば、計算過程は非特許文献2の「2 Attention-Based Model for Speech Recognition」「2.1 GeneralFramework」に記載されている。例えば、注意重みベクトルαは、非特許文献2の式(1)-(3)に従って行われる。例えば、注意重みベクトルαの次元数は1×Fである。
 ≪ラベル推定部107≫
 ラベル推定部107には、音声分散表現系列変換部104から出力された中間特徴量系列H’、シンボル分散表現変換部105から出力された文字特徴量C、および、注意重み計算部106から出力された注意重みベクトルαが入力される。ラベル推定部107は、これらを用いて、モデルパラメータであるラベル推定モデルパラメータλが与えられた場合における、n番目(ただし、n=1,…,N)のシンボルcの各エントリk(ただし、k=1,…,K+1)の出現確率に対応する要素を持つ出力確率分布ベクトルzを生成して出力する(ステップS107)。ラベル推定部107のラベル推定モデルパラメータλは学習済みであり、事前に設定されている。出力確率分布ベクトルzの生成は、例えば、非特許文献2の式(2)(3)に従って行われる。
 ≪確率行列計算部108≫
 確率行列計算部108には、ラベル推定部107から出力されたラベルz、および、注意重み計算部106から出力された注意重みベクトルαが入力される。確率行列計算部108は、出力確率分布ベクトルzと、注意重みベクトルαと、の積の全シンボルc(ただし、n=1,…,N)についての総和である確率行列Pを得て出力する。すなわち、確率行列計算部108は、以下の式(1)によって確率行列Pを計算して出力する。
Figure JPOXMLDOC01-appb-M000001
ただし、
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
である。pt,kは確率行列Pのt行k列の要素であり、フレームtおよびエントリkに対応する。zn,kは出力確率分布ベクトルzのk列目の要素であり、エントリkに対応する。αn,tは注意重みベクトルαのt番目の要素であり、フレームtに対応する。βはβの転置を表す。確率行列PはF(フレーム数)×K+1(シンボルのエントリ数)の行列である(ステップS108)。
 ≪音声分散表現系列変換部101≫
 音声分散表現系列変換部101には音響特徴量系列Xが入力される。音声分散表現系列変換部101は、モデルパラメータである変換モデルパラメータγが与えられた場合における、音響特徴量系列Xに対応する中間特徴量系列Hを得て出力する(ステップS101)。音声分散表現系列変換部101の例は、多段のニューラルネットワークであり、音響特徴量系列Xを入力として中間特徴量系列Hを出力する。音声分散表現系列変換部101の処理は、例えば、参考文献1の式(17)に従って行われる。或いは、参考文献1の式(17)に代え、音響特徴量系列XにLSTM(Long short-term memory)を適用して中間特徴量系列Hを得てもよい。
 ≪ラベル推定部102≫
 ラベル推定部102には、音声分散表現系列変換部101から出力された中間特徴量系列Hが入力される。ラベル推定部102は、ラベル推定モデルパラメータγが与えられた場合における、中間特徴量系列Hに対応するラベル系列{L^ ,L^ ,…,L^ }を得て出力する(ステップS102)。ラベル系列{L^ ,L^ ,…,L^ }は各フレームtのラベルL^ の系列である(ただし、t=1,…,F)。ラベルL^ は、フレームtで出力されるシンボルの各エントリkについての出力確率分布yk,tである。前述のように、シンボルのエントリkの総数はK+1個であり、k=1,…,K+1である。ラベルL^ は、例えば、参考文献1の式(16)に従って得られる。
 ≪CTC損失計算部103≫
 CTC損失計算部103には、音響特徴量系列Xに対応する正解シンボル系列C={c,c,…,c}およびラベル推定部102から出力されたラベル系列{L^ ,L^ ,…,L^ }が入力される。CTC損失計算部103は、正解シンボル系列C={c,c,…,c}およびラベル系列{L^ ,L^ ,…,L^ }を用い、正解シンボル系列C={c,c,…,c}に対するラベル系列ラベル系列{L^ ,L^ ,…,L^ }のCTC(Connectionist Temporal Classification)損失LCTCを得て出力する(ステップS103)。CTC損失LCTCは、例えば、非特許文献1の式(14)に従って得られる。
 ≪KLD損失計算部109≫
 KLD損失計算部109には、確率行列計算部108から出力された確率行列Pおよびラベル推定部102から出力されたラベル系列{L^ ,L^ ,…,L^ }が入力される。KLD損失計算部109は、確率行列Pおよびラベル系列{L^ ,L^ ,…,L^ }を用い、確率行列Pに対応する行列に対するラベル系列のKLD損失LKLDを得て出力する(ステップS109)。KLD損失LKLDは、ラベル系列{L^ ,L^ ,…,L^ }が確率行列Pからどの程度ずれているかを表す指標である。KLD損失計算部109は、例えば、以下の式(2)によってKLD損失LKLDを得て出力する。
Figure JPOXMLDOC01-appb-M000005
 また、pt,kの各フレームtでのpt,1,pt,2,…,pt,K+1の和が互いに同一であることが望ましい。例えば、pt,1,pt,2,…,pt,K+1が以下のpt,1’,pt,2’,…,pt,K+1’に正規化されることが望ましい。例えば、以下の式(3)に従ってpt,kがpt,k’に正規化されることが望ましい。
Figure JPOXMLDOC01-appb-M000006
この場合、KLD損失計算部109は、例えば、以下の式(4)によってKLD損失LKLDを得て出力する。
Figure JPOXMLDOC01-appb-M000007
 ≪損失統合部110≫
 損失統合部110には、CTC損失計算部103から出力されたCTC損失LCTCおよびKLD損失計算部109から出力されたKLD損失LKLDが入力される。損失統合部110は、CTC損失LCTCとKLD損失LKLDとを統合した統合損失LCTC+KLDを得て出力する(ステップS110)。例えば、損失統合部110は、係数λ(ただし0≦λ<1)を用いて以下の式(5)によって統合して出力する。
CTC+KLD=(1-λ)LKLD+λLCTC   (5)
 ≪制御部111≫
 統合損失LCTC+KLDは、音声分散表現系列変換部101およびラベル推定部102に入力される。音声分散表現系列変換部101は統合損失LCTC+KLDに基づいて変換モデルパラメータγを更新し、ラベル推定部102は統合損失LCTC+KLDに基づいてラベル推定モデルパラメータγを更新する。これらの更新は統合損失LCTC+KLDが小さくなるように行われる。制御部111は、変換モデルパラメータγが更新された音声分散表現系列変換部101にステップS101の処理を実行させ、ラベル推定モデルパラメータγが更新されたラベル推定部102にステップS102の処理を実行させ、CTC損失計算部103にステップS103の処理を実行させ、KLD損失計算部109にステップS109の処理を実行させ、損失統合部110にステップS110の処理を実行させる。このように制御部111は、統合損失LCTC+KLDに基づいて変換モデルパラメータγおよびラベル推定モデルパラメータγを更新し、ステップS101の処理と、ステップS102の処理と、ステップS103の処理と、ステップS109の処理と、ステップS110の処理とを終了条件が満たされるまで繰り返す。終了条件に限定はなく、繰り返し回数が閾値に達したことであってもよいし、繰り返しの前後で統合損失LCTC+KLDの変化量が閾値以下になったことであってもよいし、繰り返しの前後で変換モデルパラメータγやラベル推定モデルパラメータγの変化量が閾値以下になったことであってもよい。終了条件が満たされた場合、音声分散表現系列変換部101は変換モデルパラメータγを出力し、ラベル推定部102はラベル推定モデルパラメータγを出力する。
 [第2実施形態]
 次に本発明の第2実施形態を説明する。
 第1実施形態では、ラベル推定部102から出力されたラベル系列をCTC損失計算部103でのCTC損失LCTCの計算、およびKLD損失計算部109でのKLD損失LKLDの計算の両方に利用し、ラベル推定部102のラベル推定モデルパラメータγを更新することとした。しかしながら、確率行列計算部108で計算される確率行列Pが誤差を含む場合があり、このような場合、統合損失LCTC+KLDが確率行列Pの誤差の影響を受け、ラベル推定部102でラベル推定モデルパラメータγが適切に更新されない場合も起こり得る。そのため、CTC損失計算部103でのCTC損失LCTCの計算に利用するためのラベル系列を推定するラベル推定部と、KLD損失計算部109でのKLD損失LKLDの計算に利用するためのラベル系列を推定するラベル推定部とを分離してもよい。さらに、確率行列Pの誤差の影響を受けるKLD損失LKLDの計算に利用するラベル系列を推定するラベル推定部のラベル推定モデルパラメータを、確率行列Pの誤差の影響を受けないCTC損失LCTCに基づいて更新することで確率行列Pの誤差の影響を抑制することができる。以下では第1実施形態との相違点を中心に説明し、既に説明した事項については説明を省略する。
 <モデル学習装置2の機能構成>
 図3に例示するように、本実施形態のモデル学習装置2は、音声分散表現系列変換部101,104、CTC損失計算部103、シンボル分散表現変換部105、注意重み計算部106、ラベル推定部102,107,202、確率行列計算部108、KLD損失計算部209、損失統合部110、および制御部111を有する。モデル学習装置2は、制御部111の制御に基づいて各処理を実行する。
 <ハードウェアおよび当該ハードウェアとソフトウェアとの協働>
 第1実施形態と同様であるため説明を省略する。
 <モデル学習装置2の処理>
 モデル学習装置2によるモデル学習処理を説明する。第1実施形態との相違点はラベル推定部202の処理、および、KLD損失計算部109の処理に代えて、ラベル推定部202で生成されたラベル系列が入力されるKLD損失計算部209がKLD損失LKLDを計算する点である。その他の事項は第1実施形態と同じである。以下では、これらの相違点のみを説明する。
 ≪ラベル推定部202≫
 ラベル推定部202には、音声分散表現系列変換部101から出力された中間特徴量系列Hが入力される。ラベル推定部202は、ラベル推定モデルパラメータγが与えられた場合における、中間特徴量系列Hに対応するラベル系列{L^ ’,L^ ’,…,L^ ’}を得て出力する(ステップS202)。ラベル系列{L^ ’,L^ ’,…,L^ ’}は各フレームtのラベルL^ ’の系列である(ただし、t=1,…,F)。ラベルL^ ’は、フレームtで出力されるシンボルの各エントリkについての出力確率分布yk,tである。前述のように、シンボルのエントリkの総数はK+1個であり、k=1,…,K+1である。ラベルL^ ’は、例えば、参考文献1の式(16)に従って得られる。
 ≪KLD損失計算部209≫
 KLD損失計算部209には、確率行列計算部108から出力された確率行列Pおよびラベル推定部202から出力されたラベル系列{L^ ’,L^ ’,…,L^ ’}が入力される。KLD損失計算部209は、確率行列Pおよびラベル系列{L^ ’,L^ ’,…,L^ ’}を用い、確率行列Pに対応する行列に対するラベル系列のKLD損失LKLDを得て出力する(ステップS209)。KLD損失LKLDは、ラベル系列{L^ ’,L^ ’,…,L^ ’}が確率行列Pからどの程度ずれているかを表す指標である。KLD損失計算部209は、例えば、前述の式(2)や式(4)によってKLD損失LKLDを得て出力する。KLD損失計算部209から出力されたKLD損失LKLDは損失統合部110に入力される。
 ≪制御部111≫
 統合損失LCTC+KLDは、音声分散表現系列変換部101およびラベル推定部102に入力される。音声分散表現系列変換部101は統合損失LCTC+KLDに基づいて変換モデルパラメータγを更新し、ラベル推定部102は統合損失LCTC+KLDに基づいてラベル推定モデルパラメータγを更新する。これらの更新は統合損失LCTC+KLDが小さくなるように行われる。さらに、CTC損失計算部103から出力されたCTC損失LCTCはラベル推定部202に入力される。ラベル推定部202は、CTC損失LCTCに基づいてラベル推定モデルパラメータγを更新する。この更新はCTC損失LCTCが小さくなるように行われる。制御部111は、変換モデルパラメータγが更新された音声分散表現系列変換部101にステップS101の処理を実行させ、ラベル推定モデルパラメータγが更新されたラベル推定部102にステップS102の処理を実行させ、ラベル推定モデルパラメータγが更新されたラベル推定部202にステップS202の処理を実行させ、CTC損失計算部103にステップS103の処理を実行させ、KLD損失計算部209にステップS209の処理を実行させ、損失統合部110にステップS110の処理を実行させる。このように制御部111は、統合損失LCTC+KLDに基づいて変換モデルパラメータγおよびラベル推定モデルパラメータγ(第1ラベル推定モデルパラメータ)を更新し、CTC損失LCTCに基づいてラベル推定モデルパラメータγ(第2ラベル推定モデルパラメータ)を更新し、ステップS101の処理と、ステップS102の処理と、ステップS103の処理と、ステップS202の処理と、ステップS209の処理と、ステップS110の処理とを終了条件が満たされるまで繰り返す。終了条件に限定はなく、繰り返し回数が閾値に達したことであってもよいし、繰り返しの前後で統合損失LCTC+KLDの変化量が閾値以下になったことであってもよいし、繰り返しの前後で変換モデルパラメータγやラベル推定モデルパラメータγやラベル推定モデルパラメータγの変化量が閾値以下になったことであってもよい。終了条件が満たされた場合、音声分散表現系列変換部101は変換モデルパラメータγを出力し、ラベル推定部102はラベル推定モデルパラメータγを出力する。
 [第3実施形態]
 次に、本発明の第3実施形態を説明する。本実施形態では、第1または第2実施形態のモデル学習装置1または2から出力された変換モデルパラメータγおよびラベル推定モデルパラメータγを用いて構築される音声認識装置について説明する。
 図4に例示するように、本実施形態の音声認識装置3は、音声分散表現系列変換部301およびラベル推定部302を有する。音声分散表現系列変換部301は、モデル学習装置1または2から出力された変換モデルパラメータγが入力されて設定されている点を除き、前述の音声分散表現系列変換部101と同一である。ラベル推定部302は、モデル学習装置1または2から出力されたラベル推定モデルパラメータγが入力されて設定されている点を除き、前述のラベル推定部102と同一である。
 ≪音声分散表現系列変換部301≫
 音声認識装置3の音声分散表現系列変換部301には、音声認識対象の音響特徴量系列X”が入力される。音声分散表現系列変換部301は、変換モデルパラメータγが与えられた場合における、音響特徴量系列X”に対応する中間特徴量系列H”を得て出力する(ステップS301)。
 ≪ラベル推定部302≫
 ラベル推定部302には、音声分散表現系列変換部301から出力された中間特徴量系列H”が入力される。ラベル推定部302は、ラベル推定モデルパラメータγが与えられた場合における、中間特徴量系列H”に対応するラベル系列{L^ ,L^ ,…,L^ }を音声認識結果として得て出力する(ステップS302)。
 [その他の変形例等]
 なお、本発明は上述の実施の形態に限定されるものではない。例えば、述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
 また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1,2 モデル学習装置
3 音声認識装置

Claims (8)

  1.  音響特徴量系列に基づいて、前記音響特徴量系列に対するn番目のシンボルcの各エントリkの出現確率に対応する要素を持つ出力確率分布ベクトルzと、シンボルcが表れるタイミングに対する前記音響特徴量系列の各フレームtの関連性の高さ表す注意重みに対応する要素を持つ注意重みベクトルαと、の積の全シンボルcについての総和である確率行列Pを得る確率行列計算部と、
     モデルパラメータが与えられた場合における、前記音響特徴量系列に対応するラベル系列を得る推定部と、
     前記音響特徴量系列に対応するシンボル系列および前記ラベル系列を用い、前記シンボル系列に対する前記ラベル系列のCTC損失を得るCTC損失計算部と、
     前記確率行列Pに対応する行列および前記ラベル系列を用い、前記確率行列Pに対応する行列に対する前記ラベル系列のKLD損失を得るKLD損失計算部と、
     前記CTC損失と前記KLD損失を統合した統合損失に基づいて前記モデルパラメータを更新し、前記推定部と前記CTC損失計算部と前記KLD損失計算部との処理を終了条件が満たされるまで繰り返す制御部と、
    を有するモデル学習装置。
  2.  音響特徴量系列に基づいて、前記音響特徴量系列に対するn番目のシンボルcの各エントリkの出現確率に対応する要素を持つ出力確率分布ベクトルzと、シンボルcが表れるタイミングに対する前記音響特徴量系列の各フレームtの関連性の高さ表す注意重みに対応する要素を持つ注意重みベクトルαと、の積の全シンボルcについての総和である確率行列Pを得る確率行列計算部と、
     変換モデルパラメータが与えられた場合における、前記音響特徴量系列に対応する中間特徴量系列を得る音声分散表現系列変換部と、
     第1ラベル推定モデルパラメータが与えられた場合における、前記中間特徴量系列に対応する第1ラベル系列を得る第1ラベル推定部と、
     前記中間特徴量系列および第2ラベル推定モデルパラメータを用い、前記中間特徴量系列および前記第2ラベル推定モデルパラメータに対応する第2ラベル系列を得る第2ラベル推定部と、
     前記音響特徴量系列に対応するシンボル系列および前記第1ラベル系列を用い、前記シンボル系列に対する前記第1ラベル系列のCTC損失を得るCTC損失計算部と、
     前記確率行列Pに対応する行列および前記第2ラベル系列を用い、前記確率行列Pに対応する行列に対する前記第2ラベル系列のKLD損失を得るKLD損失計算部と、
     前記CTC損失と前記KLD損失を統合した統合損失に基づいて前記変換モデルパラメータ、および前記第1ラベル推定モデルパラメータを更新し、前記CTC損失に基づいて前記第2ラベル推定モデルパラメータを更新し、前記音声分散表現系列変換部と前記第1ラベル推定部と前記第2ラベル推定部と前記CTC損失計算部と前記KLD損失計算部との処理を終了条件が満たされるまで繰り返す制御部と、
    を有するモデル学習装置。
  3.  請求項1のモデル学習装置で終了条件を満たした前記モデルパラメータが与えられた場合における、第2音響特徴量系列に対応する第2ラベル系列を得て出力する音声認識装置。
  4.  音響特徴量系列に基づいて、前記音響特徴量系列に対するn番目のシンボルcの各エントリkの出現確率に対応する要素を持つ出力確率分布ベクトルzと、シンボルcが表れるタイミングに対する前記音響特徴量系列の各フレームtの関連性の高さ表す注意重みに対応する要素を持つ注意重みベクトルαと、の積の全シンボルcについての総和である確率行列Pを得る確率行列計算ステップと、
     モデルパラメータが与えられた場合における、前記音響特徴量系列に対応するラベル系列を得る推定ステップと、
     前記音響特徴量系列に対応するシンボル系列および前記ラベル系列を用い、前記シンボル系列に対する前記ラベル系列のCTC損失を得るCTC損失計算ステップと、
     前記確率行列Pに対応する行列および前記ラベル系列を用い、前記確率行列Pに対応する行列に対する前記ラベル系列のKLD損失を得るKLD損失計算ステップと、を有し、
     前記CTC損失と前記KLD損失を統合した統合損失に基づいて前記モデルパラメータを更新し、前記推定ステップと前記CTC損失計算ステップと前記KLD損失計算ステップとの処理を終了条件が満たされるまで繰り返す、モデル学習方法。
  5.  音響特徴量系列に基づいて、前記音響特徴量系列に対するn番目のシンボルcの各エントリkの出現確率に対応する要素を持つ出力確率分布ベクトルzと、シンボルcが表れるタイミングに対する前記音響特徴量系列の各フレームtの関連性の高さ表す注意重みに対応する要素を持つ注意重みベクトルαと、の積の全シンボルcについての総和である確率行列Pを得る確率行列計算ステップと、
     変換モデルパラメータが与えられた場合における、前記音響特徴量系列に対応する中間特徴量系列を得る音声分散表現系列変換ステップと、
     第1ラベル推定モデルパラメータが与えられた場合における、前記中間特徴量系列に対応する第1ラベル系列を得る第1ラベル推定ステップと、
     前記中間特徴量系列および第2ラベル推定モデルパラメータを用い、前記中間特徴量系列および前記第2ラベル推定モデルパラメータに対応する第2ラベル系列を得る第2ラベル推定ステップと、
     前記音響特徴量系列に対応するシンボル系列および前記第1ラベル系列を用い、前記シンボル系列に対する前記第1ラベル系列のCTC損失を得るCTC損失計算ステップと、
     前記確率行列Pに対応する行列および前記第2ラベル系列を用い、前記確率行列Pに対応する行列に対する前記第2ラベル系列のKLD損失を得るKLD損失計算ステップと、を有し、
     前記CTC損失と前記KLD損失を統合した統合損失に基づいて前記変換モデルパラメータ、および前記第1ラベル推定モデルパラメータを更新し、前記CTC損失に基づいて前記第2ラベル推定モデルパラメータを更新し、前記音声分散表現系列変換ステップと前記第1ラベル推定ステップと前記第2ラベル推定ステップと前記CTC損失計算ステップと前記KLD損失計算ステップとの処理を終了条件が満たされるまで繰り返す、モデル学習方法。
  6.  請求項4のモデル学習装置で終了条件を満たした前記モデルパラメータが与えられた場合における、第2音響特徴量系列に対応する第2ラベル系列を得て出力する音声認識方法。
  7.  請求項1または2のモデル学習装置としてコンピュータを機能させるためのプログラム。
  8.  請求項3の音声認識装置としてコンピュータを機能させるためのプログラム。
PCT/JP2019/048079 2019-12-09 2019-12-09 モデル学習装置、音声認識装置、それらの方法、およびプログラム WO2021117089A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/048079 WO2021117089A1 (ja) 2019-12-09 2019-12-09 モデル学習装置、音声認識装置、それらの方法、およびプログラム
US17/783,230 US20230009370A1 (en) 2019-12-09 2019-12-09 Model learning apparatus, voice recognition apparatus, method and program thereof
JP2021563454A JP7298714B2 (ja) 2019-12-09 2019-12-09 モデル学習装置、音声認識装置、それらの方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/048079 WO2021117089A1 (ja) 2019-12-09 2019-12-09 モデル学習装置、音声認識装置、それらの方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2021117089A1 true WO2021117089A1 (ja) 2021-06-17

Family

ID=76329887

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/048079 WO2021117089A1 (ja) 2019-12-09 2019-12-09 モデル学習装置、音声認識装置、それらの方法、およびプログラム

Country Status (3)

Country Link
US (1) US20230009370A1 (ja)
JP (1) JP7298714B2 (ja)
WO (1) WO2021117089A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113990296A (zh) * 2021-12-24 2022-01-28 深圳市友杰智新科技有限公司 语音声学模型的训练方法、后处理方法和相关设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018207390A1 (en) * 2017-05-11 2018-11-15 Mitsubishi Electric Corporation Speech recognition system and method for speech recognition
JP2019159058A (ja) * 2018-03-12 2019-09-19 国立研究開発法人情報通信研究機構 音声認識システム、音声認識方法、学習済モデル

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018207390A1 (en) * 2017-05-11 2018-11-15 Mitsubishi Electric Corporation Speech recognition system and method for speech recognition
JP2019159058A (ja) * 2018-03-12 2019-09-19 国立研究開発法人情報通信研究機構 音声認識システム、音声認識方法、学習済モデル

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MORIYA, TAKAFUMI ET AL.: "Performance Evaluation of Distilling Knowledge Using Encoder-Decoder for CTC-based Automatic Speech Recognition Systems", LECTURE PROCEEDINGS OF THE ACOUSTICAL SOCIETY OF JAPAN, March 2020 (2020-03-01), pages 883 - 886, ISSN: 1880-7658 *
SHINJI WATANABE; HORI TAKAAKI; KIM SUYOUN; HERSHEY JOHN R; HAYASHI TOMOKI: "Hybrid CTC/Attention Architecture for End-to-End Speech Recognition", IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, vol. 11, no. 8, December 2017 (2017-12-01), pages 1240 - 1253, XP055494520, ISSN: 1932-4553, DOI: 10.1109/JSTSP.2017.2763455 *
TAKASHIMA, RYOICHI ET AL.: "Sequence-level Knowledge Distillation for CTC Acoustic models", IPSJ SIG TECHNICAL REPORTS, vol. 2018 -SL, no. 1, October 2018 (2018-10-01), pages 1 - 6, ISSN: 2188-8663 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113990296A (zh) * 2021-12-24 2022-01-28 深圳市友杰智新科技有限公司 语音声学模型的训练方法、后处理方法和相关设备
CN113990296B (zh) * 2021-12-24 2022-05-27 深圳市友杰智新科技有限公司 语音声学模型的训练方法、后处理方法和相关设备

Also Published As

Publication number Publication date
JP7298714B2 (ja) 2023-06-27
JPWO2021117089A1 (ja) 2021-06-17
US20230009370A1 (en) 2023-01-12

Similar Documents

Publication Publication Date Title
US11836451B2 (en) Dialogue state tracking using a global-local encoder
US9870768B2 (en) Subject estimation system for estimating subject of dialog
JP2019528476A (ja) 音声認識方法及び装置
WO2014035738A1 (en) Computer-implemented deep tensor neural network
US11194968B2 (en) Automatized text analysis
JP7070653B2 (ja) 学習装置、音声認識順位推定装置、それらの方法、およびプログラム
US10741184B2 (en) Arithmetic operation apparatus, arithmetic operation method, and computer program product
CN111783873A (zh) 基于增量朴素贝叶斯模型的用户画像方法及装置
CN115345169A (zh) 一种基于知识增强的文本生成模型及其训练方法
JP2019095600A (ja) 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム
US20210073645A1 (en) Learning apparatus and method, and program
WO2021117089A1 (ja) モデル学習装置、音声認識装置、それらの方法、およびプログラム
WO2021147405A1 (zh) 客服语句质检方法及相关设备
WO2020162240A1 (ja) 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
CN118246505A (zh) 大语言模型的训练方法及装置
CN117746140A (zh) 基于提示词微调和特征重放的小样本类增量图像分类方法
WO2020241071A1 (ja) データ生成モデル学習装置、データ生成装置、データ生成モデル学習方法、データ生成方法、プログラム
JP7452661B2 (ja) 学習装置、音声認識装置、学習方法、音声認識方法、学習プログラム及び音声認識プログラム
JP7211103B2 (ja) 系列ラベリング装置、系列ラベリング方法、およびプログラム
WO2023017568A1 (ja) 学習装置、推定装置、学習方法、およびプログラム
WO2022044243A1 (ja) 学習装置、推論装置、それらの方法、およびプログラム
JP7327647B2 (ja) 発話生成装置、発話生成方法、プログラム
WO2021157062A1 (ja) 量子化ビット数拡張のための学習装置、信号推定装置、学習方法、信号推定方法、およびプログラム
WO2020044755A1 (ja) 音声認識装置、音声認識方法、及びプログラム
WO2020255299A1 (ja) 異常度推定装置、異常度推定方法、プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19956035

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021563454

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19956035

Country of ref document: EP

Kind code of ref document: A1