WO2016190077A1 - 音声認識装置及びコンピュータプログラム - Google Patents

音声認識装置及びコンピュータプログラム Download PDF

Info

Publication number
WO2016190077A1
WO2016190077A1 PCT/JP2016/063818 JP2016063818W WO2016190077A1 WO 2016190077 A1 WO2016190077 A1 WO 2016190077A1 JP 2016063818 W JP2016063818 W JP 2016063818W WO 2016190077 A1 WO2016190077 A1 WO 2016190077A1
Authority
WO
WIPO (PCT)
Prior art keywords
probability
state
speech recognition
sequence
speech
Prior art date
Application number
PCT/JP2016/063818
Other languages
English (en)
French (fr)
Inventor
直之 神田
Original Assignee
国立研究開発法人情報通信研究機構
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立研究開発法人情報通信研究機構 filed Critical 国立研究開発法人情報通信研究機構
Priority to CN201680029440.7A priority Critical patent/CN107615376B/zh
Priority to EP16799785.7A priority patent/EP3300075A4/en
Priority to US15/575,512 priority patent/US10607602B2/en
Publication of WO2016190077A1 publication Critical patent/WO2016190077A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • the present invention relates to a speech recognition device, and more particularly to a speech recognition device that performs highly accurate speech recognition using a neural network and a computer program thereof.
  • voice input / output is also used to operate a mobile phone.
  • speech input / output the recognition accuracy of the speech recognition device that forms the basis of the input / output needs to be as high as possible.
  • a general technique for speech recognition uses a model obtained by statistical machine learning.
  • HMM Hidden Markov Model
  • a word pronunciation dictionary for calculating the probability that a character string generated in the process of speech recognition can be obtained from the state string of the HMM, and a probability that a word string in a certain language will appear
  • a language model or the like for calculating whether to do is also used.
  • the conventional speech recognition apparatus calculates a feature value such as a mel frequency cepstrum coefficient from each frame by a framing processing unit that frames the speech signal, and generates a multi-dimensional feature vector sequence.
  • a feature amount generating unit, and a decoder that uses the feature amount vector sequence and outputs a word string having the highest likelihood of giving the feature amount sequence using an acoustic model and a language model as a speech recognition result.
  • the output probability and state transition probability from each state of the HMM constituting the acoustic model play an important role. All of these are obtained by machine learning.
  • the output probability is calculated by a Gaussian mixture model obtained by learning.
  • the word string 30 (word string W) is observed as an observation sequence 36 (observation sequence X) through various noise effects, and the likelihood of giving the final observation sequence X is the highest.
  • a word string is output as a result of speech recognition.
  • P (W) the probability that the word string W is generated is represented by P (W).
  • W) be the probability that an HMM state sequence S (state sequence 34) is generated from the word sequence W via the pronunciation sequence 32, which is an intermediate product.
  • the probability that the observation X is obtained from the state series S is represented by P (X
  • the first item of the numerator of this formula can be obtained by HMM as follows.
  • the state sequence S 1: T indicates the state sequence S 1 ,..., S T of the HMM.
  • the first term on the right side of Equation (3) indicates the output probability of the HMM.
  • S 1: T ) of the HMM in the equation (4) can be calculated by the following equation.
  • s t ) is calculated by a Gaussian mixture model (GMM).
  • Equation (4) P (S 1: T
  • the denominator P (X 1: T ) is a common value for each hypothesis and can therefore be ignored when performing the arg max operation.
  • RNN recurrent neural network
  • Non-Patent Document 1 reports that an RNN that has been learned by a learning method improved from the error back-propagation method has improved accuracy by 4 to 7% compared to the prior art using a sigmoid discriminant function.
  • the performance improvement of the RNN disclosed in Non-Patent Document 1 is a comparison with a DNN of a smaller scale, and it is not clear what results can be obtained by a comparison with a DNN of the same scale.
  • not only RNN but also DNN is more preferable if the accuracy can be improved by the same method.
  • an object of the present invention is to provide a speech recognition device that can improve speech recognition accuracy by utilizing the characteristics of a neural network.
  • the speech recognition apparatus calculates a posterior probability of a state sequence for each state sequence when an observation sequence including a predetermined speech feature amount obtained from a speech signal is given.
  • the second posterior probability calculating means includes the occurrence probability of the word string based on the language model, the state transition probability of the HMM constituting the acoustic model, and the occurrence probability of the state series calculated by the first posterior probability calculating means. Means for calculating a posteriori probability for each hypothesis of the word string corresponding to the speech signal may be included.
  • each state constituting the state series is an HMM state constituting the acoustic model.
  • the first posterior probability calculating means uses an observation sequence as an input, a learned neural network to calculate a posterior probability of a state that generates the observation sequence, and a sequence of posterior probabilities calculated by the neural network. And a first probability calculating means for calculating a probability that the state series will occur.
  • the neural network is RNN or DNN.
  • the computer program according to the second aspect of the present invention causes a computer to function as all the means of any of the speech recognition apparatuses described above.
  • DNN 70 includes an input layer 72 and an output layer 78, and a plurality of hidden layers 74 and 76 provided between input layer 72 and output layer 78.
  • Each layer has a plurality of nodes.
  • the number of nodes in each layer is the same, five, but these numbers usually vary.
  • Adjacent nodes are coupled to each other. However, data flows only in one direction from the input layer side to the output layer side.
  • Each combination is assigned a weight and a bias. These weights and biases are learned by an error back propagation method using learning data.
  • the state estimated value S t is output from the output layer 78.
  • the number of nodes in the output layer 78 is often designed to match the number of phonemes in the target language.
  • each node has an input speech feature value as the node. Indicates the probability of the phoneme represented by. Therefore, when the predicted state value output from each node of the output layer 78 is added, it becomes 1.
  • FIG. 4 shows the relationship between RNN 100 (t ⁇ 1) at time t ⁇ 1, RNN 100 (t) at time t, and RNN (t + 1) at time t + 1.
  • each node in the hidden layer of RNN 100 (t) receives its own output of RNN 100 (t ⁇ 1) as well as each node in the input layer. That is, the RNN 100 can generate an output for a time series of input voice feature values.
  • DNN What is obtained by DNN is P (S t
  • X 1 ,..., X t ) What is calculated by the RNN is P (St
  • P (x t ) is common to the states of each HMM and can therefore be ignored in the arg max operation.
  • P (s t ) can be estimated by counting the number of each state in the aligned learning data.
  • X t ) is divided by the probability P (S t ) to obtain the recognition score using DNN in the framework using the conventional HMM. I will be calculating.
  • the output of the RNN is a posterior probability P (S t
  • P (S t ) the probability of the RNN.
  • Figure 5 shows such a new framework.
  • the present embodiment relates to an apparatus for performing speech recognition along this framework.
  • the output of the RNN is the posterior probability P (S t
  • the concept of performing speech recognition utilizing such characteristics of RNN is adopted.
  • the probability of state sequence 34 is obtained from observation sequence 36 (observation sequence X), and the probability of word sequence W30 is obtained from each state sequence 34 via phonetic sequence 32.
  • the word string W30 having the maximum probability is output as the speech recognition result.
  • the probability of obtaining the state sequence S 1: T from the observation sequence 36 (observation sequence X 1: T ) is P (S 1: T
  • the word string to W of the speech recognition result for the observation sequence X 1: T is obtained by the following equation, which is also shown in FIG.
  • the first half of this equation means that speech recognition is performed by obtaining the word string to W having the maximum probability when the feature quantity X 1: T is observed.
  • X 1: T ) of the word string W is the probability P (S 1: T
  • S 1: T ) which is an item indicated by reference numeral 122 in FIG. 6, can be calculated by the following equation (8).
  • the numerator is an equation that has been derived from equation (4) of the conventional method, and can be calculated in the same manner as in the past.
  • the denominator is the language probability of the state series S 1: T and can be approximated by the following equation (9). Using this equation, P (S 1: T ) can be calculated using an N-gram language model.
  • X 1: T ) that is an item indicated by reference numeral 120 in FIG. 6 can be approximated as follows.
  • the first half of the above formula is strictly established according to Bayes' law.
  • the approximation in the latter half assumes that the state S t does not depend on the future observation sequence X (t + 1): T. But usually can not be approximated as this, this approximation is established and assumes that the future of the observation sequence to the observed value X t has been fully reflected. For this reason, when learning this probability, a large feature vector generated by connecting consecutive feature vectors (for example, a vector at the target time and a vector before and after the target vector) including vectors after the target time is used. Use or shift the label attached to the observation series backward. In the present embodiment, a combination of a vector at a target time point and a vector before and after the target point is used, and a label further shifted backward is used.
  • the output of DNN at each time t is represented by probability P (S t ). While the recognition score is calculated by dividing by each time, in the method according to the present embodiment, as shown in the following equation (12), the output (product) of the RNN for a certain hypothesis Is divided by the probability P (S 1: t ) to calculate a hypothesis recognition score.
  • the recognition score of each hypothesis is calculated using a value obtained by dividing the output of the RNN by P (S 1: T ).
  • the output of RNN is obtained at each time point, but all other values can be calculated based on prior learning.
  • the output of the RNN is directly used, and it is not necessary to forcefully convert the output of the DNN to the output format of the HMM as in the conventional DNN-HMM hybrid system. Such a method is called a direct decoding method here.
  • the speech recognition apparatus uses the RNN as an acoustic model and adopts a direct decoding method using the output.
  • speech recognition apparatus 280 has a function of performing speech recognition on input speech 282 and outputting it as speech recognition text 284.
  • the voice recognition device 280 performs analog / digital (A / D) conversion on the input voice 282 and outputs it as a digital signal, and the digitized signal output from the A / D conversion circuit 300 By performing a predetermined acoustic process on each frame output from the framing processing unit 302 and a framing processing unit 302 that frames the audio signal so as to partially overlap with a predetermined length and a predetermined shift amount, And a feature quantity extraction unit 304 that extracts a speech feature quantity of the frame and outputs a feature quantity vector.
  • MFCC Mel-Frequency Cepstrum Coefficient
  • the speech recognition apparatus 280 further receives a feature quantity storage unit 306 for temporarily storing the feature quantity vector output from the feature quantity extraction unit 304 and a feature quantity vector stored in the feature quantity storage unit 306 as input, at each time point.
  • An acoustic model 308 composed of an RNN that outputs a vector indicating the posterior probability corresponding to a certain phoneme for each frame, and a vector output from the acoustic model 308, and an input speech by a WFST (weighted finite state transducer)
  • adopted the acoustic model 308 which consists of RNN and the point which uses WFST previously comprised according to the direct decoding system as a speech recognition decoder differ.
  • the speech recognition decoder 310 calculates the probability of occurrence of a plurality of hypotheses (word strings) using the posterior probability of the state sequence calculated by the acoustic model based on S ⁇ 1 HCLG, and outputs as a recognition score WFST 320 and WFST 320. And a hypothesis selection unit 322 that outputs the hypothesis having the highest probability as the speech recognition text 284 based on the recognition score calculated by the above.
  • a finite automaton is known as a model of a state transition machine.
  • a finite automaton is a concept that forms the basis of computational theory, and as one type, a state transition is performed based on a predetermined rule for an input symbol string, and the input symbol string is converted according to the result of the state transition. There is something that decides whether to accept or not.
  • the WFST is derived from such an automaton, and is a conversion machine that accepts a symbol string, makes a state transition, and outputs another symbol string at the same time.
  • WFST can be represented as a graph composed of nodes and arcs connecting the nodes. Nodes represent states and arcs represent state transitions. Each arc is given an input symbol and an output symbol.
  • the concept of probability can be expressed by adding more weight to each arc.
  • a hypothesis is generated by following each arc from the root node, and the occurrence probability of the hypothesis can be calculated by multiplying the weight (probability) assigned to the arc.
  • the HMM, word pronunciation dictionary, and language model can all be represented by WFST.
  • triphone HMMs based on phonemes have been used to represent phoneme contexts, which can also be represented by WFST.
  • the word pronunciation dictionary is a WFST that converts a phoneme string into a word string, and is used to obtain a vocabulary.
  • the language model is, for example, a trigram language model, which is a WFST that outputs an output word string that is the same as an input word string, and represents the grammar of the language.
  • the WFST has an operation called composition.
  • the decoder 310 is a decoder that uses WFST that has been learned and synthesized in advance.
  • the WFST used here is a graph constructed in advance based on knowledge about the language, and uses a knowledge source called HCLG.
  • HCLG is a synthesis of four WFSTs (H, C, L, G). H represents HMM, C represents context, L represents vocabulary, and G represents grammar.
  • the WFST of the speech recognition decoder is further combined with a WFST for performing division (P (S 1: T ) ⁇ 1 ) by P (S 1: T ) described above.
  • This WFST is a WFST from the state sequence of the HMM to the state sequence from the HMM, and P (S t
  • the number of nodes in the input layer of the RNN constituting the acoustic model 308 matches the number of elements in the feature vector.
  • the number of nodes in the output layer of the RNN matches the number of phonemes assumed in the language handled by the speech recognition apparatus 280. That is, each node represents each state of the acoustic model by the HMM. To each node in the output layer, a probability that a voice input at a certain time is a phoneme represented by the node is output. Therefore, the output of the acoustic model 308 is a vector whose element is the probability that the input speech at that time is a phoneme represented by each node.
  • the decoder 310 based on S ⁇ 1 HCLG calculates the probability of a phoneme sequence for each element of the vector output from the acoustic model 308 by the WFST 320 based on S ⁇ 1 HCLG, and traces the WFST graph while pruning appropriately.
  • the recognition score including hypothesis and probability calculation is calculated by going.
  • the hypothesis selection unit 322 finally outputs a word string having the highest recognition score (high occurrence probability) as the speech recognition text 284.
  • the WFST 320 calculates the recognition score while directly using the output of the RNN. Unlike the conventional DNN-HMM framework, it is not necessary to convert the output of the RNN in accordance with the output format of the HMM, and the recognition efficiency can be increased.
  • the embodiment described above relates to a direct decoding speech recognition apparatus using RNN instead of the DNN-HMM hybrid system. According to the experimental results, it was found that the speech recognition method based on the direct decoding method shows the same or better performance with a smaller configuration than the DNN-HMM hybrid method.
  • the speech recognition apparatus 280 can be realized by computer hardware and a computer program executed on the computer hardware.
  • FIG. 8 shows the external appearance of the computer system 330
  • FIG. 9 shows the internal configuration of the computer system 330.
  • this computer system 330 includes a computer 340 having a memory port 352 and a DVD (Digital Versatile Disc) drive 350, a keyboard 346, a mouse 348, and a monitor 342.
  • DVD Digital Versatile Disc
  • the computer 340 in addition to the memory port 352 and the DVD drive 350, includes a CPU (Central Processing Unit) 356, a bus 366 connected to the CPU 356, the memory port 352, and the DVD drive 350, and a boot program.
  • the computer system 330 further includes a network interface (I / F) 344 that provides a connection to a network 368 that allows communication with other terminals.
  • I / F network interface
  • a computer program for causing the computer system 330 to function as each function unit of the speech recognition apparatus 280 according to the above-described embodiment is stored in the DVD 362 or the removable memory 364 attached to the DVD drive 350 or the memory port 352, and further the hard disk 354.
  • the program may be transmitted to the computer 340 through the network 368 and stored in the hard disk 354.
  • the program is loaded into the RAM 360 when executed.
  • the program may be loaded directly from the DVD 362 to the RAM 360 from the removable memory 364 or via the network 368.
  • This program includes an instruction sequence including a plurality of instructions for causing the computer 340 to function as each functional unit of the speech recognition apparatus 280 according to the above embodiment.
  • Some of the basic functions necessary to cause the computer 340 to perform this operation are an operating system or a third party program running on the computer 340 or various dynamically linkable programming toolkits or programs installed on the computer 340 Provided by the library. Therefore, this program itself does not necessarily include all the functions necessary for realizing the system, apparatus, and method of this embodiment.
  • the program is a system as described above by dynamically calling an appropriate program in an appropriate function or programming toolkit or program library in a controlled manner to obtain a desired result among instructions, It is only necessary to include an instruction for realizing a function as an apparatus or a method. Of course, all necessary functions may be provided only by the program.
  • the present invention can be used for the construction and operation of artificial intelligence using RNN, and in particular, to the manufacturing industry of devices that provide complex functions with high accuracy, such as speech recognition, and the industry that provides services that use such functions. Available.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

【課題】ニューラルネットワークの特性を活かして、認識精度を高めることができる音声認識装置を提供する 【解決手段】音声認識装置は、音声信号から得られた所定の音声特徴量からなる観測系列が与えられたときの状態系列の事後確率を状態系列ごとに算出するRNN(リカレント型ニューラルネットワーク)による音響モデル308と、状態系列が与えられたときの単語列の事後確率を各単語列について算出するS-1HCLGによるWFST320と、入力観測系列について音響モデル308及びWFST320がそれぞれ算出する事後確率を用いて、音声信号に対応する単語列の仮説ごとに算出されたスコアに基づいて、音声信号に対する音声認識を行うための仮説選択部322とを含む。

Description

音声認識装置及びコンピュータプログラム
 この発明は音声認識装置に関し、特に、ニューラルネットワークを用いて高精度な音声認識を行う音声認識装置及びそのコンピュータプログラムに関する。
 人間とコンピュータとのインターフェイスとして音声による入出力を用いる装置及びサービスが増えている。例えば携帯電話の操作にも音声による入出力が利用されている。音声による入出力では、その基盤をなす音声認識装置の認識精度はできるだけ高くする必要がある。
 音声認識として一般的な技術は統計的機械学習により得られたモデルを用いる。例えば音響モデルとしてはHMM(隠れマルコフモデル)が使用される。また、音声認識の過程で生成される文字列が、HMMの状態列からどの程度の確率で得られるかを算出するための単語発音辞書、及び、ある言語の単語列がどの程度の確率で出現するかを算出するための言語モデル等も使用される。
 こうした処理を行うために、従来の音声認識装置は、音声信号をフレーム化するフレーム化処理部と、各フレームからメル周波数ケプストラム係数等の特徴量を算出し、多次元の特徴量ベクトルの系列を生成する特徴量生成部と、この特徴量ベクトルの系列を用い、音響モデルと言語モデルとを用いてその特徴量ベクトルの系列を与える尤度が最も高い単語列を音声認識結果として出力するデコーダを含む。尤度計算では、音響モデルを構成するHMMの各状態からの出力確率と状態遷移確率とが重要な役割を果たす。これらはいずれも機械学習により得られる。出力確率は学習により得たガウス混合モデルにより算出される。
 従来の音声認識装置における音声認識の基本的考え方を図1を参照して説明する。従来は、単語列30(単語列W)が様々なノイズの影響を経て観測系列36(観測系列X)として観測されると考え、最終的な観測系列Xを与える尤度が最も高くなるような単語列を音声認識の結果として出力する。この過程では、単語列Wが生成される確率をP(W)で表す。その単語列Wから、中間生成物である発音列32を経てHMMの状態系列S(状態系列34)が生成される確率をP(S|W)とする。さらに状態系列Sから観測Xが得られる確率をP(X|S)で表す。
 音声認識の過程では、図2の第1式に示されるように、先頭から時刻Tまでの観測系列X1:Tが与えられたときに、そのような観測系列を与える尤度が最大となるような単語列が音声認識の結果として出力される。すなわち、音声認識の結果の単語列Wは次の式により求められる。なお、数式において文字の直上に記されている記号「~」は、明細書では文字の直前に記載している。
Figure JPOXMLDOC01-appb-M000001
この式の右辺をベイズの式により変形すると次が得られる。
Figure JPOXMLDOC01-appb-M000002
 さらにこの式の分子の第1項目はHMMにより次のように求めることができる。
Figure JPOXMLDOC01-appb-M000003
この式で状態系列S1:TはHMMの状態系列S,…,Sを示す。式(3)の右辺の第1項はHMMの出力確率を示す。式(1)~式(3)より、音声認識の結果の単語列~Wは次の式で求められる。
Figure JPOXMLDOC01-appb-M000004
 HMMでは、時刻tにおける観測値xは状態sにしか依存しない。したがって、式(4)における、HMMの出力確率P(X1:T|S1:T)は次の式によって算出できる。
Figure JPOXMLDOC01-appb-M000005
確率P(x|s)は、ガウス混合モデル(GMM)により算出される。
 式(4)の他の項のうち、P(S1:T|W)はHMMの状態遷移確率と単語の発音確率との積により算出され、P(W)は言語モデルにより算出される。分母のP(X1:T)は各仮説について共通する値であり、したがってarg max演算の実行時には無視できる。
 最近、HMMにおける出力確率を、GMMではなくディープニューラルネットワーク(DNN)により算出するという、DNN―HMMハイブリッド方式と呼ばれるフレームワークについて研究がされている。DNN―HMMハイブリッド方式により、GMMを用いた音響モデルより高い精度が達成され、注目されている。その際、元来はDNNの出力は事後確率P(S|X)を表すため、そのままでは、出力確率P(X|S)を用いるHMMを用いた従来の枠組みに適合しない。この問題を解決するため、DNNの出力する事後確率P(S|X)に対してベイズの法則を適用し、出力確率P(X|S)を用いる形に変形して用いている。
C. Weng, D. Yu, S. Watanabe, and B.-H. F. Juang, "Recurrent deep neural networks for robust speech recognition," in Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014, pp. 5532-5536.
 最近、音響モデルに適用するニューラルネットワークとして、リカレント型ニューラルネットワーク(RNN)が注目されている。RNNとは、入力層側から出力層側への一方向のノード間の結合だけではなく、出力側の層から、隣接する入力側の層へのノード間の結合、同じ層内のノード間の結合、及び自己帰還結合等を含む構造のニューラルネットワークである。この構造のため、RNNは時間に依存する情報を表すことができるという、通常のニューラルネットワークにはない性格を備えている。音声は、時間に依存する情報としては典型的である。したがってRNNは音響モデルに適していると考えられる。
 しかし、従来の研究では、RNNを用いた音声認識装置の性能はあまり高くない。非特許文献1には、誤差逆伝搬法を改良した学習方法で学習を行ったRNNにより、シグモイド型判別関数を用いて従来より4~7%の精度の向上が得られたと報告されている。しかし非特許文献1に開示されたRNNの性能向上は、より小さな規模のDNNとの比較であり、同程度の規模のDNNとの比較ではどのような結果が得られるかが明らかでない。一方、RNNにかぎらず、DNNについても同様の手法で精度を高めることができるとより好ましい。
 それ故に本発明の目的は、ニューラルネットワークの特性を活かして、音声認識精度を高めることができる音声認識装置を提供することである。
 本発明の第1の局面に係る音声認識装置は、音声信号から得られた所定の音声特徴量からなる観測系列が与えられたときの状態系列の事後確率を状態系列ごとに算出する第1の事後確率算出手段と、状態系列が与えられたときの単語列の事後確率を各単語列について算出する第2の事後確率算出手段と、入力観測系列について第1の事後確率算出手段及び第2の事後確率算出手段がそれぞれ算出する事後確率を用いて、音声信号に対応する単語列の仮説ごとに算出されたスコアに基づいて、音声信号に対する音声認識を行うための手段とを含む。
 第2の事後確率算出手段は、言語モデルによる単語列の生起確率と、音響モデルを構成するHMMの状態遷移確率と、第1の事後確率算出手段により算出される状態系列の生起確率とにより、音声信号に対応する単語列の各仮説について事後確率を算出するための手段を含んでもよい。
 好ましくは、状態系列を構成する各状態は、音響モデルを構成するHMMの状態である。
 より好ましくは、第1の事後確率算出手段は、観測系列を入力として、当該観測系列を生ずる状態の事後確率を算出するよう学習済のニューラルネットワークと、ニューラルネットワークにより算出された事後確率の系列により、状態系列が生起する確率を算出するための第1の確率算出手段とを含む。
 さらに好ましくは、ニューラルネットワークはRNN、又はDNNである。
 本発明の第2の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの音声認識装置の全ての手段として機能させる。
従来の音声認識の考え方を示す図である。 従来の音声認識の基本をなす数式を示す図である。 通常のDNNの構成を模式的に示す図である。 RNNの構成と、異なる時刻のRNNのノード間の結合の例を模式的に示す図である。 本発明の1実施の形態における音声認識の考え方を示す図である。 本発明の1実施の形態における音声認識の基本をなす数式を示す図である。 本発明の1実施の形態に係る音声認識装置の構成を示すブロック図である。 本発明の1実施の形態に係る音声認識装置を実現するコンピュータの外観を示す図である。 図8に示すコンピュータのハードウェア構成を示すブロック図である。
 以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。
 最初に、DNNとRNNとの相違について説明する。図3を参照して、DNN70は、入力層72及び出力層78と、入力層72と出力層78との間に設けられた複数の隠れ層74及び76とを含む。この例では隠れ層は2層のみ示したが、隠れ層の数は2には限定されない。各層は複数個のノードを持つ。図3では各層におけるノード数はいずれも5個で同じであるが、これらの数は通常は様々である。隣り合うノード間は互いに結合されている。ただし、データは入力層側から出力層側へと一方向にしか流れない。各結合には重み及びバイアスが割り当てられている。これら重み及びバイアスは、学習データを用いた誤差逆伝搬法により学習される。
 DNN70においては、時刻tにおいて入力層72に時刻tにおける音声特徴量Xが与えられると、出力層78から状態予測値Sが出力される。音響モデルの場合、出力層78のノード数は、対象となる言語の音素の数と一致するよう設計されることが多く、その場合には、各ノードは、入力された音声特徴量がそのノードの表す音素である確率を示す。したがって、出力層78の各ノードの出力する状態予測値を加算すると1になる。
 一方、RNNの構成の例を図4に示す。図4は、時刻t-1におけるRNN100(t-1)と、時刻tにおけるRNN100(t)と、時刻t+1におけるRNN(t+1)の間の関係を示す。この例では、RNN100(t)の隠れ層内の各ノードは、入力層の各ノードだけではなく、RNN100(t-1)の自分自身の出力を受けている。すなわち、RNN100は入力される音声特徴量の時系列に対する出力を生成できる。
 DNNにより求められるものは、P(S|X)である。すなわち、時刻tに特徴量Xを観測したときの、HMMの状態Sの確率である。HMMの状態Sは音素に対応する。一方、RNNにより求められるものは、P(St|X,…、X)である。すなわち、観測系列X1:tを観測したときのHMMの状態Sの確率である。
 これを式(5)と比較すると、DNNの場合、その出力をそのまま式(5)に適用することができないことが分かる。そのため、従来は、以下に示すようにベイズの法則を用いてDNNの出力をP(Xt|St)に変換している。
Figure JPOXMLDOC01-appb-M000006
式(6)において、P(x)は各HMMの状態に共通であり、したがってarg max演算では無視できる。P(s)はアライメントされた学習データにおいて各状態の数を数えることで推定できる。
 結局、DNN―HMMハイブリッド方式の場合、DNNの出力P(S|X)を確率P(S)で割ることにより、従来のHMMを用いた枠組みの中でDNNを用いて認識スコアを計算していることになる。
 一方、DNNに代えてRNNを利用すれば、音声の時系列の情報を音声認識に活かすことができ、精度を高めることが期待できる。しかし、従来のDNN―HMMハイブリッド方式においてDNNを単純にRNNに置き換える試みは、一部を除いてDNNより精度が低い結果しかもたらさないことが知られている。非特許文献1のようにDNNを用いた場合より精度を高めることができたという報告もあるが、RNNより規模の小さなDNNと比較する等しており、RNNを使用したために精度が高くなったということはできない。このようにRNNで精度が高くできないのは、以下の様な理由によると考えられる。
 観測系列X1:tが与えられた場合のRNNの出力は状態に関する事後確率P(S|X1:t)となる。DNN―HMMハイブリッド方式と同様にこの出力を確率P(S)で割ると、次の式(7)に示すように、本来必要なP(Xt|St)(上記式(6)の左辺で表される)ではなく、P(X1:t|S)が求まってしまう。
Figure JPOXMLDOC01-appb-M000007
P(X1:t|S)はP(X|S)に比例するわけではないので、式(5)に用いることはできない。時刻tにおける状態Sとそれ以前の観測系列X1:tとの間には強い依存関係があるためである。このスコア自体は豊富な情報を含むが、HMMの枠組みでは扱いきれない。
 このような原因により、RNNの場合には、DNN―HMMハイブリッド方式と同じ枠組みでスコアを計算しようとしても精度が低くなってしまうと考えられる。
 そこで、RNNの特徴を活かして精度の高い音声認識を行うためには、DNN―HMMハイブリッド方式以外の枠組みを用いることが必要である。図5に、そのような新しい枠組みについて示す。本実施の形態はこの枠組に沿って音声認識を行う装置に関する。前述したとおり、RNNの出力は事後確率P(S|X1:t)である。本実施の形態では、このようなRNNの特性を活かして音声認識を行う考え方を採用する。
 図5を参照して、本実施の形態では、観測系列36(観測系列X)から状態系列34の確率を求め、さらに各状態列34から発音列32を経て単語列W30の確率を求め、最終的に確率が最大となる単語列W30を音声認識結果として出力する。観測系列36(観測系列X1:T)から状態系列S1:Tが得られる確率はP(S1:T|X1:T)であり、状態系列S1:Tから単語列Wが得られる確率はP(W|S1:T)である。すなわち、図6にも示される、以下の式によって観測系列X1:Tに対する音声認識結果の単語列~Wが得られる。
Figure JPOXMLDOC01-appb-M000008
 この式の前半は、特徴量X1:Tを観測したときに確率最大となる単語列~Wを求めることで音声認識が行われることを意味する。式の後半は、単語列Wの確率P(W|X1:T)が、特徴量Xから状態系列S1:Tが生成される確率P(S1:T|X1:T)と、状態系列S1:Tから単語列Wが生成される確率P(W|S1:T)の積で求められることを意味する。
 この式中で、図6に参照符号122で示される項目であるP(W|S1:T)は以下の式(8)により計算できる。
Figure JPOXMLDOC01-appb-M000009
式(8)のうち、分子は従来の手法の式(4)でも出てきた式であり、従来と同様に計算できる。分母は状態系列S1:Tの言語確率であり、次の式(9)により近似できる。この式を用いれば、P(S1:T)はNグラム言語モデルを用いて計算できる。
Figure JPOXMLDOC01-appb-M000010
 一方、図6の参照符号120により示される項目であるP(S1:T|X1:T)は、次のように近似できる。
Figure JPOXMLDOC01-appb-M000011
上式の前半はベイズ則にしたがって厳密に成立するものである。後半の近似は、状態Sが未来の観測系列X(t+1):Tに依存しないことを想定している。通常このように近似することはできないが、観測値Xに未来の観測系列が十分に反映されていることを前提とするとこの近似が成立する。そのためにこの確率の学習時には、対象となる時点より後の時点のベクトルを含む、連続する特徴量ベクトル(例えば対象時点のベクトルと、その前後のベクトル)をつなぎあわせて生成した大きな特徴量ベクトルを利用したり、観測系列に付されているラベルを後ろにずらしたりする。本実施の形態では、対象時点のベクトルとその前後のベクトルとを結合したものを用い、さらにラベルを後ろにずらしたものを用いている。
 この最後の式はさらに、次のように近似できる。
Figure JPOXMLDOC01-appb-M000012
 この変形では、事後確率P(S|S1:t-1,X1:t)がRNNの出力する確率P(S|X1:t)で十分に近似できることを想定している。これは必ずしもSとS1:t-1とが独立であることを前提としているわけではない。両者の間に強い依存関係があったとしても、RNNが観測系列X1:tから状態Stを算出するだけの十分な能力がありさえすれば、この近似が成立する。実際のところ、理論的に考えるとこの近似は非常に粗い近似であるが、後述するように、シミュレーションでは、この方法によって音声認識の精度を高めることができた。
 図6に示す式、並びに式(8)~式(10)をまとめると、結局、従来法では、式(6)に示されるように、各時刻tにおけるDNNの出力を確率P(S)で割ることを各時刻で行うことにより、認識スコアを算出するのに対し、本実施の形態に係る手法では、次の式(12)に示すように、ある仮説に関するRNNの出力(の積)を、確率P(S1:t)で割ることにより仮説の認識スコアを算出する。
Figure JPOXMLDOC01-appb-M000013
すなわち、RNNの出力をP(S1:T)で割って得た値を用いて各仮説の認識スコアを算出していることになる。式(12)において、RNNの出力は各時点で得られるが他の値は全て事前の学習に基づいて算出できる。この計算ではRNNの出力が直接的に用いられており、従来のDNN―HMMハイブリッド方式のようにDNNの出力を無理にHMMの出力形式に変換する必要はない。このような方式をここでは直接デコード方式と呼ぶ。
 なお、式(9)による近似に代えて、他の近似を採用する事もできる。例えば次のような粗い近似を用いる事もできる。
Figure JPOXMLDOC01-appb-M000014
又は、次のような近似を用いる事もできる。
Figure JPOXMLDOC01-appb-M000015
この他にも近似の方法は種々考えられる。
 本実施の形態に係る音声認識装置は、上記したように、RNNを音響モデルとして利用し、その出力を用いた直接デコード方式を採用している。
 図7を参照して、この本実施の形態に係る音声認識装置280は、入力音声282に対する音声認識を行って、音声認識テキスト284として出力する機能を持つ。音声認識装置280は、入力音声282に対してアナログ/デジタル(A/D)変換を行ってデジタル信号として出力するA/D変換回路300と、A/D変換回路300の出力するデジタル化された音声信号を、所定長及び所定シフト量で一部重複するようにフレーム化するフレーム化処理部302と、フレーム化処理部302の出力する各フレームに対して所定の音響処理を行うことにより、そのフレームの音声特徴量を抽出し特徴量ベクトルを出力する特徴量抽出部304とを含む。各フレーム及び特徴量ベクトルには、入力音声282の例えば先頭に対する相対時刻等の情報が付されている。特徴量としては、MFCC(Mel-Frequency Cepstrum Coefficient:メル周波数ケプストラム係数)、その一次微分、二次微分、及びパワー等が用いられる。
 音声認識装置280はさらに、特徴量抽出部304が出力する特徴量ベクトルを一時記憶するための特徴量記憶部306と、特徴量記憶部306に記憶された特徴量ベクトルを入力として、各時刻における各フレームがある音素に対応する事後確率を音素ごとに示すベクトルを出力する、RNNからなる音響モデル308と、音響モデル308の出力するベクトルを用いて、WFST(重み付き有限状態トランスデューサ)により入力音声282に対応する音声認識テキスト284として最も確率の高い単語列を出力するための、後述するように本明細書においてS-1HCLGと名づけたWFSTによるデコーダ310とを含む。RNNからなる音響モデル308を採用した点と、音声認識デコーダとして直接デコード方式にしたがって予め構成したWFSTを用いる点が従来と異なる。
 音声認識デコーダ310は、S-1HCLGによる、音響モデルにより算出された状態系列の事後確率を用いて、複数の仮説(単語列)の生起する確率を算出し認識スコアとして出力するWFST320と、WFST320により算出された認識スコアに基づき、最も確率の高い仮説を音声認識テキスト284として出力する仮説選択部322とを含む。
 WFSTによる音声認識とは以下の様なものである。状態遷移機械のモデルとして、有限オートマトンが知られている。有限オートマトンは計算理論の基礎をなす概念であり、その一種に、入力される記号列に対して予め定められている規則に基づく状態遷移を行い、状態遷移の結果により、入力された記号列を受理するか否かを決定するものがある。WFSTはそうしたオートマトンから派生したものであり、ある記号列を受理して状態遷移を行い、同時に別の記号列を出力する変換機械である。WFSTはノードとノード間を結ぶアークとからなるグラフとして表すことができる。ノードは状態を表し、アークは状態遷移を表す。各アークには入力記号と出力記号とが付与される。各アークにさらに重みを付加することで、確率という概念を表すことができる。ルートノードから各アークをたどっていくことで仮説が生成され、それらのアークに割り当てられた重み(確率)を乗算することでその仮説の生起確率が計算できる。
 音声認識では種々のモデルが用いられる。HMM、単語発音辞書及び言語モデルはいずれもWFSTで表すことができる。さらに近年では、音素の文脈を表すために音素単位によるトライフォンHMMが利用されており、これもWFSTで表すことができる。単語発音辞書は、音素列を単語列に変換するWFSTであり、語彙を求めるために使用する。言語モデルは例えばトライグラムの言語モデルであり、入力単語列と同一の出力単語列を出力するWFSTであって、言語の文法を表す。
 WFSTには、合成という演算が存在する。2つのWFSTを合成することにより、2つのWFSTを段階的に適用する処理を1回の合成後WFSTで行うことができる。したがって、上記したHMM,単語発音辞書、言語モデル及びトライフォンHMMのWFSTの組合せを合成して1つのWFSTにすることができる。デコーダ310は、そのように予め学習を行い合成されたWFSTを用いるデコーダである。ここで使用するWFSTは、言語に関する知識により予め構築されるグラフであり、HCLGと呼ばれる知識源を用いる。HCLGは、4つのWFST(H,C,L,G)の合成である。HはHMMを、Cは文脈を、Lは語彙を、Gは文法を、それぞれ表す。本実施の形態の音声認識デコーダのWFSTはさらに、上記したP(S1:T)による除算(P(S1:T-1)をするためのWFSTが合成して組み込まれている。このWFSTは、HMMの状態系列からHMMへの状態系列へのWFSTであり、各アークには、P(S1:T-1を近似したP(S|S(t-N+1):(t-1)-1が付与されている。したがってこのWFSTをここでは「S-1HCLG」と略記する。
 本実施の形態に係る音響モデル308を構成するRNNの入力層のノードの数は、特徴量ベクトルの要素の数と一致する。RNNの出力層のノードの数は、音声認識装置280が扱う言語で想定される音素の数と一致する。すなわち、各ノードは、HMMによる音響モデルの各状態を表す。出力層の各ノードには、ある時刻で入力された音声が、そのノードの表す音素である確率が出力される。したがって音響モデル308の出力は、その時刻での入力音声が、各ノードの表す音素である確率を要素とするベクトルである。
 S-1HCLGによるデコーダ310は、音響モデル308が出力するベクトルの各要素について、前記したS-1HCLGによるWFST320によって音素列の確率計算をし、適宜枝刈りを行いながらWFSTのグラフをたどっていくことにより仮説と確率計算を含めた認識スコアの計算をする。仮説選択部322が、最終的に最も認識スコアが高い(生起確率の高い)単語列を音声認識テキスト284として出力する。この際、WFST320はRNNの出力を直接使いながら認識スコアを計算する。従来のDNN―HMMフレームワークのようにHMMの出力形式にあわせてRNNの出力を変換することが不要であり、認識の効率を高めることができる。
 [実験1]
 上記実施の形態に係る、RNNを用いた直接デコード方式の効果を確認するために、DNNを用いた従来方式、RNNを用いた従来方式、及び上記実施の形態に係る、RNNを用いた直接デコード方式とについて同じ学習データを用いて学習し、同じテストデータを用いて単語誤り率を調べた。その結果を次のテーブル1に示す。
Figure JPOXMLDOC01-appb-T000016
 テーブル1から明らかなように、上記実施の形態による直接デコード方式を用いると、パラメータ数7MのRNNでもパラメータ数35Mの従来手法のもの以上の性能を発揮する。またRNNを用いた直接デコード方式では、少なくとも実験した範囲では、パラメータ数を増やすことにより認識性能を高められることも分かる。
 [実施の形態の効果]
 上記実施の形態は、DNN―HMMハイブリッド方式に代えて、RNNを用いた直接デコード方式の音声認識装置に関するものである。実験結果によれば、直接デコード方式の音声認識手法の方が、DNN―HMMハイブリッド方式よりも小さな構成で同等以上の性能を示すことがわかった。
 [コンピュータによる実現]
 本発明の実施の形態に係る音声認識装置280は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図8はこのコンピュータシステム330の外観を示し、図9はコンピュータシステム330の内部構成を示す。
 図8を参照して、このコンピュータシステム330は、メモリポート352及びDVD(Digital Versatile Disc)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
 図9を参照して、コンピュータ340は、メモリポート352及びDVDドライブ350に加えて、CPU(中央処理装置)356と、CPU356、メモリポート352及びDVDドライブ350に接続されたバス366と、ブートプログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するランダムアクセスメモリ(RAM)360と、ハードディスク354を含む。コンピュータシステム330はさらに、他端末との通信を可能とするネットワーク368への接続を提供するネットワークインターフェイス(I/F)344を含む。
 コンピュータシステム330を上記した実施の形態に係る音声認識装置280の各機能部として機能させるためのコンピュータプログラムは、DVDドライブ350又はメモリポート352に装着されるDVD362又はリムーバブルメモリ364に記憶され、さらにハードディスク354に転送される。又は、プログラムはネットワーク368を通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。DVD362から、リムーバブルメモリ364から又はネットワーク368を介して、直接にRAM360にプログラムをロードしてもよい。
 このプログラムは、コンピュータ340を、上記実施の形態に係る音声認識装置280の各機能部として機能させるための複数の命令からなる命令列を含む。コンピュータ340にこの動作を行わせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム若しくはサードパーティのプログラム又はコンピュータ340にインストールされる、ダイナミックリンク可能な各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム、装置及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット又はプログラムライブラリ内の適切なプログラムを実行時に動的に呼出すことにより、上記したシステム、装置又は方法としての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供してもよい。
 今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
 本発明は、RNNを用いた人工知能の構築及び動作に利用でき、特に、音声認識等の、複雑な機能を高精度で提供する装置の製造産業及びそうした機能を利用するサービスを提供する産業に利用できる。
30 単語列
32 発音列
34 状態系列
36 観測系列
70 DNN
72 入力層
74,76 隠れ層
78 出力層
100 RNN
280 音声認識装置
282 入力音声
284 音声認識テキスト
300 A/D変換回路
302 フレーム化処理部
304 特徴量抽出部
306 特徴量記憶部
308 音響モデル
310 デコーダ
320 S-1HCLGによるWFST
330 コンピュータシステム
340 コンピュータ
354 ハードディスク
356 CPU
358 ROM
360 RAM

Claims (6)

  1. 音声信号から得られた所定の音声特徴量からなる観測系列が与えられたときの状態系列の事後確率を状態系列ごとに算出する第1の事後確率算出手段と、
     状態系列が与えられたときの単語列の事後確率を各単語列について算出する第2の事後確率算出手段と、
     入力観測系列について前記第1の事後確率算出手段及び前記第2の事後確率算出手段がそれぞれ算出する事後確率を用いて、前記音声信号に対応する単語列の仮説ごとに算出されたスコアに基づいて、前記音声信号に対する音声認識を行うための手段とを含む、音声認識装置。
  2. 前記第2の事後確率算出手段は、言語モデルによる単語列の生起確率と、音響モデルを構成する隠れマルコフモデルの状態遷移確率と、前記第1の事後確率算出手段により算出される状態系列の生起確率とにより、前記音声信号に対応する単語列の各仮説について事後確率を算出するための手段を含む、請求項1に記載の音声認識装置。
  3. 前記状態系列の各状態は、音響モデルを構成する隠れマルコフモデルの状態である、請求項1又は請求項2に記載の音声認識装置。
  4. 前記第1の事後確率算出手段は、
     前記観測系列を入力として、当該観測系列を生ずる状態の事後確率を算出するよう学習済のニューラルネットワークと、
     前記ニューラルネットワークにより算出された事後確率の系列により、前記状態系列を生ずる確率を算出するための第1の確率算出手段とを含む、請求項1~請求項3のいずれかに記載の音声認識装置。
  5. 前記ニューラルネットワークはリカレント型ニューラルネットワークである、請求項4に記載の音声認識装置。
  6. コンピュータを、請求項1~請求項5のいずれかに記載の全ての手段として機能させる、コンピュータプログラム。
PCT/JP2016/063818 2015-05-22 2016-05-10 音声認識装置及びコンピュータプログラム WO2016190077A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201680029440.7A CN107615376B (zh) 2015-05-22 2016-05-10 声音识别装置及计算机程序记录介质
EP16799785.7A EP3300075A4 (en) 2015-05-22 2016-05-10 Speech recognition device and computer program
US15/575,512 US10607602B2 (en) 2015-05-22 2016-05-10 Speech recognition device and computer program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-104336 2015-05-22
JP2015104336A JP6614639B2 (ja) 2015-05-22 2015-05-22 音声認識装置及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
WO2016190077A1 true WO2016190077A1 (ja) 2016-12-01

Family

ID=57393215

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/063818 WO2016190077A1 (ja) 2015-05-22 2016-05-10 音声認識装置及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US10607602B2 (ja)
EP (1) EP3300075A4 (ja)
JP (1) JP6614639B2 (ja)
CN (1) CN107615376B (ja)
WO (1) WO2016190077A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6614639B2 (ja) 2015-05-22 2019-12-04 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
JP6727607B2 (ja) 2016-06-09 2020-07-22 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
KR20180080446A (ko) * 2017-01-04 2018-07-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
JP6728083B2 (ja) * 2017-02-08 2020-07-22 日本電信電話株式会社 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム
US11024302B2 (en) * 2017-03-14 2021-06-01 Texas Instruments Incorporated Quality feedback on user-recorded keywords for automatic speech recognition systems
JP6699945B2 (ja) * 2017-04-17 2020-05-27 日本電信電話株式会社 音響モデル学習装置、その方法、及びプログラム
WO2020039571A1 (ja) * 2018-08-24 2020-02-27 三菱電機株式会社 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム
JP7063779B2 (ja) * 2018-08-31 2022-05-09 国立大学法人京都大学 音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法
US11694062B2 (en) 2018-09-27 2023-07-04 Nec Corporation Recurrent neural networks having a probabilistic state component and state machines extracted from the recurrent neural networks
TWI698857B (zh) * 2018-11-21 2020-07-11 財團法人工業技術研究院 語音辨識系統及其方法、與電腦程式產品
WO2020136948A1 (ja) * 2018-12-26 2020-07-02 日本電信電話株式会社 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
CN113707135B (zh) * 2021-10-27 2021-12-31 成都启英泰伦科技有限公司 一种高精度连续语音识别的声学模型训练方法
CN114267337B (zh) * 2022-03-02 2022-07-19 合肥讯飞数码科技有限公司 一种语音识别系统及实现前向运算的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009080309A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2996926B2 (ja) * 1997-03-11 2000-01-11 株式会社エイ・ティ・アール音声翻訳通信研究所 音素シンボルの事後確率演算装置及び音声認識装置
US6397179B2 (en) * 1997-12-24 2002-05-28 Nortel Networks Limited Search optimization system and method for continuous speech recognition
US8972253B2 (en) * 2010-09-15 2015-03-03 Microsoft Technology Licensing, Llc Deep belief network for large vocabulary continuous speech recognition
US8442821B1 (en) * 2012-07-27 2013-05-14 Google Inc. Multi-frame prediction for hybrid neural network/hidden Markov models
US9431008B2 (en) * 2013-05-29 2016-08-30 Nuance Communications, Inc. Multiple parallel dialogs in smart phone applications
US10438581B2 (en) * 2013-07-31 2019-10-08 Google Llc Speech recognition using neural networks
US10867597B2 (en) * 2013-09-02 2020-12-15 Microsoft Technology Licensing, Llc Assignment of semantic labels to a sequence of words using neural network architectures
CN103578464B (zh) * 2013-10-18 2017-01-11 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
US9412365B2 (en) * 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9378731B2 (en) * 2014-09-25 2016-06-28 Google Inc. Acoustic model training corpus selection
US9824684B2 (en) * 2014-11-13 2017-11-21 Microsoft Technology Licensing, Llc Prediction-based sequence recognition
CN104575490B (zh) * 2014-12-30 2017-11-07 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
JP6628350B2 (ja) * 2015-05-11 2020-01-08 国立研究開発法人情報通信研究機構 リカレント型ニューラルネットワークの学習方法及びそのためのコンピュータプログラム、並びに音声認識装置
JP6614639B2 (ja) 2015-05-22 2019-12-04 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
KR102371188B1 (ko) 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009080309A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ALEX GRAVES ET AL.: "Towards End-to-End Speech Recognition with Recurrent Neural Networks", PROC. ICML 2014, 21 June 2014 (2014-06-21), pages 1764 - 1772, XP055332356 *
GEORGE E. DAHL ET AL.: "Context-Dependent Pre- Trained Deep Neural Net works for Large- Vocabulary Speech Recognition", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 20, no. 1, January 2012 (2012-01-01), pages 30 - 42, XP011476706 *
See also references of EP3300075A4 *
STEVE RENALS ET AL.: "Connectionist Probability Estimators in HMM Speech Recognition", IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, vol. 2, no. 1, January 1994 (1994-01-01), pages 161 - 174, XP000421462 *
TATSUYA KAWAHARA: "Onsei Ninshiki no Hohoron ni Kansuru Kosatsu-Sedai Kotai ni Mukete", IPSJ SIG NOTES, vol. 2014 -SL, no. 3, 24 January 2014 (2014-01-24), pages 1 - 5, XP009507555 *
YOTARO KUBO ET AL.: "Integrating Deep Neural Networks into Structured Classification Approach based on Weighted Finite-State Transducers", PROC. INTERSPEECH 2012, 9 September 2012 (2012-09-09), pages 2594 - 2597, XP055332357 *

Also Published As

Publication number Publication date
JP2016218309A (ja) 2016-12-22
EP3300075A1 (en) 2018-03-28
CN107615376A (zh) 2018-01-19
JP6614639B2 (ja) 2019-12-04
CN107615376B (zh) 2021-05-25
EP3300075A4 (en) 2019-01-02
US20180204566A1 (en) 2018-07-19
US10607602B2 (en) 2020-03-31

Similar Documents

Publication Publication Date Title
JP6614639B2 (ja) 音声認識装置及びコンピュータプログラム
JP6727607B2 (ja) 音声認識装置及びコンピュータプログラム
US8762142B2 (en) Multi-stage speech recognition apparatus and method
JP6437581B2 (ja) 話者適応型の音声認識
WO2018066436A1 (ja) 音響モデルの学習装置及びそのためのコンピュータプログラム
Kanda et al. Maximum a posteriori Based Decoding for CTC Acoustic Models.
JPH06110493A (ja) 音声モデルの構成方法及び音声認識装置
JP6580882B2 (ja) 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
JP5249967B2 (ja) 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム
AU2018271242A1 (en) Method and system for real-time keyword spotting for speech analytics
JP7192882B2 (ja) 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP4861912B2 (ja) 知識源を組込むための確率計算装置及びコンピュータプログラム
JP2004109590A (ja) 音響モデル作成方法および音声認識装置
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
JP2018013722A (ja) 音響モデル最適化装置及びそのためのコンピュータプログラム
JP2008064849A (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP2005156593A (ja) 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
JP2018013721A (ja) 音声合成パラメータ生成装置及びそのためのコンピュータプログラム
Kumar et al. Speech Recognition Using Hmm and Combinations: A Review
JP4678464B2 (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
Casar et al. Double layer architectures for automatic speech recognition using HMM
JPH04318600A (ja) 音声認識方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16799785

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 15575512

Country of ref document: US