WO2017213055A1

WO2017213055A1 - 音声認識装置及びコンピュータプログラム

Info

Publication number: WO2017213055A1
Application number: PCT/JP2017/020689
Authority: WO
Inventors: 直之神田
Original assignee: 国立研究開発法人情報通信研究機構
Priority date: 2016-06-09
Filing date: 2017-06-02
Publication date: 2017-12-14
Also published as: JP2017219769A; US10909976B2; US20190139540A1; JP6727607B2

Abstract

【課題】ニューラルネットワークの特性を活かして、音声認識精度を高めることができる音声認識装置を提供する。【解決手段】音声認識装置２８０は、入力音声２８２から特徴量抽出部３０４により得られた音声特徴量からなる観測系列が与えられたときに、当該観測系列があるシンボル系列である確率を算出するための、End-to-End型ニューラルネットワークに基づく音響モデル３０８と、シンボル系列候補が与えられたときに、当該シンボル系列候補に対する単語列の事後確率、観測系列に基づいて選択される複数のシンボル系列について、音響モデル３０８により算出される確率、及び、複数のシンボル系列の各々に対して算出される事後確率に基づいたＷＦＳＴ３２０により音声信号をデコードするデコーダ３１０とを含む。

Description

音声認識装置及びコンピュータプログラム

　この発明は音声認識装置に関し、特に、ニューラルネットワークを用いて高精度な音声認識を行う音声認識装置及びそのコンピュータプログラムに関する。

　人間とコンピュータとのインターフェイスとして音声による入出力を用いる装置及びサービスが増えている。例えば携帯電話の操作にも音声による入出力が利用されている。音声による入出力では、その基盤をなす音声認識装置の認識精度はできるだけ高くする必要がある。

　音声認識として一般的な技術は統計的機械学習により得られたモデルを用いる。例えば音響モデルとしてはHMM（隠れマルコフモデル）が使用されることが多い。また、音声認識の過程で生成される文字列から、音素系列がどの程度の確率で得られるかを算出するための単語発音辞書、及び、ある言語の単語列がどの程度の確率で出現するかを算出するための言語モデル等も使用される。

　こうした処理を行うために、従来の音声認識装置は、音声信号をフレーム化するフレーム化処理部と、各フレームからメル周波数ケプストラム係数等の特徴量を算出し、多次元の特徴量ベクトルの系列を生成する特徴量生成部と、この特徴量ベクトルの系列を用い、音響モデルと言語モデルとを用いてその特徴量ベクトルの系列を与える尤度が最も高い単語列を音声認識結果として出力するデコーダを含む。尤度計算では、音響モデルを構成するHMMの各状態からの出力確率と状態遷移確率とが重要な役割を果たす。これらはいずれも機械学習により得られる。出力確率は学習により得たガウス混合モデルにより算出される。

　従来のHMMを用いた音声認識装置における音声認識の基本的考え方について図１を参照して説明する。従来は、単語列３０（単語列Ｗ）が様々なノイズの影響を経て入力系列３６（観測系列Ｘ）として観測されると考え、最終的な観測系列Ｘを与える尤度が最も高くなるような単語列を音声認識の結果として出力する。この過程では、単語列Ｗが生成される確率をＰ（Ｗ）で表す。その単語列Ｗから、中間生成物である発音列３２を経てHMMの状態系列Ｓ（状態系列３４）が生成される確率をＰ（Ｓ｜Ｗ）とする。さらに状態系列Ｓから観測系列Ｘが得られる確率をＰ（Ｘ｜Ｓ）で表す。

　音声認識の過程では、先頭から時刻Tまでの観測系列Ｘ_１：Ｔが与えられたときに、そのような観測系列を与える尤度が最大となるような単語列が音声認識の結果として出力される。すなわち、音声認識の結果の単語列^～Ｗは次の式１により求められる。なお、数式において文字の直上に記されている記号「^～」は、明細書中では文字の直前に記載している。

　この式の右辺をベイズの式により変形すると次が得られる。

　さらにこの式の分子の第１項目はHMMにより次のように求めることができる。

　この式で状態系列Ｓ_１：ＴはHMMの状態系列Ｓ_１，…，Ｓ_Ｔを示す。式（３）の右辺の第１項はHMMの出力確率を示す。式（１）～式（３）より、音声認識の結果の単語列^～Ｗは次の式で求められる。

　HMMでは、時刻ｔにおける観測値ｘ_ｔは状態ｓ_ｔにしか依存しない。したがって、式（４）における、HMMの出力確率Ｐ（Ｘ_１：Ｔ｜Ｓ_１：Ｔ）は次の式によって算出できる。

　確率Ｐ（ｘ_ｔ｜ｓ_ｔ）は、ガウス混合モデル（GMM）により算出される。

　式（４）の他の項のうち、Ｐ（Ｓ_１：Ｔ｜Ｗ）はHMMの状態遷移確率と単語の発音確率との積により算出され、Ｐ（Ｗ）は言語モデルにより算出される。分母のＰ（Ｘ_１：Ｔ）は各仮説について共通する値であり、したがってarg　max演算の実行時には無視できる。

　最近、HMMにおける出力確率を、GMMではなくディープニューラルネットワーク（DNN）により算出するという、DNN-HMMハイブリッド方式と呼ばれるフレームワークについて研究がされている。DNN-HMMハイブリッド方式により、GMMを用いた音響モデルより高い精度が達成され、注目されている。その際、DNNの出力は事後確率Ｐ（Ｓ_ｔ｜Ｘ_ｔ）を表すため、そのままでは、出力確率Ｐ（Ｘ_ｔ｜Ｓ_ｔ）を用いるHMMを用いた従来の枠組みに適合しない。この問題を解決するため、DNNの出力する事後確率Ｐ（Ｓ_ｔ｜Ｘ_ｔ）に対してベイズの法則を適用し、出力確率Ｐ（Ｘ_ｔ｜Ｓ_ｔ）を用いる形に変形して用いている。

　さらに、DNN-HMMハイブリッド方式が優れた結果をもたらしていることから、DNNに替えて畳み込みニューラルネットワーク（CNN）、リカレント型ニューラルネットワーク（RNN）、又はロングショートタームメモリネットワーク（LSTM）等を用いる方式が提案されている。これら方式により音声認識の精度がより高くなることが期待できる。しかし、DNN-HMMハイブリッド方式では、ニューラルネットワークの出力が事後確率であるため、ベイズの法則を適用して無理に式（５）に適合するようニューラルネットワークの出力を変形して用いる必要がある。このような変形を用いないような音声認識方式が実現できれば、さらなる精度の向上が期待できる。

Y.　Miao,　M.　Gowayyed,　and　F.　Metze,　"EESEN:　End-to-end　speech　recognition　using　deep　RNN　models　and　WFST-based　decoding,"　in　Proc.　ASRU,　2015,　pp.　167-174. Dzmitry　Bahdanau,　Jan　Chorowski,　Dmitriy　Serdyuk,　Philemon　Brakel　and　Yoshua　Bengio,　"End-to-end　attention-based　large　vocabulary　speech　recognition",　in　Proc.　ICASSP,　2016,　pp　4945-4949.

　最近、音声認識のための音響モデルとして、End-to-End型のニューラルネットワーク（NN）を用いることが提案されている（非特許文献１）。End-to-End型NNとは、観測（音声特徴量）系列Ｘに対するシンボル系列(発音記号列など)ｓの事後確率Ｐ（ｓ｜Ｘ）を、HMM等を介さずに直接表現する。したがって、DNN－HMMハイブリッドのような無理な変形を行うことなく音声認識に適用できる可能性がある。End-to-End型NNについては実施の形態に関連して後述するが、ここでは従来の方式の問題点について述べるために、End-to-End型NNで一般に利用されるEnd-to-End型RNNによる音声認識の考え方を説明する。なお、本発明はEnd-to-End型NN全般に対して適用可能なものであり、必ずしもRNNに限定されるものではない。

　RNNは、入力層側から出力層側への一方向のノード間の結合だけではなく、出力側の層から、隣接する入力側の層へのノード間の結合、同じ層内のノード間の結合、及び自己帰還結合等を含む構造を持つ。この構造のため、RNNは時間に依存する情報を表すことができるという、通常のニューラルネットワークにはない性格を備えている。音声は、時間に依存する情報としては典型的である。したがってRNNは音響モデルに適していると考えられる。

　End-to-End型RNNの出力するラベルは、例えば音素又は音節等の任意のサブワードである。しかし、原理的にはサブワードに限らず、文字又はHMMの状態等を示すものでもよい。End-to-End型RNNは、音響モデルにHMMを用いた場合と比較して、ニューラルネットワークの出力を無理に変形する必要がないと考えられるので、認識精度の向上が期待できる。

　End-to-End型RNNは、前述したとおり、入力される観測系列Ｘからサブワード系列ｓへの直接的なマッピングを学習する。End-to-End型RNNの代表例はConnectionist Temporal Classification (CTC) と呼ばれるモデルである。CTCでは、観測系列Ｘは通常サブワード系列ｓよりも遥かに長いので、その長さの相違を吸収するためにRNNの出力に空ラベルφを追加する。すなわち、出力層に空ラベルφに対応するノードを設ける。この結果、RNNの出力にはフレーム単位のサブワード系列ｃ＝｛ｃ_１,...,ｃ_Ｔ｝（空ラベルφを含む。）が得られる。このサブワード系列ｃをマッピング関数Φと呼ばれる関数によりフレーム数に依存しないサブワード系列ｓに変換する。マッピング関数Φは、フレーム単位のサブワード系列ｃから空ラベルφを削除し、さらにラベルの繰返しを１出力とみなすことでフレーム数に依存しないサブワード系列ｓを出力する。マッピング関数Φを用いることで、以下のように観測系列Ｘがサブワード系列ｓである確率Ｐ（ｓ｜Ｘ）を定式化できる。

　ここで、ｙ_ｔ ^ｃｔは、時刻ＴにおけるRNNの出力ラベルｃ_ｔに対する出力スコアである。Φ^－１はマッピング関数Φの逆関数である。すなわち、Φ^－１（ｓ）は、マッピング関数Φによりサブワード系列ｓにマッピングされうる全ての音素系列ｃの集合を表す。

　End-to-End型NNは観測系列Ｘがサブワード系列ｓを表す確率Ｐ（ｓ｜Ｘ）をニューラルネットワークで直接学習している点が特徴である。CTC以外の方式として、非特許文献２ではAttention-based　Recurrent　Sequence　Generatorと呼ばれるモデルで表現している。

　End-to-End型NNは、HMMと異なり、観測系列Ｘがサブワード系列ｓを表す確率Ｐ（ｓ｜Ｘ）を直接学習しているため、従来のHMMを用いたデコード方式を採用できない。このNNはまた、音響モデルと言語モデルとの双方の性格を持つ。そのために当初は言語モデルを用いずにNNのみを用いてデコードを行うことが試みられた。しかし、独立した言語モデルなしのデコードでは最良の結果が得られないことが判明し、最近ではEnd-to-End型NNに加えて言語モデルを用いたものが主流である。しかし、この場合には両者をどのように組み合わせるかが問題となる。さらに、End-to-End型のNNに基づく音響モデルは、通常はサブワード単位（文字、音素等）での学習が行われるため、出力されるスコアもサブワード単位である。言語モデルのスコアは単語レベルであるため、この点でも両者を組み合わせることが難しいという問題がある。

　従来は、両者のスコアを組み合わせる手法として、次式に示すような両スコアの単純な内挿により単語列^～Ｗを計算していた。

　ただしこの計算は以下の制約の下で行う。

　関数Ψは、単語列Ｗを全ての可能なサブワード系列ｓの集合に変換する関数である。ここにワード挿入ペナルティを組み合わせることも多い。非特許文献１では、各フレームにおいて事後確率を事前確率Ｐ（ｃ_ｔ）で除算することを提案している。

　デコードでは、単語列Ｗとサブワード系列ｓの間に、単語とサブワードという関係（式（９））が成立しなければならない。そうした制約は、WFST（重み付き有限状態トランスデューサ）を用いたデコード方式により表すことができる。非特許文献１では、トークンFST、レキシコンFST及びグラマーFSTを以下のように合成することでそのためのWFSTを作成している。

　ＴはフレームごとのNNからのフレーム単位のサブワード系列ｃをフレーム数に依存しないサブワード系列ｓに変換するトークンFSTである。Ｌはサブワード系列ｓを単語列Ｗに変換するレキシコンFSTである。Ｇは、単語列Ｗを重みＰ（Ｗ）が付加された単語列Ｗに変換するグラマーFSTである。音声特徴量からなる観測系列Ｘが与えられると、この探索グラフ上でビームサーチアルゴリズムを用いて最も良い（確率の高い）仮説を探索し、それを音声認識の結果として出力する。式（１０）に示すようにＴ、Ｌ及びＧを合成したWFSTをここではTLG-WFSTと呼ぶ。

　しかし、このような内挿方式で計算したスコアを利用することには理論的根拠がなく、十分に高い認識性能も得られていない。

　それ故に本発明の目的は、ニューラルネットワークの特性を活かして、音声認識精度を高めることができる音声認識装置を提供することである。

　本発明の第１の局面に係る音声認識装置は、音声信号から得られた所定の音声特徴量からなる観測系列が与えられたときに、当該観測系列があるシンボル系列である確率を算出するための、End-to-End型NNに基づく音響モデルと、シンボル系列候補が与えられたときに、当該シンボル系列候補に対する単語列の事後確率を算出する事後確率算出手段と、入力される観測系列に基づいて選択される複数のシンボル系列について、音響モデルにより算出される確率、及び、複数のシンボル系列の各々に対して事後確率算出手段により算出される事後確率に基づいて音声信号をデコードするデコーダとを含む。

　音響モデルは、CTCに基づく音響モデルでもよい。

　好ましくは、事後確率算出手段は、シンボル系列候補が与えられたときに、単語レベルの言語モデルによる単語列の生起確率と、各単語列に対するシンボル系列候補の事後確率と、シンボルレベルの言語モデルによるシンボル系列候補の生起確率とにより、各シンボル系列候補に対する単語列の事後確率を算出するための単語列事後確率算出手段を含む。

　より好ましくは、単語列事後確率算出手段は、単語列の生起確率と、シンボル系列候補の事後確率とを乗算した値を、シンボル系列の生起確率により除算することにより、各シンボル系列候補に対する単語列の事後確率を算出する。

　デコーダは、サブワード系列ｓをサブワード事後確率Ｐ（ｓ｜Ｗ）が付加された単語列Ｗに変換して出力するレキシコンFST、単語列Ｗを単語列レベルの言語モデルによる生起確率Ｐ（Ｗ）が付加された単語列Ｗに変換して出力するグラマーFST、及びサブワード系列ｓにサブワードレベルの言語モデルによる生起確率Ｐ（ｓ）^-βを付加して出力するサブワードFSTを要素として合成したWFSTと、WFSTが受理する単語列の仮説のうち、スコアが最も高い仮説をデコード結果として出力する仮説選択手段とを含んでもよい。βは所定のスケーリングファクタである。

　さらにEnd-to-End型NNとしてCTCを用いる場合には、デコーダは、CTCの出力するラベル系列をサブワード系列ｓに変換するトークンFST、サブワード系列ｓをサブワード事後確率Ｐ（ｓ｜Ｗ）が付加された単語列Ｗに変換して出力するレキシコンFST、単語列Ｗを単語列レベルの言語モデルによる生起確率Ｐ（Ｗ）が付加された単語列Ｗに変換して出力するグラマーFST、及びサブワード系列ｓにサブワードレベルの言語モデルによる生起確率Ｐ（ｓ）^-βを付加して出力するサブワードFSTを合成したWFSTを利用してもよい。

　好ましくは、デコーダは、以下の式

により観測系列に対する音声認識結果の単語列^～Ｗを算出する。

　本発明の第２の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの音声認識装置として機能させる。

従来の音声認識の考え方を示す図である。通常のDNNの構成を模式的に示す図である。 RNNの構成と、異なる時刻のRNNのノード間の結合の例を模式的に示す図である。本発明の１実施の形態における音声認識の考え方を示す図である。本発明の１実施の形態に係る音声認識装置の構成を示すブロック図である。本発明の１実施の形態に係る音声認識装置を実現するコンピュータの外観を示す図である。図６に示すコンピュータのハードウェア構成を示すブロック図である。

　以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

　最初に、従来の技術で使用されていたDNNとRNNとの相違について説明する。図２を参照して、DNN７０は、入力層７２及び出力層７８と、入力層７２と出力層７８との間に設けられた複数の隠れ層７４及び７６とを含む。この例では隠れ層は２層のみ示したが、隠れ層の数は２には限定されない。各層は複数個のノードを持つ。図２では各層におけるノード数はいずれも５個で同じであるが、これらの数は通常は様々である。隣り合うノード間は互いに結合されている。ただし、データは入力層側から出力層側へと一方向にしか流れない。各結合には重み及びバイアスが割り当てられている。これら重み及びバイアスは、学習データを用いた誤差逆伝搬法により学習データから学習される。

　DNN７０においては、時刻ｔにおいて入力層７２に時刻ｔにおける音声特徴量Ｘ_ｔが与えられると、出力層７８からHMMの状態予測値Ｓ_ｔが出力される。音響モデルの場合、出力層７８のノード数は、対象となる言語の音素の数と一致するよう設計されることが多く、その場合には、出力層の各ノードの出力は、入力された音声特徴量がそのノードの表す音素である確率を示す。したがって、出力層７８の各ノードの出力する状態予測値を加算すると１になる。

　図２に示すDNNにより求められるものは、Ｐ（Ｓ_ｔ｜Ｘ_ｔ）である。すなわち、時刻ｔに音声特徴量Ｘ_ｔを観測したときの、HMMの状態Ｓ_ｔの確率である。この例では、HMMの状態Ｓ_ｔは音素に対応する。これを前記した式（５）と比較すると、DNNの場合、その出力をそのまま式（５）に適用（代入）できないことが分かる。そのため、従来は、以下に示すようにベイズの法則を用いてDNNの出力をＰ（Ｘｔ｜Ｓｔ）に変換している。

　式（１１）において、Ｐ（ｘ_ｔ）は各HMMの状態に共通であり、したがってarg　max演算では無視できる。Ｐ（ｓ_ｔ）はアライメントされた学習データにおいて各状態の数を数えることで推定できる。

　結局、DNN-HMMハイブリッド方式の場合、DNNの出力Ｐ（Ｓ_ｔ｜Ｘ_ｔ）を確率Ｐ（Ｓ_ｔ）で割ることにより、従来のHMMを用いた枠組みの中でDNNを用いて認識スコアを計算していることになる。

　一方、End-to-End型RNNの構成の例を図３に示す。図３は、時刻ｔ－１におけるRNN１００（ｔ－１）と、時刻ｔにおけるRNN１００（ｔ）と、時刻ｔ＋１におけるRNN（ｔ＋１）の間の関係を示す。この例では、RNN１００（ｔ）の隠れ層内の各ノードは、入力層の各ノードだけではなく、RNN１００（ｔ－１）の自分自身の出力を受けている。すなわち、RNN１００は入力される音声特徴量の時系列に対する出力を生成できる。さらに、End-to-End型RNNのうち、CTC（Connectionist　Temporal　Classification）と呼ばれるモデルでは、RNNの出力層は、ラベル（例えば音素）に対応するノードに加えて空ラベルφに対応するノード（図３においては右端に示す）を含む。すなわち出力層のノード数はラベル数＋１である。

　図３に示すようなEnd-to-End型RNNは、音声（音声特徴量）Ｘが発音列ｓである確率Ｐ（ｓ｜Ｘ）を直接モデル化する。したがってこうしたRNNを用いる音声認識はHMMには依存しない。RNNの出力は前掲の式（６）及び式（７）のように定式化される。これら式を再掲する。

　End-to-End型RNNの特徴を活かして精度の高い音声認識を行うためには、DNN-HMMハイブリッド方式以外の枠組みを用いることが必要である。図４に、そのような新しい枠組みについて示す。本実施の形態はこの枠組に沿って音声認識を行う装置に関する。本実施の形態では、End-to-End型RNNとしてCTCを採用し、またサブワードの単位として発音系列を採用している。End-to-End型RNNの特性を活かして音声認識を行う新しい枠組みに基づいてCTCを用いたデコーディング方式を改良する。

　図４を参照して、本実施の形態では、入力系列３６（観測系列Ｘ）からRNNを用いて空ラベルφを含むラベル列からなる複数の音素系列ｃ（ラベル列１１０）の確率を求める。この確率は前掲の式（７）のようにモデル化される。これら音素系列ｃにマッピング関数Φを適用して中間生成物である複数の発音列ｓ（シンボル系列１１２）を得る。例えばラベル系列「ＡＡφφＢφＣＣφ」及びラベル系列「φＡφＢＢφＣφ」はマッピング関数Φによりいずれもサブワード系列「ＡＢＣ」にマッピングされる。このマッピング関数により、観測系列Ｘが与えられたときの発音列ｓの確率は前掲の式（６）のようにモデル化される。ここでさらに発音列ｓ（シンボル系列１１２）から得られる複数の単語列３０の確率を求める。この確率はＰ（Ｗ）として単語レベルの言語モデルによりモデル化される。最終的に確率が最大となる単語列３０が音声認識結果として出力される。以上の関係から、以下の式によって観測系列Ｘ_１：Ｔに対する音声認識結果の単語列^～Ｗが得られる。

　この式は以下のように変形・近似できる。

　式（１３）において、Ｐ（ｓ｜Ｘ）はCTCによる音響モデルの事後確率を表す。αはそのスケーリングファクタである。発音列ｓ及び観測系列Ｘは式（９）の制約を満たす必要がある。式（１３）の近似にはビタビ・アルゴリズムを用いる。なお、RNNの学習時には、式（１３）の第２式にしたがってＰ（Ｗ｜ｓ）を全てのｓにわたって計算するが、デコード時には第３式のように近似することが多い。

　式（１３）中で、Ｐ（Ｗ｜ｓ）は以下の式（１４）により計算できる。

　式（１４）のうち、Ｐ（ｓ）はサブワード単位の言語モデル確率であり、βはそのスケーリングファクタである。Ｐ（ｓ）は従来の言語モデルと同様に計算できる。すなわち、Ｎグラム言語モデルでも、ニューラルネットワークでも実現できる。ただし、サブワード単位の言語モデルはサブワードコーパスで学習する必要がある。サブワードコーパスは、通常のテキストコーパスに対して単語をサブワードに変換する方法で容易に実現できる。

　式（１４）の分子の第１項、Ｐ（ｓ｜Ｗ）は単語‐サブワード変換確率を示す。単語からサブワードへの変換は、多くの場合１対１変換（例えば単語を各文字に分解すること）である。そうした場合には、Ｐ（ｓ｜Ｗ）は１になり、式（１４）は次の式（１５）のように簡略化される。

　以上をまとめると、以下のようになる。式（１３）のＰ（Ｗ｜ｓ）に式（１４）の右辺を代入すると以下の式（１６）が得られる。この式（１６）に従って仮説のスコアを計算し、最もよいスコアの仮説を音声認識結果として選択する。

　結局、RNNを用いる従来法では、式（６）～式（９）に示されるように、RNNの出力する事後確率と言語モデル確率とを内挿して認識スコアを算出している。これに対し、本実施の形態に係る手法では、式（１６）に示すように、ある仮説に関する単語‐サブワード変換確率Ｐ（ｓ｜Ｗ）、従来と同様の単語レベルの言語モデルから得られる単語言語モデルスコアＰ（Ｗ）、及びRNNの出力するサブワード事後確率Ｐ（ｓ｜Ｘ）^αの積を、サブワードレベルの言語モデルから得られる確率Ｐ（ｓ）^βで割ることにより仮説のスコアを算出する。各仮説についてこのスコアを算出し、最もよいスコアが得られる仮説を音声認識結果として選択する。このためのデコーダは、従来手法の式（１０）により表されるTLG- WFSTと同様、WFSTにより実現できる。このWFSTは、TLGのWFSTにＰ（ｓ）^βに対応するFST（「ｓ」で表す。）を合成することで実現できる。式（１６）に示すように、Ｐ（ｓ）の－β乗を乗算しているので、このWFSTは、式（１０）の記法によると、次の式（１７）により表されるものになる。このWFSTをTS^-βLG‐WFSTと呼ぶ。

なお、WFST TはEnd-to-End型ニューラルネットワークとしてCTCを用いる場合に利用するのが好ましい。CTC以外のEnd-to-End型モデルを用いる場合、式（１７）でＴを除いた部分だけを利用することも可能である。

　図５を参照して、本実施の形態に係る音声認識装置２８０は、入力音声２８２に対する音声認識を行って、音声認識テキスト２８４として出力する機能を持つ。音声認識装置２８０は、入力音声２８２に対してアナログ／デジタル（Ａ／Ｄ）変換を行ってデジタル信号として出力するＡ／Ｄ変換回路３００と、Ａ／Ｄ変換回路３００の出力するデジタル化された音声信号を、所定長及び所定シフト量で一部重複するようなウィンドウを用いてフレーム化するフレーム化処理部３０２と、フレーム化処理部３０２の出力する各フレームに対して所定の信号処理を行うことにより、そのフレームの音声特徴量を抽出し特徴量ベクトルを出力する特徴量抽出部３０４とを含む。各フレーム及び特徴量ベクトルには、入力音声２８２の例えば先頭に対する相対時刻等の情報が付されている。音声特徴量としては、MFCC（Mel-Frequency　Cepstrum　Coefficient：メル周波数ケプストラム係数）、その一次微分、二次微分、及びパワー等が用いられるが、フィルタバンクの出力をそのまま特徴量として用いても良い。時系列で得られる特徴量ベクトルにより観測系列が構成される。

　音声認識装置２８０はさらに、特徴量抽出部３０４が出力する特徴量ベクトルを一時記憶するための特徴量記憶部３０６と、特徴量記憶部３０６に記憶された特徴量ベクトルを入力として、各時刻における各フレームがある音素に対応する事後確率を音素ごとに示すベクトルを出力する、CTCに基づくEnd-to-End型RNNからなる音響モデル３０８と、音響モデル３０８の出力するベクトルを用いて、TS^-βLG-WFSTにより、入力音声２８２に対応する音声認識テキスト２８４として最もスコア（確率）の高い単語列を出力するためのデコーダ３１０とを含む。CTCに基づくEnd-to-End型音響モデル３０８を採用した点、及び音声認識デコーダとして直接デコード方式にしたがって予め構成したWFSTを用いる点が従来と異なる。音響モデル３０８が出力するベクトルの要素は、そのフレームが各音素である確率を音素ごとに示す値である。時系列で得られるこのベクトルから、フレームごとに１音素を選択して連結し、各音素を対応するラベルで表すことにより、ラベル列候補が得られる。このラベル列候補には空ラベルφも含まれることがある。各ラベル列候補の事後確率は、そのラベル列候補を構成する音素の事後確率から算出できる。

　デコーダ３１０は、音響モデルにより算出されたラベル列候補の事後確率を用いて、入力された観測系列が表しうる複数の仮説を、それらの確率とともに算出して認識スコアとして出力するTS^-βLG-WFST３２０と、TS^-βLG-WFST３２０により算出された認識スコアに基づき、最もスコア（確率）の高い仮説を音声認識テキスト２８４として出力する仮説選択部３２２とを含む。

　WFSTによる音声認識とは以下の様なものである。状態遷移機械のモデルとして、有限オートマトンが知られている。有限オートマトンは計算理論の基礎をなす概念であり、その一種に、入力される記号列に対して予め定められている規則に基づく状態遷移を行い、状態遷移の結果により、入力された記号列を受理するか否かを決定するものがある。FSTはそうしたオートマトンから派生したものであり、ある記号列を受理して状態遷移を行うと同時に、別の記号列を出力する変換機械である。FTSはノードとノード間を結ぶアークとからなるグラフとして表すことができる。ノードは状態を表し、アークは状態遷移を表す。各アークには入力記号と出力記号とが付与される。各アークにさらに重みを付加したものがWFSTである。この重みにより確率という概念を表すことができる。ルートノードから各アークをたどっていくことで仮説が生成され、それらのアークに割り当てられた重み（確率）を乗算することでその仮説の生起確率が計算できる。

　音声認識では種々のモデルが用いられる。HMM、単語発音辞書及び言語モデルはいずれもWFSTで表すことができる。さらに近年では、音素の文脈を表すために音素単位によるトライフォンHMMが利用されており、これもWFSTで表すことができる。単語発音辞書は、音素列を単語列に変換するWFSTであり、語彙を求めるために使用する。言語モデルは例えばトライグラムの言語モデルであり、入力単語列のうち受理可能なものと同一の出力単語列を、その確率に対応する重み付きで出力するWFSTであって、言語の文法を表す。

　WFSTには、前述したとおり、合成という演算が存在する。複数のWFSTを合成する方法については理論が確立され、その方法論及びコンピュータプログラムでWFSTを合成するアルゴリズムも確立されている。２つのWFSTを合成することにより、２つのWFSTを段階的に適用する処理を１つの合成後WFSTにより１回で行うことができる。したがって、上記したＴ、Ｌ、及びＧに加えてS^-βの組合せを合成して１つのWFSTにしてデコードに用いることができる。デコーダ３１０は、そのように予め学習を行い合成されたWFSTを用いるデコーダである。ただし、Ｌは従来と異なり、サブワード単位でのレキシコンFSTであり、サブワード系列ｓを単語列Ｗに確率Ｐ（ｓ｜Ｗ）で変換する。

　また、前述したとおり、グラマーFST（Ｇ）は、入力される単語列Ｗに対して重みとして言語モデル確率Ｐ（Ｗ）を付加し、言語モデルにしたがった単語列を受理して出力するFSTである。S^-β‐FSTは、この逆で、入力されるサブワード系列に対してＰ（ｓ）^-βを重みとして付加する。したがって、S^-β‐FSTはグラマーFST（Ｇ）と同様に生成できる。

　本実施の形態に係る音響モデル３０８を構成するRNNの入力層のノードの数は、特徴量ベクトルの要素の数と一致する。RNNの出力層のノードの数は、対象となる言語のサブワードの数に１を加算したものと一致する。すなわち、出力層のノードは、HMMによる音響モデルの各サブワード（例えば音素）と、空ラベルφとを表す。出力層の各ノードには、ある時刻で入力された音声が、そのノードの表すサブワード（空ラベルを含む）である確率が出力される。したがって音響モデル３０８の出力は、その時刻での入力音声が、各ノードの表すサブワードである確率を要素とするベクトルである。このベクトルの要素の値を合計すると１になる。

　TS^-βLGデコーダ３１０は、音響モデル３０８が出力するベクトルの各要素について、前記したTS^-βLGによるWFST３２０によって単語列Ｗの確率計算をし、適宜枝刈りを行いながらWFSTのグラフをたどっていくことにより仮説と確率計算を含めた認識スコアの計算をする。仮説選択部３２２が、WFST３２０が最終的に受理する単語列の中で最も認識スコアが高い（生起確率の高い）単語列を音声認識テキスト２８４として出力する。この際、WFST３２０はRNNの出力を直接使いながら認識スコアを計算する。従来のDNN-HMMフレームワークのようにHMMの出力形式にあわせてRNNの出力を変換することが不要であり、認識の効率を高めることができる。また、End-to-End型NNから得られた事後確率Ｐ（ｓ｜Ｘ）と、確率Ｐ（Ｗ｜ｓ）とを組み合わせて単語事後確率Ｐ（Ｗ｜Ｘ）を算出することで、単語事後確率Ｐ（Ｗ｜Ｘ）が最大となる仮説を探索する。End-to-end型NNを用いる従来の方式のように理論的根拠のない内挿スコアを用いるものと異なり、理論的にも認識の精度を高めることが可能となる。

　［実施の形態の効果］
　上記実施の形態は、DNN-HMMハイブリッド方式に代えて、End-to-end型NNを用いた直接デコード方式の音声認識装置に関するものである。実験結果によれば、直接デコード方式の音声認識手法の方が、DNN-HMMハイブリッド方式よりも小さな構成で同等以上の性能を示すことがわかった。また、End-to-End型NNを用いた直接デコード方式でも、認識スコアを式（８）に示すような内挿により計算するものと比較して精度が高くなることが確認できた。

　［コンピュータによる実現］
　本発明の実施の形態に係る音声認識装置２８０は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図６はこのコンピュータシステム３３０の外観を示し、図７はコンピュータシステム３３０の内部構成を示す。

　図６を参照して、このコンピュータシステム３３０は、メモリポート３５２及びＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）ドライブ３５０を有するコンピュータ３４０と、キーボード３４６と、マウス３４８と、モニタ３４２とを含む。

　図７を参照して、コンピュータ３４０は、メモリポート３５２及びＤＶＤドライブ３５０に加えて、ＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６、メモリポート３５２及びＤＶＤドライブ３５０に接続されたバス３６６と、ブートプログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、バス３６６に接続され、プログラム命令、システムプログラム及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０と、ハードディスク３５４を含む。コンピュータシステム３３０はさらに、他端末との通信を可能とするネットワーク３６８への接続を提供するネットワークインターフェイス（Ｉ／Ｆ）３４４を含む。

　コンピュータシステム３３０を上記した実施の形態に係る音声認識装置２８０の各機能部として機能させるためのコンピュータプログラムは、ＤＶＤドライブ３５０又はメモリポート３５２に装着されるＤＶＤ３６２又はリムーバブルメモリ３６４に記憶され、さらにハードディスク３５４に転送される。又は、プログラムはネットワーク３６８を通じてコンピュータ３４０に送信されハードディスク３５４に記憶されてもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。ＤＶＤ３６２から、リムーバブルメモリ３６４から又はネットワーク３６８を介して、直接にＲＡＭ３６０にプログラムをロードしてもよい。

　このプログラムは、コンピュータ３４０を、上記実施の形態に係る音声認識装置２８０の各機能部として機能させるための複数の命令からなる命令列を含む。コンピュータ３４０にこの動作を行わせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するオペレーティングシステム若しくはサードパーティのプログラム又はコンピュータ３４０にインストールされる、ダイナミックリンク可能な各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム、装置及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット又はプログラムライブラリ内の適切なプログラムを実行時に動的に呼出すことにより、上記したシステム、装置又は方法としての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能を全て提供してもよい。

　今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

　この発明は、携帯電話、コンピュータ、ドライブナビゲータ、家庭電化機器、自動音声応答装置等、人間とのインターフェイスを持つ幅広い範囲の装置及びそれら装置を用いたサービスに適用できる。

３０　単語列
３２　発音列
３４　状態系列
３６　観測系列
７０　DNN
７２　入力層
７４，７６　隠れ層
７８　出力層
１００　RNN
１１０　ラベル列（音素系列）
１１２　シンボル系列
２８０　音声認識装置
２８２　入力音声
２８４　音声認識テキスト
３００　Ａ／Ｄ変換回路
３０２　フレーム化処理部
３０４　特徴量抽出部
３０６　特徴量記憶部
３０８　音響モデル
３１０　デコーダ
３２０　TS^-βLG-WFST
３２２　仮説選択部
３３０　コンピュータシステム
３４０　コンピュータ
３５４　ハードディスク
３５６　ＣＰＵ
３５８　ＲＯＭ
３６０　ＲＡＭ

Claims

　音声信号から得られた所定の音声特徴量からなる観測系列が与えられたときに、当該観測系列があるシンボル系列である確率を算出するための、End-to-End型ニューラルネットワークに基づく音響モデルと、
　シンボル系列候補が与えられたときに、当該シンボル系列候補に対する単語列の事後確率を算出する事後確率算出手段と、
　入力される観測系列に基づいて選択される複数のシンボル系列について、前記音響モデルにより算出される確率、及び、前記複数のシンボル系列の各々に対して前記事後確率算出手段により算出される事後確率に基づいて前記音声信号をデコードするデコーダとを含む、音声認識装置。
　前記音響モデルは、CTCに基づく音響モデルである、請求項１に記載の音声認識装置。
　前記事後確率算出手段は、シンボル系列候補が与えられたときに、単語レベルの言語モデルによる単語列の生起確率と、各単語列に対する前記シンボル系列候補の事後確率と、シンボルレベルの言語モデルによるシンボル系列候補の生起確率とにより、各シンボル系列候補に対する単語列の事後確率を算出するための単語列事後確率算出手段を含む、請求項１又は請求項２に記載の音声認識装置。
　前記単語列事後確率算出手段は、前記単語列の生起確率と、シンボル系列候補の事後確率とを乗算した値を、シンボル系列の生起確率により除算することにより、各シンボル系列候補に対する単語列の事後確率を算出する、請求項３に記載の音声認識装置。
　前記デコーダは、サブワード系列ｓをサブワード事後確率Ｐ（ｓ｜Ｗ）が付与された単語列Ｗに変換して出力するレキシコンFST、単語列Ｗを単語列レベルの言語モデルによる生起確率Ｐ（Ｗ）が付与された単語列Ｗに変換して出力するグラマーFST、及びサブワード系列ｓにサブワードレベルの言語モデルによる生起確率Ｐ（ｓ）^-βを付与して出力するサブワードFSTを要素として合成したWFSTと、
　前記WFSTが受理する単語列の仮説のうち、スコアが最も高い仮説をデコード結果として出力する仮説選択手段とを含み、前記βは所定のスケーリングファクタである、請求項１～請求項４のいずれかに記載の音声認識装置。
コンピュータを、請求項１～請求項５のいずれかに記載の全ての手段として機能させる、コンピュータプログラム。