WO2017037830A1

WO2017037830A1 - 音声認識装置および音声認識処理方法

Info

Publication number: WO2017037830A1
Application number: PCT/JP2015/074658
Authority: WO
Inventors: 勇気太刀岡; 渡部　晋治
Original assignee: 三菱電機株式会社; ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド
Priority date: 2015-08-31
Filing date: 2015-08-31
Publication date: 2017-03-09
Also published as: JPWO2017037830A1; TW201709199A

Abstract

音声特徴量の不確定性をもとに音声認識処理を実行する音声認識装置であって、音声強調処理前の騒音音声特徴量をベクトルとして抽出し、音声強調処理後の強調音声特徴量をベクトルとして抽出する特徴量抽出器と、騒音音声特徴量と強調音声特徴量の内分点または外分点を算出することで不確定性を反映した音声データを生成するデータ生成器と、音声データを用いて、デコーディング処理または音響モデルの学習処理の少なくともいずれか一方を実行することで音声認識処理を実行する音声データ処理器とを備える。

Description

音声認識装置および音声認識処理方法

　本発明は、音声特徴量の不確定性をもとに音響モデルの構築や音声認識を行う音声認識装置および音声認識処理方法に関する。

　騒音が重畳した音声を認識するには、信号処理的な手法により、その前段で音声強調処理を行うことが一般的である。このような音声強調処理により、音声認識性能は、向上する。しかしながら、音声強調の誤りにより、原音声からは歪んだ音声となってしまうことは避けられない。

　この影響を低減するために、音声特徴量の不確定性（ｕｎｃｅｒｔａｉｎｔｙ）を音声処理前後の特徴量から算出し、不確定性の高い特徴量の寄与を小さくする不確定性デコーディング（ｕｎｃｅｒｔａｉｎｔｙ　ｄｅｃｏｄｉｎｇ：ＵＤ）技術が提案されている（例えば、非特許文献１～３参照）。

　このような技術は、音響モデルにＧａｕｓｓｉａｎ　ｍｉｘｔｕｒｅ　ｍｏｄｅｌ（ＧＭＭ）を用いた場合に相性がよい。すなわち、音声特徴量の不確定性がガウス分布で表現される場合には、ＧＭＭの尤度がその特徴量の分布の周辺分布の期待値操作で表せるという仮定を利用している。

　図７は、ＵＤ技術を実現するための従来の音声認識装置の構成を示した図である。図７に示す従来の音声認識装置は、特徴量抽出器１１、１２、学習データ生成器１３、音響モデル構築器１４、言語モデル記憶部１５、音声認識器１７、および音響モデル適応器２０を備えて構成されている。

　そして、騒音が重畳した騒音音声１と、音声強調処理が施された強調音声２が、音声認識装置に入力される。通常は、特徴量抽出器１２により、強調音声２から特徴量が抽出される。そして、音声認識器１７は、特徴量と音響モデルと言語モデルから、音声認識結果３を得る。

　ＵＤでは、音声強調前の騒音音声１の特徴量も、特徴量抽出器１１により抽出されている。そして、音響モデル適応器２０は、特徴量抽出器１１で抽出された音声強調処理前の特徴量と、特徴量抽出器１２で抽出された音声強調処理後の特徴量を用いて、なんらかの基準により不確定性を算出する。

　例えば、非特許文献２に示されているＤｅｌｃｒｏｉｘ２００９や非特許文献３に示されているＫｏｌｏｓｓａ２０１０においては、音響モデル適応器２０は、音声強調処理前後の特徴量の差分を不確定性として算出している。そして、音響モデル適応器２０は、不確定性の大きい特徴量に関しては、ＧＭＭを用いた音響モデルの分散を広げるなどの適応を行っている。

　音響モデル構築器１４は、強調音声２の特徴量により作成された学習データを用いて音響モデルを構築するのが一般的である。学習データを増加させる手法としては、学習環境に応じて、データを内挿する方法も提案されている（例えば、特許文献１参照）。

特開平１０－１３３６８８号公報

Liao2005: H. Liao and M. Gales, "Joint uncertainty decoding for noise robust speech recognition," in Proceedings of EUROSPEECH, 2005, pp. 3129-3132 Delcroix2009: M. Delcroix, T. Nakatani, and S. Watanabe, "Static and dynamic variance compensation for recognition of reverberant speech with dereverberation preprocessing," IEEE Transactions on Audio, Speech, and Language Processing, pp. 324-334, 2009 Kolossa2010: D. Kolossa, R. F. Astudillo, E. Hoffmann, and R. Orglmeister, "Independent component analysis and time-frequency masking for speech recognition in multi-talker conditions," EURASIP Journal on Audio, Speech, and Music Processing, p. ID 651420, 2010

　しかしながら、従来技術には、以下のような課題がある。
　上述したように、混入した音声歪みが音声認識性能に与える影響を低減するためには、音声強調処理を用いて、音声特徴量の不確定性を抽出し、音響モデルの構築や音声認識を行うことが有力である。そして、不確定性の高い特徴量の寄与を小さくするために、ＵＤ技術が提案されている。

　しかしながら、ＧＭＭ以外のモデルでは、上述したようなＧＭＭの尤度がその特徴量の分布の周辺分布の期待値操作で表せるという仮定が成り立たない。このため、従来の不確定性に基づく音声認識技術は、モデルがガウス分布で表せない場合には、うまく不確定性を考慮することができないという問題点があった。

　また、特許文献１は、学習データを増加させる手法を提案している。しかしながら、この特許文献１は、騒音抑圧前後の特徴量を使うことで、騒音抑圧による歪みを抑えるという効果を得ることまでは、何ら開示も示唆もしていない。

　この発明は、上記のような問題点を解決するためになされたものであり、モデルがガウス分布で表せるか否かによらず、どのようなモデルに対しても、音声特徴量の不確定性をもとに音響モデルの構築や音声認識を行うことのできる音声認識装置および音声認識処理方法を得ることを目的とする。

　本発明に係る音声認識装置は、音声特徴量の不確定性をもとに音声認識処理を実行する音声認識装置であって、音声強調処理前の騒音音声特徴量をベクトルとして抽出し、音声強調処理後の強調音声特徴量をベクトルとして抽出する特徴量抽出器と、騒音音声特徴量と強調音声特徴量の内分点または外分点を算出することで不確定性を反映した音声データを生成するデータ生成器と、音声データを用いて、デコーディング処理または音響モデルの学習処理の少なくともいずれか一方を実行することで音声認識処理を実行する音声データ処理器とを備えるものである。

　また、本発明に係る音声認識処理方法は、音声特徴量の不確定性をもとに音声認識装置により実行される音声認識処理方法であって、音声強調処理前の騒音音声特徴量をベクトルとして抽出する第１ステップと、音声強調処理後の強調音声特徴量をベクトルとして抽出する第２ステップと、騒音音声特徴量と強調音声特徴量の内分点または外分点を算出することで不確定性を反映した音声データを生成する第３ステップと、音声データを用いて、デコーディング処理または音響モデルの学習処理の少なくともいずれか一方を実行することで音声認識処理を実行する第４ステップとを有するものである。

　本発明によれば、従来と同様の強調音声の特徴量に加えて、騒音音声特徴量と強調音声特徴量の内分点または外分点による特徴量を考慮して音声認識処理を行うことで、最終的な音声認識結果を得る構成を備えている。この結果、モデルがガウス分布で表せるか否かによらず、どのようなモデルに対しても、音声特徴量の不確定性をもとに音響モデルの構築や音声認識を行うことのできる音声認識装置および音声認識処理方法を得ることができる。

本発明の実施の形態１における音声認識装置の概念を示した説明図である。本発明の実施の形態１における音声認識装置の構成を示した図である。本発明の実施の形態２における音声認識装置の構成を示した図である。本発明の実施の形態３における音声認識装置の構成を示した図である。本発明の実施の形態４における音声認識装置の構成を示した図である。本発明の実施の形態１～４における音声認識装置に共通のハードウェア構成を示した図である。ＵＤ技術を実現するための従来の音声認識装置の構成を示した図である。

　以下、本発明の音声認識装置および音声認識処理方法の好適な実施の形態につき図面を用いて説明する。

　実施の形態１．
　本発明は、近年提案されているＤｅｅｐ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋ（ＤＮＮ）やＣｏｎｖｏｌｕｔｉｏｎａｌ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋ、Ｒｅｃｕｒｒｅｎｔ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋなどの音響モデルを主な対象として適用可能な音声認識装置を提案することを目的としている。ただし、本発明に係る音声認識装置は、ＧＭＭを用いた音響モデルにも適用可能である。

　ＤＮＮなどの音響モデルでは、ＧＭＭのように分布を単純なパラメータで表すことができない。このため、不確定性を算出できたとしても、算出した不確定性を元に、どのようなやり方でモデルに適応するかが明確ではない。

　そこで、本実施の形態１では、不確定性を陽に表現するのではなく、特徴量を通じて不確定性を暗に表現し、不確定性を特徴量に反映することを考える。すなわち、本実施の形態１に係る音声認識装置は、音声特徴量の音声強調前後での内分点を利用して、不確定性を特徴量に反映している。

　図１は、本発明の実施の形態１における音声認識装置の概念を示した説明図である。騒音音声１の特徴量をｘ、強調音声２の特徴量をｙ（＾）とする。なお、明細書中のｙ（＾）という表記は、ｙの上に＾が付されているものを意味している。

　図１は、例えば簡単のため、音声特徴量が２次元であった場合の１次元目を横軸に、２次元目を縦軸に表現したものであり、騒音音声１の特徴量ｘ、強調音声２の特徴量ｙ（＾）が、ともに２次元のベクトルとして表されている。２次元目は、１次元目に比べて、音声強調前後で特徴量の変化が小さく、騒音の影響が少ない信頼できる特徴量の次元であるといえる。そこで、このような次元の関係を表すために、本実施の形態１における音声認識装置は、下式（１）の内分点を加えた音声データを使って、デコーディングを行う。

　上式（１）において、αの範囲は、０＜α＜１である。内分点を特徴量に加えることで、２次元目が１次元目に比べて分散が小さく、信頼できる特徴であることを暗に示すことができるという効果が得られる。

　なお、α＞１とした外分点も、例えば、騒音引き去り効果が小さいが歪みも小さい音声強調手法を用いた場合など、場合によっては有効であると考えられる。任意の次元に拡張した場合にも、同様の効果が得られることは明らかである。

　図２は、本発明の実施の形態１における音声認識装置の構成を示した図である。図２に示した本実施の形態１における音声認識装置の構成は、先の図７に示した従来の音声認識装置の構成と比較すると、以下の３点が異なっている。
・第１の相違点として、本実施の形態１における音声認識装置は、データ生成器１６を備えている。
・第２の相違点として、本実施の形態１における音声認識装置は、音声認識器１７が複数で構成されている。図２では、３つの音声認識器１７（１）～１７（３）が例示されている。
・第３の相違点として、本実施の形態１における音声認識装置は、結果統合器１８をさらに備えている。

　なお、図２における学習データ生成器１３、音響モデル構築器１４、言語モデル記憶部１５、音声認識器１７（１）～１７（３）、および結果統合器１８は、音声データ処理器に相当する。

　データ生成器１６は、特徴量抽出器１１により抽出された騒音音声１の特徴量ｘと、特徴量抽出器１２により抽出された強調音声２の特徴量ｙ（＾）から、１以上の内分点を生成する。３つの音声認識装置を用意した場合には、２つの内分点を生成する。そして、複数の音声認識器１７（１）～１７（３）のうち、１番目の音声認識器１７（１）は、特徴量抽出器１２により抽出された強調音声２の特徴量ｙ（＾）を用いて音声処理を実行する。

　一方、複数の音声認識器１７（１）～１７（３）のうち、２番目の音声認識器１７（２）および３番目の音声認識器１７（３）は、データ生成器１６で生成された異なる内分点を用いて音声処理を実行する。すなわち、本実施の形態１における音声認識器１７は、従来技術と同様に強調音声２の特徴量ｙ（＾）を用いて音声認識処理を実行するとともに、異なる内分点による特徴量のそれぞれに対しても、音声認識処理を実行することで、複数の音声認識仮説を生成している。

　結果統合器１８は、複数の音声認識器１７（１）～１７（３）により得られたそれぞれの音声認識仮説に対して統合処理を施し、最終的な音声認識結果３を得る。結果統合器１８による統合処理としては、よく知られているような多数決による手法（ＲＯＶＥＲ）や、尤度、ｃｏｎｆｕｓｉｏｎ　ｎｅｔｗｏｒｋの統合、ｌａｔｔｉｃｅの統合などの手法を用いることができる。

　なお、この図２における音響モデル構築器１４により構築された音響モデルは、単一となっている。しかしながら、本発明は、１以上の内分点を使って学習しておいた、音声認識時とマッチした複数の音響モデルを使うことも考えられる。また、内分点を使って学習した１以上の音響モデルと、外分点を使って学習した１以上の音響モデルを使うことも考えられる。

　これにより、複数の音声認識器１７によるそれぞれの結果に不確定性の傾向が反映され、さらに、この反映された結果が結果統合器１８により統合されることで、認識率の向上が期待できる。

　以上のように、実施の形態１によれば、以下の構成を備えていることを技術的特徴としている。
・騒音音声から抽出した特徴量と、強調音声から抽出した特徴量との内分点または外分点から特徴量を生成する構成。
・新たに生成した１以上の特徴量のそれぞれと強調音声の特徴量に対して、音声認識処理を施した後に統合処理することで、１つの音声認識結果を得る構成

　すなわち、実施の形態１における音声認識装置は、従来と同様の強調音声の特徴量に加えて、内分点または外分点による１以上の特徴量を考慮して音声認識処理を行うことで、最終的な音声認識結果を得る構成を備えている。この結果、モデルがガウス分布で表せるか否かによらず、どのようなモデルに対しても、音声特徴量の不確定性をもとにデコーディング処理を実行して音声認識を行うことができる。

　実施の形態２．
　先の実施の形態１では、内分点または外分点による１以上の特徴量を用いて、デコーディング時に不確定性を考慮する場合について説明した。これに対して、本実施の形態２では、内分点または外分点による１以上の特徴量を用いて、学習時に不確定性を考慮する場合について説明する。

　図３は、本発明の実施の形態２における音声認識装置の構成を示した図である。図３に示した本実施の形態２における音声認識装置の構成は、先の図２に示した実施の形態１における音声認識装置の構成と比較すると、以下の２点が異なっている。
・第１の相違点として、本実施の形態２における音声認識装置は、音声認識器１７が１台で構成され、結果統合器１８が不要となっている。ただし、実施の形態１と組み合わせることも容易である。
・第２の相違点として、本実施の形態２における音声認識装置は、データ生成器１６で生成された内分点または外分点による１以上の特徴量により、学習データを増やしている。

　なお、図３における学習データ生成器１３、音響モデル構築器１４、言語モデル記憶部１５、および音声認識器１７は、音声データ処理器に相当する。

　本実施の形態２におけるデータ生成器１６は、例えば、２つの内分点による特徴量を用いた場合には、元の特徴量抽出器１２より抽出された強調音声２の特徴量に加えて、２つの内分点による特徴量を考慮し、合計で３倍のデータを用いて学習を行うことになる。

　なお、本実施の形態２におけるデータ生成器１６は、生成したデータを間引くなどして、学習データ量を減らすこともできる。これにより、特徴量の変化に頑健な音響モデルが構築される。この結果、音声認識の頑健性が増すという効果が得られる。

　以上のように、実施の形態２によれば、以下の構成を備えていることを技術的特徴としている。
・騒音音声から抽出した特徴量と、強調音声から抽出した特徴量との内分点または外分点から１以上の特徴量を生成する構成。
・新たに生成した１以上の特徴量と強調音声の特徴量を用いた学習結果に基づいて、音響モデルを生成する構成。

　このような構成を備えることで、特徴量の変化に頑健な音響モデルを用いた音声認識処理を行うことができる。この結果、モデルがガウス分布で表せるか否かによらず、どのようなモデルに対しても、音声特徴量の不確定性をもとに音響モデルの学習を実行して音声認識を行うことができる。

　実施の形態３．
　本実施の形態３においては、先の実施の形態１と２の構成を併用して、学習時およびデコーディング時の双方で不確定性を考慮する場合について説明する。

　図４は、本発明の実施の形態３における音声認識装置の構成を示した図である。図４に示した本実施の形態３における音声認識装置の構成は、先の実施の形態１における図２の構成と、先の実施の形態２における図３の構成を兼ね備えたものとなっている。

　なお、図４における学習データ生成器１３、音響モデル構築器１４、言語モデル記憶部１５、音声認識器１７（１）～１７（３）、および結果統合器１８は、音声データ処理器に相当する。

　以上のように、実施の形態３によれば、モデルがガウス分布で表せるか否かによらず、どのようなモデルに対しても、音声特徴量の不確定性をもとに、デコーディング処理および音響モデルの学習を実行して音声認識を行うことができる。

　実施の形態４．
　本実施の形態４では、内分点もしくは外分点に積極的に外乱を持ち込むことで、より頑健性を向上させた音声認識処理を実現する場合について説明する。

　図５は、本発明の実施の形態４における音声認識装置の構成を示した図である。図５に示した本実施の形態４における音声認識装置の構成は、先の図４に示した実施の形態３における音声認識装置の構成と比較すると、以下の１点が異なっている。
・相違点として、本実施の形態４における音声認識装置は、内分点もしくは外分点に摂動を加えることのできる乱数発生器１９を備えている。

　なお、図５における学習データ生成器１３、音響モデル構築器１４、言語モデル記憶部１５、音声認識器１７（１）～１７（３）、および結果統合器１８は、音声データ処理器に相当する。

　また、図５は、先の実施の形態３に対して乱数発生器１９を加えた構成を示しているが、先の実施の形態１または実施の形態２に対して乱数発生器１９を加えた構成とすることも可能である。

　例えば、分散σの正規乱数を用いた場合には、内分点もしくは外分点は、下式（２）のようになる。

　上式（２）におけるＮ（α、σ）は、平均α、分散σ²の正規分布である。なお、乱数発生器１９は、他の種類の乱数を用いることもできる。

　このような乱数発生器１９を用いることにより、内分点もしくは外分点に摂動を加えることができる。そして、データ生成器１６は、外乱を加えた学習データおよび音声認識のための評価データを生成することができる。この結果、固定の内分点もしくは外分点を使う場合に比べて、データのバリエーションが増すことになり、より頑健性を向上させた音声認識処理を実現することができる。

　以上のように、実施の形態４によれば、内分点もしくは外分点に積極的に外乱を持ち込むことができる構成を備えている。この結果、外乱を加えた学習データおよび評価データを用いて、より頑健性を向上させた音声認識処理を実現することができる。

　最後に、本発明の音声認識装置のハードウェア構成について説明する。図６は、本発明の実施の形態１～４における音声認識装置に共通のハードウェア構成を示した図である。図６に示した本発明の音声認識装置は、マイク３０と、処理回路４０と、ディスプレイ５０とを備えて構成されている。ここで、処理回路４０は、プロセッサ４１およびメモリ４２を含んで構成されている。

　マイク３０は、騒音音声１および強調音声２を取り込むための音声入力部に相当する。処理回路４０は、一連の音声認識処理を実行する回路であり、図２～図５で示した各構成要件による処理を実行する。より具体的には、処理回路４０の具体的な処理は、プロセッサ４１により実行され、処理に必要なデータは、メモリ４２に記憶されることとなる。また、ディスプレイ５０は、音声認識結果の表示部に相当する。

Claims

　音声特徴量の不確定性をもとに音声認識処理を実行する音声認識装置であって、
　音声強調処理前の騒音音声特徴量をベクトルとして抽出し、音声強調処理後の強調音声特徴量をベクトルとして抽出する特徴量抽出器と、
　前記騒音音声特徴量と前記強調音声特徴量の内分点または外分点を算出することで前記不確定性を反映した音声データを生成するデータ生成器と、
　前記音声データを用いて、デコーディング処理または音響モデルの学習処理の少なくともいずれか一方を実行することで前記音声認識処理を実行する音声データ処理器と
　を備える音声認識装置。
　前記音声データ処理器は、前記デコーディング処理を実行する際には、前記内分点または前記外分点として異なる値として生成された複数の音声データに基づいて複数の音声認識仮説を生成し、前記複数の音声認識仮説を統合処理することで、前記音声認識処理を実行する
　請求項１に記載の音声認識装置。
　前記音声データ処理器は、前記音響モデルの学習処理を実行する際には、前記内分点または前記外分点として異なる値として生成された複数の音声データに基づいて前記音響モデルの学習処理を実行することで、前記音声認識処理を実行する
　請求項１に記載の音声認識装置。
　乱数を発生する乱数発生器をさらに備え、
　前記データ生成器は、前記乱数を用いて前記内分点または前記外分点を算出することで前記音声データを生成する
　請求項１から３のいずれか１項に記載の音声認識装置。
　音声特徴量の不確定性をもとに音声認識装置により実行される音声認識処理方法であって、
　音声強調処理前の騒音音声特徴量をベクトルとして抽出する第１ステップと、
　音声強調処理後の強調音声特徴量をベクトルとして抽出する第２ステップと、
　前記騒音音声特徴量と前記強調音声特徴量の内分点または外分点を算出することで前記不確定性を反映した音声データを生成する第３ステップと、
　前記音声データを用いて、デコーディング処理または音響モデルの学習処理の少なくともいずれか一方を実行することで音声認識処理を実行する第４ステップと
　を有する音声認識処理方法。