WO2012063963A1

WO2012063963A1 - 音声認識装置、音声認識方法、および音声認識プログラム

Info

Publication number: WO2012063963A1
Application number: PCT/JP2011/076460
Authority: WO
Inventors: 秀治古明地; 隆行荒川; 孝文越仲
Original assignee: 日本電気株式会社
Priority date: 2010-11-11
Filing date: 2011-11-10
Publication date: 2012-05-18
Also published as: US20130231929A1; JP5949553B2; JPWO2012063963A1; US9245524B2

Abstract

　音声認識率が高精度である音声認識に対応できる雑音の種類を増大させることができる。　音声認識装置は、雑音の抑圧量を示す抑圧係数と、雑音を含まない音声に基づいて生成されるクリーン音響モデルに合成させる所定の雑音に基づいて生成される雑音モデルの適応量を示す適応係数と、を対応付けて記憶し、入力信号から、雑音を推定し、推定した雑音のうち抑圧係数に基づいて特定される抑圧量で特定される分の雑音を、入力信号から抑圧し、クリーン音響モデルに、適応係数に基づいて特定される適応量に応じて、推定した雑音に基づいて生成される雑音モデルを合成して、雑音適応された適応後音響モデルを生成し、雑音を抑圧された入力信号と、生成された適応後音響モデルとに基づいて音声を認識する。

Description

音声認識装置、音声認識方法、および音声認識プログラム

　本発明は、雑音に頑健な音声認識装置、音声認識方法、および音声認識プログラムに関する。

　音声認識システムの性能は、雑音の影響のために著しく劣化するため、音声認識システムの実運用に当たって、耐雑音手法が必要となる。雑音のために音声認識システムの性能劣化する原因は、音響モデル学習時に用いられた音声データと、実運用で使用される入力信号とが一致しないことである。このデータの不一致を抑制するため、音声認識向けの耐雑音手段として、大別して二つの方法が存在する。一つは、入力信号の雑音成分の抑圧または入力信号に含まれる雑音成分の除去を用いて、入力信号が作る分布を音響モデルに近づける方法である。以下、この方法は、雑音抑圧法と記される。もう一つは、音響モデルを入力信号と同じ雑音環境に適応させることを用いて、音響モデルを入力信号が作る分布に近づける方法である。以下、この方法は、音響モデル適応法と記される。
　特許文献１に記載された雑音抑圧装置は、スペクトル変換手段と、Ｓ／Ｎ推定手段と、抑圧係数データテーブルと、抑圧量推定手段と、雑音抑圧手段とを備える。そして、雑音抑圧装置は、以下のように動作する。スペクトル変換手段が、雑音を含む入力音声信号を時間領域から周波数領域に変換する。そして、Ｓ／Ｎ推定手段は、スペクトル変換手段を用いて変換された出力に基づいて入力音声信号のＳ／Ｎ比（ｓｉｇｎａｌ−ｎｏｉｓｅ　ｒａｔｉｏ）を推定する。抑圧係数データテーブルは、Ｓ／Ｎ比や周波数成分と所定の抑圧係数αとを対応付けて記憶する。抑圧量推定手段は、Ｓ／Ｎ推定手段が推定したＳ／Ｎ比に対応する抑圧係数αを抑圧係数データテーブルから取り出す。そして、雑音抑圧手段は、取り出された抑圧係数αに基づいて、スペクトル変換手段を用いて変換された出力に含まれるノイズ成分を抑圧する。
　特許文献２に記載された音声認識装置は、入力音声信号に対して高抑圧量の高雑音を抑圧し、この高雑音が抑圧された入力信号から音声区間および雑音区間を検出する。そして、音声認識装置は、入力音声信号に対して低抑圧量の低雑音を抑圧し、この低雑音が抑圧された信号のうち前述の雑音区間で特定される部分の信号から雑音モデルを作成する。音声認識装置は、この雑音モデルをクリーン音声モデルと合成する。音声認識装置は、低雑音が抑圧された信号のうち前述の音声区間で特定される部分の信号に対して前述の合成したモデルを用いて音声を認識する。
　特許文献３に記載された音声認識装置は、入力信号に含まれるエコー信号をスピーカーの供給信号に基づいて抑圧し、さらにその入力信号から周囲の背景雑音を抑圧する。そして、音声認識装置は、雑音が抑圧された信号に基づいて音声区間および雑音区間を特定する。そして、音声認識装置は、雑音区間と特定された信号に基づいて雑音モデルを学習し、その雑音モデルとクリーン音声モデルとを合成して雑音重畳音声モデルを生成する。音声認識装置は、前述の音声区間と判定された信号と雑音重畳音声モデルとに基づいて音声を認識する。
　特許文献４に記載された音声認識装置は、学習用の複数の種類の環境雑音の波形信号データを格納する。そして、音声認識装置は、これらの環境雑音の波形信号データから、出力尤度が最大となるように、一状態で複数混合のガウス混合モデルを生成する。そして、音声認識装置は、所定の雑音のない隠れマルコフモデル（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ；ＨＭＭ）と、前述のガウス混合モデルとから、音響モデルを生成する。この音響モデルは、以下の条件を満たす。第一に、この音響モデルは、各状態のすべての組み合わせの状態において、所定の重み係数で重み付けされた各ガウス分布の線形結合の和で表した各状態の混合ガウス分布を含む。第二に、この音響モデルは、音声認識時の環境音声データを用いて前述のガウス混合モデルの混合重みを適応化された隠れマルコフモデルに基づいて生成される。
　なお、発明を実施するための形態の説明のおいて用いる特許文献５及び非特許文献１を記載しておく。
特開２０００−３３０５９７号公報特開２００５−３２１５３９号公報特開２００６−３６１７号公報特開２００３−１７７７８１号公報特許４２８２２２７号公報松本弘，″雑音環境下の音声認識手法　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ　Ｔｅｃｈｎｉｑｕｅｓ　ｆｏｒ　Ｎｏｉｓｙ　Ｅｎｖｉｒｏｎｍｅｎｔｓ″，第２回　情報科学技術フォーラム　Ｆｏｒｕｍ　ｏｎ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｔｅｃｈｎｏｌｏｇｙ（ＦＩＴ２００３），ｐｐ１−ｐｐ４，２００３．Ｓｅｐｔｅｍｂｅｒ．

　しかし、入力信号に含まれる雑音の種類に応じ、雑音抑圧法または音響モデル適応法に基づいた出力の音声認識性能が低くなる場合がある。つまり、いずれの方法に対しても音声認識率が低くなる雑音の種類が存在する。
　特許文献１に記載の技術は、雑音抑圧法が苦手とする雑音の種類、すなわち雑音抑圧法に基づく出力の音声認識率が低くなる雑音の種類に対処できない。よって、特許文献１に記載の技術は、音声認識率が高精度である音声認識に対応できる雑音の種類を増大させることができない。
　特許文献２および特許文献３に記載の技術は、雑音抑圧法または音響モデル適応法が単純に組み合わせられて雑音抑圧に使用されている。よって、特許文献２および特許文献３に記載の技術は、一方の方法に基づいた出力の音声認識率が低い場合に、他方の方法が適切に音声認識率の向上に寄与するとは限らない。すなわち、特許文献２および特許文献３に記載の技術は、音声認識率が高精度である音声認識に対応できる雑音の種類を増大させることができない。
　特許文献４に記載の技術は、音響モデル適応法が苦手とする雑音の種類、すなわち音響モデル適応法に基づく出力の音声認識率が低くなってしまう雑音の種類に対処できない。よって、特許文献４に記載の技術は、音声認識率が高精度である音声認識に対応できる雑音の種類を増大させることができない。
　従って、上述の各関連技術は、音声認識率が高精度である音声認識に対応できる雑音の種類を増大させることができない。
　本発明の目的の一例は、音声認識率が高精度である音声認識に対応できる雑音の種類を増大させることができる音声認識装置、音声認識方法、および音声認識プログラムを提供することである。

　本発明の一態様における第一の音声認識装置は、雑音の抑圧量を示す抑圧係数と、雑音を含まない音声に基づいて生成されるクリーン音響モデルに合成させる所定の雑音に基づいて生成される雑音モデルの適応量を示す適応係数と、を対応付けて記憶する係数格納手段と、入力信号から、雑音を推定する雑音推定手段と、前記雑音推定手段が推定した雑音のうち前記抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧する雑音抑圧手段と、前記クリーン音響モデルに、前記適応係数に基づいて特定される適応量に応じて、前記雑音推定手段が推定した雑音に基づいて生成される雑音モデルを合成して、雑音適応された適応後音響モデルを生成する音響モデル適応手段と、前記雑音抑圧手段で雑音を抑圧された入力信号と、前記音響モデル適応手段で生成された適応後音響モデルとに基づいて音声を認識するサーチ手段とを含む。
　本発明の一態様における第一の音声認識方法は、雑音の抑圧量を示す抑圧係数と、雑音を含まない音声に基づいて生成されるクリーン音響モデルに合成させる所定の雑音に基づいて生成される雑音モデルの適応量を示す適応係数と、を対応付けて記憶し、入力信号から、雑音を推定し、前記推定した雑音のうち前記抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧し、前記クリーン音響モデルに、前記適応係数に基づいて特定される適応量に応じて、前記推定した雑音に基づいて生成される雑音モデルを合成して、雑音適応された適応後音響モデルを生成し、前記雑音を抑圧された入力信号と、前記生成された適応後音響モデルとに基づいて音声を認識する。
　本発明の一態様における第一の音声認識プログラムは、コンピュータに、雑音の抑圧量を示す抑圧係数と、雑音を含まない音声に基づいて生成されるクリーン音響モデルに合成させる所定の雑音に基づいて生成される雑音モデルの適応量を示す適応係数と、を対応付けて記憶する処理と、入力信号から、雑音を推定する処理と、前記推定した雑音のうち前記抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧する処理と、前記クリーン音響モデルに、前記適応係数に基づいて特定される適応量に応じて、前記推定した雑音に基づいて生成される雑音モデルを合成して、雑音適応された適応後音響モデルを生成する処理と、前記雑音を抑圧された入力信号と、前記生成された適応後音響モデルとに基づいて音声を認識する処理とを実行させる。

　本発明の効果の一例は、音声認識率が高精度である音声認識に対応できる雑音の種類を増大させることができることである。

図１は、第一の実施の形態における音声認識装置の構成を示すブロック図である。図２は、第一の実施の形態における音声認識装置の動作の概要を示すフローチャートである。図３は、第一の実施の形態において、入力部を含む音声認識装置の構成例を示すブロック図である。図４は、第一の実施の形態の第一の変形例における音声認識装置の構成を示すブロック図である。図５は、クリーン音響モデル格納部が記憶する情報の一例を示す図である。図６は、推定雑音格納部が記憶する情報の一例を示す図である。図７は、適応後音響モデル格納部が記憶する情報の一例を示す情報である。図８は、第二の実施の形態における音声認識装置の構成を示すブロック図である。図９は、学習信号格納部が記憶する情報の一例を示す図である。図１０は、雑音抑圧信号格納部が記憶する情報の一例を示す図である。図１１は、第二の実施の形態における音声認識装置の係数決定部が抑圧係数および適応係数を更新する動作の概要を示すフローチャートである。図１２は、第三の実施の形態における音声認識装置の構成の一例を示すブロック図である。図１３は、第三の実施の形態における音声認識装置の動作の概要を示すフローチャートである。図１４は、第四の実施の形態における音声認識装置の構成を示すブロック図である。図１５は、第四の実施の形態における音声認識装置の動作の概要を示すフローチャートである。図１６は、第五の実施の形態における音声認識装置の構成を示すブロック図である。図１７は、第五の実施の形態における音声認識装置の動作の概要を示すフローチャートである。図１８は、第六の実施の形態における音声認識装置の構成を示すブロック図である。図１９は、ＡＵＲＯＲＡ２の八種類の雑音に対する、関連技術における雑音抑圧法およびモデル適応法での音声認識率を示す図である。図２０は、抑圧係数αと認識率との関係を示す図である。

　本発明を実施するための形態について図面を参照して詳細に説明する。なお、各図面および明細書記載の各実施の形態において、同様の機能を含む構成要素には同様の符号が与えられ、その説明を省略する場合がある。
　［第一の実施の形態］
　図１は、本発明の第一の実施の形態における音声認識装置１００の構成を示すブロック図である。図１を参照すると、音声認識装置１００は、係数格納部１０５と、雑音推定部１０１と、雑音抑圧部１０２と、音響モデル適応部１０３と、サーチ部１０４とを含む。
　第一の実施の形態における音声認識装置１００は、抑圧係数とその抑圧係数に基づいて特定される適応係数とを対応付けて記憶する。音声認識装置１００は、入力信号から、雑音を推定する。そして、音声認識装置１００は、前述の入力信号から、前述の推定された雑音のうち前述の抑圧係数に基づいて特定される抑圧量で特定される分の雑音を抑圧する。また、音声認識装置１００は、クリーン音響モデルに対し、前述の適応係数に基づいて特定される適応量に応じて、前述の推定された雑音に基づいて生成される雑音モデルの合成を基に、雑音適応された適応後音響モデルを生成する。そして、音声認識装置１００は、前述の雑音を抑圧された入力信号と、前述の生成された適応後音響モデルとに基づいて音声を認識する。
　よって、第一の実施の形態における音声認識装置１００は、雑音抑圧法および音響モデル適応法を適切に組み合わせることに基づいて雑音を抑圧するので、音声認識率が高精度である音声認識に対応できる雑音の種類を増大させることができる。
　以下、音声認識装置１００が含む各構成要素について説明する。
　＝＝＝係数格納部１０５＝＝＝
　係数格納部１０５は、抑圧係数と適応係数とを対応付けて記憶する。
　抑圧係数とは、雑音の抑圧量を示す情報である。例えば、抑圧係数が１であった場合、後述の雑音抑圧部１０２で雑音と推定される信号は、すべて抑圧される。一方、抑圧係数が０であった場合、後述の雑音抑圧部１０２で雑音と推定される信号は、抑圧されない。
　この抑圧係数は、スカラーまたは行列でもよい。また、抑圧係数は、雑音の抑圧に寄与する割合を示す情報でもよい。この場合、抑圧係数がスカラーであった場合、その値が０ないし１を示す。また、抑圧係数が行列であった場合、その行列の各成分が０ないし１を示す。
　適応係数とは、クリーン音響モデルに合成させる雑音モデルの適応量を示す情報である。例えば、適応係数が１であった場合、後述の音響モデル適応部１０３は、雑音モデルに特に重みをつけずにその雑音モデルとクリーン音響モデルとを合成し、適応後音響モデルを生成する。一方、適応係数が０であった場合、後述の音響モデル適応部１０３は、雑音モデルに重み０をかけてその雑音モデルとクリーン音響モデルとを合成し、適応後音響モデルを生成する。すなわち、この場合、音響モデル適応部１０３は、クリーン音響モデルを適応後音響モデルとみなして生成する。
　この適応係数は、スカラーまたは行列でもよい。また、適応係数は、モデルの合成の適応に寄与する割合を示す情報でもよい。この場合、適応係数がスカラーであった場合、その値が０ないし１を示す。また、適応係数が行列であった場合、その行列の各成分が０ないし１を示す。
　抑圧係数および適応係数は、あらかじめ行われる実験などを基に経験的に定められる値でもよい。例えば、この音声認識装置１００の実運用で耐雑音対象となる雑音が、雑音抑圧部１０２において推定されやすい雑音ならば、抑圧係数が大きい値でもよい。そして、この場合、適応係数は、小さい値でもよい。また、抑圧係数と適応係数との和は、所定の値を示すことが望ましい。すなわち、適応係数は、抑圧係数に基づいて算出される値でもよい。例えば、抑圧係数および適応係数がスカラーである場合、前述の所定の値とは、１または１に近い値であることが好ましい。一方、抑圧係数および適応係数が行列である場合、前述の所定の値とは単位行列ＩまたはＩに類似する行列であることが好ましい。ここで、「Ｉに類似する行列」とは、その行列とＩとの各成分の差の二乗の和が所定の閾値以下である行列でもよい。ただし、これは例示であり、「Ｉに類似する行列」は、これに限定されない。
　＝＝＝雑音推定部１０１＝＝＝
　雑音推定部１０１は、入力信号の時系列データから雑音成分を推定する。入力信号は、単位時間のフレームごとに切り出されている情報でもよい。または、図示しない入力部が、入力信号の時系列データを単位時間のフレームごとに切り出し、切り出したそれぞれの情報を雑音推定部１０１に渡してもよい。
　雑音推定部１０１は、入力信号から入力信号の特徴量ｙを抽出する。雑音推定部１０１は、例えば、入力信号のフレームごとに変換されるパワースペクトルにメルフィルタバンクの行列を掛け、さらに、その結果の対数を用いて、入力信号に対応する対数メルスペクトルを算出してもよい。あるいは、雑音推定部１０１は、その他の方法を用いて入力信号の特徴量を抽出してもよい。例えば、雑音推定部１０１は、入力信号から変換されるパワースペクトルの対数を特徴量として抽出してもよい。
　また、雑音推定部１０１は、推定した雑音成分から推定雑音の特徴量ｎ’を抽出する。雑音推定部１０１は、例えば、入力信号の特徴量の抽出と同様の方法を用いて推定雑音の特徴量ｎ’を抽出してもよい。
　＝＝＝雑音抑圧部１０２＝＝＝
　雑音抑圧部１０２は、係数格納部１０５に記憶されている抑圧係数に基づいて特定される抑圧量で特定される分の雑音を、入力信号から抑圧する。そして、雑音抑圧部１０２は、抑圧した信号である雑音抑圧信号の特徴量を抽出し、その雑音抑圧信号の特徴量を出力する。
　＝＝＝音響モデル適応部１０３＝＝＝
　音響モデル適応部１０３は、係数格納部１０５に格納されている適応係数に従って、適応量を制御してクリーン音響モデルに音響モデルを適応する。そして、音響モデル適応部１０３は、音響モデルを適応した適応後音響モデルを生成する。
　＝＝＝サーチ部１０４＝＝＝
　サーチ部１０４は、雑音抑圧部１０２が出力した雑音抑圧信号の特徴量と、音響モデル適応部１０３が適応した適応後音響モデル中に含まれる音素ごとの確率密度関数との距離を比較し、入力信号に対応する単語列を検索する。
　図２は、本発明の第一の実施の形態における音声認識装置１００の動作の概要を示すフローチャートである。
　雑音推定部１０１は、入力信号を受け取る（ステップＳ１０１）。例えば、入力信号が、サンプリング周波数８０００Ｈｚの１６ｂｉｔ　Ｌｉｎｅａｒ−ＰＣＭ（Ｌｉｎｅａｒ　Ｐｕｌｓｅ　Ｃｏｄｅ　Ｍｏｄｕｌａｔｉｏｎ）である場合を仮定する。この場合、入力信号には、１秒当たり８０００点分の波形データが格納されている。例えば、図示しない入力部は、波形データをフレーム幅２００点（２５ミリ秒）、フレームシフト８０点（１０ミリ秒）で時系列に従って逐次切り出す。そして、入力部は、切り出したデータに対して短時間離散フーリエ変換を行う。そして、入力部は、変換したデータをパワースペクトルに変換する。入力部は、変換したパワースペクトルを雑音推定部１０１に渡してもよい。入力部の動作は、例示であり、上記の動作に限られない。図３は、この入力部１０６を含む音声認識装置１００の構成例を示すブロック図である。
　次に、雑音推定部１０１は、受け取った入力信号から音声検出を用いて、音声区間と無音区間とをそれぞれ判定する（ステップＳ１０２）。音声区間とみなされた各区間は、一発声としてそれぞれ特定される。音声検出の具体的方法は、例えば次の二つの方法がある。
　第一の方法は、入力音声のパワースペクトルに基づき、ある閾値以上のパワースペクトルが得られる区間を音声区間とみなし、一方、ある閾値未満のパワースペクトルが得られる区間を無音区間とみなす方法である。
　第二の方法は、ガウス混合分布モデル（Ｇａｕｓｓｉａｎ　ｍｉｘｔｕｒｅ　ｍｏｄｅｌ；ＧＭＭ）に基づく音声区間検出手法である。まず、音声認識装置１００は、音声と非音声とのＧＭＭを定義する。そして、雑音推定部１０１は、入力信号のフレームごとに特徴量を抽出する。そして、雑音推定部１０１は、抽出した特徴量から各ＧＭＭの尤度を計算する。そして、雑音推定部１０１は、音声のＧＭＭと非音声のＧＭＭとの尤度比に基づいて、音声区間と無音区間とを判定する。
　次に、雑音推定部１０１は、受け取った入力信号から雑音成分を推定する（ステップＳ１０３）。雑音推定部１０１は、例えば既存の雑音推定方法を用いて、受け取った入力信号から雑音成分を推定する。この既存の雑音推定方法とは、例えば、以下に挙げられる方法である。
　第一の方法は、対象となる音声が発声される前の非音声区間（無音区間）の入力信号の平均値を用いて雑音を推定する方法である。第二の方法は、推定ＳＮＲ（ｓｉｇｎａｌ−ｎｏｉｓｅ　ｒａｔｉｏ）に基づいて非音声区間を推定し、常時雑音を推定する方法（例えば、特許文献５に記載された方法）である。
　雑音推定部１０１が推定した推定雑音は、雑音抑圧部１０２で用いられる。
　音響モデル適応部１０３は、クリーン音響モデルに対して音響モデルを適応するか否か判定する（ステップＳ１０４）。例えば、音響モデル適応部１０３は、雑音推定部１０１がそれぞれ判定した一発声ごとに、音響モデルを適応してもよい。
　または、音響モデル適応部１０３は、環境が変化したと判定した場合に音響モデルを適応してもよい。具体的には、音響モデル適応部１０３は、次の方法を用いて音響モデルを適応するか否か判定してもよい。
　雑音推定部１０１が推定した推定雑音の静的平均および静的分散を含む集合∧_ｎの静的平均がμ_ｎ、静的分散がΣ_ｎとそれぞれ表されると仮定する。また、前回音響モデル適応部１０３が音響モデルを適応した際の音響モデルのパラメータ∧_ｚの静的平均がμ’_ｎ、静的分散がΣ’_ｎとそれぞれ表されると仮定する。この場合に、音声認識装置１００は、あらかじめそれぞれの雑音統計量、すなわち静的平均および静的分散に基づいて所定の距離を定義する。音響モデル適応部１０３は、この距離を計算する。音響モデル適応部１０３は、計算した距離が所定の閾値以上である場合、すなわち雑音統計量がある一定値以上変化したと判定した場合に、環境が変化したと判定する。そして、音響モデル適応部１０３は、環境が変化したと判定した場合に、音響モデルを適応すると判定する。この場合、音響モデル適応部１０３は、雑音推定部１０１が推定した推定雑音に基づいてその推定雑音の静的平均および静的分散を含む集合∧_ｎの静的平均μ_ｎ、および、静的分散Σ_ｎを特定してもよい。
　音響モデル適応部１０３が音響モデルを適応すると判定した場合（ステップＳ１０４の″Ｙｅｓ″）、音響モデル適応部１０３は、以下を処理する。
　すなわち、音響モデル適応部１０３は、係数格納部１０５に記憶されている適応係数に基づいて適応量を制御し、クリーン音響モデルに音響モデルを適応する（ステップＳ１０５）。以下、音響モデル適応部１０３が適応した音響モデルは、適応後音響モデルとも呼ばれる。すなわち、音響モデル適応部１０３は、適応後音響モデルを生成する。例えば、クリーン音響モデルのパラメータが∧_ｘと、音響モデル適応部１０３が雑音適応した適応後音響モデルのパラメータが∧_ｚと表されると仮定する。また、雑音推定部１０１が推定した推定雑音の静的平均および静的分散を含む集合∧_ｎの適応係数がβであると仮定する。雑音推定部１０１が推定した推定雑音の静的平均および静的分散は、音響モデル適応部１０３が前回モデル適応したときから今回音響モデルを適応するときまでに推定された推定雑音に基づいて計算される値でもよい。適応係数βは、スカラーでも行列でもよい。このとき、クリーン音響モデルのパラメータ∧_ｘと適応係数βと雑音推定部１０１が推定した推定雑音の静的平均および静的分散を含む集合∧_ｎに基づいて、前述の適応後音響モデルのパラメータ∧_ｚは、以下の［数１］で表される。

　［数１］において、Ｍは、モデル適応を示す関数である。この関数Ｍは、音響モデル適応の方法に基づいて定められる。音響モデル適応の方法として、ＨＭＭ合成法、ヤコビ法、Ｖｅｃｔｏｒ　Ｔａｌｙｅｒ　Ｓｅｒｉｅｓ法（ＶＴＳ法）などが知られている。
　ＨＭＭ法は、あらかじめクリーンな音声から作られたＨＭＭ（以下、このＨＭＭは″クリーンＨＭＭ″とも記される）と、推定された雑音から作られたＨＭＭ、すなわち対象となる雑音環境で発生された音声のＨＭＭ、とを合成する方法である。ＨＭＭ法の一つとしては、例えば、Ｐａｒａｌｌｅｌ　Ｍｏｄｅｌ　Ｃｏｍｂｉｎａｔｉｏｎ法（ＰＭＣ法とも記される）がある。ＰＭＣ法は、特徴量をスペクトル領域の量に逆変換し、スペクトル領域において、前述の二つのＨＭＭを合成する方法である。
　ヤコビ法とＶＴＳ法とは、推定された雑音に基づいてクリーンＨＭＭを構成する各分布の雑音環境での変化を線形の式で近似する方法である。
　本明細書では、音響モデル適応の方法として、ＶＴＳ法が適用された場合における関数Ｍの例が示される。音響モデル適応部１０３が生成した適応後音響モデルのパラメータ∧_ｚは、μ_ｚｉｊ、Δμ_ｚｉｊ、ΔΔμ_ｚｉｊ、Σ_ｚｉｊ、ΔΣ_ｚｉｊ、および、ΔΔΣ_ｚｉｊの六つのパラメータからなると仮定する。ここで、μ_ｚｉｊは、ＨＭＭの正規分布の静的平均を示す。Δμ_ｚｉｊは、ＨＭＭの正規分布の一次の動的平均を示す。ΔΔμ_ｚｉｊは、ＨＭＭの正規分布の二次の動的平均を示す。Σ_ｚｉｊは、ＨＭＭの正規分布の静的分散を示す。ΔΣ_ｚｉｊは、ＨＭＭの正規分布の一次の動的分散を示す。ΔΔΣ_ｚｉｊは、ＨＭＭの正規分布の二次の動的分散を示す。ｉはＨＭＭの状態番号、ｊはガウシアンの番号をそれぞれ示す。クリーン音響モデルのパラメータ∧_ｘも、∧_ｚと同様に、μ_ｘｉｊ、Δμ_ｘｉｊ、ΔΔμ_ｘｉｊ、Σ_ｘｉｊ、ΔΣ_ｘｉｊ、および、ΔΔΣ_ｘｉｊの六つのパラメータからなると仮定する。推定雑音の静的平均および静的分散を含む集合∧_ｎの静的平均がμ_ｎ、静的分散がΣ_ｎとそれぞれ表されると仮定する。また、集合∧_ｎの一次の動的分散がΔΣ_ｎ、二次の動的分散がΔΔΣ_ｎ、とそれぞれ表されると仮定する。これらのパラメータに基づいて、適応後音響モデル∧_ｚは、以下の［数２］ないし［数７］の六つの式で表される。

　［数２］において、ｇ（μ_ｘｉｊ，μ_ｎ）は、以下の［数８］で表される。関数ｇは、特徴量領域におけるゲインを示す関数である。

　［数３］ないし［数７］において、Ｇは、μ_ｎにおける関数ｇのヤコビアンを示す。また［数３］ないし［数７］において、Ｉは、単位行列を示す。また、［数５］ないし［数７］において、「・^Ｔ」は、行列の転置を示す。［数８］において、簡単のため音声認識で使われる各特徴量は、単にパワースペクトルの対数を求めて導かれる値であると仮定されている。この特徴量は、パワースペクトルに対して対数を求めて導かれる値に離散コサイン変換を施すことで得られる値でもよい。
　ステップＳ１０５の後、音声認識装置１００は、ステップＳ１０８へ進む。
　一方、ステップＳ１０４において、音響モデル適応部１０３が音響モデルを適応しないと判定した場合（ステップＳ１０４の″Ｎｏ″）、雑音抑圧部１０２は、以下を処理する。すなわち、雑音抑圧部１０２は、入力信号と、雑音推定部１０１が推定した推定雑音と、係数格納部１０５が記憶する抑圧係数とに基づいて、雑音の抑圧量を制御した雑音抑圧を入力信号に対して用いて、雑音抑圧信号を生成する。そして、雑音抑圧部１０２は、生成した雑音抑圧信号から雑音抑圧信号の特徴量を抽出し、抽出した雑音抑圧信号の特徴量を出力する（ステップＳ１０６）。
　また、雑音抑圧部１０２は、入力信号から入力信号の特徴量ｙを抽出する。雑音抑圧部１０２は、例えば、入力信号のフレームごとに変換されるパワースペクトルにメルフィルタバンクの行列を掛け、さらに、その結果の対数を用いて、入力信号に対応する対数メルスペクトルを算出してもよい。あるいは、雑音抑圧部１０２は、その他の方法を用いて入力信号の特徴量を抽出してもよい。例えば、雑音抑圧部１０２は、入力信号から変換されるパワースペクトルの対数を特徴量として抽出してもよい。
　また、雑音抑圧部１０２は、推定した雑音成分から推定雑音の特徴量ｎ’を抽出する。雑音抑圧部１０２は、例えば、入力信号の特徴量の抽出と同様の方法を用いて推定雑音の特徴量ｎ’を抽出してもよい。
　例えば、入力信号の特徴量がｙ、推定雑音の特徴量がｎ’、抑圧係数がαで示されるとき、雑音抑圧部１０２が生成する雑音抑圧信号の特徴量ｚは、以下の［数９］で表される。

　［数９］において、Ｆは、雑音抑圧を示す関数である。この関数Ｆは、雑音抑圧の方法に基づいて定められる。雑音抑圧の方法として、スペクトルサブトラクション法（以下、ＳＳ法と記される）や、ウィナーフィルター法（以下、ＷＦ法と記される）などがある（例えば非特許文献１参照）。ＳＳ法を用いて雑音抑圧された入力信号のパワースペクトルは、以下の［数１０］で表される。

　［数１０］は、周波数帯域ごと、若しくは、サブバンドごとに定義される。なお、［数１１］で示される［数１０］の左辺は、雑音を抑圧された音声のパワースペクトルを示す。

　また、［数１０］において、Ｙ^２は入力信号のパワースペクトル、Ｎ’^２は推定された雑音のパワースペクトルを示す。ｍａｘ［・，・］は、どちらか大きい方の値を取る関数を示す。また、γは、フロアリング係数である。フロアリング係数γは、雑音の種類やＳ／Ｎ比に応じて適切になるよう設定されることが好ましい。
　また、ＷＦ法を用いて雑音抑圧された入力信号は、以下の［数１２］で表される。

　以下の［数１３］で示される［数１２］の左辺は、ＷＦ法を用いて雑音抑圧された入力信号を示す。

　また、［数１２］においてＧ_ＷＦ ^−１は、ウィナーゲインを示す。ウィナーゲインの具体的な形は、以下の［数１４］で表される。

　［数１４］において、Ｄ’^２は仮推定音声、Ｎ’^２は推定雑音のパワースペクトルを示す。なお、仮推定音声を推定する方法は、以下に挙げるものがある。
　第一の方法は、ＳＳ法を用いて仮推定音声を推定する方法である。第二の方法は、クリーン信号で学習したＧＭＭを用いて推定するＭＢＷ（Ｍｏｄｅｌ−Ｂａｓｅｄ　Ｗｉｅｎｅｒ　Ｆｉｌｔｅｒ）法である。
　例えば、雑音抑圧部１０２は、以下の［数１５］を用いて仮推定音声Ｄ’を求めてもよい。

　［数１５］において、ｔは、入力信号が分割された各フレームを識別できるフレーム番号である。Ｙ_ｔは、フレーム番号ｔにおける入力信号のパワースペクトルである。Ｎ_ｔは、フレーム番号ｔにおける推定雑音のパワースペクトルである。ηは、所定の係数である。
　雑音抑圧部１０２は、［数１５］に基づいて求めた仮推定音声から仮推定音声の特徴量ｄ’を抽出する。雑音抑圧部１０２は、例えば、入力信号の特徴量の抽出と同様の方法を用いて仮推定音声の特徴量ｄ’を抽出してもよい。
　本明細書では、雑音抑圧の方法として、ＷＦ法が適用された場合における関数Ｆの例が示される。雑音抑圧部１０２が生成する雑音抑圧信号の特徴量ｚは、以下の［数１６］で表される。

　［数１６］において、関数ｇは、［数８］におけるｇと同一の関数である。また、［数１６］において、ｄ’は、仮推定音声の特徴量である。一次の動的特徴量Δｚおよび二次の動的特徴量ΔΔｚは、［数１６］におけるｚから導かれる。例えば、ΔｚおよびΔΔｚは、以下の［数１７］を用いて求められる。

　［数１７］においてｔは、入力信号が分割された各フレームを識別できるフレーム番号である。また、［数１７］においてθの値は、通常、Δｚの計算においては３、ΔΔｚの計算においては２である。
　サーチ部１０４は、雑音抑圧部１０２が出力した雑音抑圧信号の特徴量と、音響モデル適応部１０３が適応した適応後音響モデル中に含まれる音素ごとの確率密度関数との距離を比較し、入力信号に対応する単語列を検索する（ステップＳ１０７）。
　雑音推定部１０１は、まだ信号が入力されているか否か判定する（ステップＳ１０８）。例えば雑音推定部１０１は、ステップＳ１０２において検出した無音区間が所定の期間続いているか否かに基づいて、まだ信号が入力されているか否か判定してもよい。
　雑音推定部１０１は、信号が入力されていないと判定した場合（ステップＳ１０８の″Ｎｏ″）、音声認識装置１００は、動作を終了する。一方、雑音推定部１０１は、まだ信号が入力されていると判定した場合（ステップＳ１０８の″Ｙｅｓ″）、音声認識装置１００は、ステップＳ１０１に戻る。
　第一の実施の形態における音声認識装置１００は、抑圧係数とその抑圧係数に基づいて特定される適応係数とを対応付けて記憶する。音声認識装置１００は、入力信号から、雑音を推定する。そして、音声認識装置１００は、前述の入力信号から、前述の推定された雑音のうち前述の抑圧係数に基づいて特定される抑圧量で特定される分の雑音を抑圧する。また、音声認識装置１００は、クリーン音響モデルに対し、前述の適応係数に基づいて特定される適応量に応じて、前述の推定された雑音に基づいて生成される雑音モデルを合成し、雑音適応された適応後音響モデルを生成する。そして、音声認識装置１００は、前述の雑音を抑圧された入力信号と、前述の生成された適応後音響モデルとに基づいて音声を認識する。
　よって第一の実施の形態における音声認識装置１００は、雑音抑圧法および音響モデル適応法の適切な組み合わせに基づいて雑音を抑圧するので、音声認識率が高精度である音声認識に対応できる雑音の種類を増大させることができる。
　また、第一の実施の形態における音声認識装置１００は、抑圧係数αと適応係数βとを用いて、雑音抑圧法とモデル適応法との耐雑音への寄与率をそれぞれ適切に設定できる。例えば、一般に、入力信号に含まれる雑音の短時間変動が大きい場合、雑音推定が難しくなる。この場合、第一の実施の形態における音声認識装置１００は、雑音抑圧法の耐雑音への寄与率を下げ、モデル適応法の耐雑音への寄与率を上げるように、抑圧係数、適応係数を与える。すなわち、音声認識装置１００は、抑圧係数αの値を小さくし、適応係数βの値を大きくする。その逆に、入力信号に雑音推定が容易な雑音が含まれる場合、音声認識装置１００は、雑音抑圧法の耐雑音への寄与率を上げ、モデル適応法の耐雑音への寄与率を下げる。
　これらの動作に基づき、第一の実施の形態における音声認識装置１００は、対応可能な雑音の種類が増える。その上、雑音抑圧手法とモデル適応法との組み合わせが可能になることから、第一の実施の形態における音声認識装置１００は、雑音抑圧手法とモデル適応法との耐雑音機能の同時利用が可能となる。
　［第一の実施の形態の第一の変形例］
　第一の実施の形態において、音声認識装置１００は、入力部１０６とクリーン音響モデル格納部１０７と推定雑音格納部１０８と適応後音響モデル格納部１０９とを含んでもよい。図４は、本発明の第一の実施の形態の第一の変形例における音声認識装置１００の構成を示すブロック図である。
　＝＝＝入力部１０６＝＝＝
　入力部１０６は、入力信号を受け取ると、その入力信号を時系列に従って逐次切り出す。そして、入力部１０６は、切り出したデータに対して短時間離散フーリエ変換を行う。そして、入力部１０６は、変換したデータをパワースペクトルに変換する。入力部１０６は、変換したパワースペクトルを雑音推定部１０１と雑音抑圧部１０２とに渡す。
　雑音推定部１０１は、入力部１０６から受け取るデータから雑音成分を推定する。また、雑音抑圧部１０２は、係数格納部１０５に記憶されている抑圧係数に基づいて特定される抑圧量で特定される分の雑音を、入力部１０６から受け取る入力信号から抑圧する。
　＝＝＝クリーン音響モデル格納部１０７＝＝＝
　クリーン音響モデル格納部１０７は、雑音を含まない信号であるクリーン信号に基づいて学習されたクリーン音響モデルを示す情報を記憶する。図５は、クリーン音響モデル格納部１０７が記憶する情報の一例を示す図である。図５を参照すると、クリーン音響モデル格納部１０７は、クリーン音響モデル∧_ｘとして、状態番号ｉとガウシアン番号ｊとの組、静的平均μ_ｘｉｊ、一次動的平均Δμ_ｘｉｊ、二次動的平均ΔΔμ_ｘｉｊ、静的分散Σ_ｘｉｊ、一次動的分散ΔΣ_ｘｉｊ、および二次動的分散ΔΔΣ_ｘｉｊをそれぞれ対応付けて記憶する。
　音響モデル適応部１０３は、音響モデルを適応すると判定した場合に、クリーン音響モデル格納部１０７に記憶されているクリーン音響モデル∧_ｘを利用する。具体的には、音響モデル適応部１０３は、このクリーン音響モデル∧_ｘに、係数格納部１０５に記憶されている適応係数に基づいて適応量を制御し、音響モデルを適応させることで、適応後音響モデルを生成する。
　＝＝＝推定雑音格納部１０８＝＝＝
　推定雑音格納部１０８は、雑音推定部１０１が推定した推定雑音を示す情報を記憶する。図６は、推定雑音格納部１０８が記憶する情報の一例を示す図である。図６を参照すると、推定雑音格納部１０８は、時刻情報と、推定雑音の特徴量と、雑音の統計量∧_ｎとを対応付けて記憶する。時刻情報は、ある時刻を示す情報である。推定雑音の特徴量は、雑音抑圧部１０２が抽出した推定雑音の特徴量である。雑音の統計量∧_ｎは、静的平均μ_ｎ、静的分散Σ_ｎｉｊ、一次動的分散ΔΣ_ｎｉｊ、および二次動的分散ΔΔΣ_ｎｉｊを含む情報である。
　雑音推定部１０１は、推定した推定雑音に基づいてその推定雑音の特徴量を抽出してもよい。雑音推定部１０１は、雑音抑圧部１０２における推定雑音からの特徴量抽出と同様に、その推定雑音の特徴量を抽出してもよい。さらに、雑音推定部１０１は、抽出した特徴量に基づいてその雑音の統計量を算出し、算出した雑音の統計量を推定雑音格納部１０８に記憶してもよい。
　音響モデル適応部１０３は、推定雑音格納部１０８に記憶されている推定雑音の統計量∧_ｎに基づいて、適応後音響モデルのパラメータを算出する。適応後音響モデルのパラメータの算出方法は、第一の実施の形態における適応後音響モデルのパラメータの算出方法と同様である。
　＝＝＝適応後音響モデル格納部１０９＝＝＝
　適応後音響モデル格納部１０９は、音響モデル適応部１０３が生成した適応後音響モデルを示す情報を記憶する。図７は、適応後音響モデル格納部１０９が記憶する情報の一例を示す情報である。図７を参照すると、適応後音響モデル格納部１０９は、適応後音響モデル∧_ｚとして、状態番号ｉとガウシアン番号ｊとの組、静的平均μ_ｚｉｊ、一次動的平均Δμ_ｚｉｊ、二次動的平均ΔΔμ_ｚｉｊ、静的分散Σ_ｚｉｊ、一次動的分散ΔΣ_ｚｉｊ、および二次動的分散ΔΔΣ_ｚｉｊをそれぞれ対応付けて記憶する。
　サーチ部１０４は、雑音抑圧部１０２が出力した雑音抑圧信号の特徴量と、適応後音響モデル格納部１０９に記憶された適応後音響モデル中に含まれる音素ごとの確率密度関数との距離を比較し、入力信号に対応する単語列を検索する。
　第一の実施の形態の第一の変形例における音声認識装置１００は、第一の実施の形態における音声認識装置１００と同様の効果を有する。
　［第二の実施の形態］
　図８は、本発明の第二の実施の形態における音声認識装置２００の構成を示すブロック図である。図８を参照すると、音声認識装置２００は、係数格納部２０５と、雑音推定部２０１と、雑音抑圧部２０２と、音響モデル適応部１０３と、サーチ部１０４と、クリーン音響モデル格納部１０７と、推定雑音格納部１０８と、適応後音響モデル格納部１０９と、係数決定部２１０と、学習信号格納部２１１と、雑音抑圧信号格納部２１２と、を含む。
　第二の実施の形態における音声認識装置２００は、係数決定部２１０が学習データに基づいて抑圧係数αと適応係数βとを決定する。
　＝＝＝学習信号格納部２１１＝＝＝
　学習信号格納部２１１は、抑圧係数および適応係数を決定するために用いられる学習データを記憶する。図９は、学習信号格納部２１１が記憶する情報の一例を示す図である。図９を参照すると、学習信号格納部２１１は、時刻情報と、その時刻情報が示す時刻における学習信号の時間領域データとを対応付けて記憶する。学習データには、音声認識装置２００の実運用において想定される雑音と同様の雑音を示す情報が少なくとも含まれていることが望ましい。そして、学習データには、数発声分のデータが少なくとも含まれていることが望ましい。
　＝＝＝雑音抑圧信号格納部２１２＝＝＝
　雑音抑圧信号格納部２１２は、雑音抑圧部２０２が入力信号から雑音を抑圧した雑音抑圧信号に基づいて抽出する雑音抑圧信号の特徴量を記憶する。図１０は、雑音抑圧信号格納部２１２が記憶する情報の一例を示す図である。図１０を参照すると、雑音抑圧信号格納部２１２は、時刻情報と、その時刻情報が示す時刻における雑音抑圧信号の特徴量とを対応付けて記憶する。
　＝＝＝係数格納部２０５＝＝＝
　係数格納部２０５は、抑圧係数と適応係数とを対応付けて記憶する。また、係数格納部２０５は、後述の係数決定部２１０から抑圧係数と適応係数とを受け取り、受け取った情報で記憶されている各情報を更新する。
　＝＝＝雑音推定部２０１＝＝＝
　雑音推定部２０１は、学習信号格納部２１１が記憶する学習信号のデータから、第一の実施の形態における雑音推定部１０１と同様の方法を用いて雑音を推定する。
　＝＝＝雑音抑圧部２０２＝＝＝
　雑音抑圧部２０２は、係数格納部２０５に記憶されている抑圧係数に基づいて特定される抑圧量の雑音を、学習信号格納部２１１に記憶されている学習データから抑圧する。そして、雑音抑圧部２０２は、抑圧した信号である雑音抑圧信号に基づいて、その雑音抑圧信号の特徴量を抽出する。雑音抑圧部２０２は、抽出した雑音抑圧信号の特徴量を雑音抑圧信号格納部２１２に記憶する。
　＝＝＝係数決定部２１０＝＝
　係数決定部２１０は、雑音抑圧信号格納部２１２に記憶されている雑音抑圧信号の特徴量と、適応後音響モデル格納部１０９に記憶されている学習適応モデルとを比較する。そして、係数決定部２１０は、その比較結果に基づいて抑圧係数と適応係数とを更新する。具体的には、係数決定部２１０は、前回更新された抑圧係数および適応係数と、前々回に更新された抑圧係数および適応係数との差分が所定の閾値以下でない場合に、抑圧係数と適応係数とを更新する。
　図１１は、本発明の第二の実施の形態における音声認識装置２００の係数決定部２１０が抑圧係数および適応係数を更新する動作の概要を示すフローチャートである。
　雑音推定部２０１は、学習信号格納部２１１に記憶されている学習データを読み出す（ステップＳ２０１）。
　雑音推定部２０１は、受け取った入力信号から第一の実施の形態におけるステップＳ１０２と同様に、音声区間と無音区間とをそれぞれ判定する（ステップＳ２０２）。
　そして、雑音推定部２０１は、学習信号格納部２１１が記憶する学習信号のデータから、第一の実施の形態における雑音推定部１０１と同様の方法に基づいて雑音を推定する（ステップＳ２０３）。
　雑音抑圧部２０２は、係数格納部２０５に記憶されている抑圧係数に基づいて特定される抑圧量の雑音を、学習信号格納部２１１に記憶されている学習データから抑圧する。そして、雑音抑圧部２０２は、抑圧した信号である雑音抑圧信号からその雑音抑圧信号の特徴量を抽出する（ステップＳ２０４）。
　雑音抑圧部２０２は、抽出した雑音抑圧信号の特徴量を雑音抑圧信号格納部２１２に記憶する（ステップＳ２０５）。
　雑音抑圧部２０２は、雑音抑圧信号の特徴量の記憶が終わったか否か判定する（ステップＳ２０６）。例えば、雑音抑圧部２０２は、学習信号格納部２１１が記憶する学習信号の全データが、雑音抑圧信号の特徴量として雑音抑圧信号格納部２１２に記憶されているか否かに基づいて雑音抑圧信号の特徴量の記憶が終わったか否か判定してもよい。
　雑音抑圧部２０２が、雑音抑圧信号の特徴量の記憶が終わったと判定した場合（ステップＳ２０６の″Ｙｅｓ″）、音声認識装置２００は、次のステップＳ２０７に進む。一方、雑音抑圧部２０２が、雑音抑圧信号の特徴量の記憶が終わっていないと判定した場合（ステップＳ２０６の″Ｎｏ″）、音声認識装置２００は、ステップＳ２０１に戻る。
　音響モデル適応部１０３は、クリーン音響モデルに、係数格納部２０５に記憶されている適応係数に基づいて適応量を制御し、音響モデルを適応する（ステップＳ２０７）。ステップＳ２０７における音響モデル適応部１０３は、第一の実施の形態における音響モデル適応部１０３のステップＳ１０５と同様である。
　係数決定部２１０は、係数格納部２０５に記憶されている抑圧係数と適応係数とを更新するか否か判定する（ステップＳ２０８）。具体的には、係数決定部２１０は、前回更新した抑圧係数および適応係数の値と、前々回更新した抑圧係数および適応係数の値との差分を特定する。そして、係数決定部２１０は、特定した差分のいずれもが所定の閾値未満である場合に、抑圧係数および適応係数が収束したと判定し、係数格納部２０５に記憶されている抑圧係数と適応係数とを更新しないと判定する。一方、係数決定部２１０は、特定した差分の少なくともいずれかが所定の閾値以上である場合に、係数格納部２０５に記憶されている抑圧係数と適応係数とを更新すると判定する。
　なお、前回更新した抑圧係数および適応係数の値と、前々回更新した抑圧係数および適応係数の値とを記憶する構成は、特に制限は無い。
　例えば、係数決定部２１０が、前回更新した抑圧係数および適応係数の値と、前々回更新した抑圧係数および適応係数の値とをそれぞれ記憶してもよい。
　あるいは、係数格納部２０５が、前回更新した抑圧係数および適応係数の値と、前々回更新した抑圧係数および適応係数の値とをそれぞれ記憶してもよい。この場合、係数決定部２１０は、係数格納部２０５から前回更新した抑圧係数および適応係数の値と、前々回更新した抑圧係数および適応係数の値とをそれぞれ読み出す。
　係数決定部２１０が係数格納部２０５に記憶されている抑圧係数と適応係数とを更新しないと判定した場合（ステップＳ２０８の″Ｎｏ″）、音声認識装置２００は、動作を終了する。一方、係数決定部２１０が係数格納部２０５に記憶されている抑圧係数と適応係数とを更新すると判定した場合（ステップＳ２０８の″Ｙｅｓ″）、音声認識装置２００は、次のステップＳ２０９に進む。
　係数決定部２１０は、雑音抑圧信号格納部２１２に記憶されている雑音抑圧信号の特徴量が作る分布と、適応後音響モデル格納部１０９に記憶されている適応後音響モデルとに基づいて、音声認識率を向上させる抑圧係数および適応係数をそれぞれ更新する（ステップＳ２０９）。
　具体的には、係数決定部２１０は、前述の雑音抑圧信号と、適応後音響モデルとに基づいて特定される関数であるＱ関数を生成する。係数決定部２１０は、このＱ関数を最大化させる抑圧係数および適応係数を用いて、更新する抑圧係数および適応係数を算出する。
　Ｑ関数の具体的な形式は、以下の［数１８］に示される。

　［数１８］において、ｚ_ｔ（α）は、［数９］におけるｚと同値である。ｚ_ｔ（α）は、［数９］におけるｚに、抑圧係数αと時刻を示す変数ｔが明記された変数である。Δｚ_ｔ（α）は、ｚ_ｔ（α）に基づいて導かれる一次の動的特徴量である。また、ΔΔｚ_ｔ（α）は、ｚ_ｔ（α）に基づいて導かれる二次の動的特徴量である。∧_ｚ（β）は、［数１］における∧_ｚと同値である。∧_ｚ（β）も、［数１］における∧_ｚに、適応係数βが明記された変数である。ｉは、ＨＭＭの状態番号である。また、ｊは、ガウシアンの番号である。
　［数１８］において、［数１９］で示される項は、正規分布である。

　γ（ｉ，ｊ，ｔ）は、ｉおよびｊの事後確率である。すなわち、γについて以下の［数２０］が成立する。

　［数２０］において、α’は、更新前の抑圧係数である。β’は、更新前の適応係数である。
　平均がμと、分散がΣと、確率変数がｘと、それぞれ表され、正規分布がＮ（ｘ；μ，Σ）と表される場合、［数１８］は、［数２１］のようにも表される。

　［数２１］に示されるＱ関数を最大化させるための抑圧係数αおよび適応係数βの具体的な導出方法が以下に示される。ニュートン法などの数値解析を適用し、Ｑ関数を最大化させる抑圧係数αおよび適応係数βが導出される。
　計算量を軽減させるため、本明細書では、例えば、閉じた形式（Ｃｌｏｓｅｄ−ｆｏｒｍ）である式に基づいて抑圧係数αおよび適応係数βが求められる例を示す。この場合のＱ関数として、適応後音響モデルが含む三つの平均パラメータ（μ_ｚｉｊ、Δμ_ｚｉｊ、ΔΔμ_ｚｉｊ）のうち、一つのパラメータが適応係数βに従うＱ関数が適用されてもよい。
　例えば、静的平均（μ_ｚｉｊ）が適応係数βに従い、その他のパラメータが更新前の適応係数β’に従う場合、Ｑ関数は、以下の［数２２］に用いて与えられる。

　抑圧係数αおよび適応係数βがスカラーであり、抑圧係数αと適応係数βとの関係が、α＋β＝１という式で与えられる場合、［数２２］は、以下の［数２３］のように表される。
　また、抑圧係数αおよび適応係数βが対角行列であり、抑圧係数αと適応係数βとの関係が、α＋β＝Ｉ（ただしＩは単位行列）という式で与えられる場合、［数２２］は、以下の［数２４］で示される式を用いても表される。

　［数２３］および［数２４］において、［数２５］で示される関係が成立する。

　［数２４］において、Ｇ’_ｔｉｊは、対角行列であり、［数２６］に示される関係が成立する。

　［数２６］において、ｄｉａｇ（・）は、正方行列の対角成分をベクトル化する演算子である。
　抑圧係数αおよび適応係数βが一般の正方行列である場合、［数２４］は、以下の［数２７］のようにも表される。

　［数２７］においてｖｅｃ（・）は、行列をベクトル化する演算子である。また、以下の［数２８］で示される演算子は、クロネッカー積を示す演算子である。

　［数２７］において、以下の［数２９］で示される関係が成立する。

　ステップＳ２０９の後、音声認識装置２００は、ステップＳ２０１に戻る。
　第二の実施の形態における音声認識装置２００は、学習データに基づいてＱ関数を最大化させる抑圧係数αおよび適応係数βを算出する。この算出に基づき、音声認識装置２００は、高認識精度を実現できる抑圧係数および適応係数を決定できる手段を含むため、より高い音声認識率を実現できる。
　［第三の実施の形態］
　図１２は、本発明の第三の実施の形態における音声認識装置３００の構成の一例を示すブロック図である。図１２を参照すると、音声認識装置３００は、係数格納部２０５と、雑音推定部１０１と、雑音抑圧部３０２と、音響モデル適応部１０３と、サーチ部３０４と、入力部１０６と、クリーン音響モデル格納部１０７と、推定雑音格納部１０８と、適応後音響モデル格納部１０９と、係数決定部２１０と、雑音抑圧信号格納部２１２と、を含む。
　第三の実施の形態における音声認識装置３００は、入力信号から推定される推定雑音を抑圧係数に応じて抑圧した雑音抑圧信号の分布と、適応係数に基づいて適応された適応後音響モデルとに基づいて、抑圧係数と適応係数とを更新する。そのため、音声認識装置３００は、入力信号を基に、適宜抑圧係数および適応係数を更新できる。すなわち、音声認識装置３００は、入力信号ごと、例えば、一発声ごとに、最適な抑圧係数および適応係数を用いて、雑音抑圧および雑音適応ができる。
　＝＝＝雑音抑圧部３０２＝＝＝
　雑音抑圧部３０２は、入力部１０６から入力信号を受け取る。そして、雑音抑圧部３０２は、係数格納部１０５に記憶されている抑圧係数に基づいて特定される抑圧量の雑音を、受け取った入力信号から抑圧する。雑音抑圧部３０２は、抑圧した信号である雑音抑圧信号からその雑音抑圧信号の特徴量を抽出する。そして、雑音抑圧部３０２は、抽出した雑音抑圧信号の特徴量を雑音抑圧信号格納部２１２に記憶する。雑音抑圧部３０２が含むその他の機能は、第一の実施の形態における雑音抑圧部１０２が含む機能と同様でもよい。
　＝＝＝サーチ部３０４＝＝＝
　サーチ部３０４は、雑音抑圧信号格納部２１２に記憶されている雑音抑圧信号の特徴量と、適応後音響モデル格納部１０９に記憶されている適応後音響モデル中に含まれる音素ごとの確率密度関数との距離を比較し、入力信号に対応する単語列を検索する。サーチ部３０４が含むその他の機能は、第一の実施の形態におけるサーチ部１０４が含む機能と同様でもよい。
　図１３は、本発明の第三の実施の形態における音声認識装置３００の動作の概要を示すフローチャートである。
　入力部１０６は、入力信号を受け取り、その入力信号を時系列に従って逐次切り出す。そして、入力部１０６は、切り出したデータに対して短時間離散フーリエ変換を行う。そして、入力部１０６は、変換したデータをパワースペクトルに変換する（ステップＳ３０１）。入力部１０６は、変換したパワースペクトルを雑音推定部１０１に渡す。
　雑音推定部１０１は、入力部１０６から入力信号を受け取る。次に、雑音推定部１０１は、受け取った入力信号からの音声検出に基づいて、音声区間と無音区間とをそれぞれ判定する（ステップＳ３０２）。ステップＳ３０２における雑音推定部１０１の処理は、第一の実施の形態における雑音推定部１０１のステップＳ１０２と同様である。
　雑音推定部１０１は、受け取った入力信号から雑音成分を推定する（ステップＳ３０３）。ステップＳ３０３における雑音推定部１０１の処理は、第一の実施の形態における雑音推定部１０１のステップＳ１０３と同様である。雑音推定部１０１は、推定雑音からその推定雑音の特徴量を抽出し、その推定雑音の特徴量を推定雑音格納部１０８に記憶する。
　雑音抑圧部３０２は、入力信号と、雑音推定部１０１が推定した推定雑音と、係数格納部１０５が記憶する抑圧係数とに基づいて、入力信号から雑音を抑圧し、雑音抑圧信号を生成する。そして、雑音抑圧部３０２は、生成した雑音抑圧信号からその雑音抑圧信号の特徴量を抽出する（ステップＳ３０４）。ステップＳ３０４における雑音抑圧部３０２の処理は、第一の実施の形態における雑音抑圧部１０２のステップＳ１０６と同様である。雑音抑圧部３０２は、雑音推定部１０１が抽出した推定雑音の特徴量を推定雑音格納部１０８から読み出してもよい。
　雑音抑圧部３０２は、抽出した雑音抑圧信号の特徴量を雑音抑圧信号格納部２１２に記憶する（ステップＳ３０５）。ステップＳ３０５における雑音抑圧部３０２の処理は、第二の実施の形態における雑音抑圧部２０２のステップＳ２０５と同様である。
　雑音抑圧部３０２は、雑音抑圧信号の特徴量の記憶が終わったか否か判定する（ステップＳ３０６）。ステップＳ３０６における雑音抑圧部３０２の処理は、第二の実施の形態における雑音抑圧部２０２のステップＳ２０６と同様である。
　雑音抑圧部３０２が、雑音抑圧信号の特徴量の記憶が終わったと判定した場合（ステップＳ３０６の″Ｙｅｓ″）、音声認識装置３００は、次のステップＳ３０７に進む。一方、雑音抑圧部３０２が、雑音抑圧信号の特徴量の記憶が終わっていないと判定した場合（ステップＳ３０６の″Ｎｏ″）、音声認識装置３００は、ステップＳ３０１に戻る。
　音響モデル適応部１０３は、あらかじめクリーン音響モデル格納部１０７に記憶されているクリーン音響モデルに、係数格納部２０５に記憶されている適応係数に基づいて適応量を制御し、音響モデルを適応する（ステップＳ３０７）。ステップＳ３０７における音響モデル適応部１０３の処理は、第一の実施の形態における音響モデル適応部１０３のステップＳ１０５と同様である。
　係数決定部２１０は、係数格納部２０５に記憶されている抑圧係数と適応係数とを更新するか否か判定する（ステップＳ３０８）。具体的には、係数決定部２１０は、前回更新した抑圧係数および適応係数の値と、前々回更新した抑圧係数および適応係数の値との差分を特定する。そして、係数決定部２１０は、特定した差分のいずれもが所定の閾値未満である場合に、抑圧係数および適応係数が収束したと判定し、係数格納部２０５に記憶されている抑圧係数と適応係数とを更新しないと判定する。一方、係数決定部２１０は、特定した差分の少なくともいずれかが所定の閾値以上である場合に、係数格納部２０５に記憶されている抑圧係数と適応係数とを更新すると判定する。
　係数決定部２１０は、係数格納部２０５に記憶されている抑圧係数と適応係数とを更新すると判定した場合（ステップＳ３０８の″Ｙｅｓ″）、以下を処理する。すなわち、係数決定部２１０は、雑音抑圧信号格納部２１２に記憶されている雑音抑圧信号の特徴量が作る分布と、適応後音響モデル格納部１０９に記憶されている適応後音響モデルとに基づいて、音声認識率を向上させる抑圧係数および適応係数に、抑圧係数および適応係数をそれぞれ更新する（ステップＳ３０９）。ステップＳ３０９における係数決定部２１０の処理は、第二の実施の形態における係数決定部２１０のステップＳ２０９と同様である。ステップＳ３０９の後、音声認識装置３００は、ステップＳ３０１に戻る。
　一方、係数決定部２１０が係数格納部２０５に記憶されている抑圧係数と適応係数とを更新しないと判定した場合（ステップＳ３０８の″Ｎｏ″）、サーチ部３０４は、以下を処理する。すなわち、サーチ部３０４は、雑音抑圧信号格納部２１２に記憶されている雑音抑圧信号の特徴量と、適応後音響モデル格納部１０９に記憶されている適応後音響モデル中に含まれる音素ごとの確率密度関数との距離を比較し、入力信号に対応する単語列を検索する（ステップＳ３１０）。ステップＳ３１０におけるサーチ部３０４の処理は、第一の実施の形態におけるサーチ部１０４におけるステップＳ１０７と同様である。
　雑音推定部１０１は、まだ信号が入力されているか否か判定する（ステップＳ３１１）。例えば、雑音推定部１０１は、ステップＳ３０２において検出した無音区間が所定の期間続いているか否かに基づいて、まだ信号が入力されているか否か判定してもよい。
　雑音推定部１０１が、信号が入力されていないと判定した場合（ステップＳ３１１の″Ｎｏ″）、音声認識装置３００は、動作を終了する。一方、雑音推定部１０１が、まだ信号が入力されていると判定した場合（ステップＳ３１１の″Ｙｅｓ″）、音声認識装置３００は、ステップＳ３０１に戻る。ステップＳ３１１における雑音推定部１０１の処理は、第一の実施の形態における雑音推定部１０１におけるステップＳ１０７と同様である。
　第三の実施の形態における音声認識装置３００は、入力信号から推定される推定雑音を抑圧係数に応じて抑圧した雑音抑圧信号の分布と、適応係数に基づいて適応された適応後音響モデルとに基づいて、抑圧係数と適応係数とを更新する。そのため、音声認識装置３００は、入力信号を基に、適宜、抑圧係数および適応係数を更新できる。すなわち、音声認識装置３００は、入力信号ごと、例えば、一発声ごとに最適な抑圧係数および適応係数を用いて雑音抑圧および雑音適応ができる。
　［第四の実施の形態］
　図１４は、本発明の第四の実施の形態における音声認識装置４００の構成を示すブロック図である。図１４を参照すると、音声認識装置４００は、係数格納部４０５と、雑音推定部１０１と、雑音抑圧部４０２と、音響モデル適応部４０３と、サーチ部１０４と、係数決定部２１０と、推定雑音分類部４１３とを含む。
　＝＝＝係数格納部４０５＝＝＝
　係数格納部４０５は、抑圧係数と適応係数と、雑音が属するクラスを識別できる雑音識別子とを対応付けて記憶する。抑圧係数および適応係数は、第一の実施の形態における係数格納部１０５が記憶する抑圧係数および適応係数と同様でもよい。
　＝＝＝推定雑音分類部４１３＝＝＝
　推定雑音分類部４１３は、雑音推定部１０１が推定した推定雑音に基づいて所定の統計量を計算する。所定の統計量とは、ある数フレーム分の推定雑音の特徴量から計算される静的平均、あるいは静的分散などのあらゆる値でもよい。そして、推定雑音分類部４１３は、計算した統計量に基づいて推定雑音が属する雑音のクラスを特定する。例えば、推定雑音分類部４１３は、統計量の所定の範囲毎に属するクラスをそれぞれ特定してもよい。そして、推定雑音分類部４１３は、推定雑音が属するクラスに基づいて、抑圧係数αおよび適応係数βをそれぞれ特定する。推定雑音分類部４１３は、特定した抑圧係数αおよび適応係数βを、その雑音のクラスを識別できる雑音識別子と対応付けて係数格納部４０５に記憶する。
　例えば、音声認識装置４００は、あらかじめ雑音の各クラスの代表値を算出する。本明細書では、所定の統計量として推定雑音の特徴量の静的分散が用いられると仮定する。これらの代表値は、各クラスに属する雑音からそれぞれ算出される。音声認識装置４００は、各代表値に基づいてそれぞれ抑圧係数αおよび適応係数βを算出する。具体的には、音声認識装置４００は、第二の実施の形態における係数決定部２１０におけるステップＳ２０９の処理を用いて、各クラスの抑圧係数αおよび適応係数βを算出してもよい。
　推定雑音分類部４１３は、雑音推定部１０１が推定した推定雑音に基づいてその推定雑音の静的分散Σ’を算出する。そして、各クラスに対応する静的分散Σ_ｉ（ｉ＝０，・・・，Ｎ；Ｎはクラス数）に対して、推定雑音分類部４１３は、［数３０］で示される値を算出する。

　そして、推定雑音分類部４１３は、［数３０］で示される値が最小となる静的分散Σ_ｉに対応するクラスｉを、その推定雑音が属するクラスと特定する。そして、推定雑音分類部４１３は、特定したクラスｉに対応する抑圧係数α_ｉと適応係数β_ｉとそのクラスｉを識別できる雑音識別子とを対応付けて係数格納部４０５に記憶する。
　上記は、推定雑音分類部４１３の動作の具体例を示す一例であり、算出される統計量やその算出方法が限定されるものではない。
　推定雑音分類部４１３は、各クラスに属する雑音を用いて、音声認識率が最大になる抑圧係数αと適応係数βとをそれぞれ算出してもよい。または、推定雑音分類部４１３は、第二の実施の形態における係数決定部２１０に各クラスに属する雑音を渡し、係数決定部２１０がクラスごとに最適な抑圧係数αおよび適応係数βを算出してもよい。そして、係数決定部２１０は、算出した抑圧係数αおよび適応係数βと、雑音のクラスを識別できる雑音識別子とを対応付けて係数格納部４０５に記憶してもよい。
　＝＝＝雑音抑圧部４０２＝＝＝
　雑音抑圧部４０２は、推定雑音分類部４１３が推定した雑音のクラスを識別できる雑音識別子に対応付けられて係数格納部４０５に記憶されている抑圧係数に基づいて特定される抑圧量の雑音を、入力信号から抑圧する。雑音抑圧部４０２が含むその他の機能は、第一の実施の形態における雑音抑圧部１０２が含む機能と同様でもよい。
　＝＝＝音響モデル適応部４０３＝＝＝
　音響モデル適応部４０３は、推定雑音分類部４１３が推定した雑音のクラスを識別できる雑音識別子に対応付けられて係数格納部４０５に格納されている適応係数に従って、適応量を制御してクリーン音響モデルに音響モデルを適応する。音響モデル適応部４０３が含むその他の機能は、第一の実施の形態における音響モデル適応部１０３が含む機能と同様でもよい。
　図１５は、本発明の第四の実施の形態における音声認識装置４００の動作の概要を示すフローチャートである。
　図１５において、ステップＳ４０１ないしステップＳ４０４の処理は、第一の実施の形態におけるステップＳ１０１ないしＳ１０４と同様である。
　音響モデル適応部４０３が音響モデルを適応すると判定した場合（ステップＳ４０４の″Ｙｅｓ″）、音声認識装置４００は、ステップＳ４０５へ進む。
　推定雑音分類部４１３は、雑音推定部１０１が推定した推定雑音のうち、音響モデル適応部１０３が前回音響モデル適応したときから今回音響モデルを適応するまでの間の時刻の入力信号に基づいて推定された推定雑音を特定する。そして、推定雑音分類部４１３は、特定した推定雑音から計算される所定の統計量に基づいて、推定雑音が属するクラスを特定する（ステップＳ４０５）。
　そして、推定雑音分類部４１３は、推定雑音が属するクラスに基づいて、抑圧係数αおよび適応係数βをそれぞれ特定する（ステップＳ４０６）。
　推定雑音分類部４１３は、特定した抑圧係数αおよび適応係数βをその推定雑音が属するクラスを識別できる雑音識別子と対応付けて係数格納部４０５に記憶する（ステップＳ４０７）。
　音響モデル適応部４０３は、推定雑音分類部４１３が推定した雑音のクラスを識別できる雑音識別子に対応付けられて係数格納部４０５に記憶されている適応係数を特定する。そして、音響モデル適応部４０３は、前述の特定した適応係数に基づいて適応量を制御し、クリーン音響モデルに適応する（ステップＳ４０８）。ステップＳ４０８の後、音声認識装置４００は、ステップＳ４１１へ進む。
　一方、ステップＳ４０４において、音響モデル適応部４０３が音響モデルを適応しないと判定した場合（ステップＳ４０４の″Ｎｏ″）、雑音抑圧部４０２は、以下を処理する。
　すなわち、雑音抑圧部４０２は、推定雑音分類部４１３が推定した雑音のクラスを識別できる雑音識別子に対応付けて係数格納部４０５が記憶する抑圧係数を特定する。そして、雑音抑圧部４０２は、入力信号と、雑音推定部１０１が推定した推定雑音と、前述の特定した抑圧係数とに基づいて、入力信号から雑音を抑圧し、雑音抑圧信号を生成する。
　そして、雑音抑圧部４０２は、生成した雑音抑圧信号から雑音抑圧信号の特徴量を抽出し、抽出した雑音抑圧信号の特徴量を出力する（ステップＳ４０９）。
　図１５において、ステップＳ４１０およびステップＳ４１１の処理は、第一の実施の形態におけるステップＳ１０７およびＳ１０８と同様である。
　第四の実施の形態における音声認識装置４００は、雑音の種類に対してそれぞれ最適な抑圧係数αおよび適応係数βを設定できる。よって、音声認識装置４００は、より多様な雑音に対して頑強である。
　［第五の実施の形態］
　図１６は、本発明の第五の実施の形態における音声認識装置５００の構成を示すブロック図である。図１６を参照すると、音声認識装置５００は、係数格納部１０５と、雑音推定部１０１と、雑音抑圧部１０２と、音響モデル適応部１０３と、サーチ部１０４と、誤差分散推定部５１４と、誤差分散適応部５１５とを含む。
　＝＝＝誤差分散推定部５１４＝＝＝
　誤差分散推定部５１４は、雑音抑圧部１０２が抑圧係数αに基づいて入力信号から雑音を抑圧した雑音抑圧信号における雑音の抑圧量の誤差分散を推定する。
　前述の抑圧量の誤差分散は、理想的には、以下の［数３１］に基づいて表される。

　［数３１］において、ｘは、真の音声特徴量である。［数３１］において、変数ｘの上に記号＾（ハット）が付されている変数（以下、当該変数は、″ｘ＾″とも記される）は、α＝１のときにおける雑音抑圧信号の特徴量である。
　しかし、通常、真の音声は未知であるため、誤差分散推定部５１４は、［数３１］に示される数式に用いて誤差分散を求めることができない。前述の抑圧量の誤差分散が雑音抑圧信号の特徴量ｘ＾と観測される入力信号の特徴量ｙとの差分の分散に比例するとの仮定の下、以下の［数３２］で示される数式に基づいて抑圧量の誤差分散を求める方法がある。

　［数３２］において、λは、比例定数である。このラムダは、ＥＭアルゴリズム（Ｅｘｐｅｃｔａｔｉｏｎ−ｍａｘｉｍｉｚａｔｉｏｎ　ａｌｇｏｒｉｔｈｍ）を用いて推定されてもよい。
　誤差分散推定部５１４は、［数３２］で示される数式に基づいて抑圧量の誤差分散を求める。
　なお、誤差分散推定部５１４は、真の音声特徴量を特定できる学習データを用いて、あらかじめ［数３１］を用いて前述の抑圧量の誤差分散を導出してもよい。
　＝＝＝誤差分散適応部５１５＝＝＝
　誤差分散適応部５１５は、誤差分散推定部５１４で推定された雑音の抑圧量の誤差分散に基づいて、音響モデル適応部１０３が適応した適応後音響モデルに対し、さらにモデルを適応する。
　誤差分散適応部５１５は、具体的には、以下の［数３３］、［数３４］および［数３５］に基づいて適応後音響モデルに対し、さらにモデルを適応する。

　［数３４］および［数３５］において、ΔΣ_ｅおよびΔΔΣ_ｅは、動的パラメータから導かれる抑圧誤差分散である。
　図１７は、本発明の第五の実施の形態における音声認識装置５００の動作の概要を示すフローチャートである。
　図１７において、ステップＳ５０１ないしステップＳ５０５の処理は、第一の実施の形態におけるステップＳ１０１ないしＳ１０５と同様である。ステップＳ５０５の後、音声認識装置５００は、ステップＳ５０６へ進む。
　図１７において、ステップＳ５０７の処理は、第一の実施の形態におけるステップＳ１０６と同様である。ステップＳ５０７の後、音声認識装置５００は、ステップＳ５０８へ進む。
　誤差分散推定部５１４は、雑音抑圧部１０２が抑圧係数αに基づいて入力信号から雑音を抑圧した雑音抑圧信号における雑音の抑圧量の誤差分散を推定する（ステップＳ５０８）。ステップＳ５０８の後、音声認識装置５００は、ステップＳ５０９へ進む。
　図１７において、ステップＳ５０９の処理は、第一の実施の形態におけるステップＳ１０７と同様である。
　誤差分散適応部５１５は、誤差分散推定部５１４で推定された雑音の抑圧量の誤差分散に基づいて、音響モデル適応部１０３が適応した適応後音響モデルに対し、さらにモデルを適応する（ステップＳ５０６）。ステップＳ５０６の後、音声認識装置５００は、ステップＳ５１０へ進む。
　図１７において、ステップＳ５１０の処理は、第一の実施の形態におけるステップＳ１０８と同様である。
　第五の実施の形態における音声認識装置５００は、雑音抑圧信号における雑音の抑圧量の誤差分散を推定する。そして、音声認識装置５００は、推定した雑音の抑圧量の誤差分散に基づいて、音響モデル適応部１０３が適応した適応後音響モデルに対し、さらにモデルを適応する。音声認識装置５００は、雑音の抑圧量の誤差分散を考慮してモデルを適応するので、モデルの分散を、より雑音抑圧信号から特定される特徴量の分散に近づけることができる。したがって、音声認識装置５００は、より高い音声認識精度を実現できる。
　［第六の実施の形態］
　図１８は、本発明の第六の実施の形態における音声認識装置６００の構成を示すブロック図である。図１８を参照すると、音声認識装置６００は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）６０１とメモリ６０２と記憶部６０３とを含む。
　ＣＰＵ６０１は、第一の実施の形態ないし第五の実施の形態における各音声認識装置の処理を音声認識装置６００が実行するためのソフトウェアをメモリ６０２から読み出す。そして、ＣＰＵ６０１は、読み出したソフトウェアの実行に基づき、第一の実施の形態ないし第五の実施の形態における各音声認識装置が含む各部として機能する。
　メモリ６０２は、第一の実施の形態ないし第五の実施の形態における各音声認識装置の処理を音声認識装置６００が実行するためのソフトウェアを記憶する。
　記憶部６０３は、第一の実施の形態ないし第五の実施の形態における各格納部と同様に各情報を格納する。
　本発明は、第一の実施の形態ないし第五の実施の形態における各音声認識装置の処理を音声認識装置６００が実行するためのソフトウェアを一次記憶または記憶する記録媒体６０４も含む。したがって、コンピュータ読み取り可能な記録媒体６０４に記録されたソフトウェアをメモリ６０２が読み取り、読み取ったソフトウェアをＣＰＵ６０１が実行してもよい。
　第六の実施の形態における音声認識装置６００は、第一の実施の形態ないし第五の実施の形態における音声認識装置と同様の利点がある。
　特許文献１ないし特許文献４に記載された関連技術は、入力信号に含まれる雑音の種類に応じて、耐雑音技術である雑音抑圧法やモデル適応の音声認識性能が変わる。そのため、各関連技術の単純実装に基づく音声認識装置において、それぞれ耐雑音の可能な雑音の種類が限られてしまう。
　図１９は、音声認識タスクの共通の評価基盤であるＡＵＲＯＲＡ２の八種類の雑音に対する、関連技術における雑音抑圧法およびモデル適応法での認識率を示す図である。八種類の雑音とは、地下鉄雑音（ｓｕｂｗａｙ）、バブル雑音（ｂａｂｂｌｅ）、車内雑音（ｃａｒ）、展示会雑音（ｅｘｈｉｂｉｔｉｏｎ）、レストラン雑音（ｒｅｓｔａｕｒａｎｔ）、路上雑音（ｓｔｒｅｅｔ）、空港雑音（ａｉｒｐｏｒｔ）、および、駅雑音（ｔｒａｉｎ−ｓｔａｔｉｏｎ）である。
　図１９を参照すると、行見出しに雑音の種類が、列見出しに雑音のＳＮＲの種類が示されている。図１９の表が示す行列の各成分には、それぞれ二つの数字が記入されている。上の数字は、モデル適応法を用いた音声認識率を示す。下の数字は、雑音抑圧法を用いた音声認識率を示す。
　図１９に基づくと、前述の八種類の雑音は、モデル適応法のほうが雑音抑圧法よりも認識率が高くなる雑音と、雑音抑圧法のほうがモデル適応法よりも認識率が高くなる雑音との、二つに分類されうる。図１９において、モデル適応法のほうが雑音抑圧法よりも認識率が高くなる雑音は、マスの枠内の右上に丸印が付されているマスの部分である。また、図１９において、雑音抑圧法のほうがモデル適応法よりも認識率が高くなる雑音は、太線で囲まれた部分である。ここでは、″ｂａｂｂｌｅ″、″ｒｅｓｔａｕｒａｎｔ″、″ａｉｒｐｏｒｔ″、″ｔｒａｉｎ−ｓｔａｔｉｏｎ″については、モデル適応法を用いた認識率が高いという傾向が見られる。一方、″ｓｕｂｗａｙ″、″ｃａｒ″、″ｅｘｈｉｂｉｔｉｏｎ″、″ｓｔｒｅｅｔ″については、雑音抑圧法を用いた認識率が高いという傾向が見られる。モデル適応法のほうが雑音抑圧法よりも認識率が高くなる雑音の特徴は、バブル雑音を多く含むことである。一方、雑音抑圧法のほうがモデル適応法よりも認識率が高くなる雑音の特徴は、バブル雑音をあまり含まないことである。以上の現象が生じる理由を、雑音抑圧法とモデル適応法の短所に基づき詳しく説明する。
　雑音抑圧法では、逐次的に推定された雑音が、入力信号の雑音抑圧に使用される。しかし、推定雑音の精度に従って、著しく認識精度が劣化する。このことを、ＳＳ法を例に挙げて説明する。真の雑音がＮ^２、推定誤差がεであり、推定雑音Ｎ’^２が（Ｎ^２＋ε）である場合、ＳＳ法に基づく雑音抑圧信号は、以下の［数３６］を用いて表される。

このとき、理想的な雑音抑圧信号は、以下の［数３７］で計算される。

　［数３６］に示されているように、推定誤差εの値が大きければ、雑音抑圧信号の値は、理想的な値から離れてしまう。また、音声認識で用いられる特徴量の導出過程において、一般に雑音抑圧信号の値に対数を取った値が用いられる。そのため、真の雑音Ｎ^２が大きいほど、Ｙ^２−Ｎ^２は、０に近い値を取る。つまり、雑音誤差信号から計算される特徴量に対して、推定誤差εがより大きな影響を与えてしまう。ここで、バブル雑音を多く含む雑音においては、雑音の推定が難しく、推定の失敗が起こりやすい。したがって、バブル雑音を多く含む雑音においては雑音抑圧法に基づく認識率が劣化してしまう。
　一方、モデル適応法では、モデルの適応の際に、比較的長い時間をかけて推定された雑音の平均と分散とが用いられる。したがって、モデル適応法を用いた音声認識は、逐次的な推定が難しいバブル雑音に対して、高い認識精度を実現できる。しかし、バブル雑音を含まない雑音に関しては、雑音の逐次推定精度が高くなるため、モデル適応法の認識率よりも、雑音抑圧法の認識率の方が高くなる。
　以上のように、各関連技術の単独実装を用いた音声認識では、それぞれ耐雑音可能な雑音の種類が限られてしまう。それぞれの関連技術が苦手な雑音をもう一方の手法が対応できるように、雑音抑圧法と音響モデル適応法とを適切に組み合わせた実装の方法が必要である。
　本発明の各実施の形態における音声認識装置は、雑音抑圧法および音響モデル適応法を適切に組み合わせることを用いて雑音を抑圧するので、音声認識率が高精度である音声認識に対応できる雑音の種類を増大させることができる。
　図２０は、抑圧係数αと認識率との関係を示す図である。図２０において、α＝０の場合、認識率は、モデル適応法の単独実装時の認識率と等価である。一方、α＝１の場合、認識率は、雑音抑圧法の単独実装時の認識率と等価である。
　入力音声に含ませる雑音として、ＡＵＲＯＲＡ２のｓｕｂｗａｙ雑音（ＳＮＲ２０、ＳＮＲ１０、ＳＮＲ０）が使用されている。また、雑音抑圧法として、ＮＳ−ＷｉＮＥ法（雑音推定としてＷｉＮＥ法（Ｗｅｉｇｈｔｅｄ　Ｎｏｉｓｅ　Ｅｓｔｉｍａｔｉｏｎ）、また、雑音抑圧としてＭＭＳＥＳＴＳＡ法（ｍｉｎｉｍｕｍ　ｍｅａｎ−ｓｑｕａｒｅ−ｅｒｒｏｒ　ｓｈｏｒｔ−ｔｉｍｅ　ｓｐｅｃｔｒａｌ　ａｍｐｌｉｔｕｄｅ　ｅｓｔｉｍａｔｏｒ））が使用されている。また、モデル適応法として、平均パラメータにＶＴＳ法が使用されている。分散パラメータ推定については、クリーンモデルの値が使用されている。
　図２０を参照すると、ＳＮＲ２０、ＳＮＲ１０、ＳＮＲ０のいずれの場合においても、αが０．５のときに音声認識率が最大であることが示されている。特にＳＮＲ０の雑音においては、αが０．５のときに音声認識率が最大であることが、顕著に示されている。本発明の各実施の形態における音声認識装置の顕著な効果が得られていることが、図２０で示された。
　本発明の効果の一例は、音声認識率が高精度である音声認識に対応できる雑音の種類を増大させることができることである。
　以上、実施形態および実施例を参照して本発明を説明したが、本発明は上記実施形態および実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しえる様々な変更をすることができる。
　また、本発明の各実施の形態または実施例における各構成要素は、その機能のハードウェア的な実現はもちろん、コンピュータとプログラムとで実現できる。プログラムは、磁気ディスクや半導体メモリなどのコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られる。この読み取られたプログラムは、そのコンピュータの動作の制御に基づき、そのコンピュータを前述した各実施の形態または実施例における構成要素として機能させる。
　上記の実施の形態または実施例の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
　（付記１）
　雑音の抑圧量を示す抑圧係数と、雑音を含まない音声に基づいて生成されるクリーン音響モデルに合成させる所定の雑音に基づいて生成される雑音モデルの適応量を示す適応係数と、を対応付けて記憶する係数格納手段と、
　入力信号から、雑音を推定する雑音推定手段と、
　前記雑音推定手段が推定した雑音のうち前記抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧する雑音抑圧手段と、
　前記クリーン音響モデルに、前記適応係数に基づいて特定される適応量に応じて、前記雑音推定手段が推定した雑音に基づいて生成される雑音モデルを合成して、雑音適応された適応後音響モデルを生成する音響モデル適応手段と、
　前記雑音抑圧手段で雑音を抑圧された入力信号と、前記音響モデル適応手段で生成された適応後音響モデルとに基づいて音声を認識するサーチ手段とを含む音声認識装置。
　（付記２）
　付記１に記載の音声認識装置であって、
　前記抑圧係数と前記適応係数との和が所定の値または行列である、音声認識装置。
　（付記３）
　付記１または２に記載の音声認識装置であって、
　少なくとも一つの雑音を含む学習データを記憶する学習データ格納手段と、
　前記係数格納手段に記憶されている前記抑圧係数と前記適応係数とを更新する係数決定手段と、
を含み、
　前記係数決定手段は、前記学習データに含まれる雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記係数格納手段に記憶されている抑圧係数と適応係数とを更新する、音声認識装置。
　（付記４）
　付記１または２に記載の音声認識装置であって、
　前記係数格納手段に記憶されている前記抑圧係数と前記適応係数とを更新する係数決定手段を含み、
　前記係数決定手段は、前回更新した際の抑圧係数および適応係数と、前々回更新した際の抑圧係数および適応係数との差分がそれぞれ所定の閾値以上である場合に、前記雑音推定手段が推定した雑音を観測データとし、前回更新した際の抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記係数格納手段に記憶されている抑圧係数と適応係数とを更新する、音声認識装置。
　（付記５）
　付記１ないし４のいずれか１項に記載の音声認識装置であって、
　前記雑音推定手段が推定した雑音が属するクラスを特定する推定雑音分類手段を含み、
　前記係数格納手段は雑音が属するクラスを識別できる雑音識別子と抑圧係数と適応係数とを対応付けて記憶し、
　前記雑音抑圧手段は、前記雑音推定手段が推定した雑音のうち、前記推定雑音分類手段が特定した当該雑音のクラスに対応する雑音識別子に対応付けられている抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧し、
　前記音響モデル適応手段は、前記クリーン音響モデルに対し、前記推定雑音分類手段が特定した当該雑音のクラスに対応する雑音識別子に対応付けられている適応係数に基づいて特定される適応量に応じて、前記雑音推定手段が推定した雑音に基づいて生成される雑音モデルの合成を基に、雑音適応された適応後音響モデルを生成する、音声認識装置。
　（付記６）
　付記５に記載の音声認識装置であって、
　雑音を受け取ると、前記抑圧係数と前記適応係数とを決定する係数決定手段を含み、
　前記係数決定手段は、前記推定雑音分類手段がクラスを特定した雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を算出し、算出した抑圧係数と適応係数と前記雑音が属するクラスを識別できる雑音識別子とを対応付けて前記係数格納手段に記憶する、音声認識装置。
　（付記７）
　付記１ないし６のいずれか１項に記載の音声認識装置であって、
　前記雑音抑圧手段が、前記係数格納手段に記憶されている抑圧係数に基づいて入力信号から雑音を抑圧した、雑音抑圧信号における雑音の抑圧量の誤差分散を推定する誤差分散推定手段と、
　前記誤差分散推定手段が推定した前記誤差分散に基づいて、前記音響モデル適応手段が適応した前記適応後音響モデルを更新する誤差分散適応手段と、を含む音声認識装置。
　（付記８）
　付記３または４に記載の音声認識装置であって、
　前記係数決定手段は、前記係数格納手段に記憶されている抑圧係数または適応係数の値を更新する際に、その更新前の抑圧係数または適応係数の値を記憶し、
　前記係数決定手段は、前回更新した際の抑圧係数および適応係数と、前々回更新した際の抑圧係数および適応係数との差分の少なくともいずれかが所定の閾値以上である場合に、前記係数格納手段に記憶されている抑圧係数および適応係数を更新する、音声認識装置。
　（付記９）
　付記１ないし８のいずれか１項に記載の音声認識装置であって、
　前記抑圧係数と前記適応係数との和が１または単位行列である、音声認識装置。
　（付記１０）
　雑音の抑圧量を示す抑圧係数と、雑音を含まない音声に基づいて生成されるクリーン音響モデルに合成させる所定の雑音に基づいて生成される雑音モデルの適応量を示す適応係数と、を対応付けて記憶し、
　入力信号から、雑音を推定し、
　前記推定した雑音のうち前記抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧し、
　前記クリーン音響モデルに、前記適応係数に基づいて特定される適応量に応じて、前記推定した雑音に基づいて生成される雑音モデルを合成して、雑音適応された適応後音響モデルを生成し、
　前記雑音を抑圧された入力信号と、前記生成された適応後音響モデルとに基づいて音声を認識する、音声認識方法。
　（付記１１）
　付記１０に記載の音声認識方法であって、
　前記抑圧係数と前記適応係数との和が所定の値または行列である、音声認識方法。
　（付記１２）
　付記１０または１１に記載の音声認識方法であって、
　少なくとも一つの雑音を含む学習データを記憶し、
　前記学習データに含まれる雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記記憶されている抑圧係数と適応係数とを更新する、音声認識方法。
　（付記１３）
　付記１０または１１に記載の音声認識方法であって、
　前回更新した際の抑圧係数および適応係数と、前々回更新した際の抑圧係数および適応係数との差分がそれぞれ所定の閾値以上である場合に、前記推定した雑音を観測データとし、前回更新した際の抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記記憶されている抑圧係数と適応係数とを更新する、音声認識方法。
　（付記１４）
　付記１０ないし１３のいずれか１項に記載の音声認識方法であって、
　前記推定した雑音が属するクラスを特定し、
　雑音の種類を示す雑音識別子と抑圧係数と適応係数とを対応付けて記憶し、
　前記推定した雑音のうち、前記特定した当該雑音の種類に対応する雑音識別子に対応付けられている抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧し、
　前記クリーン音響モデルに対し、前記特定した当該雑音の種類に対応する雑音識別子に対応付けられている適応係数に基づいて特定される適応量に応じて、前記推定した雑音に基づいて生成される雑音モデルの合成を基に、雑音適応された適応後音響モデルを生成する、音声認識方法。
　（付記１５）
　付記１４に記載の音声認識方法であって、
　前記クラスが分類された雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を算出し、算出した抑圧係数と適応係数と前記雑音が属するクラスを識別できる雑音識別子とを対応付けて記憶する、音声認識方法。
　（付記１６）
　付記１０ないし１５のいずれか１項に記載の音声認識方法であって、
　前記記憶されている抑圧係数に基づいて入力信号から雑音が抑圧された雑音抑圧信号における雑音の抑圧量の誤差分散を推定し、
　前記推定した前記誤差分散に基づいて、前記適応した前記適応後音響モデルに対し、モデルを適応する、音声認識方法。
　（付記１７）
　付記１２または１３に記載の音声認識方法であって、
　前記記憶されている抑圧係数または適応係数の値を更新する際に、その更新前の抑圧係数または適応係数の値を記憶し、
　前回更新された際の抑圧係数および適応係数と、前々回更新された際の抑圧係数および適応係数との差分の少なくともいずれかが所定の閾値以上である場合に、前記記憶されている抑圧係数および適応係数を更新する、音声認識方法。
　（付記１８）
　付記１０ないし１７のいずれか１項に記載の音声認識方法であって、
　前記抑圧係数と前記適応係数との和が１または単位行列である、音声認識方法。
　（付記１９）
　コンピュータに、
　雑音の抑圧量を示す抑圧係数と、雑音を含まない音声に基づいて生成されるクリーン音響モデルに合成させる所定の雑音に基づいて生成される雑音モデルの適応量を示す適応係数と、を対応付けて記憶する処理と、
　入力信号から、雑音を推定する処理と、
　前記推定した雑音のうち前記抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧する処理と、
　前記クリーン音響モデルに、前記適応係数に基づいて特定される適応量に応じて、前記推定した雑音に基づいて生成される雑音モデルを合成して、雑音適応された適応後音響モデルを生成する処理と、
　前記雑音を抑圧された入力信号と、前記生成された適応後音響モデルとに基づいて音声を認識する処理とを実行させるための音声認識プログラム。
　（付記２０）
　付記１９に記載の音声認識プログラムであって、
　前記抑圧係数と前記適応係数との和が所定の値または行列である、音声認識プログラム。
　（付記２１）
　付記１９または２０に記載の音声認識プログラムであって、
　前記コンピュータに、
　少なくとも一つの雑音を含む学習データを記憶する処理と、
　前記学習データに含まれる雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記記憶されている抑圧係数と適応係数とを更新する処理と、を実行させるための音声認識プログラム。
　（付記２２）
　付記１９または２０に記載の音声認識プログラムであって、
　前記コンピュータに、
　前回更新した際の抑圧係数および適応係数と、前々回更新した際の抑圧係数および適応係数との差分がそれぞれ所定の閾値以上である場合に、前記推定した雑音を観測データとし、前回更新した際の抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記記憶されている抑圧係数と適応係数とを更新する処理を実行させるための音声認識プログラム。
　（付記２３）
　付記１９ないし２２のいずれか１項に記載の音声認識プログラムであって、
　前記コンピュータに、
　前記推定した雑音が属するクラスを特定する処理と、
　雑音の種類を示す雑音識別子と抑圧係数と適応係数とを対応付けて記憶する処理と、
　前記推定した雑音のうち、前記特定した当該雑音の種類に対応する雑音識別子に対応付けられている抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧する処理と、
　前記クリーン音響モデルに対し、前記特定した当該雑音の種類に対応する雑音識別子に対応付けられている適応係数に基づいて特定される適応量に応じて、前記推定した雑音に基づいて生成される雑音モデルの合成を基に、雑音適応された適応後音響モデルを生成する処理と、を実行させるための音声認識プログラム。
　（付記２４）
　付記２３に記載の音声認識プログラムであって、
　前記コンピュータに、
　前記クラスが分類された雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を算出し、算出した抑圧係数と適応係数と前記雑音が属するクラスを識別できる雑音識別子とを対応付けて記憶する処理を実行させるための音声認識プログラム。
　（付記２５）
　付記１９ないし２４のいずれか１項に記載の音声認識プログラムであって、
　前記コンピュータに、
　前記記憶されている抑圧係数に基づいて入力信号から雑音が抑圧された雑音抑圧信号における雑音の抑圧量の誤差分散を推定する処理と、
　前記推定した前記誤差分散に基づいて、前記適応した前記適応後音響モデルに対し、モデルを適応する処理と、を実行させるための音声認識プログラム。
　（付記２６）
　付記２１または２２に記載の音声認識プログラムであって、
　前記コンピュータに、
　前記記憶されている抑圧係数または適応係数の値を更新する際に、その更新前の抑圧係数または適応係数の値を記憶する処理と、
　前回更新された際の抑圧係数および適応係数と、前々回更新された際の抑圧係数および適応係数との差分の少なくともいずれかが所定の閾値以上である場合に、前記記憶されている抑圧係数および適応係数を更新する処理と、を実行させるための音声認識プログラム。
　（付記２７）
　付記１９ないし２６のいずれか１項に記載の音声認識プログラムであって、
　前記抑圧係数と前記適応係数との和が１または単位行列である、音声認識プログラム。
　この出願は、２０１０年１１月１１日に出願された日本出願特願２０１０−２５２４５６を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明は、様々な種類の雑音を含む入力信号を扱う音声認識装置として利用できる。

　１００、２００、３００、４００、５００、６００　　音声認識装置
　１０１、２０１　　雑音推定部
　１０２、２０２、３０２、４０２　　雑音抑圧部
　１０３、４０３　　音響モデル適応部
　１０４、３０４　　サーチ部
　１０５、２０５、４０５　　係数格納部
　１０６　　入力部
　１０７　　クリーン音響モデル格納部
　１０８　　推定雑音格納部
　１０９　　適応後音響モデル格納部
　２１０　　係数決定部
　２１１　　学習信号格納部
　２１２　　雑音抑圧信号格納部
　４１３　　推定雑音分類部
　５１４　　誤差分散推定部
　５１５　　誤差分散適応部
　６０１　　ＣＰＵ
　６０２　　メモリ
　６０３　　記憶部
　６０４　　記録媒体

Claims

　雑音の抑圧量を示す抑圧係数と、雑音を含まない音声に基づいて生成されるクリーン音響モデルに合成させる所定の雑音に基づいて生成される雑音モデルの適応量を示す適応係数と、を対応付けて記憶する係数格納手段と、
　入力信号から、雑音を推定する雑音推定手段と、
　前記雑音推定手段が推定した雑音のうち前記抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧する雑音抑圧手段と、
　前記クリーン音響モデルに、前記適応係数に基づいて特定される適応量に応じて、前記雑音推定手段が推定した雑音に基づいて生成される雑音モデルを合成して、雑音適応された適応後音響モデルを生成する音響モデル適応手段と、
　前記雑音抑圧手段で雑音を抑圧された入力信号と、前記音響モデル適応手段で生成された適応後音響モデルとに基づいて音声を認識するサーチ手段とを含む音声認識装置。
　請求項１に記載の音声認識装置であって、
　前記抑圧係数と前記適応係数との和が所定の値または行列である、音声認識装置。
　請求項１または２に記載の音声認識装置であって、
　少なくとも一つの雑音を含む学習データを記憶する学習データ格納手段と、
　前記係数格納手段に記憶されている前記抑圧係数と前記適応係数とを更新する係数決定手段と、
を含み、
　前記係数決定手段は、前記学習データに含まれる雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記係数格納手段に記憶されている抑圧係数と適応係数とを更新する、音声認識装置。
　請求項１または２に記載の音声認識装置であって、
　前記係数格納手段に記憶されている前記抑圧係数と前記適応係数とを更新する係数決定手段を含み、
　前記係数決定手段は、前回更新した際の抑圧係数および適応係数と、前々回更新した際の抑圧係数および適応係数との差分がそれぞれ所定の閾値以上である場合に、前記雑音推定手段が推定した雑音を観測データとし、前回更新した際の抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記係数格納手段に記憶されている抑圧係数と適応係数とを更新する、音声認識装置。
　請求項１ないし４のいずれか１項に記載の音声認識装置であって、
　前記雑音推定手段が推定した雑音が属するクラスを特定する推定雑音分類手段を含み、
　前記係数格納手段は雑音が属するクラスを識別できる雑音識別子と抑圧係数と適応係数とを対応付けて記憶し、
　前記雑音抑圧手段は、前記雑音推定手段が推定した雑音のうち、前記推定雑音分類手段が特定した当該雑音のクラスに対応する雑音識別子に対応付けられている抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧し、
　前記音響モデル適応手段は、前記クリーン音響モデルに対し、前記推定雑音分類手段が特定した当該雑音のクラスに対応する雑音識別子に対応付けられている適応係数に基づいて特定される適応量に応じて、前記雑音推定手段が推定した雑音に基づいて生成される雑音モデルの合成を基に、雑音適応された適応後音響モデルを生成する、音声認識装置。
　請求項５に記載の音声認識装置であって、
　雑音を受け取ると、前記抑圧係数と前記適応係数とを決定する係数決定手段を含み、
　前記係数決定手段は、前記推定雑音分類手段がクラスを特定した雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を算出し、算出した抑圧係数と適応係数と前記雑音が属するクラスを識別できる雑音識別子とを対応付けて前記係数格納手段に記憶する、音声認識装置。
　請求項１ないし６のいずれか１項に記載の音声認識装置であって、
　前記雑音抑圧手段が、前記係数格納手段に記憶されている抑圧係数に基づいて入力信号から雑音を抑圧した、雑音抑圧信号における雑音の抑圧量の誤差分散を推定する誤差分散推定手段と、
　前記誤差分散推定手段が推定した前記誤差分散に基づいて、前記音響モデル適応手段が適応した前記適応後音響モデルを更新する誤差分散適応手段と、を含む音声認識装置。
　請求項３または４に記載の音声認識装置であって、
　前記係数決定手段は、前記係数格納手段に記憶されている抑圧係数または適応係数の値を更新する際に、その更新前の抑圧係数または適応係数の値を記憶し、
　前記係数決定手段は、前回更新した際の抑圧係数および適応係数と、前々回更新した際の抑圧係数および適応係数との差分の少なくともいずれかが所定の閾値以上である場合に、前記係数格納手段に記憶されている抑圧係数および適応係数を更新する、音声認識装置。
　請求項１ないし８のいずれか１項に記載の音声認識装置であって、
　前記抑圧係数と前記適応係数との和が１または単位行列である、音声認識装置。
　雑音の抑圧量を示す抑圧係数と、雑音を含まない音声に基づいて生成されるクリーン音響モデルに合成させる所定の雑音に基づいて生成される雑音モデルの適応量を示す適応係数と、を対応付けて記憶し、
　入力信号から、雑音を推定し、
　前記推定した雑音のうち前記抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧し、
　前記クリーン音響モデルに、前記適応係数に基づいて特定される適応量に応じて、前記推定した雑音に基づいて生成される雑音モデルを合成して、雑音適応された適応後音響モデルを生成し、
　前記雑音を抑圧された入力信号と、前記生成された適応後音響モデルとに基づいて音声を認識する音声認識方法。
　請求項１０に記載の音声認識方法であって、
　前記抑圧係数と前記適応係数との和が所定の値または行列である、音声認識方法。
　請求項１０または１１に記載の音声認識方法であって、
　少なくとも一つの雑音を含む学習データを記憶し、
　前記学習データに含まれる雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記記憶されている抑圧係数と適応係数とを更新する、音声認識方法。
　請求項１０または１１に記載の音声認識方法であって、
　前回更新した際の抑圧係数および適応係数と、前々回更新した際の抑圧係数および適応係数との差分がそれぞれ所定の閾値以上である場合に、前記推定した雑音を観測データとし、前回更新した際の抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記記憶されている抑圧係数と適応係数とを更新する、音声認識方法。
　請求項１０ないし１３のいずれか１項に記載の音声認識方法であって、
　前記推定した雑音が属するクラスを特定し、
　雑音の種類を示す雑音識別子と抑圧係数と適応係数とを対応付けて記憶し、
　前記推定した雑音のうち、前記特定した当該雑音の種類に対応する雑音識別子に対応付けられている抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧し、
　前記クリーン音響モデルに対し、前記特定した当該雑音の種類に対応する雑音識別子に対応付けられている適応係数に基づいて特定される適応量に応じて、前記推定した雑音に基づいて生成される雑音モデルの合成を基に、雑音適応された適応後音響モデルを生成する、音声認識方法。
　請求項１４に記載の音声認識方法であって、
　前記クラスが分類された雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を算出し、算出した抑圧係数と適応係数と前記雑音が属するクラスを識別できる雑音識別子とを対応付けて記憶する、音声認識方法。
　請求項１０ないし１５のいずれか１項に記載の音声認識方法であって、
　前記記憶されている抑圧係数に基づいて入力信号から雑音が抑圧された雑音抑圧信号における雑音の抑圧量の誤差分散を推定し、
　前記推定した前記誤差分散に基づいて、前記適応した前記適応後音響モデルに対し、モデルを適応する、音声認識方法。
　請求項１２または１３に記載の音声認識方法であって、
　前記記憶されている抑圧係数または適応係数の値を更新する際に、その更新前の抑圧係数または適応係数の値を記憶し、
　前回更新された際の抑圧係数および適応係数と、前々回更新された際の抑圧係数および適応係数との差分の少なくともいずれかが所定の閾値以上である場合に、前記記憶されている抑圧係数および適応係数を更新する、音声認識方法。
　請求項１０ないし１７のいずれか１項に記載の音声認識方法であって、
　前記抑圧係数と前記適応係数との和が１または単位行列である、音声認識方法。
　コンピュータに、
　雑音の抑圧量を示す抑圧係数と、雑音を含まない音声に基づいて生成されるクリーン音響モデルに合成させる所定の雑音に基づいて生成される雑音モデルの適応量を示す適応係数と、を対応付けて記憶する処理と、
　入力信号から、雑音を推定する処理と、
　前記推定した雑音のうち前記抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧する処理と、
　前記クリーン音響モデルに、前記適応係数に基づいて特定される適応量に応じて、前記推定した雑音に基づいて生成される雑音モデルを合成して、雑音適応された適応後音響モデルを生成する処理と、
　前記雑音を抑圧された入力信号と、前記生成された適応後音響モデルとに基づいて音声を認識する処理とを実行させるための音声認識プログラム。
　請求項１９に記載の音声認識プログラムであって、
　前記抑圧係数と前記適応係数との和が所定の値または行列である、音声認識プログラム。
　請求項１９または２０に記載の音声認識プログラムであって、
　前記コンピュータに、
　少なくとも一つの雑音を含む学習データを記憶する処理と、
　前記学習データに含まれる雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記記憶されている抑圧係数と適応係数とを更新する処理と、を実行させるための音声認識プログラム。
　請求項１９または２０に記載の音声認識プログラムであって、
　前記コンピュータに、
　前回更新した際の抑圧係数および適応係数と、前々回更新した際の抑圧係数および適応係数との差分がそれぞれ所定の閾値以上である場合に、前記推定した雑音を観測データとし、前回更新した際の抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を基に、前記記憶されている抑圧係数と適応係数とを更新する処理を実行させるための音声認識プログラム。
　請求項１９ないし２２のいずれか１項に記載の音声認識プログラムであって、
　前記コンピュータに、
　前記推定した雑音が属するクラスを特定する処理と、
　雑音の種類を示す雑音識別子と抑圧係数と適応係数とを対応付けて記憶する処理と、
　前記推定した雑音のうち、前記特定した当該雑音の種類に対応する雑音識別子に対応付けられている抑圧係数に基づいて特定される抑圧量で特定される分の雑音を前記入力信号から抑圧する処理と、
　前記クリーン音響モデルに対し、前記特定した当該雑音の種類に対応する雑音識別子に対応付けられている適応係数に基づいて特定される適応量に応じて、前記推定した雑音に基づいて生成される雑音モデルの合成を基に、雑音適応された適応後音響モデルを生成する処理と、を実行させるための音声認識プログラム。
　請求項２３に記載の音声認識プログラムであって、
　前記コンピュータに、
　前記クラスが分類された雑音を観測データとし、抑圧係数および適応係数とをパラメータとする尤度関数の期待値を最大にする抑圧係数および適応係数を算出し、算出した抑圧係数と適応係数と前記雑音が属するクラスを識別できる雑音識別子とを対応付けて記憶する処理を実行させるための音声認識プログラム。
　請求項１９ないし２４のいずれか１項に記載の音声認識プログラムであって、
　前記コンピュータに、
　前記記憶されている抑圧係数に基づいて入力信号から雑音が抑圧された雑音抑圧信号における雑音の抑圧量の誤差分散を推定する処理と、
　前記推定した前記誤差分散に基づいて、前記適応した前記適応後音響モデルに対し、モデルを適応する処理と、を実行させるための音声認識プログラム。
　請求項２１または２２に記載の音声認識プログラムであって、
　前記コンピュータに、
　前記記憶されている抑圧係数または適応係数の値を更新する際に、その更新前の抑圧係数または適応係数の値を記憶する処理と、
　前回更新された際の抑圧係数および適応係数と、前々回更新された際の抑圧係数および適応係数との差分の少なくともいずれかが所定の閾値以上である場合に、前記記憶されている抑圧係数および適応係数を更新する処理と、を実行させるための音声認識プログラム。
　請求項１９ないし２６のいずれか１項に記載の音声認識プログラムであって、
　前記抑圧係数と前記適応係数との和が１または単位行列である、音声認識プログラム。