JPWO2013132926A1

JPWO2013132926A1 - 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体

Info

Publication number: JPWO2013132926A1
Application number: JP2014503716A
Authority: JP
Inventors: メレツソウデン; 慶介木下; 中谷　智広; 智広中谷; マークデルクロア; 拓也吉岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-03-06
Filing date: 2013-01-30
Publication date: 2015-07-30
Anticipated expiration: 2033-01-30
Also published as: JP5842056B2; WO2013132926A1; US9754608B2; US20150032445A1

Abstract

時々刻々と変化する雑音成分を尤度最大化基準で推定する雑音推定装置を提供する。雑音推定装置は、現在までのフレームのうちの複数の観測信号の複素スペクトルを用いて、各フレームのガウス分布で表される音声存在区間の観測信号のモデルの対数尤度と音声存在事後確率との乗算値と、各フレームのガウス分布で表される音声不在区間の観測信号のモデルの対数尤度と音声不在事後確率との乗算値との和を重み付け加算した値が、大きくなるように雑音信号の分散値を求める。

Description

本発明は、雑音を伴って観測された音響信号（以下「観測音響信号」ともいう）に含まれる雑音成分を、その観測音響信号に含まれる情報のみを用いて推定する技術に関する。

以下の説明において、テキスト中で使用する記号「~」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。雑音のある環境で音響信号を収音すると、本来、収音しようとする音（以下「所望音」ともいう）に雑音が重畳された信号として観測される。その所望音が音声の場合、重畳した雑音の影響により、観測音響信号に含まれる音声の明瞭性は大きく低下してしまう。それにより、本来の所望音の性質を抽出することが困難となり、自動音声認識（以下、単に「音声認識」ともいう）システムの認識率も著しく低下する。これに対し、雑音推定技術を用いて雑音を推定し、推定後に雑音を何かしらの方法で除去することで、音声の明瞭性や音声認識率を改善することができる。雑音推定技術の従来技術として、非特許文献１記載のimproved minima-controlled recursive averaging（以下「ＩＭＣＲＡ」という）が知られている。

ＩＭＣＲＡの説明をする前に、雑音推定技術において用いられる観測音響信号のモデルについて説明する。一般的な音声強調の問題では、時間ｎで観測される観測音響信号（以下、単に「観測信号」という）ｙ_ｎは、所望音成分と雑音成分とからなる。所望音成分及び雑音成分に対応する信号をそれぞれ所望信号及び雑音信号といい、ｘ_ｎ及びｖ_ｎで表す。音声強調処理の目的は、観測信号ｙ_ｎを基に所望信号ｘ_ｎを回復することである。ｙ_ｎ、ｘ_ｎ、ｖ_ｎの短時間フーリエ変換後の信号をそれぞれＹ_ｋ，ｔ、Ｘ_ｋ，ｔ、Ｖ_ｋ，ｔとし、ｋは１，２，…，Ｋの値をとる周波数インデックス(Ｋは、周波数バンドの総数）とすると、現在のフレームｔでの観測信号は、以下のように表される。

以降では、周波数帯毎での処理を仮定するため、周波数インデックスｋは簡単のため省略する。また、所望信号は平均０及び分散σ_ｘ ^２、雑音信号は平均０及び分散σ_ｖ ^２の複素ガウス分布に従うものと仮定する。

また、観測信号には、所望音が存在している区間（以下、「音声存在区間」という）と存在していない区間（以下、「音声不在区間」という）があり、それぞれの区間は、Ｈ_１もしくはＨ_０の２値を取る潜在変数Ｈを用いて、以下のようにあらわすことができる。

以降では、上記の変数表記を用いて、従来方法を解説する。
図１を参照してＩＭＣＲＡを説明する。従来技術の雑音推定装置９０では、はじめに最小値追従型雑音推定部９１において、観測信号のパワースペクトルのある時間区間での最小値を求めることにより、雑音信号の特性（パワースペクトル）を推定する（非特許文献２参照）。

その後、音声不在事前確率推定部９２において、推定した雑音信号のパワースペクトルと観測信号のパワースペクトルとの比を求め、その比がある閾値よりも小さければ音声不在区間とする動作原理で、音声不在事前確率を求める。

次に、音声不在事後確率推定部９３において、短時間フーリエ変換後の観測信号及び雑音信号の複素スペクトルは、ガウス分布に従うという仮定を用いて、音声不在事後確率ｐ（Ｈ_０｜Ｙ_ｉ；θ^〜 _ｉ ^{ＩＭＣＲＡ}）（１か０）を求める。さらに、音声不在事後確率推定部９３において、求めた音声不在事後確率ｐ（Ｈ_０｜Ｙ_ｉ；θ^〜 _ｉ ^{ＩＭＣＲＡ}）と、適当に事前設定した重み係数αを用いて、修正された音声不在事後確率β_０，ｉ ^{ＩＭＣＲＡ}を求める。

最後に、雑音推定部９４において、求めた音声不在事後確率β_０，ｉ ^{ＩＭＣＲＡ}と、現在のフレームの観測信号のパワースペクトル｜Ｙ_ｉ｜^２、現在のフレームｉの直前のフレーム（ｉ−１）の雑音信号の分散値の推定値σ_{ｖ，ｉ−１} ^２を用いて、現在のフレームｉの雑音信号の分散値σ_ｖ，ｉ ^２を推定する。

このように雑音信号の分散値の推定値σ_ｖ，ｉ ^２を逐次的に更新することで、時々刻々と変化する雑音の特徴変化を追従しながら推定することができる。

I. Cohen, "Noise spectrum estimation in adverse environments: improved minima controlled recursive averaging", IEEE Trans. Speech, Audio Process., Sep. 2003, vol. 11, pp.466-475 R. Martin, "Noise power spectral density estimation based on optimal smoothing and minimum statistics", IEEE Trans. Speech Audio Process., Jul. 2001, vol. 9, pp. 504-512,.

しかし、従来技術では、算出される音声不在事前確率、音声不在事後確率及び雑音信号の分散値の推定値は、一般的に用いられる最適化基準である尤度最大化基準などを基に算出されたものではなく、経験則に基づき調整されたパラメータの組合せで決定されている。そのため、最終的に得られる雑音信号の分散値の推定値は、常に最適なものではなく、経験則に基づく準最適なものであるという問題があった。逐次推定される雑音信号の分散値の推定値が準最適な場合、時々刻々と変化する雑音の特徴変化をうまく追従しながら推定することができない。その結果、最終的に高い雑音除去性能を得ることは困難であった。

本発明は、時々刻々と変化する雑音成分を尤度最大化基準で推定する雑音推定装置、雑音推定方法及び雑音推定プログラムを提供することを目的とする。

上記の課題を解決するために、本発明の第一の態様によれば、雑音推定装置は、現在までのフレームのうちの複数の観測信号の複素スペクトルを用いて、各フレームのガウス分布で表される音声存在区間の観測信号のモデルの対数尤度と音声存在事後確率との乗算値と、各フレームのガウス分布で表される音声不在区間の観測信号のモデルの対数尤度と音声不在事後確率との乗算値との和を重み付け加算した値が、大きくなるように雑音信号の分散値を求める。

上記の課題を解決するために、本発明の第二の態様によれば、雑音推定方法は、現在までのフレームのうちの複数の観測信号の複素スペクトルを用いて、各フレームのガウス分布で表される音声存在区間の観測信号のモデルの対数尤度と音声存在事後確率との乗算値と、各フレームのガウス分布で表される音声不在区間の観測信号のモデルの対数尤度と音声不在事後確率との乗算値との和を重み付け加算した値が、大きくなるように雑音信号の分散値を求める。

本発明によれば、時々刻々と変化する雑音成分を尤度最大化基準で推定できる。

従来技術の雑音推定装置の機能ブロック図。第一実施形態に係る雑音推定装置の機能ブロック図。第一実施形態に係る雑音推定装置の処理フローを示す図。第一実施形態に係る尤度最大化部の機能ブロック図。第一実施形態に係る尤度最大化部の処理フローを示す図。第一実施形態及び従来技術に係る雑音推定装置による雑音逐次推定性能を示す図。第一実施形態及び従来技術に係る雑音推定装置により雑音推定処理を行い、推定された雑音信号の分散値を用いて、雑音除去を行った際の音声波形を示す図。変調白色雑音環境下で、第一実施形態及び従来技術に係る雑音推定装置を比較した場合の評価結果を示す図。バブルノイズ環境下で、第一実施形態及び従来技術に係る雑音推定装置を比較した場合の評価結果を示す図。第一実施形態の変形例に係る雑音推定装置の機能ブロック図。第一実施形態の変形例に係る雑音推定装置の処理フローを示す図。

以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態に係る雑音推定装置１０＞
図２は雑音推定装置１０の機能ブロック図を、図３はその処理フローを示す。雑音推定装置１０は尤度最大化部１１０と記憶部１２０とを含む。
尤度最大化部１１０は、最初のフレームの観測信号の複素スペクトルＹ_ｉの受信を開始すると（ｓ１）、各パラメータを以下のように初期化する（ｓ２）。

なお、λ及びκは、それぞれ０〜１の間の任意の値であり、事前に設定される。他のパラメータの詳細については後述する。

尤度最大化部１１０は、現在のフレームｉでの観測信号の複素スペクトルＹ_ｉを受け取ると、現在のフレームｉでの雑音信号の分散値σ_ｖ，ｉ ^２を逐次推定するために、現在のフレームｉの直前のフレーム（ｉ−１）で推定された音声不在事後確率η_{０，ｉ−１}、音声存在事後確率η_{１，ｉ−１}、音声不在事前確率α_{０，ｉ−１}、音声存在事前確率α_{１，ｉ−１}、観測信号の分散値σ_{ｙ，ｉ−１} ^２及び雑音信号の分散値σ_{ｖ，ｉ−１} ^２を記憶部１２０から取り出し（ｓ３）、これらの値から（ただし、最初のフレームの観測信号の複素スペクトルＹ_ｉを受け取った場合は、記憶部１２０からは取り出さず、上述（Ａ）の初期値から）、現在のフレームｉまでの観測信号の複素スペクトルＹ_０，Ｙ_１，…，Ｙ_ｉを用いて、各フレームｔ（ｔ＝０，１，…，ｉ）のガウス分布で表される音声存在区間の観測信号のモデルの対数尤度ｌｏｇ［α_１ｐ（Ｙ_ｔ｜Ｈ_１；θ）］と音声存在事後確率η_１，ｔ（α’_０，θ’）との乗算値と、各フレームのガウス分布で表される音声不在区間の観測信号のモデルの対数尤度ｌｏｇ［α_０ｐ（Ｙ_ｔ｜Ｈ_０；θ）］と音声不在事後確率η_０，ｔ（α’_０，θ’）との乗算値との和を重み付け加算した値、つまり、

が最大化されるように、現在のフレームｉでの音声存在事前確率α_１，ｉ、音声不在事前確率α_０，ｉ、音声不在事後確率η_０，ｉ、音声存在事後確率η_１，ｉ、雑音信号の分散値σ_ｖ，ｉ ^２及び所望信号の分散値σ_ｘ，ｉ ^２の分散値を求め（ｓ４）、記憶部１２０に格納する（ｓ５）。雑音推定装置１０は、雑音信号の分散値σ_ｖ，ｉ ^２を出力する。ただし、λは忘却係数であり、０＜λ＜１の範囲で事前に設定されるパラメータである。よって、重み係数λ^i-tは現在のフレームiと過去のフレームｔとの差が大きいほど値が小さくなる。言い換えれば、現在のフレームに近いフレームほど大きな重みをもつように重み付け加算することを意味する。最後のフレームの観測信号までｓ３〜ｓ５の処理を繰り返す（ｓ６、ｓ７）。以下、尤度最大化部１１０の詳細について詳述する。

＜尤度最大化基準におけるパラメータ推定方法＞
尤度最大化基準で前述のパラメータを推定するためのアルゴリズムの導出を行う。はじめに、音声存在事前確率と音声不在事前確率をそれぞれα_１＝Ｐ（Ｈ_１）、α_０＝Ｐ（Ｈ_０）＝１−α_１、パラメータベクトルをθ＝［σ_ｖ ^２，σ_ｘ ^２］^Ｔと定義する。なお、σ_ｙ ^２，σ_ｘ ^２及びσ_ｖ ^２は、それぞれ観測信号、所望信号及び雑音信号の分散値を表すとともにパワースペクトルをも表している。

また、以下のように、観測信号の複素スペクトルＹ_ｔは、音声存在区間と音声不在区間のいずれにおいてもガウス分布に従うものと仮定する。

上記モデルと、音声不在事前確率α_０及び音声存在事前確率α_１を用いると、時間フレームｔの観測信号の尤度は以下の式で表される。

次に、ベイズ則に従えば、音声存在事後確率η_１，ｔ（α_０，θ）＝ｐ（Ｈ_１｜Ｙ_ｔ；α_０，θ）及び音声不在事後確率η_０，ｔ（α_０，θ）＝ｐ（Ｈ_０｜Ｙ_ｔ；α_０，θ）は、以下のように定義することができる。

ただし、ｓは、０か１の値を取る変数である。これらのモデルを用いれば、補助関数を繰り返し最大化することで、式（６）で定義される尤度を最大化するパラメータα_０及びθを推定することができる。つまり、補助関数Ｑ（α_０，θ）＝Ｅ｛ｌｏｇ［ｐ（Ｙ_ｔ，Ｈ；α_０，θ）］｜Ｙ_ｔ；α’_０，θ’｝を最大化する未知のパラメータ最適値に関する推定値α’_０，θ’を繰り返し推定することで、パラメータの（局所）最適値（最尤推定値）を得ることができる。ここでＥ｛・｝は期待値計算関数とする。本実施形態では、時々刻々と変化する雑音信号の分散値を推定する問題を扱うため、推定したいパラメータα_０及びθ（期待値最大化アルゴリズムの潜在変数）は時変であることが想定される。そのために、通常の期待値最大化（ＥＭ）アルゴリズムではなく、再帰ＥＭアルゴリズム（参考文献１参照）を用いる。
（参考文献１）L. Deng, J. Droppo, and A. Acero, “Recursive estimation of nonstationary noise using iterative stochastic approximation for robust speech recognition”, IEEE Trans. Speech, Audio Process., Nov. 2003, vol. 11, pp. 568-580
再帰ＥＭアルゴリズムのために、上記補助関数を変形した以下の補助関数Ｑ_ｉ（α_０，θ）を導入する。

補助関数Ｑ_ｉ（α_０，θ）の最大化を行うことで、時間フレームｉでのパラメータ最適値α_０，ｉ、α_１，ｉ、θ_ｉ＝｛σ_ｖ，ｉ ^２，σ_ｘ，ｉ ^２｝を求めることができる。直前のフレーム（ｉ−１）での最適推定値が常に求まっていることを仮定すれば（つまり、α’_ｓ＝α_{ｓ，ｉ−１}、θ’＝θ_ｉ−１と仮定）、関数Ｌ（α_０，θ）＝Ｑ_ｉ（α_０，θ）＋μ（α_１＋α_０−１）をα_１とα_０に関して偏微分し、結果をゼロとすることで、パラメータ最適値α_０，ｉを求めることができる。ここで、μはラグランジュの未定乗数を表す（拘束条件α_１＋α_０＝１のもとで最適化を行うために導入する）。

上記の操作を行うことで最終的に、以下の更新式を得ることができる。

上式の各変数は以下のように定義される。

また、式（１０）は、以下のように展開することができる。

次に、補助関数Ｑ_ｉ（α_０，θ）をσ_ｖ ^２とσ_ｘ ^２に関して偏微分し、結果をゼロとすることで、ｓ＝１の場合について、以下の式を得ることができる。

である。また、同様にｓ＝０の場合については、以下の式を得ることができる。

式（１４）の、左辺第一項に式（１０）を挿入し、右辺を展開すると以下の式を得ることができる。

式（１２）と（１５）を用いれば、以下のように雑音信号の分散値σ_ｖ，ｉ ^２の逐次推定式を導出することができる。

ここで、β_０，ｉは、事変の忘却係数として以下のように定義される。

最後に、式（１２）と（１３）を用いれば、観測信号の分散値σ_ｙ，ｉ ^２の更新式も得ることができる。

ここで、β_１，ｉは事変の忘却係数として以下のように定義される。

なお、σ_ｙ，ｉ ^２とσ_ｖ，ｉ ^２とが推定されれば、σ_ｘ，ｉ ^２も必然的に推定されるため（σ_ｙ，ｉ ^２＝σ_ｖ，ｉ ^２＋σ_ｘ，ｉ ^２）、σ_ｙ，ｉ ^２の推定は、σ_ｘ，ｉ ^２の推定と同義である。

＜尤度最大化部１１０＞
図４は尤度最大化部１１０の機能ブロック図を、図５はその処理フローを示す。尤度最大化部１１０は、観測信号分散推定部１１１、事後確率推定部１１３、事前確率推定部１１５及び雑音信号分散推定部１１７を含む。
（観測信号分散推定部１１１）
観測信号分散推定部１１１は、直前のフレーム（ｉ−１）において推定された音声存在事後確率η_{１，ｉ−１}（α_{０，ｉ−２}，θ_ｉ−２）に基づき、現在のフレームｉにおける観測信号の複素スペクトルＹ_ｉと、現在のフレームｉの直前のフレーム（ｉ−１）において推定された観測信号の第二分散値σ^２ _{ｙ，ｉ−１，２}とを重み付け加算して、現在のフレームｉにおける観測信号の第一分散値σ^２ _{ｙ，ｉ，１}を推定する。例えば、現在のフレームｉにおける観測信号の複素スペクトルＹ_ｉと、直前のフレーム（ｉ−１）において推定された音声存在事後確率η_{１，ｉ−１}（α_{０，ｉ−２}，θ_ｉ−２）及び観測信号の第二分散値σ^２ _{ｙ，ｉ−１，２}とを受け取り、これらの値を用いて、現在のフレームｉにおける観測信号の第一分散値σ^２ _{ｙ，ｉ，１}を

として推定し（ｓ４１）（式（１８）、式（１９）、式（１２）参照）、事後確率推定部１１３に出力する。ただし、最初のフレームの観測信号の複素スペクトルＹ_ｉを受け取った場合は、η_{１，ｉ−１}（α_{０，ｉ−２}，θ_ｉ−２）及びσ^２ _{ｙ，ｉ−１，２}とを用いずに、上述（Ａ）の初期値β_{１，ｉ−１}＝１−λ及びσ_{ｙ，ｉ−１} ^２＝｜Ｙ_ｉ｜^２から第一分散値σ^２ _{ｙ，ｉ，１}を求める。

さらに、観測信号分散推定部１１１は、現在のフレームｉにおいて推定された音声存在事後確率η_１，ｉ（α_{０，ｉ−１}，θ_ｉ−１）に基づき、現在のフレームｉにおける観測信号の複素スペクトルＹ_ｉと、現在のフレームｉの直前のフレーム（ｉ−１）において推定された観測信号の第二分散値σ^２ _{ｙ，ｉ−１，２}とを重み付け加算して、現在のフレームｉにおける観測信号の第二分散値σ^２ _{ｙ，ｉ，２}を推定する。例えば、現在のフレームｉにおいて推定された音声存在事後確率η_１，ｉ（α_{０，ｉ−１}，θ_ｉ−１）を受け取り、現在のフレームｉにおける観測信号の第二分散値σ^２ _{ｙ，ｉ，２}を

として推定し（ｓ４５）（式（１８）、式（１９）、式（１２）参照）、第二分散値σ^２ _{ｙ，ｉ，２}を現在のフレームｉにおける観測信号の分散値σ^２ _ｙ，ｉとして記憶部１２０に格納する。ただし、最初のフレームの場合は、上述（Ａ）の初期値ｃ_{１，ｉ−１}＝α_{０，ｉ−１}＝κを用いて、ｃ_１，ｉを求める。

つまり、観測信号分散推定部１１１は、直前のフレーム（ｉ−１）において推定された音声存在事後確率η_{１，ｉ−１}（α_{０，ｉ−２}，θ_ｉ−２）を用いて第一分散値σ^２ _{ｙ，ｉ，１}を推定し、現在のフレームｉにおいて推定された音声存在事後確率η_１，ｉ（α_{０，ｉ−１}，θ_ｉ−１）を用いて第二分散値σ^２ _{ｙ，ｉ，２}を推定する。
観測信号分散推定部１１１は、第二分散値σ^２ _{ｙ，ｉ，２}を現在のフレームｉにおける分散値σ^２ _ｙ，ｉとして記憶部１２０に記憶する。

（事後確率推定部１１３）
観測信号の音声不在区間の複素スペクトルＹ_ｉは雑音信号の分散値σ^２ _{ｖ，ｉ−１}により定まるガウス分布に従うものと仮定し（式（５）参照）、観測信号の音声存在区間の複素スペクトルＹ_ｉは雑音信号の分散値σ^２ _{ｖ，ｉ−１}と観測信号の第一分散値σ^２ _{ｙ，ｉ，１}とにより定まるガウス分布に従うものと仮定する（式（５）参照、なお、σ^２ _{ｙ，ｉ，１}＝σ^２ _{ｖ，ｉ−１}＋σ^２ _{ｘ，ｉ−１}）。事後確率推定部１１３は、現在のフレームｉにおける観測信号の複素スペクトルＹ_ｉ及び観測信号の第一分散値σ^２ _{ｙ，ｉ，１}と、直前のフレーム（ｉ−１）において推定された音声存在事前確率α_{１，ｉ−１}及び音声不在事前確率α_{０，ｉ−１}とを用いて、現在のフレームｉに対する音声存在事後確率η_１，ｉ（α_{０，ｉ−１}，θ_ｉ−１）及び音声不在事後確率η_０，ｉ（α_{０，ｉ−１}，θ_ｉ−１）を推定する。例えば、現在のフレームｉにおける観測信号の複素スペクトルＹ_ｉ及び観測信号の第一分散値σ^２ _{ｙ，ｉ，１}と、直前のフレーム（ｉ−１）において推定された音声存在事前確率α_{１，ｉ−１}、音声不在事前確率α_{０，ｉ−１}及び雑音信号の分散値σ^２ _{ｖ，ｉ−１}とを受け取り、これらの値を用いて、現在のフレームｉに対する音声存在事後確率η_１，ｉ（α_{０，ｉ−１}，θ_ｉ−１）及び音声不在事後確率η_０，ｉ（α_{０，ｉ−１}，θ_ｉ−１）を

として推定し（ｓ４２）（式（７）、式（５）参照）、音声存在事後確率η_１，ｉ（α_{０，ｉ−１}，θ_ｉ−１）を観測信号分散推定部１１１に、音声不在事後確率η_０，ｉ（α_{０，ｉ−１}，θ_ｉ−１）を雑音信号分散推定部１１７に、音声存在事後確率η_１，ｉ（α_{０，ｉ−１}，θ_ｉ−１）及び音声不在事後確率η_０，ｉ（α_{０，ｉ−１}，θ_ｉ−１）を事前確率推定部１１５に出力する。また、音声存在事後確率η_１，ｉ（α_{０，ｉ−１}，θ_ｉ−１）及び音声不在事後確率η_０，ｉ（α_{０，ｉ−１}，θ_ｉ−１）を記憶部１２０に格納する。ただし、最初のフレームｉにおける観測信号の複素スペクトルＹ_ｉを受け取った場合は、上述（Ａ）の初期値σ_{ｖ、ｉ−１} ^２＝｜Ｙ_ｉ｜^２を用いて、σ_{ｘ、ｉ−１} ^２を求め、初期値α_{０，ｉ−１}＝κ及びα_{１，ｉ−１}＝１−α_{０，ｉ−１}＝１−κを用いて、η_１，ｉ（α_{０，ｉ−１}，θ_ｉ−１）及びη_０，ｉ（α_{０，ｉ−１}，θ_ｉ−１）を求める。

（事前確率推定部１１５）
事前確率推定部１１５は、現在のフレームｉまでに推定された音声存在事後確率及び音声不在事後確率をそれぞれ重み付け加算して得られる値を（式（１０）参照）、音声存在事前確率α_１，ｉ及び音声不在事前確率α_０，ｉとして推定する。例えば、現在のフレームｉにおいて推定された音声存在事後確率η_１，ｉ（α_{０，ｉ−１}，θ_ｉ−１）及び音声不在事後確率η_０，ｉ（α_{０，ｉ−１}，θ_ｉ−１）を受け取り、これらの値を用いて、音声存在事前確率α_１，ｉ及び音声不在事前確率α_０，ｉを

として推定し（ｓ４３）（式（９）、式（１２）、式（１１）参照）、記憶部１２０に格納する。なお、ｃ_{ｓ，ｉ−１}については、フレーム（ｉ−１）において求めたものを記憶しておけばよい。ただし、最初のフレームｉの場合は、上述（Ａ）の初期値ｃ_{０，ｉ−１}＝α_{０，ｉ−１}＝κ、ｃ_{１，ｉ−１}＝α_{１，ｉ−１}＝１−α_{０，ｉ−１}＝１−κ、を用いて、ｃ_ｓ，ｉを求める。

また、式（１０）により、ｃ_ｓ，ｉを求めてもよいが、その場合、現在のフレームまでの全ての音声存在事後確率η_１，０，η_１，１，…，η_１，ｉ及び音声不在事後確率η_０，０，η_０，１，…，η_０，ｉをλ^ｉ−ｔで重み付き加算する必要があるため、計算量が大きくなる。

（雑音信号分散推定部１１７）
雑音信号分散推定部１１７は、現在のフレームｉにおいて推定された音声不在事後確率に基づき、現在のフレームｉにおける観測信号の複素スペクトルＹ_ｉと、現在のフレームｉの直前のフレーム（ｉ−１）において推定された雑音信号の分散値σ^２ _{ｖ，ｉ−１}とを重み付け加算して、現在のフレームｉにおける雑音信号の分散値σ^２ _ｖ，ｉを推定する。例えば、観測信号の複素スペクトルＹ_ｉと、現在のフレームｉにおいて推定された音声不在事後確率η_０，ｉ（α_{０，ｉ−１}，θ_ｉ−１）と、直前のフレーム（ｉ−１）において推定された雑音信号の分散値σ^２ _{ｖ，ｉ−１}とを受け取り、これらの値を用いて、現在のフレームｉにおける雑音信号の分散値σ^２ _ｖ，ｉを

として推定し（ｓ４４）（式（１６）、式（１７）参照）、記憶部１２０に格納する。
なお、観測信号分散推定部１１１では、事後確率推定部１１３の処理後に現在のフレームｉにおいて推定された音声存在事後確率η_１，ｉ（α_{０，ｉ−１}，θ_ｉ−１）を用いて上述のｓ４５を行う。

＜効果＞
本実施形態では、時々刻々と変化する雑音成分を尤度最大化基準で逐次推定できる。その結果、時変雑音への追従性が高くなり、精度の高い雑音除去を行えることが期待される。

＜シミュレーション結果＞
本実施形態の効果を検証するため、雑音信号の逐次推定性能、推定した雑音成分を用いた雑音除去性能を、従来技術と比較し、評価する。
処理の初期化時に必要なパラメータλ及びκは、それぞれ０．９６、０．９９とした。

雑音環境の模擬のために、人工的に変調した白色雑音及びバブルノイズ（人ごみ雑音）の二種類の雑音を用意した。変調白色雑音は時間的に大きく特性の変わる時変性の高い雑音であり、バルブノイズは比較的緩やかに特性が変化する時変性の低い雑音である。これらの雑音を、クリーン音声にいくつかのＳＮＲで混合し、雑音推定及び雑音除去の性能を試験した。なお、雑音除去方法としては、観測信号のパワースペクトルから、第一実施形態を用いて推定した雑音信号のパワースペクトルを減算し、雑音信号の除去されたパワースペクトルを得る、スペクトル減算法（参考文献２参照）を用いた。スペクトル減算法以外にも、雑音除去のために雑音信号のパワースペクトル推定値を必要とする雑音除去方法（非特許文献３等参照）と組合せが可能である。
（参考文献２） P. Loizou, "Speech Enhancement: Theory and Practice", CRC Press, Boca Raton, 2007
（参考文献３） Y. Ephraim, D. Malah, "Speech enhancement using a minimum mean square error short-time spectral amplitude estimator", IEEE Trans. Acoust., Speech, Sig. Process., Dec.1984, vol. ASSP-32, pp. 1109-1121

図６に、第一実施形態に係る雑音推定装置１０と従来技術の雑音推定装置９０とによる雑音逐次推定性能を示す。この際のＳＮＲは１０ｄＢであった。図６から、雑音推定装置１０は時々刻々と変化する雑音を効果的に逐次推定できており、一方、雑音推定装置９０は雑音の急速な変化に追従できずに、大きく推定を誤っていることが分かる。

図７には、雑音推定装置１０と雑音推定装置９０とにより雑音推定処理を行い、推定された雑音信号の分散値を用いて、雑音除去を行った際の音声波形を示した。（ａ）はクリーン音声の波形を、（ｂ）は変調白色雑音の重畳した音声の波形を、（ｃ）は雑音推定装置１０により雑音推定処理を行い、雑音除去を行った際の音声の波形を、（ｄ）は雑音推定装置９０により雑音推定処理を行い、雑音除去を行った際の音声の波形を示す。（ｃ）は、（ｄ）と比べ残留雑音が少ないことが分かる。図８及び図９は、それぞれ変調白色雑音及びバブルノイズ環境下で、雑音推定装置１０と雑音推定装置９０を比較した場合の評価結果を示している。ここでは、評価尺度としてセグメンタルＳＮＲ、ＰＥＳＱ値（参考文献４参照）を用いた。
（参考文献４）P. Loizou, "Speech Enhancement: Theory and Practice", CRC Press, Boca Raton, 2007
変調白色雑音環境下（図８参照）においては、雑音推定装置１０は雑音推定装置９０に対して大幅に優位な効果を示している。また、バブルノイズ環境下（図９参照）においても、雑音推定装置１０は雑音推定装置９０よりもわずかではあるが高い性能を示している。

＜変形例＞
本実施形態では、第一分散値σ^２ _{ｙ，ｉ，１}を求める過程（ｓ４１）において、β_{１，ｉ−１}を算出しているが、直前のフレーム（ｉ−１）において第二分散値σ^２ _{ｙ，ｉ−１，２}を求める過程（ｓ４５）において算出されるβ_{１，ｉ−１}を記憶しておき利用してもよい。その場合には、音声存在事後確率η_１，ｉ（α_{０，ｉ−１}，θ_ｉ−１）及び音声不在事後確率η_０，ｉ（α_{０，ｉ−１}，θ_ｉ−１）を記憶部１２０に格納する必要はない。

本実施形態では、分散値σ^２ _ｖ，ｉを求める過程（ｓ４４）において、ｃ_０，ｉを算出しているが、事前確率推定部１１５において事前確率を求める過程（ｓ４３）において算出されるｃ_０，ｉを受け取り、利用してもよい。同様に、第二分散値σ^２ _{ｙ，ｉ，２}を求める過程（ｓ４５）において、ｃ_１，ｉを算出しているが、事前確率推定部１１５において事前確率を求める過程（ｓ４３）において算出されるｃ_１，ｉを受け取り、利用してもよい。

本実施形態では、第一分散値σ^２ _{ｙ，ｉ，１}及び第二分散値σ^２ _{ｙ，ｉ，２}を観測信号分散推定部１１１において推定しているが、観測信号分散推定部１１１に代えて第一観測信号分散推定部と第二観測信号分散推定部とを設け、第一分散値σ^２ _{ｙ，ｉ，１}及び第二分散値σ^２ _{ｙ，ｉ，２}をそれぞれ第一観測信号分散推定部及び第二観測信号分散推定部において推定する構成としてもよい。本実施形態では、観測信号分散推定部１１１が、第一観測信号分散推定部及び第二観測信号分散推定部を含んでいる。

第一分散値σ^２ _{ｙ，ｉ，１}を推定（ｓ４１）しなくともよい。その場合の尤度最大化部１１０の機能ブロック図を図１０に、その処理フローを図１１に示す。その場合、現在のフレームｉにおける観測信号の分散値をσ^２ _ｙ，ｉと表す。事後確率推定部１１３では、第一分散値σ^２ _{ｙ，ｉ，１}に代えて、直前のフレーム（ｉ−１）における分散値σ^２ _{ｙ，ｉ−１}を用いて推定する。その場合には、音声存在事後確率η_１，ｉ（α_{０，ｉ−１}，θ_ｉ−１）及び音声不在事後確率η_０，ｉ（α_{０，ｉ−１}，θ_ｉ−１）を記憶部１２０に格納する必要はない。ただし、β_ｉ−１を用いて第一分散値σ^２ _{ｙ，ｉ，１}を求め、β_ｉを算出した後に調整して第二分散値σ^２ _{ｙ，ｉ，２}を求めたほうが、雑音推定精度は高い。直前のフレームの分散値を用いるより、現在のフレームの観測信号の複素スペクトルＹ_ｉが反映された第一分散値を用いる方が、すべてのパラメータが、より現在の観測に適合した形で推定されるからである。つまり、第一分散値σ^２ _{ｙ，ｉ，１}を推定しない場合、第一実施形態の場合と比べ、計算量を減らすことができるというメリットがあるが、雑音推定精度が低いというデメリットがある。

本実施形態のｓ４では、現在のフレームｉでの雑音信号の分散値σ_ｖ，ｉ ^２を「逐次」推定するために（次のフレーム（ｉ＋１）でも雑音信号の分散値σ_ｖ，ｉ ^２を推定するために）、尤度最大化部１１０は、現在のフレームｉでの音声存在事前確率α_１，ｉ、音声不在事前確率α_０，ｉ、音声不在事後確率η_０，ｉ、音声存在事後確率η_１，ｉ及び所望信号の分散値σ_ｘ，ｉ ^２の分散値を求めているが、現在のフレームｉでの雑音信号の分散値σ_ｖ，ｉ ^２「のみ」を推定するのであれば、現在のフレームｉでの音声存在事前確率α_１，ｉ、音声不在事前確率α_０，ｉ、音声不在事後確率η_０，ｉ、音声存在事後確率η_１，ｉ及び所望信号の分散値σ_ｘ，ｉ ^２の分散値を求めなくともよい。

また、本実施形態のｓ４では、現在のフレームｉの直前のフレーム（ｉ−１）で推定された各パラメータを記憶部１２０から取り出しているが、必ずしも直前のフレーム（ｉ−１）である必要はなく、過去の何れかのフレーム（ｉ−τ）で推定された各パラメータを記憶部１２０から取り出して用いてもよい。ただし、τは１以上の整数とする。

また、観測信号分散推定部１１１では、二つ前のフレーム（ｉ−２）において推定されたパラメータα_{０，ｉ−２}、θ_ｉ−２を用いて直前のフレーム（ｉ−１）において推定された音声存在事後確率η_{１，ｉ−１}（α_{０，ｉ−２}，θ_ｉ−２）に基づき、現在のフレームｉにおける観測信号の第一分散値σ^２ _{ｙ，ｉ，１}を推定しているが、フレーム（ｉ−τ）よりも過去の何れかのフレーム（ｉ−τ’）において推定されたパラメータα_{０，ｉ−τ’}、θ_ｉ−τ’を用いてフレーム（ｉ−τ）において推定された音声存在事後確率η_{１，ｉ−τ}（α_{０，ｉ−τ’}，θ_ｉ−τ’）に基づき、現在のフレームｉにおける観測信号の第一分散値σ^２ _{ｙ，ｉ，１}を推定してもよい。ただし、τ’はτより大きい整数とする。

本実施形態のｓ４では、現在のフレームｉでの観測信号の複素スペクトルＹ_ｉを受け取ると、現在のフレームｉまでの観測信号の複素スペクトルＹ_０，Ｙ_１，…，Ｙ_ｉを用いて、

が最大化されるように、各パラメータを求めている。このとき、実際に、現在のフレームｉまでの観測信号の複素スペクトルＹ_０，Ｙ_１，…，Ｙ_ｉの全ての値を用いてＱ_ｉ（α_０，θ）を求めてもよいし、直前のフレーム（ｉ−１）で得たＱ_ｉ−１と現在のフレームｉの観測信号の複素スペクトルＹ_ｉとを用いて（α_０，θ）（間接的に直前のフレーム（ｉ−１）までの観測信号の複素スペクトルＹ_０，Ｙ_１，…，Ｙ_ｉ−１を用いて）、

が最大化されるように、各パラメータを求めてもよい。よって、少なくとも現在のフレームの観測信号の複素スペクトルＹ_ｉを用いて、Ｑ_ｉ（α_０，θ）を求めればよい。
また、本実施形態のｓ４では、Ｑ_ｉ（α_０，θ）が最大化されるように、各パラメータを求めているが、必ずしも一度で最大化される必要はなく、更新前の対数尤度ｌｏｇ［α_ｓｐ（Ｙ_ｉ｜Ｈ_ｓ；θ）］に基づく値Ｑ_ｉ（α_０，θ）よりも、更新後の対数尤度ｌｏｇ［α_ｓｐ（Ｙ_ｉ｜Ｈ_ｓ；θ）］に基づく値Ｑ_ｉ（α_０，θ）が大きくなるように各パラメータを求め、これを所定回数繰り返せば、尤度最大化基準におけるパラメータ推定が可能である。

本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
上述した雑音推定装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置（各種実施形態で図に示した機能構成をもつ装置）として機能させるためのプログラム、またはその処理手順（各実施形態で示したもの）の各過程をコンピュータに実行させるためのプログラムを、ＣＤ−ＲＯＭ、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。

本発明は、様々な音響信号処理システムの要素技術として利用することができる。本発明を用いることで、そのシステム全体の性能向上につながる技術である。発話された音声信号中に含まれる雑音成分の推定処理が要素技術として性能向上に寄与できるようなシステムには、例えば、以下のようなものを列挙できる。実環境で収録された音声には、常に雑音が含まれるが、以下に挙げるシステムは、そのような状況で用いられることを想定した例である。
１．実環境で用いられる音声認識システム。
２．人が発した音に反応して機械にコマンドをわたす機械制御インターフェース、及び機械と人間との対話装置。
３．人が歌ったり、楽器で演奏したり、またはスピーカで演奏された音楽に重畳する雑音を除去して、楽曲を検索したり、採譜したりする音楽情報処理システム。
４．マイクロホンで収音した収音音声に重畳する雑音を除去し、相手側のスピーカで再生する音声通話システム。

Claims

現在までのフレームのうちの複数の観測信号の複素スペクトルを用いて、各フレームのガウス分布で表される音声存在区間の観測信号のモデルの対数尤度と音声存在事後確率との乗算値と、各フレームのガウス分布で表される音声不在区間の観測信号のモデルの対数尤度と音声不在事後確率との乗算値との和を重み付け加算した値が、大きくなるように雑音信号の分散値を求める、
雑音推定装置。
請求項１記載の雑音推定装置であって、
現在のフレームの観測信号の複素スペクトルを用いて、各フレームのガウス分布で表される音声存在区間の観測信号のモデルの対数尤度と音声存在事後確率との乗算値と、各フレームのガウス分布で表される音声不在区間の観測信号のモデルの対数尤度と音声不在事後確率との乗算値との和を重み付け加算した値が、大きくなるように前記雑音信号の分散値、音声存在事前確率、音声不在事前確率及び所望信号の分散値を求める、
雑音推定装置。
請求項１または２記載の雑音推定装置であって、前記重み付け加算の重みは、現在のフレームに近いフレームに対する重みほど大きな値をとる、
ことを特徴とする雑音推定装置。
請求項１乃至３の何れかに記載の雑音推定装置であって、
τを１以上の整数とし、現在のフレームｉにおいて推定された音声不在事後確率に基づき、現在のフレームｉにおける観測信号の複素スペクトルＹ_ｉと、過去のフレーム（ｉ−τ）において推定された雑音信号の分散値σ^２ _{ｖ，ｉ−τ}とを重み付け加算して、現在のフレームｉにおける雑音信号の分散値σ^２ _ｖ，ｉを推定する雑音信号分散推定部を含む、
雑音推定装置。
請求項４記載の雑音推定装置であって、
過去のフレーム（ｉ−τ）において推定された音声存在事後確率に基づき、現在のフレームｉにおける観測信号の複素スペクトルＹ_ｉと、過去のフレーム（ｉ−τ）において推定された観測信号の第二分散値σ^２ _{ｙ，ｉ−τ，２}とを重み付け加算して、現在のフレームｉにおける観測信号の第一分散値σ^２ _{ｙ，ｉ，１}を推定する第一観測信号分散推定部と、
観測信号の音声不在区間の複素スペクトルＹ_ｉは雑音信号の分散値σ^２ _{ｖ，ｉ−τ}により定まるガウス分布に従うものと仮定し、観測信号の音声存在区間の複素スペクトルＹ_ｉは雑音信号の分散値σ^２ _{ｖ，ｉ−τ}と観測信号の第一分散値σ^２ _{ｙ，ｉ，１}とにより定まるガウス分布に従うものと仮定し、現在のフレームｉにおける観測信号の複素スペクトルＹ_ｉ及び観測信号の第一分散値σ^２ _{ｙ，ｉ，１}と、過去のフレーム（ｉ−τ）において推定された音声存在事前確率α_{１，ｉ−τ}及び音声不在事前確率α_{０，ｉ−τ}とを用いて、現在のフレームｉに対する音声存在事後確率η_１，ｉ（α_{０，ｉ−τ}，θ_ｉ−τ）及び音声不在事後確率η_０，ｉ（α_{０，ｉ−τ}，θ_ｉ−τ）を推定する事後確率推定部と、
現在のフレームｉまでに推定された音声存在事後確率及び音声不在事後確率をそれぞれ重み付け加算して得られる値を、音声存在事前確率α_１，ｉ及び音声不在事前確率α_０，ｉとして推定する事前確率推定部と、
現在のフレームｉにおいて推定された音声存在事後確率に基づき、現在のフレームｉにおける観測信号の複素スペクトルＹ_ｉと、過去のフレーム（ｉ−τ）において推定された観測信号の第二分散値σ^２ _{ｙ，ｉ−τ，２}とを重み付け加算して、現在のフレームｉにおける観測信号の第二分散値σ^２ _{ｙ，ｉ，２}を推定する第二観測信号分散推定部とを含む、
雑音推定装置。
請求項４記載の雑音推定装置であって、
観測信号の音声不在区間の複素スペクトルＹ_ｉは雑音信号の分散値σ^２ _{ｖ，ｉ−τ}により定まるガウス分布に従うものと仮定し、観測信号の音声存在区間の複素スペクトルＹ_ｉは雑音信号の分散値σ^２ _{ｖ，ｉ−τ}と観測信号の分散値σ^２ _ｙ，ｉとにより定まるガウス分布に従うものと仮定し、現在のフレームｉにおける観測信号の複素スペクトルＹ_ｉと、過去のフレーム（ｉ−τ）において推定された観測信号の分散値σ^２ _{ｙ，ｉ−τ}、音声存在事前確率α_{１，ｉ−τ}及び音声不在事前確率α_{０，ｉ−τ}とを用いて、現在のフレームｉに対する音声存在事後確率η_１，ｉ（α_{０，ｉ−τ}，θ_ｉ−τ）及び音声不在事後確率η_０，ｉ（α_{０，ｉ−τ}，θ_ｉ−τ）を推定する事後確率推定部と、
現在のフレームｉまでに推定された音声存在事後確率及び音声不在事後確率をそれぞれ重み付け加算して得られる値を、音声存在事前確率α_１，ｉ及び音声不在事前確率α_０，ｉとして推定する事前確率推定部と、
現在のフレームｉにおいて推定された音声存在事後確率に基づき、現在のフレームｉにおける観測信号の複素スペクトルＹ_ｉと、過去のフレーム（ｉ−τ）において推定された観測信号の分散値σ^２ _{ｙ，ｉ−τ}とを重み付け加算して、現在のフレームｉにおける観測信号の分散値σ^２ _ｙ，ｉを推定する観測信号分散推定部とを含む、
雑音推定装置。
請求項５記載の雑音推定装置であって、
０＜λ＜１とし、τ’をτより大きい整数とし、前記第一観測信号分散推定部は、現在のフレームｉにおける観測信号の複素スペクトルＹ_ｉと、過去のフレーム（ｉ−τ）において推定された観測信号の第二分散値σ^２ _{ｙ，ｉ−τ，２}とを用いて、現在のフレームｉにおける観測信号の第一分散値σ^２ _{ｙ，ｉ，１}を

として推定し、
ｓ＝０またはｓ＝１とし、前記事後確率推定部は、現在のフレームｉにおける観測信号の複素スペクトルＹ_ｉ及び観測信号の第一分散値σ^２ _{ｙ，ｉ，１}と、過去のフレーム（ｉ−τ）において推定された音声存在事前確率α_{１，ｉ−τ}、音声不在事前確率α_{０，ｉ−τ}及び雑音信号の分散値σ^２ _{ｖ，ｉ−τ}とを用いて、現在のフレームｉに対する音声存在事後確率η_１，ｉ（α_{０，ｉ−τ}，θ_ｉ−τ）及び音声不在事後確率η_０，ｉ（α_{０，ｉ−τ}，θ_ｉ−τ）を

として推定し、
前記事前確率推定部は、現在のフレームｉにおいて推定された音声存在事後確率η_１，ｉ（α_{０，ｉ−τ}，θ_ｉ−τ）及び音声不在事後確率η_０，ｉ（α_{０，ｉ−τ}，θ_ｉ−τ）を用いて、音声存在事前確率α_１，ｉ及び音声不在事前確率α_０，ｉを

として推定し、
前記雑音信号分散推定部は、観測信号の複素スペクトルＹ_ｉと、現在のフレームｉにおいて推定された音声不在事後確率η_０，ｉ（α_{０，ｉ−τ}，θ_ｉ−τ）と、過去のフレーム（ｉ−τ）において推定された雑音信号の分散値σ^２ _{ｖ，ｉ−τ}とを用いて、現在のフレームｉにおける雑音信号の分散値σ^２ _ｖ，ｉを

として推定し、
前記第二観測信号分散推定部は、現在のフレームｉにおける観測信号の複素スペクトルＹ_ｉと、現在のフレームｉにおいて推定された音声存在事後確率η_１，ｉ（α_{０，ｉ−τ}，θ_ｉ−τ）と、過去のフレーム（ｉ−τ）において推定された観測信号の第二分散値σ^２ _{ｙ，ｉ−τ，２}とを用いて、現在のフレームｉにおける観測信号の第二分散値σ^２ _{ｙ，ｉ，２}を

として推定する、
雑音推定装置。
現在までのフレームのうちの複数の観測信号の複素スペクトルを用いて、各フレームのガウス分布で表される音声存在区間の観測信号のモデルの対数尤度と音声存在事後確率との乗算値と、各フレームのガウス分布で表される音声不在区間の観測信号のモデルの対数尤度と音声不在事後確率との乗算値との和を重み付け加算した値が、大きくなるように雑音信号の分散値を求める、
雑音推定方法。
請求項８記載の雑音推定方法であって、
現在のフレームの観測信号の複素スペクトルを用いて、各フレームのガウス分布で表される音声存在区間の観測信号のモデルの対数尤度と音声存在事後確率との乗算値と、各フレームのガウス分布で表される音声不在区間の観測信号のモデルの対数尤度と音声不在事後確率との乗算値との和を重み付け加算した値が、大きくなるように前記雑音信号の分散値、音声存在事前確率、音声不在事前確率及び所望信号の分散値を求める、
雑音推定方法。
請求項８または９記載の雑音推定方法であって、前記重み付け加算の重みは、現在のフレームに近いフレームに対する重みほど大きな値をとる、
ことを特徴とする雑音推定方法。
請求項８乃至１０の何れかに記載の雑音推定方法であって、
τを１以上の整数とし、現在のフレームｉにおいて推定された音声不在事後確率に基づき、現在のフレームｉにおける観測信号の複素スペクトルＹ_ｉと、過去のフレーム（ｉ−τ）において推定された雑音信号の分散値σ^２ _{ｖ，ｉ−τ}とを重み付け加算して、現在のフレームｉにおける雑音信号の分散値σ^２ _ｖ，ｉを推定する雑音信号分散推定ステップを含む、
雑音推定方法。
請求項１１記載の雑音推定方法であって、
過去のフレーム（ｉ−τ）において推定された音声存在事後確率に基づき、現在のフレームｉにおける観測信号の複素スペクトルＹ_ｉと、過去のフレーム（ｉ−τ）において推定された観測信号の第二分散値σ^２ _{ｙ，ｉ−τ，２}とを重み付け加算して、現在のフレームｉにおける観測信号の第一分散値σ^２ _{ｙ，ｉ，１}を推定する第一観測信号分散推定ステップと、
観測信号の音声不在区間の複素スペクトルＹ_ｉは雑音信号の分散値σ^２ _{ｖ，ｉ−τ}により定まるガウス分布に従うものと仮定し、観測信号の音声存在区間の複素スペクトルＹ_ｉは雑音信号の分散値σ^２ _{ｖ，ｉ−τ}と観測信号の第一分散値σ^２ _{ｙ，ｉ，１}とにより定まるガウス分布に従うものと仮定し、現在のフレームｉにおける観測信号の複素スペクトルＹ_ｉ及び観測信号の第一分散値σ^２ _{ｙ，ｉ，１}と、過去のフレーム（ｉ−τ）において推定された音声存在事前確率α_{１，ｉ−τ}及び音声不在事前確率α_{０，ｉ−τ}とを用いて、現在のフレームｉに対する音声存在事後確率η_１，ｉ（α_{０，ｉ−τ}，θ_ｉ−τ）及び音声不在事後確率η_０，ｉ（α_{０，ｉ−τ}，θ_ｉ−τ）を推定する事後確率推定ステップと、
現在のフレームｉまでに推定された音声存在事後確率及び音声不在事後確率をそれぞれ重み付け加算して得られる値を、音声存在事前確率α_１，ｉ及び音声不在事前確率α_０，ｉとして推定する事前確率推定ステップと、
現在のフレームｉにおいて推定された音声存在事後確率に基づき、現在のフレームｉにおける観測信号の複素スペクトルＹ_ｉと、過去のフレーム（ｉ−τ）において推定された観測信号の第二分散値σ^２ _{ｙ，ｉ−τ，２}とを重み付け加算して、現在のフレームｉにおける観測信号の第二分散値σ^２ _{ｙ，ｉ，２}を推定する第二観測信号分散推定ステップとを含む、
雑音推定方法。
請求項１１記載の雑音推定方法であって、
観測信号の音声不在区間の複素スペクトルＹ_ｉは雑音信号の分散値σ^２ _{ｖ，ｉ−τ}により定まるガウス分布に従うものと仮定し、観測信号の音声存在区間の複素スペクトルＹ_ｉは雑音信号の分散値σ^２ _{ｖ，ｉ−τ}と観測信号の分散値σ^２ _ｙ，ｉとにより定まるガウス分布に従うものと仮定し、現在のフレームｉにおける観測信号の複素スペクトルＹ_ｉと、過去のフレーム（ｉ−τ）において推定された観測信号の分散値σ^２ _{ｙ，ｉ−τ}、音声存在事前確率α_{１，ｉ−τ}及び音声不在事前確率α_{０，ｉ−τ}とを用いて、現在のフレームｉに対する音声存在事後確率η_１，ｉ（α_{０，ｉ−τ}，θ_ｉ−τ）及び音声不在事後確率η_０，ｉ（α_{０，ｉ−τ}，θ_ｉ−τ）を推定する事後確率推定ステップと、
現在のフレームｉまでに推定された音声存在事後確率及び音声不在事後確率をそれぞれ重み付け加算して得られる値を、音声存在事前確率α_１，ｉ及び音声不在事前確率α_０，ｉとして推定する事前確率推定ステップと、
現在のフレームｉにおいて推定された音声存在事後確率に基づき、現在のフレームｉにおける観測信号の複素スペクトルＹ_ｉと、過去のフレーム（ｉ−τ）において推定された観測信号の分散値σ^２ _{ｙ，ｉ−τ}とを重み付け加算して、現在のフレームｉにおける観測信号の分散値σ^２ _ｙ，ｉを推定する観測信号分散推定ステップとを含む、
雑音推定方法。
請求項１から請求項７の何れかに記載の雑音推定装置としてコンピュータを機能させるための雑音推定プログラム。
請求項１から請求項７の何れかに記載の雑音推定装置としてコンピュータを機能させるための雑音推定プログラムを記録したコンピュータ読み取り可能な記録媒体。