JPWO2016092837A1

JPWO2016092837A1 - 音声処理装置、雑音抑圧装置、音声処理方法およびプログラム

Info

Publication number: JPWO2016092837A1
Application number: JP2016563514A
Authority: JP
Inventors: 秀治古明地; 剛範辻川; 亮輔磯谷
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-12-10
Filing date: 2015-12-08
Publication date: 2017-09-28
Also published as: WO2016092837A1; US20170337935A1; US10347273B2

Abstract

入力信号が含む音声パワーを精度よく推定する技術を提供する。音声処理装置は、入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出する期待値算出手段と、前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する音声パワー推定手段と、を備える。

Description

本発明は、音声処理装置、雑音抑圧装置、音声処理方法および記録媒体に関する。

近年、音声特徴をモデル化した音声モデルを雑音抑圧に用いるモデルベースの雑音抑圧が発展している。モデルベース雑音抑圧法は、音声モデルがもつ音声情報を参照して高精度に雑音を抑圧する方法であり、例えば、特許文献１、非特許文献１および非特許文献２に記載されるものがある。

例えば、特許文献１には、音声モデルを用いた雑音抑制システムが開示されている。特許文献１の雑音抑制システムは、入力信号と雑音の平均スペクトルとからスペクトル領域で仮推定音声を求め、標準パタンを用いて仮推定音声を補正している。そして、前記雑音抑制システムは、補正した仮推定音声と雑音平均スペクトルとから雑音低減フィルタを算出し、当該雑音低減フィルタと入力信号スペクトルとから推定音声を算出している。

特許第４７６５４６１号公報

Pedro J. Moreno, Bhiksha Raj and Richard M. Stern, "A Vector Taylor Series Approach for Environment Independent Speech Recognition," Proc. ICASSP1996, pp. 733-736 vol. 2, 1996. M. Tsujikawa, T. Arakawa, and R. Isotani, "In-car speech recognition using model-based wiener filter and multi-condition training," INTERSPEECH 2008, pp. 972-975, 2008. 09.

非特許文献１に記載のモデルベース雑音抑圧法は、入力信号の音声パワーと音声モデルが持つ音声パワーの情報との間にミスマッチがある場合に、正しく雑音を抑圧できない。そのため、非特許文献１の技術では、入力信号の音声パワーの変動に対して頑健でない。

一方、特許文献１および非特許文献２に記載のモデルベース雑音抑圧法は、入力信号から音声パワーを推定する。したがって、特許文献１および非特許文献２に記載のモデルベース雑音抑圧法は、入力信号のパワーと音声モデルがもつパワー情報との間のミスマッチに対して頑健である。

この入力信号から推定した音声パワーγは、下記の式（１）に示すものとなる。

ここで、Ｓ_ｉｎ（ｋ）（ｋ＝０，．．．，Ｋ−１，但し、ｋは周波数ビン、Ｋはナイキスト周波数）は、入力信号スペクトルである。

しかしながら、式（１）を用いての音声パワーの推定では、入力信号に雑音が含まれていたり、雑音抑圧されていたりした場合に、入力信号が含む音声パワーを正しく推定することができない。

本発明は、上記問題に鑑みてなされたものであり、その目的は、入力信号が含む音声パワーを精度よく推定する技術を提供することにある。

本発明の一態様に係る音声処理装置は、入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出する期待値算出手段と、前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する音声パワー推定手段と、を備える。

本発明の一態様に係る雑音抑圧装置は、入力信号から推定雑音を算出する雑音推定手段と、前記入力信号のスペクトルから、該入力信号のスペクトルに含まれる音声成分のスペクトルの期待値、および、該音声成分の音声パワーを推定する音声処理装置と、前記音声成分のスペクトルの期待値と、前記音声パワーと、前記推定雑音のスペクトルとを用いて、抑圧ゲインを算出する抑圧ゲイン算出手段と、前記抑圧ゲインと前記入力信号のスペクトルとを用いて前記入力信号の雑音を抑圧する雑音抑圧手段と、を備え、前記音声処理装置は、前記入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記音声成分のスペクトルの期待値を算出する期待値算出手段と、前記入力信号スペクトルおよび前記音声成分のスペクトルの期待値に基づいて、前記音声パワーを推定する音声パワー推定手段と、を備える。

本発明の一態様に係る音声処理方法は、入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出し、前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する。

なお、上記各装置または方法を、コンピュータによって実現するコンピュータプログラム、およびそのコンピュータプログラムが格納されている、コンピュータ読み取り可能な記録媒体も、本発明の範疇に含まれる。

本発明によれば、入力信号が含む音声パワーを精度よく推定することができる。

本発明の第１の実施の形態に係る音声処理装置の機能構成の一例を示す機能ブロック図である。本発明の第１の実施の形態に係る音声処理装置のハードウェア構成の一例を示す図である。本発明の第１の実施の形態に係る音声処理装置の音声パワー推定処理の流れの一例を示すフローチャートである。本発明の第２の実施の形態に係る雑音抑圧装置の機能構成の一例を示す機能ブロック図である。本発明の第２の実施の形態に係る雑音抑圧装置の雑音抑圧処理の流れの一例を示すフローチャートである。本発明の第３の実施の形態に係る音声処理装置の機能構成の一例を示す機能ブロック図である。

＜第１の実施の形態＞
以下、本発明の第１の実施の形態について、図面を参照して説明する。

（音声処理装置１０の構成）
図１は、本発明の第１の実施の形態に係る音声処理装置の機能構成の一例を示す機能ブロック図である。図１に示すとおり、音声処理装置１０は、記憶部１１、期待値算出部１２および音声パワー推定部１３を備えている。なお、図面中の矢印の方向は、一例を示すものであり、ブロック間の信号の向きを限定するものではない。以降に参照する、他のブロック図においても同様に、図面中の矢印の方向は、一例を示すものであり、ブロック間の信号の向きを限定するものではない。

音声処理装置１０には、デジタル信号の１区間から算出されるスペクトルＳ_ｉｎ（ｋ）（ｋ＝０，．．．，Ｋ−１。但し、ｋは周波数ビン、Ｋはナイキスト周波数）が入力される。以下、このスペクトルＳ_ｉｎ（ｋ）を入力スペクトルまたは入力信号スペクトルと呼ぶ。また、音声処理装置１０は、入力スペクトルが含む音声成分のパワー（音声パワー）γ（スカラ量）を出力する。

（記憶部１１）
記憶部１１には、音声の特徴量をモデル化した音声モデルが格納されている。具体的には、記憶部１１には、混合ガウス分布モデル（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ；ＧＭＭ）が格納されている。

ＧＭＭは、予め収集した音声データから抽出した特徴量（本実施の形態ではＭ次元ベクトルとする（Ｍは自然数））を学習データとする。具体的には、ＧＭＭは、複数のガウス分布から構成される。各ガウス分布は、重み、平均ベクトル、および分散行列をパラメタとして有する。

以降、ＧＭＭの混合数（ＧＭＭを構成するガウス分布の数）をＮ、ｉ番目のガウス分布の重みをｗ_ｉ、平均ベクトルをμ_ｉ（∈Ｒ^Ｍ、但し、Ｒ^ＭはＭ次元実ベクトル空間）、分散行列をΣ_ｉ（∈Ｒ^Ｍ×Ｍ）（但し、ｉ＝０，．．．，Ｎ−１）（Ｎは自然数）とする。以降、ｉ番目のガウス分布の各パラメタをまとめて、（ｗ_ｉ，μ_ｉ，Σ_ｉ）と記載する。

なお、ＧＭＭを学習するために用いる音声データ（以下、学習データと記す）の特徴量は、メルスペクトルやメルケプストラムといった特徴量とするが、本実施の形態では特徴量はこれらに限定されない。また、特徴量には１次動的成分、２次動的成分等、高次の動的成分をさらに含んでもよい。

また、記憶部１１に格納される音声モデルは、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ；ＨＭＭ）であってもよい。

（期待値算出部１２）
期待値算出部１２は、音声処理装置１０に入力される入力スペクトルＳ_ｉｎ（ｋ）と、記憶部１１に格納されたＧＭＭとを用いて、入力スペクトルＳ_ｉｎ（ｋ）に含まれる音声成分のスペクトルの期待値Ｓ＾_Ｅ（ｋ）（以下、スペクトル期待値と記す）を算出する。ここで、ハット（＾）は推定値（期待値）を示している。なお、ハット記号を、本明細書では直前文字の右に記しているが、当該ハット記号（＾）は、直前の文字の上側に配置される。

具体的には、期待値算出部１２は、スペクトル期待値の算出のために、まず、入力スペクトルＳ_ｉｎ（ｋ）を、特徴量ベクトルｓ_ｉｎ（∈Ｒ^Ｍ）（以下、入力特徴量と記す）に変換する。この入力特徴量は、ＧＭＭの学習データの特徴量と同等のものである。また、期待値算出部１２は、ＧＭＭの平均ベクトルμ_ｉを対数スペクトルＳ_μ，ｉ（ｋ）（ｋ＝０，．．．，Ｋ−１）（以下、平均対数スペクトルと記す）に逆変換する。

そして、期待値算出部１２は、算出した入力特徴量ｓ_ｉｎ、平均対数スペクトルＳ_μ，ｉ（ｋ）、ＧＭＭのパラメタ（ｗ_ｉ，μ_ｉ，Σ_ｉ）を用いてスペクトル期待値Ｓ＾_Ｅ（ｋ）を、以下の式（２）を用いて算出する。

ここで、Ｎ（ｘ；μ，Σ）は、以下の式（３）で表すことができる。

なお、ｍは特徴量ベクトルの次元数である。

期待値算出部１２は、算出したスペクトル期待値Ｓ＾_Ｅ（ｋ）を音声パワー推定部１３に供給する。

（音声パワー推定部１３）
音声パワー推定部１３は、音声処理装置１０に入力される入力スペクトルＳ_ｉｎ（ｋ）と、期待値算出部１２から供給されるスペクトル期待値Ｓ＾_Ｅ（ｋ）とに基づいて、入力スペクトルＳ_ｉｎ（ｋ）の音声成分の音声パワーγを推定する。この音声パワーγは、音声処理装置１０の出力となる。

具体的には、音声パワー推定部１３は、スペクトル期待値Ｓ＾_Ｅ（ｋ）と入力スペクトルＳ_ｉｎ（ｋ）との２乗誤差が最小になるように制御したスペクトル期待値Ｓ＾_Ｅ（ｋ）のパワーを、音声パワーγとする。音声パワー推定部１３は、以下の式（４）を用いて、音声パワーγを算出することにより、音声パワーγを推定する。

または、音声パワー推定部１３は、式（５）を用いて、音声パワーγを算出してもよい。

式（４）および式（５）において、ηは音声パワーの倍率を規定する係数であり、実験的に求めた値を与えてもよい。また、Ωは、加算で用いる周波数ビンｋの集合を示す。｜Ω｜は集合Ωの要素数を示す。集合Ωの導出には、以下の式（６）を用いる。

つまり、集合Ωは、スペクトル期待値Ｓ＾_Ｅ（ｋ）が所定の値θ以上となる周波数ビンｋの集合となる。このθの算出にはいくつかバリエーションを持たすことができ、それらを以下の式（７）〜式（９）に示す。

ここで、式（７）を用いた際の集合Ωは、スペクトル期待値Ｓ＾_Ｅ（ｋ）に最大値を与える周波数ビンｋの集合となる。式（８）を用いた際の集合Ωは、スペクトル期待値Ｓ＾_Ｅ（ｋ）の加算平均を上回る周波数ビンの集合となる。式（９）を用いた際の集合Ωは、スペクトル期待値Ｓ＾_Ｅ（ｋ）の相乗平均を上回る周波数ビンの集合となる。

ここで、式（８）および式（９）のαは、スカラ量であり、予め与えられるものである。なお、αは実験的に導出した値を与えてもよい。さらに、スペクトル期待値Ｓ＾_Ｅ（ｋ）の上位Ｐ個の周波数ビンをΩとしてもよい。なお、「スペクトル期待値Ｓ＾_Ｅ（ｋ）の上位Ｐ個」とは、スペクトル期待値のうち、期待値が高いものから順にＰ個を示す。

なお、式（６）ではスペクトル期待値Ｓ＾_Ｅ（ｋ）とθとの比較により集合Ωを算出しているが、θと、スペクトル期待値Ｓ＾_Ｅ（ｋ）および入力スペクトルＳ_ｉｎ（ｋ）の線形結合との比較でもよい。

このように、音声パワー推定部１３は、スペクトル期待値Ｓ＾_Ｅ（ｋ）、または、スペクトル期待値Ｓ＾_Ｅ（ｋ）および入力スペクトルＳ_ｉｎ（ｋ）の値が、所定の値θ以上である周波数成分ｋの音声パワーγを算出する。これにより、音声パワー推定部１３が所定の値θ以上の周波数成分のみを用いて音声パワーγを算出するため、本実施の形態に係る音声処理装置１０は、より精度が高い音声パワーγを推定することができる。

また、音声パワー推定部１３は、入力スペクトルの音声らしさの値を算出してもよい。このとき、音声パワー推定部１３は、音声パワー推定部１３内に、この音声らしさの値を算出する算出部をさらに備える構成であってもよい。そして、音声パワー推定部１３は、上記算出部で算出される値に応じて、音声パワーの推定の方法を変更してもよい。

例えば、音声らしさに応じて、音声パワー推定部１３は、式（４）または式（５）のηの値を変化させてもよい。例えば、入力スペクトルが音声らしい場合、音声パワー推定部１３は、ηの値をより大きくし、音声らしくない場合はηの値を０に設定してもよい。また、音声パワー推定部１３は、音声らしさに応じて、所定の値（閾値）θ、または、閾値θの値を規定する式である式（８）および式（９）のαの値を変化させてもよい。つまり、音声パワー推定部１３は、スペクトル期待値Ｓ＾_Ｅ（ｋ）、または、スペクトル期待値Ｓ＾_Ｅ（ｋ）および入力スペクトルＳ_ｉｎ（ｋ）の値と比較する、所定の値θを入力スペクトルの音声らしさに基づいて変化させてもよい。例えば、音声パワー推定部１３は、入力スペクトルが音声らしい場合、Ωの要素数がより大きくなるように閾値θを設定し、音声らしくない場合は、Ωの要素数をより小さくするように閾値θを設定してもよい。

ここで、「音声らしさ」とは、予め用意した音声モデルと雑音モデルのパラメタと入力スペクトルとを用いることにより、算出されるものであってもよい。例えば、音声らしさの指標をＬとすると、Ｌは、以下の式（１０）を用いて算出される。

ここで、（ｗ_ｌ,，μ_ｌ，Σ_ｌ）は、予め用意した音声モデルをＧＭＭとした場合の各ガウス分布のパラメタを表し、（ｗ_ｊ,，μ_ｊ，Σ_ｊ）は、予め用意した雑音モデルをＧＭＭとした場合の各ガウス分布のパラメタを表す。なおこれらのパラメタは記憶部１１に格納されるものであってもよい。また、ｓ_ｉｎは入力スペクトルの特徴量ベクトルである。

この音声らしさを示す指標Ｌがより大きい場合、例えば、所定の値より大きい場合、入力スペクトルが音声らしいことを示し、Ｌがより小さい場合、例えば、他の所定の値より小さい場合、入力スペクトルが音声らしくないことを示す。したがって、音声パワー推定部１３は、入力スペクトルが音声らしい場合、つまり、Ｌの値がより大きい値の場合、Ωの要素数がより大きくなるように、閾値θの値をより小さい値に設定する。同様に、音声パワー推定部１３は、入力スペクトルが音声らしくない場合、つまり、Ｌの値がより小さい値の場合、Ωの要素数がより小さくなるように、閾値θの値をより大きい値に設定する。このように、θの値を設定することにより、音声パワー推定部１３は、より精度よく音声パワーγを算出することができる。

また、音声パワー推定部１３は、この音声らしさの指標Ｌを用いて、音声パワーを以下の式（１１）を用いて導出してもよい。

ここで、γ_１とγ_２とは、それぞれ異なるθを用いて算出した集合Ωとηの下で、式（４）または式（５）に基づいて算出されるものであってもよい。また、φ_１およびφ_２は、φ_１＞φ_２となるように実験的に求めた値を用いてもよい。

また、γ_１とγ_２とは、夫々、所定の値（第１の音声パワーおよび第２の音声パワー）であってもよい。また、音声パワー推定部１３は、γ_１＞γ_２となるように、第１の音声パワーγ_１および／または第２の音声パワーγ_２とを設定してもよい。このように、音声パワー推定部１３は、音声らしさを示す指標Ｌがより小さい場合に、音声パワーγを、より小さい値である第２の音声パワーγ_２とすることにより、入力スペクトルＳ_ｉｎ（ｋ）の音声パワーγをより精度よく推定することができる。

（音声処理装置１０のハードウェア構成）
次に、図２を参照して、音声処理装置１０のハードウェア構成について説明する。図２は、本実施の形態に係る音声処理装置１０のハードウェア構成の一例を示す図である。図２に示すとおり、音声処理装置１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１、ネットワーク接続用の通信Ｉ／Ｆ（通信インターフェース）２、メモリ３、プログラムを格納するハードディスク等の記憶装置４、入力装置５および出力装置６を含み、夫々、システムバス９を介して接続している。

ＣＰＵ１は、オペレーティングシステムを動作させて本実施の形態に係る音声処理装置１０を制御する。また、ＣＰＵ１は、例えば、ドライブ装置に装着された記録媒体からプログラムやデータを読み出し、メモリ３に書き込む。

また、ＣＰＵ１は、例えば、本実施の形態の期待値算出部１２および音声パワー推定部１３の一部として機能し、例えば、メモリ３に書き込んだプログラムに基づいて各種の処理を実行する。

記憶装置４は、例えば、光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク、または半導体メモリ等である。記憶装置４の一部の記憶媒体は、不揮発性記憶装置であり、そこにプログラムを記憶している。また、プログラムは通信網に接続されている図示しない外部コンピュータから、例えば通信Ｉ／Ｆ２を介してダウンロードされてもよい。記憶装置４は、例えば、本実施の形態における記憶部１１として機能する。

入力装置５は、例えば、タッチセンサなどで実現され、入力操作に用いられる。また、出力装置６は、例えば、ディスプレイで実現され、出力を確認するために用いられる。

以上のように、本実施の形態に係る音声処理装置１０は、図２に示されるハードウェア構成によって実現される。但し、音声処理装置１０が備える各部の実現手段は特に限定されない。

（音声処理装置１０の処理）
次に、図３を参照して音声処理装置１０の処理の流れについて説明する。図３は、本実施の形態に係る音声処理装置１０の音声パワー推定処理の流れの一例を示すフローチャートである。

図３に示すとおり、まず、音声処理装置１０の期待値算出部１２が、入力スペクトルＳ_ｉｎ（ｋ）と記憶部１１のＧＭＭのパラメタとを用いて、スペクトル期待値Ｓ＾_Ｅ（ｋ）を算出する（ステップＳ３１）。

次に、音声パワー推定部１３が、入力スペクトルＳ_ｉｎ（ｋ）と期待値算出部１２が算出したスペクトル期待値Ｓ＾_Ｅ（ｋ）とを用いて、音声パワーγを算出し（ステップＳ３２）、処理を終了する。

（効果）
本実施の形態に係る音声処理装置１０によれば、入力信号が含む音声パワーを精度よく推定することができる。

なぜならば、期待値算出部１２が、入力スペクトルＳ_ｉｎ（ｋ）と、音声の特徴量をモデル化した音声モデル（ＧＭＭ）とを用いて、入力スペクトルＳ_ｉｎ（ｋ）に含まれる音声成分のスペクトルの期待値（スペクトル期待値Ｓ＾_Ｅ（ｋ））を算出するからである。そして、音声パワー推定部１３が、入力スペクトルＳ_ｉｎ（ｋ）およびスペクトル期待値Ｓ＾_Ｅ（ｋ）に基づいて、入力スペクトルＳ_ｉｎ（ｋ）の音声成分の音声パワーγを推定するからである。

このように、音声パワー推定部１３が推定する音声パワーγは、音声モデルと入力スペクトルＳ_ｉｎ（ｋ）から算出するスペクトル期待値Ｓ＾_Ｅ（ｋ）を参照することにより算出される。したがって、入力信号に雑音が含まれていたり、雑音抑圧されていたりした場合であっても、高い精度の音声パワーγを算出することができる。よって、本実施の形態に係る音声処理装置１０は、入力スペクトルＳ_ｉｎ（ｋ）に含まれる音声成分の音声パワーγを精度よく算出することができる。

また、本実施の形態に係る音声処理装置１０の音声パワー推定部１３は、スペクトル期待値Ｓ＾_Ｅ（ｋ）と入力スペクトルＳ_ｉｎ（ｋ）との誤差が、雑音の影響が少ない所定の帯域において最小になるように制御したスペクトル期待値Ｓ＾_Ｅ（ｋ）のパワーを、音声パワーγとする。これにより、スペクトル期待値Ｓ＾_Ｅ（ｋ）を、入力スペクトルＳ_ｉｎ（ｋ）が含む音声スペクトルに近づけることができる。したがって、本実施の形態に係る音声処理装置１０は、入力信号が含む音声パワーをより精度よく推定することができる。

＜第２の実施の形態＞
以下、本発明の第２の実施の形態について、図面を参照して以下に説明する。第２の実施の形態に係る雑音抑圧装置は、非特許文献１に記載のモデルベース雑音抑圧であって、雑音抑圧ゲインに第１の実施の形態で算出した音声パワーを利用することを特徴とする。なお、説明の便宜上、前述した第１の実施の形態で説明した図面に含まれる部材と同じ機能を有する部材については、同じ符号を付し、その説明を省略する。

（雑音抑圧装置２０の構成）
図４は、本発明の第２の実施の形態に係る雑音抑圧装置２０の機能構成の一例を示す機能ブロック図である。図４に示すとおり、雑音抑圧装置２０は、第１の実施の形態で説明した音声処理装置１０と、入力信号取得部２１と、雑音推定部２２と、仮雑音抑圧部２３と、抑圧ゲイン算出部２４と、雑音抑圧部２５とを備えている。雑音抑圧装置２０は、デジタル信号を入力とし、音声パワーを制御したデジタル信号を出力とする。

（入力信号取得部２１）
入力信号取得部２１は、雑音抑圧装置２０に入力されたデジタル信号を取得（受信）する。なお、このデジタル信号を入力信号とも呼ぶ。入力信号取得部２１は、取得したデジタル信号を、単位時間毎にフレーム単位に切り出し、スペクトルに変換する。

具体的には、入力信号取得部２１は、デジタル信号のうち、ｔ番目（ｔは自然数。以下、ｔをフレーム時間と記す）に切り出されたフレームｘ（ｔ）（∈Ｒ^Ｔ，Ｔはフレームに含まれるサンプル数）を、スペクトルＸ（ｔ，ｋ）（ｋ＝０，．．．，Ｋ−１）に変換する。以下、この変換したスペクトルＸ（ｔ，ｋ）を入力信号スペクトルと呼ぶ。

そして、入力信号取得部２１は、変換した入力信号スペクトルＸ（ｔ，ｋ）を、雑音推定部２２、仮雑音抑圧部２３および雑音抑圧部２５にそれぞれ供給する。

ここで、フレームに含まれるサンプル数Ｔについて説明する。例えば、デジタル信号がリニアＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）で変換されたサンプリング周波数８０００Ｈｚの１６ビットである場合、当該デジタル信号は１秒当り８０００点分の値を含む。このとき、１フレームの長さを２５ミリ秒とすると、１フレームは２００点分の値を含む。したがって、Ｔ＝２００となる。

なお、入力信号取得部２１が取得するデジタル信号は、例えば、（１）マイクロフォン等からＡ／Ｄ変換機を通して供給されるデジタル信号、（２）ハードディスクより読み出されるデジタル信号、（３）通信パケットから得られるデジタル信号、などが挙げられる。しかし、上記デジタル信号は、本実施の形態ではこれらに限定されるものではない。また、このデジタル信号は、雑音環境下で収録された音声信号だけでなく、雑音抑圧処理が施された音声信号であってもよい。

（雑音推定部２２）
雑音推定部２２は、入力信号スペクトルから推定雑音を推定する手段である。雑音推定部２２は、入力信号取得部２１から入力信号スペクトルＸ（ｔ，ｋ）を受信する。そして、雑音推定部２２は、受信した入力信号スペクトルＸ（ｔ，ｋ）に含まれる雑音成分のスペクトルＮ＾（ｔ，ｋ）（但し、ｋ＝０，．．．，Ｋ−１）を推定（算出）する。この推定した雑音成分（推定雑音）のスペクトルＮ＾（ｔ，ｋ）を、以下、推定雑音スペクトルと記す。そして、雑音推定部２２は、推定した推定雑音スペクトルＮ＾（ｔ，ｋ）を、仮雑音抑圧部２３および抑圧ゲイン算出部２４に夫々供給する。

なお、本実施の形態において、雑音推定部２２は、推定雑音を公知技術の重み付き雑音推定法（ＷｅｉｇｈｔｅｄＮｏｉｓｅＥｓｔｉｍａｔｉｏｎ；ＷｉＮＥ）等を用いて算出するとするが、雑音推定部２２における推定雑音の算出についてはこれに限定されるものではない。雑音推定部２２は、所望の方法で推定雑音を算出してもよい。

これにより、雑音推定部２２は、入力信号に含まれる雑音を推定することができる。本実施の形態では、この推定された雑音を仮の雑音とも呼ぶ。

（仮雑音抑圧部２３）
仮雑音抑圧部２３は、入力信号スペクトルと推定雑音スペクトルとを用いて、前記入力信号から仮の雑音を抑圧した雑音抑圧信号を生成する手段である。具体的には、仮雑音抑圧部２３は、入力信号取得部２１から入力信号スペクトルＸ（ｔ，ｋ）を受信する。また、仮雑音抑圧部２３は、雑音推定部２２から推定雑音スペクトルＮ＾（ｔ，ｋ）を受信する。そして、仮雑音抑圧部２３は、入力信号スペクトルＸ（ｔ，ｋ）から、推定雑音スペクトルＮ＾（ｔ，ｋ）を除去し、仮雑音抑圧スペクトルＳ＾（ｔ，ｋ）（但し、ｋ＝０，．．．，Ｋ−１）を算出する。この仮雑音抑圧スペクトルＳ＾（ｔ，ｋ）を含む信号を、雑音抑圧信号と呼ぶ。この雑音抑圧信号は、仮の雑音を抑圧した信号であるため、仮推定音声とも呼ぶ。

そして、仮雑音抑圧部２３は、算出した仮雑音抑圧スペクトルＳ＾（ｔ，ｋ）を、音声処理装置１０に供給する。

なお、本実施の形態において、仮雑音抑圧部２３は、仮雑音抑圧スペクトルＳ＾（ｔ，ｋ）を、公知技術（例えば、スペクトル減算法（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ：ＳＳ）、ウィナーフィルタ法（ＷｉｅｎｅｒＦｉｌｔｅｒ：ＷＦ）等）を用いて算出するとするが、本実施の形態はこれに限定されるものではない。仮雑音抑圧部２３は、所望の方法で仮推定音声のスペクトルを算出してもよい。なお、入力信号に含まれる雑音量が少ない場合や、入力信号がすでに雑音抑圧がなされている場合、雑音抑圧装置２０は、仮雑音抑圧部２３の処理を省略してもよい。この場合、仮雑音抑圧スペクトルＳ＾（ｔ，ｋ）は入力信号スペクトルＸ（ｔ，ｋ）となる。

このように、仮雑音抑圧部２３は、音声処理装置１０に仮の雑音を抑圧した仮雑音抑圧スペクトルＳ＾（ｔ，ｋ）を供給することにより、音声処理装置１０は、仮の雑音を抑圧した仮雑音抑圧スペクトルＳ＾（ｔ，ｋ）を入力スペクトルＳ_ｉｎ（ｋ）として用いることができる。これにより、音声処理装置１０は、より精度よく音声パワーを推定することができる。

（音声処理装置１０）
音声処理装置１０は、仮雑音抑圧部２３が供給する仮雑音抑圧スペクトルＳ＾（ｔ，ｋ）から、音声パワーγ（ｔ）を算出する。そして、音声処理装置１０は、音声パワーγ（ｔ）を抑圧ゲイン算出部２４に供給する。また、音声処理装置１０は、音声パワーγ（ｔ）の算出の過程で、算出されるスペクトル期待値Ｓ＾_Ｅ（ｔ，ｋ）も、抑圧ゲイン算出部２４に供給する。このスペクトル期待値Ｓ＾_Ｅ（ｔ，ｋ）は、第１の実施の形態で説明したとおり、期待値算出部１２が算出するものである。

なお、音声処理装置１０は、第１の実施の形態で説明しているため、ここでの具体的な説明は省略する。ただし、第１の実施の形態における入力スペクトルＳ_ｉｎ（ｋ）、スペクトル期待値Ｓ＾_Ｅ（ｋ）、および、音声パワーγを本実施の形態では、それぞれ、仮雑音抑圧スペクトルＳ＾（ｔ，ｋ）、スペクトル期待値Ｓ＾_Ｅ（ｔ，ｋ）、および、音声パワーγ（ｔ）に置き換えている。

（抑圧ゲイン算出部２４）
抑圧ゲイン算出部２４は、スペクトル期待値Ｓ＾_Ｅ（ｔ，ｋ）と、音声パワーγ（ｔ）と、推定雑音スペクトルＮ＾（ｔ，ｋ）とを用いて、抑圧ゲインを算出する手段である。

具体的には、抑圧ゲイン算出部２４は、雑音推定部２２から推定雑音スペクトルＮ＾（ｔ，ｋ）を受信する。また、抑圧ゲイン算出部２４は、音声処理装置１０から音声パワーγ（ｔ）と、スペクトル期待値Ｓ＾_Ｅ（ｔ，ｋ）とを受信する。そして、抑圧ゲイン算出部２４は、受信した、推定雑音スペクトルＮ＾（ｔ，ｋ）と、音声パワーγ（ｔ）と、スペクトル期待値Ｓ＾_Ｅ（ｔ，ｋ）とを用いて、抑圧ゲインＷ（ｔ，ｋ）（但し、ｋ＝０，．．．，Ｋ−１）を、以下の式（１２）を用いて算出する。

式（１２）に示す通り、上記式（１２）の右辺の分子は、スペクトル期待値Ｓ＾_Ｅ（ｔ，ｋ）をスペクトル期待値Ｓ＾_Ｅ（ｔ，ｋ）のｋにおける和で割ったスペクトル期待値と、音声パワーγ（ｔ）と、の積である。また、式（１２）の右辺の分母は、上記積と、推定雑音スペクトルＮ＾（ｔ，ｋ）との和である。つまり、抑圧ゲイン算出部２４は、（ａ）スペクトル期待値と音声パワーγ（ｔ）との積の、（ｂ）上記積と推定雑音スペクトルＮ＾（ｔ，ｋ）との和、に対する比の値を、抑圧ゲインＷ（ｔ，ｋ）として算出する。

このように、抑圧ゲイン算出部２４は、抑圧ゲインＷ（ｔ，ｋ）を算出する際に、音声処理装置１０で算出したスペクトル期待値Ｓ＾_Ｅ（ｔ，ｋ）と、音声パワーγ（ｔ）とを用いる。この音声パワーγ（ｔ）は、音声モデルと、仮雑音抑圧スペクトルＳ＾（ｔ，ｋ）から算出するスペクトル期待値Ｓ＾_Ｅ（ｔ，ｋ）を参照することにより算出される。したがって、抑圧ゲイン算出部２４は、より推定精度が高い音声パワーγ（ｔ）を用いて、抑圧ゲインＷ（ｔ，ｋ）を算出することができる。

そして、抑圧ゲイン算出部２４は、算出した抑圧ゲインＷ（ｔ，ｋ）を、雑音抑圧部２５に供給する。

（雑音抑圧部２５）
雑音抑圧部２５は、抑圧ゲインＷ（ｔ，ｋ）と入力信号スペクトルＸ（ｔ，ｋ）とを用いて入力信号の雑音を抑圧する手段である。具体的には、雑音抑圧部２５は、入力信号取得部２１から入力信号スペクトルＸ（ｔ，ｋ）を受信する。また、雑音抑圧部２５は、抑圧ゲイン算出部２４から抑圧ゲインＷ（ｔ，ｋ）を受信する。そして、雑音抑圧部２５は、入力信号スペクトルＸ（ｔ，ｋ）と、抑圧ゲインＷ（ｔ，ｋ）とを用いて、雑音抑圧スペクトルＹ（ｔ，ｋ）（但し、ｋ＝０，．．．，Ｋ−１）を算出する。雑音抑圧部２５は、雑音抑圧スペクトルＹ（ｔ，ｋ）を、以下の式（１３）を用いて算出する。
Ｙ（ｔ，ｋ）＝Ｗ（ｔ，ｋ）Ｘ（ｔ，ｋ）・・・（１３）
この雑音抑圧スペクトルＹ（ｔ，ｋ）は、入力信号スペクトルＸ（ｔ，ｋ）から、該入力信号スペクトルＸ（ｔ，ｋ）に含まれる雑音を抑圧したものとなる。

なお、雑音抑圧部２５は、算出した雑音抑圧スペクトルＹ（ｔ，ｋ）を特徴量ベクトルに変換したものを、推定音声の特徴量ベクトルとして音声認識装置に出力する。また、雑音抑圧部２５は、スピーカ等の音声再生装置に出力する場合は、変換した特徴量ベクトルから得られる当該推定音声のスペクトルを逆フーリエ変換し、時間領域の信号に変換して、当該信号（デジタル信号）を出力する。以降、雑音抑圧部２５が出力する特徴量ベクトルまたはデジタル信号を出力信号と呼ぶ。

なお、本実施の形態に係る雑音抑圧装置２０のハードウェア構成は、図２に示す第１の実施の形態における音声処理装置１０のハードウェア構成と同様であるため、ここでは説明を省略する。

（雑音抑圧装置２０の処理）
次に、図５を参照して雑音抑圧装置２０の処理の流れについて説明する。図５は、本実施の形態に係る雑音抑圧装置２０の雑音抑圧スペクトルＹ（ｔ，ｋ）導出の流れ（雑音抑圧処理）の一例を示すフローチャートである。

図５に示すとおり、まず、雑音抑圧装置２０の入力信号取得部２１が、入力信号スペクトルＸ（ｔ，ｋ）を算出する（ステップＳ５１）。

次に、雑音推定部２２が入力信号に含まれる雑音を推定する。つまり、雑音推定部２２は、入力信号スペクトルＸ（ｔ，ｋ）から推定雑音スペクトルＮ＾（ｔ，ｋ）を推定する（ステップＳ５２）。

そして、仮雑音抑圧部２３が入力信号スペクトルＸ（ｔ，ｋ）の仮の雑音を抑圧する。つまり、仮雑音抑圧部２３は、入力信号スペクトルＸ（ｔ，ｋ）から推定雑音スペクトルＮ＾（ｔ，ｋ）を除去し、仮雑音抑圧スペクトルＳ＾（ｔ，ｋ）を算出する（ステップＳ５３）。なお、上述したとおり、本ステップは省略してもよい。この場合、仮雑音抑圧スペクトルＳ＾（ｔ，ｋ）を入力信号スペクトルＸ（ｔ，ｋ）とする。

次に、音声処理装置１０が仮雑音抑圧スペクトルＳ＾（ｔ，ｋ）を入力として、スペクトル期待値Ｓ＾_Ｅ（ｔ，ｋ）を算出する（ステップＳ５４）。そして、音声処理装置１０が、音声パワーγ（ｔ）を算出する（ステップＳ５５）。なお、このステップＳ５４およびステップＳ５５は、夫々、第１の実施の形態において説明したステップＳ３１およびステップＳ３２と同様の処理である。

次に、抑圧ゲイン算出部２４が推定雑音スペクトルＮ＾（ｔ，ｋ）、スペクトル期待値Ｓ＾_Ｅ（ｔ，ｋ）、および、音声パワーγ（ｔ）から、抑圧ゲインＷ（ｔ，ｋ）を算出する（ステップＳ５６）。

そして、雑音抑圧部２５が入力信号の雑音を抑圧する。つまり、雑音抑圧部２５は、入力信号スペクトルＸ（ｔ，ｋ）に抑圧ゲインＷ（ｔ，ｋ）を乗じることにより雑音抑圧スペクトルＹ（ｔ，ｋ）を算出する（ステップＳ５７）。

最後に、雑音抑圧装置２０の入力信号取得部２１は、処理すべきデジタル信号が残っているか否かを確認する（ステップＳ５８）。そして、処理すべきデジタル信号が残っている場合（ステップＳ５８にてＹＥＳ）、処理をステップＳ５１に戻し、そうでない場合（ステップＳ５８にてＮＯ）は、処理を終了する。

（効果）
本実施の形態に係る雑音抑圧装置２０の音声処理装置１０は、上述した第１の実施の形態に係る音声処理装置１０と同様に、より高い精度で、入力信号が含む音声パワーを推定することができる。

また、本実施の形態に係る雑音抑圧装置２０は、このような精度が高い音声パワーを用いて、入力信号に含まれる雑音を抑圧するため、より高い精度で雑音の抑圧を行うことができる。

＜第３の実施の形態＞
次に、本発明の第３の実施の形態について説明する。本実施の形態では、本発明の課題を解決する最小の構成について説明を行う。

前述した第１および第２の実施の形態では、音声処理装置１０が記憶部１１を内蔵する構成について説明したが、記憶部１１は、音声処理装置１０とは別個の装置で実現されるものであってもよい。その構成について、図６を参照して説明する。なお、説明の便宜上、前述した各実施の形態で説明した図面に含まれる部材と同じ機能を有する部材については、同じ符号を付し、その説明を省略する。

また、本実施の形態に係る音声処理装置３０のハードウェア構成は、図２に示す第１の実施の形態における音声処理装置１０のハードウェア構成と同様であるため、ここでは説明を省略する。

図６は、本実施の形態に係る音声処理装置３０の機能構成の一例を示す機能ブロック図である。図６に示す通り、音声処理装置３０は、期待値算出部１２と、音声パワー推定部１３とを備えている。

期待値算出部１２は、入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出する。この音声モデルは、第１および第２の実施の形態において説明した記憶部１１に格納されている。

期待値算出部１２は、算出したスペクトル期待値を音声パワー推定部１３に供給する。

音声パワー推定部１３は、入力信号スペクトルおよび期待値算出部１２から供給されたスペクトル期待値に基づいて、入力信号スペクトルの音声成分の音声パワーを推定する。

このように、本実施の形態に係る音声処理装置３０によれば、音声パワー推定部１３は、入力信号の音声成分の音声パワーを、入力信号スペクトルと音声モデルとを用いて算出したスペクトル期待値を用いて推定する。

したがって、本実施の形態に係る音声処理装置３０は、入力信号に含まれる音声パワーを、より精度よく推定することができる。

なお、上述した各実施の形態は、本発明の好適な実施の形態であり、上記各実施の形態にのみ本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において当業者が上記各実施の形態の修正や代用を行い、種々の変更を施した形態を構築することが可能である。

例えば、上述した実施の形態における各動作は、ハードウェアまたはソフトウェア、あるいはその両方の複合構成によって実行することも可能である。

なお、ソフトウェアによる処理を実行する場合には、例えば、上記各処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。また、上記プログラムは、例えば、ハードディスクなどの記録媒体に記録しておくことが可能である。

上記の実施の形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出する期待値算出手段と、前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する音声パワー推定手段と、を備えることを特徴とする音声処理装置。

（付記２）前記音声パワー推定手段は、前記スペクトル期待値と前記入力信号スペクトルとの誤差が最小になるように制御した前記スペクトル期待値のパワーを、前記音声パワーとする、ことを特徴とする付記１に記載の音声処理装置。

（付記３）前記音声パワー推定手段は、前記スペクトル期待値、または、前記スペクトル期待値および前記入力信号スペクトルの値が、所定の値以上である周波数成分の前記音声パワーを算出する、ことを特徴とする付記１または２に記載の音声処理装置。

（付記４）前記音声パワー推定手段は、前記スペクトル期待値、または、前記スペクトル期待値および前記入力信号スペクトルの値、と比較する前記所定の値を、前記入力信号スペクトルの音声らしさに基づいて変化させる、ことを特徴とする付記３に記載の音声処理装置。

（付記５）前記音声パワー推定手段は、前記音声らしさを示す指標がより大きい場合には、前記所定の値をより小さい値に設定し、前記指標がより小さい場合には、前記所定の値をより大きい値に設定する、ことを特徴とする付記４に記載の音声処理装置。

（付記６）前記音声パワー推定手段は、前記音声らしさを示す指標がより小さい場合に、前記音声パワーを、より小さい値を有する所定の音声成分のパワーとする、ことを特徴とする付記４または５に記載の音声処理装置。

（付記７）前記音声モデルを格納する記憶手段を更に備えることを特徴とする付記１から６の何れか１つに記載の音声処理装置。

（付記８）入力信号から推定雑音を算出する雑音推定手段と、前記入力信号のスペクトルから、該入力信号のスペクトルに含まれる音声成分のスペクトルの期待値、および、該音声成分の音声パワーを推定する音声処理装置と、前記音声成分のスペクトルの期待値と、前記音声パワーと、前記推定雑音のスペクトルとを用いて、抑圧ゲインを算出する抑圧ゲイン算出手段と、前記抑圧ゲインと前記入力信号のスペクトルとを用いて前記入力信号の雑音を抑圧する雑音抑圧手段と、を備え、前記音声処理装置は、前記入力信号のスペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記音声成分のスペクトルの期待値を算出する期待値算出手段と、前記入力信号のスペクトルおよび前記音声成分のスペクトルの期待値に基づいて、前記音声パワーを推定する音声パワー推定手段と、を備えることを特徴とする雑音抑圧装置。

（付記９）前記音声パワー推定手段は、前記音声成分のスペクトルの期待値と前記入力信号のスペクトルとの誤差が最小になるように制御した前記音声成分のスペクトルの期待値のパワーを、前記音声パワーとする、ことを特徴とする付記８に記載の雑音抑圧装置。

（付記１０）前記音声パワー推定手段は、前記音声成分のスペクトルの期待値、または、前記音声成分のスペクトルの期待値および前記入力信号のスペクトルの値が、所定の値以上である周波数成分の前記音声パワーを算出する、ことを特徴とする付記８または９に記載の雑音抑圧装置。

（付記１１）前記音声パワー推定手段は、前記音声成分のスペクトルの期待値、または、前記音声成分のスペクトルの期待値および前記入力信号のスペクトルの値、と比較する前記所定の値を、前記入力信号のスペクトルの音声らしさに基づいて変化させる、ことを特徴とする付記１０に記載の雑音抑圧装置。

（付記１２）前記音声パワー推定手段は、前記音声らしさを示す指標がより大きい場合には、前記所定の値をより小さい値に設定し、前記指標がより小さい場合には、前記所定の値をより大きい値に設定する、ことを特徴とする付記１１に記載の雑音抑圧装置。

（付記１３）前記音声パワー推定手段は、前記音声らしさを示す指標がより小さい場合に、前記音声パワーを、より小さい値を有する所定の音声成分のパワーとする、ことを特徴とする付記１１または１２に記載の雑音抑圧装置。

（付記１４）前記音声モデルを格納する記憶手段を更に備えることを特徴とする付記８から１３の何れか１つに記載の音声処理装置。

（付記１５）入力信号から推定雑音を算出する雑音推定手段と、付記１から７の何れか１つに記載の音声処理装置と、前記入力信号のスペクトルに含まれる音声成分のスペクトルの期待値と、前記音声成分の音声パワーと、前記推定雑音のスペクトルとを用いて、抑圧ゲインを算出する抑圧ゲイン算出手段と、前記抑圧ゲインと前記入力信号のスペクトルとを用いて前記入力信号の雑音を抑圧する雑音抑圧手段と、を備えることを特徴とする雑音抑圧装置。

（付記１６）前記入力信号と前記推定雑音とを用いて、前記入力信号から仮の雑音を抑圧した仮雑音抑圧信号を生成する仮雑音抑圧手段を更に備え、前記音声処理装置は、前記仮雑音抑圧信号のスペクトルを前記入力信号のスペクトルとして、前記音声成分のスペクトルの期待値と前記音声パワーとを推定する、ことを特徴とする付記８から１５の何れか１つに記載の雑音抑圧装置。

（付記１７）
前記抑圧ゲイン算出手段は、前記音声成分のスペクトルの期待値と前記音声パワーとの積の、前記積と前記推定雑音との和、に対する比を、前記抑圧ゲインとして算出する、ことを特徴とする、付記８から１６の何れか１つに記載の雑音抑圧装置。

（付記１８）入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出し、前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する、ことを特徴とする音声処理方法。

（付記１９）入力信号から推定雑音を算出し、前記入力信号のスペクトルから、該入力信号のスペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号のスペクトルに含まれる音声成分のスペクトルの期待値を算出し、前記入力信号のスペクトルおよび前記音声成分のスペクトルの期待値に基づいて、該音声成分の音声パワーを推定し、前記音声成分のスペクトルの期待値と、前記音声パワーと、前記推定雑音のスペクトルとを用いて、抑圧ゲインを算出し、前記抑圧ゲインと前記入力信号のスペクトルとを用いて前記入力信号の雑音を抑圧する、ことを特徴とする雑音抑圧方法。

（付記２０）入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出する処理と、前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する処理と、をコンピュータに実行させることを特徴とするプログラム。

（付記２１）入力信号から推定雑音を算出する処理と、前記入力信号のスペクトルから、該入力信号のスペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号のスペクトルに含まれる音声成分のスペクトルの期待値を算出する処理と、前記入力信号のスペクトルおよび前記音声成分のスペクトルの期待値に基づいて、該音声成分の音声パワーを推定する処理と、前記音声成分のスペクトルの期待値と、前記音声パワーと、前記推定雑音のスペクトルとを用いて、抑圧ゲインを算出する処理と、前記抑圧ゲインと前記入力信号のスペクトルとを用いて前記入力信号の雑音を抑圧する処理と、をコンピュータに実行させることを特徴とするプログラム。

（付記２２）付記２０または２１に記載のプログラムを記憶する、ことを特徴とするコンピュータ読み取り可能な記録媒体。

この出願は、２０１４年１２月１０日に出願された日本出願特願２０１４−２４９９８２を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１０音声処理装置
１１記憶部
１２期待値算出部
１３音声パワー推定部
２０雑音抑圧装置
２１入力信号取得部
２２雑音推定部
２３仮雑音抑圧部
２４抑圧ゲイン算出部
２５雑音抑圧部
３０音声処理装置
１ＣＰＵ
２通信Ｉ／Ｆ
３メモリ
４記憶装置
５入力装置
６出力装置
９システムバス

Claims

入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出する期待値算出手段と、
前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する音声パワー推定手段と、を備えることを特徴とする音声処理装置。
前記音声パワー推定手段は、前記スペクトル期待値と前記入力信号スペクトルとの誤差が最小になるように制御した前記スペクトル期待値のパワーを、前記音声パワーとする、ことを特徴とする請求項１に記載の音声処理装置。
前記音声パワー推定手段は、前記スペクトル期待値、または、前記スペクトル期待値および前記入力信号スペクトルの値が、所定の値以上である周波数成分の前記音声パワーを算出する、ことを特徴とする請求項１または２に記載の音声処理装置。
前記音声パワー推定手段は、前記スペクトル期待値、または、前記スペクトル期待値および前記入力信号スペクトルの値、と比較する前記所定の値を、前記入力信号スペクトルの音声らしさに基づいて変化させる、ことを特徴とする請求項３に記載の音声処理装置。
前記音声パワー推定手段は、前記音声らしさを示す指標がより大きい場合には、前記所定の値をより小さい値に設定し、前記指標がより小さい場合には、前記所定の値をより大きい値に設定する、ことを特徴とする請求項４に記載の音声処理装置。
前記音声パワー推定手段は、前記音声らしさを示す指標がより小さい場合に、前記音声パワーを、より小さい値を有する所定の音声成分のパワーとする、ことを特徴とする請求項４または５に記載の音声処理装置。
入力信号から推定雑音を算出する雑音推定手段と、
前記入力信号のスペクトルから、該入力信号のスペクトルに含まれる音声成分のスペクトルの期待値、および、該音声成分の音声パワーを推定する音声処理装置と、
前記音声成分のスペクトルの期待値と、前記音声パワーと、前記推定雑音のスペクトルとを用いて、抑圧ゲインを算出する抑圧ゲイン算出手段と、
前記抑圧ゲインと前記入力信号のスペクトルとを用いて前記入力信号の雑音を抑圧する雑音抑圧手段と、を備え、
前記音声処理装置は、前記入力信号のスペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記音声成分のスペクトルの期待値を算出する期待値算出手段と、
前記入力信号のスペクトルおよび前記音声成分のスペクトルの期待値に基づいて、前記音声パワーを推定する音声パワー推定手段と、を備えることを特徴とする雑音抑圧装置。
前記入力信号と前記推定雑音とを用いて、前記入力信号から仮の雑音を抑圧した仮雑音抑圧信号を生成する仮雑音抑圧手段を更に備え、
前記音声処理装置は、前記仮雑音抑圧信号のスペクトルを前記入力信号のスペクトルとして、前記音声成分のスペクトルの期待値と前記音声パワーとを推定する、ことを特徴とする請求項７に記載の雑音抑圧装置。
入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出し、
前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する、ことを特徴とする音声処理方法。
入力信号スペクトルと、音声の特徴量をモデル化した音声モデルとを用いて、前記入力信号スペクトルに含まれる音声成分のスペクトルの期待値であるスペクトル期待値を算出する処理と、
前記入力信号スペクトルおよび前記スペクトル期待値に基づいて、前記入力信号スペクトルの音声成分の音声パワーを推定する処理と、をコンピュータに実行させることを特徴とするプログラムを記憶する記録媒体。