JPWO2020121590A1

JPWO2020121590A1 - 信号処理装置、信号処理方法、およびプログラム

Info

Publication number: JPWO2020121590A1
Application number: JP2020559702A
Authority: JP
Inventors: 中谷　智広; 慶介木下
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-12-14
Filing date: 2019-07-31
Publication date: 2021-10-14
Anticipated expiration: 2039-07-31
Also published as: US11894010B2; WO2020121590A1; US20220068288A1; WO2020121545A1; JP7115562B2

Abstract

雑音と残響とを十分に抑圧する。目的の音源から発せられた音響信号を集音して得られた観測信号の複数の周波数帯域のそれぞれに対応する周波数別観測信号に、各時刻において現在の信号と所定の遅延を持つ長さ０以上の過去の信号列との重み付き和を計算する畳み込みビームフォーマを適用して得られる推定信号が、所定の確率モデルに基づく推定信号の音声らしさを表す確率を大きくするように、畳み込みビームフォーマを得、得られた畳み込みビームフォーマを周波数別観測信号に適用して目的信号を得る。

Description

本発明は、音響信号の信号処理技術に関する。

非特許文献１，２には、周波数領域の観測信号から雑音や残響を抑圧する方法が開示されている。この方法では、周波数領域の観測信号と音源方向を表すステアリングベクトルまたはその推定ベクトルとを受け取り、音源からマイクロホンに到来する音を歪ませないとの拘束条件のもと、周波数領域の観測信号のパワーを最小化する瞬時ビームフォーマを推定し、これを周波数領域の観測信号に適用することで、残響や雑音を抑圧する（従来法１）。

特許文献１および非特許文献３には、周波数領域の観測信号から残響を抑圧する方法が開示されている。この方法では、周波数領域の観測信号と目的音の各時刻のパワーまたはその推定値とを受け取り、予測誤差の重み付きパワー最小化基準に基づき、目的音の残響を抑圧する残響抑圧フィルタを推定し、残響抑圧フィルタを周波数領域の観測信号に適用することで、周波数領域の観測信号の残響を抑圧する（従来法２）。

非特許文献４には、従来法２と従来法１をカスケード接続することで雑音や残響を抑圧する方法が開示されている。この方法では、前段で周波数領域の観測信号と目的音の各時刻のパワーとを受け取り、従来法２を用いて残響を抑圧した後に、後段でステアリングベクトルを受け取り、従来法１を用いて残響や雑音をさらに抑圧する（従来法３）。

特許第５２２７３９３号公報

T Higuchi, N Ito, T Yoshioka, T Nakatani, "Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise," Proc. ICASSP 2016, 2016. J Heymann, L Drude, R Haeb-Umbach, "Neural network based spectral mask estimation for acoustic beamforming," Proc.ICASSP 2016, 2016 T Nakatani, T Yoshioka, K Kinoshita, M Miyoshi, "BH Juang, Speech dereverberation based on variance-normalized delayed linear prediction," IEEE Trans. ASLP, 18 (7), 1717-1731, 2010. Takuya Yoshioka, Nobutaka Ito, Marc Delcroix, Atsunori Ogawa, Keisuke Kinoshita, Masakiyo Fujimoto, Chengzhu Yu, Wojciech J Fabian, Miquel Espi, Takuya Higuchi, Shoko Araki, Tomohiro Nakatani, "The NTT CHiME-3 system: Advances in speech enhancement and recognition for mobile multi-microphone devices," Proc. IEEE ASRU 2015, 436-443, 2015.

従来法では雑音と残響とを十分に抑圧することができない場合がある。従来法１は、もともと雑音を抑圧するために開発された方法であり、必ずしも十分に残響を抑圧できるとは限らない。従来法２では、雑音を抑圧することができない。従来法３は、従来法１や従来法２を単体で用いるときよりも多くの雑音や残響を抑圧できる。しかし、従来法３では、前段の従来法２と後段の従来法１とを、それぞれ独立した系とみてそれぞれの系で最適化を行う。そのため、前段で従来法２を適用した際に、雑音の影響により、必ずしも十分な残響抑圧ができるとは限らない。また後段で従来法１を適用した際に、残存する残響の影響により、必ずしも十分な雑音残響抑圧ができるとは限らない。

本発明はこのような点に鑑みてなされたものであり、雑音と残響とを十分に抑圧することができる技術を提供することを目的とする。

本発明では、音源から発せられた音響信号を集音して得られた観測信号の複数の周波数帯域のそれぞれに対応する周波数別観測信号に、各時刻において現在の信号と所定の遅延を持つ長さ０以上の過去の信号列との重み付き和を計算する畳み込みビームフォーマを適用して得られる推定信号が、所定の確率モデルに基づく推定信号の音声らしさを表す確率を大きくするように、畳み込みビームフォーマを得、得られた畳み込みビームフォーマを周波数別観測信号に適用して目的信号を得る。

本発明では、確率モデルに基づく推定信号の音声らしさを表す確率が大きくなるように畳み込みビームフォーマを得るため、雑音抑圧と残響抑圧とを１つの系として最適化でき、雑音と残響とを十分に抑圧できる。

図１Ａは第１実施形態の信号処理装置の機能構成を例示したブロック図である。図１Ｂは第１実施形態の信号処理方法を例示するためのフロー図である。図２Ａは第２実施形態の信号処理装置の機能構成を例示したブロック図である。図２Ｂは第２実施形態の信号処理方法を例示するためのフロー図である。図３は第３実施形態の信号処理装置の機能構成を例示したブロック図である。図４は図３のパラメータ推定部の機能構成を例示したブロック図である。図５は第３実施形態のパラメータ推定方法を例示するためのフロー図である。図６は第４〜７実施形態の信号処理装置の機能構成を例示したブロック図である。図７は図６のパラメータ推定部の機能構成を例示したブロック図である。図８は図７のステアリングベクトル推定部の機能構成を例示したブロック図である。図９は第８実施形態の信号処理装置の機能構成を例示したブロック図である。図１０は第９実施形態の信号処理装置の機能構成を例示したブロック図である。図１１Ａから図１１Ｃは実施形態の信号処理装置の使用例を説明するためのブロック図である。図１２は第１実施形態の実験結果を例示した表である。図１３は第１実施形態の実験結果を例示した表である。図１４は第４実施形態の実験結果を例示した表である。図１５Ａから図１５Ｃは第７実施形態の実験結果を例示した表である。

以下、本発明の実施形態を説明する。
［記号の定義］
まず、実施形態で使用する記号を定義する。
Ｍ：Ｍはマイクロホン数を表す正整数である。例えば、Ｍ≧２である。
ｍ：ｍはマイクロホン番号を表す正整数であり、１≦ｍ≦Ｍを満たす。マイクロホン番号は丸括弧付きの右上添え字で表す。すなわち、マイクロホン番号ｍのマイクロホンで収音された信号に基づく値やベクトルは、右上添え字「（ｍ）」を持つ記号で表現される（例えば、ｘ_ｆ，ｔ ^（ｍ））。
Ｎ：Ｎは信号の時間フレームの総数を表す正整数である。例えば、Ｎ≧２である。
ｔ，τ：ｔ，τは時間フレーム番号を表す正整数であり、ｔは１≦ｔ≦Ｎを満たす。時間フレーム番号は右下添え字で表す。すなわち、時間フレーム番号ｔの時間フレームに対応する値やベクトルは、右下添え字「ｔ」を持つ記号で表現される（例えば、ｘ_ｆ，ｔ ^（ｍ））。同様に、時間フレーム番号τの時間フレームに対応する値やベクトルは、右下添え字「τ」を持つ記号で表現される。
Ｐ：Ｐは周波数帯域（離散周波数）の総数を表す正整数である。例えば、Ｐ≧２である。
ｆ：ｆは周波数帯域番号を表す正整数であり、１≦ｆ≦Ｐを満たす。周波数帯域番号は右下添え字で表す。すなわち、周波数帯域番号ｆの周波数帯域に対応する値やベクトルは、右下添え字「ｆ」を持つ記号で表現される（例えば、ｘ_ｆ，ｔ ^（ｍ））。
Ｔ：Ｔは行列やベクトルの非共役転置を表す。α_０ ^Ｔはα_０を非共役転置して得られる行列やベクトルを表す。
Ｈ：Ｈは行列やベクトルの共役転置を表す。α_０ ^Ｈはα_０を共役転置して得られる行列やベクトルを表す。
｜α_０｜：｜α_０｜はα_０の絶対値を表す。
||α_０||：||α_０||はα_０のノルムを表す。
｜α_０｜_γ：｜α_０｜_γはα_０の重み付き絶対値γ｜α_０｜を表す。
||α_０||_γ：||α_０||_γはα_０の重み付きノルムγ||α_０||を表す。

本明細書で「目的信号」は目的の音源から発せられてマイクロホンで集音された音に対応する信号（例えば周波数別観測信号）のうち、直接音と初期反射音に対応する信号のことを指す。初期反射音とは、目的の音源から発せられた音に由来する残響のうち、直接音から遅れて数１０ミリ秒以内にマイクロホンに到達する成分のことを指す。一般的に、初期反射音は音の明瞭性を向上させる働きを持つとされており、本実施形態では、初期反射音に対応する信号も目的信号に含められる。一方、マイクロホンで集音される音に対応する信号には、上記の目的信号以外に、目的の音源から発せられた音に由来する後部残響（残響から初期反射音を除いた成分）や目的の音源以外に由来する雑音が含まれている。信号処理方法では、例えばマイクロホンで収録された音に対応する周波数別観測信号から、後部残響と雑音を抑圧して目的信号を推定する。本明細書では特に断りがない限り、「残響」とは「後部残響」のことを指しているものとする。

［原理］
次に原理を説明する。
＜前提となる手法１＞
実施形態の手法の前提となる手法１を説明する。手法１では周波数領域のＭ次元観測信号（周波数別観測信号）

から雑音と残響とを抑圧する。周波数別観測信号ｘ_ｆ，ｔは、例えば、単数または複数の音源から発せられた音響信号をＭ個のマイクロホンで収音して得られたＭ個の観測信号を周波数領域に変換して得られたものである。観測信号は、雑音および残響が存在する環境下で音源から発せられた音響信号を集音して得られたものである。ｘ_ｆ，ｔ ^（ｍ）はマイクロホン番号ｍのマイクロホンで収音して得られた観測信号を周波数領域に変換して得られるものである。ｘ_ｆ，ｔ ^（ｍ）は、周波数帯域番号ｆの周波数帯域および時間フレーム番号ｔの時間フレームに対応する。すなわち、周波数別観測信号ｘ_ｆ，ｔは時系列信号である。

手法１では、「周波数別観測信号ｘ_ｆ，ｔに、各時刻において、現在の時刻の信号の重み付き和を計算する瞬時ビームフォーマ（例えば、最小パワー無歪応答ビームフォーマ）ｗ_ｆ，０を適用した結果、目的信号が歪まない」という拘束条件のもとで、各周波数帯域に対し、以下のコスト関数Ｃ_１（ｗ_ｆ，０）を最小化する瞬時ビームフォーマｗ_ｆ，０を求める。

なお、ｗ_ｆ，０の右下添え字「０」は時間フレーム番号を表すものではなく、ｗ_ｆ，０は時間フレームに依存しない。拘束条件は、例えば、ｗ_ｆ，０ ^Ｈν_ｆ，０が定数（例えば１）となる条件である。ここで

は音源から各マイクロホン（音響信号の集音位置）までの直接音および初期反射音に関する伝達関数ν_ｆ，０ ^（ｍ）を要素とするステアリングベクトルまたはその推定ベクトル（推定ステアリングベクトル）である。すなわち、ν_ｆ，０は、音源位置から各マイクロホンまでのインパルス応答の内、直接音と初期反射音（直接音から数十ミリ秒以内（例えば、３０ミリ秒以内）に遅れて到達する残響）の部分に対応する伝達関数ν_ｆ，０ ^（ｍ）を要素とするＭ次元（マイクロホン数の次元）のベクトルで表される。ステアリングベクトルのゲインの推定が困難な場合には、いずれか一つのマイクロホン番号ｍ_０∈｛１，…，Ｍ｝のマイクロホンのゲインが定数ｇ（ｇ≠０）となるように各要素の伝達関数を正規化した正規化ベクトルをν_ｆ，０としてもよい。すなわち、以下のように正規化されたものをν_ｆ，０としてもよい。

以上のように得られた瞬時ビームフォーマｗ_ｆ，０を、以下のように各周波数帯域の周波数別観測信号ｘ_ｆ，ｔに適用することで、周波数別観測信号ｘ_ｆ，ｔから雑音と残響とを抑圧した目的信号ｙ_ｆ，ｔが得られる。

＜前提となる手法２＞
実施形態の手法の前提となる手法２を説明する。手法２では周波数別観測信号ｘ_ｆ，ｔから残響を抑圧する。手法２では、各周波数帯域で、以下のコスト関数Ｃ_２（Ｆ_ｆ）を最小化する残響抑圧フィルタＦ_ｆ，τをτ＝ｄ，ｄ＋１，…，ｄ＋Ｌ−１に対して求める。

ただし、残響抑圧フィルタＦ_ｆ，τは周波数別観測信号ｘ_ｆ，ｔから残響を抑圧するＭ×Ｍ次行列フィルタである。ｄは予測遅延を表す正整数であり、Ｌはフィルタ長を表す正整数である。σ_ｆ，ｔ ^２は目的信号のパワーであり、

である。周波数別観測信号ｘに対する||ｘ||_γは、周波数別観測信号ｘの重み付きノルム||ｘ||_γ＝γ（ｘ^Ｈｘ）である。

以上のように得られた残響抑圧フィルタＦ_ｆ，ｔを、以下のように各周波数帯域の周波数別観測信号ｘ_ｆ，ｔに適用することで、周波数別観測信号ｘ_ｆ，ｔから残響を抑圧した目的信号ｚ_ｆ，ｔが得られる。

ただし、目的信号ｚ_ｆ，ｔは以下のようなＭ次元縦ベクトルである。

＜実施形態の手法＞
実施形態の手法を説明する。手法１，２を統合した手法によって周波数別観測信号ｘ_ｆ，ｔから雑音と残響とを抑圧して得られる目的信号ｙ_ｆ，ｔは、以下のようにモデル化することができる。

ただし、τ≠０に対してｗ_ｆ，τ＝−Ｆ_ｆ，τｗ_ｆ，０であり、ｗ_ｆ，τは雑音抑圧と残響抑圧とを同時に行うフィルタに相当する。ｗ⁻ _ｆは畳み込みビームフォーマであり、各時刻において現在の信号と所定の遅延を持つ過去の信号列との重み付き和を計算するものである。なお、「ｗ⁻ _ｆ」の「−」は本来以下のように「ｗ」の真上に表記すべきであるが、記載表記の制約上「ｗ」の右上に表記する場合がある。

畳み込みビームフォーマｗ⁻ _ｆは、各時刻において現在の信号と所定の遅延を持つ過去の信号列との重み付き和を計算するものである。畳み込みビームフォーマｗ⁻ _ｆは、例えば以下のように表される。

ただし、以下を満たす。

また、ｘ⁻ _ｆ，ｔは以下のように表される。

なお、本明細書を通じて、式（９）から式（１１Ａ）においてＬ＝０とする場合も、本発明の畳み込みビームフォーマに含めるものとする。つまり、畳み込みビームフォーマで重み付き和を計算する過去の信号列の長さが０の場合も、畳み込みビームフォーマの一実現例として扱う。この時、式（９）においてΣの項は０となるため、式（９）は以下の式（９Ａ）のようになり、式（１０Ａ）および式（１１Ａ）のそれぞれの右辺は、それぞれ最初の要素一つだけからなるベクトル（すなわちスカラー）になるため、式（１０ＡＡ）および式（１１ＡＡ）のようになる。

なお、式（９Ａ）の畳み込みビームフォーマｗ⁻ _ｆは、各時刻において現在の信号と所定の遅延を持つ長さ０の信号列との重み付き和を計算するものであり、各時刻において現在の信号の重み付け値を計算するビームフォーマである。さらに、以下に述べるように、Ｌ＝０の場合であっても、本発明による信号処理装置は、音声らしさを表す確率に基づき畳み込みビームフォーマを求め、周波数別観測信号に適用して、目的信号を得ることができる。

ここで、式（９）のｙ_ｆ，ｔが音声の確率密度関数ｐ（｛ｙ_ｆ，ｔ｝_{ｔ＝１：Ｎ}；ｗ⁻ _ｆ）（確率モデル）に従うのが望ましいと仮定し、信号処理装置は、音声の確率密度関数に基づくｙ_ｆ，ｔの確率ｐ（｛ｙ_ｆ，ｔ｝_{ｔ＝１：Ｎ}；ｗ⁻ _ｆ）（つまり、ｙ_ｆ，ｔの音声らしさを表す確率）を大きくするように畳み込みビームフォーマｗ⁻ _ｆを求める。好ましくは、ｙ_ｆ，ｔの音声らしさを表す確率を最大化する畳み込みビームフォーマｗ⁻ _ｆを求める。例えば、信号処理装置は、ｌｏｇｐ（｛ｙ_ｆ，ｔ｝_{ｔ＝１：Ｎ}；ｗ⁻ _ｆ）を大きくするように畳み込みビームフォーマｗ⁻ _ｆを求め、好ましくはｌｏｇｐ（｛ｙ_ｆ，ｔ｝_{ｔ＝１：Ｎ}；ｗ⁻ _ｆ）を最大化する畳み込みビームフォーマｗ⁻ _ｆを求める。

音声の確率密度関数としては、例えば、平均が０、分散が目的信号のパワーσ_ｆ，ｔ ^２に一致する複素正規分布を例示できる。「目的信号」は目的の音源から発せられてマイクロホンで集音された音に対応する信号のうち、直接音と初期反射音に対応する信号のことである。また信号処理装置は、例えば、「周波数別観測信号ｘ_ｆ，ｔに畳み込みビームフォーマｗ⁻ _ｆを適用した結果、目的信号が歪まない」という拘束条件のもとで、畳み込みビームフォーマｗ⁻ _ｆを求める。この拘束条件は、例えば、ｗ_ｆ，０ ^Ｈν_ｆ，０が定数（例えば１）となる条件である。信号処理装置は、例えば、この拘束条件のもと、各周波数帯域に対し、以下のように定まるｌｏｇｐ（｛ｙ_ｆ，ｔ｝_{ｔ＝１：Ｎ}；ｗ⁻ _ｆ）を最大化するｗ⁻ _ｆを求める。

ただし、「ｃｏｎｓｔ．」は定数を表す。

式（１２）のｌｏｇｐ（｛ｙ_ｆ，ｔ｝_{ｔ＝１：Ｎ}；ｗ⁻ _ｆ）から定数項（ｃｏｎｓｔ．）を除き、正負符号を反転させた以下の関数をコスト関数Ｃ_３（ｗ⁻ _ｆ）とする。

ただし、Ｒは、以下のように求められる重み付き時空間共分散行列である。

信号処理装置は、例えば、上述の拘束条件（例えば、ｗ_ｆ，０ ^Ｈν_ｆ，０が定数）のもと、式（１３）のコスト関数Ｃ_３（ｗ⁻ _ｆ）を最小化するｗ⁻ _ｆを求めてもよい。

上記の拘束条件（例えば、ｗ_ｆ，０ ^Ｈν_ｆ，０＝１）のもと、コスト関数Ｃ_３（ｗ⁻ _ｆ）を最小化するｗ⁻ _ｆの解析解は以下のようになる。

ただし、ν⁻ _ｆはステアリングベクトルν_ｆ，０の要素ν_ｆ，０ ^（ｍ）を以下のように配置したベクトルである。

ただし、ν^― _ｆ ^（ｍ）はν_ｆ，０ ^（ｍ）とＬ個の０とを要素とするＬ＋１次元縦ベクトルである。

信号処理装置は、求めた畳み込みビームフォーマｗ⁻ _ｆを周波数別観測信号ｘ_ｆ，ｔに以下のように適用して目的信号ｙ_ｆ，ｔを得る。

［第１実施形態］
次に、第１実施形態を説明する。
図１Ａに例示するように、本実施形態の信号処理装置１は推定部１１と抑圧部１２とを有する。

＜ステップＳ１１＞
図１Ｂに例示するように、推定部１１には、周波数別観測信号ｘ_ｆ，ｔが入力される（式（１））。推定部１１は、各周波数帯域において、周波数別観測信号ｘ_ｆ，ｔに、各時刻において現在の信号と所定の遅延を持つ過去の信号列との重み付き和を計算する畳み込みビームフォーマｗ⁻ _ｆを適用して得られる推定信号が、所定の確率モデルに基づく推定信号の音声らしさを表す確率を大きくするように、畳み込みビームフォーマｗ⁻ _ｆを得て出力する。例えば、推定部１１は、確率密度関数ｐ（｛ｙ_ｆ，ｔ｝_{ｔ＝１：Ｎ}；ｗ⁻ _ｆ）に基づくｙ_ｆ，ｔの音声らしさを表す確率が大きくなるように（例えば、ｌｏｇｐ（｛ｙ_ｆ，ｔ｝_{ｔ＝１：Ｎ}；ｗ⁻ _ｆ）を大きくするように）畳み込みビームフォーマｗ⁻ _ｆを求める。好ましくは、推定部１１は、この確率を最大化する（例えば、ｌｏｇｐ（｛ｙ_ｆ，ｔ｝_{ｔ＝１：Ｎ}；ｗ⁻ _ｆ）を最大化する）畳み込みビームフォーマｗ⁻ _ｆを求める。

＜ステップＳ１２＞
抑圧部１２には、周波数別観測信号ｘ_ｆ，ｔとステップＳ１１で得られた畳み込みビームフォーマｗ⁻ _ｆとが入力される。抑圧部１２は、各周波数帯域において、畳み込みビームフォーマｗ⁻ _ｆを周波数別観測信号ｘ_ｆ，ｔに適用して目的信号ｙ_ｆ，ｔ（推定信号）を得て出力する。例えば、抑圧部１２は、式（１６）に例示したように、ｗ⁻ _ｆをｘ⁻ _ｆ，ｔに適用して目的信号ｙ_ｆ，ｔを得て出力する。

＜本実施形態の特徴＞
本実施形態では、周波数別観測信号ｘ_ｆ，ｔに、各時刻において現在の信号と所定の遅延を持つ過去の信号列との重み付き和を計算する畳み込みビームフォーマｗ⁻ _ｆを適用して得られる推定信号が、所定の確率モデルに基づく推定信号の音声らしさを表す確率を大きくするように、畳み込みビームフォーマｗ⁻ _ｆを求めた。これは雑音抑圧と残響抑圧とを１つの系として最適化することに相当する。そのため、本実施形態では、従来よりも雑音と残響とを十分に抑圧することができる。

［第２実施形態］
次に、第２実施形態を説明する。以下、これまで説明した処理部およびステップについては同じ参照番号を引用して説明を簡略化する。
図２Ａに例示するように、本実施形態の信号処理装置２は推定部２１と抑圧部１２とを有する。推定部２１は行列推定部２１１と畳み込みビームフォーマ推定部２１２とを有する。

本実施形態の推定部２１は、「周波数別観測信号ｘ_ｆ，ｔに畳み込みビームフォーマｗ⁻ _ｆを適用した結果、目的信号が歪まない」という拘束条件のもとで、所定の時間区間に属する各時刻での推定信号のパワーを、目的信号のパワーσ_ｆ，ｔ ^２の逆数または当該目的信号の推定パワーσ_ｆ，ｔ ^２の逆数で重み付けして得られる値の総和（例えば、式（１３）のコスト関数Ｃ_３（ｗ⁻ _ｆ））、を最小化する畳み込みビームフォーマｗ⁻ _ｆを得て出力する。式（９）に例示したように、畳み込みビームフォーマｗ⁻ _ｆは、周波数別観測信号ｘ_ｆ，ｔから残響を抑圧する残響抑圧フィルタＦ_ｆ，ｔと、周波数別観測信号ｘ_ｆ，ｔに残響抑圧フィルタＦ_ｆ，ｔを適用して得られる信号から雑音を抑圧する瞬時ビームフォーマｗ_ｆ，０を合成して得られるビームフォーマと等価である。また拘束条件は、例えば「音源から音響信号の集音位置までの直接音および初期反射音に関する伝達関数を要素とするステアリングベクトルまたはステアリングベクトルの推定ベクトルである推定ステアリングベクトルに瞬時ビームフォーマを適用して得られる値が定数である（ｗ_ｆ，０ ^Ｈν_ｆ，０が定数）」という条件である。以下、処理を詳細に説明する。

＜ステップＳ２１１＞
図２Ｂに例示するように、行列推定部２１１には、周波数別観測信号ｘ_ｆ，ｔおよび目的信号のパワーまたは推定パワーσ_ｆ，ｔ ^２が入力される。行列推定部２１１は、各周波数帯域について、周波数別観測信号ｘ_ｆ，ｔと目的信号のパワーまたは推定パワーσ_ｆ，ｔ ^２とに基づき、重み付き時空間共分散行列Ｒ_ｆを得て出力する。例えば、行列推定部２１１は、式（１４）に従って重み付き時空間共分散行列Ｒ_ｆを得て出力する。

＜ステップＳ２１２＞
畳み込みビームフォーマ推定部２１２には、ステアリングベクトルまたは推定ステアリングベクトルν_ｆ，０（式（４）または（５））とステップＳ２１１で得られた重み付き時空間共分散行列Ｒ_ｆとが入力される。畳み込みビームフォーマ推定部２１２は、重み付き時空間共分散行列Ｒ_ｆとステアリングベクトルまたは推定ステアリングベクトルν_ｆ，０とに基づき、畳み込みビームフォーマｗ⁻ _ｆを得て出力する。例えば、畳み込みビームフォーマ推定部２１２は、式（１５）に従って畳み込みビームフォーマｗ⁻ _ｆを得て出力する。

＜ステップＳ１２＞
第１実施形態と同一であるため説明を省略する。

＜本実施形態の特徴＞
本実施形態では、重み付き時空間共分散行列Ｒ_ｆを得、重み付き時空間共分散行列Ｒ_ｆとステアリングベクトルまたは推定ステアリングベクトルν_ｆ，０とに基づき、畳み込みビームフォーマｗ⁻ _ｆを得た。これは雑音抑圧と残響抑圧とを１つの系として最適化することに相当する。そのため、本実施形態では、従来よりも雑音と残響とを十分に抑圧することができる。

［第３実施形態］
次に、第３実施形態を説明する。本実施形態では、σ_ｆ，ｔ ^２およびν_ｆ，０の生成方法を例示する。
図３に例示するように、本実施形態の信号処理装置３は推定部２１と抑圧部１２とパラメータ推定部３３とを有する。推定部２１は行列推定部２１１と畳み込みビームフォーマ推定部２１２とを有する。また図４に例示するように、パラメータ推定部３３は、初期設定部３３０と、パワー推定部３３１と、残響抑圧フィルタ推定部３３２と、残響抑圧フィルタ適用部３３３と、ステアリングベクトル推定部３３４と、瞬時ビームフォーマ推定部３３５と、瞬時ビームフォーマ適用部３３６と、制御部３３７とを有する。

以下では第２実施形態との相違点であるパラメータ推定部３３の処理のみを説明する。その他の処理部の処理は第１，２実施形態で説明した通りである。
＜ステップＳ３３０＞
初期設定部３３０には周波数別観測信号ｘ_ｆ，ｔが入力される。初期設定部３３０は、周波数別観測信号ｘ_ｆ，ｔを用い、目的信号の推定パワーσ_ｆ，ｔ ^２の暫定値である暫定パワーσ_ｆ，ｔ ^２を生成して出力する。例えば、初期設定部３３０は、以下に従って暫定パワーσ_ｆ，ｔ ^２を生成して出力する。

なお、Ｍ＝１の場合にはσ_ｆ，ｔ ^２＝｜ｘ_ｆ，ｔ｜^２＝ｘ_ｆ，ｔ ^Ｈｘ_ｆ，ｔである。

＜ステップＳ３３２＞
残響抑圧フィルタ推定部３３２には、周波数別観測信号ｘ_ｆ，ｔと最新の暫定パワーσ_ｆ，ｔ ^２とが入力される。残響抑圧フィルタ推定部３３２は、各周波数帯域において、式（７）のコスト関数Ｃ_２（Ｆ_ｆ）を最小化する残響抑圧フィルタＦ_ｆ，ｔをｔ＝ｄ，ｄ＋１，…，ｄ＋Ｌ−１に対して求めて出力する。

＜ステップＳ３３３＞
残響抑圧フィルタ適用部３３３には、周波数別観測信号ｘ_ｆ，ｔとステップＳ３３２で得られた最新の残響抑圧フィルタＦ_ｆ，ｔとが入力される。残響抑圧フィルタ適用部３３３は、各周波数帯域において、周波数別観測信号ｘ_ｆ，ｔに残響抑圧フィルタＦ_ｆ，ｔを適用して推定信号ｙ’_ｆ，ｔを得て出力する。例えば、残響抑圧フィルタ適用部３３３は、式（８）に従って得たｚ_ｆ，ｔをｙ’_ｆ，ｔとして出力する。

＜ステップＳ３３４＞
ステアリングベクトル推定部３３４には、ステップＳ３３３で得られた最新の推定信号ｙ’_ｆ，ｔが入力される。ステアリングベクトル推定部３３４は、各周波数帯域において、推定信号ｙ’_ｆ，ｔを用い、推定ステアリングベクトルの暫定ベクトルである暫定ステアリングベクトルν_ｆ，０を得て出力する。例えば、ステアリングベクトル推定部３３４は、非特許文献１，２に記載されたステアリングベクトルの推定方法に従って、推定信号ｙ’_ｆ，ｔに対する暫定ステアリングベクトルν_ｆ，０を得て出力する。例えば、ステアリングベクトル推定部３３４は、非特許文献２のｙ_ｆ，ｔとしてｙ’_ｆ，ｔを用いて推定されたステアリングベクトルを暫定ステアリングベクトルν_ｆ，０として出力する。また前述のように、いずれか一つのマイクロホン番号ｍ_０∈｛１，…，Ｍ｝のマイクロホンのゲインが定数ｇとなるように各要素の伝達関数を正規化した正規化ベクトルをν_ｆ，０としてもよい（式（５））。

＜ステップＳ３３５＞
瞬時ビームフォーマ推定部３３５には、ステップＳ３３３で得られた最新の推定信号ｙ’_ｆ，ｔと、ステップＳ３３４で得られた最新の暫定ステアリングベクトルν_ｆ，０とが入力される。瞬時ビームフォーマ推定部３３５は、各周波数帯域において、「ｗ_ｆ，０ ^Ｈν_ｆ，０が定数となる」との拘束条件のもとで、式（２）においてｘ_ｆ，ｔ＝ｙ’_ｆ，ｔした以下の式（１８）のＣ_１（ｗ_ｆ，０）を最小化する瞬時ビームフォーマｗ_ｆ，０を得て出力する。

＜ステップＳ３３６＞
瞬時ビームフォーマ適用部３３６には、ステップＳ３３３で得られた最新の推定信号ｙ’_ｆ，ｔと、ステップＳ３３５で得られた最新の瞬時ビームフォーマｗ_ｆ，０とが入力される。瞬時ビームフォーマ適用部３３６は、各周波数帯域において、瞬時ビームフォーマｗ_ｆ，０を推定信号ｙ’_ｆ，ｔに適用して推定信号ｙ”_ｆ，ｔを得て出力する。例えば、瞬時ビームフォーマ適用部３３６は、以下のように推定信号ｙ”_ｆ，ｔを得て出力する。

＜ステップＳ３３１＞
パワー推定部３３１には、ステップＳ３３６で得られた最新の推定信号ｙ”_ｆ，ｔが入力される。パワー推定部３３１は、各周波数帯域において、推定信号ｙ”_ｆ，ｔのパワーを暫定パワーσ_ｆ，ｔ ^２として出力する。例えば、パワー推定部３３１は、以下に従って暫定パワーσ_ｆ，ｔ ^２を生成して出力する。
σ_ｆ，ｔ ^２＝｜ｙ”_ｆ，ｔ｜^２＝ｙ”_ｆ，ｔ ^Ｈｙ”_ｆ，ｔ（２０）

＜ステップＳ３３７ａ＞
制御部３３７は終了条件を満たした否かを判定する。終了条件に限定はないが、例えば、ステップＳ３３１−Ｓ３３６の処理の繰り返し回数が所定値を超えたこと、ステップＳ３３１−Ｓ３３６の処理を１回行った前後でのσ_ｆ，ｔ ^２またはν_ｆ，０の変化量が所定値以下であることなどである。終了条件を満たしていない場合には、ステップＳ３３２の処理に戻る。一方、終了条件を満たした場合にはステップＳ３３７ｂに進む。

＜ステップＳ３３７ｂ＞
ステップＳ３３７ｂでは、パワー推定部３３１がステップＳ３３１で得た最新のσ_ｆ，ｔ ^２を目的信号の推定パワーとして出力し、ステアリングベクトル推定部３３４がステップＳ３３４で得た最新のν_ｆ，０を推定ステアリングベクトルとして出力する。図３に例示するように、推定パワーσ_ｆ，ｔ ^２は行列推定部２１１に入力され、推定ステアリングベクトルν_ｆ，０が畳み込みビームフォーマ推定部２１２に入力される。

［第４実施形態］
上述のようにステアリングベクトルは周波数別観測信号ｘ_ｆ，ｔに基づいて推定されるが、周波数別観測信号ｘ_ｆ，ｔの残響を抑圧してから（好ましくは、残響を除去してから）ステアリングベクトルの推定を行うとその推定精度が向上する。すなわち、周波数別観測信号ｘ_ｆ，ｔから残響成分を抑圧した周波数別残響抑圧信号を得、当該周波数別残響抑圧信号から推定ステアリングベクトルを得ることで推定ステアリングベクトルの精度を向上させることができる。

図６に例示するように、本実施形態の信号処理装置４は推定部２１と抑圧部１２とパラメータ推定部４３とを有する。推定部２１は行列推定部２１１と畳み込みビームフォーマ推定部２１２とを有する。図７に例示するように、パラメータ推定部４３は残響抑圧部４３１とステアリングベクトル推定部４３２とを有する。

第４実施形態の第１から３実施形態からの相違点は、推定ステアリングベクトルを生成する前に周波数別観測信号ｘ_ｆ，ｔから残響成分を抑圧する点である。以下では、推定ステアリングベクトルの生成方法のみを説明する。

＜残響抑圧部４３１の処理（ステップＳ４３１）＞
パラメータ推定部４３（図７）の残響抑圧部４３１には周波数別観測信号ｘ_ｆ，ｔが入力される。残響抑圧部４３１は、周波数別観測信号ｘ_ｆ，ｔから残響成分を抑圧した（好ましくは、周波数別観測信号ｘ_ｆ，ｔから残響成分を除去した）周波数別残響抑圧信号ｕ_ｆ，ｔを得て出力する。周波数別観測信号ｘ_ｆ，ｔから残響成分を抑圧（除去）する方法に限定はない。公知の残響抑圧（除去）方法を利用することができる。例えば、残響抑圧部４３１は、参考文献１に記載された方法を用い、周波数別観測信号ｘ_ｆ，ｔから残響成分を抑圧した周波数別残響抑圧信号ｕ_ｆ，ｔを得て出力する。
参考文献１：Takuya Yoshioka and Tomohiro Nakatani, "Generalization of Multi-Channel Linear Prediction Methods for Blind MIMO Impulse Response Shortening," IEEE Transactions on Audio, Speech, and Language Processing (Volume: 20, Issue: 10 , Dec. 2012)

＜ステアリングベクトル推定部４３２の処理（ステップＳ４３２）＞
残響抑圧部４３１で得られた周波数別残響抑圧信号ｕ_ｆ，ｔはステアリングベクトル推定部４３２に入力される。ステアリングベクトル推定部４３２は、周波数別残響抑圧信号ｕ_ｆ，ｔを入力としてステアリングベクトルの推定ベクトルである推定ステアリングベクトルを生成して出力する。周波数別の時系列信号を入力として推定ステアリングベクトルを得るためのステアリングベクトル推定処理方法は周知である。ステアリングベクトル推定部４３２は、任意のステアリングベクトル推定処理の入力として周波数別残響抑圧信号ｕ_ｆ，ｔを用い、推定ステアリングベクトルν_ｆ，０を得て出力する。ステアリングベクトル推定処理方法に限定はなく、例えば、上述した非特許文献１，２に記載された方法を用いてもよいし、参考文献２，３等を用いてもよい。
参考文献２：N. Ito, S. Araki, M. Delcroix, and T. Nakatani, “Probabilistic spatial dictionary based online adaptive beamforming for meeting recognition in noisy and reverberant environments,” Proc IEEE ICASSP, pp. 681-685, 2017.
参考文献３：S. Markovich-Golan and S. Gannot, “Performance analysis of the covarience subtraction method for relative transfer function estimation and comparison to the covariance whitening method,” Proc. IEEE ICASSP, pp. 544-548, 2015.

ステアリングベクトル推定部４３２で得られた推定ステアリングベクトルν_ｆ，０は、畳み込みビームフォーマ推定部２１２に入力される。畳み込みビームフォーマ推定部２１２は、この推定ステアリングベクトルν_ｆ，０とステップＳ２１１で得られた重み付き時空間共分散行列Ｒ_ｆとを用い、第２実施形態で説明したステップＳ２１２の処理を行う。その他は、第１，２実施形態で説明した通りである。

［第５実施形態］
第５実施形態ではステアリングベクトルの推定を逐次処理で実行する方法を説明する。これによって、例えば、オンラインで逐次的に入力された周波数別観測信号ｘ_ｆ，ｔから各時間フレーム番号ｔの推定ステアリングベクトルを計算することができる。

図６に例示するように、本実施形態の信号処理装置５は推定部２１と抑圧部１２とパラメータ推定部５３とを有する。推定部２１は行列推定部２１１と畳み込みビームフォーマ推定部２１２とを有する。図７に例示するように、パラメータ推定部５３はステアリングベクトル推定部５３２を有する。図８に例示するように、ステアリングベクトル推定部５３２は、観測信号共分散行列更新部５３２ａと主成分ベクトル更新部５３２ｂとステアリングベクトル更新部５３２ｃ（ステアリングベクトル推定部）と雑音共分散逆行列更新部５３２ｄと雑音共分散行列更新部５３２ｅとを有する。第５実施形態の第１から３実施形態からの相違点は、推定ステアリングベクトルの生成を逐次処理で行う点のみである。以下では推定ステアリングベクトルの生成方法のみを説明する。以下の処理は、ｔ＝１から昇順で各時間フレーム番号ｔについて実行される。

＜ステアリングベクトル推定部５３２の処理（ステップＳ５３２）＞
ステアリングベクトル推定部５３２（図７，図８）には、周波数別の時系列信号である周波数別観測信号ｘ_ｆ，ｔが入力される。

≪観測信号共分散行列更新部５３２ａの処理（ステップＳ５３２ａ）≫
観測信号共分散行列更新部５３２ａ（図８）は、周波数別観測信号ｘ_ｆ，ｔを入力とし、周波数別観測信号ｘ_ｆ，ｔ（第１時間区間に属する周波数別観測信号）、および周波数別観測信号ｘ_{ｆ，ｔ−１}の空間共分散行列Ψ_{ｘ，ｆ，ｔ−１}（第１時間区間よりも過去の第２時間区間に属する周波数別観測信号の空間共分散行列）に基づく、周波数別観測信号ｘ_ｆ，ｔの空間共分散行列Ψ_{ｘ，ｆ，ｔ}（第１時間区間に属する周波数別観測信号の空間共分散行列）を得て出力する。例えば、観測信号共分散行列更新部５３２ａは、周波数別観測信号ｘ_ｆ，ｔ（第１時間区間に属する周波数別観測信号）の共分散行列ｘ_ｆ，ｔｘ_ｆ，ｔ ^Ｈと空間共分散行列Ψ_{ｘ，ｆ，ｔ−１}（第１時間区間よりも過去の第２時間区間に属する周波数別観測信号の空間共分散行列）との線形和を、周波数別観測信号ｘ_ｆ，ｔの空間共分散行列Ψ_{ｘ，ｆ，ｔ}（第１時間区間に属する周波数別観測信号の空間共分散行列）として得て出力する。例えば、観測信号共分散行列更新部５３２ａは、以下の式（２１）に従って空間共分散行列Ψ_{ｘ，ｆ，ｔ}を得て出力する。

ここで、βは忘却係数であり、例えば０＜β＜１の範囲に属する実数である。空間共分散行列Ψ_{ｘ，ｆ，ｔ−１}の初期行列Ψ_{ｘ，ｆ，０}はどのようなものでもよい。例えば、Ｍ×Ｍ次元の単位行列を空間共分散行列Ψ_{ｘ，ｆ，ｔ−１}の初期行列Ψ_{ｘ，ｆ，０}とすることができる。

＜雑音共分散逆行列更新部５３２ｄの処理（ステップＳ５３２ｄ）＞
雑音共分散逆行列更新部５３２ｄには、周波数別観測信号ｘ_ｆ，ｔおよびマスク情報γ_ｆ，ｔ ^（ｎ）が入力される。マスク情報γ_ｆ，ｔ ^（ｎ）は、時間フレーム番号ｔおよび周波数帯域番号ｆに対応する時間周波数点において、周波数別観測信号ｘ_ｆ，ｔに含まれる雑音成分の割合を表す情報である。言い換えると、マスク情報γ_ｆ，ｔ ^（ｎ）は、時間フレーム番号ｔおよび周波数帯域番号ｆに対応する時間周波数点で、周波数別観測信号ｘ_ｆ，ｔに含まれる雑音成分の占有確率を表す。マスク情報γ_ｆ，ｔ ^（ｎ）の推定方法に限定はない。マスク情報γ_ｆ，ｔ ^（ｎ）の推定方法は周知であり、例えば、complex Gaussian mixture model (CGMM)を用いる推定方法（例えば、参考文献４）、ニューラルネットワークを用いる推定方法（例えば、参考文献５）、およびそれらを結合した推定方法（例えば、参考文献６、参考文献７）などが知られている。
参考文献４：T. Higuchi, N. Ito, T. Yoshioka, and T. Nakatani, "Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise," Proc. IEEE ICASSP-2016, pp. 5210-5214, 2016．
参考文献５：J. Heymann, L. Drude, and R. Haeb-Umbach, "Neural network based spectral mask estimation for acoustic beamforming," Proc. IEEE ICASSP-2016, pp. 196-200, 2016.
参考文献６：T. Nakatani, N. Ito, T. Higuchi, S. Araki, and K. Kinoshita, "Integrating DNN-based and spatial clustering-based mask estimation for robust MVDR beamforming," Proc. IEEE ICASSP-2017, pp. 286-290, 2017.
参考文献７：Y. Matsui, T. Nakatani, M. Delcroix, K. Kinoshita, S. Araki, and S. Makino, "Online integration of DNN-based and spatial clustering-based mask estimation for robust MVDR beamforming," Proc. IWAENC, pp. 71-75, 2018.
マスク情報γ_ｆ，ｔ ^（ｎ）は、事前に推定されて図示していない記憶装置に格納されたものであってもよいし、逐次的に推定されるものであってもよい。なお、「γ_ｆ，ｔ ^（ｎ）」の右上添字の「（ｎ）」は本来右下添字の「ｆ，ｔ」の真上に記載すべきであるが、記載表記の制約上、「ｆ，ｔ」の右上に記載してある。

雑音共分散逆行列更新部５３２ｄは、周波数別観測信号ｘ_ｆ，ｔ（第１時間区間に属する周波数別観測信号）、マスク情報γ_ｆ，ｔ ^（ｎ）（第１時間区間に属するマスク情報）、および雑音共分散逆行列Ψ^−１ _{ｎ，ｆ，ｔ−１}（第１時間区間よりも過去の第２時間区間に属する周波数別観測信号の雑音共分散逆行列）に基づき、雑音共分散逆行列Ψ^−１ _{ｎ，ｆ，ｔ}（第１時間区間に属する周波数別観測信号の雑音共分散逆行列）を得て出力する。例えば、雑音共分散逆行列更新部５３２ｄは、Woodburyの公式を用い、以下の式（２２）に従って雑音共分散逆行列Ψ^−１ _{ｎ，ｆ，ｔ}を得て出力する。

ここで、αは忘却係数であり、例えば０＜α＜１の範囲に属する実数である。雑音共分散逆行列Ψ^−１ _{ｎ，ｆ，ｔ−１}の初期行列Ψ^−１ _{ｎ，ｆ，０}はどのようなものでもよい。例えば、Ｍ×Ｍ次元の単位行列を雑音共分散逆行列Ψ^−１ _{ｎ，ｆ，ｔ−１}の初期行列Ψ^−１ _{ｎ，ｆ，０}とすることができる。なお、「Ψ^−１ _{ｎ，ｆ，ｔ}」の右上添字の「−１」は本来右下添字の「ｎ，ｆ，ｔ」の真上に記載すべきであるが、記載表記の制約上、「ｎ，ｆ，ｔ」の左上に記載してある。

＜主成分ベクトル更新部５３２ｂの処理（ステップＳ５３２ｂ）＞
主成分ベクトル更新部５３２ｂには、観測信号共分散行列更新部５３２ａで得られた空間共分散行列Ψ_{ｘ，ｆ，ｔ}、および雑音共分散逆行列更新部５３２ｄで得られた雑音共分散逆行列Ψ^−１ _{ｎ，ｆ，ｔ}が入力される。主成分ベクトル更新部５３２ｂは、雑音共分散逆行列Ψ^−１ _{ｎ，ｆ，ｔ}（周波数別観測信号の雑音共分散行列の逆行列）、空間共分散行列Ψ_{ｘ，ｆ，ｔ}（第１時間区間に属する周波数別観測信号の空間共分散行列）、および主成分ベクトルｖ^〜 _{ｆ，ｔ−１}（第２時間区間の主成分ベクトル）に基づき、パワー法によってΨ^−１ _{ｎ，ｆ，ｔ}Ψ_{ｘ，ｆ，ｔ}（周波数別観測信号の雑音共分散行列の逆行列と、第１時間区間に属する周波数別観測信号の空間共分散行列と、の積）に対する主成分ベクトルｖ^〜 _ｆ，ｔ（第１時間区間の主成分ベクトル）を得て出力する。例えば、主成分ベクトル更新部５３２ｂは、Ψ^−１ _{ｎ，ｆ，ｔ}Ψ_{ｘ，ｆ，ｔ}ｖ^〜 _{ｆ，ｔ−１}に基づく主成分ベクトルｖ^〜 _ｆ，ｔを得て出力する。例えば、主成分ベクトル更新部５３２ｂは、以下の式（２３）（２４）に従って主成分ベクトルｖ^〜 _ｆ，ｔを得て出力する。なお、「ｖ^〜 _ｆ，ｔ」の右上添字の「〜」は本来右下添字の「ｖ」の真上に記載すべきであるが、記載表記の制約上、「ｖ」の右上に記載している。

ここでｖ^〜 _ｆ，ｔ ^ｒｅｆは、式（２３）で得られるベクトルｖ^〜’_ｆ，ｔのＭ個の要素のうち、基準とする所定のマイクロホン（参照マイクロホンｒｅｆ）に対応する要素を表す。すなわち、式（２３）（２４）の例では、主成分ベクトル更新部５３２ｂは、ｖ^〜’_ｆ，ｔ＝Ψ^−１ _{ｎ，ｆ，ｔ}Ψ_{ｘ，ｆ，ｔ}ｖ^〜 _{ｆ，ｔ−１}の各要素をｖ^〜 _ｆ，ｔ ^ｒｅｆで正規化したものを主成分ベクトルｖ^〜 _ｆ，ｔとしている。なお、「ｖ^〜’_ｆ，ｔ」の右上添字の「〜」は本来右下添字の「ｖ」の真上に記載すべきであるが、記載表記の制約上、「ｖ」の右上に記載している。

＜雑音共分散行列更新部５３２ｅ（ステップＳ５３２ｅ）＞
雑音共分散行列更新部５３２ｅは、周波数別観測信号ｘ_ｆ，ｔ（第１時間区間に属する周波数別観測信号）、およびマスク情報γ_ｆ，ｔ ^（ｎ）（第１時間区間に属するマスク情報）を入力とし、周波数別観測信号ｘ_ｆ，ｔ、マスク情報γ_ｆ，ｔ ^（ｎ）、および雑音共分散行列Ψ_{ｎ，ｆ，ｔ−１}（第１時間区間よりも過去の第２時間区間に属する周波数別観測信号の雑音共分散行列）に基づく、周波数別観測信号ｘ_ｆ，ｔの雑音共分散行列Ψ_{ｎ，ｆ，ｔ}（第１時間区間に属する周波数別観測信号の雑音共分散行列）を得て出力する。例えば、雑音共分散行列更新部５３２ｅは、周波数別観測信号ｘ_ｆ，ｔの共分散行列ｘ_ｆ，ｔｘ_ｆ，ｔ ^Ｈとマスク情報γ_ｆ，ｔ ^（ｎ）との積γ_ｆ，ｔ ^（ｎ）ｘ_ｆ，ｔｘ_ｆ，ｔ ^Ｈと雑音共分散行列Ψ_{ｎ，ｆ，ｔ−１}（第１時間区間よりも過去の第２時間区間に属する周波数別観測信号の雑音共分散行列）との線形和を、周波数別観測信号ｘ_ｆ，ｔの雑音共分散行列Ψ_{ｎ，ｆ，ｔ}として得て出力する。例えば、雑音共分散行列更新部５３２ｅは、以下の式（２５）に従って雑音共分散行列Ψ_{ｎ，ｆ，ｔ}を得て出力する。

ここでαは忘却係数であり、例えば０＜α＜１の範囲に属する実数である。

＜ステアリングベクトル更新部５３２ｃ（ステップＳ５３２ｃ）＞
ステアリングベクトル更新部５３２ｃは、主成分ベクトル更新部５３２ｂで得られた主成分ベクトルｖ^〜 _ｆ，ｔ（第１時間区間の主成分ベクトル）、および雑音共分散行列更新部５３２ｅで得られた雑音共分散行列Ψ_{ｎ，ｆ，ｔ}（周波数別観測信号の雑音共分散行列）を入力とし、これらに基づき、推定ステアリングベクトルν_ｆ，ｔ（第１時間区間の推定ステアリングベクトル）を得て出力する。例えば、ステアリングベクトル更新部５３２ｃは、Ψ_{ｎ，ｆ，ｔ}ｖ^〜 _ｆ，ｔに基づく推定ステアリングベクトルν_ｆ，ｔを得て出力する。例えば、ステアリングベクトル更新部５３２ｃは、以下の式（２６）（２７）に従って推定ステアリングベクトルν_ｆ，ｔを得て出力する。

ここでｖ_ｆ，ｔ ^ｒｅｆは、式（２６）で得られるベクトルｖ’_ｆ，ｔのＭ個の要素のうち、参照マイクロホンｒｅｆに対応する要素を表す。すなわち、式（２６）（２７）の例では、ステアリングベクトル更新部５３２ｃは、ｖ’_ｆ，ｔ＝Ψ_{ｎ，ｆ，ｔ}ｖ^〜 _ｆ，ｔの各要素をｖ_ｆ，ｔ ^ｒｅｆで正規化したものを推定ステアリングベクトルν_ｆ，ｔとしている。

ステアリングベクトル推定部５３２で得られた推定ステアリングベクトルν_ｆ，ｔは、畳み込みビームフォーマ推定部２１２に入力される。畳み込みビームフォーマ推定部２１２は、この推定ステアリングベクトルν_ｆ，ｔをν_ｆ，０として扱い、推定ステアリングベクトルν_ｆ，ｔとステップＳ２１１で得られた重み付き時空間共分散行列Ｒ_ｆとを用い、第２実施形態で説明したステップＳ２１２の処理を行う。その他は、第１，２実施形態で説明した通りである。また行列推定部２１１に入力されるσ_ｆ，ｔ ^２としては、例えば式（１７）のように生成された暫定パワーが用いられてもよいし、第３実施形態で説明したように生成された推定パワーσ_ｆ，ｔ ^２が用いられてもよい。

［第５実施形態の変形例１］
第５実施形態のステップＳ５３２ｄでは、雑音共分散逆行列更新部５３２ｄが周波数別観測信号ｘ_ｆ，ｔおよびマスク情報γ_ｆ，ｔ ^（ｎ）を用いて、時間フレーム番号ｔに対応する各時点において雑音共分散逆行列Ψ^−１ _{ｎ，ｆ，ｔ}を適応更新した。しかしながら、雑音共分散逆行列更新部５３２ｄが、マスク情報γ_ｆ，ｔ ^（ｎ）を用いることなく、雑音成分のみ存在するか雑音成分が支配的な時間区間の周波数別観測信号ｘ_ｆ，ｔを用いて雑音共分散逆行列Ψ^−１ _{ｎ，ｆ，ｔ}を得て出力してもよい。例えば、雑音共分散逆行列更新部５３２ｄが、雑音成分のみ存在するか雑音成分が支配的な時間区間の周波数別観測信号ｘ_ｆ，ｔに対するｘ_ｆ，ｔｘ_ｆ，ｔ ^Ｈの時間平均の逆行列を雑音共分散逆行列Ψ^−１ _{ｎ，ｆ，ｔ}として出力してもよい。このように得られた雑音共分散逆行列Ψ^−１ _{ｎ，ｆ，ｔ}は、各時間フレーム番号ｔのフレームにおいて継続的に使用される。

第５実施形態のステップＳ５３２ｅで、雑音共分散行列更新部５３２ｅが、マスク情報γ_ｆ，ｔ ^（ｎ）を用いることなく、雑音成分のみ存在するか雑音成分が支配的な時間区間の周波数別観測信号ｘ_ｆ，ｔを用いて周波数別観測信号ｘ_ｆ，ｔの雑音共分散行列Ψ_{ｎ，ｆ，ｔ}を得て出力してもよい。例えば、雑音共分散行列更新部５３２ｅが、雑音成分のみ存在するか雑音成分が支配的な時間区間の周波数別観測信号ｘ_ｆ，ｔに対するｘ_ｆ，ｔｘ_ｆ，ｔ ^Ｈの時間平均を雑音共分散行列Ψ_{ｎ，ｆ，ｔ}として出力してもよい。このように得られた雑音共分散行列Ψ_{ｎ，ｆ，ｔ}は、各時間フレーム番号ｔのフレームにおいて継続的に使用される。

［第５実施形態の変形例２］
第５実施形態およびその変形例では、第１時間区間が時間フレーム番号ｔのフレームであり、第２時間区間が時間フレーム番号ｔ−１のフレームである場合を例にとったが、これは本発明を限定するものではない。時間フレーム番号ｔ以外の時間フレーム番号のフレームを第１時間区間としてもよい。時間フレーム番号ｔ−１以外の第１時間区間よりも過去の時間フレームを第２時間区間としてもよい。

［第６実施形態］
第５実施形態では、ステアリングベクトル推定部５３２が周波数別観測信号ｘ_ｆ，ｔを入力とし、逐次処理で推定ステアリングベクトルν_ｆ，ｔを得て出力する。しかしながら、第４実施形態で説明したように、周波数別観測信号ｘ_ｆ，ｔの残響を抑圧してからステアリングベクトルの推定を行うとその推定精度が向上する。第６実施形態では、周波数別観測信号ｘ_ｆ，ｔの残響を抑圧してから、ステアリングベクトル推定部が第５実施形態で説明したように逐次処理で推定ステアリングベクトルν_ｆ，ｔを得て出力する例を説明する。

図６に例示するように、本実施形態の信号処理装置６は推定部２１と抑圧部１２とパラメータ推定部６３とを有する。図７に例示するように、パラメータ推定部６３は残響抑圧部４３１とステアリングベクトル推定部６３２とを有する。第６実施形態の第５実施形態からの相違点は、推定ステアリングベクトルを生成する前に周波数別観測信号ｘ_ｆ，ｔから残響成分を抑圧する点である。以下では、推定ステアリングベクトルの生成方法のみを説明する。

＜残響抑圧部４３１の処理（ステップＳ４３１）＞
残響抑圧部４３１（図７）は、第４実施形態で説明したように、周波数別観測信号ｘ_ｆ，ｔから残響成分を抑圧した（好ましくは、周波数別観測信号ｘ_ｆ，ｔから残響成分を除去した）周波数別残響抑圧信号ｕ_ｆ，ｔを得て出力する。

＜ステアリングベクトル推定部６３２の処理（ステップＳ６３２）＞
周波数別残響抑圧信号ｕ_ｆ，ｔはステアリングベクトル推定部６３２に入力される。ステアリングベクトル推定部６３２の処理は、周波数別観測信号ｘ_ｆ，ｔに代えて周波数別残響抑圧信号ｕ_ｆ，ｔがステアリングベクトル推定部６３２に入力され、ステアリングベクトル推定部６３２が周波数別観測信号ｘ_ｆ，ｔに代えて周波数別残響抑圧信号ｕ_ｆ，ｔを使用することを除き、第５実施形態のステアリングベクトル推定部５３２の処理と同じである。すなわち、ステアリングベクトル推定部６３２の処理は、ステアリングベクトル推定部５３２の処理における周波数別観測信号ｘ_ｆ，ｔを周波数別残響抑圧信号ｕ_ｆ，ｔに置換したものである。その他は第５実施形態およびその変形例と同じである。つまり、ステアリングベクトル推定部６３２には、周波数別の時系列信号である周波数別残響抑圧信号ｕ_ｆ，ｔが入力される。観測信号共分散行列更新部５３２ａは、第１時間区間に属する周波数別残響抑圧信号ｕ_ｆ，ｔ、および第１時間区間よりも過去の第２時間区間に属する周波数別残響抑圧信号ｕ_{ｆ，ｔ−１}の空間共分散行列Ψ_{ｘ，ｆ，ｔ−１}に基づく、第１時間区間に属する周波数別残響抑圧信号ｕ_ｆ，ｔの空間共分散行列Ψ_{ｘ，ｆ，ｔ}を得て出力する。主成分ベクトル更新部５３２ｂは、周波数別残響抑圧信号ｕ_ｆ，ｔの雑音共分散行列の逆行列Ψ^−１ _{ｎ，ｆ，ｔ}、第１時間区間に属する周波数別残響抑圧信号の空間共分散行列Ψ_{ｘ，ｆ，ｔ}、および第２時間区間の主成分ベクトルｖ^〜 _{ｆ，ｔ−１}に基づき、周波数別残響抑圧信号の雑音共分散行列の逆行列Ψ^−１ _{ｎ，ｆ，ｔ}と、第１時間区間に属する周波数別残響抑圧信号の空間共分散行列Ψ_{ｘ，ｆ，ｔ}と、の積Ψ^−１ _{ｎ，ｆ，ｔ}Ψ_{ｘ，ｆ，ｔ}に対する第１時間区間の主成分ベクトルｖ^〜 _ｆ，ｔを得て出力する。ステアリングベクトル更新部５３２ｃは、周波数別残響抑圧信号ｕ_ｆ，ｔの雑音共分散行列と第１時間区間の主成分ベクトルｖ^〜 _ｆ，ｔとに基づき、第１時間区間の推定ステアリングベクトルν_ｆ，ｔを得て出力する。

［第７実施形態］
第７実施形態では、畳み込みビームフォーマの推定を逐次処理で実行する方法を説明する。これによって、例えば、オンラインで逐次的に入力された周波数別観測信号ｘ_ｆ，ｔから各時間フレーム番号ｔの畳み込みビームフォーマを推定し、目的信号ｙ_ｆ，ｔを得ることができる。

図６に例示するように、本実施形態の信号処理装置７は、推定部７１と抑圧部７２とパラメータ推定部５３とを有する。推定部７１は行列推定部７１１と畳み込みビームフォーマ推定部７１２とを有する。以下の処理は、ｔ＝１から昇順で各時間フレーム番号ｔについて実行される。

＜パラメータ推定部５３の処理（ステップＳ５３）＞
パラメータ推定部５３（図６，図７）には周波数別観測信号ｘ_ｆ，ｔが入力される。パラメータ推定部５３のステアリングベクトル推定部５３２（図８）は、第５実施形態で説明したように、周波数別観測信号ｘ_ｆ，ｔを入力として逐次処理で推定ステアリングベクトルν_ｆ，ｔを得て出力する（ステップＳ５３２）。推定ステアリングベクトルν_ｆ，ｔを以下のＭ次元ベクトルで表記する。

ただし、ν_ｆ，ｔ ^（ｍ）は推定ステアリングベクトルν_ｆ，ｔのＭ個の要素のうち、マイクロホン番号ｍのマイクロホンに対応する要素を表す。ステアリングベクトル推定部５３２で得られた推定ステアリングベクトルν_ｆ，ｔは、畳み込みビームフォーマ推定部７１２に入力される。

＜行列推定部７１１の処理（ステップＳ７１１）＞
行列推定部７１１（図６）には、周波数別観測信号ｘ_ｆ，ｔおよび目的信号のパワーまたは推定パワーσ_ｆ，ｔ ^２が入力される。行列推定部７１１に入力されるσ_ｆ，ｔ ^２としては、例えば式（１７）のように生成された暫定パワーが用いられてもよいし、第３実施形態で説明したように生成された推定パワーσ_ｆ，ｔ ^２が用いられてもよい。行列推定部７１１は、周波数別観測信号ｘ_ｆ，ｔ（第１時間区間に属する周波数別観測信号）、および目的信号のパワーまたは推定パワーσ_ｆ，ｔ ^２（第１時間区間に属する周波数別観測信号のパワーまたは推定パワー）、ならびに時空間共分散行列の逆行列

（第１時間区間よりも過去の第２時間区間の時空間共分散行列の逆行列）に基づき、時空間共分散行列の逆行列

（第１時間区間の時空間共分散行列の逆行列）を推定して出力する。時空間共分散行列の例は

である。この場合、行列推定部７１１は、例えば、以下の式（２８）（２９）に従って時空間共分散行列の逆行列

を生成して出力する。

ここで、式（２８）のｋ_ｆ，ｔは（Ｌ＋１）Ｍ次元ベクトルであり、式（２９）の逆行列は（Ｌ＋１）Ｍ×（Ｌ＋１）Ｍの行列である。αは忘却係数であり、例えば０＜α＜１の範囲に属する実数である。また時空間共分散行列の逆行列

の初期行列はどのようなものでもよく、この初期行列の例は（Ｌ＋１）Ｍ次元の単位行列

である。

＜ビームフォーマ推定部７１２の処理（ステップＳ７１２）＞
行列推定部７１１で得られた

（第１時間区間の時空間共分散行列の逆行列）、およびパラメータ推定部５３で得られた推定ステアリングベクトルν_ｆ，ｔは、ビームフォーマ推定部７１２に入力される。畳み込みビームフォーマ推定部７１２は、これらに基づき、畳み込みビームフォーマｗ⁻ _ｆ，ｔ（第１時間区間の畳み込みビームフォーマ）を得て出力する。例えば、畳み込みビームフォーマ推定部７１２は、以下の式（３０）に従って畳み込みビームフォーマｗ⁻ _ｆ，ｔを得て出力する。

ただし、

である。

はＬ＋１次元ベクトルである。ｇ_ｆは０以外のスカラー定数である。

＜抑圧部７２の処理（ステップＳ７２）＞
抑圧部７２には、周波数別観測信号ｘ_ｆ，ｔ、およびビームフォーマ推定部７１２で得られた畳み込みビームフォーマｗ⁻ _ｆ，ｔが入力される。抑圧部７２は、各時間フレーム番号ｔおよび周波数帯域番号ｆにおいて、畳み込みビームフォーマｗ⁻ _ｆ，ｔを周波数別観測信号ｘ_ｆ，ｔに適用して目的信号ｙ_ｆ，ｔを得て出力する。例えば、抑圧部７２は、以下の式（３１）に従って目的信号ｙ_ｆ，ｔを得て出力する。

［第７実施形態の変形例１］
第７実施形態の信号処理装置７のパラメータ推定部５３がパラメータ推定部６３に置換されてもよい。すなわち、第７実施形態において、パラメータ推定部５３に代えてパラメータ推定部６３が周波数別観測信号ｘ_ｆ，ｔを入力とし、第６実施形態で説明したように逐次処理で推定ステアリングベクトルν_ｆ，ｔを得て出力してもよい。

［第７実施形態の変形例２］
第７実施形態およびその変形例では、第１時間区間が時間フレーム番号ｔのフレームであり、第２時間区間が時間フレーム番号ｔ−１のフレームである場合を例にとったが、これは本発明を限定するものではない。時間フレーム番号ｔ以外の時間フレーム番号のフレームを第１時間区間としてもよい。時間フレーム番号ｔ−１以外の第１時間区間よりも過去の時間フレームを第２時間区間としてもよい。

［第８実施形態］
第２実施形態では、ｗ_ｆ，０ ^Ｈν_ｆ，０が定数となるとの拘束条件のもと、コスト関数Ｃ_３（ｗ⁻ _ｆ）を最小化するｗ⁻ _ｆの解析解を式（１５）とみなし、式（１５）に従って畳み込みビームフォーマｗ⁻ _ｆを得る例を説明した。第８実施形態では別の最適解を用い、畳み込みビームフォーマを得る例を示す。

推定ステアリングベクトルν_ｆ，０の直交補空間に対応する（Ｍ−１）×Ｍのブロック行列をＢ_ｆとするとＢ_ｆ ^Ｈν_ｆ，０＝０を満たす。このようなブロック行列Ｂ_ｆは無数に存在する。以下の式（３２）にブロック行列Ｂ_ｆの一例を示す。

ここでν⁻ _ｆ，０は、ステアリングベクトルν_ｆ，０または推定ステアリングベクトルν_ｆ，０の参照マイクロホンｒｅｆ以外のマイクロホンに対応する要素からなるＭ−１次元列ベクトル、ｖ_ｆ，０ ^ｒｅｆはν_ｆ，０の参照マイクロホンｒｅｆに対応する要素、Ｉ_Ｍ−１は（Ｍ−１）×（Ｍ−１）次元の単位行列である。

ｇ_ｆを０以外のスカラー定数とし、ａ_ｆ，０をＭ次元の変形瞬時ビームフォーマとし、瞬時ビームフォーマｗ_ｆ，０を、ステアリングベクトルν_ｆ，０の定数倍ｇ_ｆν_ｆ，０または推定ステアリングベクトルν_ｆ，０の定数倍ｇ_ｆν_ｆ，０と、ステアリングベクトルν_ｆ，０または推定ステアリングベクトルν_ｆ，０の直交補空間に対応するブロック行列Ｂ_ｆと変形瞬時ビームフォーマａ_ｆ，０との積Ｂ_ｆａ_ｆ，０と、の和で表記する。すなわち、
ｗ_ｆ，０＝ｇ_ｆν_ｆ，０＋Ｂ_ｆａ_ｆ，０（３３）
と表記する。すると、Ｂ_ｆ ^Ｈν_ｆ，０＝０であるため、「ｗ_ｆ，０ ^Ｈν_ｆ，０が定数となる」との拘束条件は、以下のように表記される。
ｗ_ｆ，０ ^Ｈν_ｆ，０＝（ｇ_ｆν_ｆ，０＋Ｂ_ｆａ_ｆ，０）^Ｈν_ｆ，０＝ｇ_ｆ ^Ｈ｜ν_ｆ，０｜^２＝定数
このように、式（３３）のように定義しても、任意の変形瞬時ビームフォーマａ_ｆ，０に対して「ｗ_ｆ，０ ^Ｈν_ｆ，０が定数となる」という拘束条件を満たしている。そのため、瞬時ビームフォーマｗ_ｆ，０を式（３３）のように定義してもよいことが分かる。本実施形態では瞬時ビームフォーマｗ_ｆ，０を式（３３）のように定義した際の畳み込みビームフォーマの最適解を採用し、畳み込みビームフォーマの推定を行う。以下に詳細に説明する。

図９に例示するように、本実施形態の信号処理装置８は、推定部８１と抑圧部８２とパラメータ推定部８３とを有する。推定部８１は、行列推定部８１１、畳み込みビームフォーマ推定部８１２、初期ビームフォーマ適用部８１３、およびブロック部８１４を有する。

＜パラメータ推定部８３の処理（ステップＳ８３）＞
パラメータ推定部８３（図９）は、周波数別観測信号ｘ_ｆ，ｔを入力とし、前述したパラメータ推定部３３，４３，５３，６３の何れかと同じ方法で推定ステアリングベクトルを得、得られた推定ステアリングベクトルをν_ｆ，０として出力する。出力された推定ステアリングベクトルν_ｆ，０は、初期ビームフォーマ適用部８１３およびブロック部８１４に送られる。

＜初期ビームフォーマ適用部８１３の処理（ステップＳ８１３）＞
初期ビームフォーマ適用部８１３には、推定ステアリングベクトルν_ｆ，０および周波数別観測信号ｘ_ｆ，ｔが入力される。初期ビームフォーマ適用部８１３は、推定ステアリングベクトルν_ｆ，０および周波数別観測信号ｘ_ｆ，ｔ（第１時間区間に属する周波数別観測信号）に基づく、初期ビームフォーマ出力ｚ_ｆ，ｔ（第１時間区間の初期ビームフォーマ出力）を得て出力する。例えば、初期ビームフォーマ適用部８１３は、推定ステアリングベクトルν_ｆ，０の定数倍と周波数別観測信号ｘ_ｆ，ｔとに基づく、初期ビームフォーマ出力ｚ_ｆ，ｔを得て出力する。例えば、初期ビームフォーマ適用部８１３は、以下の式（３４）に従って初期ビームフォーマ出力ｚ_ｆ，ｔを得て出力する。
ｚ_ｆ，ｔ＝（ｇ_ｆν_ｆ，０）^Ｈｘ_ｆ，ｔ（３４）
出力された初期ビームフォーマ出力ｚ_ｆ，ｔは、畳み込みビームフォーマ推定部８１２および抑圧部８２に送られる。

＜ブロック部８１４の処理（ステップＳ８１４）＞
ブロック部８１４には、推定ステアリングベクトルν_ｆ，０および周波数別観測信号ｘ_ｆ，ｔが入力される。ブロック部８１４は、周波数別観測信号ｘ_ｆ，ｔと推定ステアリングベクトルν_ｆ，０の直交補空間に対応するブロック行列Ｂ_ｆとに基づく、ベクトルｘ^＝ _ｆ，ｔを得て出力する。前述のようにＢ_ｆ ^Ｈν_ｆ，０＝０を満たす。ブロック行列Ｂ_ｆの一例は前述の式（３２）に示した通りであるがこれは本発明を限定するものではなく、Ｂ_ｆ ^Ｈν_ｆ，０＝０を満たすブロック行列Ｂ_ｆであればどのようなものであってもよい。例えば、ブロック部８１４は、以下の式（３５）（３６）に従ってベクトルｘ^＝ _ｆ，ｔを得て出力する。

なお、式（３６）に例示するように、「ｘ^＝ _ｆ，ｔ」の右上添字の「＝」は本来右下添字の「ｘ」の真上に記載すべきであるが、記載表記の制約上、「ｘ」の右上に記載する場合がある。出力されたベクトルｘ^＝ _ｆ，ｔは、行列推定部８１１、畳み込みビームフォーマ推定部８１２、および抑圧部８２に送られる。また、Ｌ＝０の場合、式（３５）の右辺は要素数が０のベクトル（空ベクトル）であり、式（３６）は以下の式（３６Ａ）のようになる。

＜行列推定部８１１の処理（ステップＳ８１１）＞
行列推定部８１１には、ブロック部８１４で得られたベクトルｘ^＝ _ｆ，ｔ、および目的信号のパワーまたは推定パワーσ_ｆ，ｔ ^２が入力される。σ_ｆ，ｔ ^２は、例えば、式（１７）のように生成された暫定パワーであってもよいし、第３実施形態で説明したように生成された推定パワーσ_ｆ，ｔ ^２であってもよい。行列推定部８１１は、ベクトルｘ^＝ _ｆ，ｔおよび目的信号のパワーまたは推定パワーσ_ｆ，ｔ ^２を用い、式（３３）のように瞬時ビームフォーマｗ_ｆ，０を表記したときに、推定信号の音声らしさを表す確率を大きくする、推定ステアリングベクトルν_ｆ，０、周波数別観測信号ｘ_ｆ，ｔ、および目的信号のパワーまたは推定パワーσ_ｆ，ｔ ^２に基づく、重み付き変形時空間共分散行列Ｒ^＝ _ｆを得て出力する。例えば、行列推定部８１１は、ベクトルｘ^＝ _ｆ，ｔ、および目的信号のパワーまたは推定パワーσ_ｆ，ｔ ^２に基づく、重み付き変形時空間共分散行列Ｒ^＝ _ｆを得て出力する。例えば、行列推定部８１１は、以下の式（３７）に従って重み付き変形時空間共分散行列Ｒ^＝ _ｆを得て出力する。

出力された重み付き変形時空間共分散行列Ｒ^＝ _ｆは畳み込みビームフォーマ推定部８１２に送られる。

＜畳み込みビームフォーマ推定部８１２の処理（ステップＳ８１２）＞
畳み込みビームフォーマ推定部８１２には、初期ビームフォーマ適用部８１３で得られた初期ビームフォーマ出力ｚ_ｆ，ｔ、ブロック部８１４で得られたベクトルｘ^＝ _ｆ，ｔ、および行列推定部８１１で得られた重み付き変形時空間共分散行列Ｒ^＝ _ｆが入力される。畳み込みビームフォーマ推定部８１２は、これらを用い、推定ステアリングベクトルν_ｆ，０、重み付き変形時空間共分散行列Ｒ^＝ _ｆ、および周波数別観測信号ｘ_ｆ，ｔに基づく、畳み込みビームフォーマｗ^＝ _ｆを得て出力する。例えば、畳み込みビームフォーマ推定部８１２は、以下の式（３８）に従って畳み込みビームフォーマｗ^＝ _ｆを得て出力する。

出力された畳み込みビームフォーマｗ^＝ _ｆは抑圧部８２に送られる。
なお、Ｌ＝０の場合、式（３８Ｂ）の右辺は要素数が０のベクトル（空ベクトル）となり、式（３８Ａ）は、以下のようになる。

＜抑圧部８２の処理（ステップＳ８２）＞
抑圧部８２には、ブロック部８１４から出力されたベクトルｘ^＝ _ｆ，ｔ、初期ビームフォーマ適用部８１３から出力された初期ビームフォーマ出力ｚ_ｆ，ｔ、および畳み込みビームフォーマ推定部８１２から出力された畳み込みビームフォーマｗ^＝ _ｆが入力される。抑圧部８２は、初期ビームフォーマ出力ｚ_ｆ，ｔおよび畳み込みビームフォーマｗ^＝ _ｆをベクトルｘ^＝ _ｆ，ｔに適用して目的信号ｙ_ｆ，ｔを得て出力する。この処理は、畳み込みビームフォーマｗ⁻ _ｆを周波数別観測信号ｘ_ｆ，ｔに適用して目的信号ｙ_ｆ，ｔを得て出力する処理と等価である。例えば、抑圧部８２は、以下の式（３９）に従って目的信号ｙ_ｆ，ｔを得て出力する。

［第８実施形態の変形例１］
パラメータ推定部８３で得られた推定ステアリングベクトルν_ｆ，０に代え、実測等に基づいて得られた既知のステアリングベクトルν_ｆ，０が初期ビームフォーマ適用部８１３およびブロック部８１４に入力されてもよい。この場合、初期ビームフォーマ適用部８１３およびブロック部８１４は推定ステアリングベクトルν_ｆ，０に代えてステアリングベクトルν_ｆ，０を用いて上述のステップＳ８１３およびＳ８１４を行う。

［第９実施形態］
第９実施形態では、第８実施形態に基づく畳み込みビームフォーマの推定を逐次処理で実行する方法を説明する。以下の処理は、ｔ＝１から昇順で各時間フレーム番号ｔについて実行される。

図１０に例示するように、本実施形態の信号処理装置９は、推定部９１と抑圧部９２とパラメータ推定部９３とを有する。推定部９１は、適応ゲイン推定部９１１、畳み込みビームフォーマ推定部９１２、行列推定部９１５、初期ビームフォーマ適用部８１３、およびブロック部８１４を有する。

＜パラメータ推定部９３の処理（ステップＳ９３）＞
パラメータ推定部９３（図１０）は、周波数別観測信号ｘ_ｆ，ｔを入力とし、前述したパラメータ推定部５３，６３の何れかと同じ方法で推定ステアリングベクトルν_ｆ，ｔを得て出力する。出力された推定ステアリングベクトルν_ｆ，ｔは、初期ビームフォーマ適用部８１３およびブロック部８１４に送られる。

＜初期ビームフォーマ適用部８１３の処理（ステップＳ８１３）＞
初期ビームフォーマ適用部８１３は、推定ステアリングベクトルν_ｆ，ｔ（第１時間区間の推定ステアリングベクトル）および周波数別観測信号ｘ_ｆ，ｔ（第１時間区間に属する周波数別観測信号）を入力とし、ν_ｆ，０に代えてν_ｆ，ｔを用い、第８実施形態で説明したように初期ビームフォーマ出力ｚ_ｆ，ｔ（第１時間区間の初期ビームフォーマ出力）を得て出力する。出力された初期ビームフォーマ出力ｚ_ｆ，ｔは抑圧部９２に送られる。

＜ブロック部８１４の処理（ステップＳ８１４）＞
ブロック部８１４は、推定ステアリングベクトルν_ｆ，ｔおよび周波数別観測信号ｘ_ｆ，ｔを入力とし、ν_ｆ，０に代えてν_ｆ，ｔを用い、第８実施形態で説明したようにベクトルｘ^＝ _ｆ，ｔを得て出力する。出力されたベクトルｘ^＝ _ｆ，ｔは、適応ゲイン推定部９１１、行列推定部９１５、および抑圧部９２に送られる。

＜抑圧部９２の処理（ステップＳ９２）＞
抑圧部９２には、初期ビームフォーマ適用部８１３から出力された初期ビームフォーマ出力ｚ_ｆ，ｔ、およびブロック部８１４から出力されたベクトルｘ^＝ _ｆ，ｔが入力される。抑圧部９２は、これらを用い、初期ビームフォーマ出力ｚ_ｆ，ｔ（第１時間区間の初期ビームフォーマ出力）、推定ステアリングベクトルν_ｆ，ｔ（第１時間区間の推定ステアリングベクトル）、および周波数別観測信号ｘ_ｆ，ｔ、ならびに畳み込みビームフォーマｗ^＝ _{ｆ，ｔ−１}（第１時間区間よりも過去の第２時間区間の畳み込みビームフォーマ）に基づく、目的信号ｙ_ｆ，ｔを得て出力する。例えば、抑圧部９２は、以下の式（４０）に従って目的信号ｙ_ｆ，ｔを得て出力する。

ここで畳み込みビームフォーマｗ^＝ _{ｆ，ｔ−１}の初期ベクトルｗ^＝ _ｆ，０はどのような（ＬＭ＋Ｍ−１）次元ベクトルであってもよい。初期ベクトルｗ^＝ _ｆ，０の一例は、全ての要素が０の（ＬＭ＋Ｍ−１）次元ベクトルである。

＜適応ゲイン推定部９１１の処理（ステップＳ９１１）＞
適応ゲイン推定部９１１には、ブロック部８１４から出力されたベクトルｘ^＝ _ｆ，ｔ、行列推定部９１５から出力された重み付き変形時空間共分散行列の逆行列Ｒ^〜−１ _{ｆ，ｔ−１}、および目的信号のパワーまたは推定パワーσ_ｆ，ｔ ^２が入力される。行列推定部７１１に入力されるσ_ｆ，ｔ ^２としては、例えば式（１７）のように生成された暫定パワーが用いられてもよいし、第３実施形態で説明したように生成された推定パワーσ_ｆ，ｔ ^２が用いられてもよい。なお、「Ｒ^〜−１ _{ｆ，ｔ−１}」の「〜」は本来以下のように「Ｒ」の真上に表記すべきであるが、記載表記の制約上「Ｒ」の右上に表記する場合がある。適応ゲイン推定部９１１は、これらを用い、重み付き変形時空間共分散行列の逆行列Ｒ^〜−１ _{ｆ，ｔ−１}（第２時間区間の重み付き変形時空間共分散行列の逆行列）、ならびに推定ステアリングベクトルν_ｆ，ｔ（第１時間区間の推定ステアリングベクトル）、および周波数別観測信号ｘ_ｆ，ｔ、および目的信号のパワーまたは推定パワーσ_ｆ，ｔ ^２に基づく、適応ゲインｋ_ｆ，ｔ（第１時間区間の適応ゲイン）を得て出力する。例えば、適応ゲイン推定部９１１は、以下の式（４１）に従って（ＬＭ＋Ｍ−１）次元ベクトルである適応ゲインｋ_ｆ，ｔを得て出力する。

ここでαは忘却係数であり、例えば０＜α＜１の範囲に属する実数である。また、重み付き変形時空間共分散行列の逆行列Ｒ^〜−１ _{ｆ，ｔ−１}の初期行列はどのような（ＬＭ＋Ｍ−１）×（ＬＭ＋Ｍ−１）次元行列であってもよい。重み付き変形時空間共分散行列の逆行列Ｒ^〜−１ _{ｆ，ｔ−１}の初期行列の例は、（ＬＭ＋Ｍ−１）次元の単位行列である。ただし

である。なお、Ｒ^〜 _ｆ，ｔ自体は算出されない。出力された適応ゲインｋ_ｆ，ｔは、行列推定部９１５および畳み込みビームフォーマ推定部９１２に送られる。

＜行列推定部９１５の処理（ステップＳ９１５）＞
行列推定部９１５には、ブロック部８１４から出力されたベクトルｘ^＝ _ｆ，ｔ、および適応ゲイン推定部９１１から出力された適応ゲインｋ_ｆ，ｔが入力される。行列推定部９１５は、これらを用い、適応ゲインｋ_ｆ，ｔ（第１時間区間の適応ゲイン）、推定ステアリングベクトルν_ｆ，ｔ（第１時間区間の推定ステアリングベクトル）、および周波数別観測信号ｘ_ｆ，ｔ、ならびに重み付き変形時空間共分散行列の逆行列Ｒ^〜−１ _{ｆ，ｔ−１}（第２時間区間の重み付き変形時空間共分散行列の逆行列）に基づく、重み付き変形時空間共分散行列の逆行列Ｒ^〜−１ _ｆ，ｔ（第１時間区間の重み付き変形時空間共分散行列の逆行列）を得て出力する。例えば、行列推定部９１５は、以下の式（４２）に従って重み付き変形時空間共分散行列の逆行列Ｒ^〜−１ _ｆ，ｔを得て出力する。

出力された重み付き変形時空間共分散行列の逆行列Ｒ^〜−１ _ｆ，ｔは適応ゲイン推定部９１１に送られる。

＜畳み込みビームフォーマ推定部９１２の処理（ステップＳ９１２）＞
畳み込みビームフォーマ推定部９１２には、抑圧部９２から出力された目的信号ｙ_ｆ，ｔ、および適応ゲイン推定部９１１から出力された適応ゲインｋ_ｆ，ｔが入力される。畳み込みビームフォーマ推定部９１２は、これらを用い、適応ゲインｋ_ｆ，ｔ（第１時間区間の適応ゲイン）、目的信号ｙ_ｆ，ｔ（第１時間区間の目的信号）、および畳み込みビームフォーマｗ^＝ _{ｆ，ｔ−１}（第２時間区間の畳み込みビームフォーマ）に基づく、畳み込みビームフォーマｗ^＝ _ｆ，ｔ（第１時間区間の畳み込みビームフォーマ）を得て出力する。例えば、畳み込みビームフォーマ推定部９１２は、以下の式（４３）に従って畳み込みビームフォーマｗ^＝ _ｆ，ｔを得て出力する。

出力された畳み込みビームフォーマｗ^＝ _ｆ，ｔは抑圧部９２に送られる。

［第９実施形態の変形例１］
第９実施形態およびその変形例では、第１時間区間が時間フレーム番号ｔのフレームであり、第２時間区間が時間フレーム番号ｔ−１のフレームである場合を例にとったが、これは本発明を限定するものではない。時間フレーム番号ｔ以外の時間フレーム番号のフレームを第１時間区間としてもよい。時間フレーム番号ｔ−１以外の第１時間区間よりも過去の時間フレームを第２時間区間としてもよい。

［第９実施形態の変形例２］
パラメータ推定部９３で得られた推定ステアリングベクトルν_ｆ，ｔに代え、既知のステアリングベクトルν_ｆ，ｔが初期ビームフォーマ適用部８１３およびブロック部８１４に入力されてもよい。この場合、初期ビームフォーマ適用部８１３およびブロック部８１４は推定ステアリングベクトルν_ｆ，ｔに代えてステアリングベクトルν_ｆ，ｔを用いて上述のステップＳ８１３およびＳ８１４を行う。

［第１０実施形態］
上述した信号処理装置１−９に入力される周波数別観測信号ｘ_ｆ，ｔは、音源から発せられた音響信号を集音して得られた観測信号の複数の周波数帯域のそれぞれに対応する信号であればどのようなものであってもよい。例えば、図１１Ａおよび図１１Ｃに例示するように、音源から発せられた音響信号をＭ個のマイクロホンで集音して得られた時間領域の観測信号ｘ（ｉ）＝［ｘ（ｉ）^（１），ｘ（ｉ）^（２），…，ｘ（ｉ）^（Ｍ）］^Ｔ（ただしｉは離散時間を表すインデックス）が分離部５１に入力され、分離部５１が観測信号ｘ（ｉ）を周波数領域の周波数別観測信号ｘ_ｆ，ｔに変換し、周波数別観測信号ｘ_ｆ，ｔを信号処理装置１−９に入力してもよい。時間領域から周波数領域への変換方法にも限定はなく、例えば離散フーリエ変換などを用いればよい。あるいは、図１１Ｂに例示するように、図示していない他の処理部によって得られた周波数別観測信号ｘ_ｆ，ｔが信号処理装置１−９に入力されてもよい。例えば、上述の時間領域の観測信号ｘ（ｉ）が時間フレームごとに周波数領域の信号に変換され、これらの周波数領域の信号が他の処理部で処理され、それによって得られた周波数別観測信号ｘ_ｆ，ｔが信号処理装置１−９に入力されてもよい。

信号処理装置１−９から出力された目的信号ｙ_ｆ，ｔは、時間領域の信号ｙ（ｉ）に変換されることなく他の処理（音声認識処理等）に使用されてもよいし、時間領域の信号ｙ（ｉ）に変換されてもよい。例えば、図１１Ｃに例示するように、信号処理装置１−９から出力された目的信号ｙ_ｆ，ｔがそのまま出力され、他の処理に使用されてもよい。あるいは、図１１Ａおよび図１１Ｂのように、信号処理装置１−９から出力された目的信号ｙ_ｆ，ｔが統合部５２に入力され、統合部５２が目的信号ｙ_ｆ，ｔを統合して時間領域の信号ｙ（ｉ）を得て出力してもよい。目的信号ｙ_ｆ，ｔから時間領域の信号ｙ（ｉ）を得る方法にも限定はないが、例えば、逆フーリエ変換などを用いることができる。

以降、各実施形態の手法の実験結果を示す。
［実験結果１（第１実施形態）］
次に、第1実施形態および従来法１〜３による雑音残響抑圧結果を例示する。
この実験では観測信号として「REVERB Challenge」のデータセットを利用した。このデータセットは、定常雑音と残響のある部屋で読み上げられた英語音声を、その話者から離れた位置（０．５〜２．５ｍ）に配置されたマイクロホンで収音して得られた音響データ（Real Data）と、その環境を模擬して得られた音響データ（Sim Data）とを収録している。マイクロホン数Ｍ＝８とした。周波数別観測信号は、短時間フーリエ変換により求めた。フレーム長は32ミリ秒、フレームシフトは４とし、予測遅延はｄ＝４とした。これらのデータを用い、本発明および従来法１〜３によって雑音残響抑圧した信号の音声品質および音声認識精度を評価した。

図１２に、観測信号ならびに本発明および従来法１〜３によって雑音残響抑圧した信号の音声品質の評価結果を例示する。「Ｓｉｍ」はＳｉｍＤａｔａを表し、「Ｒｅａｌ」はＲｅａｌＤａｔａを表す。「ＣＤ」はケプストラム歪、「ＳＲＭＲ」は信号対残響変調エネルギー比、「ＬＬＲ」は対数尤度比、「ＦＷＳＳＮＲ」は周波数重み付きセグメンタル信号対雑音比を表す。ＣＤとＬＬＲは値が小さいほど音声品質がよいことを表し、ＳＲＭＲとＦＷＳＳＮＲは値が大きいほど音声品質がよいことを表している。下線を付した値は最良値である。図１２に例示するように、本発明により、従来法１〜３に比べて雑音と残響とを十分に抑圧できていることが分かる。

図１３に、観測信号ならびに本発明および従来法１〜３によって雑音残響抑圧した信号の音声認識結果における単語誤り率を例示する。値が小さいほど音声認識精度が高いことを表している。下線を付した値は最良値である。「Ｒ１Ｎ」は部屋１で話者がマイクロホンから近い位置に存在した場合を表し、「Ｒ１Ｆ」は部屋１で話者がマイクロホンから遠い位置に存在した場合を表す。同様に、「Ｒ２Ｎ」「Ｒ３Ｎ」はそれぞれ部屋２，３で話者がマイクロホンから近い位置に存在した場合を表し、「Ｒ２Ｆ」「Ｒ３Ｆ」はそれぞれ部屋２，３で話者がマイクロホンから遠い位置に存在した場合を表す。「Ａｖｅ」は平均値を表す。図１２に例示するように、本発明により、従来法１〜３に比べて雑音と残響とを十分に抑圧できていることが分かる。

［実験結果２（第４実施形態）］
図１４に、周波数別観測信号ｘ_ｆ，ｔの残響を抑圧することなくステアリングベクトルを推定した場合（残響抑圧なしの場合）と、第４実施形態で説明したように周波数別観測信号ｘ_ｆ，ｔの残響を抑圧してからステアリングベクトルを推定した場合（残響抑圧ありの場合）とでの雑音残響抑圧結果を例示する。なお「ＷＥＲ」は、雑音残響抑圧を行って得られた目的信号で音声認識を行った場合の文字誤り率を表す。ＷＥＲの値が小さいほど高性能である。図１４に例示するように、残響抑圧ありの場合の方が残響抑圧なしの場合よりも目的信号の音声品質がよいことが分かる。

［実験結果３（第７，９実施形態）］
図１５Ａ，図１５Ｂ，図１５Ｃに、第７実施形態および第９実施形態で説明したように畳み込みビームフォーマの推定を逐次処理で実行した場合の雑音残響抑圧結果を例示する。図１５Ａ，図１５Ｂ，図１５ＣではＬ＝６４［ｍｓｅｃ」、α＝０．９９９９、β＝０．６６とした。また「ＡｄａｐｔｉｖｅＮＣＭ」は第５実施形態の方法で生成された推定ステアリングベクトルν_ｆ，ｔを用いた場合の結果を表す。また「ＰｒｅＦｉｘｅｄＮＣＭ」は第５実施形態の変形例１の方法で生成された推定ステアリングベクトルν_ｆ，ｔを用いた場合の結果を表す。また「観測信号」とは何ら雑音残響抑圧を行っていない場合の結果を表す。これらより、第７，９実施形態の雑音残響抑圧によって目的信号の音声品質が向上していることが分かる。

［その他の変形例等］
なお、本発明は上述の実施形態に限定されるものではない。例えば、上述の実施形態ではすべての周波数帯域に対してｄを同一値としたが、周波数帯域ごとにｄが設定されてもよい。すなわちｄに変えて正整数ｄ_ｆが用いられてもよい。同様に、上述の実施形態ではすべての周波数帯域に対してＬを同一値としたが、周波数帯域ごとにＬが設定されてもよい。すなわちＬに変えて正整数Ｌ_ｆが用いられてもよい。

上述の第１〜３実施形態では、１≦ｔ≦Ｎに対応する時間フレームを処理単位としてコスト関数等（式（２）（７）（１２）（１３）（１４）（１８））を定めてバッチ処理する例を示したが、本発明はこれに限定されない。例えば、１≦ｔ≦Ｎに対応する時間フレームを処理単位とするのではなく、その一部の時間フレームを処理単位として各処理が実行されてもよい。あるいは、リアルタイムで処理単位となる時間フレームを更新し、各時刻の処理単位ごとにコスト関数等を定めて各処理を実行してもよい。例えば、現在の時間フレームの番号をｔ_ｃと表現する場合、１≦ｔ≦ｔ_ｃに対応する時間フレームを処理単位としてもよいし、正整数の定数ηに対してｔ_ｃ−η≦ｔ≦ｔ_ｃに対応する時間フレームを処理単位としてもよい。

上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

上記の各装置は、例えば、ＣＰＵ（central processing unit）等のプロセッサ（ハードウェア・プロセッサ）およびＲＡＭ（random-access memory）・ＲＯＭ（read-only memory）等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される。このコンピュータは１個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めＲＯＭ等に記録されていてもよい。また、ＣＰＵのようにプログラムが読み込まれることで機能構成を実現する電子回路（circuitry）ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。１個の装置を構成する電子回路が複数のＣＰＵを含んでいてもよい。

上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。

コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されるのではなく、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。

本発明は、音響信号から雑音と残響とを抑圧することが必要な様々な用途に利用できる。例えば、音声認識、通話システム、電話会議システム等に本発明を利用できる。

１〜９信号処理装置
１１，２１，７１，８１，９１推定部
１２，２２抑圧部

［第１０実施形態］
上述した信号処理装置１−９に入力される周波数別観測信号ｘ_ｆ，ｔは、音源から発せられた音響信号を集音して得られた観測信号の複数の周波数帯域のそれぞれに対応する信号であればどのようなものであってもよい。例えば、図１１Ａおよび図１１Ｃに例示するように、音源から発せられた音響信号をＭ個のマイクロホンで集音して得られた時間領域の観測信号ｘ（ｉ）＝［ｘ（ｉ）^（１），ｘ（ｉ）^（２），…，ｘ（ｉ）^（Ｍ）］^Ｔ（ただしｉは離散時間を表すインデックス）が分離部１０５１に入力され、分離部１０５１が観測信号ｘ（ｉ）を周波数領域の周波数別観測信号ｘ_ｆ，ｔに変換し、周波数別観測信号ｘ_ｆ，ｔを信号処理装置１−９に入力してもよい。時間領域から周波数領域への変換方法にも限定はなく、例えば離散フーリエ変換などを用いればよい。あるいは、図１１Ｂに例示するように、図示していない他の処理部によって得られた周波数別観測信号ｘ_ｆ，ｔが信号処理装置１−９に入力されてもよい。例えば、上述の時間領域の観測信号ｘ（ｉ）が時間フレームごとに周波数領域の信号に変換され、これらの周波数領域の信号が他の処理部で処理され、それによって得られた周波数別観測信号ｘ_ｆ，ｔが信号処理装置１−９に入力されてもよい。

信号処理装置１−９から出力された目的信号ｙ_ｆ，ｔは、時間領域の信号ｙ（ｉ）に変換されることなく他の処理（音声認識処理等）に使用されてもよいし、時間領域の信号ｙ（ｉ）に変換されてもよい。例えば、図１１Ｃに例示するように、信号処理装置１−９から出力された目的信号ｙ_ｆ，ｔがそのまま出力され、他の処理に使用されてもよい。あるいは、図１１Ａおよび図１１Ｂのように、信号処理装置１−９から出力された目的信号ｙ_ｆ，ｔが統合部１０５２に入力され、統合部１０５２が目的信号ｙ_ｆ，ｔを統合して時間領域の信号ｙ（ｉ）を得て出力してもよい。目的信号ｙ_ｆ，ｔから時間領域の信号ｙ（ｉ）を得る方法にも限定はないが、例えば、逆フーリエ変換などを用いることができる。

Claims

目的の音源から発せられた音響信号を集音して得られた観測信号の複数の周波数帯域のそれぞれに対応する周波数別観測信号に、各時刻において現在の信号と所定の遅延を持つ長さ０以上の過去の信号列との重み付き和を計算する畳み込みビームフォーマを適用して得られる推定信号が、所定の確率モデルに基づく前記推定信号の音声らしさを表す確率を大きくするように、前記畳み込みビームフォーマを得る推定部と、
前記推定部で得られた前記畳み込みビームフォーマを前記周波数別観測信号に適用して目的信号を得る抑圧部と、
を有する信号処理装置。
請求項１の信号処理装置であって、
前記推定部は、前記確率モデルに基づく前記推定信号の音声らしさを表す確率を最大化する前記畳み込みビームフォーマを得る、信号処理装置。
請求項１または２の信号処理装置であって、
前記推定部は、前記目的信号を、前記目的の音源から発せられてマイクロホンで集音される音に対応する信号のうち直接音と初期反射音に対応する信号として、前記周波数別観測信号に前記畳み込みビームフォーマを適用した結果前記目的信号が歪まないという拘束条件のもとで、所定の時間区間に属する各時刻での前記推定信号のパワーを、前記目的信号のパワーの逆数または前記目的信号の推定パワーの逆数で重み付けして得られる値の総和を最小化する前記畳み込みビームフォーマを得る、信号処理装置。
請求項３の信号処理装置であって、
前記畳み込みビームフォーマは、前記周波数別観測信号から残響を抑圧する残響抑圧フィルタと、前記周波数別観測信号に前記残響抑圧フィルタを適用して得られる信号から雑音を抑圧する瞬時ビームフォーマとを合成して得られるビームフォーマと等価であり、
前記瞬時ビームフォーマは、各時刻において、現在の時刻の信号の重み付き和を計算するものであり、
前記拘束条件は、前記音源から前記音響信号の集音位置までの直接音および初期反射音に関する伝達関数を要素とするステアリングベクトルまたは前記ステアリングベクトルの推定ベクトルである推定ステアリングベクトルに前記瞬時ビームフォーマを適用して得られる値が定数であるという条件である、信号処理装置。
請求項４の信号処理装置であって、
前記推定部は、
前記周波数別観測信号と前記目的信号のパワーまたは推定パワーとに基づき、重み付き時空間共分散行列を得る行列推定部と、
前記重み付き時空間共分散行列と前記ステアリングベクトルまたは前記推定ステアリングベクトルとに基づき、前記畳み込みビームフォーマを得る畳み込みビームフォーマ推定部と、を含む、信号処理装置。
請求項４または請求項５の信号処理装置であって、
前記周波数別観測信号から残響成分を抑圧した周波数別残響抑圧信号を得る残響抑圧部と、
前記周波数別残響抑圧信号から前記推定ステアリングベクトルを得て出力するステアリングベクトル推定部と、
をさらに有する信号処理装置。
請求項６の信号処理装置であって、
前記周波数別残響抑圧信号は時系列信号であり、
第１時間区間に属する前記周波数別残響抑圧信号、および前記第１時間区間よりも過去の第２時間区間に属する前記周波数別残響抑圧信号の空間共分散行列に基づく、前記第１時間区間に属する前記周波数別残響抑圧信号の空間共分散行列を得る観測信号共分散行列更新部と、
前記周波数別残響抑圧信号の雑音共分散行列の逆行列、前記第１時間区間に属する前記周波数別残響抑圧信号の空間共分散行列、および前記第２時間区間の主成分ベクトルに基づき、前記周波数別残響抑圧信号の雑音共分散行列の逆行列と、前記第１時間区間に属する前記周波数別残響抑圧信号の空間共分散行列と、の積に対する前記第１時間区間の主成分ベクトルを得る主成分ベクトル更新部と、
をさらに有し、
前記ステアリングベクトル推定部は、前記周波数別残響抑圧信号の雑音共分散行列と前記第１時間区間の主成分ベクトルとに基づき、前記第１時間区間の前記推定ステアリングベクトルを得て出力する、信号処理装置。
請求項４の信号処理装置であって、
前記周波数別観測信号は時系列信号であり、
第１時間区間に属する前記周波数別観測信号、および前記第１時間区間よりも過去の第２時間区間に属する前記周波数別観測信号の空間共分散行列に基づく、前記第１時間区間に属する前記周波数別観測信号の空間共分散行列を得る観測信号共分散行列更新部と、
前記周波数別観測信号の雑音共分散行列の逆行列、前記第１時間区間に属する前記周波数別観測信号の空間共分散行列、および前記第２時間区間の主成分ベクトルに基づき、前記周波数別観測信号の雑音共分散行列の逆行列と、前記第１時間区間に属する前記周波数別観測信号の空間共分散行列と、の積に対する前記第１時間区間の主成分ベクトルを得る主成分ベクトル更新部と、
前記第１時間区間の主成分ベクトルと前記周波数別観測信号の雑音共分散行列とに基づき、前記第１時間区間の前記推定ステアリングベクトルを得て出力するステアリングベクトル推定部と、
を有する信号処理装置。
請求項７または８の信号処理装置であって、
前記推定部は、
前記周波数別観測信号、および前記目的信号のパワーまたは推定パワー、ならびに前記第１時間区間よりも過去の第２時間区間の時空間共分散行列の逆行列に基づき、前記第１時間区間の時空間共分散行列の逆行列を推定する行列推定部と、
前記第１時間区間の前記時空間共分散行列の逆行列および前記推定ステアリングベクトルに基づき、前記第１時間区間の前記畳み込みビームフォーマを得る畳み込みビームフォーマ推定部と、を含む、信号処理装置。
請求項４、６から８の何れかの信号処理装置であって、
前記推定部は、
前記瞬時ビームフォーマを、前記ステアリングベクトルの定数倍または前記推定ステアリングベクトルの定数倍と、前記ステアリングベクトルまたは前記推定ステアリングベクトルの直交補空間に対応するブロック行列と変形瞬時ビームフォーマとの積と、の和で表記したときに、前記第１時間区間の周波数別観測信号に前記ブロック行列を乗じた結果得られる信号を要素に持つことを特徴とする、前記ステアリングベクトルまたは前記推定ステアリングベクトル、前記周波数別観測信号、および前記目的信号のパワーまたは推定パワー基づく、重み付き変形時空間共分散行列を得る行列推定部と、
前記ステアリングベクトルまたは前記推定ステアリングベクトル、前記重み付き変形時空間共分散行列、および前記周波数別観測信号に基づく、前記畳み込みビームフォーマを得る畳み込みビームフォーマ推定部と、を含む、
信号処理装置。
請求項７または８の信号処理装置であって、
前記瞬時ビームフォーマは、前記推定ステアリングベクトルの定数倍と、前記推定ステアリングベクトルの直交補空間に対応するブロック行列と変形瞬時ビームフォーマとの積と、の和と等価であり、
前記推定部は、
前記第１時間区間の前記推定ステアリングベクトル、および前記第１時間区間に属する前記周波数別観測信号に基づく、前記第１時間区間の初期ビームフォーマ出力を得る初期ビームフォーマ適用部と、
前記第１時間区間の初期ビームフォーマ出力、前記第１時間区間の前記推定ステアリングベクトル、および前記周波数別観測信号、ならびに前記第１時間区間よりも過去の第２時間区間の前記畳み込みビームフォーマに基づく、前記第１時間区間の前記目的信号を得る前記抑圧部と、
前記第２時間区間の重み付き変形時空間共分散行列の逆行列、ならびに前記第１時間区間の前記推定ステアリングベクトル、前記周波数別観測信号、および前記目的信号のパワーまたは推定パワーに基づく、前記第１時間区間の適応ゲインを得る適応ゲイン推定部と、
前記第１時間区間の適応ゲイン、前記第１時間区間の前記推定ステアリングベクトル、および前記周波数別観測信号、ならびに前記第２時間区間の重み付き変形時空間共分散行列の逆行列に基づく、前記第１時間区間の重み付き変形時空間共分散行列の逆行列を得る行列推定部と、
前記第１時間区間の適応ゲイン、前記第１時間区間の前記目的信号、および前記第２時間区間の前記畳み込みビームフォーマに基づく、前記第１時間区間の畳み込みビームフォーマを得る前記畳み込みビームフォーマ推定部と、
を含む、信号処理装置。
請求項１から１１の何れかの信号処理装置であって、
前記観測信号は、雑音および残響が存在する環境下で前記音源から発せられた前記音響信号を集音して得られた信号である、信号処理装置。
請求項１から１２の何れかの信号処理装置であって、
前記畳み込みビームフォーマは、各時刻において現在の信号の重み付け値を計算するビームフォーマである、信号処理装置。
目的の音源から発せられた音響信号を集音して得られた観測信号の複数の周波数帯域のそれぞれに対応する周波数別観測信号に、各時刻において現在の信号と所定の遅延を持つ長さ０以上の過去の信号列との重み付き和を計算する畳み込みビームフォーマを適用して得られる推定信号が、所定の確率モデルに基づく前記推定信号の音声らしさを表す確率を大きくするように、前記畳み込みビームフォーマを得る推定ステップと、
前記推定部で得られた前記畳み込みビームフォーマを前記周波数別観測信号に適用して目的信号を得る抑圧ステップと、
を有する信号処理方法。
請求項１から１３の何れかの信号処理装置としてコンピュータを機能させるためのプログラム。