WO2021171406A1

WO2021171406A1 - 信号処理装置、信号処理方法、およびプログラム

Info

Publication number: WO2021171406A1
Application number: PCT/JP2020/007643
Authority: WO
Inventors: 林太郎池下; 中谷　智広; 荒木　章子
Original assignee: 日本電信電話株式会社
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2021-09-02
Also published as: JPWO2021171406A1; JP7351401B2; US20230087982A1

Abstract

源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号から後部残響成分を抑圧する後部残響除去フィルタと、混合音響信号から各源信号に対応する成分を強調する音源分離フィルタと、を統合したフィルタである畳み込み分離フィルタを、混合音響信号および混合音響信号の遅延信号を含む混合音響信号列に適用して、後部残響成分が抑圧され、かつ、源信号のうち各目的音源から発せられた各目的信号が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する。

Description

信号処理装置、信号処理方法、およびプログラム

　本発明は、音源抽出技術に関する。

　観測された混合音響信号を入力として、雑音や残響も抑圧した各音源の源信号を推定する音源抽出技術は、音声認識の前処理等に広く利用される技術である。複数のマイクロホンを用いて観測された混合音響信号を用いて音源抽出を行う手法として、独立成分分析の多変量拡張にあたる独立ベクトル分析（ＩＶＡ）が知られている。

　実環境でＩＶＡを用いる場合、背景雑音や残響の影響で性能が劣化することが知られている。このうち背景雑音については、目的音源数Ｋよりもマイク数Ｍを大きくすることで、ＩＶＡの頑健性を高めることができるが、処理時間が増大するという問題がある。音源数Ｋよりもマイク数Ｍが大きい場合であっても処理速度の増大を抑え、高速に音源抽出を行う手法として、優決定ＩＶＡ（ＯｖｅｒＩＶＡ、例えば、非特許文献１等参照）が知られている。

Robin Scheibler and Nobutaka Ono, "Independent vector analysis with more microphones than sources," in Proc. WASPAA, 2019.

　ＯｖｅｒＩＶＡによれば背景雑音に頑健な音源抽出を行うことができる。しかし、ＯｖｅｒＩＶＡでは残響が考慮されていないため、残響に伴う性能劣化の問題は依然として存在する。

　本発明はこのような点に鑑みてなされたものであり、雑音に加えて残響にも頑健な音源抽出を高速で行うための信号処理技術を提供することを目的とする。

　畳み込み分離フィルタは後部残響除去フィルタと音源分離フィルタとを統合したフィルタであるため、本発明では、雑音に加えて残響にも頑健な音源抽出を高速で行うことが可能である。

図１は、実施形態の信号処理装置の機能構成を例示したブロック図である。図２は、第１実施形態の畳み込み分離フィルタ推定部の機能構成を例示したブロック図である。図３は、実施形態の信号処理方法を例示するためのフロー図である。図４は、図３のステップＳ１３の処理を例示するためのフロー図である。図５は、第２実施形態の畳み込み分離フィルタ推定部の機能構成を例示したブロック図である。図６は、図３のステップＳ２３の処理を例示するためのフロー図である。図７は、実施形態の信号処理装置を信号抽出に用いた場合の構成を例示したブロック図である。図８は、実施形態の信号処理装置のハードウェア構成を例示したブロック図である。

　以下、本発明の実施形態を説明する。
　［原理］
　まず、原理を説明する。
　＜ブラインド音源抽出問題＞
　まず、ブラインド音源抽出問題を定義する。Ｋ個の目的音源から発せられた目的信号（例えば、音声信号など）とＭ－Ｋ個の雑音源から発せられた雑音信号が空気中を伝搬して混合された状態で、Ｍ個のマイクロホンで観測されるとする。このＭ個の音源（目的音源および雑音源）から発せられた源信号をＭ個のマイクロホンで観測して得られる信号を観測混合音響信号と呼ぶことにする。これらの源信号はＫ個の目的音源から発せられた目的信号と、Ｍ－Ｋ個の雑音源から発せられた雑音信号を含む。ただし、Ｍが２以上の整数であり、Ｋが１以上の整数であり、１≦Ｋ≦Ｍ－１とする。また目的信号は非定常であり、雑音信号は定常なガウス性雑音と仮定する。Ｍ個のマイクロホンで観測された観測混合音響信号を時間周波数（ＴＦ）領域に変換（例えば、短時間フーリエ変換など）して得られるＭ次元の混合音響信号のうち、ｋ番目（ｋ∈｛１，…，Ｋ｝）の目的信号に対応する成分をｘ_ｋ（ｆ，ｔ）∈Ｃ^Ｍと表現する。ただし、Ｃは複素数全体の集合を表し、Ｃ^αは複素数要素からなるα次元ベクトルの集合全体を表し、α∈βはαがβに属することを表す。すなわち、Ｍ次元の混合音響信号のうち目的信号に対応する成分は、ｘ_１（ｆ，ｔ），…，ｘ_Ｋ（ｆ，ｔ）∈Ｃ^Ｍである。また、Ｍ次元の混合音響信号のうち、ｚ番目（ｚ∈｛Ｋ＋１，…，Ｍ｝）の目的信号に対応する混合音響信号成分をｘ_ｚ（ｆ，ｔ）∈Ｃ^Ｍと表現する。すると、Ｍ次元の混合音響信号は以下の式(1)のように表される。

ここでｆ∈｛１，…，Ｆ｝とｔ∈｛１，…，Ｔ｝は、それぞれ周波数ビンと時間フレームのインデックス（離散周波数と離散時間のインデックス）である。ＦおよびＴは正整数である。また、α：＝βはαをβと定義することを意味する。

　以下では、残響の影響を考慮に入れて、各音源ｉ∈｛１，…，Ｋ，ｚ｝の混合音響信号成分ｘ_ｉ（ｆ，ｔ）は、直接音成分と初期反射成分の和ｄ_ｉ（ｆ，ｔ）∈Ｃ^Ｍと、後部残響成分ｒ_ｉ（ｆ，ｔ）∈Ｃ^Ｍとに分解できるとする。ここで、各ｄ_ｉ（ｆ，ｔ）は以下の空間モデルに従うと仮定する。
x_i(f,t)=d_i(f,t)+r_i(f,t), i∈{1,…,K,z} (2)
d_k(f,t)=a_k(f)s_k(f,t)∈C^M, ｋ∈{1,…,K}  (3)
d_z(f,t)=A_z(f)z(f,t)∈C^M    (4)
a_k(f)∈C^M, s_k(f,t)∈C, ｋ∈{1,…,K}  (5)
A_z(f)∈C^M×(M-K), z(f,t)∈C^M-K.  (6)
ここで、ａ_ｋ（ｆ）とｓ_ｋ（ｆ，ｔ）は、それぞれ目的音源ｋの伝達関数と源信号（目的信号）であり、Ａ_ｚ（ｆ）とｚ（ｆ，ｔ）は、それぞれＭ－Ｋ個の雑音源の伝達関数と源信号を行列表示したものである。音源が互いに独立であるという仮定のもとで、観測信号のみからｘ_１（ｆ，ｔ），…，ｘ_Ｋ（ｆ，ｔ）を推定する問題はブラインド音源分離問題として知られている。これに対し、本実施形態で扱うブラインド音源抽出問題は、音源分離に加えて残響除去も施したｄ_１（ｆ，ｔ），…，ｄ_Ｋ（ｆ，ｔ）を推定する問題として定義される。ただし、目的音源数Ｋは既知とする。

　＜ＩＶＥｃｏｎｖの確率モデル＞
　混合音響信号ｘ（ｆ，ｔ）から後部残響成分を除去した後の音源信号の和を式(7)のようにおく。

ＩＶＥｃｏｎｖの確率モデルは、ハイパーパラメータΔ⊂Ｎを用いて，以下で定義される。ただし、Ｎは自然数全体の集合を表し、α⊂βはαがβの部分集合であることを表す。

s_k(f,t)=w_k(f)^Hd(f,t)∈C, k∈{1,..,K}   (9)
z(f,t)=W_z(f)^Hd(f,t)∈C^M-K    (10)
s_k(t):=[s_k(1,t),...,s_k(F,t)]^T∈C^F   (11)
s_k(t)～CN(0_F,λ_k(t)I_F), k∈{1,..,K}   (12)
z(f,t)～CN(0_M-K,I_M-K)   (13)

ここで、α^Ｔはαの転置であり、α^Ｈはαのエルミート転置であり、λ_ｋ（ｔ）はｓ_ｋ（ｔ）のパワースペクトルであり、ＣＮ（μ，Σ）は平均ベクトルμで分散共分散行列Σの複素正規分布であり、Ｉ_αはα×αの単位行列であり、０_αがすべての要素が０のα次元ベクトルであり、β～ＣＮ（μ，Σ）が、βが複素正規分布ＣＮ（μ，Σ）に従っていることを表し、ｐ（α）はαの確率である。ｗ_ｋ（ｆ）がｋ番目の目的音源から発せられた目的信号に対応する成分を強調する音源分離フィルタであり、Ｗ_ｚ（ｆ）がｚ番目の雑音源から発せられた雑音信号に対応する成分を強調する音源分離フィルタである。
　このＩＶＥｃｏｎｖの確率モデルのモデルパラメータは次の４つである。
後部残響除去フィルタ：Q_δ(f)∈C^M×M,δ∈Δ
目的信号の音源分離フィルタ：w_k(f)∈C^M
目的信号のパワースペクトル：λ_k(t)∈R_≧0
雑音信号の音源分離フィルタ：W_z(f)∈C^M×(M-K)
　ここでＲ_≧０は０以上の実数全体の集合を意味する。

　＜ＩＶＥｃｏｎｖの確率モデルの単純化＞
　上記のモデルにおいて、残響除去フィルタと音源分離フィルタは一般に交互に最適化することになるため、最適化の結果が局所解に陥りやすい恐れがある。そのため、本実施形態では、ＩＶＥｃｏｎｖの確率モデルのモデルパラメータである残響除去フィルタと音源分離フィルタを、両フィルタを結合したひとつのフィルタに変換することでＩＶＥｃｏｎｖの確率モデルを単純なモデルに書き換える。いま、ハイパーパラメータΔの要素をΔ＝｛τ_１，…，τ_｜Δ｜｝で表す。ただし、Δ∈｛τ_１，…，τ_｜Δ｜｝であり、｜Δ｜がハイパーパラメータΔの要素数を表す正整数である。また、以下のように定義する。

ただし、Ｑ_δ（ｆ）が後部残響除去フィルタであり、ｘ＾（ｆ，ｔ）を混合音響信号列と呼ぶことにする。なお、ｘ＾（ｆ，ｔ）の上付き添え字「＾」は、本来「ｘ」の真上に記載すべきであるが、記載表記の制約上、ｘ＾（ｆ，ｔ）のように「ｘ」の右上に記載する場合がある。このとき，以下の式(15)および(16)によって，Ｑ（ｆ）とＷ（ｆ）＝［ｗ_１（ｆ），．．．，ｗ_Ｋ（ｆ），Ｗ_ｚ（ｆ）］との組を、以下の式(17)に一対一変換する。
p_k(f)=Q(f)w_k(f)∈C^M(|Δ|+1)   (15)
P_z(f)=Q(f)W_z(f)∈C^{M(|Δ|+1)×(M-K)}   (16)
P(f)=[p₁(f),...,p_K(f),P_z(f)]   (17)
ただし、Ｃ^α×βは複素数要素からなるα×β行列の集合全体を表す。ｐ_ｋ（ｆ）＝Ｑ（ｆ）ｗ_ｋ（ｆ）はｋ番目の目的音源から発せられた目的信号に対応する畳み込み分離フィルタ成分である。またＰ_ｚ（ｆ）＝Ｑ（ｆ）Ｗ_ｚ（ｆ）はｚ番目の雑音源から発せられた雑音信号に対応する畳み込み分離フィルタ成分である。

　本実施形態では、後部残響除去と音源分離を同時に達成するフィルタＰ（ｆ）のことを、畳み込み分離フィルタと呼ぶことにする。すなわち、畳み込み分離フィルタは、混合音響信号ｘ（ｆ，ｔ）から後部残響成分を抑圧する後部残響除去フィルタＱ（ｆ）と、混合音響信号ｘ（ｆ，ｔ）から各源信号に対応する成分を強調する音源分離フィルタＷ（ｆ）と、を統合したフィルタである。この変換に伴い、式(8)-(10)は以下の式(18)および(19)のように変換される。

　以上より、ＩＶＥｃｏｎｖの確率モデルは、式(11)-(14), (18)-(19)としてまとめられる。この確率モデルは、源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号ｘ（ｆ，ｔ）から後部残響成分を抑圧する後部残響除去フィルタＱ_δ（ｆ）と、混合音響信号ｘ（ｆ，ｔ）から各源信号に対応する成分を強調する音源分離フィルタＷ（ｆ）と、を統合したフィルタである畳み込み分離フィルタＰ（ｆ）を、混合音響信号ｘ（ｆ，ｔ）および混合音響信号の遅延信号ｘ（ｆ，ｔ-τ_１），…，ｘ（ｆ，ｔ-τ_｜Δ｜）を含む混合音響信号列ｘ＾（ｆ，ｔ）に適用して、後部残響成分が抑圧され、かつ、源信号のうち各目的音源から発せられた各目的信号ｓ_ｋ（ｆ，ｔ）が強調された各信号に対応する情報を得るモデルである。また、このモデルのモデルパラメータは、式(17)の畳み込み分離フィルタＰ（ｆ）と、式(12)の目的信号のパワースペクトルλ_ｋ（ｔ）である。

　＜単純化されたＩＶＥｃｏｎｖの確率モデルの最適化＞
　単純化されたＩＶＥｃｏｎｖの確率モデルのモデルパラメータは、最尤法により推定できる。これは、次の式(20)で表される負の対数尤度である目的関数Ｊを最小化することで達成される。

ここで、｜α｜はαの絶対値であり、||α||はαのノルムであり、ｄｅｔ（α）はαの行列式であり、「const.」はパラメータに依存しない定数である。畳み込み分離フィルタＰ（ｆ）の最初のＭ行成分がＷ（ｆ）＝［ｗ_１（ｆ），．．．，ｗ_Ｋ（ｆ），Ｗ_ｚ（ｆ）］である。

　本実施形態では、畳み込み分離フィルタＰ（ｆ）と目的信号ｓ_ｋ（ｆ，ｔ）のパワースペクトルλ_ｋ（ｔ）とを交互に最適化する。畳込分離フィルタＰ（ｆ）を固定すると、パワースペクトルλ_ｋ（ｔ）の大域最適解は以下のようになる。

　よって、パワースペクトル推定では、畳み込み分離フィルタＰ（ｆ）を固定したもとで、式(21)に従って各目的信号ｓ_ｋ（ｆ，ｔ）のパワースペクトルλ_ｋ（ｔ）を推定する。

　また目的信号ｓ_ｋ（ｆ，ｔ）のパワースペクトルλ_ｋ（ｔ）を固定した場合に、上記の負の目的関数Ｊを最適化（最小化）するように畳み込み分離フィルタＰ（ｆ）を最適化する問題は、各周波数ビンの畳み込み分離フィルタＰ（１），…，Ｐ（Ｆ）について目的関数Ｊを最小化するＦ個の問題に分割できる。畳み込み分離フィルタＰ（ｆ）について目的関数Ｊを最小化する問題は次のように表される。

ただし、以下を満たす。

ここでｔｒ（α）はαの対角和である。

　Ｇ_ｚは混合音響信号列ｘ＾（ｆ，ｔ）の共分散行列であり、Ｇ_ｋは目的信号ｓ_ｋ（ｆ，ｔ）以外の信号を雑音信号とみなしたときの雑音共分散行列と捉えることができる。以上のように、畳み込み分離フィルタ推定では、各目的信号ｓ_ｋ（ｆ，ｔ）のパワースペクトルλ_ｋ（ｔ）を固定したもとで、各周波数で混合音響信号に対する目的関数Ｊ_Ｐ（ｆ）を最適化する畳み込み分離フィルタＰ（ｆ）を周波数ごとに推定する。

　所定の条件を満たすまで、上記のパワースペクトル推定の処理と畳み込み分離フィルタ推定の処理とが交互に実行させる。

　［第１実施形態］
　次に、図面を用いて第１実施形態を説明する。
　［構成］
　図１に例示するように、第１実施形態の信号処理装置１は、初期設定部１１、パワースペクトル推定部１２、畳み込み分離フィルタ推定部１３、および制御部１４を有する。信号処理装置１は制御部１４の制御の下で各処理を実行する。図２に例示するように、第１実施形態の畳み込み分離フィルタ推定部１３は、ｑ_ｋ（ｆ）演算部１３１、ｐ_ｋ（ｆ）演算部１３２、Ｐ_ｚ（ｆ）演算部１３４、および制御部１３３を有する。畳み込み分離フィルタ推定部１３は、制御部１３３の制御の下で各処理を実行する。

　＜処理＞
　前述のように、信号処理装置１は、源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号ｘ（ｆ，ｔ）から後部残響成分を抑圧する後部残響除去フィルタＱ_δ（ｆ）と、混合音響信号ｘ（ｆ，ｔ）から各源信号に対応する成分を強調する音源分離フィルタＷ（ｆ）と、を統合したフィルタである畳み込み分離フィルタＰ（ｆ）を、混合音響信号ｘ（ｆ，ｔ）および混合音響信号の遅延信号ｘ（ｆ，ｔ-τ_１），…，ｘ（ｆ，ｔ-τ_｜Δ｜）を含む混合音響信号列ｘ＾（ｆ，ｔ）に適用して、後部残響成分が抑圧され、かつ、源信号のうち各目的音源から発せられた各目的信号ｓ_ｋ（ｆ，ｔ）が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する。以下、詳細に説明する。

　≪初期設定部１１の処理（ステップＳ１１）≫
　図３に例示するように、信号処理装置１の初期設定部１１には、混合音響信号ｘ（ｆ，ｔ）（ｆ∈｛１，…，Ｆ｝，ｔ∈｛１，…，Ｔ｝）が入力される。初期設定部１１は、すべてのｆについて、分離フィルタＰ（ｆ）に任意の初期値を設定する。例えば、初期設定部１１は、Ｐ（ｆ）＝［Ｉ_Ｍ｜Ｏ_Ｍ×Ｌ］^Ｔに設定する。ただしＬ：＝｜Δ｜Ｍである。また初期設定部１１は、式(14b)に従ってｘ＾（ｆ，ｔ）を計算する。さらに初期設定部１１は、すべてのｆについて式(24)に従ってＧ_ｚ（ｆ）を計算する。さらに初期設定部１１は、式(24)に従ってすべてのｆについてＧ_ｚ（ｆ）^－１∈Ｃ^{（Ｍ＋Ｌ）×（Ｍ＋Ｌ）}を計算する。初期設定部１１は、ｘ＾（ｆ，ｔ），Ｐ（ｆ）をパワースペクトル推定部１２に出力し、ｘ＾（ｆ，ｔ），Ｐ（ｆ），Ｇ_ｚ（ｆ）^－１を畳み込み分離フィルタ推定部１３に出力する（ステップＳ１１）。

　≪パワースペクトル推定部１２の処理（ステップＳ１２）≫
　パワースペクトル推定部１２は、ｘ＾（ｆ，ｔ）およびＰ（ｆ）＝［ｐ_１（ｆ），．．．，ｐ_Ｋ（ｆ），Ｐ_ｚ（ｆ）］を用い、すべてのｆ，ｔについて、式(18)に従って目的信号ｓ_ｋ（ｆ，ｔ）を得、さらに式(11)(21)に従って目的信号ｓ_ｋ（ｆ，ｔ）のパワースペクトルλ_ｋ（ｔ）を得る。すなわち、パワースペクトル推定部１２は、畳み込み分離フィルタＰ（ｆ）を固定したもとで、各目的信号ｓ_ｋ（ｆ，ｔ）のパワースペクトルλ_ｋ（ｔ）を推定する。パワースペクトル推定部１２は、パワースペクトルλ_ｋ（ｔ）を畳み込み分離フィルタ推定部１３に出力する（ステップＳ１２）。

　≪畳み込み分離フィルタ推定部１３の処理（ステップＳ１３）≫
　畳み込み分離フィルタ推定部１３は、各目的信号ｓ_ｋ（ｆ，ｔ）のパワースペクトルλ_ｋ（ｔ）を固定したもとで、各周波数（ｆ∈｛１，…，Ｆ｝）で混合音響信号ｘ_ｋ（ｆ，ｔ）に対する目的関数Ｊ_Ｐ（ｆ）（式(22)）を最適化（最小化）する畳み込み分離フィルタＰ（ｆ）を周波数ごとに推定する。これは目的関数Ｊを各周波数ビンｆ＝１，…，Ｆにおける畳み込み分離フィルタＰ（ｆ）について最小化する問題を解くことに相当する。例えば、畳み込み分離フィルタ推定部１３は、図４に例示するように、すべてのｆについてＰ（ｆ）を更新する。更新されたＰ（ｆ）はパワースペクトル推定部１２に出力される。

　Ｐ（ｆ）の更新処理（図４）：
　まず、制御部１３３はｋ＝１に設定する（ステップＳ１３３ａ）。
　次にｑ_ｋ（ｆ）演算部は、Ｐ（ｆ），Ｇ_ｚ（ｆ）^－１を入力とし、すべてのｆについて、式(25)に従ってｑ_ｋ（ｆ）を得て出力する。

ここで、前述のようにＰ（ｆ）の最初のＭ行成分がＷ（ｆ）＝［ｗ_１（ｆ），．．．，ｗ_Ｋ（ｆ），Ｗ_ｚ（ｆ）］である。ｅ_ｋはｋ番目の成分が１のＭ次元単位ベクトルであり、α^－Ｈはαの逆行列のエルミート転置である（ステップＳ１３１）。

　ｐ_ｋ（ｆ）演算部１３２は、ｑ_ｋ（ｆ）、ｘ＾（ｆ，ｔ），λ_ｋ（ｔ）を入力とし、すべてのｆについて、式(23)(26)に従ってｐ_ｋ（ｆ）を得て出力する（ステップＳ１３２）。

　制御部１３３はｋ＝Ｋであるか否かを判定する（ステップＳ１３３）。ここでｋ＝Ｋでない場合、制御部１３３はｋ＋１を新たなｋに設定し（ステップＳ１３３ｃ）、ステップＳ１３１に戻す。一方、ｋ＝Ｋである場合、Ｐ_ｚ（ｆ）演算部１３４は、Ｇ_ｚ（ｆ）^－１，ｐ_ｋ（ｆ）を入力とし、すべてのｆについて、式(27)に従ってP_z（ｆ）を得て出力する。

ここで、e_kがｋ番目の成分が１のＭ次元単位ベクトルであり、Ｅ_ｚ：＝［ｅ_Ｋ＋１，．．．，ｅ_Ｍ］∈Ｃ^{Ｍ×（Ｍ－Ｋ）}であり、Ｅ_ｓ：＝［ｅ_１，．．．，ｅ_Ｋ］∈Ｃ^Ｍ×Ｋであり、Ｗ_ｓ（ｆ）：＝［ｗ_１（ｆ），．．．，ｗ_Ｋ（ｆ）］∈Ｃ^Ｍ×Ｋであり、０_α×βがすべての要素が０のα×β行列である。前述のようにＰ（ｆ）の最初のＭ行成分がＷ（ｆ）＝［ｗ_１（ｆ），．．．，ｗ_Ｋ（ｆ），Ｗ_ｚ（ｆ）］である（ステップＳ１３４）。

　ｐ_ｋ（ｆ）演算部１３２は、すべてのｋ，ｆについてｐ_ｋ（ｆ）を出力し、Ｐ_ｚ（ｆ）演算部１３４は、すべてのｚ，ｆについてP_z（ｆ）を出力する。すなわち、畳み込み分離フィルタ推定部１３は最適化された畳み込み分離フィルタＰ（ｆ）＝［ｐ_１（ｆ），．．．，ｐ_Ｋ（ｆ），Ｐ_ｚ（ｆ）］を出力する。さらに畳み込み分離フィルタ推定部１３は、更新後のＰ（ｆ）を以下のように正規化し、正規化後のＰ（ｆ）を出力してもよい。

これにより、数値的安定性を向上させることができる。ただし、この正規化は必須ではなく、これらの正規化が行われなくてもよい（ステップＳ１３５）。

　以上のように、畳み込み分離フィルタ推定部１３は、式(22)の問題を図４のように解き、最適化された畳み込み分離フィルタＰ（ｆ）を出力する。このとき、雑音信号は分離・抽出する必要がないため、図４では、雑音信号に対する畳み込み分離フィルタＰ_ｚを厳密に最適化する代わりに、Ｐ_ｚが張る線形空間Ｉｍ（Ｐ_ｚ）までを最適化する方法を採用することで高速な音源抽出手法を実現している。

　≪制御部１４の処理（ステップＳ１４）≫
　制御部１４は、所定の条件が充足されたかを判定する。所定の条件の例は、パワースペクトル推定（ステップＳ１２）と畳み込み分離フィルタ推定（ステップＳ１３）との処理の繰り返し回数が予め定めた繰り返し回数に到達したこと、あるいは、各モデルパラメータの更新量が所定の閾値以下となったこと等である。ここで所定の条件が充足されていない場合、制御部１４は処理をステップＳ１２に戻す。一方、所定の条件が充足された場合、制御部１４は処理をステップＳ１５に進める。すなわち制御部１４は、所定の条件を満たすまで、パワースペクトル推定部１２の処理と畳み込み分離フィルタ推定部１３の処理とを交互に実行させる（ステップＳ１４）。

　ステップＳ１５では、すべてのｆ，ｋについて、パワースペクトル推定部１２が上述のように最適化した目的信号ｓ_ｋ（ｆ，ｔ）（ステップＳ１２）を出力し、畳み込み分離フィルタ推定部１３が上述のように最適化された畳み込み分離フィルタＰ（ｆ）を出力する（ステップＳ１５）。

　＜本実施形態の特徴＞
　本実施形態では、後部残響除去フィルタと音源分離フィルタとを統合した畳み込み分離フィルタを用いたモデルを用いるため、雑音に加えて残響にも頑健な音源抽出を高速で行うことが可能である。また、上述の処理はリアルタイム処理によって実行可能である。

　［第２実施形態］
　次に、第２実施形態を説明する。目的音源数Ｋが１の場合、畳み込み分離フィルタをより高速に最適化することができる。第２実施形態ではこの方式について説明する。第２実施形態の第１実施形態からの相違点は、Ｋ＝１に限定される点および畳み込み分離フィルタの最適化手順である。以下では、これまで説明した事項との相違点を中心に説明し、既に説明した事項については同じ参照番号を引用して処理を簡略化する。

　［構成］
　図１に例示するように、第２実施形態の信号処理装置２は、初期設定部２１、パワースペクトル推定部１２、畳み込み分離フィルタ推定部２３、および制御部１４を有する。信号処理装置２は制御部１４の制御の下で各処理を実行する。図５に例示するように、第２実施形態の畳み込み分離フィルタ推定部２３は、畳み込み分離フィルタ推定部１３、方程式求解部２３１、固有値問題求解部２３２、ｐ_１（ｆ）演算部２３４、および制御部２３３を有する。畳み込み分離フィルタ推定部２３は、制御部２３３の制御の下で各処理を実行する。

　＜処理＞
　本実施形態でも、畳み込み分離フィルタＰ（ｆ）を、混合音響信号ｘ（ｆ，ｔ）および混合音響信号の遅延信号ｘ（ｆ，ｔ-τ_１），…，ｘ（ｆ，ｔ-τ_｜Δ｜）を含む混合音響信号列ｘ＾（ｆ，ｔ）に適用して、後部残響成分が抑圧され、かつ、源信号のうち各目的音源から発せられた各目的信号ｓ_ｋ（ｆ，ｔ）が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する。以下、詳細に説明する。

　≪初期設定部２１の処理（ステップＳ２１）≫
　図３に例示するように、信号処理装置２の初期設定部２１には、混合音響信号ｘ（ｆ，ｔ）（ｆ∈｛１，…，Ｆ｝，ｔ∈｛１，…，Ｔ｝）が入力される。初期設定部２１は、すべてのｆについて、分離フィルタＰ（ｆ）に任意の初期値を設定する。また初期設定部２１は、式(14b)に従ってｘ＾（ｆ，ｔ）を計算する。さらに初期設定部２１は、すべてのｆについて式(24)に従ってＧ_ｚ（ｆ）を計算する。さらに初期設定部２１は、式(24)に従ってすべてのｆについてＧ_ｚ（ｆ）^－１∈Ｃ^{（Ｍ＋Ｌ）×（Ｍ＋Ｌ）}を計算する。また初期設定部２１は、Ｇ_ｚ（ｆ）^－１の先頭のＭ×Ｍの小行列Ｖ_ｚ（ｆ）を抽出する。初期設定部２１は、ｘ＾（ｆ，ｔ），Ｐ（ｆ）をパワースペクトル推定部１２に出力し、ｘ＾（ｆ，ｔ），Ｐ（ｆ），Ｇ_ｚ（ｆ）^－１，Ｖ_ｚ（ｆ）を畳み込み分離フィルタ推定部１３に出力する（ステップＳ２１）。

　≪パワースペクトル推定部１２の処理（ステップＳ１２）≫
　パワースペクトル推定部１２は、第１実施形態で説明した通りに、畳み込み分離フィルタＰ（ｆ）を固定したもとで、各目的信号ｓ_ｋ（ｆ，ｔ）のパワースペクトルλ_ｋ（ｔ）を推定する。パワースペクトル推定部１２は、パワースペクトルλ_ｋ（ｔ）を畳み込み分離フィルタ推定部２３に出力する（ステップＳ１２）。

　≪畳み込み分離フィルタ推定部２３の処理（ステップＳ２３）≫
　畳み込み分離フィルタ推定部２３は、各目的信号ｓ_ｋ（ｆ，ｔ）のパワースペクトルλ_ｋ（ｔ）を固定したもとで、各周波数（ｆ∈｛１，…，Ｆ｝）で混合音響信号ｘ_ｋ（ｆ，ｔ）に対する目的関数Ｊ_Ｐ（ｆ）（式(22)）を最適化（最小化）する畳み込み分離フィルタＰ（ｆ）を周波数ごとに推定する。例えば、畳み込み分離フィルタ推定部２３は、図６に例示するように、すべてのｆについてＰ（ｆ）を更新する。更新されたＰ（ｆ）はパワースペクトル推定部１２に出力される。

　Ｐ（ｆ）の更新処理（図６）：
　方程式求解部２３１は、ｘ＾（ｆ，ｔ）およびλ₁（ｔ）を用い、すべてのｆについて、式(23)に従ってＧ_１（ｆ）を得、さらに方程式求解部２３１は、すべてのｆについて、式(28)の方程式を満たすＭ×Ｍ行列Ｖ_１（ｆ）∈Ｃ^Ｍ×ＭおよびＬ×Ｍ行列Ｃ（ｆ）∈Ｃ^Ｌ×Ｍを算出して出力する。

　Ｍ×Ｍ行列Ｖ_１（ｆ）は固有値問題求解部２３２およびｐ_１（ｔ）演算部２３４に出力され、Ｌ×Ｍ行列Ｃ（ｆ）はｐ_１（ｔ）演算部２３４に出力される（ステップＳ２３１）。

　固有値問題求解部２３２は、Ｖ_１（ｆ），Ｖ_ｚ（ｆ）を入力とし、すべてのｆについて一般化固有値問題Ｖ_１（ｆ）ｑ＝λＶ_ｚ（ｆ）ｑを解いて最大固有値λに対応する固有ベクトルｑ＝ａ_１（ｆ）を得て出力する。固有ベクトルｑ＝ａ_１（ｆ）はｐ_１（ｔ）演算部２３４に出力される（ステップＳ２３２）。

　ｐ_１（ｔ）演算部２３４は、Ｖ_１（ｆ），ａ_１（ｆ），Ｃ（ｆ）を入力とし、すべてのｆについて、式(29)に従って目的信号ｐ_１（ｆ）を算出して出力する（ステップＳ２３４）。

(29)

　≪制御部１４の処理（ステップＳ１４）≫
　制御部１４は、所定の条件が充足されたかを判定する。ここで所定の条件が充足されていない場合、制御部１４は処理をステップＳ１２に戻す。一方、所定の条件が充足された場合、制御部１４は処理をステップＳ２５に進める。

　ステップＳ２５では、まず、畳み込み分離フィルタ推定部２３の畳み込み分離フィルタ推定部１３が、すべてのｆについて第１実施形態で説明したようにＰ_ｚ（ｆ）を得て出力する。さらに、すべてのｆ，ｋについて、パワースペクトル推定部１２が上述のように最適化した目的信号ｓ_ｋ（ｆ，ｔ）（ステップＳ１２）を出力し、畳み込み分離フィルタ推定部２３が上述のように最適化された畳み込み分離フィルタＰ（ｆ）＝［ｐ_１（ｆ），Ｐ_ｚ（ｆ）］を出力する（ステップＳ２５）。

　［第２実施形態の変形例］
　固有値問題求解部２３２は、以下の式(30)によって、ステップＳ２３２の最大固有値λに対応する固有ベクトルｑ＝ａ_１（ｆ）を得てもよい。

ここでＶ_ｚとＶ_１の逆行列Ｖ_ｚ ^－１とＶ_１ ^－１は、それぞれ、残響の影響を取り除いた後の混合音響信号列と雑音信号列の共分散行列と考えることができるので、式（３２）による処理はＭａｘＳＮＲに基づくステアリングベクトル推定と捉えることができる。また、ステップＳ２３４は、畳み込みビームフォーマの計算に相当する。このことから畳み込み分離フィルタ推定部２３によるＩＶＥ_ｃｏｎｖは、ＭａｘＳＮＲに基づくステアリングベクトル推定と畳み込みビームフォーマによる音源抽出との繰り返しに相当すると言える。

　［第３実施形態］
　第３実施形態では、第１，２実施形態または第２実施形態の変形例で最適化された目的信号ｓ_ｋ（ｆ，ｔ）および畳み込み分離フィルタＰ（ｆ）から、目的信号ｓ_ｋ（ｆ，ｔ）の直接音成分と初期反射成分の和ｄ_ｋ（ｆ，ｔ）を得て出力する。

　図７に例示するように、第３実施形態のシステムは、第１，２実施形態または第２実施形態の変形例の信号処理装置１（２）および信号抽出装置３を有する。前述のように、信号処理装置１（２）は、混合音響信号ｘ（ｆ，ｔ）を入力とし、前述のように最適化された目的信号ｓ_ｋ（ｆ，ｔ）および畳み込み分離フィルタＰ（ｆ）を出力する。

　信号抽出装置３は、最適化された目的信号ｓ_ｋ（ｆ，ｔ）および畳み込み分離フィルタＰ（ｆ）を入力とし、すべてのｋ，ｆ，ｔについて、以下の式(31)に従ってｄ_ｋ（ｆ，ｔ）を得て出力する。

その後、得られたｄ_ｋ（ｆ，ｔ）は時間周波数領域で他の処理に用いられてもよいし、時間領域に変換されてもよい。

　［実験］
　実験では表１に書かれた４手法の性能評価を行った。ここで(a)は「N. Ono, Proc. WASPAA, pp. 189-192, 2011.」（参考文献１）に記載された従来法であり、(b)は「R. Scheibler and N. Ono, arXiv preprint arXiv:1910.10654, 2019.」（参考文献２）に記載された従来法であり、(c)は「T. Yoshioka and T. Nakatani, IEEE Trans. ASLP, vol. 20, no. 10, pp. 2707-2720, 2012.」（参考文献３）に基づく従来法である。ただし、(c)はＷＰＥとＩＶＡの交互最適化であり、参考文献３で提案されたＷＰＥとＩＣＡ（ＩＶＡ）の交互最適化を高速化した手法である。実験条件は表２のとおりである。なお、RTFは処理速度を表す。(a)と(c)ではＭ（＞Ｋ）個の出力のうち、パワーの大きいＫ個を音源抽出結果として選びＳＤＲ／ＳＩＲを計測した。表１より本実施形態の手法の有効性が確認できた。

　［ハードウェア構成］
　各実施形態における信号処理装置１，２および信号抽出装置３は、例えば、ＣＰＵ（central processing unit）等のプロセッサ（ハードウェア・プロセッサ）やＲＡＭ（random-access memory）・ＲＯＭ（read-only memory）等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは１個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めＲＯＭ等に記録されていてもよい。また、ＣＰＵのようにプログラムが読み込まれることで機能構成を実現する電子回路（circuitry）ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、１個の装置を構成する電子回路が複数のＣＰＵを含んでいてもよい。

　図８は、各実施形態における信号処理装置１，２および信号抽出装置３のハードウェア構成を例示したブロック図である。図８に例示するように、この例の信号処理装置１，２は、ＣＰＵ（Central Processing Unit）１０ａ、入力部１０ｂ、出力部１０ｃ、ＲＡＭ（Random Access Memory）１０ｄ、ＲＯＭ（Read Only Memory）１０ｅ、補助記憶装置１０ｆ及びバス１０ｇを有している。この例のＣＰＵ１０ａは、制御部１０ａａ、演算部１０ａｂ及びレジスタ１０ａｃを有し、レジスタ１０ａｃに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部１０ｂは、データが入力される入力端子、キーボード、マウス、タッチパネル等である。また、出力部１０ｃは、データが出力される出力端子、ディスプレイ、所定のプログラムを読み込んだＣＰＵ１０ａによって制御されるＬＡＮカード等である。また、ＲＡＭ１０ｄは、ＳＲＡＭ (Static Random Access Memory)、ＤＲＡＭ (Dynamic Random Access Memory)等であり、所定のプログラムが格納されるプログラム領域１０ｄａ及び各種データが格納されるデータ領域１０ｄｂを有している。また、補助記憶装置１０ｆは、例えば、ハードディスク、ＭＯ（Magneto-Optical disc）、半導体メモリ等であり、所定のプログラムが格納されるプログラム領域１０ｆａ及び各種データが格納されるデータ領域１０ｆｂを有している。また、バス１０ｇは、ＣＰＵ１０ａ、入力部１０ｂ、出力部１０ｃ、ＲＡＭ１０ｄ、ＲＯＭ１０ｅ及び補助記憶装置１０ｆを、情報のやり取りが可能なように接続する。ＣＰＵ１０ａは、読み込まれたＯＳ（Operating System）プログラムに従い、補助記憶装置１０ｆのプログラム領域１０ｆａに格納されているプログラムをＲＡＭ１０ｄのプログラム領域１０ｄａに書き込む。同様にＣＰＵ１０ａは、補助記憶装置１０ｆのデータ領域１０ｆｂに格納されている各種データを、ＲＡＭ１０ｄのデータ領域１０ｄｂに書き込む。そして、このプログラムやデータが書き込まれたＲＡＭ１０ｄ上のアドレスがＣＰＵ１０ａのレジスタ１０ａｃに格納される。ＣＰＵ１０ａの制御部１０ａａは、レジスタ１０ａｃに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すＲＡＭ１０ｄ上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部１０ａｂに順次実行させ、その演算結果をレジスタ１０ａｃに格納していく。このような構成により、信号処理装置１，２および信号抽出装置３の機能構成が実現される。

　上述のプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

　このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。上述のように、このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　各実施形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

　なお、本発明は上述の実施形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

１，２　信号処理装置

Claims

　源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号から後部残響成分を抑圧する後部残響除去フィルタと、前記混合音響信号から各前記源信号に対応する成分を強調する音源分離フィルタと、を統合したフィルタである畳み込み分離フィルタを、前記混合音響信号および前記混合音響信号の遅延信号を含む混合音響信号列に適用して、前記後部残響成分が抑圧され、かつ、前記源信号のうち各目的音源から発せられた各目的信号が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する、信号処理装置。
　請求項１の信号処理装置であって、
　前記観測混合音響信号はＭ個の音源から発せられた前記源信号をＭ個のマイクロホンで観測して得られ、
　前記源信号はＫ個の目的音源から発せられた目的信号を含み、
　Ｍが２以上の整数であり、Ｋが１以上の整数であり、１≦Ｋ≦Ｍ－１であり、
　前記混合音響信号がｘ（ｆ，ｔ）であり、
　ｆが離散周波数のインデックスであり、ｆ∈｛１，…，Ｆ｝であり、Ｆが正整数であり、
　ｔが離散時間のインデックスであり、ｔ∈｛１，…，Ｔ｝であり、Ｔが正整数であり、
　前記畳み込み分離フィルタがｐ_１（ｆ），．．．，ｐ_Ｋ（ｆ）を含み、
　ｐ_ｋ（ｆ）＝Ｑ（ｆ）ｗ_ｋ（ｆ）がｋ番目の目的音源から発せられた目的信号に対応する畳み込み分離フィルタ成分であり、ｋ∈｛１，…，Ｋ｝であり、ｗ_ｋ（ｆ）がｋ番目の目的音源から発せられた目的信号に対応する成分を強調する前記音源分離フィルタであり、

であり、Ｉ_αがα×αの単位行列であり、Ｑ_δ（ｆ）が前記後部残響除去フィルタであり、δ∈Δであり、Δ∈｛τ_１，…，τ_｜Δ｜｝であり、｜Δ｜が正整数であり、
　前記混合音響信号列が

であり、
　各前記目的信号が

を含み、α^Ｈがαのエルミート転置である、信号処理装置。
　請求項２の信号処理装置であって、
　前記源信号はさらにＭ－Ｋ個の雑音源から発せられた雑音信号を含み、
　前記畳み込み分離フィルタがさらにＰ_ｚ（ｆ）を含み、
　Ｐ_ｚ（ｆ）＝Ｑ（ｆ）Ｗ_ｚ（ｆ）が雑音源から発せられた雑音信号に対応する畳み込み分離フィルタ成分であり、Ｗ_ｚ（ｆ）が雑音源から発せられた雑音信号に対応する成分を強調する前記音源分離フィルタであり、
　各前記雑音信号に対応する情報が

であり、
　ｓ_ｋ（ｔ）～ＣＮ（０_Ｆ，λ_ｋ（ｔ）Ｉ_Ｆ）
　ｚ（ｆ，ｔ）～ＣＮ（０_Ｍ－Ｋ，Ｉ_Ｍ－Ｋ）
であり、
　ｓ_ｋ（ｔ）：＝［ｓ_ｋ（１，ｔ），…，ｓ_ｋ（Ｆ，ｔ）］^Ｔであり、λ_ｋ（ｔ）がｓ_ｋ（ｔ）のパワースペクトルであり、α^Ｔがαの転置であり、ＣＮ（μ，Σ）が平均ベクトルμで分散共分散行列Σの複素正規分布であり、０_αがすべての要素が０のα次元ベクトルであり、β～ＣＮ（μ，Σ）が、βが前記複素正規分布ＣＮ（μ，Σ）に従っていることを表し、

であり、ｐ（α）がαの生じる確率である、信号処理装置。
　請求項３の信号処理装置であって、
　前記畳み込み分離フィルタＰ（ｆ）＝［ｐ_１（ｆ），．．．，ｐ_Ｋ（ｆ），Ｐ_ｚ（ｆ）］を固定したもとで、ｓ_ｋ（ｔ）のパワースペクトル

を得るパワースペクトル推定部と、
　各前記目的信号のパワースペクトルλ_ｋ（ｔ）を固定したもとで、ｆに対応する各周波数で前記混合音響信号ｘ（ｆ，ｔ）に対する目的関数

を最小化する前記畳み込み分離フィルタＰ（ｆ）を前記周波数ごとに得る畳み込み分離フィルタ推定部と、
　所定の条件を満たすまで、前記パワースペクトル推定部の処理と前記畳み込み分離フィルタ推定部の処理とを交互に実行させる制御部と、
を有し、

であり、

であり、
　前記畳み込み分離フィルタＰ（ｆ）の最初のＭ行成分がＷ（ｆ）：＝［ｗ_１（ｆ），．．．，ｗ_Ｋ（ｆ），Ｗ_ｚ（ｆ）］であり、
　ｔｒ（α）がαの対角和であり、ｄｅｔ（α）がαの行列式である、信号処理装置。
　請求項４の信号処理装置であって、
　α^－Ｈがαの逆行列のエルミート転置であり、e_kがｋ番目の成分が１のＭ次元単位ベクトルであり、Ｅ_ｚ：＝［ｅ_Ｋ＋１，．．．，ｅ_Ｍ］であり、Ｅ_ｓ：＝［ｅ_１，．．．，ｅ_Ｋ］であり、Ｗ_ｓ（ｆ）：＝［ｗ_１（ｆ），．．．，ｗ_Ｋ（ｆ）］であり、０_α×βがすべての要素が０のα×β行列であり、
　前記畳み込み分離フィルタ推定部は、
　ｋ＝１，…，Ｋについて、

および

を得、

を得る、信号処理装置。
　請求項４の信号処理装置であって、
　Ｋ＝１であり、
　０_Ｌ×Ｍがすべての要素が０のＬ×Ｍ行列であり、
　Ｖ_１（ｆ）がＧ_１（ｆ）^－１の先頭のＭ×Ｍの小行列であり、
　Ｖ_ｚ（ｆ）がＧ_ｚ（ｆ）^－１の先頭のＭ×Ｍの小行列であり、
　前記畳み込み分離フィルタ推定部は、

を満たすＭ×Ｍ行列Ｖ_１（ｆ）およびＬ×Ｍ行列Ｃ（ｆ）を得、
　固有値問題Ｖ_１（ｆ）ｑ＝λＶ_ｚ（ｆ）ｑを解いて最大固有値λに対応する固有ベクトルｑ＝ａ_１（ｆ）を得、

を得る、信号処理装置。
　請求項６の信号処理装置であって、
　前記畳み込み分離フィルタ推定部は、

によって前記固有ベクトルｑ＝ａ_１（ｆ）を得る、信号処理装置。
　請求項１の信号処理装置であって、
　前記モデルパラメータは、各前記目的信号のパワースペクトル、および、前記畳み込み分離フィルタを含み、
　前記畳み込み分離フィルタを固定したもとで、各前記目的信号の前記パワースペクトルを推定するパワースペクトル推定部と、
　各前記目的信号の前記パワースペクトルを固定したもとで、各周波数で前記混合音響信号に対する目的関数を最適化する前記畳み込み分離フィルタを周波数ごとに推定する畳み込み分離フィルタ推定部と、
　所定の条件を満たすまで、前記パワースペクトル推定部の処理と前記畳み込み分離フィルタ推定部の処理とを交互に実行させる制御部と、
を有する信号処理装置。
　源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号から後部残響成分を抑圧する後部残響除去フィルタと、前記混合音響信号から各前記源信号に対応する成分を強調する音源分離フィルタと、を統合したフィルタである畳み込み分離フィルタを、前記混合音響信号および前記混合音響信号の遅延信号を含む混合音響信号列に適用して、前記後部残響成分が抑圧され、かつ、前記源信号のうち各目的音源から発せられた各目的信号が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する、信号処理方法。
　請求項１から８の何れかの信号処理装置としてコンピュータを機能させるためのプログラム。