WO2021100215A1

WO2021100215A1 - 音源信号推定装置、音源信号推定方法、プログラム

Info

Publication number: WO2021100215A1
Application number: PCT/JP2020/006968
Authority: WO
Inventors: 江村　暁
Original assignee: 日本電信電話株式会社
Priority date: 2019-11-18
Filing date: 2020-02-21
Publication date: 2021-05-27
Also published as: WO2021100094A1

Abstract

振幅成分と位相成分の両方を考慮してクロストーク成分を除去することにより音質劣化を抑制することができる音源信号推定技術を提供する。β_m,m'(ω) (1≦m≦M, 1≦m'≦M, m'≠m)を第m分離音源信号^S_m(f, ω)に第m'音源からの信号のクロストーク成分が混入する程度を示す係数とし、クロストーク成分除去部は、1≦m≦M, 1≦m'≦M, m'≠mを満たすmとm'の組に対する所定の最適化問題を解くことにより、係数β_m,m'(ω)を計算する係数計算部と、第m分離音源信号^S_m(f, ω) (m=1, …, M)から、係数β_m,m'(ω)を用いて第m推定音源信号~S_m(f, ω) (m=1, …, M)を計算するクロストーク成分除去信号計算部とを含む。

Description

音源信号推定装置、音源信号推定方法、プログラム

　本発明は、音源信号を推定する技術に関する。

　複数のマイクロホンを音場に設置して取得したマルチチャネルの収音信号に含まれる複数の音源からの信号（以下、音源信号という）を個々の音源信号に分離する技術が近年盛んに研究開発されている。そのような方法の一例として、独立成分解析(Independent Component Analysis; ICA)に基づくブラインド音源分離(Blind Source Separation; BSS)がよく知られている。

　以下、BSSの例について説明する。はじめに、M個の音源がある音場にM個のセンサが設置されている場合を考える。M個の音源のそれぞれを第m音源(m=1, …, M)といい、第m音源からの信号（以下、第m音源信号という）(m=1, …, M)をs_m(k)（ただし、kは時刻を表す）と表す。また、M個のセンサのそれぞれを第nセンサ(n=1, …, M)といい、第nセンサにより第1音源信号s₁(k), …, 第M音源信号s_M(k)を収音した信号（以下、第n収音信号という）(n=1, …, M)をy_n(k)（ただし、kは時刻を表す）と表す。このとき、第n収音信号y_n(k) (n=1,…, M)が、次式により記述されるモデル（瞬時混合モデル）を考える。

　ここで、h_n,mは混合係数である。なお、混合係数h_n,mはスカラーである。

　ICAに基づくBSSでは、次式のように、分離係数w_m,nを第n収音信号y_n(k)に掛けて和をとることで、第m音源からの信号を音源分離し、第m分離音源信号^s_m(k) (m=1,…, M)を得る。

　このとき、分離係数w_m,nは、各音源信号が統計的により独立になるように更新される。このような更新方法として、Natural Gradient法やFastICAが知られている。

　次に、センサの代わりにマイクロホンが音場に設置されている場合を考える。つまり、M個の音源がある音場にM個のマイクロホンが設置されている場合を考える。M個のマイクロホンのそれぞれを第nマイクロホン(n=1, …, M)といい、第nマイクロホンにより第1音源信号s₁(k), …, 第M音源信号s_M(k)を収音した信号（以下、第n収音信号という）(n=1, …, M)をy_n(k)（ただし、kは時刻を表す）と表す。このとき、第n収音信号y_n(k) (n=1,…, M)が、畳み込みを用いた次式により記述されるモデル（畳み込み混合モデル）を考える。

　ここで、h_n,m(p)は第m音源から第nマイクロホンまでの音響経路のインパルス応答、Pは音響経路のインパルス応答の長さである。

　BSSでは、FIRフィルタw_m,n(q)を用いた次式により、第m音源からの信号を音源分離し、第m分離音源信号^s_m(k) (m=1,…, M)を得る。

　ここで、QはFIRフィルタのフィルタ長である。

　音響経路のインパルス応答の長さPは、通常の残響時間T₆₀＝400ms程度で16kHzサンプリングのとき、数千タップになるため、FIRフィルタのフィルタ長Qも数千になる。そのため、畳み込み混合モデルにおけるBSSの計算は、瞬時混合モデルにおけるBSSのそれと比べて遥かに困難なものとなる。

　そこで、畳み込み混合モデルにおけるBSSに対しては、通常、周波数領域処理のアプローチが適用される。このアプローチでは、短時間フーリエ変換(Short-Time Fourier Transform; STFT)を第n収音信号y_n(k)に適用して周波数領域へ変換する。これにより、畳み込み混合モデルは、次式のような、周波数ごとの瞬時混合モデルの集まりに変換される。

　ここで、fはSTFTで信号をフレーム化する際のフレーム番号、ωは周波数であり、S_m(f, ω)は、s_m(k)を周波数領域変換することにより得られる第m音源信号、H_n,m(ω)は、h_n,m(p)を周波数領域変換することにより得られる、第m音源から第nマイクロホンまでの音響経路のインパルス応答、Y_n(f, ω)は、y_n(k)を周波数領域変換することにより得られる第n収音信号である。また、・^Tは転置を表す。

　このとき、分離フィルタW(ω)は、次式により与えられる。

　分離フィルタW(ω)は、各周波数において、先述のNatural Gradient法やFastICA をそのまま適用することで、更新することができる。そのため、このようなアプローチは周波数領域ICA(Frequency-Domain ICA; FDICA)と呼ばれる。

　このFDICAでは、各周波数を個別に処理するため、２つの問題が生じる。１つ目の問題は、スケーリング問題と呼ばれるものであり、各周波数において各音源信号が別々のゲインで推定されてしまうという問題である。２つ目の問題は、パーミュテーション問題と呼ばれるものであり、各周波数において音源が別々の順番で推定されてしまうという問題である。

　スケーリング問題については、推定された音源信号とマイクロホンによる収音信号との間の伝達特性に着目して、マイクロホンの位置における音源信号成分を回復する手法により解決されており、パーミュテーション問題については、推定された音源信号から求めたアクティビティシーケンスのクラスタリングによる方法により解決されている（非特許文献１参照）。

　以下、音源分離した音源信号ベクトルs’(f, ω)に対してスケーリング問題およびパーミュテーション問題を解決した音源信号ベクトル^s(f, ω)を

とする。なお、音源信号ベクトル^s(f, ω)の第m要素^S_m(f, ω)を第m分離音源信号という。また、簡単のため、ωを省略して記載することとする。

　FDICAによる音源分離を行うと、ある音源からの信号を音源分離した分離音源信号を得ることができるが、分離性能が不十分となることも多い。これは、分離音源信号に他の音源からの信号のクロストーク成分が混入しているためであり、残響時間が短くない場合にはその影響は大きくなる。ここで、他の音源からの信号のクロストーク成分とは、他の音源からの信号や他の音源からの信号の残響のことである。

　このクロストーク成分を抑圧する方法として、非特許文献２、非特許文献３に記載の方法がある。これらの方法では、例えば、第1分離音源信号^S₁(f)の中に第2音源に由来する微量の信号が混入しているという、次式のようなモデルを用いる。

　ここで、α_1,2は第1分離音源信号^S₁(f)に第2音源からの信号のクロストーク成分が混入する程度を示す係数である。

　このモデルに対して相関を用いると、

となる。ここで、・^*は複素共役を表す。α_1,2は

として求めることができる。ここで、E［・］は期待値を表す。

　この結果から、本来の信号である第1音源信号S₁(f)の振幅|S₁(f)|は、次式を満たすと考える。

　したがって、クロストーク成分を抑圧した第1推定音源信号~S₁(f)は、ウィーナーフィルタρ₁を用いて、次式により得られる。

　あるいは、クロストーク成分を抑圧した第1推定音源信号~S₁(f)は、ウィーナーフィルタρ₁(f)を用いて、次式により得られる。

　ここで、λ(0<λ<1)は平滑化用の忘却定数である。

H. Sawada, S. Araki, S. Makino, "MLSP 2007 Data Analysis Competition: Frequency-Domain Blind Source Separation for Convolutive Mixtures of Speech/Audio Signals," IEEE International Workshop on Machine Learning for Signal Processing (MLSP 2007), pp.45-50, Aug. 2007. R. Mukai, S. Araki, H. Sawada, and S. Makino, "Removal of residual cross-talk components in blind source separation using time-delayed spectral subtraction," in Proc. ICASSP, vol.2, pp.1789-1792, May 2002. R. Aichner, M. Zourub, H. Buchner, and W. Kellermann, "Post-processing for convolutive blind source separation," in Proc. ICASSP, vol.5, pp.37-41, May 2006.

　しかし、非特許文献２や非特許文献３のクロストーク成分抑圧方法では、各周波数において振幅成分のみを対象としているため、クロストーク成分に関する位相成分が無視される結果となり、ミュージカルトーンが生じやすく音質が劣化しやすいという問題がある。

　そこで本発明では、振幅成分と位相成分の両方を考慮してクロストーク成分を除去することにより音質劣化を抑制することができる音源信号推定技術を提供することを目的とする。

　本発明の一態様は、Mを2以上の整数、s_m(k)（ただし、kは時刻を表す）を第m音源からの信号（以下、第m音源信号という）(m=1, …, M)、y_n(k)（ただし、kは時刻を表す）を第nマイクロホンにより第1音源信号s₁(k), …, 第M音源信号s_M(k)を収音した信号（以下、第n収音信号という）(n=1, …, M)、Y_n(f, ω) (n=1, …, M)（ただし、fはフレーム番号、ωは周波数を表す）を第n収音信号y_n(k)の周波数領域における信号（以下、第n収音信号という）とし、第n収音信号Y_n(f, ω) (n=1, …, M)から、第m音源信号s_m(k)の周波数領域における信号である第m音源信号S_m(f, ω)を分離した信号である第m分離音源信号^S_m(f, ω) (m=1, …, M)を生成する音源分離部と、第m分離音源信号^S_m(f, ω) (m=1, …, M)から、第m推定音源信号~S_m(f, ω) (m=1, …, M)を生成するクロストーク成分除去部と、を含む音源信号推定装置であって、β_m,m’(ω) (1≦m≦M, 1≦m’≦M, m’≠m)を第m分離音源信号^S_m(f, ω)に第m’音源からの信号のクロストーク成分が混入する程度を示す係数とし、前記クロストーク成分除去部は、1≦m≦M, 1≦m’≦M, m’≠mを満たすmとm’の組に対する最適化問題

を解くことにより、係数β_m,m’(ω)を計算する係数計算部と、第m分離音源信号^S_m(f, ω) (m=1, …, M)から、次式により、第m推定音源信号~S_m(f, ω) (m=1, …, M)を計算するクロストーク成分除去信号計算部と、

を含む。

　本発明の一態様は、Mを2以上の整数、s_m(k)（ただし、kは時刻を表す）を第m音源からの信号（以下、第m音源信号という）(m=1, …, M)、y_n(k)（ただし、kは時刻を表す）を第nマイクロホンにより第1音源信号s₁(k), …, 第M音源信号s_M(k)を収音した信号（以下、第n収音信号という）(n=1, …, M)、Y_n(f, ω) (n=1, …, M)（ただし、fはフレーム番号、ωは周波数を表す）を第n収音信号y_n(k)の周波数領域における信号（以下、第n収音信号という）とし、第n収音信号Y_n(f, ω) (n=1, …, M)から、第m音源信号s_m(k)の周波数領域における信号である第m音源信号S_m(f, ω)を分離した信号である第m分離音源信号^S_m(f, ω) (m=1, …, M)を生成する音源分離部と、第m分離音源信号^S_m(f, ω) (m=1, …, M)から、第m推定音源信号~S_m(f, ω) (m=1, …, M)を生成するクロストーク成分除去部と、を含む音源信号推定装置であって、Dを1以上の整数、β_m,m’,d(ω) (1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)を第m分離音源信号^S_m(f, ω)にdフレーム前の第m’音源からの信号のクロストーク成分が混入する程度を示す係数とし、前記クロストーク成分除去部は、1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦Dを満たすmとm’とdの組に対する最適化問題

を解くことにより、係数β_m,m’,d(ω)を計算する係数計算部と、第m分離音源信号^S_m(f, ω) (m=1, …, M)から、次式により、第m推定音源信号~S_m(f, ω) (m=1, …, M)を計算するクロストーク成分除去信号計算部と、

を含む。

　本発明の一態様は、Mを2以上の整数、s_m(k) (m=1, …, M)（ただし、kは時刻を表す）を第m音源からの信号（以下、第m音源信号という）、y_n(k) (n=1, …, M)（ただし、kは時刻を表す）を第nマイクロホンにより第1音源信号s₁(k), …, 第M音源信号s_M(k)を収音した信号（以下、第n収音信号という）、Y_n(f, ω) (n=1, …, M)（ただし、fはフレーム番号、ωは周波数を表す）を第n収音信号y_n(k)の周波数領域における信号（以下、第n収音信号という）とし、第n収音信号Y_n(f, ω) (n=1, …, M)から、第m音源信号s_m(k)の周波数領域における信号である第m音源信号S_m(f, ω)を分離した信号である第m分離音源信号^S_m(f, ω) (m=1, …, M)を生成する音源分離部と、第m分離音源信号^S_m(f, ω) (m=1, …, M)から、第m推定音源信号~S_m(f, ω) (m=1, …, M)を生成するクロストーク成分除去部と、を含む音源信号推定装置であって、Dを1以上の整数、β_m,m’,d(ω) (1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)を第m分離音源信号^S_m(f, ω)にdフレーム前の第m’音源からの信号のクロストーク成分が混入する程度を示す係数とし、前記クロストーク成分除去部は、第m分離音源信号^S_m(f, ω) (m=1, …, M)を用いて、係数β_m,m’,d(ω)(1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)を計算する係数計算部と、第m分離音源信号^S_m(f, ω) (m=1, …, M)から、次式により、第m推定音源信号~S_m(f, ω) (m=1, …, M)を計算するクロストーク成分除去信号計算部と、

を含み、1≦m≦M, 1≦m’≦M, m’≠mに対して、ベクトル^s_m, 行列^S_m’, ベクトルb_m,m’をそれぞれ次式で定義し、

（ただし、Lはフレーム数を表す所定の正の整数）、_S_mを行列^S_m’ (1≦m’≦M, m’≠m)を横方向に並べた行列、_b_mをベクトルb_m,m’(1≦m’≦M, m’≠m)を縦方向に並べたベクトルとし、前記係数計算部は、次式により、カウンタk+1におけるベクトルp_mの値p_m ^(k+1)を計算するベクトル更新部と、

（ただし、S_1/2ρ(・)は所定の数ρを用いて定義されるソフトスレシュホールディングオペレータ）、次式により、カウンタk+1におけるベクトル_b_mの値_b_m ^(k+1)とカウンタk+1における補助ベクトルq_mの値q_m ^(k+1)とを計算する第１補助ベクトル更新部と、

次式により、カウンタk+1における補助ベクトルu_mの値u_m ^(k+1)を計算する第２補助ベクトル更新部と、

所定の終了条件を満たした場合、そのときのベクトル_b_mの値を係数β_m,m’,d(ω)(1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)として出力する終了条件判定部と、を含む。

　本発明によれば、振幅成分と位相成分の両方を考慮してクロストーク成分を除去し、音源信号を推定することで、音質劣化を抑制することが可能となる。

音源信号推定装置１００／２００の構成を示すブロック図である。音源信号推定装置１００／２００の動作を示すフローチャートである。クロストーク成分除去部１３０／２３０の構成を示すブロック図である。クロストーク成分除去部１３０／２３０の動作を示すフローチャートである。係数計算部２３２の構成を示すブロック図である。係数計算部２３２の動作を示すフローチャートである。本発明の実施形態における各装置を実現するコンピュータの機能構成の一例を示す図である。

　以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

　各実施形態の説明に先立って、この明細書における表記方法について説明する。

　^（キャレット）は上付き添字を表す。例えば、x^{y^z}はy^zがxに対する上付き添字であり、x_y^zはy^zがxに対する下付き添字であることを表す。また、_（アンダースコア）は下付き添字を表す。例えば、x^y_zはy_zがxに対する上付き添字であり、x_{y_z}はy_zがxに対する下付き添字であることを表す。

　ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。また、ある文字xに対する_xのような下付き添え字の”_”は、本来”x”の真下に記載されるべきであるが、明細書の記載表記の制約上、_xと記載しているものである。

＜技術的背景＞
ここでは、本発明の実施形態における音源信号の推定手順について説明する。

《音源信号推定手順》
（ステップ１：STFT変換）
　第n収音信号y_n(k) (n=1,…, M)を、STFTを用いて周波数領域における信号である第n収音信号Y_n(f, ω) (n=1,…, M)に変換する。

（ステップ２：音源分離）
　第n収音信号Y_n(f, ω) (n=1,…, M)に対して、従来の周波数領域のブラインド音源分離（例えば、非特許文献１に記載の方法）を適用することで、周波数領域において各音源からの信号を分離した第m分離音源信号^S_m(f, ω) (m=1, …, M)を得る。

（ステップ３：クロストーク成分除去）
　はじめに、音源が2つの場合を例に説明する。ここでは、第1分離音源信号^S₁(f, ω)には、第2音源からの信号のクロストーク成分が含まれるという、次式のモデルを用いる。

　ここで、β_1,2(ω)は第1分離音源信号^S₁(f, ω)に第2音源からの信号のクロストーク成分が混入する程度を示す係数である。

　そして、第1分離音源信号^S₁(f, ω)から、1フレーム前の、すなわちf-1フレームの第2分離音源信号^S₂(f, ω)の成分を差し引くことで、推定精度を向上させた第1推定音源信号~S₁(f, ω)を得る。つまり、第1推定音源信号~S₁(f, ω)は次式により得られる。

　その際、係数β_1,2(ω)を求める必要があるが、係数β_1,2(ω)は、第1推定音源信号~S₁(f, ω)が信号としてよりスパースになるように、第1推定音源信号~S₁(f, ω)に関する次式の最適化問題

（Lはフレーム数を表す所定の正の整数）を解いて、求める。なお、第1推定音源信号~S₁(f, ω)に関するベクトル[^S₁(1, ω), …, ^S₁(L-1, ω)]^T-β_1,2(ω)[^S₂(0, ω), …, ^S₂(L-2, ω)]^TのL1ノルムのことをコスト関数という。

　同様に、第2推定音源信号~S₂(f, ω)についても求めることができる。

　一般に、音源がM個ある場合には、第m推定音源信号~S_m(f, ω)は次式により計算されるものとし、

（ただし、β_m,m’(ω) (1≦m≦M, 1≦m’≦M, m’≠m)は第m分離音源信号^S_m(f, ω)に第m’音源からの信号のクロストーク成分が混入する程度を示す係数である）、第m推定音源信号~S_m(f, ω)が信号としてよりスパースになるように、第m推定音源信号~S_m(f, ω)に関する次式の最適化問題

（Lはフレーム数を表す所定の正の整数）を解いて、係数β_m,m’を求めればよい。

　この最適化問題は凸問題であるため、唯一の解が存在する。その解は、例えば、Alternating Direction Method of Multipliers(ADMM)等を用いることで求めることができる。

　以上まとめると、各周波数においてクロストーク成分を除去した第m推定音源信号~S_m(f,ω)が得られる。

（ステップ４：逆STFT）
　第m推定音源信号~S_m(f,ω)を、逆STFT変換を用いて時間領域における信号である第m推定音源信号~s_m(k)(1≦m≦M)に変換する。

《変形例》
　上記音源信号推定手順では、ステップ３において過去のフレームを1つだけ用いてクロストーク成分を除去したが、2以上の過去のフレームを用いて除去するようにしてもよい。

　D個（Dは1以上の整数）の過去のフレームを用いる場合は、第m推定音源信号~S_m(f, ω)は次式により計算されるものとし、

（ただし、β_m,m’,d(ω) (1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)は第m分離音源信号^S_m(f, ω)にdフレーム前の第m’音源からの信号のクロストーク成分が混入する程度を示す係数である）、第m推定音源信号~S_m(f, ω)が信号としてよりスパースになるように、第m推定音源信号~S_m(f, ω)に関する次式の最適化問題

（Lはフレーム数を表す所定の正の整数）を解いて、係数β_m,m’,d(ω)を求めればよい。この最適化問題も凸問題であるので唯一の解を持ち、ADMM等を用いて求めることができる。

　以下、具体的解法について説明する。上記最適化問題は、ベクトル^s_m, 行列^S_m’, ベクトルb_m,m’(1≦m≦M, 1≦m’≦M, m’≠m) を用いると、以下のように書き換えることができる。

　ここで、ベクトル^s_m, 行列^S_m’, ベクトルb_m,m’はそれぞれ次式で与えられる。

（ただし、Lはフレーム数を表す所定の正の整数）
　上記書き換えた最適化問題をADMMにより解くために、関数f(p_m)=||p_m||₁を用いてさらに以下のように書き換える。

　ここで、_S_mは行列^S_m’ (1≦m’≦M, m’≠m)を横方向に並べた行列、_b_mはベクトルb_m,m’(1≦m’≦M, m’≠m)を縦方向に並べたベクトルである。

　したがって、1<m<Mを満たすmに対して、行列_S_m、ベクトル_b_mは、それぞれ以下のようになる。

　ここで、行列_S_m、ベクトル_b_mは、それぞれ行列^S_m、ベクトルb_m,mを含んでいないことに留意する。

　参考非特許文献１の５章に従い、インディケータ関数g(q_m)=I_C(q_m)を用いると、上記最適化問題は、次式のように書き換えることができる。

　ここで、関数I_C(q_m)は、ベクトルq_mを^s_m-_S_m_b_mで表現されるベクトルに限定するものであり、具体的には、結合係数を_b_mとするベクトル^s_mと行列_S_mの列ベクトルとの線形結合として与えられる。なお、関数I_Cの添え字のCはベクトル^s_mと行列_S_mの列ベクトルとの線形結合を用いて定義される部分空間を表す。
（参考非特許文献１：S. Boyd, N. Parikh, E. Chu, B. Peleato, and J. Eckstein, “Distributed optimization and statistical learining via the alternate direction method of multipliers,” Found. Trends Math. Learn., vol.3, no.1, pp.1-122, Jan 2011.）

　この最適化問題は、以下の３式で表される更新処理を繰り返すことで解くことができる。

　ここで、Π_c(p)は、ベクトルpを部分空間Cに射影する関数である。

　式(1)は、参考非特許文献１の４．４．３節にあるソフトスレシュホールディングオペレータ(soft thresholding operator) S_1/2ρ(・)を用いると、以下のように変形できる。

　また、式(2)の関数Π_c(p)は、ベクトルp_m ^(k+1)+u_m ^(k)とベクトル^s_m-_S_m_b_mの距離を最小にするベクトル_b_mを求めることに対応する。すなわち、最適化問題argmin||^s_m-_S_m_b_m-( p_m ^(k+1)+u_m ^(k))||₂ ²の解として求めることができ、以下の更新式を用いて得ることができる。

　ここで、・^Hはエルミート転置を表す。

　なお、参考非特許文献２、参考非特許文献３によると、関数fに基づいて厳密に式(1)を解く代わりに、関数fに近い特性を持つ関数を用いて近似的に解くことが可能である。具体的には、次式を用いてベクトルp_mを更新するとよい。

　上記更新処理では、複素数の実部と虚部をそれぞれ別個に簡略的に計算している。そのため、推定精度をほとんど落とすことなく、処理速度を向上させることができる。
（参考非特許文献２：S. Venkatakrishnan, C. Bouman, and B. Wohlerg, “Plug-and-play priors for model based reconstruction,” in Proc. IEEE Global Conf. Signal Inf. Process., pp.945-948, 2013.）
（参考非特許文献３：S. Chan, X. Wang, and O. A. Elgendy, “Plug-and-play ADMM for image restoration: Fixed-point convergence and applications,” IEEE Trans. Comput. Imag., vol.3, no.1, pp.1323-1327, Mar 2017.）

＜第１実施形態＞
　以下、図１～図２を参照して音源信号推定装置１００を説明する。図１は、音源信号推定装置１００の構成を示すブロック図である。図２は、音源信号推定装置１００の動作を示すフローチャートである。図１に示すように音源信号推定装置１００は、周波数領域変換部１１０と、音源分離部１２０と、クロストーク成分除去部１３０と、時間領域変換部１４０と、記録部１９０を含む。記録部１９０は、音源信号推定装置１００の処理に必要な情報を適宜記録する構成部である。

　音源信号推定装置１００は、M個（Mを2以上の整数）の音源がある音場に設置されたM個のマイクロホンで収音した信号を入力とし、当該M個の音源からの信号を推定し、出力する。以下、s_m(k)（ただし、kは時刻を表す）を第m音源からの信号（以下、第m音源信号という）(m=1, …, M)、y_n(k)（ただし、kは時刻を表す）を第nマイクロホンにより第1音源信号s₁(k), …, 第M音源信号s_M(k)を収音した信号（以下、第n収音信号という）(n=1, …, M)とする。

　図２に従い音源信号推定装置１００の動作について説明する。

　Ｓ１１０において、周波数領域変換部１１０は、第n収音信号y_n(k) (n=1, …, M)を入力とし、第n収音信号y_n(k) (n=1, …, M)から、所定の周波数領域変換により、周波数領域における信号である第n収音信号Y_n(f, ω) (n=1, …, M)（ただし、fはフレーム番号、ωは周波数を表す）を生成し、出力する。周波数領域変換には、例えば、STFT変換を用いることができる。

　Ｓ１２０において、音源分離部１２０は、Ｓ１１０で生成した第n収音信号Y_n(f, ω) (n=1, …, M)を入力とし、第n収音信号Y_n(f, ω) (n=1, …, M)から、所定の音源分離手法により、第m音源信号s_m(k)の周波数領域における信号である第m音源信号S_m(f, ω)を分離した信号である第m分離音源信号^S_m(f, ω) (m=1, …, M)を生成し、出力する。音源分離手法には、例えば、非特許文献１に記載の、周波数領域のブラインド音源分離手法を用いることができる。

　Ｓ１３０において、クロストーク成分除去部１３０は、Ｓ１２０で生成した第m分離音源信号^S_m(f, ω) (m=1, …, M)を入力とし、第m分離音源信号^S_m(f, ω) (m=1, …, M)から、第m推定音源信号~S_m(f, ω) (m=1, …, M)を生成し、出力する。

　以下、図３～図４を参照してクロストーク成分除去部１３０について説明する。図３は、クロストーク成分除去部１３０の構成を示すブロック図である。図４は、クロストーク成分除去部１３０の動作を示すフローチャートである。図３に示すようにクロストーク成分除去部１３０は、係数計算部１３２と、クロストーク成分除去信号計算部１３４を含む。

　図４に従いクロストーク成分除去部１３０の動作について説明する。

　Ｓ１３２において、係数計算部１３２は、1≦m≦M, 1≦m’≦M, m’≠mを満たすmとm’の組に対する最適化問題

（Lはフレーム数を表す所定の正の整数）を解くことにより、係数β_m,m’(ω)を計算する。ここで、β_m,m’(ω) (1≦m≦M, 1≦m’≦M, m’≠m)は第m分離音源信号^S_m(f, ω)に第m’音源からの信号のクロストーク成分が混入する程度を示す係数である。また、Lは数十程度の整数とすればよい。

　Ｓ１３４において、クロストーク成分除去信号計算部１３４は、第m分離音源信号^S_m(f, ω) (m=1, …, M)とＳ１３２で計算した係数β_m,m’(ω)とから、次式により、第m推定音源信号~S_m(f, ω) (m=1, …, M)を計算する。

（変形例）
　クロストーク成分除去部１３０は、＜技術的背景＞で説明したように、過去の複数フレームのクロストーク成分を考慮するモデルに基づいて計算するようにしてもよい。以下、図４に従い説明する。

　Ｓ１３２において、係数計算部１３２は、1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D（Dは1以上の整数）を満たすmとm’とdの組に対する最適化問題

（Lはフレーム数を表す所定の正の整数）を解くことにより、係数β_m,m’,d(ω)を計算する。ここで、β_m,m’,d(ω) (1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)は第m分離音源信号^S_m(f, ω)にdフレーム前の第m’音源からの信号のクロストーク成分が混入する程度を示す係数である。

　Ｓ１３４において、クロストーク成分除去信号計算部１３４は、第m分離音源信号^S_m(f, ω) (m=1, …, M) とＳ１３２で計算した係数β_m,m’,d(ω)とから、次式により、第m推定音源信号~S_m(f, ω) (m=1, …, M)を計算する。

　Ｓ１４０において、時間領域変換部１４０は、Ｓ１３０で生成した第m推定音源信号~S_m(f, ω) (m=1, …, M)を入力とし、第m推定音源信号~S_m(f, ω) (m=1, …, M)から、所定の時間領域変換により、時間領域における信号である第m推定音源信号~s_m(k) (m=1, …, M)を生成し、出力する。時間領域変換には、例えば、逆STFT変換を用いることができる。

　本発明の実施形態によれば、振幅成分と位相成分の両方を考慮してクロストーク成分を除去し、音源信号を推定することで、音質劣化を抑制することが可能となる。その際、音源信号のスパース性を評価基準として他の音源からの信号のクロストーク成分が混入する程度を推定する。これにより、音源信号の推定精度を向上させることが可能となる。

＜第２実施形態＞
　以下、図１～図２を参照して音源信号推定装置２００を説明する。図１は、音源信号推定装置２００の構成を示すブロック図である。図２は、音源信号推定装置２００の動作を示すフローチャートである。図１に示すように音源信号推定装置２００は、周波数領域変換部１１０と、音源分離部１２０と、クロストーク成分除去部２３０と、時間領域変換部１４０と、記録部１９０を含む。つまり、音源信号推定装置２００は、クロストーク成分除去部１３０の代わりにクロストーク成分除去部２３０を含む点においてのみ、音源信号推定装置１００と異なる。

　そこで、以下、図３～図４を参照してクロストーク成分除去部２３０について説明する。図３は、クロストーク成分除去部２３０の構成を示すブロック図である。図４は、クロストーク成分除去部２３０の動作を示すフローチャートである。図３に示すようにクロストーク成分除去部２３０は、係数計算部２３２と、クロストーク成分除去信号計算部１３４を含む。つまり、クロストーク成分除去部２３０は、係数計算部１３２の代わりに係数計算部２３２を含む点においてのみ、クロストーク成分除去部１３０と異なる。

　係数計算部２３２は、第m分離音源信号^S_m(f, ω) (m=1, …, M)を用いて、係数β_m,m’,d(ω)(1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)を計算する構成部である。以下、図５～図６を参照して係数計算部２３２について説明する。図５は、係数計算部２３２の構成を示すブロック図である。図６は、係数計算部２３２の動作を示すフローチャートである。図５に示すように係数計算部２３２は、初期化部２３２１と、ベクトル更新部２３２２と、第１補助ベクトル更新部２３２３と、第２補助ベクトル更新部２３２４と、カウンタ更新部２３２５と、終了条件判定部２３２６を含む。

　図６に従い係数計算部２３２の動作について説明する。ここで、説明に必要になるベクトルや行列についていくつか定義を与える。

　1≦m≦M, 1≦m’≦M, m’≠mに対して、ベクトル^s_m, 行列^S_m’, ベクトルb_m,m’をそれぞれ次式で定義する。

（ただし、Lはフレーム数を表す所定の正の整数）

　また、_S_mを行列^S_m’ (1≦m’≦M, m’≠m)を横方向に並べた行列、_b_mをベクトルb_m,m’(1≦m’≦M, m’≠m)を縦方向に並べたベクトルとする。

　Ｓ２３２１において、初期化部２３２１は、Ｓ２３２２以降の処理に必要になる初期化処理を行う。初期化部２３２１は、例えば、カウンタkを初期化する。具体的には、初期化部２３２１は、k=0により、カウンタkを初期化する。なお、カウンタkのとり得る範囲を表す集合τをτ={0, 1, …, K-1}（ただし、Kは1以上の整数）とする。また、初期化部２３２１は、例えば、補助ベクトルq_m、補助ベクトルu_mを初期化する。すなわち、初期化部２３２１は、カウンタ0における補助ベクトルq_mの値q_m ⁽⁰⁾、補助ベクトルu_mの値u_m ⁽⁰⁾を設定する。

　Ｓ２３２２において、ベクトル更新部２３２２は、次式により、カウンタk+1におけるベクトルp_mの値p_m ^(k+1)を計算する。

（ただし、S_1/2ρ(・)は所定の数ρを用いて定義されるソフトスレシュホールディングオペレータ）

　Ｓ２３２３において、第１補助ベクトル更新部２３２３は、次式により、カウンタk+1におけるベクトル_b_mの値_b_m ^(k+1)とカウンタk+1における補助ベクトルq_mの値q_m ^(k+1)とを計算する。

　Ｓ２３２４において、第２補助ベクトル更新部２３２４は、次式により、カウンタk+1における補助ベクトルu_mの値u_m ^(k+1)を計算する。

　Ｓ２３２５において、カウンタ更新部１２３は、カウンタkを1だけインクリメントする。具体的には、k←k+1とする。

　Ｓ２３２６において、終了条件判定部２３２６は、所定の終了条件を満たした場合は、そのときのベクトル_b_mの値_b_m ^(K)を係数β_m,m’,d(ω)(1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)として出力し、処理を終了する。終了条件判定部２３２６は、それ以外の場合、Ｓ２３２２の処理に戻る。つまり、係数計算部２３２は、所定の終了条件を満たした場合は、そのときのベクトル_b_mの値を係数β_m,m’,d(ω)(1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)として出力し、それ以外の場合は、Ｓ２３２２～Ｓ２３２６の計算を繰り返す。所定の終了条件は、例えば、参考非特許文献１の３．３．１節に記載された条件とすることができる。

＜補記＞
　図７は、上述の各装置を実現するコンピュータの機能構成の一例を示す図である。上述の各装置における処理は、記録部２０２０に、コンピュータを上述の各装置として機能させるためのプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０などに動作させることで実施できる。

　本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

　ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

　ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成部）を実現する。

　本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

　既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

　上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。

Claims

　Mを2以上の整数、s_m(k) (m=1, …, M)（ただし、kは時刻を表す）を第m音源からの信号（以下、第m音源信号という）、y_n(k) (n=1, …, M)（ただし、kは時刻を表す）を第nマイクロホンにより第1音源信号s₁(k), …, 第M音源信号s_M(k)を収音した信号（以下、第n収音信号という）、Y_n(f, ω) (n=1, …, M)（ただし、fはフレーム番号、ωは周波数を表す）を第n収音信号y_n(k)の周波数領域における信号（以下、第n収音信号という）とし、
　第n収音信号Y_n(f, ω) (n=1, …, M)から、第m音源信号s_m(k)の周波数領域における信号である第m音源信号S_m(f, ω)を分離した信号である第m分離音源信号^S_m(f, ω) (m=1, …, M)を生成する音源分離部と、
　第m分離音源信号^S_m(f, ω) (m=1, …, M)から、第m推定音源信号~S_m(f, ω) (m=1, …, M)を生成するクロストーク成分除去部と、
　を含む音源信号推定装置であって、
　β_m,m’(ω) (1≦m≦M, 1≦m’≦M, m’≠m)を第m分離音源信号^S_m(f, ω)に第m’音源からの信号のクロストーク成分が混入する程度を示す係数とし、
　前記クロストーク成分除去部は、
　1≦m≦M, 1≦m’≦M, m’≠mを満たすmとm’の組に対する最適化問題

を解くことにより、係数β_m,m’(ω)を計算する係数計算部と、
　第m分離音源信号^S_m(f, ω) (m=1, …, M)から、次式により、第m推定音源信号~S_m(f, ω) (m=1, …, M)を計算するクロストーク成分除去信号計算部と、

　を含む音源信号推定装置。
　Mを2以上の整数、s_m(k) (m=1, …, M)（ただし、kは時刻を表す）を第m音源からの信号（以下、第m音源信号という）、y_n(k) (n=1, …, M)（ただし、kは時刻を表す）を第nマイクロホンにより第1音源信号s₁(k), …, 第M音源信号s_M(k)を収音した信号（以下、第n収音信号という）、Y_n(f, ω) (n=1, …, M)（ただし、fはフレーム番号、ωは周波数を表す）を第n収音信号y_n(k)の周波数領域における信号（以下、第n収音信号という）とし、
　第n収音信号Y_n(f, ω) (n=1, …, M)から、第m音源信号s_m(k)の周波数領域における信号である第m音源信号S_m(f, ω)を分離した信号である第m分離音源信号^S_m(f, ω) (m=1, …, M)を生成する音源分離部と、
　第m分離音源信号^S_m(f, ω) (m=1, …, M)から、第m推定音源信号~S_m(f, ω) (m=1, …, M)を生成するクロストーク成分除去部と、
　を含む音源信号推定装置であって、
　Dを1以上の整数、β_m,m’,d(ω) (1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)を第m分離音源信号^S_m(f, ω)にdフレーム前の第m’音源からの信号のクロストーク成分が混入する程度を示す係数とし、
　前記クロストーク成分除去部は、
　1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦Dを満たすmとm’とdの組に対する最適化問題

を解くことにより、係数β_m,m’,d(ω)を計算する係数計算部と、
　第m分離音源信号^S_m(f, ω) (m=1, …, M)から、次式により、第m推定音源信号~S_m(f, ω) (m=1, …, M)を計算するクロストーク成分除去信号計算部と、

　を含む音源信号推定装置。
　Mを2以上の整数、s_m(k) (m=1, …, M)（ただし、kは時刻を表す）を第m音源からの信号（以下、第m音源信号という）、y_n(k) (n=1, …, M)（ただし、kは時刻を表す）を第nマイクロホンにより第1音源信号s₁(k), …, 第M音源信号s_M(k)を収音した信号（以下、第n収音信号という）、Y_n(f, ω) (n=1, …, M)（ただし、fはフレーム番号、ωは周波数を表す）を第n収音信号y_n(k)の周波数領域における信号（以下、第n収音信号という）とし、
　第n収音信号Y_n(f, ω) (n=1, …, M)から、第m音源信号s_m(k)の周波数領域における信号である第m音源信号S_m(f, ω)を分離した信号である第m分離音源信号^S_m(f, ω) (m=1, …, M)を生成する音源分離部と、
　第m分離音源信号^S_m(f, ω) (m=1, …, M)から、第m推定音源信号~S_m(f, ω) (m=1, …, M)を生成するクロストーク成分除去部と、
　を含む音源信号推定装置であって、
　Dを1以上の整数、β_m,m’,d(ω) (1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)を第m分離音源信号^S_m(f, ω)にdフレーム前の第m’音源からの信号のクロストーク成分が混入する程度を示す係数とし、
　前記クロストーク成分除去部は、
　第m分離音源信号^S_m(f, ω) (m=1, …, M)を用いて、係数β_m,m’,d(ω)(1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)を計算する係数計算部と、
　第m分離音源信号^S_m(f, ω) (m=1, …, M)から、次式により、第m推定音源信号~S_m(f, ω) (m=1, …, M)を計算するクロストーク成分除去信号計算部と、

　を含み、
　1≦m≦M, 1≦m’≦M, m’≠mに対して、ベクトル^s_m, 行列^S_m’, ベクトルb_m,m’をそれぞれ次式で定義し、

（ただし、Lはフレーム数を表す所定の正の整数）
　_S_mを行列^S_m’ (1≦m’≦M, m’≠m)を横方向に並べた行列、_b_mをベクトルb_m,m’(1≦m’≦M, m’≠m)を縦方向に並べたベクトルとし、
　前記係数計算部は、
　次式により、カウンタk+1におけるベクトルp_mの値p_m ^(k+1)を計算するベクトル更新部と、

（ただし、S_1/2ρ(・)は所定の数ρを用いて定義されるソフトスレシュホールディングオペレータ）
　次式により、カウンタk+1におけるベクトル_b_mの値_b_m ^(k+1)とカウンタk+1における補助ベクトルq_mの値q_m ^(k+1)とを計算する第１補助ベクトル更新部と、

　次式により、カウンタk+1における補助ベクトルu_mの値u_m ^(k+1)を計算する第２補助ベクトル更新部と、

　所定の終了条件を満たした場合、そのときのベクトル_b_mの値を係数β_m,m’,d(ω)(1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)として出力する終了条件判定部と、
　を含む音源信号推定装置。
　Mを2以上の整数、s_m(k) (m=1, …, M)（ただし、kは時刻を表す）を第m音源からの信号（以下、第m音源信号という）、y_n(k) (n=1, …, M)（ただし、kは時刻を表す）を第nマイクロホンにより第1音源信号s₁(k), …, 第M音源信号s_M(k)を収音した信号（以下、第n収音信号という）、Y_n(f, ω) (n=1, …, M)（ただし、fはフレーム番号、ωは周波数を表す）を第n収音信号y_n(k)の周波数領域における信号（以下、第n収音信号という）とし、
　音源信号推定装置が、第n収音信号Y_n(f, ω) (n=1, …, M)から、第m音源信号s_m(k)の周波数領域における信号である第m音源信号S_m(f, ω)を分離した信号である第m分離音源信号^S_m(f, ω) (m=1, …, M)を生成する音源分離ステップと、
　前記音源信号推定装置が、第m分離音源信号^S_m(f, ω) (m=1, …, M)から、第m推定音源信号~S_m(f, ω) (m=1, …, M)を生成するクロストーク成分除去ステップと
　を含む音源信号推定方法であって、
　β_m,m’(ω) (1≦m≦M, 1≦m’≦M, m’≠m)を第m分離音源信号^S_m(f, ω)に第m’音源からの信号のクロストーク成分が混入する程度を示す係数とし、
　前記クロストーク成分除去ステップは、
　1≦m≦M, 1≦m’≦M, m’≠mを満たすmとm’の組に対する最適化問題

を解くことにより、係数β_m,m’(ω)を計算する係数計算ステップと、
　第m分離音源信号^S_m(f, ω) (m=1, …, M)から、次式により、第m推定音源信号~S_m(f, ω) (m=1, …, M)を計算するクロストーク成分除去信号計算ステップと、

　を含む音源信号推定方法。
　Mを2以上の整数、s_m(k) (m=1, …, M)（ただし、kは時刻を表す）を第m音源からの信号（以下、第m音源信号という）、y_n(k) (n=1, …, M)（ただし、kは時刻を表す）を第nマイクロホンにより第1音源信号s₁(k), …, 第M音源信号s_M(k)を収音した信号（以下、第n収音信号という）、Y_n(f, ω) (n=1, …, M)（ただし、fはフレーム番号、ωは周波数を表す）を第n収音信号y_n(k)の周波数領域における信号（以下、第n収音信号という）とし、
　音源信号推定装置が、第n収音信号Y_n(f, ω) (n=1, …, M)から、第m音源信号s_m(k)の周波数領域における信号である第m音源信号S_m(f, ω)を分離した信号である第m分離音源信号^S_m(f, ω) (m=1, …, M)を生成する音源分離ステップと、
　前記音源信号推定装置が、第m分離音源信号^S_m(f, ω) (m=1, …, M)から、第m推定音源信号~S_m(f, ω) (m=1, …, M)を生成するクロストーク成分除去ステップと
　を含む音源信号推定方法であって、
　Dを1以上の整数、β_m,m’,d(ω) (1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)を第m分離音源信号^S_m(f, ω)にdフレーム前の第m’音源からの信号のクロストーク成分が混入する程度を示す係数とし、
　前記クロストーク成分除去ステップは、
　1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦Dを満たすmとm’とdの組に対する最適化問題

を解くことにより、係数β_m,m’,d(ω)を計算する係数計算ステップと、
　第m分離音源信号^S_m(f, ω) (m=1, …, M)から、次式により、第m推定音源信号~S_m(f, ω) (m=1, …, M)を計算するクロストーク成分除去信号計算ステップと、

　を含む音源信号推定方法。
　Mを2以上の整数、s_m(k) (m=1, …, M)（ただし、kは時刻を表す）を第m音源からの信号（以下、第m音源信号という）、y_n(k) (n=1, …, M)（ただし、kは時刻を表す）を第nマイクロホンにより第1音源信号s₁(k), …, 第M音源信号s_M(k)を収音した信号（以下、第n収音信号という）、Y_n(f, ω) (n=1, …, M)（ただし、fはフレーム番号、ωは周波数を表す）を第n収音信号y_n(k)の周波数領域における信号（以下、第n収音信号という）とし、
　音源信号推定装置が、第n収音信号Y_n(f, ω) (n=1, …, M)から、第m音源信号s_m(k)の周波数領域における信号である第m音源信号S_m(f, ω)を分離した信号である第m分離音源信号^S_m(f, ω) (m=1, …, M)を生成する音源分離ステップと、
　前記音源信号推定装置が、第m分離音源信号^S_m(f, ω) (m=1, …, M)から、第m推定音源信号~S_m(f, ω) (m=1, …, M)を生成するクロストーク成分除去ステップと、
　を含む音源信号推定方法であって、
　Dを1以上の整数、β_m,m’,d(ω) (1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)を第m分離音源信号^S_m(f, ω)にdフレーム前の第m’音源からの信号のクロストーク成分が混入する程度を示す係数とし、
　前記クロストーク成分除去ステップは、
　第m分離音源信号^S_m(f, ω) (m=1, …, M)を用いて、係数β_m,m’,d(ω)(1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)を計算する係数計算ステップと、
　第m分離音源信号^S_m(f, ω) (m=1, …, M)から、次式により、第m推定音源信号~S_m(f, ω) (m=1, …, M)を計算するクロストーク成分除去信号計算ステップと、

　を含み、
　1≦m≦M, 1≦m’≦M, m’≠mに対して、ベクトル^s_m, 行列^S_m’, ベクトルb_m,m’をそれぞれ次式で定義し、

（ただし、Lはフレーム数を表す所定の正の整数）
　_S_mを行列^S_m’ (1≦m’≦M, m’≠m)を横方向に並べた行列、_b_mをベクトルb_m,m’(1≦m’≦M, m’≠m)を縦方向に並べたベクトルとし、
　前記係数計算ステップは、
　次式により、カウンタk+1におけるベクトルp_mの値p_m ^(k+1)を計算するベクトル更新ステップと、

（ただし、S_1/2ρ(・)は所定の数ρを用いて定義されるソフトスレシュホールディングオペレータ）
　次式により、カウンタk+1におけるベクトル_b_mの値_b_m ^(k+1)とカウンタk+1における補助ベクトルq_mの値q_m ^(k+1)とを計算する第１補助ベクトル更新ステップと、

　次式により、カウンタk+1における補助ベクトルu_mの値u_m ^(k+1)を計算する第２補助ベクトル更新ステップと、

　所定の終了条件を満たした場合、そのときのベクトル_b_mの値を係数β_m,m’,d(ω)(1≦m≦M, 1≦m’≦M, m’≠m, 0≦d≦D)として出力する終了条件判定ステップと、
　を含む音源信号推定方法。
　請求項１ないし３のいずれか１項に記載の音源信号推定装置としてコンピュータを機能させるためのプログラム。