WO2022130445A1

WO2022130445A1 - 音源信号生成装置、音源信号生成方法、プログラム

Info

Publication number: WO2022130445A1
Application number: PCT/JP2020/046508
Authority: WO
Inventors: 林太郎池下; 智広中谷; 章子荒木
Original assignee: 日本電信電話株式会社
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2022-06-23
Also published as: JP7487795B2; JPWO2022130445A1; US20240038253A1

Abstract

音源抽出の高速処理を可能とする最適化アルゴリズムに基づく音源信号生成技術を提供する。観測信号x(f, t)を用いて、分離行列W(f)=[w1(f),…, wK(f), WZ(f)]を最適化する最適化部を含む音源信号生成装置であって、最適化部は、所定の式により補助関数Vi(f)(i=1, …, K)を計算する補助関数計算部と、補助関数Vi(f)(i=1, …, K), Vz(f)を用いて分離フィルタwi(f)(i=1, …, K)を計算する第１分離フィルタ計算部と、収束条件を満たした場合、所定の式により分離フィルタWZ(f)を計算する第２分離フィルタ計算部とを含む。

Description

音源信号生成装置、音源信号生成方法、プログラム

　本発明は、複数のマイクロホンを用いて観測された混合音響信号に含まれる各音源からの信号を抽出する技術に関する。

　複数のマイクロホンを用いて観測された混合音響信号（以下、単に観測信号ともいう）から混合前の各音源からの信号を推定する音源抽出技術は、音声認識の前処理など幅広く利用されている。音源抽出技術として、例えば、非特許文献１にある独立ベクトル抽出(IVE:Independent Vector Extraction)が知られている。

Robin Scheibler and Nobutaka Ono, "Independent vector analysis with more microphones than sources," in Proc. WASPAA, 2019.

　しかし、従来の独立ベクトル抽出は、マイクロホンの数が増加するにつれて、音源抽出に要する処理時間が増大するという問題があった。

　そこで本発明では、音源抽出の高速処理を可能とする最適化アルゴリズムに基づく音源信号生成技術を提供することを目的とする。

　本発明の一態様は、K, Mを1≦K<Mを満たす整数、x(f, t)(f=1, …, F, t=1, …, T)（ただし、fは周波数ビンを表すインデックス、tは時間フレームを表すインデックスとする）をM個のマイクロホンを用いて観測されたK個の音源からの混合音の観測信号、x_i(f, t)(i=1, …, K, f=1, …, F, t=1, …,T)を第i音源の推定信号である第i音源信号、W(f)=[w₁(f),…, w_K(f), W_Z(f)]（ただし、w_i(f)∈C^M(i=1, …, K)は第i音源信号の分離フィルタ、W_Z(f)∈C^M×(M-K)は雑音信号の分離フィルタとする）を分離行列、V_i(f)(i=1, …, K)を第i音源信号の補助関数、V_Z(f)を雑音信号の補助関数とし、分離行列W(f)、補助関数V_Z(f)を初期化する初期化部と、観測信号x(f, t)を用いて、分離行列W(f)を最適化する最適化部と、分離行列W(f)を用いて、観測信号x(f, t)から第i音源信号x_i(f, t)を生成する音源信号生成部とを含む音源信号生成装置であって、前記最適化部は、所定の式により、補助関数V_i(f)(i=1, …, K)を計算する補助関数計算部と、補助関数V_i(f)(i=1, …, K), V_z(f)を用いて、分離フィルタw_i(f)(i=1, …, K)を計算する第１分離フィルタ計算部と、収束条件を満たした場合、所定の式により分離フィルタW_Z(f)を計算する第２分離フィルタ計算部とを含む。

　本発明によれば、高速に音源抽出処理を実行することが可能となる。

音源信号生成装置１００／２００の構成を示すブロック図である。音源信号生成装置１００／２００の動作を示すフローチャートである。最適化部１２０／２２０の構成を示すブロック図である。最適化部１２０／２２０の動作を示すフローチャートである。本発明の実施形態における各装置を実現するコンピュータの機能構成の一例を示す図である。

　以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

　各実施形態の説明に先立って、この明細書における表記方法について説明する。

　^（キャレット）は上付き添字を表す。例えば、x^{y^z}はy^zがxに対する上付き添字であり、x_y^zはy^zがxに対する下付き添字であることを表す。また、_（アンダースコア）は下付き添字を表す。例えば、x^y_zはy_zがxに対する上付き添字であり、x_{y_z}はy_zがxに対する下付き添字であることを表す。

　ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。

＜記法＞
　Cを複素数の集合、d, d’を1以上の整数とし、I_d∈C^d×dはd次元単位行列を、O_d,d’∈C^d×d’はd×d’零行列を表す。また、e_j ^(d)は第j要素が1、それ以外の要素は0のd次元単位ベクトルを表す。

　ベクトルv、行列Aに対して、v^T, A^Tはそれぞれベクトルvの転置ベクトル、行列Aの転置行列を表す。また、v^h, A^hはそれぞれベクトルvの複素共役転置ベクトル、行列Aの複素共役転置行列を表す。

　ベクトルvに対して、||v||はユークリッドノルムを表す。つまり、||v||=(v^hv)^1/2である。

＜技術的背景＞
（１：問題の定式化）
　以下、音源抽出技術を短時間フーリエ変換領域における音源抽出として扱う。

　M個のマイクロホンを用いてK個の音源からの信号と(M-K)次元の雑音信号とが観測されている状況を考える。ここで、1≦K<Mであるとする。fを周波数ビンを表すインデックス、tを時間を表すインデックスとして、短時間フーリエ変換領域における観測信号x(f, t)(f=1, …, F, t=1, …,T)は以下のように表される。

　ここで、s_i(f, t)∈C(i=1, …, K)は第i音源のSTFT係数、z(f, t)∈C^M-Kは雑音のSTFT係数である。また、a_i(f)∈C^M(i=1, …, K)は第i音源からM個のマイクロホンまでの音響伝達関数、A_z(f)∈C^M×(M-K)は雑音のM個のマイクロホンまでの音響伝達関数である。

　ブラインド音源抽出問題(以下、BSE問題という)、セミブラインド音源抽出問題(以下、Semi-BSE問題という)はそれぞれ以下のように定式化される。

（BSE問題）
　音源の数K、観測信号x(f, t)(f=1, …, F, t=1, …, T)を入力とし、第i音源の推定信号である第i音源信号x_i(f, t)∈C^M(i=1, …, K, f=1, …, F, t=1, …, T)を得る問題である。

（Semi-BSE問題）
　音源の数K、観測信号x(f, t)(f=1, …, F, t=1, …, T)、音響伝達関数a_i(f)(i=1, …, L、ただし、Lは1≦L≦Kを満たす整数である)を入力とし、第i音源の推定信号である第i音源信号x_i(f, t)(i=1, …, K, f=1, …, F, t=1, …, T)を得る問題である。なお、L=Kの場合、Semi-BSE問題はビームフォーミング問題と呼ばれる。

　次に、本発明で扱うBSE問題、Semi-BSE問題に対する仮定（以下、独立ベクトル抽出のモデルという）について説明する。行列A(f)∈C^M×Mを次式で定義する。

また、ベクトルs_i(t)∈C^Fを次式で定義する。

（仮定１）
　行列A(f)∈C^M×Mに対して、W(f)^hA(f)=I_Mを満たす行列W(f)∈C^M×Mが存在するものと仮定する。ここで、

である。ここで、w_i(f)∈C^M(i=1, …, K)を第i音源信号の分離フィルタ、W_Z(f)∈C^M×(M-K)を雑音信号の分離フィルタ、行列W(f)を分離行列という。

　なお、W(f)^hA(f)=I_Mは、次式と等価である。

（仮定２）
　確率変数{s_i(t), z(f, t)}_i,f,tは互いに独立であるものと仮定する。つまり、次式が成り立つものとする。

（仮定３）
　ベクトルs_i(t)は巡回対称超ガウス分布に従うものと仮定する。つまり、次式が成り立つものとする。

　ここで、G(r)は0以上の実数の集合R_≧0から実数の集合Rへの微分可能な関数であり、関数G’(r)/r（G’はGの微分関数を表す）はr>0に関して非増加であるものとする。

（仮定４）
　雑音のSTFT係数z(f, t)∈C^M-Kは平均が零行列0_M-K、分散が単位行列I_M-Kである複素ガウス分布に従うものと仮定する。z(f, t)～CN(0_M-K, I_M-K)、すなわち、

が成り立つものとする。

　したがって、本発明で扱う独立ベクトル抽出のモデルは、仮定１から仮定４を満たすモデルのことであり、BSE問題、Semi-BSE問題は、いずれも分離行列W(f)(f=1, …,F)を求める問題に帰着する。

（２：分離行列W(f)を求めるアルゴリズム）
　ここでは、本発明の各実施形態で用いる分離行列W(f)を求めるアルゴリズムについて説明する。本アルゴリズムは上界最小化アプローチ(Majorization-minimization (MM) aproach)に基づくものであり、アルゴリズム１、アルゴリズム２、アルゴリズム３、アルゴリズム４から構成される。

　アルゴリズム１は、補助関数V_i(f)(i=1, …, K), V_z(f)を用いて、分離行列W(f)を最適化する。アルゴリズム１は、大きく、初期化処理、最適化処理、音源抽出処理に分けられる。最適化処理において、アルゴリズム２、アルゴリズム３、アルゴリズム４のいずれかを用いる。

　アルゴリズム２は、K=1の場合のBSE問題を解くためのものである。ここでは、分離行列W(f)を最適化する代わりに、第1音源に対応する分離フィルタw₁(f)のみを最適化することで、高速な音源抽出を実現している。

　アルゴリズム３は、K>1の場合のBSE問題を解くためのものである。ここでは、分離行列W(f)を最適化する代わりに、K個の音源に対応する分離フィルタw₁(f), …, w_K(f)のみを最適化することで、高速な音源抽出を実現している。

　アルゴリズム４は、Semi-BSE問題を解くためのものである。音響伝達関数が既知であるL個の音源に対応する分離フィルタw₁(f), …, w_L(f)については、LCMV(Linear Constrained Minimum Variance)ビームフォーマの最適化アルゴリズムを用いる一方で、残りのK-L個の音源に対応する分離フィルタw_L+1(f), …, w_K(f)については、アルゴリズム２またはアルゴリズム３と同様の方法で最適化することで、高速な音源抽出を実現している。

　まず、アルゴリズム１を示す。このアルゴリズムは仮定３における関数Gとして次式で定義される関数を用いることとしたものであり、パラメータα_i(i=1, …, K)も最適化の対象となる。

（ただし、βは所定の定数である）
　ここで、^-W(f)=[^-w_L+1(f),…, ^-w_K(f), ^-W_Z(f)]（ただし、^-w_i(f)∈C^(M-L)(i=L+1, …, K)は第i音源信号の分離フィルタ、^-W_Z(f)∈C^(M-L)×(M-K)は雑音信号の分離フィルタとする）とする。（アルゴリズム１）
------------------------------------------------------------------
/* Initialization */
1:

2:

3: if using アルゴリズム２or アルゴリズム３ then
4: 次式により、分離フィルタW_z(f)を更新する。

（ただし、W_s(f)=[w₁(f), …, w_K(f)], E_s=[e₁ ^(M), …, e_K ^(M)], E_z=[e_K+1 ^(M), …, e_M ^(M)]である）
5:  end if
6:  if using アルゴリズム４then
7:

（ただし、A₁(f)=[a₁(f), …, a_L(f)], E₂=[e_L+1 ^(M), …, e_M ^(M)]である）
8:

9: 次式により、分離フィルタW_z(f)を更新する。

（ただし、^-W_s(f)=[^-w_L+1(f), …, ^-w_K(f)], ^-E_s=[e₁ ^(M-L), …, e_K-L ^(M-L)], ^-E_z=[e_K-L+1 ^(M-L), …, e_M-L ^(M-L)]である）
10: end if
/* Start optimization */
11: repeat
12: for i=1, …, K do
13:

14:

15:

16:

17:

// for numerical stability
18:

19:

  // for numerical stability
20:    end for
21:    アルゴリズム２、アルゴリズム３、アルゴリズム４のいずれかを用いて各周波数ビンfに対して分離行列W(f)を更新する。
22: until convergence
23: if using アルゴリズム２ or アルゴリズム３ then
24:    次式により、分離フィルタW_z(f)を更新する。

25: end if
26: if using アルゴリズム４ then
27: 次式により、分離フィルタW_z(f)を更新する。

28: end if
29:

------------------------------------------------------------------
　次に、アルゴリズム２を示す。

（アルゴリズム２）
------------------------------------------------------------------
1: 次式を解くことにより、最大固有値λ_maxに対応するベクトルuを得る。

2:

------------------------------------------------------------------
　次に、アルゴリズム３を示す。

（アルゴリズム３）
------------------------------------------------------------------
1:  for i=1, …, K do
2:     for k∈{i, z} do
3:

4:

5: end for
6: 次式を解くことにより、最大固有値λ_maxに対応するベクトルbを得る。

7:

8: end for
------------------------------------------------------------------
　最後に、アルゴリズム４を示す。

（アルゴリズム４）
------------------------------------------------------------------
/* LCMV beamforming */
1: for i=1, …, L do
2:

3:  end for
4:  if L=K then
5:     return
6:  end if
/* BCD */
7:  for i=L+1, …, K do
8:

9: end for
10: if L=K-1 then
11: 次式を解くことにより、最大固有値λ_maxに対応するベクトル^-uを得る。

12:

13: else
14:    for i=L+1, …, K do
15:       for k∈{i, z} do
16:

17:

18: end for
19: 次式を解くことにより、最大固有値λ_maxに対応するベクトル^-bを得る。

20:

21: end for
22: end if
------------------------------------------------------------------
＜第１実施形態＞
　本実施形態では、BSE問題を解くための形態について説明する。

　音源信号生成装置１００は、M個のマイクロホンを用いて観測されたK個の音源からの混合音の観測信号x(f, t)(f=1, …, F, t=1, …,T)から第i音源の推定信号である第i音源信号x_i(f, t)(i=1, …, K, f=1, …, F, t=1, …,T)を生成する。ここで、K, Mは1≦K<Mを満たす整数とする。また、W(f)=[w₁(f),…, w_K(f), W_Z(f)]（ただし、w_i(f)∈C^M(i=1, …, K)は第i音源信号の分離フィルタ、W_Z(f)∈C^M×(M-K)は雑音信号の分離フィルタとする）を分離行列、V_i(f)(i=1, …, K)を第i音源信号の補助関数、V_Z(f)を雑音信号の補助関数とする。

　以下、図１～図２を参照して音源信号生成装置１００を説明する。図１は、音源信号生成装置１００の構成を示すブロック図である。図２は、音源信号生成装置１００の動作を示すフローチャートである。図１に示すように音源信号生成装置１００は、初期化部１１０と、最適化部１２０と、音源信号生成部１３０と、記録部１９０を含む。記録部１９０は、音源信号生成装置１００の処理に必要な情報を適宜記録する構成部である。

　図２に従い音源信号生成装置１００の動作について説明する。

　Ｓ１１０において、初期化部１１０は、分離行列W(f)、補助関数V_Z(f)を初期化し、出力する。分離行列W(f)、補助関数V_Z(f)は、例えば、＜技術的背景＞で説明したアルゴリズム１の1から5までの処理により初期化するとよい。

　Ｓ１２０において、最適化部１２０は、観測信号x(f, t)を入力とし、観測信号x(f, t)を用いて、分離行列W(f)を最適化し、出力する。

　以下、図３～図４を参照して最適化部１２０について説明する。図３は、最適化部１２０の構成を示すブロック図である。図４は、最適化部１２０の動作を示すフローチャートである。図３に示すように最適化部１２０は、補助関数計算部１２１と、第１分離フィルタ計算部１２２と、収束条件判定部１２３と、第２分離フィルタ計算部１２４とを含む。

　図４に従い最適化部１２０の動作について説明する。

　Ｓ１２１において、補助関数計算部１２１は、次式により、補助関数V_i(f)(i=1, …, K)を計算する。

（ここで、s_i(t)=[s_i(1, t),…, s_i(F, t)]^T）

（ただし、βは所定の定数とする）

　なお、補助関数計算部１２１は、アルゴリズム１にあるように、数値計算を安定させるための処理をさらに行うようにしてもよい。

　Ｓ１２２において、第１分離フィルタ計算部１２２は、補助関数V_i(f)(i=1, …, K), V_z(f)を用いて、分離フィルタw_i(f)(i=1, …, K)を計算する。具体的には、I_M-Kを(M-K)次元単位行列、e_j ^(M) (j=1, …, M)を第j要素が1、それ以外の要素は0のM次元単位ベクトル、E_s=[e₁ ^(M), …, e_K ^(M)], E_z=[e_K+1 ^(M), …, e_M ^(M)]とし、第１分離フィルタ計算部１２０は、
　K=1の場合、次式により、分離フィルタw₁(f)を計算し、

（ただし、ベクトルuはV_z(f)u=λ_maxV₁(f)uを満たす最大固有値λ_maxに対応するベクトルである）
　K>1の場合、次式により、分離フィルタw_i(f)(i=1, …, K)を計算する。

（ただし、ベクトルbはG_i(f)b=λ_maxG_z(f)bを満たす最大固有値λ_maxに対応するベクトルである）
　Ｓ１２３において、収束条件判定部１２３は、所定の収束条件が満たされたか否かを判定し、当該収束条件が満たされた場合には分離フィルタw_i(f)(i=1, …, K)を出力し、Ｓ１２４の処理に移行する一方、当該収束条件が満たされない場合にはＳ１２１の処理に戻り、Ｓ１２１～Ｓ１２３の処理を繰り返す。所定の収束条件として、例えば、予め定めた繰り返し回数に到達したか否かという条件、各パラメータ（例えば、分離フィルタw_i(f)(i=1, …, K)）の更新量が所定の閾値以下（または未満）となったか否かという条件を用いることができる。

　Ｓ１２４において、第２分離フィルタ計算部１２４は、次式により分離フィルタW_Z(f)を計算する。

（ただし、W_s(f)=[w₁(f), …, w_K(f)]とする）
　Ｓ１３０において、音源信号生成部１３０は、観測信号x(f, t)とＳ１２０で出力された分離行列W(f)とを入力とし、分離行列W(f)を用いて、観測信号x(f, t)から第i音源信号x_i(f, t)を生成し、出力する。第i音源信号x_i(f, t)は、例えば、次式により計算すればよい。

　本発明の実施形態によれば、高速に音源抽出処理を実行することが可能となる。

＜第２実施形態＞
　本実施形態では、Semi-BSE問題を解くための形態について説明する。

　音源信号生成装置２００は、M個のマイクロホンを用いて観測されたK個の音源からの混合音の観測信号x(f, t)(f=1, …, F, t=1, …,T)から第i音源の推定信号である第i音源信号x_i(f, t)(i=1, …, K, f=1, …, F, t=1, …,T)を生成する。ここで、K, Mは1≦K<Mを満たす整数とする。また、W(f)=[w₁(f),…, w_K(f), W_Z(f)]（ただし、w_i(f)∈C^M(i=1, …, K)は第i音源信号の分離フィルタ、W_Z(f)∈C^M×(M-K)は雑音信号の分離フィルタとする）を分離行列、V_i(f)(i=1, …, K)を第i音源信号の補助関数、V_Z(f)を雑音信号の補助関数とする。Lを1≦L≦Kを満たす整数、a_i(f)∈C^M(i=1, …, L)を第i音源からM個のマイクロホンまでの音響伝達関数、A₁(f)=[a₁(f), …, a_L(f)]とする。

　以下、図１～図２を参照して音源信号生成装置２００を説明する。図１は、音源信号生成装置２００の構成を示すブロック図である。図２は、音源信号生成装置２００の動作を示すフローチャートである。図１に示すように音源信号生成装置２００は、初期化部２１０と、最適化部２２０と、音源信号生成部１３０と、記録部１９０を含む。記録部１９０は、音源信号生成装置２００の処理に必要な情報を適宜記録する構成部である。

　図２に従い音源信号生成装置２００の動作について説明する。

　Ｓ２１０において、初期化部２１０は、分離行列W(f)、補助関数V_Z(f)を初期化し、出力する。分離行列W(f)、補助関数V_Z(f)は、例えば、＜技術的背景＞で説明したアルゴリズム１の1から2まで及び6から10までの処理により初期化するとよい。

　Ｓ２２０において、最適化部２２０は、観測信号x(f, t)を入力とし、観測信号x(f, t)を用いて、分離行列W(f)を最適化し、出力する。

　以下、図３～図４を参照して最適化部２２０について説明する。図３は、最適化部２２０の構成を示すブロック図である。図４は、最適化部２２０の動作を示すフローチャートである。図３に示すように最適化部２２０は、補助関数計算部１２１と、第１分離フィルタ計算部２２２と、収束条件判定部１２３と、第２分離フィルタ計算部２２４とを含む。

　図４に従い最適化部２２０の動作について説明する。

　Ｓ１２１において、補助関数計算部１２１は、所定の式により、補助関数V_i(f)(i=1, …, K)を計算する。補助関数計算部１２１は、第１実施形態の補助関数計算部１２１が用いた式を用いて計算するのでよい。

　Ｓ２２２において、第１分離フィルタ計算部１２２は、補助関数V_i(f)(i=1, …, K), V_z(f)を用いて、分離フィルタw_i(f)(i=1, …, K)を計算する。具体的には、I_M-Kを(M-K)次元単位行列、e_j ^(d) (j=1, …, d)を第j要素が1、それ以外の要素は0のd次元単位ベクトル、E₂=[e_L+1 ^(M), …, e_M ^(M)], W₂’(f)=[A₁(f), E₂]^-hE₂, ^-V_z(f)=W₂’(f)^hV_z(f)W₂’(f), ^-W(f)=[^-w_L+1(f),…, ^-w_K(f), ^-W_Z(f)]（ただし、^-w_i(f)∈C^(M-L)(i=L+1, …, K)は第i音源信号の分離フィルタ、^-W_Z(f)∈C^(M-L)×(M-K)は雑音信号の分離フィルタとする）, ^-E_s=[e₁ ^(M-L), …, e_K-L ^(M-L)], ^-E_z=[e_K-L+1 ^(M-L), …, e_M-L ^(M-L)]とし、第１分離フィルタ計算部２２０は、
　L=Kの場合、次式により、分離フィルタw_i(f)(i=1, …, K)を計算し、

　L=K-1の場合、次式により、分離フィルタw_i(f)(i=1, …, K-1)を計算し、

　次式により、分離フィルタw_K(f)を計算し、

（ただし、ベクトル^-uは^-V_z(f)^-u=λ_max ^-V_k(f)^-uを満たす最大固有値λ_maxに対応するベクトルである）
　L<K-1の場合、次式により、分離フィルタw_i(f)(i=1, …, L)を計算し、

　次式により、分離フィルタw_i(f)(i=L+1, …, K)を計算する。

（ただし、ベクトル^-bは^-G_i(f)^-b=λ_max ^-G_z(f)^-bを満たす最大固有値λ_maxに対応するベクトルである）
　Ｓ１２３において、収束条件判定部１２３は、所定の収束条件が満たされたか否かを判定し、当該収束条件が満たされた場合には分離フィルタw_i(f)(i=1, …, K)を出力し、Ｓ２２４の処理に移行する一方、当該収束条件が満たされない場合にはＳ１２１の処理に戻り、Ｓ１２１～Ｓ１２３の処理を繰り返す。

　Ｓ２２４において、第２分離フィルタ計算部１２４は、次式により分離フィルタW_Z(f)を計算する。

（ただし、^-W_s(f)=[^-w_L+l(f), …, ^-w_K(f)]である）
　Ｓ１３０において、音源信号生成部１３０は、観測信号x(f, t)とＳ１２０で出力された分離行列W(f)とを入力とし、分離行列W(f)を用いて、観測信号x(f, t)から第i音源信号x_i(f, t)を生成し、出力する。

＜補記＞
　図５は、上述の各装置を実現するコンピュータ２０００の機能構成の一例を示す図である。上述の各装置における処理は、記録部２０２０に、コンピュータ２０００を上述の各装置として機能させるためのプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０などに動作させることで実施できる。

　本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

　ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

　ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成部）を実現する。

　本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

　既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

　上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。

Claims

　K, Mを1≦K<Mを満たす整数、x(f, t)(f=1, …, F, t=1, …, T)（ただし、fは周波数ビンを表すインデックス、tは時間フレームを表すインデックスとする）をM個のマイクロホンを用いて観測されたK個の音源からの混合音の観測信号、x_i(f, t)(i=1, …, K, f=1, …, F, t=1, …,T)を第i音源の推定信号である第i音源信号、W(f)=[w₁(f),…, w_K(f), W_Z(f)]（ただし、w_i(f)∈C^M(i=1, …, K)は第i音源信号の分離フィルタ、W_Z(f)∈C^M×(M-K)は雑音信号の分離フィルタとする）を分離行列、V_i(f)(i=1, …, K)を第i音源信号の補助関数、V_Z(f)を雑音信号の補助関数とし、
　分離行列W(f)、補助関数V_Z(f)を初期化する初期化部と、
　観測信号x(f, t)を用いて、分離行列W(f)を最適化する最適化部と、
　分離行列W(f)を用いて、観測信号x(f, t)から第i音源信号x_i(f, t)を生成する音源信号生成部とを含む音源信号生成装置であって、
　前記最適化部は、
　次式により、補助関数V_i(f)(i=1, …, K)を計算する補助関数計算部と、

（ここで、s_i(t)=[s_i(1, t),…, s_i(F, t)]^T）

（ただし、βは所定の定数とする）

　補助関数V_i(f)(i=1, …, K), V_z(f)を用いて、分離フィルタw_i(f)(i=1, …, K)を計算する第１分離フィルタ計算部と、
　収束条件を満たした場合、所定の式により分離フィルタW_Z(f)を計算する第２分離フィルタ計算部と、
　を含む音源信号生成装置。
　請求項１に記載の音源信号生成装置であって、
　I_M-Kを(M-K)次元単位行列、e_j ^(M) (j=1, …, M)を第j要素が1、それ以外の要素は0のM次元単位ベクトル、E_s=[e₁ ^(M), …, e_K ^(M)], E_z=[e_K+1 ^(M), …, e_M ^(M)]とし、
　前記第１分離フィルタ計算部は、
　K=1の場合、次式により、分離フィルタw₁(f)を計算し、

（ただし、ベクトルuはV_z(f)u=λ_maxV₁(f)uを満たす最大固有値λ_maxに対応するベクトルである）
　K>1の場合、次式により、分離フィルタw_i(f)(i=1, …, K)を計算するものであり、

（ただし、ベクトルbはG_i(f)b=λ_maxG_z(f)bを満たす最大固有値λ_maxに対応するベクトルである）
　前記第２分離フィルタ計算部が用いる所定の式は、次式である

（ただし、W_s(f)=[w₁(f), …, w_K(f)]とする）
　ことを特徴とする音源信号生成装置。
　請求項１に記載の音源信号生成装置であって、
　Lを1≦L≦Kを満たす整数、a_i(f)∈C^M(i=1, …, L)を第i音源からM個のマイクロホンまでの音響伝達関数、A₁(f)=[a₁(f), …, a_L(f)]とし、
　I_M-Kを(M-K)次元単位行列、e_j ^(d) (j=1, …, d)を第j要素が1、それ以外の要素は0のd次元単位ベクトル、E₂=[e_L+1 ^(M), …, e_M ^(M)], W₂’(f)=[A₁(f), E₂]^-hE₂, ^-V_z(f)=W₂’(f)^hV_z(f)W₂’(f), ^-W(f)=[^-w_L+1(f),…, ^-w_K(f), ^-W_Z(f)]（ただし、^-w_i(f)∈C^(M-L)(i=L+1, …, K)は第i音源信号の分離フィルタ、^-W_Z(f)∈C^(M-L)×(M-K)は雑音信号の分離フィルタとする）, ^-E_s=[e₁ ^(M-L), …, e_K-L ^(M-L)], ^-E_z=[e_K-L+1 ^(M-L), …, e_M-L ^(M-L)]とし、
　前記第１分離フィルタ計算部は、
　L=Kの場合、次式により、分離フィルタw_i(f)(i=1, …, K)を計算し、

　L=K-1の場合、次式により、分離フィルタw_i(f)(i=1, …, K-1)を計算し、

　次式により、分離フィルタw_K(f)を計算し、

（ただし、ベクトル^-uは^-V_z(f)^-u=λ_max ^-V_k(f)^-uを満たす最大固有値λ_maxに対応するベクトルである）
　L<K-1の場合、次式により、分離フィルタw_i(f)(i=1, …, L)を計算し、

　次式により、分離フィルタw_i(f)(i=L+1, …, K)を計算するものであり、

（ただし、ベクトル^-bは^-G_i(f)^-b=λ_max ^-G_z(f)^-bを満たす最大固有値λ_maxに対応するベクトルである）
　前記第２分離フィルタ計算部が用いる所定の式は、次式である

（ただし、^-W_s(f)=[^-w_L+l(f), …, ^-w_K(f)]である）
　ことを特徴とする音源信号生成装置。
　K, Mを1≦K<Mを満たす整数、x(f, t)(f=1, …, F, t=1, …, T)（ただし、fは周波数ビンを表すインデックス、tは時間フレームを表すインデックスとする）をM個のマイクロホンを用いて観測されたK個の音源からの混合音の観測信号、x_i(f, t)(i=1, …, K, f=1, …, F, t=1, …,T)を第i音源の推定信号である第i音源信号、W(f)=[w₁(f),…, w_K(f), W_Z(f)]（ただし、w_i(f)∈C^M(i=1, …, K)は第i音源信号の分離フィルタ、W_Z(f)∈C^M×(M-K)は雑音信号の分離フィルタとする）を分離行列、V_i(f)(i=1, …, K)を第i音源信号の補助関数、V_Z(f)を雑音信号の補助関数とし、
　音源信号生成装置が、分離行列W(f)、補助関数V_Z(f)を初期化する初期化ステップと、
　前記音源信号生成装置が、分観測信号x(f, t)を用いて、分離行列W(f)を最適化する最適化ステップと、
　前記音源信号生成装置が、分離行列W(f)を用いて、観測信号x(f, t)から第i音源信号x_i(f, t)を生成する音源信号生成ステップとを含む音源信号生成方法であって、
　前記最適化ステップは、
　次式により、補助関数V_i(f)(i=1, …, K)を計算する補助関数計算ステップと、

（ここで、s_i(t)=[s_i(1, t),…, s_i(F, t)]^T）

（ただし、βは所定の定数とする）

　補助関数V_i(f)(i=1, …, K), V_z(f)を用いて、分離フィルタw_i(f)(i=1, …, K)を計算する第１分離フィルタ計算ステップと、
　収束条件を満たした場合、所定の式により分離フィルタW_Z(f)を計算する第２分離フィルタ計算ステップと、
　を含む音源信号生成方法。
　請求項１ないし３のいずれか１項に記載の音源信号生成装置としてコンピュータを機能させるためのプログラム。