WO2021171532A1

WO2021171532A1 - フィルタ係数最適化装置、潜在変数最適化装置、フィルタ係数最適化方法、潜在変数最適化方法、プログラム

Info

Publication number: WO2021171532A1
Application number: PCT/JP2020/008232
Authority: WO
Inventors: 遼太郎佐藤; 健太丹羽
Original assignee: 日本電信電話株式会社
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2021-09-02
Also published as: US20230083284A1; JPWO2021171532A1; JP7375904B2

Abstract

非凸最適化問題を解く代わりに、当該問題と等価な凸最適化問題を解くことにより、潜在変数を最適化する技術を提供する。L_convexを潜在変数~wに関する強凸関数、L_dを潜在変数~wに関する関数とし、最適化問題min_~w(L_convex(~w)+Σ_d=1 ^DL_d(~w))に基づいて、潜在変数~wの最適値~w^*を計算する最適化部を含む潜在変数最適化装置であって、S_d,1,…,S_d,Cを関数L_dの定義域をC個の閉凸集合に分割することにより得られる領域、Λ_d,cを領域S_d,cで定義され、関数L_dを近似する凸関数、c_dを1,…,Cを値にとる離散変数とし、最適化部は、上記最適化問題を解く代わりに、最適化問題min_{c_1,…,c_D}(min_~w(L_convex(~w)+Σ_d=1 ^DΛ_{d,c_d}(~w)))を解くことにより最適値~w^*を計算する。

Description

フィルタ係数最適化装置、潜在変数最適化装置、フィルタ係数最適化方法、潜在変数最適化方法、プログラム

　本発明は、目的音強調におけるフィルタ係数など最適化の対象となるモデルの潜在変数を最適化する技術に関する。

　特定の方角から到来する音（以下、目的音という）のみを強調し、その他の方角から到来する音（以下、非目的音という）を抑圧する信号処理手法として、マイクロホンアレイを用いたビームフォーミングがよく知られている。この手法は、電話会議システム、自動車内のコミュニケーションシステム、スマートスピーカー等で実用化されている。

　これまでに提案されているビームフォーマの設計手法の例として、複数の方角に強調したい音源がある状況で、複数の音源方向に対する応答に関して制約を課しつつ非目的音を抑圧するものがある。その一つに、線形拘束付最小分散型(Linearly Constrained Minimum Variance, LCMV)ビームフォーマがある（非特許文献１参照）。LCMVビームフォーマは、複数の方角に対するビームフォーマの応答に等式制約を課すことで目的音を強調しつつ、出力信号の分散を最小化することで非目的音を抑圧する。以下、LCMVビームフォーマの設計手法について詳しく説明する。

　まず、種々の定義とノーテーションを導入する。以下では、信号を短時間フーリエ変換(Short-Time Fourier Transform)を行った後の時間周波数領域の値として扱う。

　時間フレームの添字をt=1, …, T、周波数ビンの添字をf=1, …, Fで表す。また、ベクトルvや行列Mの複素共役転置を、v^HやM^Hのように上付きの^Hで表す。

　LCMVビームフォーマの設計は、M個のマイク素子からなるマイクアレイの観測信号から、不要な音である非目的音を消去しつつ予め定めた複数の方角からの音である目的音を強調するような線形フィルタ（ビームフォーマ）を構成するというものである。時間フレームt、周波数ビンfにおけるマイクアレイのMチャンネルの観測信号をx_f,t∈C^M(f=1, …, F, t=1, …, T)とおく。ここで、音を発する信号源である音源が遠方にD個存在し、マイクアレイには事実上の平面波として到来しているという状況を仮定する。また、すべての音源とすべてのマイク素子が同一平面上にあることを仮定する。音源d (d=1, …, D)から放音されマイクアレイに時間フレームt、周波数ビンfに到来する信号をs_d,f,t∈C(d=1, …, D, f=1, …, F, t=1, …, T)とおく。音源dの音は、方角θ_dから到来するものとする。ここで、方角θ_dは既知であると仮定する。

　音源dからマイクアレイのM個のマイク素子への周波数ビンfでのアレイマニフォールドベクトル（以下、方角θ_dから到来する平面波の音波に対応する周波数ビンfでのアレイマニフォールドベクトルという）をa_f,d∈C^M(f=1, …, F, d=1, …, D)とおくと、観測信号をx_f,tは、次式により表される。

　ただし、n_f,t(f=1, …, F, t=1, …, T)は観測の過程で加わる雑音やその他残響・非方向性雑音からなるノイズ成分を表す。なお、アレイマニフォールドベクトルa_f,dはマイクアレイや系全体の物理的特性から、周波数ビンf毎に自動的に決まる量である。

　以下、周波数ビンfでの線形フィルタをw_f∈C^M(f=1, …, F)と表し、これをビームフォーマのフィルタ係数と呼ぶ。このフィルタ係数が、ビームフォーマの動作を定める。

　ビームフォーマの出力信号y_f,t(f=1, …, F, t=1, …, T)は、次式により表される。

　つまり、ビームフォーマの設計とは、式(2)を満たすフィルタ係数w_f(f=1, …, F)をいかに設計するかということである。

　ここで、フィルタ係数w_fとアレイマニフォールドベクトルa_f,dの内積w_f ^Ha_f,dはビームフォーマの方角θ_dに対する周波数ビンfでの応答特性を意味する。したがって、方角θ_dの音源（つまり、音源d）から到来する音を必ず一定のゲインで集音したいという状況では、次式の制約条件（無歪制約条件という）をフィルタ係数w_fに対して課すという方法がしばしば用いられる。

（ただし、f=1, …, F）
　この無歪制約条件を満たしつつ、不要な音源からの信号に対するゲインができるだけ小さくなるようにフィルタ係数w_fを設定することで、音源dから到来する音の強調が達成できる。

　なお、複数の音源から到来する音を同時に強調したい場合には、この無歪制約条件を複数個同時に課せばよい。

　ビームフォーマには非目的音を抑圧することが要求されるため、目的音強調という制約のもと非目的音を最小化するように、フィルタ係数w_fを設定することが求められる。このことを数学的に定式化するために、非目的音の分散を表すコスト関数を定義する。このコスト関数を最小化するようにフィルタ係数を設定することで、所望のビームフォーマが設計できると期待される。

　非目的音の空間相関行列R_f(f=1, …, F)をR_f:=E_t[x_f,tx_f,t ^H]と定義すると、非目的音の分散を表すコスト関数L_{MV_f}(w_f)が周波数ビンf=1, …, Fごとに定義できる。具体的には、コスト関数L_{MV_f}(w_f)は次式のようになる。

　式(3)の制約条件のもと、このコスト関数L_{MV_f}(w_f)の和を最小化するように、フィルタ係数w_f(f=1, …, F)を設定することで、ビームフォーマを設計できる。このことを数式で表すと、次式の最適化問題となる。

　式(5)の最適化問題を解くことにより、最適なフィルタ係数を得ることができる。

　なお、式(5)の最適化問題は、周波数ビンf=1, …, Fごとに別々の最適化問題に分離することができる。つまり、式(5)の最適化問題の代わりに、周波数ビンfについて、次式の最適化問題を解くようにしてもよい。

　以上説明した式(5)または式(6)の最適化問題を解くことにより、LCMVビームフォーマを設計することができる。これが従来のLCMVビームフォーマの設計手法である。

浅野太, "日本音響学会編音響テクノロジーシリーズ16 音のアレイ信号処理 -音源の定位・追跡と分離-", コロナ社, pp.86-90, 2011.

　従来のLCMVビームフォーマの設計手法では、式(3)の制約条件により、ビームフォーマの応答の振幅（つまり、入力信号に対する出力信号の振幅比）と位相（つまり、入力信号に対する出力信号の位相遅延）の両者に厳格な制約を課す。そのため、式(5)または式(6)の最適化問題、すなわち、”s.t. …”以下の条件を満たす範囲で、コスト関数Σ_fL_{MV_f}(w_f)またはコスト関数L_{MV_f}(w_f)を最小化するようなフィルタ係数を求めるという問題には、式(3)の制約条件の数が多すぎるとフィルタ係数の取り得る値の範囲が著しく制限され、非目的音を抑圧することが可能なフィルタ係数を求めることが困難になってしまうという問題があった。

　この問題を解消するために、式(3)の制約条件の代わりに、より緩いコスト関数や制約条件を導入し、最適化問題の解がないという状況を避ける方法が考えられる。しかし、この場合、コスト関数の形や制約条件を緩和することにより、ビームフォーマの設計にあたって解くべき最適化問題が数学的には非凸最適化となり、最適化問題を解くのが困難になることがあった。

　そこで本発明では、非凸最適化問題を解く代わりに、当該問題と等価な凸最適化問題を解くことにより、潜在変数を最適化する技術を提供することを目的とする。

　本発明の一態様は、Dを1以上の整数とし、D個の音源（以下、音源1、…、音源Dとする）からの音（以下、目的音という）を強調するビームフォーマのフィルタ係数w={w₁, …, w_F}（ただし、w_f(f=1, …, F、Fは1以上の整数)は周波数ビンfのフィルタ係数）の最適値w^*を計算する最適化部を含むフィルタ係数最適化装置であって、R_f(f=1, …, F)を周波数ビンfに関する前記目的音以外の音の空間相関行列、L_{MV_f}(w_f)=w_f ^HR_fw_f(f=1, …, F)をフィルタ係数w_fに関するコスト関数とし、前記最適化部は、所定の制約条件のもとでのフィルタ係数wに関する最適化問題min_{w_1, …, w_F}Σ_f=1 ^FL_{MV_f}(w_f)に基づいて、前記最適値w^*を計算するものであり、前記所定の制約条件は、フィルタ係数w_f(f=1, …, F)の位相に関する制約を含まないものである。

　本発明の一態様は、L_convexを潜在変数~wに関する強凸関数、L_d(d=1, …, D、Dは1以上の整数)を潜在変数~wに関する関数とし、潜在変数~wに関する最適化問題min_~w(L_convex(~w)+Σ_d=1 ^DL_d(~w))に基づいて、潜在変数~wの最適値~w^*を計算する最適化部を含む潜在変数最適化装置であって、Cを1以上の整数、S_d,1, …, S_d,C(d=1, …, D)を関数L_dの定義域をC個の閉凸集合に分割することにより得られる領域、Λ_d,c(d=1, …, D, c=1, …, C)を領域S_d,cで定義され、関数L_dを近似する凸関数、c_d(d=1, …, D)を1, …, Cを値にとる離散変数とし、前記最適化部は、前記最適化問題min_~w(L_convex(~w)+Σ_d=1 ^DL_d(~w))を解く代わりに、潜在変数~w、離散変数c₁, …, c_Dに関する最適化問題min_{c_1, …, c_D}(min_~w(L_convex(~w)+Σ_d=1 ^DΛ_{d,c_d}(~w)))を解くことにより前記最適値~w^*を計算する。

　本発明によれば、非凸最適化問題を解く代わりに、当該問題と等価な凸最適化問題を解くことにより、潜在変数を最適化することが可能となる。

潜在変数最適化アルゴリズムを示す図である。区分的凸関数による近似の様子を示す図である。区分的凸関数による近似の様子を示す図である。区分的凸関数による近似の様子を示す図である。区分的凸関数による近似の様子を示す図である。フィルタ係数最適化アルゴリズムを示す図である。フィルタ係数最適化装置１００（潜在変数最適化装置１００）の構成を示すブロック図である。フィルタ係数最適化装置１００（潜在変数最適化装置１００）の動作を示すフローチャートである。最適化部１２０の構成を示すブロック図である。最適化部１２０の動作を示すフローチャートである。本発明の実施形態における各装置を実現するコンピュータの機能構成の一例を示す図である。

　以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

　各実施形態の説明に先立って、この明細書における表記方法について説明する。

　_（アンダースコア）は下付き添字を表す。例えば、x^y_zはy_zがxに対する上付き添字であり、x_{y_z}はy_zがxに対する下付き添字であることを表す。

　また、ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。

＜技術的背景＞
　まず、非凸最適化問題を、当該問題と等価な凸最適化問題に変形する方法及び変形により得られる凸最適化問題を解く方法について説明する。次に、この方法を式(3)の制約条件を緩和することにより得られる非凸最適化問題へ適用した例について説明する。最後に、音源強調以外に適用した例について説明する。

《非凸最適化問題と等価な凸最適化問題への変形及びその解法》
　ここでは、非凸最適化問題を、当該問題と等価な凸最適化問題に変形する方法と、変形により得られる凸最適化問題を解く方法とについて説明する。以下、次式により定義される潜在変数~wに関する最適化問題を考える。

　ここで、L_convexは潜在変数~wに関する強凸関数、L_d(d=1, …, D、Dは1以上の整数)は潜在変数~wに関する関数である。つまり、関数L_d(d=1, …, D)は必ずしも凸である必要はない。

　一般に、式(7)の最適化問題は、非凸な関数をコスト関数とする最適化問題、すなわち、非凸最適化問題となる。先述の通り、非凸最適化問題は困難な問題であるため、ある種の近似を導入してより解きやすい凸最適化問題に帰着させることを考える。そこで、ここでは関数L_d(~w) (d=1, …, D)を複数の凸関数から構成される区分的凸関数(piecewise convex function)で近似することを考える。

　以下、区分的凸関数の定義について説明する。近似対象となる関数L_d(~w) (d=1, …, D)に対して、その定義域をC個の閉凸集合である領域S_d,1, …, S_d,Cに分割する。そして、領域S_d,1, …, S_d,Cの各々で定義される関数Λ_d,c(c=1, …, C)を導入する。この新たに導入する関数Λ_d,cは領域S_d,c上で凸関数であり、領域S_d,c上で関数L_dを近似する関数である。なお、関数L_dが領域S_d,c上で凸関数である場合は、領域S_d,c上でΛ_d,c=L_dとすればよい。これにより、関数L_d(~w)は、区分的凸関数Λ_d,c(c=1, …, C)により近似的に表すことができる。なお、一般に、Cの値（つまり、関数L_dの定義域を分割する数）を大きくするほど、よりよい精度の区分的凸関数で近似することができる。

　しかし、当該近似を用いると、式(7)の最適化問題による最適化対象である潜在変数に加え、最適化問題の解である最適値がどの領域に属しているかを表す離散変数が新たに最適化対象として加わり、最適化すべき変数の数が増えてしまう。ただし、離散変数を固定すると、潜在変数に対しては最適化問題が（非凸最適化ではなく）凸最適化に帰着されるため、比較的容易に解くことができる。以下、具体的に説明する。近似を用いて定式化される最適化問題は、c_d(d=1, …, D)を1, …, Cを値にとる離散変数として、次式により表される。

　式(8)は次式と等価である。

　式(9)に含まれるmin_~w(L_convex(~w)+Σ_d=1 ^DΛ_{d,c_d}(~w))は、潜在変数~wに関する凸最適化問題であり、比較的容易に解くことができる。以下、その手順について説明する。まず、離散変数(c₁, …, c_D)がとり得るすべての値に対して、凸最適化問題min_~w(L_convex(~w)+Σ_d=1 ^DΛ_{d,c_d}(~w))を解く。これにより、C^D個の離散変数(c₁, …, c_D)がとり得るすべての値について凸最適化問題min_~w(L_convex(~w)+Σ_d=1 ^DΛ_{d,c_d}(~w))の解が求まる。そして、得られた凸最適化問題の解のうち、コスト関数L_convex(~w)+Σ_d=1 ^DΛ_{d,c_d}(~w)の値が最小となるものを最適値とする。これにより、式(9)の最適化問題を解くことができる。この解法の手順を図示したものが図１である。

　式(7)の非凸最適化問題は、これと等価な式(9)の凸最適化問題に変形でき、式(9)の凸最適化問題は、図１の潜在変数最適化アルゴリズムにより解くことができる。

《適用例》
　ここでは、上記説明した、非凸最適化問題を凸最適化問題に変形したうえで最適値を求める汎用的な枠組みを、式(3)の制約条件を緩和することにより得られる非凸最適化問題へ適用した例について説明する。

　先述の通り、非特許文献１の従来技術では、等式制約である式(3)を多数課すため、適切なフィルタ係数が得られないというおそれがあった。そこで、現実の状況に適した、より緩い制約条件を用いることを考える。具体的には、式(3)の制約条件の代わりに、ビームフォーマの応答の振幅にのみ制約を課す制約条件（つまり、位相に関する制約がない制約条件）を用いることを考える。例えば、次式を用いることができる。

　また、別の例として、次式を用いることもできる。

　式(10)の制約条件、式(11)の制約条件は、それぞれビームフォーマの応答の振幅が一定値（具体的には1）であるという制約、ビームフォーマの応答の振幅が一定値（具体的には1）以上であればよいという制約を表す。式(10)の制約条件、式(11)の制約条件は、いずれも数学的には非凸な制約として分類されるものである。

　以下、式(11)を制約条件とする最適化問題について考える。式(11)の制約条件は、複素数w_f ^Ha_f,dの絶対値が1以上であるというものである。これは、幾何学的には、複素数w_f ^Ha_f,dが複素平面上で単位円上かその外側に位置しなければならないということを意味する。そこで、まず、複素平面を、原点を中心にC個の扇形に等分する。このC個の扇形が、先ほどのC個の領域に相当する。そして、各扇形の境界と内側において、元の制約である式(11)をC個の凸関数で近似する。

　以下、具体的に説明する。周波数ビンf(f=1, …, F)、音源d(d=1, …, D)に対して離散変数c_f,dを1, …, Cを値にとる変数とする。また、γ_f,d=w_f ^Ha_f,dとする。周波数ビンf(f=1, …, F)、音源d(d=1, …, D)に対して定義される凸関数Λ_{(f,d),c_f,d}(γ_f,d)(c_f,d=1, …, C)は、複素数γ_f,dの値を、複素平面上の中心角2π/Cで原点を中心とする扇形の内側かつ|γ_f,d|≧1を満たす範囲にあるように制限するものとして定義する。

　例えば、関数Λ_{(f,d),c_f,d}を次式で表される関数とすることができる。

　ここで、R(z)は複素数zの実部を表す。

　そして、C個の凸関数Λ_{(f,d),c_f,d}(γ_f,d)(c_f,d=1, …, C)を用いた区分的凸関数で式(11)を近似する。

　図２Ａ、図２Ｂ、図２Ｃ、図２Ｄは、式(11)をC個の凸関数Λ_{(f,d),c_f,d}(γ_f,d)で近似する様子を示す図である。図２Ａは、複素平面上の式(11)の制約条件を図示したものであり、近似対象を表す。図２Ｂは、近似のために導入された凸関数Λ_{(f,d),c_f,d}(γ_f,d)の一例を図示したものである。図２Ｃ及び図２Ｄは、最小値min_{c_f,d=1,…,C}Λ_{(f,d),c_f,d}(γ_f,d)を図示したものあり、図２ＣはC=6の場合、図２ＤはC=10の場合の図である。

　なお、Cの値を大きくすると、より精度よく近似できるようになるが、図１のアルゴリズムを用いて最適化問題を解く場合、離散変数のすべての組合せを調べる必要があるため、計算量が増大する。

　以上より、式(11)を制約条件とするフィルタ係数最適化問題は次式の凸最適化問題に帰着する。

　ここで、c_f=(c_f,1, …, c_f,D)である。

　この最適化問題は、図１の潜在変数最適化アルゴリズムを適用することで解くことができるものであり、そのアルゴリズムを図３に示す。つまり、図３は、図１の潜在変数最適化アルゴリズムに基づいて得られるフィルタ係数最適化アルゴリズムを示す。

《局所再生システムへの適用》
　ここでは、別の適用例について説明する。具体的には、多数のスピーカを用いた局所再生システムについて説明する。

　空間中に無指向性スピーカがK個存在し、N+M個の受聴点のうち、前半のN個の点では音を再生しつつ後半のM個の点では音が漏れないような局所再生システムを構成することを考える。そのために、1ch音源に線形フィルタを畳み込んで各スピーカから再生する信号処理を行う。

　これまでの説明と同様、時間周波数領域で議論する。音を再生するN個の点については、周波数ビンfでのK個の無指向性スピーカから点i(i=1, …, N)へのアレイマニフォールドベクトルをa_f,i∈C^Kとする。また、音が漏れないようにするM個の点については、周波数ビンfでのK個の無指向性スピーカから点j(j=1, …, M)へのアレイマニフォールドベクトルをb_f,j∈C^Kとする。また、設計したいフィルタ係数をw_f(f=1, …, F)とする。

　音を再生する点i(i=1, …, N)に関しては、点iにおける周波数ビンfでの応答w_f ^Ha_f,iの振幅が一定値以上であってほしい。一方、音が漏れてほしくない点j(j=1, …, M)に関しては、点jにおける周波数ビンfでの応答w_f ^Hb_f,jの振幅ができるだけ小さい値になってほしい。したがって、このフィルタ係数の最適化問題は次式により定式化される。

　式(14)の最適化問題は、図３のアルゴリズムと同様のアルゴリズムにより解くことができるため、所望の局所再生システムを設計することができる。

＜第１実施形態＞
　フィルタ係数最適化装置１００は、M個（ただし、Mは1以上の整数）のマイク素子からなるマイクアレイを用いて、D個（ただし、Dは1以上の整数）の音源（以下、音源1、…、音源Dとする）からの音（以下、目的音という）を観測した信号（観測信号）から、目的音を強調するビームフォーマのフィルタ係数w={w₁, …, w_F}（ただし、w_f(f=1, …, F、Fは1以上の整数)は周波数ビンfのフィルタ係数）の最適値w^*を計算する。観測信号はフィルタ係数の最適化に用いる入力データであるため、以下、観測信号のことを最適化用データということにする。

　以下、図４～図５を参照してフィルタ係数最適化装置１００を説明する。図４は、フィルタ係数最適化装置１００の構成を示すブロック図である。図５は、フィルタ係数最適化装置１００の動作を示すフローチャートである。図４に示すようにフィルタ係数最適化装置１００は、セットアップデータ計算部１１０と、最適化部１２０と、記録部１９０を含む。記録部１９０は、フィルタ係数最適化装置１００の処理に必要な情報を適宜記録する構成部である。記録部１９０は、例えば、最適化対象となるフィルタ係数を記録する。

　図５に従いフィルタ係数最適化装置１００の動作について説明する。

　Ｓ１１０において、セットアップデータ計算部１１０は、最適化用データを用いて、フィルタ係数wを最適化する際に用いるセットアップデータを計算する。フィルタ係数wを最適化するためにコスト関数を用いる場合、セットアップデータとして、例えば、観測信号に基づいて得られる、周波数ビンfに関する目的音以外の音の空間相関行列R_f(f=1, …, F)、音源dが存在する方角θ_d(d=1, …, D)から到来する平面波の音波に対応する周波数ビンfでのアレイマニフォールドベクトルa_f,d(f=1, …, F, d=1, …, D)がある。

　Ｓ１２０において、最適化部１２０は、Ｓ１１０で生成したセットアップデータを用いてフィルタ係数wの最適値w^*を計算する。例えば、最適化部１２０は、フィルタ係数w_f(f=1, …, F)の位相に関する制約を含まないという制約条件のもとでのフィルタ係数wに関する最適化問題min_{w_1, …, w_F}Σ_f=1 ^FL_{MV_f}(w_f)に基づいて、最適値w^*を計算することができる。ここで、L_{MV_f}(w_f)=w_f ^HR_fw_f(f=1, …, F)はフィルタ係数w_fに関するコスト関数である。なお、Σ_f=1 ^FL_{MV_f}(w_f)のことをフィルタ係数wに関するコスト関数という。

　フィルタ係数w_f(f=1, …, F)の位相に関する制約を含まないという制約条件の例として、次式により表現されるものがある。

（ただし、f=1, …, F, d=1, …, D）
　また、制約条件の別の例として、次式により表現されるものがある。

（ただし、f=1, …, F, d=1, …, D）
　最適化部１２０は、制約条件(*)のもとで最適化問題min_{w_1, …, w_F}Σ_f=1 ^FL_{MV_f}(w_f)を解く代わりに、フィルタ係数w、離散変数c₁, …, c_Fに関する最適化問題min_{{c_f,w_f}}(Σ_f=1 ^FL_{MV_f}(w_f)+Σ_f=1 ^FΣ_d=1 ^DΛ_{(f,d),c_f,d}(w_f ^Ha_f,d))を解くことにより最適値w^*を計算するようにしてもよい。ここで、Cを1以上の整数、c_f,d(f=1, …, F, d=1, …, D)を1, …, Cを値にとる離散変数、c_f=(c_f,1, …, c_f,D) (f=1, …, F)を離散変数c_f,1, …, c_f,Dにより定義される離散変数とし、関数Λ_{(f,d),c_f,d}(f=1, …, F, d=1, …, D)は次式で定義される変数γ_f,dに関する関数である（ただし、γ_f,d=w_f ^Ha_f,d）。

　以下、図６～図７を参照して、最適化問題min_{{c_f,w_f}}(Σ_f=1 ^FL_{MV_f}(w_f)+Σ_f=1 ^FΣ_d=1 ^DΛ_{(f,d),c_f,d}(w_f ^Ha_f,d))を解くための最適化部１２０について説明する。図６は、最適化部１２０の構成を示すブロック図である。図７は、最適化部１２０の動作を示すフローチャートである。図６に示すように最適化部１２０は、候補計算部１２２、最適値決定部１２３を含む。

　図７に従い最適化部１２０の動作について説明する。

　Ｓ１２２において、候補計算部１２２は、周波数ビンfごとに、離散変数(c_f,1, …, c_f,D)がとり得るすべての値に対して、次式によりフィルタ係数w_fの最適値の候補w_f ^candidate[(c_f,1, …, c_f,D)]を計算する。

　Ｓ１２３において、最適値決定部１２３は、周波数ビンfごとに、Ｓ１２２で計算した候補w_f ^candidate[(c_f,1, …, c_f,D)]のうち、コスト関数L_{MV_f}(w_f)+Σ_d=1 ^DΛ_{(f,d),c_f,d}(w_f ^Ha_f,d)の値を最小とする候補を最適値w_f ^*とし、w^*={w₁ ^*, …, w_F ^*}により最適値w^*を得る。

　本発明の実施形態によれば、非凸最適化問題を解く代わりに、当該問題と等価な凸最適化問題を解くことにより、フィルタ係数を最適化することが可能となる。

＜第２実施形態＞
　ここでは、非凸最適化問題と等価な凸最適化問題を解くための一般的な実施形態について説明する。

　潜在変数最適化装置１００は、最適化用データから、潜在変数~wの最適値~w^*を計算する。ここで、最適化用データとは潜在変数の最適化に用いる入力データ、または、潜在変数の最適化に用いる入力データと出力データの組である。

　潜在変数最適化装置１００は、潜在変数~wに関する最適化問題min_~w(L_convex(~w)+Σ_d=1 ^DL_d(~w))（ただし、L_convexは潜在変数~wに関する強凸関数、L_d(d=1, …, D、Dは1以上の整数)は潜在変数~wに関する関数）に基づいて、最適値~w^*を計算する。例えば、潜在変数最適化装置１００は、最適化問題min_~w(L_convex(~w)+Σ_d=1 ^DL_d(~w))を解く代わりに、潜在変数~w、離散変数c₁, …, c_Dに関する最適化問題min_{c_1, …, c_D}(min_~w(L_convex(~w)+Σ_d=1 ^DΛ_{d,c_d}(~w)))を解くことにより最適値~w^*を計算する。ここで、Cを1以上の整数、S_d,1, …, S_d,C(d=1, …, D)を関数L_dの定義域をC個の閉凸集合に分割することにより得られる領域とし、関数Λ_d,c(d=1, …, D, c=1, …, C)は領域S_d,cで定義され、関数L_dを近似する凸関数である。また、変数c_d(d=1, …, D)は1, …, Cを値にとる離散変数である。

　以下、図４～図５を参照して潜在変数最適化装置１００を説明する。図４は、潜在変数最適化装置１００の構成を示すブロック図である。図５は、潜在変数最適化装置１００の動作を示すフローチャートである。図４に示すように潜在変数最適化装置１００は、セットアップデータ計算部１１０と、最適化部１２０と、記録部１９０を含む。記録部１９０は、潜在変数最適化装置１００の処理に必要な情報を適宜記録する構成部である。記録部１９０は、例えば、最適化対象となる潜在変数を記録する。

　図５に従い潜在変数最適化装置１００の動作について説明する。

　Ｓ１１０において、セットアップデータ計算部１１０は、最適化用データを用いて、潜在変数~wを最適化する際に用いるセットアップデータを計算する。セットアップデータは、例えば、最適化問題min_{c_1, …, c_D}(min_~w(L_convex(~w)+Σ_d=1 ^DΛ_{d,c_d}(~w)))で用いる各パラメータである。

　Ｓ１２０において、最適化部１２０は、Ｓ１１０で生成したセットアップデータを用いて潜在変数~wの最適値~w^*を計算する。

　以下、図６～図７を参照して、最適化部１２０について説明する。図６は、最適化部１２０の構成を示すブロック図である。図７は、最適化部１２０の動作を示すフローチャートである。図６に示すように最適化部１２０は、候補計算部１２２、最適値決定部１２３を含む。

　図７に従い最適化部１２０の動作について説明する。

　Ｓ１２２において、候補計算部１２２は、離散変数(c₁, …, c_D)がとり得るすべての値に対して、次式により潜在変数~wの最適値の候補~w^candidate[(c₁, …, c_D)]を計算する。

　Ｓ１２３において、最適値決定部１２３は、Ｓ１２２で計算した候補~w^candidate[(c₁, …, c_D)]のうち、コスト関数L_convex(~w)+Σ_d=1 ^DΛ_{d,c_d}(~w)の値を最小とする候補を最適値~w^*とする。

　本発明の実施形態によれば、非凸最適化問題を解く代わりに、当該問題と等価な凸最適化問題を解くことにより、潜在変数を最適化することが可能となる。

＜第３実施形態＞
　フィルタ係数最適化装置１００は、K個（ただし、Kは1以上の整数）の無向性スピーカを用いて構成され、予め定まったN+M個（ただし、N, Mは1以上の整数）の点のうち、N個の点では音を再生しつつM個の点では音が漏れないようにする局所再生システムのフィルタ係数w={w₁, …, w_F}（ただし、w_f(f=1, …, F、Fは1以上の整数)は周波数ビンfのフィルタ係数）の最適値w^*を計算する。ここで、最適化用データとは潜在変数の最適化に用いる入力データ、または、潜在変数の最適化に用いる入力データと出力データの組である。

　Ｓ１１０において、セットアップデータ計算部１１０は、最適化用データを用いて、フィルタ係数wを最適化する際に用いるセットアップデータを計算する。フィルタ係数wを最適化するためにコスト関数を用いる場合、セットアップデータとして、例えば、周波数ビンfでのK個の無指向性スピーカから点i(i=1, …, N)へのアレイマニフォールドベクトルa_f,i(f=1, …, F, i=1, …, N)、周波数ビンfでのK個の無指向性スピーカから点j(j=1, …, M)へのアレイマニフォールドベクトルb_f,j(f=1, …, F, j=1, …, M)がある。

　Ｓ１２０において、最適化部１２０は、Ｓ１１０で生成したセットアップデータを用いてフィルタ係数wの最適値w^*を計算する。例えば、最適化部１２０は、フィルタ係数w_f(f=1, …, F)の位相に関する制約を含まないという制約条件のもとでのフィルタ係数wに関する最適化問題min_{w_1, …, w_F}Σ_f=1 ^FΣ_j=1 ^M|w_f ^Hb_f,j|²に基づいて、最適値w^*を計算することができる。なお、Σ_f=1 ^F|Σ_j=1 ^M|w_f ^Hb_f,j|²のことをフィルタ係数wに関するコスト関数という。

（ただし、f=1, …, F, i=1, …, N）
　最適化部１２０は、制約条件(*)のもとで最適化問題min_{w_1, …, w_F}Σ_f=1 ^FΣ_j=1 ^M|w_f ^Hb_f,j|²を解く代わりに、フィルタ係数w、離散変数c₁, …, c_Fに関する最適化問題min_{{c_f,w_f}}(Σ_f=1 ^FΣ_j=1 ^M|w_f ^Hb_f,j|²+Σ_f=1 ^FΣ_i=1 ^NΛ_{(f,i),c_f,i}(w_f ^Ha_f,i))を解くことにより最適値w^*を計算するようにしてもよい。ここで、Cを1以上の整数、c_f,i(f=1, …, F, i=1, …, N)を1, …, Cを値にとる離散変数、c_f=(c_f,1, …, c_f,N) (f=1, …, F)を離散変数c_f,1, …, c_f,Nにより定義される離散変数とし、関数Λ_{(f,i),c_f,i}(f=1, …, F, i=1, …, N)は次式で定義される変数γ_f,iに関する関数である（ただし、γ_f,i=w_f ^Ha_f,i）。

　以下、図６～図７を参照して、最適化問題min_{{c_f,w_f}}(Σ_f=1 ^FΣ_j=1 ^M|w_f ^Hb_f,j|²+Σ_f=1 ^FΣ_i=1 ^NΛ_{(f,i),c_f,i}(w_f ^Ha_f,i))を解くための最適化部１２０について説明する。図６は、最適化部１２０の構成を示すブロック図である。図７は、最適化部１２０の動作を示すフローチャートである。図６に示すように最適化部１２０は、候補計算部１２２、最適値決定部１２３を含む。

　図７に従い最適化部１２０の動作について説明する。

　Ｓ１２２において、候補計算部１２２は、周波数ビンfごとに、離散変数(c_f,1, …, c_f,N)がとり得るすべての値に対して、次式によりフィルタ係数w_fの最適値の候補w_f ^candidate[(c_f,1, …, c_f,N)]を計算する。

　Ｓ１２３において、最適値決定部１２３は、周波数ビンfごとに、Ｓ１２２で計算した候補w_f ^candidate[(c_f,1, …, c_f,N)]のうち、コスト関数Σ_j=1 ^M|w_f ^Hb_f,j|²+Σ_i=1 ^NΛ_{(f,i),c_f,i}(w_f ^Ha_f,i)の値を最小とする候補を最適値w_f ^*とし、w^*={w₁ ^*, …, w_F ^*}により最適値w^*を得る。

＜補記＞
　図８は、上述の各装置を実現するコンピュータの機能構成の一例を示す図である。上述の各装置における処理は、記録部２０２０に、コンピュータを上述の各装置として機能させるためのプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０などに動作させることで実施できる。

　本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

　ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

　ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成部）を実現する。

　本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

　既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

　上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。

Claims

　Dを1以上の整数とし、
　D個の音源（以下、音源1、…、音源Dとする）からの音（以下、目的音という）を強調するビームフォーマのフィルタ係数w={w₁, …, w_F}（ただし、w_f(f=1, …, F、Fは1以上の整数)は周波数ビンfのフィルタ係数）の最適値w^*を計算する最適化部を含むフィルタ係数最適化装置であって、
　R_f(f=1, …, F)を周波数ビンfに関する前記目的音以外の音の空間相関行列、L_{MV_f}(w_f)=w_f ^HR_fw_f(f=1, …, F)をフィルタ係数w_fに関するコスト関数とし、
　前記最適化部は、所定の制約条件のもとでのフィルタ係数wに関する最適化問題min_{w_1, …, w_F}Σ_f=1 ^FL_{MV_f}(w_f)に基づいて、前記最適値w^*を計算するものであり、
　前記所定の制約条件は、フィルタ係数w_f(f=1, …, F)の位相に関する制約を含まないものである
　フィルタ係数最適化装置。
　請求項１に記載のフィルタ係数最適化装置であって、
　θ_d(d=1, …, D)を音源dが存在する方角、a_f,d(f=1, …, F, d=1, …, D)を方角θ_dから到来する平面波の音波に対応する周波数ビンfでのアレイマニフォールドベクトルとし、
　前記所定の制約条件は、次式により表現されるものである

（ただし、f=1, …, F, d=1, …, D）
　ことを特徴とするフィルタ係数最適化装置。
　請求項１に記載のフィルタ係数最適化装置であって、
　θ_d(d=1, …, D)を音源dが存在する方角、a_f,d(f=1, …, F, d=1, …, D)を方角θ_dから到来する平面波の音波に対応する周波数ビンfでのアレイマニフォールドベクトルとし、
　前記所定の制約条件は、次式により表現されるものである

（ただし、f=1, …, F, d=1, …, D）
　ことを特徴とするフィルタ係数最適化装置。
　請求項３に記載のフィルタ係数最適化装置であって、
　Cを1以上の整数、c_f,d(f=1, …, F, d=1, …, D)を1, …, Cを値にとる離散変数、c_f=(c_f,1, …, c_f,D) (f=1, …, F)を離散変数c_f,1, …, c_f,Dにより定義される離散変数、Λ_{(f,d),c_f,d}(f=1, …, F, d=1, …, D)を次式で定義される変数γ_f,dに関する関数（ただし、γ_f,d=w_f ^Ha_f,d）とし、

　前記最適化部は、前記最適化問題min_{w_1, …, w_F}Σ_f=1 ^FL_{MV_f}(w_f)を解く代わりに、フィルタ係数w、離散変数c₁, …, c_Fに関する最適化問題min_{{c_f,w_f}}(Σ_f=1 ^FL_{MV_f}(w_f)+Σ_f=1 ^FΣ_d=1 ^DΛ_{(f,d),c_f,d}(w_f ^Ha_f,d))を解くことにより前記最適値w^*を計算する
　ことを特徴とするフィルタ係数最適化装置。
　請求項４に記載のフィルタ係数最適化装置であって、
　前記最適化部は、
　周波数ビンfごとに、離散変数(c_f,1, …, c_f,D)がとり得るすべての値に対して、次式によりフィルタ係数w_fの最適値の候補w_f ^candidate[(c_f,1, …, c_f,D)]を計算する候補計算部と、

　周波数ビンfごとに、前記候補w_f ^candidate[(c_f,1, …, c_f,D)]のうち、コスト関数L_{MV_f}(w_f)+Σ_d=1 ^DΛ_{(f,d),c_f,d}(w_f ^Ha_f,d)の値を最小とする候補をフィルタ係数w_fの最適値w_f ^*とし、w^*={w₁ ^*, …, w_F ^*}により前記最適値w^*を得る最適値決定部とを含む
　ことを特徴とするフィルタ係数最適化装置。
　L_convexを潜在変数~wに関する強凸関数、L_d(d=1, …, D、Dは1以上の整数)を潜在変数~wに関する関数とし、
　潜在変数~wに関する最適化問題min_~w(L_convex(~w)+Σ_d=1 ^DL_d(~w))に基づいて、潜在変数~wの最適値~w^*を計算する最適化部を含む潜在変数最適化装置であって、
　Cを1以上の整数、S_d,1, …, S_d,C(d=1, …, D)を関数L_dの定義域をC個の閉凸集合に分割することにより得られる領域、Λ_d,c(d=1, …, D, c=1, …, C)を領域S_d,cで定義され、関数L_dを近似する凸関数、c_d(d=1, …, D)を1, …, Cを値にとる離散変数とし、
　前記最適化部は、前記最適化問題min_~w(L_convex(~w)+Σ_d=1 ^DL_d(~w))を解く代わりに、潜在変数~w、離散変数c₁, …, c_Dに関する最適化問題min_{c_1, …, c_D}(min_~w(L_convex(~w)+Σ_d=1 ^DΛ_{d,c_d}(~w)))を解くことにより前記最適値~w^*を計算する
　潜在変数最適化装置。
　請求項６に記載の潜在変数最適化装置であって、
　前記最適化部は、
　離散変数(c₁, …, c_D)がとり得るすべての値に対して、次式により潜在変数~wの最適値の候補~w^candidate[(c₁, …, c_D)]を計算する候補計算部と、

　前記候補~w^candidate[(c₁, …, c_D)]のうち、コスト関数L_convex(~w)+Σ_d=1 ^DΛ_{d,c_d}(~w)の値を最小とする候補を前記最適値~w^*とする最適値決定部とを含む
　ことを特徴とする潜在変数最適化装置。
　Dを1以上の整数とし、
　フィルタ係数最適化装置が、D個の音源（以下、音源1、…、音源Dとする）からの音（以下、目的音という）を強調するビームフォーマのフィルタ係数w={w₁, …, w_F}（ただし、w_f(f=1, …, F、Fは1以上の整数)は周波数ビンfのフィルタ係数）の最適値w^*を計算する最適化ステップを含むフィルタ係数最適化方法であって、
　R_f(f=1, …, F)を周波数ビンfに関する前記目的音以外の音の空間相関行列、L_{MV_f}(w_f)=w_f ^HR_fw_f(f=1, …, F)をフィルタ係数w_fに関するコスト関数とし、
　前記最適化ステップは、所定の制約条件のもとでのフィルタ係数wに関する最適化問題min_{w_1, …, w_F}Σ_f=1 ^FL_{MV_f}(w_f)に基づいて、前記最適値w^*を計算するものであり、
　前記所定の制約条件は、フィルタ係数w_f(f=1, …, F)の位相に関する制約を含まないものである
　フィルタ係数最適化方法。
　L_convexを潜在変数~wに関する強凸関数、L_d(d=1, …, D、Dは1以上の整数)を潜在変数~wに関する関数とし、
　潜在変数最適化装置が、潜在変数~wに関する最適化問題min_~w(L_convex(~w)+Σ_d=1 ^DL_d(~w))に基づいて、潜在変数~wの最適値~w^*を計算する最適化ステップを含む潜在変数最適化方法であって、
　Cを1以上の整数、S_d,1, …, S_d,C(d=1, …, D)を関数L_dの定義域をC個の閉凸集合に分割することにより得られる領域、Λ_d,c(d=1, …, D, c=1, …, C)を領域S_d,cで定義され、関数L_dを近似する凸関数、c_d(d=1, …, D)を1, …, Cを値にとる離散変数とし、
　前記最適化ステップは、前記最適化問題min_~w(L_convex(~w)+Σ_d=1 ^DL_d(~w))を解く代わりに、潜在変数~w、離散変数c₁, …, c_Dに関する最適化問題min_{c_1, …, c_D}(min_~w(L_convex(~w)+Σ_d=1 ^DΛ_{d,c_d}(~w)))を解くことにより前記最適値~w^*を計算する
　潜在変数最適化方法。
　請求項１ないし５のいずれか１項に記載のフィルタ係数最適化装置、請求項６または７に記載の潜在変数最適化装置のいずれかとしてコンピュータを機能させるためのプログラム。