WO2021024475A1

WO2021024475A1 - Ｐｓｄ最適化装置、ｐｓｄ最適化方法、プログラム

Info

Publication number: WO2021024475A1
Application number: PCT/JP2019/031450
Authority: WO
Inventors: 大将千葉; 健太丹羽; 登原田
Original assignee: 日本電信電話株式会社
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2021-02-11
Also published as: US11758324B2; US20220279274A1; JPWO2021024475A1; JP7173356B2

Abstract

干渉雑音を抑圧するためのビームフォーマを用いた構成における音源強調性能を向上させることができる音源強調技術を提供する。目的音ＰＳＤ入力値、干渉雑音ＰＳＤ入力値、背景雑音ＰＳＤ入力値を入力とし、目的音ＰＳＤを表す変数、干渉雑音ＰＳＤを表す変数、背景雑音ＰＳＤを表す変数に関するコスト関数の最適化問題を解くことにより、目的音ＰＳＤ出力値、干渉雑音ＰＳＤ出力値、背景雑音ＰＳＤ出力値を生成するＰＳＤ更新部を含むＰＳＤ最適化装置であって、最適化問題は、少なくとも、目的音到来方向にビームフォーミングした信号のＰＳＤについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約または凸コスト項、または、目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約または凸コスト項のいずれか１つを用いて定義される。

Description

ＰＳＤ最適化装置、ＰＳＤ最適化方法、プログラム

　本発明は、マイクロホンアレイを用いて特定方向の音源の音を明瞭に抽出する音源強調技術に関する発明である。

　非特許文献１には、リアルタイムでの目的音強調を実現する音源強調手法が開示されている。この手法は、ビームフォーミングによる線形フィルタリングとウィーナーフィルタによる非線形性フィルタリングを併用した低演算量の音源強調手法であり、この手法では、ビームフォーマによる目的音到来方向の音源の強調信号とそれ以外の方向の音源の強調信号とを用いて、目的音、干渉雑音、背景雑音のパワースペクトル密度（PSD: Power Spectral Density）を推定することで、目的音を強調するウィーナーフィルタを構築する。したがって、非特許文献１に記載の音源強調手法の性能は、ＰＳＤの推定精度に依存することになる。

　ここで、目的音とは、方向性を持つ、強調したい音源が発する音のことである。また、干渉雑音とは、目的音以外の音（以下、妨害音という）のうち、直接波や初期反射のような到来方向が特定できる音源が発する音（例えば、目的音到来方向以外の方向にいる話者の音声）のことであり、背景雑音とは、妨害音のうち、残響やデバイスのノイズなど到来方向が特定できない音源が発する音のことである。

K. Niwa, Y. Hioka, and K. Kobayashi, "Post-filter design for speech enhancement in various noisy environments", 2014 14th International Workshop on Acoustic Signal Enhancement (IWAENC), IEEE, 2014.

　先述の通り、非特許文献１の手法では、干渉雑音を抑圧するためのビームフォーマを用いる。そのため、ビームフォーマにおける干渉雑音の抑圧性能に基づくＰＳＤ推定精度が原因となり、非特許文献１の音源強調により得られた目的音の品質が劣化してしまうことがある。

　そこで本発明では、干渉雑音を抑圧するためのビームフォーマを用いた構成における音源強調性能を向上させることができる音源強調技術を提供することを目的とする。

　本発明の一態様は、u_Sを目的音ＰＳＤを表す変数、u_INを干渉雑音ＰＳＤを表す変数、u_BNを背景雑音ＰＳＤを表す変数とし、目的音ＰＳＤ入力値^φ_S(ω, τ)、干渉雑音ＰＳＤ入力値^φ_IN(ω, τ)、背景雑音ＰＳＤ入力値^φ_BN(ω, τ)を入力とし、変数u_S、変数u_IN、変数u_BNに関するコスト関数の最適化問題を解くことにより、目的音ＰＳＤ出力値φ_S(ω, τ)、干渉雑音ＰＳＤ出力値φ_IN(ω, τ)、背景雑音ＰＳＤ出力値φ_BN(ω, τ)を生成するＰＳＤ更新部を含むＰＳＤ最適化装置であって、前記コスト関数の最適化問題は、少なくとも、目的音到来方向にビームフォーミングした信号のＰＳＤについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、目的音到来方向にビームフォーミングした信号のＰＳＤについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約、目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項のいずれか１つを用いて定義される。

　本発明によれば、干渉雑音を抑圧するためのビームフォーマを用いた構成における音源強調性能を向上させることが可能となる。

音源強調装置９００の構成を示すブロック図である。音源強調装置９００の動作を示すフローチャートである。ＰＳＤ生成部９５０の構成を示すブロック図である。ＰＳＤ生成部９５０の動作を示すフローチャートである。最適化アルゴリズムの一例を示す図である。音源強調装置１００の構成を示すブロック図である。音源強調装置１００の動作を示すフローチャートである。ＰＳＤ更新部１５０の構成を示すブロック図である。ＰＳＤ更新部１５０の動作を示すフローチャートである。ＰＳＤ最適化装置２００の構成を示すブロック図である。本発明の実施形態における各装置を実現するコンピュータの機能構成の一例を示す図である。

　以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

　各実施形態の説明に先立って、この明細書における表記方法について説明する。

　_（アンダースコア）は下付き添字を表す。例えば、x^y_zはy_zがxに対する上付き添字であり、x_{y_z}はy_zがxに対する下付き添字であることを表す。

　また、ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。

＜技術的背景＞
　本発明の実施形態は、非特許文献１の手法により推定した目的音のＰＳＤ、干渉雑音のＰＳＤ、背景雑音のＰＳＤに対して、音源強調性能が向上するように最適化処理を行うものである。そこで、まず、従来手法である非特許文献１の手法について説明する。

《従来手法》
　以下、図１～図２を参照して音源強調装置９００について説明する。音源強調装置９００は、ビームフォーミングとＰＳＤ推定とに基づく音源強調を実行する。図１は、音源強調装置９００の構成を示すブロック図である。図２は、音源強調装置９００の動作を示すフローチャートである。図１に示すように音源強調装置９００は、マイクロホンアレイ９１０と、周波数領域変換部９２０と、第１ビームフォーマ部９３０と、第２ビームフォーマ部９４０と、ＰＳＤ生成部９５０と、音源強調部９６０と、時間領域変換部９７０と、記録部９９０を含む。記録部９９０は、音源強調装置９００の処理に必要な情報を適宜記録する構成部である。

　図２に従い音源強調装置９００の動作について説明する。

　Ｓ９１０において、M個（Mは2以上の整数）のマイクロホン素子によって構成されるマイクロホンアレイ９１０は、マイクロホン素子mで収音された時間領域観測信号x_m(t)(m=0, 1, …, M-1)を生成し、出力する。したがって、mはどのマイクロホン素子で観測した信号であるかを示す番号となる。

　Ｓ９２０において、周波数領域変換部９２０は、Ｓ９１０で生成した時間領域観測信号x_m(t)(m=0, 1, …, M-1)を入力とし、時間領域観測信号x_m(t)(m=0, 1, …, M-1)それぞれを周波数領域に変換することにより周波数領域観測信号X_m(ω, τ)(m=0, 1, …, M-1)を生成し、出力する。周波数領域への変換には、例えば、離散フーリエ変換を用いることができる。

　以下、周波数領域観測信号X_m(ω, τ)を、目的音s(ω, τ)∈C、K個（Kは1以上の整数）の干渉雑音ν_k(ω, τ)∈C、背景雑音ε_m(ω, τ)∈Cを用いた次式によりモデル化する。

　ここで、ω, τは、それぞれ角周波数ビン、時間フレーム番号を表す。また、h_m ^S(ω)∈Cは目的音の音源とマイクロホン素子mの間の伝達関数、h_k,m ^IN(ω)∈C(k=1, …, K)は干渉雑音源kそれぞれとマイクロホン素子mの間の伝達関数である。

　このモデルでは、目的音の到来方向（DOA：Direction of arrival）は既知である一方、例えば、干渉雑音の到来方向および数、背景雑音のノイズレベルのような雑音に関する情報は未知である問題を扱うことができる。

　Ｓ９３０において、第１ビームフォーマ部９３０は、Ｓ９２０で生成した周波数領域観測信号X_m(ω, τ) (m=0, 1, …, M-1)を入力とし、周波数領域観測信号X_m(ω, τ) (m=0, 1, …, M-1)を線形フィルタリングすることにより目的音到来方向θ_Sの音源の強調信号Y_{θ_S}(ω, τ)（以下、第１強調信号Y_{θ_S}(ω, τ)という）を生成し、出力する。目的音到来方向θ_Sの到来時間差が既知の場合、ビームフォーミングの線形フィルタ（つまり、目的音到来方向θ_Sの到来時間差を用いて構築したビームフォーミングの線形フィルタ）w_{θ_S} ^H∈C^Mによって、第１強調信号Y_{θ_S}は、以下の式で算出される。

　ここで、・^Hは複素共役転置を表す。また、X(ω, τ)=[X₀(ω, τ), …, X_M-1(ω, τ)]^Tである。

　Ｓ９４０において、第２ビームフォーマ部９４０は、Ｓ９２０で生成した周波数領域観測信号X_m(ω, τ) (m=0, 1, …, M-1)を入力とし、周波数領域観測信号X_m(ω, τ) (m=0, 1, …, M-1)を線形フィルタリングすることによりL-1個（L-1はK以上の整数）の目的音到来方向以外の方向θ_jの音源の強調信号Y_{θ_j}(ω, τ) (j=1, …, L-1)（以下、第２強調信号Y_{θ_j}(ω, τ)という）を生成し、出力する。第２ビームフォーマ部９４０は、第１ビームフォーマ部９３０と同様の方法で第２強調信号Y_{θ_j}(ω, τ)を算出する。つまり、第２ビームフォーマ部９４０は、予め定めた、目的音到来方向以外の方向θ_jの到来時間差を用いて構築したビームフォーミングの線形フィルタによって第２強調信号Y_{θ_j}(ω, τ)を算出する。

　Ｓ９５０において、ＰＳＤ生成部９５０は、Ｓ９３０で生成した第１強調信号Y_{θ_S}(ω, τ)とＳ９４０で生成した第２強調信号Y_{θ_j}(ω, τ) (j=1, …, L-1)を入力とし、第１強調信号Y_{θ_S}(ω, τ)と第２強調信号Y_{θ_j}(ω, τ) (j=1, …, L-1)とを用いて、目的音ＰＳＤφ_S(ω, τ)、干渉雑音ＰＳＤφ_IN(ω, τ)、背景雑音ＰＳＤφ_BN(ω, τ)を生成し、出力する。

　以下、図３～図４を参照してＰＳＤ生成部９５０を説明する。図３は、ＰＳＤ生成部９５０の構成を示すブロック図である。図４は、ＰＳＤ生成部９５０の動作を示すフローチャートである。図３に示すようにＰＳＤ生成部９５０は、第１ＰＳＤ推定部９５１と、第２ＰＳＤ推定部９５２を含む。

　図４に従いＰＳＤ推定部９５０の動作について説明する。

　Ｓ９５１において、第１ＰＳＤ推定部９５１は、Ｓ９３０で生成した第１強調信号Y_{θ_S}(ω, τ)とＳ９４０で生成した第２強調信号Y_{θ_j}(ω, τ) (j=1, …, L-1)を入力とし、第１強調信号Y_{θ_S}(ω, τ)と第２強調信号Y_{θ_j}(ω, τ) (j=1, …, L-1)とを用いて局所ＰＳＤ推定を行うことにより、目的音ＰＳＤ~φ_S(ω, τ)、干渉雑音ＰＳＤ~φ_IN(ω, τ)を推定し、出力する。局所ＰＳＤ推定とは、目的音および干渉雑音の空間的な位置に基づくゲイン差を利用した、目的音ＰＳＤと干渉雑音ＰＳＤの推定手法である。第１強調信号Y_{θ_S}(ω, τ)とL-1個の第２強調信号Y_{θ_j}(ω, τ)のＰＳＤφ^BF(ω, τ)=[φ₀ ^BF(ω, τ), φ₁ ^BF(ω, τ), …, φ_L-1 ^BF(ω, τ)]^T∈R^LとN個（Nは2以上の整数）の方向でグループ化された目的音および干渉雑音のＰＳＤφ^G(ω, τ)=[φ₀ ^G(ω, τ), φ₁ ^G(ω, τ), …, φ_N-1 ^G(ω, τ)]^T∈R^Nの関係は、次式のような線形変換の形式で近似的に表すことができる。

　ただし、φ₀ ^BF(ω, τ)は第１強調信号Y_{θ_S}(ω, τ)のＰＳＤとする。したがって、φ₀ ^BF(ω, τ)=|Y_{θ_S}(ω, τ)|²となる。また、D_ｊ,n(ω)∈R^L×N×Ωは、角周波数ビンω、ビームフォーマjにおける方向nに対する感度である。ここで、ビームフォーマ0とは、目的音到来方向θ_Sのビームフォーマ、ビームフォーマjとは、目的音到来方向以外の方向θ_jのビームフォーマのことである。

　この式を解くことにより、φ^G(ω, τ)∈R^Nを得ることができる。すなわち、まず、第１ＰＳＤ推定部９５１は、この式を解くことにより、φ^G(ω, τ)∈R^Nを得る。

　ここで、・^*, [・]₊は、それぞれ擬似逆行列、行列の各要素を非負値にする作用素を表す。

　なお、演算量削減のためには、周波数フィルタバンクをいくつかの周波数帯域に統合し、ＰＳＤ推定を行うのが効果的である。

　上の式において、方向0に目的音到来方向θ_Sの音源のＰＳＤが、また、方向1から方向N-1には目的音とは異なる方向のグループのＰＳＤが含まれると仮定すると、目的音ＰＳＤ~φ_S(ω, τ)、干渉雑音ＰＳＤ~φ_IN(ω, τ)は次式により推定される。すなわち、次に、第１ＰＳＤ推定部９５１は、次式により目的音ＰＳＤ~φ_S(ω, τ)と干渉雑音ＰＳＤ~φ_IN(ω, τ)を推定する。

　Ｓ９５２において、第２ＰＳＤ推定部９５２は、Ｓ９５１で推定した目的音ＰＳＤ~φ_S(ω, τ)と干渉雑音ＰＳＤ~φ_IN(ω, τ)を入力とし、目的音ＰＳＤ~φ_S(ω, τ)と干渉雑音ＰＳＤ~φ_IN(ω, τ)とを用いて、目的音ＰＳＤφ_S(ω, τ)、干渉雑音ＰＳＤφ_IN(ω, τ)、背景雑音ＰＳＤφ_BN(ω, τ)を推定し、出力する。以下、推定方法について説明する。背景雑音は定常的であると仮定できる。そこで、まず、第２ＰＳＤ推定部９５２は、再帰的平滑演算により平滑化したＰＳＤ^・φ_S(ω, τ), ^・φ_IN(ω, τ)を用いて、ある区間Γにおける最小値として、２つの背景雑音ＰＳＤφ_{BN_S}(ω, τ), φ_{BN_IN}(ω, τ)を算出する。

　ここで、β_S, β_INはそれぞれ忘却係数である。なお、β_S, β_INは、目的音、干渉雑音、背景雑音の時間的なエネルギー変動を考慮して決定される。

　そして、第２ＰＳＤ推定部９５２は、次式により、目的音ＰＳＤφ_S(ω, τ)、干渉雑音ＰＳＤφ_IN(ω, τ)、背景雑音ＰＳＤφ_BN(ω, τ)を推定する。

　Ｓ９６０において、音源強調部９６０は、Ｓ９３０で生成した第１強調信号Y_{θ_S}(ω, τ)とＳ９５０で生成した目的音ＰＳＤφ_S(ω, τ)、干渉雑音ＰＳＤφ_IN(ω, τ)、背景雑音ＰＳＤφ_BN(ω, τ)とを入力とし、第１強調信号Y_{θ_S}(ω, τ)と目的音ＰＳＤφ_S(ω, τ)、干渉雑音ＰＳＤφ_IN(ω, τ)、背景雑音ＰＳＤφ_BN(ω, τ)とを用いて、周波数領域目的音信号Z(ω, τ)∈Cを生成し、出力する。具体的には、音源強調部９６０は、目的音ＰＳＤφ_S(ω, τ)、干渉雑音ＰＳＤφ_IN(ω, τ)、背景雑音ＰＳＤφ_BN(ω, τ)から計算されるウィーナーフィルタを用いた次式により、周波数領域目的音信号Z(ω, τ)を算出する。

　Ｓ９７０において、時間領域変換部９７０は、Ｓ９６０で生成した周波数領域目的音信号Z(ω, τ)を入力とし、周波数領域目的音信号Z(ω, τ)を時間領域に変換することにより時間領域目的音周波数領域観測信号z(t)∈Rを生成し、出力する。時間領域への変換には、例えば、離散フーリエ変換の逆変換を用いることができる。

《ＰＳＤの最適化》
　ここでは、非特許文献１の手法により生成したＰＳＤを、ビームフォーマの特性を考慮して音源強調性能を向上させるように最適化する方法について説明する。

　この最適化方法には、以下の３つの特徴がある。
（１）目的音ＰＳＤ、干渉雑音ＰＳＤ、背景雑音ＰＳＤのうち、少なくとも１つのＰＳＤを最適化する。
（２）（１）の最適化処理は、ＰＳＤに関する制約の下での、ＰＳＤを表す変数に関する、１つの凸コスト項または複数の凸コスト項の和として表されるコスト関数の最適化問題として定式化される。
（３）（２）の最適化問題は、例えば、以下の(a)の制約または凸コスト項、(b)の制約、(c)の制約または凸コスト項、(d)の制約または凸コスト項を用いて定義される。ただし、(c)の制約または凸コスト項、(d)の制約または凸コスト項については、それぞれ複数あってもよいものとする。また、(a)の制約または凸コスト項、(b)の制約、(c)の制約または凸コスト項を含むことは必須ではない。

　(a)従来のＰＳＤ推定（すなわち、ＰＳＤ推定部９５０の出力）でもある程度の推定はできているとの仮定に基づく制約または凸コスト項
　(b)ＰＳＤの非負制約
　(c)音源の構造に基づく、ＰＳＤに関する制約または凸コスト項

　ここで、音源の構造とは、目的音、干渉雑音、背景雑音の周波数構造、時間構造、空間構造（チャネル間構造）を指す。

　(d)ビームフォーマの特性に基づく、ＰＳＤに関する制約または凸コスト項

　上記最適化問題では、ＰＳＤに関する制約は線形の等式または不等式により表現され、コスト関数はＰＳＤを表す変数に関する凸コスト項（閉真凸関数であるコスト項）を１つ以上組み合わせた関数として表現される。つまり、最適化問題は線形制約付き凸最適化問題となる。そして、この最適化問題の解として最適化されたＰＳＤが得られることになる。

　この線形制約付き凸最適化問題は、１つ以上の凸コスト項と、０個以上の制約を用いる。凸コスト項または制約を増やすと最適化問題は複雑になるが、後述するブレグマン単調作用素分解(B-MOS:Bregman Monotone Operator Splitting)を用いることで、リアルタイムでの音源強調処理を可能とする程度の低演算量で解くことができる。

　以下、第２ＰＳＤ推定部９５２が推定した目的音ＰＳＤφ_S(ω, τ)、干渉雑音ＰＳＤφ_IN(ω, τ)、背景雑音ＰＳＤφ_BN(ω, τ)を、それぞれ^φ_S(ω, τ), ^φ_IN(ω, τ), ^φ_BN(ω, τ)と表すことにする。

（１：制約、凸コスト項の具体例）
　ここでは、(a)～(d)の制約や凸コスト項の具体例について説明する。(c)の制約または凸コスト項は、以下のように分類できる。
(c-1)音源の周波数構造に基づく制約または凸コスト項
(c-2)音源の時間構造に基づく制約または凸コスト項
(c-3)音源の空間構造（チャネル間構造）に基づく制約または凸コスト項

　また、(d)の制約または凸コスト項は、例えば、以下のように分類されるものである。
(d-1)目的音到来方向にビームフォーミングした信号のＰＳＤについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約または凸コスト項
(d-2)目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約または凸コスト項
　まず、最適化問題で最適化の対象となる変数について説明する。

（１－１：変数の定義）
　ＰＳＤは任意の周波数バンドにまとめられているものとする。このときの周波数バンド数をΩとする。

　時間フレームτにおける目的音ＰＳＤを表す変数、干渉雑音ＰＳＤを表す変数、背景雑音ＰＳＤを表す変数をそれぞれu_S,τ, u_IN,τ, u_BN,τとする。また、時間フレームτにおける目的音ＰＳＤ入力値、干渉雑音ＰＳＤ入力値、背景雑音ＰＳＤ入力値をそれぞれ^φ_S,τ, ^φ_IN,τ, ^φ_BN,τとする。つまり、

である。また、u_τ=[u_S,τ ^T, u_IN,τ ^T, u_BN,τ ^T]^T, ^φ_τ=[^φ_S,τ ^T, ^φ_IN,τ ^T, ^φ_BN,τ ^T]^Tとする。

　また、時間フレームτにおける第１強調信号（つまり、目的音到来方向θ_Sにビームフォーミングした信号）Y_{θ_S}(ω, τ)のＰＳＤφ_{Y_θ_S}に対して、c_τ∈R^Ωを次式で定義する。

　したがって、c_τは時間フレームτにおける目的音到来方向θ_Sの音源の強調信号のＰＳＤ推定値である。

　以下、前後の時間フレームに依存しない制約や凸コスト項を記述する場合には、時間フレームインデックスτを省略することとする。

（１－２：従来のＰＳＤ推定（すなわち、ＰＳＤ推定部９５０の出力）でもある程度の推定はできているとの仮定に基づく制約または凸コスト項）
　変数u=[u_S ^T, u_IN ^T, u_BN ^T]^Tの値は、ＰＳＤ入力値^φ=[^φ_S ^T, ^φ_IN ^T, ^φ_BN ^T]^Tに近い値であると仮定する。この仮定に対応する凸コスト項は、例えば、次式のような二次関数により表現することができる。

　ここで、w_i∈R⁺ (i∈{S, IN, BN})は凸コスト項の重みを調整するための係数（重み付け係数）である。なお、R⁺は、正の実数の集合を表す。

　また、これらの凸コスト項を組み合わせて用いてもよい。例えば、目的音、干渉雑音、背景雑音の３つのＰＳＤを最適化する場合は、次式のような凸コスト項を用いることができる。

（１－３：ＰＳＤの非負制約）
　ＰＳＤは非負値となる。そこで、u_S≧0，u_IN≧0，u_BN≧0、すなわち、u≧0という不等式による制約を与えることができる。

（１－４：音源の周波数構造に基づく制約または凸コスト項）
　ここでは、一例として、目的音の周波数構造について説明する。

　目的音ＰＳＤ入力値^φ_Sには、分離しきれていない干渉雑音ＰＳＤや背景雑音ＰＳＤが小さな値として含まれている。例えば、目的音が音声である場合、目的音ＰＳＤは調波構造を仮定できるため、周波数方向にスパースであること、周波数方向の倍音構造があること、倍音に隣接する周波数帯域における共起関係があること、などの事前知識を用いることができる。したがって、これらの事前知識に基づく制約や凸コスト項を用いることで、目的音ＰＳＤを雑音のＰＳＤ（すなわち、干渉雑音ＰＳＤと背景雑音ＰＳＤ）と分離できることが期待される。そこで、上記仮定に対応する凸コスト項を、L₁ノルムを用いて表現することにする。ただし、小さな値であるが聴感上の重要な成分を削らないようにするため、Λ∈R^Ω×Ωを用いて重み付けした領域でスパースな目的音ＰＳＤを推定する。また、最適化アルゴリズムの安定化のために、目的音ＰＳＤ入力値^φ_SをΛで変換した信号との二乗誤差をコスト項に加えることとする。以上をまとめると、目的のコスト項は、次式で表すことができる。

　ここで、μ, ρ(∈R⁺)は重み付け係数である。また、Λ(∈R^Ω×Ω)は所定のスパースな行列である。

　Λ∈R^Ω×Ωの具体例は下記の（α）、（β）であり、（α）と（β）を組み合わせてもよい。
（α）周波数重み付け行列Λ_w

（β）隣接周波数帯域との平滑化行列Λ_nb
　左右それぞれ１つの帯域との移動平均をとる場合、行列Λ_nbは次式のようになる。

（１－５：音源の時間構造に基づく制約または凸コスト項）
　ここでは、一例として、直前の時間フレームのＰＳＤとの平滑化について説明する。

　前後の時間フレームにおいて、ＰＳＤの値は滑らかに変化することを仮定することで、歪みの抑制が期待される。この仮定に対応する凸コスト項は、例えば、次式のような二乗誤差を用いた項として表現できる。

　ただし、^φ_BN,τ-1は、時間フレームτ-1における背景雑音ＰＳＤ推定値である。また、γ_BN (∈R⁺)は重み付け係数である。

　当該凸コスト項を最小化することにより、時間方向に滑らかな背景雑音ＰＳＤの推定が可能となる。なお、例えば、目的音や干渉雑音が歌声や楽器音などの場合には、目的音や干渉雑音も時間方向に滑らかであるので、目的音や干渉雑音についても上記の背景雑音の式のような凸コスト項を用いることができる（次式参照）。

　ただし、^φ_S,τ-1, ^φ_IN,τ-1は、それぞれ時間フレームτ-1における目的音ＰＳＤ推定値、時間フレームτ-1における干渉雑音ＰＳＤ推定値である。また、γ_S, γ_IN (∈R⁺)は重み付け係数である。

（１－６：音源の空間構造に基づく制約または凸コスト項）
　ここでは、一例として、ＰＳＤの加法性制約について説明する。

　周波数領域においてＰＳＤの加法性を仮定すると、目的音ＰＳＤ、干渉雑音ＰＳＤ、背景雑音ＰＳＤの和は目的音到来方向θ_Sの音源の強調信号のＰＳＤ推定値cと近いものとなる。この仮定に対応する制約は、例えば、以下の線形制約により表現することができる。

　この制約を用いると、歪みの低減や、前段の処理で（すなわち、ＰＳＤ生成部９５０の出力で）失われた成分の復元がされ、結果的にＰＳＤ推定精度が向上することが期待される。

（１－７：目的音到来方向にビームフォーミングした信号のＰＳＤについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約または凸コスト項）
　ビームフォーマは、目的音が支配的に含まれるほど音源強調の性能が高い。すなわち、目的音が支配的な時間フレームでは、目的音ＰＳＤはビームフォーマによる目的音到来方向θ_Sの音源の強調信号のＰＳＤ推定値c（目的音到来方向にビームフォーミングした信号のＰＳＤともいう）と近いものとなると仮定できる。したがって、目的音が支配的な時間フレームでは、変数u_Sの値をcに近づける凸コスト項がＰＳＤ推定精度の向上に有効であり、この仮定に対応する凸コスト項は、例えば、次式のような二次関数により表現することができる。

　ここで、γ(∈R⁺)は重み付け係数である。なお、γは、目的音が支配的であるほど大きな値となるように設定すればよく、例えば、目的音ＰＳＤ^φ_Sが雑音のＰＳＤ（干渉雑音ＰＳＤ^φ_IN、または、背景雑音ＰＳＤ^φ_BN、または、干渉雑音ＰＳＤ^φ_INと背景雑音ＰＳＤ^φ_BNを合わせたもの）より大きいほど大きな値をγとして設定することが考えられる。または、例えば、目的音ＰＳＤ^φ_Sから雑音のＰＳＤを減算した値や目的音ＰＳＤ^φ_Sを雑音のＰＳＤで除算した値が所定の閾値を超える場合または所定の閾値以上である場合には式(1)の凸コスト項を用い、そうでない場合には式(1)の凸コスト項を用いないこと、が考えられる。

　また、目的音ＰＳＤ^φ_Sは、ビームフォーマによって目的音到来方向θ_Sの音源を強調した信号に基づいて得られたＰＳＤ推定値である。したがって、目的音到来方向θ_Sの音源の強調信号のＰＳＤ推定値cの代わりに、目的音ＰＳＤ^φ_Sを用いてもよい。目的音ＰＳＤ^φ_Sを用いると、式(1)に対応する凸コスト項は、例えば、次式のようになる。

　ここで、γ’(∈R⁺)は重み付け係数である。

（１－８：目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約または凸コスト項）
　ビームフォーマには、低周波数帯域（例えば500Hz以下）では指向性が鈍くなり、高周波数帯域（例えば4kHz以上）では空間エイリアシングによって目的音の方向以外にも焦点を形成してしまう、という性質がある。すなわち、ビームフォーマには、低周波数帯域および高周波数帯域では、低周波数帯域と高周波数帯域以外の帯域である中周波数帯域よりも、ビームフォーマの非到来方向音の抑圧性能が悪くなる。したがって、中周波数帯域のみにおいて変数u_Sの値をcに近づける凸コスト項を用いるのが、低周波数帯域や高周波数帯域のＰＳＤ推定精度の向上に有効であるので、例えば、目的音ＰＳＤを表す変数u_Sに対して定義される中周波数帯域に関する変数u_S-Midと、目的音到来方向θ_Sの音源の強調信号のＰＳＤ推定値cに対して定義される中周波数帯域に関するＰＳＤ推定値c_Midを用いた、次式のような凸コスト項が考えられる。

　ここで、γ_Mid(∈R⁺)は重み付け係数である。また、ω_L, ω_Hは0<ω_L<ω_H<Ω-1を満たす。

　したがって、周波数ビン番号ω_Lからω_Hまでの帯域が中周波数帯域に相当する。

　また、目的音到来方向θ_Sの音源の強調信号のＰＳＤ推定値cの代わりに、目的音ＰＳＤ^φ_Sを用いてもよい。この場合、例えば、目的音ＰＳＤを表す変数u_Sに対して定義される中周波数帯域に関する変数u_S-Midと、目的音ＰＳＤ^φ_Sに対して定義される中周波数帯域に関するＰＳＤ^φ_S-Midを用いた、次式のような凸コスト項が考えられる。

　ここで、γ’_Mid(∈R⁺)は重み付け係数である。

（１－９：目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づき、更に音の調波構造にも基づく、制約または凸コスト項）
　ビームフォーマでは、（１－８）で説明した通り、中周波数帯域での干渉雑音抑圧性能が高い。また、音声における母音のような調波構造を持つ音源は、中周波数帯域の調波構造と低周波数帯域の調波構造との相関、中周波数帯域の調波構造と高周波数帯域の調波構造との相関、が高い。そこで、例えば、目的音ＰＳＤ^φ_Sや、目的音到来方向θ_Sの音源の強調信号のＰＳＤ推定値cに対して、雑音が少ない中周波数帯域の複製により雑音が多く含まれる低周波数帯域および／または高周波数帯域を置換した信号を生成し、当該信号に対して（１－７）と同様の凸コスト項で用いることで、低周波数帯域や高周波数帯域のＰＳＤ推定精度を向上させることを考える。

　例えば、目的音到来方向θ_Sの音源の強調信号のＰＳＤ推定値cに対して、低周波数帯域を中周波数帯域の複製を用いて置換したＰＳＤ推定値c_SBRは、次式で与えられる。

　ここで、α_tilt(∈R⁺)は、置換前の低周波数帯域のＰＳＤとc_Midの誤差が最小になるように調整する係数である。言い換えると、α_tilt(∈R⁺)は、置換後のＰＳＤ推定値c_SBRの大きさが、置換前のＰＳＤと大きく異ならないようにするための係数である。

　このＰＳＤ推定値c_SBRを用いると、凸コスト項は、例えば、次式のようになる。

　ここで、γ_SBR-c(∈R⁺)は重み付け係数である。

　また、目的音到来方向θ_Sの音源の強調信号のＰＳＤ推定値cの代わりに、目的音ＰＳＤ^φ_Sを用いてもよい。この場合、目的音ＰＳＤ^φ_Sに対して、低周波数帯域を中周波数帯域の複製を用いて置換したＰＳＤ推定値^φ_S-SBRは、次式で与えられる。

　ここで、β_tilt(∈R⁺)は、置換前の低周波数帯域のＰＳＤと^φ_S -Midの誤差が最小になるように調整する係数である。

　このＰＳＤ推定値^φ_S-SBRを用いると、凸コスト項は、例えば、次式のようになる。

　ここで、γ_SBR-^φ(∈R⁺)は重み付け係数である。

（１－１０：まとめ）
　（１－７）から（１－９）で説明した凸コスト項がビームフォーマの特性に基づくＰＳＤに関する制約または凸コスト項の例である。したがって、最適化問題は、変数u_S、変数u_IN、変数u_BNに関するコスト関数の最適化問題であり、少なくとも、
（１）目的音到来方向にビームフォーミングした信号のＰＳＤについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、
（２）目的音到来方向にビームフォーミングした信号のＰＳＤについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、
（３）目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約、
（４）目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項
のいずれか１つを用いて定義されるものとなる。なお、最適化問題が、従来のＰＳＤ推定（すなわち、ＰＳＤ推定部９５０の出力）でもある程度の推定はできているとの仮定に基づく制約または凸コスト項や、ＰＳＤの非負制約や、音源の構造に基づく制約または凸コスト項をあわせて用いる形で定義されてもよいのはもちろんである。また（２）の制約や凸コスト項は、更に音の調波構造にも基づくものであってもよい。

（２：適用例）
　ここでは、最適化問題の具体例と、当該具体例を解く最適化アルゴリズムについて説明する。

　最適化問題の具体例として、(b), (c-1), (c-3), (d-2)の制約および凸コスト項を用いて定義される問題を考える。

　ここで、μ, ρ(∈R⁺)は重み付け係数である。また、ζは次式により定義される。

　また、Λ(∈R^Ω×Ω)を周波数重み付け行列Λ_w、I(∈R^Ω×Ω)を単位行列とし、行列A, B、ベクトルc, ^v_{^φ_S}、行列W, W^1/2は次式で与えられる。

　ここで、(d-2)の凸コスト項の定義で用いるγ_Midについては、γ_Mid=w_S ^1/2としている。

　この最適化問題のコスト関数F₁+F₂は、潜在変数uの他、潜在変数uの補助変数vを用いている。また、この最適化問題の制約は、変数u, vに関する線形制約、つまり、Au=v, Bu=c, u≧0となっている。なお、F₁, F₂はいずれも凸関数となっている。

　上記最適化問題を解く代わりに、その双対問題を解くことを考える。双対問題は次式で表される。

　双対変数p, q, rをξ=[p, q, r]^Tとまとめると、双対問題は次式のように表すことができる。

　ここで、F₁ ^*, F₂ ^*はF₁, F₂の凸共役関数であり、次式で表される。

　また、I_(r?0)(r)はrの非負性を保証する指示関数である。

　以上からわかるように、双対問題のコスト関数は２つの閉真凸関数G₁, G₂の和として表されている。

　音源強調をリアルタイムで実現するためには、上記の双対問題inf_ξG₁(ξ)+G₂(ξ)を高速に解くアルゴリズムが必要である。ここでは、参考非特許文献１で開示されているブレグマン単調作用素分解(B-MOS)を用いる。
（参考非特許文献１：K. Niwa and W. B. Kleijn, “Bregman monotone operator splitting”, https://arxiv.org/abs/1807.04871, 2018.）

　具体的には、Bregman-Peaceman-Rachfold(B-P-R)型最適化ソルバを用いる。B-P-R型最適化ソルバでは、0∈∂G₁(ξ)+∂G₂(ξ)となる不動点条件から得られる、再帰的な更新式が利用される。

　この式は、以下のD-ケーリー作用素C_iを用いて構成されている。

　ここで、・^-1は逆写像を表す。また、Dはブレグマンダイバージェンスの定義に用いる関数である。関数Dとして、∇D(0)=0を満たし、∇Dが微分可能な強凸関数となるものを用いるものとする。

　また、R_i、IはそれぞれD-リゾルベント作用素と恒等作用素であり、D-リゾルベント作用素R_iは次式により与えられる。

　上記更新式から、図３に示す最適化アルゴリズムが得られる。図３をみると、（主）変数u、補助変数v、双対変数p, q, rをそれぞれ非線形変換することにより得られる双対変数~p=∇D_p(p), ~q=∇D_q(q), ~r=∇D_r(r)が交互に更新されていることがわかる。なお、強凸関数D_p, D_q, D_rは、それぞれ次式により与えられる。

　したがって、∇D_p, ∇D_q, ∇D_rは、それぞれ次式により得られる。

　よって、強凸関数D_p, D_q, D_rの零点での勾配は0となる。

　また、図３のアルゴリズムにおける主変数uの更新における近接作用素の正則化項では、ブレグマンダイバージェンスを利用している（次式参照）。

　ここで、D_p ^・=D_p ^-1である。

　一般に強凸関数Dの微分作用素に対して∇(D^-1)=(∇D)^-1が成り立つので、∇D_p ^・=∇(D_p ^-1)=(∇D_p)^-1=(AWA^T)^*となる。∇D_q ^・, ∇D_r ^・についても同様である。したがって、∇D_p ^・, ∇D_q ^・, ∇D_r ^・は次式で与えられる。

　図３のアルゴリズムにおいて、Tは反復回数を表す定数であり、リアルタイムで処理する際には小さい値に設定する必要ある。

　以上、(b), (c-1), (c-3), (d-2)の制約及び凸コスト項を用いて定義される最適化問題について考えてきたが、最適化問題の定義に用いる制約や凸コスト項次第では、変数uに関する線形制約のもと、次式により定式化される場合もある。

　ここで、コスト関数F₁は凸関数である。

　この場合、uの補助変数を用いることなく最適化問題が定式化されており、比較的簡単に解くことができる。

＜第１実施形態＞
　以下、図６～図７を参照して音源強調装置１００について説明する。図６は、音源強調装置１００の構成を示すブロック図である。図７は、音源強調装置１００の動作を示すフローチャートである。図６に示すように音源強調装置１００は、マイクロホンアレイ９１０と、周波数領域変換部９２０と、第１ビームフォーマ部９３０と、第２ビームフォーマ部９４０と、ＰＳＤ生成部９５０と、ＰＳＤ更新部１５０と、音源強調部９６０と、時間領域変換部９７０と、記録部９９０を含む。音源強調装置１００は、更にＰＳＤ更新部１５０を含む点においてのみ、音源強調装置９００と異なる。

　図７に従い音源強調装置１００の動作について説明する。

　Ｓ９１０において、M個（Mは2以上の整数）のマイクロホン素子によって構成されるマイクロホンアレイ９１０は、マイクロホン素子mで収音された時間領域観測信号x_m(t)(m=0, 1, …, M-1)を生成し、出力する。

　Ｓ９２０において、周波数領域変換部９２０は、Ｓ９１０で生成した時間領域観測信号x_m(t)(m=0, 1, …, M-1)を入力とし、時間領域観測信号x_m(t)(m=0, 1, …, M-1)それぞれを周波数領域に変換することにより周波数領域観測信号X_m(ω, τ)(m=0, 1, …, M-1)を生成し、出力する。

　Ｓ９３０において、第１ビームフォーマ部９３０は、Ｓ９２０で生成した周波数領域観測信号X_m(ω, τ) (m=0, 1, …, M-1)を入力とし、周波数領域観測信号X_m(ω, τ) (m=0, 1, …, M-1)を線形フィルタリングすることにより目的音到来方向θ_Sの音源の強調信号Y_{θ_S}(ω, τ)（以下、第１強調信号Y_{θ_S}(ω, τ)という）を生成し、出力する。

　Ｓ９４０において、第２ビームフォーマ部９４０は、Ｓ９２０で生成した周波数領域観測信号X_m(ω, τ) (m=0, 1, …, M-1)を入力とし、周波数領域観測信号X_m(ω, τ) (m=0, 1, …, M-1)を線形フィルタリングすることによりL-1個（L-1はK以上の整数）の目的音到来方向以外の方向θ_jの音源の強調信号Y_{θ_j}(ω, τ) (j=1, …, L-1)（以下、第２強調信号Y_{θ_j}(ω, τ)という）を生成し、出力する。

　Ｓ９５０において、ＰＳＤ生成部９５０は、Ｓ９３０で生成した第１強調信号Y_{θ_S}(ω, τ)とＳ９４０で生成した第２強調信号Y_{θ_j}(ω, τ) (j=1, …, L-1)を入力とし、第１強調信号Y_{θ_S}(ω, τ)と第２強調信号Y_{θ_j}(ω, τ) (j=1, …, L-1)とを用いて、目的音ＰＳＤ^φ_S(ω, τ)、干渉雑音ＰＳＤ^φ_IN(ω, τ)、背景雑音ＰＳＤ^φ_BN(ω, τ)を生成し、出力する。なお、ここでは目的音ＰＳＤ、干渉雑音ＰＳＤ、背景雑音ＰＳＤを表す記号に^を付してあるが、Ｓ９５０におけるＰＳＤ生成部９５０の動作は、＜技術的背景＞において図３と図４を用いて説明したものと同じである。

　以下、目的音ＰＳＤ^φ_S(ω, τ)、干渉雑音ＰＳＤ^φ_IN(ω, τ)、背景雑音ＰＳＤ^φ_BN(ω, τ)のことを目的音ＰＳＤ入力値^φ_S(ω, τ)、干渉雑音ＰＳＤ入力値^φ_IN(ω, τ)、背景雑音ＰＳＤ入力値^φ_BN(ω, τ)という。また、u_Sを目的音ＰＳＤを表す変数、u_INを干渉雑音ＰＳＤを表す変数、u_BNを背景雑音ＰＳＤを表す変数とする。

　Ｓ１５０において、ＰＳＤ更新部１５０は、Ｓ９５０で生成した目的音ＰＳＤ入力値^φ_S(ω, τ)、干渉雑音ＰＳＤ入力値^φ_IN(ω, τ)、背景雑音ＰＳＤ入力値^φ_BN(ω, τ)を入力とし、変数u_S、変数u_IN、変数u_BNに関するコスト関数の最適化問題を解くことにより、目的音ＰＳＤ出力値φ_S(ω, τ)、干渉雑音ＰＳＤ出力値φ_IN(ω, τ)、背景雑音ＰＳＤ出力値φ_BN(ω, τ)を生成し、出力する。つまり、ＰＳＤ更新部１５０は、＜技術的背景＞で説明した最適化問題を解く構成部である。この最適化問題は、変数u_S、変数u_IN、変数u_BNに関するコスト関数の最適化問題であり、少なくとも、
（１）目的音到来方向にビームフォーミングした信号のＰＳＤについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、
（２）目的音到来方向にビームフォーミングした信号のＰＳＤについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、
（３）目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約、
（４）目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項
のいずれか１つを用いて定義されるものとなる。

　以下、（１）～（４）の制約および凸コスト項の例について説明する。例えば、（２）の目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項として、目的音が支配的であるほど、変数u_Sの値が、ビームフォーマによる目的音到来方向の音源の強調信号のＰＳＤ推定値c、または、ビームフォーマによる目的音到来方向の音源の強調に基づいて得られた目的音ＰＳＤ入力値^φ_S(ω, τ)、と近いものとなると仮定することにより導出される凸コスト項を用いることができる。具体的には、式(1)や式(1)’で定義される凸コスト項である。なお、ビームフォーマによる目的音到来方向とは、目的音到来方向θ_Sのことである。

　また、例えば、（４）の周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項は、中周波数帯域において、変数u_Sの値が、ビームフォーマによる目的音到来方向の音源の強調信号のＰＳＤ推定値c、または、ビームフォーマによる目的音到来方向の音源の強調に基づいて得られた目的音ＰＳＤ入力値^φ_S(ω, τ)、と近いものとなると仮定することにより導出される凸コスト項である。具体的には、式(2)や式(2)’で定義される凸コスト項である。

　また、例えば、（４）の周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項は、変数u_Sの値が、ビームフォーマによる目的音到来方向の音源の強調信号のＰＳＤ推定値cについて低周波数帯域と高周波数帯域の少なくとも何れかについて中周波数帯域のＰＳＤ推定値で置換したもの、または、ビームフォーマによる目的音到来方向の音源の強調に基づいて得られた目的音ＰＳＤ入力値^φ_S(ω, τ)について低周波数帯域と高周波数帯域の少なくとも何れかについて中周波数帯域の目的音ＰＳＤ入力値で置換したもの、と近いものとなると仮定することにより導出される凸コスト項である。具体的には、式(3)や式(3)’で定義される凸コスト項である。

　また、この変数u_S、変数u_IN、変数u_BNに関するコスト関数の最適化問題は、u=[u_S ^T, u_IN ^T, u_BN ^T]^T、vを変数uの補助変数とし、変数u, vに関する線形制約のもとでinf_u,vF₁(u)+F₂(v) （ただし、F₁, F₂はそれぞれコスト関数を構成する凸関数）を解く問題として定式化できる。ここで、変数u, vに関する線形制約が目的音到来方向にビームフォーミングした信号のＰＳＤについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、または、目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約を含むものとなるか、コスト関数F₁(u)+F₂(v)が目的音到来方向にビームフォーミングした信号のＰＳＤについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、または、目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項を含むものとなる。

　なお、最適化問題の定義に用いる制約や凸コスト項次第では、上記問題を簡略化した問題として定式化される場合もある。具体的には、変数u_S、変数u_IN、変数u_BNに関するコスト関数の最適化問題は、u=[u_S ^T, u_IN ^T, u_BN ^T]^Tとし、変数uに関する線形制約のもとでinf_uF₁(u) （ただし、F₁は凸なコスト関数）を解く問題として定式化できる。ここで、変数uに関する線形制約が目的音到来方向にビームフォーミングした信号のＰＳＤについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、または、目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約を含むものとなるか、コスト関数F₁(u)が目的音到来方向にビームフォーミングした信号のＰＳＤについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、または、目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項を含むものとなる。

　以下、変数uの補助変数vも用いて定式化される最適化問題の一例をあげる。

　変数u, vに関する線形制約は、以下の式により与えられる。

（ただし、A=[Λ 0 0], B=[I, I, I], cは目的音到来方向θ_Sの音源の強調信号のＰＳＤ推定値、Λ(∈R^Ω×Ω)は周波数重み付け行列Λ_w、I(∈R^Ω×Ω)は単位行列、Ωは周波数バンド数）

　また、F₁(u), F₂(v)は、それぞれ以下の式により与えられる。

（ただし、

、μ, ρ(∈R⁺)は重み付け係数、0<ω_L<ω_H<Ω-1）

　以下、図８～図９を参照してこの最適化問題を解くＰＳＤ更新部１５０について説明する。図８は、ＰＳＤ更新部１５０の構成を示すブロック図である。図９は、ＰＳＤ更新部１５０の動作を示すフローチャートである。図８に示すようにＰＳＤ更新部１５０は、初期化部１５１、第１変数計算部１５２１と、第１双対変数計算部１５２２と、第２双対変数計算部１５２３と、第３双対変数計算部１５２４と、第２変数計算部１５２５と、第４双対変数計算部１５２６と、第５双対変数計算部１５２７と、カウンタ更新部１５３と、終了条件判定部１５４を含む。

　図９に従いＰＳＤ更新部１５０の動作について説明する。ここで、双対変数p, q, rに対して次式で定義される、関数D_p ^・, D_q ^・, D_r ^・および双対変数~p, ~q, ~rを用いる。

　Ｓ１５１において、初期化部１５１は、カウンタtを初期化する。具体的には、t=0とする。また、初期化部１５１は、双対変数~p, ~q, ~rを初期化する。具体的には、双対変数~p, ~q, ~rの初期値（双対変数~p, ~q, ~rの0回目の更新結果）として~p⁰, ~q⁰, ~r⁰を設定する。

　Ｓ１５２１において、第１変数計算部１５２１は、次式により、変数uのt+1回目の更新結果であるu^t+1を計算する。

　Ｓ１５２２において、第１双対変数計算部は、次式により、双対変数~pのt+1回目の中間更新結果である~p^t+1/2を計算する。

　Ｓ１５２３において、第２双対変数計算部は、次式により、双対変数~qのt+1回目の更新結果である~q^t+1を計算する。

　Ｓ１５２４において、第３双対変数計算部は、次式により、双対変数~rのt+1回目の中間更新結果である~r^t+1/2を計算する。

　Ｓ１５２５において、第２変数計算部は、次式により、補助変数vのt+1回目の更新結果であるv^t+1を計算する。

　Ｓ１５２６において、第４双対変数計算部は、次式により、双対変数~pのt+1回目の更新結果である~p^t+1を計算する。

　Ｓ１５２７において、第５双対変数計算部は、~r=[~r₁ ^T, ~r₂ ^T, ~r₃ ^T]^Tとし、次式により、双対変数~rのt+1回目の更新結果である~r^t+1を計算する。

　Ｓ１５３において、カウンタ更新部１２５は、カウンタtを1だけインクリメントする。具体的には、t←t+1とする。

　Ｓ１５４において、終了条件判定部１５４は、カウンタtが所定の更新回数T（Tは1以上の整数であり、リアルタイム性を考慮して設定される値である）に達した場合（つまり、t>T-1となり、終了条件が満たされた場合）は、そのときの変数uの値u^Tを出力して、処理を終了する。それ以外の場合、Ｓ１５２１の処理に戻る。つまり、ＰＳＤ更新部１５０は、Ｓ１５２１～Ｓ１５４の処理を繰り返す。

　Ｓ９６０において、音源強調部９６０は、Ｓ９３０で生成した第１強調信号Y_{θ_S}(ω, τ)とＳ１５０で生成した目的音ＰＳＤ出力値φ_S(ω, τ)、干渉雑音ＰＳＤ出力値φ_IN(ω, τ)、背景雑音ＰＳＤ出力値φ_BN(ω, τ)とを入力とし、第１強調信号Y_{θ_S}(ω, τ)と目的音ＰＳＤ出力値φ_S(ω, τ)、干渉雑音ＰＳＤ出力値φ_IN(ω, τ)、背景雑音ＰＳＤ出力値φ_BN(ω, τ)とを用いて、周波数領域目的音信号Z(ω, τ)∈Cを生成し、出力する。

　Ｓ９７０において、時間領域変換部９７０は、Ｓ９６０で生成した周波数領域目的音信号Z(ω, τ)を入力とし、周波数領域目的音信号Z(ω, τ)を時間領域に変換することにより時間領域目的音周波数領域観測信号z(t)∈Rを生成し、出力する。

　なお、ＰＳＤ更新部１５０を単独の装置（以下、ＰＳＤ最適化装置２００という）として構成することもできる。図１０は、ＰＳＤ最適化装置２００の構成を示すブロック図である。図１０に示すようにＰＳＤ最適化装置２００は、ＰＳＤ更新部１５０と、記録部９９０を含む。

　本実施形態の発明によれば、ビームフォーマの特性を考慮することにより、干渉雑音を抑圧するためのビームフォーマを用いた構成における音源強調性能を効率的に向上させることが可能となる。

＜補記＞
　図１１は、上述の各装置を実現するコンピュータの機能構成の一例を示す図である。上述の各装置における処理は、記録部２０２０に、コンピュータを上述の各装置として機能させるためのプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０などに動作させることで実施できる。

　本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

　ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

　ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

　本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

　既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

　上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。

Claims

　u_Sを目的音ＰＳＤを表す変数、u_INを干渉雑音ＰＳＤを表す変数、u_BNを背景雑音ＰＳＤを表す変数とし、
　目的音ＰＳＤ入力値^φ_S(ω, τ)、干渉雑音ＰＳＤ入力値^φ_IN(ω, τ)、背景雑音ＰＳＤ入力値^φ_BN(ω, τ)を入力とし、変数u_S、変数u_IN、変数u_BNに関するコスト関数の最適化問題を解くことにより、目的音ＰＳＤ出力値φ_S(ω, τ)、干渉雑音ＰＳＤ出力値φ_IN(ω, τ)、背景雑音ＰＳＤ出力値φ_BN(ω, τ)を生成するＰＳＤ更新部を含むＰＳＤ最適化装置であって、
　前記コスト関数の最適化問題は、少なくとも、
　目的音到来方向にビームフォーミングした信号のＰＳＤについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、
　目的音到来方向にビームフォーミングした信号のＰＳＤについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、
　目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約、
　目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項
のいずれか１つを用いて定義される
　ＰＳＤ最適化装置。
　請求項１に記載のＰＳＤ最適化装置であって、
　前記目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項は、
　目的音が支配的であるほど、変数u_Sの値が、ビームフォーマによる目的音到来方向の音源の強調信号のＰＳＤ推定値c、または、ビームフォーマによる目的音到来方向の音源の強調に基づいて得られた前記目的音ＰＳＤ入力値^φ_S(ω, τ)、と近いものとなると仮定することにより導出される凸コスト項である
　ことを特徴とするＰＳＤ最適化装置。
　請求項１に記載のＰＳＤ最適化装置であって、
　前記周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項は、
　中周波数帯域において、変数u_Sの値が、ビームフォーマによる目的音到来方向の音源の強調信号のＰＳＤ推定値c、または、ビームフォーマによる目的音到来方向の音源の強調に基づいて得られた前記目的音ＰＳＤ入力値^φ_S(ω, τ)、と近いものとなると仮定することにより導出される凸コスト項である
　ことを特徴とするＰＳＤ最適化装置。
　請求項１に記載のＰＳＤ最適化装置であって、
　前記周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項は、
　変数u_Sの値が、ビームフォーマによる目的音到来方向の音源の強調信号のＰＳＤ推定値cについて低周波数帯域と高周波数帯域の少なくとも何れかについて中周波数帯域のＰＳＤ推定値で置換したもの、または、ビームフォーマによる目的音到来方向の音源の強調に基づいて得られた前記目的音ＰＳＤ入力値^φ_S(ω, τ)について低周波数帯域と高周波数帯域の少なくとも何れかについて中周波数帯域の前記目的音ＰＳＤ入力値で置換したもの、と近いものとなると仮定することにより導出される凸コスト項である
　ことを特徴とするＰＳＤ最適化装置。
　請求項１に記載のＰＳＤ最適化装置であって、
　u=[u_S ^T, u_IN ^T, u_BN ^T]^T、vを変数uの補助変数とし、
　前記コスト関数の最適化問題は、変数u, vに関する線形制約のもとでinf_u,vF₁(u)+F₂(v) （ただし、F₁, F₂はそれぞれコスト関数を構成する凸関数）を解く問題と定義されるものであり、
　前記変数u, vに関する線形制約が目的音到来方向にビームフォーミングした信号のＰＳＤについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、または、目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約を含むものであるか、前記コスト関数F₁(u)+F₂(v)が目的音到来方向にビームフォーミングした信号のＰＳＤについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、または、目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項を含むものである
　ことを特徴とするＰＳＤ最適化装置。
　請求項５に記載のＰＳＤ最適化装置であって、
　前記変数u, vに関する線形制約は、

（ただし、A=[Λ 0 0], B=[I, I, I], cは目的音到来方向θ_Sの音源の強調信号のＰＳＤ推定値、Λ(∈R^Ω×Ω)は周波数重み付け行列Λ_w、I(∈R^Ω×Ω)は単位行列、Ωは周波数バンド数）
であり、
　F₁(u), F₂(v)は、それぞれ

（ただし、

、μ, ρ(∈R⁺)は重み付け係数、0<ω_L<ω_H<Ω-1）であり、
　双対変数p, q, rに対して、関数D_p ^・, D_q ^・, D_r ^・および双対変数~p, ~q, ~rは、それぞれ次式で定義されるものとし、

　前記ＰＳＤ更新部は、
　次式により、変数uのt+1回目の更新結果であるu^t+1を計算する第１変数計算部と、

　次式により、双対変数~pのt+1回目の中間更新結果である~p^t+1/2を計算する第１双対変数計算部と、

　次式により、双対変数~qのt+1回目の更新結果である~q^t+1を計算する第２双対変数計算部と、

　次式により、双対変数~rのt+1回目の中間更新結果である~r^t+1/2を計算する第３双対変数計算部と、

　次式により、補助変数vのt+1回目の更新結果であるv^t+1を計算する第２変数計算部と、

　次式により、双対変数~pのt+1回目の更新結果である~p^t+1を計算する第４双対変数計算部と、

　~r=[~r₁ ^T, ~r₂ ^T, ~r₃ ^T]^Tとし、
　次式により、双対変数~rのt+1回目の更新結果である~r^t+1を計算する第５双対変数計算部と、

　を含む
　ことを特徴とするＰＳＤ最適化装置。
　請求項１に記載のＰＳＤ最適化装置であって、
　u=[u_S ^T, u_IN ^T, u_BN ^T]^Tとし、
　前記コスト関数の最適化問題は、変数uに関する線形制約のもとでinf_uF₁(u) （ただし、F₁は凸なコスト関数）を解く問題と定義されるものであり、
　前記変数uに関する線形制約が目的音到来方向にビームフォーミングした信号のＰＳＤについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、または、目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約を含むものであるか、前記コスト関数F₁(u)が目的音到来方向にビームフォーミングした信号のＰＳＤについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、または、目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項を含むものである
　ことを特徴とするＰＳＤ最適化装置。
　u_Sを目的音ＰＳＤを表す変数、u_INを干渉雑音ＰＳＤを表す変数、u_BNを背景雑音ＰＳＤを表す変数とし、
　ＰＳＤ最適化装置が、目的音ＰＳＤ入力値^φ_S(ω, τ)、干渉雑音ＰＳＤ入力値^φ_IN(ω, τ)、背景雑音ＰＳＤ入力値^φ_BN(ω, τ)を入力とし、変数u_S、変数u_IN、変数u_BNに関するコスト関数の最適化問題を解くことにより、目的音ＰＳＤ出力値φ_S(ω, τ)、干渉雑音ＰＳＤ出力値φ_IN(ω, τ)、背景雑音ＰＳＤ出力値φ_BN(ω, τ)を生成するＰＳＤ更新ステップを含むＰＳＤ最適化方法であって、
　前記コスト関数の最適化問題は、少なくとも、
　目的音到来方向にビームフォーミングした信号のＰＳＤについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく制約、
　目的音到来方向にビームフォーミングした信号のＰＳＤについての、目的音の含まれ度合いによるビームフォーマの音源強調特性の異なりに基づく凸コスト項、
　目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく制約、
　目的音到来方向にビームフォーミングした信号のＰＳＤについての、周波数方向におけるビームフォーマの音源強調特性の異なりに基づく凸コスト項
のいずれか１つを用いて定義される
　ＰＳＤ最適化方法。
　請求項１ないし７のいずれか１項に記載のＰＳＤ最適化装置としてコンピュータを機能させるためのプログラム。