WO2019208137A1

WO2019208137A1 - 音源分離装置、その方法、およびプログラム

Info

Publication number: WO2019208137A1
Application number: PCT/JP2019/014817
Authority: WO
Inventors: 弘章伊藤; 悠馬小泉; 登原田
Original assignee: 日本電信電話株式会社
Priority date: 2018-04-24
Filing date: 2019-04-03
Publication date: 2019-10-31
Also published as: JP2019193073A

Abstract

従来よりも分離精度の高い音源分離技術装置を提供する。音源分離装置は、観測信号から拡散性雑音音響信号の推定値を除去し、除去済信号を求める拡散性雑音除去部と、除去済信号をモデル化した確率分布と、伝達関数をモデル化した確率分布と、を組み合わせることでフィルタを得るフィルタ設計部と、フィルタにより観測信号から、少なくとも第一音響信号と干渉性雑音音響信号を含む雑音成分の推定値とを分離する音源分離部と、を有する。

Description

音源分離装置、その方法、およびプログラム

　本発明は、雑音環境下において、既知の音響信号をマイクロホンに与えた際(例えば、既知の音響信号を再生し、再生音をマイクロホンで収録した際)に得られた観測信号と、既知の音響信号から、観測信号に含まれる音声成分と雑音成分を分離する音源分離装置に関する。

　マイクロホンの音声認識性能を評価する場合、マイクロホンで収録した観測信号からSN比を推定し、SN比推定値と音声認識率の比較を行うものがある。例えば、SN比推定値の異なる２つ以上の観測信号に対して１台の音声認識装置で音声認識を行うことで、各SN比推定値に対するその音声認識装置の音声認識率を比較することができる。

　このような手法を利用することで、観測信号が人間にとって認識してほしいと感じるか否か、という推定ができ（例えば、SN比が高い観測信号であれば聞き取りやすく認識して欲しいと感じると推定できる）、ユーザー体感値に近い認識性能の評価が可能となる。言い換えると、SN比が高い(音声成分に対して雑音成分が少なく聞き取りやすい)と音声認識の認識精度が高くなり、SN比が低い(音声成分に対して雑音成分が多く聞き取りづらい)と音声認識の認識精度が低くなるという点を考慮した認識性能の評価が可能となる。

　上記のような性能評価のためのデータは、一般的に予め図示しない音声信号データベースを用意し、図１のようにスピーカ７１から目的音s_tを再生し、スピーカ７２から干渉性雑音n_tを再生し、マイクロホン７３で収録した観測信号x_tを用い、SN比推定部７４でSN比を推定する。なお、観測信号x_tには拡散性雑音d_tも含まれる。tは時刻を示すインデックスである。

　従来のSN比推定技術は、図２のように目的音(元の音響信号であり、源音源または源信号ともいう)s_tから得られる発話区間情報を参考に、発話区間(図２中のT_s0～T_s1)から音声成分を、非発話区間(図２中のT_n0～T_n1)から雑音成分を求める（非特許文献１参照）。

　しかし、非定常な雑音が存在すると、SN比の推定値とユーザー体感値（実感値）との間に差が生じる。例えば、図２Ａを非定常な雑音が存在しない状態とし、図２Ｂでは非発話区間(図２中のT_n0～T_n1)を含む区間に非定常な雑音が存在しSN比がユーザー体感値よりも低く推定され、図２Ｃでは発話区間(図２中のT_s0～T_s1)を含む区間に非定常な雑音が存在しSN比がユーザー体感値よりも高く推定される。

　そこで、図３のように、音源分離部８４において観測信号x_tの音声成分と雑音成分とを分離し、SN比推定部８５において分離した信号からSN比を推定する手法を提案する。ここでは、目的音s_ω,τ∈C(Cは複素数の全体の集合)と干渉性雑音n_ω,τ∈Cや拡散性雑音d_ω,τ∈Cが以下のように重畳した観測信号x_ω,τ∈Cから、観測信号x_ω,τに含まれる目的音由来の成分(音声成分)a_ωs_ω,τと、雑音由来の成分(雑音成分)n_ω,τ+d_ω,τを推定する問題を扱う。
x_ω,τ=a_ωs_ω,τ+n_ω,τ+d_ω,τ (1)
ここで、x_ω,τ、s_ω,τ、n_ω,τ、d_ω,τはそれぞれ時間領域の信号x_t、s_t、n_t、d_tを周波数領域の信号に変換したものであり、ω∈{1,…,Ω}とτ∈{1,…,Τ}は周波数と(フレーム)時間のインデックス、a_ωは目的音位置(目的音の発生位置)から観測位置までの伝達特性(伝達関数ともいう)である。以降、表記の簡単のために、|x_ω,τ|=X_ω,τのように複素数の絶対値を各小文字に対応する大文字で表記する。特に断りのない限り、小文字の変数は複素数、大文字の変数は実数とする。拡散性雑音としては、空調の音などを含む背景雑音等の定常的な雑音が想定される。干渉性雑音としては、本来、収録対象としていない人の発話やTVの音声、突発的な物音等の非定常な雑音が想定される。

　観測信号x_ω,τから音声成分a_ωs_ω,τと雑音成分n_ω,τ+d_ω,τとを推定する代表的な手法に、非線形フィルタリングがある。この方法では、非線形フィルタを以下の式で設計し、

各信号（成分）を以下のように推定する。
^a_ω^s_ω,τ=G_ω,τx_ω,τ (3)
^n_ω,τ+^d_ω,τ=(1-G_ω,τ)x_ω,τ (4)
　このように各信号（成分）を推定することで、例えば式(5)で定義されるような各時間フレームのSNRであるsSNR（segmental-SNR）を推定できる。

　式(2)において、非線形フィルタG_ω,τを推定するためには、伝達特性A_ω、目的音S_ω,τ、干渉性雑音N_ω,τ、拡散性雑音D_ω,τを推定する必要がある。本問題設定では、目的音S_ω,τは既知であると仮定しているため、観測信号X_ω,τから伝達特性A_ω、干渉性雑音N_ω,τ、拡散性雑音D_ω,τを推定することで、非線形フィルタG_ω,τ及びSNRの推定が可能である。

　上記の音源分離問題における従来手法の多くでは、振幅領域での各音源の瞬時混合、および伝達特性の振幅領域での乗法性を仮定している。今、上記の仮定が成り立つとすると、観測信号X_ω,τは以下のように記述できる。
X_ω,τ=A_ωS_ω,τ+N_ω,τ+D_ω,τ (6)
このモデルの下で、各成分を推定する手法には様々なものがある。拡散性雑音D_ω,τを推定する手法で代表的なものは、拡散性雑音D_ω,τが定常雑音であると仮定し、観測信号X_ω,τの期待値とすることである。

　しかし、この方法だけでは、雑音成分のうち拡散性雑音D_ω,τしか推定できず、干渉性雑音N_ω,τを推定することができない。干渉性雑音N_ω,τを推定する方法として、半教師付非負値行列因子分解（NMF: non-negative matrix factorization）がある。半教師付NMFでは観測信号X_ω,τに関して以下のようなモデルを置く。

ここでW^S _ω,rとW^N _ω,kはそれぞれ、目的音と干渉性雑音の振幅スペクトルの基底、H^S _r,τとH^N _k,τはそれぞれ、目的音と干渉性雑音の振幅スペクトルの各基底に対応する強度（アクティベーション）であり、RとKはそれぞれの基底数である。本問題設定では、目的音S_ω,τが既知であるため、基底W^S _ω,rと強度H^S _r,τを、目的音S_ω,τと

の間の一般化KL情報量などの目的関数を最小化するように学習し、次いで、観測信号X_ω,τと式(7)の間の一般化KL情報量などの目的関数を最小化するように基底W^N _ω,kと強度H^N _k,τを学習する（非特許文献２参照）。

"G.160 : Revised Appendix II - Objective measures for the characterization of the basic functioning of noise reduction algorithms", International Telecommunication Union D. Kitamura, N. Ono, H. Saruwatari, Y. Takahashi, and K. Kondo, "DISCRIMINATIVE AND RECONSTRUCTIVE BASIS TRAINING FOR AUDIO SOURCE SEPARATION WITH SEMI-SUPERVISED NONNEGATIVE MATRIX FACTORIZATION", in Proc., IWAENC 2016.

　しかしながら、式(7)では伝達特性A_ωと拡散性雑音D_ω,τを考慮していないため、観測信号X_ω,τからの目的音由来の成分a_ωs_ω,τと雑音由来の成分n_ω,τ+d_ω,τの分離精度が低く、これを適用しただけではSNRを精緻に推定することは困難である。

　本発明は、従来よりも分離精度の高い音源分離技術装置を提供することを目的とする。

　上記の課題を解決するために、本発明の一態様によれば、音源分離装置は、スピーカから発せられた所定の音響信号をマイクロホンで収録した観測信号から所望の音響信号を取得する。観測信号は、所定の音響信号とスピーカとマイクロホンとの間の空間特性を表現した関数である伝達関数とに基づく第一音響信号と、干渉性雑音である干渉性雑音音響信号と、拡散性雑音である拡散性雑音音響信号と、を含んでおり、音源分離装置は、観測信号から拡散性雑音音響信号の推定値を除去し、除去済信号を求める拡散性雑音除去部と、除去済信号をモデル化した確率分布と、伝達関数をモデル化した確率分布と、を組み合わせることでフィルタを得るフィルタ設計部と、フィルタにより観測信号から、少なくとも第一音響信号と干渉性雑音音響信号を含む雑音成分の推定値とを分離する音源分離部と、を有する。

　本発明によれば、従来よりも分離精度が高いという効果を奏する。さらに、分離した各成分を用いることで従来よりもSN比の推定精度が高いという効果を奏する。

SN比を推定する従来技術を説明するための図。図２Ａは非定常な雑音が存在しない状態を示す図、図２Ｂは非発話区間を含む区間に非定常な雑音が存在する状態を示す図、図２Ｃは発話区間を含む区間に非定常な雑音が存在する状態を示す図。 SN比を推定する従来技術を説明するための図。第一実施形態に係るSN比推定装置の機能ブロック図。第一実施形態に係るSN比推定装置の処理フローの例を示す図。

　以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。また、テキスト中で使用する記号「_」等は、本来直後の文字の真下に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
　本実施形態では、半教師付NMFを拡張することで、観測信号X_ω,τから、伝達特性A_ω、干渉性雑音N_ω,τ、拡散性雑音D_ω,τを推定し、SN比を推定する手法を提供する。本実施形態のポイントは、
・半教師付NMFを、式(1)や式(6)のような実環境における観測モデルに適応するための拡散性雑音を事前に推定して観測信号から除去し、
・除去後の信号に基づき確率モデル化された半教師付NMF（非特許文献２参照）に伝達特性A_ωに関する項を組み込み、事後確率最大化（MAP: maximum-a-posteriori）推定に基づく最適化を行うアルゴリズムを提供することである。このような構成により、実環境においても観測信号から目的音由来成分と雑音由来成分を高精度に分離し、SN比を推定することができる。

　まず、観測信号をどのようにモデル化にするかについて説明する。

＜観測信号のモデル化＞
　式(6)に即して観測信号をモデル化するために、まず、観測信号X_ω,τを以下のように近似する。

ここで拡散性雑音D_ω,τの推定に関する既存技術を拡張し、拡散性雑音D_ω,τが、ある一定の時間フレームの間では定常雑音であると仮定する。また目的音S_ω,τと干渉性雑音N_ω,τが時間的に疎な信号であると仮定することで、拡散性雑音D_ω,τを以下のように推定する。
^D_ω,τ←Υ・min[X_{ω,τ-F_wd},X_{ω,τ-F_wd+1},…,X_{ω,τ+B_wd}] (8)
ここでF_wdとB_wdはD_ω,τが定常的である時間フレーム数を規定するパラメータであり、チューニングにより求めることができる。例えば、それぞれ20程度に設定すればよい。また、Υは所定の値である。すると、拡散性雑音D_ω,τを除去した観測信号（以下、「除去済信号」ともいう）Y_ω,τは以下のように記述することができる。

ここで目的音の振幅スペクトルの基底W^S _ω,rと強度H^S _r,τは、従来の半教師付NMFの枠組み（非特許文献２参照）を利用することで推定できる。以降では、除去済信号Y_ω,τから、干渉性雑音の振幅スペクトルの基底W^N _ω,kと強度H^N _k,τおよび伝達特性A_ωを推定する手法を述べる。なお、W^S _ω,r、H^S _r,τ、W^N _ω,k、H^N _k,τ、A_ωの推定値をそれぞれ^W^S _ω,r、^H^S _r,τ、^W^N _ω,k、^H^N _k,τ、^A_ωと表記する。

　伝達特性A_ωは元々物理的なパラメータであり、部屋の形状や、観測環境などの音響的な事前知識を組み込むことで、推定精度の向上が見込まれる。これを実現するために、本実施形態では、各パラメータをMAP推定で推定する。具体的には、除去済信号Y_ω,τに関する尤度関数p(_A,_N|_S,_Y)と、伝達特性A_ωに関する事前分布p(_A|_α)を設計し、以下の式(11)の同時確率Lを最大化するように各パラメータ_A、_N、_αを推定する。
L=p(_A,_N|_S,_Y)p(_A|_α) (11)
_A:=[^A_ω]∈R^Ω
_N:=[^N_ω,τ]∈R^Ω×Τ
_S:=[S_ω,τ]∈R^Ω×Τ
_Y:=[Y_ω,τ]∈R^Ω×Τ
_α:=[α_ω]∈R^Ω
_αは伝達特性^A_ωに関する事前分布をモデル化する際に用いられるパラメータの集合である。ここで尤度関数には、一般化KL情報量を確率的に解釈した確率分布である、ポアソン分布を適用する。また伝達特性A_ωに関しても、伝達特性A_ωは非負の変数であるため、ポアソン分布を適用する。すると各分布は以下のように記述できる。

ここで各分布は指数分布族であるため、同時確率Lの最大化は、両辺に対数をとった対数同時分布を最大化する方が、数値計算上効率的である。ここで各分布に対数をとると、以下のように記述できる。

ゆえに最大化すべき目的関数は

となる。この目的関数J(Θ)を最大化することは、同時確率Lを最大化することを意味する。

＜更新式の導出＞
　式(18)を最大化するように基底の推定値^W^N _ω,k、強度の推定値^H^N _k,τおよび伝達特性の推定値^A_ωを推定するアルゴリズムを述べる。式(18)を直接最大化することは困難なため、本実施形態では補助関数法を利用した更新アルゴリズムを述べる。また、問題の簡単のために、R=Kとする。いま対数和の不等式より、λ_r,ω,τ≧0かつ

とすると、以下の不等式が成り立つ。

すると目的関数J(Θ)は、以下のJ'(Θ)で下から抑えることができる。

補助関数法によれば、まずJ'(Θ)をλ_r,ω,τに関して最大化し、そのλ_r,ω,τの下で各変数を最大化する処理を繰り返すことで、目的関数J(Θ)を単調増加するようにパラメータを推定できる。補助関数法に基づく更新アルゴリズムは以下のようになる。

なお、行列計算ライブラリを用いて計算する際は、上記アルゴリズムの近似として、式(22)(23)を以下のような更新則に変更してもよい。

また、Tは転置、_EはΩ×Τで要素が全て1の行列であり、行列の除算は要素毎の除算を表す。また_Z=[_Z^(S),_W^(N)]、_H=[(_H^(S))^T,(_H^(N))^T]^T、_Z^(S):={^A_ω^W_ω,r ^S}∈R^Ω×R、_W^(N):={^W_ω,k ^N}∈R^Ω×K、_H^(S):={^H_r,τ ^S}∈R^R×Τ、_H^(N):={^H_k,τ ^N}∈R^K×Τである。

　また_Z^(S)と_H^(S)を更新させないために、各更新毎に_Z^(S)と_H^(S)を事前学習した値へと置き換える。

＜第一実施形態に係るSN比推定装置＞
　図４は第一実施形態に係るSN比推定装置の機能ブロック図を、図５はその処理フローの例を示す。

　SN比推定装置１００は、初期化部１０２、拡散性雑音除去部１０３と、フィルタ設計部１０４と、音源分離部１０５と、信号対雑音比推定部１０６とを含む。

　SN比推定装置１００は、スピーカ７１で再生する時間領域の目的音s_tを周波数領域の信号に変換した目的音s_ω,τ、マイクロホン７３で収録した時間領域の観測信号x_tを周波数領域の信号に変換した観測信号x_ω,τ、各種パラメータを入力とする。ここでいう各種パラメータとは、例えば、式(8)のΥ、基底R,K(例えば、R=K=10程度に設定できる)、伝達特性の推定値^Aの初期値(例えば、^A_ω=1)等である。なお、本実施形態では、周波数領域の目的音s_ω,τ、観測信号x_ω,τが入力されるものとして説明しているが、時間領域の目的音s_t、観測信号x_tが入力される構成としてもよい。ただし、tは時刻のインデックスである。この場合、SN比推定装置１００において、周波数領域の信号に変換する処理を行う。例えば、周波数変換には高速フーリエ変換などを利用すればよく、フーリエ変換長は256点、シフト点数は128点などにすればよい。

　SN比推定装置１００は、目的音s_ω,τ、観測信号x_ω,τを利用して、観測信号x_ω,τに含まれる音声成分と雑音成分とを分離して信号対雑音比を求め、出力する。

　SN比推定装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。SN比推定装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。SN比推定装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。SN比推定装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。SN比推定装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしもSN比推定装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、SN比推定装置の外部に備える構成としてもよい。

　以下、各部について説明する。

＜初期化部１０２＞
　初期化部１０２は、目的音s_ω,τと観測信号x_ω,τと各種パラメータとを入力とする。

　初期化部１０２は、観測信号x_ω,τとΥとを用いて、式(8)により、拡散性雑音D_ω,τを推定し、推定値^D_ω,τを出力する。
^D_ω,τ←Υ・min[X_{ω,τ-F_wd},X_{ω,τ-F_wd+1},…,X_{ω,τ+B_wd}] (8)
　初期化部１０２は、例えば、目的音s_ω,τと基底数Rを用いて、一般化KL情報量最小化などに基づく既存のNMFの枠組み(非特許文献２参照)で、基底の推定値^W^S _ω,rと強度の推定値^H^S _r,τとを求め、出力する。例えば、目的音S_ω,τが既知であるため、基底の推定値^W^S _ω,rと強度の推定値^H^S _r,τを、目的音S_ω,τと

の間の一般化KL情報量などの目的関数を最小化するように学習する（非特許文献２参照）。また、基底の推定値^W^N _ω,kと強度の推定値^H^N _k,τは非負の乱数などで初期化する。

　初期化部１０２は、例えば、上述の方法により、推定値^D_ω,τ、基底の推定値^W^S _ω,r、強度の推定値^H^S _r,τ、基底の推定値^W^N _ω,k、強度の推定値^H^N _k,τの初期値を求め（Ｓ１０２）、出力する。なお、伝達特性の推定値^A_ω,k、基底の推定値^W^N _ω,k、強度の推定値^H^N _k,τは本実施形態において繰り返し更新される値だが、推定値^D_ω,τ、基底の推定値^W^S _ω,r、強度の推定値^H^S _r,τは１つの利用環境に対して一度設定すれば初期値をそのまま利用してもよい。

＜拡散性雑音除去部１０３＞
　拡散性雑音除去部１０３は、観測信号x_ω,τと拡散性雑音D_ω,τの推定値^D_ω,τとを入力とし、式(9)により観測信号x_ω,τから拡散性雑音D_ω,τの推定値を除去し、除去済信号Y_ω,τを求め（Ｓ１０３）、出力する。

＜フィルタ設計部１０４＞
　フィルタ設計部１０４は、基底の推定値^W^S _ω,r、強度の推定値^H^S _r,τ、基底の推定値^W^N _ω,k及び強度の推定値^H^N _k,τの初期値、並びに、除去済信号Y_ω,τ、拡散性雑音D_ω,τの推定値^D_ω,τ、観測信号x_ω,τ、基底数K,Rを含む各種パラメータを入力とする。フィルタ設計部１０４は、除去済信号Y_ω,τをモデル化した確率分布と、伝達特性A_ωをモデル化した確率分布と、を組み合わせることで非線形フィルタG_ω,τを得（Ｓ１０４）、出力する。例えば、除去済信号Y_ω,τに関する尤度関数p(_A,_N|_S,_Y)と、伝達特性A_ωに関する事前分布p(_A|_α)とを組み合わせた式(11)の同時確率Lを最大化するように各パラメータ_A、_N、_αを推定する。
L=p(_A,_N|_S,_Y)p(_A|_α) (11)
　この処理は、次の目的関数J(Θ)を最大化するように各パラメータ（基底の推定値^W^N _ω,k、強度の推定値^H^N _k,τ、伝達特性の推定値^A_ω）を推定する処理に相当する。

　例えば、式(21)～(24)または式(21),(25),(26),(24)により、基底の推定値^W^N _ω,k、強度の推定値^H^N _k,τ、伝達特性の推定値^A_ωを更新する（Ｓ１０４－１）ことが同時確率Lを最大化し、各パラメータ_A、_N、_αを推定することを意味する。

ただし、_Z=[_Z^(S),_W^(N)]、_H=[(_H^(S))^T,(_H^(N))^T]^T、_Z^(S):={^A_ω^W_ω,r ^S}∈R^Ω×R、_W^(N):={^W_ω,k ^N}∈R^Ω×K、_H^(S):={^H_r,τ ^S}∈R^R×Τ、_H^(N):={^H_k,τ ^N}∈R^K×Τであり、式(21),(25),(26),(24)により更新する場合には、_Z^(S)と_H^(S)を更新させないために、各更新毎に_Z^(S)と_H^(S)を事前学習した値へと置き換える。

　フィルタ設計部１０４は、所定の条件を満たす場合に（Ｓ１０４－２）、更新を終了し、終了時の基底の推定値^W^N _ω,k、強度の推定値^H^N _k,τ、伝達特性の推定値^A_ωを用いて、次式で表される非線形フィルタG_ω,τを求め（Ｓ１０４－３）、出力する。

　フィルタ設計部１０４は、所定の条件を満たすまで更新処理Ｓ１０４－１を繰り返す。所定の条件としては、(i)Ｓ１０４－１を所定回数（例えば100回）繰り返すこと、(ii)更新量が所定の値よりも小さくなること等が考えられる。要は、基底の推定値^W^N _ω,k、強度の推定値^H^N _k,τ、伝達特性の推定値^A_ωの更新量が所望のレベルまで収束すればよい。

＜音源分離部１０５＞
　音源分離部１０５は、観測信号x_ω,τとフィルタG_ω,τとを入力とし、フィルタG_ω,τにより観測信号x_ω,τから、少なくとも音声成分の推定値^a_ω^s_ω,τと干渉性雑音n_ω,τを含む雑音成分の推定値とを分離する。例えば、次式により音声成分の推定値^a_ω^s_ω,τと雑音成分の推定値^n_ω,τ+^d_ω,τとを分離し（Ｓ１０５）、出力する。
^a_ω^s_ω,τ=G_ω,τx_ω,τ (3)
^n_ω,τ+^d_ω,τ=(1-G_ω,τ)x_ω,τ (4)

＜信号対雑音比推定部１０６＞
　信号対雑音比推定部１０６は、音声成分の推定値^a_ω^s_ω,τと雑音成分の推定値^n_ω,τ+^d_ω,τを入力とし、信号対雑音比を求め（Ｓ１０６）、出力する。例えば、次式によりsSNRを求める。

＜効果＞
　このような構成により、雑音環境下の発話をマイクロホンで収録した観測信号から、音声成分と雑音成分を分離できるため、非定常な雑音が存在する環境でも、発話区間内のSN比を高精度に推定することができる。得られたSN比推定値を用いることで、以下のようなアプリケーションへの応用が可能となる。
・マイクロホン間の雑音抑圧性能の比較：例えば、雑音環境下の発話を2台以上のノイズキャンセル機能付きのマイクロホンで収録した観測信号からSN比推定値を求めることで、マイクロホンの雑音抑圧性能を比較できる。
・マイクロホンが接続する音声認識システム間の音声認識性能の比較：例えば、雑音環境下の発話をマイクロホンで収録した観測信号からSN比推定値を求めるとともに、2台以上の音声認識システムで音声認識処理を行い、SN比推定値と音声認識結果から、音声認識システム毎のSN比推定値に対する音声認識性能を比較できる。
・マイクロホンの観測信号とユーザー体感認識率との比較:例えば、雑音環境下の発話をマイクロホンで収録した観測信号からSN比推定値を求めるとともに、その観測信号に対するユーザの体感認識率を求め、SN比推定値とユーザの体感認識率とを比較できる。
・マイクロホンの観測信号と音声認識エンジンの認識性能との比較：例えば、SN比推定値の異なる２つ以上の観測信号に対して１つの音声認識エンジンで音声認識を行うことで、各SN比推定値に対するその音声認識エンジンの音声認識性能を比較できる。

＜変形例＞
　本実施形態では、信号対雑音比を装置の出力としているが、音源分離部１０５の出力値である音声成分の推定値^a_ω^s_ω,τと雑音成分推定値^n_ω,τ+^d_ω,τとを装置の出力とし、信号対雑音比推定部１０６を設けない構成としてもよい。この場合、音源分離装置という。なお、SN比推定装置は、音源分離装置を含んでいるとも言える。

　本実施形態では、音源分離部１０５において、フィルタG_ω,τにより観測信号x_ω,τから、少なくとも音声成分の推定値^a_ω^s_ω,τと雑音成分の推定値^n_ω,τ+^d_ω,τとを分離しているが、SN比を推定する際に必ずしも観測信号から拡散性雑音d_ω,τを分離する必要はないため、雑音成分の推定値として^n_ω,τのみを分離してもよい。なお、この場合、拡散性雑音を考慮せずにフィルタを設計すればよい。

＜その他の変形例＞
　本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
　また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバ・BR>Rンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（APPLICATION SERVICE PROVIDER）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　スピーカから発せられた所定の音響信号をマイクロホンで収録した観測信号から所望の音響信号を取得する音源分離装置であって、
　前記観測信号は、前記所定の音響信号と前記スピーカと前記マイクロホンとの間の空間特性を表現した関数である伝達関数とに基づく第一音響信号と、干渉性雑音である干渉性雑音音響信号と、拡散性雑音である拡散性雑音音響信号と、を含んでおり、
　前記観測信号から前記拡散性雑音音響信号の推定値を除去し、除去済信号を求める拡散性雑音除去部と、
　前記除去済信号をモデル化した確率分布と、前記伝達関数をモデル化した確率分布と、を組み合わせることでフィルタを得るフィルタ設計部と、
　前記フィルタにより前記観測信号から、少なくとも前記第一音響信号と前記干渉性雑音音響信号を含む雑音成分の推定値とを分離する音源分離部と、を有する、
　音源分離装置。
　請求項１の音源分離装置であって、
　ω={1,2,…,Ω}とτ={1,2,…,Τ}をそれぞれ周波数と時間のインデックスとし、前記伝達関数の推定値を^A_ωとし、前記干渉性雑音音響信号の推定値を^N_ω,τとし、前記所定の音響信号をS_ω,τとし、前記除去済信号をY_ω,τとし、_A:=[^A_ω]∈R^Ω、_N:=[^N_ω,τ]∈R^Ω×Τ、_S:=[S_ω,τ]∈R^Ω×Τ、_Y:=[Y_ω,τ]∈R^Ω×Τ、_α:=[α_ω]∈R^Ωとし、前記除去済信号をモデル化した確率分布は前記除去済信号に関する尤度関数p(_A_N|_S,_Y)であり、前記伝達関数をモデル化した確率分布は前記伝達関数に関する事前分布p(_A|_α)であり、前記フィルタ設計部は、同時確率L=p(_A,_N|_S,_Y)p(_A|_α) を最大化するようにパラメータを推定し、推定したパラメータから前記フィルタを得る、
　音源分離装置。
　請求項２の音源分離装置であって、
　前記観測信号をX_ω,τとし、前記所定の音響信号と前記干渉性雑音音響信号の振幅スペクトルの基底の推定値をそれぞれ^W_ω,r ^Sと^W_ω,k ^Nとし、前記所定の音響信号と前記干渉性雑音音響信号の振幅スペクトルの基底に対応する強度の推定値をそれぞれ^H_r,τ ^Sと^H_k,τ ^Nとし、前記所定の音響信号と前記干渉性雑音音響信号の振幅スペクトルの基底数をそれぞれRとKとし、
　前記フィルタ設計部は、

により、
　または、
　Tは転置、_EはΩ×Τで要素が全て1の行列であり、行列の除算は要素毎の除算であり、_Z=[_Z^(S),_W^(N)]、_H=[(_H^(S))^T,(_H^(N))^T]^T、_Z^(S):={^A_ω^W_ω,r ^S}∈R^Ω×R、_W^(N):={^W_ω,k ^N}∈R^Ω×K、_H^(S):={^H_r,τ ^S}∈R^R×Τ、_H^(N):={^H_k,τ ^N}∈R^K×Τとし、

により、λ_r,ω,τ、^W_ω,τ ^N、^H_ω,τ ^N、^A_ωを更新することで、前記同時確率の最大化するようにパラメータを推定する、
　音源分離装置。
　請求項３の音源分離装置であって、
　前記拡散性雑音音響信号の推定値を^D_ω,τとし、前記フィルタ設計部は、所定の条件を満たすまで更新処理を繰り返し、更新終了時のパラメータを用いて、前記フィルタを

として得る、
　音源分離装置。
　スピーカから発せられた所定の音響信号をマイクロホンで収録した観測信号から所望の音響信号を取得する音源分離方法であって、
　前記観測信号は、前記所定の音響信号と前記スピーカと前記マイクロホンとの間の空間特性を表現した関数である伝達関数とに基づく第一音響信号と、干渉性雑音である干渉性雑音音響信号と、拡散性雑音である拡散性雑音音響信号と、を含んでおり、
　前記観測信号から前記拡散性雑音音響信号の推定値を除去し、除去済信号を求める拡散性雑音除去ステップと、
　前記除去済信号をモデル化した確率分布と、前記伝達関数をモデル化した確率分布と、を組み合わせることでフィルタを得るフィルタ設計ステップと、
　前記フィルタにより前記観測信号から、少なくとも前記第一音響信号と前記干渉性雑音音響信号を含む雑音成分の推定値とを分離する音源分離ステップと、を有する、
　音源分離方法。
　請求項５の音源分離方法であって、
　ω={1,2,…,Ω}とτ={1,2,…,Τ}をそれぞれ周波数と時間のインデックスとし、前記伝達関数の推定値を^A_ωとし、前記干渉性雑音音響信号の推定値を^N_ω,τとし、前記所定の音響信号をS_ω,τとし、前記除去済信号をY_ω,τとし、_A:=[^A_ω]∈R^Ω、_N:=[^N_ω,τ]∈R^Ω×Τ、_S:=[S_ω,τ]∈R^Ω×Τ、_Y:=[Y_ω,τ]∈R^Ω×Τ、_α:=[α_ω]∈R^Ωとし、前記除去済信号をモデル化した確率分布は前記除去済信号に関する尤度関数p(_A_N|_S,_Y)であり、前記伝達関数をモデル化した確率分布は前記伝達関数に関する事前分布p(_A|_α)であり、前記フィルタ設計ステップは、同時確率L=p(_A,_N|_S,_Y)p(_A|_α) を最大化するようにパラメータを推定し、推定したパラメータから前記フィルタを得る、
　音源分離方法。
　請求項６の音源分離方法であって、
　前記観測信号をX_ω,τとし、前記所定の音響信号と前記干渉性雑音音響信号の振幅スペクトルの基底の推定値をそれぞれ^W_ω,r ^Sと^W_ω,k ^Nとし、前記所定の音響信号と前記干渉性雑音音響信号の振幅スペクトルの基底に対応する強度の推定値をそれぞれ^H_r,τ ^Sと^H_k,τ ^Nとし、前記所定の音響信号と前記干渉性雑音音響信号の振幅スペクトルの基底数をそれぞれRとKとし、
　前記フィルタ設計ステップは、

により、
　または、
　Tは転置、_EはΩ×Τで要素が全て1の行列であり、行列の除算は要素毎の除算であり、_Z=[_Z^(S),_W^(N)]、_H=[(_H^(S))^T,(_H^(N))^T]^T、_Z^(S):={^A_ω^W_ω,r ^S}∈R^Ω×R、_W^(N):={^W_ω,k ^N}∈R^Ω×K、_H^(S):={^H_r,τ ^S}∈R^R×Τ、_H^(N):={^H_k,τ ^N}∈R^K×Τとし、

により、λ_r,ω,τ、^W_ω,τ ^N、^H_ω,τ ^N、^A_ωを更新することで、前記同時確率の最大化するようにパラメータを推定する、
　音源分離方法。
　請求項１から請求項４の何れかの音源分離装置としてコンピュータを機能させるためのプログラム。