WO2020184210A1

WO2020184210A1 - 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム

Info

Publication number: WO2020184210A1
Application number: PCT/JP2020/008216
Authority: WO
Inventors: 中谷　智広; マークデルクロア; 慶介木下; 荒木　章子; 優騎久保
Original assignee: 日本電信電話株式会社
Priority date: 2019-03-13
Filing date: 2020-02-28
Publication date: 2020-09-17
Also published as: JP2020148880A; JP7159928B2; US20220130406A1; US11676619B2

Abstract

時変の雑音空間共分散行列を効果的に推定する。単数または複数の音源から発せられた音響信号を集音して得られた観測信号に基づく時間周波数別観測信号、および、各時間周波数別観測信号に含まれる各雑音源に対応する成分の占有確率を表すマスク情報を用い、各雑音源について長時間区間に属する時間周波数別観測信号およびマスク情報に対応する時間非依存の第１雑音空間共分散行列を得る。また、互いに異なる複数の短時間区間それぞれのマスク情報を用い、各短時間区間における各雑音源に対応する混合重みを得る。さらに雑音源すべての足しあわせで構成される雑音について各短時間区間に属する時間周波数別観測信号およびマスク情報に対応する時変の第２雑音空間共分散行列と、各短時間区間の混合重みによる第１雑音空間共分散行列の重み付け和と、に基づく時変の第３雑音空間共分散行列を得る。

Description

雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム

　本発明は、雑音空間共分散行列を生成する技術に関する。

　音響信号の分析において、雑音空間共分散行列がしばしば用いられる。例えば、非特許文献１では、雑音空間共分散行列を用いて周波数領域の観測信号から雑音を抑圧する技術が開示されている。この方法では、周波数領域の観測信号から得た雑音空間共分散行列と音源方向を表すステアリングベクトルまたはその推定ベクトルとを用いて、音源からマイクロホンに到来する音を歪ませないとの拘束条件のもと、周波数領域の雑音のパワーを最小化するビームフォーマを推定し、これを周波数領域の観測信号に適用することで、雑音を抑圧する。

T Higuchi, N Ito, T Yoshioka, T Nakatani, "Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise," Proc. ICASSP 2016, 2016.

　非特許文献１等の従来法では、長い時間区間の入力音響信号全体を対象として雑音空間共分散行列の推定を行っていた。そして、各時間ブロックにおいてビームフォーマを推定する際には、入力信号全体について求めた雑音空間共分散行列を用いていた。つまり、各時間ブロックで共通の雑音空間共分散行列に基づきビームフォーマを推定していた。

　実環境においては、抑圧すべき雑音の中には、音声のように音のレベルが時々刻々と大きく変化する信号が含まれている場合もあり、このような場合は、時間ブロックごとに雑音空間共分散行列は異なると考えられる。そのため、時間ブロックごとの時変の雑音空間共分散行列を推定することが望ましい。単純な方法として、各時間ブロックの音響信号のみを対象として各時間ブロックの雑音空間共分散行列を推定することも考えられるが、これでは推定に用いる音響信号の時間区間が短くなるため雑音空間共分散行列の精度が低下してしまう。

　このような問題に鑑み、本発明では時変の雑音空間共分散行列を効果的に推定する技術を提供することを目的とする。

　以下、本発明では、音響信号を離散的な時間点（時間フレーム）と離散的な周波数（周波数帯）に分割して表現した時間周波数信号を用いる。例えば、観測信号を時間周波数信号として表現したものを時間周波数別観測信号と呼ぶことにする。

　本発明では、単数または複数の音源から発せられた音響信号を集音して得られた観測信号に基づく時間周波数別観測信号、および、各前記時間周波数別観測信号に含まれる各雑音源に対応する成分の占有確率を表すマスク情報を用い、各前記雑音源について長時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する時間非依存の第１雑音空間共分散行列を得る。また、互いに異なる複数の短時間区間それぞれの前記マスク情報を用い、各前記短時間区間における各前記雑音源に対応する混合重みを得る。さらに前記雑音源すべての足しあわせで構成される雑音について各前記短時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する時変の第２雑音空間共分散行列と、各前記短時間区間の前記混合重みによる前記第１雑音空間共分散行列の重み付け和と、に基づく時変の第３雑音空間共分散行列を得る。

　第３雑音空間共分散行列は、各短時間区間の第２雑音空間共分散行列および混合重みに基づいて短時間区間の変化に追従しつつ、長時間区間の第１雑音空間共分散行列に基づいて高い精度を担保できる。これにより、時変の雑音空間共分散行列を効果的に推定できる。

図１は実施形態の雑音空間共分散行列推定装置の機能構成を例示するためのブロック図である。図２は実施形態の雑音空間共分散行列推定方法を例示するためのフロー図である。図３Ａは実施形態の雑音空間共分散行列推定装置を利用した雑音除去装置の機能構成を例示するためのブロック図である。図３Ｂは実施形態の雑音空間共分散行列推定方法を利用した雑音除去方法を例示するためのフロー図である。

　以下、図面を参照して本発明の実施形態を説明する。
　［記号の定義］
　まず、以下の実施形態で使用する記号を定義する。
　Ｉ：Ｉはマイクロホン数を表す正整数である。例えば、Ｉ≧２である。
　ｉ：ｉはマイクロホン番号を表す正整数であり、１≦ｉ≦Ｉを満たす。マイクロホン番号ｉのマイクロホン（すなわちｉ番目のマイクロホン）を「マイクロホンｉ」と表記する。マイクロホン番号ｉに対応する値やベクトルは、下付き添え字「ｉ」を持つ記号で表現される。
　Ｓ：Ｓは音源数を表す正整数である。例えば、Ｓ≧２である。音源は目的音源と目的音源以外の雑音源とを含む。
　ｓ：ｓは音源番号を表す正整数であり、１≦ｓ≦Ｓを満たす。音源番号ｓの音源（すなわちｓ番目の音源）を「音源ｓ」と表記する。
　Ｊ：Ｊは雑音源数を表す正整数である。例えば、Ｓ≧Ｊ≧１である。
　ｊ，ｊ’：ｊ，ｊ’は雑音源番号を表す正整数であり、１≦ｊ，ｊ’≦Ｊを満たす。雑音源番号ｊの雑音源（すなわちｊ番目の雑音源）を「雑音源ｊ」と表記する。また雑音源番号は丸括弧付きの右上添え字で表す。雑音源番号ｊの雑音源に基づく値やベクトルは、右上添え字「（ｊ）」を持つ記号で表現される。ｊ’についても同様である。また、本明細書では、全雑音源から発せられた音を足し合わせた音を雑音として扱う。
　Ｌ：Ｌは長時間区間を表す。長時間区間は処理対象の全時間区間であってもよいし、処理対象の全時間区間の一部の時間区間であってもよい。
　Ｂ_ｋ：Ｂ_ｋは一つの短時間区間（短時間ブロック）を表す。異なる複数の短時間区間をＢ_１，…，Ｂ_Ｋで表し、Ｋは１以上の整数であり、ｋ＝１，…，Ｋである。例えば、長時間区間ＬをＫ個の時間区間に区分して得られるのが短時間区間Ｂ_１，…，Ｂ_Ｋである。短時間区間Ｂ_１，…，Ｂ_Ｋの一部またはすべては、長時間区間Ｌ以外の区間に含まれるものであってもよい。
　ｔ，τ：ｔ，τは時間フレームの番号を表す正整数である。時間フレーム番号ｔに対応する値やベクトルは、下付き添え字「ｔ」を持つ記号で表現される。τについても同様である。
　ｆ：ｆは周波数帯域番号を表す正整数である。周波数帯域番号ｆに対応する値やベクトルは、下付き添え字「ｆ」を持つ記号で表現される。
　Ｔ：Ｔは行列やベクトルの非共役転置を表す。α^Ｔはαを非共役転置して得られる行列やベクトルを表す。
　Ｈ：Ｈは行列やベクトルの共役転置（エルミート転置）を表す。α^Ｈはαを共役転置して得られる行列やベクトルを表す。
　α∈β：α∈βはαがβに属することを表す。

　[第１実施形態]
　次に図１および図２を参照して第１実施形態の雑音空間共分散行列推定装置１０の構成およびその処理内容を説明する。
　図１に例示するように、本実施形態の雑音空間共分散行列推定装置１０は、雑音空間共分散行列計算部１１，１３、および混合重み計算部１２を有する。

　＜雑音空間共分散行列計算部１１（第１雑音空間共分散行列計算部）＞
　雑音空間共分散行列計算部１１は、単数または複数の音源ｓ∈｛１，…，Ｓ｝から発せられた音響信号を集音して得られた観測信号に基づく時間周波数別観測信号ｘ_ｔ，ｆ、および、各時間周波数別観測信号ｘ_ｔ，ｆに含まれる各雑音源ｊに対応する成分の占有確率を表すマスク情報λ_ｔ，ｆ ^（ｊ）を入力とし、それらを用い、各雑音源ｊ∈｛１，…，Ｊ｝について長時間区間Ｌに属する時間周波数別観測信号ｘ_ｔ，ｆおよびマスク情報λ_ｔ，ｆ ^（ｊ）に対応する時間非依存の雑音空間共分散行列Ψ_ｆ ^（ｊ）（第１雑音空間共分散行列）を得て出力する（ステップＳ１１）。なお、雑音源とは、音声のように一つの場所から生成される音（点音源）以外に、暗騒音のように周囲のあらゆる方向から到来する音（拡散性雑音）も含むものとする。また、「λ_ｔ，ｆ ^（ｊ）」の右上添字の「（ｊ）」は本来右下添字の「ｔ，ｆ」の真上に記載すべきであるが、記載表記の制約上、「ｔ，ｆ」の右上に記載してある。「Ψ_ｆ ^（ｊ）」などその他の右上添字「（ｊ）」を用いた表記も同様である。

　≪時間周波数別観測信号ｘ_ｔ，ｆの例示≫
　音源ｓから発せられた音響信号はＩ個のマイクロホンｉ∈｛１，…，Ｉ｝（図示せず）で集音される。例えば、音源ｓ∈｛１，…，Ｓ｝の何れかは雑音源ｊ∈｛１，…，Ｊ｝である。集音された音響信号は時間領域のデジタル信号Ｘ_τ，１，…，Ｘ_τ，Ｉに変換され、時間領域のデジタル信号Ｘ_τ，１，…，Ｘ_τ，Ｉは、所定の時間区間ごとに周波数領域変換される。時間区間ごとの周波数領域変換の一例は短時間フーリエ変換である。例えば、当該時間区間ごとの周波数領域変換によって得られた信号を時間周波数別観測信号ｘ_{ｔ，ｆ，１}，…，ｘ_{ｔ，ｆ，Ｉ}とし、ｘ_ｔ，ｆ＝（ｘ_{ｔ，ｆ，１}，…，ｘ_{ｔ，ｆ，Ｉ}）^Ｔとしてもよいし、当該時間区間ごとの周波数領域変換によって得られた信号らに何等かの演算を行って得られたものを時間周波数別観測信号ｘ_{ｔ，ｆ，１}，…，ｘ_{ｔ，ｆ，Ｉ}とし、ｘ_ｔ，ｆ＝（ｘ_{ｔ，ｆ，１}，…，ｘ_{ｔ，ｆ，Ｉ}）^Ｔとしてもよい。すなわち、例えばｉ番目のマイクロホンで集音して得られた観測信号に対応する時間フレームｔでの周波数帯域ｆに対応する各時間周波数別観測信号がｘ_{ｔ，ｆ，ｉ}（ｉ∈｛１，…，Ｉ｝）であり、ｘ_ｔ，ｆ＝（ｘ_{ｔ，ｆ，１}，…，ｘ_{ｔ，ｆ，Ｉ}）^Ｔである。本実施形態の雑音空間共分散行列計算部１１には、少なくとも長時間区間Ｌに属する時間周波数別観測信号ｘ_ｔ，ｆ（ただしｔ∈Ｌ）が入力される。長時間区間Ｌに属する時間周波数別観測信号ｘ_ｔ，ｆのみが入力されてもよいし、長時間区間Ｌを含む長時間区間Ｌよりも長い時間区間に属する時間周波数別観測信号ｘ_ｔ，ｆが入力されてもよい。長時間区間Ｌに限定はない。例えば、集音が行われた時間区間全体を長時間区間Ｌとしてもよいし、そこから切り出された音声区間を長時間区間Ｌとしてもよいし、予め定められた時間区間を長時間区間Ｌとしてもよいし、指定された時間区間を長時間区間Ｌとしてもよい。長時間区間Ｌの例は、１秒から数十秒程度の時間区間である。時間周波数別観測信号ｘ_ｔ，ｆは、図示していない記憶装置に格納されたものであってもよいし、ネットワークを通じて送信されるものであってもよい。

　≪マスク情報λ_ｔ，ｆ ^（ｊ）の例示≫
　マスク情報λ_ｔ，ｆ ^（ｊ）は、各時間周波数別観測信号ｘ_ｔ，ｆに含まれる各雑音源ｊに対応する成分の占有確率を表す。言い換えると、マスク情報λ_ｔ，ｆ ^（ｊ）は、時間フレームｔでの周波数帯域ｆの各時間周波数別観測信号ｘ_{ｔ，ｆ，１}，…，ｘ_{ｔ，ｆ，Ｉ}に含まれたｊ番目の雑音源に対応する成分の占有確率を表す。本実施形態では、図示していない外部の装置によって、少なくとも長時間区間Ｌに属する時間フレームｔ∈Ｌおよび短時間区間Ｂ_ｋに属する時間フレームｔ∈Ｂ_ｋについて各周波数帯域ｆおよび各雑音源ｊに対応するマスク情報λ_ｔ，ｆ ^（ｊ）が推定されるものとする。マスク情報λ_ｔ，ｆ ^（ｊ）の推定方法に限定はない。マスク情報λ_ｔ，ｆ ^（ｊ）の推定方法は周知であり、例えば、complex Gaussian mixture model (CGMM)を用いる推定方法（例えば、参考文献１）、ニューラルネットワークを用いる推定方法（例えば、参考文献２）、およびそれらを結合した推定方法（例えば、参考文献３）などの様々な方法が知られている。
　参考文献１：T. Higuchi, N. Ito, T. Yoshioka, and T. Nakatani, "Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise," Proc. IEEE ICASSP-2016, pp. 5210-5214, 2016．
　参考文献２：J. Heymann, L. Drude, and R. Haeb-Umbach, "Neural network based spectral mask estimation for acoustic beamforming," Proc. IEEE ICASSP-2016, pp. 196-200, 2016.
　参考文献３：T. Nakatani, N. Ito, T. Higuchi, S. Araki, and K. Kinoshita, "Integrating DNN-based and spatial clustering-based mask estimation for robust MVDR beamforming," Proc. IEEE ICASSP-2017, pp. 286-290, 2017.
　マスク情報λ_ｔ，ｆ ^（ｊ）は、事前に推定されて図示していない記憶装置に格納されたものであってもよいし、逐次的に推定されるものであってもよい。

　≪雑音空間共分散行列Ψ_ｆ ^（ｊ）の例示≫
　本実施形態の雑音空間共分散行列計算部１１は、時間周波数別観測信号ｘ_ｔ，ｆとマスク情報λ_ｔ，ｆ ^（ｊ）とを入力とし、長時間区間Ｌに属する時間周波数別観測信号ｘ_ｔ，ｆおよびマスク情報λ_ｔ，ｆ ^（ｊ）に対応する時間非依存の雑音空間共分散行列Ψ_ｆ ^（ｊ）を推定して出力する。例えば、雑音空間共分散行列Ψ_ｆ ^（ｊ）は、長時間区間Ｌに属する時間フレームｔ∈Ｌでの周波数帯域ｆについてのλ_ｔ，ｆ ^（ｊ）・ｘ_ｔ，ｆ・ｘ_ｔ，ｆ ^Ｈの総和または重み付け和である。例えば、雑音空間共分散行列計算部１１は、以下の式（１）のように雑音空間共分散行列Ψ_ｆ ^（ｊ）を計算（推定）して出力する。

ただし、ν_ｆ ^（ｊ）は実数のパラメータ（ハイパーパラメータ）であり、本実施形態のν_ｆ ^（ｊ）は定数である。ν_ｆ ^（ｊ）の意義については後述する。

　＜混合重み計算部１２＞
　混合重み計算部１２は、互いに異なる複数の短時間区間Ｂ_ｋ（ただし、ｋ∈｛１，…，Ｋ｝）それぞれのマスク情報λ_ｔ，ｆ ^（ｊ）を入力とし、それらを用いて各短時間区間Ｂ_ｋにおける各雑音源ｊ∈｛１，…，Ｊ｝に対応する混合重みμ_ｋ，ｆ ^（ｊ）を得て出力する（ステップＳ１２）。混合重みμ_ｋ，ｆ ^（ｊ）の例は、全雑音源ｊ’∈｛１，…，Ｊ｝についての各短時間区間Ｂ_ｋに属する時間フレーム番号ｔでの周波数帯域ｆに対応するマスク情報λ_ｔ，ｆ ^（ｊ’）の総和に対する、各雑音源ｊについての各短時間区間Ｂ_ｋに属する時間フレームｔでの周波数帯域ｆに対応するマスク情報λ_ｔ，ｆ ^（ｊ）の総和の割合である。例えば、混合重み計算部１２は、以下の式（２）のように混合重みμ_ｋ，ｆ ^（ｊ）を得て出力する。

　＜雑音空間共分散行列計算部１３（第２雑音空間共分散行列計算部）＞
　雑音空間共分散行列計算部１３は、時間周波数別観測信号ｘ_ｔ，ｆ、各雑音源ｊ∈｛１，…，Ｊ｝のマスク情報λ_ｔ，ｆ ^（ｊ）、各雑音源ｊの雑音空間共分散行列Ψ_ｆ ^（ｊ）、および各雑音源ｊの混合重みμ_ｋ，ｆ ^（ｊ）を入力とし、各雑音源ｎ∈｛１，…，Ｊ｝について各短時間区間Ｂ_ｋ（ただし、ｋ∈｛１，…，Ｋ｝）に属する時間周波数別観測信号ｘ_ｔ，ｆおよびマスク情報λ_ｔ，ｆ ^（ｊ）に対応する時変の雑音空間共分散行列（第２雑音空間共分散行列）と、各短時間区間Ｂ_ｋの混合重みμ_ｋ，ｆ ^（ｊ）による雑音空間共分散行列Ψ_ｆ ^（ｊ）（第１雑音空間共分散行列）の重み付け和と、に基づく時変の雑音空間共分散行列Ｒ＾_ｋ，ｆ（第３雑音空間共分散行列）を得て出力する（ステップＳ１３）。なお、「Ｒ」の右上添字「＾」は本来「Ｒ」の真上に記載すべきであるが、記載表記の制約上、「Ｒ」の右上に記載する場合がある。例えば、全雑音源の足しあわせで構成される雑音について各短時間区間Ｂ_ｋおよび周波数帯域ｆに属する時間周波数別観測信号ｘ_ｔ，ｆおよびマスク情報λ_ｔ，ｆ ^（ｊ）に対応する時変の雑音空間共分散行列（第２雑音空間共分散行列）は、各短時間区間Ｂ_ｋに属する時間フレームｔおよび全雑音源ｊでのλ_ｔ，ｆ ^（ｊ）・ｘ_ｔ，ｆ・ｘ_ｔ，ｆ ^Ｈの総和または重み付け和である。また、雑音空間共分散行列Ｒ＾_ｋ，ｆ（第３雑音空間共分散行列）は、全雑音源の足しあわせで構成される雑音について各短時間区間Ｂ_ｋおよび周波数帯域ｆに属する時間周波数別観測信号ｘ_ｔ，ｆおよびマスク情報λ_ｔ，ｆ ^（ｊ）に対応する時変の雑音空間共分散行列（第２雑音空間共分散行列）と、混合重みμ_ｋ，ｆ ^（ｊ）による雑音空間共分散行列Ψ_ｆ ^（ｊ）の全雑音源ｊ∈｛１，…，Ｊ｝についての重み付け和と、の重み付け和に基づく。例えば、雑音空間共分散行列計算部１３は、以下の式（３）のように時変の雑音空間共分散行列Ｒ＾_ｋ，ｆを計算（推定）して出力する。

この例の雑音空間共分散行列Ｒ＾_ｋ，ｆは、雑音空間共分散行列

と、各短時間区間Ｂ_ｋでの混合重みμ_ｋ，ｆ ^（ｊ）による雑音空間共分散行列Ψ_ｆ ^（ｊ）の重み付け和

との重み付け和であり、パラメータν_ｆ ^（ｊ）は、雑音空間共分散行列Ｒ＾_ｋ，ｆにおける雑音空間共分散行列Ψ_ｆ ^（ｊ）および雑音空間共分散行列

の重みを決定するものである。

　なお、ここでは一例として、雑音空間共分散行列計算部１３が、時間周波数別観測信号ｘ_ｔ，ｆ、各雑音源ｊ∈｛１，…，Ｊ｝のマスク情報λ_ｔ，ｆ ^（ｊ）、各雑音源ｊの雑音空間共分散行列Ψ_ｆ ^（ｊ）、および各雑音源ｊの混合重みμ_ｋ，ｆ ^（ｊ）を入力として雑音空間共分散行列Ｒ＾_ｋ，ｆを得る例を示したがこれは本発明を限定しない。すなわち、雑音空間共分散行列計算部１３が、時間周波数別観測信号ｘ_ｔ，ｆに代えて雑音空間共分散行列計算部１１での計算途中で得られたλ_ｔ，ｆ ^（ｊ）・ｘ_ｔ，ｆ・ｘ_ｔ，ｆ ^Ｈを入力として雑音空間共分散行列Ｒ＾_ｋ，ｆを得てもよい。

　＜本実施形態の特徴＞
　本実施形態では、全雑音源の足しあわせで構成される雑音について各短時間区間Ｂ_ｋ（ただし、ｋ∈｛１，…，Ｋ｝）および各周波数帯ｆに属する時間周波数別観測信号ｘ_ｔ，ｆおよびマスク情報λ_ｔ，ｆ ^（ｊ）に対応する時変の雑音空間共分散行列（第２雑音空間共分散行列）と、各短時間区間Ｂ_ｋの混合重みμ_ｋ，ｆ ^（ｊ）による雑音空間共分散行列Ψ_ｆ ^（ｊ）（第１雑音空間共分散行列）の重み付け和と、に基づく時変の雑音空間共分散行列Ｒ＾_ｋ，ｆ（第３雑音空間共分散行列）を生成した。ここで、雑音空間共分散行列Ψ_ｆ ^（ｊ）は長時間区間Ｌに属する時間周波数別観測信号ｘ_ｔ，ｆおよびマスク情報λ_ｔ，ｆ ^（ｊ）をすべて用いて計算されたものであり（ステップＳ１１）、雑音空間共分散行列Ψ_ｆ ^（ｊ）について高い推定精度を担保できる。一方で、短時間区間Ｂ_１，…，Ｂ_Ｋについて、全雑音源の足しあわせで構成される雑音について各短時間区間Ｂ_ｋに属する時間周波数別観測信号ｘ_ｔ，ｆおよびマスク情報λ_ｔ，ｆ ^（ｊ）に対応する時変の雑音空間共分散行列と、各短時間区間Ｂ_ｋの混合重みμ_ｋ，ｆ ^（ｊ）による雑音空間共分散行列Ψ_ｆ ^（ｊ）の重み付け和と、に基づく時変の雑音空間共分散行列Ｒ＾_ｋ，ｆを得るため、得られた雑音空間共分散行列Ｒ＾_ｋ，ｆは各短時間区間Ｂ_ｋでの時間変化に柔軟に追従するものとなる。このように実施形態では、精度が高く、時間周波数別観測信号ｘ_ｔ，ｆの時間変化に柔軟に追従する雑音空間共分散行列を得ることができる。

　［第２実施形態］
　次に第２実施形態を説明する。第２実施形態の第１実施形態との相違点は、入力されたパラメータに基づいて、第３雑音空間共分散行列における第１雑音空間共分散行列および第２雑音空間共分散行列の重みを変更可能な点である。以下では既に説明した事項との相違点を中心に説明し、既に説明した事項については同じ参照番号を用いて説明を簡略化する。

　図１に例示するように、本実施形態の雑音空間共分散行列推定装置１０は、雑音空間共分散行列計算部２１，２３、および混合重み計算部１２を有する。第１実施形態の雑音空間共分散行列計算部１１，１３は、例えば、予め定められたパラメータν_ｆ ^（ｊ）を用いて式（１）（３）の計算を行っていた。これに対して第２実施形態の雑音空間共分散行列計算部２１，２３は、例えば、さらにパラメータν_ｆ ^（ｊ）の入力を受け付け、入力されたパラメータν_ｆ ^（ｊ）を用いて式（１）（３）の計算を行う。これにより、雑音空間共分散行列Ｒ＾_ｋ，ｆにおける雑音空間共分散行列Ψ_ｆ ^（ｊ）および雑音空間共分散行列

の重みを調整できる。すなわち、パラメータν_ｆ ^（ｊ）の値を大きくすればするほど、雑音空間共分散行列Ψ_ｆ ^（ｊ）の重みが大きくなり、時間周波数別観測信号ｘ_ｔ，ｆの時間変化への追従度合の低下と引き換えに推定精度を向上させることになる。逆に、パラメータν_ｆ ^（ｊ）の値を小さくすればするほど、雑音空間共分散行列

の重みが大きくなり、推定の安定性と引き換えに時間周波数別観測信号ｘ_ｔ，ｆの時間変化への追従度合を向上させることになる。それ以外は第１実施形態で説明した通りである。

　［第３実施形態］
　次に第３実施形態を説明する。第３実施形態は第１，２実施形態の応用例であり、第１，２実施形態のように生成された雑音空間共分散行列Ｒ＾_ｋ，ｆを雑音抑圧処理に利用するものである。以下、図３Ａおよび図３Ｂを参照して第３実施形態の雑音抑圧装置３０の構成およびその処理内容を説明する。

　図３Ａに例示するように、第３実施形態の雑音抑圧装置３０は、雑音空間共分散行列推定装置１０または２０、ビームフォーマ推定部３２、および抑圧部３３を有する。

　雑音空間共分散行列推定装置１０または２０は、第１または第２実施形態で説明したように、時間周波数別観測信号ｘ_ｔ，ｆおよびマスク情報λ_ｔ，ｆ ^（ｊ）（必要に応じてさらにパラメータν_ｆ ^（ｊ））を入力として雑音空間共分散行列Ｒ＾_ｋ，ｆを生成して出力する（ステップＳ１０（ステップＳ２０））。雑音空間共分散行列Ｒ＾_ｋ，ｆはビームフォーマ推定部３２に送られる。

　ビームフォーマ推定部３２は、この雑音空間共分散行列Ｒ＾_ｋ，ｆとビームフォーマを用いて推定したい音源に対応するステアリングベクトルｖ_ｆ，０とを入力とし、短時間区間Ｂ_ｋごとにビームフォーマ（瞬時ビームフォーマ）Ｗ_ｋ，ｆを生成して出力する（ステップＳ３２）。ステアリングベクトルｖ_ｆ，０およびビームフォーマ（瞬時ビームフォーマ）Ｗ_ｋ，ｆの生成方法は公知であり、例えば参考文献４，５等に記載されている。
　参考文献４：T Higuchi, N Ito, T Yoshioka, T Nakatani, "Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise," Proc. ICASSP 2016, 2016.
　参考文献５：J Heymann, L Drude, R Haeb-Umbach, "Neural network based spectral mask estimation for acoustic beamforming," Proc.ICASSP 2016, 2016.
　ビームフォーマＷ_ｋ，ｆは抑圧部３３に送られる。

　抑圧部３３は、時間周波数別観測信号ｘ_ｔ，ｆおよびビームフォーマＷ_ｋ，ｆを入力とし、以下の式（４）のように、ビームフォーマＷ_ｋ，ｆを時間周波数別観測信号ｘ_ｔ，ｆに適用し、時間周波数別観測信号ｘ_ｔ，ｆから雑音を抑圧した時間周波数別抑圧信号ｙ_ｔ，ｆを得て出力する。
ｙ_ｔ，ｆ＝Ｗ_ｋ，ｆｘ_ｔ，ｆ　（４）
　時間周波数別抑圧信号ｙ_ｔ，ｆは周波数領域で他の処理に利用されてもよいし、時間領域に変換されてもよい。例えば、上述のように得られた時間周波数別抑圧信号ｙ_ｔ，ｆを音声認識処理に利用した場合、非特許文献１に示した時不変の雑音共分散行列推定法を用いてビームフォーマを推定し雑音抑圧をしてえられる信号を音声認識処理に利用する場合に比べて単語誤り率を２０％程度改善できる。

　［その他の変形例等］
　なお、本発明は上述の実施形態に限定されるものではない。例えば、上述の実施形態では長時間区間Ｌの更新が行われなかったが、長時間区間Ｌを更新しながら、各短時間区間について上述のように時変の雑音空間共分散行列Ｒ＾_ｋ，ｆを得てもよい。例えば、バッチ処理によって前述のように雑音空間共分散行列Ｒ＾_ｋ，ｆを得てもよいし、リアルタイムで雑音空間共分散行列推定装置に入力される時系列の時間周波数別観測信号ｘ_ｔ，ｆおよびマスク情報λ_ｔ，ｆ ^（ｊ）から長時間区間Ｌ分のデータを順次切り出して前述のように雑音空間共分散行列Ｒ＾_ｋ，ｆを得てもよい。

　式（１）に代えて以下のように雑音空間共分散行列Ψ_ｆ ^（ｊ）を計算してもよい。

ただし、βは係数であり、定数であってもよいし、変数であってもよい。
　また、式（３）に代えて以下のように雑音空間共分散行列Ｒ＾_ｋ，ｆを計算してもよい。

ただし、θは係数であり、定数であってもよいし、変数であってもよい。

　また第３実施形態では雑音空間共分散行列Ｒ＾_ｋ，ｆを雑音抑圧処理に利用したが、雑音空間共分散行列Ｒ＾_ｋ，ｆを音源位置（音源方向）の推定などの他の用途に利用してもよい。

　上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

　上記の各装置は、例えば、ＣＰＵ（central processing unit）等のプロセッサ（ハードウェア・プロセッサ）およびＲＡＭ（random-access memory）・ＲＯＭ（read-only memory）等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される。このコンピュータは１個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めＲＯＭ等に記録されていてもよい。また、ＣＰＵのようにプログラムが読み込まれることで機能構成を実現する電子回路（circuitry）ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。１個の装置を構成する電子回路が複数のＣＰＵを含んでいてもよい。

　上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

　このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。

　コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されるのではなく、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。

１０，２０　雑音空間共分散行列推定装置

Claims

　単数または複数の音源から発せられた音響信号を集音して得られた観測信号に基づく時間周波数別観測信号、および、各前記時間周波数別観測信号に含まれる各雑音源に対応する成分の占有確率を表すマスク情報を用い、各前記雑音源について長時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する時間非依存の第１雑音空間共分散行列を得る第１雑音空間共分散行列計算部と、
　互いに異なる複数の短時間区間それぞれの前記マスク情報を用い、各前記短時間区間における各前記雑音源に対応する混合重みを得る混合重み計算部と、
　前記雑音源すべての足しあわせで構成される雑音について各前記短時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する時変の第２雑音空間共分散行列と、各前記短時間区間の前記混合重みによる前記第１雑音空間共分散行列の重み付け和と、に基づく時変の第３雑音空間共分散行列を得る第２雑音空間共分散行列計算部と、
を有する雑音空間共分散行列推定装置。
　請求項１の雑音空間共分散行列推定装置であって、
　前記第３雑音空間共分散行列は、前記第２雑音空間共分散行列と、各前記短時間区間での前記混合重みによる前記第１雑音空間共分散行列の重み付け和と、の重み付け和であり、
　前記第３雑音空間共分散行列における前記第１雑音空間共分散行列および前記第２雑音空間共分散行列の重みを変更可能である、雑音空間共分散行列推定装置。
　請求項１または２の雑音空間共分散行列推定装置であって、
　α^Ｔはαの非共役転置を表し、α^Ｈはαの共役転置を表し、
　Ｊ個の前記雑音源が存在し、Ｊが１以上の整数であり、
　前記観測信号はＩ個のマイクロホンで集音されたものであり、Ｉが２以上の整数であり、
　ｉ番目のマイクロホンで集音して得られた前記観測信号に対応する時間フレームｔでの周波数帯域ｆに対応する各前記時間周波数別観測信号がｘ_{ｔ，ｆ，ｉ}であり、ｘ_ｔ，ｆ＝（ｘ_{ｔ，ｆ，１}，…，ｘ_{ｔ，ｆ，Ｉ}）^Ｔであり、
　時間フレームｔでの周波数帯域ｆの各前記時間周波数別観測信号ｘ_{ｔ，ｆ，１}，…，ｘ_{ｔ，ｆ，Ｉ}に含まれたｊ番目の前記雑音源に対応する成分の占有確率を表す前記マスク情報がλ_ｔ，ｆ ^（ｊ）であり、
　ｊ番目の各前記雑音源に対応する前記第１雑音空間共分散行列は、前記長時間区間に属する時間フレームｔでの周波数帯域ｆについてのλ_ｔ，ｆ ^（ｊ）・ｘ_ｔ，ｆ・ｘ_ｔ，ｆ ^Ｈの総和または重み付け和であるΨ_ｆ ^（ｊ）であり、
　各前記短時間区間Ｂ_１，…，Ｂ_Ｋについて、Ｋが２以上の整数であり、ｋ＝１，…，Ｋであり、
　各前記雑音源ｊ∈｛１，…，Ｊ｝についての各前記短時間区間Ｂ_ｋでの周波数帯域ｆに対応する前記混合重みμ_ｋ，ｆ ^（ｊ）が、全前記雑音源ｊ’∈｛１，…，Ｊ｝についての各前記短時間区間Ｂ_ｋに属する時間フレームｔでの周波数帯域ｆに対応する前記マスク情報λ_ｔ，ｆ ^（ｊ’）の総和に対する、各前記雑音源ｊについての各前記短時間区間Ｂ_ｋに属する時間フレームｔでの周波数帯域ｆに対応する前記マスク情報λ_ｔ，ｆ ^（ｊ）の総和の割合であり、
　前記雑音源すべての足しあわせで構成される雑音について各前記短時間区間Ｂ_ｋおよび各周波数帯ｆに属する前記時間周波数別観測信号ｘ_ｔ，ｆおよび前記マスク情報λ_ｔ，ｆ ^（ｊ）に対応する前記第２雑音空間共分散行列は、各前記短時間区間Ｂ_ｋおよび各周波数帯ｆに属する時間フレームｔおよび全雑音源ｊでのλ_ｔ，ｆ ^（ｊ）・ｘ_ｔ，ｆ・ｘ_ｔ，ｆ ^Ｈの総和または重み付け和であり、
　前記第３雑音空間共分散行列が、前記第２雑音空間共分散行列と、前記混合重みμ_ｋ，ｆ ^（ｊ）による前記第１雑音空間共分散行列Ψ_ｆ ^（ｊ）の全前記雑音源ｊについての重み付け和と、の重み付け和に基づく、雑音空間共分散行列推定装置。
　単数または複数の音源から発せられた音響信号を集音して得られた観測信号に基づく時間周波数別観測信号、および、各前記時間周波数別観測信号に含まれる各雑音源に対応する成分の占有確率を表すマスク情報を用い、各前記雑音源について長時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する時間非依存の第１雑音空間共分散行列を得る第１雑音空間共分散行列計算ステップと、
　互いに異なる複数の短時間区間それぞれの前記マスク情報を用い、各前記短時間区間における各前記雑音源に対応する混合重みを得る混合重み計算ステップと、
　前記雑音源すべての足しあわせで構成される雑音について各前記短時間区間に属する前記時間周波数別観測信号および前記マスク情報に対応する時変の第２雑音空間共分散行列と、各前記短時間区間の前記混合重みによる前記第１雑音空間共分散行列の重み付け和と、に基づく時変の第３雑音空間共分散行列を得る第２雑音空間共分散行列計算ステップと、
を有する雑音空間共分散行列推定方法。
　請求項１から３の何れかに記載の雑音空間共分散行列推定装置としてコンピュータを機能させるためのプログラム。