WO2021112066A1

WO2021112066A1 - 音響解析装置、音響解析方法及び音響解析プログラム

Info

Publication number: WO2021112066A1
Application number: PCT/JP2020/044629
Authority: WO
Inventors: 洋猿渡; 優騎久保; 典玄 ▲高▼宗; 大地北村
Original assignee: 国立大学法人東京大学
Priority date: 2019-12-05
Filing date: 2020-12-01
Publication date: 2021-06-10
Also published as: US20230018030A1; JP2021089388A; JP7450911B2

Abstract

目的音源の音響信号をより高速に分離することができる音響解析装置等を提供する。音響解析装置は、音響信号を取得する取得部と、周波数に関する空間相関行列、周波数に関する第１パラメータ並びに周波数及び時間に関する第２パラメータを含む第１モデルによって、拡散性雑音の音響信号を生成する第１生成部と、周波数に関するステアリングベクトル並びに周波数及び時間に関する第３パラメータを含む第２モデルによって、目的音源から発せられた音響信号を生成する第２生成部と、第１パラメータ、第２パラメータ及び第３パラメータを、第１パラメータ、第２パラメータ及び第３パラメータの尤度を最大化するように決定する決定部と、を備え、決定部は、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解して、尤度を最大化するように、第１パラメータ、第２パラメータ及び第３パラメータを決定する。

Description

音響解析装置、音響解析方法及び音響解析プログラム

関連出願の相互参照

　本出願は、２０１９年１２月５日に出願された特願２０１９－２２０５８４号に基づくもので、ここにその記載内容を援用する。

　本発明は、音響解析装置、音響解析方法及び音響解析プログラムに関する。

　従来、複数の音源から発せられ混合した音響信号を、複数のマイクロホンにより測定した場合に、音源や混合系の事前情報なしに元の信号へ分離する「ブラインド音源分離」が研究されている。ブラインド音源分離の手法の一つとして、非特許文献１及び２に記載の手法が知られている。
　非特許文献１及び２に記載の手法は、ＩＬＲＭＡ（Independent Low-Rank Matrix Analysis）と略称され、比較的高い精度で、安定的に信号を分離することができる。

D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, "Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization," IEEE/ACM Trans. ASLP, vol. 24, no. 9, pp. 1626-1641, 2016. D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, "Determined blind source separation with independent low-rank matrix analysis," in Audio Source Separation, S. Makino, Ed. Cham: Springer, 2018, pp. 125-155.

　ＩＬＲＭＡは、異なる方角から発せられる音響信号を分離することができる。しかしながら、１つの目的音源から発せられる音響信号と、全方位から発せられる雑音信号とが混合する場合、ＩＬＲＭＡでは、目的音源の音響信号と、その方位の雑音信号とが混合した信号が分離されるにとどまり、目的音源の音響信号のみを分離することはできない。

　そこで、本発明は、目的音源の音響信号をより高速に分離することができる音響解析装置、音響解析方法及び音響解析プログラムを提供する。

　本発明の一態様に係る音響解析装置は、複数のマイクにより測定した音響信号を取得する取得部と、音響信号を、複数の音源から発せられる音響信号の推定値に分離する分離行列を算出する第１算出部と、分離行列により定められ、周波数に関する空間相関行列、周波数に関する第１パラメータ並びに周波数及び時間に関する第２パラメータを含む第１モデルによって、拡散性雑音の音響信号を生成する第１生成部と、分離行列により定められ、周波数に関するステアリングベクトル並びに周波数及び時間に関する第３パラメータを含む第２モデルによって、目的音源から発せられた音響信号を生成する第２生成部と、第１パラメータ、第２パラメータ及び第３パラメータを、第１パラメータ、第２パラメータ及び第３パラメータの尤度を最大化するように決定する決定部と、を備え、決定部は、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解して、尤度を最大化するように、第１パラメータ、第２パラメータ及び第３パラメータを決定する。

　この態様によれば、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解することで、演算量を削減して、目的音源の音響信号をより高速に分離することができる。

　本発明の他の態様に係る音響解析方法は、音響解析装置に備えられたプロセッサによって、複数のマイクにより測定した音響信号を取得することと、音響信号を、複数の音源から発せられる音響信号の推定値に分離する分離行列を算出することと、分離行列により定められ、周波数に関する空間相関行列、周波数に関する第１パラメータ並びに周波数及び時間に関する第２パラメータを含む第１モデルによって、拡散性雑音の音響信号を生成することと、分離行列により定められ、周波数に関するステアリングベクトル並びに周波数及び時間に関する第３パラメータを含む第２モデルによって、目的音源から発せられた音響信号を生成することと、第１パラメータ、第２パラメータ及び第３パラメータを、第１パラメータ、第２パラメータ及び第３パラメータの尤度を最大化するように決定することと、を含み、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解して、尤度を最大化するように、第１パラメータ、第２パラメータ及び第３パラメータを決定する、音響解析方法。

　本発明の他の態様に係る音響解析プログラムは、音響解析装置に備えられたプロセッサを、複数のマイクにより測定した音響信号を取得する取得部、音響信号を、複数の音源から発せられる音響信号の推定値に分離する分離行列を算出する第１算出部、分離行列により定められ、周波数に関する空間相関行列、周波数に関する第１パラメータ並びに周波数及び時間に関する第２パラメータを含む第１モデルによって、拡散性雑音の音響信号を生成する第１生成部、分離行列により定められ、周波数に関するステアリングベクトル並びに周波数及び時間に関する第３パラメータを含む第２モデルによって、目的音源から発せられた音響信号を生成する第２生成部、及び第１パラメータ、第２パラメータ及び第３パラメータを、第１パラメータ、第２パラメータ及び第３パラメータの尤度を最大化するように決定する決定部、として機能させ、決定部は、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解して、尤度を最大化するように、第１パラメータ、第２パラメータ及び第３パラメータを決定する、音響解析プログラム。

　本発明によれば、目的音源の音響信号をより高速に分離することができる音響解析装置、音響解析方法及び音響解析プログラムを提供することができる。

本発明の実施形態に係る音響解析装置の機能ブロックを示す図である。本実施形態に係る音響解析装置の物理的構成を示す図である。本実施形態に係る音響解析装置により算出される分離行列の概要を示す図である。本実施形態に係る音響解析装置により目的音源から発せられる音響信号を分離する実験の構成を示す図である。本実施形態に係る音響解析装置により目的音源から発せられる音響信号を分離した場合の分離性能を示す図である。本実施形態に係る音響解析装置により目的音源から発せられる音響信号を分離した場合の演算時間を示す図である。本実施形態に係る音響解析装置により実行される音響分離処理のフローチャートである。

　添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。

　図１は、本発明の実施形態に係る音響解析装置１０の機能ブロックを示す図である。音響解析装置１０は、取得部１１と、第１算出部１２と、第１生成部１３と、第２生成部１４と、決定部１５とを備える。

　取得部１１は、複数のマイク２０により測定した音響信号を取得する。取得部１１は、複数のマイク２０により測定され、記憶部に記憶された音響信号を、記憶部から取得してもよいし、複数のマイク２０により測定している音響信号をリアルタイムで取得してもよい。

　第１算出部１２は、音響信号を、複数の音源から発せられる音響信号の推定値に分離する分離行列を算出する。分離行列については、図３を用いて説明する。

　第１生成部１３は、分離行列により定められ、周波数に関する空間相関行列、周波数に関する第１パラメータ並びに周波数及び時間に関する第２パラメータを含む第１モデル１３ａによって、拡散性雑音の音響信号を生成する。第１モデル１３ａによって、拡散性雑音の音響信号を生成する処理については、後に詳細に説明する。

　第２生成部１４は、分離行列により定められ、周波数に関するステアリングベクトル並びに周波数及び時間に関する第３パラメータを含む第２モデルによって、目的音源から発せられた音響信号を生成する。第２モデル１４ａによって、目的音源から発せられた音響信号を生成する処理については、後に詳細に説明する。

　第１生成部１３は、拡散性雑音の音響信号ｕ_ｉｊを生成し、第２生成部１４は、目的音源から発せられた音響信号ｈ_ｉｊを生成する。音響解析装置１０は、マイク２０で測定された音響信号ｘ_ｉｊと、生成した音響信号との関係がｘ_ｉｊ＝ｈ_ｉｊ＋ｕ_ｉｊとなるように、第１モデル１３ａに含まれる第１パラメータ及び第２パラメータと、第２モデル１４ａに含まれる第３パラメータとを決定する。

　決定部１５は、第１パラメータ、第２パラメータ及び第３パラメータを、第１パラメータ、第２パラメータ及び第３パラメータの尤度を最大化するように決定する。ここで、決定部１５は、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解して、尤度を最大化するように、第１パラメータ、第２パラメータ及び第３パラメータを決定する。決定部１５による処理の詳細は、後に説明する。

　このように、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解することで、演算量を削減して、目的音源の音響信号をより高速に分離することができる。

　また、決定部１５は、周波数に関する行列の逆行列を、周波数に関する行列の疑似逆行列に分解して、尤度を最大化するように、第１パラメータ、第２パラメータ及び第３パラメータを決定する。このように、周波数に関する行列の逆行列を、周波数に関する行列の疑似逆行列に分解することで、演算量をさらに削減して、目的音源の音響信号をさらに高速に分離することができる。

　図２は、本実施形態に係る音響解析装置１０の物理的構成を示す図である。音響解析装置１０は、演算部に相当するＣＰＵ（Central Processing Unit）１０ａと、記憶部に相当するＲＡＭ（Random Access Memory）１０ｂと、記憶部に相当するＲＯＭ（Read only Memory）１０ｃと、通信部１０ｄと、入力部１０ｅと、音声出力部１０ｆと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例では音響解析装置１０が一台のコンピュータで構成される場合について説明するが、音響解析装置１０は、複数のコンピュータが組み合わされて実現されてもよい。また、図２で示す構成は一例であり、音響解析装置１０はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。

　ＣＰＵ１０ａは、ＲＡＭ１０ｂ又はＲＯＭ１０ｃに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。ＣＰＵ１０ａは、複数のマイクで測定した音響信号から、対象音源の音響信号を分離するプログラム（音響解析プログラム）を実行する演算部である。ＣＰＵ１０ａは、入力部１０ｅや通信部１０ｄから種々のデータを受け取り、データの演算結果を音声出力部１０ｆで出力したり、ＲＡＭ１０ｂに格納したりする。

　ＲＡＭ１０ｂは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。ＲＡＭ１０ｂは、ＣＰＵ１０ａが実行するプログラム、音響信号といったデータを記憶してよい。なお、これらは例示であって、ＲＡＭ１０ｂには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。

　ＲＯＭ１０ｃは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ＲＯＭ１０ｃは、例えば音響解析プログラムや、書き換えが行われないデータを記憶してよい。

　通信部１０ｄは、音響解析装置１０を他の機器に接続するインターフェースである。通信部１０ｄは、インターネット等の通信ネットワークに接続されてよい。

　入力部１０ｅは、ユーザからデータの入力を受け付けるものであり、例えば、キーボード及びタッチパネルを含んでよい。

　音声出力部１０ｆは、ＣＰＵ１０ａによる演算で得られた音声解析結果を出力するものであり、例えば、スピーカにより構成されてよい。音声出力部１０ｆは、複数のマイクで測定された音響信号から分離された目的音源の音響信号を出力してよい。音声出力部１０ｆは、他のコンピュータに音響信号を出力してもよい。

　音響解析プログラムは、ＲＡＭ１０ｂやＲＯＭ１０ｃ等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部１０ｄにより接続される通信ネットワークを介して提供されてもよい。音響解析装置１０では、ＣＰＵ１０ａが音響解析プログラムを実行することにより、図１を用いて説明した様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、音響解析装置１０は、ＣＰＵ１０ａとＲＡＭ１０ｂやＲＯＭ１０ｃが一体化したＬＳＩ（Large-Scale Integration）を備えていてもよい。

　図３は、本実施形態に係る音響解析装置１０により算出される分離行列の概要を示す図である。複数の音源から発せられた音響信号（音源信号）は、周囲の環境やマイク２０の配置に応じて定まる混合系によって混合される。周波数をｉ（ｉ＝１～Ｉ）と表し、時間をｊ（ｊ＝１～Ｊ）と表し、複数の音源から発せられる音響信号の複素時間周波数成分をＮ次元ベクトルでｓ_ｉｊと表し、マイク２０で測定される音響信号（観測信号）の複素時間周波数成分をＭ次元ベクトルでｘ_ｉｊと表すとき、ｘ_ｉｊ＝Ａ_ｉｓ_ｉｊと表される。ここで、Ｎは音源の数である。また、Ａ_ｉ＝（ａ_ｉ，１，ａ_ｉ，２，…，ａ_ｉ，Ｎ）は混合行列と呼ばれ、Ｍ×Ｎの複素行列である。ａ_ｉ，ｎはステアリングベクトルと呼ばれ、Ｍ次元のベクトルである。ここで、Ｍはマイク２０の数である。

　第１算出部１２は、ｘ_ｉｊが与えられた場合に、分離行列Ｗ_ｉ＝Ａ_ｉ ^－１を推定する。ここで、推定信号は、ｙ_ｉｊ＝Ｗ_ｉｘ_ｉｊであり、ｙ_ｉｊによってｓ_ｉｊを再現する。

　第１算出部１２は、ＩＬＲＭＡを用いて、分離行列Ｗ_ｉを算出してよい。ＩＬＲＭＡでは、Ｍ＝ＮかつＡ_ｉが正則であることが条件となる。本実施形態に係る音響解析装置１０では、Ｍ＝ＮかつＡ_ｉが正則であることを前提とする。

　ランクＭ－１の空間相関行列をＲ′_ｉ ^（ｕ）と表し、Ｒ′_ｉ ^（ｕ）の直交補空間ベクトルをｂ_ｉと表し、第１パラメータをλ_ｉと表し、第２パラメータをｒ_ｉｊ ^（ｕ）と表すとき、第１生成部１３は、以下の数式（１）により表される第１モデル１３ａによって、拡散性雑音の音響信号ｕ_ｉｊを生成する。

　また、ステアリングベクトルをａ_ｉ ^（ｈ）と表し、第３パラメータをｒ_ｉｊ ^（ｈ）と表し、ハイパーパラメータα及びβで定められる逆ガンマ分布をＩｇ（α，β）と表すとき、第２生成部１４は、以下の数式（２）により表される第２モデル１４ａによって、目的音源から発せられた音響信号ｈ_ｉｊを生成する。ここで、ハイパーパラメータα，βは、例えば、α＝１．１、β＝１０^－１６としてよい。

　更新前の第１パラメータをチルダ付きのλ_ｉで表し、更新前の第２パラメータをチルダ付きのｒ_ｉｊ ^（ｕ）で表し、更新前の第３パラメータをチルダ付きのｒ_ｉｊ ^（ｈ）で表すとき、決定部１５は、以下の数式（３）により、十分統計量ｒ_ｉｊ ^（ｈ）及びＲ_ｉｊ ^（ｕ）を算出する。数式（３）は、第１パラメータ、第２パラメータ及び第３パラメータをＥＭ（expectation-maximization）法で算出する場合のＥステップに相当する。

　そして、決定部１５は、以下の数式（４）により、第１パラメータλ_ｉ、第２パラメータｒ_ｉｊ ^（ｕ）及び第３パラメータｒ_ｉｊ ^（ｈ）を更新する。数式（４）は、第１パラメータ、第２パラメータ及び第３パラメータをＥＭ法で算出する場合のＭステップに相当する。

　ここで、決定部１５は、更新の際に、以下の数式（５）によって、周波数及び時間に関する行列Ｒ_ｉｊ ^（ｘ）の逆行列を、周波数に関する行列Ｒ_ｉ ^（ｕ）の逆行列に分解する。

　Ｒ_ｉｊ ^（ｘ）は、時間ｊに関する成分を有するが、数式（５）の右辺は、Ｒ_ｉ ^（ｕ）の逆行列だけを含み、周波数に関する成分のみ有し、時間ｊに関する成分を有さない。これにより、演算量がＯ（ＩＪＭ^３）からＯ（ＩＭ^３＋ＩＪＭ^２）に削減される。

　決定部１５は、更新の際に、以下の数式（６）によって、周波数に関する行列Ｒ_ｉ ^（ｕ）の逆行列を、周波数に関する行列の疑似逆行列（Ｒ′_ｉ ^（ｕ））^＋に分解する。

　ここで、Ｒ′_ｉ ^（ｕ）は、第１パラメータλ_ｉ、第２パラメータｒ_ｉｊ ^（ｕ）及び第３パラメータｒ_ｉｊ ^（ｈ）に依存しない量であり、ＩＬＲＭＡによって空間相関行列Ｗ_ｉを算出することで定まる量である。また、Ｒ′_ｉ ^（ｕ）の直交補空間ベクトルをｂ_ｉもＩＬＲＭＡによって定まる量である。そのため、数式（６）の演算は、初回に計算したＩＬＲＭＡによって定まる量を用いることで高速に行うことができる。これにより、演算量がＯ（ＩＪ）まで削減される。

　本実施形態では、第１モデル１３ａ及び第２モデル１４ａとして正規分布を用いているが、マイク２０で測定された音響信号ｘ_ｉｊを生成するモデルとして、例えば多変量複素一般化ガウス分布を用いてもよい。また、本実施形態では、パラメータの尤度を最大化するアルゴリズムとしてＥＭ法を用いているが、ＭＥ（majorization-equalization）法を用いたり、ＭＭ（majorization-minimization）法を用いたりしてもよい。

　図４は、本実施形態に係る音響解析装置１０により目的音源から発せられる音響信号を分離する実験の構成を示す図である。本実験では、雑音信号を発生させる複数のスピーカ５０を、マイク２０を中心とした半径１．５ｍの円周上に１０°間隔で配置し、対象音源の音響信号を発生させるスピーカ５１を、マイク２０から１．０の距離に所定の方位で配置する。本本実験では、４つのマイク２０を６．４５ｃｍの範囲に等間隔に配置している。なお、本実験における対象音源は、人の話し声であり、雑音も同様に人の話し声である。本実験は、多くの人が話している状況で特定の人の話し声を選択に聴取する、いわゆるカクテルパーティー効果を再現するタスクである。

　図５は、本実施形態に係る音響解析装置１０により目的音源から発せられる音響信号を分離した場合の分離性能を示す図である。同図では、E. Vincent, R. Gribonval, and C. Fevotte, “Performance measurement in blind audio source separation,” IEEE Trans. ASLP, vol. 14, no. 4, pp. 1462-1469, 2006.により提案されたＳＤＲ（source-to-distortion ratio）を評価指標として縦軸に示し、横軸に経過時間を対数スケールで示している。ＳＤＲが高いほど、音声がより良く分離されていることを表す。

　同図では、ＩＬＲＭＡを用いた場合のグラフＧ０と、本実施形態に係る音響解析装置１０を用いた場合のグラフＧ１と、本実施形態に係る音響解析装置１０において逆行列の分解のみ行った場合（疑似逆行列の分解は行わなかった場合）のグラフＧ２と、本実施形態に係る音響解析装置１０において逆行列の分解も疑似逆行列の分解も行わなかった場合のグラフＧ３とを示している。また、同図では、K. Sekiguchi, A. A. Nugraha, Y. Bando, and K. Yoshii, “Fast multichannel source separation based on jointly diagonalizable spatial covariance matrices,” CoRR, vol. abs/1903.03237, 2019.で提案されたＦａｓｔＭＮＭＦと呼ばれる手法及びＩＬＲＭＡを用いた場合のグラフＧ４と、ＦａｓｔＭＮＭＦのみ用いた場合のグラフＧ５とを示している。また、「ILRMA initialization」と記載された区間は、ＩＬＲＭＡのアルゴリズムの実行時間を示している。

　グラフＧ１によれば、本実施形態に係る音響解析装置１０は、他のいずれの場合よりも早く最大のＳＤＲを達成することができている。本実施形態に係る音響解析装置１０によってＳＤＲの最大値を達成するまでの時間は、ＩＬＲＭＡの実行時間よりも僅かに長いだけであり、第１パラメータ、第２パラメータ及び第３パラメータのＥＭ法による算出は、すぐに収束していることが読み取れる。なお、グラフＧ２及びグラフＧ３は、疑似逆行列の分解を行わなかったり、逆行列の分解及び疑似逆行列の分解を行わなかったりする場合なので、計算に時間を要するが、本実施形態に係る音響解析装置１０と同等のＳＤＲを達成することができる。

　一方、ＦａｓｔＭＮＭＦを用いた場合を示すグラフＧ４及びグラフＧ５は、ＳＤＲの上昇に比較的長時間を要し、その最大値は本実施形態に係る音響解析装置１０場合よりも低い。

　このように、本実施形態に係る音響解析装置１０によれば、従来法よりも高速かつ高精度で対象音源を分離することができる。

　図６は、本実施形態に係る音響解析装置１０により目的音源から発せられる音響信号を分離した場合の演算時間を示す図である。同図では、第１比較例、第２比較例、本実施形態（逆行列の分解）及び本実施形態（逆行列の分解及び疑似逆行列）の場合について、それぞれ目的音源から発せられる音響信号を分離した場合の演算時間を示している。

　第１比較例は、ＦａｓｔＭＮＭＦであり、演算時間は０．７秒程度である。また、第２比較例は、本実施形態に係る音響解析装置１０において逆行列の分解も疑似逆行列の分解も行わない場合であり、演算時間は５秒程度である。

　一方、本実施形態に係る音響解析装置１０において逆行列の分解のみ行う場合、演算時間は０．８秒程度であり、本実施形態に係る音響解析装置１０において逆行列の分解及び疑似逆行列の分解を行う場合、演算時間は０．０６秒程度となる。

　本実施形態に係る音響解析装置１０において逆行列の分解も疑似逆行列の分解も行わない場合、演算量はＯ（ＩＪＭ^３）であり、逆行列の分解のみ行う場合、演算量はＯ（ＩＭ^３＋ＩＪＭ^２）であり、逆行列の分解及び疑似逆行列の分解を行う場合、演算量はＯ（ＩＪ）となる。このように、本実施形態に係る音響解析装置１０によれば、演算量をＯ（ＩＪ）まで削減して音源の数（Ｍ＝Ｎ）に依存しない量とすることができ、従来法よりも高速に対象音源を分離することができる。具体的には、本実施形態に係る音響解析装置１０は、ＦａｓｔＭＮＭＦよりも約１２倍高速に対象音源を分離することができ、その精度もＦａｓｔＭＮＭＦより高い。

　図７は、本実施形態に係る音響解析装置１０により実行される音響分離処理のフローチャートである。はじめに、音響解析装置１０は、複数のマイク２０により測定した音響信号を取得する（Ｓ１０）。

　次に、音響解析装置１０は、ＩＬＲＭＡにより、分離行列を算出し（Ｓ１１）、分離行列に基づき、ランクＭ－１の空間相関行列及び直交補空間ベクトルを算出する（Ｓ１２）。また、音響解析装置１０は、空間相関行列、直交補空間ベクトル、第１パラメータ及び第２パラメータを含む第１モデルによって、拡散性雑音の音響信号を生成し（Ｓ１３）、ステアリングベクトル及び第３パラメータを含む第２モデルによって、目的音源から発せられた音響信号を生成する（Ｓ１４）。

　さらに、音響解析装置１０は、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解し、疑似逆行列に分解して、十分統計量を算出する（Ｓ１５）。この処理は、ＥＭ法のＥステップに相当する。

　また、音響解析装置１０は、尤度を最大化するように、第１パラメータ、第２パラメータ及び第３パラメータを更新する（Ｓ１６）。この処理は、ＥＭ法のＭステップに相当する。

　第１パラメータ、第２パラメータ及び第３パラメータが収束していない場合（Ｓ１７：ＮＯ）、音響解析装置１０は、処理Ｓ１５及びＳ１６を再び実行する。収束は、パラメータを更新する前後における尤度の差が所定値以下であるかどうかによって判定してよい。

　第１パラメータ、第２パラメータ及び第３パラメータが収束した場合（Ｓ１７：ＹＥＳ）、音響解析装置１０は、第２モデルによって、目的音源から発せられた音響信号を生成し（Ｓ１８）、最終的な音声出力とする。

　以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。

　１０…音響解析装置、１０ａ…ＣＰＵ、１０ｂ…ＲＡＭ、１０ｃ…ＲＯＭ、１０ｄ…通信部、１０ｅ…入力部、１０ｆ…音声出力部、１１…取得部、１２…第１算出部、１３…第１生成部、１３ａ…第１モデル、１４…第２生成部、１４ａ…第２モデル、１５…決定部、２０…マイク、５０，５１…スピーカ

Claims

　複数のマイクにより測定した音響信号を取得する取得部と、
　前記音響信号を、複数の音源から発せられる音響信号の推定値に分離する分離行列を算出する第１算出部と、
　前記分離行列により定められ、周波数に関する空間相関行列、前記周波数に関する第１パラメータ並びに前記周波数及び時間に関する第２パラメータを含む第１モデルによって、拡散性雑音の音響信号を生成する第１生成部と、
　前記分離行列により定められ、前記周波数に関するステアリングベクトル並びに前記周波数及び前記時間に関する第３パラメータを含む第２モデルによって、目的音源から発せられた音響信号を生成する第２生成部と、
　前記第１パラメータ、前記第２パラメータ及び前記第３パラメータを、前記第１パラメータ、前記第２パラメータ及び前記第３パラメータの尤度を最大化するように決定する決定部と、を備え、
　前記決定部は、前記周波数及び前記時間に関する行列の逆行列を、前記周波数に関する行列の逆行列に分解して、前記尤度を最大化するように、前記第１パラメータ、前記第２パラメータ及び前記第３パラメータを決定する、
　音響解析装置。
　前記決定部は、前記周波数に関する行列の逆行列を、前記周波数に関する行列の疑似逆行列に分解して、前記尤度を最大化するように、前記第１パラメータ、前記第２パラメータ及び前記第３パラメータを決定する、
　請求項１に記載の音響解析装置。
　前記周波数をｉと表し、前記時間をｊと表し、前記音響信号をｘ_ｉｊと表し、前記分離行列をＷ_ｉと表し、ランクＭ－１の前記空間相関行列をＲ′_ｉ ^（ｕ）と表し、前記Ｒ′_ｉ ^（ｕ）の直交補空間ベクトルをｂ_ｉと表し、前記第１パラメータをλ_ｉと表し、前記第２パラメータをｒ_ｉｊ ^（ｕ）と表すとき、
　前記第１生成部は、以下の数式（１）により表される前記第１モデルによって、前記拡散性雑音の音響信号ｕ_ｉｊを生成する、

　請求項１又は２に記載の音響解析装置。
　前記周波数をｉと表し、前記時間をｊと表し、前記ステアリングベクトルをａ_ｉ ^（ｈ）と表し、前記第３パラメータをｒ_ｉｊ ^（ｈ）と表し、ハイパーパラメータα及びβで定められる逆ガンマ分布をＩｇ（α，β）と表すとき、
　前記第２生成部は、以下の数式（２）により表される前記第２モデルによって、前記目的音源から発せられた音響信号ｈ_ｉｊを生成する、

　請求項１から３のいずれか一項に記載の音響解析装置。
　前記決定部は、更新前の前記第１パラメータをチルダ付きのλ_ｉで表し、更新前の前記第２パラメータをチルダ付きのｒ_ｉｊ ^（ｕ）で表し、更新前の前記第３パラメータをチルダ付きのｒ_ｉｊ ^（ｈ）で表すとき、以下の数式（３）により、十分統計量ｒ_ｉｊ ^（ｈ）及びＲ_ｉｊ ^（ｕ）を算出し、

　以下の数式（４）により、前記第１パラメータλ_ｉ、前記第２パラメータｒ_ｉｊ ^（ｕ）及び前記第３パラメータｒ_ｉｊ ^（ｈ）を更新し、

　更新の際に、以下の数式（５）によって、前記周波数及び前記時間に関する行列Ｒ_ｉｊ ^（ｘ）の逆行列を、前記周波数に関する行列Ｒ_ｉ ^（ｕ）の逆行列に分解する、

　請求項３又は４に記載の音響解析装置。
　前記決定部は、更新の際に、以下の数式（６）によって、前記周波数に関する行列Ｒ_ｉ ^（ｕ）の逆行列を、前記周波数に関する行列の疑似逆行列（Ｒ′_ｉ ^（ｕ））^＋に分解する、

　請求項５に記載の音響解析装置。
　音響解析装置に備えられたプロセッサによって、
　複数のマイクにより測定した音響信号を取得することと、
　前記音響信号を、複数の音源から発せられる音響信号の推定値に分離する分離行列を算出することと、
　前記分離行列により定められ、周波数に関する空間相関行列、前記周波数に関する第１パラメータ並びに前記周波数及び時間に関する第２パラメータを含む第１モデルによって、拡散性雑音の音響信号を生成することと、
　前記分離行列により定められ、前記周波数に関するステアリングベクトル並びに前記周波数及び前記時間に関する第３パラメータを含む第２モデルによって、目的音源から発せられた音響信号を生成することと、
　前記第１パラメータ、前記第２パラメータ及び前記第３パラメータを、前記第１パラメータ、前記第２パラメータ及び前記第３パラメータの尤度を最大化するように決定することと、を含み、
　前記周波数及び前記時間に関する行列の逆行列を、前記周波数に関する行列の逆行列に分解して、前記尤度を最大化するように、前記第１パラメータ、前記第２パラメータ及び前記第３パラメータを決定する、
　音響解析方法。
　音響解析装置に備えられたプロセッサを、
　複数のマイクにより測定した音響信号を取得する取得部、
　前記音響信号を、複数の音源から発せられる音響信号の推定値に分離する分離行列を算出する第１算出部、
　前記分離行列により定められ、周波数に関する空間相関行列、前記周波数に関する第１パラメータ並びに前記周波数及び時間に関する第２パラメータを含む第１モデルによって、拡散性雑音の音響信号を生成する第１生成部、
　前記分離行列により定められ、前記周波数に関するステアリングベクトル並びに前記周波数及び前記時間に関する第３パラメータを含む第２モデルによって、目的音源から発せられた音響信号を生成する第２生成部、及び
　前記第１パラメータ、前記第２パラメータ及び前記第３パラメータを、前記第１パラメータ、前記第２パラメータ及び前記第３パラメータの尤度を最大化するように決定する決定部、として機能させ、
　前記決定部は、前記周波数及び前記時間に関する行列の逆行列を、前記周波数に関する行列の逆行列に分解して、前記尤度を最大化するように、前記第１パラメータ、前記第２パラメータ及び前記第３パラメータを決定する、
　音響解析プログラム。