WO2019163736A1

WO2019163736A1 - マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム

Info

Publication number: WO2019163736A1
Application number: PCT/JP2019/005976
Authority: WO
Inventors: 卓哉樋口; 中谷　智広; 慶介木下
Original assignee: 日本電信電話株式会社
Priority date: 2018-02-22
Filing date: 2019-02-19
Publication date: 2019-08-29
Also published as: JP6821615B2; JP2019144467A; US20200395037A1; US11562765B2

Abstract

入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するマスク推定装置は、学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換する変換部と、前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記マスク情報を計算するマスク計算部とを有する。

Description

マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム

　本発明は、複数の音源からの音が混合された音響信号を、音源毎の信号に分離する音源分離技術に関する。

　複数の音源からの音が混合された音響信号を、音源毎の信号に分離する音源分離技術には、複数のマイクで収音された音を対象とした音源分離技術と、１つのマイクで収音された音を対象とした音源分離技術がある。後者の場合はマイクの位置に関する情報を利用することができないため、前者の場合よりも難しいとされている。

　後者の問題のように、マイクの位置の情報を使わず、入力音響信号の情報に基づいて音源分離を行う技術として、非特許文献１が知られている。

　非特許文献１では、入力音響信号を双方向長短期記憶（BLSTM: bi-directional long short-term memory）により埋め込みベクトルに変換した後、埋め込みベクトルをk-means法により音源毎のクラスタにクラスタリングして、各クラスタに属する音源を抽出するためのマスクを推定する。BLSTMのパラメータの学習においては、予め与えられた教師マスク（正解のマスク）と推定されたマスクとの距離を最小化するように、BLSTMのパラメータを更新する。運用時には、パラメータ学習済みのBLSTMを用いて入力音響信号を埋め込みベクトルに変換し、その結果をk-means法によりクラスタリングして、マスク推定結果を得る。

Zhuo Chen, Yi Luo, and Nima Mesgarani, "Deep attractor network for single-microphone speaker separation," arXiv preprint arXiv:1611.08930v2, 2017.

　非特許文献１では、学習時はSoftmax関数を用いて埋め込みベクトルからマスクを推定しているのに対して、運用時には埋め込みベクトルに対してk-means法を適用しクラスタリングすることでマスクの推定が行われる。つまり、学習時と運用時でマスク推定の基準が同一ではないため、運用時の入力音響信号にとって最適なBLSTMのパラメータ学習がなされているとはいえず、運用時における音源分離の精度が低下する可能性がある。

　本発明は、学習時と運用時で同様の手法でマスクを推定することにより、運用時における音源分離の精度を向上させることを目的とする。

　本発明の一形態に係るマスク推定装置は、
　入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するマスク推定装置であって、
　学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換する変換部と、
　前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記マスク情報を計算するマスク計算部と、
　を有することを特徴とする。

　また、本発明の一形態に係るモデル学習装置は、
　入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するために利用されるニューラルネットワークモデルを学習するモデル学習装置であって、
　前記ニューラルネットワークモデルを用いて、マスク情報が予め知られている学習用の入力音響信号を所定次元の埋め込みベクトルに変換する変換部と、
　前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、マスク情報の推定結果を計算するマスク計算部と、
　前記マスク情報の推定結果と、前記予め知られているマスク情報との比較結果が所定の基準を満たすまで、前記ニューラルネットワークモデルのパラメータを更新するパラメータ更新部と、
　を有することを特徴とする。

　また、本発明の一形態に係る音源分離装置は、
　入力音響信号から特定の音源の信号を抽出する音源分離装置であって、
　学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換する変換部と、
　前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を計算するマスク計算部と、
　前記マスク情報を用いて前記入力音響信号から特定の音源の信号を抽出する音源分離部と、
　を有することを特徴とする。

　また、本発明の一形態に係るマスク推定方法は、
　入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するマスク推定装置が実行するマスク推定方法であって、
　学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換するステップと、
　前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記マスク情報を計算するステップと、
　を有することを特徴とする。

　また、本発明の一形態に係るモデル学習方法は、
　入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するために利用されるニューラルネットワークモデルを学習するモデル学習装置が実行するモデル学習方法であって、
　前記ニューラルネットワークモデルを用いて、マスク情報が予め知られている学習用の入力音響信号を所定次元の埋め込みベクトルに変換するステップと、
　前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、マスク情報の推定結果を計算するステップと、
　前記マスク情報の推定結果と、前記予め知られているマスク情報との比較結果が所定の基準を満たすまで、前記ニューラルネットワークモデルのパラメータを更新するステップと、
　を有することを特徴とする。

　また、本発明の一形態に係る音源分離方法は、
　入力音響信号から特定の音源の信号を抽出する音源分離装置が実行する音源分離方法であって、
　学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換するステップと、
　前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を計算するステップと、
　前記マスク情報を用いて前記入力音響信号から特定の音源を抽出するステップと、
　を有することを特徴とする。

　また、本発明の一形態に係るプログラムは、上記の装置の各部としてコンピュータを機能させることを特徴とする。

　本発明によれば、学習時と運用時で同様の手法でマスクを推定することにより、運用時における音源分離の精度を向上させることが可能になる。

本発明の実施例におけるシステム構成例を示す図である。本発明の実施例１におけるマスク推定装置の機能構成を示す図である。本発明の実施例１におけるマスク推定装置のマスク計算部の機能構成を示す図である。本発明の実施例２におけるモデル学習装置の機能構成を示す図である。本発明の実施例３における音源分離装置の機能構成を示す図である。各装置のハードウェア構成例を示す図である。

　以下、図面を参照して本発明の実施例について説明する。

　図１は、本発明の実施例におけるシステム構成例を示す図である。図１において、マイクMは、C個のクラスS1～SCにクラスタリングされ得る複数の音源からの音を収音することができる。マイクMは、収音された音を音響信号として音源分離装置３０に出力する。ただし、本実施例の音源分離装置３０は、マイクで収音した音を直接、音源分離装置３０に入力する場合に限定されるものではなく、例えば、マイク等により収音した音がメディアやハードディスク等に記憶されており、その記憶された音響信号を音源分離装置３０に読み込むことで実行される形式であっても良い。

　音源分離装置３０は、音響信号を入力として受け取り、特定の音源の信号を出力する装置である。音源分離装置３０は、特定の音源の信号のみを出力することも可能であり、音源毎の信号を出力することも可能である。音源分離装置３０は、入力音響信号から特定の音源の信号を抽出するためにマスクを用いる。音源分離装置３０は、マスクを特定するためのマスク情報を推定するために、ニューラルネットワークモデルを利用する。なお、マスク情報には、マスクそのものだけでなく、マスクを決定するためのパラメータも含まれる。音源分離装置３０は、学習時には、予め用意された学習用入力音響信号（マスク情報が予め知られているものとする）を用いて、ニューラルネットワークモデルを学習する。音源分離装置３０は、運用時には、学習時に学習されたニューラルネットワークモデル（パラメータ設定済みのニューラルネットワーク）を用いて、マスク情報を計算する。

　なお、音源分離装置３０におけるニューラルネットワークモデルの学習及びマスク情報の計算は別の装置で行われても、同じ装置で行われてもよい。以下の実施例では、それぞれモデル学習装置及びマスク推定装置という別の装置で行われるものとして説明する。

　＜実施例１：マスク推定装置＞
　実施例１では、複数の音源からの音が混合された混合音響信号である入力音響信号が入力され、入力音響信号から特定の音源を抽出するために用いられるマスクを特定するためのマスク情報、又は入力音響信号から音源毎の信号に分離するために用いられるマスクを特定するためのマスク情報を出力するマスク推定装置について説明する。

　図１に、本発明の実施例１におけるマスク推定装置１０の機能構成を示す。マスク推定装置１０は、変換部１１０と、マスク計算部１２０とを有する。

　（変換部）
　変換部１１０は、入力音響信号を入力とし、所定次元のベクトル（埋め込みベクトル）を出力するニューラルネットワークである。ニューラルネットワークの種類は特に限定されるものではないが、例えば、非特許文献１に記載の双方向長短期記憶（BLSTM）が用いられてもよい。以下の説明では、BLSTMを例に挙げて説明する。

　ニューラルネットワークモデル（この例ではBLSTMの各パラメータ）は、後述のモデル学習装置により予め学習済みであるものとする。変換部１１０は、学習済みのニューラルネットワークにより、以下の通り、入力音響信号を埋め込みベクトルに変換する。

　まず、変換部１１０は、入力音響信号を時間周波数解析し、時間周波数点ごとの特徴量をニューラルネットワークに入力し、時間周波数点のインデックスnに対応する埋め込みベクトル

を得る。ここで、n∈{1,...,N}は時間周波数点のインデックスであり、Dはニューラルネットワークが出力する埋め込みベクトルの次数である。

　（マスク計算部）
　マスク計算部１２０は、変換部１１０から出力された埋め込みベクトルを入力とし、マスク情報を出力する処理部である。マスク計算部１２０は、マスク情報を計算するために、埋め込みベクトルを混合ガウスモデルにフィッティングさせる。

　具体的には、埋め込みベクトルがC個のガウス分布で構成された混合ガウス分布に従うものと仮定して、埋め込みベクトルをより適切に表現できる混合ガウス分布のパラメータである平均μ_c及び共分散行列Σ_cを推定する。ここで、c∈{1,...,C}は各音源に対応するクラスタのインデックスであり、Cは音源のクラスタの総数である。また、μ_cはクラスタcに対応するガウス分布の平均、Σ_cはクラスタcに対応するガウス分布の共分散行列を表す。マスクの推定値は、推定された混合ガウス分布のパラメータμ_c及びΣ_cから下記式により得られる。

ここで、

は平均μ及び共分散行列Σのときのガウス分布の確率密度関数である。

　このように、マスク

は推定された混合ガウス分布のパラメータμ_c及びΣ_cから特定できるので、マスク情報はマスクそのものであってもよいし、混合ガウス分布のパラメータであってもよい。以下、マスク計算部１２０で計算される混合ガウス分布のパラメータμ_c及びΣ_cの推定値を^μ_c及び^Σ_cと表記することとする。なお、^は直後の記号（μやΣ）の上に表示される記号である。

　マスク計算部１２０は、混合ガウスモデルへのフィッティングのために、埋め込みベクトルに対する混合ガウス分布のパラメータの尤度を最大化するように、各ガウス分布のパラメータを求める。具体的には、変換部１１０により得られた全ての時間周波数点についての埋め込みベクトルに基づいて、以下の対数尤度関数を最大化するように、各ガウス分布のパラメータ^μ_c及び^Σ_cを繰り返し更新する。

　パラメータの更新は、例えば、EM（expectation-maximization）アルゴリズムを用いて行う。図３に、EMアルゴリズムを用いるときのマスク計算部１２０の機能構成を示す。マスク計算部１２０は、第１更新部１２１と、第２更新部１２２と、判定部１２３と、記憶部１２４とを有する。

　記憶部１２４は、第１更新部１２１、第２更新部１２２及び判定部１２３の処理で用いられるパラメータの初期値又は更新値を格納する記憶装置である。最初に、記憶部１２４には、混合ガウス分布のパラメータ^μ_c及び^Σ_cの初期値が格納されている。初期値は任意に決めることができる。

　（第１更新部）
　第１更新部１２１は、変換部１１０から出力された埋め込みベクトルを入力とし、マスクの推定値を出力する処理部である。第１更新部１２１は、EMアルゴリズムのE-stepに相当する処理を行う。具体的には、第１更新部１２１は、下記式により、事後確率であるマスクの推定値を計算する。

ここで、

は、記憶部１２４に記憶されたパラメータである。

　（第２更新部）
　第２更新部１２２は、第１更新部１２１で求めたマスクの推定値と、変換部１１０から出力された埋め込みベクトルとを入力とし、パラメータの推定値^μ_c及び^Σ_cを出力する処理部である。第２更新部１２２は、EMアルゴリズムのM-stepに相当する処理を行う。具体的には、第２更新部１２２は、下記式により^μ_c及び^Σ_cを更新する。

　（判定部）
　判定部１２３は、所定の基準を満たすまで、第１更新部と第２更新部を繰り返し実行させることで、マスク情報を繰り返し更新させる処理を行う。そして、所定の基準を満たしたら、その時点で記憶部１２４に記憶されているガウス分布の各パラメータの値を出力して処理を終了する。

　所定の基準とは、例えば、第２更新部１２２で求めたガウス分布のパラメータの推定値と、変換部１１０から出力された埋め込みベクトルとに基づいて計算される対数尤度を最大化することである。対数尤度は、埋め込みベクトルを今のガウス分布のパラメータの推定値に基づいてクラスタリングしたときの尤もらしさの評価値のようなものと考えることができ、より尤もらしくクラスタリングできるようにガウス分布のパラメータの推定値を繰り返し更新するのである。

　具体的には、第２更新部１２２で求めたガウス分布のパラメータの推定値と埋め込みベクトルに基づいて上記式(2)の対数尤度を求める。ここで、式(2)におけるパラメータμ_c及びΣ_cは、その推定値^μ_c及び^Σ_cに置き換えるものとする。そして、直前の判定部１２３の処理で算出した対数尤度のほうが小さければ、基準を満たしたと判定して記憶部１２４に記憶されているガウス分布のパラメータ、若しくは、当該ガウス分布のパラメータから求めたマスク推定値をマスク情報として出力し、処理を終了する。そうでない（基準を満たしていない）場合は、第１更新部１２１に戻って処理を繰り返すようにすればよい。あるいは、今回算出した対数尤度から直前の判定部１２３の処理で算出した対数尤度を差し引いた値が所定の閾値を下回れば基準を満たしたと判定し、そうでない場合は基準を満たさないとしてもよい。あるいは、繰り返し処理の回数をカウントしておき、所定の回数に達したら所定の基準を満たしたと判定してもよい。

　＜実施例２：モデル学習装置＞
　実施例２では、実施例１のニューラルネットワークモデル、具体的には、実施例１の推定を行う際の変換部１１０を構成するニューラルネットワークのパラメータを学習するモデル学習装置について説明する。

　図４に、本発明の実施例２におけるモデル学習装置２０の機能構成を示す。モデル学習装置２０は、変換部２１０と、マスク計算部２２０と、パラメータ更新部２３０とを有する。

　（変換部）
　変換部２１０は、学習用に予め用意された混合音響信号である学習用入力音響信号を入力とし、所定次元のベクトル（埋め込みベクトル）を出力するニューラルネットワークである。ただし、学習用入力音響信号は学習用に予め用意されたものであり、正解となるマスク情報（教師マスク情報）が予め知られているとする。変換部２１０は、実施例１と同様に、ニューラルネットワーク（例えばBLSTM）を用いて、学習用入力音響信号を埋め込みベクトルに変換する。ここで、ニューラルネットワークの各パラメータとしては、予め決められた初期値が最初に用いられるが、後述のパラメータ更新部２３０においてパラメータが更新された場合には、パラメータの更新値が用いられる。

　（マスク計算部）
　マスク計算部２２０は、変換部２１０から出力された埋め込みベクトルを入力とし、マスク情報の推定結果（推定マスク情報）を出力する処理部である。マスク計算部１２０は、推定マスク情報を計算するために、実施例１と同様の手法で、埋め込みベクトルを混合ガウスモデルにフィッティングさせる。このように、学習時と運用時で同様の手法でマスクを推定することにより、運用時に入力音響信号にとって最適なニューラルネットワークの各パラメータの学習が実現できる。

　具体的には、マスク計算部２２０は、混合ガウスモデルにフィッティングさせることで、推定マスク情報を求めるが、混合ガウスモデルのフィッティングはEMアルゴリズムを用いるのではなく、予め与えられた共分散行列Σ_cと教師マスクM_n,cから求めた平均μ_cを用いる。

　共分散行列Σ_cはc∈{1,...,C}の全てにおいて共通であり、Σ_c＝σIとする。ここでIは単位行列であり、σはスカラ変数で任意の値を設定できるものとする。平均μ_cは

により教師マスクM_n,cから計算する。

　よって、推定マスク情報は下記式により求めることができる。

　（パラメータ更新部）
　パラメータ更新部２３０は、予め知られている教師マスク情報と、マスク計算部２２０から出力された推定マスク情報とを入力とし、ニューラルネットワークの各パラメータを更新する処理部である。

　具体的には、パラメータ更新部２３０は、前記変換部と前記マスク計算部の処理を行って得たマスク情報と、予め用意された正解のマスク情報とが近づくように、ニューラルネットワークの各パラメータを繰り返し更新する。
　例えば、推定マスク情報と教師マスク情報の比較結果が所定の基準を満たすまで、ニューラルネットワークの各パラメータを繰り返し更新する。例えば、推定マスクと教師マスクとの距離を表すコスト関数を定義して、ニューラルネットワークの各パラメータを更新してもよく、推定マスクを用いて計算された信号と学習用入力音響信号との距離を表すコスト関数を定義して、ニューラルネットワークの各パラメータを更新してもよい。これは、ニューラルネットワークで通常行われる学習処理と同じであり、誤差伝播学習法等により行えばよい。例えば、下記式により推定マスク

と教師マスクM_n,cとの交差エントロピーに基づいて、ニューラルネットワークの各パラメータΘの更新を行えばよい。

　＜実施例３：音源分離装置＞
　実施例３では、実施例１のマスク推定装置１０を用いて、入力音響信号から特定の音源の信号を抽出する音源分離装置３０について説明する。音源分離装置３０は、入力音響信号から特定の音源の信号のみを抽出することもでき、入力音響信号を音源毎の信号に分離して出力することもできる。

　図５に、本発明の実施例３における音源分離装置３０の機能構成を示す。音源分離装置３０は、マスク推定装置１０に加えて、音源分離部３１０を有する。

　＜音源分離部＞
　音源分離部３１０は、入力音響信号と、マスク推定装置１０から出力されたマスク情報とを入力とし、特定の音源の信号又は音源毎の信号を出力する処理部である。

　具体的には、音源分離部３１０は、入力音響信号にマスク推定装置１０で推定したマスク情報に基づいて構成したマスクをかけることにより、音源毎の信号の推定結果を得て出力する。特定の音源からの信号のみ出力したい場合には、音源を特定する情報cをさらに入力として受け取り、マスク情報のうち入力された音源cを特定する情報に対応するマスク情報からマスクを構成し、入力音響信号に適用することで、当該音源の信号の推定値を得ればよい。

　＜ハードウェア構成例＞
　図６に、本発明の実施例における各装置（マスク推定装置１０、モデル学習装置２０、音源分離装置３０）のハードウェア構成例を示す。各装置は、CPU（Central Processing Unit）１５１等のプロセッサ、RAM（Random Access Memory）やROM（Read Only Memory）等のメモリ装置１５２、ハードディスク等の記憶装置１５３等から構成されたコンピュータでもよい。例えば、各装置の機能および処理は、記憶装置１５３又はメモリ装置１５２に格納されているデータやプログラムをCPU１５１が実行することによって実現される。また、各装置に必要な情報は、入出力インタフェース装置１５４から入力され、各装置において求められた結果は、入出力インタフェース装置１５４から出力されてもよい。

　＜補足＞
　説明の便宜上、本発明の実施例に係るマスク推定装置、モデル学習装置及び音源分離装置は機能的なブロック図を用いて説明しているが、本発明の実施例に係るマスク推定装置、モデル学習装置及び音源分離装置は、ハードウェア、ソフトウェア又はそれらの組み合わせで実現されてもよい。例えば、本発明の実施例は、コンピュータに対して本発明の実施例に係るマスク推定装置、モデル学習装置及び音源分離装置の機能を実現させるプログラム、コンピュータに対して本発明の実施例に係る方法の各手順を実行させるプログラム等により、実現されてもよい。また、各機能部が必要に応じて組み合わせて使用されてもよい。また、本発明の実施例に係る方法は、実施例に示す順序と異なる順序で実施されてもよい。

　以上、学習時と運用時で同様の手法でマスクを推定することにより、運用時における音源分離の精度を向上させるための手法について説明したが、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々の変更・応用が可能である。

　１０　　マスク推定装置
　１１０　変換部
　１２０　マスク計算部
　１２１　第１更新部
　１２２　第２更新部
　１２３　判定部
　１２４　記憶部
　２０　　モデル学習装置
　２１０　変換部
　２２０　マスク計算部
　２３０　パラメータ更新部
　３０　　音源分離装置
　３１０　音源分離部
　１５１　CPU
　１５２　メモリ
　１５３　記憶装置
　１５４　入出力インタフェース装置

Claims

　入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するマスク推定装置であって、
　学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換する変換部と、
　前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記マスク情報を計算するマスク計算部と、
　を有するマスク推定装置。
　前記マスク計算部は、前記埋め込みベクトルに対する混合ガウス分布のパラメータの尤度を最大化するように、前記マスク情報の計算を行う、請求項１に記載のマスク推定装置。
　前記学習済みニューラルネットワークモデルは、
　予め用意された学習用の入力音響信号に対して、前記変換部と前記マスク計算部の処理を行って得たマスク情報と、予め用意された正解のマスク情報とが近づくように学習されたものである、請求項１または２記載のマスク推定装置。
　入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するために利用されるニューラルネットワークモデルを学習するモデル学習装置であって、
　前記ニューラルネットワークモデルを用いて、マスク情報が予め知られている学習用の入力音響信号を所定次元の埋め込みベクトルに変換する変換部と、
　前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、マスク情報の推定結果を計算するマスク計算部と、
　前記マスク情報の推定結果と、前記予め知られているマスク情報との比較結果が所定の基準を満たすまで、前記ニューラルネットワークモデルのパラメータを更新するパラメータ更新部と、
　を有するモデル学習装置。
　入力音響信号から特定の音源の信号を抽出する音源分離装置であって、
　学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換する変換部と、
　前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を計算するマスク計算部と、
　前記マスク情報を用いて前記入力音響信号から特定の音源の信号を抽出する音源分離部と、
　を有する音源分離装置。
　入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するマスク推定装置が実行するマスク推定方法であって、
　学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換するステップと、
　前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記マスク情報を計算するステップと、
　を有するマスク推定方法。
　入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するために利用されるニューラルネットワークモデルを学習するモデル学習装置が実行するモデル学習方法であって、
　前記ニューラルネットワークモデルを用いて、マスク情報が予め知られている学習用の入力音響信号を所定次元の埋め込みベクトルに変換するステップと、
　前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、マスク情報の推定結果を計算するステップと、
　前記マスク情報の推定結果と、前記予め知られているマスク情報との比較結果が所定の基準を満たすまで、前記ニューラルネットワークモデルのパラメータを更新するステップと、
　を有するモデル学習方法。
　入力音響信号から特定の音源の信号を抽出する音源分離装置が実行する音源分離方法であって、
　学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換するステップと、
　前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を計算するステップと、
　前記マスク情報を用いて前記入力音響信号から特定の音源を抽出するステップと、
　を有する音源分離方法。
　請求項１乃至５のうちいずれか１項に記載の装置の各部としてコンピュータを機能させるためのプログラム。