WO2019171457A1

WO2019171457A1 - 音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体

Info

Publication number: WO2019171457A1
Application number: PCT/JP2018/008503
Authority: WO
Inventors: 孝文越仲; 鈴木　隆之; 薫鯉田
Original assignee: 日本電気株式会社
Priority date: 2018-03-06
Filing date: 2018-03-06
Publication date: 2019-09-12
Also published as: JP6992873B2; JPWO2019171457A1

Abstract

混合信号から個々の音源信号を精度良く分離することが可能な音源分離装置を提供する。音源分離装置（１）は、複数の音源信号が混合された混合信号を変換したスペクトログラムにおいて、時間周波数ビン毎に、特徴抽出の際に用いるパラメタが適用された特徴抽出器を用いて特徴ベクトルを抽出する特徴抽出手段（２）と、抽出された特徴ベクトルを複数のクラスタに分類するクラスタリング手段（３）と、分類された複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成する分離手段（４）と、観測された混合信号を含む学習用混合信号に基づいて、特徴抽出器のパラメタを更新するパラメタ更新手段（５）と、を備える。

Description

音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体

　本開示は、音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体に関する。

　複数の話者が同時に発した音声などの複数の音源信号を含む混合信号を個々の音源信号に分離する技術が検討されている。このような技術に関連し、特許文献１には、事前に学習された音源であって、第２音源の音響を含まない第１音源の音響の特徴を示す第１基底行列を記憶する音響処理装置が開示されている。音響処理装置は、第１基底行列を利用した非負値行列因子分解により、第１音源の音響と第２音源の音響との混合音を示す音響信号のスペクトルの時系列を示す観測行列から、第２基底行列と、第２係数行列とを生成する。そして、音響処理装置は、第１基底行列と第１係数行列とに応じた音響信号および第２基底行列と第２係数行列とを用いて、第１音源および第２音源の音響信号を生成する。

　また、上記技術に関連して、非特許文献１が開示されている。非特許文献１には、ある話者が発する音声を音源とし、複数の話者が同時に発した音声を個々の話者の音声に分離する音源分離方法が開示されている。音源分離方法は、単一チャネルの混合信号を受信し、受信した混合信号を時間－周波数表現(スペクトログラム)に変換し、深層ニューラルネットワークを用いて各々の時間－周波数ビンから特徴ベクトルを抽出する。そして、抽出した特徴ベクトルをクラスタリングすることにより時間－周波数ビンを目的の音源数(話者数)と同数のクラスタに分類し、クラスタごとに、そこに含まれる時間－周波数ビンから再構成されたスペクトログラムから話者ごとの音源信号を作成する。

　非特許文献１に開示された深層ニューラルネットワークは、事前のトレーニング（学習）によって用意される。学習に用いるデータは、様々な話者が話す音源信号を多数集めたものである。これらはすべて独立した音源信号であり、複数の話者が同時に話す混合信号ではない。非特許文献１では、まず、学習用データに短時間フーリエ変換を実施し、各音源信号をスペクトログラムに変換する。次に、２つの音源信号のスペクトログラムを重畳して混合信号のスペクトログラムを生成し、時間－周波数ビンごとに、いずれの話者に属するかを決定して話者ラベルを付与する。ここで、話者ラベルは、元になった個々の音源信号の振幅から決定する。すなわち、振幅の大きい方の話者に、その時間－周波数ビンが属するとする。続いて、その時点で得られている深層ニューラルネットワークを用いて各々の時間－周波数ビンから特徴ベクトルを抽出する。次に、話者ラベルとの整合性を測る尺度を算出する損失関数を計算し、その損失関数が減少するように、特徴抽出を行う深層ニューラルネットワークのパラメタを更新する。

特開２０１３－３３１９６号公報

J. R. Hershey, Z. Chen, J. Le Roux, and S. Watanabe, "Deep clustering: Discriminative embeddings for segmentation and separation," in Proc. of the 41st IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2016), Mar. 2016.

　特許文献１に開示された技術は、事前に学習された基準となる第１の音源を用いて、複数の音源が混合された混合信号から個々の音源を分離する。また、非特許文献１に開示された技術は、異なる２つ以上の音源信号を重畳して人工的に生成された混合信号を用いて、個々の音源を分離する。すなわち、特許文献１および非特許文献１において用いられる学習データは、実際に観測される混合信号とは異なる。

　ここで、実際の環境では、通常、ノイズや残響が存在するため、実際に観測される混合信号は、個々の音源信号のスペクトログラムを単純に重ね合わせたものとは異なる。その理由は、音源信号を重畳する際の振幅比は、マイクと話者の位置関係などに依存するため、実際に観測される混合信号は、すべての観測で一定になるとは限らないからである。また、会話では話者間のインタラクションがあるので、実際に観測される混合信号は、時間的にも一定になるとは限らないからである。そのため、学習に用いるデータが、実際に観測された混合信号ではないと、学習に用いるデータと、実際に観測された混合信号との間にミスマッチが発生する。学習に用いるデータと、実際に観測される混合信号と、の間にミスマッチが発生すると、適切な学習を行うことが出来ない。したがって、適切な学習が行われてないと、混合信号から個々の音源信号を精度良く分離することが出来ない。すなわち、上述した特許文献１および非特許文献１に開示された技術は、実際に観測された混合信号を学習用データとして用いていないため、実際に観測された混合信号に対して精度良く音源分離ができない。

　本開示の目的は、このような課題を解決するためになされたものであり、混合信号から個々の音源信号を精度良く分離することが可能な、音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体を提供することにある。

　本開示にかかる音源分離装置は、複数の音源信号が混合された混合信号を変換したスペクトログラムにおいて、時間周波数ビン毎に、特徴抽出の際に用いるパラメタが適用された特徴抽出器を用いて特徴ベクトルを抽出する特徴抽出手段と、抽出された前記特徴ベクトルを複数のクラスタに分類するクラスタリング手段と、分類された前記複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成する分離手段と、観測された混合信号を含む学習用混合信号に基づいて、前記パラメタを更新するパラメタ更新手段と、を備える。

　また、本開示にかかる音源分離方法は、複数の音源信号が混合された混合信号を変換したスペクトログラムにおいて、時間周波数ビン毎に、特徴抽出の際に用いるパラメタが適用された特徴抽出器を用いて特徴ベクトルを抽出することと、抽出された前記特徴ベクトルを複数のクラスタに分類することと、分類された前記複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成することと、観測された混合信号を含む学習用混合信号に基づいて、前記パラメタを更新することと、を含む音源分離方法である。

　また、本開示にかかる非一時的なコンピュータ可読媒体は、複数の音源信号が混合された混合信号を変換したスペクトログラムにおいて、時間周波数ビン毎に、特徴抽出の際に用いるパラメタが適用された特徴抽出器を用いて特徴ベクトルを抽出することと、抽出された前記特徴ベクトルを複数のクラスタに分類することと、分類された前記複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成することと、観測された混合信号を含む学習用混合信号に基づいて、前記パラメタを更新することと、をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体である。

　本開示によれば、混合信号から個々の音源信号を精度良く分離することが可能な、音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体を提供できる。

本開示の実施の形態にかかる音源分離装置１の概要を示す図である。実施の形態１にかかる音源分離装置の構成例を示す構成図である。関連技術における音源ラベルを説明する図である。実施の形態１における音源ラベルを説明する図である。実施の形態１にかかる音源分離装置の動作例を示すフローチャートである。実施の形態１にかかる音源分離装置の動作例を示すフローチャートである。実施の形態１にかかる音源分離装置の動作例を示すフローチャートである。実施の形態２にかかる音源分離装置の構成例を示す構成図である。その他の実施の形態にかかる音源分離装置の構成例を示す図である。

（実施の形態の概要）
　本開示の実施形態の説明に先立って、実施の形態の概要について説明する。図１は、本開示の実施の形態にかかる音源分離装置１の概要を示す図である。

　音源分離装置１は、特徴抽出手段として機能する特徴抽出部２と、クラスタリング手段として機能するクラスタリング部３と、分離手段として機能する分離部４と、パラメタ更新手段として機能するパラメタ更新部５と、を備える。

　特徴抽出部２は、複数の音源信号が混合された混合信号を変換したスペクトログラムにおいて、時間周波数ビン毎に、特徴抽出の際に用いるパラメタが適用された特徴抽出器を用いて特徴ベクトルを抽出する。

　クラスタリング部３は、抽出された特徴ベクトルを複数のクラスタに分類する。
　分離部４は、分類された複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成する。
　パラメタ更新部５は、観測された混合信号を含む学習用混合信号に基づいて、前記パラメタを更新する。

　実施の形態にかかる音源分離装置１は、学習用混合信号として、複数の音源信号を人工的に重畳した混合信号ではなく、実際に観測される混合信号を用いる。そのため、音源分離装置１を用いることにより、個々の音源信号に分離する混合信号に対して最適な特徴ベクトルを取得することが出来るので、混合信号を正確に個々の音源信号に分離することが可能となる。したがって、実施の形態にかかる音源分離装置１を用いることにより、混合信号から個々の音源信号を精度良く分離することが可能となる。

　なお、音源分離装置１における音源分離方法を用いても、混合信号から個々の音源信号を精度良く分離することが可能となる。さらに、音源分離方法を実行可能なプログラムを用いても、混合信号から個々の音源信号を精度良く分離することが可能となる。

（実施の形態１）
　以下、図面を参照して、本開示の実施の形態について説明する。
　＜音源分離装置の構成例＞
　まず、図２を用いて、実施の形態１にかかる音源分離装置１０の構成例を説明する。図２は、実施の形態１にかかる音源分離装置の構成例を示す構成図である。

　音源分離装置１０は、例えば、サーバ装置、パーソナルコンピュータ装置等のコンピュータであってもよい。音源分離装置１０は、学習用混合信号記憶部１１と、学習用ラベルデータ記憶部１２と、特徴抽出器学習部１３と、音源分離部１４と、を備える。学習用混合信号記憶部１１、学習用ラベルデータ記憶部１２、特徴抽出器学習部１３および音源分離部１４は、それぞれ、学習用混合信号記憶手段、学習用ラベルデータ記憶手段、特徴抽出器学習手段および音源分離手段として機能する。

　学習用混合信号記憶部１１は、実際に観測された混合信号であって、予め取得された混合信号を学習用データとして記憶する。学習用混合信号は、複数の音源から発せれる信号であって、例えば、複数の話者が話す音声をモノラル（単一チャネル）録音したオーディオデータである。本実施の形態では、学習用混合信号は、非特許文献１として示した関連技術における学習用混合信号のように、複数の音源を人工的に重畳された混合信号ではなく、実際に観測された混合信号である。混合信号は、例えば、サンプリング周波数が８ｋＨｚ、サンプルサイズが１６ｂｉｔ、圧縮されていない線形ＰＣＭ（Pulse Code Modulation）であってもよい。なお、混合信号の形式は、上記内容には限定されず、他の形式であってもよい。

　学習用ラベルデータ記憶部１２は、学習用混合信号記憶部１１に記憶された混合信号を予め分析して決定された、各音源信号の時間区間を表すラベルデータを記憶する。具体的には、ラベルデータは、各混合信号において、各音源がどの時間区間に含まれるかを示すデータであって、例えば、音源種別、時間区間の始端および終端が関連付けられて設定されるデータである。例えば、ある混合信号において、Ｏ分ｏ秒からＰ分ｐ秒まで話者Ａの音源が含まれていると分析された場合、ラベルデータは、音源種別：話者Ａ、始端：Ｏ分ｏ秒、終端：Ｐ分ｐ秒のように、音源種別、時間区間の始端および終端が関連付けられて設定される。なお、当然ながら、上記したラベルデータは、一例であるので、他の情報が設定されていてもよい。

　特徴抽出器学習部１３は、特徴抽出器に適用された特徴抽出の際に用いるパラメタを示す特徴抽出パラメタを学習する。特徴抽出器は、ニューラルネットワークであってもよいし、他のアルゴリズムが用いられてもよい。以降の説明において、特徴抽出器はニューラルネットワークであるとして記載することがある。
　音源分離部１４は、複数の音源が混合された混合信号を特徴抽出器であるニューラルネットワークを用いて個々の音源信号に分離する。

　続いて、特徴抽出器学習部１３および音源分離部１４の詳細について説明する。
　特徴抽出器学習部１３は、特徴抽出部１０１と、特徴抽出パラメタ記憶部１０２と、パラメタ更新部１０３と、教師付き損失関数算出部１０４と、教師なし損失関数算出部１０５と、を備える。特徴抽出部１０１、特徴抽出パラメタ記憶部１０２およびパラメタ更新部１０３は、それぞれ、特徴抽出手段、特徴抽出パラメタ記憶手段、パラメタ更新手段として機能する。また、教師付き損失関数算出部１０４および教師なし損失関数算出部１０５は、それぞれ、教師付き損失関する算出手段および教師なし損失関数算出手段として機能する。特徴抽出部１０１および特徴抽出パラメタ記憶部１０２は、音源分離部１４と共有する機能部である。

　特徴抽出部１０１は、実施の形態の概要における特徴抽出部２に対応する。特徴抽出部１０１は、学習用混合信号記憶部１１に記憶された全ての混合信号を取得する。特徴抽出部１０１は、取得した各混合信号に短時間フーリエ変換（ＳＴＦＴ：Short-Term Fourier Transform）を適用して時間－周波数表現(スペクトログラム)に変換する。また、特徴抽出部１０１は、個々の音源信号に分離を行う判定対象の混合信号に対しても同様に、短時間フーリエ変換を適用してスペクトログラムに変換する。

　また、特徴抽出部１０１は、特徴抽出パラメタ記憶部１０２に記憶された特徴抽出器（ニューラルネットワーク）に適用される特徴抽出パラメタを取得する。特徴抽出部１０１は、混合信号から変換されたスペクトログラムを所定数の時間－周波数ビンに分割し、各時間－周波数ビンに対応する部分スペクトログラムをニューラルネットワークに入力する。そして、特徴抽出部１０１は、ニューラルネットワークから出力される結果を特徴ベクトルとする。

　なお、本開示において、特徴抽出部１０１が分割した時間－周波数ビンを（ｔ，ｆ）として表し、時間－周波数ビン（ｔ，ｆ）に対応する部分スペクトログラムをｘ（ｔ，ｆ）として表し、特徴ベクトルをｖ_ｔ，ｆとして表すとする。また、本開示において、時間－周波数ビンを時間周波数ビンとして記載することがある。

　例えば、混合信号の形式が、サンプリング周波数が８ｋＨｚであり、サンプルサイズが１６ｂｉｔであり、圧縮されていない線形ＰＣＭであるとする。そうすると、短時間フーリエ変換により得られるスペクトログラムは、混合信号を、例えば、１フレームにつき窓幅が３２ｍｓｅｃ（２５６点）でのフーリエ変換を８ｍｓｅｃ（６４点）毎にずらしながら変換することにより取得される。この場合、周波数方向の解像度は３１．２５Ｈｚ（８ｋＨｚで２５６点）となり、時間－周波数ビンの個数は時間方向に毎秒１２５、周波数方向に２５６となる。時間－周波数ビン（ｔ，ｆ）に対して、特徴ベクトルｖ_ｔ，ｆを得る際、（ｔ，ｆ）を含む前後のコンテキストを考慮するのが有効である。例えば、ｔを含む１００フレーム分のビンをまとめた１００次元ベクトルを入力ｘ_ｔ，ｆとしてニューラルネットワークに与える。ニューラルネットワークの出力ｖ_ｔ，ｆは、通常は入力よりも低次元とし、例えば、入力が１００次元である場合、出力は５０次元程度に設定してもよい。

　特徴抽出パラメタ記憶部１０２は、特徴抽出部１０１が特徴ベクトルを抽出する際に用いる特徴抽出パラメタを記憶する。具体的には、特徴抽出パラメタ記憶部１０２は、後述するパラメタ更新部１０３が決定した特徴抽出パラメタを記憶する。特徴抽出パラメタ記憶部１０２は、特徴抽出パラメタが未定の初期段階においては、パラメタ更新部１０３が乱数を発生（生成）する等の処理を行い初期化された特徴抽出パラメタを記憶する。

　パラメタ更新部１０３は、実施の形態の概要におけるパラメタ更新部５に対応する。パラメタ更新部１０３は、ニューラルネットワークに適用される特徴抽出パラメタを学習用データである学習混合信号に基づいて更新する。

　パラメタ更新部１０３は、特徴抽出部１０１が抽出した特徴ベクトルおよび特徴抽出パラメタ記憶部１０２に記憶された特徴抽出パラメタを取得する。パラメタ更新部１０３は、取得した情報を、後述する教師付き損失関数算出部１０４および教師なし損失関数算出部１０５に出力する。パラメタ更新部１０３は、教師付き損失関数算出部１０４および教師なし損失関数算出部１０５によって定まる評価基準を用いて、特徴抽出部１０１が抽出した特徴ベクトルを評価する。パラメタ更新部１０３は、特徴ベクトルの評価結果に基づいて、より良い特徴ベクトルが生成されるように特徴抽出パラメタを決定し、決定した特徴抽出パラメタに更新する。

　パラメタ更新部１０３は、特徴抽出パラメタを決定（更新）する際、例えば、誤差逆伝搬法（Error backpropagation）等の、ニューラルネットワークの学習において用いられる反復解法を適用して特徴抽出パラメタを決定する。パラメタ更新部１０３は、決定した特徴抽出パラメタを特徴抽出パラメタ記憶部１０２に記憶し、決定した特徴抽出パラメタがニューラルネットワークに適用されるように更新する。すなわち、パラメタ更新部１０３は、特徴抽出パラメタを決定する際に用いる評価基準を、数学的に規定される評価関数を示す損失関数として定義する。そして、パラメタ更新部１０３は、その損失関数が最小化されるように、例えば、確率的勾配降下法(ＳＧＤ：Stochastic Gradient Descent)等の数値的手法を用いて、特徴抽出パラメタを反復的に決定し、特徴抽出パラメタを更新する。

　パラメタ更新部１０３は、ニューラルネットワークの特徴抽出パラメタに関する評価関数を示す損失関数を以下の式（１１）のように定義する。具体的には、パラメタ更新部１０３は、特徴抽出パラメタに関する評価関数を、第１の評価関数を示す教師付き（Supervised）損失関数と、第２の評価関数を示す教師なし（Unsupervised）損失関数と、を用いて定義する。

ここで、θは特徴抽出パラメタであり、Ｌ_θ ^（Ｓ）は教師付き損失関数であり、Ｌ_θ ^（Ｕ）は教師なし損失関数であり、λは重み係数である。また、Ｘは学習用データから得られる全てのスペクトログラムの集合であり、ＶはＸから得られる全ての特徴ベクトルの集合である。さらに、Ｙ＝（ｙ_ｔ，ｆ）は特徴ベクトルｖ_ｔ，ｆに対応する時間－周波数ビン（ｔ，ｆ）がどの音源に対応するかを表現した音源ラベルである。例えば、音源が話者である場合、ｙ_ｔ，ｆは話者を一意に特定する話者ラベルとなる。

　例えば、ある混合信号に２人の話者が含まれており、時間－周波数ビン（ｔ，ｆ）に、第１の話者の音声が、第２の話者よりも強く含まれていたとすると、ｙ_ｔ，ｆは２次元ベクトル（１，０）となる。一方、時間－周波数ビン（ｔ，ｆ）に、第２の話者の音声が第１の話者よりも強く含まれていたとすると、ｙ_ｔ，ｆは２次元ベクトル（０，１）となる。このように、Ｎ人の話者（つまり、Ｎ個の音源）が含まれる場合、これらのベクトルはＮ次元となり、Ｎ次元のベクトルのうち、ただ１つの要素が１となり、その他の（Ｎ－１）の要素は０となる。

　教師付き損失関数算出部１０４は、式（１１）における教師付き損失関数を計算する。上述したように、教師付き損失関数は、第１の評価関数と言えるので、教師付き損失関数算出部１０４は、第１の算出手段とも言える。また、教師付き損失関数算出部１０４は、第１の評価関数を示す教師付き損失関数を用いて、第１の評価値を算出するとも言える。

　教師付き損失関数算出部１０４は、学習用ラベルデータ記憶部１２に記憶されたラベルデータを取得し、音源ラベルｙ_ｔ，ｆを生成する。教師付き損失関数算出部１０４は、単一の音源のみが存在する時間区間に含まれる時間－周波数ビンに対して音源ラベルを設定する。一方、教師付き損失関数算出部１０４は、複数の音源が混在する時間区間に含まれる時間－周波数ビンに対して音源ラベルを設定しない。

　また、教師付き損失関数算出部１０４は、パラメタ更新部１０３から特徴ベクトルｖ_ｔ，ｆを取得し、式（１１）における右辺第１項である教師付き損失関数Ｌ_θ ^（Ｓ）を計算してパラメタ更新部１０３に計算結果を出力する。なお、教師付き損失関数Ｌ_θ ^（Ｓ）の詳細および音源ラベルについては後述する。

　教師なし損失関数算出部１０５は、式（１１）における教師なし損失関数を計算する。上述したように、教師なし損失関数は、第２の評価関数と言えるので、教師なし損失関数算出部１０５は、第２の算出手段とも言える。また、教師なし損失関数算出部１０５は、第２の評価関数を示す教師なし損失関数を用いて、第２の評価値を算出するとも言える。

　教師なし損失関数算出部１０５は、パラメタ更新部１０３から特徴ベクトルｖ_ｔ，ｆを取得すると共に、教師付き損失関数算出部１０４から音源ラベルｙ_ｔ，ｆを取得する。教師なし損失関数算出部１０５は、式（１１）における右辺第２項である教師なし損失関数Ｌ_θ ^（Ｕ）を計算してパラメタ更新部１０３に計算結果を出力する。

　特徴抽出部１０１、パラメタ更新部１０３、教師付き損失関数算出部１０４および教師なし損失関数算出部１０５は、相互に作用しつつ反復的に動作し、特徴抽出パラメタ記憶部１０２に記憶された特徴抽出パラメタを逐次的に更新する。特徴抽出部１０１、パラメタ更新部１０３、教師付き損失関数算出部１０４および教師なし損失関数算出部１０５は、特徴抽出パラメタが収束するように、特徴抽出パラメタを十分な回数分更新する。そして、特徴抽出パラメタが収束すると、最終的な特徴抽出パラメタが、特徴抽出パラメタ記憶部１０２に記憶される。

　ここで、上記式（１１）に含まれる、教師付き損失関数および教師なし損失関数の詳細を説明する。
　教師付き損失関数Ｌ_θ ^（Ｓ）は、以下の式（１２）のように定義される。教師付き損失関数Ｌ_θ ^（Ｓ）は、音源ラベルが設定された時間－周波数ビンから抽出された特徴ベクトルＶ＝（ｖ_ｔ，ｆ）に関する損失を表す関数である。

ここで、ＶＶ^Ｔは特徴ベクトルｖ_ｔ，ｆの全てのペアに関する余弦類似度（正規化された内積）を要素に持つ行列であり、ＹＹ^Ｔは音源ラベルｙ_ｔ，ｆの全てのペアに関する内積をもつ行列となる。ＶＶ^ＴおよびＹＹ^Ｔは、時間－周波数ビン（ｔ，ｆ）と（ｔ’，ｆ’）が同じ音源クラスに属している場合、１となり、同じ音源クラスに属していない場合、０となる。また、||・||_Ｆは、フロベニウスノルムであり、行列の全ての要素の自乗和の平方根を表す。すなわち、同じ音源クラスに属する特徴ベクトルのペアの余弦類似度が１に近く、同じ音源クラスに属さない特徴ベクトルのペアの余弦類似度が０に近くなるほど、式（１２）の損失関数は小さくなる。この場合、教師付き損失関数Ｌ_θ ^（Ｓ）は、特徴抽出パラメタθは、音源クラスをよく表す特徴ベクトルＶを抽出出来ていると言える。

　音源クラスとは、混合信号に含まれる個々の音源を示す情報である。例えば、混合信号に話者Ａおよび話者Ｂの音源が含まれる場合、話者Ａの音源が第１の音源クラスとなり、話者Ｂの音源が第２の音源クラスとなる。

　ここで、図３および図４を用いて、教師付き損失関数算出部１０４が設定する音源ラベルについて、非特許文献１のような関連技術における音源ラベルとの違いを説明する。図３は、関連技術における音源ラベルを説明する図である。図４は、実施の形態１における音源ラベルを説明する図である。

　非特許文献１のような関連技術においては、全ての時間－周波数ビンｙ_ｔ，ｆは既知であるとして仮定される。上述したように、非特許文献１においては、複数の音源信号を重畳して人工的に混合信号を生成しているので、損失関数は上記式（１２）のみで定義される。非特許文献１のような関連技術においては、個々の音源信号の時間－周波数ビン（ｔ，ｆ）の振幅は既知であるので、振幅が最大となる音源信号を求めることにより、全ての時間－周波数ビン（ｔ，ｆ）に対して音源ラベルを設定することが出来る。

　図３は、非特許文献１において、時間－周波数ビンに設定された音源ラベルの一例を示している。図３は、２人の話者を音源とした音源信号が混合された混合信号をスペクトログラムに変換し、各時間－周波数ビンに対して音源ラベルが設定されていることを示している。図３に示すように、非特許文献１においては、複数の音源信号を重畳して人工的に混合信号を生成しているので、各時間－周波数ビン（ｔ，ｆ）に対して、話者Ａまたは話者Ｂの音源ラベルが設定されている。

　一方、本実施の形態においては、全ての時間－周波数ビンのうち、一部の時間－周波数ビンの音源ラベルｙ_ｔ，ｆは未知であると仮定した上で、所定条件を満たす時間－周波数ビンに対して音源ラベルが設定される。本実施の形態では、上述した関連技術とは異なり、実際に観測された混合信号を変換したスペクトログラムに対して音声ラベルが付与される。図４は、図３と同様に２人の話者を音源とした混合信号に対して、音源ラベルを設定した一例である。図４に示すように、混合信号のうち、話者Ａまたは話者Ｂの音源のみが含まれる時間区間に含まれる時間－周波数ビンに対して音源ラベルが設定される。換言すると、混合信号のうち、単一の音源のみが含まれる時間区間における時間－周波数ビンに対して音源ラベルが設定される。

　なお、音源ラベルは、上述したように、学習用ラベルデータ記憶部１２に記憶されたラベルデータに基づいて、教師付き損失関数算出部１０４により設定される。例えば、混合信号に話者Ａおよび話者Ｂの音源が含まれているとすると、ラベルデータには、話者Ａの音源が含まれる時間区間の始端および終端が設定されている。同様に、話者Ｂの音源が含まれる時間区間の始端および終端が設定されている。教師付き損失関数算出部１０４は、ラベルデータを参照することにより、どの時間区間にどの話者の音源が含まれているかを判断することが出来るので、ラベルデータに基づいて、音源ラベルを設定することが出来る。

　図４は、時間領域において、前から８番目までの時間－周波数ビンに対しては話者Ａの音源ラベルが設定されていることを示している。同様に、時間領域において、前から１１番目～１６番目の時間－周波数ビンに対しては話者Ｂの音源ラベルが設定されていることを示している。一方、複数の音源が混在する時間－周波数ビンに対しては、複数の音源が含まれており、いずれの音源であるかが分からないため、音源ラベルが未知であるとして、音源ラベルを設定しない。図４に示すように、時間領域において、前から９番目および１０番目の時間－周波数ビンに対しては、話者Ａおよび話者Ｂの音源が混在していることから音源ラベルを未知として音源ラベルを設定しない。その理由は、実際に観測された混合信号に対して、各音源信号の時間区間の始終端は比較的容易に設定することができるのに対して、各音源信号の全ての時間－周波数ビンに対して音源ラベルを付与することは、ほぼ不可能であるからである。したがって、本実施の形態において、教師付き損失関数算出部１０４は、全ての時間－周波数ビンのうち、単一の音源のみが存在する時間区間に含まれる時間－周波数ビンに音源ラベルを設定する。また、教師付き損失関数算出部１０４は、複数の音源が混在する時間区間に含まれる時間－周波数ビンには音源ラベルを設定しない。

　なお、混合信号において振幅が十分小さい時間－周波数ビンについては、音源ラベルとは異なる特殊なラベルを示す「音源なし」を付与してもよい。この特殊なラベルは、簡単な信号処理によって自動的に付与することができる。なお、本開示においては、特殊なラベルは音源ラベルには含まれないこととする。

　上述したように、本実施の形態においては、音源ラベルを設定することが出来ない時間－周波数ビンが含まれることとなる。そのため、音源ラベルが設定されていない時間－周波数ビンから抽出された特徴ベクトルに対する損失関数を定義する必要がある。

　そこで、本実施の形態においては、教師なし損失関数算出部１０５を備え、教師なし損失関数を以下の式（１３）のように定義する。すなわち、本実施の形態では、図４における音源ラベルが設定されない音源ラベル未知の時間－周波数ビンに関する損失関数を定義する。以下に示す式（１３）を用いることにより、音源ラベルが設定されない音源ラベルが未知の時間－周波数ビンが、どの音源に含まれるかを決定する。

ここで、ｙ_ｔ，ｆ＝ＮＵＬＬは音源ラベルが設定されていない時間－周波数ビンを表し、γ_{ｔ，ｆ，ｉ}は音源クラスｉに対する特徴ベクトルｖ_ｔ，ｆの帰属率であり、ｃは音源クラス数である。また、μ_ｉは音源クラスｉに属する時間－周波数ビン（ｔ，ｆ）にわたる特徴ベクトルｖ_ｔ，ｆの平均である。音源クラスｉに対する特徴ベクトルｖ_ｔ，ｆの帰属率は、どの音源に帰属するかを示す指標値である。また、音源クラス数は、ラベルデータより決定することが出来る。

　μ_ｉは、以下の式（１４）に従って計算される。

　ここで、帰属率γ_{ｔ，ｆ，ｉ}は、例えば、ｉ＝ａｒｇｍｉｎ_ｊ｜ｖ_ｔ，ｆ―μ_ｊ｜が成り立つ場合、γ_{ｔ，ｆ，ｉ}＝１となり、そうではない場合、γ_{ｔ，ｆ，ｉ}＝０となるような、最近傍法に基づく離散的な帰属率を定義することができる。

　式（１３）および式（１４）、および離散的な帰属率による教師なし損失関数は、上述した内容から明らかなように、ユークリッド距離に基づき特徴ベクトルを一意なクラスタに分類するハードクラスタリングの一形態である。教師なし損失関数は、特に、音源クラスが既知および未知の特徴ベクトルを含んだ準教師付きハードクラスタリングである。換言すると、教師なし損失関数算出部１０５は、ハードクラスタリングに基づく損失関数を計算すると言える。

　なお、上述した教師なし損失関数は、一例であるので、これには限定されない。例えば、特徴ベクトルの近さをユークリッド距離（Ｌ２ノルム）で測るのではなく、マンハッタン距離（Ｌ１ノルム）、またはＬｐノルムや余弦類似度などの類似度尺度で測ることも可能である。特に、余弦類似度は、式（１２）の教師付き損失関数との整合性が高く好適である。

　また、帰属率γ_{ｔ，ｆ，ｉ}は連続的でもよく、例えば、ガウス混合分布を仮定したソフトクラスタリングに基づいてγ_{ｔ，ｆ，ｉ}およびμ_ｉを定義してもよい。一般にクラスタリングでは、あらゆる類似度尺度と損失関数とを定義できるので、本実施の形態の教師なし損失関数も同様に定義してもよい。さらに、音源ラベルが付与できない音源ラベルが未知の時間－周波数ビンに対して、音源ラベルが付与できる音源ラベルが既知である時間－周波数ビンに比べて十分に少ない場合、上記式（１４）の右辺の分子および分母の第２項は無視することが出来る。すなわち、上記式（１４）において、音源ラベルが付与されていない特徴ベクトルに関する項は無視することが可能である。

　図２に戻り、音源分離部１４について説明する。音源分離部１４は、特徴抽出器であるニューラルネットワークを用いて混合信号を個々の音源信号に分離する。音源分離部１４は、特徴抽出部１０１と、特徴抽出パラメタ記憶部１０２と、クラスタリング部１０６と、分離部１０７と、を備える。クラスタリング部１０６および分離部１０７は、それぞれクラスタリング手段および分離手段として機能する。また、特徴抽出部１０１および特徴抽出パラメタ記憶部１０２は、特徴抽出器学習部１３と共有する機能部である。

　特徴抽出部１０１は、特徴抽出器学習部１３における構成と同様に、混合信号を取得して、混合信号をスペクトログラムＸに変換し、部分スペクトログラムｘ_ｔ，ｆから特徴ベクトルｖ_ｔ，ｆを生成する。

　クラスタリング部１０６は、実施の形態の概要におけるクラスタリング部３に対応する。クラスタリング部１０６は、例えば、Ｋ平均法(K-means)、平均シフト法(Mean-shift)、最短／最長距離法、ウォード法等のうち、いずれかのアルゴリズムを適用して、特徴ベクトルｖ_ｔ，ｆを複数のクラスタに分類する。

　分離部１０７は、実施の形態の概要における分離部４に対応する。分離部１０７は、クラスタリング部１０６により分類された複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成する。具体的には、分離部１０７は、クラスタリング部１０６が分類したクラスタ毎に、各クラスタに含まれる時間－周波数ビン（ｔ，ｆ）のみから再構成されたスペクトログラムに逆フーリエ変換を実施し、個々の音源信号を生成する。

　＜音源分離装置の動作例＞
　続いて、図５～図７を用いて、音源分離装置１０の動作例を説明する。図５～図７は、実施の形態１にかかる音源分離装置の動作例を示すフローチャートである。

　まず、図５を用いて、音源分離装置１０の全体動作について説明する。図５に示すように、音源分離装置１０は、特徴抽出器学習処理（ステップＡ１）および音源分離処理（ステップＡ２）を実行する。

　具体的には、音源分離装置１０は、特徴抽出器学習処理において、実際に観測された混合信号を用いて、特徴抽出器であるニューラルネットワークの特徴抽出パラメタを学習する（ステップＡ１）。

　次に、音源分離装置１０は、音源分離処理において、ステップＡ１において決定された特徴抽出パラメタが適用された特徴抽出器を用いて、混合信号を個々の音源信号に分離する（ステップＡ２）。

　続いて、図６を用いて、特徴抽出器学習処理について説明する。図６に示すフローチャートは、図５のステップＡ１において実行されるフローチャートであり、特徴抽出器学習部１３が実行する。なお、以下に示す動作は、非特許文献１に開示された動作と明確に異なる。

　まず、特徴抽出部１０１は、学習用混合信号記憶部１１に記憶された混合信号を順次取得して、短時間フーリエ変換を実行し、スペクトログラムに変換する(ステップＢ１)。

　次に、特徴抽出部１０１は、特徴抽出パラメタ記憶部１０２に記憶された特徴抽出パラメタを取得する。特徴抽出部１０１は、取得したパラメタが適用された特徴抽出器であるニューラルネットワークを用いて、変換されたスペクトログラムにおける各時間－周波数ビン（ｔ，ｆ）から特徴ベクトルｖ_ｔ，ｆを抽出する(ステップＢ２)。

　なお、特徴抽出パラメタが未定の初期の段階では、図示しない初期化ステップにおいて、パラメタ更新部１０３が乱数を発生させる等の動作を行い、特徴抽出パラメタを初期化して、予め特徴抽出パラメタ記憶部１０２に出力しておく。

　次に、パラメタ更新部１０３は、特徴抽出部１０１が抽出した特徴ベクトルを特徴抽出部１０１から取得し、特徴ベクトルの良し悪しを測る尺度である損失関数を式（１１）に基づいて計算する。具体的には、パラメタ更新部１０３は、損失関数を後述するステップＢ３およびステップＢ４において計算された算出結果を用いて、式（１１）に示した損失関数を計算する。

　ステップＢ３において、教師付き損失関数算出部１０４は、式（１２）に示した教師付き損失関数を計算する（ステップＢ３）。具体的には、教師付き損失関数算出部１０４は、特徴抽出部１０１が抽出した特徴ベクトルを、パラメタ更新部１０３を介して取得する。また、教師付き損失関数算出部１０４は、学習用ラベルデータ記憶部１２に記憶された、各音源の時間区間を表すラベルデータを取得する。教師付き損失関数算出部１０４は、取得したラベルデータに基づいて、各音源の時間－周波数ビンのうち、単一の音源のみが存在する時間区間における時間－周波数ビンに音源ラベルを設定する。そして、教師付き損失関数算出部１０４は、音源ラベルが設定された時間－周波数ビンに関して、式（１２）に基づいて教師付き損失関数を計算する。

　ステップＢ４において、教師なし損失関数算出部１０５は、式（１３）に示した教師なし損失関数を計算する（ステップＢ４）。具体的には、教師なし損失関数算出部１０５は、特徴抽出部１０１が抽出した特徴ベクトルを、パラメタ更新部１０３を介して取得する。また、教師なし損失関数算出部１０５は、教師付き損失関数算出部１０４が設定した音源ラベルを取得する。教師なし損失関数算出部１０５は、音源ラベルが設定されていない時間－周波数ビンに関して、式（１３）および式（１４）に基づいて教師なし損失関数を計算する。

　パラメタ更新部１０３は、式（１１）に示した損失関数の算出結果に基づいて、特徴抽出パラメタを更新する（ステップＢ５）。具体的には、パラメタ更新部１０３は、ステップＢ３において算出された教師付き損失関数の算出結果、およびステップＢ４において算出された教師なし損失関数の算出結果を用いて、式（１１）で示す損失関数を計算する。パラメタ更新部１０３は、式（１１）で示した損失関数の算出結果が減少するように、特徴抽出パラメタを決定する。そして、パラメタ更新部１０３は、決定した特徴抽出パラメタを特徴抽出パラメタ記憶部１０２に記憶し、特徴抽出パラメタを更新する。

　次に、パラメタ更新部１０３は、例えば、式（１１）で示した損失関数の算出結果の減少傾向がなくなるなど、予め定められた収束条件を満たしているかを判定する（ステップＢ６）。なお、パラメタ更新部１０３は、ステップＢ６において、ステップＢ２からステップＢ５の処理が、所定回数分実施されたかを判定してもよい。

　ステップＢ６において、パラメタ更新部１０３は、予め定められた収束条件を満たしていると判定すると（ステップＢ６のＹＥＳ）、処理を終了する。
　一方、パラメタ更新部１０３は、予め定められた収束条件を満たしていないと判定すると（ステップＢ６のＮＯ）、ステップＢ２に戻り、ステップＢ２以降の処理を再度行う。

　続いて、図７を用いて、音源分離処理について説明する。図７に示すフローチャートは、図５のステップＡ２において実行されるフローチャートであり、音源分離部１４が実行する。

　まず、特徴抽出部１０１は、個々の音源信号に分離する判定対象の混合信号に、短時間フーリエ変換を実施してスペクトログラムに変換する（ステップＣ１）。判定対象の混合信号は、音源分離装置１０が図示しないマイクにより観測した混合信号であってもよいし、予め録音等され、記憶された混合信号であってもよい。

　次に、特徴抽出部１０１は、特徴抽出パラメタ記憶部１０２に記憶された特徴抽出パラメタを取得する。特徴抽出部１０１は、取得した特徴抽出パラメタが適用された特徴抽出器であるニューラルネットワークを用いて、変換されたスペクトログラムにおける各時間－周波数ビン（ｔ，ｆ）から特徴ベクトルｖ_ｔ，ｆを抽出する(ステップＣ２)。

　次に、クラスタリング部１０６は、特徴抽出部１０１が抽出した特徴ベクトルｖ_ｔ，ｆをクラスタリングする（ステップＣ３）。具体的には、クラスタリング部１０６は、特徴抽出部１０１が抽出した特徴ベクトルｖ_ｔ，ｆをクラスタリングすることにより、時間－周波数ビンを、混合信号に含まれると想定される音源数と同数のクラスタに分類する。

　なお、クラスタリング部１０６は、例えば、Ｋ平均法(K-means)、平均シフト法(Mean-shift)、最短／最長距離法、ウォード法等のうち、いずれかのアルゴリズムを適用してクラスタリングを行ってもよい。また、クラスタリング部１０６は、特徴ベクトルｖ_ｔ，ｆを分類するクラスタ数を、例えば、「２人の話者の会話である」などの事前情報がある場合、当該事前情報に従って定めてもよい。もしくは、クラスタリング部１０６は、上記事前情報がない場合、上記のうちのいずれかのアルゴリズムが提供するクラスタ数の決定法を利用してもよい。

　次に、分離部１０７は、分類された複数のクラスタの各々に含まれる時間－周波数ビンから再構成されたスペクトログラムに逆フーリエ変換を実施し、分類されたクラスタ毎に単一の音源に分離された音源信号を生成し出力する(ステップＣ４)。

　以上説明したように、本実施の形態にかかる音源分離装置１０は、実際に観測された混合信号と、それに付与された各音源の時間区間のラベルデータと、を用いて、特徴抽出器の特徴抽出パラメタを決定する。また、本実施の形態にかかる音源分離装置１０は、特徴抽出パラメタを決定する際、教師付き損失関数および教師なし損失関数の２つの損失関数を含む損失関数を用いて、各損失関数の算出結果の和が最小化される特徴抽出パラメタに更新する。したがって、本実施の形態にかかる音源分離装置１０を用いることにより、人工的に作られた混合信号ではなく、実際に観測される混合信号に対して最適な特徴抽出器を獲得して、混合信号を正確に個々の音源信号に分離できる。すなわち、本実施の形態にかかる音源分離装置１０を用いることにより、混合信号から個々の音源信号を精度良く分離することが可能となる。

（実施の形態２）
　続いて、実施の形態２について説明する。
　＜音源分離装置の構成例＞
　図８を用いて、実施の形態２にかかる音源分離装置８０について説明する。図８は、実施の形態２にかかる音源分離装置の構成例を示す構成図である。図８に示す様に、本実施の形態にかかる音源分離装置８０は、音源分離用プログラム８１と、データ処理装置８２と、記憶装置８３とを備える。また、記憶装置８３には、特徴抽出パラメタ記憶領域８３１と、学習用混合信号記憶領域８３２と、学習用ラベルデータ記憶領域８３３と、を備える。なお、本実施の形態は、実施の形態１における特徴抽出器学習部１３および音源分離部１４をプログラムにより動作されるコンピュータにより実現した場合の構成例である。

　音源分離用プログラム８１は、データ処理装置８２に読み込まれ、データ処理装置８２の動作を制御する。なお、音源分離用プログラム８１には、実施の形態１における特徴抽出器学習部１３および音源分離部１４の動作がプログラム言語を用いて記述されている。

　具体的には、データ処理装置８２は、音源分離用プログラム８１の制御により、実施の形態１における特徴抽出器学習部１３および音源分離部１４の処理と同一の処理を実行する。すなわち、データ処理装置８２は、記憶装置８３内の特徴抽出パラメタ記憶領域８３１、学習用混合信号記憶領域８３２および学習用ラベルデータ記憶領域８３３にそれぞれ記憶された特徴抽出パラメタ、学習用混合信号、学習用ラベルデータを取得する。そして、データ処理装置８２は、実施の形態１における実施の形態１における特徴抽出器学習部１３および音源分離部１４の処理を行う。

　より具体的には、データ処理装置８２は、実施の形態１における、特徴抽出部１０１、パラメタ更新部１０３、教師付き損失関数算出部１０４、教師なし損失関数算出部１０５、クラスタリング部１０６および分離部１０７が実施する各処理を行う。

　以上説明したように、実施の形態２にかかる音源分離装置８０についても、実施の形態１における各機能部が実行する各処理を行うので、実施の形態１と同様の効果を得ることが可能となる。すなわち、本実施の形態にかかる音源分離装置８０を用いることにより、人工的に作られた混合信号ではなく、実際に観測される混合信号に対して最適な特徴抽出器を獲得して、混合信号を正確に個々の音源信号に分離できる。したがって、本実施の形態にかかる音源分離装置８０を用いることにより、混合信号から個々の音源信号を精度良く分離することが可能となる。

　また、実施の形態２にかかる音源分離用プログラム８１を用いることにより、実施の形態１と同様の効果を得ることが可能となる。すなわち、本実施の形態にかかる音源分離用プログラム８１によれば、混合信号から個々の音源信号を精度良く分離することが可能となる。

（その他の実施の形態）
　上述した実施の形態にかかる音源分離装置は、次のようなハードウェア構成を有していてもよい。図９は、上述した実施の形態において説明した音源分離装置１、１０および８０（以下、音源分離装置１等と称する）の構成例を示すブロック図である。図９を参照すると、音源分離装置１等は、プロセッサ１２０１およびメモリ１２０２を含む。

　プロセッサ１２０１は、メモリ１２０２からソフトウェア（コンピュータプログラム）を読み出して実行することで、上述の実施形態においてフローチャートを用いて説明された音源分離装置１等の処理を行う。プロセッサ１２０１は、例えば、マイクロプロセッサ、MPU（Micro Processing Unit）またはCPU（Central Processing Unit）であってもよい。プロセッサ１２０１は、複数のプロセッサを含んでもよい。

　メモリ１２０２は、揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ１２０２は、プロセッサ１２０１から離れて配置されたストレージを含んでもよい。この場合、プロセッサ１２０１は、図示されていないI/Oインタフェースを介してメモリ１２０２にアクセスしてもよい。

　図９の例では、メモリ１２０２は、ソフトウェアモジュール群を格納するために使用される。プロセッサ１２０１は、これらのソフトウェアモジュール群をメモリ１２０２から読み出して実行することで、上述の実施形態において説明された音源分離装置１等の処理を行うことができる。

　図９を用いて説明したように、音源分離装置１等が有するプロセッサの各々は、図面を用いて説明されたアルゴリズムをコンピュータに行わせるための命令群を含む１または複数のプログラムを実行する。

　上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）を含む。さらに、非一時的なコンピュータ可読媒体の例は、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗを含む。さらに、非一時的なコンピュータ可読媒体の例は、半導体メモリを含む。半導体メモリは、例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory）を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

　なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。また、本開示は、それぞれの実施の形態を適宜組み合わせて実施されてもよい。

　１、１０、８０　音源分離装置
　２、１０１　特徴抽出部
　３、１０６　クラスタリング部
　４、１０７　分離部
　５、１０３　パラメタ更新部
　１１　学習用混合信号記憶部
　１２　学習用ラベルデータ記憶部
　１３　特徴抽出器学習部
　１４　音源分離部
　１０２　特徴抽出パラメタ記憶部
　１０４　教師付き損失関数算出部
　１０５　教師なし損失関数算出部
　８１　音源分離用プログラム
　８２　データ処理装置
　８３　記憶装置

Claims

　複数の音源信号が混合された混合信号を変換したスペクトログラムにおいて、時間周波数ビン毎に、特徴抽出の際に用いるパラメタが適用された特徴抽出器を用いて特徴ベクトルを抽出する特徴抽出手段と、
　抽出された前記特徴ベクトルを複数のクラスタに分類するクラスタリング手段と、
　分類された前記複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成する分離手段と、
　観測された混合信号を含む学習用混合信号に基づいて、前記パラメタを更新するパラメタ更新手段と、を備える音源分離装置。
　前記学習用混合信号を変換したスペクトログラムにおいて、所定条件を満たす時間周波数ビンに音源ラベルを設定すると共に、前記音源ラベルが設定された時間周波数ビンから抽出された特徴ベクトルに対する第１の評価値を、第１の評価関数を用いて算出する第１の算出手段と、
　前記音源ラベルが設定されていない時間周波数ビンから抽出された特徴ベクトルに対する第２の評価値を、第２の評価関数を用いて算出する第２の算出手段と、をさらに備え、
　前記パラメタ更新手段は、前記第１の評価値および前記第２の評価値に基づいて、前記パラメタを更新する、請求項１に記載の音源分離装置。
　前記パラメタ更新手段は、前記第１の評価値および前記第２の評価値の合計値を減少させるように前記パラメタを更新する、請求項２に記載の音源分離装置。
　前記第１の算出手段は、前記学習用混合信号において各音源信号が含まれる時間区間を示すラベルデータに基づいて、単一の音源が存在する時間区間における時間周波数ビンに前記音源ラベルを設定し、複数の音源が存在する時間区間における時間周波数ビンに前記音源ラベルを設定しない、請求項２または３に記載の音源分離装置。
　前記第２の評価関数は、ハードクラスタリングおよびソフトクラスタリングの少なくとも一方に基づく損失関数である、請求項２～４のいずれか１項に記載の音源分離装置。
　前記第１の評価関数は、教師付き損失関数であり、前記第２の評価関数は、教師なし損失関数である、請求項２～５のいずれか１項に記載の音源分離装置。
　前記教師付き損失関数は、以下の式（１）であり、前記教師なし損失関数は、以下の式（２）である、請求項６に記載の音源分離装置。

ここで、θは前記パラメタであり、Ｘは前記学習用混合信号から得られる全てのスペクトログラムの集合であり、（ｔ，ｆ）および（ｔ’，ｆ’）は時間周波数ビンであり、ｖ_ｔ，ｆは時間周波数ビン（ｔ，ｆ）の特徴ベクトルであり、ＶはＸから得られる全ての特徴ベクトルｖ_ｔ，ｆの集合であり、Ｙ＝（ｙ_ｔ，ｆ）は特徴ベクトルｖ_ｔ，ｆに対応する時間周波数ビン（ｔ，ｆ）の音源ラベルである。

ここで、ｙ_ｔ，ｆ＝ＮＵＬＬは音源ラベルが設定されていない時間周波数ビンであり、γ_{ｔ，ｆ，ｉ}は音源クラスｉに対する特徴ベクトルｖ_ｔ，ｆの帰属率であり、ｃは音源クラス数であり、μ_ｉは音源クラスｉに属する時間周波数ビン（ｔ，ｆ）にわたる特徴ベクトルｖ_ｔ，ｆの平均であり、式（３）によって決定される。
　前記特徴抽出器は、ニューラルネットワークである、請求項１～７のいずれか１項に記載の音源分離装置。
　複数の音源信号が混合された混合信号を変換したスペクトログラムにおいて、時間周波数ビン毎に、特徴抽出の際に用いるパラメタが適用された特徴抽出器を用いて特徴ベクトルを抽出することと、
　抽出された前記特徴ベクトルを複数のクラスタに分類することと、
　分類された前記複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成することと、
　観測された混合信号を含む学習用混合信号に基づいて、前記パラメタを更新することと、を含む音源分離方法。
　複数の音源信号が混合された混合信号を変換したスペクトログラムにおいて、時間周波数ビン毎に、特徴抽出の際に用いるパラメタが適用された特徴抽出器を用いて特徴ベクトルを抽出することと、
　抽出された前記特徴ベクトルを複数のクラスタに分類することと、
　分類された前記複数のクラスタの各々に含まれる時間周波数ビンを用いて、分類されたクラスタ毎に音源信号を生成することと、
　観測された混合信号を含む学習用混合信号に基づいて、前記パラメタを更新することと、をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。