WO2018047643A1

WO2018047643A1 - 音源分離装置および方法、並びにプログラム

Info

Publication number: WO2018047643A1
Application number: PCT/JP2017/030631
Authority: WO
Inventors: 高橋　直也; 祐基光藤; シュテファンユーリッヒ; ミハエルエネンケル; トーマスケンプ
Original assignee: ソニー株式会社
Priority date: 2016-09-09
Filing date: 2017-08-25
Publication date: 2018-03-15
Also published as: EP3511937A4; JPWO2018047643A1; JP6981417B2; CN109661705B; EP3511937A1; US20190208320A1; CN109661705A; US10924849B2; EP3511937B1

Abstract

本技術は、より高い分離性能を得ることができるようにする音源分離装置および方法、並びにプログラムに関する。音源分離装置は、第１の音源分離方式により混合音信号から分離された所定の音源の第１の音源分離信号と、第１の音源分離方式と所定時間単位で分離性能が異なる第２の音源分離方式により混合音信号から分離された音源の第２の音源分離信号とを結合し、結合により得られた音源分離信号を出力する結合部を備える。本技術は音源分離装置に適用することができる。

Description

音源分離装置および方法、並びにプログラム

　本技術は音源分離装置および方法、並びにプログラムに関し、特に、より高い分離性能を得ることができるようにした音源分離装置および方法、並びにプログラムに関する。

　従来、複数の音源からの音が含まれる混合音信号から、目的とする音源の音の信号を抽出する音源分離技術が知られている。

　そのような音源分離技術として、例えばDNN（Deep Neural Network）を用いたマルチチャネルウィナーフィルタ（MWF（Multi Channel Wiener Filter））ベースの音源分離手法が提案されている（例えば、非特許文献１参照）。

　この音源分離手法では、混合音信号に対してDNNによる振幅スペクトル推定が行われて各音源の振幅スペクトルの推定値が求められ、それらの推定値と混合音信号から最小二乗平均誤差法によって目的とする音源のソース信号が求められる。

A. A. Nugraha, A. Liutkus, and E. Vincent. "Multichannel music separation with deep neural networks." European Signal Processing Conference (EUSIPCO). 2016.

　しかしながら、上述した技術では十分に高い分離性能で混合音信号から目的とする音源のソース信号を分離させることが困難であった。

　例えばDNNを用いたMWFベースの音源分離手法では、DNNの出力の誤差が少ないほど音源の分離性能は高くなる。ところが、学習データが限られていることや問題が複雑であることからDNNの学習は一般的に難しく、DNNの出力として得られる振幅スペクトルは誤差を含み、このことが分離性能を悪化させる一因となっている。

　本技術は、このような状況に鑑みてなされたものであり、より高い分離性能を得ることができるようにするものである。

　本技術の一側面の音源分離装置は、第１の音源分離方式により混合音信号から分離された所定の音源の第１の音源分離信号と、前記第１の音源分離方式と所定時間単位で分離性能が異なる第２の音源分離方式により前記混合音信号から分離された前記音源の第２の音源分離信号とを結合し、前記結合により得られた音源分離信号を出力する結合部を備える。

　前記結合部には、結合パラメータに基づいて前記第１の音源分離信号と前記第２の音源分離信号とを線型結合させることができる。

　音源分離装置には、前記第１の音源分離信号について得られた前記音源の信号である確からしさと、前記第２の音源分離信号について得られた前記音源の信号である確からしさとに基づいて、前記結合パラメータを決定する結合パラメータ決定部をさらに設けることができる。

　前記分離性能をSIR、SAR、SDR、またはISRとすることができる。

　前記第１の音源分離方式の分離性能と前記第２の音源分離方式の分離性能との大小関係が時間によって変化するようにすることができる。

　前記第１の音源分離方式と前記第２の音源分離方式を同じ音源分離方式とすることができる。

　前記第１の音源分離方式をFNN、RNN、およびNMFの何れかとし、前記第２の音源分離方式をFNN、RNN、およびNMFの何れかとすることができる。

　本技術の一側面の音源分離方法またはプログラムは、第１の音源分離方式により混合音信号から分離された所定の音源の第１の音源分離信号と、前記第１の音源分離方式と所定時間単位で分離性能が異なる第２の音源分離方式により前記混合音信号から分離された前記音源の第２の音源分離信号とを結合し、前記結合により得られた音源分離信号を出力するステップを含む。

　本技術の一側面においては、第１の音源分離方式により混合音信号から分離された所定の音源の第１の音源分離信号と、前記第１の音源分離方式と所定時間単位で分離性能が異なる第２の音源分離方式により前記混合音信号から分離された前記音源の第２の音源分離信号とが結合され、前記結合により得られた音源分離信号が出力される。

　本技術の一側面によれば、より高い分離性能を得ることができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

音源分離について説明する図である。音源分離装置の構成例を示す図である。振幅スペクトル推定部の構成例を示す図である。音源分離装置の構成例を示す図である。結合パラメータと分離性能について説明する図である。音源分離処理を説明するフローチャートである。音源分離装置の構成例を示す図である。音源分離処理を説明するフローチャートである。音源分離装置の構成例を示す図である。音源分離装置の構成例を示す図である。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
　例えば、音源分離では一般的に図１に示すようにして各音源が分離される。

　この例では、収音空間には音源ｓ₁乃至音源ｓ_JのＪ個の音源が存在している。このようなＪ個の各音源からの音をＩ個のマイクロフォンからなるマイクアレイ１１で収音すると、Ｉ個のマイクロフォンごと、つまりＩ個のチャネルごとの収音信号ｘ₁乃至収音信号ｘ_IからなるＩチャネル（Ｉ次元）の混合音信号ｘが得られる。

　このようにして得られたＩチャネルの混合音信号ｘが音源分離器１２に入力されると、音源分離器１２は、入力された混合音信号ｘに対して音源分離を行う。

　すると、音源ｓ₁乃至音源ｓ_Jの各音源の音の信号の推定結果としてソース信号＾ｓ₁乃至ソース信号＾ｓ_Jが得られる。例えばソース信号＾ｓ₁は、Ｉ個の各チャネルについて得られた音源ｓ₁の音の信号からなるＩチャネルの信号（Ｉ次元のベクトル）である。

　音源分離器１２で行われる音源分離の手法として、例えばDNNを用いたMWFベースの音源分離手法が知られている。

　ここで、DNNを用いたMWFベースの音源分離手法について説明する。なお、以下では各信号はSTFT（Short Term Fourier Transform）ドメインで表記することとする。

　例えば周波数ビンをｋとし、時間のフレームをｍとしてＩチャネルの混合音信号をx(k,m)と記し、Ｊ個の音源のうちのｊ（但し、１≦ｊ≦Ｊ）番目の音源ｓ_jの音の信号であるソース信号をs_j(k,m)と記すこととする。混合音信号x(k,m)およびソース信号s_j(k,m)は、ともにＩ個のチャネルごとの複素スペクトルからなる信号である。

　このような場合、MWFでは信号モデルが次式（１）のように仮定される。

　なお、式（１）において、z(k,m)は複素ガウシアンノイズを示しており、ν_j(k,m)はパワースペクトル密度を示しており、R_j(k,m)は空間相関行列を示している。また、N_C(0,ν_j(k,m)R_j(k,m))は複素数のガウシアン確率密度分布を示している。

　式（１）では、目的とするｊ番目の音源ｓ_j以外の他の音源のソース信号s_j'(k,m)の和が複素ガウシアンノイズz(k,m)となっている。このような式（１）から混合音信号x(k,m)は、目的とする音源ｓ_jのソース信号s_j(k,m)と複素ガウシアンノイズz(k,m)の和で表されることが分かる。

　さらに、各ソース信号s_j(k,m)が互いに独立であると仮定することで、最小二乗平均誤差法により、目的とする音源ｓ_jのソース信号s_j(k,m)を混合音信号x(k,m)から推定することができる。ここで、最小二乗平均誤差の推定値＾s_j,MWF(k,m)、つまり最小二乗平均誤差法によるソース信号s_j(k,m)の推定値は、次式（２）に示す計算により求められる。なお、＾s_j,MWF(k,m)はＩ個のチャネルごとの複素スペクトルからなる信号である。

　この式（２）の計算がMWFの演算となるが、実際のソース信号s_j(k,m)の推定値であるソース信号＾s_j,MWF(k,m)を式（２）により求めるためには、Ｊ個の各音源についてパワースペクトル密度ν_j(k,m)および空間相関行列R_j(k,m)を求める必要がある。

　DNNを用いたMWFベースの音源分離手法では、空間相関行列R_j(k,m)が時不変である、つまり各音源の位置が時間によって変化しないと仮定して、DNNによりこれらのパワースペクトル密度ν_j(k,m)および空間相関行列R_j(k,m)が求められている。

　具体的には、DNNの出力を｛＾s₁(k,m),…,＾s_J(k,m)｝とすると、パワースペクトル密度ν_j(k,m)および空間相関行列R_j(k,m)は、それぞれ以下の式（３）および式（４）により求められる。

　なお、式（３）において＾ν_j(k,m)は、パワースペクトル密度ν_j(k,m)の推定値を示しており、式（４）において＾R_j(k)は、空間相関行列R_j(k,m)の推定値を示している。特に、ここでは空間相関行列R_j(k,m)はフレームｍによらず一定であると仮定されているので、推定により得られる空間相関行列はインデックスｍが省略されて＾R_j(k)と記されている。

　また、式（３）および式（４）において、DNNの出力である＾s_j(k,m)は、Ｉ個のチャネルごとの振幅スペクトルからなる信号であり、音源ｓ_jからの音の振幅スペクトルの推定値である。

　DNNを用いたMWFベースの音源分離手法では、以上のようにして目的とする音源のソース信号＾s_j,MWF(k,m)が求められる。

　このとき、DNNの出力である振幅スペクトル＾s_j(k,m)が元のソース信号s_j(k,m)に近いほど推定誤差は少なくなる。しかしながら、学習データが限られていることや問題が複雑であることからDNNの学習は一般的に難しく、DNNの出力として得られる振幅スペクトルは誤差を含み、このことが音源分離の分離性能を悪化させる一因となっている。

　上述したMWFベースの音源分離手法において、DNNをLSTM（Long Short Term Memory）に置き換えることも可能であり、振幅スペクトルの推定結果としてDNNにおける場合と異なる性質の推定結果を得ることができる。しかし、依然としてLSTMの学習は難しく、推定結果として得られる振幅スペクトルは誤差を含むため、十分に高い分離性能を得ることは困難である。

　そこで、本技術では、時間的な性質の異なる出力をもつ同程度の分離性能の音源分離器、つまり音源分離方式を組み合わせることで各々の分離性能よりも高い分離性能を得ることができるようにした。

　ここで、出力の時間的な性質が異なるとは、音源分離方式による音源の信号の推定結果、より具体的には例えばinterference（インターフェランス）のレベル（強度）や、アーティファクトのレベル、ノイズのレベルなどの分離性能が時刻ごと異なることをいう。

　特に、本技術で組み合わせる複数の音源分離方式は例えば以下のようなものとされる。

　すなわち、個々の音源分離方式ではフレーム単位などの所定の時間単位で音源の分離性能が異なる、つまり所定の時間単位でinterferenceのレベル（強度）や、アーティファクトのレベル、ノイズのレベルなどの分離性能が変化する。なお、より具体的には音源の分離性能としては、例えばSIR（Source to Interference Ratio）、SAR（Sources to Artifacts Ratio）、SDR（Signal to Distortion Ratio）、ISR（source Image to Spatial distortion Ratio）などを用いることができる。

　組み合わせられる複数の音源分離方式は、フレーム単位などの所定の時間単位で音源の分離性能が互いに異なる方式とされる。すなわち、ある音源分離方式と他の音源分離方式とで分離性能が異なり、しかも、それらの音源分離方式の分離性能の関係が所定時間単位で変化する（異なる）。

　より詳細には、例えば組み合わせられる複数の音源分離方式は、所定の時間単位でみたときに分離性能の大小関係が時間とともに変化する音源分離方式である。

　具体的には、例えば第１の音源分離方式と第２の音源分離方式を組み合わせるとする。この場合、第１の音源分離方式と第２の音源分離方式では、それぞれ任意の混合音信号に対する音源分離を行ったときに所定時間単位で分離性能が変化する。そして、ある時刻では第１の音源分離方式の方が第２の音源分離方式よりも分離性能が高いが、他の時刻では第１の音源分離方式よりも第２の音源分離方式の方が分離性能が高いといったように、どちらの音源分離方式の分離性能がより高いかが時間（時刻）によって異なる。つまり、フレーム等によって第１の音源分離方式と第２の音源分離方式の分離性能の大小関係が異なる。

〈音源分離装置の構成例〉
　図２に本技術を適用した音源分離装置の構成例を示す。

　図２に示される音源分離装置４１は、振幅スペクトル推定部５１－１乃至振幅スペクトル推定部５１－Ｎ、結合部５２、および分離信号生成部５３を有している。音源分離装置４１では、振幅スペクトル推定部５１－１乃至振幅スペクトル推定部５１－Ｎおよび分離信号生成部５３に、混合音信号x(k,m)が供給される。

　振幅スペクトル推定部５１－１乃至振幅スペクトル推定部５１－Ｎは、互いに異なる振幅スペクトル推定アルゴリズムに従って、すなわち互いに異なる音源分離方式により、混合音信号x(k,m)から振幅スペクトル＾s_j(k,m)を推定により求め、結合部５２に供給する。換言すれば、混合音信号x(k,m)から各音源の音源分離信号として振幅スペクトル＾s_j(k,m)を分離させる。

　なお、以下、振幅スペクトル推定部５１－１乃至振幅スペクトル推定部５１－Ｎを特に区別する必要のない場合、単に振幅スペクトル推定部５１とも称する。これらの振幅スペクトル推定部５１は、振幅スペクトル推定器である。

　結合部５２は、Ｎ個の振幅スペクトル推定部５１から供給された振幅スペクトル＾s_j(k,m)を結合して最終的な１つの振幅スペクトル＾s_j(k,m)とし、分離信号生成部５３に供給（出力）する。

　分離信号生成部５３は、供給された混合音信号x(k,m)と、結合部５２から供給された振幅スペクトル＾s_j(k,m)とに基づいて、目的とする音源の振幅スペクトル＾s_j(k,m)に位相を加える処理を行うことで、目的とする音源のソース信号の推定値を算出し、出力する。

　ここで、振幅スペクトル推定部５１における振幅スペクトル推定アルゴリズムとしては、例えばCNN（Convolutinal Neural Network）、ResNet（Residual Network）を含むフィードフォワード型ニューラルネットワーク（FNN（Feedforward Neural Network））や、リカーレント型ニューラルネットワーク（RNN（Recurrent Neural Network））、DenseNet （Densely connected convolutional Networks）、NMF（Non-negative Matrix Factrization）などを採用することができる。また、前述のネットワークはバイナリネットを含む任意の精度で実現されるようにしてもよい。

　また、振幅スペクトル推定部５１における振幅スペクトル推定アルゴリズムとしては、例えば図３に示すように、周波数帯域ごとに異なるアルゴリズムやネットワークを採用することができる。

　図３に示す例では、振幅スペクトル推定部５１は、帯域ソーススペクトル推定部７１－１乃至帯域ソーススペクトル推定部７１－３、および全帯域ソーススペクトル推定部７２を有している。

　帯域ソーススペクトル推定部７１－１乃至帯域ソーススペクトル推定部７１－３には、各周波数ビンkの混合音信号x(k,m)からなる混合音スペクトルの一部の帯域または全帯域の信号が供給される。

　帯域ソーススペクトル推定部７１－１乃至帯域ソーススペクトル推定部７１－３は、混合音スペクトルの一部の帯域または全帯域の信号を入力とし、互いに異なる帯域ソーススペクトル推定アルゴリズムに従って各周波数ビンkの振幅スペクトル＾s_j(k,m)からなるソーススペクトルの一部の帯域または全帯域の信号を推定する。

　例えば帯域ソーススペクトル推定部７１－１乃至帯域ソーススペクトル推定部７１－３のそれぞれでは、混合音スペクトルの互いに異なる帯域が入力とされ、ソーススペクトルの互いに異なる帯域の信号が推定される。

　帯域ソーススペクトル推定部７１－１乃至帯域ソーススペクトル推定部７１－３は、推定により得られた、ソーススペクトルの一部の帯域または全帯域の信号を帯域スペクトルとして全帯域ソーススペクトル推定部７２に供給する。

　なお、以下、帯域ソーススペクトル推定部７１－１乃至帯域ソーススペクトル推定部７１－３を特に区別する必要のない場合、単に帯域ソーススペクトル推定部７１とも称することとする。

　全帯域ソーススペクトル推定部７２は、供給された混合音スペクトルと、帯域ソーススペクトル推定部７１－１乃至帯域ソーススペクトル推定部７１－３のそれぞれから供給された帯域スペクトルに基づいて、各周波数ビンkの振幅スペクトル＾s_j(k,m)を生成する。すなわち、全帯域ソーススペクトル推定部７２は、全帯域ソーススペクトル推定アルゴリズムに従って、各帯域ソーススペクトル推定部７１から供給された帯域スペクトルを統合し、統合により得られた全帯域のソーススペクトルとして各周波数ビンkの振幅スペクトル＾s_j(k,m)を出力する。

　なお、各帯域ソーススペクトル推定部７１における帯域ソーススペクトル推定アルゴリズムや、全帯域ソーススペクトル推定部７２における全帯域ソーススペクトル推定アルゴリズムとして、例えばDNNを採用することができる。

　一般的にスペクトルのパターンは帯域によって異なる。例えば低域では音は比較的長い継続長を持ち、調性のある音も多い一方で、高域では減衰が早く調性のないノイズ音がより高頻度で発生し得る。そのため、このような帯域ごとの異なる特性をとらえるためには帯域ごとにソーススペクトルを推定した方が容易である可能性がある。また、帯域ごとに最適なモデルサイズやアルゴリズムを選ぶことで高性能化や効率化を図ることができる。

　そこで、振幅スペクトル推定部５１では、帯域ごとにソーススペクトルの推定を行い、それらの推定結果を統合して最終的なソーススペクトルとすることで、より効率的かつ高精度にソーススペクトルを推定できるようにされている。

　なお、各振幅スペクトル推定部５１における振幅スペクトル推定アルゴリズムについて、互いに学習モデルが異なる場合には、例えばDNN同士を組み合わせるなどしてもよい。すなわち、例えばDNN同士など、同じ音源分離方式（振幅スペクトル推定アルゴリズム）でも、それらの学習モデルが異なり、互いに異なる性質の出力をする場合には、それらの音源分離方式を組み合わせても分離性能を向上させることができる。

　互いに異なる振幅スペクトル推定アルゴリズムの組み合わせ、つまり音源分離方式の組み合わせの一例として、例えばDNNとLSTMを組み合わせることが考えられる。

　DNNによる振幅スペクトルの推定は、目的とする音源以外の音、つまり非目的音の抑圧に優れるがアーティファクトが大きい傾向にある。

　これに対して、時間方向に結合をもつリカーレント型ニューラルネットワーク（RNN）の一種であるLSTMによる振幅スペクトルの推定は、時間的に安定した性能を示すが非目的音の漏れが大きい傾向にある。

　このようにDNNとLSTMという時間的に異なる性質の出力をもつ音源分離方式を組み合わせて音源分離を行うことで、より高精度に振幅スペクトルを推定し、音源の分離性能を向上させることができる。つまり、互いに異なる振幅スペクトル推定器を結合することで、より高精度に振幅スペクトルを推定し、これにより、より高精度に目的とする音源の信号を得ることができる。

　例えば、分離された信号におけるinterferenceのレベルなど、振幅スペクトル推定アルゴリズムの性質が異なるものを組み合わせると、一方の振幅スペクトル推定アルゴリズムでは十分な分離性能を得ることができないフレームでも、他方の振幅スペクトル推定アルゴリズムでは十分な分離性能が得られることがある。そのため、それらの振幅スペクトル推定アルゴリズムを組み合わせると、結果として全体的に音源の分離性能を向上させることができる。

　これに対して、例えば、どの時刻においてもinterferenceのレベル等の分離性能の大小関係が変化しない複数の振幅スペクトル推定アルゴリズムを組み合わせても分離性能の改善を見込むことは困難である。

　以下では、時間的に異なる性質の出力をもつ複数の音源分離方式として、DNNとLSTMを組み合わせる場合を具体的な例として説明を続ける。

　音源分離方式としてDNNとLSTMを組み合わせた場合、図２に示した音源分離装置４１は、図４に示すように構成される。なお、図４において図２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図４に示す音源分離装置４１は、DNN部８１、LSTM部８２、結合部５２、および分離信号生成部５３を有している。この例では、DNN部８１およびLSTM部８２は、図２に示した振幅スペクトル推定部５１に対応している。

　すなわち、DNN部８１は予め学習により得られたDNNによる振幅スペクトル推定器であり、供給された混合音信号x(k,m)に基づいて振幅スペクトル推定を行い、その結果得られた振幅スペクトル＾s_j(k,m)を結合部５２に供給する。

　以下では、特にDNN部８１で得られた振幅スペクトル＾s_j(k,m)を、振幅スペクトル＾s_j,DNN(k,m)とも記すこととする。

　LSTM部８２は予め学習により得られたLSTMによる振幅スペクトル推定器であり、供給された混合音信号x(k,m)に基づいて振幅スペクトル推定を行い、その結果得られた振幅スペクトル＾s_j(k,m)を結合部５２に供給する。

　以下では、特にLSTM部８２で得られた振幅スペクトル＾s_j(k,m)を、振幅スペクトル＾s_j,LSTM(k,m)とも記すこととする。

　結合部５２は、DNN部８１から供給された振幅スペクトル＾s_j,DNN(k,m)と、LSTM部８２から供給された振幅スペクトル＾s_j,LSTM(k,m)とを結合して最終的な１つの振幅スペクトル＾s_j(k,m)とし、分離信号生成部５３に供給する。

　なお、振幅スペクトルの結合方法は、例えば線形結合やアーティフィシャルニューラルネットワーク（ANN（Artificial Neural Network））による結合など、どのような方法であってもよい。例えばANNにより結合を行う場合、ANNのパラメータ学習時には結合用のANNのみを学習してもよいし、下層のDNNおよびLSTMを含めて学習を行うようにしてもよい。

　以下では、結合部５２において、振幅スペクトルが線形結合されるものとして説明を続ける。振幅スペクトルを線型結合する場合、例えば結合部５２は次式（５）を計算することにより、結合結果としての振幅スペクトル＾s_j(k,m)を求める。

　なお、式（５）においてλは結合パラメータを示している。この結合パラメータλは、予め定められた固定値であり、線形結合の際の振幅スペクトル＾s_j,LSTM(k,m)の重みを示している。

　分離信号生成部５３は、供給された混合音信号x(k,m)と、結合部５２から供給された振幅スペクトル＾s_j(k,m)とに基づいて、推定により目的とする音源のソース信号を算出し、出力する。

　例えば分離信号生成部５３は、振幅スペクトル＾s_j(k,m)に基づいて上述した式（３）および式（４）を計算することで、Ｊ個の各音源についてパワースペクトル密度＾ν_j(k,m)および空間相関行列＾R_j(k)を求める。

　そして、分離信号生成部５３は、それらのパワースペクトル密度＾ν_j(k,m)および空間相関行列＾R_j(k)と、混合音信号x(k,m)とに基づいて上述した式（２）を計算し、MWFにより目的とする音源の推定分離音スペクトルであるソース信号＾s_j,MWF(k,m)を算出する。

　なお、式（２）の計算時には、パワースペクトル密度＾ν_j(k,m)および空間相関行列＾R_j(k)が、パワースペクトル密度ν_j(k,m)および空間相関行列R_j(k,m)として式（２）に代入される。

　このような式（２）の計算は、位相のない振幅スペクトル＾s_j(k,m)に対して位相を加えて、位相のある複素スペクトルを求める計算となっている。その際、付加される位相は、二乗平均誤差が最小となるように定められる。

　また、ここではMWFによりソース信号＾s_j,MWF(k,m)を算出する例について説明するが、分離信号生成部５３では混合音信号x(k,m)と振幅スペクトル＾s_j(k,m)とに基づいて、DNN等により目的とする音源のソース信号を求めるようにしてもよい。

　以上のようにしてDNNとLSTMとにより振幅スペクトルを推定し、それらの推定結果を線型結合してMWFによりソース信号＾s_j,MWF(k,m)を算出する場合、例えば図５に示すように高い分離性能が得られることが確認された。なお、図５において縦軸はSDR（Signal to Distortion Ratio）を示しており、横軸は結合パラメータλの値を示している。

　図５に示す例ではVocals、Drums、Other、およびBassのそれぞれの音が含まれる音響信号が混合音信号とされて音源分離が行われている。

　曲線Ｌ１１乃至曲線Ｌ１４は、結合パラメータλを０から１までの各値とし、ソース信号としてVocals、Drums、Other、およびBassのそれぞれの信号を抽出したときのSDRの大きさを示している。また、曲線Ｌ１５は、曲線Ｌ１１乃至曲線Ｌ１４の平均値を示している。

　これらの曲線Ｌ１１乃至曲線Ｌ１５から分かるように、結合パラメータλ＝０、つまりDNNのみを用いた場合や、結合パラメータλ＝１、つまりLSTMのみを用いた場合よりも、結合パラメータλ＝0.5、つまりDNNとLSTMの出力を同レベルで混合した場合など、結合を行った場合の方がより大きいSDRが得られていることが分かる。すなわち、より高い分離性能が得られていることが分かる。

　ここで、混合音信号x(k,m)からソース音源の振幅スペクトル＾s_j,DNN(k,m)を得るためのDNNや、混合音信号x(k,m)からソース音源の振幅スペクトル＾s_j,LSTM(k,m)を得るためのLSTMの学習方法について説明する。

　DNNやLSTMの学習では、ネットワークの入力は混合音信号の振幅スペクトル｜x(k,m)｜とされ、教師データはソース音、つまり目的とする音源の音の振幅スペクトル｜s_j(k,m)｜とされる。

　ネットワークによる非線形関数をf(,θ)とすると、ネットワークパラメータθは非線形関数とソース音の振幅スペクトルとの二乗誤差が最小化されるように求められる。ここで、最小化すべき目的関数Ｌは、次式（６）に示すようになる。

　DNNやLSTMによる振幅スペクトルの推定時には、このようにして得られた非線形関数f(｜x(k,m)｜,θ)に混合音信号x(k,m)、より詳細には混合音信号x(k,m)の振幅スペクトルを代入することにより、振幅スペクトル＾s_j,DNN(k,m)や振幅スペクトル＾s_j,LSTM(k,m)が求められる。

〈音源分離処理の説明〉
　次に、図４に示した音源分離装置４１の動作について説明する。

　すなわち、以下、図６のフローチャートを参照して、音源分離装置４１による音源分離処理について説明する。

　ステップＳ１１において、DNN部８１は、供給された混合音信号x(k,m)に基づいてDNNにより振幅スペクトルを推定し、その結果得られた振幅スペクトル＾s_j,DNN(k,m)を結合部５２に供給する。

　例えばステップＳ１１では、DNNの学習により得られた非線形関数f(｜x(k,m)｜,θ)に混合音信号x(k,m)が代入されて、振幅スペクトル＾s_j,DNN(k,m)が算出される。

　ステップＳ１２において、LSTM部８２は、供給された混合音信号x(k,m)に基づいてLSTMにより振幅スペクトルを推定し、その結果得られた振幅スペクトル＾s_j,LSTM(k,m)を結合部５２に供給する。

　例えばステップＳ１２では、LSTMの学習により得られた非線形関数f(｜x(k,m)｜,θ)に混合音信号x(k,m)が代入されて、振幅スペクトル＾s_j,LSTM(k,m)が算出される。

　ステップＳ１３において、結合部５２は、DNN部８１から供給された振幅スペクトル＾s_j,DNN(k,m)と、LSTM部８２から供給された振幅スペクトル＾s_j,LSTM(k,m)とを結合し、その結果得られた振幅スペクトル＾s_j(k,m)を分離信号生成部５３に供給する。例えばステップＳ１３では、上述した式（５）の計算が行われ、線形結合により振幅スペクトル＾s_j(k,m)が算出される。

　ステップＳ１４において、分離信号生成部５３は、供給された混合音信号x(k,m)と、結合部５２から供給された振幅スペクトル＾s_j(k,m)とに基づいて、推定により目的とする音源のソース信号＾s_j,MWF(k,m)を算出して出力し、音源分離処理は終了する。

　例えばステップＳ１４では、振幅スペクトル＾s_j(k,m)から式（３）および式（４）の計算が行われるとともに、それらの計算結果と混合音信号x(k,m)とから式（２）の計算が行われ、ソース信号＾s_j,MWF(k,m)が算出される。

　以上のようにして音源分離装置４１は、DNNおよびLSTMという互いに性質の異なる音源分離方式により振幅スペクトルを推定し、それらの推定結果を結合して得られた振幅スペクトルに基づいて、目的とする音源のソース信号を算出する。

　これにより、音源の性質によらず、安定して高い分離性能を得ることができる。すなわち、ノイズや、非目的音の漏れ、アーティファクトなどを低減させ、より高い分離性能を得ることができる。特に、音源分離装置４１によれば、計算コストが低い振幅スペクトル推定アルゴリズムを複数組み合わせて高い分離性能を得ることができる。

　また、例えばDNN部８１やLSTM部８２など、一部の振幅スペクトル推定部５１に不具合が生じたときでも、動的に結合部５２で結合する振幅スペクトルを変化させるようにすることもできるので頑健に音源分離を行うことができる。

〈第２の実施の形態〉
〈音源分離装置の構成例〉
　ところで、以上においては結合部５２において予め定められた結合パラメータλを用いて振幅スペクトルを線形結合する場合について説明したが、結合パラメータλが動的に定められるようにしてもよい。

　そのような場合、例えばLSTMが得意とする混合音信号x(k,m)が入力された場合には、結合時にLSTMで得られる振幅スペクトルに対してより大きな重みがかかるように結合パラメータλが大きな値とされる。このようにするとで、振幅スペクトルの推定精度をさらに向上させ、その結果、音源の分離性能を向上させることができる。

　このように結合パラメータλを動的に決定する場合、音源分離装置４１は、例えば図７に示すように構成される。なお、図７において図４における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図７に示す音源分離装置４１の構成は、新たに結合パラメータ決定部１１１が設けられた点で図４に示した音源分離装置４１の構成と異なり、その他の点では図４に示した音源分離装置４１と同じ構成となっている。

　すなわち、図７に示す音源分離装置４１は、DNN部８１、LSTM部８２、結合パラメータ決定部１１１、結合部５２、および分離信号生成部５３を有している。

　DNN部８１は、予め学習により得られた識別器である分離性能評価関数D^DNN(y)を用いて、DNN部８１による振幅スペクトルの推定性能、すなわち目的とする音源の信号の分離性能の評価値D^DNNを算出し、結合パラメータ決定部１１１に供給する。

　LSTM部８２は、予め学習により得られた識別器である分離性能評価関数D^LSTM(y)を用いて、LSTM部８２による振幅スペクトルの推定性能、すなわち目的とする音源の信号の分離性能の評価値D^LSTMを算出し、結合パラメータ決定部１１１に供給する。

　結合パラメータ決定部１１１は、DNN部８１から供給された評価値D^DNNと、LSTM部８２から供給された評価値D^LSTMとに基づいて結合パラメータλを決定し、結合部５２に供給する。

　なお、以下、分離性能評価関数D^DNN(y)および分離性能評価関数D^LSTM(y)を特に区別する必要のない場合、単に分離性能評価関数D(y)とも称することとする。

　結合部５２は、結合パラメータ決定部１１１から供給された結合パラメータλを用いて、DNN部８１から供給された振幅スペクトル＾s_j,DNN(k,m)と、LSTM部８２から供給された振幅スペクトル＾s_j,LSTM(k,m)とを結合し、得られた振幅スペクトル＾s_j(k,m)を分離信号生成部５３に供給する。

　図７に示す音源分離装置４１では、予め各音源分離方式、つまり各振幅スペクトル推定アルゴリズムでの分離性能を評価する関数である分離性能評価関数D(y)がDNNなどの学習により求められ、DNN部８１やLSTM部８２に保持されている。そして、結合パラメータ決定部１１１では、より分離性能が高い振幅スペクトル推定アルゴリズムに、より大きな重みが与えられるように制御される。

　ここで、分離性能評価関数D(y)をDNNで構成する場合の例について説明する。

　この場合、例えば分離性能評価関数D(y)は、引数ｙとして実際の音源の音のソース信号s_j(k,m)が分離性能評価関数D(y)に代入された場合には１を出力し、引数ｙとして音源分離後の振幅スペクトル、つまりソース信号s_j(k,m)の推定値が分離性能評価関数D(y)に代入された場合には０を出力するような識別器として学習させることができる。

　このような分離性能評価関数D(y)のコスト関数Ｌは次式（７）のようになる。

　なお、式（７）において＾s_jは、ソース信号s_j(k,m)の振幅スペクトルの推定値を示している。したがって、例えば分離性能評価関数D(y)が分離性能評価関数D^DNN(y)であれば、式（７）の＾s_jは振幅スペクトル＾s_j,DNN(k,m)となる。また、例えば分離性能評価関数D(y)が分離性能評価関数D^LSTM(y)であれば、式（７）の＾s_jは振幅スペクトル＾s_j,LSTM(k,m)となる。

　また、この例では分離性能評価関数D(y)はDNNであり、その最終出力層は次式（８）に示すシグモイド関数で表される。

　なお、式（８）におけるａは最終出力層への入力、つまり１つ前のレイヤの出力を示している。

　定義から分離性能評価関数D(y)は（０，１）、すなわち０から１までの間の値を取り、引数ｙがソース信号s_j(k,m)の振幅スペクトルである事後確率を表している。

　換言すれば、分離性能評価関数D(y)の出力である評価値D^DNNや評価値D^LSTMは、入力された振幅スペクトル＾s_j,DNN(k,m)や振幅スペクトル＾s_j,LSTM(k,m)がソース信号s_j(k,m)の振幅スペクトルである確からしさを示している。

　すなわち、評価値D^DNNは、振幅スペクトル＾s_j,DNN(k,m)について得られた目的とする音源の信号である確からしさを示しており、評価値D^LSTMは、振幅スペクトル＾s_j,LSTM(k,m)について得られた目的とする音源の信号である確からしさを示している。

　したがって、分離性能評価関数D(y)の出力である評価値が高いほど振幅スペクトルの推定精度が高く、推定誤差が少ないことになる。

　DNN部８１およびLSTM部８２には、以上のようにして予め学習された分離性能評価関数D^DNN(y)および分離性能評価関数D^LSTM(y)が保持されている。

　そして、結合パラメータ決定部１１１では、DNN部８１で得られた評価値D^DNNと、LSTM部８２で得られた評価値D^LSTMとから、例えば次式（９）を計算することで、結合パラメータλを算出する。

　なお、結合パラメータλを決定するにあたっては、式（９）の計算により結合パラメータλを算出してもよいし、閾値処理や評価値の大小関係を利用して結合パラメータλを決定するようにしてもよい。

　例えば評価値D^DNNと評価値D^LSTMのうち、より大きい方の値が予め定めた閾値以上であれば、その閾値以上の評価値に対応する振幅スペクトルの重みが１となるようにし、そうでなければ式（９）により結合パラメータλが決定されるようにしてもよい。

　したがって、この場合、例えば評価値D^DNNが評価値D^LSTMよりも大きく、かつ評価値D^DNNが閾値以上である場合には、結合パラメータλ＝０とされ、振幅スペクトル＾s_j,DNN(k,m)がそのまま振幅スペクトル＾s_j(k,m)とされる。

　また、例えば予め定められた数のフレームの間、継続して一方の評価値が他方の評価値よりも大きい場合には、その一方の評価値に対応する振幅スペクトルの重みが１となるようにし、そうでなければ式（９）により結合パラメータλが決定されるようにしてもよい。

　以上のようにして評価値D^DNNおよび評価値D^LSTMに基づいて結合パラメータλを求めるようにすれば、振幅スペクトルの推定精度を向上させ、音源の分離性能をさらに向上させることができる。

　特に、この実施の形態では、DNNとLSTMのうちの一方の振幅スペクトル推定アルゴリズムに不具合が生じたときでも結合パラメータλを手動で定め直す必要がないため、頑健に音源分離を行うことができる。

　また、振幅スペクトル推定アルゴリズムごとに評価値を算出し、それらの評価値から結合パラメータλを算出する手法は、３以上の振幅スペクトル推定アルゴリズムを組み合わせる場合にも適用可能である。

〈音源分離処理の説明〉
　続いて、図８のフローチャートを参照して、図７に示した音源分離装置４１による音源分離処理について説明する。なお、ステップＳ４１の処理は図６のステップＳ１１の処理と同様であるので、その説明は省略する。

　ステップＳ４２において、DNN部８１は、ステップＳ４１で得られた振幅スペクトル＾s_j,DNN(k,m)を分離性能評価関数D^DNN(y)に代入することで、DNNでの振幅スペクトル推定の評価値D^DNNを算出し、結合パラメータ決定部１１１に供給する。

　評価値D^DNNが算出されると、その後、ステップＳ４３の処理が行われるが、ステップＳ４３の処理は図６のステップＳ１２の処理と同様であるので、その説明は省略する。

　ステップＳ４４において、LSTM部８２は、ステップＳ４３で得られた振幅スペクトル＾s_j,LSTM(k,m)を分離性能評価関数D^LSTM(y)に代入することで、LSTMでの振幅スペクトル推定の評価値D^LSTMを算出し、結合パラメータ決定部１１１に供給する。

　ステップＳ４５において、結合パラメータ決定部１１１は、DNN部８１から供給された評価値D^DNNと、LSTM部８２から供給された評価値D^LSTMとに基づいて結合パラメータλを決定し、分離信号生成部５３に供給する。

　例えば結合パラメータ決定部１１１は、上述した式（９）を計算することで、結合パラメータλを算出する。

　結合パラメータλが算出されると、その後、ステップＳ４６およびステップＳ４７の処理が行われて音源分離処理は終了するが、これらの処理は図６のステップＳ１３およびステップＳ１４の処理と同様であるので、その説明は省略する。

　以上のようにして音源分離装置４１は、DNNおよびLSTMという互いに性質の異なる音源分離方式により振幅スペクトルを推定するとともに、それらの推定結果の評価値に基づいて結合パラメータを決定する。また、音源分離装置４１は、得られた結合パラメータに基づいて推定により得られた振幅スペクトルを結合し、目的とする音源のソース信号を算出する。これにより、より高い分離性能を得ることができる。

〈第３の実施の形態〉
〈音源分離装置の構成例〉
　さらに、以上においては、複数の振幅スペクトルを結合してからソース信号を求める例について説明したが、複数の振幅スペクトル推定アルゴリズムごとにソース信号を求め、それらのソース信号を結合して、最終的なソース信号としてもよい。

　そのような場合、音源分離装置は、例えば図９に示すように構成される。なお、図９において図２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図９に示す音源分離装置１４１は、振幅スペクトル推定部５１－１乃至振幅スペクトル推定部５１－Ｎ、分離信号生成部１５１－１乃至分離信号生成部１５１－Ｎ、および結合部１５２を有している。

　分離信号生成部１５１－１乃至分離信号生成部１５１－Ｎは、振幅スペクトル推定部５１－１乃至振幅スペクトル推定部５１－Ｎから供給された振幅スペクトルと、供給された混合音信号x(k,m)とに基づいて目的とする音源のソース信号の推定値を算出し、結合部１５２に供給する。

　例えば分離信号生成部１５１－１乃至分離信号生成部１５１－Ｎのそれぞれでは、上述した式（２）乃至式（４）の計算が行われてソース信号＾s_j,MWF(k,m)が算出される。

　結合部１５２は、分離信号生成部１５１－１乃至分離信号生成部１５１－Ｎから供給されたソース信号を結合し、得られたソース信号を最終的なソース信号として出力する。

　例えば結合部１５２では、線形結合により、すなわち線形和を求めることによりソース信号を結合するようにしてもよいし、ANNによりソース信号を結合するなど、他の方法により結合を行うようにしてもよい。なお、線形結合が行われる場合には、上述した第２の実施の形態における場合と同様に、結合パラメータが動的に決定されてもよい。

　以上のように、振幅スペクトル推定アルゴリズムごとに、つまり音源分離方式ごとにソース信号を生成し、それらのソース信号を結合して最終的なソース信号とすることでも、上述した音源分離装置４１と同様に高い分離性能を得ることができる。

〈第４の実施の形態〉
〈音源分離装置の構成例〉
　また、ソース信号を推定する方法は、MWFベースの音源分離手法に限らず、他のどのような手法であってもよい。

　例えば、混合音信号x(k,m)から直接、ソース信号を推定により求める音源分離方式を複数組み合わせるようにしてもよい。そのような場合、音源分離装置は、例えば図１０に示すように構成される。なお、図１０において、図９における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図１０に示す音源分離装置１８１は、ソーススペクトル推定部１９１－１乃至ソーススペクトル推定部１９１－Ｎ、および結合部１５２を有している。

　ソーススペクトル推定部１９１－１乃至ソーススペクトル推定部１９１－Ｎは、互いに異なる複素スペクトル推定アルゴリズムに従って、すなわち互いに異なる音源分離方式により、供給された混合音信号x(k,m)からソース信号s_j(k,m)の推定値を算出し、結合部１５２に供給する。換言すれば、混合音信号x(k,m)から各音源の音源分離信号としてソース信号s_j(k,m)の推定値を分離させる。ソーススペクトル推定部１９１－１乃至ソーススペクトル推定部１９１－Ｎのそれぞれから出力されるソース信号は、Ｉ個のチャネルごとの複素スペクトルからなるソース信号s_j(k,m)の推定値である。

　なお、以下、ソーススペクトル推定部１９１－１乃至ソーススペクトル推定部１９１－Ｎを特に区別する必要のない場合、単にソーススペクトル推定部１９１とも称する。

　各ソーススペクトル推定部１９１では、例えば混合音信号x(k,m)からソース信号s_j(k,m)を推定するように学習されたDNNやLSTMが保持されており、それらのDNNやLSTMが用いられてソース信号の推定が行われる。

　したがって、例えばDNNやLSTMによるソース信号の推定時には、学習により得られた非線形関数に混合音信号x(k,m)を代入することにより、ソース信号s_j(k,m)の推定値が求められる。

　なお、複数の各ソーススペクトル推定部１９１で行われるソース信号の推定手法、つまり音源分離方式の組み合わせは、DNNとLSTMに限らず、CNN、ResNet、NMFなどを組み合わせるようにしてもよい。また、結合部１５２で線形結合が行われる場合には、第２の実施の形態における場合と同様に、結合パラメータが動的に決定されてもよい。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。

　図１１は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、ＣＰＵ（Central Processing Unit）５０１，ＲＯＭ（Read Only Memory）５０２，ＲＡＭ（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、ＣＰＵ５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、ＲＡＭ５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（ＣＰＵ５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ＲＯＭ５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　また、本明細書中に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　第１の音源分離方式により混合音信号から分離された所定の音源の第１の音源分離信号と、前記第１の音源分離方式と所定時間単位で分離性能が異なる第２の音源分離方式により前記混合音信号から分離された前記音源の第２の音源分離信号とを結合し、前記結合により得られた音源分離信号を出力する結合部を備える
　音源分離装置。
（２）
　前記結合部は、結合パラメータに基づいて前記第１の音源分離信号と前記第２の音源分離信号とを線型結合する
　（１）に記載の音源分離装置。
（３）
　前記第１の音源分離信号について得られた前記音源の信号である確からしさと、前記第２の音源分離信号について得られた前記音源の信号である確からしさとに基づいて、前記結合パラメータを決定する結合パラメータ決定部をさらに備える
　（２）に記載の音源分離装置。
（４）
　前記分離性能はSIR、SAR、SDR、またはISRである
　（１）乃至（３）の何れか一項に記載の音源分離装置。
（５）
　前記第１の音源分離方式の分離性能と前記第２の音源分離方式の分離性能との大小関係が時間によって変化する
　（１）乃至（４）の何れか一項に記載の音源分離装置。
（６）
　前記第１の音源分離方式と前記第２の音源分離方式は同じ音源分離方式である
　（１）乃至（５）の何れか一項に記載の音源分離装置。
（７）
　前記第１の音源分離方式はFNN、RNN、およびNMFの何れかであり、前記第２の音源分離方式はFNN、RNN、およびNMFの何れかである
　（１）乃至（５）の何れか一項に記載の音源分離装置。
（８）
　第１の音源分離方式により混合音信号から分離された所定の音源の第１の音源分離信号と、前記第１の音源分離方式と所定時間単位で分離性能が異なる第２の音源分離方式により前記混合音信号から分離された前記音源の第２の音源分離信号とを結合し、前記結合により得られた音源分離信号を出力する
　ステップを含む音源分離方法。
（９）
　第１の音源分離方式により混合音信号から分離された所定の音源の第１の音源分離信号と、前記第１の音源分離方式と所定時間単位で分離性能が異なる第２の音源分離方式により前記混合音信号から分離された前記音源の第２の音源分離信号とを結合し、前記結合により得られた音源分離信号を出力する
　ステップを含む処理をコンピュータに実行させるプログラム。

　４１　音源分離装置，　５１－１乃至５１－Ｎ，５１　振幅スペクトル推定部，　５２　結合部，　５３　分離信号生成部，　８１　DNN部，　８２　LSTM部，　１１１　結合パラメータ決定部

Claims

　第１の音源分離方式により混合音信号から分離された所定の音源の第１の音源分離信号と、前記第１の音源分離方式と所定時間単位で分離性能が異なる第２の音源分離方式により前記混合音信号から分離された前記音源の第２の音源分離信号とを結合し、前記結合により得られた音源分離信号を出力する結合部を備える
　音源分離装置。
　前記結合部は、結合パラメータに基づいて前記第１の音源分離信号と前記第２の音源分離信号とを線型結合する
　請求項１に記載の音源分離装置。
　前記第１の音源分離信号について得られた前記音源の信号である確からしさと、前記第２の音源分離信号について得られた前記音源の信号である確からしさとに基づいて、前記結合パラメータを決定する結合パラメータ決定部をさらに備える
　請求項２に記載の音源分離装置。
　前記分離性能はSIR、SAR、SDR、またはISRである
　請求項１に記載の音源分離装置。
　前記第１の音源分離方式の分離性能と前記第２の音源分離方式の分離性能との大小関係が時間によって変化する
　請求項１に記載の音源分離装置。
　前記第１の音源分離方式と前記第２の音源分離方式は同じ音源分離方式である
　請求項１に記載の音源分離装置。
　前記第１の音源分離方式はFNN、RNN、およびNMFの何れかであり、前記第２の音源分離方式はFNN、RNN、およびNMFの何れかである
　請求項１に記載の音源分離装置。
　第１の音源分離方式により混合音信号から分離された所定の音源の第１の音源分離信号と、前記第１の音源分離方式と所定時間単位で分離性能が異なる第２の音源分離方式により前記混合音信号から分離された前記音源の第２の音源分離信号とを結合し、前記結合により得られた音源分離信号を出力する
　ステップを含む音源分離方法。
　第１の音源分離方式により混合音信号から分離された所定の音源の第１の音源分離信号と、前記第１の音源分離方式と所定時間単位で分離性能が異なる第２の音源分離方式により前記混合音信号から分離された前記音源の第２の音源分離信号とを結合し、前記結合により得られた音源分離信号を出力する
　ステップを含む処理をコンピュータに実行させるプログラム。