WO2023276235A1

WO2023276235A1 - プログラム、情報処理方法、記録媒体および情報処理装置

Info

Publication number: WO2023276235A1
Application number: PCT/JP2022/005007
Authority: WO
Inventors: 慶一大迫; 祐基光藤; 充奨沢田
Original assignee: ソニーグループ株式会社
Priority date: 2021-06-29
Filing date: 2022-02-09
Publication date: 2023-01-05
Also published as: JPWO2023276235A1; CN117616500A; EP4365897A1

Abstract

例えば、音源分離性能を低下させることなく演算回数を削減する。　ニューラルネットワーク部が、複数の音源信号が含まれる混合音信号から所定の音源信号を分離するための音源分離情報を生成し、ニューラルネットワーク部が有するエンコーダが、混合音信号から抽出された特徴量を変換し、ニューラルネットワーク部が有する複数のサブニューラルネットワーク部のそれぞれに対してエンコーダの処理結果が入力され、ニューラルネットワーク部が有するデコーダに対して、エンコーダの処理結果、および、複数のサブニューラルネットワーク部のそれぞれの処理結果が入力される情報処理方法をコンピュータに実行させるプログラムである。

Description

プログラム、情報処理方法、記録媒体および情報処理装置

　本開示は、プログラム、情報処理方法、記録媒体および情報処理装置に関する。

　複数の音源信号が含まれる混合音信号から、目的とする音源信号を抽出する音源分離技術が知られている。例えば、特許文献１は、ＤＮＮ（Deep Neural Network）を用いた音源分離技術を開示する。

国際公開２０１８／０４７６４３号

　ＤＮＮを用いた手法は高い音源分離性能が得られるものの、乗算や加算の演算量が多くなってしまう。また、高い音源分離性能を得られるＤＮＮでは、用いられる係数の数が多くなるため、当該係数を記憶するメモリの容量も大きくする必要があるという問題があった。

　本開示は、一定以上の音源分離性能を得つつ、演算量をできるだけ抑制するようにしたプログラム、情報処理方法、記録媒体および情報処理装置を提供することを目的の一つとする。

　本開示は、例えば、
　ニューラルネットワーク部が、複数の音源信号が含まれる混合音信号から所定の音源信号を分離するための音源分離情報を生成し、
　ニューラルネットワーク部が有するエンコーダが、混合音信号から抽出された特徴量を変換し、
　ニューラルネットワーク部が有する複数のサブニューラルネットワーク部のそれぞれに対してエンコーダの処理結果が入力され、
　ニューラルネットワーク部が有するデコーダに対して、エンコーダの処理結果、および、複数のサブニューラルネットワークのそれぞれの処理結果が入力される
　情報処理方法をコンピュータに実行させるプログラムである。

　本開示は、例えば、
　ニューラルネットワーク部が、複数の音源信号が含まれる混合音信号から所定の音源信号を分離するための音源分離情報を生成し、
　ニューラルネットワーク部が有するエンコーダが、混合音信号から抽出された特徴量を変換し、
　ニューラルネットワーク部が有する複数のサブニューラルネットワーク部のそれぞれに対してエンコーダの処理結果が入力され、
　ニューラルネットワーク部が有するデコーダに対して、エンコーダの処理結果、および、複数のサブニューラルネットワークのそれぞれの処理結果が入力される
　情報処理方法である。

　本開示は、例えば、
　ニューラルネットワーク部が、複数の音源信号が含まれる混合音信号から所定の音源信号を分離するための音源分離情報を生成し、
　ニューラルネットワーク部が有するエンコーダが、混合音信号から抽出された特徴量を変換し、
　ニューラルネットワーク部が有する複数のサブニューラルネットワーク部のそれぞれに対してエンコーダの処理結果が入力され、
　ニューラルネットワーク部が有するデコーダに対して、エンコーダの処理結果、および、複数のサブニューラルネットワークのそれぞれの処理結果が入力される
　情報処理方法をコンピュータに実行させるプログラムを記録した記録媒体である。

　本開示は、例えば、
　複数の音源信号が含まれる混合音信号から所定の音源信号を分離するための音源分離情報を生成するニューラルネットワーク部を備え、
　ニューラルネットワーク部は、
　混合音信号から抽出された特徴量を変換するエンコーダと、
　エンコーダの処理結果が入力される複数のサブニューラルネットワーク部と、
　エンコーダの処理結果、および、複数のサブニューラルネットワークのそれぞれの処理結果が入力されるデコーダと
　を備える
　情報処理装置である。

　本開示は、例えば、
　複数のニューラルネットワーク部のそれぞれが、複数の音源信号が含まれる混合音信号から異なる音源信号を分離するための音源分離情報を生成し、
　複数のニューラルネットワーク部のうちの一つのニューラルネットワーク部が備えるエンコーダが、混合音信号から抽出された特徴量を変換し、
　エンコーダの処理結果が、複数のニューラルネットワーク部が備えるサブニューラルネットワーク部のそれぞれに入力される
　情報処理方法をコンピュータに実行させるプログラムである。

　本開示は、例えば、
　複数のニューラルネットワーク部のそれぞれが、複数の音源信号が含まれる混合音信号から異なる音源信号を分離するための音源分離情報を生成し、
　複数のニューラルネットワーク部のうちの一つのニューラルネットワーク部が備えるエンコーダが、混合音信号から抽出された特徴量を変換し、
　エンコーダの処理結果が、複数のニューラルネットワーク部が備えるサブニューラルネットワーク部のそれぞれに入力される
　情報処理方法である。

　本開示は、例えば、
　複数のニューラルネットワーク部のそれぞれが、複数の音源信号が含まれる混合音信号から異なる音源信号を分離するための音源分離情報を生成し、
　複数のニューラルネットワーク部のうちの一つのニューラルネットワーク部が備えるエンコーダが、混合音信号から抽出された特徴量を変換し、
　エンコーダの処理結果が、複数のニューラルネットワーク部が備えるサブニューラルネットワーク部のそれぞれに入力される
　情報処理方法をコンピュータに実行させるプログラムを記録した記録媒体である。

　本開示は、例えば、
　複数の音源信号が含まれる混合音信号から所定の音源信号を分離するための音源分離情報を生成するニューラルネットワーク部を複数備え、
　それぞれのニューラルネットワーク部は、
　サブニューラルネットワーク部と、
　サブニューラルネットワークの処理結果が入力されるデコーダと
　を備え、
　複数のニューラルネットワーク部のうちの一つのニューラルネットワーク部は、
　混合音信号から抽出された特徴量を変換するエンコーダを備え、
　エンコーダの処理結果が、複数のニューラルネットワーク部が備えるサブニューラルネットワーク部のそれぞれに入力される
　情報処理装置である。

図１は、本開示に関連する技術についての説明がなされる際に参照されるブロック図である。図２は、本開示に関連する技術についての説明がなされる際に参照されるブロック図である。図３は、本開示に関連する技術についての説明がなされる際に参照されるブロック図である。図４は、第１の実施形態に係る情報処理装置の構成例を示すブロック図である。図５は、第１の実施形態に係る情報処理装置で行われる処理の流れを示すフローチャート図である。図６は、第１の実施形態により得られる効果についての説明がなされる際に参照される図である。図７は、第２の実施形態に係る情報処理装置の構成例を示すブロック図である。図８は、第２の実施形態に係る情報処理装置で行われる処理の流れを示すフローチャート図である。図９は、第３の実施形態に係る情報処理装置の構成例を示すブロック図である。図１０は、実施形態で得られる効果の一例を説明するための図である。図１１は、変形例を説明するための図である。

　以下、本開示の実施形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
＜本開示に関連する技術＞
＜第１の実施形態＞
＜第２の実施形態＞
＜第３の実施形態＞
＜変形例＞
　以下に説明する実施形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施形態等に限定されるものではない。

＜本開示に関連する技術＞
　始めに、本開示の理解を容易とするために、本開示に関連する技術について説明する。図１は、本開示に関連する技術に係る情報処理装置（情報処理装置１Ａ）の構成例を示すブロック図である。情報処理装置１Ａは、複数の音源信号（例えば、ボーカルや伴奏音を構成するそれぞれの楽器音）が含まれる混合音信号から所望の音源信号を分離する音源分離装置である。具体的には、情報処理装置１Ａは、スマートホンやパーソナルコンピュータ、車載機器に組み込まれる。例えば、情報処理装置１Ａを用いて、ＣＤ(Compact Disc)や半導体メモリ等のメディアに記憶された混合音信号やインターネット等のネットワークを介して配信される混合音信号から伴奏音信号が分離される。分離された伴奏音信号が再生される。伴奏音信号の再生にあわせてユーザーは歌唱を行う。これにより、ユーザーは、伴奏音信号そのものを用意しなくてもカラオケを気軽に行うことが可能となる。勿論、情報処理装置１Ａの用途はカラオケに限定されることはない。情報処理装置１Ａの音源分離結果を用いてテキストの書き起こし処理等が行われてもよい。なお、情報処理装置１Ａにより行われる音源分離処理は、オンライン（リアルタイム）処理で行われてもよいし、オフライン（バッチ）処理で行われてもよい。

　図１に示すように、情報処理装置１Ａは、概略的には、特徴量抽出部２、ＤＮＮ部３、演算部の一例である乗算部４、および、分離音源信号生成部５を備えている。混合音信号が特徴量抽出部２に入力される。また、分離音源信号生成部５からは、混合音信号から分離された音源信号（以下、分離音源信号ＳＡとも適宜、称する）が出力される。上述したように、混合音信号は、複数の音源信号が混合された信号であり、ＰＣＭ(Pulse Code Modulation)等によってデジタル化された信号である。混合音信号のソース源は、記録媒体、ネットワーク上のサーバー装置等、何でもよい。

　特徴量抽出部２は、混合音信号の特徴量を抽出する特徴量抽出処理を行う。例えば、特徴量抽出部２は、混合音信号のデータを所定長の一定区間（フレーム）ごとに切り出し、切り出したそれぞれのフレームに対して周波数変換（例えば、短時間フーリエ変換）を行う。係る周波数変換処理により、周波数スペクトルの時系列信号を得る。例えば、フレーム長を２０４８とした場合、周波数変換長も同じく２０４８とし、エイリアス周波数以下である１０２５の周波数スペクトルに変換される。すなわち、特徴量抽出部２の処理により、特徴量の一例として周波数スペクトル、具体的には多次元ベクトル（本例では、次元数が１０２５次元のベクトル）が得られる。特徴量抽出部２の処理結果が、後段のＤＮＮ部３に供給される。

　ＤＮＮ部３は、混合音信号から所定の音源信号を分離するための音源分離情報を生成する。具体的には、ＤＮＮ３は、音源分離情報を生成するように機械学習によって設計された人間の脳神経回路（ニューラルネットワーク）をモデルとした多階層構造のアルゴリズムである。

　ＤＮＮ部３は、特徴量抽出部２により混合音信号から抽出された特徴量を変換するエンコーダ３１と、エンコーダ３１の処理結果が入力されるサブニューラルネットワーク部３２と、エンコーダ３１の処理結果、および、サブニューラルネットワーク部３２のそれぞれの処理結果が入力されるデコーダ３３とを備える。

　エンコーダ３１は、１または複数のアフィン変換部を備える。アフィン変換部は、下記の式（１）に示される処理を行う。
ｙ＝ｆ(Ｗｘ＋ｂ)　・・・（１）
但し、式（１）におけるｘは入力ベクトル、ｙは出力ベクトル、Ｗは得られる重み係数、ｂはバイアス係数、ｆは非線形関数である。
Ｗおよびｂの値は、大量のデータセットを用いて事前に学習を行うことにより得られる数値である。
非線形関数ｆとしては、例えばＲｅＬＵ(Rectified Linear Unit)関数、Ｓｉｇｍｏｉｄ関数等を適用することができる。

　本例では、エンコーダ３１は、第１アフィン変換部３１Ａおよび第２アフィン変換部３１Ｂを備える。エンコーダ３１が備えるアフィン変換部の数は、音源分離の一定以上の性能を確保できるように適切に設定される。エンコーダ３１は、例えば、特徴量のサイズを圧縮することにより特徴量の変換を行う。より具体的には、エンコーダ３１は、多次元ベクトルの次元数を圧縮する。

　サブニューラルネットワーク部３２は、ＤＮＮ部３内に存在するニューラルネットワークである。サブニューラルネットワーク部３２としては、現在の入力に対して時間的に過去および未来の少なくとも一方で得られた処理結果を利用する回帰型ニューラルネットワーク（ＲＮＮ（Recurrent Neural Network））を用いることができる。未来の処理結果は、バッチ処理の場合に利用することが可能である。回帰型ニューラルネットワークとしては、ＧＲＵ（Gated Recurrent Unit）またはＬＳＴＭ(Long Short Term Memory)をアルゴリズムとして用いるニューラルネットワークを適用することができる。

　サブニューラルネットワーク部３２は、第１ＲＮＮ部３２Ａ、第２ＲＮＮ部３２Ｂ、および、第３ＲＮＮ部３２Ｃを備える。サブニューラルネットワーク部３２が備えるＲＮＮ部の数は、音源分離の一定以上の性能を確保できるように適切に設定される。各ＲＮＮ部が用いるパラメータは異なっており、当該パラメータは、各ＲＮＮ部のＲＯＭ(Read Only Memory)やＲＡＭ(Random Access Memory)（これらの図示は省略している。）に記憶されている。以下の説明において、ＲＯＭやＲＡＭを特に区別する必要がない場合は、メモリセルと適宜、称する。エンコーダ３１の処理結果に対して、第１ＲＮＮ部３２Ａ、第２ＲＮＮ部３２Ｂ、および、第３ＲＮＮ部３２Ｃによる処理が順次、行われる。

　デコーダ３３は、エンコーダ３１の処理結果およびサブニューラルネットワーク部３２の処理結果に基づいて、音源分離情報を生成する。デコーダ３３は、例えば、第３アフィン変換部３３Ａおよび第４アフィン変換部３３Ｂを備える。第３アフィン変換部３３Ａは、エンコーダ３１の処理結果、すなわち、サブニューラルネットワーク部３２をスキップした処理結果と、サブニューラルネットワーク部３２の出力とを連結する（スキップコネクションとも称される。）。第４アフィン変換部３３Ｂは、第３アフィン変換部３３Ａの処理結果に上述した数（１）に示されるアフィン変換を行う。第３、第４アフィン変換部３３Ａ、３３Ｂの処理により、エンコーダ３１により圧縮された特徴量が復元され、これにより、音源分離情報の一例であるマスクが得られる。マスク情報がＤＮＮ部３から出力され乗算部４に供給される。

　乗算部４は、特徴量抽出部２により抽出された特徴量に対して、ＤＮＮ部３から供給されたマスクを乗算する。マスクを周波数スペクトルに乗算することによって、その周波数帯域の信号をそのまま通過（マスクにおける所定の数値＝１）させたり、遮断（マスクにおける所定の数値＝０）させたりすることができる。すなわち、分離対象音源の周波数スペクトルのみを通過させ、非分離対象音の周波数スペクトルを遮断するためのマスクをＤＮＮ部３で推定しているということができる。

　分離音源信号生成部５は、乗算部４の演算結果を時間軸上の信号に戻す処理（例えば、短時間フーリエ逆変換）を行う。これにより、所望の音源信号（分離対象の音源信号であり時間軸上の信号）が生成される。分離音源信号生成部５により生成された分離音源信号ＳＡがアプリケーションに応じた用途で用いられる。

　図２は、ＤＮＮ部３を構成する各モジュールの入出力サイズの一例を示す。第１アフィン変換部３１Ａには入力として１０２５次元の周波数スペクトルが入力され、これに対して第１アフィン変換部３１Ａはアフィン変換を行うことにより２５６次元のベクトルを出力する。第２アフィン変換部３１Ｂには入力として２５６次元の周波数スペクトル（第１アフィン変換部３１Ａの出力）が入力され、これに対して第２アフィン変換部３１Ｂはアフィン変換を行うことにより２５６次元のベクトルを出力する。このように、第１アフィン変換部３１Ａおよび第２アフィン変換部３１Ｂにより本実施形態ではサブニューラルネットワーク部３２に入力される多次元ベクトルのサイズ（次元数）を小さくしている。これによりＤＮＮ部３の汎化性能を向上させることができる。

　第１ＲＮＮ部３２Ａ、第２ＲＮＮ部３２Ｂ、および、第３ＲＮＮ部３２Ｃでは、２５６次元の多次元ベクトルを入力し、そのままの次元数で出力している。

　第３アフィン変換部３３Ａは、第２アフィン変換部３１Ｂと第３ＲＮＮ部３２Ｃの出力とを連結した５１２次元のベクトルを入力とする。サブニューラルネットワーク部３２の処理を行う前のベクトルを連結することによりＤＮＮ部３の性能を向上させることができる。第３アフィン変換部３３Ａは、５１２次元のベクトルを入力とし、当該入力に対してアフィン変換を行うことにより２５６次元のベクトルを出力する。第４アフィン変換部３３Ｂは、２５６次元のベクトルを入力とし、当該入力に対してアフィン変換を行うことにより１０２５次元のベクトルを出力する。１０２５次元のベクトルは、特徴量抽出部２から供給される周波数スペクトルに対して乗算部４で乗算されるマスクに対応する。なお、ＤＮＮ部３を構成するモジュールの連結数や、各入出力のベクトルサイズは一例であり、データセットによって効果的な構成は異なる。

　図３は、他の情報処理装置（情報処理装置１Ｂ）の構成例を示すブロック図である。情報処理装置１Ａは混合音信号から１つの音源信号を分離する構成であったが、情報処理装置１Ｂは混合音信号から２つの音源信号を分離する。例えば、情報処理装置１Ｂは、混合音信号から分離音源信号ＳＡおよび分離音源信号ＳＢを分離する。

　図３に示すように、情報処理装置１Ｂは、情報処理装置１Ａの構成に加えて、ＤＮＮ部６、乗算部７、および、分離音源信号生成部８を備える。ＤＮＮ部６は、エンコーダ６１、サブニューラルネットワーク部６２、および、デコーダ６３を備える。エンコーダ６１は、第１アフィン変換部６１Ａおよび第２アフィン変換部６１Ｂを有する。サブニューラルネットワーク部６２は、第１ＲＮＮ部６２Ａ、第２ＲＮＮ部６２Ｂ、および、第３ＲＮＮ部６２Ｃを備える。デコーダ６３は、第３アフィン変換部６３Ａおよび第４アフィン変換部６３Ｂを備える。

　ＤＮＮ部６の動作の流れは、概略的には、ＤＮＮ部３と略同じである。すなわち、ＤＮＮ部６は、特徴量抽出部２により抽出された混合音信号の特徴量に対してＤＮＮ部３と同様の処理を行う。これにより、分離音源信号ＳＢを得るためのマスクが生成される。係るマスクが乗算部７で混合音信号の特徴量に乗算される。乗算結果が分離音源信号生成部８により時間軸上の信号に変換されることで、分離音源信号ＳＢが生成される。

　なお、ＤＮＮ３およびＤＮＮ部６の学習は個別に行われる。すなわち、それぞれのＤＮＮ部におけるモジュールの配置は同様であっても、アフィン変換部における重み係数やバイアス係数、ＲＮＮ部で用いられる係数の値は異なっており、分離対象の音源信号に対応して最適化されている。このように、分離対象の音源信号数がＮ倍に増えると、ＤＮＮ部に要する積和回数およびメモリセルの使用量はＮ倍に増加する。係る点に鑑みてなされた本開示の詳細について実施形態により詳細に説明する。

＜第１の実施形態＞
［情報処理装置の構成例］
　図４は、第１の実施形態に係る情報処理装置（情報処理装置１００）の構成例を示すブロック図である。なお、情報処理装置１００が備える構成のうち、情報処理装置１Ａまたは情報処理装置１Ｂと同様の構成については同一の参照符号を付して重複した説明を適宜、省略する。また、特に断らない限り、情報処理装置１Ａ、１Ｂについて説明した事項は、各実施形態に適用可能である。

　情報処理装置１００は、ＤＮＮ部３に代えてＤＮＮ部１１を備えている。ＤＮＮ部１１は、混合音信号から所定の音源信号（例えば、分離音源信号ＳＡ）を分離して出力するためのマスクを生成する。

　ＤＮＮ部１１は、上述したエンコーダ３１およびデコーダ３３を備えている。また、ＤＮＮ部１１は、複数のサブニューラルネットワーク部、具体的には、並列に配置された２つのサブニューラルネットワーク部（サブニューラルネットワーク部１２、１３）を備えている。サブニューラルネットワーク部１２は、第１ＲＮＮ部１２Ａ、第２ＲＮＮ部１２Ｂ、および、第３ＲＮＮ部１２Ｃを備えている。また、サブニューラルネットワーク部１３は、第１ＲＮＮ部１３Ａ、第２ＲＮＮ部１３Ｂ、および、第３ＲＮＮ部１３Ｃを備えている。各サブニューラルネットワーク部は、自身への入力に対してＲＮＮに基づく処理を行う。

　エンコーダ３１の出力が分割される。エンコーダ３１から２５６次元のベクトルが出力される場合（図２参照）、ベクトルの次元数を２分割して、１２８次元の第１ベクトルおよび１２８次元の第２ベクトルを生成する。係る処理は、例えば、エンコーダ３１で行われる。第１ベクトルが例えばサブニューラルネットワーク部１２に入力され、第２ベクトルが例えばサブニューラルネットワーク部１３に入力される。サブニューラルネットワーク部１２は、第１ベクトルに対してＲＮＮを用いた処理を行うことにより１２８次元のベクトルを出力する。また、サブニューラルネットワーク部１３は、第２ベクトルに対してＲＮＮを用いた処理を行うことにより１２８次元のベクトルを出力する。

　次に、デコーダ３３の第３アフィン変換部３３Ａは、サブニューラルネットワーク部１２から出力された１２８次元のベクトル、サブニューラルネットワーク部１３から出力された１２８次元のベクトル、および、エンコーダ３１から出力される２５６次元のベクトルを連結し、連結したベクトルに対してアフィン変換を行う。その他の処理は情報処理装置１Ａと同様であるので重複した説明を省略する。

［処理の流れ］
　図５に示すフローチャートを参照しつつ、情報処理装置１００で行われる処理の流れについて説明する。

　処理が開始されると、ステップＳＴ１では、ＤＮＮ部３を構成する各モジュールが、不図示のＲＯＭ等に記憶されている係数を読み込む。そして、処理がステップＳＴ２に進む。

　ステップＳＴ２では、混合音信号が情報処理装置１００に入力される。そして、処理がステップＳＴ３に進む。

　ステップＳＴ３では、特徴量抽出部２が、混合音信号から特徴ベクトルを抽出する。例えば１０２５次元の特徴ベクトルが、ＤＮＮ部１１のエンコーダ３１に入力される。そして、処理がステップＳＴ４に進む。

　ステップＳＴ４では、エンコーダ３１、具体的には、第１アフィン変換部３１Ａおよび第２アフィン変換部３１Ｂによるエンコード処理が行われる。処理の結果、第２アフィン変換部３１Ｂからは、例えば２５６次元のベクトルが出力される。そして、処理がステップＳＴ５に進む。

　ステップＳＴ５では、２５６次元のベクトルが均等に２分割されることで、１２８次元の２つのベクトル（第１、第２ベクトル）が生成される。第１ベクトルがサブニューラルネットワーク部１２に入力され、第２ベクトルがサブニューラルネットワーク部１３に入力される。なお、ステップＳＴ５に係る処理がステップＳＴ４のエンコード処理に含まれていてもよい。そして、処理がステップＳＴ６、ＳＴ７に進む。

　ステップＳＴ６では、第１ベクトルを用いたサブニューラルネットワーク部１２による処理が行われる。また、ステップＳＴ７では、第２ベクトルを用いたサブニューラルネットワーク部１３による処理が行われる。なお、ステップＳＴ６、ＳＴ７に係る処理は並列的に行われてもよいし、順に行われるようにしてもよい。そして、処理がステップＳＴ８に進む。

　ステップＳＴ８では、ベクトルを連結する処理が行われる。この処理は、例えば、デコーダ３３により行われる。第３アフィン変換部３３Ａは、第２アフィン変換部３１Ｂから出力される２５６次元のベクトル、サブニューラルネットワーク部１２から出力される１２８次元のベクトル、および、サブニューラルネットワーク部１３から出力される１２８次元のベクトルを連結することにより５１２次元のベクトルを生成する。そして、処理がステップＳＴ９に進む。

　ステップＳＴ９では、デコーダ３３の第３アフィン変換部３３Ａおよび第４アフィン変換部３３Ｂによるデコード処理が行われる。デコード処理により、第４アフィン変換部３３Ｂからは、１０２５次元のベクトルで表されるマスクが出力される。なお、上述したステップＳＴ８の処理がステップＳＴ９のデコード処理に含まれていてもよい。そして、処理がステップＳＴ１０に進む。

　ステップＳＴ１０では、乗算処理が行われる。具体的には、乗算部４が、特徴量抽出部２から出力されるベクトルに対して、ＤＮＮ部１１で得られたマスクを乗算する。そして、処理がステップＳＴ１１に進む。

　ステップＳＴ１１では、分離音源信号生成処理が行われる。具体的には、分離音源信号生成部５が、乗算部４の演算により得られる周波数スペクトルを時間軸上の信号に変換する。そして、処理がステップＳＴ１２に進む。

　ステップＳＴ１２では、混合音信号の入力が継続中であるか否かが判断される。係る判断は、例えば情報処理装置１００の動作を統括的に制御するＣＰＵ（Central Processing Unit）（不図示）により行われる。混合音信号の入力がない場合（Ｎｏの場合）は処理が終了する。混合音信号の入力が継続している場合（Ｙｅｓの場合）は処理がステップＳＴ２に戻り、上述した処理が繰り返される。

［本実施形態により得られる効果］
　以上、説明した本実施形態により得られる効果の一例について説明する
　分割したベクトルのサイズの合計は、１２８＋１２８＝２５６次元であることから見かけ上は分割前と同じである。しかしながら、ＤＮＮ１１に記憶する係数量と積和演算回数は削減することができる。以下、具体例を挙げて説明する。

　例えば、サブニューラルネットワーク部１２（サブニューラルネットワーク部１３も同様）で行われるベクトル同士の乗算（行列演算）を考える。２５６次元のベクトル入力、２５６次元のベクトル出力である行列演算は、２５６×２５６＝６５５３６の乗算が発生する。一方、１２８次元に２分割した場合は、１２８次元の行列の掛け算を２回実施すればよいので、乗算回数は（１２８×１２８）×２＝３２７６８となり、分割しない場合と比べて小さい値となる。このように、大きな行列を用いるより、小さな行列を複数用いるほうが演算量的にはメリットがあることが分かる。ＧＲＵやＬＳＴＭといったＲＮＮ部のモジュール内には、入出力ベクトルサイズに依存する行列演算が複数存在するため、本実施形態に係る構成により効果的に演算量を削減することができる。

　一方で、演算回数を少なくできたとしても、それにより音源分離の精度が低下してしまうことは好ましくない。しかしながら、本実施形態では、音源分離の精度が低下してしまうことを極力、抑制できる。この点について、図６を参照して具体的に説明する。

　図６は、ＤＮＮ部が有する係数の数と音源分離性能の関係を示したグラフである。グラフの横軸（Number of Weights）は、ＤＮＮ部（アフィン変換部やサブニューラルネットワーク部）内に存在する係数の数であり、演算回数やＤＮＮ部の処理で必要なメモリセルの容量に略比例する値である。また、グラフの縦軸は、ＳＤＲ（Signal to Distortion Ratio）［ｄＢ］を示している。ＳＤＲは、対象の音源を分離した精度を表す指標であり、値が大きいほど分離性能が高いということを示す指標である。従って、図６に示されるグラフは、データが左上にプロットされるほど使用計算リソースが少なく、且つ、音源分離性能が高いということになる。

　ＤＮＮ部の構成を変化させた場合に、係数の数とＳＤＲとがどのように変化するかについて考察した。その結果、図６に示すように、４つのプロット（以下、パターンＰＡ、ＰＢ、ＰＣ、ＰＤと適宜、称する）を得た。本例では、ＲＮＮ部のアルゴリズムとしてはＧＲＵを用いた例について説明するが、他のアルゴリズムを使用した場合も同様の結果が得られる。

　図６におけるパターンＰＡは、一般的な構成（図１に示す構成）を用い、サブニューラルネットワーク部の入出力ベクトルサイズを２５６次元にした場合に対応する（1 Grouped-GRU [256]）。図６におけるパターンＰＢは、一般的な構成（図１に示す構成）を用い、サブニューラルネットワーク部の入出力ベクトルサイズを８４次元とした場合に対応する（1 Grouped-GRU [84]）。図６におけるパターンＰＣは、本実施形態に係る構成のように２つのサブニューラルネットワーク部を用い、それぞれの入出力ベクトルサイズを均等（１２８次元）に分割した場合に対応する（2 Grouped-GRU [128,128]）。図６におけるパターンＰＤは、４つのサブニューラルネットワーク部を用い、それぞれの入出力ベクトルサイズを不均等（１２８次元、６４次元、３２次元、３２次元）に分割した場合に対応する（4 Grouped-GRU [128,64,32,32]）。

　パターンＰＡに対応する構成、ベクトルサイズの場合は、係数の数が約２００００００、ＳＤＲが大凡１２．４になった。音源分離性能は高いものの、係数の数が多いため演算回数が多くなってしまう。一方で、パターンＰＢに対応する構成、ベクトルサイズ、すなわち、ＤＮＮ部の構成をパターンＰＡの場合と同じにし、ベクトルサイズを小さくした場合には、係数の数が約５０００００弱になり、演算回数を少なくすることができる。しかしながら、パターンＰＢの場合のＳＤＲは大凡１１．９となり、パターンＰＡの場合と比べて音源分離の性能が低下した。従って、単純に係数を削減するだけでは、音源分離の性能が低下してしまう。

　パターンＰＣに対応する構成、ベクトルサイズの場合は、係数の数が約１５０００００強となった。パターンＰＡよりも係数の数を少なくすることでき、演算回数を少なくすることができた。さらに、パターンＰＣに対応する構成、ベクトルサイズのＳＤＲは大凡１２．５強になり、一般的な構成に係るパターンＰＡよりも高い音源分離性能が得られた。また、パターンＰＤに対応する構成、ベクトルサイズの場合は、パターンＰＡよりも係数の数を削減でき（約１５０００００弱）、ＳＤＲも上回る結果を得られた。さらに、パターンＰＤに対応する構成、ベクトルサイズの場合は、パターンＰＣよりも係数の数を削減でき、ＳＤＲも略同じとなる結果を得られた。このように、パターンＰＣ、ＰＤともパターンＰＡ、ＰＢを結ぶラインよりも左上に位置しており、従来手法よりも演算回数を少なくしながら高い音源分離性能を獲得していることが確認された。

　以上から、本実施形態に係る情報処理装置によれば、一般的な構成に係る情報処理装置と比べて、演算回数を削減することができ、音源分離の性能を低下させることなく、むしろ向上させることができることが確認された。

　さらに、図６に示す結果から、サブニューラルネットワーク部の数は２つに限定されることなく、また、各サブニューラルネットワーク部に入力されるベクトルサイズが異なっていても（不均等に分割されても）よいことが確認された。

＜第２の実施形態＞
　次に、第２の実施形態について説明する。なお、特に断らない限り、第１の実施形態等で説明した事項は第２の実施形態に対しても適用可能である。

　図７は、第２の実施形態に係る情報処理装置（情報処理装置２００）の構成例を示すブロック図である。なお、図７では、図示のスペースの関係上、ＤＮＮ部３に係る構成を適宜、簡略化している。情報処理装置２００は、分離対象の音源が複数ある場合に対応する構成（例えば、図３に示した情報処理装置１Ｂの構成）において、エンコーダに係る構成を共通化したものである。

　図３に示した情報処理装置１Ｂでは、エンコーダがエンコーダ３１、６１と分離されていたが、処理の内容は混合音信号から抽出された特徴ベクトルのベクトルサイズ（本例では次元数）を圧縮するという同じ処理内容である。そこで、図６に示すように、情報処理装置２００では、複数のＤＮＮ部（例えば、ＤＮＮ部３、６）におけるエンコーダを共通化した。これにより、情報処理装置２００における演算負荷を低減することが可能となる。エンコーダ３１の出力は、ＤＮＮ部３のサブニューラルネットワーク部３２およびデコーダ３３、ＤＮＮ部６のサブニューラルネットワーク部６２およびデコーダ６３に入力される。その他の処理は、基本的に情報処理装置１Ｂと同じであるため、重複した説明を省略する。

［処理の流れ］
　図８に示すフローチャートを参照しつつ、情報処理装置２００で行われる処理の流れについて説明する。

　処理が開始されると、ステップＳＴ２１では、ＤＮＮ部３を構成する各モジュールが、不図示のＲＯＭ等に記憶されている係数を読み込む。そして、処理がステップＳＴ２２に進む。

　ステップＳＴ２２では、混合音信号が情報処理装置２００に入力される。そして、処理がステップＳＴ２３に進む。

　ステップＳＴ２３では、特徴量抽出部２が、混合音信号から特徴ベクトルを抽出する。例えば１０２５次元の特徴ベクトルが、ＤＮＮ部１１のエンコーダ３１に入力される。そして、処理がステップＳＴ２４に進む。

　ステップＳＴ２４では、エンコーダ３１、具体的には、第１アフィン変換部３１Ａおよび第２アフィン変換部３１Ｂによるエンコード処理が行われる。処理の結果、第２アフィン変換部３１Ｂからは、例えば次元数が２５６次元に圧縮されたベクトルが出力される。係るベクトルが、ＤＮＮ部３のサブニューラルネットワーク部３２およびデコーダ３３、ＤＮＮ部６のサブニューラルネットワーク部６２およびデコーダ６３に入力される。そして、処理がステップＳＴ２５、ＳＴ２９に進む。

　ステップＳＴ２５～ＳＴ２８に係る処理は、サブニューラルネットワーク部３２により行われる処理、デコーダ３３により行われるデコード処理、乗算部４により行われる乗算処理、分離音源信号生成部５により行われる分離音源信号生成処理である。分離音源信号生成処理に分離音源信号ＳＡが生成される。また、ステップＳＴ２９～ＳＴ３２に係る処理は、サブニューラルネットワーク部６２により行われる処理、デコーダ６３により行われるデコード処理、乗算部７により行われる乗算処理、分離音源信号生成部８により行われる分離音源信号生成処理である。分離音源信号生成処理に分離音源信号ＳＢが生成される。各処理の内容は既に説明してあるため重複した説明を適宜、省略する。ステップＳＴ２８、ＳＴ３２に係る処理について、ステップＳＴ３３に係る処理が行われる。

　ステップＳＴ３３では、混合音信号の入力が継続中であるか否かが判断される。係る判断は、例えば情報処理装置２００の動作を統括的に制御するＣＰＵ（不図示）により行われる。混合音信号の入力がない場合（Ｎｏの場合）は処理が終了する。混合音信号の入力が継続している場合（Ｙｅｓの場合）は処理がステップＳＴ２２に戻り、上述した処理が繰り返される。

　なお、情報処理装置２００において、デコーダおよびデコーダ６３を共通化してもよい。但し、デコーダ３３およびデコーダ６３のそれぞれへの入力は、それぞれの分離対象の音源信号に対して係数が最適化されたサブニューラルネットワーク部を経由したものである。従って、デコーダ３３の係数も分離対象の音源信号に対して係数が最適化されたほうが、音源分離の性能を低下させない観点から好ましい。従って、デコーダ３３およびデコーダ６３は、分離対象の音源信号毎に対応して設けられる構成が好ましい。

＜第３の実施形態＞
　次に、第３の実施形態について説明する。なお、特に断らない限り、第１、第２の実施形態等で説明した事項は第３の実施形態に対しても適用可能である。第３の実施形態は、概略的には、第１、第２の実施形態を組み合わせた構成である。

　図９は、第３の実施形態に係る情報処理装置（情報処理装置３００）の構成例を示すブロック図である。情報処理装置３００では、上述した情報処理装置２００のＤＮＮ部３に代えて第１の実施形態で説明したＤＮＮ部１１が用いられる。また、情報処理装置３００では、上述した情報処理装置２００のＤＮＮ部６に代えてＤＮＮ部６Ａが用いられる。ＤＮＮ部６Ａは、ＤＮＮ部６とサブニューラルネットワーク部の構成が異なる。すなわち、ＤＮＮ部６Ａは、第１の実施形態と同様に複数のサブニューラルネットワーク部を備える。ＤＮＮ部６Ａは、例えば、サブニューラルネットワーク部６５およびサブニューラルネットワーク部６６を備える。サブニューラルネットワーク部６５は、第１ＲＮＮ部６５Ａ、第２ＲＮＮ部６５Ｂ、および、第３ＲＮＮ部６５Ｃを備える。また、サブニューラルネットワーク部６６は、第１ＲＮＮ部６６Ａ、第２ＲＮＮ部６６Ｂ、および、第３ＲＮＮ部６６Ｃを備える。ＤＮＮ部６Ａがデコーダ６３を備える点は、ＤＮＮ部６と同じである。情報処理装置３００で行われる処理の内容は、第１、第２の実施形態等で説明しているため重複した説明を省略する。第３の実施形態でも第１、第２の実施形態と同様の効果を得ることができる。

＜実施形態で得られる効果のまとめ＞
　以上、説明した第１から第３の実施形態について、ＤＮＮ部で用いられる係数の数の具体的な数値例を図１０に示す。基本的な構成としては、一般的な構成（図１参照）、複数のサブニューラルネットワーク部を備える構成（図４参照）、エンコーダを共通化した構成（図７参照）、複数のサブニューラルネットワーク部を備え、且つ、エンコーダを共通化した構成（図９参照）の４パターンとした。分離対象の音源数は２音源または１０音源とし、分離対象の音源数に対応するようにサブニューラルネットワーク部を備える構成とした。

　図１０に示すように、一般的な構成において、分離対象の音源数が２音源の場合は、ＤＮＮ部で用いられる係数の数は大凡、４００００００であった。また、一般的な構成において、分離対象の音源数が１０音源の場合は、ＤＮＮ部で用いられる係数の数は大凡、２０００００００であった。他の構成におけるＤＮＮ部で用いられる係数の数は、一般的な構成におけるＤＮＮ部で用いられる係数の数を１００％とした相対的な値と、大凡の係数の数とにより示した。各ＲＮＮ部についてはＧＲＵアルゴリズムを採用し、複数のサブニューラルネットワーク部を備える構成については入出力ベクトルサイズを均等に分割した場合の値とした。

　複数のサブニューラルネットワーク部を備える構成では、分離対象の音源数が２音源の場合は、ＤＮＮ部で用いられる係数の数は大凡３１０００００（７６％程度）であり、分離対象の音源数が１０音源の場合は、ＤＮＮ部で用いられる係数の数は大凡１５４０００００（約７６％）であった。すなわち、一般的な構成に対して係数の数を削減することができた。換言すれば、演算回数を削減することができた。

　エンコーダを共通化した構成では、音源数が多くなるほど、ＤＮＮ部で用いられる係数の数を削減することができた。（２音源の場合は、ＤＮＮ部で用いられる係数の数は大凡、３６０００００（７６％程度）であり、分離対象の音源数が１０音源の場合は、ＤＮＮ部で用いられる係数の数は大凡、１６２０００００（約８０％）であった。

　複数のサブニューラルネットワーク部を備え、且つ、エンコーダを共通化した構成では、ＤＮＮ部で用いられる係数の数をさらに削減することができた。（２音源の場合は、ＤＮＮ部で用いられる係数の数は大凡、２６３００００（６５％程度）であり、分離対象の音源数が１０音源の場合は、ＤＮＮ部で用いられる係数の数は大凡、１１３０００００（約５６％）であった。

＜変形例＞
　以上、本開示の複数の実施形態について説明したが、本開示は、上述した実施形態に限定されることはなく、本開示の趣旨を逸脱しない範囲で種々の変形が可能である。

　図１１に示すように、情報処理装置３００は、乗算部４および乗算部７の後段にフィルタ部９（ポストフィルタ）を備える構成であってもよい。フィルタ部９は、分離された複数の音源（図１１に示す例は２音源）信号を用いて、所望の音源信号をより高精度に分離する。例えば、乗算部４からは分離されたボーカル信号が出力され、乗算部７からは分離されたピアノの伴奏音信号が出力されたとする。フィルタ部９は、ピアノの伴奏音信号を参照しつつ、ボーカル信号に含まれるピアノの伴奏音信号の残成分（ノイズ成分）を除去することにより、ボーカル信号（分離音源信号ＳＡの一例）をより高い精度で分離する。係るフィルタ部９としては、シングルチャンネルウィナーフィルタ等の公知のフィルタを用いることができる。

　本開示は、１つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成を採用することもできる。例えば、特徴量抽出部がサーバー装置に設けられ、サーバー装置で特徴量抽出処理が行われてもよい。

　また、本開示は、装置、方法、プログラム、プログラムを記録した記録媒体、システム等、任意の形態により実現することもできる。例えば、上述した実施形態で説明した機能を行うプログラムをダウンロード可能とし、実施形態で説明した機能を有しない装置が当該プログラムをダウンロードしてインストールすることにより、当該装置において実施形態で説明した制御を行うことが可能となる。本開示は、このようなプログラムを配布するサーバーにより実現することも可能である。また、各実施形態、変形例で説明した事項は、適宜組み合わせることが可能である。また、本明細書で例示された効果により本開示の内容が限定して解釈されるものではない。

　本開示は、以下の構成も採ることができる。
（１）
　ニューラルネットワーク部が、複数の音源信号が含まれる混合音信号から所定の音源信号を分離するための音源分離情報を生成し、
　前記ニューラルネットワーク部が有するエンコーダが、前記混合音信号から抽出された特徴量を変換し、
　前記ニューラルネットワーク部が有する複数のサブニューラルネットワーク部のそれぞれに対して前記エンコーダの処理結果が入力され、
　前記ニューラルネットワーク部が有するデコーダに対して、前記エンコーダの処理結果、および、前記複数のサブニューラルネットワーク部のそれぞれの処理結果が入力される
　情報処理方法をコンピュータに実行させるプログラム。
（２）
　前記サブニューラルネットワーク部は、現在の入力に対して時間的に過去および未来の少なくとも一方で得られた処理結果を利用する回帰型ニューラルネットワークである
　（１）に記載のプログラム。
（３）
　前記回帰型ニューラルネットワークは、ＧＲＵ（Gated Recurrent Unit）またはＬＳＴＭ(Long Short Term Memory)をアルゴリズムとして用いるニューラルネットワークである
　（２）に記載のプログラム。
（４）
　前記エンコーダは、前記特徴量のサイズを圧縮することで前記変換を行う
　（１）から（３）までの何れかに記載のプログラム。
（５）
　前記特徴量および当該特徴量のサイズは、多次元のベクトルおよび当該ベクトルの次元数により規定され、
　前記エンコーダは、前記ベクトルの次元数を圧縮する
　（４）に記載のプログラム。
（６）
　前記特徴量のサイズが前記複数のサブニューラルネットワーク部の数に対応するように均等に分割され、
　分割されたサイズの各特徴量が、対応するサブニューラルネットワーク部に入力される
　（４）または（５）に記載のプログラム。
（７）
　前記特徴量のサイズが不均等に分割され、
　分割されたサイズの各特徴量が、対応するサブニューラルネットワーク部に入力される
　（４）または（５）に記載のプログラム。
（８）
　前記エンコーダは、１または複数のアフィン変換部により構成される
　（１）から（７）までの何れかに記載のプログラム。
（９）
　前記デコーダは、前記エンコーダの処理結果、および、前記複数のサブニューラルネットワークのそれぞれの処理結果に基づいて、前記音源分離情報を生成する
　（４）から（７）までの何れかに記載のプログラム。
（１０）
　前記デコーダは、１または複数のアフィン変換部により構成される
　（１）から（９）までの何れかに記載のプログラム。
（１１）
　特徴量抽出部が、前記混合音信号から前記特徴量を抽出する
　（１）から（１０）までの何れかに記載のプログラム。
（１２）
　演算部が、前記混合音信号の特徴量に対して前記デコーダから出力される音源分離情報を乗算する
　（１）から（１１）までの何れかに記載のプログラム。
（１３）
　分離音源信号生成部が、前記演算部の演算結果に基づいて前記所定の音源信号を生成する
　（１２）に記載のプログラム。
（１４）
　ニューラルネットワーク部が、複数の音源信号が含まれる混合音信号から所定の音源信号を分離するための音源分離情報を生成し、
　前記ニューラルネットワーク部が有するエンコーダが、前記混合音信号から抽出された特徴量を変換し、
　前記ニューラルネットワーク部が有する複数のサブニューラルネットワーク部のそれぞれに対して前記エンコーダの処理結果が入力され、
　前記ニューラルネットワーク部が有するデコーダに対して、前記エンコーダの処理結果、および、前記複数のサブニューラルネットワーク部のそれぞれの処理結果が入力される
　情報処理方法。
（１５）
　ニューラルネットワーク部が、複数の音源信号が含まれる混合音信号から所定の音源信号を分離するための音源分離情報を生成し、
　前記ニューラルネットワーク部が有するエンコーダが、前記混合音信号から抽出された特徴量を変換し、
　前記ニューラルネットワーク部が有する複数のサブニューラルネットワーク部のそれぞれに対して前記エンコーダの処理結果が入力され、
　前記ニューラルネットワーク部が有するデコーダに対して、前記エンコーダの処理結果、および、前記複数のサブニューラルネットワーク部のそれぞれの処理結果が入力される
　情報処理方法をコンピュータに実行させるプログラムを記録した記録媒体。
（１６）
　複数の音源信号が含まれる混合音信号から所定の音源信号を分離するための音源分離情報を生成するニューラルネットワーク部を備え、
　前記ニューラルネットワーク部は、
　前記混合音信号から抽出された特徴量を変換するエンコーダと、
　前記エンコーダの処理結果が入力される複数のサブニューラルネットワーク部と、
　前記エンコーダの処理結果、および、前記複数のサブニューラルネットワーク部のそれぞれの処理結果が入力されるデコーダと
　を備える
　情報処理装置。
（１７）
　複数のニューラルネットワーク部のそれぞれが、複数の音源信号が含まれる混合音信号から異なる音源信号を分離するための音源分離情報を生成し、
　前記複数のニューラルネットワーク部のうちの一つのニューラルネットワーク部が備えるエンコーダが、前記混合音信号から抽出された特徴量を変換し、
　前記エンコーダの処理結果が、複数の前記ニューラルネットワーク部が備えるサブニューラルネットワーク部のそれぞれに入力される
　情報処理方法をコンピュータに実行させるプログラム
（１８）
　それぞれの前記ニューラルネットワーク部は、複数の前記サブニューラルネットワーク部を備え、
　前記エンコーダの処理結果が、前記複数のサブニューラルネットワーク部のそれぞれに対して入力される
　（１７）に記載のプログラム。
（１９）
　それぞれの前記ニューラルネットワーク部が備える演算部が、前記混合音信号の特徴量に対して前記デコーダから出力される前記音源分離情報を乗算し、
　フィルタ部が、複数の前記演算部の処理結果に基づいて、前記所定の音源信号を分離する
　（１７）または（１８）に記載のプログラム。
（２０）
　複数のニューラルネットワーク部のそれぞれが、複数の音源信号が含まれる混合音信号から異なる音源信号を分離するための音源分離情報を生成し、
　前記複数のニューラルネットワーク部のうちの一つのニューラルネットワーク部が備えるエンコーダが、前記混合音信号から抽出された特徴量を変換し、
　前記エンコーダの処理結果が、複数の前記ニューラルネットワーク部が備えるサブニューラルネットワーク部のそれぞれに入力される
　情報処理方法。
（２１）
　複数のニューラルネットワーク部のそれぞれが、複数の音源信号が含まれる混合音信号から異なる音源信号を分離するための音源分離情報を生成し、
　前記複数のニューラルネットワーク部のうちの一つのニューラルネットワーク部が備えるエンコーダが、前記混合音信号から抽出された特徴量を変換し、
　前記エンコーダの処理結果が、複数の前記ニューラルネットワーク部が備えるサブニューラルネットワーク部のそれぞれに入力される
　情報処理方法をコンピュータに実行させるプログラムを記録した記録媒体。
（２２）
　複数の音源信号が含まれる混合音信号から所定の音源信号を分離するための音源分離情報を生成するニューラルネットワーク部を複数備え、
　それぞれの前記ニューラルネットワーク部は、
　サブニューラルネットワーク部と、
　前記サブニューラルネットワークの処理結果が入力されるデコーダと
　を備え、
　前記複数のニューラルネットワーク部のうちの一つのニューラルネットワーク部は、
　前記混合音信号から抽出された特徴量を変換するエンコーダを備え、
　前記エンコーダの処理結果が、複数の前記ニューラルネットワーク部が備える前記サブニューラルネットワーク部のそれぞれに入力される
　情報処理装置。

２・・・特徴量抽出部
４、７・・・乗算部
５、８・・・分離信号生成部
６、１１・・・ＤＮＮ部
９・・・フィルタ部
１２、１３・・・サブニューラルネットワーク部
３１・・・エンコーダ
３２・・・デコーダ
１００、２００、３００・・・情報処理装置

Claims

　ニューラルネットワーク部が、複数の音源信号が含まれる混合音信号から所定の音源信号を分離するための音源分離情報を生成し、
　前記ニューラルネットワーク部が有するエンコーダが、前記混合音信号から抽出された特徴量を変換し、
　前記ニューラルネットワーク部が有する複数のサブニューラルネットワーク部のそれぞれに対して前記エンコーダの処理結果が入力され、
　前記ニューラルネットワーク部が有するデコーダに対して、前記エンコーダの処理結果、および、前記複数のサブニューラルネットワーク部のそれぞれの処理結果が入力される
　情報処理方法をコンピュータに実行させるプログラム。
　前記サブニューラルネットワーク部は、現在の入力に対して時間的に過去および未来の少なくとも一方で得られた処理結果を利用する回帰型ニューラルネットワークである
　請求項１に記載のプログラム。
　前記回帰型ニューラルネットワークは、ＧＲＵ（Gated Recurrent Unit）またはＬＳＴＭ(Long Short Term Memory)をアルゴリズムとして用いるニューラルネットワークである
　請求項２に記載のプログラム。
　前記エンコーダは、前記特徴量のサイズを圧縮することで前記変換を行う
　請求項１に記載のプログラム。
　前記特徴量および当該特徴量のサイズは、多次元のベクトルおよび当該ベクトルの次元数により規定され、
　前記エンコーダは、前記ベクトルの次元数を圧縮する
　請求項４に記載のプログラム。
　前記特徴量のサイズが前記複数のサブニューラルネットワーク部の数に対応するように均等に分割され、
　分割されたサイズの各特徴量が、対応するサブニューラルネットワーク部に入力される
　請求項４に記載のプログラム。
　前記特徴量のサイズが不均等に分割され、
　分割されたサイズの各特徴量が、対応するサブニューラルネットワーク部に入力される
　請求項４に記載のプログラム。
　前記エンコーダは、１または複数のアフィン変換部により構成される
　請求項１に記載のプログラム。
　前記デコーダは、前記エンコーダの処理結果、および、前記複数のサブニューラルネットワークのそれぞれの処理結果に基づいて、前記音源分離情報を生成する
　請求項４に記載のプログラム。
　前記デコーダは、１または複数のアフィン変換部により構成される
　請求項１に記載のプログラム。
　特徴量抽出部が、前記混合音信号から前記特徴量を抽出する
　請求項１に記載のプログラム。
　演算部が、前記混合音信号の特徴量に対して前記デコーダから出力される音源分離情報を乗算する
　請求項１に記載のプログラム。
　分離音源信号生成部が、前記演算部の演算結果に基づいて前記所定の音源信号を生成する
　請求項１２に記載のプログラム。
　ニューラルネットワーク部が、複数の音源信号が含まれる混合音信号から所定の音源信号を分離するための音源分離情報を生成し、
　前記ニューラルネットワーク部が有するエンコーダが、前記混合音信号から抽出された特徴量を変換し、
　前記ニューラルネットワーク部が有する複数のサブニューラルネットワーク部のそれぞれに対して前記エンコーダの処理結果が入力され、
　前記ニューラルネットワーク部が有するデコーダに対して、前記エンコーダの処理結果、および、前記複数のサブニューラルネットワーク部のそれぞれの処理結果が入力される
　情報処理方法。
　ニューラルネットワーク部が、複数の音源信号が含まれる混合音信号から所定の音源信号を分離するための音源分離情報を生成し、
　前記ニューラルネットワーク部が有するエンコーダが、前記混合音信号から抽出された特徴量を変換し、
　前記ニューラルネットワーク部が有する複数のサブニューラルネットワーク部のそれぞれに対して前記エンコーダの処理結果が入力され、
　前記ニューラルネットワーク部が有するデコーダに対して、前記エンコーダの処理結果、および、前記複数のサブニューラルネットワーク部のそれぞれの処理結果が入力される
　情報処理方法をコンピュータに実行させるプログラムを記録した記録媒体。
　複数の音源信号が含まれる混合音信号から所定の音源信号を分離するための音源分離情報を生成するニューラルネットワーク部を備え、
　前記ニューラルネットワーク部は、
　前記混合音信号から抽出された特徴量を変換するエンコーダと、
　前記エンコーダの処理結果が入力される複数のサブニューラルネットワーク部と、
　前記エンコーダの処理結果、および、前記複数のサブニューラルネットワーク部のそれぞれの処理結果が入力されるデコーダと
　を備える
　情報処理装置。
　複数のニューラルネットワーク部のそれぞれが、複数の音源信号が含まれる混合音信号から異なる音源信号を分離するための音源分離情報を生成し、
　前記複数のニューラルネットワーク部のうちの一つのニューラルネットワーク部が備えるエンコーダが、前記混合音信号から抽出された特徴量を変換し、
　前記エンコーダの処理結果が、複数の前記ニューラルネットワーク部が備えるサブニューラルネットワーク部のそれぞれに入力される
　情報処理方法をコンピュータに実行させるプログラム。
　それぞれの前記ニューラルネットワーク部は、複数の前記サブニューラルネットワーク部を備え、
　前記エンコーダの処理結果が、前記複数のサブニューラルネットワーク部のそれぞれに対して入力される
　請求項１７に記載のプログラム。
　それぞれの前記ニューラルネットワーク部が備える演算部が、前記混合音信号の特徴量に対して前記デコーダから出力される前記音源分離情報を乗算し、
　フィルタ部が、複数の前記演算部の処理結果に基づいて、前記所定の音源信号を分離する
　請求項１８に記載のプログラム。
　複数のニューラルネットワーク部のそれぞれが、複数の音源信号が含まれる混合音信号から異なる音源信号を分離するための音源分離情報を生成し、
　前記複数のニューラルネットワーク部のうちの一つのニューラルネットワーク部が備えるエンコーダが、前記混合音信号から抽出された特徴量を変換し、
　前記エンコーダの処理結果が、複数の前記ニューラルネットワーク部が備えるサブニューラルネットワーク部のそれぞれに入力される
　情報処理方法。
　複数のニューラルネットワーク部のそれぞれが、複数の音源信号が含まれる混合音信号から異なる音源信号を分離するための音源分離情報を生成し、
　前記複数のニューラルネットワーク部のうちの一つのニューラルネットワーク部が備えるエンコーダが、前記混合音信号から抽出された特徴量を変換し、
　前記エンコーダの処理結果が、複数の前記ニューラルネットワーク部が備えるサブニューラルネットワーク部のそれぞれに入力される
　情報処理方法をコンピュータに実行させるプログラムを記録した記録媒体。
　複数の音源信号が含まれる混合音信号から所定の音源信号を分離するための音源分離情報を生成するニューラルネットワーク部を複数備え、
　それぞれの前記ニューラルネットワーク部は、
　サブニューラルネットワーク部と、
　前記サブニューラルネットワークの処理結果が入力されるデコーダと
　を備え、
　前記複数のニューラルネットワーク部のうちの一つのニューラルネットワーク部は、
　前記混合音信号から抽出された特徴量を変換するエンコーダを備え、
　前記エンコーダの処理結果が、複数の前記ニューラルネットワーク部が備える前記サブニューラルネットワーク部のそれぞれに入力される
　情報処理装置。