WO2022034675A1

WO2022034675A1 - 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法、および、学習プログラム

Info

Publication number: WO2022034675A1
Application number: PCT/JP2020/030808
Authority: WO
Inventors: 翼落合; マークデルクロア; 悠馬小泉; 弘章伊藤; 慶介木下; 章子荒木
Original assignee: 日本電信電話株式会社
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2022-02-17
Also published as: JP7485050B2; US20240038254A1; JPWO2022034675A1

Abstract

信号処理装置（１０）は、複数の音響クラスの音響信号が混合した混合音響信号から、どの音響クラスの音響信号を抽出対象とするかを示した対象クラスベクトルの入力を受け付ける。そして、信号処理装置（１０）は、ニューラルネットワークを用いて、対象クラスベクトルの埋め込み処理を行う。その後、信号処理装置（１０）は、混合音響信号の特徴量と、埋め込み処理後の対象クラスベクトルとを統合した特徴量を用いて、ニューラルネットワークにより、混合音響信号から、対象クラスベクトルの示す音響クラスの音響信号の抽出結果を出力する。

Description

信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法、および、学習プログラム

　本発明は、信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法、および、学習プログラムに関する。

　従来、音響イベントと呼ばれる多様な音響クラスが混ざった混合音響信号を分離する技術や、音響クラスを識別する技術が提案されている（１）。また、複数の人の音声が混ざった混合音声信号から特定の話者の音声のみを抽出する技術も検討されている（２）。例えば、事前登録した話者の音声を用いて、混合音声から当該話者の音声を抽出する技術（２）や、音源ごとに分離した音響それぞれからイベントを検出する技術（１）が存在する。

Katerina　Zmolikova,　et.　al.　"SpeakerBeam:　Speaker　Aware　Neural　Network　for　Target　Speaker　Extraction　in　Speech　Mixtures",　IEEE　JOURNAL　OF　SELECTED　TOPICS　IN　SIGNAL　PROCESSING,　VOL.　13,　NO.　4,　p.800-814.　、［2020年7月7日検索］、インターネット＜URL：https://www.fit.vutbr.cz/research/groups/speech/publi/2019/zmolikova_IEEEjournal2019_08736286.pdf＞ Ilya　Kavalerov,　et.　al.　"UNIVERSAL　SOUND　SEPARATION"、［2020年7月7日検索］、インターネット＜URL：https://arxiv.org/pdf/1905.03330.pdf＞

　しかし、上記の（１）および（２）の技術において、人の音声以外の音響（例えば、環境音等）の音響クラスの信号が複数混ざった混合音声信号の中から、ユーザが望む複数の音響クラスの音響信号を抽出する技術は検討されていない。また、上記の（１）および（２）の技術はいずれも、抽出対象の音響クラスの数が多くなるほど、計算量が増加するという問題がある。例えば、事前登録した話者の音声を用いて、混合音声から当該話者の音声を抽出する技術の場合、抽出対象の話者の数に比例して、計算量が増加する。また、音源ごとに分離した音響それぞれからイベントを検出する技術の場合、検出対象のイベントの数に比例して、計算量が増加する。

　そこで、本発明は、従来、人の音声にしか対応していなかった音響信号の抽出技術を、人の音声以外の音響信号にも拡張することを課題とする。また、本発明は、複数の音響クラスの音響信号を含む混合音響信号の中から、ユーザが望む音響クラスの音響信号を抽出する際、抽出対象の音響クラスの数に依存せず、一定の計算量で抽出できるようにすることを課題とする。

　前記した課題を解決するため、本発明は、複数の音響クラスの音響信号が混合した混合音響信号から、どの音響クラスの音響信号を抽出対象とするかを示す抽出対象情報の入力を受け付ける入力部と、前記混合音響信号の特徴量と、前記抽出対象情報とを用いて、ニューラルネットワークにより、前記混合音響信号から、前記抽出対象情報の示す音響クラスの音響信号の抽出結果を出力する信号処理部と、を備えることを特徴とする。

　本発明によれば、従来、人の音声にしか対応していなかった音響信号の抽出技術を、人の音声以外の音響信号にも拡張することができる。また、本発明によれば、複数の音響クラスの音響信号を含む混合音響信号の中から、ユーザが望む音響クラスの音響信号を抽出する際、抽出対象の音響クラスの数に依存せず、一定の計算量で抽出できる。

図１は、信号処理装置の構成例を示す図である。図２は、図１に示す信号処理装置の処理手順の例を示すフローチャートである。図３は、図２のＳ３の処理を詳細に説明するフローチャートである。図４は、学習装置の構成例を示す図である。図５は、図４の学習装置の処理手順の例を示すフローチャートである。図６は、実験結果を示す図である。図７は、実験結果を示す図である。図８は、プログラムを実行するコンピュータの構成例を示す図である。

　以下、図面を参照しながら、本発明を実施するための形態（実施形態）について説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

［第１の実施形態］
［概要］
　図７を参照しながら、第１の実施形態の信号処理装置の動作概要を説明する。信号処理装置は、事前に、ニューラルネットワークにより、複数の音響クラスの音響信号が混合した混合音響信号（Mixture）から、所定の音響クラス（例えば、図７に示す、keyboard、meow、telephone、knock）の音響信号を抽出するよう、モデルの学習をしておく。例えば、信号処理装置は、事前に、keyboard、meow、telephone、knockの音響クラスの音響信号を抽出するよう、モデルの学習しておく。その後、信号処理装置は、学習後のモデルを用いて、抽出対象の音響クラスxの時間領域波形を、例えば、以下の式（１）に示す音抽出ネットワークによって直接推定する。

　なお、式（１）において、yは混合音響信号であり、o：抽出対象の音響クラスを示す対象クラスベクトルである。

　例えば、抽出対象の音響クラスとして、図７の符号７０２に示すtelephoneおよびknockが指定された場合、信号処理装置は、符号７０１に示す混合音響信号から、telephoneおよびknockの時間領域波形として符号７０３に示す時間領域波形を抽出する。また、例えば、抽出対象の音響クラスとして、符号７０４に示すkeyboard、meow、telephoneおよびknockが指定された場合、信号処理装置は、符号７０１に示す混合音響信号から、keyboard、meow、telephoneおよびknockの時間領域波形として符号７０５に示す時間領域波形を抽出する。

　このような信号処理装置によれば、従来、人の音声にしか対応していなかった音響信号の抽出を、人の音声以外の音響信号（例えば、上記のkeyboard、meow、telephoneおよびknockの音響信号）の抽出にも適用することができる。また、このような信号処理装置によれば、混合音響信号の中から、ユーザが望む音響クラスの音響信号を抽出する際、抽出対象の音響クラスの数に依存せず、一定の計算量で抽出することができる。

［構成例］
　図１を用いて、信号処理装置１０の構成例を説明する。図１に示すように、信号処理装置１０は、入力部１１と、補助NN１２と、メインNN１３と、モデル情報１４とを備える。

　入力部１１は、複数の音響クラスの音響信号が混合した混合音響信号から、どの音響クラスの音響信号を抽出対象とするかを示した抽出対象情報の入力を受け付ける。この抽出対象情報は、例えば、混合音響信号から、どの音響クラスの音響信号を抽出対象とするかをベクトルで示した対象クラスベクトルoにより表される。対象クラスベクトルoは、例えば、n-hotベクトルであり、抽出対象の音響クラスに対応する要素をo_n=1とし、その他の要素は0としたベクトルである。例えば、図１示す対象クラスベクトルoは、knockおよびtelephoneの音響クラスの音響信号を抽出対象とすることを示す。

　補助NN１２は、上記の対象クラスベクトルoの埋め込み処理を行い、対象クラス埋め込み（c）をメインNN１３へ出力するニューラルネットワークである。例えば、補助NN１２は、上記の対象クラスベクトルoの埋め込み処理を行う埋め込み部１２１を備える。埋め込み部１２１は、例えば、対象クラスベクトルoを埋め込んだ対象クラス埋め込みcを、以下の式（２）に基づき計算する。

　ここで、W=[e₁,…,e_N]は、学習により得られる重みパラメータ群であり、e_nはn番目の音響クラスの埋め込みである。このW=[e₁,…,e_N]は、例えば、モデル情報１４に記憶される。なお、以降の説明では、補助NN１２で用いられるニューラルネットワークを第１のニューラルネットワークと呼ぶ。

　メインNN１３は、補助NN１２から受け取った対象クラス埋め込みcに基づき、混合音響信号から、抽出対象の音響クラスの音響信号を抽出するためのニューラルネットワークである。また、モデル情報１４は、各ニューラルネットワークの重み、バイアス等のパラメータを示した情報である。ここでモデル情報１４におけるパラメータの具体的な値は、例えば、後述の学習装置または学習方法において予め学習させることで求めた情報である。このモデル情報１４は、信号処理装置１０の記憶装置（図示省略）の所定領域に記憶される。

　メインNN１３は、第１変換部１３１と、統合部１３２と、第２変換部１３３とを備える。

　ここで、エンコーダは、音響信号を所定の特徴空間にマッピング、すなわち音響信号を特徴量ベクトルに変換するニューラルネットワークである。畳み込みブロックは、１次元の畳み込み及び正規化等を行うための層の集合である。また、デコーダは、所定の特徴空間上の特徴量を音響信号の空間にマッピングする、すなわち特徴量ベクトルを音響信号に変換するニューラルネットワークである。

　畳み込みブロック（1-D　Conv）、エンコーダ及びデコーダの構成は、文献１（Y.　Luo　and　N.　Mesgarani,　“Conv-TasNet:　Surpassing　ideal　time-frequency　magnitude　masking　for　speech　separation”,　IEEE/ACM　Trans.　ASLP,　vol.　27,　no.　8,　pp.　1256-1266,　2019.）に記載の構成と同様であってもよい。また、時間領域の音響信号は、文献１に記載の方法により得られたものであってもよい。また、以降の説明における各特徴量は、ベクトルで表されるものとする。

　第１変換部１３１は、混合音響信号を、ニューラルネットワークにより、第１の特徴量に変換する。例えば、第１変換部１３１は、ニューラルネットワークにより、混合音響信号を、H=｛h₁,…,h_F｝に変換する。ここで、h_f∈R^D×1はf番目のフレームにおける特徴を示し、Fはフレームの総数であり、Dは特徴空間の次元である。

　以降の説明では、第１変換部１３１で用いられるニューラルネットワークを第２のニューラルネットワークと呼ぶ。第２のニューラルネットワークは、メインNN１３の一部である。図１の例では、第２のニューラルネットワークは、エンコーダおよび畳み込みブロックを備える。なお、エンコーダは、上記のH=｛h₁,…,h_F｝の中間特徴量を第２変換部１３３へ出力する。

　統合部１３２は、混合音響信号の特徴量（第１の特徴量、上記のHに相当）と、対象クラス埋め込みcと統合し、第２の特徴量を生成する。例えば、統合部１３２は、いずれも同じ次元数のベクトルである第１の特徴量と対象クラス埋め込みcとの、要素ごとの積（element-wise　product）を計算することにより、上記の第２特徴量（Z=｛z₁,…,z_F｝）を生成する。

　ここで、統合部１２２は、ニューラルネットワークにおける層として実現される。図１に示すように、メインNN１３全体を見ると、当該層は、エンコーダに続く１番目の畳み込みブロックと２番目の畳み込みブロックとの間に挿入される。

　第２変換部１２３は、統合部１２２から出力された第２の特徴量を、ニューラルネットワークにより、出力用の情報（抽出結果）に変換する。出力用の情報は、入力された混合音声中の、指定された音響クラスの音響信号に対応する情報であり、音響信号そのものであってもよいし、音響信号を導出可能な所定の形式のデータであってもよい。

　なお、以降の説明では、第２変換部１３３で用いられるニューラルネットワークを第３のニューラルネットワークと呼ぶ。このニューラルネットワークも、メインNN１３の一部である。図１に示す例では、第３のニューラルネットワークは、１つ以上の畳み込みブロックおよびデコーダを備える。

　第２変換部１３３は、第１変換部１３１のエンコーダから出力されたH=｛h₁,…,h_F｝の中間特徴量と、第２変換部１３３の畳み込みブロックから出力された中間特徴量とを用いて、対象クラスベクトルoに対応する音響クラスの音響信号の抽出結果を得る。

［処理手順の例］
　次に、図２を用いて、信号処理装置１０の処理手順の例を説明する。信号処理装置１０の入力部１１は、抽出対象の音響クラスを示す対象クラスベクトルoの入力と混合音響信号の入力とを受け付ける（Ｓ１）。次に、信号処理装置１０は、補助NN１２を実行し、対象クラスベクトルoの埋め込み処理を行う（Ｓ２）。また、信号処理装置１０は、メインNN１３による処理を実行する（Ｓ３）。ここで、信号処理装置１０は、補助NN１２とメインNN１３を並行して実行してもよい。ただし、メインNN１３には補助NN１２の出力が使用されるため、補助NN１２の実行が完了するまでは、メインNN１３の実行は完了しない。

　次に、図３を用いて、図２のＳ３の処理を詳細に説明する。まず、メインNN１３の第１変換部１３１は、入力された時間領域の混合音響信号を第１の特徴量Hに変換する（Ｓ３１）。次に、統合部１３２は、図４のＳ２の処理により生成された対象クラス埋め込みcと、第１の特徴量Hとを統合し、第２の特徴量を生成する（Ｓ３２）。そして、第２変換部１３３は、Ｓ３２で生成された第２の特徴量を音響信号に変換し出力する（Ｓ３３）。

　このような信号処理装置１０によれば、ユーザが混合音響信号の中から抽出対象としたい音響クラスを対象クラスベクトルoにより指定することができる。また、信号処理装置１０は、混合音響信号の中から、ユーザから指定された音響クラスの音響信号を抽出する際、抽出対象の音響クラスの数に依存せず、一定の計算量で抽出することができる。

［第２の実施形態］
　第２の実施形態では、第１の実施形態の信号処理装置１０のモデル情報１４を生成するための学習処理を行う学習装置について説明する。第１の実施形態と同じ構成は同じ符号を付して説明を省略する。

［構成例］
　図４に示すように、学習装置２０は、第１の実施形態の信号処理装置１０と同様に、学習用データに対し、補助NN１２およびメインNN１３を実行する。例えば、学習用データは、混合音響信号y、対象クラスベクトルo、および、対象クラスベクトルoに対応する音響クラスの音響信号｛x_n｝^N _n=1（｛y,o,｛x_n｝^N _n=1｝）である。ここで、x_n∈R^Tは、n番目の音響クラスに対応する音響信号である。

　メインNN１３、補助NN１２は、第１の実施形態と同様の処理を行う。また、更新部１５は、メインNN１３による当該対象クラスベクトルoの示す音響クラスの音響信号の抽出結果が、当該対象クラスベクトルoに対応する音響クラスの音響信号に近づくよう、第１のニューラルネットワーク、第２のニューラルネットワークおよび第３のニューラルネットワークのパラメータを更新する。

　更新部２４は、例えば、誤差逆伝播法により、モデル情報２５に記憶される、各ニューラルネットワークのパラメータを更新していく。

　例えば、更新部２４は、対象クラスベクトルo（ユーザから入力される可能性のある対象クラスベクトルoの候補）を動的に生成する。例えば、更新部１５は、１つまたは複数の要素が１であり、その他は０となる対象クラスベクトルoを網羅的に生成する。また、更新部１５は、生成した対象クラスベクトルoに対応する音響クラスの音響信号を、以下の式（３）に基づき生成する。

　そして、更新部１５は、上記の式（３）により生成されるxの損失ができるだけ小さくなるように、各ニューラルネットワークのパラメータの更新を行う。例えば、更新部１５は、以下の式（４）に示す信号対雑音比（Signal-to-Noise　Ratio;SNR）の損失Lが最適化されるように各ニューラルネットワークのパラメータの更新を行う。

　なお、式（４）におけるx＾は、yとoから算出された、抽出対象の音響クラスの音響信号の推定結果を示す。また、ここでは、損失Lの計算に、対数平均二乗誤差（Mean　Squared　Error;MSE）を用いているが、これ以外の方法で損失Lを計算してもよい。

［処理手順の例］
　次に、図５を用いて、学習装置２０の処理手順の例を説明する。なお、混合音響信号yと、各音響クラスに対応する音響信号｛x_n｝^N _n=1は既に用意されているものとする。

　図５に示すように、更新部１５は、対象クラスベクトルを動的に生成する（Ｓ１１）。そして、音響信号｛x_n｝^N _n=１を用いて、Ｓ１１で生成した対応クラスベクトルに対応する音響信号を生成する（Ｓ１２）。また、メインNN１３は、混合音響信号の入力を受け付ける（Ｓ１３）。

　そして、学習装置２０は、Ｓ１１で生成した対象クラスベクトルそれぞれについて以下の処理を実行する。例えば、学習装置２０は、補助NN１２により、Ｓ１１で生成した対象クラスベクトルの埋め込み処理を行い（Ｓ１５）、メインNN１３による処理を実行する（Ｓ１６）。

　そして、更新部１５は、Ｓ１６による処理結果を用いて、モデル情報１４を更新する（Ｓ１７）。例えば、更新部１５は、前記した式（４）により計算される損失が最適化されるようにモデル情報１４を更新する。そして、更新により、所定の条件が満たされている場合、学習装置２０は、収束したと判定し（Ｓ１８でＹｅｓ）、処理を終了する。一方、更新後も所定の条件が満たされていない場合、学習装置２０が収束していないと判定し（Ｓ１８でＮｏ）、Ｓ１１に戻る。上記の所定の条件は、例えば、モデル情報１４の更新が所定の回数に到達したことや、損失の値が所定の閾値以下となったこと、パラメータの更新量（損失関数値の微分値等）が所定の閾値以下となったこと等である。

　学習装置２０が以上の処理を行うことで、様々な対象クラスベクトルoに対応する音響クラスの音響信号の学習を行うことができる。その結果、メインNN１３および補助NN１２は、ユーザから抽出対象の音響クラスを示す対象クラスベクトルoを受け付けると、当該対象クラスベクトルoの音響クラスの音響信号を抽出することができる。

［その他の実施形態］
　なお、信号処理装置１０および学習装置２０は、混合音響信号から、指定された音響クラスの音響信号を除去してもよい。この場合、信号処理装置１０および学習装置２０は、例えば、前記した式（３）の参照信号（音響信号｛x_n｝^N _n=1）を、除去対象の音響信号x=y-Σ^N _n=1o_nx_nに変更することによって音除去ネットワークを構築すればよい（直接推定方式）。また、信号処理装置１０および学習装置２０は、Sound　Selectorを使用して、混合音響信号から音響信号を抽出して軽減し、x=y-x^Sel.を生成してもよい（間接推定方式）。ここで、x^Sel.はSound　Selectorによる推定を表す。

［実験結果］
　ここで、本実施形態で述べた手法と従来の手法とを比較するために行った実験の結果を説明する。

　信号処理装置１０、学習装置２０として、積層させたdilated　convolutionブロックからなるConv-TasNetベースのネットワークアーキテクチャを採用した。以下の文献２の表記に従い、ハイパーパラメータを次のように設定した。N=256、L=20、B=256、H=512、P=3、X=8、R=4。

　文献２：Y.　Luo　and　N.　Mesgarani,　“Conv-TasNet:　Surpassing　ideal　time-frequency　magnitude　masking　for　speech　separation,”　IEEE/ACM　Transactions　on　Audio,　Speech,　and　Language　Processing(TASLP),　vol.　27,　no.　8,　pp.　1256-1266,　2019.

　また、埋め込み層D（補助NN１２）の次元を256に設定した。統合部１３２（統合層）については、要素ごとのプロダクトベース統合を採用し、最初に積層した畳み込みブロックの後に挿入した。さらに、信号処理装置１０、学習装置２０の初期学習率（initial　learning　rate）を0.0005に最適化するためにAdamアルゴリズムを採用し、gradient　clippingを使用した。そして、200エポック後に学習処理を停止した。

　評価の測定基準として、BSSEvalのスケール不変信号対ひずみ比（Signal-to-Distortion　Ratio;　SDR）を使用した。実験では、２つの音響クラスおよび３つの音響クラスの選択（multi-class　selection）について、評価を行った。なお、混合音響信号ごとに、３つの音響クラス｛n₁,n₂,n₃｝をあらかじめ定めた。また、音響クラスの選択タスクでは、SDRの算出のための参照信号はx=Σ^I _i=1x_niとされ、Ｉは対象音響クラスの数を表す。すなわち、この実験では、I∈｛1,2,3｝である。

　また、混合音響信号として、FreeSound　Dataset　Kaggle　2018コーパス（FSDコーパス）に基づいて、3～5の音響クラスを混合（Mix）したデータセット（Mix3-5）を用いた。また、REVERBチャレンジコーパス（REVERB）のノイズサンプルを用いて、混合音響信号に定常背景ノイズを加えた。そして、FSDコーパスからランダムに1.5～3秒の音声クリップを6つ抽出し、抽出した音声クリップを、6秒の背景ノイズの上のランダムな時間位置に追加することにより、6秒間の混合を生成した。

　Mix3-5タスクに対して複数の音響クラスの音響信号の抽出タスクの評価を行った。図６は、Iterative（反復）抽出方式およびSimultaneous（同時）抽出方式のSDRの改善量を示す。ここで、Iterative（反復）抽出方式は、従来の手法であり、抽出対象の音響クラスを１つ１つ抽出する方式である。Simultaneous（同時）抽出方式は、本実施形態の手法に相当する。「#　class　for　Sel.」は、抽出対象の音響クラスの数を示す。また、「#　class　for　in　Mix.」は、混合音響信号に含まれる音響クラスの数を示す。

　図６に示すように、Simultaneous（同時）は、Iterative（反復）よりも計算コストが低いにもかかわらず、SDRの改善量がIterative（反復）とほぼ同じ、または、Iterative（反復）よりも大きいことが確認できた。このことから、本実施形態の手法はIterative（反復）に比べ良好に機能することが分かる。

　また、図示を省略しているが、本実施形態において、指定された音響信号の除去についても実験を行ったところ、前記した直接推定方式および間接推定方式の両方において、約6dBのSDRの改善量が確認された。

　また、本実施形態の手法の汎化性能の実験結果を図７に示す。ここでは、7つの音響クラスを含む10秒間の200のホームオフィスのような混合（200　home　office-like　mixtures）からなる追加のテストセットを作成した。対象とする音響クラスは、ノック（knock）および電話（telephone）の2クラス（I=2）と、ノック（knock）、電話（telephone）、キーボード（keyboard）、および、猫の鳴き声（meow）の4クラス（I=4）である。

　図７における「Ref」は参照信号であり、「Est」は本実施形態の手法で得られた推定信号（抽出された信号）を示す。本実験により、本実施形態の手法において、学習段階に、７つの音響クラスが混合した音響信号および４つの音響クラスの同時抽出が含まれなかったとしても、これらの音響クラスの音響信号を問題なく抽出できることが確認できた。また、図示を省略しているが、上記のセットのSRDの改善量の平均値は、2クラスの場合は8.5dBであり、4クラスの場合は5.3dBであった。この結果は、任意の数の音響クラスを含む混合音響信号、また、任意の数の抽出対象クラスにも本実施形態の手法が汎化され得ることを示唆している。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU（Central　Processing　Unit）及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　前記した信号処理装置１０および学習装置２０は、パッケージソフトウェアやオンラインソフトウェアとして上記のプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の信号処理プログラムを情報処理装置に実行させることにより、情報処理装置を信号処理装置１０および学習装置２０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS（Personal　Handyphone　System）等の移動体通信端末、さらには、PDA（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。

　また、信号処理装置１０および学習装置２０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の処理に関するサービスを提供するサーバ装置として実装することもできる。この場合、サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

　図８は、プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、CPU１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ROM（Read　Only　Memory）１０１１及びRAM１０１２を含む。ROM１０１１は、例えば、BIOS（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、OS１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、信号処理装置１０および学習装置２０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、信号処理装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、SSDにより代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、CPU１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてRAM１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してCPU１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（LAN（Local　Area　Network）、WAN（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してCPU１０２０によって読み出されてもよい。

　１０　信号処理装置
　１１　入力部
　１２　補助NN
　１３　メインNN
　１４　モデル情報
　１５　更新部
　２０　学習装置
　１３１　第１変換部
　１３２　統合部
　１３３　第２変換部

Claims

　複数の音響クラスの音響信号が混合した混合音響信号から、どの音響クラスの音響信号を抽出対象とするかを示す抽出対象情報の入力を受け付ける入力部と、
　前記混合音響信号の特徴量と、前記抽出対象情報とを用いて、ニューラルネットワークにより、前記混合音響信号から、前記抽出対象情報の示す音響クラスの音響信号の抽出結果を出力する信号処理部と、
　を備えることを特徴とする信号処理装置。
　前記抽出対象情報は、
　前記混合音響信号から、どの音響クラスの音響信号を抽出対象とするかをベクトルで示した対象クラスベクトルであり、
　前記信号処理装置は、さらに、
　ニューラルネットワークを用いて、前記対象クラスベクトルの埋め込み処理を行う埋め込み部を備え、
　前記信号処理部は、
　前記混合音響信号の特徴量と、前記埋め込み処理後の対象クラスベクトルとを統合した特徴量を用いて、ニューラルネットワークにより、前記混合音響信号から、前記対象クラスベクトルの示す音響クラスの音響信号の抽出結果を出力する
　ことを特徴とする請求項１に記載の信号処理装置。
　前記入力部は、
　複数の音響クラスの音響信号が混合した混合音響信号から、どの音響クラスの音響信号を除去対象とするかをベクトルで示した対象クラスベクトルの入力を受け付け、
　前記信号処理部は、
　前記混合音響信号の特徴量に、前記埋め込み処理後の対象クラスベクトルを適用した特徴量を用いて、ニューラルネットワークにより、前記混合音響信号から、前記対象クラスベクトルの示す音響クラスの音響信号の除去結果を出力する
　ことを特徴とする請求項１に記載の信号処理装置。
　信号処理装置により実行される信号処理方法であって、
　複数の音響クラスの音響信号が混合した混合音響信号から、どの音響クラスの音響信号を抽出対象とするかを示す抽出対象情報の入力を受け付ける工程と、
　前記混合音響信号の特徴量と、前記抽出対象情報とを用いて、ニューラルネットワークにより、前記混合音響信号から、前記抽出対象情報の示す音響クラスの音響信号の抽出結果を出力する工程と、
　を含むことを特徴とする信号処理方法。
　コンピュータを、請求項１から請求項３のいずれか１項に記載の信号処理装置として機能させるための信号処理プログラム。
　複数の音響クラスの音響信号が混合した混合音響信号から、どの音響クラスの音響信号を抽出対象とするかを示した対象クラスベクトルの入力を受け付ける入力部と、
　ニューラルネットワークを用いて、前記対象クラスベクトルの埋め込み処理を行う埋め込み部と、
　前記混合音響信号の特徴量と、前記埋め込み処理後の対象クラスベクトルを適用した特徴量とを統合した特徴量を用いて、ニューラルネットワークにより、前記混合音響信号から、前記対象クラスベクトルの示す音響クラスの音響信号の抽出結果を出力する信号処理部と、
　動的に生成された前記対象クラスベクトルの候補と、当該対象クラスベクトルの候補に対応する音響クラスの音響信号とを学習データとして用いて、前記信号処理部による当該対象クラスベクトルの候補の示す音響クラスの音響信号の抽出結果が、当該対象クラスベクトルの候補に対応する音響クラスの音響信号に近づくよう、前記埋め込み部で用いられるニューラルネットワークおよび前記信号処理部で用いられるニューラルネットワークそれぞれのパラメータを更新する更新部と、
　を有することを特徴とする学習装置。
　学習装置により実行される学習方法であって、
　複数の音響クラスの音響信号が混合した混合音響信号から、どの音響クラスの音響信号を抽出対象とするかを示した対象クラスベクトルの入力を受け付ける入力工程と、
　ニューラルネットワークを用いて、前記対象クラスベクトルの埋め込み処理を行う埋め込み工程と、
　前記混合音響信号の特徴量と、前記埋め込み処理後の対象クラスベクトルとを統合した特徴量を用いて、ニューラルネットワークにより、前記混合音響信号から、前記対象クラスベクトルの示す音響クラスの音響信号の抽出結果を出力する信号処理工程と、
　動的に生成された前記対象クラスベクトルの候補と、当該対象クラスベクトルの候補に対応する音響クラスの音響信号とを学習データとして用いて、前記信号処理工程による当該対象クラスベクトルの候補の示す音響クラスの音響信号の抽出結果が、当該対象クラスベクトルの候補に対応する音響クラスの音響信号に近づくよう、前記埋め込み工程で用いられるニューラルネットワークおよび前記信号処理工程で用いられるニューラルネットワークそれぞれのパラメータを更新する更新工程と、
　を含むことを特徴とする学習方法。
　コンピュータを、請求項６に記載の学習装置として機能させるための学習プログラム。