WO2020240682A1

WO2020240682A1 - 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム

Info

Publication number: WO2020240682A1
Application number: PCT/JP2019/021038
Authority: WO
Inventors: 孝文越仲; 山本　仁; 薫鯉田; 鈴木　隆之
Original assignee: 日本電気株式会社
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2020-12-03
Also published as: CN113892136A; EP3979240A1; JP7176627B2; JPWO2020240682A1; US20220238119A1; US11900949B2; EP3979240A4

Abstract

ニューラルネットワーク入力部８１は、予め定めたクラスに属するアンカー信号およびそのクラスに属する目的信号を含む混合信号を入力する層と、その混合信号において目的信号が存在する時間周波数領域を示す再構築マスクを推定結果として出力する層とを有する第一のネットワークと、再構築マスクに混合信号を適用して抽出される目的信号を入力する層と入力された目的信号を予め定められたクラスへ分類した結果を出力する層とを有する第二のネットワークとが結合されたニューラルネットワークを入力する。再構築マスク推定部８２は、アンカー信号および混合信号を第一のネットワークに適用して、そのアンカー信号が属するクラスの再構築マスクを推定する。信号分類部８３は、推定された再構築マスクに混合信号を適用して目的信号を抽出し、抽出された目的信号を第二のネットワークに適用してクラスに分類する。

Description

信号抽出システム、信号抽出学習方法および信号抽出学習プログラム

　本発明は、各クラスに属する信号を抽出する信号抽出システム、信号抽出学習方法および信号抽出学習プログラムに関する。

　観測された信号から、各クラスに属する信号を抽出する技術が各種知られている。例えば、話者ダイアライゼーション（Speaker Diarization ）とは、話者の情報（人数等）が未知の音声信号を解析して、どの話者がいつ話したか推定する技術であり、話者ごとのセグメントの集合を音声信号から特定する技術である。

　話者ダイアライゼーションの一般的な方法として、音声信号をセグメント化し、セグメント化された音声信号をクラスタリングすることにより、各話者のセグメントの集合を特定する方法が挙げられる。

　図１０は、セグメント化された音声信号から話者の音声信号を特定する方法を示す説明図である。図１０に示す方法では、モノラルの音声ストリーム２０１に対し、音声の部分を抽出するセグメント化が行われる。図１０では、４つのセグメント２０２～２０５が抽出された例を示す。ここで、セグメント２０２、セグメント２０３およびセグメント２０５と、セグメント２０４とが、それぞれ類似の信号と判断されてクラスタリングされた結果、前者のセグメントが話者Ａ、後者のセグメントが話者Ｂと特定される。

　一方、図１０に例示するようなセグメントのクラスタ化は、ノイズに影響されやすく、また、一時的に重なっている話者の音声信号を分離できないという問題がある。このような問題に対応するため、対象とする話者の音声信号（アンカーと記すこともある。）を用いて、音声信号を特定する方法も提案されている。

　図１１は、アンカーを用いて話者の音声信号を特定する方法を示す説明図である。図１１に示す方法では、モノラルの音声ストリーム２０１に対し、特定しようとする対象の話者Ａの音声信号であるアンカー２０６が準備される。そして、音声ストリーム２０１とアンカー２０６とを比較して、話者Ａセグメントの集合（セグメント２０７、セグメント２０８、セグメント２０９）を特定する。

　非特許文献１には、ディープラーニングの技術を用いて話者の音声信号を抽出する方法が記載されている。非特許文献１に記載された方法では、対象とする話者の音声信号であるアンカーと、混合音声信号とに基づいて、対象とする話者の音声信号（セグメント）を抽出するためのマスク（再構築マスク）を学習する。学習された再構築マスクを混合音声信号に適用することで、対象とする話者のセグメントの集合が特定される。

　なお、非特許文献２には、入力音声から特徴量を抽出する方法が記載されている。

Jun Wang, et al., "Deep Extractor Network for Target Speaker Recovery From Single Channel Speech Mixtures", Interspeech 2018, 2 - 6 September 2018. David Snyder et al., "X-Vectors: Robust DNN Embeddings for Speaker Recognition", ICASSP 2018 - 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018.

　非特許文献１に記載された方法では、時間－周波数（time-frequency）の二次元で表される話者のアンカーＸ_ｆ，ｔ ^ａｓおよび、混合音声信号Ｘ_ｆ，ｔ ^ｍｓに基づいて再構築マスクＭ_ｆ，ｔが学習される。そして、学習された再構築マスクＭ_ｆ，ｔを混合音声信号Ｘ_ｆ，ｔ ^ｍｓに適用することで、話者のスペクトログラムＳ＾_ｆ，ｔ ^ｍｓが推定される（なお、Ｓ＾は、Ｓの上付きハットを示す）。具体的には、以下に示す式１に基づいて、話者のスペクトログラムＳ＾_ｆ，ｔ ^ｍｓが算出される。

　学習時には、以下に示す式２の損失関数を最小化するように最適化することで、再構築マスクが学習される。式２におけるＳ_ｆ，ｔ ^ｍｓは、話者のスペクトログラムである。具体的には、非特許文献１に記載されたニューラルネットワークは、無関係な雑音の中から重なっている発話も扱える再構築マスクを学習する。

　しかし、上記式２に含まれる再構築マスクＭ_ｆ，ｔの真の値（ground truth）および再構築される話者のスペクトログラムＳ_ｆ，ｔ ^ｍｓの真の値は、一般には不明である。そのため、上記式２を用いた最適化では、再構築マスクの精度を向上させるには限界があるという問題がある。

　なお、複数（例えば、２つ）の音声信号を重畳させた学習用データを人工的に生成することで、再構築マスクの精度を向上させることも考えられる。しかし、人工的なデータは、実際のデータに存在する要因（例えば、会話のやりとりや残響など）を十分に反映させるのが難しいことから、人工的なデータを用いて学習したとしても、実際の環境音から対象の話者の音声信号を抽出できるような再構築マスクを生成するのは難しい。

　そこで、本発明は、観測される信号から各クラスに属する信号を精度よく抽出できる信号抽出システム、信号抽出学習方法および信号抽出学習プログラムを提供することを目的とする。

　本発明による信号抽出システムは、予め定めたクラスに属するアンカー信号およびそのクラスに属する目的信号を含む混合信号を入力する層と混合信号において目的信号が存在する時間周波数領域を示す再構築マスクを推定結果として出力する層とを有する第一のネットワークと、再構築マスクに混合信号を適用して抽出される目的信号を入力する層と入力された目的信号を予め定められたクラスへ分類した結果を出力する層とを有する第二のネットワークとが結合されたニューラルネットワークを入力するニューラルネットワーク入力部と、アンカー信号および混合信号を第一のネットワークに適用して、そのアンカー信号が属するクラスの再構築マスクを推定する再構築マスク推定部と、推定された再構築マスクに混合信号を適用して目的信号を抽出し、抽出された目的信号を第二のネットワークに適用してクラスに分類する信号分類部と、抽出された目的信号が分類されたクラスと、真のクラスとの損失関数を計算する損失計算部と、損失関数の計算結果に基づいて、ニューラルネットワークにおける第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新するパラメータ更新部と、更新された第一のネットワークを出力する出力部とを備えたことを特徴とする。

　本発明による信号抽出学習方法は、予め定めたクラスに属するアンカー信号およびそのクラスに属する目的信号を含む混合信号を入力する層と混合信号において目的信号が存在する時間周波数領域を示す再構築マスクを推定結果として出力する層とを有する第一のネットワークと、再構築マスクに混合信号を適用して抽出される目的信号を入力する層と入力された目的信号を予め定められたクラスへ分類した結果を出力する層とを有する第二のネットワークとが結合されたニューラルネットワークを入力し、アンカー信号および混合信号を第一のネットワークに適用して、そのアンカー信号が属するクラスの再構築マスクを推定し、推定された再構築マスクに混合信号を適用して目的信号を抽出し、抽出された目的信号を第二のネットワークに適用してクラスに分類し、抽出された目的信号が分類されたクラスと、真のクラスとの損失関数を計算し、損失関数の計算結果に基づいて、ニューラルネットワークにおける第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新し、更新された前記第一のネットワークを出力することを特徴とする。

　本発明による信号抽出学習プログラムは、コンピュータに、予め定めたクラスに属するアンカー信号およびそのクラスに属する目的信号を含む混合信号を入力する層と混合信号において目的信号が存在する時間周波数領域を示す再構築マスクを推定結果として出力する層とを有する第一のネットワークと、再構築マスクに混合信号を適用して抽出される目的信号を入力する層と入力された目的信号を予め定められたクラスへ分類した結果を出力する層とを有する第二のネットワークとが結合されたニューラルネットワークを入力するニューラルネットワーク入力処理、アンカー信号および混合信号を第一のネットワークに適用して、そのアンカー信号が属するクラスの再構築マスクを推定する再構築マスク推定処理、推定された再構築マスクに混合信号を適用して目的信号を抽出し、抽出された目的信号を第二のネットワークに適用してクラスに分類する信号分類処理、抽出された目的信号が分類されたクラスと、真のクラスとの損失関数を計算する損失計算処理、損失関数の計算結果に基づいて、ニューラルネットワークにおける第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新するパラメータ更新処理、および、更新された第一のネットワークを出力する出力処理を実行させることを特徴とする。

　本発明によれば、観測される信号から各クラスに属する信号を精度よく抽出できる。

本発明による信号抽出システムの第一の実施形態の構成例を示すブロック図である。入力されるニューラルネットワークの例を示す説明図である。第一の実施形態の信号抽出システムの動作例を示すフローチャートである。第一の実施形態の信号抽出システムの他の動作例を示すフローチャートである。会話において抽出対象になる信号の例を示す説明図である。本発明による信号抽出システムの第二の実施形態の構成例を示すブロック図である。第二の実施形態の信号抽出システムの動作例を示すフローチャートである。本発明による信号抽出システムの概要を示すブロック図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。セグメント化された音声信号から話者の音声信号を特定する方法を示す説明図である。アンカーを用いて話者の音声信号を特定する方法を示す説明図である。

　以下、本発明の実施形態を図面を参照して説明する。以下の説明では、観測された信号から各クラスに属する信号を抽出する具体例として、音声ストリームから、それぞれの話者の音声信号（セグメント）を抽出する方法を説明する。ただし、本発明が抽出対象とする信号は、音声信号に限定されない。

実施形態１．
　図１は、本発明による信号抽出システムの第一の実施形態の構成例を示すブロック図である。本実施形態の信号抽出システム１００は、ニューラルネットワーク入力部１０と、アンカー信号入力部２０と、混合信号入力部３０と、学習部４０と、出力部５０と、抽出部６０とを備えている。

　ニューラルネットワーク入力部１０は、あるクラスに属する信号を抽出するためのニューラルネットワークを入力する。本実施形態でクラスとは、ある特定された性質を有する信号の集合を意味する。音声信号の場合、クラスとは、具体的には、個々の話者や、性別、年齢、言語、感情などである。例えば、クラスとして話者Ａが定められた場合、話者Ａの発話を示す信号は、話者Ａのクラスに属する信号である。

　また、本実施形態で入力されるニューラルネットワークは、二種類のネットワークが結合されたニューラルネットワークとして構成される。第一のネットワークは、予め定めたクラスに属するアンカー信号およびそのクラスに属する信号（以下、目的信号と記す。）を含む混合信号を入力する層と、入力された混合信号において目的信号が存在する時間周波数領域を示すマスク（以下、再構築マスクと記す。）を推定結果として出力する層とを有する。時間周波数領域とは、時間および周波数に基づいて信号から特定できる領域を示す。例えば、クラスとして話者Ａが定められた場合、目的信号は、話者Ａの発話を示す信号である。

　第一のネットワークの具体的な一例として、ＣＮＮ（Convolutional Neural Network）が挙げられる。特に、混合信号として音声ストリームを想定する場合、信号の長さが可変長になることが考えられる。そのため、第一のネットワークには、一次元の畳み込みニューラルネットワーク (１Ｄ　ＣＮＮ：one-dimensional convolutional neural network model)であるＴＤＮＮ（Time Delay Neural Network ）を用いることが好ましい。なお、第一のネットワークが、混合信号を予め定めた長さ（例えば、４秒など）に区切った混合信号を入力するネットワークであってもよい。

　第二のネットワークは、再構築マスクに混合信号を適用して抽出される目的信号を入力する層と、入力された目的信号を予め定められたクラスへ分類した結果を出力する層とを有する。したがって、本実施形態に入力されるニューラルネットワークは、アンカー信号および混合信号を入力とし、抽出される目的信号が分類されるクラスを出力とするニューラルネットワークであると言える。

　具体的には、第二のネットワークは、抽出対象として想定するクラス数に相当する出力、すなわち、後述する学習部４０において参照される学習データに含まれる全てまたは一部のクラスの各々に対応する出力が設定された層を有する。なお、例外処理として、混合信号に、想定するいずれのクラスの信号も含まれない場合を想定し、第二のネットワークは、抽出対象として想定するクラス数に１を加えた出力が設定された層を有していてもよい。この加えた出力が、例外処理を検出するための出力である。

　図２は、入力されるニューラルネットワークの例を示す説明図である。図２に例示する第一のネットワークＮ１は、アンカー信号である話者の発話Ｘ_ｆ，ｔ ^ａｓと、話者の発話を含む混合音声Ｘ_ｆ，ｔ ^ｍｓとを入力とし、再構築マスクＭ_ｆ，ｔを出力とするネットワークである。また、第二のネットワークＮ２は、再構築マスクＭ_ｆ，ｔに混合音声Ｘ_ｆ，ｔ ^ｍを適用して抽出される話者の発話を示す信号Ｓ＾_ｆ，ｔ ^ｍｓを入力とし、入力された信号を予め定められたクラスへ分類した結果を出力とするネットワークである。この二種類のネットワークが結合されて、１つのニューラルネットワークＮ３が構成される。

　アンカー信号入力部２０は、ニューラルネットワークに入力するアンカー信号を入力する。具体的には、アンカー信号入力部２０は、再構築マスクを用いて抽出対象とするクラスに属するアンカー信号を入力する。言い換えると、後述する学習部４０によって、入力されるアンカー信号が属するクラスを抽出するための再構築マスクが学習される。図２に示す例では、発話Ｘ_ｆ，ｔ ^ａｓがアンカー信号に対応する。

　混合信号入力部３０は、抽出する目的信号が含まれる信号（すなわち、混合信号）を入力する。図２に示す例では、混合音声Ｘ_ｆ，ｔ ^ｍｓが混合信号に対応する。

　学習部４０は、二種類のネットワークを含むニューラルネットワーク全体を学習する。本実施形態の学習部４０は、目標とする再構築マスクが未知であるため、分類すべきクラスのラベルを目標として弱ラベルによる学習を行う。学習部４０は、再構築マスク推定部４２と、信号分類部４４と、損失計算部４６と、パラメータ更新部４８とを含む。

　再構築マスク推定部４２は、入力されたアンカー信号および混合信号を第一のネットワークに適用して、そのアンカー信号が属するクラスの再構築マスクを推定する。具体的には、再構築マスク推定部４２は、ニューラルネットワークにおける第一のネットワークの出力を再構築マスクと推定する。

　信号分類部４４は、推定された再構築マスクに混合信号を適用して目的信号を抽出し、抽出された目的信号を第二のネットワークに適用してクラスに分類する。具体的には、信号分類部４４は、ニューラルネットワークにおける第二のネットワークの出力を目的信号が分類されるクラスとして取得する。例えば、混合信号が話者の発話を示す音声ストリームである場合、信号分類部４４は、目的信号として、話者のスペクトログラムを抽出し、抽出したスペクトログラムを第二のネットワークに適用して話者を分類する。

　損失計算部４６は、抽出された目的信号が分類されたクラスと、真のクラスとの損失関数を計算する。真のクラスとは、入力されたアンカー信号が属するクラスである。損失計算部４６は、例えば、以下の式３に例示する交差エントロピーを用いて損失関数を計算してもよい。

　式３において、ｃ_ｉは、アンカー信号の真のラベル情報であり、アンカー信号がｉ番目のクラスに属するときに１、そうでなければ０の値を取る。また、ｃ＾_ｉは、分類されたクラスのラベル情報であり、第二のネットワークの出力層の各素子の出力値である。この出力値は、第二のネットワーク内で、ソフトマックス(softmax )活性化関数などで正規化されていることが望ましい。ラベル情報は、信号分類部４４によって付与され、アンカー信号に予め設定される。

　パラメータ更新部４８は、損失関数の計算結果に基づいて、ニューラルネットワークにおける第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新する。具体的には、パラメータ更新部４８は、損失関数を最小化するように、ニューラルネットワークにおける各パラメータを更新する。パラメータ更新部４８は、例えば、誤差逆伝播法により、パラメータを更新してもよい。ただし、パラメータの更新方法は誤差逆伝播法に限定されず、パラメータ更新部４８は、一般的に知られた方法を用いてパラメータを更新してもよい。

　出力部５０は、更新された第一のネットワークを出力する。すなわち、出力部５０は、入力されたニューラルネットワークから、目的信号をクラスへ分類するためのネットワーク（すなわち、第二のネットワーク）を除いたニューラルネットワークを出力する。

　抽出部６０は、出力された第一のネットワークにアンカー信号および混合信号を適用して、そのアンカー信号が属するクラスの信号（目的信号）を抽出する。抽出された信号は、例えば、話者識別などに利用することが可能である。

　例えば、非特許文献１に記載された方法では、上記式２に例示する損失関数を最適化する処理を行う。しかし、上述するように、再構築マスクＭ_ｆ，ｔおよび再構築される話者のスペクトログラムＳ_ｆ，ｔ ^ｍｓの真の値は、一般には不明であるため、再構築マスクの精度を向上させるには限界がある。一方、本実施形態では、学習部４０が、上記に示す式３の損失関数（すなわち、クラス間の損失関数）を最適化するようにニューラルネットワークを学習する。そのため、観測される信号から各クラスに属する信号を精度よく抽出できる再構築マスクを学習することが可能になる。

　ニューラルネットワーク入力部１０と、アンカー信号入力部２０と、混合信号入力部３０と、学習部４０（より詳しくは、再構築マスク推定部４２と、信号分類部４４と、損失計算部４６と、パラメータ更新部４８）と、出力部５０と、抽出部６０とは、プログラム（信号抽出学習プログラム）に従って動作するコンピュータのプロセッサ（例えば、ＣＰＵ（Central Processing Unit ）、ＧＰＵ（Graphics Processing Unit））によって実現される。

　例えば、プログラムは、信号抽出システム１００が備える記憶部（図示せず）に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、ニューラルネットワーク入力部１０、アンカー信号入力部２０、混合信号入力部３０、学習部４０（より詳しくは、再構築マスク推定部４２と、信号分類部４４と、損失計算部４６と、パラメータ更新部４８）、出力部５０、および、抽出部６０として動作してもよい。また、信号抽出システム１００の機能がＳａａＳ（Software as a Service ）形式で提供されてもよい。

　ニューラルネットワーク入力部１０と、アンカー信号入力部２０と、混合信号入力部３０と、学習部４０（より詳しくは、再構築マスク推定部４２と、信号分類部４４と、損失計算部４６と、パラメータ更新部４８）と、出力部５０と、抽出部６０とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。

　また、信号抽出システム１００の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

　次に、本実施形態の信号抽出システム１００の動作を説明する。図３は、本実施形態の信号抽出システム１００の動作例を示すフローチャートである。ニューラルネットワーク入力部１０は、第一のネットワークと、第二のネットワークとが結合されたニューラルネットワークを入力する（ステップＳ１１）。

　アンカー信号入力部２０は、アンカー信号を入力し（ステップＳ１２）、混合信号入力部３０は、混合信号を入力する（ステップＳ１３）。学習部４０（より具体的には、再構築マスク推定部４２）は、入力されたアンカー信号および混合信号を第一のネットワークに適用して、アンカー信号が属するクラスの再構築マスクを推定する（ステップＳ１４）。

　学習部４０（より具体的には、信号分類部４４）は、推定された再構築マスクに混合信号を適用して目的信号を抽出し、抽出された目的信号を第二のネットワークに適用してクラスに分類する（ステップＳ１５）。学習部４０（より具体的には、損失計算部４６）は、抽出された目的信号が分類されたクラスと、真のクラスとの損失関数を計算する（ステップＳ１６）。

　学習部４０（より具体的には、信号分類部４４）は、損失関数の計算結果に基づいて、ニューラルネットワークにおける第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新する（ステップＳ１７）。そして、出力部５０は、更新された第一のネットワークを出力する（ステップＳ１８）。

　図４は、本実施形態の信号抽出システム１００の他の動作例を示すフローチャートである。抽出部６０は、出力された第一のネットワークを入力する（ステップＳ２１）。また、アンカー信号入力部２０は、アンカー信号を入力し（ステップＳ２２）、混合信号入力部３０は、混合信号を入力する（ステップＳ２３）。そして、抽出部６０は、入力されたアンカー信号および混合信号を第一のネットワークに適用して再構築マスクを推定し（ステップＳ２４）、推定された再構築マスクを混合信号に適用して目的信号を抽出する（ステップＳ２５）。

　以上のように、本実施形態では、ニューラルネットワーク入力部１０が、第一のネットワークと第二のネットワークとが結合されたニューラルネットワークを入力し、再構築マスク推定部４２が、アンカー信号および混合信号を第一のネットワークに適用して、アンカー信号が属するクラスの再構築マスクを推定する。また、信号分類部４４が、推定された再構築マスクに混合信号を適用して目的信号を抽出し、抽出された目的信号を第二のネットワークに適用してクラスに分類する。そして、損失計算部４６が、抽出された目的信号が分類されたクラスと、真のクラスとの損失関数を計算し、パラメータ更新部４８が、損失関数の計算結果に基づいて、ニューラルネットワークにおける第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新する。その後、出力部５０が、更新された第一のネットワークを出力する。

　このような構成により、第一のネットワークにより推定される再構築マスクの精度を向上させることができる。その結果、観測される混合信号から各クラスに属する信号を精度よく抽出できる。

　また、本実施形態の信号抽出システムは、例えば、以下に例示するような任意のクラスの信号を抽出するシステムとして実現可能である。
　・混在した発話から、特定の話者、性別、年齢、言語、感情のクラスの信号を抽出するシステム
　・混在した音楽から特定の楽器のクラスの信号を抽出するシステム
　・混在した音声から特定の音響事象、例えば、爆発音や銃声のクラスの信号を抽出するシステム
　・混在した電気の流れから特定の電気機器のクラスの信号を抽出するシステム
　・混在した電波から特定の通信機器のクラスの信号を抽出するシステム

実施形態２．
　次に、本発明による信号抽出システムの第二の実施形態を説明する。第一の実施形態により推定された再構築マスクを用いることで、混合信号から各クラスに属する信号を精度よく抽出することができるようになる。さらに、本実施形態では、音声信号から、各話者の目的信号をより精度よく抽出する方法を説明する。

　音声信号から目的信号を抽出する過程では、一般的に、個々の話者の発話（セグメント）が独立に推定される。また、通常の会話において、各話者は、交互かつ排他的に話すことが一般的である。

　図５は、会話において抽出対象になる信号の例を示す説明図である。図５（ａ）に例示するように、一般には複数の話者（話者Ａおよび話者Ｂ）の信号は、交互かつ排他的に観測され、図５（ｂ）に例示するように同時に観測されることは稀である。本実施形態では、この会話における特性に着目し、他の信号との関係において再構築マスクを修正する方法を説明する。

　図６は、本発明による信号抽出システムの第二の実施形態の構成例を示すブロック図である。本実施形態の信号抽出システム２００は、ニューラルネットワーク入力部１０と、アンカー信号入力部２０と、混合信号入力部３０と、学習部４０と、出力部５０と、再構築マスク変換部５２と、抽出部６０とを備えている。

　すなわち、本実施形態の信号抽出システム２００は、第一の実施形態の信号抽出システム１００と比較し、再構築マスク変換部５２を更に備えている点において異なる。それ以外の構成は、第一の実施形態と同様である。

　本実施形態では、信号抽出システム２００は、複数の話者の再構築マスクを用いて、少なくとも一方の再構築マスクを変更する。そのため、アンカー信号入力部２０は、複数の話者のアンカー信号を入力する。以下の説明では、二人の話者の再構築マスクを用いる場合について説明するが、話者が三人以上であっても同様である。すなわち、アンカー信号入力部２０は、二人の話者のアンカー信号をそれぞれ入力する。

　混合信号入力部３０は、混合信号を入力する。

　学習部４０は、入力された各アンカー信号および混合信号に基づいて、話者ごとに第一のネットワークを推定し、出力部５０は、生成された第一のネットワークをそれぞれ出力する。

　再構築マスク変換部５２は、生成された複数の第一のネットワークを入力し、各話者のアンカー信号および混合信号を、各話者に対応する第一のネットワークに適用して再構築マスクをそれぞれ推定する。そして、再構築マスク変換部５２は、推定された再構築マスクのうち、少なくとも一つを他の再構築マスクとの類似度に基づいて変換する。具体的には、再構築マスク変換部５２は、他の再構築マスクの周波数との類似度が高いほど、その周波数の信頼度を小さくするように再構築マスクを変換する。

　この再構築マスク変換部５２による変換は、他の再構築マスクと類似するほど対象とする再構築マスクを使用しないように変換することを意味する。再構築マスクが他の再構築マスクと類似するということは、同様の周波数の信号を異なる話者の再構築マスクで抽出しようとすることを意味する。しかし、会話においてそのような信号が発生することは稀であるため、そのような再構築マスクの信頼度を低くすることで、精度を向上させようとするものである。

　再構築マスク変換部５２が類似度を算出する方法は任意である。類似度を算出する関数をＳｉｍとし、話者Ａの再構築マスクの集合をＭ_ｆ，ｔ ^Ａ、話者Ｂの再構築マスクの集合をＭ_ｆ，ｔ ^Ｂとする。このとき、周波数の類似度ｓ_ｆは、以下に例示する式４で表される。

　再構築マスク変換部５２は、例えば、類似度としてコサイン類似度を算出してもよい。この場合、類似度ｓ_ｆは、以下に例示する式５で算出される。

　再構築マスク変換部５２は、算出された類似度が高いほど信頼度を低くするように再構築マスクを変換する。例えば、任意の話者の再構築マスクをＭ_ｆ，ｔ ^＊とすると、再構築マスク変換部５２は、以下に例示する式６を用いて再構築マスクを変換してもよい。

　上記式６においてαは規格化係数であり、以下に例示する式７で算出される。

　抽出部６０は、変換された再構築マスクを用いて目的信号を抽出する。

　ニューラルネットワーク入力部１０と、アンカー信号入力部２０と、混合信号入力部３０と、学習部４０（より詳しくは、再構築マスク推定部４２と、信号分類部４４と、損失計算部４６と、パラメータ更新部４８）と、出力部５０と、再構築マスク変換部５２と、抽出部６０とは、プログラム（信号抽出学習プログラム）に従って動作するコンピュータのプロセッサによって実現される。

　次に、本実施形態の信号抽出システム２００の動作を説明する。図７は、本実施形態の信号抽出システム２００の動作例を示すフローチャートである。ここでは、図３に例示するフローチャートの処理が実行され、話者ごとの再構築マスクが生成されているものとする。

　再構築マスク変換部５２は、推定された再構築マスクのうち、少なくとも一つを他の再構築マスクとの類似度に基づいて変換する（ステップＳ３１）。抽出部６０は、変換された再構築マスクを用いて目的信号を抽出する（ステップＳ３２）。

　以上のように、本実施形態では、再構築マスク変換部５２が、推定された再構築マスクのうち、少なくとも一つを他の再構築マスクとの類似度に基づいて変換し、抽出部６０が、変換された再構築マスクを用いて目的信号を抽出する。よって、第一の実施形態の効果に加え、会話の性質を考慮して各話者の発話を抽出することが可能になる。

　次に、本発明の概要を説明する。図８は、本発明による信号抽出システムの概要を示すブロック図である。本発明による信号抽出システム８０（例えば、信号抽出システム１００）は、予め定めたクラス（例えば、ある話者）に属するアンカー信号およびそのクラスに属する目的信号（ある話者の実際の発話）を含む混合信号（例えば、音声ストリーム）を入力する層と、その混合信号において目的信号が存在する時間周波数領域を示す再構築マスクを推定結果として出力する層とを有する第一のネットワーク（例えば、ＴＤＮＮ、図２に例示する第一のネットワークＮ１）と、再構築マスクに混合信号を適用して抽出される目的信号を入力する層と入力された目的信号を予め定められたクラスへ分類した結果を出力する層とを有する第二のネットワーク（例えば、図２に例示する第二のネットワークＮ２）とが結合されたニューラルネットワーク（例えば、図２に例示するニューラルネットワークＮ３）を入力するニューラルネットワーク入力部８１（例えば、ニューラルネットワーク入力部１０）と、アンカー信号および混合信号を第一のネットワークに適用して、そのアンカー信号が属するクラスの再構築マスクを推定する再構築マスク推定部８２（例えば、再構築マスク推定部４２）と、推定された再構築マスクに混合信号を適用して目的信号を抽出し、抽出された目的信号を第二のネットワークに適用してクラスに分類する信号分類部８３（例えば、信号分類部４４）と、抽出された目的信号が分類されたクラスと、真のクラス（例えば、入力されたアンカー信号が属するクラス）との損失関数を計算する損失計算部８４（例えば、損失計算部４６）と、損失関数の計算結果に基づいて、ニューラルネットワークにおける第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新するパラメータ更新部８５（例えば、パラメータ更新部４８）と、更新された第一のネットワークを出力する出力部８６（例えば、出力部５０）とを備えている。

　そのような構成により、観測される信号から各クラスに属する信号を精度よく抽出できる。

　また、信号抽出システム８０（例えば、信号抽出システム２００）は、推定された複数の再構築マスクのうち、少なくとも一つを他の再構築マスクとの類似度に基づいて変換する再構築マスク変換部（例えば、再構築マスク変換部５２）と、変換された再構築マスクを用いて目的信号を抽出する抽出部（例えば、抽出部６０）とを備えていてもよい。

　具体的には、再構築マスク変換部は、他の再構築マスクの周波数との類似度が高いほど、周波数の信頼度を小さくするように再構築マスクを変換してもよい。

　また、パラメータ更新部８５は、損失関数により算出される損失を小さくするように、ニューラルネットワークにおける第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新してもよい。

　また、ニューラルネットワーク入力部８１は、抽出対象として想定するクラス数に相当する出力が設定された層を有する第二のネットワークが結合されたニューラルネットワークを入力してもよい。

　例えば、話者の音声を抽出る場面において、再構築マスク推定部８２は、話者の発話を示すアンカー信号および音声ストリームを第一のネットワークに適用して、当該話者の再構築マスクを推定してもよい。そして、信号分類部８３は、推定された再構築マスクに混合信号を適用して話者のスペクトログラムを抽出し、抽出されたスペクトログラムを第二のネットワークに適用して話者を分類してもよい。

　図９は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ１０００は、プロセッサ１００１、主記憶装置１００２、補助記憶装置１００３、インタフェース１００４を備える。

　上述の信号抽出システムは、コンピュータ１０００に実装される。そして、上述した各処理部の動作は、プログラム（信号抽出学習プログラム）の形式で補助記憶装置１００３に記憶されている。プロセッサ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、当該プログラムに従って上記処理を実行する。

　なお、少なくとも１つの実施形態において、補助記憶装置１００３は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disc Read-only memory ）、ＤＶＤ－ＲＯＭ（Read-only memory）、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００が当該プログラムを主記憶装置１００２に展開し、上記処理を実行してもよい。

　また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であってもよい。

　１０　ニューラルネットワーク入力部
　２０　アンカー信号入力部
　３０　混合信号入力部
　４０　学習部
　４２　再構築マスク推定部
　４４　信号分類部
　４６　損失計算部
　４８　パラメータ更新部
　５０　出力部
　５２　再構築マスク変換部
　６０　抽出部
　１００，２００　信号抽出システム

Claims

　予め定めたクラスに属するアンカー信号および当該クラスに属する目的信号を含む混合信号を入力する層と前記混合信号において前記目的信号が存在する時間周波数領域を示す再構築マスクを推定結果として出力する層とを有する第一のネットワークと、前記再構築マスクに前記混合信号を適用して抽出される前記目的信号を入力する層と入力された前記目的信号を予め定められたクラスへ分類した結果を出力する層とを有する第二のネットワークとが結合されたニューラルネットワークを入力するニューラルネットワーク入力部と、
　アンカー信号および前記混合信号を前記第一のネットワークに適用して、当該アンカー信号が属するクラスの再構築マスクを推定する再構築マスク推定部と、
　推定された再構築マスクに前記混合信号を適用して目的信号を抽出し、抽出された目的信号を前記第二のネットワークに適用してクラスに分類する信号分類部と、
　抽出された目的信号が分類されたクラスと、真のクラスとの損失関数を計算する損失計算部と、
　前記損失関数の計算結果に基づいて、前記ニューラルネットワークにおける前記第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新するパラメータ更新部と、
　更新された前記第一のネットワークを出力する出力部とを備えた
　ことを特徴とする信号抽出システム。
　推定された複数の再構築マスクのうち、少なくとも一つを他の再構築マスクとの類似度に基づいて変換する再構築マスク変換部と、
　変換された再構築マスクを用いて目的信号を抽出する抽出部とを備えた
　請求項１記載の信号抽出システム。
　再構築マスク変換部は、他の再構築マスクの周波数との類似度が高いほど、周波数の信頼度を小さくするように再構築マスクを変換する
　請求項２記載の信号抽出システム。
　パラメータ更新部は、損失関数により算出される損失を小さくするように、ニューラルネットワークにおける第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新する
　請求項１から請求項３のうちのいずれか１項に記載の信号抽出システム。
　ニューラルネットワーク入力部は、抽出対象として想定するクラス数に相当する出力が設定された層を有する第二のネットワークが結合されたニューラルネットワークを入力する
　請求項１から請求項４のうちのいずれか１項に記載の信号抽出システム。
　再構築マスク推定部は、話者の発話を示すアンカー信号および音声ストリームを第一のネットワークに適用して、当該話者の再構築マスクを推定し、
　信号分類部は、推定された再構築マスクに混合信号を適用して話者のスペクトログラムを抽出し、抽出されたスペクトログラムを第二のネットワークに適用して話者を分類する
　請求項１から請求項５のうちのいずれか１項に記載の信号抽出システム。
　予め定めたクラスに属するアンカー信号および当該クラスに属する目的信号を含む混合信号を入力する層と前記混合信号において前記目的信号が存在する時間周波数領域を示す再構築マスクを推定結果として出力する層とを有する第一のネットワークと、前記再構築マスクに前記混合信号を適用して抽出される前記目的信号を入力する層と入力された前記目的信号を予め定められたクラスへ分類した結果を出力する層とを有する第二のネットワークとが結合されたニューラルネットワークを入力し、
　アンカー信号および前記混合信号を前記第一のネットワークに適用して、当該アンカー信号が属するクラスの再構築マスクを推定し、
　推定された再構築マスクに前記混合信号を適用して目的信号を抽出し、抽出された目的信号を前記第二のネットワークに適用してクラスに分類し、
　抽出された目的信号が分類されたクラスと、真のクラスとの損失関数を計算し、
　前記損失関数の計算結果に基づいて、前記ニューラルネットワークにおける前記第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新し、
　更新された前記第一のネットワークを出力する
　ことを特徴とする信号抽出学習方法。
　推定された複数の再構築マスクのうち、少なくとも一つを他の再構築マスクとの類似度に基づいて変換し、
　変換された再構築マスクを用いて目的信号を抽出する
　請求項７記載の信号抽出学習方法。
　コンピュータに、
　予め定めたクラスに属するアンカー信号および当該クラスに属する目的信号を含む混合信号を入力する層と前記混合信号において前記目的信号が存在する時間周波数領域を示す再構築マスクを推定結果として出力する層とを有する第一のネットワークと、前記再構築マスクに前記混合信号を適用して抽出される前記目的信号を入力する層と入力された前記目的信号を予め定められたクラスへ分類した結果を出力する層とを有する第二のネットワークとが結合されたニューラルネットワークを入力するニューラルネットワーク入力処理、
　アンカー信号および前記混合信号を前記第一のネットワークに適用して、当該アンカー信号が属するクラスの再構築マスクを推定する再構築マスク推定処理、
　推定された再構築マスクに前記混合信号を適用して目的信号を抽出し、抽出された目的信号を前記第二のネットワークに適用してクラスに分類する信号分類処理、
　抽出された目的信号が分類されたクラスと、真のクラスとの損失関数を計算する損失計算処理、
　前記損失関数の計算結果に基づいて、前記ニューラルネットワークにおける前記第一のネットワークのパラメータおよび第二のネットワークのパラメータを更新するパラメータ更新処理、および、
　更新された前記第一のネットワークを出力する出力処理
　を実行させるための信号抽出学習プログラム。
　コンピュータに、
　推定された複数の再構築マスクのうち、少なくとも一つを他の再構築マスクとの類似度に基づいて変換する再構築マスク変換処理、および、
　変換された再構築マスクを用いて目的信号を抽出する抽出処理を実行させる
　請求項９記載の信号抽出学習プログラム。