JPWO2019138573A1

JPWO2019138573A1 - 音響信号分離装置および音響信号分離方法

Info

Publication number: JPWO2019138573A1
Application number: JP2019564264A
Authority: JP
Inventors: 辰彦斉藤; 啓吾川島; 石井　純; 純石井; 岡登　洋平; 洋平岡登
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2020-05-28
Anticipated expiration: 2038-01-15
Also published as: CN111566732B; DE112018006332B4; WO2019138573A1; JP6725185B2; US11250871B2; DE112018006332T5; CN111566732A; US20210193163A1

Abstract

音響信号分離装置（１）において、判定部（６）が、信号再生成部（５）によって再生成された成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定し、複数の成分が混在していると判定されると、音源ごとの成分の音響信号が再生成されるまで、特徴量抽出部（２）、データ推定部（３）、データ分類部（４）および信号再生成部（５）による一連の処理が繰り返し実行される。

Description

この発明は、１つ以上の音源からの成分が混合された音響信号を成分ごとの音響信号に分離する音響信号分離装置および音響信号分離方法に関する。

１つ以上の音源からの成分が混合された音響信号を成分ごとの音響信号に分離する技術として、例えば、特許文献１に記載される方法がある。この方法は、深層ニューラルネットワーク（以下、ＤＮＮと記載する）を用いて、１つ以上の成分が混合された音響信号を成分ごとの音響信号に分離する。

国際公開第２０１７／００７０３５号

特許文献１に記載された方法は、音響信号を分離した後に音源ごとの成分に適切に分離されているかを確認できないため、音源の数が未知であると、音響信号が音源ごとの成分に正しく分離されない場合があるという課題があった。

この発明は上記課題を解決するものであり、音源の数が未知であっても、音響信号を音源ごとの成分に適切に分離することができる音響信号分離装置および音響信号分離方法を得ることを目的とする。

この発明に係る音響信号分離装置は、特徴量抽出部、データ推定部、データ分類部、信号再生成部および判定部を備えている。特徴量抽出部は、１つ以上の成分が混合された音響信号を含む入力信号から特徴量を抽出する。データ推定部は、同一の音源から出力された音響信号の成分間を対応付ける分類用データを推定するように学習されたＤＮＮを用いて、特徴量抽出部によって抽出された特徴量に基づいて分類用データを推定する。データ分類部は、データ推定部によって推定された分類用データを、成分ごとの音響信号に対応するデータに分類する。信号再生成部は、データ分類部によって音響信号の成分ごとに分類された分類用データおよび特徴量抽出部によって抽出された特徴量に基づいて、成分ごとの音響信号を再生成する。判定部は、信号再生成部によって再生成された成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定する。この構成において、判定部によって複数の音源からの成分が混在していると判定されると、音源ごとの成分の音響信号が再生成されるまで、特徴量抽出部、データ推定部、データ分類部および信号再生成部による一連の処理を繰り返し実行することを特徴とする。

この発明によれば、音響信号分離装置が、再生成した成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定し、複数の成分が混在していると判定されると、音源ごとの成分の音響信号が再生成されるまで、特徴量抽出部、データ推定部、データ分類部および信号再生成部による一連の処理を繰り返し実行する。
このように構成することで、音響信号分離装置は、音源の数が未知であっても、音響信号を音源ごとの成分に適切に分離することができる。

この発明の実施の形態１に係る音響信号分離装置の構成を示すブロック図である。図２Ａは、実施の形態１に係る音響信号分離装置の機能を実現するハードウェア構成を示すブロック図である。図２Ｂは、実施の形態１に係る音響信号分離装置の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。実施の形態１に係る音響信号分離方法を示すフローチャートである。図４Ａは、２次元空間にマッピングされた、２つの音響信号の成分に対応する分類用データを示す図である。図４Ｂは、２次元空間にマッピングされた、音響信号の成分ごとに分類された分類用データを示す図である。３つの音源からの成分に対応する分類用データの分類結果と時間との関係を示す図である。成分ごとの音響信号の音声認識結果の例を示す図である。図７Ａは、２つの音源からの成分が混在している音響信号に対応する分類用データの分類結果および１つの音源からの成分の音響信号に対応する分類用データの分類結果と時間との関係を示す図である。図７Ｂは、３つの音源からの成分ごとに正しく分離された音響信号に対応する分類用データの分類結果と時間との関係を示す図である。複数の音源からの成分が混在している音響信号および１つの音源から出力された成分の音響信号のそれぞれに対する音声認識結果を示す図である。複数の音源からの成分が混在している音響信号および１つの音源からの成分の音響信号のそれぞれに対する音声認識結果と認識尤度を示す図である。

以下、この発明をより詳細に説明するため、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
図１は、この発明の実施の形態１に係る音響信号分離装置１の構成を示すブロック図である。音響信号分離装置１は、特徴量抽出部２、データ推定部３、データ分類部４、信号再生成部５および判定部６を備え、入力信号ａに含まれる音響信号を成分ごとの音響信号に分離して成分ごとの音響信号を含む出力信号ｈを出力する。

特徴量抽出部２は、入力信号ａから特徴量を抽出する。入力信号ａは、１つ以上の成分が混合された音響信号であってもよいが、音響信号と他の信号とを含んだ信号であってもよい。例えば、入力信号ａは、音響信号に加え、この音響信号に対応付けられた画像信号またはテキストデータを含んだ信号であってもよい。

特徴量抽出部２によって入力信号ａから抽出される特徴量は、分類用特徴量ｂおよび信号再生成用特徴量ｃである。分類用特徴量ｂは、データ推定部３による分類用データｄの推定に用いられる特徴量である。例えば、特徴量抽出部２が、入力信号ａに含まれる音響信号に対して短時間フーリエ変換を施して周波数軸上の振幅を求め、周波数軸上の振幅に基づいて特徴量を算出する。このように音響信号から算出された特徴量を時系列に並べたデータを分類用特徴量ｂとしてもよい。

信号再生成用特徴量ｃは、信号再生成部５による出力信号ｆの生成に用いられる特徴量である。例えば、信号再生成用特徴量ｃは、特徴量抽出部２が、入力信号ａに含まれる音響信号に対して短時間フーリエ変換を施して算出したスペクトル係数であってもよく、入力信号ａに含まれる画像情報またはテキストデータであってもよい。

データ推定部３は、ＤＮＮ３ａを用いて、特徴量抽出部２によって入力信号ａから抽出された分類用特徴量ｂに基づいて分類用データｄを推定する。分類用データｄは、同一の音源から出力された音響信号の成分間を対応付けるデータである。
例えば、分類用データｄは、同一の音源から出力された音響信号の時間周波数成分間の距離が小さくなるように変換された音響信号の成分間のコストであってもよい。

ＤＮＮ３ａには、分類用特徴量ｂに基づいて、分類用データｄを推定するように事前に学習されたネットワークパラメータ３ｂが設定されている。ネットワークパラメータ３ｂが設定されたＤＮＮ３ａは、分類用特徴量ｂに対して階層的に演算を施すことで、分類用データｄを推定する。ＤＮＮ３ａには、例えば、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）またはＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を使用してもよい。

データ分類部４は、データ推定部３によって推定された分類用データｄを、音源からの成分ごとに分類する。分類用データｄの分類には、ｋ平均法（ｋ−ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇ）またはＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌｓ）といった分類方法を用いてもよい。データ分類部４によって分類された分類用データｄである分類結果情報ｅは、信号再生成部５に出力される。

信号再生成部５は、データ分類部４から分類結果情報ｅを入力して、分類結果情報ｅにおける成分ごとの分類用データｄに基づいて、信号再生成用特徴量ｃから成分ごとの音響信号を再生成する。信号再生成部５は、再生成した成分ごとの音響信号である出力信号ｆを、判定部６に出力する。なお、出力信号ｆには、再生成した成分ごとの音響信号に対応する画像信号およびテキスト情報が含まれてもよい。

判定部６は、信号再生成部５の出力信号ｆに含まれる成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定する。例えば、判定部６は、成分ごとの音響信号の音声認識結果に基づいて、出力信号ｆに含まれる成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定する。また、判定部６は、成分ごとの音響信号の音声認識結果の認識尤度に基づいて、出力信号ｆに含まれる成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定してもよい。

判定部６は、複数の音源からの成分が混在していると判定した音響信号が含まれる出力信号ｇを特徴量抽出部２に戻す。これにより、適切に音源ごとの成分の音響信号が再生成されるまで、特徴量抽出部２、データ推定部３、データ分類部４および信号再生成部５による一連の処理が繰り返し実行される。判定部６は、出力信号ｈを出力する。出力信号ｈは、信号再生成部５によって再生成された音源ごとの成分の音響信号を含む信号であり、これらの音響信号に対応する画像信号およびテキスト情報が含まれてもよい。

図２Ａは、音響信号分離装置１の機能を実現するハードウェア構成を示すブロック図である。図２Ｂは、音響信号分離装置１の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。図２Ａおよび図２Ｂにおいて、音響インタフェース１００は、入力信号ａに含まれる音響信号を入力し、出力信号ｈに含まれる音響信号を出力するインタフェースである。例えば、音響インタフェース１００は、音響信号を集音するマイクに接続し、音響信号を出力するスピーカに接続している。

画像インタフェース１０１は、入力信号ａに含まれる画像信号を入力し、出力信号ｈに含まれる画像信号を出力するインタフェースである。例えば、画像インタフェース１０１は、画像信号を撮影するカメラに接続し、画像信号を表示する表示器に接続している。
テキスト入力インタフェース１０２は、入力信号ａに含まれるテキスト情報を入力し、出力信号ｈに含まれるテキスト情報を出力するインタフェースである。例えば、テキスト入力インタフェース１０２は、テキスト情報を入力するためのキーボードまたはマウスに接続し、テキスト情報を表示する表示器に接続している。

図２Ａに示す処理回路１０３が備える不図示のメモリまたは図２Ｂに示すメモリ１０５には、入力信号ａ、分類用特徴量ｂ、信号再生成用特徴量ｃ、分類用データｄ、分類結果情報ｅ、出力信号ｆ、出力信号ｇおよび出力信号ｈが一時的に記憶される。
処理回路１０３またはプロセッサ１０４は、これらのデータをメモリから適宜読み出して音響信号の分離処理を行う。

音響信号分離装置１における、特徴量抽出部２、データ推定部３、データ分類部４、信号再生成部５および判定部６のそれぞれの機能は、処理回路により実現される。
すなわち、音響信号分離装置１は、図３を用いて後述するステップＳＴ１からステップＳＴ５までの処理を実行するための処理回路を備える。処理回路は、専用のハードウェアであってもよいが、メモリに記憶されたプログラムを実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）であってもよい。

処理回路が図２Ａに示す専用のハードウェアの処理回路１０３である場合、処理回路１０３は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、または、これらを組み合わせたものが該当する。特徴量抽出部２、データ推定部３、データ分類部４、信号再生成部５および判定部６のそれぞれの機能を別々の処理回路で実現してもよいし、これらの機能をまとめて１つの処理回路で実現してもよい。

処理回路が図２Ｂに示すプロセッサ１０４である場合は、特徴量抽出部２、データ推定部３、データ分類部４、信号再生成部５および判定部６のそれぞれの機能は、ソフトウェア、ファームウェアまたはソフトウェアとファームウェアとの組み合わせによって実現される。ソフトウェアまたはファームウェアは、プログラムとして記述されて、メモリ１０５に記憶される。

プロセッサ１０４は、メモリ１０５に記憶されたプログラムを読み出して実行することにより、特徴量抽出部２、データ推定部３、データ分類部４、信号再生成部５および判定部６のそれぞれの機能を実現する。すなわち、音響信号分離装置１は、プロセッサ１０４によって実行されるときに、図３に示すステップＳＴ１からステップＳＴ５までの処理が結果的に実行されるプログラムを記憶するためのメモリ１０５を備える。
これらのプログラムは、特徴量抽出部２、データ推定部３、データ分類部４、信号再生成部５および判定部６の手順または方法をコンピュータに実行させるものである。
メモリ１０５は、特徴量抽出部２、データ推定部３、データ分類部４、信号再生成部５および判定部６として、コンピュータを機能させるためのプログラムが記憶されたコンピュータ可読記憶媒体であってもよい。

メモリ１０５には、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ−ＥＰＲＯＭ）などの不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤなどが該当する。また、メモリ１０５は、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリといった外部メモリであってもよい。

特徴量抽出部２、データ推定部３、データ分類部４、信号再生成部５および判定部６のそれぞれの機能について一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現してもよい。例えば、特徴量抽出部２およびデータ推定部３については、専用のハードウェアである処理回路で機能を実現する。データ分類部４、信号再生成部５および判定部６については、プロセッサ１０４がメモリ１０５に記憶されたプログラムを読み出して実行することにより機能を実現してもよい。このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせにより上記機能のそれぞれを実現することができる。

次に動作について説明する。
図３は、実施の形態１に係る音響信号分離方法を示すフローチャートである。
特徴量抽出部２が、入力信号ａから分類用特徴量ｂおよび信号再生成用特徴量ｃを抽出する（ステップＳＴ１）。分類用特徴量ｂは、特徴量抽出部２からデータ推定部３に出力され、信号再生成用特徴量ｃは、特徴量抽出部２から信号再生成部５に出力される。

入力信号ａには、音響インタフェース１００で入力が受け付けられた音響信号に加え、画像インタフェース１０１で入力された画像信号、あるいはテキスト入力インタフェース１０２で入力されたテキスト情報が含まれてもよい。
また、特徴量抽出部２は、処理回路１０３が備える不図示のメモリまたはメモリ１０５から入力信号ａを読み出して特徴量を抽出してもよい。
さらに、入力信号ａは、ストリームデータであってもよい。

次に、データ推定部３が、ＤＮＮ３ａを用いて、分類用特徴量ｂに基づいて分類用データｄを推定する（ステップＳＴ２）。分類用データｄは、データ推定部３からデータ分類部４に出力される。

続いて、データ分類部４が、予め指定された音源数に基づいて、データ推定部３によって推定された分類用データｄを成分ごとに分類する（ステップＳＴ３）。データ分類部４は、成分ごとに分類した分類用データｄである分類結果情報ｅを信号再生成部５に出力する。

図４Ａは、２次元空間にマッピングされた、２つの音響信号の成分に対応する分類用データｄ１，ｄ２を示す図である。図４Ｂは、２次元空間にマッピングされた、音響信号の成分ごとに分類された分類用データｄ１，ｄ２を示す図である。図４Ａの例では、音源の数が音源Ａと音源Ｂとの２つであり、入力信号ａには、音源Ａから出力された音響信号の成分と、音源Ｂから出力された音響信号の成分とが混合されているものとする。

円形の記号で示す分類用データｄ１は、音源Ａから出力された音響信号の成分間を対応付けるデータであり、三角形の記号で示す分類用データｄ２は、音源Ｂから出力された音響信号の成分間を対応付けるデータである。
例えば、音源からの音響信号の出力状態が変化した場合、これに応じて分類用特徴量ｂも変化する。データ推定部３が、ＤＮＮ３ａを用いて、分類用特徴量ｂに基づいて分類用データｄを推定したときに、同一の音源から出力された音響信号の成分に対応する分類用データｄであっても、分類用特徴量ｂの変化に対応して分類用データｄの値にばらつきが生じる場合がある。このため、データ分類部４には、複数の値にばらついた分類用データｄが音源Ａに属する分類用データｄ１であるのか、音源Ｂに属する分類用データｄ２であるのかが分からない状態で入力される。

図４Ｂは、音源からの成分ごとに分類された分類用データｄ１，ｄ２を示す図である。図４Ａおよび図４Ｂにおいて、音源の数は、音源Ａと音源Ｂの２つである。
データ分類部４は、データ推定部３から分類用データｄを入力すると、予め指定された音源数である“２”に基づいて、分類用データｄを分類する。これにより、音源Ａに対応する分類用データｄ１を示す分類結果Ａ１と、音源Ｂに対応する分類用データｄ２を示す分類結果Ａ２とが得られる。

図５は、３つの音源Ａ、音源Ｂおよび音源Ｃのそれぞれからの成分に対応する分類用データｄ１，ｄ２，ｄ３の分類結果と時間との関係を示す図である。図５において、四角形の記号で示す分類用データｄ３は、音源Ｃに対応する分類結果Ｇ１に分類され、三角形の記号で示す分類用データｄ２は、音源Ｂに対応する分類結果Ｇ２に分類され、円形の記号で示す分類用データｄ１は、音源Ａに対応する分類結果Ｇ３に分類されている。

図３の説明に戻る。
信号再生成部５は、特徴量抽出部２から入力した信号再生成用特徴量ｃ、およびデータ分類部４から入力した分類結果情報ｅにおける成分ごとの分類用データｄに基づいて、成分ごとの音響信号を再生成する（ステップＳＴ４）。例えば、信号再生成部５は、同一の成分に分類された分類用データｄを用いて、音源に対応する信号再生成用特徴量ｃを特定し、特定した信号再生成用特徴量ｃおよび分類用データｄに基づいて成分ごとの音響信号を再生成する。信号再生成部５は、再生成した成分ごとの音響信号である出力信号ｆを、判定部６に出力する。

判定部６は、信号再生成部５の出力信号ｆに含まれる成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定する（ステップＳＴ５）。例えば、判定部６は、音響信号の音声認識結果に基づいて、当該音響信号に複数の音源からの成分が混在しているか否かを判定する。音声認識処理には、いわゆる“パターン認識”といった認識技術を用いてもよい。判定部６は、音声認識結果が得られた音響信号を、１つの音源からの成分のみであると判定し、音声認識結果が得られなかった音響信号を、複数の音源からの成分が混在していると判定する。

例えば、判定部６が、信号再生成部５からの出力信号ｆに含まれる音響信号に対して、音声認識処理を実行する。また、判定部６は、ＤＮＮ３ａとは別に設けられたＤＮＮを用いて、音響信号の音声認識処理を実行してもよい。

図６は、成分ごとの音響信号の音声認識結果の例を示す図であり、図５の分類結果Ｇ１〜Ｇ３を用いて再生成された成分ごとの音響信号についての音声認識結果を示している。図６において、“分類結果Ｇ１から生成された信号”とは、信号再生成部５によって分類結果Ｇ１の分類用データｄ３に基づいて再生成された音源Ｃからの成分の音響信号である。“分類結果Ｇ２から生成された信号”とは、信号再生成部５によって分類結果Ｇ２の分類用データｄ２に基づいて再生成された音源Ｂからの成分の音響信号である。“分類結果Ｇ３から生成された信号”とは、信号再生成部５によって分類結果Ｇ３の分類用データｄ１に基づいて再生成された音源Ａからの成分の音響信号である。

音源からの成分ごとに適切に分離された音響信号は、音声認識処理を精度よく行うことが可能である。分類結果Ｇ１の分類用データｄ３に基づいて再生成された音響信号を音声認識することで、音声認識結果１０ａが得られる。分類結果Ｇ２に基づいて再生成された音響信号を音声認識することで、音声認識結果１０ｂが得られる。分類結果Ｇ３に基づいて再生成された音響信号を音声認識すること、音声認識結果１０ｃが得られる。
音響信号の音声認識結果が得られた場合、判定部６は、当該音響信号に複数の音源からの成分が混在しておらず、これ以上の成分に分離できないと判定して（ステップＳＴ５；ＮＯ）、当該音響信号を含む出力信号ｈを外部に出力して処理を終了する。

図７Ａは、音源Ｂからの成分と音源Ｃからの成分とが混在している音響信号に対応する分類用データの分類結果Ｇ０および音源Ａからの成分の音響信号に対応する分類用データの分類結果Ｇ３と時間との関係を示す図である。図７Ｂは、音源Ａ、音源Ｂおよび音源Ｃからの成分ごとに正しく分離された音響信号に対応する分類用データの分類結果Ｇ１，Ｇ２，Ｇ３と時間との関係を示す図である。図７Ａおよび図７Ｂは、音源Ａ、音源Ｂおよび音源Ｃからの成分が混在した音響信号を音源ごとの成分に分離する場合を示している。

音源Ａ、音源Ｂおよび音源Ｃのそれぞれからの成分が混在している音響信号を音源ごとの成分に分離する場合、データ分類部４は、音源Ａからの成分に対応する分類用データｄ１、音源Ｂからの成分に対応する分類用データｄ２、および音源Ｃからの成分に対応する分類用データｄ３のそれぞれに分類する必要がある。

しかしながら、図７Ａでは音源の数が未知であり、データ分類部４が、予め指定された音源数である“２”に基づいて、分類用データｄを分類する。このため、例えば、分類用データｄ１は、音源Ａに対応する分類結果Ｇ３に正しく分類されたが、分類用データｄ２と分類用データｄ３については、音源Ｂからの成分と音源Ｃからの成分が混在している音響信号に対応する分類結果Ｇ０に誤って分類されている。

図８は、音源Ｂからの成分と音源Ｃからの成分とが混在している音響信号および音源Ａからの成分の音響信号のそれぞれに対する音声認識結果を示す図である。図８において、“分類結果Ｇ０から生成された信号”とは、信号再生成部５によって分類結果Ｇ０の分類用データｄ２，ｄ３に基づいて再生成された、音源Ｂからの成分と音源Ｃからの成分とが混在している音響信号である。“分類結果Ｇ１から生成された信号”とは、分類結果Ｇ１の分類用データｄ３に基づいて再生成された音源Ｃからの成分の音響信号である。“分類結果Ｇ２から生成された信号”とは、分類結果Ｇ２の分類用データｄ２に基づいて再生成された音源Ｂからの成分の音響信号である。“分類結果Ｇ３から生成された信号”とは、分類結果Ｇ３の分類用データｄ１に基づいて再生成された音源Ａからの成分の音響信号である。

音源Ｃからの成分の音響信号を音声認識することで、音声認識結果１０ａが得られる。音源Ｂからの成分の音響信号を音声認識することで音声認識結果１０ｂが得られ、音源Ａからの成分の音響信号を音声認識することで音声認識結果１０ｃが得られる。
しかしながら、音源Ｂからの成分と音源Ｃからの成分が混在している音響信号は、音声認識の精度が低く、図８に示すように認識結果が得られない。

判定部６は、音響信号の音声認識結果が得られない場合に、この音響信号に複数の音源からの成分が混在していると判定する（ステップＳＴ５；ＹＥＳ）。このとき、データ分類部４に指定する音源数または処理対象の音声ファイルを変更する（ステップＳＴ６）。例えば、データ分類部４が、予め指定された音源数を＋１増やす。この後、判定部６が、上記音響信号の成分とこの音響信号の成分とともに再生成された音響信号の成分とを含む出力信号ｇを特徴量抽出部２に出力して、ステップＳＴ１の処理に戻る。また、処理対象の音声ファイルを変更する場合、判定部６が、複数の音源からの成分が混在している音響信号のみを特徴量抽出部２に出力して、ステップＳＴ１の処理に戻る。
この後、特徴量抽出部２、データ推定部３、データ分類部４および信号再生成部５は、音源ごとの成分の音響信号に適切に分離されるまで、音響信号に対して、ステップＳＴ１からステップＳＴ４までの一連の処理を実行する。

ステップＳＴ１からステップＳＴ４までの一連の処理が繰り返し実行されると、データ分類部４は、図７Ｂに示すように、分類用データｄ１を音源Ａに対応する分類結果Ｇ３、分類用データｄ２を音源Ｂに対応する分類結果Ｇ２、および分類用データｄ３を音源Ｃに対応する分類結果Ｇ１に分類する。信号再生成部５は、分類結果Ｇ１、分類結果Ｇ２および分類結果Ｇ３に基づいて、音源Ｃからの成分の音響信号と、音源Ｂからの成分の音響信号と、音源Ａからの成分の音響信号とを再生成する。

このように、音響信号分離装置１は、再生成した成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定し、複数の音源からの成分が混在していると判定した音響信号が適切に音源ごとの成分に分離されるまで成分の分離処理を繰り返し行う。これにより、音源の数が未知であっても、音響信号を音源ごとの成分に適切に分離することができる。

なお、音声認識処理は、パターン認識に限定されるものではなく、例えば、参考文献に記載されるようなパターン認識以外の音声認識処理を採用してもよい。
（参考文献）古井貞煕『音声情報処理』森北出版、１９９８年、ｐｐ．７９−１３２

また、判定部６は、対象の音響信号の音声認識結果の認識尤度に基づいて、複数の音源からの成分が混在しているか否かを判定してもよい。
図９は、複数の音源からの成分が混在している音響信号および１つの音源からの成分の音響信号のそれぞれに対する音声認識結果と認識尤度を示す図である。これまで、複数の音源からの成分が混在している音響信号は、音声認識できないことを前提としていたが、実際には、認識精度は低いが、認識結果が得られる可能性がある。

図９において、“分類結果Ｇ０から生成された信号”とは、信号再生成部５によって分類結果Ｇ０の分類用データｄ２，ｄ３に基づいて再生成された、音源Ｂからの成分と音源Ｃからの成分とが混在している音響信号である。“分類結果Ｇ１から生成された信号”とは、分類結果Ｇ１の分類用データｄ３に基づいて再生成された音源Ｃからの成分の音響信号である。“分類結果Ｇ２から生成された信号”とは、分類結果Ｇ２の分類用データｄ２に基づいて再生成された音源Ｂからの成分の音響信号である。“分類結果Ｇ３から生成された信号”とは、分類結果Ｇ３の分類用データｄ１に基づいて再生成された音源Ａからの成分の音響信号である。

音源Ｃからの成分の音響信号を音声認識することで音声認識結果１０ａが得られ、その認識尤度は“０．９”である。音源Ｂからの成分の音響信号を音声認識することで音声認識結果１０ｂが得られ、その認識尤度は“０．８”である。音源Ａからの成分の音響信号を音声認識することで音声認識結果１０ｃが得られ、その認識尤度は“１．０”である。一方、音源Ｂからの成分と音源Ｃからの成分とが混在している音響信号を音声認識することで特異な音声認識結果１０ｄが得られ、その認識尤度は“０．１”である。

判定部６は、対象の音響信号の音声認識結果の認識尤度と予め設定されている閾値とを比較し、認識尤度が閾値よりも高ければ、当該音響信号に複数の音源からの成分が混在していないと判定し、認識尤度が閾値以下であれば、当該音響信号に複数の音源からの成分が混在していると判定する。例えば、認識尤度に関する閾値が０．５であると、判定部６は、認識尤度が０．５以下である“分類結果Ｇ０から生成された信号”に複数の音源からの成分が混在していると判定する。

例えば、判定部６が、信号再生成部５からの出力信号ｆに含まれる音響信号に対して、音声認識処理と認識尤度の算出を実行する。また、判定部６は、ＤＮＮ３ａとは別に設けられたＤＮＮを用いて、音響信号の音声認識処理と認識尤度の算出を実行してもよい。

これまで、複数の音源からの成分が混在していると判定された音響信号とこの音響信号の成分とともに再生成された音響信号の成分とを含む出力信号ｇに対して、図３に示したステップＳＴ１からステップＳＴ４までの一連の処理を実行する場合を示したが、これに限定されるものではない。
例えば、信号再生成部５によって再生成された信号に複数の音源からの成分が混在していると判定された場合に、データ分類部４が、予め指定された音源の数（例えば、図４Ａおよび図４Ｂで“２”とした音源の数）を変更し、音響信号分離装置１が、入力信号ａに含まれる音響信号を変更後の音源の数ごとに分離してもよい。

また、音響信号分離装置１が、複数の音源からの成分が混在していると判定された音響信号の成分のみを含んだ出力信号ｇに対して、ステップＳＴ１からステップＳＴ４までの一連の処理を実行してもよい。これらの場合においても、信号再生成部５によって再生成された信号に複数の音源からの成分が混在していると判定されると、ステップＳＴ１からステップＳＴ４までの一連の処理が繰り返される。

以上のように、実施の形態１に係る音響信号分離装置１において、判定部６が、再生成した成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定する。複数の成分が混在していると判定されると、音源ごとの成分の音響信号に分離されるまで、特徴量抽出部２、データ推定部３、データ分類部４および信号再生成部５による一連の処理が繰り返し実行される。この構成において、判定部６は、成分ごとの音響信号の音声認識結果に基づいて、複数の音源からの成分が混在しているか否かを判定する。あるいは、判定部６は、成分ごとの音響信号の音声認識についての認識尤度に基づいて、複数の音源からの成分が混在しているか否かを判定する。
このように構成されているので、音響信号分離装置１は、音源の数が未知であっても、音響信号を音源ごとの成分に適切に分離することが可能である。

なお、本発明は上記実施の形態に限定されるものではなく、本発明の範囲内において、実施の形態の任意の構成要素の変形もしくは実施の形態の任意の構成要素の省略が可能である。

この発明に係る音響信号分離装置は、音源の数が未知であっても、音響信号を音源ごとの成分に適切に分離することができるので、例えば、複数の音源が存在する会議システムに利用可能である。

１音響信号分離装置、２特徴量抽出部、３データ推定部、３ａＤＮＮ、３ｂネットワークパラメータ、４データ分類部、５信号再生成部、６判定部、１０ａ〜１０ｄ音声認識結果、１００音響インタフェース、１０１画像インタフェース、１０２テキスト入力インタフェース、１０３処理回路、１０４プロセッサ、１０５メモリ。

Claims

１つ以上の成分が混合された音響信号を含む入力信号から特徴量を抽出する特徴量抽出部と、
同一の音源から出力された音響信号の成分間を対応付ける分類用データを推定するように学習された深層ニューラルネットワークを用いて、前記特徴量抽出部によって抽出された特徴量に基づいて前記分類用データを推定するデータ推定部と、
前記データ推定部によって推定された前記分類用データを、成分ごとの音響信号に対応するデータに分類するデータ分類部と、
前記データ分類部によって音響信号の成分ごとに分類された前記分類用データおよび前記特徴量抽出部によって抽出された特徴量に基づいて、成分ごとの音響信号を再生成する信号再生成部と、
前記信号再生成部によって再生成された成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定する判定部とを備え、
前記判定部によって複数の音源からの成分が混在していると判定されると、音源ごとの成分の音響信号が再生成されるまで、前記特徴量抽出部、前記データ推定部、前記データ分類部および前記信号再生成部による一連の処理を繰り返し実行すること
を特徴とする音響信号分離装置。
前記判定部は、成分ごとの音響信号の音声認識結果に基づいて、複数の音源からの成分が混在しているか否かを判定すること
を特徴とする請求項１記載の音響信号分離装置。
前記判定部は、成分ごとの音響信号の音声認識についての認識尤度に基づいて、複数の音源からの成分が混在しているか否かを判定すること
を特徴とする請求項１記載の音響信号分離装置。
特徴量抽出部が、１つ以上の成分が混合された音響信号を含む入力信号から特徴量を抽出するステップと、
データ推定部が、同一の音源から出力された音響信号の成分間を対応付ける分類用データを推定するように学習された深層ニューラルネットワークを用いて、前記特徴量抽出部によって抽出された特徴量に基づいて前記分類用データを推定するステップと、
データ分類部が、前記データ推定部によって推定された前記分類用データを、成分ごとの音響信号に対応するデータに分類するステップと、
信号再生成部が、前記データ分類部によって音響信号の成分ごとに分類された前記分類用データおよび前記特徴量抽出部によって抽出された特徴量に基づいて、成分ごとの音響信号を再生成するステップと、
判定部が、前記信号再生成部によって再生成された成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定するステップとを備え、
前記判定部によって複数の音源からの成分が混在していると判定されると、音源ごとの成分の音響信号が再生成されるまで、前記特徴量抽出部、前記データ推定部、前記データ分類部および前記信号再生成部による一連の処理を繰り返し実行すること
を特徴とする音響信号分離方法。