JPWO2019138573A1 - 音響信号分離装置および音響信号分離方法 - Google Patents

音響信号分離装置および音響信号分離方法 Download PDF

Info

Publication number
JPWO2019138573A1
JPWO2019138573A1 JP2019564264A JP2019564264A JPWO2019138573A1 JP WO2019138573 A1 JPWO2019138573 A1 JP WO2019138573A1 JP 2019564264 A JP2019564264 A JP 2019564264A JP 2019564264 A JP2019564264 A JP 2019564264A JP WO2019138573 A1 JPWO2019138573 A1 JP WO2019138573A1
Authority
JP
Japan
Prior art keywords
unit
acoustic signal
data
classification
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019564264A
Other languages
English (en)
Other versions
JP6725185B2 (ja
Inventor
辰彦 斉藤
辰彦 斉藤
啓吾 川島
啓吾 川島
石井 純
純 石井
岡登 洋平
洋平 岡登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2019138573A1 publication Critical patent/JPWO2019138573A1/ja
Application granted granted Critical
Publication of JP6725185B2 publication Critical patent/JP6725185B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

音響信号分離装置(1)において、判定部(6)が、信号再生成部(5)によって再生成された成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定し、複数の成分が混在していると判定されると、音源ごとの成分の音響信号が再生成されるまで、特徴量抽出部(2)、データ推定部(3)、データ分類部(4)および信号再生成部(5)による一連の処理が繰り返し実行される。

Description

この発明は、1つ以上の音源からの成分が混合された音響信号を成分ごとの音響信号に分離する音響信号分離装置および音響信号分離方法に関する。
1つ以上の音源からの成分が混合された音響信号を成分ごとの音響信号に分離する技術として、例えば、特許文献1に記載される方法がある。この方法は、深層ニューラルネットワーク(以下、DNNと記載する)を用いて、1つ以上の成分が混合された音響信号を成分ごとの音響信号に分離する。
国際公開第2017/007035号
特許文献1に記載された方法は、音響信号を分離した後に音源ごとの成分に適切に分離されているかを確認できないため、音源の数が未知であると、音響信号が音源ごとの成分に正しく分離されない場合があるという課題があった。
この発明は上記課題を解決するものであり、音源の数が未知であっても、音響信号を音源ごとの成分に適切に分離することができる音響信号分離装置および音響信号分離方法を得ることを目的とする。
この発明に係る音響信号分離装置は、特徴量抽出部、データ推定部、データ分類部、信号再生成部および判定部を備えている。特徴量抽出部は、1つ以上の成分が混合された音響信号を含む入力信号から特徴量を抽出する。データ推定部は、同一の音源から出力された音響信号の成分間を対応付ける分類用データを推定するように学習されたDNNを用いて、特徴量抽出部によって抽出された特徴量に基づいて分類用データを推定する。データ分類部は、データ推定部によって推定された分類用データを、成分ごとの音響信号に対応するデータに分類する。信号再生成部は、データ分類部によって音響信号の成分ごとに分類された分類用データおよび特徴量抽出部によって抽出された特徴量に基づいて、成分ごとの音響信号を再生成する。判定部は、信号再生成部によって再生成された成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定する。この構成において、判定部によって複数の音源からの成分が混在していると判定されると、音源ごとの成分の音響信号が再生成されるまで、特徴量抽出部、データ推定部、データ分類部および信号再生成部による一連の処理を繰り返し実行することを特徴とする。
この発明によれば、音響信号分離装置が、再生成した成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定し、複数の成分が混在していると判定されると、音源ごとの成分の音響信号が再生成されるまで、特徴量抽出部、データ推定部、データ分類部および信号再生成部による一連の処理を繰り返し実行する。
このように構成することで、音響信号分離装置は、音源の数が未知であっても、音響信号を音源ごとの成分に適切に分離することができる。
この発明の実施の形態1に係る音響信号分離装置の構成を示すブロック図である。 図2Aは、実施の形態1に係る音響信号分離装置の機能を実現するハードウェア構成を示すブロック図である。図2Bは、実施の形態1に係る音響信号分離装置の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。 実施の形態1に係る音響信号分離方法を示すフローチャートである。 図4Aは、2次元空間にマッピングされた、2つの音響信号の成分に対応する分類用データを示す図である。図4Bは、2次元空間にマッピングされた、音響信号の成分ごとに分類された分類用データを示す図である。 3つの音源からの成分に対応する分類用データの分類結果と時間との関係を示す図である。 成分ごとの音響信号の音声認識結果の例を示す図である。 図7Aは、2つの音源からの成分が混在している音響信号に対応する分類用データの分類結果および1つの音源からの成分の音響信号に対応する分類用データの分類結果と時間との関係を示す図である。図7Bは、3つの音源からの成分ごとに正しく分離された音響信号に対応する分類用データの分類結果と時間との関係を示す図である。 複数の音源からの成分が混在している音響信号および1つの音源から出力された成分の音響信号のそれぞれに対する音声認識結果を示す図である。 複数の音源からの成分が混在している音響信号および1つの音源からの成分の音響信号のそれぞれに対する音声認識結果と認識尤度を示す図である。
以下、この発明をより詳細に説明するため、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、この発明の実施の形態1に係る音響信号分離装置1の構成を示すブロック図である。音響信号分離装置1は、特徴量抽出部2、データ推定部3、データ分類部4、信号再生成部5および判定部6を備え、入力信号aに含まれる音響信号を成分ごとの音響信号に分離して成分ごとの音響信号を含む出力信号hを出力する。
特徴量抽出部2は、入力信号aから特徴量を抽出する。入力信号aは、1つ以上の成分が混合された音響信号であってもよいが、音響信号と他の信号とを含んだ信号であってもよい。例えば、入力信号aは、音響信号に加え、この音響信号に対応付けられた画像信号またはテキストデータを含んだ信号であってもよい。
特徴量抽出部2によって入力信号aから抽出される特徴量は、分類用特徴量bおよび信号再生成用特徴量cである。分類用特徴量bは、データ推定部3による分類用データdの推定に用いられる特徴量である。例えば、特徴量抽出部2が、入力信号aに含まれる音響信号に対して短時間フーリエ変換を施して周波数軸上の振幅を求め、周波数軸上の振幅に基づいて特徴量を算出する。このように音響信号から算出された特徴量を時系列に並べたデータを分類用特徴量bとしてもよい。
信号再生成用特徴量cは、信号再生成部5による出力信号fの生成に用いられる特徴量である。例えば、信号再生成用特徴量cは、特徴量抽出部2が、入力信号aに含まれる音響信号に対して短時間フーリエ変換を施して算出したスペクトル係数であってもよく、入力信号aに含まれる画像情報またはテキストデータであってもよい。
データ推定部3は、DNN3aを用いて、特徴量抽出部2によって入力信号aから抽出された分類用特徴量bに基づいて分類用データdを推定する。分類用データdは、同一の音源から出力された音響信号の成分間を対応付けるデータである。
例えば、分類用データdは、同一の音源から出力された音響信号の時間周波数成分間の距離が小さくなるように変換された音響信号の成分間のコストであってもよい。
DNN3aには、分類用特徴量bに基づいて、分類用データdを推定するように事前に学習されたネットワークパラメータ3bが設定されている。ネットワークパラメータ3bが設定されたDNN3aは、分類用特徴量bに対して階層的に演算を施すことで、分類用データdを推定する。DNN3aには、例えば、RNN(Recurrent Neural Network)またはCNN(Convolutional Neural Network)を使用してもよい。
データ分類部4は、データ推定部3によって推定された分類用データdを、音源からの成分ごとに分類する。分類用データdの分類には、k平均法(k−means clustering)またはGMM(Gaussian Mixture Models)といった分類方法を用いてもよい。データ分類部4によって分類された分類用データdである分類結果情報eは、信号再生成部5に出力される。
信号再生成部5は、データ分類部4から分類結果情報eを入力して、分類結果情報eにおける成分ごとの分類用データdに基づいて、信号再生成用特徴量cから成分ごとの音響信号を再生成する。信号再生成部5は、再生成した成分ごとの音響信号である出力信号fを、判定部6に出力する。なお、出力信号fには、再生成した成分ごとの音響信号に対応する画像信号およびテキスト情報が含まれてもよい。
判定部6は、信号再生成部5の出力信号fに含まれる成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定する。例えば、判定部6は、成分ごとの音響信号の音声認識結果に基づいて、出力信号fに含まれる成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定する。また、判定部6は、成分ごとの音響信号の音声認識結果の認識尤度に基づいて、出力信号fに含まれる成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定してもよい。
判定部6は、複数の音源からの成分が混在していると判定した音響信号が含まれる出力信号gを特徴量抽出部2に戻す。これにより、適切に音源ごとの成分の音響信号が再生成されるまで、特徴量抽出部2、データ推定部3、データ分類部4および信号再生成部5による一連の処理が繰り返し実行される。判定部6は、出力信号hを出力する。出力信号hは、信号再生成部5によって再生成された音源ごとの成分の音響信号を含む信号であり、これらの音響信号に対応する画像信号およびテキスト情報が含まれてもよい。
図2Aは、音響信号分離装置1の機能を実現するハードウェア構成を示すブロック図である。図2Bは、音響信号分離装置1の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。図2Aおよび図2Bにおいて、音響インタフェース100は、入力信号aに含まれる音響信号を入力し、出力信号hに含まれる音響信号を出力するインタフェースである。例えば、音響インタフェース100は、音響信号を集音するマイクに接続し、音響信号を出力するスピーカに接続している。
画像インタフェース101は、入力信号aに含まれる画像信号を入力し、出力信号hに含まれる画像信号を出力するインタフェースである。例えば、画像インタフェース101は、画像信号を撮影するカメラに接続し、画像信号を表示する表示器に接続している。
テキスト入力インタフェース102は、入力信号aに含まれるテキスト情報を入力し、出力信号hに含まれるテキスト情報を出力するインタフェースである。例えば、テキスト入力インタフェース102は、テキスト情報を入力するためのキーボードまたはマウスに接続し、テキスト情報を表示する表示器に接続している。
図2Aに示す処理回路103が備える不図示のメモリまたは図2Bに示すメモリ105には、入力信号a、分類用特徴量b、信号再生成用特徴量c、分類用データd、分類結果情報e、出力信号f、出力信号gおよび出力信号hが一時的に記憶される。
処理回路103またはプロセッサ104は、これらのデータをメモリから適宜読み出して音響信号の分離処理を行う。
音響信号分離装置1における、特徴量抽出部2、データ推定部3、データ分類部4、信号再生成部5および判定部6のそれぞれの機能は、処理回路により実現される。
すなわち、音響信号分離装置1は、図3を用いて後述するステップST1からステップST5までの処理を実行するための処理回路を備える。処理回路は、専用のハードウェアであってもよいが、メモリに記憶されたプログラムを実行するCPU(Central Processing Unit)であってもよい。
処理回路が図2Aに示す専用のハードウェアの処理回路103である場合、処理回路103は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field−Programmable Gate Array)、または、これらを組み合わせたものが該当する。特徴量抽出部2、データ推定部3、データ分類部4、信号再生成部5および判定部6のそれぞれの機能を別々の処理回路で実現してもよいし、これらの機能をまとめて1つの処理回路で実現してもよい。
処理回路が図2Bに示すプロセッサ104である場合は、特徴量抽出部2、データ推定部3、データ分類部4、信号再生成部5および判定部6のそれぞれの機能は、ソフトウェア、ファームウェアまたはソフトウェアとファームウェアとの組み合わせによって実現される。ソフトウェアまたはファームウェアは、プログラムとして記述されて、メモリ105に記憶される。
プロセッサ104は、メモリ105に記憶されたプログラムを読み出して実行することにより、特徴量抽出部2、データ推定部3、データ分類部4、信号再生成部5および判定部6のそれぞれの機能を実現する。すなわち、音響信号分離装置1は、プロセッサ104によって実行されるときに、図3に示すステップST1からステップST5までの処理が結果的に実行されるプログラムを記憶するためのメモリ105を備える。
これらのプログラムは、特徴量抽出部2、データ推定部3、データ分類部4、信号再生成部5および判定部6の手順または方法をコンピュータに実行させるものである。
メモリ105は、特徴量抽出部2、データ推定部3、データ分類部4、信号再生成部5および判定部6として、コンピュータを機能させるためのプログラムが記憶されたコンピュータ可読記憶媒体であってもよい。
メモリ105には、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically−EPROM)などの不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVDなどが該当する。また、メモリ105は、USB(Universal Serial Bus)メモリといった外部メモリであってもよい。
特徴量抽出部2、データ推定部3、データ分類部4、信号再生成部5および判定部6のそれぞれの機能について一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現してもよい。例えば、特徴量抽出部2およびデータ推定部3については、専用のハードウェアである処理回路で機能を実現する。データ分類部4、信号再生成部5および判定部6については、プロセッサ104がメモリ105に記憶されたプログラムを読み出して実行することにより機能を実現してもよい。このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせにより上記機能のそれぞれを実現することができる。
次に動作について説明する。
図3は、実施の形態1に係る音響信号分離方法を示すフローチャートである。
特徴量抽出部2が、入力信号aから分類用特徴量bおよび信号再生成用特徴量cを抽出する(ステップST1)。分類用特徴量bは、特徴量抽出部2からデータ推定部3に出力され、信号再生成用特徴量cは、特徴量抽出部2から信号再生成部5に出力される。
入力信号aには、音響インタフェース100で入力が受け付けられた音響信号に加え、画像インタフェース101で入力された画像信号、あるいはテキスト入力インタフェース102で入力されたテキスト情報が含まれてもよい。
また、特徴量抽出部2は、処理回路103が備える不図示のメモリまたはメモリ105から入力信号aを読み出して特徴量を抽出してもよい。
さらに、入力信号aは、ストリームデータであってもよい。
次に、データ推定部3が、DNN3aを用いて、分類用特徴量bに基づいて分類用データdを推定する(ステップST2)。分類用データdは、データ推定部3からデータ分類部4に出力される。
続いて、データ分類部4が、予め指定された音源数に基づいて、データ推定部3によって推定された分類用データdを成分ごとに分類する(ステップST3)。データ分類部4は、成分ごとに分類した分類用データdである分類結果情報eを信号再生成部5に出力する。
図4Aは、2次元空間にマッピングされた、2つの音響信号の成分に対応する分類用データd1,d2を示す図である。図4Bは、2次元空間にマッピングされた、音響信号の成分ごとに分類された分類用データd1,d2を示す図である。図4Aの例では、音源の数が音源Aと音源Bとの2つであり、入力信号aには、音源Aから出力された音響信号の成分と、音源Bから出力された音響信号の成分とが混合されているものとする。
円形の記号で示す分類用データd1は、音源Aから出力された音響信号の成分間を対応付けるデータであり、三角形の記号で示す分類用データd2は、音源Bから出力された音響信号の成分間を対応付けるデータである。
例えば、音源からの音響信号の出力状態が変化した場合、これに応じて分類用特徴量bも変化する。データ推定部3が、DNN3aを用いて、分類用特徴量bに基づいて分類用データdを推定したときに、同一の音源から出力された音響信号の成分に対応する分類用データdであっても、分類用特徴量bの変化に対応して分類用データdの値にばらつきが生じる場合がある。このため、データ分類部4には、複数の値にばらついた分類用データdが音源Aに属する分類用データd1であるのか、音源Bに属する分類用データd2であるのかが分からない状態で入力される。
図4Bは、音源からの成分ごとに分類された分類用データd1,d2を示す図である。図4Aおよび図4Bにおいて、音源の数は、音源Aと音源Bの2つである。
データ分類部4は、データ推定部3から分類用データdを入力すると、予め指定された音源数である“2”に基づいて、分類用データdを分類する。これにより、音源Aに対応する分類用データd1を示す分類結果A1と、音源Bに対応する分類用データd2を示す分類結果A2とが得られる。
図5は、3つの音源A、音源Bおよび音源Cのそれぞれからの成分に対応する分類用データd1,d2,d3の分類結果と時間との関係を示す図である。図5において、四角形の記号で示す分類用データd3は、音源Cに対応する分類結果G1に分類され、三角形の記号で示す分類用データd2は、音源Bに対応する分類結果G2に分類され、円形の記号で示す分類用データd1は、音源Aに対応する分類結果G3に分類されている。
図3の説明に戻る。
信号再生成部5は、特徴量抽出部2から入力した信号再生成用特徴量c、およびデータ分類部4から入力した分類結果情報eにおける成分ごとの分類用データdに基づいて、成分ごとの音響信号を再生成する(ステップST4)。例えば、信号再生成部5は、同一の成分に分類された分類用データdを用いて、音源に対応する信号再生成用特徴量cを特定し、特定した信号再生成用特徴量cおよび分類用データdに基づいて成分ごとの音響信号を再生成する。信号再生成部5は、再生成した成分ごとの音響信号である出力信号fを、判定部6に出力する。
判定部6は、信号再生成部5の出力信号fに含まれる成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定する(ステップST5)。例えば、判定部6は、音響信号の音声認識結果に基づいて、当該音響信号に複数の音源からの成分が混在しているか否かを判定する。音声認識処理には、いわゆる“パターン認識”といった認識技術を用いてもよい。判定部6は、音声認識結果が得られた音響信号を、1つの音源からの成分のみであると判定し、音声認識結果が得られなかった音響信号を、複数の音源からの成分が混在していると判定する。
例えば、判定部6が、信号再生成部5からの出力信号fに含まれる音響信号に対して、音声認識処理を実行する。また、判定部6は、DNN3aとは別に設けられたDNNを用いて、音響信号の音声認識処理を実行してもよい。
図6は、成分ごとの音響信号の音声認識結果の例を示す図であり、図5の分類結果G1〜G3を用いて再生成された成分ごとの音響信号についての音声認識結果を示している。図6において、“分類結果G1から生成された信号”とは、信号再生成部5によって分類結果G1の分類用データd3に基づいて再生成された音源Cからの成分の音響信号である。“分類結果G2から生成された信号”とは、信号再生成部5によって分類結果G2の分類用データd2に基づいて再生成された音源Bからの成分の音響信号である。“分類結果G3から生成された信号”とは、信号再生成部5によって分類結果G3の分類用データd1に基づいて再生成された音源Aからの成分の音響信号である。
音源からの成分ごとに適切に分離された音響信号は、音声認識処理を精度よく行うことが可能である。分類結果G1の分類用データd3に基づいて再生成された音響信号を音声認識することで、音声認識結果10aが得られる。分類結果G2に基づいて再生成された音響信号を音声認識することで、音声認識結果10bが得られる。分類結果G3に基づいて再生成された音響信号を音声認識すること、音声認識結果10cが得られる。
音響信号の音声認識結果が得られた場合、判定部6は、当該音響信号に複数の音源からの成分が混在しておらず、これ以上の成分に分離できないと判定して(ステップST5;NO)、当該音響信号を含む出力信号hを外部に出力して処理を終了する。
図7Aは、音源Bからの成分と音源Cからの成分とが混在している音響信号に対応する分類用データの分類結果G0および音源Aからの成分の音響信号に対応する分類用データの分類結果G3と時間との関係を示す図である。図7Bは、音源A、音源Bおよび音源Cからの成分ごとに正しく分離された音響信号に対応する分類用データの分類結果G1,G2,G3と時間との関係を示す図である。図7Aおよび図7Bは、音源A、音源Bおよび音源Cからの成分が混在した音響信号を音源ごとの成分に分離する場合を示している。
音源A、音源Bおよび音源Cのそれぞれからの成分が混在している音響信号を音源ごとの成分に分離する場合、データ分類部4は、音源Aからの成分に対応する分類用データd1、音源Bからの成分に対応する分類用データd2、および音源Cからの成分に対応する分類用データd3のそれぞれに分類する必要がある。
しかしながら、図7Aでは音源の数が未知であり、データ分類部4が、予め指定された音源数である“2”に基づいて、分類用データdを分類する。このため、例えば、分類用データd1は、音源Aに対応する分類結果G3に正しく分類されたが、分類用データd2と分類用データd3については、音源Bからの成分と音源Cからの成分が混在している音響信号に対応する分類結果G0に誤って分類されている。
図8は、音源Bからの成分と音源Cからの成分とが混在している音響信号および音源Aからの成分の音響信号のそれぞれに対する音声認識結果を示す図である。図8において、“分類結果G0から生成された信号”とは、信号再生成部5によって分類結果G0の分類用データd2,d3に基づいて再生成された、音源Bからの成分と音源Cからの成分とが混在している音響信号である。“分類結果G1から生成された信号”とは、分類結果G1の分類用データd3に基づいて再生成された音源Cからの成分の音響信号である。“分類結果G2から生成された信号”とは、分類結果G2の分類用データd2に基づいて再生成された音源Bからの成分の音響信号である。“分類結果G3から生成された信号”とは、分類結果G3の分類用データd1に基づいて再生成された音源Aからの成分の音響信号である。
音源Cからの成分の音響信号を音声認識することで、音声認識結果10aが得られる。音源Bからの成分の音響信号を音声認識することで音声認識結果10bが得られ、音源Aからの成分の音響信号を音声認識することで音声認識結果10cが得られる。
しかしながら、音源Bからの成分と音源Cからの成分が混在している音響信号は、音声認識の精度が低く、図8に示すように認識結果が得られない。
判定部6は、音響信号の音声認識結果が得られない場合に、この音響信号に複数の音源からの成分が混在していると判定する(ステップST5;YES)。このとき、データ分類部4に指定する音源数または処理対象の音声ファイルを変更する(ステップST6)。例えば、データ分類部4が、予め指定された音源数を+1増やす。この後、判定部6が、上記音響信号の成分とこの音響信号の成分とともに再生成された音響信号の成分とを含む出力信号gを特徴量抽出部2に出力して、ステップST1の処理に戻る。また、処理対象の音声ファイルを変更する場合、判定部6が、複数の音源からの成分が混在している音響信号のみを特徴量抽出部2に出力して、ステップST1の処理に戻る。
この後、特徴量抽出部2、データ推定部3、データ分類部4および信号再生成部5は、音源ごとの成分の音響信号に適切に分離されるまで、音響信号に対して、ステップST1からステップST4までの一連の処理を実行する。
ステップST1からステップST4までの一連の処理が繰り返し実行されると、データ分類部4は、図7Bに示すように、分類用データd1を音源Aに対応する分類結果G3、分類用データd2を音源Bに対応する分類結果G2、および分類用データd3を音源Cに対応する分類結果G1に分類する。信号再生成部5は、分類結果G1、分類結果G2および分類結果G3に基づいて、音源Cからの成分の音響信号と、音源Bからの成分の音響信号と、音源Aからの成分の音響信号とを再生成する。
このように、音響信号分離装置1は、再生成した成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定し、複数の音源からの成分が混在していると判定した音響信号が適切に音源ごとの成分に分離されるまで成分の分離処理を繰り返し行う。これにより、音源の数が未知であっても、音響信号を音源ごとの成分に適切に分離することができる。
なお、音声認識処理は、パターン認識に限定されるものではなく、例えば、参考文献に記載されるようなパターン認識以外の音声認識処理を採用してもよい。
(参考文献)古井貞煕『音声情報処理』森北出版、1998年、pp.79−132
また、判定部6は、対象の音響信号の音声認識結果の認識尤度に基づいて、複数の音源からの成分が混在しているか否かを判定してもよい。
図9は、複数の音源からの成分が混在している音響信号および1つの音源からの成分の音響信号のそれぞれに対する音声認識結果と認識尤度を示す図である。これまで、複数の音源からの成分が混在している音響信号は、音声認識できないことを前提としていたが、実際には、認識精度は低いが、認識結果が得られる可能性がある。
図9において、“分類結果G0から生成された信号”とは、信号再生成部5によって分類結果G0の分類用データd2,d3に基づいて再生成された、音源Bからの成分と音源Cからの成分とが混在している音響信号である。“分類結果G1から生成された信号”とは、分類結果G1の分類用データd3に基づいて再生成された音源Cからの成分の音響信号である。“分類結果G2から生成された信号”とは、分類結果G2の分類用データd2に基づいて再生成された音源Bからの成分の音響信号である。“分類結果G3から生成された信号”とは、分類結果G3の分類用データd1に基づいて再生成された音源Aからの成分の音響信号である。
音源Cからの成分の音響信号を音声認識することで音声認識結果10aが得られ、その認識尤度は“0.9”である。音源Bからの成分の音響信号を音声認識することで音声認識結果10bが得られ、その認識尤度は“0.8”である。音源Aからの成分の音響信号を音声認識することで音声認識結果10cが得られ、その認識尤度は“1.0”である。一方、音源Bからの成分と音源Cからの成分とが混在している音響信号を音声認識することで特異な音声認識結果10dが得られ、その認識尤度は“0.1”である。
判定部6は、対象の音響信号の音声認識結果の認識尤度と予め設定されている閾値とを比較し、認識尤度が閾値よりも高ければ、当該音響信号に複数の音源からの成分が混在していないと判定し、認識尤度が閾値以下であれば、当該音響信号に複数の音源からの成分が混在していると判定する。例えば、認識尤度に関する閾値が0.5であると、判定部6は、認識尤度が0.5以下である“分類結果G0から生成された信号”に複数の音源からの成分が混在していると判定する。
例えば、判定部6が、信号再生成部5からの出力信号fに含まれる音響信号に対して、音声認識処理と認識尤度の算出を実行する。また、判定部6は、DNN3aとは別に設けられたDNNを用いて、音響信号の音声認識処理と認識尤度の算出を実行してもよい。
これまで、複数の音源からの成分が混在していると判定された音響信号とこの音響信号の成分とともに再生成された音響信号の成分とを含む出力信号gに対して、図3に示したステップST1からステップST4までの一連の処理を実行する場合を示したが、これに限定されるものではない。
例えば、信号再生成部5によって再生成された信号に複数の音源からの成分が混在していると判定された場合に、データ分類部4が、予め指定された音源の数(例えば、図4Aおよび図4Bで“2”とした音源の数)を変更し、音響信号分離装置1が、入力信号aに含まれる音響信号を変更後の音源の数ごとに分離してもよい。
また、音響信号分離装置1が、複数の音源からの成分が混在していると判定された音響信号の成分のみを含んだ出力信号gに対して、ステップST1からステップST4までの一連の処理を実行してもよい。これらの場合においても、信号再生成部5によって再生成された信号に複数の音源からの成分が混在していると判定されると、ステップST1からステップST4までの一連の処理が繰り返される。
以上のように、実施の形態1に係る音響信号分離装置1において、判定部6が、再生成した成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定する。複数の成分が混在していると判定されると、音源ごとの成分の音響信号に分離されるまで、特徴量抽出部2、データ推定部3、データ分類部4および信号再生成部5による一連の処理が繰り返し実行される。この構成において、判定部6は、成分ごとの音響信号の音声認識結果に基づいて、複数の音源からの成分が混在しているか否かを判定する。あるいは、判定部6は、成分ごとの音響信号の音声認識についての認識尤度に基づいて、複数の音源からの成分が混在しているか否かを判定する。
このように構成されているので、音響信号分離装置1は、音源の数が未知であっても、音響信号を音源ごとの成分に適切に分離することが可能である。
なお、本発明は上記実施の形態に限定されるものではなく、本発明の範囲内において、実施の形態の任意の構成要素の変形もしくは実施の形態の任意の構成要素の省略が可能である。
この発明に係る音響信号分離装置は、音源の数が未知であっても、音響信号を音源ごとの成分に適切に分離することができるので、例えば、複数の音源が存在する会議システムに利用可能である。
1 音響信号分離装置、2 特徴量抽出部、3 データ推定部、3a DNN、3b ネットワークパラメータ、4 データ分類部、5 信号再生成部、6 判定部、10a〜10d 音声認識結果、100 音響インタフェース、101 画像インタフェース、102 テキスト入力インタフェース、103 処理回路、104 プロセッサ、105 メモリ。

Claims (4)

  1. 1つ以上の成分が混合された音響信号を含む入力信号から特徴量を抽出する特徴量抽出部と、
    同一の音源から出力された音響信号の成分間を対応付ける分類用データを推定するように学習された深層ニューラルネットワークを用いて、前記特徴量抽出部によって抽出された特徴量に基づいて前記分類用データを推定するデータ推定部と、
    前記データ推定部によって推定された前記分類用データを、成分ごとの音響信号に対応するデータに分類するデータ分類部と、
    前記データ分類部によって音響信号の成分ごとに分類された前記分類用データおよび前記特徴量抽出部によって抽出された特徴量に基づいて、成分ごとの音響信号を再生成する信号再生成部と、
    前記信号再生成部によって再生成された成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定する判定部とを備え、
    前記判定部によって複数の音源からの成分が混在していると判定されると、音源ごとの成分の音響信号が再生成されるまで、前記特徴量抽出部、前記データ推定部、前記データ分類部および前記信号再生成部による一連の処理を繰り返し実行すること
    を特徴とする音響信号分離装置。
  2. 前記判定部は、成分ごとの音響信号の音声認識結果に基づいて、複数の音源からの成分が混在しているか否かを判定すること
    を特徴とする請求項1記載の音響信号分離装置。
  3. 前記判定部は、成分ごとの音響信号の音声認識についての認識尤度に基づいて、複数の音源からの成分が混在しているか否かを判定すること
    を特徴とする請求項1記載の音響信号分離装置。
  4. 特徴量抽出部が、1つ以上の成分が混合された音響信号を含む入力信号から特徴量を抽出するステップと、
    データ推定部が、同一の音源から出力された音響信号の成分間を対応付ける分類用データを推定するように学習された深層ニューラルネットワークを用いて、前記特徴量抽出部によって抽出された特徴量に基づいて前記分類用データを推定するステップと、
    データ分類部が、前記データ推定部によって推定された前記分類用データを、成分ごとの音響信号に対応するデータに分類するステップと、
    信号再生成部が、前記データ分類部によって音響信号の成分ごとに分類された前記分類用データおよび前記特徴量抽出部によって抽出された特徴量に基づいて、成分ごとの音響信号を再生成するステップと、
    判定部が、前記信号再生成部によって再生成された成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定するステップとを備え、
    前記判定部によって複数の音源からの成分が混在していると判定されると、音源ごとの成分の音響信号が再生成されるまで、前記特徴量抽出部、前記データ推定部、前記データ分類部および前記信号再生成部による一連の処理を繰り返し実行すること
    を特徴とする音響信号分離方法。
JP2019564264A 2018-01-15 2018-01-15 音響信号分離装置および音響信号分離方法 Active JP6725185B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/000803 WO2019138573A1 (ja) 2018-01-15 2018-01-15 音響信号分離装置および音響信号分離方法

Publications (2)

Publication Number Publication Date
JPWO2019138573A1 true JPWO2019138573A1 (ja) 2020-05-28
JP6725185B2 JP6725185B2 (ja) 2020-07-15

Family

ID=67218559

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019564264A Active JP6725185B2 (ja) 2018-01-15 2018-01-15 音響信号分離装置および音響信号分離方法

Country Status (5)

Country Link
US (1) US11250871B2 (ja)
JP (1) JP6725185B2 (ja)
CN (1) CN111566732B (ja)
DE (1) DE112018006332B4 (ja)
WO (1) WO2019138573A1 (ja)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070083365A1 (en) * 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
JP5029986B2 (ja) 2007-05-07 2012-09-19 Necカシオモバイルコミュニケーションズ株式会社 情報処理装置、プログラム
JP2011107603A (ja) * 2009-11-20 2011-06-02 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
US8924214B2 (en) * 2010-06-07 2014-12-30 The United States Of America, As Represented By The Secretary Of The Navy Radar microphone speech recognition
FR2981492B1 (fr) * 2011-10-14 2013-12-13 Univ Bordeaux 1 Procede et dispositif pour separer des signaux par filtrage spatial iteratif
CN106328152B (zh) * 2015-06-30 2020-01-31 芋头科技(杭州)有限公司 一种室内噪声污染自动识别监测系统
US9368110B1 (en) * 2015-07-07 2016-06-14 Mitsubishi Electric Research Laboratories, Inc. Method for distinguishing components of an acoustic signal
CN106710599A (zh) * 2016-12-02 2017-05-24 深圳撒哈拉数据科技有限公司 一种基于深度神经网络的特定声源检测方法与系统

Also Published As

Publication number Publication date
CN111566732B (zh) 2023-04-04
DE112018006332B4 (de) 2021-07-08
WO2019138573A1 (ja) 2019-07-18
JP6725185B2 (ja) 2020-07-15
US11250871B2 (en) 2022-02-15
DE112018006332T5 (de) 2020-08-27
CN111566732A (zh) 2020-08-21
US20210193163A1 (en) 2021-06-24

Similar Documents

Publication Publication Date Title
US11094329B2 (en) Neural network device for speaker recognition, and method of operation thereof
US10552711B2 (en) Apparatus and method for extracting sound source from multi-channel audio signal
CN106531155B (zh) 生成声学模型的设备和方法和用于语音识别的设备和方法
CN106683663B (zh) 神经网络训练设备和方法以及语音识别设备和方法
WO2019191554A1 (en) Adaptive permutation invariant training with auxiliary information for monaural multi-talker speech recognition
JP6556575B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
JP5662276B2 (ja) 音響信号処理装置および音響信号処理方法
JP5335536B2 (ja) 情報処理装置及び情報処理方法
KR20170119152A (ko) 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법
JP6821615B2 (ja) マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
CN110491412B (zh) 声音分离方法和装置、电子设备
CN111192576A (zh) 解码方法、语音识别设备和系统
CN114596879B (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
WO2020240682A1 (ja) 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム
WO2016181468A1 (ja) パターン認識装置、パターン認識方法およびプログラム
JP2020067566A (ja) 情報処理方法、情報処理装置、及び、プログラム
JP2018081169A (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
KR102213177B1 (ko) 로봇에서의 음성인식 장치 및 방법
JP6725185B2 (ja) 音響信号分離装置および音響信号分離方法
Pandey et al. Cell-phone identification from audio recordings using PSD of speech-free regions
KR102044520B1 (ko) 음성 존재 구간 판별 장치 및 방법
JP6711343B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP6235368B2 (ja) パターン認識装置、パターン認識方法およびプログラム
WO2019102585A1 (ja) 音響信号分離装置および音響信号分離方法
WO2021111832A1 (ja) 情報処理方法、情報処理システム及び情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200203

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200203

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200623

R150 Certificate of patent or registration of utility model

Ref document number: 6725185

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250