JPWO2019138573A1 - 音響信号分離装置および音響信号分離方法 - Google Patents
音響信号分離装置および音響信号分離方法 Download PDFInfo
- Publication number
- JPWO2019138573A1 JPWO2019138573A1 JP2019564264A JP2019564264A JPWO2019138573A1 JP WO2019138573 A1 JPWO2019138573 A1 JP WO2019138573A1 JP 2019564264 A JP2019564264 A JP 2019564264A JP 2019564264 A JP2019564264 A JP 2019564264A JP WO2019138573 A1 JPWO2019138573 A1 JP WO2019138573A1
- Authority
- JP
- Japan
- Prior art keywords
- unit
- acoustic signal
- data
- classification
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 35
- 230000008929 regeneration Effects 0.000 claims abstract description 51
- 238000011069 regeneration method Methods 0.000 claims abstract description 51
- 238000000605 extraction Methods 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims description 29
- 230000001172 regenerating effect Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 14
- 230000005236 sound signal Effects 0.000 description 9
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
このように構成することで、音響信号分離装置は、音源の数が未知であっても、音響信号を音源ごとの成分に適切に分離することができる。
実施の形態1.
図1は、この発明の実施の形態1に係る音響信号分離装置1の構成を示すブロック図である。音響信号分離装置1は、特徴量抽出部2、データ推定部3、データ分類部4、信号再生成部5および判定部6を備え、入力信号aに含まれる音響信号を成分ごとの音響信号に分離して成分ごとの音響信号を含む出力信号hを出力する。
例えば、分類用データdは、同一の音源から出力された音響信号の時間周波数成分間の距離が小さくなるように変換された音響信号の成分間のコストであってもよい。
テキスト入力インタフェース102は、入力信号aに含まれるテキスト情報を入力し、出力信号hに含まれるテキスト情報を出力するインタフェースである。例えば、テキスト入力インタフェース102は、テキスト情報を入力するためのキーボードまたはマウスに接続し、テキスト情報を表示する表示器に接続している。
処理回路103またはプロセッサ104は、これらのデータをメモリから適宜読み出して音響信号の分離処理を行う。
すなわち、音響信号分離装置1は、図3を用いて後述するステップST1からステップST5までの処理を実行するための処理回路を備える。処理回路は、専用のハードウェアであってもよいが、メモリに記憶されたプログラムを実行するCPU(Central Processing Unit)であってもよい。
これらのプログラムは、特徴量抽出部2、データ推定部3、データ分類部4、信号再生成部5および判定部6の手順または方法をコンピュータに実行させるものである。
メモリ105は、特徴量抽出部2、データ推定部3、データ分類部4、信号再生成部5および判定部6として、コンピュータを機能させるためのプログラムが記憶されたコンピュータ可読記憶媒体であってもよい。
図3は、実施の形態1に係る音響信号分離方法を示すフローチャートである。
特徴量抽出部2が、入力信号aから分類用特徴量bおよび信号再生成用特徴量cを抽出する(ステップST1)。分類用特徴量bは、特徴量抽出部2からデータ推定部3に出力され、信号再生成用特徴量cは、特徴量抽出部2から信号再生成部5に出力される。
また、特徴量抽出部2は、処理回路103が備える不図示のメモリまたはメモリ105から入力信号aを読み出して特徴量を抽出してもよい。
さらに、入力信号aは、ストリームデータであってもよい。
例えば、音源からの音響信号の出力状態が変化した場合、これに応じて分類用特徴量bも変化する。データ推定部3が、DNN3aを用いて、分類用特徴量bに基づいて分類用データdを推定したときに、同一の音源から出力された音響信号の成分に対応する分類用データdであっても、分類用特徴量bの変化に対応して分類用データdの値にばらつきが生じる場合がある。このため、データ分類部4には、複数の値にばらついた分類用データdが音源Aに属する分類用データd1であるのか、音源Bに属する分類用データd2であるのかが分からない状態で入力される。
データ分類部4は、データ推定部3から分類用データdを入力すると、予め指定された音源数である“2”に基づいて、分類用データdを分類する。これにより、音源Aに対応する分類用データd1を示す分類結果A1と、音源Bに対応する分類用データd2を示す分類結果A2とが得られる。
信号再生成部5は、特徴量抽出部2から入力した信号再生成用特徴量c、およびデータ分類部4から入力した分類結果情報eにおける成分ごとの分類用データdに基づいて、成分ごとの音響信号を再生成する(ステップST4)。例えば、信号再生成部5は、同一の成分に分類された分類用データdを用いて、音源に対応する信号再生成用特徴量cを特定し、特定した信号再生成用特徴量cおよび分類用データdに基づいて成分ごとの音響信号を再生成する。信号再生成部5は、再生成した成分ごとの音響信号である出力信号fを、判定部6に出力する。
音響信号の音声認識結果が得られた場合、判定部6は、当該音響信号に複数の音源からの成分が混在しておらず、これ以上の成分に分離できないと判定して(ステップST5;NO)、当該音響信号を含む出力信号hを外部に出力して処理を終了する。
しかしながら、音源Bからの成分と音源Cからの成分が混在している音響信号は、音声認識の精度が低く、図8に示すように認識結果が得られない。
この後、特徴量抽出部2、データ推定部3、データ分類部4および信号再生成部5は、音源ごとの成分の音響信号に適切に分離されるまで、音響信号に対して、ステップST1からステップST4までの一連の処理を実行する。
(参考文献)古井貞煕『音声情報処理』森北出版、1998年、pp.79−132
図9は、複数の音源からの成分が混在している音響信号および1つの音源からの成分の音響信号のそれぞれに対する音声認識結果と認識尤度を示す図である。これまで、複数の音源からの成分が混在している音響信号は、音声認識できないことを前提としていたが、実際には、認識精度は低いが、認識結果が得られる可能性がある。
例えば、信号再生成部5によって再生成された信号に複数の音源からの成分が混在していると判定された場合に、データ分類部4が、予め指定された音源の数(例えば、図4Aおよび図4Bで“2”とした音源の数)を変更し、音響信号分離装置1が、入力信号aに含まれる音響信号を変更後の音源の数ごとに分離してもよい。
このように構成されているので、音響信号分離装置1は、音源の数が未知であっても、音響信号を音源ごとの成分に適切に分離することが可能である。
Claims (4)
- 1つ以上の成分が混合された音響信号を含む入力信号から特徴量を抽出する特徴量抽出部と、
同一の音源から出力された音響信号の成分間を対応付ける分類用データを推定するように学習された深層ニューラルネットワークを用いて、前記特徴量抽出部によって抽出された特徴量に基づいて前記分類用データを推定するデータ推定部と、
前記データ推定部によって推定された前記分類用データを、成分ごとの音響信号に対応するデータに分類するデータ分類部と、
前記データ分類部によって音響信号の成分ごとに分類された前記分類用データおよび前記特徴量抽出部によって抽出された特徴量に基づいて、成分ごとの音響信号を再生成する信号再生成部と、
前記信号再生成部によって再生成された成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定する判定部とを備え、
前記判定部によって複数の音源からの成分が混在していると判定されると、音源ごとの成分の音響信号が再生成されるまで、前記特徴量抽出部、前記データ推定部、前記データ分類部および前記信号再生成部による一連の処理を繰り返し実行すること
を特徴とする音響信号分離装置。 - 前記判定部は、成分ごとの音響信号の音声認識結果に基づいて、複数の音源からの成分が混在しているか否かを判定すること
を特徴とする請求項1記載の音響信号分離装置。 - 前記判定部は、成分ごとの音響信号の音声認識についての認識尤度に基づいて、複数の音源からの成分が混在しているか否かを判定すること
を特徴とする請求項1記載の音響信号分離装置。 - 特徴量抽出部が、1つ以上の成分が混合された音響信号を含む入力信号から特徴量を抽出するステップと、
データ推定部が、同一の音源から出力された音響信号の成分間を対応付ける分類用データを推定するように学習された深層ニューラルネットワークを用いて、前記特徴量抽出部によって抽出された特徴量に基づいて前記分類用データを推定するステップと、
データ分類部が、前記データ推定部によって推定された前記分類用データを、成分ごとの音響信号に対応するデータに分類するステップと、
信号再生成部が、前記データ分類部によって音響信号の成分ごとに分類された前記分類用データおよび前記特徴量抽出部によって抽出された特徴量に基づいて、成分ごとの音響信号を再生成するステップと、
判定部が、前記信号再生成部によって再生成された成分ごとの音響信号に複数の音源からの成分が混在しているか否かを判定するステップとを備え、
前記判定部によって複数の音源からの成分が混在していると判定されると、音源ごとの成分の音響信号が再生成されるまで、前記特徴量抽出部、前記データ推定部、前記データ分類部および前記信号再生成部による一連の処理を繰り返し実行すること
を特徴とする音響信号分離方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/000803 WO2019138573A1 (ja) | 2018-01-15 | 2018-01-15 | 音響信号分離装置および音響信号分離方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019138573A1 true JPWO2019138573A1 (ja) | 2020-05-28 |
JP6725185B2 JP6725185B2 (ja) | 2020-07-15 |
Family
ID=67218559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019564264A Active JP6725185B2 (ja) | 2018-01-15 | 2018-01-15 | 音響信号分離装置および音響信号分離方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11250871B2 (ja) |
JP (1) | JP6725185B2 (ja) |
CN (1) | CN111566732B (ja) |
DE (1) | DE112018006332B4 (ja) |
WO (1) | WO2019138573A1 (ja) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070083365A1 (en) * | 2005-10-06 | 2007-04-12 | Dts, Inc. | Neural network classifier for separating audio sources from a monophonic audio signal |
JP5029986B2 (ja) | 2007-05-07 | 2012-09-19 | Necカシオモバイルコミュニケーションズ株式会社 | 情報処理装置、プログラム |
JP2011107603A (ja) * | 2009-11-20 | 2011-06-02 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
US8924214B2 (en) * | 2010-06-07 | 2014-12-30 | The United States Of America, As Represented By The Secretary Of The Navy | Radar microphone speech recognition |
FR2981492B1 (fr) * | 2011-10-14 | 2013-12-13 | Univ Bordeaux 1 | Procede et dispositif pour separer des signaux par filtrage spatial iteratif |
CN106328152B (zh) * | 2015-06-30 | 2020-01-31 | 芋头科技(杭州)有限公司 | 一种室内噪声污染自动识别监测系统 |
US9368110B1 (en) * | 2015-07-07 | 2016-06-14 | Mitsubishi Electric Research Laboratories, Inc. | Method for distinguishing components of an acoustic signal |
CN106710599A (zh) * | 2016-12-02 | 2017-05-24 | 深圳撒哈拉数据科技有限公司 | 一种基于深度神经网络的特定声源检测方法与系统 |
-
2018
- 2018-01-15 JP JP2019564264A patent/JP6725185B2/ja active Active
- 2018-01-15 DE DE112018006332.1T patent/DE112018006332B4/de active Active
- 2018-01-15 CN CN201880085821.6A patent/CN111566732B/zh active Active
- 2018-01-15 WO PCT/JP2018/000803 patent/WO2019138573A1/ja active Application Filing
- 2018-01-15 US US16/769,459 patent/US11250871B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN111566732B (zh) | 2023-04-04 |
DE112018006332B4 (de) | 2021-07-08 |
WO2019138573A1 (ja) | 2019-07-18 |
JP6725185B2 (ja) | 2020-07-15 |
US11250871B2 (en) | 2022-02-15 |
DE112018006332T5 (de) | 2020-08-27 |
CN111566732A (zh) | 2020-08-21 |
US20210193163A1 (en) | 2021-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11094329B2 (en) | Neural network device for speaker recognition, and method of operation thereof | |
US10552711B2 (en) | Apparatus and method for extracting sound source from multi-channel audio signal | |
CN106531155B (zh) | 生成声学模型的设备和方法和用于语音识别的设备和方法 | |
CN106683663B (zh) | 神经网络训练设备和方法以及语音识别设备和方法 | |
WO2019191554A1 (en) | Adaptive permutation invariant training with auxiliary information for monaural multi-talker speech recognition | |
JP6556575B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
JP5662276B2 (ja) | 音響信号処理装置および音響信号処理方法 | |
JP5335536B2 (ja) | 情報処理装置及び情報処理方法 | |
KR20170119152A (ko) | 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법 | |
JP6821615B2 (ja) | マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム | |
CN110491412B (zh) | 声音分离方法和装置、电子设备 | |
CN111192576A (zh) | 解码方法、语音识别设备和系统 | |
CN114596879B (zh) | 一种虚假语音的检测方法、装置、电子设备及存储介质 | |
WO2020240682A1 (ja) | 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム | |
WO2016181468A1 (ja) | パターン認識装置、パターン認識方法およびプログラム | |
JP2020067566A (ja) | 情報処理方法、情報処理装置、及び、プログラム | |
JP2018081169A (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
KR102213177B1 (ko) | 로봇에서의 음성인식 장치 및 방법 | |
JP6725185B2 (ja) | 音響信号分離装置および音響信号分離方法 | |
Pandey et al. | Cell-phone identification from audio recordings using PSD of speech-free regions | |
KR102044520B1 (ko) | 음성 존재 구간 판별 장치 및 방법 | |
JP6711343B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP6235368B2 (ja) | パターン認識装置、パターン認識方法およびプログラム | |
WO2019102585A1 (ja) | 音響信号分離装置および音響信号分離方法 | |
WO2021111832A1 (ja) | 情報処理方法、情報処理システム及び情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200203 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200203 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200520 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200526 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200623 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6725185 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |