KR101720514B1 - Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법 - Google Patents

Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법 Download PDF

Info

Publication number
KR101720514B1
KR101720514B1 KR1020160023335A KR20160023335A KR101720514B1 KR 101720514 B1 KR101720514 B1 KR 101720514B1 KR 1020160023335 A KR1020160023335 A KR 1020160023335A KR 20160023335 A KR20160023335 A KR 20160023335A KR 101720514 B1 KR101720514 B1 KR 101720514B1
Authority
KR
South Korea
Prior art keywords
estimation signal
signal
dcica
dnn
microphone input
Prior art date
Application number
KR1020160023335A
Other languages
English (en)
Inventor
박형민
이호용
조지원
김민욱
Original Assignee
서강대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단 filed Critical 서강대학교산학협력단
Priority to KR1020160023335A priority Critical patent/KR101720514B1/ko
Application granted granted Critical
Publication of KR101720514B1 publication Critical patent/KR101720514B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

본 발명에 따르는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치는, 다수의 마이크로부터 입력되는 마이크 입력신호들을 각각 입력받아 STFT(Short-Time Fourier Transform) 처리하는 다수의 STFT; 상기 다수의 STFT 처리부가 출력하는 STFT 처리된 마이크 입력신호들을 입력받아 DCICA 처리를 이행하며, 타겟추정신호와 잡음추정신호를 생성하는 DCICA(Direction of arrival(DOA) Constrained Independent Component Analysis(ICA))부; 상기 STFT 처리된 마이크 입력신호들 중 어느 하나인 제1마이크 입력신호와, 상기 DCICA부가 출력하는 타겟추정신호와 잡음추정신호를 입력받아 LMPSC(logarithmic mel-frequency power spectral coefficient) 처리하여 스펙트럴 형태로 변환하여 출력하는 다수의 LMPSC 처리부; 상기 LMPSC 처리부가 출력하는 스펙트럴 형태로 변환되어 출력되는 제1마이크 입력신호와 타겟추정신호와 잡음추정신호를 입력받아 특징강화된 최종 타겟추정신호를 생성하는 DNN 기반 FE(DNN-Based Feature Enhancement) 처리부; 및 상기 최종 타겟추정신호를 제공받아 음성인식을 수행하는 ASR(Automatic Speech Recognition) 처리부;로 구성됨을 특징으로 한다.
또한 상기 방법은, 상기 DCICA부가 출력하는 잡음추정신호의 스케일을 가변하는 스케일링부; 상기 스케일링부가 출력하는 스케일링된 잡음추정신호를 입력받아 LMPSC 처리하여 스펙트럴 형태로 변환하여 출력하는 LMPSC; 및 상기 LMPSC가 출력하는 스펙트럴 형태로 변환된 스케일링된 잡음추정신호와 상기 DCICA가 출력하는 타겟추정신호를 입력받아 HMM(hidden markov model) 기반 FE 처리하여 특징 강화된 타켓추정신호를 생성하여 상기 DNN 기반 FE 처리부로 제공하는 HMM 기반 FE 처리부;를 더 구비하며, 상기 DNN 기반 FE 처리부는 상기 제1마이크 입력신호와 상기 특징 강화된 타켓추정신호와 상기 잡음추정신호를 입력받아 특징강화된 최종 타겟신호를 생성하며, 상기 DNN 기반 FE 처리부로 입력되는 상기 제1마이크 입력신호와 상기 특징 강화된 타켓추정신호와 상기 잡음추정신호는 스펙트럴 형태임을 특징으로 한다.

Description

DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치 및 방법{ASR APPARATUS AND METHOD OF EXECUTING FEATURE ENHANCEMENT BASED ON DNN USING DCICA}
본 발명은 음성 인식 기술에 관한 것으로, 더욱 상세하게는 DNN 기반 FE(DNN-Based Feature Enhancement) 처리시에 DCICA(Direction of arrival(DOA) Constrained Independent Component Analysis(ICA))에 의해 생성된 타겟추정신호와 잡음추정신호, 마이크 입력신호를 이용하여 학습 환경과 실제 환경 사이가 불일치가 존재하거나 학습이 곤란한 환경에서 적응적으로 타겟추정신호의 특징을 향상시켜 음성인식 성능을 개선할 수 있게 하는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치 및 방법에 관한 것이다.
음성 인식(Automatic Speech Recognition;ASR) 시스템에서 노이즈 강인성은 중요한 이슈로, 이는 음성 인식 시스템의 성능이 훈련 환경과 실제 환경 사이의 차이에 기인하여 심각하게 저하되기 때문이다.
이에 종래에는 훈련 환경과 실제 환경 사이의 부조화를 보상하기 위한 다양한 기술이 제안되었으나, 그러함에도 다양한 종류의 잡음이 존재하는 실제의 환경에서 높은 인식율을 얻을 수 없었다. 이는 T. Virtanen, R. Singh, and B. Raj, Eds., Techniques for Noise Robustness in Automatic Speech Recognition. Chichester, United Kingdom: John Wiley & Sons, Ltd., 2012., J. Droppo and A. Acero, “"Environmental robustness,”" in Springer Handbook of Speech Processing, J. Benesty, M. Sondhi, and Y. Huang, Eds. Springer, 2008, pp. 653-680., B. Raj, V. Parikh, and R. M. Stern, “"The effects of background music on speech recognition accuracy,”" in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Munich, Germany, Apr. 1997, pp. 851-854. 등에 개시되어 있다.
한편 딥 러닝(deep learning)은 상기한 문제를 해소하기 위한 방안으로 적용되기 시작하였으며, 이는 음성을 강화하거나 강인한 음성인식(ASR)을 위한 전처리를 위해 적용되고 있다. 또한 노이즈 제거를 위해서도 사용되며, 이는 잡음이 혼합된 입력으로부터 깨끗한 음성신호를 재구성하기 위해 딥 뉴럴 네트워크(deep neural network ; DNN)를 훈련하고, 변형된 입력신호를 인식 정밀성을 향상시킬 수 있는 깨끗한 신호로 매핑하는 훈련을 포함한다. 이는 X. Feng, Y. Zhang, and J. Grass, “"Speech feature denoising and dereverberation via deep autoencoders for noisy reverberant speech recognition,”" in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Florence, Italy, May 2014, pp. 1778-1782. 및 F. Weninger, S. Watanabe, Y. Tachioka, and B. Schuller, “"Deep recurrent de-noising auto-encoder and blind de-reverberation for reverberated speech recognition,”" in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Florence, Italy, May 2014, pp. 4623-4627. 및 K. Han, Y. Wang, D. Wang, W. S. Woods, I. Merks, and T. Zhang, “"Learning spectral mapping for speech dereverberation and denoising,”" IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 23, pp. 982-992, 2015. 등에 개시되어 있다.
그러나 상기 DNN 기반 알고리즘은 노이즈 조건이 변화될 때에 성능이 저하되는 문제가 있으며, 이는 Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee, ""An experimental study on speech enhancement based on deep neural networks,”" IEEE Signal Processing Letters, vol. 21, pp. 65-68, 2014. 및 Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee,“"A regression approach to speech enhancement based on deep neural networks,”" IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 23, pp. 7-19, 2015. 등에 개시되어 있다.
그리고 노이즈 강인성을 위한 노이즈 인식 훈련(noise-aware training ;NAT)은 상기 DNN 입력들에서의 추정된 노이즈 정보를 포함하며, 이는 M. Seltzer, D. Yu, and Y. Wang, “"An investigation of deep neural networks for noise robust speech recognition,”" in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Vancouver, BC, Canada, May 2013, pp. 7398-7402. 등에 개시되어 있다.
그리고 시간-주파수 도메인에서 음성 향상을 위한 DNN 기반 이진 마스크 추정(DNN-based binary mask estimation)은 음향 환경의 넓은 범위에서 훈련에 의해 다양한 노이즈 조건들에 대해 강인성을 보이고, 비율 마스크 추정(ratio mask estimation)은 강인한 ASR에 대해 고려되고 있으며, 이는 Y. X. Wang and D. Wang, “"Towards scaling up classification-based speech separation,”" IEEE Transactions on Audio, Speech, and Language Processing, vol. 21, pp. 1381-1390, 2013., A. Narayanan and D. Wang, “"Investigation of speech separation as a front-end for noise robust speech recognition,”" IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 22, pp. 826-835, 2014. 등에 개시되어 있다.
상기한 바와 같이 딥 러닝은 빅 데이터의 수집이 용이해짐에 따라 그 뛰어난 성능으로 각광받고 있었으나, 학습 환경과 실제 환경 사이의 불일치가 존재하거나 학습이 힘든 비정상적인 잡음 환경에서는 그 성능이 급락하는 문제가 있었다.
한국 특허등록 제10-1591626호 한국 특허등록 제10-1561651호 PCT 특허공개 WO 2012/036934 한국 특허공개 제10-2012-0102306호
본 발명은 DNN 기반 FE(DNN-Based Feature Enhancement) 처리시에 DCICA(Direction of arrival(DOA) Constrained Independent Component Analysis(ICA))에 의해 생성된 타겟추정신호와 잡음추정신호, 마이크 입력신호를 이용하여 학습 환경과 실제 환경 사이가 불일치가 존재하거나 학습이 곤란한 환경에서 적응적으로 타겟추정신호의 특징을 향상시켜 음성인식 성능을 개선할 수 있게 하는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치 및 방법을 제공하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명에 따르는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치는, 다수의 마이크로부터 입력되는 마이크 입력신호들을 각각 입력받아 STFT(Short-Time Fourier Transform) 처리하는 다수의 STFT; 상기 다수의 STFT 처리부가 출력하는 STFT 처리된 마이크 입력신호들을 입력받아 DCICA 처리를 이행하며, 타겟추정신호와 잡음추정신호를 생성하는 DCICA(Direction of arrival(DOA) Constrained Independent Component Analysis(ICA))부; 상기 STFT 처리된 마이크 입력신호들 중 어느 하나인 제1마이크 입력신호와, 상기 DCICA부가 출력하는 타겟추정신호와 잡음추정신호를 입력받아 LMPSC(logarithmic mel-frequency power spectral coefficient) 처리하여 스펙트럴 형태로 변환하여 출력하는 다수의 LMPSC 처리부; 상기 LMPSC 처리부가 출력하는 스펙트럴 형태로 변환되어 출력되는 제1마이크 입력신호와 타겟추정신호와 잡음추정신호를 입력받아 특징강화된 최종 타겟추정신호를 생성하는 DNN 기반 FE(DNN-Based Feature Enhancement) 처리부; 및 상기 최종 타겟추정신호를 제공받아 음성인식을 수행하는 ASR(Automatic Speech Recognition) 처리부;로 구성됨을 특징으로 한다.
또한 상기 방법은, 상기 DCICA부가 출력하는 잡음추정신호의 스케일을 가변하는 스케일링부; 상기 스케일링부가 출력하는 스케일링된 잡음추정신호를 입력받아 LMPSC 처리하여 스펙트럴 형태로 변환하여 출력하는 LMPSC; 및 상기 LMPSC가 출력하는 스펙트럴 형태로 변환된 스케일링된 잡음추정신호와 상기 DCICA가 출력하는 타겟추정신호를 입력받아 HMM(hidden markov model) 기반 FE 처리하여 특징 강화된 타켓추정신호를 생성하여 상기 DNN 기반 FE 처리부로 제공하는 HMM 기반 FE 처리부;를 더 구비하며, 상기 DNN 기반 FE 처리부는 상기 제1마이크 입력신호와 상기 특징 강화된 타켓추정신호와 상기 잡음추정신호를 입력받아 특징강화된 최종 타겟신호를 생성하며, 상기 DNN 기반 FE 처리부로 입력되는 상기 제1마이크 입력신호와 상기 특징 강화된 타켓추정신호와 상기 잡음추정신호는 스펙트럴 형태임을 특징으로 한다.
상기한 본 발명은 DNN 기반 FE(DNN-Based Feature Enhancement) 처리시에 DCICA(Direction of arrival(DOA) Constrained Independent Component Analysis(ICA))에 의해 생성된 타겟추정신호와 잡음추정신호, 마이크 입력신호를 이용하여 학습 환경과 실제 환경 사이가 불일치가 존재하거나 학습이 곤란한 환경에서 적응적으로 타겟추정신호의 특징을 향상시켜 음성인식 성능을 개선할 수 있는 효과를 야기한다.
도 1은 본 발명의 바람직한 실시예에 따르는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치의 구성도.
도 2는 본 발명의 바람직한 실시예에 따르는 DNN 기반 FE 처리부를 간략하게 도시한 도면.
도 3 내지 6은 본 발명의 바람직한 실시예에 따르는 테스트 결과를 예시한 도면.
본 발명은 DNN 기반 FE(DNN-Based Feature Enhancement) 처리시에 DCICA(Direction of arrival(DOA) Constrained Independent Component Analysis(ICA))에 의해 생성된 타겟추정신호와 잡음추정신호, 마이크 입력신호를 이용하여 학습 환경과 실제 환경 사이가 불일치가 존재하거나 학습이 곤란한 환경에서 적응적으로 타겟추정신호의 특징을 향상시켜 음성인식 성능을 개선시킨다.
<DNN 기반 FE을 수행하는 음성인식장치의 구성>
상기한 본 발명의 바람직한 실시예에 따르는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치의 구성도를 도시한 것이 도 1이다.
상기 도 1을 참조하면, 상기 음성인식장치는 제1 및 제2마이크부(100,102)와 제1 및 제2STFT(Short-Time Fourier Transform) 처리부(104,106)와 DCICA(Direction of arrival(DOA) Constrained Independent Component Analysis(ICA))부(108)와 스케일링부(110)와 제1 내지 제4LMPSC(logarithmic mel-frequency power spectral coefficient) 처리부(112 내지 118)와 HMM(hidden markov model) 기반 FE 처리부(120)와 DNN 기반 FE(DNN-Based Feature Enhancement) 처리부(122)와 DCT(Discrete Cosine Transform) 처리부(124)와 ASR(automatic speech recognition) 처리부(126)로 구성된다. 상기한 음성인식장치의 제1 및 제2STFT 처리부(104,106)와 DCICA부(108)와 스케일링부(110)와 제1 내지 제4LMPSC 처리부(112 내지 118)와 HMM 기반 FE 처리부(120)와 DNN 기반 FE 처리부(122)와 DCT 처리부(124)와 ASR 처리부(126)는 소프트웨어 모듈로 구성되어 음성인식장치에 설치된 프로세서 등에 의해 수행되거나 하드웨어 모듈로 구성될 수 있다.
상기 제1 및 제2마이크부(100,102) 각각은 서로 이격되어 설치되어 화자의 음성을 입력받아 그에 대응되는 마이크 입력신호를 생성하여 제1 및 제2STFT 처리부(104,106)로 제공한다.
상기 제1 및 제2STFT 처리부(104,106) 각각은 상기 제1 및 제2마이크부(100,102)가 출력하는 음성신호를 STFT 처리하여 출력하며, 각 출력을
Figure 112016019154696-pat00001
,
Figure 112016019154696-pat00002
라 칭한다. 여기서, 상기 제1STFT 처리부(104)의 출력
Figure 112016019154696-pat00003
은 상기 제1LMPSC 처리부(112)와 상기 DCICA부(108)로 제공된다. 그리고 상기 제2STFT 처리부(106)의 출력
Figure 112016019154696-pat00004
은 상기 DCICA부(108)로 제공된다.
상기 DCIAC부(108)는 제1 및 제2마이크부(100,102)로부터의 마이크 입력신호를 STFT 처리한 마이크 입력신호
Figure 112016019154696-pat00005
,
Figure 112016019154696-pat00006
를 입력받아 DCICA 처리를 이행하고, 그에 따라 타겟추정신호
Figure 112016019154696-pat00007
와 잡음추정신호
Figure 112016019154696-pat00008
를 출력한다. 여기서, 상기 타겟추정신호
Figure 112016019154696-pat00009
는 제2LMPSC 처리부(114)로 입력되고, 상기 잡음추정신호
Figure 112016019154696-pat00010
는 스케일링부(110)와 제4LMPSC 처리부(118)로 입력된다.
상기 스케일링부(110)는 상기 DCICA부(108)에 의해 변경된 잡음추정신호
Figure 112016019154696-pat00011
의 스케일을 타켓추정신호
Figure 112016019154696-pat00012
에 대응되게 변경하기 위한 스케일링 조정값(
Figure 112016019154696-pat00013
)을 곱하여 스케일 조정된 잡음추정신호를 출력한다. 상기 스케일링부(110)에 의해 출력된 스케일 조정된 잡음추정신호를 제3LMPSC 처리부(116)로 제공된다.
상기 제1 내지 제4LMPSC 처리부(112~118)는 입력된 신호, 즉 마이크 입력신호
Figure 112016019154696-pat00014
, 타켓추정신호
Figure 112016019154696-pat00015
, 스케일 조정된 잡음추정신호, 잡음추정신호
Figure 112016019154696-pat00016
를 입력받아 LMPSC 처리하여 스펙트럴 형태로 출력하며, 이는 LMPSC 처리된 마이크 입력신호
Figure 112016019154696-pat00017
, 타켓추정신호
Figure 112016019154696-pat00018
, 스케일 조정된 잡음추정신호
Figure 112016019154696-pat00019
, 잡음추정신호
Figure 112016019154696-pat00020
이다.
상기 LMPSC 처리된 타켓추정신호
Figure 112016019154696-pat00021
, 스케일 조정된 잡음추정신호
Figure 112016019154696-pat00022
는 상기 HMM 기반 FE 처리부(120)에 입력된다. 상기 HMM 기반 FE 처리부(120)는 상기 LMPSC 처리된 타켓추정신호
Figure 112016019154696-pat00023
, 스케일 조정된 잡음추정신호
Figure 112016019154696-pat00024
를 입력받아, 특징 강화된 타겟추정신호
Figure 112016019154696-pat00025
를 출력한다.
상기 마이크 입력신호
Figure 112016019154696-pat00026
, 특징 강화된 타켓추정신호
Figure 112016019154696-pat00027
, 잡음추정신호
Figure 112016019154696-pat00028
는 DNN 기반 FE 처리부(122)로 입력된다.
상기 DNN 기반 FE 처리부(122)는 상기 마이크 입력신호
Figure 112016019154696-pat00029
, 특징 강화된 타켓추정신호
Figure 112016019154696-pat00030
, 잡음추정신호
Figure 112016019154696-pat00031
를 입력받아 DNN 기반 FE 처리하여 특징이 더욱 향상된 최종 타켓추정신호
Figure 112016019154696-pat00032
를 출력한다. 여기서, 상기 DNN 기반 FE 처리부(122)는 마이크 입력신호
Figure 112016019154696-pat00033
와 특징 강화된 타겟추정신호
Figure 112016019154696-pat00034
로부터 특징이 더욱 강화된 최종 타겟추정신호
Figure 112016019154696-pat00035
를 출력함에 있어 잡음추정신호
Figure 112016019154696-pat00036
를 참조하여 특징강화성능을 향상시킨다. 이와달리 상기 DNN 기반 FE 처리부(122)는 마이크 입력신호
Figure 112016019154696-pat00037
와 잡음추정신호
Figure 112016019154696-pat00038
를 토대로 더욱 특징 강화된 최종 타겟추정신호
Figure 112016019154696-pat00039
를 생성함에 있어 특징 강화된 타겟추정신호
Figure 112016019154696-pat00040
를 참조하여 특징강화성능을 향상시킬 수도 있다. 이러한 DNN 기반 FE 처리부(122)에 의한 특징 향상에 의한 음성인식성능의 향상은 본 발명과 종래 기술에 따른 테스트 결과를 통해 드러나며 이는 후술된다.
상기 특징 향상된 타켓추정신호
Figure 112016019154696-pat00041
는 DCT 처리부(124)에 입력된다.
상기 DCT 처리부(124)는 상기 특징 향상된 최종 타겟추정신호
Figure 112016019154696-pat00042
를 입력받아, DCT 처리하여 ASR 처리부(126)로 제공한다.
상기 ASR 처리부(126)는 상기 DCT 처리된 최종 타겟추정신호를 제공받아 ASR을 수행하고 그에 따른 ASR 결과를 출력한다.
<DNN 기반 FE 처리부(122)의 초기화>
상기한 바와 같이 본 발명은 DNN 기반 FE 처리부(122)에 상기 마이크 입력신호
Figure 112016019154696-pat00043
, 특징 강화된 타켓추정신호
Figure 112016019154696-pat00044
, 잡음추정신호
Figure 112016019154696-pat00045
를 입력받아 DNN 기반 FE 처리하여 더욱 특징 향상된 최종 타켓추정신호
Figure 112016019154696-pat00046
를 출력한다.
이를 위한 상기 DNN 기반 FE 처리부(122)의 초기화 과정을 설명한다.
상기 DNN 기반 FE 처리부(122)에 의해 수행되는 딥 러닝은 컴퓨팅 파워의 발달과 빅 데이터의 수집으로 인하여 뛰어난 성능을 보이고 있으나, 국소 최저값에 빠지거나 그래디언트가 사라지는 문제가 있다.
이에 본 발명은 각 층별로 RBM(Restricted Boltzmann Machine)을 이용하여 선행 학습을 수행한다. 상기 RBM은 다음과 같은 확률 분포를 볼츠만(Boltzmann) 분포에 의해 정의한다.
Figure 112016019154696-pat00047
여기서 Z와 E는 각각 다음과 같이 정의한다.
Figure 112016019154696-pat00048
그리고,
Figure 112016019154696-pat00049
은 m개의 가시 유닛으로 이루어진
Figure 112016019154696-pat00050
와 n개의 은닉 유닛으로 이루어진
Figure 112016019154696-pat00051
로부터 얻어낸 랜덤변수이다. 이 확률 분포의 우도를 최대화하기 위하여 로그 우도를 그래디언트 상승 방법으로 최대화한다.
Figure 112016019154696-pat00052
이와 같은 방법으로 초기화한 네트워크를 최소 평균 제곱 에러 기법을 이용하여 재학습한다.
상기한 딥 러딩은 잡음추정신호로부터 클린신호, 즉 타겟추정신호를 맵핑시켜주는 회귀 함수로써 사용되었으며, 이러한 딥 러닝 기반 방법은 시간-주파수 정보를 모두 활용할 수 있다는 점에서 뛰어나지만 제한된 조건으로 학습됨에 따라 학습시의 잡음 환경에서 벗어나는 경우에는 그 성능이 급락하였다.
이에 본 발명은 마이크 입력신호로부터 추정한 잡음추정신호를 딥 러닝시에 반영함으로써 잡음 환경의 변화에도 유연하게 대응할 수 있게 한다.
즉, 본 발명은 독립 성분 분석 기술과 모델 기반 특징 강화 방법을 통해 얻어낸 특징 정보들을 딥러닝 학습에 활용함으로써, 변화하는 잡음 환경에서도 뛰어난 성능을 확보할 수 있게 한다.
상기한 학습을 위해 상기 네트워크로 입력되는 데이터는, 마이크로부터 얻어진 마이크 입력신호의 24차원 로그-멜 스펙트럼 계수와 독립 성분 분석 및 모델 기반 특징 강화 방법을 통해 얻어낸 향상된 타겟 추정 신호와 잡음 추정 신호의 로그-멜 스펙트럼 계수이다. 이때, 현재 프레임의 앞, 뒤로 각각
Figure 112016019154696-pat00053
개의 프레임 정보를 추가로 이용한다. 즉, 최종 입력 신호는 다음과 같다.
Figure 112016019154696-pat00054
상기
Figure 112016019154696-pat00055
은 입력신호의 로그-멜 스펙트럼 계수이고,
Figure 112016019154696-pat00056
Figure 112016019154696-pat00057
은 각각 음원 향상 신호와 추정 잡음 신호의 로그-멜 스펙트럼 계수이다.
본 발명에서는 상기
Figure 112016019154696-pat00058
는 3으로 설정하여, 총 7개의 프레임 정보를 이용하였다. 즉 네트워크의 입력 차원은
Figure 112016019154696-pat00059
차원이다. 이를 위한 딥러닝 네트워크는 1024개의 은닛 유닛을 가진 3개의 은닉 층으로 이루어지며, 각 층의 활성함수는 시그모이드를 사용하고, 마지막 출력 층에서는 선형 유닛을 사용한다.
<DCICA 처리부>
이제 DCICA 처리부(108)의 처리절차를 설명한다.
잡음이 존재하는 실제 세상의 환경에서 타겟 음성은 상가성 잡음(additive noise)에 의해 종종 오염된다. 이 경우, i 번째 프레임과 j 번째 주파수 빈에서의 m번째 마이크로부터의 잡음이 혼합된 음성
Figure 112016019154696-pat00060
에 대한 시간-주파수(t-f) 표현은 수학식 5에 나타낸 바와 같다.
Figure 112016019154696-pat00061
상기 수학식 5에서,
Figure 112016019154696-pat00062
Figure 112016019154696-pat00063
는 클린 음성과 잡음을 나타내며, 이는 각각 독립적으로 추정된다.
DCICA에서, 더미 출력(dummy outputs)은 타겟 음성 신호를 제거하는 것으로부터 잡음 추정을 시작한다. 타겟 스피커로부터 마이크로의 음향 경로가 직접 경로에 근접한다고 가정하면, 첫번째 그리고 m번째 마이크 신호에 대한 간단한 딜레이-서브트랙트 널 포머(delay and subtract nullformer)로부터 m번째 더미 출력
Figure 112016019154696-pat00064
을 얻을 수 있으며, 이는 수학식 6과 같다.
Figure 112016019154696-pat00065
상기 수학식 6에서,
Figure 112016019154696-pat00066
으로 타겟 DOA
Figure 112016019154696-pat00067
를 가진다.
실제 타겟 음성 출력을 수학식 7과 같이 나타낸다고 가정한다.
Figure 112016019154696-pat00068
상기 수학식 7에서
Figure 112016019154696-pat00069
는 적응적 로(ROW) 벡터로,
Figure 112016019154696-pat00070
Figure 112016019154696-pat00071
사이의 종속성을 최소화하는 것에 의해 추정된다. 그리고 넌 하모닉 제한을 가지는 온라인 내츄럴 그래디언트 알고리즘과 평탄화 파워추정에 의한 정규화에 의해 상기 적응적 로 벡터는 수학식 8에 나타낸 바와 같이 표현될 수 있다.
Figure 112016019154696-pat00072
상기 수학식 8에서 P
Figure 112016019154696-pat00073
이고, 평탄화 파워 추정
Figure 112016019154696-pat00074
으로 펙터
Figure 112016019154696-pat00075
를 가진다. 최소 왜곡 원리는
Figure 112016019154696-pat00076
에 의해 분리된 출력 신호의 스케일링 불확정성을 해소하기 위해 사용되며, 이는
Figure 112016019154696-pat00077
와 같다.
더미 출력이 잡음 파라메터의 추정을 위해 사용될지라도, 타겟 음성 출력은 그 특징을 더욱 향상하기 위해 베이지안 FE에서 수행되는 잡음이 있는 음성을 이용한다.
각 주파수 빈에서의 DCICA의 출력신호를 얻기 위한 혼합신호들의 웨이티드 썸(weighted sum)은 신호들의 변형을 수반하며, 타겟 음성과 잡음 신호들 사이의 상대적 변형은 J.-W. Cho and H.-M. Park, Independent vector analysis followed by HMM-based feature enhancement for robust speech recognition, Signal Processing, vol. 120, pp. 200~208, 2016.에 개시된 방법에 따라 보상될 수 있다.
상기 베이지안 FE에
Figure 112016019154696-pat00078
에 k번째 밴드 멜 스케일 필터(k-th band mel-scale filter)와 LMPSC(the logarithmic mel-frequency power spectral coefficient)
Figure 112016019154696-pat00079
를 적용하면, 상기 베이지안 FE는 수학식 9와 같이 나타낼 수 있다.
Figure 112016019154696-pat00080
상기 수학식 9에서
Figure 112016019154696-pat00081
Figure 112016019154696-pat00082
는 클린 음성과 노이즈 성분의 LMPSCs이다.
상기
Figure 112016019154696-pat00083
의 베이지안 FE는 깨끗한 LMPSC 벡터의 MMSE 추정을 수행한다.
Figure 112016019154696-pat00084
상기 수학식 10에서
Figure 112016019154696-pat00085
Figure 112016019154696-pat00086
의 특징 벡터를 나타내고,
Figure 112016019154696-pat00087
는 관찰된 노이지 음성
Figure 112016019154696-pat00088
의 특징벡터들의 시퀀스들을 나타낸다.
클린 음성이 싱글 가우시안 관찰 분포를 가지는 어고딕(ergodic) HMM에 의해 표현되어 추정되는 동안에, 상기
Figure 112016019154696-pat00089
는 보상후 더미 출력으로부터 평균
Figure 112016019154696-pat00090
과 변화량
Figure 112016019154696-pat00091
을 추정하는 가우시안 랜덤 프로세스에 의해 추정되며, 이는 수학식 11에 따른다.
Figure 112016019154696-pat00092
상기 수학식 11에서
Figure 112016019154696-pat00093
Figure 112016019154696-pat00094
는 i번째 프레임에서의 히든 스테이트 인덱스와 상태의 번호를 나타낸다.
이 경우 강화된 LMPSCs는 수학식 12에 의해 정의된다.
Figure 112016019154696-pat00095
Figure 112016019154696-pat00096
상기 수학식 12에서
Figure 112016019154696-pat00097
이다. 그리고
Figure 112016019154696-pat00098
는 수학식 13에 따른 베이지안 룰에 의해 규정될 수 있는
Figure 112016019154696-pat00099
에 대한 l번째 상태의 분산으로 계산된다.
Figure 112016019154696-pat00100
상태전이확률
Figure 112016019154696-pat00101
을 사용하여,
Figure 112016019154696-pat00102
는 수학식 14로 표현될 수 있다.
그리고
Figure 112016019154696-pat00104
Figure 112016019154696-pat00105
로 근사화되며, 이는 수학식 15에 따른다.
Figure 112016019154696-pat00106
<DNN 기반 FE 처리부>
상기 DNN은 다양한 패턴의 인식 문제에 성공적으로 적용됨에 따라 머신 러닝 및 신호 프로세싱 필드에서 최신 기술로서 주목을 받았다. 상기 DNN의 뛰어난 성능의 장점에 의해, FE를 위해 잡음이 있는 음성 특징을 클린 신호로 맵핑하는 기능으로 사용된다. 이러한 상기 DNN 기반 FE 방법은 특징 벡터의 시퀀스를 사용하여 시간 또는 주파수 축에 따르는 신호를 동시에 사용하기 때문에 매우 유용하다.
그러나 상기 DNN 기반 FE는 훈련시에 제공되지 않았던 노이즈 환경에서는 그 성능이 저하되었다. 왜냐하면, 잡음 스펙트럴 특징은 음성이 없는 구간에서 추정된 정상성을 가지는 잡음에서의 평균 입력 특징을 토대로 추정되기 때문이다.
한편 DCICA는 음성이 있는 구간에서도 잡음 스펙트럴 특징을 추정하므로, 상기 DCICA에 의해 검출된 잡음 스펙트럴 특징을 채용하는 경우에 음성인식 성능을 높일 수 있게 된다.
이에 본 발명은 DCICA-FE의 결과를 활용하는 DNN 기반 FE 처리를 이행한다.
이를 위해 먼저 마이크 입력신호에 대한 스펙트럴 특징정보와, DCICA에 의해 검출된 타겟추정신호와 잡음추정신호를 토대로 HMM 기반 FE 처리된 타겟추정신호에 대한 스펙트럴 특징정보와, 상기 잡음추정신호에 대한 스펙트럴 특징정보를 일시적인 변동에 대응하기 위해 인접한 다수의 프레임 단위로 입력받는다.
예를들어, 상기 DNN의 입력의 차원은 프레임 당 24 멜 주파수 밴드를 가지는 일곱 프레임의 시퀀스를 사용하여 504가 될 수 있고, 출력의 수는 24가 될 수 있다. 이 경우 상기 DNN는 도 2에 도시한 바와 같이 세 개의 히든 레이어를 가지며, 각 히든 레이어는 1,024 유니트를 가진다. 여기서, 상기 히든의 동적 기능과 출력 유니트는 시그모이드와 선형 펑션들이다.
<음성인식 성능 평가>
본 출원인은 본 발명에 따르는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치의 성능 평가를 위해 DARPA Resource Management(RM) database를 사용하였으며 Kaldi toolkit을 이용하여 음성 인식률을 산출하였다.
그리고 음성 인식 과정에는 13차 MFCC와 그 delta, acceleration 정보와 HMM을 이용하였다. 타겟 신호는 NoiseX-92 corpus에서 얻은 babble 잡음을 섞어 잡음 환경을 구축하였으며 이때 반향은 0.3초로 설정하였다. 또한 딥러닝 네트워크 학습 시 테스트에서 쓰일 babble 잡음을 이용하여 학습한 경우(matched)와 테스트시 쓰이지 않는 다른 car, F16, factory, operation rooms 잡음을 이용하여 학습한 경우(mismatched)로 나누어 실험을 진행하였다.
상기 실험시에는 본 발명에 따르는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치에 대해 DNN없이 DCICA-FE의 결과, 기존 DNN기반 방법, noise-aware training(NAT)와 비교하였다. NAT는 입력 신호의 앞 6프레임 평균값을 이용하여 잡음 정보를 추정하여 딥러닝 학습에 이용하는 방법이다. 또한, 본 발명과 유사하게 DCICA-FE가 아닌 Ideal DUET이나 BF-Softmask를 이용하여 얻어낸 특징 정보를 딥러닝 학습에 활용하는 방법과도 그 결과를 비교하였다.
도 3 내지 도 6은 타겟 음원 외에 방해 요소로 다른 발화가 추가된 경우에 대한 실험 결과를 나타낸 것이다. 상기 도 3 내지 도 6을 참조하면, 타겟과 잡음의 위치에 대한 Ideal한 파라미터 값을 사용하는 Ideal DUET 방법을 제외하면 제안하는 방법이 기존 방법보다 매우 뛰어난 성능을 보임을 확인할 수 있다.
이와 같이 딥러닝 기반 방법으로는 학습이 매우 힘든 비정상적 잡음 환경에서는 본 발명에 따르는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치의 성능은 월등하게 높고, 이는 실험을 통해 증명된다.
100, 102 : 제1 및 제2마이크부
104,106 : 제1 및 제2STFT(Short-Time Fourier Transform) 처리부
108 : DCICA(Direction of arrival(DOA) Constrained Independent Component Analysis(ICA))부
110 : 스케일링부
112 내지 118 : 제1 내지 제4LMPSC(logarithmic mel-frequency power spectral coefficient) 처리부
120 : HMM((hidden markov model) 기반 FE 처리부
122 : DNN 기반 FE(DNN-Based Feature Enhancement) 처리부
124 : DCT(Discrete Cosine Transform) 처리부
126 : ASR(automatic speech recognition) 처리부

Claims (8)

  1. DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치에 있어서,
    다수의 마이크로부터 입력되는 마이크 입력신호들을 각각 입력받아 STFT(Short-Time Fourier Transform) 처리하는 다수의 STFT;
    상기 다수의 STFT 처리부가 출력하는 STFT 처리된 마이크 입력신호들을 입력받아 DCICA 처리를 이행하며, 타겟추정신호와 잡음추정신호를 생성하는 DCICA(Direction of arrival(DOA) Constrained Independent Component Analysis(ICA))부;
    상기 STFT 처리된 마이크 입력신호들 중 어느 하나인 제1마이크 입력신호와, 상기 DCICA부가 출력하는 타겟추정신호와 잡음추정신호를 입력받아 LMPSC(logarithmic mel-frequency power spectral coefficient) 처리하여 스펙트럴 형태로 변환하여 출력하는 다수의 LMPSC 처리부;
    상기 LMPSC 처리부가 출력하는 스펙트럴 형태로 변환되어 출력되는 제1마이크 입력신호와 타겟추정신호와 잡음추정신호를 입력받아 특징강화된 최종 타겟추정신호를 생성하는 DNN 기반 FE(DNN-Based Feature Enhancement) 처리부; 및
    상기 최종 타겟추정신호를 제공받아 음성인식을 수행하는 ASR(Automatic Speech Recognition) 처리부;로 구성됨을 특징으로 하는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치.
  2. 제1항에 있어서,
    상기 DCICA부가 출력하는 잡음추정신호의 스케일을 가변하는 스케일링부;
    상기 스케일링부가 출력하는 스케일링된 잡음추정신호를 입력받아 LMPSC 처리하여 스펙트럴 형태로 변환하여 출력하는 LMPSC;
    상기 LMPSC가 출력하는 스펙트럴 형태로 변환된 스케일링된 잡음추정신호와 상기 DCICA가 출력하는 타겟추정신호를 입력받아 HMM(hidden markov model) 기반 FE 처리하여 특징 강화된 타켓추정신호를 생성하여 상기 DNN 기반 FE 처리부로 제공하는 HMM 기반 FE 처리부;를 더 구비하며,
    상기 DNN 기반 FE 처리부는 상기 제1마이크 입력신호와 상기 특징 강화된 타켓추정신호와 상기 잡음추정신호를 입력받아 특징강화된 최종 타겟신호를 생성하며,
    상기 DNN 기반 FE 처리부로 입력되는 상기 제1마이크 입력신호와 상기 특징 강화된 타켓추정신호와 상기 잡음추정신호는 스펙트럴 형태임을 특징으로 하는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치.
  3. 제1항에 있어서,
    상기 특징 강화된 최종 타겟추정신호를 DCT 처리하여 상기 ASR 처리부로 제공하는 DCT 처리부를 더 구비함을 특징으로 하는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치.
  4. 제1항에 있어서,
    상기 DNN 기반 FE 처리부는 다수의 인접 프레임으로부터의 상기 마이크 입력신호와 상기 타켓추정신호와 상기 잡음추정신호를 입력받아 특징강화된 최종 타겟추정신호를 생성함을 특징으로 하는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치.
  5. DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식방법에 있어서,
    다수의 마이크로부터 입력되는 마이크 입력신호들을 각각 입력받아 STFT 처리하여 STFT 처리된 마이크 입력신호들을 생성하는 단계;
    상기 STFT 처리된 마이크 입력신호들을 DCICA 처리를 이행하며, 타겟추정신호와 잡음추정신호를 생성하는 단계;
    상기 STFT 처리된 마이크 입력신호들 중 어느 하나인 제1마이크 입력신호와, DCICA부가 출력하는 타겟추정신호와 잡음추정신호에 대해 LMPSC 처리하여 스펙트럴 형태로 변환하는 단계;
    상기 스펙트럴 형태로 변환되어 출력되는 제1마이크 입력신호와 타겟추정신호와 잡음추정신호에 대해 DNN 기반 FE 처리하여 특징강화된 최종 타겟추정신호를 생성하는 단계; 및
    상기 최종 타겟추정신호로부터 음성인식을 수행하는 단계;를 구비함을 특징으로 하는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식방법.
  6. 제5항에 있어서,
    상기 잡음추정신호의 스케일을 가변하는 단계;
    상기 스케일링된 잡음추정신호에 대해 LMPSC 처리하여 스펙트럴 형태로 변환하는 단계;
    상기 스펙트럴 형태로 변환된 스케일링된 잡음추정신호와 상기 타겟추정신호에 따라 HMM 기반 FE 처리하여 특징 강화된 타켓추정신호를 생성하는 단계;를 더 구비하며,
    상기 DNN 기반 FE 처리시에, 상기 제1마이크 입력신호와 상기 특징 강화된 타켓추정신호와 상기 잡음추정신호를 입력받아 특징강화된 최종 타겟신호를 생성하며,
    상기 DNN 기반 FE 처리시에, 상기 제1마이크 입력신호와 상기 특징 강화된 타켓추정신호와 상기 잡음추정신호는 스펙트럴 형태임을 특징으로 하는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식방법.
  7. 제5항에 있어서,
    상기 특징 강화된 최종 타겟추정신호에 대한 음성인식 전에 DCT 처리하는 단계;를 더 구비함을 특징으로 하는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식방법.
  8. 제5항에 있어서,
    상기 DNN 기반 FE 처리시에는 다수의 인접 프레임으로부터의 상기 마이크 입력신호와 상기 타켓추정신호와 상기 잡음추정신호를 입력받아 특징강화된 최종 타겟추정신호를 생성함을 특징으로 하는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식방법.
KR1020160023335A 2016-02-26 2016-02-26 Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법 KR101720514B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160023335A KR101720514B1 (ko) 2016-02-26 2016-02-26 Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160023335A KR101720514B1 (ko) 2016-02-26 2016-02-26 Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법

Publications (1)

Publication Number Publication Date
KR101720514B1 true KR101720514B1 (ko) 2017-04-11

Family

ID=58580737

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160023335A KR101720514B1 (ko) 2016-02-26 2016-02-26 Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법

Country Status (1)

Country Link
KR (1) KR101720514B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818366A (zh) * 2017-10-25 2018-03-20 成都力创昆仑网络科技有限公司 一种基于卷积神经网络的肺音分类方法、系统及用途
CN109285539A (zh) * 2018-11-28 2019-01-29 中国电子科技集团公司第四十七研究所 一种基于神经网络的声音识别方法
KR20190037885A (ko) 2017-09-29 2019-04-08 주식회사 케이티 단말 간의 전화 통화 중에 에코를 제거하는 서버, 단말 및 방법
CN110261816A (zh) * 2019-07-10 2019-09-20 苏州思必驰信息科技有限公司 语音波达方向估计方法及装置
US10915574B2 (en) 2017-12-12 2021-02-09 Electronics And Telecommunications Research Institute Apparatus and method for recognizing person
CN113095258A (zh) * 2021-04-20 2021-07-09 深圳力维智联技术有限公司 定向信号提取方法、系统、装置及存储介质
WO2024014797A1 (ko) * 2022-07-14 2024-01-18 서강대학교산학협력단 강인한 음성인식을 위한 타겟 마스크 및 독립성분분석 기반의 실시간 빔포밍 및 방향 벡터 추정 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012036934A1 (en) 2010-09-15 2012-03-22 Microsoft Corporation Deep belief network for large vocabulary continuous speech recognition
KR20120102306A (ko) 2011-03-08 2012-09-18 고려대학교 산학협력단 잡음 환경에서의 음성 처리 장치 및 방법
KR101561651B1 (ko) 2014-05-23 2015-11-02 서강대학교산학협력단 딥 빌리프 네트워크를 이용한 음성기반 호불호 검출방법 및 장치, 그를 기록한 기록매체
KR101591626B1 (ko) 2015-02-04 2016-02-04 한양대학교 산학협력단 딥신경망에 기초한 패킷 손실 은닉 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012036934A1 (en) 2010-09-15 2012-03-22 Microsoft Corporation Deep belief network for large vocabulary continuous speech recognition
KR20120102306A (ko) 2011-03-08 2012-09-18 고려대학교 산학협력단 잡음 환경에서의 음성 처리 장치 및 방법
KR101561651B1 (ko) 2014-05-23 2015-11-02 서강대학교산학협력단 딥 빌리프 네트워크를 이용한 음성기반 호불호 검출방법 및 장치, 그를 기록한 기록매체
KR101591626B1 (ko) 2015-02-04 2016-02-04 한양대학교 산학협력단 딥신경망에 기초한 패킷 손실 은닉 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Minook Kim et al., 'Efficient online target speech extraction using DOA-constrained independent component analysis of stereo data for robust speech recognition', Signal Processing, pp.126~137, 2015. *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190037885A (ko) 2017-09-29 2019-04-08 주식회사 케이티 단말 간의 전화 통화 중에 에코를 제거하는 서버, 단말 및 방법
CN107818366A (zh) * 2017-10-25 2018-03-20 成都力创昆仑网络科技有限公司 一种基于卷积神经网络的肺音分类方法、系统及用途
US10915574B2 (en) 2017-12-12 2021-02-09 Electronics And Telecommunications Research Institute Apparatus and method for recognizing person
CN109285539A (zh) * 2018-11-28 2019-01-29 中国电子科技集团公司第四十七研究所 一种基于神经网络的声音识别方法
CN109285539B (zh) * 2018-11-28 2022-07-05 中国电子科技集团公司第四十七研究所 一种基于神经网络的声音识别方法
CN110261816A (zh) * 2019-07-10 2019-09-20 苏州思必驰信息科技有限公司 语音波达方向估计方法及装置
CN110261816B (zh) * 2019-07-10 2020-12-15 苏州思必驰信息科技有限公司 语音波达方向估计方法及装置
CN113095258A (zh) * 2021-04-20 2021-07-09 深圳力维智联技术有限公司 定向信号提取方法、系统、装置及存储介质
WO2024014797A1 (ko) * 2022-07-14 2024-01-18 서강대학교산학협력단 강인한 음성인식을 위한 타겟 마스크 및 독립성분분석 기반의 실시간 빔포밍 및 방향 벡터 추정 방법

Similar Documents

Publication Publication Date Title
KR101720514B1 (ko) Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법
Michelsanti et al. Conditional generative adversarial networks for speech enhancement and noise-robust speaker verification
Chen et al. New insights into the noise reduction Wiener filter
Attias et al. Speech denoising and dereverberation using probabilistic models
Taherian et al. Robust speaker recognition based on single-channel and multi-channel speech enhancement
Han et al. Deep neural network based spectral feature mapping for robust speech recognition.
JP5738020B2 (ja) 音声認識装置及び音声認識方法
Lee et al. DNN-based feature enhancement using DOA-constrained ICA for robust speech recognition
Kubo et al. Mask-based MVDR beamformer for noisy multisource environments: Introduction of time-varying spatial covariance model
Yu et al. Adversarial network bottleneck features for noise robust speaker verification
Kumatani et al. Beamforming with a maximum negentropy criterion
Cho et al. Independent vector analysis followed by HMM-based feature enhancement for robust speech recognition
Matassoni et al. Hidden Markov model training with contaminated speech material for distant-talking speech recognition
Nesta et al. A flexible spatial blind source extraction framework for robust speech recognition in noisy environments
Xiong et al. Blind estimation of reverberation time based on spectro-temporal modulation filtering
Poorjam et al. A parametric approach for classification of distortions in pathological voices
Cornell et al. Learning filterbanks for end-to-end acoustic beamforming
KR101802444B1 (ko) 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법
Zheng et al. Spectral mask estimation using deep neural networks for inter-sensor data ratio model based robust DOA estimation
Shi et al. Phase-based dual-microphone speech enhancement using a prior speech model
Han et al. Reverberation and noise robust feature compensation based on IMM
Yoshioka et al. Noise model transfer: Novel approach to robustness against nonstationary noise
Sehr et al. Towards robust distant-talking automatic speech recognition in reverberant environments
Sose et al. Sound Source Separation Using Neural Network
Asaei et al. Verified speaker localization utilizing voicing level in split-bands

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200304

Year of fee payment: 4