KR101802444B1 - 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법 - Google Patents

독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법 Download PDF

Info

Publication number
KR101802444B1
KR101802444B1 KR1020160089966A KR20160089966A KR101802444B1 KR 101802444 B1 KR101802444 B1 KR 101802444B1 KR 1020160089966 A KR1020160089966 A KR 1020160089966A KR 20160089966 A KR20160089966 A KR 20160089966A KR 101802444 B1 KR101802444 B1 KR 101802444B1
Authority
KR
South Korea
Prior art keywords
iva
speech
signal
module
signals
Prior art date
Application number
KR1020160089966A
Other languages
English (en)
Inventor
박형민
조지원
Original Assignee
서강대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단 filed Critical 서강대학교산학협력단
Priority to KR1020160089966A priority Critical patent/KR101802444B1/ko
Application granted granted Critical
Publication of KR101802444B1 publication Critical patent/KR101802444B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 독립벡터분석 및 재추정된 반향필터파라메터를 이용한 베이시안 특징 향상시킨 음성 인식 장치 및 방법에 관한 것이다. 상기 음성 인식 방법은, (a) 외부로부터 입력된 복수 개의 음성 신호들을 단구간 푸리에 변환하여 각각 주파수 영역의 신호로 변환하여 출력하는 단계; (b) 상기 주파수 영역의 음성 신호들을 독립 벡터 분석하여 IVA 타겟 음성 신호와 IVA 노이즈 신호를 추정하는 단계; (c) 상기 독립벡터분석에 의해 추정된 IVA 타겟 음성 신호로부터 HMM-based BFE 하여 음성 특징을 추출하는 단계; (d) 상기 IVA 타겟 음성 신호를 이용하여 상기 독립벡터분석에 의해 추정된 IVA 노이즈 신호를 스케일링한 후 스케일링된 IVA 노이즈 신호로부터 노이즈 특징을 추출하는 단계; (e) 상기 음성 특징 및 반향 필터 파라메터의 초기 설정값을 이용하여 HMM-based BFE 하여 음성 특징을 강화시켜 초기 음원 신호를 추정하는 단계; (f) 상기 노이즈 특징과 상기 추정된 초기 음원 신호를 이용하여 반향 필터 파라메터를 재추정하는 단계; (g) 상기 재추정된 반향 필터 파라메터를 이용하여 상기 음성 특징을 다시 강화시켜 음원 신호를 최종 추정하는 단계; 를 구비한다.

Description

독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법{Robust speech recognition apparatus and method for Bayesian feature enhancement using independent vector analysis and reverberation parameter reestimation}
본 발명은 강인한 음성 인식 장치 및 방법에 관한 것으로서, 더욱 구체적으로는 노이즈와 반향이 모두 존재하는 실제 환경에서 독립 벡터 분석과 반향 필터 파라메터 재추정을 이용하여 은닉 마르코프 모델(hidden Markov models ; HMM) 기반의 베이시안 특징 향상(BFE)시켜 인식 오류를 감소시킬 수 있도록 한 강인한 음성 인식 장치 및 방법에 관한 것이다.
음성 인식 시스템에 있어서, 대부분 노이즈가 많은 환경에 있기 때문에 노이즈에 강인한 특성(Noise robustness)을 갖는 것은 매우 중요하다. 음성 인식 시스템의 인식 성능의 감쇠는 주로 학습 환경과 실제 환경과의 차이로부터 기인하는 경우가 많으며, 캡스트럼 평균 정규화(Cepstral Mean normalization) 또는 스펙트럼 차감(spectral subtraction)과 같은 단순한 방법들을 사용하여 전술한 불일치를 보상하여 손실들을 회복하고자 하는 연구들이 많이 진행되고 있다. 이러한 접근들에 의하여 음성 인식의 정확성을 향상시키고는 있지만, 대부분은 다양하면서 안정화되지 못한 노이즈들을 갖는 실세계의 환경들에서는 여전히 인식 성능을 향상시키지 못하고 있는 실정이다.
또한, 음성 인식 시스템에 있어서 그 환경에 따라 반향도 많이 발생하게 되며, 이러한 반향에 의해 음성 인식 성능이 감소된다. 이와 같이, 음성 인식 시스템(ASR System)에 있어서, 실세계의 환경은 노이즈(additive noise) 뿐만 아니라 반향(reverberation)들이 함께 존재하므로 이러한 실세계의 환경에서 음성 인식 성능을 향상시키기 위해서는 노이즈 및 반향을 모두 고려하여야 할 뿐만 아니라 동시에 이들을 고려하여야 한다.
하지만, 대부분의 음성 인식 시스템은 노이즈만을 고려하거나, 반향만을 주로 고려하거나, 노이즈와 반향을 순차적으로 고려하여 음성 인식하게 된다. 이 경우 음성 인식의 성능이 매우 낮아지고 그 결과 인식 오류가 발생하게 된다.
한국등록특허공보 제 10-1506547호 한국등록특허공보 제 10-0329596호 한국등록특허공보 제 10-1361034호
전술한 문제점을 해결하기 위한 본 발명의 목적은 노이즈와 반향이 많은 환경에서 노이즈와 반향을 동시에 고려하기 위하여, 독립 벡터 분석과 반향 필터 파라메터 재추정을 이용하여 은닉 마르코프 모델 기반의 베이시안 특징 향상(HMM-based BFE)시킴으로써, 성능이 우수한 음성 인식 장치 및 방법을 제공하는 것이다.
전술한 기술적 과제를 달성하기 위한 본 발명의 제1 특징에 따른 음성 인식 장치는, 외부로부터 음성 신호가 입력되는 음성 신호 입력부; 상기 음성 신호 입력부로 입력된 다수 개의 음성 신호들을 각각 주파수 영역의 신호로 변환하여 출력하는 푸리에 변환 모듈; 상기 푸리에 변환 모듈로부터 출력된 주파수 영역의 복수 개의 음성 신호들을 독립 벡터 분석하여 IVA 타겟 음성 신호와 IVA 노이즈 신호를 추정하는 독립벡터분석 모듈; 상기 독립벡터분석 모듈로부터 출력된 IVA 타겟 음성 신호로부터 음성 특징을 추출하는 목적 음성 강화 모듈; 상기 IVA 타겟 음성 신호를 이용하여 상기 독립벡터분석 모듈로부터 출력된 IVA 노이즈 신호를 스케일링한 후 스케일링된 IVA 노이즈 신호로부터 노이즈 특징을 추출하는 목적 음성 제거 모듈; 상기 목적 음성 강화 모듈로부터 제공된 음성 특징 및 반향 필터 파라메터를 이용하여 음성 특징을 강화시켜 음원 신호를 추정하는 HMM 기반 특징 강화 모듈; 상기 목적 음성 제거 모듈로부터 제공된 노이즈 특징과 상기 HMM 기반 특징 강화 모듈로부터 제공된 추정된 음원 신호를 이용하여 반향 필터 파라메터를 재추정하여 상기 HMM 기반 특징 강화 모듈로 제공하는 반향 필터 재추정부; 를 구비하고, 상기 HMM 기반 특징 강화 모듈은 반향 필터 재추정부에 의해 재추정된 반향 필터 파라메터와 상기 강화된 음성 특징을 이용하여 음원 신호를 최종 추정하여 출력한다.
전술한 제1 특징에 따른 음성 인식 장치에 있어서, 상기 HMM 기반 특징 강화 모듈은 HMM-based BFE 방법을 이용하여 음성 특징을 강화시키는 것이 바람직하다.
전술한 제1 특징에 따른 음성 인식 장치에 있어서, 상기 목적 음성 강화 모듈은 멜-스케일 필터 뱅크(Mel-scale filter bank)로 구성되며, 상기 목적 음성 강화 모듈에 의해 추출된 IVA 타겟 음성 신호에 대한 음성 특징은 IVA 타겟 음성 신호에 대하여 로그 멜 주파수 전력 스펙트럼 도메인에서 추출된 LMPSCs(logarithmic mel-frequency power spectral coefficients)인 것이 바람직하다.
전술한 제1 특징에 따른 음성 인식 장치에 있어서, 상기 목적 음성 제거 모듈에 의해 추출된 IVA 노이즈 신호에 대한 노이즈 특징은 IVA 노이즈 신호에 대하여 로그 멜 주파수 전력 스펙트럼 도메인에서 추출된 LMPSCs(logarithmic mel-frequency power spectral coefficients)인 것이 바람직하다.
전술한 제1 특징에 따른 음성 인식 장치에 있어서, 상기 HMM 기반 특징 강화 모듈은 목적 음성 강화 모듈로부터 제공된 음성 특징 및 반향 필터 파라메터의 초기 설정값을 이용하여 음성 특징을 강화시켜 초기 음원 신호를 추정하고, 추정된 초기 음원 신호를 상기 반향 필터 재추정 모듈로 제공한 후 상기 반향 필터 재추정 모듈로부터 재추정된 반향 필터 파라메터를 제공받고, 상기 재추정된 반향 필터 파라메터와 상기 강화된 음성 특징을 이용하여 음원 신호를 최종 추정하여 출력하는 것이 바람직하다.
본 발명의 제2 특징에 따른 음성 인식 방법은, (a) 외부로부터 복수 개의 음성 신호들을 입력받는 단계; (b) 상기 입력된 복수 개의 음성 신호들을 단구간 푸리에 변환하여 각각 주파수 영역의 신호로 변환하여 출력하는 단계; (c) 상기 주파수 영역의 음성 신호들을 독립 벡터 분석하여 IVA 타겟 음성 신호와 IVA 노이즈 신호를 추정하는 단계; (d) 상기 독립벡터분석에 의해 추정된 IVA 타겟 음성 신호로부터 음성 특징을 추출하는 단계; (e) 상기 IVA 타겟 음성 신호를 이용하여 상기 독립벡터분석에 의해 추정된 IVA 노이즈 신호를 스케일링한 후 스케일링된 IVA 노이즈 신호로부터 노이즈 특징을 추출하는 단계; (f) 상기 음성 특징 및 반향 필터 파라메터의 초기 설정값을 이용하여 음성 특징을 강화시켜 초기 음원 신호를 추정하는 단계; (g) 상기 노이즈 특징과 상기 추정된 초기 음원 신호를 이용하여 반향 필터 파라메터를 재추정하는 단계; (h) 상기 재추정된 반향 필터 파라메터를 이용하여 상기 음성 특징을 다시 강화시켜 음원 신호를 최종 추정하는 단계; 를 구비한다.
전술한 제2 특징에 따른 음성 인식 방법에 있어서, 상기 (d) 단계에서 추출된 음성 특징은, 멜-스케일 필터 뱅크(Mel-scale filter bank)를 이용하여, 상기 IVA 타겟 음성 신호에 대하여 로그 멜 주파수 전력 스펙트럼 도메인에서 추출된 LMPSCs(logarithmic mel-frequency power spectral coefficients)인 것이 바람직하다.
전술한 제2 특징에 따른 음성 인식 방법에 있어서, 상기 (e) 단계에서 추출된 노이즈 특징은, 멜-스케일 필터 뱅크(Mel-scale filter bank)를 이용하여, IVA 노이즈 신호에 대하여 로그 멜 주파수 전력 스펙트럼 도메인에서 추출된 LMPSCs(logarithmic mel-frequency power spectral coefficients)인 것이 바람직하다.
전술한 제2 특징에 따른 음성 인식 방법에 있어서, 상기 (f) 단계 및 (h) 단계는 HMM-based BFE 방법을 이용하여 음성 특징을 강화시키는 것이 바람직하다.
본 발명에 따른 음성 인식 장치 및 방법은 강인한 음성 인식을 수행하게 된다.
도 2는 본 발명에 따른 음성 인식 방법과 종래의 음성 인식 방법들의 성능을 분석하기 위하여, 구성된 소스와 마이크로폰들을 도시한 구성도이다. 도 3은 도 2의 시뮬레이션 환경에서, 간섭신호원이 1개인 경우, 2개인 경우, 3개인 경우에 대하여, 각각 종래방법 1(Baseline), 종래방법 2(BFE-SNS+CRP), 종래 방법 3(BFE-IVA+CRP), 종래 방법 4(BFE-SNS+RPR) 및 본 발명에 따른 방법(BFE-IVA+RPR)에서의 SNR을 측정하여 도시한 도표이다. 여기서, 종래방법 1은 BFE-IVA 및 반향필터 재추정을 하지 않은 기본적인 방법이며, 종래방법 2는 종래의 stationary noise statistics를 이용한 방법 및 종래의 성김 모델 기반의 반향필터 파라메터를 이용한 방법이며, 종래방법 3은 IVA 기반의 노이즈 추정을 이용한 BFE 방법과 종래의 성김 모델 기반의 반향필터 파라메터를 이용한 방법이며, 종래방법 4는 종래의 stationary noise statistics를 이용한 방법 및 반향 필터 파라메터 재추정을 이용한 방법이며, 본 발명은 IVA 기반의 노이즈 추정을 이용한 BFE 방법과 반향 필터 파라메터 재추정을 이용한 방법이다. 도 3을 참조하면, 본 발명에 따른 음성 인식 방법은 다른 종래의 방법들보다 데이터 인식에 대한 오류가 가장 작음을 알 수 있다.
도 4는 도 2의 시뮬레이션 환경에서, 간섭신호원이 1개인 경우, 2개인 경우, 3개인 경우에 대하여, 각각 종래방법 1(Baseline), 종래방법 2(BFE-SNS+CRP), 종래 방법 5(BFE-IVA only), 종래 방법 6(BFE-IVA+BFE-RPR) 및 본 발명에 따른 방법(BFE-IVA+RPR)에서의 SNR을 측정하여 도시한 도표이다. 종래방법 5는 IVA 기반의 노이즈 추정을 이용한 BFE 방법만을 적용한 것이며, 종래방법 6은 IVA 기반의 노이즈 추정을 이용한 BFE 방법과 IVA 기반의 노이즈 추정을 이용한 BFE 방법을 순차적으로 적용한 것이다. 도 4를 참조하면, 본 발명에 따른 음성 인식 방법은 다른 종래의 방법들보다 데이터 인식에 대한 오류가 가장 작음을 알 수 있다. 특히, 종래 방법 6은 독립벡터분석 및 반향 필터 재추정을 순차적으로 수행한 것으로서, 이 경우보다도 본 발명에 따라 독립벡터분석 및 반향 필터 재추정을 동시에 수행한 음성 인식이 인식 오류가 감소됨을 쉽게 파악할 수 있다.
도 1은 본 발명의 바람직한 실시예에 따른 음성 인식 장치를 전체적으로 도시한 블록도이다.
도 2는 본 발명에 따른 음성 인식 방법과 종래의 음성 인식 방법들의 성능을 분석하기 위하여, 구성된 소스와 마이크로폰들을 도시한 구성도이다.
도 3 및 도 4는 도 2의 시뮬레이션 환경에서, 간섭신호원이 1개인 경우, 2개인 경우, 3개인 경우에 대하여, 각각 종래방법 1, 종래방법 2, 종래 방법 3, 종래 방법 4, 종래방법 5, 종래방법 6 및 본 발명에 따른 방법에서의 SNR을 측정하여 도시한 도표들이다.
도 5 및 도 6은 TIMIT 데이터베이스에 포함된 발음들에 의해 오류가 발생된 "five two one zero nine"의 발음에 대한 LMPSCs 이다.
본 발명에 따른 음성 인식 장치 및 방법은, 노이즈와 반향이 모두 존재하는 실제 환경에서 독립 벡터 분석과 반향 필터 파라메터 재추정을 이용하여 베이시안 특징 향상시켜 인식 오류를 감소시킬 수 있도록 한 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 따른 강인한 음성 인식 장치 및 방법에 대하여 구체적으로 설명한다. 도 1은 본 발명의 바람직한 실시예에 따른 음성 인식 장치를 전체적으로 도시한 블록도이다. 도 1을 참조하면, 본 발명의 바람직한 실시예에 따른 음성 인식 장치(10)는 음성 신호 입력부(100), 푸리에 변환 모듈(110), 독립벡터분석 모듈(120), 목적 음성 강화 모듈(130), 목적 음성 제거 모듈(140), HMM 기반 특징 강화 모듈(150), 및 반향 필터 재추정 모듈(160)을 구비한다. 전술한 본 발명에 따른 음성 인식 장치는 노이즈와 반향이 많은 환경에서 노이즈와 반향을 동시에 고려하기 위하여, 독립 벡터 분석과 반향 필터 파라메터 재추정을 이용하여 HMM 기반으로 한 베이시안 특징 향상시킴으로써, 실세계에서 강인한 음성 인식을 수행할 수 있게 된다. 이하, 전술한 각 구성요소들에 대하여 구체적으로 설명한다.
상기 음성 신호 입력부(100)는 외부로부터 음성 신호를 입력받는 복수 개의 음성 신호 입력 장치들, 예컨대 마이크 등으로 이루어지며, 입력된 음성 신호들은 푸리에 변환 모듈(110)로 제공된다.
상기 푸리에 변환 모듈(110)은 상기 음성 신호 입력부의 각 음성 신호 입력 장치들로 입력된 음성 신호들을 각각 주파수 영역의 신호로 변환하여 출력하며, 특히 단구간 푸리에 변환(short-time Fourier transform ;'STFT' )시키는 것이 바람직하다.
상기 독립벡터분석 모듈(120)은 상기 푸리에 변환 모듈로부터 출력된 복수 개의 음성 신호들을 독립 벡터 분석(Independent Vector Analysis; 이하, 'IVA'라 한다)하여 IVA 타겟 음성 신호(
Figure 112016068758128-pat00001
) 및 IVA 노이즈 신호(
Figure 112016068758128-pat00002
)를 추정하여 각각 목적 음성 강화 모듈(130) 및 목적 음성 제거 모듈(140)로 제공한다.
여기서, 벡터
Figure 112016068758128-pat00003
는, 상호 독립된 N개의 미지의 음원 소스들의 음성이 혼합된 벡터로서, m번째 프레임이며 k 번째 주파수 빈에서의 M 개의 observations의 시간-주파수 표현들로 구성된다. 소스 신호들을 복구하기 위한 observations에 대한 선형 변환은 수학식 1로 표현될 수 있다.
Figure 112016068758128-pat00004
여기서,
Figure 112016068758128-pat00005
은 추정된 소스 신호들의 시간-주파수 표현으로 구성된 벡터이며,
Figure 112016068758128-pat00006
는 k 번째 주파수 빈에서의 분리 매트릭스(separating matrix)이다.
분리 매트릭스를 추정하기 위한 자연-경사도 IVA(natural-gradient IVA) 학습 규칙은 수학식 2에 의해 구할 수 있다.
Figure 112016068758128-pat00007
여기서, I 는 아이덴티티 매트릭스(Identity matrix)이다.
Figure 112016068758128-pat00008
을 갖는 추정된 음원들에 대한 hypothesized pdf 모델들
Figure 112016068758128-pat00009
를 가정하면,
Figure 112016068758128-pat00010
Figure 112016068758128-pat00011
를 나타내는 multivariate score function values이며, 여기서,
Figure 112016068758128-pat00012
이며, 주파수 빈들의 개수는 K이다.
상기 목적 음성 강화 모듈(130)은 상기 독립벡터분석 모듈로부터 출력된 IVA 타겟 음성 신호로부터 음성 특징(
Figure 112016068758128-pat00013
)을 추출하여 출력한다. 상기 목적 음성 강화 모듈은 멜-스케일 필터 뱅크(Mel-scale filter bank)로 구성되며, 상기 목적 음성 강화 모듈에 의해 추출된 IVA 타겟 음성 신호에 대한 음성 특징은 IVA 타겟 음성 신호에 대하여 로그 멜 주파수 전력 스펙트럼 도메인에서 추출된 LMPSCs(logarithmic mel-frequency power spectral coefficients)인 것을 특징으로 한다.
여기서, 음성 특징(
Figure 112016068758128-pat00014
)은 수학식 3으로 표현될 수 있다.
Figure 112016068758128-pat00015
여기서,
Figure 112016068758128-pat00016
Figure 112016068758128-pat00017
는 각각 벡터
Figure 112016068758128-pat00018
Figure 112016068758128-pat00019
로 표현된다. 그리고 수학식 4를 나타낸다.
Figure 112016068758128-pat00020
Figure 112016068758128-pat00021
Figure 112016068758128-pat00022
일 때,
Figure 112016068758128-pat00023
을 갖는 new posterior pdf는 수학식 5로 표현될 수 있다.
Figure 112016068758128-pat00024
여기서, prior distribution
Figure 112016068758128-pat00025
는 mean vector
Figure 112016068758128-pat00026
및 diagonal covariance matrix
Figure 112016068758128-pat00027
을 갖는 Gaussian 인 것으로 가정된다.
따라서,
Figure 112016068758128-pat00028
은 수학식 6으로 나타낼 수 있는
Figure 112016068758128-pat00029
에 대한 posterior pdf의 gradient of the logarithm을 사용하여 업데이트시킬 수 있다.
Figure 112016068758128-pat00030
상기 업데이트는 convergence 가 될 때까지 반복된다. 업데이팅 알고리즘은 수학식 3의 the first-order Taylor series expansion을 사용한 linearization과 연관되어 있기 때문에,
Figure 112016068758128-pat00031
는 모든 프레임들에서 업데이트된
Figure 112016068758128-pat00032
에 의해 업데이트되어야만 한다.
상기 목적 음성 제거 모듈(140)은 상기 IVA 타겟 음성 신호를 이용하여 상기 독립벡터분석 모듈로부터 출력된 IVA 노이즈 신호를 스케일링한 후 스케일링된 IVA 노이즈 신호로부터 노이즈 특징(
Figure 112016068758128-pat00033
)을 추출하여 출력한다. 상기 목적 음성 제거 모듈에 의해 추출된 IVA 노이즈 신호에 대한 노이즈 특징은 IVA 노이즈 신호에 대하여 로그 멜 주파수 전력 스펙트럼 도메인에서 추출된 LMPSCs(logarithmic mel-frequency power spectral coefficients)인 것을 특징으로 한다.
상기 HMM 기반 특징 강화 모듈(150)은 상기 목적 음성 강화 모듈로부터 제공된 음성 특징 및 반향 필터 파라메터를 이용하여 HMM 기반 베이시안 특징을 향상시킨 음원 신호(
Figure 112016068758128-pat00034
)를 추정하여 출력한다. 상기 HMM 기반 특징 강화 모듈은 먼저 목적 음성 강화 모듈로부터 제공된 음성 특징 및 반향 필터 파라메터의 초기 설정값을 이용하여 HMM-based BFE하여 음성 특징을 강화시켜 초기 음원 신호를 추정하고, 상기 추정된 초기 음원 신호를 상기 반향 필터 재추정 모듈(160)로 제공한다. 다음, 상기 반향 필터 재추정 모듈로부터 재추정된 반향 필터 파라메터를 제공받고, 상기 재추정된 반향 필터 파라메터와 상기 음원 신호를 이용하여 상기 음성 특징을 다시 강화시키고, 상기 강화된 음성 특징을 이용하여 음원 신호(
Figure 112016068758128-pat00035
)를 최종 추정하여 출력한다.
상기 반향 필터 재추정 모듈(160)은 상기 목적 음성 제거 모듈(140)로부터 제공된 노이즈 특징(
Figure 112016068758128-pat00036
)과 상기 HMM 기반 특징 강화 모듈(150)로부터 제공된 추정된 음원 신호(
Figure 112016068758128-pat00037
)를 이용하여 반향 필터 파라메터를 재추정하고, 재추정된 반향 필터 파라메터(
Figure 112016068758128-pat00038
)를 상기 HMM 기반 특징 강화 모듈(150)로 제공한다.
도 5 및 도 6은 TIMIT 데이터베이스에 포함된 발음들에 의해 오류가 발생된 "five two one zero nine"의 발음에 대한 LMPSCs 이다. 도 5 및 도 6은 도 2의 Imterference 1 및 2에 배치된 2개의 간섭 음원을 포함하는 혼합 환경에 의해 생성된 noisy reverberant speech에 대한 것으로서, RT60은 0.45s 이며, "Mic.1"에서의 Input SIR은 5dB이며, BFE 방법들은 noisy reverberant speech에 대한 observation model에 기반된다.
도 5의 (a)는 "five two one zero nine"을 발음하는 clean speech의 LMPSC 이며, (b)는 "oh one"으로 잘못 인식된 "mic.1"에서의 noisy revererant speech의 LMPSC 이며, (c)는 "four eight one nine nine"으로 잘못 인식된 BFE-SNS+CRP에 의해 향상된 LMPSC 이며, (d)는 "five two nine zero nine"으로 잘못 인식된 BFE-IVA+CRP에 의해 향상된 LMPSC이며, (e) "five six one zero nine"으로 잘못 인식된 BFE-SNS+RPR에 의해 향상된 LMPSC이며, (f)"five two one zero nine"으로 정확하게 인식된 본 발명에 따른 BFE-IVA+RPR에 의해 향상된 LMPSC 이다.
도 6의 (a)는 "five two one zero nine"을 발음하는 clean speech의 LMPSC 이며, (b)는 "oh one"으로 잘못 인식된 "mic.1"에서의 noisy revererant speech의 LMPSC 이며, (c)는 "four eight one nine nine"으로 잘못 인식된 BFE-SNS+CRP에 의해 향상된 LMPSC 이며, (d)는 "eight one zero nine"으로 잘못 인식된 BFE-IVA 만으로 향상된 LMPSC이며, (e) "five eight nine zero nine"으로 잘못 인식된 BFE-IVA+BFE-RPR에 의해 향상된 LMPSC이며, (f)"five two one zero nine"으로 정확하게 인식된 본 발명에 따른 BFE-IVA+RPR에 의해 향상된 LMPSC 이다.
전술한 구성을 갖는 본 발명에 따른 음성 인식 장치에 의한 음성 인식 방법은, (a) 외부로부터 복수 개의 음성 신호들을 입력받는 단계; (b) 상기 입력된 복수 개의 음성 신호들을 단구간 푸리에 변환하여 각각 주파수 영역의 신호로 변환하여 출력하는 단계; (c) 상기 주파수 영역의 음성 신호들을 독립 벡터 분석하여 IVA 타겟 음성 신호와 IVA 노이즈 신호를 추정하는 단계; (d) 상기 독립벡터분석에 의해 추정된 IVA 타겟 음성 신호로부터 음성 특징을 추출하는 단계; (e) 상기 IVA 타겟 음성 신호를 이용하여 상기 독립벡터분석에 의해 추정된 IVA 노이즈 신호를 스케일링한 후 스케일링된 IVA 노이즈 신호로부터 노이즈 특징을 추출하는 단계; (f) 상기 음성 특징 및 반향 필터 파라메터의 초기 설정값을 이용하여 음성 특징을 강화시켜 초기 음원 신호를 추정하는 단계; (g) 상기 노이즈 특징과 상기 추정된 초기 음원 신호를 이용하여 반향 필터 파라메터를 재추정하는 단계; (h) 상기 재추정된 반향 필터 파라메터를 이용하여 상기 음성 특징을 다시 강화시켜 음원 신호를 최종 추정하는 단계; 를 구비한다.
전술한 상기 (d) 단계에서 추출된 음성 특징은, 멜 스케일 필터 뱅크(Mel-scale filter bank)을 이용하여, 상기 IVA 타겟 음성 신호에 대하여 로그 멜 주파수 전력 스펙트럼 도메인에서 추출된 LMPSCs(logarithmic mel-frequency power spectral coefficients)인 것이 바람직하다.
전술한 상기 (e) 단계에서 추출된 노이즈 특징은, 멜 스케일 필터 뱅크(Mel-scale filter bank)을 이용하여, IVA 노이즈 신호에 대하여 로그 멜 주파수 전력 스펙트럼 도메인에서 추출된 LMPSCs(logarithmic mel-frequency power spectral coefficients)인 것이 바람직하다.
전술한 상기 (f) 단계 및 (h) 단계는 HMM-based BFE 방법을 이용하여 음성 특징을 강화시키는 것이 바람직하다.
이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 그리고, 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
본 발명에 따른 장치 및 방법은 음성 인식 분야에 널리 사용될 수 있다.
10 : 음성 인식 장치
100 : 음성 신호 입력부
110 : 푸리에 변환 모듈
120 : 독립벡터분석 모듈
130 : 목적 음성 강화 모듈
140 : 목적 음성 제거 모듈
150 : HMM 기반 특징 강화 모듈
160 : 반향 필터 재추정 모듈

Claims (9)

  1. 외부로부터 음성 신호가 입력되는 음성 신호 입력부;
    상기 음성 신호 입력부로 입력된 다수 개의 음성 신호들을 각각 주파수 영역의 신호로 변환하여 출력하는 푸리에 변환 모듈;
    상기 푸리에 변환 모듈로부터 출력된 주파수 영역의 복수 개의 음성 신호들을 독립 벡터 분석하여 IVA 타겟 음성 신호와 IVA 노이즈 신호를 추정하는 독립벡터분석 모듈;
    상기 독립벡터분석 모듈로부터 출력된 IVA 타겟 음성 신호로부터 음성 특징을 추출하는 목적 음성 강화 모듈;
    상기 IVA 타겟 음성 신호를 이용하여 상기 독립벡터분석 모듈로부터 출력된 IVA 노이즈 신호를 스케일링한 후 스케일링된 IVA 노이즈 신호로부터 노이즈 특징을 추출하는 목적 음성 제거 모듈;
    상기 목적 음성 강화 모듈로부터 제공된 음성 특징 및 반향 필터 파라메터를 이용하여 음성 특징을 강화시켜 음원 신호를 추정하는 HMM 기반 특징 강화 모듈;
    상기 목적 음성 제거 모듈로부터 제공된 노이즈 특징과 상기 HMM 기반 특징 강화 모듈로부터 제공된 추정된 음원 신호를 이용하여 반향 필터 파라메터를 재추정하여 상기 HMM 기반 특징 강화 모듈로 제공하는 반향 필터 재추정부;
    를 구비하고, 상기 HMM 기반 특징 강화 모듈은 반향 필터 재추정부에 의해 재추정된 반향 필터 파라메터와 상기 강화된 음성 특징을 이용하여 음원 신호를 최종 추정하여 출력하는 것을 특징으로 하는 음성 인식 장치.
  2. 제1항에 있어서, 상기 HMM 기반 특징 강화 모듈은 HMM-based BFE 방법을 이용하여 음성 특징을 강화시키는 것을 특징으로 하는 음성 인식 장치.
  3. 제1항에 있어서, 상기 목적 음성 강화 모듈은 멜 스케일 필터 뱅크(Mel-scale filter bank)로 구성되며,
    상기 목적 음성 강화 모듈에 의해 추출된 IVA 타겟 음성 신호에 대한 음성 특징은 IVA 타겟 음성 신호에 대하여 로그 멜 주파수 전력 스펙트럼 도메인에서 추출된 LMPSCs(logarithmic mel-frequency power spectral coefficients)인 것을 특징으로 하는 음성 인식 장치.
  4. 제1항에 있어서, 상기 목적 음성 제거 모듈에 의해 추출된 IVA 노이즈 신호에 대한 노이즈 특징은 IVA 노이즈 신호에 대하여 로그 멜 주파수 전력 스펙트럼 도메인에서 추출된 LMPSCs(logarithmic mel-frequency power spectral coefficients)인 것을 특징으로 하는 음성 인식 장치.
  5. 제1항에 있어서, 상기 HMM 기반 특징 강화 모듈은 목적 음성 강화 모듈로부터 제공된 음성 특징 및 반향 필터 파라메터의 초기 설정값을 이용하여 음성 특징을 강화시켜 초기 음원 신호를 추정하고, 추정된 초기 음원 신호를 상기 반향 필터 재추정 모듈로 제공한 후 상기 반향 필터 재추정 모듈로부터 재추정된 반향 필터 파라메터를 제공받고, 상기 재추정된 반향 필터 파라메터와 상기 강화된 음성 특징을 이용하여 음원 신호를 최종 추정하여 출력하는 것을 특징으로 하는 음성 인식 장치.
  6. (a) 외부로부터 복수 개의 음성 신호들을 입력받는 단계;
    (b) 상기 입력된 복수 개의 음성 신호들을 단구간 푸리에 변환하여 각각 주파수 영역의 신호로 변환하여 출력하는 단계;
    (c) 상기 주파수 영역의 음성 신호들을 독립 벡터 분석하여 IVA 타겟 음성 신호와 IVA 노이즈 신호를 추정하는 단계;
    (d) 상기 독립벡터분석에 의해 추정된 IVA 타겟 음성 신호로부터 음성 특징을 추출하는 단계;
    (e) 상기 IVA 타겟 음성 신호를 이용하여 상기 독립벡터분석에 의해 추정된 IVA 노이즈 신호를 스케일링한 후 스케일링된 IVA 노이즈 신호로부터 노이즈 특징을 추출하는 단계;
    (f) 상기 음성 특징 및 반향 필터 파라메터의 초기 설정값을 이용하여 음성 특징을 강화시켜 초기 음원 신호를 추정하는 단계;
    (g) 상기 노이즈 특징과 상기 추정된 초기 음원 신호를 이용하여 반향 필터 파라메터를 재추정하는 단계;
    (h) 상기 재추정된 반향 필터 파라메터를 이용하여 상기 음성 특징을 다시 강화시켜 음원 신호를 최종 추정하는 단계;
    를 구비하는 음성 인식 방법.
  7. 제6항에 있어서, 상기 (d) 단계에서 추출된 음성 특징은, 멜 스케일 필터 뱅크(Mel-scale filter bank)를 이용하여, 상기 IVA 타겟 음성 신호에 대하여 로그 멜 주파수 전력 스펙트럼 도메인에서 추출된 LMPSCs(logarithmic mel-frequency power spectral coefficients)인 것을 특징으로 하는 음성 인식 방법.
  8. 제6항에 있어서, 상기 (e) 단계에서 추출된 노이즈 특징은, 멜 스케일 필터 뱅크(Mel-scale filter bank)를 이용하여, IVA 노이즈 신호에 대하여 로그 멜 주파수 전력 스펙트럼 도메인에서 추출된 LMPSCs(logarithmic mel-frequency power spectral coefficients)인 것을 특징으로 하는 음성 인식 방법.
  9. 제6항에 있어서, 상기 (f) 단계 및 (h) 단계는 HMM-based BFE 방법을 이용하여 음성 특징을 강화시키는 것을 특징으로 하는 음성 인식 방법.




KR1020160089966A 2016-07-15 2016-07-15 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법 KR101802444B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160089966A KR101802444B1 (ko) 2016-07-15 2016-07-15 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160089966A KR101802444B1 (ko) 2016-07-15 2016-07-15 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법

Publications (1)

Publication Number Publication Date
KR101802444B1 true KR101802444B1 (ko) 2017-11-29

Family

ID=60811492

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160089966A KR101802444B1 (ko) 2016-07-15 2016-07-15 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101802444B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503970A (zh) * 2018-11-23 2019-11-26 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质
CN113345457A (zh) * 2021-06-01 2021-09-03 广西大学 一种基于贝叶斯理论的声学回声消除自适应滤波器及滤波方法
CN113470675A (zh) * 2021-06-30 2021-10-01 北京小米移动软件有限公司 音频信号处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Ji-won Cho et al., ‘An efficient HMM-based feature enhancement method with filter estimation for reverberant speech recognition’, IEEE Signal Processing Letters, Vol.20, No.12, December 2013.*
Ji-won Cho et al., ‘Independent vector analysis followed by HMM-based feature enhancement for robust speech recognition’, Signal Processing, Vol.120, pp.200~208, March 2016*

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503970A (zh) * 2018-11-23 2019-11-26 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质
CN110503970B (zh) * 2018-11-23 2021-11-23 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质
CN113345457A (zh) * 2021-06-01 2021-09-03 广西大学 一种基于贝叶斯理论的声学回声消除自适应滤波器及滤波方法
CN113345457B (zh) * 2021-06-01 2022-06-17 广西大学 一种基于贝叶斯理论的声学回声消除自适应滤波器及滤波方法
CN113470675A (zh) * 2021-06-30 2021-10-01 北京小米移动软件有限公司 音频信号处理方法及装置

Similar Documents

Publication Publication Date Title
Attias et al. Speech denoising and dereverberation using probabilistic models
Srinivasan et al. Binary and ratio time-frequency masks for robust speech recognition
EP2189976B1 (en) Method for adapting a codebook for speech recognition
Prasad Voice recognition system: speech-to-text
KR101720514B1 (ko) Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법
Kolossa et al. Separation and robust recognition of noisy, convolutive speech mixtures using time-frequency masking and missing data techniques
Kolossa et al. Independent component analysis and time-frequency masking for speech recognition in multitalker conditions
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
KR20130068869A (ko) 관심음원 제거방법 및 그에 따른 음성인식방법
Astudillo et al. An uncertainty propagation approach to robust ASR using the ETSI advanced front-end
KR101802444B1 (ko) 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법
González et al. MMSE-based missing-feature reconstruction with temporal modeling for robust speech recognition
Chavan et al. Speech recognition in noisy environment, issues and challenges: A review
Nakatani et al. Logmax observation model with MFCC-based spectral prior for reduction of highly nonstationary ambient noise
Blouet et al. Evaluation of several strategies for single sensor speech/music separation
Meutzner et al. A generative-discriminative hybrid approach to multi-channel noise reduction for robust automatic speech recognition
Astudillo et al. Integration of DNN based speech enhancement and ASR
KR101610708B1 (ko) 음성 인식 장치 및 방법
KR101647059B1 (ko) 독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법
Techini et al. Robust front-end based on MVA and HEQ post-processing for Arabic speech recognition using hidden Markov model toolkit (HTK)
Oh et al. Preprocessing of independent vector analysis using feed-forward network for robust speech recognition
Krueger et al. Bayesian Feature Enhancement for ASR of Noisy Reverberant Real-World Data.
Lyubimov et al. Exploiting non-negative matrix factorization with linear constraints in noise-robust speaker identification
JP2003076393A (ja) 騒音環境下における音声推定方法および音声認識方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant