KR20120059431A - 적응적 잡음추정 장치 및 방법 - Google Patents

적응적 잡음추정 장치 및 방법 Download PDF

Info

Publication number
KR20120059431A
KR20120059431A KR1020110126800A KR20110126800A KR20120059431A KR 20120059431 A KR20120059431 A KR 20120059431A KR 1020110126800 A KR1020110126800 A KR 1020110126800A KR 20110126800 A KR20110126800 A KR 20110126800A KR 20120059431 A KR20120059431 A KR 20120059431A
Authority
KR
South Korea
Prior art keywords
noise
smoothing
spectrum
filter bank
coefficient
Prior art date
Application number
KR1020110126800A
Other languages
English (en)
Other versions
KR101295727B1 (ko
Inventor
정성일
Original Assignee
(주)트란소노
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)트란소노 filed Critical (주)트란소노
Publication of KR20120059431A publication Critical patent/KR20120059431A/ko
Application granted granted Critical
Publication of KR101295727B1 publication Critical patent/KR101295727B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Noise Elimination (AREA)

Abstract

본 발명은 적응적 잡음추정 장치 및 방법에 관한 것이다.
이러한 본 명세서는 음성 신호와 잡음 신호를 포함하는 노이지 음성 신호를 푸리에 변환하여 푸리에 스펙트럼을 구하는 단계, 상기 푸리에 스펙트럼을 미분 필터링 처리하여 필터링된 푸리에 스펙트럼을 구하는 단계, 필터뱅크에 존재하는 상기 잡음의 상태를 결정하는 단계, 상기 결정된 필터뱅크에 기반하여 설정되는 제1 평활화 계수를 이용하여 상기 필터링된 푸리에 스펙트럼을 주파수 영역에서 평활화하여 제1 평활화 스펙트럼을 구하는 단계, 상기 결정된 필터뱅크에 기반하여 설정되는 제2 평활화 계수를 이용하여, 상기 제1 평활화 스펙트럼을 시간 영역에서 평활화하여 제2 평활화 스펙트럼을 구하는 단계, 및 상기 결정된 필터뱅크에 기반하여 설정되는 망각 계수, 상기 제2 평활화 스펙트럼 및 상기 제2 평활화 스펙트럼의 최소값을 이용하여 잡음을 추정하는 단계를 포함하는 적응적 잡음 추정 방법을 개시한다.
본 발명에 따르면, 개선된 음성은 뮤지컬 잡음의 잔재와 음성왜곡의 인지를 효율적으로 억제할 수 있다.

Description

적응적 잡음추정 장치 및 방법{APPARATUS AND METHOD FOR ADAPTIVE NOISE ESTIMATION}
본 발명은 음성 신호 처리에 관한 것으로, 보다 구체적으로 노이지 음성 신호(Noisy Speech Signal)에서 잡음의 상태를 판별하고 적응적으로 잡음을 추정하는 장치 및 방법에 관한 것이다.
음성 인식은 일반적으로 마이크나 전화 등을 통하여 얻어진 음향학적 신호를 단어나 단어 집합 또는 문장으로 변환하는 과정을 말한다. 이러한 음성 인식의 정확도를 향상시키기 위한 첫 번째 과정은, 단일 채널(single channel)을 통해 입력되는 잡음과 음성이 공존하는 입력 신호로부터 음향학적 신호인 음성 성분만을 효율적으로 추출하는 것이다. 단일 채널을 통해 입력되는 잡음과 음성이 공존하는 음성 신호의 음질을 개선하기 위해서는, 음성 성분에는 손상을 가하지 않으면서 잡음 성분만을 효율적으로 약화시키거나 또는 제거하여야 한다.
따라서 단일 채널을 통해 입력되는 노이지(noisy) 음성 신호의 처리 절차에서는, 입력 노이지 음성 신호에서 잡음의 상태를 정확하게 파악하고, 또한 이를 이용하여 입력 노이지 음성 신호로부터 잡음 성분을 구하기 위한 잡음 추정(Noise Estimation) 절차를 기본적으로 포함한다. 그리고 추정된 잡음(Estimated Noise) 신호는 노이지 음성 신호에서 잡음 성분을 약화시키거나 또는 제거하여 음질을 개선하는데 이용된다.
잡음추정은 단일채널 음성 개선(speech enhancement)에서 기본적으로 요구되며 가장 중요한 단계이다. 예를 들면, 잘못 추정된 잡음을 이용하여 개선된 음성은 다음의 문제점을 수반한다. 첫째, 추정된 잡음이 실제(original) 잡음보다 낮게(lower) 평가되면 뮤지컬(musical) 잡음이 잔재한다. 뮤지컬 잡음은 임의의(random) 주파수 성분이며 청취자에게 지각적으로 성가시게 하는 인공음(artifacts)이다. 둘째, 추정된 잡음이 실제 잡음보다 높게(higher) 평가되면 음성왜곡(speech distortion)을 유발한다. 음성왜곡은 음성신호의 감쇠에 의한 부자연스러운 청감을 말한다. 비정적인(non-stationary) 잡음에 오염된 음성으로부터 뮤지컬 잡음과 음성왜곡을 수반하지 않도록 잡음추정을 수행하는 것은 매우 어려운 일이다.
잡음 추정 방법의 하나는 음성 활동 검출(Voice Activity Detection, VAD)과 이를 이용하는 VAD 기반 잡음 추정 방법이다. VAD 기반 잡음 추정 방법에 의하면, 이전에 검출된 여러 명시적(explicit) 잡음 프레임(Noise Frame)이나 긴 과거 프레임으로부터 획득한 통계 정보를 이용하여 잡음의 상태를 파악하고 또한 잡음을 추정한다. 명시적 잡음 프레임이란 음성이 포함되지 않은 묵음 프레임(Silent Frame or Speech-absent Frame) 또는 전체 노이지 음성 신호에서 음성보다 잡음 성분이 압도적으로 우세한 잡음-우세 프레임(Noise Dominant Frame)을 일컫는다.
이러한 기존의 VAD 기반 잡음 추정 방법은 배경 잡음이 시간에 따라서 변화가 심하지 않는 경우에 상당히 우수한 성능을 보여 준다. 그러나 배경 잡음이 비정적(Non-stationary)이거나 또는 레벨 가변적(Level-varying)인 경우, 신호 대 잡음비(Signal to Noise Ratio, SNR)가 낮은 경우, 또는 음성 신호의 에너지가 약한 경우 등에, VAD 기반 잡음 추정 방법은 잡음의 상태나 현재의 잡음 레벨에 대한 신뢰할 수 있는 정보를 획득하기가 어려운 단점이 있다. 이는 잘못 검출된 VAD 정보의 적용 때문이다. 또한, VAD 기반 방법은 잡음 추정을 위한 여러 단계에서 비교적 높은 계산비용을 요구하는 문제가 있다.
VAD 기반 방법의 단점을 극복하기 위하여, 여러 가지 새로운 방법이 제안되었다. 이들 중에서 널리 알려진 방법은 회귀 평균화(Recursive Averaging)를 기반으로 하는 가중된 평균화(Weighted Average, WA) 방법이다. WA 방법은 VAD를 도입하지 않고 주파수 영역에서 잡음 추정하고 또한 추정된 잡음을 연속적으로 갱신하는 방법이다. WA 방법에 의하면, 현재 프레임에서 오염된 음성 신호의 크기 스펙트럼(Magnitude Spectrum) 크기와 이전 프레임에서 추정된 잡음의 크기 스펙트럼 크기 사이에 고정된 망각 계수(Fixed Forgetting Factor)를 적용하여 잡음을 추정한다. 하지만, 이러한 WA 방법은 고정된 망각 계수를 적용하기 때문에, 다양한 잡음 환경이나 비정적인 잡음 환경에서의 잡음 변화를 반영할 수 없으며, 그 결과 올바른 잡음 추정을 수행하지 못하는 한계가 있다.
VAD 기반 잡음 추정 방법의 단점을 극복하기 위하여 제안된 다른 하나의 잡음 추정 방법은 최소 통계(Minimum Statistics, MS) 방법을 이용하는 것이다. 이에 의하면, 탐색 윈도우(Search Window)에 걸쳐서 노이지 음성 신호의 평활된 파워 스펙트럼(Smoothed Power Spectrum)의 최소값을 추적하며, 추적된 최소값에 보상 상수(Compensate Constant)를 곱하여 잡음을 추정한다. 여기서, 탐색 윈도우는 약 1.5초에 해당하는 과거 프레임의 길이를 의미한다. MS 방법은 일반적으로 훌륭한 성능을 보여 주지만, 탐색 윈도우 길이에 해당하는 긴 과거 프레임의 정보가 지속적으로 필요하기 때문에 대용량의 메모리가 필요하고, 특히 잡음이 대부분을 차지하는 잡음 우세 신호(Noise Dominant Signal)에서 잡음 레벨의 변화를 빨리 추적할 수 없는 단점이 있다. 또한, MS 방법도 기본적으로 과거 프레임의 추정된 잡음 정보를 이용하기 때문에, 잡음의 레벨 변화가 심하거나 또는 다른 잡음 환경으로 바뀌는 경우에는 신뢰할만한 결과를 보여 주지 못하는 한계가 있다.
이러한 기존 MS 방법의 단점을 해결하기 위하여, 최소 제어 회귀 평균(minima controlled recursive averaging: MCRA) 방법이 제안되었는데, 이에 따르면 현재 주파수 위치에서 신호존재 확률(signal presence probability)에 의해 조정되는 평활화 계수를 가진 회귀 평균화에 의해 잡음 추정이 수행된다. 또한, 여러 가지 종류의 수정된 MS 방법이 제안되는데 이들의 대부분이 갖는 공통적인 두 가지 특징은 다음과 같다. 첫째는 고려 대상이 되는 현재 프레임 또는 주파수 위치(Frequency Bin)에 음성이 존재하는지 또는 묵음 구간인지를 연속적으로 구별하기 위한 VAD 방법을 포함하고 있다는 것이고, 두 번째 특징은 순환 평균(Recursive Averaging, RA) 기반의 잡음 추정기(Noise Estimator)가 사용된다는 것이다. 그러나, 수정된 방식의 대부분은 MS 방법의 최소값 추적을 기반ㄴ으로 하기 때문에 유사한 문제점을 안고 있다.
본 발명의 기술적 과제는 VAD에 의해 검출된 여러 명시적 잡음 프레임이나 긴 과거 프레임에서 제시하는 통계적 정보를 이용하지 않고 적응적으로 잡음을 추정하는 장치 및 방법을 제공함에 있다.
본 발명의 다른 기술적 과제는 주파수 영역에서 미분기를 이용한 필터링, 주파수 영역에서 평활화와 시간 영역에서 적응적 평활화를 거친 신호를 대상으로 잡음의 상태를 판별하기 위한 크기 신호대 잡음비(Magnitude Signal to Noise Ratio: MSNR SNR)과 전방향 트랙킹 신호대 잡음비(Forward Tracking SNR: FTSNR)을 이용하여 적응적으로 잡음을 추정하는 장치 및 방법을 제공함에 있다.
본 발명의 일 양태에 따르면, 적응적 잡음 추정 방법을 제공한다. 상기 적응적 잡음 추정 방법은 음성 신호와 잡음 신호를 포함하는 노이지 음성 신호를 푸리에(fourier) 변환하여 푸리에 스펙트럼을 구하는 단계, 상기 푸리에 스펙트럼을 미분 필터링(filtering) 처리하여 필터링된 푸리에 스펙트럼을 구하는 단계, 필터뱅크(filter bank)에 존재하는 상기 잡음의 상태를 결정하는 단계, 상기 결정된 필터뱅크에 기반하여 설정되는 제1 평활화(smoothing) 계수를 이용하여 상기 필터링된 푸리에 스펙트럼을 주파수 영역에서 평활화하여 제1 평활화 스펙트럼을 구하는 단계, 상기 결정된 필터뱅크에 기반하여 설정되는 제2 평활화 계수를 이용하여, 상기 제1 평활화 스펙트럼을 시간 영역에서 평활화하여 제2 평활화 스펙트럼을 구하는 단계, 및 상기 결정된 필터뱅크에 기반하여 설정되는 망각 계수, 상기 제2 평활화 스펙트럼 및 상기 제2 평활화 스펙트럼의 최소값을 이용하여 잡음을 추정하는 단계를 포함한다.
상기 잡음의 상태는, 크기 신호대 잡음(magnitude signal to noise ratio: MSNR) 및 전방향 탐색 신호대 잡음(forward search signal to noise ratio: FSSNR)에 의해 결정될 수 있다.
상기 잡음을 추정하는 단계는, 이전 프레임에서 추정된 잡음을 더 이용하여 상기 잡음을 추정할 수 있다.
상기 제2 평활화 스펙트럼의 최소값은, 일정한 과거 탐색 윈도우로부터 검출된 최소 스펙트럼일 수 있다.
상기 제1 평활화 계수, 상기 제2 평활화 계수 및 상기 망각 계수는, 전체 고속 푸리에 변환(fast fourier transform: FFT) 포인트를 결정하는 제1 지수(exponent)와 상기 필터뱅크의 개수를 결정하는 제2 지수의 차이로 결정되는 필터뱅크 인덱스와, 전체 필터뱅크를 저음, 중음, 고음으로 나눈 2차 필터뱅크 인덱스를 비교한 결과에 따라 가변적으로 설정될 수 있다.
상기 제1 평활화 계수, 상기 제2 평활화 계수 및 상기 망각 계수는, 상기 크기 신호대 잡음 및 상기 전방향 탐색 신호대 잡음을 임계치와 비교한 결과에 따라 가변적으로 설정될 수 있다.
본 발명의 다른 양태에 따르면, 적응적 잡음 추정 장치를 제공한다. 상기 적응적 잡음 추정 장치는 음성 신호와 잡음 신호를 포함하는 노이지 음성 신호를 푸리에(fourier) 변환하여 푸리에 스펙트럼을 구하는 푸리에 변환 유닛, 상기 푸리에 스펙트럼을 미분 필터링(filtering) 처리하여 필터링된 푸리에 스펙트럼을 구하는 필터링 유닛, 필터뱅크(filter bank)에 존재하는 상기 잡음의 상태를 결정하는 잡음상태 결정 유닛, 상기 결정된 필터뱅크에 기반하여 설정되는 제1 평활화(smoothing) 계수를 이용하여 상기 필터링된 푸리에 스펙트럼을 주파수 영역에서 평활화하여 제1 평활화 스펙트럼을 제1 평활화 유닛, 상기 결정된 필터뱅크에 기반하여 설정되는 제2 평활화 계수를 이용하여, 상기 제1 평활화 스펙트럼을 시간 영역에서 평활화하여 제2 평활화 스펙트럼을 제2 평활화 유닛, 및 상기 결정된 필터뱅크에 기반하여 설정되는 망각 계수, 상기 제2 평활화 스펙트럼 및 상기 제2 평활화 스펙트럼의 최소값을 이용하여 잡음을 추정하는 잡음 추정 유닛을 포함한다.
상기 잡음 상태 결정 유닛은, 크기 신호대 잡음(magnitude signal to noise ratio: MSNR) 및 전방향 탐색 신호대 잡음(forward search signal to noise ratio: FSSNR)에 의해 상기 잡음의 상태를 결정할 수 있다.
상기 잡음 추정 유닛은, 이전 프레임에서 추정된 잡음을 더 이용하여 상기 잡음을 추정할 수 있다.
상기 제2 평활화 스펙트럼의 최소값은, 일정한 과거 탐색 윈도우로부터 검출된 최소 스펙트럼일 수 있다.
상기 잡음 상태 결정 유닛은, 전체 고속 푸리에 변환(fast fourier transform: FFT) 포인트를 결정하는 제1 지수(exponent)와 상기 필터뱅크의 개수를 결정하는 제2 지수의 차이로 결정되는 필터뱅크 인덱스와, 전체 필터뱅크를 저음, 중음, 고음으로 나눈 2차 필터뱅크 인덱스를 비교한 결과에 따라 상기 제1 평활화 계수, 상기 제2 평활화 계수 및 상기 망각 계수를 가변적으로 설정할 수 있다.
상기 잡음 상태 결정 유닛은, 상기 크기 신호대 잡음 및 상기 전방향 탐색 신호대 잡음을 임계치와 비교한 결과에 따라 상기 제1 평활화 계수, 상기 제2 평활화 계수 및 상기 망각 계수를 가변적으로 설정할 수 있다.
본 발명에 따르면 개선된 음성은 뮤지컬 잡음의 잔재와 음성왜곡의 인지를 효율적으로 억제할 수 있다.
도 1은 본 발명의 일 예에 따른 잡음 추정 장치의 동작 순서도이다.
도 2는 도 1의 잡음 추정 방법을 수행하는 잡음 추정 장치를 보여주는 블록도이다.
이하에서는, 첨부 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세하게 설명한다. 후술하는 실시예는 본 발명의 기술적 사상을 예시적으로 설명하기 위한 목적이므로, 본 발명의 기술적 사상은 이 실시예에 의하여 한정되는 것으로 해석되어서는 안 된다. 본 실시예에 대한 설명 및 도면에서 각각의 구성요소에 부가된 참조 부호는 단지 설명의 편의를 위하여 기재된 것일 뿐이며, 명세서 전체에 걸쳐서 동일한 참조 번호는 동일한 구성 요소를 지칭한다.
이하에서, 푸리에 변환(Fourier Transform)에 의한 주파수 영역에서 오염된 음성이 갖는 음성과 잡음의 모델을 살펴본 후, MA 방법과 현재 프레임 또는 주파수 위치에서 잡음추정을 수행하는 WA 방법, MS 방법, 그리고 MCRA 방법이 개시된다.
주파수 영역에서 깨끗한 음성신호 x(n)에 가산잡음 n(n)으로부터 오염된 음성(noisy speech) y(n)은 다음의 수학식과 같다.
Figure pat00001
수학식 1을 참조하면, n은 이산(discrete)시간 인덱스다. y(n)은 수학식 2와 같이 단구간(short-time) 푸리에 변환에 의한 푸리에 스펙트럼(Fourier Spectrum: FS) Yi(f)로 근사화(approximate)될 수 있다.
Figure pat00002
수학식 2를 참조하면, i와 f는 각각 프레임과 주파수 위치 인덱스이다. Xi(f)는 깨끗한 음성의 FS이며, Ni(f)는 잡음의 FS이다. 또한 수학식 2에 제곱을 취한 푸리에 전력 스펙트럼(Fourier Power Spectrum: FPS)
Figure pat00003
은 다음의 수학식과 같이 표현된다.
Figure pat00004
수학식 3을 참조하면, △θi는 음성과 잡음간의 위상 차(phase differences)
Figure pat00005
를 의미한다. 수학식 3에서 cos(△θi)가 1 또는 0을 가지면 오염된 음성의 모델은 각각 수학식 4와 수학식 5로 표현될 수 있다.
Figure pat00006
Figure pat00007
수학식 4에서
Figure pat00008
는 푸리에 크기 스펙트럼(Fourier Magnitude Spectrum: FMS)이다. 푸리에 크기 스펙트럼이 수학식 4와 같이 유도되는 것은
Figure pat00009
이기 때문이며, 수학식 5에서 푸리에 크긴 스펙트럼이 수학식 5와 같이 유도되는 것은
Figure pat00010
이기 때문이다.
MA 방법은 VAD 기반 잡음 추정 방법에 의해 검출된 잡음 프레임 M1개에서 제시하는 주파수 위치별
Figure pat00011
의 평균을 취해 잡음추정을 얻는 방식이며 다음의 수학식으로 표현된다.
Figure pat00012
수학식 6을 참조하면,
Figure pat00013
는 추정된 잡음의 FMS이다. 그러나 MA 방법은 비정적인 잡음에 오염된 음성으로부터 신뢰적인 VAD를 보장하기 어렵기 때문에 올바른 잡음추정을 얻기 어렵다. 또한 VAD는 잡음추정을 위한 여러 단계에서 상대적으로 높은 계산비용을 빈번히 요구하는 측면이 있다.
WA 방법은 고정된 망각 계수 a1를 가진 일차(first-order) 회귀 평균화에 의해 잡음추정을 얻는 방법이며 다음의 수학식에 의해 잡음을 추정한다.
Figure pat00014
여기서 α1(0≤α1≤1)는
Figure pat00015
을 만족하는 경우 잡음추정을 갱신하기 위함이며 일반적으로 1에 근접한 값을 사용한다. β(
Figure pat00016
)는 음성과 잡음 사이를 묵시적(implicit)으로 구분하기 위한 임계치(threshold)이다. 그러나 비정적인 잡음환경에서 WA 방법은 잡음의 변화나 성분을 고려할 수 없는 고정된 망각 계수가 사용되기에 올바른 잡음추정을 수행하지 못하는 문제가 있다.
MS 방법은 탐색 윈도우에 걸쳐있는
Figure pat00017
의 평활된 파워 스펙트럼 Di(f)에서 추적된 최소값 Di min(f)에 보상상수 cf=1.5를 곱하여 주어지는 잡음추정이다. Di(f)와 Di min(f),
Figure pat00018
는 각각 수학식 8, 9, 10과 같이 정의된다.
Figure pat00019
Figure pat00020
Figure pat00021
수학식 8 내지 10을 참조하면, α2(0≤α2≤1)는 Di(f)을 얻기 위한 평활화 계수(smoothing factor)이며, M2는 약 1.5초 동안의 과거 프레임 길이를 의미한다. MS 방법은 대체적으로 좋은 잡음추정 성능을 제시함에도 불구하고, 탐색 윈도우에 해당하는 긴 과거 프레임의 통계적 정보가 요구되는 문제가 있다.
MS 방법을 변형한 MCRA에 의한 잡음추정은 신호존재 확률 pi(f)에 의해 조정되는 망각 계수 α3,i(f)를 가진 회귀 평균화에 의해 주어진다.
Figure pat00022
와 α3,i(f), pi(f)는 각각 수학식 11, 12 및 13에 의해 정의된다.
Figure pat00023
Figure pat00024
Figure pat00025
수학식 11 내지 13을 참조하면, α4와 α5는 각각 α3,i(f)와 pi(f)의 평활화 계수이다. Ii(f)는 다음의 수학식에 의해 정의된다.
Figure pat00026
수학식 14를 참조하면,
Figure pat00027
는 임계치 간의 비교를 통해 잡음과 음성 사이를 연속적으로 구분하기 위한 식별자이다. Di(f)와 Di min(f)는 각각 수학식 8에서 평활된 파워 스펙트럼과 수학식 9에서 추적된 최소값이다.
이하에서 본 발명에 따른 잡음 추정 방법에 관하여 상세히 개시한다.
도 1은 본 발명의 일 예에 따른 잡음 추정 장치의 동작 순서도이다.
도 1을 참조하면, 잡음 추정 장치가 노이지 음성 신호에 대한 잡음을 추정하는 방법은 입력 노이지 음성 신호에 대한 푸리에 변환 단계(Fourier Transform, S100), 미분기를 이용한 필터링 단계(Filtering by Differenciator, S105), 주파수 영역에서의 평활화 단계(Frequency Smoothing, S110), 시간 영역에서의 적응적 평활화 단계(Adaptive Time Smoothing, S115), 크기 SNR과 전방향 탐색 SNR을 구하는 단계(S120) 및 크기 SNR과 전방향 탐색 SNR을 이용한 적응적 잡음 추정 단계(S125)를 포함한다. 이하, 입력 노이지 음성 신호를 처리하여 잡음을 추정하는 본 발명의 실시예를 구성하는 각 단계에 대하여 보다 구체적으로 설명한다.
잡음 추정 장치는 입력되는 노이지 음성 신호 y(n)에 대한 푸리에 변환을 수행한다(S100). y(n)은 수학식 1과 같이 깨끗한 음성신호 성분 x(n)과 잡음 신호 성분 n(n)의 합으로 정의될 수 있다. 푸리에 변환은 입력 노이지 음성 신호 y(n)의 단기간(short-time) 신호에 대하여 연속적으로 수행되며, 그 결과 입력 노이지 음성 신호 y(n)는 수학식 2와 같이 푸리에 스펙트럼(Fourier Spectrum, FS) Yi(f)으로 근사화될 수 있다.
잡음 추정 장치는 푸리에 스펙트럼 Yi(f)를 미분 기반으로 필터링하여 필터링된 푸리에 스펙트럼 Y'i(f)를 출력한다(S105). 미분 기반 필터링은 수학식 15와 같이 정의된다.
Figure pat00028
수학식 15를 참조하면, i는 프레임 인덱스이고 ψ(f)는 주파수 대역별 신호성분을 강화(enforcement)하기 위한 가중치이다. 음성은 인체의 성문(聲門)을 통과하면서 발생하는 유성음(voiced sound)과, 성문을 통과하지 않고 발생하는 무성음(unvoiced sound)로 나뉘는데, 무성음은 유성음에 비해 낮은(lower) 에너지를 가지고, 백색(white) 잡음과 유사하여 비주기적(aperiodic) 신호이며, 전대역에 걸쳐 분포하는 특징을 가진다. 이로 인해 무성음은 유성음에 비하여 오염된 음성 신호로부터 구분해내기 어렵다. 그런데 수학식 15와 같이 미분기의 필터링을 이용하면 잡음에 오염된 음성 신호로부터 무성음의 특징을 효율적으로 구분하고 추출할 수 있다.
잡음 추정 장치는 주파수 영역에서의 평활화를 수행하고(S110), 이로써 제1 평활화 스펙트럼 Y"i(f)가 획득된다. 주파수 영역에서의 평활화는 다음의 수학식에 의해 정의된다.
Figure pat00029
수학식 16을 참조하면, a1, a2,...,av1은 주파수 축에서 비정적인 신호를 부드럽게 변환하는 v1차 평활화 계수이며, a1+a2+...+av1=1이다.
주파수 영역에서의 평활화를 수행함으로써, 잡음 추정 장치는 다양한 형태를 지닌 비정적인(non-static) 잡음으로 오염된 음성으로부터 잡음을 더 정확하게 추정할 수 있고, 잘못 추정된 잡음을 이용하여 개선된 음성이 수반하는 뮤지컬 잡음이나 음성왜곡의 유발을 줄일 수 있다.
한편, 시간 축에서 잡음이 가변적으로 전개되는 신호에 의해 오염된 음성으로부터 잡음을 종래기술에 의해 추정하는 경우, i)잡음이 증가하는 영역에서 실제잡음보다 낮게 평가된 추정으로 인해 잔재잡음이 유발되고, ii) 잡음이 감소하는 영역에서 실제 잡음보다 높게 평가된 추정으로 인해 음성왜곡이 유발된다. 따라서, 잡음 추정 장치는 신뢰성있는 잡음 추정을 수행하기 위해, 수학식 8과 같이 시간 축으로 고정된 평활계수를 이용할 수도 있다. 그러나, 평활계수의 근사치에 따른 음성 특성의 감쇄나 잡음 변화의 비정적 유지의 문제는 여전히 남는다.
따라서 잡음 추정 장치는 전체 고속 푸리에 변환(Fast Fourier Transform: FFT) 포인트로부터 나뉜 몇 개의 필터뱅크(filter bank) 단위로 계산된 적응적 평활계수를 이용하여, 제1 평활화 스펙트럼 Y"i(f)에 대해 시간 영역에서의 적응적 평활화를 수행한다(S115). 일 예로서, 잡음 추정 장치는 수학식 17과 같은 시간영역에서의 적응적 평활계수 b1(j)를 이용하여 제2 평활화 스펙트럼 Si ,j(k)를 추출한다.
Figure pat00030
수학식 17을 참조하면, j(0≤j≤2P-p-1)은 전체 FFT 포인트 2P에서 2p로 나뉜 필터뱅크 2P-p 인덱스이고, 대문자 P는 FFT 포인트를 결정하기 위한 지수(exponent)이며, 소문자 p는 필터뱅크 수를 결정하기 위한 지수이고, k(0≤k≤j?2p-1)은 필터뱅크내에 존재하는 스펙트럼 빈(bin) 인덱스이며, b1(j), b2(j),...,bv2(j)는 v2차 적응적 평활계수이다. 여기서, b1(j)+b2(j)+...+bv2(j)=1이다. b1(j), b2(j),...,bv2(j)는 후술될 표 1에 의해 설정된다.
음성 유사 필터뱅크에서 평활계수 b1(j)에 상대적으로 낮은 가중치가 할당되는 경우, 음성의 특성을 효과적으로 나타낼 수 있다. 잡음 유사 필터뱅크에서 평활계수 b1(j)에 상대적으로 높은 가중치가 할당되는 경우, 잡음의 특성을 효과적으로 억제할 수 있다. 이에 따르면, 가변적인 잡음 변화에 대해 안정적으로 변환하면서 음성의 특성을 유지할 수 있다. 이로써 잡음의 변화가 고려되지 않은 고정된 평활계수를 적용하는 기존 방식이 가변적인 잡음의 효과를 효율적으로 줄이지 못하는 문제와, 1에 근접하는 평활계수를 적용하는 경우 잡음의 변화가 안정적으로 변하지만 음성의 특성이 감쇠하는 문제, 그리고 0에 근접하는 평활계수를 적용하는 경우 음성의 특성은 그대로 보존되지만 잡음의 변화는 비정적으로 유지되는 문제가 해결될 수 있다.
잡음 추정 장치는 필터뱅크에 존재하는 잡음의 상태를 결정한다(S120). 예를 들어 잡음의 상태 결정은, 잡음의 상태를 나타내는 크기 SNR 또는 전방향 탐색 SNR에 의해 이루어질 수 있다. 먼저 크기 SNR은 수학식 18에 의해 구해질 수 있다.
Figure pat00031
또한, 전방향 탐색 SNR은 수학식 19에 의해 구해질 수 있다.
Figure pat00032
수학식 18과 수학식 19를 참조하면, FBS는 필터뱅크 사이즈이고,
Figure pat00033
는 이전 프레임에서 추정된 잡음이다. γi(j)(또는 φi(j))가 1에 가까우면 해당 필터뱅크는 잡음 유사 필터뱅크를 나타내고, φi(j)(또는 γi(j))가 0에 가까우면 해당 필터뱅크는 음성 유사 필터뱅크를 나타낸다. 이와 같이 잡음 추정 장치는 γi(j) 또는 φi(j)의 크기에 기반한 필터뱅크의 판단 기준에 따라 필터뱅크의 잡음 상태를 결정할 수 있다.
한편, Ti ,j(k)는 전방향 탐색 스펙트럼이다. 전방향 탐색은 한 프레임 전체 또는 한 프레임에서 나뉜 여러 서브밴드 단위로 제2 평활화 스펙트럼 Si ,j(k)에 존재하는 잡음의 상태를 예측하기 위한 것이다. Ti ,j(k)는 다음의 수학식 20에 의해 정의된다.
Figure pat00034
수학식 20을 참조하면, Smin i ,j(k)는 일정한 과거 탐색 윈도우의 Si ,j(k)로부터 검출된 최소 스펙트럼이고, c1(j), c2(j),...,cv2(j)는 v2차 적응적 망각 계수이다. 여기서, c1(j)+c2(j)+...+cv2(j)=1이다. 잡음 추정 장치는, 음성 유사 필터뱅크에서 적응적 망각계수 c1(j)에 상대적으로 낮은 가중치를 할당하여 전방향 탐색 스펙트럼이 잡음 유사 스펙트럼을 지니게 할 수 있다. 그리고 잡음 추정 장치는, 잡음 유사 필터뱅크에서 적응적 망각계수 c1(j)에 상대적으로 높은 가중치를 할당하여 전방향 탐색 스펙트럼이 잡음 유사 스펙트럼을 지니게 할 수 있다.(보내주신 제안서에서 이와 같이 기재되어 있는데, 반대로 되어야 하는 것이 아닌지 확인부탁드립니다.) c1(j), c2(j),...,cv2(j)와 망각계수 d(j)는 후술될 표 1의 알고리즘에 의해 설정된다.
Figure pat00035
Figure pat00036
Figure pat00037
Figure pat00038
표 1을 참조하면, FB2(m)은 전체 필터뱅크로부터 사용자 임의의 저음, 중금, 고음으로 나눈 2차 필터뱅크 인덱스이고, M은 2차 필터뱅크의 전체 개수이며, THFB2(m) φ(l)은 φi(j)의 임계치이며, THFB2 (m) γ(l)은 γi(j)의 임계치이다. 그리고 L은 THFB2(m) φ(l)과 THFB2 (m) γ(l)에 따라 사용자에 의해 나뉜 전체 스텝이고, WFB2(m) b1(l),...,WFB2(m) bv3(l)은 b1(j),b2(j),...,bv2(j)의 가중치이며, WFB2(m) c1(l),...,WFB2(m) cv3(l)은 c1(j),c2(j),...,cv2(j)의 가중치이고, WFB2 (m) d(l)은 d(j)의 가중치이다.
잡음 추정 장치는 상기 표 1의 알고리즘에 의해 계산된 d(j)와 최소값 Smin i,j(k)를 이용하여 추정 잡음
Figure pat00039
을 아래의 수학식 21에 의해 구한다(S125).
Figure pat00040
이상에서 상세하게 설명한 바와 같이, 본 발명에 따른 잡음 추정 방법에서는 잡음의 변화에 상관없이 프레임별로 고정된 망각 요소를 적용하는 기존의 WA 기법 대신에, 적응적 망각 계수를 적용하여 잡음을 추정한다. 이로써, VAD에 의해 얻어진 여러 잡음 프레임에서 제시하는 통계적 정보를 이용하는 종래기술과 달리, 잡음환경이 다양하게 비정적이거나, 음성 에너지가 약한 구간 또는 낮은 SNR에서도 올바른 VAD를 얻을 수 있고, 음성영역에서 잡음추정이 적응적으로 수행할 수 있어 신뢰성있는 잡음 추정이 가능하다. 또한, 본 실시예는 잡음 추정에 있어서 상대적으로 계산량이 적을 뿐만 아니라 요구되는 메모리의 용량도 크기 않기 때문에, 실제 하드웨어나 소프트웨어로 구현하기가 용이하다.
도 2는 도 1의 잡음 추정 방법을 수행하는 잡음 추정 장치를 보여주는 블록도이다. 도 2를 참조하면, 잡음 추정 장치(200)는 입력 노이지 음성 신호에 대한 푸리에 변환 유닛(205), 필터링 유닛(210), 제1 평활화 유닛(215), 제2 평활화 유닛(220), 잡음 상태 결정 유닛(225) 및 잡음 추정 유닛(230)을 포함한다. 본 발명의 실시예에 따른 잡음 추정 장치(200)에 포함되는 각 구성 요소(205, 210, 215, 220, 225 및 230)의 기능은 전술한 본 발명의 도 1의 실시예에 따른 잡음 추정 절차를 구성하는 단계(S100, S105, S110, S115, S120 및 S125)에서 설명한 것이 동일하게 적용될 수 있으므로, 이하 이에 대한 구체적인 설명은 생략한다. 이러한 본 발명의 실시예에 따른 잡음 추정 장치(200)는 스피커폰이나 영상 통화용 통신 기기, 보청기, 블루투스 기기 등과 같은 음성 기반 어플리케이션 장치 또는 음성인식 시스템 등에 구비되어, 입력 노이지 음성 신호로부터 잡음의 상태를 판별하고, 또한 이를 이용하여 잡음 추정, 음질 개선, 및/또는 음성 인식을 하는데 이용될 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (12)

  1. 음성 신호와 잡음 신호를 포함하는 노이지 음성 신호를 푸리에(fourier) 변환하여 푸리에 스펙트럼을 구하는 단계;
    상기 푸리에 스펙트럼을 미분 필터링(filtering) 처리하여 필터링된 푸리에 스펙트럼을 구하는 단계;
    필터뱅크(filter bank)에 존재하는 상기 잡음의 상태를 결정하는 단계;
    상기 결정된 필터뱅크에 기반하여 설정되는 제1 평활화(smoothing) 계수를 이용하여 상기 필터링된 푸리에 스펙트럼을 주파수 영역에서 평활화하여 제1 평활화 스펙트럼을 구하는 단계;
    상기 결정된 필터뱅크에 기반하여 설정되는 제2 평활화 계수를 이용하여, 상기 제1 평활화 스펙트럼을 시간 영역에서 평활화하여 제2 평활화 스펙트럼을 구하는 단계; 및
    상기 결정된 필터뱅크에 기반하여 설정되는 망각 계수, 상기 제2 평활화 스펙트럼 및 상기 제2 평활화 스펙트럼의 최소값을 이용하여 잡음을 추정하는 단계를 포함함을 특징으로 하는, 잡음 추정 방법.
  2. 제 1 항에 있어서, 상기 잡음의 상태는,
    크기 신호대 잡음(magnitude signal to noise ratio: MSNR) 및 전방향 탐색 신호대 잡음(forward search signal to noise ratio: FSSNR)에 의해 결정됨을 특징으로 하는, 잡음 추정 방법.
  3. 제 1 항에 있어서, 상기 잡음을 추정하는 단계는,
    이전 프레임에서 추정된 잡음을 더 이용하여 상기 잡음을 추정함을 특징으로 하는, 잡음 추정 방법.
  4. 제 1 항에 있어서,
    상기 제2 평활화 스펙트럼의 최소값은, 일정한 과거 탐색 윈도우로부터 검출된 최소 스펙트럼인 것을 특징으로 하는, 잡음 추정 방법.
  5. 제 1 항에 있어서, 상기 제1 평활화 계수, 상기 제2 평활화 계수 및 상기 망각 계수는,
    전체 고속 푸리에 변환(fast fourier transform: FFT) 포인트를 결정하는 제1 지수(exponent)와 상기 필터뱅크의 개수를 결정하는 제2 지수의 차이로 결정되는 필터뱅크 인덱스와, 전체 필터뱅크를 저음, 중음, 고음으로 나눈 2차 필터뱅크 인덱스를 비교한 결과에 따라 가변적으로 설정됨을 특징으로 하는, 잡음 추정 방법.
  6. 제 2 항에 있어서, 상기 제1 평활화 계수, 상기 제2 평활화 계수 및 상기 망각 계수는,
    상기 크기 신호대 잡음 및 상기 전방향 탐색 신호대 잡음을 임계치와 비교한 결과에 따라 가변적으로 설정됨을 특징으로 하는, 잡음 추정 방법.
  7. 음성 신호와 잡음 신호를 포함하는 노이지 음성 신호를 푸리에(fourier) 변환하여 푸리에 스펙트럼을 구하는 푸리에 변환 유닛;
    상기 푸리에 스펙트럼을 미분 필터링(filtering) 처리하여 필터링된 푸리에 스펙트럼을 구하는 필터링 유닛;
    필터뱅크(filter bank)에 존재하는 상기 잡음의 상태를 결정하는 잡음상태 결정 유닛;
    상기 결정된 필터뱅크에 기반하여 설정되는 제1 평활화(smoothing) 계수를 이용하여 상기 필터링된 푸리에 스펙트럼을 주파수 영역에서 평활화하여 제1 평활화 스펙트럼을 제1 평활화 유닛;
    상기 결정된 필터뱅크에 기반하여 설정되는 제2 평활화 계수를 이용하여, 상기 제1 평활화 스펙트럼을 시간 영역에서 평활화하여 제2 평활화 스펙트럼을 제2 평활화 유닛; 및
    상기 결정된 필터뱅크에 기반하여 설정되는 망각 계수, 상기 제2 평활화 스펙트럼 및 상기 제2 평활화 스펙트럼의 최소값을 이용하여 잡음을 추정하는 잡음 추정 유닛을 포함함을 특징으로 하는, 잡음 추정 장치.
  8. 제 7 항에 있어서, 상기 잡음 상태 결정 유닛은,
    크기 신호대 잡음(magnitude signal to noise ratio: MSNR) 및 전방향 탐색 신호대 잡음(forward search signal to noise ratio: FSSNR)에 의해 상기 잡음의 상태를 결정함을 특징으로 하는, 잡음 추정 장치.
  9. 제 7 항에 있어서, 상기 잡음 추정 유닛은,
    이전 프레임에서 추정된 잡음을 더 이용하여 상기 잡음을 추정함을 특징으로 하는, 잡음 추정 장치.
  10. 제 7 항에 있어서,
    상기 제2 평활화 스펙트럼의 최소값은, 일정한 과거 탐색 윈도우로부터 검출된 최소 스펙트럼인 것을 특징으로 하는, 잡음 추정 장치.
  11. 제 7 항에 있어서, 상기 잡음 상태 결정 유닛은,
    전체 고속 푸리에 변환(fast fourier transform: FFT) 포인트를 결정하는 제1 지수(exponent)와 상기 필터뱅크의 개수를 결정하는 제2 지수의 차이로 결정되는 필터뱅크 인덱스와, 전체 필터뱅크를 저음, 중음, 고음으로 나눈 2차 필터뱅크 인덱스를 비교한 결과에 따라 상기 제1 평활화 계수, 상기 제2 평활화 계수 및 상기 망각 계수를 가변적으로 설정함을 특징으로 하는, 잡음 추정 장치.
  12. 제 8 항에 있어서, 상기 잡음 상태 결정 유닛은,
    상기 크기 신호대 잡음 및 상기 전방향 탐색 신호대 잡음을 임계치와 비교한 결과에 따라 상기 제1 평활화 계수, 상기 제2 평활화 계수 및 상기 망각 계수를 가변적으로 설정함을 특징으로 하는, 잡음 추정 장치.

KR1020110126800A 2010-11-30 2011-11-30 적응적 잡음추정 장치 및 방법 KR101295727B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20100120397 2010-11-30
KR1020100120397 2010-11-30

Publications (2)

Publication Number Publication Date
KR20120059431A true KR20120059431A (ko) 2012-06-08
KR101295727B1 KR101295727B1 (ko) 2013-08-16

Family

ID=46610727

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110126800A KR101295727B1 (ko) 2010-11-30 2011-11-30 적응적 잡음추정 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101295727B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968662A (zh) * 2020-08-10 2020-11-20 北京小米松果电子有限公司 音频信号的处理方法及装置、存储介质
CN113270107A (zh) * 2021-04-13 2021-08-17 维沃移动通信有限公司 音频信号中噪声响度的获取方法、装置和电子设备

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020111676A1 (ko) * 2018-11-28 2020-06-04 삼성전자 주식회사 음성 인식 장치 및 방법
WO2020153736A1 (en) 2019-01-23 2020-07-30 Samsung Electronics Co., Ltd. Method and device for speech recognition
EP3888084A4 (en) 2019-05-16 2022-01-05 Samsung Electronics Co., Ltd. METHOD AND DEVICE FOR PROVIDING A VOICE RECOGNITION SERVICE

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4282227B2 (ja) * 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
KR100655953B1 (ko) 2006-02-06 2006-12-11 한양대학교 산학협력단 웨이블릿 패킷 변환을 이용한 음성 처리 시스템 및 그 방법
KR101335417B1 (ko) * 2008-03-31 2013-12-05 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
KR101317813B1 (ko) * 2008-03-31 2013-10-15 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968662A (zh) * 2020-08-10 2020-11-20 北京小米松果电子有限公司 音频信号的处理方法及装置、存储介质
CN113270107A (zh) * 2021-04-13 2021-08-17 维沃移动通信有限公司 音频信号中噪声响度的获取方法、装置和电子设备
CN113270107B (zh) * 2021-04-13 2024-02-06 维沃移动通信有限公司 音频信号中噪声响度的获取方法、装置和电子设备

Also Published As

Publication number Publication date
KR101295727B1 (ko) 2013-08-16

Similar Documents

Publication Publication Date Title
US11056130B2 (en) Speech enhancement method and apparatus, device and storage medium
US10614788B2 (en) Two channel headset-based own voice enhancement
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
RU2329550C2 (ru) Способ и устройство для улучшения речевого сигнала в присутствии фонового шума
KR100330230B1 (ko) 잡음 억제 방법 및 장치
WO2000036592A1 (en) Improved noise spectrum tracking for speech enhancement
KR101260938B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
KR101295727B1 (ko) 적응적 잡음추정 장치 및 방법
KR101317813B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
Nelke et al. Single microphone wind noise PSD estimation using signal centroids
EP1995722B1 (en) Method for processing an acoustic input signal to provide an output signal with reduced noise
WO2020024787A1 (zh) 音乐噪声抑制方法及装置
KR101335417B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
WO2006114101A1 (en) Detection of speech present in a noisy signal and speech enhancement making use thereof
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
Fang et al. Integrating statistical uncertainty into neural network-based speech enhancement
KR20200095370A (ko) 음성 신호에서의 마찰음의 검출
Thiagarajan et al. Pitch-based voice activity detection for feedback cancellation and noise reduction in hearing aids
Esch et al. Model-based speech enhancement using SNR dependent MMSE estimation
Tashev et al. Unified framework for single channel speech enhancement
Elshamy et al. Two-stage speech enhancement with manipulation of the cepstral excitation
KR100931487B1 (ko) 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치
Prodeus Parameter optimization of the single channel late reverberation suppression technique
Wang et al. Speech enhancement based on perceptually motivated guided spectrogram filtering
Sunitha et al. Noise Robust Speech Recognition under Noisy Environments

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160804

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180731

Year of fee payment: 6