KR100798056B1 - 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법 - Google Patents

높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법 Download PDF

Info

Publication number
KR100798056B1
KR100798056B1 KR1020060103480A KR20060103480A KR100798056B1 KR 100798056 B1 KR100798056 B1 KR 100798056B1 KR 1020060103480 A KR1020060103480 A KR 1020060103480A KR 20060103480 A KR20060103480 A KR 20060103480A KR 100798056 B1 KR100798056 B1 KR 100798056B1
Authority
KR
South Korea
Prior art keywords
noise
index
subband
speech
ratio
Prior art date
Application number
KR1020060103480A
Other languages
English (en)
Inventor
정성일
권영헌
양성일
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020060103480A priority Critical patent/KR100798056B1/ko
Application granted granted Critical
Publication of KR100798056B1 publication Critical patent/KR100798056B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법에 관한 것으로서, 높은 비정적인 잡음 환경에서도 신속하고 신뢰적인 잡음 추정을 적응적으로 수행할 수 있고, VAD에 의해 얻어지는 여러 잡음 프레임들이나 일정한 과거 프레임들이 가지는 통계적 정보를 이용하지 않고 현재 서브밴드에서 음성에 가까운지 잡음에 가까운지를 연속적으로 판별하기 위한 결정 규칙과 크기 SNR을 이용하여 잡음 추정을 적응적으로 수행하며, 과잉 추정된 잡음을 수반하지 않아 음성 왜곡이 저감되는 음성 처리 방법에 관한 것이다.
상기한 목적을 달성하기 위한 본 발명은, (a) 잡음에 오염된 음성 신호의 단구간에 대하여 균일 웨이블릿 패킷 변환한 변환 신호를 생성하는 단계와; (b) 상기 변환 신호의 프레임에서 위쪽 상대 비 및 아래쪽 상대 비, 그리고 분포 비를 구하는 단계와; (c) 상기 3종류의 비들을 이용하여 결정 규칙의 식별자를 계산하는 단계와; (d) 상기 단계에서 계산된 결정 규칙의 식별자를 임계치와 비교하여 프레임 내의 서브밴드가 잡음만이 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 판별하고, 서브밴드에 존재하는 잡음의 양을 나타내는 크기 SNR을 설정하며, 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(CMUWP)와 크기 SNR을 이용하여 잡음을 추정하는 단계와; (e) 잡음에 오염된 음성 신호로부터 변형된 스펙트럼 크기 차감 방법을 이용하여 상기 단계에서 추정된 잡음을 차감하여 개선된 음성 신호를 얻는 단계;를 포함하여 구성된다.
웨이블릿, 적응적 잡음 추정, 비정적인 잡음 환경, 상대 비, 분포 비

Description

높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법 {Speech Processing Method for Speech Enhancement in Highly Nonstationary Noise Environments}
도 1은 변환 계수와 트리 구조를 나타낸 도면,
도 2은 백색 가우시안 잡음을 나타낸 도면으로, (a)는 정적인 백색 가우시안 잡음을, (b)는 짧은 시간에 걸쳐 다양한 에너지 레벨을 가지는 시변 높은 비정적인 백색 가우시안 잡음을 나타내는 도면,
도 3는 도 2의 정적인 백색 가우시안 잡음과 높은 비정적인 백색 가우시안 잡음에서 추출된 본 발명의 비들을 나타낸 도면으로, (a)는 위쪽 상대 비를, (b)는 아래쪽 상대 비를, (c)는 분포 비를 나타낸 도면,
도 4는 본 발명의 방법과 비교 방법(종래 방법)들의 세그멘털 잡음 추정 에러를 나타낸 비교 도면,
도 5은 본 발명의 방법과 비교 방법들의 향상된 세그멘털 SNR을 나타낸 비교 도면,
도 6은 본 발명의 방법과 비교 방법들의 향상된 로그 지역 비를 나타낸 비교 도면,
도 7은 본 발명의 방법과 비교 방법들의 향상된 가중 스펙트럼 경사도 측정 을 나타낸 비교 도면,
도 8는 음성 파형을 나타낸 도면으로, (a)는 깨끗한 음성의 파형을, (b)는 (a)의 깨끗한 음성이 도 2의 (b)에 나타낸 높은 비정적인 잡음에 의해 오염된 음성의 파형을, (c)는 본 발명의 방법에 의해 추정된 잡음의 파형을 나타낸 도면,
도 9은 높은 비정적인 잡음에 오염된 음성에서 본 발명의 방법과 비교 방법들에 의해 개선된 음성의 파형을 나타낸 도면,
도 10은 높은 비정적인 잡음에 오염된 음성에서 본 발명의 방법과 비교 방법들에 의해 개선된 음성의 스펙트로그램을 나타낸 도면.
본 발명은 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법에 관한 것으로서, 더욱 상세하게는 높은 비정적인 잡음 환경에서도 신속하고 신뢰적인 잡음 추정을 적응적으로 수행할 수 있고, VAD에 의해 얻어지는 여러 잡음 프레임들이나 일정한 과거 프레임들이 가지는 통계적 정보를 이용하지 않고 현재 서브밴드에서 음성에 가까운지 잡음에 가까운지를 연속적으로 판별하기 위한 결정 규칙과 크기 SNR을 이용하여 잡음 추정을 적응적으로 수행하며, 과잉 추정된 잡음을 수반하지 않아 음성 왜곡이 저감되는 음성 처리 방법에 관한 것이다.
일반적으로 음성 신호의 송수신에 있어서 송신단, 수신단, 전달 경로에서의 다양한 잡음 환경으로 인하여 음성 신호는 잡음에 오염된다. 잡음에 오염된 음성 신호에 대하여 자동 음성 처리 시스템(automatic speech processing system)들이 다양한 잡음 환경에서 동작하게 되면 심각한 성능 저하를 초래하게 된다. 따라서, 최근 잡음을 제거하여 이들 시스템의 성능을 향상시키고자 하는 연구가 더욱 활발히 진행되고 있다.
잡음과 음성이 공존하는 단일 채널(single channel)에서 음질 개선을 위한 대부분의 알고리즘들은 잡음 추정을 기본적으로 요구한다. 게다가 잡음 추정의 정확 정도는 잡음에 오염된 음성에서 개선된 음성의 음질을 결정짓는 가장 중요한 요소이다. 만일 잡음 추정이 순수 잡음 보다 낮으면 개선된 음성에서 성가신 잔재 잡음(annoying musical tone)이 인지될 것이며, 반면에 잡음 추정이 순수 잡음보다 높으면 개선된 음성에서 음성 왜곡을 증가시킬 것이다. 실제로 다양한 비정적인 잡음에 오염된 음성에서 잡음 추정을 정확하게 수행하여 성가신 잔재 잡음과 음성 왜곡을 수반하지 않는 개선된 음성을 얻는다는 것은 매우 어려운 일이다.
일반적으로 많은 기존의 잡음 추정 방법들은 음성 구간 추출기(Voice Activity Detector; 이하 VAD라 함)에 의해서 얻어지는 여러 잡음 프레임들이 나타내는 통계적 정보를 이용한다. VAD를 기반으로 하는 이들 방법들은 정적인 잡음 환경에서 만족할 수 있는 결과들을 종종 보인다. 하지만, 배경 잡음이 비정적이거나 음성 요소가 약한 구간 또는 낮은 SNR(Signal to Noise Ratio)이라면 신뢰할 수 있는 VAD를 기대하기 어려우며, 결론적으로 다양한 잡음-레벨 조건들에서 VAD를 이용한 잡음 추정은 만족할 수 있는 결과를 기대하기 어려울 것이다. 추가적으로 잡음 프레임들만을 이용하여 추정된 잡음이기 때문에 음성 구간에서 가변적으로 변하는 잡음을 올바르게 추정하는 것은 불가능하다.
이하, 잡음 추정 기술에 대하여 좀 더 상세히 설명하면 다음과 같다.
1. 주파수 영역에서 스펙트럼 크기 차감 방법
음성 처리를 위해 적은 계산량과 고 효율성을 가지는 주파수 영역에서의 스펙트럼 크기 차감 방법은 음성과 잡음이 공존하는 단일 채널에서 널리 이용된다. 이 방법을 이용한 음질 개선은 잡음에 오염된 음성에서 잡음을 정확하게 추정하는 것이 가장 중요하다. 일반적으로 VAD에 의해 추출된 묵음 구간의 통계적 정보를 이용하여 잡음을 추정한다.
잡음에 오염된 음성 신호 x(n)는 하기 식(1)에 나타낸 바와 같이 깨끗한 음성 s(n)과 가산 잡음 w(n)의 합으로 표현된다.
x(n) =s(n)+w(n) (1)
여기서, n은 이산(discrete) 시간 인덱스(index)이다.
단구간(short-time) x(n)에 대한 푸리에 변환 스펙트럼 계수(Fourier Transform Spectrum Coefficient; 이하 FTSC라 함) X i(f)는 다음과 같이 표현된다.
X i(f) = S i(f) +W i(f) (2)
여기서, S i(l)와 W i(l)는 각각 깨끗한 음성의 FTSC와 잡음의 FTSC이고, i는 프레임 인덱스를, f는 주파수 위치(bin) 인덱스를 나타낸다.
주파수 역영에서 잡음에 오연된 음성의 FTSC X i(f)로부터 개선된 음성의 FTSC
Figure 112006508349447-pat00017
i(f)을 얻기 위한 기존의 스펙트럼 크기 차감(spectral magnitude subtraction) 방법은 다음과 같이 표현된다.
Figure 112006508349447-pat00001
여기서, |X i(f)|은 FTSC X i(f)의 크기를 나타내며, |
Figure 112006508349447-pat00018
(f)|은 추정된 잡음의 크기를 나타낸다. 또한 β(0≤β<1)는 스펙트럼 평활(spectral flooring) 계수이며, 0에 근접하는 고정된 값을 일반적으로 사용한다.
스펙트럼 크기 차감 방법은 잡음 추정을 필수적으로 요구하며, 잡음 추정의 정확 정도에 따라서 개선된 음성의 음질이 결정된다. 일반적인 잡음 추정 방법은 VAD에 의해서 얻어지는 여러 잡음 프레임들이 가지는 통계적 정보를 이용한다. 하지만, VAD를 기반으로 하는 잡음 추정 방법들은 다양한 비정적인 잡음 환경에서 올바른 잡음 추정을 수행하는 것은 매우 어려운 일이다. 이러한 문제점들을 해결하고자, 잡음에 오염된 음성으로부터 잡음 성분의 추적이나 이전에 추정된 잡음을 이용하는 회귀 시스템 또는 잡음의 양을 나타내는 가중치 등을 기반으로 잡음을 추정하기 위한 다양한 접근 방법들이 제안되었다.
2. 종래의 잡음 추정 방법들
Minimum Statics(MS)을 기반으로 하는 잡음 추정
MS 방법은 일정한 검색 윈도우에 존재하는 잡음에 오염된 음성의 평활된 파 워 스펙트럼에서 추적에 의한 최소치(minima value)를 이용하여 잡음 추정을 수행한다. 평활된 파워 스펙트럼
Figure 112006508349447-pat00019
i(f)은 하기 식(4)에 의해서 주어진다.
Figure 112006508349447-pat00002
여기서, |X i(f)|2는 잡음에 오염된 음성의 파워 스펙트럼이며, α(0.9≤α≤0.95)는 평활된 파워 스펙트럼
Figure 112006508349447-pat00020
i(f)을 얻기 위한 망각 계수이다.
다음으로, 하기 식(5)를 이용하여 일정한 검색 윈도우에 걸쳐 있는 평활된 파워 스펙트럼에서 추적에 의한 최소치
Figure 112006508349447-pat00021
min(i,f)을 얻는다.
Figure 112006508349447-pat00003
여기서, M은 0.8 ~ 1.4초에 해당하는 프레임 수이다.
마지막으로, 잡음 추정
Figure 112006508349447-pat00022
i(f) 은 최소치
Figure 112006508349447-pat00023
min(i,f)와 추정 편차를 보상하기 하기 위한 상수 cf=1.5 간의 곱에 의해서 결정된다.
Figure 112006508349447-pat00004
추정된 잡음
Figure 112006508349447-pat00024
i(f)을 이용하여 개선된 음성의 FTSC
Figure 112006508349447-pat00025
i(f)을 얻기 위한 평활된 스펙트럼 크기 기반의 스펙트럼 크기 차감 방법은 하기 식(7) 및 식(8)과 같이 표현된다.
Figure 112006508349447-pat00005
P i(f) - γP i-1(f) +(1-γ)|X i(f)|2 (8)
여기서, γ(γ≤0.9)은 평활된 스펙트럼 파워 P i(f)를 얻기 위한 망각 계수이다.
그러나, 상기와 같은 MS 방법의 단점들은 다음과 같이 요약된다.
① 높은 비정적인 잡음이 발생하는 경우에 일정한 시간동안 올바른 잡음 추정을 수행하지 못한다.
② 최소치
Figure 112006508349447-pat00026
min(i,f)와 보상 계수 cf=1.5를 곱하여 잡음 추정을 수행하는 과정에서 과잉 추정을 때때로 수반할 수 있다.
③ 잡음 추정을 위해서 비교적 긴 과거 프레임들이 나타내는 통계적 정보를 이용한다.
Weighted Averaging(WA)에 의한 잡음 추정
WA 방법은 이전 프레임에서 추정된 잡음 스펙트럼 크기와 현재 프레임에서 잡음에 오염된 음성의 스펙트럼 크기사이에 고정된 망각 계수를 적용하여 잡음 추정을 수행하며, 하기 식(9)와 같이 표현된다.
Figure 112006508349447-pat00006
여기서, e(e<1)는 망각 계수로서 1에 근접한 값을 일반적으로 사용하며, η는 임계치(threshold)를 나타낸다.
추정된 잡음 |
Figure 112006508349447-pat00027
i(f)|을 이용하여 개선된 음성의 FTSC
Figure 112006508349447-pat00028
i(f)을 얻기 위해서 식(3)에서 표현된 스펙트럼 크기 차감 방법을 이용한다.
그러나, WA 방법의 단점들은 다음과 같이 요약된다.
① 높은 비정적인 잡음이 발생하는 경우 잡음의 변화를 고려하지 않은 고정된 망각 계수의 적용으로 인하여 실제 잡음과 전혀 다른 잡음 추정을 수행한다.
② 잡음 추정을 위한 회귀 과정에서 과잉 추정된 잡음을 때때로 수반할 수 있다.
Minima Controlled Recursive Averaging(MCRA)에 의한 잡음 추정
MS 방법을 기반으로 하는 MCRA 방법에서는 신호 현존 확률에 의해서 조정되는 망각 계수 사용과 과거 스펙트럼 파워 값들의 평균화에 의해 주어지는 잡음 추정이 제안되었다. MCRA 방법은 MS 방법과 마찬가지로 평활된 파워 스펙트럼
Figure 112006508349447-pat00029
i(f)을 기반으로 잡음 추정을 수행한다.
Figure 112006508349447-pat00007
여기서, αs(0<αs<1)는 평활된 파워 스펙트럼
Figure 112006508349447-pat00030
i(f)을 얻기 위한 망각 계 수이다.
MCRA 방법에서는 검색 윈도에 걸쳐 있는 평활된 파워 스펙트럼
Figure 112006508349447-pat00031
i(f)에서 추적에 의한 최소치
Figure 112006508349447-pat00032
min(i,f)을 얻기 위하여 과거 프레임 길이가 L보다 작을 경우 (i≤L)에는 하기 식(11)을, 과거 프레임들의 길이가 L보가 클 경우(i>L)에는 하기 식(12)를 이용한다.
Figure 112006508349447-pat00008
Figure 112006508349447-pat00009
다음으로, 잡음만이 존재하는지 잡음과 음성이 공존하는지를 판별하기 위해서 하기 식(13)에서 표현된 결정 규칙을 이용하여 신호 현존 확률 I i(f)를 구한다. 신호 현존 확률 I i(f)는
Figure 112006508349447-pat00033
>δ이라면 0이 되고, 반대로
Figure 112006508349447-pat00034
<δ이라면 1이 된다.
Figure 112006508349447-pat00010
Figure 112006508349447-pat00035
여기서, H 0H 1은 각각 잡음과 음성이 존재하는 확률과 잡음만이 존재하는 확률이다. αd(0<αd<1)는 H 0 확률의 망각 계수이며, δ는 결정 규칙의 임계치이다.
마지막으로, 신호 현존 확률 I i(f)에 의해서 조정되는 망각 계수
Figure 112006508349447-pat00036
i(f)를 이용한 잡음 추정은 하기 식(16)에 의해서 수행된다.
Figure 112006508349447-pat00037
Figure 112006508349447-pat00038
여기서,
Figure 112006508349447-pat00164
Figure 112006508349447-pat00039
이다.
그리고, 추정된 잡음 |
Figure 112006508349447-pat00040
i(f)|을 이용하여 개선된 음성의 FTSC
Figure 112006508349447-pat00041
i(f)을 얻기 위해서 식(3)에서 표현된 스펙트럼 크기 차감 방법을 이용한다.
그러나, MCRA 방법의 단점들은 다음과 같이 요약된다.
① 높은 비정적인 잡음이 발생하는 경우 일정한 시간동안 올바른 잡음 추정을 수행하지 못한다.
② 잡음 추정을 위한 회귀 과정에서 과잉 추정된 잡음을 때때로 수반할 수 있다.
Weighted Factor(WF)를 작용한 잡음 추정
WF 방법에서는 잡음의 양에 따라서 결정되는 차등적 가중 요소 λ(i)가 적용된 변형된 스펙트럼 차감 방법을 이용하여 음질을 개선하기 위한 방법이 제시되었다. 차등적 가중 요수 λ(i)는 하기 식(17)에 나타낸 바와 같이 낮은 주파수 50Hz에 존재하는 잡음에 오염된 음성의 스펙트럼 크기 |X i(f)| 들의 합인
Figure 112006508349447-pat00042
과 순수 잡음의 스펙트럼 크기 |
Figure 112006508349447-pat00043
(f)|들의 합인 |
Figure 112006508349447-pat00044
LOW
Figure 112006508349447-pat00045
사이의 비로서 정의된다.
Figure 112006508349447-pat00014
Figure 112006508349447-pat00015
그러나, WF 방법의 단점들은 다음과 같이 요약된다.
① WF 방법은 앞에서 소개한 방법들과 본 발명의 방법에 비하여 상대적으로 적은 SNR 개선과 많은 성가신 잔재 잡음으로 인해서 부자연스러운 음질을 제공하는 단점이 있다.
② 가중치 λ(i)를 곱하여 추정된 잡음 λ(i)|
Figure 112006508349447-pat00046
i (f)|에는 가중치 λ(i)로 인한 과잉 추정을 때때로 수반할 수 있다.
이상에서 설명한 바와 같이, 여러 연구자에 의하여 VAD에 의해서 얻어지는 여러 잡음 프레임들이 가지는 통계적 정보를 도입하지 않고 잡음 추정을 연속적으로 수행하기 위한 다양한 방법들이 제안되었다.
상기한 Minimum Statistic(MS) 방법은 일정한 검색 윈도우에 걸쳐 있는 잡음에 오염된 음성의 평활된 파워 스펙트럼(smoothed power spectrum)에서 추적(tracking)에 의한 최소치(minima value)와 추정 편차를 보상하기 위한 상수 요소간의 곱에 의해서 주어지는 잡음 추정을 제시하고 있다[R. Martin, "Spectral subtraction based on minimum statistics," EUROSPEECH, pp. 1182-1185, Sept. 1994].
하지만, 이러한 MS 방법은 잡음 추정을 위해서 비교적 긴 과거 프레임들의 통계적 정보를 요구하며, 잡음 에너지 레벨이 시간 영역에서 연속적으로 또는 갑자기 커지거나 작아지는 높은 비정적인 잡음이 발생하는 경우에는 일정한 시간동안 올바른 잡음 추정을 수행하지 못하는 문제점들을 가진다.
또한 MS 방법을 기반으로 하는 Minima Controlled Recursive Averaging(MCRA) 방법에서는 신호 현존 확률(signal presence probability)에 의해 조정되는 망각(forgetting) 계수 사용과 과거 스펙트럼 파워 값(past spectral power values)들 평균화에 의해서 주어지는 잡음 추정을 제시하고 있다[I. Cohen and B. Berdugo, "Noise estimation by minima controlled recursive averaging for robust speech enhancement," IEEE Signal Proc. Letters, vol. 9, pp, 12-15, 2002.]. 신호 현존 확률은 제안된 윈도우에 존재하는 잡음에 오염된 음성의 부분 (local) 에너지와 추적에 의한 최소치간의 비로서 정의된다. MCRA 방법의 단점들은 MS 방법과 비슷하게 높은 비정적인 잡음이 발생하는 경우에 일정한 시간동안 올바른 잡음 추정을 수행하지 못하며, 여러 과거 프레임들의 통계적 정보를 요구한다는 것이다. 앞에서 언급한 방법들이 가지는 여러 문제점들을 해결 또는 보완하기 위하여 MS(MCRA) 방법을 기반으로 하여 개선 또는 변형된 여러 방법들이 소개되었으나, 대부분의 개선 또는 변형된 방법들 역시 MS 방법과 MCRA 방법과 같은 문제점들을 보이고 있다.
그리고, Weighted Average(WA) 방법은 현재 프레임에서 잡음 음성의 스펙트럼 크기와 이전 프레임에서 추정된 잡음사이에 고정된 망각 계수를 적용하여 주어지는 잡음 추정을 제시하고 있다[H. G. Hirsh and C. Ehrlicher, "Noise estimation techniques for robust speech recognition," IEEE ICASSP, pp. 153-156, May 1995.]. 그러나, 높은 비정적인 잡음 영역에서 WA 방법은 잡음의 변화를 고려하지 않는 고정된 망각 계수를 적용하므로 실제 잡음과 전혀 다른 잡음 추정을 수행하는 문제점을 가진다.
이에 최근의 Weighted Factor(WF) 방법에서는 잡음의 양에 따라 차등적으로 결정되는 가중 요소가 적용된 변형된 스펙트럼 크기 차감(modified spectral magnitude subtraction) 방법을 이용하여 음질을 개선하기 위한 방법이 제시되고 있다[K. Yamashita and T. Shimamura, "Nonstationary noise estimation using low-frequency regions for spectral subtraction," IEEE Signal Proc. letter, vol. 12, 2005.]. 여기서, 차등적 가중 요소는 낮은 주파수 영역에 존재하는 잡음 음성의 스펙트럼 크기들의 합과 잡음 스펙트럼 크기들의 합사이의 비로서 정의된다. 하지만, 본 발명자가 실시한 다양한 성능 평가 실험을 통해서, 특히 낮은 SNR에서, WF 방법은 앞에서 언급한 기존 방법들과 본 발명의 방법에 비해서 낮은 SNR 개선과 많은 성가신 잔재 잡음으로 인해 부자연스러운 음질을 제공하는 문제점을 가지고 있다.
앞에서 언급한 대부분의 방법들이 공통적으로 가지는 또 다른 문제점은 잡음 추정을 위해서 가중치를 곱하거나 회귀(recursion)를 수행하는 과정에서 실제 신호보다 크게 얻어지는 과잉 추정된 잡음을 때때로 수반할 수 있다는 것이다. 과잉 추정된 잡음은 음성 왜곡을 발생시키는 주요 원인이 된다.
요약컨대, 대부분의 기존 방법들은 VAD에 의해서 얻어진 여러 잡음 프레임이나 긴 과거 프레임들이 가지는 통계적 정보를 이용한다. 또한 대부분의 기존 잡음 추정 방법들이 가지는 문제점들은 높은 비정적인 잡음이 발생하는 경우 일정한 시간동안 올바른 잡음 추정을 수행하지 못하거나 전혀 다른 잡음 추정을 수행한다는 것이다. 마지막으로, 잡음 추정 과정에서 과잉 추정된 잡음을 때때로 수반할 수 있다는 것이다.
따라서, 본 발명은 상기와 같은 문제점을 해결하기 위하여 발명한 것으로서, 종래의 잡음 추정 방법들이 잡음 에너지 레벨이 연속적으로 또는 갑자기 커지거나 작아지는 높은 비정적 잡음이 발생하는 경우 일정한 시간동안 올바른 잡음 추정을 수행하지 못하거나 이들 잡음을 전혀 추정하지 못하는 문제점들을 가지고 있는 바, 높은 비정적인 잡음 환경에서 적용될 수 있는 잡음 추정 방법으로서 높은 비정적인 잡음이 발생하더라도 즉각적이면서 신뢰적인 잡음 추정을 적응적으로 수행할 수 있는 새로운 잡음 추정 방법을 제공하는데 그 목적이 있다.
특히, 종래의 잡음 추정 방법들이 VAD에 의해서 얻어지는 여러 잡음 프레임들이나 일정한 과거 프레임들이 가지는 통계적 정보를 이용하여 잡음 추정의 정보를 얻는 것에 비하여, 본 발명은 이들 통계적 정보를 도입하지 않고 잡음만 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 판별하기 위한 새로운 결정 규칙과 크기 SNR을 이용하여 잡음 추정을 적응적으로 수행할 수 있는 잡음 추정 방법을 제공하는데 그 목적이 있다.
또한 종래의 잡음 추정 방법들이 잡음 추정을 수행하는 과정에서 실제 신호보다 크게 얻어지는 과잉 추정된 잡음을 때때로 수반하는 경우가 있어 이를 이용하여 개선한 음성에서는 음성 왜곡이 수반되는 문제점이 있는 바, 본 발명은 과잉 추정된 잡음을 수반하지 않으면서 잡음 추정을 수행할 수 있고, 이에 의하여 음성 왜곡이 저감될 수 있는 잡음 추정 방법을 제공하는데 그 목적이 있다.
이외의 본 발명의 목적들은 하기의 설명을 통해 쉽게 이해될 수 있을 것이다.
이하, 첨부한 도면을 참조하여 본 발명을 상세히 설명하면 다음과 같다.
상기한 목적을 달성하기 위해, 본 발명은, (a) 잡음에 오염된 음성 신호의 단구간에 대하여 균일 웨이블릿 패킷 변환한 변환 신호를 생성하는 단계와; (b) 상 기 변환 신호의 프레임에서 위쪽 상대 비 및 아래쪽 상대 비, 그리고 분포 비를 구하는 단계와; (c) 상기 3종류의 비들을 이용하여 결정 규칙의 식별자를 계산하는 단계와; (d) 상기 단계에서 계산된 결정 규칙의 식별자를 임계치와 비교하여 프레임 내의 서브밴드가 잡음만이 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 판별하고, 서브밴드에 존재하는 잡음의 양을 나타내는 크기 SNR을 설정하며, 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(CMUWP)와 크기 SNR을 이용하여 잡음을 추정하는 단계와; (e) 잡음에 오염된 음성 신호로부터 변형된 스펙트럼 크기 차감 방법을 이용하여 상기 단계에서 추정된 잡음을 차감하여 개선된 음성 신호를 얻는 단계;를 포함하여 구성되는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법을 제공한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예에 대해 더욱 상세히 설명하기로 한다. 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략한다. 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 동일 또는 유사한 개체를 순차적으로 구분하기 위한 식별기호에 불과하다.
본 발명은 높은 비정적인 잡음 환경에서 음질 개선을 위해 즉각적이면서 신뢰적으로 적용될 수 있는 잡음 추정 및 이를 이용한 음질 처리 방법에 관한 것으로서, 여기서 높은 비정적 잡음이라 함은 잡음 에너지 레벨이 시간 영역에서 갑자기 또는 연속적으로 커지거나 작아지는 경우를 말한다.
본 발명에서는 서브밴드(subband)에 존재하는 잡음의 양을 나타내는 크기 SNR(magnitude Signal to Noise Ratio)과 잡음 추정의 정보를 얻기 위한 결정 규칙(decision rule)에 의해 잡음 추정을 수행하며, 여기서 서브밴드는 균일 웨이블릿 패킷 변환(Uniform Wavelet Packet Transform; UWPT)에서 여러 노드(node)들로 구성된다. 크기 SNR은 서브밴드에 존재하는 추정된 잡음의 계수 크기들의 합과 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(Coefficient Magnitude of Uniform Wavelet Packet; CMUWP)들의 합 사이의 비(ratio)로서 우선적으로 설정된다. 다음으로, 잡음만이 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 구분하기 위한 결정 규칙을 만족하는 경우에 크기 SNR은 재설정된다.
본 발명에 따른 잡음 추정 및 이를 이용한 음성 처리 방법의 바람직한 실시예에 대하여 전체 과정을 각 단계별로 좀 더 구체화하여 설명하기로 한다.
첫 번째 단계로서, 잡음에 오염된 음성 신호를 균일 웨이블릿 패킷 변환한 변환 신호를 생성하는 단계이다.
잡음에 오염된 음성 신호를 균일 웨이블릿 패킷 변환(Uniform Wavelet Packet Transform)한 변환 신호를 생성한다. 변환 신호는 균일 웨이블릿 패킷 변환 영역에서의 변환 계수(Coefficient of Uniform Wavelet Packet Transform; CUWPT)이며, 그 구조는 도 1에 도시되어 있다.
도 1을 참조하면, 전체 트리(tree) 레벨은 K이고, 웨이블릿 패킷 변환이 이루어지지 않은 레벨을 K로, 이때의 노드의 개수를 1로 가정한다. 웨이블릿 패킷 변 환 단계에 따라 트리 레벨은 1씩 감소하고, 노드의 개수는 2배로 증가한다. 따라서, k(0≤k≤K)번째 트리 레벨에서 노드의 개수는 2K-k가 된다. 각 노드는 하나 이상의 변환 계수를 가지고 있으며, 노드에 포함되는 변환 계수의 개수는 각 노드마다 동일하다. 본 발명의 실시예에서 k번째 트리 레벨의 각 노드에 포함된 변환 계수가 웨이블릿 변환부에서 생성하는 변환 신호가 된다.
잡음에 오염된 음성의 단구간 x(n)에 대한 균일 웨이블릿 패킷 변환 계수(CUWPT)
Figure 112006508349447-pat00165
(m)은 하기 식(19)과 같이 표현된다.
Figure 112006508349447-pat00016
여기서,
Figure 112006508349447-pat00048
(m)은 깨끗한 음성의 CUWPT이며,
Figure 112006508349447-pat00049
(m)은 잡음의 CUWPT이다. 상기 식(19)의 각 인덱스들은 아래와 같이 정의되며, 이 인덱스들은 본 명세서에 기술된 모든 수식들에 동일한 의미로서 적용된다.
i: 프레임 인덱스
j: 노드 인덱스(0 ≤ j ≤ 2 K-k ―1)
K: 전체 트리 깊이 인덱스
k: 트리 깊이 인덱스(0 ≤ kK)
m: 노드 내 CUWPT 인덱스
두 번째 단계로서, 균일 웨이블릿 패킷 변환한 변환 신호의 프레임에서 위쪽 상대 비, 아래쪽 상대 비, 그리고 분포 비를 구하는 단계이다.
잡음과 음성이 공존하는 단일 채널에 존재하는 높은 비정적인 잡음에 오염된 잡음 음성에서 잡음 추정을 정확하게 수행하는 것은 매우 어려운 일이다. 그 주된 이유는 이들 잡음의 영향을 받지 않으면서 잡음과 음성 사이를 구분하기 위한 식별자들을 추출하기가 어렵기 때문이다. 이와 같은 문제점을 보다 효율적으로 해결하고자, 본 발명에서는 3종류의 비, 즉 하기 식(20)에 의해 정의되는 위쪽 상대 비(upside relative ratio)
Figure 112006508349447-pat00050
와, 하기 식(21)에 의해 정의되는 아래쪽 상대 비(downside relative ratio)
Figure 112006508349447-pat00051
와, 하기 식(22)에 의해 정의되는 분포 비(distribution ratio) η i (τ)를 이용한다. 위쪽 상대 비
Figure 112006508349447-pat00052
와 아래쪽 상대 비
Figure 112006508349447-pat00053
는 현재 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(coefficient magnitude of uniform wavelet packet; CMUWP)
Figure 112006508349447-pat00054
들의 합과, 위쪽과 아래쪽 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(CMUWP)
Figure 112006508349447-pat00055
들의 합 사이의 상대 유사 정도를 나타낸다. 여기서, 서브밴드는 균일 웨이블릿 패킷 변환(UWPT)한 신호에 존재하는 여러 노드들로 구성된다. 그리고, 분포 비 η i (τ)는 프레임에 존재하는 균일 웨이블릿 패킷의 계수 크기(CMUWP)
Figure 112006508349447-pat00056
들의 합에서 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(CMUWP)
Figure 112006508349447-pat00057
들의 합이 차지하는 분포 정도를 나타낸다.
Figure 112006508349447-pat00058
여기서, τ: 서브밴드 인덱스(0≤τ≤2 K-p ―1),
SB: 서브밴드 사이즈이며 트리 깊이 k에서 노드들 2 K-k 로부터(K: 전체 트리 깊이) 나뉜 노드들 묶음 2 p (kp)와 노드 사이즈 N 간의 곱에 의해서 주어지는 2 p N,
g i (τ):
Figure 112006508349447-pat00059
,
G(i):
Figure 112006508349447-pat00060
(F는 프레임 사이즈임)이다.
도 2은 백색 가우시안(white Gaussian) 잡음을 나타낸 도면으로, (a)는 정적인 백색 가우시안 잡음을, (b)는 짧은 시간에 걸쳐 잡음 에너지 레벨이 다양하게 변하는 시변(time-varying) 높은 비정적인 백색 가우시안 잡음을 나타내는 것이며, 도 3는 본 발명에서 제안하는 비들을 나타낸 도면이다. 도 3의 각 비는 도 2의 (a)에 나타낸 정적인 백색 가우시안 잡음과 (b)에 나타낸 높은 비정적인 백색 가우시안 잡음에서 추출된 것이며, 도 3에서 (a)는 위쪽 상대 비
Figure 112006508349447-pat00061
를, (b)는 아래쪽 상대 비
Figure 112006508349447-pat00062
를, (c)는 분포 비 η i (τ)를 나타낸 것이다. 도 3의 (a), (b) 및 (c)에서 각각 점선은 도 2의 (a)에 나타낸 정적인 백색 가우시안 잡음의 비를, 실선은 도 2의 (b)에 나타낸 높은 비정적인 백색 가우시안 잡음의 비를 나타낸다. 도 3를 참조하면, (a)에서 정적인 잡음과 높은 비정적인 잡음의 위쪽 상대 비
Figure 112006508349447-pat00063
가 거의 같은 수치를 나타냄을 알 수 있으며, (b)에서 정적인 잡음과 높은 비정적인 잡음의 아래쪽 상대 비
Figure 112006508349447-pat00064
가, 그리고 (c)에서는 정적인 잡음과 높은 비정적인 잡음의 분포 비 η i (τ)가 거의 같은 수치를 나타냄을 알 수 있다. 이러한 이유는 본 발명에서 제시하는 이들 비들은 갑자기 또는 연속적으로 커지거나 작아지는 잡음 에너지 레벨 변화의 영향을 거의 받지 않기 때문이다. 결론적으로 본 발명에서 제시하는 이들 비들은 잡음 에너지 레벨 변화에 상관없이 정적인 잡음에서 제시하는 안정적인 수치를 제시한다는 것이다.
다음 단계로서, 이전의 단계에서 계산된 상기 3종류의 비들을 이용하여 결정 규칙의 식별자를 계산하는 단계가 수행된다.
잡음에 오염된 음성에서 잡음 추정의 정보를 얻기 위한 종래의 잡음 추정 방법들은 VAD에 의해 얻어지는 여러 잡음 프레임들이나 일정한 과거 프레임들이 가지는 통계적 정보를 이용한다. 본 발명에서는 이들 통계적 정보를 도입하지 않고 잡 음만 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 판별하기 위한 결정 규칙의 식별자
Figure 112006508349447-pat00065
,
Figure 112006508349447-pat00066
Figure 112006508349447-pat00067
i (τ)를 계산하고, 계산된 이들 결정 규칙의 식별자를 이용하여 잡음 추정의 정보를 갱신한다. 예로, 만일
Figure 112006508349447-pat00068
,
Figure 112006508349447-pat00069
Figure 112006508349447-pat00070
i (τ)가 동시에 0에 근접하면 τ번째 서브밴드는 잡음만이 존재하는 서브밴드를 나타낸다. 결정 규칙의 식별자는 하기 식(23), 식(24) 및 식(25)에 의해 계산된다.
Figure 112006508349447-pat00071
여기서, λ Up (τ), λ Down (τ) 및 μ(τ)는 각각 위쪽 상대 잡음 비, 아래쪽 상대 잡음 비 및 분포 잡음 비이며, 이후 단계의 식(27)에서 제시하는 결정 규칙에 의해서 적응적으로 주어진다. 초기 λ Up (τ), λ Down (τ) 및 μ(τ)의 설정은 각각 순수 잡음 신호들로 구성된 첫 번째 또는 특정 프레임의 위쪽 상대 비
Figure 112006508349447-pat00072
, 아래쪽 상대 비
Figure 112006508349447-pat00073
와 분포 비 η i (τ)로부터 얻는다.
다음 단계로서, 이전 단계에서 계산된 결정 규칙의 식별자를 임계치와 비교 하여 프레임 내 서브밴드가 잡음만이 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 판별하고, 서브밴드에 존재하는 잡음의 양을 나타내는 크기 SNR
Figure 112006508349447-pat00074
i (τ)을 설정하며, 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기와 크기 SNR
Figure 112006508349447-pat00075
i (τ)을 이용하여 잡음을 추정하는 단계가 수행된다.
잡음 추정을 위해서 프레임에서 나뉜 서브밴드에 존재하는 잡음의 양을 나타내는 크기 SNR
Figure 112006508349447-pat00076
i (τ)을 하기 식(26)을 이용해 우선적으로 설정한다.
Figure 112006508349447-pat00077
여기서, h i (τ)는 하기 식(28)에 의해 추정된 잡음
Figure 112006508349447-pat00078
들의 합인
Figure 112006508349447-pat00079
이다.
이와 같이 크기 SNR은 서브밴드에 존재하는 추정된 잡음의 계수 크기
Figure 112006508349447-pat00080
들의 합과 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(CMUWP)
Figure 112006508349447-pat00081
들의 합 사이의 비로서 설정된다.
다음으로, 잡음 추정의 정보를 얻기 위해서 잡음만이 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 판별하기 위한 결정 규칙은 이전 단계에서 계산된 식별자를 이용하여 하기 식(27)에 나타낸 바와 같다.
결정 규칙이
Figure 112006508349447-pat00082
이면 잡음만이 존재하는 서브밴드를 나타내며, 그 반대는 음성과 잡음이 공존하는 서브밴드를 나타낸다. 결정 규칙이
Figure 112006508349447-pat00083
이면 크기 SNR은
Figure 112006508349447-pat00084
i (τ)=1로 재설정되며, 잡음의 변화에 대해서 보다 효과적으로 대처하기 위해서 위쪽 상대 잡음 비 λ Up (τ)는 위쪽 상대 비
Figure 112006508349447-pat00085
로, 아래쪽 상대 잡음 비 λ Down (τ)는 아래쪽 상대 비
Figure 112006508349447-pat00086
로, 분포 잡음 비 μ(τ)는 분포 비 η i (τ)로 각각 대치된다(즉,
Figure 112006508349447-pat00087
i (τ)=1, λ Up (τ)=
Figure 112006508349447-pat00088
, λ Down (τ)=
Figure 112006508349447-pat00089
, μ(τ)=η i (τ)가 됨).
Figure 112006508349447-pat00090
여기서,
Figure 112006508349447-pat00091
는 잡음만이 존재하는 가설(hypothesis)이며,
Figure 112006508349447-pat00092
는 음성과 잡음이 공존할 가설이다. Th(Th<1)는 결정 규칙의 임계치이다. 마지막으로, 본 발명에서 잡음 추정은 하기 식(28)에 의해 주어진다.
Figure 112006508349447-pat00093
여기서, k(k<1)는 개선된 음성의 불연속성을 방지하기 위한 망각 계수이다. 본 발명에 따른 잡음 추정 방법의 주된 특징은 1보다 작은
Figure 112006508349447-pat00094
i (τ) 곱하여 잡음 추정을 수행하기 때문에 과잉 추정된 잡음을 수반하지 않는다는 것이다. 결론적으로 본 발명의 잡음 추정을 이용하여 개선된 음성에는 과잉 추정된 잡음을 이용하여 개선 된 음성에 비하여 적은 음성 왜곡을 발생시킨다.
다음 단계로서, 잡음에 오염된 음성 신호로부터 변형된 스펙트럼 크기 차감 방법을 이용하여 추정된 잡음을 차감하여 개선된 음성 신호를 얻는 단계가 수행된다.
균일 웨이블릿 패킷 영역에서 추정된 잡음을 효율적으로 제거하여 개선된 음성의 균일 웨이블릿 패킷 변환 계수(CUWPT)
Figure 112006508349447-pat00095
을 얻기 위한 종래의 스펙트럼 크기 차감 방법은 하기 식(29)에 나타낸 바와 같다.
Figure 112006508349447-pat00096
본 발명에서는 상기 식(28)에 의해 추정된 잡음
Figure 112006508349447-pat00097
을 이용하여 개선된 음성의 균일 웨이블릿 패킷 변환 계수(CUWPT)
Figure 112006508349447-pat00098
을 얻기 위해서 하기 식(30)으로 나타낸 변형된 스펙트럼 크기 차감 방법을 이용한다. 즉, 본 발명에서는, 음질 개선을 위한 변형된 스펙트럼 크기 차감 방법으로, 식(29)에 나타낸 종래의 스펙트럼 크기 차감 방법에서 조건
Figure 112006508349447-pat00099
대신에
Figure 112006508349447-pat00100
i (τ)≠1을 조건으로 하고, 조건
Figure 112006508349447-pat00101
i (τ)=1인 경우
Figure 112006508349447-pat00102
가 되므로
Figure 112006508349447-pat00103
대신에
Figure 112006508349447-pat00104
을 사용한다는 것이다. 이러한 본 발명의 변형된 스펙트럼 크기 차감 방법 은 하기 식(30)에 나타낸 바와 같다.
Figure 112006508349447-pat00105
[성능 평가]
이하, 전술한 새로운 잡음 추정 및 잡음 차감 방법을 이용하는 본 발명에 따른 음성 처리 결과의 성능을 알아보기 위하여 본 발명자는 다양한 음질 평가 방법들을 수행하였으며, 이를 설명하면 다음과 같다.
본 발명의 방법을 적용한 경우와, 비교 방법으로서 종래의 MS 방법, MCRA 방법, WA 방법 및 WF 방법을 적용한 경우에 대해 성능을 평가하였으며, 평가는 세그멘털 잡음 추정 에러(Seg.NEE: Segmental Noise Estimation Error; 이하 Seg.NEE라 함), 향상된 세그멘털 신호대 잡음비(Improved Segmental Signal to Noise Ratio; 이하 Seg.SNRImp라 함), 향상된 로그 지역 비(Improved Log Area Ratio; 이하 LARIMP라 함), 및 향상된 가중 스펙트럼 경사도 측정(Improved Weighted Spectral Slope Measure; 이하 WSSMIMP라 함)을 이용하였다. 실험을 위해서, 음성 인식을 위한 음성 데이터베이스(예를 들어, TIMIT)로부터 10명의 남성과 10명의 여성으로 구성된 음성 신호 20개와 NoiseX-92로부터 3종류의 잡음인 전투기 잡음(aircraft cockpit noise), 음성 유사 잡음(speech-like noise), 백색 가우시안 잡음(white Gaussian noise)을 발췌하였다. 이들 발췌한 음성과 잡음을 이용하여 신호대 잡음비(SNR) -5 ~ 5dB 사이로 오염시킨 음성을 이용하였다.
세그멘털 잡음 추정 에러(Segmental Noise stimation error; Seg.NEE)
추정된 잡음과 순순 잡음 사이의 추정 오차 정도를 측정하기 위해서, 본 발명의 방법과 비교 방법들이 동일하게 가지는 시간 영역에서 Seg.NEE을 측정하였으며, 이는 하기 식(31)과 같이 정의된다.
Figure 112006508349447-pat00106
여기서, FL은 프레임의 전체 수와 프레임 사이즈이다. 도 4는 본 발명의 방법과 비교 방법들에 의해서 얻어진 Seg.NEE을 나타내었다. 도 4에 나타낸 바와 같이, 전체 평균 Seg.NEE에서, 본 발명의 방법이 WA, WF, MCRA와 MS 방법에 비해서 상대적으로 각각 0.0091, 0.0058, 0.0075와 0.03dB 차이만큼 좋은 성능을 나타내는 것을 관찰할 수 있었다. 추가적으로 본 발명과 비교 방법들의 Seg.NEE 성능을 보다 편리하게 구분할 수 있도록 하기 위해서 하기 표 1에 전체와 잡음별 평균을 나타내었다.
[표 1]
전체와 잡음별 평균 세그멘털 잡음 추정 에러
Figure 112006508349447-pat00107
세그멘털 신호대 잡음비(Segmental Signal to Noise Ratio; Seg.SNR)
개선된 음성의 SNR 개선 정도를 측정하기 위해서 가장 일반적으로 사용되는 Seg.SNR[J. R. Deller, J. G. Proakis, and J. H. L. Hansen, Discrete-time processing of speech signals, Englewood Cliffs, NJ: Prentice-Hall, 1993.]을 이용하였으며, 개선된 음성의 Seg.SNROutput에서 잡음에 오염된 음성의 Seg.SNRInput을 차감한 Seg.SNRImp를 측정하였다. Seg.SNR은 하기 식(32)와 같이 정의되며, Seg.SNRImp는 하기 식(33)으로 정의된다.
Figure 112006508349447-pat00108
여기서, Seg.SNROutput과 Seg.SNRInput은 각각 개선된 음성의 Seg.SNR과 잡음 음성의 Seg.SNR이다. 도 5에서 본 발명의 방법과 비교 방법들에 의해서 얻어진 Seg.SNRImp을 나타내었다. 도 5에 나타낸 바와 같이, 전체 평균 Seg.SNRImp에서, 본 발명의 방법이 WA, WF, MCRA와 MS 방법에 비해 상대적으로 각각 2.78, 3.55, 2.44와 2.00dB 차이만큼의 좋은 성능을 나타내는 것으로 관찰되었다. 추가적으로 본 발명의 방법과 비교 방법들의 Seg.SNRImp 성능을 보다 편리하게 구분할 수 있도록 하기 위해서 하기 표 2에 전체와 잡음별 평균을 나타내었다.
[표 2]
전체와 잡음별 평균 향상된 세그멘털 SNR
Figure 112006508349447-pat00109
로그 지역 비(Log Area Ratio; LAR)
선형 예측 부호화(Linear Predict Codding; LPC)를 이용한 음질 평가 중에서 주관적 음질 평가와 가장 높은 상관관계를 나타내는 LAR[J. R. Deller, J. G. Proakis, and J. H. L. Hansen]을 이용하였다. 잡음에 오염된 음성의 LARInput에서 개선된 음성의 LAROutput을 차감한 LARImp를 측정하였다. LAR은 하기 식(34)와 같이 정의되며, LARImp는 하기 식(35)로 정의된다.
Figure 112006508349447-pat00110
여기서, P는 전체 LPC 계수 차수이다. p s ( n )(l)는 깨끗한 음성의 LPC 계수이며,
Figure 112006508349447-pat00111
는 개선된 음성의 LPC 계수이다. 도 6에서 본 발명의 방법과 비교 방법들에 의해서 얻어진 LARImp를 나타내었다. 도 6에 나타낸 바와 같이, 전체 평균 LARImp에서, 본 발명의 방법이 WA, WF, MCRA와 MS 방법에 비해서 상대적으로 각각 0.312, 0.332, 0.473과 0.201dB 차이만큼 좋은 성능을 나타내는 것으로 관찰되었다. 추가적으로 본 발명의 방법과 비교 방법들의 LARImp 성능을 보다 편리하게 구분할 수 있도록 하기 위해서 하기 표 3에 전체와 잡음별 평균을 나타내었다.
[표 3]
전체와 잡음별 평균 향상된 로그 지역 비
Figure 112006508349447-pat00112
가중 스펙트럼 경사도 측정(Weighted Spectral Slope Measure; WSSM)
다양한 객관적 음질 평가 방법들 중에서 주관적 음질 평가와 가장 높은 상관관계를 나타내는 청각 모델 기반의 WSSM[J. R. Deller, J. G. Proakis, and J. H. L. Hansen]을 이용하였다. 잡음에 오염된 음성의 WSSMInput에서 개선된 음성의 WSSMOutput을 차감한 WSSMImp를 측정하였다. WSSM은 하기 식(36)과 같이 정의되며, WSSMImp는 하기 식(37)로 정의된다.
Figure 112006508349447-pat00113
여기서, M
Figure 112006508349447-pat00114
은 각각 깨끗한 음성의 음압 레벨(Sound Pressure Level; SPL)과 개선된 음성의 음압 레벨이다. M SPL은 전체 성능을 조절하기 가변적인 계수이며, Γ i (q)는 각각의 임계 밴드의 가중치이다. CB는 임계 대역(Critical Band)의 수이다. WSSMInput과 WSSMOutput은 각각 잡음에 오염된 음성의 WSSM과 개선된 음성의 WSSM이다. 도 7은 본 발명 방법과 비교 방법들에 의해서 얻어진 WSSMImp을 나타내었다. 도 7에 나타낸 바와 같이, 전체 평균 WSSMImp에서, 본 발명의 방법이 WA, WF와 MCRA 방법에 비해서 상대적으로 각각 8.68, 6.79와 14.82dB 차이만큼 좋은 성능을 나타내는 반면에 MS 방법에 비해서는 동등한 수준(0.44dB)을 나타내는 것으로 관찰되었다. 추가적으로 본 발명의 방법과 비교 방법들의 WSSMImp 성능을 보다 편리하게 구분할 수 있도록 하기 위해서 하기 표 4에 전체와 잡음별 평균을 나타내었다.
[표 4]
전체와 잡음별 평균 향상된 가중 스펙트럼 경사도 측정
Figure 112006508349447-pat00115
음성 파형과 스펙트로그램 분석
도 8는 음성 파형을 나타낸 도면으로, (a)는 깨끗한 음성의 파형을, (b)는 (a)의 깨끗한 음성이 도 2의 (b)에 나타낸 높은 비정적인 잡음에 의해 오염된 음성의 파형을, (c)는 본 발명의 방법에 의해 추정된 잡음의 파형을 나타낸 도면이다.
도 8의 (c)를 참조하면, 본 발명의 방법에 의해 추정된 잡음의 파형이 도 2의 (b)에 나타낸 실제 잡음의 파형과 상당히 유사하다는 것을 확인할 수 있다.
도 9과 도 10은 높은 비정적인 잡음에 의해 오염된 음성에서 본 발명의 방법과 비교 방법들에 의해 추정된 잡음을 이용하여 개선된 음성의 파형과 스펙트로그램을 나타낸 것이다. 도 9에서 (a)는 높은 비정적인 잡음에 오염된 음성의 파형을, (b)는 WA 방법, (c)는 WF 방법, (d)는 MCRA 방법, (e)는 MS 방법, (f)는 본 발명의 방법에 의해 개선된 음성의 파형을 나타낸 도면이다. 또한 도 10에서 (a)는 높은 비정적인 잡음에 오염된 음성을, (b)는 WA 방법, (c)는 WF 방법, (d)는 MCRA 방법, (e)는 MS 방법, (f)는 본 발명의 방법에 의해 개선된 음성의 스펙트로그램을 나타낸 도면이다.
우선 도 9을 참조하면, (b) ~ (e)에 나타낸 비교 방법들의 결과에서는 높은 비정적인 잡음 영역에서 올바른 잡음 추정을 수행하지 못하여 개선된 음성에 여전히 많은 잡음이 잔재하는 것을 확인할 수 있다. 이와 대조적으로, 도 9의 (f)에 나타낸 바와 같이, 본 발명의 방법에 의해 개선된 음성에는 잔재 잡음이 거의 없음을 알 수 있었으며, 도 8의 (a)에 나타낸 깨끗한 음성의 파형과 가장 유사한 음성 개선이 가능함을 확인할 수 있었다.
더욱이, 도 10을 참조하면, 본 발명의 방법에 비해 비교 방법들의 음성에는 다량의 성가신 잔재 잡음이 포함되어 있으며, 불안정한 스펙트로그램이 나타나는 것을 확인할 수 있다.
이상에서 설명한 바와 같이, 본 발명에 따른 적응적 잡음 추정 및 이를 이용한 음성 처리 방법에 의하면, 다음과 같은 효과가 있게 된다.
1) 높은 비정적인 잡음 환경에 유용하게 적용될 수 있는 것으로서, 높은 비정적인 잡음이 발생하더라도 매우 빨리 올바른 잡음 추정을 적응적으로 수행할 수 있게 된다.
2) VAD에 의해 얻어지는 여러 잡음 프레임들이나 일정한 과거 프레임들이 가지는 통계적 정보를 이용하지 않고 현재 서브밴드에서 음성에 가까운지 잡음에 가까운지를 연속적으로 판별하기 위한 결정 규칙과 크기 SNR을 이용하여 잡음 추정을 적응적으로 수행할 수 있게 된다.
3) 과잉 추정된 잡음을 수반하지 않기 때문에 음성 왜곡이 저감되는 효과가 있다.
4) 본 발명의 잡음 추정 기술은 다양한 음성 관련 응용 시스템에 널리 이용될 수 있고, 특히 시간 지연 없이 잡음 추정이 수행되기 때문에 실시간을 요구하는 거의 모든 음성 관련 응용 시스템에 적용될 수 있으며, 적용시에 다양한 잡음 환경에서 시스템의 성능을 더욱 향상시킬 수 있게 된다.

Claims (9)

  1. (a) 잡음에 오염된 음성 신호의 단구간에 대하여 균일 웨이블릿 패킷 변환한 변환 신호를 생성하는 단계와;
    (b) 상기 변환 신호의 프레임에서 위쪽 상대 비 및 아래쪽 상대 비, 그리고 분포 비를 구하는 단계와;
    (c) 상기 3종류의 비들을 이용하여 결정 규칙의 식별자를 계산하는 단계와;
    (d) 상기 단계에서 계산된 결정 규칙의 식별자를 임계치와 비교하여 프레임내의 서브밴드가 잡음만이 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 판별하고, 서브밴드에 존재하는 잡음의 양을 나타내는 크기 SNR을 설정하며, 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(CMUWP)와 크기 SNR을 이용하여 잡음을 추정하는 단계와;
    (e) 잡음에 오염된 음성 신호로부터 변형된 스펙트럼 크기 차감 방법을 이용하여 상기 단계에서 추정된 잡음을 차감하여 개선된 음성 신호를 얻는 단계;
    를 포함하여 구성되는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.
  2. 청구항 1에 있어서,
    상기 (b) 단계에서, 상기 위쪽 상대 비와 아래쪽 상대 비는 현 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기들의 합과, 위쪽과 아래쪽 서브밴드에 존 재하는 균일 웨이블릿 패킷의 계수 크기들의 합 사이의 상대 유사 정도를 각각 나타내고, 상기 분포 비는 프레임에 존재하는 균일 웨이블릿 패킷의 계수 크기들의 합에서 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기들의 합이 차지하는 분포 정도를 나타내는 것임을 특징으로 하는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.
  3. 청구항 2에 있어서,
    상기 위쪽 상대 비
    Figure 112006508349447-pat00116
    및 아래쪽 상대 비
    Figure 112006508349447-pat00117
    와 상기 분포 비 η i (τ)는 각각 하기 식(E1) 및 식(E2)와 하기 식(E3)에 의해 정의되는 것임을 특징으로 하는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.
    Figure 112006508349447-pat00118
    Figure 112006508349447-pat00119
    여기서, i: 프레임 인덱스, τ: 서브밴드 인덱스, g i (τ):
    Figure 112006508349447-pat00120
    G(i):
    Figure 112006508349447-pat00121
    임.
    (
    Figure 112006508349447-pat00122
    : 잡음에 오염된 음성의 단구간에 대한 균일 웨이블릿 패킷 변환 계수(CUWPT), j: 노드 인덱스, k: 트리 깊이 인덱스, m: 노드 내 CUWPT 인덱스,
    Figure 112006508349447-pat00123
    : CMUWP, SB: 서브밴드 사이즈이며 트리 깊이 k에서 노드들 2 K-k 로부터 나뉜 노드들 묶음 2 p (kp)와 노드 사이즈 N 간의 곱에 의해서 주어지는 2 p N, F: 프레임 사이즈, K: 전체 트리 깊이 인덱스)
  4. 청구항 1에 있어서,
    상기 (c) 단계에서, 상기 결정 규칙의 식별자
    Figure 112006508349447-pat00124
    Figure 112006508349447-pat00125
    ,
    Figure 112006508349447-pat00126
    i (τ)는 각각 위쪽 상대 비
    Figure 112006508349447-pat00127
    와 아래쪽 상대 비
    Figure 112006508349447-pat00128
    , 분포 비 η i (τ)에 의해 정의되는 하기 식(E4)와 식(E5), 식(E6)에 의해 계산하는 것을 특징으로 하는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.
    Figure 112006508349447-pat00129
    여기서, i: 프레임 인덱스, τ: 서브밴드 인덱스, λ Up (τ)와 λ Down (τ), μ(τ)는 각각 위쪽 상대 잡음 비와 아래쪽 상대 잡음 비, 분포 잡음 비임.
  5. 청구항 1에 있어서,
    상기 (d) 단계에서, 상기 결정 규칙의 식별자
    Figure 112006508349447-pat00130
    Figure 112006508349447-pat00131
    ,
    Figure 112006508349447-pat00132
    i (τ)를 임계치와 비교하여 결정 규칙이
    Figure 112006508349447-pat00133
    이면 τ번째 서브밴드는 잡음만이 존재하는 서브밴드로, 그 반대는 음성과 잡음이 공존하는 서브밴드로 판별하는 것을 특징으로 하는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.
  6. 청구항 5에 있어서,
    상기 결정 규칙이
    Figure 112006508349447-pat00134
    이면 크기 SNR
    Figure 112006508349447-pat00135
    i (τ)은 1로 설정하는 것을 특징으로 하는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.
  7. 청구항 1에 있어서,
    상기 (d) 단계에서, 상기 크기 SNR
    Figure 112006508349447-pat00136
    i (τ)는
    Figure 112006508349447-pat00137
    으로 정의되는 것을 특징으로 하는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.
    여기서, i: 프레임 인덱스, τ: 서브밴드 인덱스, g i (τ):
    Figure 112006508349447-pat00138
    ,
    h i (τ): 추정된 잡음
    Figure 112006508349447-pat00139
    들의 합인
    Figure 112006508349447-pat00140
    임.
    (
    Figure 112006508349447-pat00141
    : 잡음에 오염된 음성 신호의 단구간에 대한 균일 웨이블릿 패킷 변환 계수(CUWPT), j: 노드 인덱스, k: 트리 깊이 인덱스, m: 노드 내 CUWPT 인덱스,
    Figure 112006508349447-pat00142
    : CMUWP, SB: 서브밴드 사이즈이며 트리 깊이 k에서 노드들 2 K-k 로부터 나뉜 노드들 묶음 2 p (kp)와 노드 사이즈 N 간의 곱에 의해서 주어지는 2 p N, K: 전체 트리 깊이 인덱스)
  8. 청구항 1, 청구항 5 내지 청구항 7 중 어느 한 항에 있어서,
    상기 (d) 단계에서, 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기
    Figure 112006508349447-pat00143
    와 크기 SNR
    Figure 112006508349447-pat00144
    i (τ)에 의해 정의되는 하기 식(E7)을 이용하여 잡음
    Figure 112006508349447-pat00145
    을 추정하는 것을 특징으로 하는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.
    Figure 112006508349447-pat00146
    여기서, i: 프레임 인덱스, j: 노드 인덱스, k: 트리 깊이 인덱스,
    Figure 112006508349447-pat00147
    : 잡음에 오염된 음성 신호의 단구간에 대한 균일 웨이블릿 패킷 변환 계수(CUWPT), m: 노드 내 CUWPT 인덱스, τ: 서브밴드 인덱스임.
  9. 청구항 1에 있어서,
    상기 (e) 단계에서, 균일 웨이블릿 패킷 영역에서 추정된 잡음
    Figure 112006508349447-pat00148
    과 균일 웨이블릿 패킷의 계수 크기
    Figure 112006508349447-pat00149
    에 의해 정의되고 크기 SNR
    Figure 112006508349447-pat00150
    i (τ)의 값을 결정 조건으로 하는 개선된 음성의 균일 웨이블릿 패킷 변환 계수
    Figure 112006508349447-pat00151
    을 얻기 위한 하기 식(E8)의 변형된 스펙트럼 크기 차감 방법을 이용하는 것을 특징으로 하는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.
    Figure 112006508349447-pat00152
    여기서, i: 프레임 인덱스, j: 노드 인덱스, k: 트리 깊이 인덱스, β: 스펙트럼 평활 계수,
    Figure 112006508349447-pat00153
    : 잡음에 오염된 음성 신호의 단구간에 대한 균일 웨이블릿 패킷 변환 계수(CUWPT), m: 노드 내 CUWPT 인덱스, τ: 서브밴드 인덱스임.
KR1020060103480A 2006-10-24 2006-10-24 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법 KR100798056B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060103480A KR100798056B1 (ko) 2006-10-24 2006-10-24 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060103480A KR100798056B1 (ko) 2006-10-24 2006-10-24 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법

Publications (1)

Publication Number Publication Date
KR100798056B1 true KR100798056B1 (ko) 2008-01-28

Family

ID=39219311

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060103480A KR100798056B1 (ko) 2006-10-24 2006-10-24 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법

Country Status (1)

Country Link
KR (1) KR100798056B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100901367B1 (ko) 2008-10-09 2009-06-05 인하대학교 산학협력단 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법
KR100931487B1 (ko) 2008-01-28 2009-12-11 한양대학교 산학협력단 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치
CN116994552A (zh) * 2023-09-28 2023-11-03 深圳市齐奥通信技术有限公司 一种基于深度学习的音频降噪方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001184083A (ja) 1999-11-24 2001-07-06 Matsushita Electric Ind Co Ltd 自動音声認識のための特徴量抽出方法
KR20020028186A (ko) * 2002-03-22 2002-04-16 전명근 웨이블렛변환을 이용한 외부노이즈에 강인한 화자식별
US20030191640A1 (en) 2002-04-09 2003-10-09 Loquendo S.P.A. Method for extracting voice signal features and related voice recognition system
KR20050082566A (ko) * 2004-02-19 2005-08-24 주식회사 케이티 음성인식장치에서의 음성 특징 벡터 추출방법
KR20060043757A (ko) * 2004-03-17 2006-05-15 하만 베커 오토모티브 시스템즈 게엠베하 마이크로폰 어레이를 통해 잡음을 검출하는 방법 및 잡음을저감하는 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001184083A (ja) 1999-11-24 2001-07-06 Matsushita Electric Ind Co Ltd 自動音声認識のための特徴量抽出方法
KR20020028186A (ko) * 2002-03-22 2002-04-16 전명근 웨이블렛변환을 이용한 외부노이즈에 강인한 화자식별
US20030191640A1 (en) 2002-04-09 2003-10-09 Loquendo S.P.A. Method for extracting voice signal features and related voice recognition system
KR20050082566A (ko) * 2004-02-19 2005-08-24 주식회사 케이티 음성인식장치에서의 음성 특징 벡터 추출방법
KR20060043757A (ko) * 2004-03-17 2006-05-15 하만 베커 오토모티브 시스템즈 게엠베하 마이크로폰 어레이를 통해 잡음을 검출하는 방법 및 잡음을저감하는 방법

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
한국음향학회:01년 추계 학술대회지, pp.33-36, 2001, 웨이블렛 변환을 이용한 음성특징 추출에 관한 연구
한국음향학회:04년 추계 학술대회지, pp.43-46, 2004, 적응 웨이블릿 패킷 기반 스펙트럼 차감법을 이용한 음성신호 개선에 관한 연구
한국음향학회:99년 추계 학술대회지, pp.85-88, 1999, Wavelet Packet을 이용한 고압축신호 개선에 관한 연구
한국음향학회:99년 추계 학술대회지, pp.89-92, 1999, 웨이블릿 페킷을 이용한 잡음에 손상된 음성신호 인식에 관한 연구

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100931487B1 (ko) 2008-01-28 2009-12-11 한양대학교 산학협력단 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치
KR100901367B1 (ko) 2008-10-09 2009-06-05 인하대학교 산학협력단 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법
CN116994552A (zh) * 2023-09-28 2023-11-03 深圳市齐奥通信技术有限公司 一种基于深度学习的音频降噪方法及系统

Similar Documents

Publication Publication Date Title
Gerkmann et al. Noise power estimation based on the probability of speech presence
CN109410977B (zh) 一种基于EMD-Wavelet的MFCC相似度的语音段检测方法
KR100330230B1 (ko) 잡음 억제 방법 및 장치
Taghia et al. An evaluation of noise power spectral density estimation algorithms in adverse acoustic environments
KR101009854B1 (ko) 음성 신호의 하모닉스를 이용한 잡음 추정 방법 및 장치
Yuo et al. Robust features for noisy speech recognition based on temporal trajectory filtering of short-time autocorrelation sequences
KR101260938B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
KR100798056B1 (ko) 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법
Zhang et al. Fast nonstationary noise tracking based on log-spectral power mmse estimator and temporal recursive averaging
Lu et al. A gain factor adapted by masking property and SNR variation for speech enhancement in colored-noise corruptions
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
Nakatani et al. Dominance spectrum based V/UV classification and F0 estimation
Bao et al. A novel speech enhancement method using power spectra smooth in wiener filtering
KR100931487B1 (ko) 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치
EP1635331A1 (en) Method for estimating a signal to noise ratio
Bolisetty et al. Speech enhancement using modified wiener filter based MMSE and speech presence probability estimation
Farsi Improvement of minimum tracking in minimum statistics noise estimation method
Deepa et al. Spectral Subtraction Method of Speech Enhancement using Adaptive Estimation of Noise with PDE method as a preprocessing technique
Shen et al. A priori SNR estimator based on a convex combination of two DD approaches for speech enhancement
Zavarehei et al. Speech enhancement using Kalman filters for restoration of short-time DFT trajectories
Han et al. Noise reduction for VoIP speech codecs using modified Wiener Filter
KR101284507B1 (ko) 가우시안 혼합 모듈을 이용한 코드북 기반 음성 향상 방법 및 그 장치
Singh et al. Sigmoid based Adaptive Noise Estimation Method for Speech Intelligibility Improvement
Yang Towards a Speech Enhancement De-noising Algorithm Based on Cepstrum Smoothing Prior SNR Estimation
Hu et al. Single acoustic-channel speech enhancement based on glottal correlation using non-acoustic sensor.

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120116

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee