KR100798056B1 - 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법 - Google Patents
높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법 Download PDFInfo
- Publication number
- KR100798056B1 KR100798056B1 KR1020060103480A KR20060103480A KR100798056B1 KR 100798056 B1 KR100798056 B1 KR 100798056B1 KR 1020060103480 A KR1020060103480 A KR 1020060103480A KR 20060103480 A KR20060103480 A KR 20060103480A KR 100798056 B1 KR100798056 B1 KR 100798056B1
- Authority
- KR
- South Korea
- Prior art keywords
- noise
- index
- subband
- speech
- ratio
- Prior art date
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims description 122
- 230000003595 spectral effect Effects 0.000 claims description 35
- 230000003068 static effect Effects 0.000 claims description 34
- 238000011410 subtraction method Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000009499 grossing Methods 0.000 claims 1
- 230000009466 transformation Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 13
- 238000012733 comparative method Methods 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 11
- 238000012935 Averaging Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000000052 comparative effect Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 238000013441 quality evaluation Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000009408 flooring Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005549 size reduction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법에 관한 것으로서, 높은 비정적인 잡음 환경에서도 신속하고 신뢰적인 잡음 추정을 적응적으로 수행할 수 있고, VAD에 의해 얻어지는 여러 잡음 프레임들이나 일정한 과거 프레임들이 가지는 통계적 정보를 이용하지 않고 현재 서브밴드에서 음성에 가까운지 잡음에 가까운지를 연속적으로 판별하기 위한 결정 규칙과 크기 SNR을 이용하여 잡음 추정을 적응적으로 수행하며, 과잉 추정된 잡음을 수반하지 않아 음성 왜곡이 저감되는 음성 처리 방법에 관한 것이다.
상기한 목적을 달성하기 위한 본 발명은, (a) 잡음에 오염된 음성 신호의 단구간에 대하여 균일 웨이블릿 패킷 변환한 변환 신호를 생성하는 단계와; (b) 상기 변환 신호의 프레임에서 위쪽 상대 비 및 아래쪽 상대 비, 그리고 분포 비를 구하는 단계와; (c) 상기 3종류의 비들을 이용하여 결정 규칙의 식별자를 계산하는 단계와; (d) 상기 단계에서 계산된 결정 규칙의 식별자를 임계치와 비교하여 프레임 내의 서브밴드가 잡음만이 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 판별하고, 서브밴드에 존재하는 잡음의 양을 나타내는 크기 SNR을 설정하며, 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(CMUWP)와 크기 SNR을 이용하여 잡음을 추정하는 단계와; (e) 잡음에 오염된 음성 신호로부터 변형된 스펙트럼 크기 차감 방법을 이용하여 상기 단계에서 추정된 잡음을 차감하여 개선된 음성 신호를 얻는 단계;를 포함하여 구성된다.
웨이블릿, 적응적 잡음 추정, 비정적인 잡음 환경, 상대 비, 분포 비
Description
도 1은 변환 계수와 트리 구조를 나타낸 도면,
도 2은 백색 가우시안 잡음을 나타낸 도면으로, (a)는 정적인 백색 가우시안 잡음을, (b)는 짧은 시간에 걸쳐 다양한 에너지 레벨을 가지는 시변 높은 비정적인 백색 가우시안 잡음을 나타내는 도면,
도 3는 도 2의 정적인 백색 가우시안 잡음과 높은 비정적인 백색 가우시안 잡음에서 추출된 본 발명의 비들을 나타낸 도면으로, (a)는 위쪽 상대 비를, (b)는 아래쪽 상대 비를, (c)는 분포 비를 나타낸 도면,
도 4는 본 발명의 방법과 비교 방법(종래 방법)들의 세그멘털 잡음 추정 에러를 나타낸 비교 도면,
도 5은 본 발명의 방법과 비교 방법들의 향상된 세그멘털 SNR을 나타낸 비교 도면,
도 6은 본 발명의 방법과 비교 방법들의 향상된 로그 지역 비를 나타낸 비교 도면,
도 7은 본 발명의 방법과 비교 방법들의 향상된 가중 스펙트럼 경사도 측정 을 나타낸 비교 도면,
도 8는 음성 파형을 나타낸 도면으로, (a)는 깨끗한 음성의 파형을, (b)는 (a)의 깨끗한 음성이 도 2의 (b)에 나타낸 높은 비정적인 잡음에 의해 오염된 음성의 파형을, (c)는 본 발명의 방법에 의해 추정된 잡음의 파형을 나타낸 도면,
도 9은 높은 비정적인 잡음에 오염된 음성에서 본 발명의 방법과 비교 방법들에 의해 개선된 음성의 파형을 나타낸 도면,
도 10은 높은 비정적인 잡음에 오염된 음성에서 본 발명의 방법과 비교 방법들에 의해 개선된 음성의 스펙트로그램을 나타낸 도면.
본 발명은 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법에 관한 것으로서, 더욱 상세하게는 높은 비정적인 잡음 환경에서도 신속하고 신뢰적인 잡음 추정을 적응적으로 수행할 수 있고, VAD에 의해 얻어지는 여러 잡음 프레임들이나 일정한 과거 프레임들이 가지는 통계적 정보를 이용하지 않고 현재 서브밴드에서 음성에 가까운지 잡음에 가까운지를 연속적으로 판별하기 위한 결정 규칙과 크기 SNR을 이용하여 잡음 추정을 적응적으로 수행하며, 과잉 추정된 잡음을 수반하지 않아 음성 왜곡이 저감되는 음성 처리 방법에 관한 것이다.
일반적으로 음성 신호의 송수신에 있어서 송신단, 수신단, 전달 경로에서의 다양한 잡음 환경으로 인하여 음성 신호는 잡음에 오염된다. 잡음에 오염된 음성 신호에 대하여 자동 음성 처리 시스템(automatic speech processing system)들이 다양한 잡음 환경에서 동작하게 되면 심각한 성능 저하를 초래하게 된다. 따라서, 최근 잡음을 제거하여 이들 시스템의 성능을 향상시키고자 하는 연구가 더욱 활발히 진행되고 있다.
잡음과 음성이 공존하는 단일 채널(single channel)에서 음질 개선을 위한 대부분의 알고리즘들은 잡음 추정을 기본적으로 요구한다. 게다가 잡음 추정의 정확 정도는 잡음에 오염된 음성에서 개선된 음성의 음질을 결정짓는 가장 중요한 요소이다. 만일 잡음 추정이 순수 잡음 보다 낮으면 개선된 음성에서 성가신 잔재 잡음(annoying musical tone)이 인지될 것이며, 반면에 잡음 추정이 순수 잡음보다 높으면 개선된 음성에서 음성 왜곡을 증가시킬 것이다. 실제로 다양한 비정적인 잡음에 오염된 음성에서 잡음 추정을 정확하게 수행하여 성가신 잔재 잡음과 음성 왜곡을 수반하지 않는 개선된 음성을 얻는다는 것은 매우 어려운 일이다.
일반적으로 많은 기존의 잡음 추정 방법들은 음성 구간 추출기(Voice Activity Detector; 이하 VAD라 함)에 의해서 얻어지는 여러 잡음 프레임들이 나타내는 통계적 정보를 이용한다. VAD를 기반으로 하는 이들 방법들은 정적인 잡음 환경에서 만족할 수 있는 결과들을 종종 보인다. 하지만, 배경 잡음이 비정적이거나 음성 요소가 약한 구간 또는 낮은 SNR(Signal to Noise Ratio)이라면 신뢰할 수 있는 VAD를 기대하기 어려우며, 결론적으로 다양한 잡음-레벨 조건들에서 VAD를 이용한 잡음 추정은 만족할 수 있는 결과를 기대하기 어려울 것이다. 추가적으로 잡음 프레임들만을 이용하여 추정된 잡음이기 때문에 음성 구간에서 가변적으로 변하는 잡음을 올바르게 추정하는 것은 불가능하다.
이하, 잡음 추정 기술에 대하여 좀 더 상세히 설명하면 다음과 같다.
1. 주파수 영역에서 스펙트럼 크기 차감 방법
음성 처리를 위해 적은 계산량과 고 효율성을 가지는 주파수 영역에서의 스펙트럼 크기 차감 방법은 음성과 잡음이 공존하는 단일 채널에서 널리 이용된다. 이 방법을 이용한 음질 개선은 잡음에 오염된 음성에서 잡음을 정확하게 추정하는 것이 가장 중요하다. 일반적으로 VAD에 의해 추출된 묵음 구간의 통계적 정보를 이용하여 잡음을 추정한다.
잡음에 오염된 음성 신호 x(n)는 하기 식(1)에 나타낸 바와 같이 깨끗한 음성 s(n)과 가산 잡음 w(n)의 합으로 표현된다.
x(n) =s(n)+w(n) (1)
여기서, n은 이산(discrete) 시간 인덱스(index)이다.
단구간(short-time) x(n)에 대한 푸리에 변환 스펙트럼 계수(Fourier Transform Spectrum Coefficient; 이하 FTSC라 함) X i(f)는 다음과 같이 표현된다.
X i(f) = S i(f) +W i(f) (2)
여기서, S i(l)와 W i(l)는 각각 깨끗한 음성의 FTSC와 잡음의 FTSC이고, i는 프레임 인덱스를, f는 주파수 위치(bin) 인덱스를 나타낸다.
주파수 역영에서 잡음에 오연된 음성의 FTSC X i(f)로부터 개선된 음성의 FTSC i(f)을 얻기 위한 기존의 스펙트럼 크기 차감(spectral magnitude subtraction) 방법은 다음과 같이 표현된다.
여기서, |X i(f)|은 FTSC X i(f)의 크기를 나타내며, |(f)|은 추정된 잡음의 크기를 나타낸다. 또한 β(0≤β<1)는 스펙트럼 평활(spectral flooring) 계수이며, 0에 근접하는 고정된 값을 일반적으로 사용한다.
스펙트럼 크기 차감 방법은 잡음 추정을 필수적으로 요구하며, 잡음 추정의 정확 정도에 따라서 개선된 음성의 음질이 결정된다. 일반적인 잡음 추정 방법은 VAD에 의해서 얻어지는 여러 잡음 프레임들이 가지는 통계적 정보를 이용한다. 하지만, VAD를 기반으로 하는 잡음 추정 방법들은 다양한 비정적인 잡음 환경에서 올바른 잡음 추정을 수행하는 것은 매우 어려운 일이다. 이러한 문제점들을 해결하고자, 잡음에 오염된 음성으로부터 잡음 성분의 추적이나 이전에 추정된 잡음을 이용하는 회귀 시스템 또는 잡음의 양을 나타내는 가중치 등을 기반으로 잡음을 추정하기 위한 다양한 접근 방법들이 제안되었다.
2. 종래의 잡음 추정 방법들
Minimum Statics(MS)을 기반으로 하는 잡음 추정
MS 방법은 일정한 검색 윈도우에 존재하는 잡음에 오염된 음성의 평활된 파 워 스펙트럼에서 추적에 의한 최소치(minima value)를 이용하여 잡음 추정을 수행한다. 평활된 파워 스펙트럼 i(f)은 하기 식(4)에 의해서 주어진다.
여기서, M은 0.8 ~ 1.4초에 해당하는 프레임 수이다.
P i(f) - γP i-1(f) +(1-γ)|X i(f)|2 (8)
여기서, γ(γ≤0.9)은 평활된 스펙트럼 파워 P i(f)를 얻기 위한 망각 계수이다.
그러나, 상기와 같은 MS 방법의 단점들은 다음과 같이 요약된다.
① 높은 비정적인 잡음이 발생하는 경우에 일정한 시간동안 올바른 잡음 추정을 수행하지 못한다.
③ 잡음 추정을 위해서 비교적 긴 과거 프레임들이 나타내는 통계적 정보를 이용한다.
Weighted Averaging(WA)에 의한 잡음 추정
WA 방법은 이전 프레임에서 추정된 잡음 스펙트럼 크기와 현재 프레임에서 잡음에 오염된 음성의 스펙트럼 크기사이에 고정된 망각 계수를 적용하여 잡음 추정을 수행하며, 하기 식(9)와 같이 표현된다.
여기서, e(e<1)는 망각 계수로서 1에 근접한 값을 일반적으로 사용하며, η는 임계치(threshold)를 나타낸다.
그러나, WA 방법의 단점들은 다음과 같이 요약된다.
① 높은 비정적인 잡음이 발생하는 경우 잡음의 변화를 고려하지 않은 고정된 망각 계수의 적용으로 인하여 실제 잡음과 전혀 다른 잡음 추정을 수행한다.
② 잡음 추정을 위한 회귀 과정에서 과잉 추정된 잡음을 때때로 수반할 수 있다.
Minima Controlled Recursive Averaging(MCRA)에 의한 잡음 추정
MS 방법을 기반으로 하는 MCRA 방법에서는 신호 현존 확률에 의해서 조정되는 망각 계수 사용과 과거 스펙트럼 파워 값들의 평균화에 의해 주어지는 잡음 추정이 제안되었다. MCRA 방법은 MS 방법과 마찬가지로 평활된 파워 스펙트럼 i(f)을 기반으로 잡음 추정을 수행한다.
MCRA 방법에서는 검색 윈도에 걸쳐 있는 평활된 파워 스펙트럼 i(f)에서 추적에 의한 최소치 min(i,f)을 얻기 위하여 과거 프레임 길이가 L보다 작을 경우 (i≤L)에는 하기 식(11)을, 과거 프레임들의 길이가 L보가 클 경우(i>L)에는 하기 식(12)를 이용한다.
다음으로, 잡음만이 존재하는지 잡음과 음성이 공존하는지를 판별하기 위해서 하기 식(13)에서 표현된 결정 규칙을 이용하여 신호 현존 확률 I i(f)를 구한다. 신호 현존 확률 I i(f)는 >δ이라면 0이 되고, 반대로 <δ이라면 1이 된다.
여기서, H 0와 H 1은 각각 잡음과 음성이 존재하는 확률과 잡음만이 존재하는 확률이다. αd(0<αd<1)는 H 0 확률의 망각 계수이며, δ는 결정 규칙의 임계치이다.
그러나, MCRA 방법의 단점들은 다음과 같이 요약된다.
① 높은 비정적인 잡음이 발생하는 경우 일정한 시간동안 올바른 잡음 추정을 수행하지 못한다.
② 잡음 추정을 위한 회귀 과정에서 과잉 추정된 잡음을 때때로 수반할 수 있다.
Weighted Factor(WF)를 작용한 잡음 추정
WF 방법에서는 잡음의 양에 따라서 결정되는 차등적 가중 요소 λ(i)가 적용된 변형된 스펙트럼 차감 방법을 이용하여 음질을 개선하기 위한 방법이 제시되었다. 차등적 가중 요수 λ(i)는 하기 식(17)에 나타낸 바와 같이 낮은 주파수 50Hz에 존재하는 잡음에 오염된 음성의 스펙트럼 크기 |X i(f)| 들의 합인 과 순수 잡음의 스펙트럼 크기 |(f)|들의 합인 | LOW|사이의 비로서 정의된다.
그러나, WF 방법의 단점들은 다음과 같이 요약된다.
① WF 방법은 앞에서 소개한 방법들과 본 발명의 방법에 비하여 상대적으로 적은 SNR 개선과 많은 성가신 잔재 잡음으로 인해서 부자연스러운 음질을 제공하는 단점이 있다.
이상에서 설명한 바와 같이, 여러 연구자에 의하여 VAD에 의해서 얻어지는 여러 잡음 프레임들이 가지는 통계적 정보를 도입하지 않고 잡음 추정을 연속적으로 수행하기 위한 다양한 방법들이 제안되었다.
상기한 Minimum Statistic(MS) 방법은 일정한 검색 윈도우에 걸쳐 있는 잡음에 오염된 음성의 평활된 파워 스펙트럼(smoothed power spectrum)에서 추적(tracking)에 의한 최소치(minima value)와 추정 편차를 보상하기 위한 상수 요소간의 곱에 의해서 주어지는 잡음 추정을 제시하고 있다[R. Martin, "Spectral subtraction based on minimum statistics," EUROSPEECH, pp. 1182-1185, Sept. 1994].
하지만, 이러한 MS 방법은 잡음 추정을 위해서 비교적 긴 과거 프레임들의 통계적 정보를 요구하며, 잡음 에너지 레벨이 시간 영역에서 연속적으로 또는 갑자기 커지거나 작아지는 높은 비정적인 잡음이 발생하는 경우에는 일정한 시간동안 올바른 잡음 추정을 수행하지 못하는 문제점들을 가진다.
또한 MS 방법을 기반으로 하는 Minima Controlled Recursive Averaging(MCRA) 방법에서는 신호 현존 확률(signal presence probability)에 의해 조정되는 망각(forgetting) 계수 사용과 과거 스펙트럼 파워 값(past spectral power values)들 평균화에 의해서 주어지는 잡음 추정을 제시하고 있다[I. Cohen and B. Berdugo, "Noise estimation by minima controlled recursive averaging for robust speech enhancement," IEEE Signal Proc. Letters, vol. 9, pp, 12-15, 2002.]. 신호 현존 확률은 제안된 윈도우에 존재하는 잡음에 오염된 음성의 부분 (local) 에너지와 추적에 의한 최소치간의 비로서 정의된다. MCRA 방법의 단점들은 MS 방법과 비슷하게 높은 비정적인 잡음이 발생하는 경우에 일정한 시간동안 올바른 잡음 추정을 수행하지 못하며, 여러 과거 프레임들의 통계적 정보를 요구한다는 것이다. 앞에서 언급한 방법들이 가지는 여러 문제점들을 해결 또는 보완하기 위하여 MS(MCRA) 방법을 기반으로 하여 개선 또는 변형된 여러 방법들이 소개되었으나, 대부분의 개선 또는 변형된 방법들 역시 MS 방법과 MCRA 방법과 같은 문제점들을 보이고 있다.
그리고, Weighted Average(WA) 방법은 현재 프레임에서 잡음 음성의 스펙트럼 크기와 이전 프레임에서 추정된 잡음사이에 고정된 망각 계수를 적용하여 주어지는 잡음 추정을 제시하고 있다[H. G. Hirsh and C. Ehrlicher, "Noise estimation techniques for robust speech recognition," IEEE ICASSP, pp. 153-156, May 1995.]. 그러나, 높은 비정적인 잡음 영역에서 WA 방법은 잡음의 변화를 고려하지 않는 고정된 망각 계수를 적용하므로 실제 잡음과 전혀 다른 잡음 추정을 수행하는 문제점을 가진다.
이에 최근의 Weighted Factor(WF) 방법에서는 잡음의 양에 따라 차등적으로 결정되는 가중 요소가 적용된 변형된 스펙트럼 크기 차감(modified spectral magnitude subtraction) 방법을 이용하여 음질을 개선하기 위한 방법이 제시되고 있다[K. Yamashita and T. Shimamura, "Nonstationary noise estimation using low-frequency regions for spectral subtraction," IEEE Signal Proc. letter, vol. 12, 2005.]. 여기서, 차등적 가중 요소는 낮은 주파수 영역에 존재하는 잡음 음성의 스펙트럼 크기들의 합과 잡음 스펙트럼 크기들의 합사이의 비로서 정의된다. 하지만, 본 발명자가 실시한 다양한 성능 평가 실험을 통해서, 특히 낮은 SNR에서, WF 방법은 앞에서 언급한 기존 방법들과 본 발명의 방법에 비해서 낮은 SNR 개선과 많은 성가신 잔재 잡음으로 인해 부자연스러운 음질을 제공하는 문제점을 가지고 있다.
앞에서 언급한 대부분의 방법들이 공통적으로 가지는 또 다른 문제점은 잡음 추정을 위해서 가중치를 곱하거나 회귀(recursion)를 수행하는 과정에서 실제 신호보다 크게 얻어지는 과잉 추정된 잡음을 때때로 수반할 수 있다는 것이다. 과잉 추정된 잡음은 음성 왜곡을 발생시키는 주요 원인이 된다.
요약컨대, 대부분의 기존 방법들은 VAD에 의해서 얻어진 여러 잡음 프레임이나 긴 과거 프레임들이 가지는 통계적 정보를 이용한다. 또한 대부분의 기존 잡음 추정 방법들이 가지는 문제점들은 높은 비정적인 잡음이 발생하는 경우 일정한 시간동안 올바른 잡음 추정을 수행하지 못하거나 전혀 다른 잡음 추정을 수행한다는 것이다. 마지막으로, 잡음 추정 과정에서 과잉 추정된 잡음을 때때로 수반할 수 있다는 것이다.
따라서, 본 발명은 상기와 같은 문제점을 해결하기 위하여 발명한 것으로서, 종래의 잡음 추정 방법들이 잡음 에너지 레벨이 연속적으로 또는 갑자기 커지거나 작아지는 높은 비정적 잡음이 발생하는 경우 일정한 시간동안 올바른 잡음 추정을 수행하지 못하거나 이들 잡음을 전혀 추정하지 못하는 문제점들을 가지고 있는 바, 높은 비정적인 잡음 환경에서 적용될 수 있는 잡음 추정 방법으로서 높은 비정적인 잡음이 발생하더라도 즉각적이면서 신뢰적인 잡음 추정을 적응적으로 수행할 수 있는 새로운 잡음 추정 방법을 제공하는데 그 목적이 있다.
특히, 종래의 잡음 추정 방법들이 VAD에 의해서 얻어지는 여러 잡음 프레임들이나 일정한 과거 프레임들이 가지는 통계적 정보를 이용하여 잡음 추정의 정보를 얻는 것에 비하여, 본 발명은 이들 통계적 정보를 도입하지 않고 잡음만 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 판별하기 위한 새로운 결정 규칙과 크기 SNR을 이용하여 잡음 추정을 적응적으로 수행할 수 있는 잡음 추정 방법을 제공하는데 그 목적이 있다.
또한 종래의 잡음 추정 방법들이 잡음 추정을 수행하는 과정에서 실제 신호보다 크게 얻어지는 과잉 추정된 잡음을 때때로 수반하는 경우가 있어 이를 이용하여 개선한 음성에서는 음성 왜곡이 수반되는 문제점이 있는 바, 본 발명은 과잉 추정된 잡음을 수반하지 않으면서 잡음 추정을 수행할 수 있고, 이에 의하여 음성 왜곡이 저감될 수 있는 잡음 추정 방법을 제공하는데 그 목적이 있다.
이외의 본 발명의 목적들은 하기의 설명을 통해 쉽게 이해될 수 있을 것이다.
이하, 첨부한 도면을 참조하여 본 발명을 상세히 설명하면 다음과 같다.
상기한 목적을 달성하기 위해, 본 발명은, (a) 잡음에 오염된 음성 신호의 단구간에 대하여 균일 웨이블릿 패킷 변환한 변환 신호를 생성하는 단계와; (b) 상 기 변환 신호의 프레임에서 위쪽 상대 비 및 아래쪽 상대 비, 그리고 분포 비를 구하는 단계와; (c) 상기 3종류의 비들을 이용하여 결정 규칙의 식별자를 계산하는 단계와; (d) 상기 단계에서 계산된 결정 규칙의 식별자를 임계치와 비교하여 프레임 내의 서브밴드가 잡음만이 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 판별하고, 서브밴드에 존재하는 잡음의 양을 나타내는 크기 SNR을 설정하며, 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(CMUWP)와 크기 SNR을 이용하여 잡음을 추정하는 단계와; (e) 잡음에 오염된 음성 신호로부터 변형된 스펙트럼 크기 차감 방법을 이용하여 상기 단계에서 추정된 잡음을 차감하여 개선된 음성 신호를 얻는 단계;를 포함하여 구성되는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법을 제공한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예에 대해 더욱 상세히 설명하기로 한다. 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략한다. 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 동일 또는 유사한 개체를 순차적으로 구분하기 위한 식별기호에 불과하다.
본 발명은 높은 비정적인 잡음 환경에서 음질 개선을 위해 즉각적이면서 신뢰적으로 적용될 수 있는 잡음 추정 및 이를 이용한 음질 처리 방법에 관한 것으로서, 여기서 높은 비정적 잡음이라 함은 잡음 에너지 레벨이 시간 영역에서 갑자기 또는 연속적으로 커지거나 작아지는 경우를 말한다.
본 발명에서는 서브밴드(subband)에 존재하는 잡음의 양을 나타내는 크기 SNR(magnitude Signal to Noise Ratio)과 잡음 추정의 정보를 얻기 위한 결정 규칙(decision rule)에 의해 잡음 추정을 수행하며, 여기서 서브밴드는 균일 웨이블릿 패킷 변환(Uniform Wavelet Packet Transform; UWPT)에서 여러 노드(node)들로 구성된다. 크기 SNR은 서브밴드에 존재하는 추정된 잡음의 계수 크기들의 합과 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(Coefficient Magnitude of Uniform Wavelet Packet; CMUWP)들의 합 사이의 비(ratio)로서 우선적으로 설정된다. 다음으로, 잡음만이 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 구분하기 위한 결정 규칙을 만족하는 경우에 크기 SNR은 재설정된다.
본 발명에 따른 잡음 추정 및 이를 이용한 음성 처리 방법의 바람직한 실시예에 대하여 전체 과정을 각 단계별로 좀 더 구체화하여 설명하기로 한다.
첫 번째 단계로서, 잡음에 오염된 음성 신호를 균일 웨이블릿 패킷 변환한 변환 신호를 생성하는 단계이다.
잡음에 오염된 음성 신호를 균일 웨이블릿 패킷 변환(Uniform Wavelet Packet Transform)한 변환 신호를 생성한다. 변환 신호는 균일 웨이블릿 패킷 변환 영역에서의 변환 계수(Coefficient of Uniform Wavelet Packet Transform; CUWPT)이며, 그 구조는 도 1에 도시되어 있다.
도 1을 참조하면, 전체 트리(tree) 레벨은 K이고, 웨이블릿 패킷 변환이 이루어지지 않은 레벨을 K로, 이때의 노드의 개수를 1로 가정한다. 웨이블릿 패킷 변 환 단계에 따라 트리 레벨은 1씩 감소하고, 노드의 개수는 2배로 증가한다. 따라서, k(0≤k≤K)번째 트리 레벨에서 노드의 개수는 2K-k가 된다. 각 노드는 하나 이상의 변환 계수를 가지고 있으며, 노드에 포함되는 변환 계수의 개수는 각 노드마다 동일하다. 본 발명의 실시예에서 k번째 트리 레벨의 각 노드에 포함된 변환 계수가 웨이블릿 변환부에서 생성하는 변환 신호가 된다.
여기서, (m)은 깨끗한 음성의 CUWPT이며, (m)은 잡음의 CUWPT이다. 상기 식(19)의 각 인덱스들은 아래와 같이 정의되며, 이 인덱스들은 본 명세서에 기술된 모든 수식들에 동일한 의미로서 적용된다.
i: 프레임 인덱스
j: 노드 인덱스(0 ≤ j ≤ 2 K-k ―1)
K: 전체 트리 깊이 인덱스
k: 트리 깊이 인덱스(0 ≤ k ≤ K)
m: 노드 내 CUWPT 인덱스
두 번째 단계로서, 균일 웨이블릿 패킷 변환한 변환 신호의 프레임에서 위쪽 상대 비, 아래쪽 상대 비, 그리고 분포 비를 구하는 단계이다.
잡음과 음성이 공존하는 단일 채널에 존재하는 높은 비정적인 잡음에 오염된 잡음 음성에서 잡음 추정을 정확하게 수행하는 것은 매우 어려운 일이다. 그 주된 이유는 이들 잡음의 영향을 받지 않으면서 잡음과 음성 사이를 구분하기 위한 식별자들을 추출하기가 어렵기 때문이다. 이와 같은 문제점을 보다 효율적으로 해결하고자, 본 발명에서는 3종류의 비, 즉 하기 식(20)에 의해 정의되는 위쪽 상대 비(upside relative ratio) 와, 하기 식(21)에 의해 정의되는 아래쪽 상대 비(downside relative ratio) 와, 하기 식(22)에 의해 정의되는 분포 비(distribution ratio) η i (τ)를 이용한다. 위쪽 상대 비 와 아래쪽 상대 비 는 현재 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(coefficient magnitude of uniform wavelet packet; CMUWP) 들의 합과, 위쪽과 아래쪽 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(CMUWP) 들의 합 사이의 상대 유사 정도를 나타낸다. 여기서, 서브밴드는 균일 웨이블릿 패킷 변환(UWPT)한 신호에 존재하는 여러 노드들로 구성된다. 그리고, 분포 비 η i (τ)는 프레임에 존재하는 균일 웨이블릿 패킷의 계수 크기(CMUWP) 들의 합에서 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(CMUWP) 들의 합이 차지하는 분포 정도를 나타낸다.
여기서, τ: 서브밴드 인덱스(0≤τ≤2 K-p ―1),
SB: 서브밴드 사이즈이며 트리 깊이 k에서 노드들 2 K-k 로부터(K: 전체 트리 깊이) 나뉜 노드들 묶음 2 p (k≤p)와 노드 사이즈 N 간의 곱에 의해서 주어지는 2 p N,
도 2은 백색 가우시안(white Gaussian) 잡음을 나타낸 도면으로, (a)는 정적인 백색 가우시안 잡음을, (b)는 짧은 시간에 걸쳐 잡음 에너지 레벨이 다양하게 변하는 시변(time-varying) 높은 비정적인 백색 가우시안 잡음을 나타내는 것이며, 도 3는 본 발명에서 제안하는 비들을 나타낸 도면이다. 도 3의 각 비는 도 2의 (a)에 나타낸 정적인 백색 가우시안 잡음과 (b)에 나타낸 높은 비정적인 백색 가우시안 잡음에서 추출된 것이며, 도 3에서 (a)는 위쪽 상대 비 를, (b)는 아래쪽 상대 비 를, (c)는 분포 비 η i (τ)를 나타낸 것이다. 도 3의 (a), (b) 및 (c)에서 각각 점선은 도 2의 (a)에 나타낸 정적인 백색 가우시안 잡음의 비를, 실선은 도 2의 (b)에 나타낸 높은 비정적인 백색 가우시안 잡음의 비를 나타낸다. 도 3를 참조하면, (a)에서 정적인 잡음과 높은 비정적인 잡음의 위쪽 상대 비 가 거의 같은 수치를 나타냄을 알 수 있으며, (b)에서 정적인 잡음과 높은 비정적인 잡음의 아래쪽 상대 비 가, 그리고 (c)에서는 정적인 잡음과 높은 비정적인 잡음의 분포 비 η i (τ)가 거의 같은 수치를 나타냄을 알 수 있다. 이러한 이유는 본 발명에서 제시하는 이들 비들은 갑자기 또는 연속적으로 커지거나 작아지는 잡음 에너지 레벨 변화의 영향을 거의 받지 않기 때문이다. 결론적으로 본 발명에서 제시하는 이들 비들은 잡음 에너지 레벨 변화에 상관없이 정적인 잡음에서 제시하는 안정적인 수치를 제시한다는 것이다.
다음 단계로서, 이전의 단계에서 계산된 상기 3종류의 비들을 이용하여 결정 규칙의 식별자를 계산하는 단계가 수행된다.
잡음에 오염된 음성에서 잡음 추정의 정보를 얻기 위한 종래의 잡음 추정 방법들은 VAD에 의해 얻어지는 여러 잡음 프레임들이나 일정한 과거 프레임들이 가지는 통계적 정보를 이용한다. 본 발명에서는 이들 통계적 정보를 도입하지 않고 잡 음만 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 판별하기 위한 결정 규칙의 식별자 , 와 i (τ)를 계산하고, 계산된 이들 결정 규칙의 식별자를 이용하여 잡음 추정의 정보를 갱신한다. 예로, 만일 , 와 i (τ)가 동시에 0에 근접하면 τ번째 서브밴드는 잡음만이 존재하는 서브밴드를 나타낸다. 결정 규칙의 식별자는 하기 식(23), 식(24) 및 식(25)에 의해 계산된다.
여기서, λ Up (τ), λ Down (τ) 및 μ(τ)는 각각 위쪽 상대 잡음 비, 아래쪽 상대 잡음 비 및 분포 잡음 비이며, 이후 단계의 식(27)에서 제시하는 결정 규칙에 의해서 적응적으로 주어진다. 초기 λ Up (τ), λ Down (τ) 및 μ(τ)의 설정은 각각 순수 잡음 신호들로 구성된 첫 번째 또는 특정 프레임의 위쪽 상대 비 , 아래쪽 상대 비 와 분포 비 η i (τ)로부터 얻는다.
다음 단계로서, 이전 단계에서 계산된 결정 규칙의 식별자를 임계치와 비교 하여 프레임 내 서브밴드가 잡음만이 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 판별하고, 서브밴드에 존재하는 잡음의 양을 나타내는 크기 SNR i (τ)을 설정하며, 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기와 크기 SNR i (τ)을 이용하여 잡음을 추정하는 단계가 수행된다.
다음으로, 잡음 추정의 정보를 얻기 위해서 잡음만이 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 판별하기 위한 결정 규칙은 이전 단계에서 계산된 식별자를 이용하여 하기 식(27)에 나타낸 바와 같다.
결정 규칙이 이면 잡음만이 존재하는 서브밴드를 나타내며, 그 반대는 음성과 잡음이 공존하는 서브밴드를 나타낸다. 결정 규칙이 이면 크기 SNR은 i (τ)=1로 재설정되며, 잡음의 변화에 대해서 보다 효과적으로 대처하기 위해서 위쪽 상대 잡음 비 λ Up (τ)는 위쪽 상대 비 로, 아래쪽 상대 잡음 비 λ Down (τ)는 아래쪽 상대 비 로, 분포 잡음 비 μ(τ)는 분포 비 η i (τ)로 각각 대치된다(즉, i (τ)=1, λ Up (τ)=, λ Down (τ)=, μ(τ)=η i (τ)가 됨).
여기서, 는 잡음만이 존재하는 가설(hypothesis)이며, 는 음성과 잡음이 공존할 가설이다. Th(Th<1)는 결정 규칙의 임계치이다. 마지막으로, 본 발명에서 잡음 추정은 하기 식(28)에 의해 주어진다.
여기서, k(k<1)는 개선된 음성의 불연속성을 방지하기 위한 망각 계수이다. 본 발명에 따른 잡음 추정 방법의 주된 특징은 1보다 작은 i (τ) 곱하여 잡음 추정을 수행하기 때문에 과잉 추정된 잡음을 수반하지 않는다는 것이다. 결론적으로 본 발명의 잡음 추정을 이용하여 개선된 음성에는 과잉 추정된 잡음을 이용하여 개선 된 음성에 비하여 적은 음성 왜곡을 발생시킨다.
다음 단계로서, 잡음에 오염된 음성 신호로부터 변형된 스펙트럼 크기 차감 방법을 이용하여 추정된 잡음을 차감하여 개선된 음성 신호를 얻는 단계가 수행된다.
균일 웨이블릿 패킷 영역에서 추정된 잡음을 효율적으로 제거하여 개선된 음성의 균일 웨이블릿 패킷 변환 계수(CUWPT) 을 얻기 위한 종래의 스펙트럼 크기 차감 방법은 하기 식(29)에 나타낸 바와 같다.
본 발명에서는 상기 식(28)에 의해 추정된 잡음 을 이용하여 개선된 음성의 균일 웨이블릿 패킷 변환 계수(CUWPT) 을 얻기 위해서 하기 식(30)으로 나타낸 변형된 스펙트럼 크기 차감 방법을 이용한다. 즉, 본 발명에서는, 음질 개선을 위한 변형된 스펙트럼 크기 차감 방법으로, 식(29)에 나타낸 종래의 스펙트럼 크기 차감 방법에서 조건 대신에 i (τ)≠1을 조건으로 하고, 조건 i (τ)=1인 경우 가 되므로 대신에 을 사용한다는 것이다. 이러한 본 발명의 변형된 스펙트럼 크기 차감 방법 은 하기 식(30)에 나타낸 바와 같다.
[성능 평가]
이하, 전술한 새로운 잡음 추정 및 잡음 차감 방법을 이용하는 본 발명에 따른 음성 처리 결과의 성능을 알아보기 위하여 본 발명자는 다양한 음질 평가 방법들을 수행하였으며, 이를 설명하면 다음과 같다.
본 발명의 방법을 적용한 경우와, 비교 방법으로서 종래의 MS 방법, MCRA 방법, WA 방법 및 WF 방법을 적용한 경우에 대해 성능을 평가하였으며, 평가는 세그멘털 잡음 추정 에러(Seg.NEE: Segmental Noise Estimation Error; 이하 Seg.NEE라 함), 향상된 세그멘털 신호대 잡음비(Improved Segmental Signal to Noise Ratio; 이하 Seg.SNRImp라 함), 향상된 로그 지역 비(Improved Log Area Ratio; 이하 LARIMP라 함), 및 향상된 가중 스펙트럼 경사도 측정(Improved Weighted Spectral Slope Measure; 이하 WSSMIMP라 함)을 이용하였다. 실험을 위해서, 음성 인식을 위한 음성 데이터베이스(예를 들어, TIMIT)로부터 10명의 남성과 10명의 여성으로 구성된 음성 신호 20개와 NoiseX-92로부터 3종류의 잡음인 전투기 잡음(aircraft cockpit noise), 음성 유사 잡음(speech-like noise), 백색 가우시안 잡음(white Gaussian noise)을 발췌하였다. 이들 발췌한 음성과 잡음을 이용하여 신호대 잡음비(SNR) -5 ~ 5dB 사이로 오염시킨 음성을 이용하였다.
세그멘털 잡음 추정 에러(Segmental Noise stimation error; Seg.NEE)
추정된 잡음과 순순 잡음 사이의 추정 오차 정도를 측정하기 위해서, 본 발명의 방법과 비교 방법들이 동일하게 가지는 시간 영역에서 Seg.NEE을 측정하였으며, 이는 하기 식(31)과 같이 정의된다.
여기서, F과 L은 프레임의 전체 수와 프레임 사이즈이다. 도 4는 본 발명의 방법과 비교 방법들에 의해서 얻어진 Seg.NEE을 나타내었다. 도 4에 나타낸 바와 같이, 전체 평균 Seg.NEE에서, 본 발명의 방법이 WA, WF, MCRA와 MS 방법에 비해서 상대적으로 각각 0.0091, 0.0058, 0.0075와 0.03dB 차이만큼 좋은 성능을 나타내는 것을 관찰할 수 있었다. 추가적으로 본 발명과 비교 방법들의 Seg.NEE 성능을 보다 편리하게 구분할 수 있도록 하기 위해서 하기 표 1에 전체와 잡음별 평균을 나타내었다.
[표 1]
전체와 잡음별 평균 세그멘털 잡음 추정 에러
세그멘털 신호대 잡음비(Segmental Signal to Noise Ratio; Seg.SNR)
개선된 음성의 SNR 개선 정도를 측정하기 위해서 가장 일반적으로 사용되는 Seg.SNR[J. R. Deller, J. G. Proakis, and J. H. L. Hansen, Discrete-time processing of speech signals, Englewood Cliffs, NJ: Prentice-Hall, 1993.]을 이용하였으며, 개선된 음성의 Seg.SNROutput에서 잡음에 오염된 음성의 Seg.SNRInput을 차감한 Seg.SNRImp를 측정하였다. Seg.SNR은 하기 식(32)와 같이 정의되며, Seg.SNRImp는 하기 식(33)으로 정의된다.
여기서, Seg.SNROutput과 Seg.SNRInput은 각각 개선된 음성의 Seg.SNR과 잡음 음성의 Seg.SNR이다. 도 5에서 본 발명의 방법과 비교 방법들에 의해서 얻어진 Seg.SNRImp을 나타내었다. 도 5에 나타낸 바와 같이, 전체 평균 Seg.SNRImp에서, 본 발명의 방법이 WA, WF, MCRA와 MS 방법에 비해 상대적으로 각각 2.78, 3.55, 2.44와 2.00dB 차이만큼의 좋은 성능을 나타내는 것으로 관찰되었다. 추가적으로 본 발명의 방법과 비교 방법들의 Seg.SNRImp 성능을 보다 편리하게 구분할 수 있도록 하기 위해서 하기 표 2에 전체와 잡음별 평균을 나타내었다.
[표 2]
전체와 잡음별 평균 향상된 세그멘털 SNR
로그 지역 비(Log Area Ratio; LAR)
선형 예측 부호화(Linear Predict Codding; LPC)를 이용한 음질 평가 중에서 주관적 음질 평가와 가장 높은 상관관계를 나타내는 LAR[J. R. Deller, J. G. Proakis, and J. H. L. Hansen]을 이용하였다. 잡음에 오염된 음성의 LARInput에서 개선된 음성의 LAROutput을 차감한 LARImp를 측정하였다. LAR은 하기 식(34)와 같이 정의되며, LARImp는 하기 식(35)로 정의된다.
여기서, P는 전체 LPC 계수 차수이다. p s ( n )(l)는 깨끗한 음성의 LPC 계수이며, 는 개선된 음성의 LPC 계수이다. 도 6에서 본 발명의 방법과 비교 방법들에 의해서 얻어진 LARImp를 나타내었다. 도 6에 나타낸 바와 같이, 전체 평균 LARImp에서, 본 발명의 방법이 WA, WF, MCRA와 MS 방법에 비해서 상대적으로 각각 0.312, 0.332, 0.473과 0.201dB 차이만큼 좋은 성능을 나타내는 것으로 관찰되었다. 추가적으로 본 발명의 방법과 비교 방법들의 LARImp 성능을 보다 편리하게 구분할 수 있도록 하기 위해서 하기 표 3에 전체와 잡음별 평균을 나타내었다.
[표 3]
전체와 잡음별 평균 향상된 로그 지역 비
가중 스펙트럼 경사도 측정(Weighted Spectral Slope Measure; WSSM)
다양한 객관적 음질 평가 방법들 중에서 주관적 음질 평가와 가장 높은 상관관계를 나타내는 청각 모델 기반의 WSSM[J. R. Deller, J. G. Proakis, and J. H. L. Hansen]을 이용하였다. 잡음에 오염된 음성의 WSSMInput에서 개선된 음성의 WSSMOutput을 차감한 WSSMImp를 측정하였다. WSSM은 하기 식(36)과 같이 정의되며, WSSMImp는 하기 식(37)로 정의된다.
여기서, M과 은 각각 깨끗한 음성의 음압 레벨(Sound Pressure Level; SPL)과 개선된 음성의 음압 레벨이다. M SPL은 전체 성능을 조절하기 가변적인 계수이며, Γ i (q)는 각각의 임계 밴드의 가중치이다. CB는 임계 대역(Critical Band)의 수이다. WSSMInput과 WSSMOutput은 각각 잡음에 오염된 음성의 WSSM과 개선된 음성의 WSSM이다. 도 7은 본 발명 방법과 비교 방법들에 의해서 얻어진 WSSMImp을 나타내었다. 도 7에 나타낸 바와 같이, 전체 평균 WSSMImp에서, 본 발명의 방법이 WA, WF와 MCRA 방법에 비해서 상대적으로 각각 8.68, 6.79와 14.82dB 차이만큼 좋은 성능을 나타내는 반면에 MS 방법에 비해서는 동등한 수준(0.44dB)을 나타내는 것으로 관찰되었다. 추가적으로 본 발명의 방법과 비교 방법들의 WSSMImp 성능을 보다 편리하게 구분할 수 있도록 하기 위해서 하기 표 4에 전체와 잡음별 평균을 나타내었다.
[표 4]
전체와 잡음별 평균 향상된 가중 스펙트럼 경사도 측정
음성 파형과 스펙트로그램 분석
도 8는 음성 파형을 나타낸 도면으로, (a)는 깨끗한 음성의 파형을, (b)는 (a)의 깨끗한 음성이 도 2의 (b)에 나타낸 높은 비정적인 잡음에 의해 오염된 음성의 파형을, (c)는 본 발명의 방법에 의해 추정된 잡음의 파형을 나타낸 도면이다.
도 8의 (c)를 참조하면, 본 발명의 방법에 의해 추정된 잡음의 파형이 도 2의 (b)에 나타낸 실제 잡음의 파형과 상당히 유사하다는 것을 확인할 수 있다.
도 9과 도 10은 높은 비정적인 잡음에 의해 오염된 음성에서 본 발명의 방법과 비교 방법들에 의해 추정된 잡음을 이용하여 개선된 음성의 파형과 스펙트로그램을 나타낸 것이다. 도 9에서 (a)는 높은 비정적인 잡음에 오염된 음성의 파형을, (b)는 WA 방법, (c)는 WF 방법, (d)는 MCRA 방법, (e)는 MS 방법, (f)는 본 발명의 방법에 의해 개선된 음성의 파형을 나타낸 도면이다. 또한 도 10에서 (a)는 높은 비정적인 잡음에 오염된 음성을, (b)는 WA 방법, (c)는 WF 방법, (d)는 MCRA 방법, (e)는 MS 방법, (f)는 본 발명의 방법에 의해 개선된 음성의 스펙트로그램을 나타낸 도면이다.
우선 도 9을 참조하면, (b) ~ (e)에 나타낸 비교 방법들의 결과에서는 높은 비정적인 잡음 영역에서 올바른 잡음 추정을 수행하지 못하여 개선된 음성에 여전히 많은 잡음이 잔재하는 것을 확인할 수 있다. 이와 대조적으로, 도 9의 (f)에 나타낸 바와 같이, 본 발명의 방법에 의해 개선된 음성에는 잔재 잡음이 거의 없음을 알 수 있었으며, 도 8의 (a)에 나타낸 깨끗한 음성의 파형과 가장 유사한 음성 개선이 가능함을 확인할 수 있었다.
더욱이, 도 10을 참조하면, 본 발명의 방법에 비해 비교 방법들의 음성에는 다량의 성가신 잔재 잡음이 포함되어 있으며, 불안정한 스펙트로그램이 나타나는 것을 확인할 수 있다.
이상에서 설명한 바와 같이, 본 발명에 따른 적응적 잡음 추정 및 이를 이용한 음성 처리 방법에 의하면, 다음과 같은 효과가 있게 된다.
1) 높은 비정적인 잡음 환경에 유용하게 적용될 수 있는 것으로서, 높은 비정적인 잡음이 발생하더라도 매우 빨리 올바른 잡음 추정을 적응적으로 수행할 수 있게 된다.
2) VAD에 의해 얻어지는 여러 잡음 프레임들이나 일정한 과거 프레임들이 가지는 통계적 정보를 이용하지 않고 현재 서브밴드에서 음성에 가까운지 잡음에 가까운지를 연속적으로 판별하기 위한 결정 규칙과 크기 SNR을 이용하여 잡음 추정을 적응적으로 수행할 수 있게 된다.
3) 과잉 추정된 잡음을 수반하지 않기 때문에 음성 왜곡이 저감되는 효과가 있다.
4) 본 발명의 잡음 추정 기술은 다양한 음성 관련 응용 시스템에 널리 이용될 수 있고, 특히 시간 지연 없이 잡음 추정이 수행되기 때문에 실시간을 요구하는 거의 모든 음성 관련 응용 시스템에 적용될 수 있으며, 적용시에 다양한 잡음 환경에서 시스템의 성능을 더욱 향상시킬 수 있게 된다.
Claims (9)
- (a) 잡음에 오염된 음성 신호의 단구간에 대하여 균일 웨이블릿 패킷 변환한 변환 신호를 생성하는 단계와;(b) 상기 변환 신호의 프레임에서 위쪽 상대 비 및 아래쪽 상대 비, 그리고 분포 비를 구하는 단계와;(c) 상기 3종류의 비들을 이용하여 결정 규칙의 식별자를 계산하는 단계와;(d) 상기 단계에서 계산된 결정 규칙의 식별자를 임계치와 비교하여 프레임내의 서브밴드가 잡음만이 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 판별하고, 서브밴드에 존재하는 잡음의 양을 나타내는 크기 SNR을 설정하며, 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(CMUWP)와 크기 SNR을 이용하여 잡음을 추정하는 단계와;(e) 잡음에 오염된 음성 신호로부터 변형된 스펙트럼 크기 차감 방법을 이용하여 상기 단계에서 추정된 잡음을 차감하여 개선된 음성 신호를 얻는 단계;를 포함하여 구성되는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.
- 청구항 1에 있어서,상기 (b) 단계에서, 상기 위쪽 상대 비와 아래쪽 상대 비는 현 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기들의 합과, 위쪽과 아래쪽 서브밴드에 존 재하는 균일 웨이블릿 패킷의 계수 크기들의 합 사이의 상대 유사 정도를 각각 나타내고, 상기 분포 비는 프레임에 존재하는 균일 웨이블릿 패킷의 계수 크기들의 합에서 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기들의 합이 차지하는 분포 정도를 나타내는 것임을 특징으로 하는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.
- 청구항 2에 있어서,상기 위쪽 상대 비 및 아래쪽 상대 비 와 상기 분포 비 η i (τ)는 각각 하기 식(E1) 및 식(E2)와 하기 식(E3)에 의해 정의되는 것임을 특징으로 하는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.
- 청구항 1에 있어서,
- 청구항 1, 청구항 5 내지 청구항 7 중 어느 한 항에 있어서,상기 (d) 단계에서, 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기 와 크기 SNR i (τ)에 의해 정의되는 하기 식(E7)을 이용하여 잡음 을 추정하는 것을 특징으로 하는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.
- 청구항 1에 있어서,상기 (e) 단계에서, 균일 웨이블릿 패킷 영역에서 추정된 잡음 과 균일 웨이블릿 패킷의 계수 크기 에 의해 정의되고 크기 SNR i (τ)의 값을 결정 조건으로 하는 개선된 음성의 균일 웨이블릿 패킷 변환 계수 을 얻기 위한 하기 식(E8)의 변형된 스펙트럼 크기 차감 방법을 이용하는 것을 특징으로 하는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060103480A KR100798056B1 (ko) | 2006-10-24 | 2006-10-24 | 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060103480A KR100798056B1 (ko) | 2006-10-24 | 2006-10-24 | 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR100798056B1 true KR100798056B1 (ko) | 2008-01-28 |
Family
ID=39219311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060103480A KR100798056B1 (ko) | 2006-10-24 | 2006-10-24 | 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100798056B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100901367B1 (ko) | 2008-10-09 | 2009-06-05 | 인하대학교 산학협력단 | 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법 |
KR100931487B1 (ko) | 2008-01-28 | 2009-12-11 | 한양대학교 산학협력단 | 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치 |
CN116994552A (zh) * | 2023-09-28 | 2023-11-03 | 深圳市齐奥通信技术有限公司 | 一种基于深度学习的音频降噪方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001184083A (ja) | 1999-11-24 | 2001-07-06 | Matsushita Electric Ind Co Ltd | 自動音声認識のための特徴量抽出方法 |
KR20020028186A (ko) * | 2002-03-22 | 2002-04-16 | 전명근 | 웨이블렛변환을 이용한 외부노이즈에 강인한 화자식별 |
US20030191640A1 (en) | 2002-04-09 | 2003-10-09 | Loquendo S.P.A. | Method for extracting voice signal features and related voice recognition system |
KR20050082566A (ko) * | 2004-02-19 | 2005-08-24 | 주식회사 케이티 | 음성인식장치에서의 음성 특징 벡터 추출방법 |
KR20060043757A (ko) * | 2004-03-17 | 2006-05-15 | 하만 베커 오토모티브 시스템즈 게엠베하 | 마이크로폰 어레이를 통해 잡음을 검출하는 방법 및 잡음을저감하는 방법 |
-
2006
- 2006-10-24 KR KR1020060103480A patent/KR100798056B1/ko not_active IP Right Cessation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001184083A (ja) | 1999-11-24 | 2001-07-06 | Matsushita Electric Ind Co Ltd | 自動音声認識のための特徴量抽出方法 |
KR20020028186A (ko) * | 2002-03-22 | 2002-04-16 | 전명근 | 웨이블렛변환을 이용한 외부노이즈에 강인한 화자식별 |
US20030191640A1 (en) | 2002-04-09 | 2003-10-09 | Loquendo S.P.A. | Method for extracting voice signal features and related voice recognition system |
KR20050082566A (ko) * | 2004-02-19 | 2005-08-24 | 주식회사 케이티 | 음성인식장치에서의 음성 특징 벡터 추출방법 |
KR20060043757A (ko) * | 2004-03-17 | 2006-05-15 | 하만 베커 오토모티브 시스템즈 게엠베하 | 마이크로폰 어레이를 통해 잡음을 검출하는 방법 및 잡음을저감하는 방법 |
Non-Patent Citations (4)
Title |
---|
한국음향학회:01년 추계 학술대회지, pp.33-36, 2001, 웨이블렛 변환을 이용한 음성특징 추출에 관한 연구 |
한국음향학회:04년 추계 학술대회지, pp.43-46, 2004, 적응 웨이블릿 패킷 기반 스펙트럼 차감법을 이용한 음성신호 개선에 관한 연구 |
한국음향학회:99년 추계 학술대회지, pp.85-88, 1999, Wavelet Packet을 이용한 고압축신호 개선에 관한 연구 |
한국음향학회:99년 추계 학술대회지, pp.89-92, 1999, 웨이블릿 페킷을 이용한 잡음에 손상된 음성신호 인식에 관한 연구 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100931487B1 (ko) | 2008-01-28 | 2009-12-11 | 한양대학교 산학협력단 | 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치 |
KR100901367B1 (ko) | 2008-10-09 | 2009-06-05 | 인하대학교 산학협력단 | 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법 |
CN116994552A (zh) * | 2023-09-28 | 2023-11-03 | 深圳市齐奥通信技术有限公司 | 一种基于深度学习的音频降噪方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gerkmann et al. | Noise power estimation based on the probability of speech presence | |
CN109410977B (zh) | 一种基于EMD-Wavelet的MFCC相似度的语音段检测方法 | |
KR100330230B1 (ko) | 잡음 억제 방법 및 장치 | |
Taghia et al. | An evaluation of noise power spectral density estimation algorithms in adverse acoustic environments | |
KR101009854B1 (ko) | 음성 신호의 하모닉스를 이용한 잡음 추정 방법 및 장치 | |
Yuo et al. | Robust features for noisy speech recognition based on temporal trajectory filtering of short-time autocorrelation sequences | |
KR101260938B1 (ko) | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 | |
KR100798056B1 (ko) | 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법 | |
Zhang et al. | Fast nonstationary noise tracking based on log-spectral power mmse estimator and temporal recursive averaging | |
Lu et al. | A gain factor adapted by masking property and SNR variation for speech enhancement in colored-noise corruptions | |
KR100784456B1 (ko) | Gmm을 이용한 음질향상 시스템 | |
Nakatani et al. | Dominance spectrum based V/UV classification and F0 estimation | |
Bao et al. | A novel speech enhancement method using power spectra smooth in wiener filtering | |
KR100931487B1 (ko) | 노이지 음성 신호의 처리 장치 및 그 장치를 포함하는 음성기반 어플리케이션 장치 | |
EP1635331A1 (en) | Method for estimating a signal to noise ratio | |
Bolisetty et al. | Speech enhancement using modified wiener filter based MMSE and speech presence probability estimation | |
Farsi | Improvement of minimum tracking in minimum statistics noise estimation method | |
Deepa et al. | Spectral Subtraction Method of Speech Enhancement using Adaptive Estimation of Noise with PDE method as a preprocessing technique | |
Shen et al. | A priori SNR estimator based on a convex combination of two DD approaches for speech enhancement | |
Zavarehei et al. | Speech enhancement using Kalman filters for restoration of short-time DFT trajectories | |
Han et al. | Noise reduction for VoIP speech codecs using modified Wiener Filter | |
KR101284507B1 (ko) | 가우시안 혼합 모듈을 이용한 코드북 기반 음성 향상 방법 및 그 장치 | |
Singh et al. | Sigmoid based Adaptive Noise Estimation Method for Speech Intelligibility Improvement | |
Yang | Towards a Speech Enhancement De-noising Algorithm Based on Cepstrum Smoothing Prior SNR Estimation | |
Hu et al. | Single acoustic-channel speech enhancement based on glottal correlation using non-acoustic sensor. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120116 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |