KR100798056B1

KR100798056B1 - 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법

Info

Publication number: KR100798056B1
Application number: KR1020060103480A
Authority: KR
Inventors: 정성일; 권영헌; 양성일
Original assignee: 한양대학교 산학협력단
Priority date: 2006-10-24
Filing date: 2006-10-24
Publication date: 2008-01-28

Abstract

본 발명은 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법에 관한 것으로서, 높은 비정적인 잡음 환경에서도 신속하고 신뢰적인 잡음 추정을 적응적으로 수행할 수 있고, VAD에 의해 얻어지는 여러 잡음 프레임들이나 일정한 과거 프레임들이 가지는 통계적 정보를 이용하지 않고 현재 서브밴드에서 음성에 가까운지 잡음에 가까운지를 연속적으로 판별하기 위한 결정 규칙과 크기 SNR을 이용하여 잡음 추정을 적응적으로 수행하며, 과잉 추정된 잡음을 수반하지 않아 음성 왜곡이 저감되는 음성 처리 방법에 관한 것이다.

상기한 목적을 달성하기 위한 본 발명은, (a) 잡음에 오염된 음성 신호의 단구간에 대하여 균일 웨이블릿 패킷 변환한 변환 신호를 생성하는 단계와; (b) 상기 변환 신호의 프레임에서 위쪽 상대 비 및 아래쪽 상대 비, 그리고 분포 비를 구하는 단계와; (c) 상기 3종류의 비들을 이용하여 결정 규칙의 식별자를 계산하는 단계와; (d) 상기 단계에서 계산된 결정 규칙의 식별자를 임계치와 비교하여 프레임 내의 서브밴드가 잡음만이 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 판별하고, 서브밴드에 존재하는 잡음의 양을 나타내는 크기 SNR을 설정하며, 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(CMUWP)와 크기 SNR을 이용하여 잡음을 추정하는 단계와; (e) 잡음에 오염된 음성 신호로부터 변형된 스펙트럼 크기 차감 방법을 이용하여 상기 단계에서 추정된 잡음을 차감하여 개선된 음성 신호를 얻는 단계;를 포함하여 구성된다.

웨이블릿, 적응적 잡음 추정, 비정적인 잡음 환경, 상대 비, 분포 비

Description

높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법 {Speech Processing Method for Speech Enhancement in Highly Nonstationary Noise Environments}

도 1은 변환 계수와 트리 구조를 나타낸 도면,

도 2은 백색 가우시안 잡음을 나타낸 도면으로, (a)는 정적인 백색 가우시안 잡음을, (b)는 짧은 시간에 걸쳐 다양한 에너지 레벨을 가지는 시변 높은 비정적인 백색 가우시안 잡음을 나타내는 도면,

도 3는 도 2의 정적인 백색 가우시안 잡음과 높은 비정적인 백색 가우시안 잡음에서 추출된 본 발명의 비들을 나타낸 도면으로, (a)는 위쪽 상대 비를, (b)는 아래쪽 상대 비를, (c)는 분포 비를 나타낸 도면,

도 4는 본 발명의 방법과 비교 방법(종래 방법)들의 세그멘털 잡음 추정 에러를 나타낸 비교 도면,

도 5은 본 발명의 방법과 비교 방법들의 향상된 세그멘털 SNR을 나타낸 비교 도면,

도 6은 본 발명의 방법과 비교 방법들의 향상된 로그 지역 비를 나타낸 비교 도면,

도 7은 본 발명의 방법과 비교 방법들의 향상된 가중 스펙트럼 경사도 측정 을 나타낸 비교 도면,

도 8는 음성 파형을 나타낸 도면으로, (a)는 깨끗한 음성의 파형을, (b)는 (a)의 깨끗한 음성이 도 2의 (b)에 나타낸 높은 비정적인 잡음에 의해 오염된 음성의 파형을, (c)는 본 발명의 방법에 의해 추정된 잡음의 파형을 나타낸 도면,

도 9은 높은 비정적인 잡음에 오염된 음성에서 본 발명의 방법과 비교 방법들에 의해 개선된 음성의 파형을 나타낸 도면,

도 10은 높은 비정적인 잡음에 오염된 음성에서 본 발명의 방법과 비교 방법들에 의해 개선된 음성의 스펙트로그램을 나타낸 도면.

본 발명은 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법에 관한 것으로서, 더욱 상세하게는 높은 비정적인 잡음 환경에서도 신속하고 신뢰적인 잡음 추정을 적응적으로 수행할 수 있고, VAD에 의해 얻어지는 여러 잡음 프레임들이나 일정한 과거 프레임들이 가지는 통계적 정보를 이용하지 않고 현재 서브밴드에서 음성에 가까운지 잡음에 가까운지를 연속적으로 판별하기 위한 결정 규칙과 크기 SNR을 이용하여 잡음 추정을 적응적으로 수행하며, 과잉 추정된 잡음을 수반하지 않아 음성 왜곡이 저감되는 음성 처리 방법에 관한 것이다.

일반적으로 음성 신호의 송수신에 있어서 송신단, 수신단, 전달 경로에서의 다양한 잡음 환경으로 인하여 음성 신호는 잡음에 오염된다. 잡음에 오염된 음성 신호에 대하여 자동 음성 처리 시스템(automatic speech processing system)들이 다양한 잡음 환경에서 동작하게 되면 심각한 성능 저하를 초래하게 된다. 따라서, 최근 잡음을 제거하여 이들 시스템의 성능을 향상시키고자 하는 연구가 더욱 활발히 진행되고 있다.

잡음과 음성이 공존하는 단일 채널(single channel)에서 음질 개선을 위한 대부분의 알고리즘들은 잡음 추정을 기본적으로 요구한다. 게다가 잡음 추정의 정확 정도는 잡음에 오염된 음성에서 개선된 음성의 음질을 결정짓는 가장 중요한 요소이다. 만일 잡음 추정이 순수 잡음 보다 낮으면 개선된 음성에서 성가신 잔재 잡음(annoying musical tone)이 인지될 것이며, 반면에 잡음 추정이 순수 잡음보다 높으면 개선된 음성에서 음성 왜곡을 증가시킬 것이다. 실제로 다양한 비정적인 잡음에 오염된 음성에서 잡음 추정을 정확하게 수행하여 성가신 잔재 잡음과 음성 왜곡을 수반하지 않는 개선된 음성을 얻는다는 것은 매우 어려운 일이다.

일반적으로 많은 기존의 잡음 추정 방법들은 음성 구간 추출기(Voice Activity Detector; 이하 VAD라 함)에 의해서 얻어지는 여러 잡음 프레임들이 나타내는 통계적 정보를 이용한다. VAD를 기반으로 하는 이들 방법들은 정적인 잡음 환경에서 만족할 수 있는 결과들을 종종 보인다. 하지만, 배경 잡음이 비정적이거나 음성 요소가 약한 구간 또는 낮은 SNR(Signal to Noise Ratio)이라면 신뢰할 수 있는 VAD를 기대하기 어려우며, 결론적으로 다양한 잡음-레벨 조건들에서 VAD를 이용한 잡음 추정은 만족할 수 있는 결과를 기대하기 어려울 것이다. 추가적으로 잡음 프레임들만을 이용하여 추정된 잡음이기 때문에 음성 구간에서 가변적으로 변하는 잡음을 올바르게 추정하는 것은 불가능하다.

이하, 잡음 추정 기술에 대하여 좀 더 상세히 설명하면 다음과 같다.

1. 주파수 영역에서 스펙트럼 크기 차감 방법

음성 처리를 위해 적은 계산량과 고 효율성을 가지는 주파수 영역에서의 스펙트럼 크기 차감 방법은 음성과 잡음이 공존하는 단일 채널에서 널리 이용된다. 이 방법을 이용한 음질 개선은 잡음에 오염된 음성에서 잡음을 정확하게 추정하는 것이 가장 중요하다. 일반적으로 VAD에 의해 추출된 묵음 구간의 통계적 정보를 이용하여 잡음을 추정한다.

잡음에 오염된 음성 신호 x(n)는 하기 식(1)에 나타낸 바와 같이 깨끗한 음성 s(n)과 가산 잡음 w(n)의 합으로 표현된다.

x(n) =s(n)+w(n) (1)

여기서, n은 이산(discrete) 시간 인덱스(index)이다.

단구간(short-time) x(n)에 대한 푸리에 변환 스펙트럼 계수(Fourier Transform Spectrum Coefficient; 이하 FTSC라 함) X _i(f)는 다음과 같이 표현된다.

X _i(f) = S _i(f) +W _i(f) (2)

여기서, S _i(l)와 W _i(l)는 각각 깨끗한 음성의 FTSC와 잡음의 FTSC이고, i는 프레임 인덱스를, f는 주파수 위치(bin) 인덱스를 나타낸다.

주파수 역영에서 잡음에 오연된 음성의 FTSC X _i(f)로부터 개선된 음성의 FTSC

_i(f)을 얻기 위한 기존의 스펙트럼 크기 차감(spectral magnitude subtraction) 방법은 다음과 같이 표현된다.

여기서, ｜X _i(f)｜은 FTSC X _i(f)의 크기를 나타내며, ｜

(f)｜은 추정된 잡음의 크기를 나타낸다. 또한 β(0≤β＜1)는 스펙트럼 평활(spectral flooring) 계수이며, 0에 근접하는 고정된 값을 일반적으로 사용한다.

스펙트럼 크기 차감 방법은 잡음 추정을 필수적으로 요구하며, 잡음 추정의 정확 정도에 따라서 개선된 음성의 음질이 결정된다. 일반적인 잡음 추정 방법은 VAD에 의해서 얻어지는 여러 잡음 프레임들이 가지는 통계적 정보를 이용한다. 하지만, VAD를 기반으로 하는 잡음 추정 방법들은 다양한 비정적인 잡음 환경에서 올바른 잡음 추정을 수행하는 것은 매우 어려운 일이다. 이러한 문제점들을 해결하고자, 잡음에 오염된 음성으로부터 잡음 성분의 추적이나 이전에 추정된 잡음을 이용하는 회귀 시스템 또는 잡음의 양을 나타내는 가중치 등을 기반으로 잡음을 추정하기 위한 다양한 접근 방법들이 제안되었다.

2. 종래의 잡음 추정 방법들

Minimum Statics(MS)을 기반으로 하는 잡음 추정

MS 방법은 일정한 검색 윈도우에 존재하는 잡음에 오염된 음성의 평활된 파 워 스펙트럼에서 추적에 의한 최소치(minima value)를 이용하여 잡음 추정을 수행한다. 평활된 파워 스펙트럼

_i(f)은 하기 식(4)에 의해서 주어진다.

여기서, ｜X _i(f)｜²는 잡음에 오염된 음성의 파워 스펙트럼이며, α(0.9≤α≤0.95)는 평활된 파워 스펙트럼

_i(f)을 얻기 위한 망각 계수이다.

다음으로, 하기 식(5)를 이용하여 일정한 검색 윈도우에 걸쳐 있는 평활된 파워 스펙트럼에서 추적에 의한 최소치

_min(i,f)을 얻는다.

여기서, M은 0.8 ~ 1.4초에 해당하는 프레임 수이다.

마지막으로, 잡음 추정

_i(f) 은 최소치

_min(i,f)와 추정 편차를 보상하기 하기 위한 상수 cf=1.5 간의 곱에 의해서 결정된다.

추정된 잡음

_i(f)을 이용하여 개선된 음성의 FTSC

_i(f)을 얻기 위한 평활된 스펙트럼 크기 기반의 스펙트럼 크기 차감 방법은 하기 식(7) 및 식(8)과 같이 표현된다.

P _i(f) - γP _i-1(f) +(1-γ)｜X _i(f)｜² (8)

여기서, γ(γ≤0.9)은 평활된 스펙트럼 파워 P _i(f)를 얻기 위한 망각 계수이다.

그러나, 상기와 같은 MS 방법의 단점들은 다음과 같이 요약된다.

① 높은 비정적인 잡음이 발생하는 경우에 일정한 시간동안 올바른 잡음 추정을 수행하지 못한다.

② 최소치

_min(i,f)와 보상 계수 cf=1.5를 곱하여 잡음 추정을 수행하는 과정에서 과잉 추정을 때때로 수반할 수 있다.

③ 잡음 추정을 위해서 비교적 긴 과거 프레임들이 나타내는 통계적 정보를 이용한다.

Weighted Averaging(WA)에 의한 잡음 추정

WA 방법은 이전 프레임에서 추정된 잡음 스펙트럼 크기와 현재 프레임에서 잡음에 오염된 음성의 스펙트럼 크기사이에 고정된 망각 계수를 적용하여 잡음 추정을 수행하며, 하기 식(9)와 같이 표현된다.

여기서, e(e＜1)는 망각 계수로서 1에 근접한 값을 일반적으로 사용하며, η는 임계치(threshold)를 나타낸다.

추정된 잡음 ｜

_i(f)｜을 이용하여 개선된 음성의 FTSC

_i(f)을 얻기 위해서 식(3)에서 표현된 스펙트럼 크기 차감 방법을 이용한다.

그러나, WA 방법의 단점들은 다음과 같이 요약된다.

① 높은 비정적인 잡음이 발생하는 경우 잡음의 변화를 고려하지 않은 고정된 망각 계수의 적용으로 인하여 실제 잡음과 전혀 다른 잡음 추정을 수행한다.

② 잡음 추정을 위한 회귀 과정에서 과잉 추정된 잡음을 때때로 수반할 수 있다.

Minima Controlled Recursive Averaging(MCRA)에 의한 잡음 추정

MS 방법을 기반으로 하는 MCRA 방법에서는 신호 현존 확률에 의해서 조정되는 망각 계수 사용과 과거 스펙트럼 파워 값들의 평균화에 의해 주어지는 잡음 추정이 제안되었다. MCRA 방법은 MS 방법과 마찬가지로 평활된 파워 스펙트럼

_i(f)을 기반으로 잡음 추정을 수행한다.

여기서, α_s(0＜α_s＜1)는 평활된 파워 스펙트럼

_i(f)을 얻기 위한 망각 계 수이다.

MCRA 방법에서는 검색 윈도에 걸쳐 있는 평활된 파워 스펙트럼

_i(f)에서 추적에 의한 최소치

_min(i,f)을 얻기 위하여 과거 프레임 길이가 L보다 작을 경우 (i≤L)에는 하기 식(11)을, 과거 프레임들의 길이가 L보가 클 경우(i＞L)에는 하기 식(12)를 이용한다.

다음으로, 잡음만이 존재하는지 잡음과 음성이 공존하는지를 판별하기 위해서 하기 식(13)에서 표현된 결정 규칙을 이용하여 신호 현존 확률 I _i(f)를 구한다. 신호 현존 확률 I _i(f)는

＞δ이라면 0이 되고, 반대로

＜δ이라면 1이 된다.

여기서, H ₀와 H ₁은 각각 잡음과 음성이 존재하는 확률과 잡음만이 존재하는 확률이다. α_d(0＜α_d＜1)는 H ₀ 확률의 망각 계수이며, δ는 결정 규칙의 임계치이다.

마지막으로, 신호 현존 확률 I _i(f)에 의해서 조정되는 망각 계수

_i(f)를 이용한 잡음 추정은 하기 식(16)에 의해서 수행된다.

여기서,

는

이다.

그리고, 추정된 잡음 ｜

_i(f)｜을 이용하여 개선된 음성의 FTSC

그러나, MCRA 방법의 단점들은 다음과 같이 요약된다.

① 높은 비정적인 잡음이 발생하는 경우 일정한 시간동안 올바른 잡음 추정을 수행하지 못한다.

Weighted Factor(WF)를 작용한 잡음 추정

WF 방법에서는 잡음의 양에 따라서 결정되는 차등적 가중 요소 λ(i)가 적용된 변형된 스펙트럼 차감 방법을 이용하여 음질을 개선하기 위한 방법이 제시되었다. 차등적 가중 요수 λ(i)는 하기 식(17)에 나타낸 바와 같이 낮은 주파수 50Hz에 존재하는 잡음에 오염된 음성의 스펙트럼 크기 ｜X _i(f)｜ 들의 합인

과 순수 잡음의 스펙트럼 크기 ｜

(f)｜들의 합인 ｜

_LOW｜

사이의 비로서 정의된다.

그러나, WF 방법의 단점들은 다음과 같이 요약된다.

① WF 방법은 앞에서 소개한 방법들과 본 발명의 방법에 비하여 상대적으로 적은 SNR 개선과 많은 성가신 잔재 잡음으로 인해서 부자연스러운 음질을 제공하는 단점이 있다.

② 가중치 λ(i)를 곱하여 추정된 잡음 λ(i)｜

_i (f)｜에는 가중치 λ(i)로 인한 과잉 추정을 때때로 수반할 수 있다.

이상에서 설명한 바와 같이, 여러 연구자에 의하여 VAD에 의해서 얻어지는 여러 잡음 프레임들이 가지는 통계적 정보를 도입하지 않고 잡음 추정을 연속적으로 수행하기 위한 다양한 방법들이 제안되었다.

상기한 Minimum Statistic(MS) 방법은 일정한 검색 윈도우에 걸쳐 있는 잡음에 오염된 음성의 평활된 파워 스펙트럼(smoothed power spectrum)에서 추적(tracking)에 의한 최소치(minima value)와 추정 편차를 보상하기 위한 상수 요소간의 곱에 의해서 주어지는 잡음 추정을 제시하고 있다[R. Martin, "Spectral subtraction based on minimum statistics," EUROSPEECH, pp. 1182-1185, Sept. 1994].

하지만, 이러한 MS 방법은 잡음 추정을 위해서 비교적 긴 과거 프레임들의 통계적 정보를 요구하며, 잡음 에너지 레벨이 시간 영역에서 연속적으로 또는 갑자기 커지거나 작아지는 높은 비정적인 잡음이 발생하는 경우에는 일정한 시간동안 올바른 잡음 추정을 수행하지 못하는 문제점들을 가진다.

또한 MS 방법을 기반으로 하는 Minima Controlled Recursive Averaging(MCRA) 방법에서는 신호 현존 확률(signal presence probability)에 의해 조정되는 망각(forgetting) 계수 사용과 과거 스펙트럼 파워 값(past spectral power values)들 평균화에 의해서 주어지는 잡음 추정을 제시하고 있다[I. Cohen and B. Berdugo, "Noise estimation by minima controlled recursive averaging for robust speech enhancement," IEEE Signal Proc. Letters, vol. 9, pp, 12-15, 2002.]. 신호 현존 확률은 제안된 윈도우에 존재하는 잡음에 오염된 음성의 부분 (local) 에너지와 추적에 의한 최소치간의 비로서 정의된다. MCRA 방법의 단점들은 MS 방법과 비슷하게 높은 비정적인 잡음이 발생하는 경우에 일정한 시간동안 올바른 잡음 추정을 수행하지 못하며, 여러 과거 프레임들의 통계적 정보를 요구한다는 것이다. 앞에서 언급한 방법들이 가지는 여러 문제점들을 해결 또는 보완하기 위하여 MS(MCRA) 방법을 기반으로 하여 개선 또는 변형된 여러 방법들이 소개되었으나, 대부분의 개선 또는 변형된 방법들 역시 MS 방법과 MCRA 방법과 같은 문제점들을 보이고 있다.

그리고, Weighted Average(WA) 방법은 현재 프레임에서 잡음 음성의 스펙트럼 크기와 이전 프레임에서 추정된 잡음사이에 고정된 망각 계수를 적용하여 주어지는 잡음 추정을 제시하고 있다[H. G. Hirsh and C. Ehrlicher, "Noise estimation techniques for robust speech recognition," IEEE ICASSP, pp. 153-156, May 1995.]. 그러나, 높은 비정적인 잡음 영역에서 WA 방법은 잡음의 변화를 고려하지 않는 고정된 망각 계수를 적용하므로 실제 잡음과 전혀 다른 잡음 추정을 수행하는 문제점을 가진다.

이에 최근의 Weighted Factor(WF) 방법에서는 잡음의 양에 따라 차등적으로 결정되는 가중 요소가 적용된 변형된 스펙트럼 크기 차감(modified spectral magnitude subtraction) 방법을 이용하여 음질을 개선하기 위한 방법이 제시되고 있다[K. Yamashita and T. Shimamura, "Nonstationary noise estimation using low-frequency regions for spectral subtraction," IEEE Signal Proc. letter, vol. 12, 2005.]. 여기서, 차등적 가중 요소는 낮은 주파수 영역에 존재하는 잡음 음성의 스펙트럼 크기들의 합과 잡음 스펙트럼 크기들의 합사이의 비로서 정의된다. 하지만, 본 발명자가 실시한 다양한 성능 평가 실험을 통해서, 특히 낮은 SNR에서, WF 방법은 앞에서 언급한 기존 방법들과 본 발명의 방법에 비해서 낮은 SNR 개선과 많은 성가신 잔재 잡음으로 인해 부자연스러운 음질을 제공하는 문제점을 가지고 있다.

앞에서 언급한 대부분의 방법들이 공통적으로 가지는 또 다른 문제점은 잡음 추정을 위해서 가중치를 곱하거나 회귀(recursion)를 수행하는 과정에서 실제 신호보다 크게 얻어지는 과잉 추정된 잡음을 때때로 수반할 수 있다는 것이다. 과잉 추정된 잡음은 음성 왜곡을 발생시키는 주요 원인이 된다.

요약컨대, 대부분의 기존 방법들은 VAD에 의해서 얻어진 여러 잡음 프레임이나 긴 과거 프레임들이 가지는 통계적 정보를 이용한다. 또한 대부분의 기존 잡음 추정 방법들이 가지는 문제점들은 높은 비정적인 잡음이 발생하는 경우 일정한 시간동안 올바른 잡음 추정을 수행하지 못하거나 전혀 다른 잡음 추정을 수행한다는 것이다. 마지막으로, 잡음 추정 과정에서 과잉 추정된 잡음을 때때로 수반할 수 있다는 것이다.

따라서, 본 발명은 상기와 같은 문제점을 해결하기 위하여 발명한 것으로서, 종래의 잡음 추정 방법들이 잡음 에너지 레벨이 연속적으로 또는 갑자기 커지거나 작아지는 높은 비정적 잡음이 발생하는 경우 일정한 시간동안 올바른 잡음 추정을 수행하지 못하거나 이들 잡음을 전혀 추정하지 못하는 문제점들을 가지고 있는 바, 높은 비정적인 잡음 환경에서 적용될 수 있는 잡음 추정 방법으로서 높은 비정적인 잡음이 발생하더라도 즉각적이면서 신뢰적인 잡음 추정을 적응적으로 수행할 수 있는 새로운 잡음 추정 방법을 제공하는데 그 목적이 있다.

특히, 종래의 잡음 추정 방법들이 VAD에 의해서 얻어지는 여러 잡음 프레임들이나 일정한 과거 프레임들이 가지는 통계적 정보를 이용하여 잡음 추정의 정보를 얻는 것에 비하여, 본 발명은 이들 통계적 정보를 도입하지 않고 잡음만 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 판별하기 위한 새로운 결정 규칙과 크기 SNR을 이용하여 잡음 추정을 적응적으로 수행할 수 있는 잡음 추정 방법을 제공하는데 그 목적이 있다.

또한 종래의 잡음 추정 방법들이 잡음 추정을 수행하는 과정에서 실제 신호보다 크게 얻어지는 과잉 추정된 잡음을 때때로 수반하는 경우가 있어 이를 이용하여 개선한 음성에서는 음성 왜곡이 수반되는 문제점이 있는 바, 본 발명은 과잉 추정된 잡음을 수반하지 않으면서 잡음 추정을 수행할 수 있고, 이에 의하여 음성 왜곡이 저감될 수 있는 잡음 추정 방법을 제공하는데 그 목적이 있다.

이외의 본 발명의 목적들은 하기의 설명을 통해 쉽게 이해될 수 있을 것이다.

이하, 첨부한 도면을 참조하여 본 발명을 상세히 설명하면 다음과 같다.

상기한 목적을 달성하기 위해, 본 발명은, (a) 잡음에 오염된 음성 신호의 단구간에 대하여 균일 웨이블릿 패킷 변환한 변환 신호를 생성하는 단계와; (b) 상 기 변환 신호의 프레임에서 위쪽 상대 비 및 아래쪽 상대 비, 그리고 분포 비를 구하는 단계와; (c) 상기 3종류의 비들을 이용하여 결정 규칙의 식별자를 계산하는 단계와; (d) 상기 단계에서 계산된 결정 규칙의 식별자를 임계치와 비교하여 프레임 내의 서브밴드가 잡음만이 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 판별하고, 서브밴드에 존재하는 잡음의 양을 나타내는 크기 SNR을 설정하며, 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(CMUWP)와 크기 SNR을 이용하여 잡음을 추정하는 단계와; (e) 잡음에 오염된 음성 신호로부터 변형된 스펙트럼 크기 차감 방법을 이용하여 상기 단계에서 추정된 잡음을 차감하여 개선된 음성 신호를 얻는 단계;를 포함하여 구성되는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법을 제공한다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예에 대해 더욱 상세히 설명하기로 한다. 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략한다. 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 동일 또는 유사한 개체를 순차적으로 구분하기 위한 식별기호에 불과하다.

본 발명은 높은 비정적인 잡음 환경에서 음질 개선을 위해 즉각적이면서 신뢰적으로 적용될 수 있는 잡음 추정 및 이를 이용한 음질 처리 방법에 관한 것으로서, 여기서 높은 비정적 잡음이라 함은 잡음 에너지 레벨이 시간 영역에서 갑자기 또는 연속적으로 커지거나 작아지는 경우를 말한다.

본 발명에서는 서브밴드(subband)에 존재하는 잡음의 양을 나타내는 크기 SNR(magnitude Signal to Noise Ratio)과 잡음 추정의 정보를 얻기 위한 결정 규칙(decision rule)에 의해 잡음 추정을 수행하며, 여기서 서브밴드는 균일 웨이블릿 패킷 변환(Uniform Wavelet Packet Transform; UWPT)에서 여러 노드(node)들로 구성된다. 크기 SNR은 서브밴드에 존재하는 추정된 잡음의 계수 크기들의 합과 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(Coefficient Magnitude of Uniform Wavelet Packet; CMUWP)들의 합 사이의 비(ratio)로서 우선적으로 설정된다. 다음으로, 잡음만이 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 구분하기 위한 결정 규칙을 만족하는 경우에 크기 SNR은 재설정된다.

본 발명에 따른 잡음 추정 및 이를 이용한 음성 처리 방법의 바람직한 실시예에 대하여 전체 과정을 각 단계별로 좀 더 구체화하여 설명하기로 한다.

첫 번째 단계로서, 잡음에 오염된 음성 신호를 균일 웨이블릿 패킷 변환한 변환 신호를 생성하는 단계이다.

잡음에 오염된 음성 신호를 균일 웨이블릿 패킷 변환(Uniform Wavelet Packet Transform)한 변환 신호를 생성한다. 변환 신호는 균일 웨이블릿 패킷 변환 영역에서의 변환 계수(Coefficient of Uniform Wavelet Packet Transform; CUWPT)이며, 그 구조는 도 1에 도시되어 있다.

도 1을 참조하면, 전체 트리(tree) 레벨은 K이고, 웨이블릿 패킷 변환이 이루어지지 않은 레벨을 K로, 이때의 노드의 개수를 1로 가정한다. 웨이블릿 패킷 변 환 단계에 따라 트리 레벨은 1씩 감소하고, 노드의 개수는 2배로 증가한다. 따라서, k(0≤k≤K)번째 트리 레벨에서 노드의 개수는 2^K-k가 된다. 각 노드는 하나 이상의 변환 계수를 가지고 있으며, 노드에 포함되는 변환 계수의 개수는 각 노드마다 동일하다. 본 발명의 실시예에서 k번째 트리 레벨의 각 노드에 포함된 변환 계수가 웨이블릿 변환부에서 생성하는 변환 신호가 된다.

잡음에 오염된 음성의 단구간 x(n)에 대한 균일 웨이블릿 패킷 변환 계수(CUWPT)

(m)은 하기 식(19)과 같이 표현된다.

여기서,

(m)은 깨끗한 음성의 CUWPT이며,

(m)은 잡음의 CUWPT이다. 상기 식(19)의 각 인덱스들은 아래와 같이 정의되며, 이 인덱스들은 본 명세서에 기술된 모든 수식들에 동일한 의미로서 적용된다.

i: 프레임 인덱스

j: 노드 인덱스(0 ≤ j ≤ 2 ^K-k ―1)

K: 전체 트리 깊이 인덱스

k: 트리 깊이 인덱스(0 ≤ k ≤ K)

m: 노드 내 CUWPT 인덱스

두 번째 단계로서, 균일 웨이블릿 패킷 변환한 변환 신호의 프레임에서 위쪽 상대 비, 아래쪽 상대 비, 그리고 분포 비를 구하는 단계이다.

잡음과 음성이 공존하는 단일 채널에 존재하는 높은 비정적인 잡음에 오염된 잡음 음성에서 잡음 추정을 정확하게 수행하는 것은 매우 어려운 일이다. 그 주된 이유는 이들 잡음의 영향을 받지 않으면서 잡음과 음성 사이를 구분하기 위한 식별자들을 추출하기가 어렵기 때문이다. 이와 같은 문제점을 보다 효율적으로 해결하고자, 본 발명에서는 3종류의 비, 즉 하기 식(20)에 의해 정의되는 위쪽 상대 비(upside relative ratio)

와, 하기 식(21)에 의해 정의되는 아래쪽 상대 비(downside relative ratio)

와, 하기 식(22)에 의해 정의되는 분포 비(distribution ratio) η _i (τ)를 이용한다. 위쪽 상대 비

와 아래쪽 상대 비

는 현재 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(coefficient magnitude of uniform wavelet packet; CMUWP)

들의 합과, 위쪽과 아래쪽 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(CMUWP)

들의 합 사이의 상대 유사 정도를 나타낸다. 여기서, 서브밴드는 균일 웨이블릿 패킷 변환(UWPT)한 신호에 존재하는 여러 노드들로 구성된다. 그리고, 분포 비 η _i (τ)는 프레임에 존재하는 균일 웨이블릿 패킷의 계수 크기(CMUWP)

들의 합에서 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(CMUWP)

들의 합이 차지하는 분포 정도를 나타낸다.

여기서, τ: 서브밴드 인덱스(0≤τ≤2 ^K-p ―1),

SB: 서브밴드 사이즈이며 트리 깊이 k에서 노드들 2 ^K-k 로부터(K: 전체 트리 깊이) 나뉜 노드들 묶음 2 ^p (k≤p)와 노드 사이즈 N 간의 곱에 의해서 주어지는 2 ^p N,

g _i (τ):

,

G(i):

(F는 프레임 사이즈임)이다.

도 2은 백색 가우시안(white Gaussian) 잡음을 나타낸 도면으로, (a)는 정적인 백색 가우시안 잡음을, (b)는 짧은 시간에 걸쳐 잡음 에너지 레벨이 다양하게 변하는 시변(time-varying) 높은 비정적인 백색 가우시안 잡음을 나타내는 것이며, 도 3는 본 발명에서 제안하는 비들을 나타낸 도면이다. 도 3의 각 비는 도 2의 (a)에 나타낸 정적인 백색 가우시안 잡음과 (b)에 나타낸 높은 비정적인 백색 가우시안 잡음에서 추출된 것이며, 도 3에서 (a)는 위쪽 상대 비

를, (b)는 아래쪽 상대 비

를, (c)는 분포 비 η _i (τ)를 나타낸 것이다. 도 3의 (a), (b) 및 (c)에서 각각 점선은 도 2의 (a)에 나타낸 정적인 백색 가우시안 잡음의 비를, 실선은 도 2의 (b)에 나타낸 높은 비정적인 백색 가우시안 잡음의 비를 나타낸다. 도 3를 참조하면, (a)에서 정적인 잡음과 높은 비정적인 잡음의 위쪽 상대 비

가 거의 같은 수치를 나타냄을 알 수 있으며, (b)에서 정적인 잡음과 높은 비정적인 잡음의 아래쪽 상대 비

가, 그리고 (c)에서는 정적인 잡음과 높은 비정적인 잡음의 분포 비 η _i (τ)가 거의 같은 수치를 나타냄을 알 수 있다. 이러한 이유는 본 발명에서 제시하는 이들 비들은 갑자기 또는 연속적으로 커지거나 작아지는 잡음 에너지 레벨 변화의 영향을 거의 받지 않기 때문이다. 결론적으로 본 발명에서 제시하는 이들 비들은 잡음 에너지 레벨 변화에 상관없이 정적인 잡음에서 제시하는 안정적인 수치를 제시한다는 것이다.

다음 단계로서, 이전의 단계에서 계산된 상기 3종류의 비들을 이용하여 결정 규칙의 식별자를 계산하는 단계가 수행된다.

잡음에 오염된 음성에서 잡음 추정의 정보를 얻기 위한 종래의 잡음 추정 방법들은 VAD에 의해 얻어지는 여러 잡음 프레임들이나 일정한 과거 프레임들이 가지는 통계적 정보를 이용한다. 본 발명에서는 이들 통계적 정보를 도입하지 않고 잡 음만 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 판별하기 위한 결정 규칙의 식별자

,

와

_i (τ)를 계산하고, 계산된 이들 결정 규칙의 식별자를 이용하여 잡음 추정의 정보를 갱신한다. 예로, 만일

,

와

_i (τ)가 동시에 0에 근접하면 τ번째 서브밴드는 잡음만이 존재하는 서브밴드를 나타낸다. 결정 규칙의 식별자는 하기 식(23), 식(24) 및 식(25)에 의해 계산된다.

여기서, λ ^Up (τ), λ ^Down (τ) 및 μ(τ)는 각각 위쪽 상대 잡음 비, 아래쪽 상대 잡음 비 및 분포 잡음 비이며, 이후 단계의 식(27)에서 제시하는 결정 규칙에 의해서 적응적으로 주어진다. 초기 λ ^Up (τ), λ ^Down (τ) 및 μ(τ)의 설정은 각각 순수 잡음 신호들로 구성된 첫 번째 또는 특정 프레임의 위쪽 상대 비

, 아래쪽 상대 비

와 분포 비 η _i (τ)로부터 얻는다.

다음 단계로서, 이전 단계에서 계산된 결정 규칙의 식별자를 임계치와 비교 하여 프레임 내 서브밴드가 잡음만이 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 판별하고, 서브밴드에 존재하는 잡음의 양을 나타내는 크기 SNR

_i (τ)을 설정하며, 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기와 크기 SNR

_i (τ)을 이용하여 잡음을 추정하는 단계가 수행된다.

잡음 추정을 위해서 프레임에서 나뉜 서브밴드에 존재하는 잡음의 양을 나타내는 크기 SNR

_i (τ)을 하기 식(26)을 이용해 우선적으로 설정한다.

여기서, h _i (τ)는 하기 식(28)에 의해 추정된 잡음

들의 합인

이다.

이와 같이 크기 SNR은 서브밴드에 존재하는 추정된 잡음의 계수 크기

들의 합과 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(CMUWP)

들의 합 사이의 비로서 설정된다.

다음으로, 잡음 추정의 정보를 얻기 위해서 잡음만이 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 판별하기 위한 결정 규칙은 이전 단계에서 계산된 식별자를 이용하여 하기 식(27)에 나타낸 바와 같다.

결정 규칙이

이면 잡음만이 존재하는 서브밴드를 나타내며, 그 반대는 음성과 잡음이 공존하는 서브밴드를 나타낸다. 결정 규칙이

이면 크기 SNR은

_i (τ)=1로 재설정되며, 잡음의 변화에 대해서 보다 효과적으로 대처하기 위해서 위쪽 상대 잡음 비 λ ^Up (τ)는 위쪽 상대 비

로, 아래쪽 상대 잡음 비 λ ^Down (τ)는 아래쪽 상대 비

로, 분포 잡음 비 μ(τ)는 분포 비 η _i (τ)로 각각 대치된다(즉,

_i (τ)=1, λ ^Up (τ)=

, λ ^Down (τ)=

, μ(τ)=η _i (τ)가 됨).

여기서,

는 잡음만이 존재하는 가설(hypothesis)이며,

는 음성과 잡음이 공존할 가설이다. Th(Th＜1)는 결정 규칙의 임계치이다. 마지막으로, 본 발명에서 잡음 추정은 하기 식(28)에 의해 주어진다.

여기서, k(k＜1)는 개선된 음성의 불연속성을 방지하기 위한 망각 계수이다. 본 발명에 따른 잡음 추정 방법의 주된 특징은 1보다 작은

_i (τ) 곱하여 잡음 추정을 수행하기 때문에 과잉 추정된 잡음을 수반하지 않는다는 것이다. 결론적으로 본 발명의 잡음 추정을 이용하여 개선된 음성에는 과잉 추정된 잡음을 이용하여 개선 된 음성에 비하여 적은 음성 왜곡을 발생시킨다.

다음 단계로서, 잡음에 오염된 음성 신호로부터 변형된 스펙트럼 크기 차감 방법을 이용하여 추정된 잡음을 차감하여 개선된 음성 신호를 얻는 단계가 수행된다.

균일 웨이블릿 패킷 영역에서 추정된 잡음을 효율적으로 제거하여 개선된 음성의 균일 웨이블릿 패킷 변환 계수(CUWPT)

을 얻기 위한 종래의 스펙트럼 크기 차감 방법은 하기 식(29)에 나타낸 바와 같다.

본 발명에서는 상기 식(28)에 의해 추정된 잡음

을 이용하여 개선된 음성의 균일 웨이블릿 패킷 변환 계수(CUWPT)

을 얻기 위해서 하기 식(30)으로 나타낸 변형된 스펙트럼 크기 차감 방법을 이용한다. 즉, 본 발명에서는, 음질 개선을 위한 변형된 스펙트럼 크기 차감 방법으로, 식(29)에 나타낸 종래의 스펙트럼 크기 차감 방법에서 조건

대신에

_i (τ)≠1을 조건으로 하고, 조건

_i (τ)=1인 경우

가 되므로

대신에

을 사용한다는 것이다. 이러한 본 발명의 변형된 스펙트럼 크기 차감 방법 은 하기 식(30)에 나타낸 바와 같다.

[성능 평가]

이하, 전술한 새로운 잡음 추정 및 잡음 차감 방법을 이용하는 본 발명에 따른 음성 처리 결과의 성능을 알아보기 위하여 본 발명자는 다양한 음질 평가 방법들을 수행하였으며, 이를 설명하면 다음과 같다.

본 발명의 방법을 적용한 경우와, 비교 방법으로서 종래의 MS 방법, MCRA 방법, WA 방법 및 WF 방법을 적용한 경우에 대해 성능을 평가하였으며, 평가는 세그멘털 잡음 추정 에러(Seg.NEE: Segmental Noise Estimation Error; 이하 Seg.NEE라 함), 향상된 세그멘털 신호대 잡음비(Improved Segmental Signal to Noise Ratio; 이하 Seg.SNR_Imp라 함), 향상된 로그 지역 비(Improved Log Area Ratio; 이하 LAR_IMP라 함), 및 향상된 가중 스펙트럼 경사도 측정(Improved Weighted Spectral Slope Measure; 이하 WSSM_IMP라 함)을 이용하였다. 실험을 위해서, 음성 인식을 위한 음성 데이터베이스(예를 들어, TIMIT)로부터 10명의 남성과 10명의 여성으로 구성된 음성 신호 20개와 NoiseX-92로부터 3종류의 잡음인 전투기 잡음(aircraft cockpit noise), 음성 유사 잡음(speech-like noise), 백색 가우시안 잡음(white Gaussian noise)을 발췌하였다. 이들 발췌한 음성과 잡음을 이용하여 신호대 잡음비(SNR) -5 ~ 5dB 사이로 오염시킨 음성을 이용하였다.

세그멘털 잡음 추정 에러(Segmental Noise stimation error; Seg.NEE)

추정된 잡음과 순순 잡음 사이의 추정 오차 정도를 측정하기 위해서, 본 발명의 방법과 비교 방법들이 동일하게 가지는 시간 영역에서 Seg.NEE을 측정하였으며, 이는 하기 식(31)과 같이 정의된다.

여기서, F과 L은 프레임의 전체 수와 프레임 사이즈이다. 도 4는 본 발명의 방법과 비교 방법들에 의해서 얻어진 Seg.NEE을 나타내었다. 도 4에 나타낸 바와 같이, 전체 평균 Seg.NEE에서, 본 발명의 방법이 WA, WF, MCRA와 MS 방법에 비해서 상대적으로 각각 0.0091, 0.0058, 0.0075와 0.03dB 차이만큼 좋은 성능을 나타내는 것을 관찰할 수 있었다. 추가적으로 본 발명과 비교 방법들의 Seg.NEE 성능을 보다 편리하게 구분할 수 있도록 하기 위해서 하기 표 1에 전체와 잡음별 평균을 나타내었다.

[표 1]

전체와 잡음별 평균 세그멘털 잡음 추정 에러

세그멘털 신호대 잡음비(Segmental Signal to Noise Ratio; Seg.SNR)

개선된 음성의 SNR 개선 정도를 측정하기 위해서 가장 일반적으로 사용되는 Seg.SNR[J. R. Deller, J. G. Proakis, and J. H. L. Hansen, Discrete-time processing of speech signals, Englewood Cliffs, NJ: Prentice-Hall, 1993.]을 이용하였으며, 개선된 음성의 Seg.SNR_Output에서 잡음에 오염된 음성의 Seg.SNR_Input을 차감한 Seg.SNR_Imp를 측정하였다. Seg.SNR은 하기 식(32)와 같이 정의되며, Seg.SNR_Imp는 하기 식(33)으로 정의된다.

여기서, Seg.SNR_Output과 Seg.SNR_Input은 각각 개선된 음성의 Seg.SNR과 잡음 음성의 Seg.SNR이다. 도 5에서 본 발명의 방법과 비교 방법들에 의해서 얻어진 Seg.SNR_Imp을 나타내었다. 도 5에 나타낸 바와 같이, 전체 평균 Seg.SNR_Imp에서, 본 발명의 방법이 WA, WF, MCRA와 MS 방법에 비해 상대적으로 각각 2.78, 3.55, 2.44와 2.00dB 차이만큼의 좋은 성능을 나타내는 것으로 관찰되었다. 추가적으로 본 발명의 방법과 비교 방법들의 Seg.SNR_Imp 성능을 보다 편리하게 구분할 수 있도록 하기 위해서 하기 표 2에 전체와 잡음별 평균을 나타내었다.

[표 2]

전체와 잡음별 평균 향상된 세그멘털 SNR

로그 지역 비(Log Area Ratio; LAR)

선형 예측 부호화(Linear Predict Codding; LPC)를 이용한 음질 평가 중에서 주관적 음질 평가와 가장 높은 상관관계를 나타내는 LAR[J. R. Deller, J. G. Proakis, and J. H. L. Hansen]을 이용하였다. 잡음에 오염된 음성의 LAR_Input에서 개선된 음성의 LAR_Output을 차감한 LAR_Imp를 측정하였다. LAR은 하기 식(34)와 같이 정의되며, LAR_Imp는 하기 식(35)로 정의된다.

여기서, P는 전체 LPC 계수 차수이다. p _s ₍ _n ₎(l)는 깨끗한 음성의 LPC 계수이며,

는 개선된 음성의 LPC 계수이다. 도 6에서 본 발명의 방법과 비교 방법들에 의해서 얻어진 LAR_Imp를 나타내었다. 도 6에 나타낸 바와 같이, 전체 평균 LAR_Imp에서, 본 발명의 방법이 WA, WF, MCRA와 MS 방법에 비해서 상대적으로 각각 0.312, 0.332, 0.473과 0.201dB 차이만큼 좋은 성능을 나타내는 것으로 관찰되었다. 추가적으로 본 발명의 방법과 비교 방법들의 LAR_Imp 성능을 보다 편리하게 구분할 수 있도록 하기 위해서 하기 표 3에 전체와 잡음별 평균을 나타내었다.

[표 3]

전체와 잡음별 평균 향상된 로그 지역 비

가중 스펙트럼 경사도 측정(Weighted Spectral Slope Measure; WSSM)

다양한 객관적 음질 평가 방법들 중에서 주관적 음질 평가와 가장 높은 상관관계를 나타내는 청각 모델 기반의 WSSM[J. R. Deller, J. G. Proakis, and J. H. L. Hansen]을 이용하였다. 잡음에 오염된 음성의 WSSM_Input에서 개선된 음성의 WSSM_Output을 차감한 WSSM_Imp를 측정하였다. WSSM은 하기 식(36)과 같이 정의되며, WSSM_Imp는 하기 식(37)로 정의된다.

여기서, M과

은 각각 깨끗한 음성의 음압 레벨(Sound Pressure Level; SPL)과 개선된 음성의 음압 레벨이다. M _SPL은 전체 성능을 조절하기 가변적인 계수이며, Γ _i (q)는 각각의 임계 밴드의 가중치이다. CB는 임계 대역(Critical Band)의 수이다. WSSM_Input과 WSSM_Output은 각각 잡음에 오염된 음성의 WSSM과 개선된 음성의 WSSM이다. 도 7은 본 발명 방법과 비교 방법들에 의해서 얻어진 WSSM_Imp을 나타내었다. 도 7에 나타낸 바와 같이, 전체 평균 WSSM_Imp에서, 본 발명의 방법이 WA, WF와 MCRA 방법에 비해서 상대적으로 각각 8.68, 6.79와 14.82dB 차이만큼 좋은 성능을 나타내는 반면에 MS 방법에 비해서는 동등한 수준(0.44dB)을 나타내는 것으로 관찰되었다. 추가적으로 본 발명의 방법과 비교 방법들의 WSSM_Imp 성능을 보다 편리하게 구분할 수 있도록 하기 위해서 하기 표 4에 전체와 잡음별 평균을 나타내었다.

[표 4]

전체와 잡음별 평균 향상된 가중 스펙트럼 경사도 측정

음성 파형과 스펙트로그램 분석

도 8는 음성 파형을 나타낸 도면으로, (a)는 깨끗한 음성의 파형을, (b)는 (a)의 깨끗한 음성이 도 2의 (b)에 나타낸 높은 비정적인 잡음에 의해 오염된 음성의 파형을, (c)는 본 발명의 방법에 의해 추정된 잡음의 파형을 나타낸 도면이다.

도 8의 (c)를 참조하면, 본 발명의 방법에 의해 추정된 잡음의 파형이 도 2의 (b)에 나타낸 실제 잡음의 파형과 상당히 유사하다는 것을 확인할 수 있다.

도 9과 도 10은 높은 비정적인 잡음에 의해 오염된 음성에서 본 발명의 방법과 비교 방법들에 의해 추정된 잡음을 이용하여 개선된 음성의 파형과 스펙트로그램을 나타낸 것이다. 도 9에서 (a)는 높은 비정적인 잡음에 오염된 음성의 파형을, (b)는 WA 방법, (c)는 WF 방법, (d)는 MCRA 방법, (e)는 MS 방법, (f)는 본 발명의 방법에 의해 개선된 음성의 파형을 나타낸 도면이다. 또한 도 10에서 (a)는 높은 비정적인 잡음에 오염된 음성을, (b)는 WA 방법, (c)는 WF 방법, (d)는 MCRA 방법, (e)는 MS 방법, (f)는 본 발명의 방법에 의해 개선된 음성의 스펙트로그램을 나타낸 도면이다.

우선 도 9을 참조하면, (b) ~ (e)에 나타낸 비교 방법들의 결과에서는 높은 비정적인 잡음 영역에서 올바른 잡음 추정을 수행하지 못하여 개선된 음성에 여전히 많은 잡음이 잔재하는 것을 확인할 수 있다. 이와 대조적으로, 도 9의 (f)에 나타낸 바와 같이, 본 발명의 방법에 의해 개선된 음성에는 잔재 잡음이 거의 없음을 알 수 있었으며, 도 8의 (a)에 나타낸 깨끗한 음성의 파형과 가장 유사한 음성 개선이 가능함을 확인할 수 있었다.

더욱이, 도 10을 참조하면, 본 발명의 방법에 비해 비교 방법들의 음성에는 다량의 성가신 잔재 잡음이 포함되어 있으며, 불안정한 스펙트로그램이 나타나는 것을 확인할 수 있다.

이상에서 설명한 바와 같이, 본 발명에 따른 적응적 잡음 추정 및 이를 이용한 음성 처리 방법에 의하면, 다음과 같은 효과가 있게 된다.

1) 높은 비정적인 잡음 환경에 유용하게 적용될 수 있는 것으로서, 높은 비정적인 잡음이 발생하더라도 매우 빨리 올바른 잡음 추정을 적응적으로 수행할 수 있게 된다.

2) VAD에 의해 얻어지는 여러 잡음 프레임들이나 일정한 과거 프레임들이 가지는 통계적 정보를 이용하지 않고 현재 서브밴드에서 음성에 가까운지 잡음에 가까운지를 연속적으로 판별하기 위한 결정 규칙과 크기 SNR을 이용하여 잡음 추정을 적응적으로 수행할 수 있게 된다.

3) 과잉 추정된 잡음을 수반하지 않기 때문에 음성 왜곡이 저감되는 효과가 있다.

4) 본 발명의 잡음 추정 기술은 다양한 음성 관련 응용 시스템에 널리 이용될 수 있고, 특히 시간 지연 없이 잡음 추정이 수행되기 때문에 실시간을 요구하는 거의 모든 음성 관련 응용 시스템에 적용될 수 있으며, 적용시에 다양한 잡음 환경에서 시스템의 성능을 더욱 향상시킬 수 있게 된다.

Claims

(a) 잡음에 오염된 음성 신호의 단구간에 대하여 균일 웨이블릿 패킷 변환한 변환 신호를 생성하는 단계와;

(b) 상기 변환 신호의 프레임에서 위쪽 상대 비 및 아래쪽 상대 비, 그리고 분포 비를 구하는 단계와;

(c) 상기 3종류의 비들을 이용하여 결정 규칙의 식별자를 계산하는 단계와;

(d) 상기 단계에서 계산된 결정 규칙의 식별자를 임계치와 비교하여 프레임내의 서브밴드가 잡음만이 존재하는 서브밴드인지 잡음과 음성이 공존하는 서브밴드인지를 연속적으로 판별하고, 서브밴드에 존재하는 잡음의 양을 나타내는 크기 SNR을 설정하며, 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기(CMUWP)와 크기 SNR을 이용하여 잡음을 추정하는 단계와;

(e) 잡음에 오염된 음성 신호로부터 변형된 스펙트럼 크기 차감 방법을 이용하여 상기 단계에서 추정된 잡음을 차감하여 개선된 음성 신호를 얻는 단계;

를 포함하여 구성되는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.
청구항 1에 있어서,

상기 (b) 단계에서, 상기 위쪽 상대 비와 아래쪽 상대 비는 현 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기들의 합과, 위쪽과 아래쪽 서브밴드에 존 재하는 균일 웨이블릿 패킷의 계수 크기들의 합 사이의 상대 유사 정도를 각각 나타내고, 상기 분포 비는 프레임에 존재하는 균일 웨이블릿 패킷의 계수 크기들의 합에서 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기들의 합이 차지하는 분포 정도를 나타내는 것임을 특징으로 하는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.
청구항 2에 있어서,

상기 위쪽 상대 비
및 아래쪽 상대 비
와 상기 분포 비 η _i (τ)는 각각 하기 식(E1) 및 식(E2)와 하기 식(E3)에 의해 정의되는 것임을 특징으로 하는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.

여기서, i: 프레임 인덱스, τ: 서브밴드 인덱스, g _i (τ):

G(i):
임.

(
: 잡음에 오염된 음성의 단구간에 대한 균일 웨이블릿 패킷 변환 계수(CUWPT), j: 노드 인덱스, k: 트리 깊이 인덱스, m: 노드 내 CUWPT 인덱스,
: CMUWP, SB: 서브밴드 사이즈이며 트리 깊이 k에서 노드들 2 ^K-k 로부터 나뉜 노드들 묶음 2 ^p (k≤p)와 노드 사이즈 N 간의 곱에 의해서 주어지는 2 ^p N, F: 프레임 사이즈, K: 전체 트리 깊이 인덱스)
청구항 1에 있어서,

상기 (c) 단계에서, 상기 결정 규칙의 식별자
와
,
_i (τ)는 각각 위쪽 상대 비
와 아래쪽 상대 비
, 분포 비 η _i (τ)에 의해 정의되는 하기 식(E4)와 식(E5), 식(E6)에 의해 계산하는 것을 특징으로 하는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.

여기서, i: 프레임 인덱스, τ: 서브밴드 인덱스, λ ^Up (τ)와 λ ^Down (τ), μ(τ)는 각각 위쪽 상대 잡음 비와 아래쪽 상대 잡음 비, 분포 잡음 비임.
청구항 1에 있어서,

상기 (d) 단계에서, 상기 결정 규칙의 식별자
와
,
_i (τ)를 임계치와 비교하여 결정 규칙이
이면 τ번째 서브밴드는 잡음만이 존재하는 서브밴드로, 그 반대는 음성과 잡음이 공존하는 서브밴드로 판별하는 것을 특징으로 하는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.
청구항 5에 있어서,

상기 결정 규칙이
이면 크기 SNR
_i (τ)은 1로 설정하는 것을 특징으로 하는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.
청구항 1에 있어서,

상기 (d) 단계에서, 상기 크기 SNR
_i (τ)는
으로 정의되는 것을 특징으로 하는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.

여기서, i: 프레임 인덱스, τ: 서브밴드 인덱스, g _i (τ):
,

h _i (τ): 추정된 잡음
들의 합인
임.

(
: 잡음에 오염된 음성 신호의 단구간에 대한 균일 웨이블릿 패킷 변환 계수(CUWPT), j: 노드 인덱스, k: 트리 깊이 인덱스, m: 노드 내 CUWPT 인덱스,
: CMUWP, SB: 서브밴드 사이즈이며 트리 깊이 k에서 노드들 2 ^K-k 로부터 나뉜 노드들 묶음 2 ^p (k≤p)와 노드 사이즈 N 간의 곱에 의해서 주어지는 2 ^p N, K: 전체 트리 깊이 인덱스)
청구항 1, 청구항 5 내지 청구항 7 중 어느 한 항에 있어서,

상기 (d) 단계에서, 서브밴드에 존재하는 균일 웨이블릿 패킷의 계수 크기
와 크기 SNR
_i (τ)에 의해 정의되는 하기 식(E7)을 이용하여 잡음
을 추정하는 것을 특징으로 하는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.

여기서, i: 프레임 인덱스, j: 노드 인덱스, k: 트리 깊이 인덱스,
: 잡음에 오염된 음성 신호의 단구간에 대한 균일 웨이블릿 패킷 변환 계수(CUWPT), m: 노드 내 CUWPT 인덱스, τ: 서브밴드 인덱스임.
청구항 1에 있어서,

상기 (e) 단계에서, 균일 웨이블릿 패킷 영역에서 추정된 잡음
과 균일 웨이블릿 패킷의 계수 크기
에 의해 정의되고 크기 SNR
_i (τ)의 값을 결정 조건으로 하는 개선된 음성의 균일 웨이블릿 패킷 변환 계수
을 얻기 위한 하기 식(E8)의 변형된 스펙트럼 크기 차감 방법을 이용하는 것을 특징으로 하는 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성 처리 방법.

여기서, i: 프레임 인덱스, j: 노드 인덱스, k: 트리 깊이 인덱스, β: 스펙트럼 평활 계수,
: 잡음에 오염된 음성 신호의 단구간에 대한 균일 웨이블릿 패킷 변환 계수(CUWPT), m: 노드 내 CUWPT 인덱스, τ: 서브밴드 인덱스임.