KR20010043833A

KR20010043833A - 스펙트럼 종속 지수 이득 함수 평균화를 이용한 스펙트럼공제에 의한 신호 잡음 저감

Info

Publication number: KR20010043833A
Application number: KR1020007013286A
Authority: KR
Inventors: 하랄드 가스타프손; 인그바 클라에손; 스벤 노르돌름
Original assignee: 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘)
Priority date: 1998-05-27
Filing date: 1999-05-27
Publication date: 2001-05-25
Also published as: EP1080463B1; HK1039649A1; ATE251328T1; IL139858A; US6459914B1; CN1310840A; EP1080463A1; KR100595799B1; IL139858A0; JP2002517020A; WO1999062053A1; CN1134766C; DE69911768D1; MY119850A; HK1039649B; AU4664399A; BR9910740A; EE200000677A

Abstract

잡음 저감 시스템에서 음성 향상을 제공하는 방법 및 장치에 관한 것으로, 선형 컨볼루션, 캐주얼 필터링 및/또는 스펙트럼 공제 이득 함수의 스펙트럼 종속 지수 평균화를 이용한 스펙트럼 공제 알고리즘을 포함한다. 실시예에 따르면, 스펙트럼 공제 이득 함수의 연속적인 블록들이 잡음 섞인 음성 신호의 스펙트럼 밀도의 추정치와 잡음 섞인 음성 신호의 잡음 성분의 스펙트럼 밀도의 평균 추정치 사이의 불일치에 기초하여 평균화된다. 연속적인 이득 함수 블록들은 예를 들면 지수 평균화를 이용하여 평균화된다. 제어는 예를 들면 지수 평균화의 메모리를 불일치에 반비례하게 함으로써 제공된다. 다르게는, 평균화 메모리를 불일치의 감소에 정비례하여 증가하고, 불일치의 증가에 따라 지수적으로 감쇠하게 하여 가청 섀도 음성을 방지할 수도 있다.

Description

스펙트럼 종속 지수 이득 함수 평균화를 이용한 스펙트럼 공제에 의한 신호 잡음 저감{SIGNAL NOISE REDUCTION BY SPECTRAL SUBTRACTION USING SPECTRUM DEPENDENT EXPONENTIAL GAIN FUNCTION AVERAGING}

오늘날, 이동 전화기와 다른 통신 장치들에서의 핸즈프리 장치의 사용이 증가하고 있다. 핸즈프리 해법과 관련하여 잘 알려진 문제점, 특히 자동차 응용에 있어서의 문제점은, 핸즈프리 마이크에서 분열적인 배경 잡음이 포착되어 원단 사용자(far-end user)에게 전송된다는 점이다. 환언하면, 핸즈프리 마이크와 근단 사용자(near-end user) 사이의 거리가 비교적 멀기 때문에, 핸즈프리 마이크는 근단 사용자의 음성뿐만 아니라 근단 위치에 우연히 존재하는 잡음도 포착하게 된다. 예를 들면, 자동차 전화 응용에 있어서, 근단 마이크는 일반적으로 주위의 교통, 도로 및 탑승자 객실 잡음을 포착한다. 그렇게 생긴 잡음 섞인 근단 음성은 원거리 사용자를 성가시게 뿐만 아니라 심지어 견딜 수 없게 할 수 있다. 따라서 배경 잡음을 가능한 많이 감소시키는 것이 바람직하며, 그것도 근단 신호 처리 체인에서 일찌감치(예를 들면, 수신된 근단 마이크 신호가 근단 음성 코더에 입력되기 전에) 감소시키는 것이 바람직하다.

그 결과, 많은 핸즈프리 시스템은 근단 신호 처리 체인의 입력에서 배경 잡음을 제거하도록 고안된 잡음 저감 프로세서를 포함한다. 도 1은 그러한 핸즈프리 시스템(100)의 하이레벨 블록도이다. 도 1에서, 잡음 저감 프로세서(110)는 핸즈프리 마이크(120)의 출력과 근단 신호 처리 경로(도시되지 않음)의 입력 측에 위치한다. 동작 시, 잡음 저감 프로세서(110)는 마이크(120)로부터 잡음 섞인 음성 신호 x를 수신하고 그 잡음 섞인 음성 신호 x를 처리하여 보다 뚜렷한 잡음 저감된 음성 신호 s_NR를 제공하는데, 이 신호는 근단 신호 처리 체인을 통하여 궁극적으로 원단 사용자에게 전달된다.

도 1의 잡음 저감 프로세서(110)를 구현하기 위한 공지된 하나의 방법을 당 기술분야에서는 스펙트럼 공제(spectral subtraction)라고 한다. 예를 들면, 본 명세서의 참고 문헌인 S.F. Boll의 "Suppression of Acoustic Noise in Speech using Spectral Subtraction"[IEEE Trans. Acoust. Speech and Sig. Proc., 27:113-120, 1979]을 참조하기 바란다. 일반적으로, 스펙트럼 공제는 잡음 스펙트럼 및 잡음 섞인 음성 스펙트럼의 추정치를 이용하여 신호 대 잡음(SNR) 기반의 이득 함수를 형성하고 이것을 입력 스펙트럼과 승산하여 낮은 SNR을 가진 주파수를 억제한다. 비록 스펙트럼 공제는 상당한 잡음 저감을 제공하지만, 공지된 몇 가지 단점이 있다. 예를 들면, 스펙트럼 공제 출력 신호는 일반적으로 당 기술분야에서 음악적 톤(musical tones)으로 알려져 있는 인공 성분을 포함한다. 또한, 처리된 신호 블록들 사이의 불연속성은 종종 원단 사용자 관점에서 감소된 음질을 초래한다.

근년에 기본적인 스펙트럼 공제 방법을 개선한 여러 방법들이 개발되었다. 예를 들면, N. Virage의 "Speech Enhancement Based on Masking Properties of the Auditory System"[IEEE ICASSP. Proc. 796-799 vol. 1, 1995]과, D. Tsoukalas, M. Paraskevas 및 J. Mourjopoulos의 "Speech Enhancement using Psychoacoustic Criteria"[IEEE ICASSP. Proc., 359-362 vol. 2, 1993]와, F. Xie 및 D. Van Compernolle의 "Speech Enhancement by Spectral Magnitude Estimation - A Unifying Approach"[IEEE Speech Communication, 89-104 vol. 19, 1996]와, R. Martin의 "Spectral Subtraction Based on Minimum Statistics"[UESIPSO, Proc., 1182-1185 vol. 2, 1994]와, S.M. McOlash, R.J. Niederjohn 및 J.A. Heinen의 "A Spectral Subtraction Method for Enhancement of Speech Corrupted by Nonwhite, Nonstationary Noise"[IEEE IECON, Proc., 872-877 vol. 2, 1995]를 참조하기 바란다.

이들 방법은 다양한 정도의 음성 개선을 제공하지만, 그래도 역시 음악적 톤 및 블록간 불연속성에 관한 상기 스펙트럼 공제 문제점들을 처리하기 위한 대안적인 기술을 개발할 수 있다면 유익할 것이다. 따라서, 스펙트럼 공제에 의한 잡음 저감을 수행하기 위한 개선된 방법 및 장치가 요구되고 있다.

＜발명의 개요＞

본 발명은 스펙트럼 공제에 의한 잡음 저감을 수행하기 위한 개선된 방법 및 장치를 제공함으로써 상기 및 다른 요구를 충족시킨다. 실시예들에 따르면, 선형 컨벌루션, 캐주얼 필터링 및/또는 스펙트럼 공제 이득 함수의 스펙트럼 종속 지수 평균화를 이용하여 스펙트럼 공제가 수행된다. 유리하게는, 본 발명에 따라서 구성된 시스템은 과도한 복잡성을 도입하지 않고서 종래의 시스템에 비하여 상당히 개선된 음질을 제공한다.

본 발명에 따르면, 종래의 스펙트럼 공제 시스템에 비하여 주파수 분해능이 작고 편차가 감소된 낮은 차수 스펙트럼 추정치들이 전개된다. 본 발명에 따른 스펙트럼은 소망의 낮은 편차를 갖는 이득 함수를 형성하는 데 사용되고, 이때 낮은 편차는 스펙트럼 공제 출력 신호에서의 음악적 톤을 감소시킨다. 실시예에 따르면, 이득 함수는 입력 스펙트럼 종속의 지수 평균화를 이용하여 블록들에 걸쳐서 더욱 평활화된다. 낮은 분해능 이득 함수는 전 블록 길이 이득 함수에 보간(interpolate)되지만, 그럼에도 불구하고 낮은 차수 길이의 필터에 대응한다. 유리하게는, 낮은 차수의 이득 함수는 보간 중에 위상이 부가되는 것을 허용한다. 실시예에 따르면 선형 위상 또는 최소 위상일 수 있는 이득 함수 위상은 이득 필터가 캐주얼 특성을 갖게 하여 블록들 간의 불연속성을 방지한다. 실시예에서, 캐주얼 필터는 입력 신호 스펙트럼과 승산되고 블록들은 중복 및 부가(overlap and add) 기술을 이용하여 적합해진다. 또한, 스펙트럼 추정치에서 과도한 편차를 도입하지 않으면서 도입된 지연을 최소화하기 위하여 프레임 길이는 가능한 작게 한다.

일 실시예에서, 잡음 저감 시스템은 잡음 섞인 입력 신호를 필터링하여 잡음 저감된 출력 신호를 제공하도록 구성된 스펙트럼 공제 프로세서를 포함하며, 입력 신호의 스펙트럼 밀도의 추정치 및 입력 신호의 잡음 성분의 스펙트럼 밀도의 평균 추정치에 기초하여 스펙트럼 공제 프로세서의 이득 함수가 산출되고, 이득 함수의 연속적인 샘플 블록들이 평균화된다. 예를 들면, 스펙트럼 공제 이득 함수의 연속적인 블록들은 입력 신호의 스펙트럼 밀도의 추정치와 입력 신호의 잡음 성분의 스펙트럼 밀도의 평균 추정치 사이의 불일치에 기초하여 평균화될 수 있다.

실시예에 따르면, 연속적인 이득 함수 블록들은 제어 지수 평균화를 이용하여 평균화된다. 제어는 예를 들면 지수 평균화의 메모리를 불일치에 반비례하게 함으로써 제공된다. 다르게는, 평균화 메모리를 불일치의 감소에 정비례하여 증가하고, 불일치의 증가와 함께 지수적으로 감쇠하게 하여 가청 섀도 음성을 방지할 수도 있다.

본 발명에 따른 한 방법은 입력 신호의 스펙트럼 밀도의 추정치 및 입력 신호의 잡음 성분의 스펙트럼 밀도의 평균 추정치를 계산하는 단계, 및 잡음 섞인 입력 신호에 기초하여, 스펙트럼 공제를 이용하여 잡음 저감된 출력 신호를 계산하는 단계를 포함한다. 그 방법에 따르면, 스펙트럼 공제를 이용하는 단계에서 사용된 이득 함수의 연속적인 블록들은 평균화된다. 예를 들면, 평균화는 입력 신호의 스펙트럼 밀도의 추정치와 입력 신호의 잡음 성분의 스펙트럼 밀도의 평균 추정치 사이의 불일치에 기초할 수 있다.

이하에서는, 본 발명의 상기 및 다른 특징 및 이점들을 첨부 도면에 도시된 예들을 참조하여 상세히 설명한다. 당업자라면 설명된 실시예들이 예시 및 이해의 목적으로 제공된 것이며 다수의 균등한 실시예들이 예상된다는 것을 알 것이다.

본 발명은 통신 시스템에 관한 것으로, 보다 구체적으로는, 통신 신호에서의 분열적인 배경 잡음의 효과를 완화시키기 위한 방법 및 장치에 관한 것이다.

도 1은 본 발명의 교시가 구현될 수 있는 잡음 저감 시스템의 블록도.

도 2는 종래의 스펙트럼 공제 잡음 저감 프로세서를 도시하는 도면.

도 3 및 4는 본 발명에 따른 스펙트럼 공제 잡음 저감 프로세서의 예를 도시하는 도면.

도 5는 본 발명에 따른 스펙트럼 공제 기술을 이용하여 파생된 스펙트럼 사진의 예를 도시하는 도면.

도 6 및 7은 본 발명에 따른 스펙트럼 공제 기술을 이용하여 파생된 이득 함수의 예를 도시하는 도면.

도 8 내지 28은 본 발명에 따른 예시적인 스펙트럼 공제 기술들의 시뮬레이션을 도시하는 도면.

본 발명이 여러 특징 및 이점을 이해하기 위해서는, 먼저 종래의 스펙트럼 공제 기술을 고찰하는 것이 유익하다. 일반적으로, 스펙트럼 공제는 통신 응용 시의 잡음 신호 및 음성 신호는 랜덤하고, 비상관적이며 함께 더해져서 잡음 섞인 음성 신호를 형성한다. 예를 들면, s(n), w(n) 및 x(n)이 각각 음성, 잡음 및 잡음 섞인 음성을 나타내는 확률적 단시간 정지 프로세스(stochastic short-time stationary process)라면,

여기서 R(f)는 랜덤 프로세스의 전력 스펙트럼 밀도를 나타낸다.

잡음 전력 스펙트럼 밀도 R_w(f)는 음성 중단 중에 추정될 수 있다(즉, 여기서 x(n) = w(n)). 음성의 전력 스펙트럼 밀도를 추정하기 위하여, 추정치는 다음 수학식과 같이 형성된다.

전력 스펙트럼 밀도를 추정하기 위한 종래의 방법은 주기표(periodogram)를 이용하는 것이다. 예를 들면, X_N(f_u)는 x(n)의 N 길이 푸리에 변환이고 W_N(f_u)는 w(n)의 대응하는 푸리에 변환이라면,

수학식 3, 4 및 5를 결합하여 다음 수학식을 제공할 수 있다.

다르게는, 다음 수학식에 의해 보다 일반적인 형식이 주어진다.

여기서 전력 스펙트럼 밀도는 일반적인 형식의 전력 밀도로 교환된다.

인간의 귀는 음성의 위상 에러에 예민하지 않기 때문에, 잡음 섞인 음성 위상 φ_x(f)는 뚜렷한 음성 위상 φ_s(f)에 대한 근사치로서 사용될 수 있다.

뚜렷한 음성 푸리에 변환을 추정하기 위한 일반적인 표현은 따라서 다음 수학식과 같이 형성된다.

여기서 파라미터 k는 잡음 공제의 양을 제어하기 위해 도입된다.

표기를 간략화하기 위하여, 벡터 형식이 도입된다.

벡터는 한 성분씩 계산된다. 명확히 하기 위하여, 한 성분씩의 벡터곱은 ⊙로 표시한다. 따라서, 수학식 9는 이득 함수 G_N을 이용하고 벡터 표기를 사용하여 다음 수학식으로서 표현된다.

여기서 이득 함수는 다음 수학식으로서 주어진다.

수학식 12는 종래의 스펙트럼 공제 알고리즘을 나타내고 도 2에 도시되어 있다. 도 2에서, 종래의 스펙트럼 공제 잡음 저감 프로세서(200)는 고속 푸리에 변환 프로세서(210), 크기 제곱 프로세서(220), 음성 활동 검출기(230), 블록 단위 평균화 장치(240), 블록 단위 이득 계산 프로세서(250), 승산기(260) 및 고속 푸리에 역변환 프로세서(270)를 포함한다.

도시된 바와 같이, 잡음 섞인 음성 입력 신호가 고속 푸리에 변환 프로세서(210)의 입력에 결합되고, 고속 푸리에 변환 프로세서(210)의 출력은 크기 제곱 프로세서(220)의 입력 및 승산기의 제1 입력에 결합된다. 크기 제곱 프로세서(220)의 출력은 스위치(225)의 제1 접점 및 이득 계산 프로세서(250)의 제1 입력에 결합된다. 음성 활동 검출기(230)의 출력은 스위치(225)의 스로(throw) 입력에 결합되고, 스위치(225)의 제2 접점은 블록 단위 평균화 장치(240)의 입력에 결합된다. 블록 단위 평균화 장치(240)의 출력은 이득 계산 프로세서(250)의 제2 입력에 결합되고, 이득 계산 프로세서(250)의 출력은 승산기(260)의 제2 입력에 결합된다. 승산기(260)의 출력은 고속 푸리에 역변환 프로세서(270)의 입력에 결합되고, 고속 푸리에 역변환 프로세서(270)의 출력은 종래의 스펙트럼 공제 시스템(200)에 대한 출력을 제공한다.

동작 시, 종래의 스펙트럼 공제 시스템(200)은, 상기 종래의 스펙트럼 공제 알고리즘을 이용하여, 착신되는 잡음 섞인 음성 신호를 처리하여 보다 뚜렷한 잡음 저감된 음성 신호를 제공한다. 실제에 있어서, 도 2의 여러 구성요소들은 범용 컴퓨터, 집적 회로 및/또는 응용 주문형 집적 회로(ASIC)의 조합을 포함하는 임의의 공지된 디지털 신호 처리 기술을 이용하여 구현될 수 있다.

종래의 스펙트럼 공제 알고리즘에서는, 잡음 공제의 양과 음질을 제어하는 2개의 파라미터 a 및 k가 있다. 제1 파라미터를 a=2로 설정하면 전력 스펙트럼 공제가 제공되고, 제1 파라미터를 a=1로 설정하면 크기 스펙트럼 공제가 제공된다. 또한, 제1 파라미터를 a=0.5로 설정하면 잡음 저감이 증가되지만 단지 음성이 적당히 일그러질 뿐이다. 이것은 잡음 섞인 음성으로부터 잡음이 공제되기 전에 스펙트럼이 압축된다는 사실에 기인한다.

제2 파라미터 k는 소망의 잡음 저감이 달성되도록 조정된다. 예를 들면, 만일 보다 큰 k가 선택되면, 음성 일그러짐이 증가한다. 실제에 있어서, 파라미터 k는 일반적으로 제1 파라미터 a가 어떻게 선택되는지에 따라서 설정된다. a가 감소하면 음성 일그러짐을 저하시키기 위하여 k 파라미터도 감소하게 된다. 전력 스펙트럼 공제의 경우, 과공제(over-subtraction)(즉, k＞1)를 사용하는 것이 보통이다.

종래의 스펙트럼 공제 이득 함수(수학식 12 참조)는 전 블록 추정치로부터 유도되며 제로 위상을 갖는다. 그 결과, 대응하는 임펄스 응답 g_N(u)은 논캐주얼이고 (블록 길이와 같은) 길이 N을 갖는다. 그러므로, 이득 함수 G_N(l)과 입력 신호 X_N을 승산하면 논캐주얼 필터에 의한 주기적인 원형 컨벌루션이 생긴다. 상술한 바와 같이, 주기적인 원형 컨벌루션은 시간 영역에서 바람직하지 않은 겹침 현상(aliasing)을 초래할 수 있고, 필터의 논캐주얼 특성은 블록들 간의 불연속성을 초래하여 음질이 열화될 수 있다. 유리하게는, 본 발명은 캐주얼 이득 필터에 의한 정확한 컨벌루션을 제공하는 방법 및 장치를 제공하고 그에 따라 상기 시간 영역 겹침 현상 및 블록간 불연속성의 문제점을 제거한다.

시간 영역 겹침 현상과 관련해서, 시간 영역에서의 컨벌루션은 주파수 영역에서의 승산에 대응하는 것에 주목하자. 즉,

길이 N의 고속 푸리에 변환(FFT)으로부터 변환이 얻어질 때, 승산의 결과는 정확한 컨벌루션이 아니다. 오히려, 그 결과는 N의 주기성을 갖는 원형 컨벌루션이다.

여기서 심벌은 원형 컨벌루션을 나타낸다.

고속 푸리에 변환을 이용할 때 정확한 컨벌루션을 얻기 위하여, 임펄스 응답 X_N및 Y_N의 누적된 차수는 블록 길이보다 1이 작은 N-1보다 작거나 그와 같아야 한다.

따라서 본 발명에 따르면, 주기적인 원형 컨벌루션으로부터 생기는 시간 영역 겹침 현상 문제는 N-1보다 작거나 그와 같은 전체 차수를 갖는 입력 신호 블록 X_N및 이득 함수 G_N(l)을 이용하여 해결될 수 있다. 그러나, 본 발명에 따르면, 길이 L(L＜N)의 입력 신호 블록 x_L은 L 차수의 스펙트럼을 구성하는 데 사용된다. 길이 L은 프레임 길이라 하고 따라서 x_L은 1 프레임이다. 길이 N의 이득 함수와 승산되는 스펙트럼 역시 길이가 N이어야 하기 때문에, 프레임 xL은 전 블록 길이 N에 제로 패드되어, X_L↑N이 생긴다.

길이 N의 이득 함수를 구성하기 위하여, 본 발명에 따른 이득 함수는 길이 M(＜N)의 이득 함수 G_M(l)로부터 보간되어 G_L↑N(l)을 형성할 수 있다. 본 발명에 따라 낮은 차수 이득 함수 G_L↑N(l)을 유도하기 위하여, 상기 간단한 푸리에 변환 주기표(periodogram)에 대한 대안으로서 공지되거나 또는 아직 개발되지 않은 스펙트럼 추정 기술을 이용할 수 있다. 몇몇 공지된 스펙트럼 추정 기술은 결과의 이득 함수에서 보다 낮은 편차를 제공한다. 예를 들면, J.G. Proakis 및 D.G. Manolakis의 "Digital Signal Processing; Principles, Algorithms, and Applications"[Macmillan, Second Ed., 1992]를 참조하기 바란다.

예를 들어, 공지된 Bartlett 방법에 따르면, 길이 N의 블록은 길이 M의 K개 서브블록으로 분할된다. 그 후 각 서브블록에 대한 주기표가 계산되고 그 결과는 평균화되어 다음 수학식과 같이 전체 블록에 대한 M길이 주기표를 제공한다.

유리하게는, 전 블록 길이 주기표와 비교하여, 서브블록들이 비상관될 때 편차는 인수 K만큼 저감된다. 주파수 분해능도 같은 인수만큼 저감된다.

다르게는, Welch 방법이 사용될 수 있다. Welch 방법은 각 서브블록이 Hanning 윈도우에 의해 윈도우되는 것을 제외하면 Bartlett 방법과 유사하며, 서브블록들은 서로 중복될 수 있게 되어, 보다 많은 서브블록이 생긴다. Welch 방법에 의해 제공되는 편차는 Bartlett 방법과 비교하여 더욱 저감된다. Bartlett 및 Welch 방법은 단지 두 개의 스펙트럼 추정 기술일 뿐이며, 다른 공지의 스펙트럼 추정 기술도 사용될 수 있다.

정확한 스펙트럼 추정 기술이 구현되는 것과 상관없이, 평균화 기술을 이용함으로써 잡음 주기표 추정치의 편차를 더욱 감소시키는 것이 가능하고 바람직하다. 예를 들면, 잡음이 장시간 고정적이라는 가정 하에서, 상술한 Bartlett 및 Welch 방법으로부터 생긴 주기표들을 평균화하는 것이 가능하다. 어떤 기술은 다음 수학식과 같이 지수 평균화를 이용한다.

수학식 16에서, 함수 P_x,M(l)은 Bartlett 또는 Welch 방법을 이용하여 계산되고, 함수 _x,M(l)은 현재 블록에 대한 지수 평균이고 함수 _x,M(l-1)은 이전 블록에 대한 지수 평균이다. 파라미터 α는 지수 메모리의 길이가 어느 정도인지를 제어하고, 일반적으로 잡음이 고정적인 것으로 생각될 수 있는 길이를 초과하지 않아야 한다. α가 1에 근접할수록 지수 메모리가 길어지고 주기표 편차가 실질적으로 저감된다.

길이 M은 서브블록 길이라 하고, 결과의 낮은 차수 이득 함수는 길이 M의 임펄스 응답을 갖는다. 따라서, 이득 함수의 구성에 이용된 잡음 주기표 추정치 _x,M(l) 및 잡음 음성 주기표 추정치 P_x,M(l) 역시 길이 M이어야 한다.

본 발명에 따르면, 이것은 입력 프레임 X_L로부터의 보다 짧은 주기표 추정치를 이용함으로써 그리고 예를 들면 Bartlett 방법을 이용하여 평균화함으로써 달성된다. Bartlett 방법(또는 다른 적당한 추정 방법)은 추정된 주기표의 편차를 감소시키고, 주파수 분해능도 저감된다. L 주파수 빈으로부터 M 빈으로의 분해능의 저감은 주기표 추정치 P_x,M(l) 역시 길이 M임을 의미한다. 또한, 잡음 주기표 추정치 _x,M(l)의 편차는 상술한 바와 같이 지수 평균화를 이용하여 더욱 감소될 수 있다.

전체 차수가 N-1보다 작거나 같은 요건을 만족시키기 위하여, 서브블록 길이 M에 부가된 프레임 길이 L을 N보다 작게 한다. 그 결과, 소망의 출력 블록을 다음 수학식과 같이 형성하는 것이 가능하다.

유리하게는, 본 발명에 따른 낮은 차수 필터는 종래의 스펙트럼 공제 알고리즘에서의 이득 필터의 논캐주얼 특성에 의해 생기는 문제점들(즉, 블록간 불연속성 및 음질 저하)을 처리할 기회를 제공한다. 구체적으로는, 본 발명에 따르면, 이득 함수에 위상이 부가되어 캐주얼 필터를 제공한다. 실시예에 따르면, 위상은 크기 함수로부터 구성될 수 있고 필요에 따라 선형 위상 또는 최소 위상일 수 있다.

본 발명에 따라 선형 위상 필터를 구성하기 위하여, 먼저 FFT의 블록 길이가 길이 M이면, 시간 영역에서의 원형 시프트는 주파수 영역에서의 위상 함수와의 승산임에 주목하자.

이 경우, 임펄스 응답에서의 제1 위치는 제로 지연을 가져야 하기 때문에(즉, 캐주얼 필터), 1은 M/2+1과 같다. 그러므로,

그리고 선형 위상 필터 _M(f_u)는 다음 수학식과 같이 얻어진다.

본 발명에 따르면, 이득 함수 역시 길이 N으로 보간되고, 이것은 예를 들면 평활 보간을 이용하여 행해진다. 이득 함수에 부가되는 위상은 그에 따라 변화되어, 다음 수학식이 생긴다.

유리하게는, 선형 위상 필터의 구성 역시 시간 영역에서 행해진다. 그 경우, 이득 함수 G_M(f_u)는 IFFT를 이용하여 시간 영역으로 변환되고, 이때 원형 시프트가 행해진다. 시프트된 임펄스 응답은 길이 N에 제로 패드된 다음, N길이 FFT를 이용하여 역변환된다. 이에 따라 소망하는 보간된 캐주얼 선형 위상 필터 _M↑N(f_u)가 생긴다.

본 발명에 따른 캐주얼 최소 위상 필터는 Hilbert 변환 관계를 이용하여 이득 함수로부터 구성될 수 있다. 예를 들면, A.V. Oppenheim 및 R.W. Schafer의 "Discrete-Time Processing"[Prentic-Hall, Inter. Ed., 1989]을 참조하기 바란다. Hilbert 변환 관계는 복소 함수의 실수부와 허수부 사이의 고유한 관계를 의미한다. 유리하게는, 이것은, 복소 신호의 대수가 사용될 때, 다음과 같이 크기와 위상 사이의 관계에 이용될 수도 있다.

여기서는, 위상이 0 이어서 실수 함수가 생긴다. 함수 ln(｜G_M(f_u)｜)는 길이 M의 IFFT를 이용하여 시간 영역으로 변환되어, g_M(n)을 형성한다. 시간 영역 함수는 다음 수학식과 같이 재정리된다.

함수 _M(n)은 M길이 FFT를 이용하여 주파수 영역으로 역변환되어,가 산출된다. 이로부터, 함수 _M(f_u)가 형성된다. 캐주얼 최소 위상 필터 _M(f_u)는 길이 N으로 보간된다. 보간은 상술한 선형 위상의 경우와 동일 방식으로 행해진다. 결과의 보간된 필터 G_M↑N(f_u)는 캐주얼 특성을 갖고 대략 최소 위상을 갖는다.

본 발명에 따른 상술한 스펙트럼 공제 방식이 도 3에 도시되어 있다. 도 3에서, 선형 컨벌루션 및 캐주얼 필터링을 제공하는 스펙트럼 공제 잡음 저감 프로세서(300)는, Bartlett 프로세서(305), 크기 제곱 프로세서(320), 음성 활동 검출기(330), 블록 방식 평균화 프로세서(340), 낮은 차수 이득 계산 프로세서(350), 이득 위상 프로세서(355), 보간 프로세서(356), 승산기(360), 고속 푸리에 역변환 프로세서(370) 및 중복 및 부가 프로세서(380)를 포함하는 것으로 도시되어 있다.

도시된 바와 같이, 잡음 섞인 입력 신호가 Bartlett 프로세서(305)의 입력 및 고속 푸리에 변환 프로세서(310)의 입력에 결합된다. Bartlett 프로세서(305)의 출력은 크기 제곱 프로세서(320)의 입력에 결합되고, 고속 푸리에 변환 프로세서(310)의 출력은 승산기(360)의 제1 입력에 결합된다. 크기 제곱 프로세서(320)의 출력은 스위치(325)의 제1 접점 및 낮은 차수 이득 계산 프로세서(350)의 제1 입력에 결합된다. 음성 활동 검출기(330)의 제어 출력은 스위치(325)의 스로 입력(throw input)에 결합되고, 스위치(325)의 제2 접점은 블록 방식 평균화 장치(340)의 입력에 결합된다.

블록 방식 평균화 장치(340)의 출력은 낮은 차수 이득 계산 프로세서(350)의 제2 입력에 결합되고, 낮은 차수 이득 계산 프로세서(350)의 출력은 이득 위상 프로세서(355)의 입력에 결합된다. 이득 위상 프로세서(355)의 출력은 보간 프로세서(356)의 입력에 결합되고, 보간 프로세서(356)의 출력은 승산기(360)의 제2 입력에 결합된다. 승산기(360)의 출력은 고속 푸리에 역변환 프로세서(370)의 입력에 결합되고, 고속 푸리에 역변환 프로세서(370)의 출력은 중복 및 부가 프로세서(380)의 입력에 결합된다. 중복 및 부가 프로세서(380)의 출력은 예시적인 잡음 저감 프로세서(300)에 대한 잡음 저감된 뚜렷한 음성 출력을 제공한다.

동작 시, 본 발명에 따른 스펙트럼 공제 잡음 저감 프로세서(300)는, 상기 선형 컨벌루션 및 캐주얼 필터링 알고리즘을 이용하여, 착신되는 잡음 섞인 음성 신호를 처리하여 뚜렷하고 잡음 저감된 음성 신호를 제공한다. 실제에 있어서, 도 3의 여러 구성요소들은 범용 컴퓨터, 집적 회로 및/또는 응용 주문형 집적 회로(ASIC)의 조합을 포함하여 임의의 공지된 디지털 신호 처리 기술을 이용하여 구현될 수 있다.

유리하게는, 본 발명의 이득 함수 G_M(l)의 편차는 본 발명에 따른 제어 지수 이득 함수 평균화에 의해 더욱 감소될 수 있다. 실시예에 따르면, 평균화는 현재 블록 스펙트럼 P_x,M(l)과 평균화된 잡음 스펙트럼 _x,M(l) 사이의 불일치에 따라서 행해진다. 예를 들어, 불일치가 작을 경우, 고정적인 배경 잡음 상황에 대응하여, 이득 함수 G_M(l)의 긴 평균화가 제공될 수 있다. 역으로, 불일치가 클 경우, 음성 또는 크게 변하는 배경 잡음을 갖는 상황에 대응하여, 이득 함수 G_M(l)의 짧은 평균화가 제공되거나 또는 평균화가 제공되지 않을 수 있다.

음성 기간으로부터 잡음 기간으로의 일시적인 전환을 다루기 위하여, 이득 함수의 평균화는 불일치의 감소에 정비례하여 증가하지 않으며, 가청 섀도 음성도 그렇게 도입된다(음성 스펙트럼에 적합한 이득 함수는 장기간 남아 있을 것이기 때문에). 대신, 이득 함수가 고정적인 입력에 적응할 시간을 제공하도록 평균화는 서서히 증가하게 된다.

실시예에 따르면, 스펙트럼들 사이의 불일치는 다음 수학식으로서 규정된다.

여기서 β(l)은 다음과 같이 제한된다.

여기서 β(l)=1인 경우 이득 함수의 지수 평균화가 생기지 않고, β(l)=β_min인 경우 최대 한도의 지수 평균화가 제공된다.

파라미터(l)은 스펙트럼들 사이의 불일치의 지수 평균으로서, 다음과 같이 표현된다.

수학식 27에서 파라미터 γ는, 스펙트럼들 사이에 불일치가 큰 기간으로부터 불일치가 작은 기간으로의 천이가 나타날 때 이득 함수가 새로운 레벨에 적응하는 것을 확실히 하기 위해 사용된다. 상술한 바와 같이, 이것은 섀도 음성을 방지하기 위해 행해진다. 실시예에 따르면, β(l)의 레벨 감소에 따라서 이득 함수의 증가된 지수 평균화가 시작하기 전에 적응이 완료된다. 따라서,

불일치 β(l)가 증가할 때는, 파라미터 β(l)가 바로 따르지만, 불일치 β(l)가 감소할 때는, β(l)에 대해 지수 평균화가 이용되어 평균화된 파라미터 β(l)를 형성한다. 이득 함수의 지수 평균화는 다음과 같이 표현된다.

상기 수학식은 상이한 입력 신호 상태에 대해 다음과 같이 해석될 수 있다. 잡음 기간 중에, 편차는 감소된다. 잡음 스펙트럼이 각 주파수에 대해 안정된 평균값을 갖는 한은, 편차를 감소시키기 위해 그것을 평균화할 수 있다. 잡음 레벨 변화는 평균화된 잡음 스펙트럼 _x,M(l)과 현재 블록에 대한 스펙트럼 P_x,M(l) 사이의 불일치를 초래한다. 따라서, 제어 지수 평균화 방법은 잡음 레벨이 새로운 레벨에서 안정될 때까지 이득 함수 평균화를 감소시킨다. 이러한 동작은 잡음 레벨 변화의 취급을 가능케 하고 고정적인 잡음 기간 중에 편차의 감소 및 잡음 변화에 대한 즉시 응답을 제공한다. 높은 에너지 음성은 종종 시간에 따라 변하는 스펙트럼 피크를 갖는다. 상이한 블록들로부터의 스펙트럼 피크가 평균화되면, 그들의 스펙트럼 추정치는 이들 피크의 평균을 포함하고 따라서 보다 넓은 스펙트럼처럼 보이고, 이것은 음질 저하를 초래한다. 따라서, 지수 평균화는 높은 에너지 음성 기간 중에 최소한도로 유지된다. 평균 잡음 스펙트럼 _x,M(l)과 현재 높은 에너지 음성 스펙트럼 P_x,M(l) 사이의 불일치가 크기 때문에, 이득 함수의 지수 평균화가 수행되지 않는다. 보다 낮은 에너지 음성 기간 중에는, 현재 낮은 에너지 음성 스펙트럼과 평균화된 잡음 스펙트럼 사이의 불일치에 따라서 짧은 메모리를 갖는 지수 평균화가 이용된다. 따라서 편차 저감은 배경 잡음 기간 중보다 낮은 에너지 음성에 대해 보다 낮고, 높은 에너지 음성 기간에 비하여 크다.

본 발명에 따른 상술한 스펙트럼 공제 방식은 도 4에 도시되어 있다. 도 4에서, 선형 컨벌루션, 캐주얼 필터링 및 제어 지수 평균화를 제공하는 스펙트럼 공제 잡음 저감 프로세서(400)는, 도 3의 시스템(300)의 Bartlett 프로세서(305), 크기 제곱 프로세서(320), 음성 활동 검출기(330), 블록 방식 평균화 장치(340), 낮은 차수 이득 계산 프로세서(350), 이득 위상 프로세서(355), 보간 프로세서(356), 승산기(360), 고속 푸리에 역변환 프로세서(370) 및 중복 및 부가 프로세서(380)뿐만 아니라, 평균화 제어 프로세서(445), 지수 평균화 프로세서(446) 및 선택 사양인 고정 FIR 후단 필터를 포함하는 것으로 도시되어 있다.

도시된 바와 같이, 잡음 섞인 입력 신호는 Bartlett 프로세서(305)의 입력 및 고속 푸리에 변환 프로세서(310)의 입력에 결합된다. Bartlett 프로세서(305)의 출력은 크기 제곱 프로세서(320)의 입력에 결합되고, 고속 푸리에 변환 프로세서(310)의 출력은 승산기(360)의 제1 입력에 결합된다. 크기 제곱 프로세서(320)의 출력은 스위치(325)의 제1 접점, 낮은 차수 이득 계산 프로세서(350)의 제1 입력 및 평균화 제어 프로세서(445)의 제1 입력에 결합된다.

음성 활동 검출기(330)의 제어 출력은 스위치(325)의 스로 입력에 결합되고, 스위치(325)의 제2 접점은 블록 방식 평균화 장치(340)의 입력에 결합된다. 블록 방식 평균화 장치(340)의 출력은 낮은 차수 이득 계산 프로세서(350)의 제2 입력 및 평균화 제어기(445)의 제2 입력에 결합된다. 낮은 차수 이득 계산 프로세서(350)의 출력은 지수 평균화 프로세서(446)의 신호 입력에 결합되고, 평균화 제어기(445)의 출력은 지수 평균화 프로세서(446)의 제어 입력에 결합된다.

지수 평균화 프로세서(446)의 출력은 이득 위상 프로세서(355)의 입력에 결합되고, 이득 위상 프로세서(355)의 출력은 보간 프로세서(356)의 입력에 결합된다. 보간 프로세서(356)의 출력은 승산기(360)의 제2 입력에 결합되고, 선택 사양인 고정 FIR 후단 필터(465)의 출력은 승산기(360)의 제3 입력에 결합된다. 승산기(360)의 출력은 고속 푸리에 역변환 프로세서(370)의 입력에 결합되고, 고속 푸리에 역변환 프로세서(370)의 출력은 중복 및 부가 프로세서(380)의 입력에 결합된다. 중복 및 부가 프로세서(380)의 출력은 예시적인 프로세서(400)에 대한 뚜렷한 음성 출력을 제공한다.

동작 시, 본 발명에 따른 스펙트럼 공제 잡음 저감 프로세서(400)는, 상기 선형 컨벌루션, 캐주얼 필터링 및 제어 지수 평균화 알고리즘을 이용하여, 착신되는 잡음 섞인 음성 신호를 처리하여 개선된 잡음 저감된 음성 신호를 제공한다. 도 3의 실시예에서와 마찬가지로, 도 4의 여러 구성요소들은 범용 컴퓨터, 집적 회로 및/또는 응용 주문형 집적 회로(ASIC)의 조합을 포함하여 임의의 공지된 디지털 신호 처리 기술을 이용하여 구현될 수 있다.

실시예에 따르면, 프레임 길이 L과 서브프레임 길이 M의 합이 N-1보다 짧도록 선택되기 때문에, 도 4에 도시된 바와 같이 길이 J≤N-1-L-M의 여분의 고정 FIR 필터(465)가 부가될 수 있다. 후단 필터(465)는 도시된 바와 같이 필터의 보간된 임펄스 응답을 신호 스펙트럼과 승산함으로써 적용된다. 길이 N의 보간은 필터의 제로 패딩 및 N길이 FFT를 이용함으로써 행해진다. 이 후단 필터(465)는 전화 대역폭 또는 일정한 음조 성분을 필터링 제거하는 데 사용될 수 있다. 다르게는, 후단 필터의 기능은 이득 함수 내에 직접 포함될 수 있다.

상술한 알고리즘의 파라미터들은 실제에 있어서는 알고리즘이 구현되는 특정 응용에 기초하여 설정된다. 일례로, 이하에서 핸즈프리 GSM 자동차 전화기와 관련하여 파라미터 선택을 설명한다.

먼저, GSM 사용에 기초하여, 프레임 길이 L은 20 ms 프레임을 제공하는 160 샘플로 설정된다. 다른 시스템들에서는 L의 다른 선택이 사용될 수 있다. 그러나, 프레임 길이 L의 증가는 지연의 증가에 대응한다는 점에 주목하자. 서브블록 길이 M(예를 들면, Bartlett 프로세서의 주기표 길이)은 증가된 편차 저감 M을 제공하도록 작게 한다. FFT는 주기표를 계산하는 데 사용되기 때문에, 길이 M은 2의 제곱수로 편리하게 설정될 수 있다. 주파수 분해능은 다음과 같이 결정될 수 있다.

GSM 시스템 샘플 레이트는 8000 Hz이다. 따라서 길이 M=16, M=32, M=64는 도 5에 도시된 바와 같이 각각 500 Hz, 250 Hz, 125 Hz를 제공한다. 도 5에서, 그래프 (a)는 뚜렷한 음성 신호의 간단한 주기표를 도시하고, 그래프 (b), (c), (d)는 각각 32, 16, 8 주파수 대역을 갖는 Bartlett 방법을 이용하여 뚜렷한 음성 신호에 대해 계산된 주기표를 도시한다. 250 Hz의 주파수 분해능이 음성 및 잡음 신호에 적당하기 때문에, M=32이다. 이것은 길이 L+M=160+32=192를 산출하고, 이것은 상술한 바와 같이 N-1보다 작아야 한다. 따라서, N은 예를 들면 192보다 큰 2의 제곱수(예를 들면 N=256)가 되도록 선택된다. 그 경우, 원하면 선택 사양인 길이 J≤63의 FIR 후단 필터가 적용될 수 있다.

상술한 바와 같이, 잡음 저감의 양은 a 및 k 파라미터에 의해 제어된다. a=0.5의 파라미터 선택(즉, 제곱근 스펙트럼 공제)은 낮은 음성 일그러짐을 유지하면서 강한 잡음 저감을 제공한다. 이것은 도 6에 도시되어 있다(여기서 음성에 잡음을 더한 추정치는 1이고 k는 1이다). 도 6으로부터, a=0.5는 보다 큰 a의 값과 비교하여 보다 큰 잡음 저감을 제공한다는 점에 주목하자. 명확히 하기 위하여, 도 6은 단 하나의 주파수 빈을 제시하고, 이 주파수 빈에 대해서 이하에서 참조되는 것은 SNR이다.

실시예에 따르면, a=0.5가 사용될 때 파라미터 k는 동등하게 작게 한다. 도 7에는, 상이한 k 값들에 대한 이득 함수가 a=0.5에 대하여 도시되어 있다(여기서도, 음성에 잡음을 더한 추정치는 1이다). k≤1의 경우인, 보다 낮은 SNR 쪽으로 이동할 때 이득 함수는 계속 감소해야 한다. 시뮬레이션은 k=0.7이 높은 잡음 저감을 제공하면서 낮은 음성 일그러짐을 제공하는 것을 보여준다.

상술한 바와 같이, 잡음 스펙트럼 추정치는 지수적으로 평균화되고, 파라미터 α는 지수 메모리의 길이를 제어한다. 이득 함수가 평균화되기 때문에, 잡음 스펙트럼 추정치 평균화에 대한 요구가 작아질 것이다. 시뮬레이션은 0.6＜α＜0.9가 소망의 편차 저감을 제공하여, 대략 2 내지 10 프레임의 시상수 τ_frame을 산출하는 것을 보여준다.

잡음 저감의 지수 평균화는 예를 들면 α=0.8로서 선택된다.

파라미터 β_min은 이득 함수의 지수 평균화에 대한 최대 시상수를 결정한다. 초로 규정되는 시상수는 다음과 같이 β_min을 결정하는 데 사용된다.

2분의 시상수가 고정적인 잡음 신호에 적당하고, β_min≒0에 대응한다. 환언하면, (수학식 25에 따르면) β_min≥0이기 때문에 (수학식 32에서) β(l)에 대해 하한의 필요가 없다.

파라미터 γ_c는 음성으로부터 고정적인 입력 신호로 천이할 때 제어 지수 평규화의 메모리가 얼마나 빨리 증가할 수 있는지(즉,(l) 파라미터가 수학식 27 및 28을 참조하여 얼마나 빨리 감소할 수 있는지)를 제어한다. 긴 메모리를 이용하여 이득 함수의 평균화가 행해질 때, 이득 함수는 음성 스펙트럼을 기억하기 때문에 섀도 음성이 생긴다.

예를 들면, 잡음 음성 스펙트럼 추정치 P_M(l)과 잡음 스펙트럼 추정치 _M(l) 사이의 불일치가 하나의 극값으로부터 다른 극값으로 이동하는 극단적 상황을 고려해보자. 첫 번째 경우, 불일치가 커서 장시간에 걸쳐 모든 주파수에 대해서 G_M(l)≒1이 된다. 따라서 β(l)=(l)=1이다. 다음으로, β(l)=0 및 G_M(1-k)^1/a인 극단적 상황을 시뮬레이트하기 위하여 스펙트럼 추정치들을 조작하여 P_M(l)= _M(l)이 되도록 한다.(l) 파라미터는 파라미터 γ_c에 따라서 0으로 감소할 것이다. 따라서, 파라미터 값은:

수학식 27 및 29에 주어진 파라미터를 삽입하면, 다음 수학식이 산출된다.

여기서 l은 에너지의 감소 후 블록의 수이다. 만일 이득 함수가 2 프레임 후 시상수 레벨 e^-1에 도달한 것으로 선택되면, γ_c≒0.506이다. 이 극단적 상황은 도 8의 그래프 (a) 및 (b)에 γ_c의 상이한 값에 대하여 도시되어 있다. e^-1레벨 라인은 일 시상수의 레벨을 나타낸다(즉, 이 레벨이 교차되면, 일 시상수가 경과한 것이다). 녹음된 입력 신호를 이용한 실제 시뮬레이션의 결과가 도 9에 제시되어 있고, γ_c=0.8은 섀도 음성을 방지하기 위한 양호한 선택인 것을 보여준다.

이하에서는, 상기 제시된 파라미터 선택을 이용하여 얻어진 결과들이 제공된다. 유리하게는, 시뮬레이트된 결과들은 다른 스펙트럼 공제 방법들과 비교하여 음질 및 잔여 배경 잡음 품질의 개선을 보여주며, 여전히 강한 잡음 저감을 제공한다. 이득 함수의 지수 평균화는 주로 잔여 잡음의 품질 증가에 대해 책임이 있다. 정확한 컨벌루션을 캐주얼 필터링과 결합하면 전체 음질이 증가하고, 짧은 지연을 갖는 것이 가능해진다.

시뮬레이션에서는, 잘 알려진 GSM 음성 활동 검출기(예를 들면, European Digital Cellular Telecommunications Systems (Phase 2); Voice Acitivity Detection (VAD) (GSM 06.32), European Telecommunications Standards Institute, 1994 참조)가 잡음 섞인 음성 신호에 대해 사용되었다. 시뮬레이션에 사용된 신호들은 자동차에서 녹음된 음성 및 잡음의 별도 녹음으로부터 결합되었다. 음성 녹음은 조용한 차 안에서 핸즈프리 장치 및 아날로그 전화기 밴드폭 필터를 이용하여 수행된다. 잡음열은 이동하는 차 안에서 동일 장치를 이용하여 녹음된다.

수행된 잡음 저감은 수신된 음질과 비교된다. 상기 값의 파라미터 선택은 큰 잡음 저감과 비교할 때 양호한 음질을 제공한다. 보다 적극적인 선택이 이루어질 때, 개선된 잡음 저감이 얻어진다. 도 10 및 11은 각각 입력 음성 및 잡음을 제시하는데, 2개 입력은 1:1 관계를 이용하여 함께 더해진다. 결과의 잡음 섞인 입력 음성 신호가 도 12에 제시되어 있다. 잡음 저감된 출력 신호는 도 13에 제시되어 있다. 결과들은 에너지 적으로 제시될 수도 있으며, 이는 잡음 저감의 계산을 용이하게 하고 또한 어떤 음성 기간이 향상되지 않은지를 보여준다. 도 14, 15, 16은 각각 뚜렷한 음성, 잡음 섞인 음성 및 잡음 저감 후 결과의 출력 음성을 제시한다. 도시된 바와 같이, 13 dB 부근의 잡음 저감이 달성된다. 2:1 관계로 함께 더해진 음성 및 자동차 잡음을 이용하여 입력이 형성되면, 입력 SNR 증가는 도 17 및 19에 제시된 것과 같다. 결과의 신호들은 도 18 및 20에 제시되어 있고, 18 dB에 가까운 잡음 저감이 추정될 수 있다.

캐주얼 특성뿐만 아니라 이득 함수의 적절한 임펄스 응답을 갖는 중요성을 분명히 보여주기 위하여 부가적인 시뮬레이션을 시행하였다. 이하에 제시된 시퀀스들은 모두 30초 길이의 잡음 섞인 음성으로부터 얻어진다. 시퀀스들은 IFFT로부터의 출력의 절대 평균, ｜s_N｜으로서 제시된다(도 4 참조). IFFT는 256개 긴 데이터 블록을 제공하고, 각 데이터 값의 절대값이 취해져서 평균화된다. 따라서, 이득 함수의 상이한 선택의 효과를 분명히 알 수 있다(즉, 논캐주얼 필터, 보다 짧은 및 보다 긴 임펄스 응답, 최소 위상 또는 선형 위상).

도 21은 보다 짧은 길이 M의 임펄스 응답을 갖는 이득 함수로부터 생긴 평균 ｜s_N｜을 제시하고, 이득 함수가 제로 위상을 갖기 때문에 논캐주얼이다. 이것은 평균화된 블록의 끝의 M=32 샘플들에서 하이 레벨에 의해 관찰될 수 있다.

도 22는 전 길이 N의 임펄스 응답을 갖는 이득 함수로부터 생긴 평균 ｜s_N｜을 제시하고, 이득 함수가 제로 위상을 갖기 때문에 논캐주얼이다. 이것은 평균화된 블록의 끝의 샘플들에서 하이 레벨에 의해 관찰될 수 있다. 이 경우는 위상 및 길이에 관하여, 종래의 스펙트럼 공제에 대한 이득 함수에 대응한다. 전 길이 이득 함수는 이득 함수 대신에 잡음 및 잡음 섞인 음성 주기표를 보간함으로써 얻어진다.

도 23은 보다 짧은 길이 M의 임펄스 응답을 갖는 최소 위상 이득 함수로부터 생긴 평균 ｜s_N｜을 제시한다. 이득 함수에 적용된 최소 위상은 그것이 캐주얼 특성을 갖게 한다. 캐주얼 특성은 평균화된 블록의 끝의 샘플들에서 로우 레벨에 의해 관찰될 수 있다. 최소 위상 필터는, 도 23에서 160에서 192까지의 경사에 의해 볼 수 있는 M=32 샘플의 최대 지연을 제공한다. 지연은 이득 함수가 캐주얼 특성을 갖는다는 한정 하에서 최소이다.

도 24는 전 길이 N의 임펄스 응답을 갖는 이득 함수로부터 생긴 평균 ｜s_N｜을 제시하고, 최소 위상을 갖는 것으로 한정된다. 최소 위상으로의 한정은 N=256 샘플의 지연을 제공하고, 프레임은 256 샘플의 전 블록의 시작부에서 160 샘플이기 때문에 블록은 96 샘플의 최대 선형 지연을 유지할 수 있다. 이것은 도 24에서 샘플 160에서 255까지의 경사에 의해 관찰될 수 있다. 지연은 96보다 클 수 있기 때문에, 원형 지연이 생기고, 최소 위상의 경우 프레임 부분을 덮는 지연 샘플을 검출하는 것이 곤란하다.

도 25는 보다 짧은 길이 M의 임펄스 응답을 갖는 선형 위상 이득 함수로부터 생긴 평균 ｜s_N｜을 제시한다. 이득 함수에 적용된 선형 위상은 그것이 캐주얼 특성을 갖게 한다. 이것은 평균화된 블록의 끝의 샘플들에서 로우 레벨에 의해 관찰될 수 있다. 선형 위상 이득 함수에 의한 지연은 0에서 15까지 및 160에서 175까지의 경사에 의해 볼 수 있는 바와 같이 M/2=16 샘플이다.

도 26은 전 길이 N의 임펄스 응답을 갖는 이득 함수로부터 생긴 평균 ｜s_N｜을 제시하고, 선형 위상을 갖는 것으로 한정된다. 선형 위상으로의 한정은 N/2=128 샘플의 지연을 제공한다. 프레임은 256 샘플의 전 블록의 시작부에서 160 샘플이기 때문에 블록은 96 샘플의 최대 선형 지연을 유지할 수 있다. 96보다 길게 지연되는 샘플들은 원형 지연이 관찰되게 한다.

중복에 대응하는 블록에서 낮은 샘플 값의 이점은 블록들 간의 간섭이 적다는 것인데, 이것은 중복이 불연속성을 도입하지 않기 때문이다. 종래의 스펙트럼 공제의 경우인, 전 길이 임펄스 응답이 사용될 때, 선형 위상 또는 최소 위상에 의해 도입된 지연은 블록의 길이를 초과한다. 결과의 원형 지연은 지연 샘플들의 랩어라운드(wrap around)를 제공하고, 따라서 출력 샘플들은 순서가 틀릴 수 있다. 이것은 선형 위상 또는 최소 위상 이득 함수가 사용될 때, 보다 짧은 길이의 임펄스 응답이 선택되어야 함을 시사한다. 선형 도는 최소 위상의 도입은 이득 함수가 캐주얼 특성을 갖게 한다.

출력 신호의 음질이 가장 중요한 인자일 때, 선형 위상 필터가 사용되어야 한다. 지연이 중요할 때, 선형 위상 필터를 사용하는 것에 비하여 음질이 손실되더라도, 논캐주얼 제로 위상 필터가 사용되어야 한다. 양호한 타협안은, 비록 선형 위상 필터를 이용하는 것에 비하여 복잡성이 높더라도, 짧은 지연 및 양호한 음질을 갖는 최소 위상 필터이다. 짧은 길이 M의 임펄스 응답에 대응하는 이득 함수는 항상 음질을 얻기 위해 사용되어야 한다.

이득 함수의 지수 평균화는 신호가 고정적일 때 보다 낮은 편차를 제공한다. 주된 이점은 음악적 톤 및 잔여 잡음의 저감이다. 지수 평균화를 갖는 이득 함수와 그것을 갖지 않는 이득 함수가 도 27 및 28에 제시되어 있다. 도시된 바와 같이, 지수 평균화가 이용될 때, 잡음 기간 중에 그리고 낮은 에너지 음성 기간 중에 신호의 가변성이 보다 낮다. 이득 함수의 보다 낮은 가변성은 출력 신호에서 인공적인 음조가 덜 인지되게 한다.

요컨대, 본 발명은 선형 컨벌루션, 캐주얼 필터링 및/또는 이득 함수의 제어 지수 평균화를 이용한 스펙트럼 공제의 개선된 방법 및 장치를 제공한다. 예시적인 방법들은 개선된 잡음 저감을 제공하고 반드시 2의 제곱수가 아닌 프레임 길이와 잘 조화한다. 이것은 잡음 저감 방법이 음성 코더뿐만 아니라 다른 음성 향상 방법와 통합될 때 중요한 특성일 수 있다.

예시적인 방법들은 이득 함수, 이 경우 복소 함수의 가변성을 두 가지 중요한 방법으로 저감시킨다. 첫째, 현재 블록 스펙트럼 추정치의 편차는 주파수 분해능과 편차 저감을 맞바꿈으로써 스펙트럼 추정 방법(예를 들면, Bartlett 또는 Welch)에 의해 저감된다. 둘째, 추정된 잡음 스펙트럼과 현재 입력 신호 스펙트럼 추정치 사이의 불일치에 따른 이득 함수의 지수 평균화가 제공된다. 고정적인 입력 신호 중의 이득 함수의 낮은 가변성은 음조 잔여 잡음이 적은 출력을 제공한다. 이득 함수의 낮은 분해능 또한 개선된 음질을 산출하는 정확한 컨벌루션을 수행하는 데 이용된다. 이득 함수에 캐주얼 특성을 부가함으로써 음질은 더욱 향상된다. 유리하게는, 음질 개선은 출력 블록에서 관찰될 수 있다. 음질 개선은 출력 블록들의 중복 부분이 훨씬 저감된 샘플 값을 가지며 따라서 블록들은 중복 및 부가 방법에 의해 적합해질 때 덜 간섭한다는 사실에 기인한다.

당업자라면 본 발명이 예시의 목적으로 본 명세서에서 설명된 특정 실시예에 한정되지 않는다는 것과 다수의 대안적인 실시예들이 예상될 수 있다는 것을 알 것이다. 예를 들면, 본 발명은 핸즈프리 통신 응용과 관련하여 설명되었지만, 당업자라면 본 발명의 교시 내용이 특정 신호 성분을 제거하는 것이 바람직한 임의의 신호 처리 응용에 동등하게 적용된다는 것을 알 것이다. 본 발명의 범위는 그러므로 상기 설명보다는 첨부된 특허청구범위에 의해 한정되고, 특허청구범위의 의미와 부합되는 모든 균등물이 본 발명의 범위에 포함되는 것이 의도된다.

Claims

잡음 저감 시스템에 있어서,

잡음 섞인 입력 신호를 필터링하여 잡음 저감된 출력 신호를 제공하도록 구성된 스펙트럼 공제 프로세서(spectral subtraction processor)를 포함하고,

상기 스펙트럼 공제 프로세서의 이득 함수는 상기 입력 신호의 스펙트럼 밀도의 추정치 및 상기 입력 신호의 잡음 성분의 스펙트럼 밀도의 평균 추정치에 기초하여 계산되고,

상기 이득 함수의 연속적인 샘플 블록들이 평균화되는

것을 특징으로 하는 잡음 저감 시스템.
제1항에 있어서, 상기 이득 함수의 연속적인 샘플 블록들은 상기 입력 신호의 스펙트럼 밀도의 추정치와 상기 입력 신호의 잡음 성분의 스펙트럼 밀도의 평균 추정치 사이의 불일치(discrepancy)에 기초하여 평균화되는 것을 특징으로 하는 잡음 저감 시스템.
제1항에 있어서, 상기 이득 함수의 연속적인 샘플 블록들은 지수 평균화(exponential averaging)를 이용하여 평균화되는 것을 특징으로 하는 잡음 저감 시스템.
제1항에 있어서, 상기 평균화의 메모리는 상기 불일치에 반비례하는 것을 특징으로 하는 잡음 저감 시스템.
제1항에 있어서, 상기 평균화의 메모리는 상기 불일치의 감소에 정비례하여 증가하게 되고 상기 불일치의 증가에 따라 지수적으로 감쇠하게 되는 것을 특징으로 하는 잡음 저감 시스템.
잡음 섞인 입력 신호를 처리하여 잡음 저감된 출력 신호를 제공하는 방법에 있어서,

상기 입력 신호의 스펙트럼 밀도의 추정치 및 상기 입력 신호의 잡음 성분의 스펙트럼 밀도의 평균 추정치를 계산하는 단계;

상기 잡음 섞인 입력 신호에 기초하여, 스펙트럼 공제를 이용하여 상기 잡음 저감된 출력 신호를 계산하는 단계; 및

상기 스펙트럼 공제를 이용하여 상기 잡음 저감된 출력 신호를 계산하는 단계에서 사용된 이득 함수의 연속적인 블록들을 평균화하는 단계

를 포함하는 것을 특징으로 하는 방법.
제6항에 있어서, 상기 입력 신호의 스펙트럼 밀도의 추정치와 상기 입력 신호의 잡음 성분의 스펙트럼 밀도의 평균 추정치 사이의 불일치에 기초하여 상기 이득 함수의 연속적인 블록들을 평균화하는 단계를 포함하는 것을 특징으로 하는 방법.
제6항에 있어서, 지수 평균화를 이용하여 상기 이득 함수의 연속적인 샘플 블록들을 평균화하는 단계를 포함하는 것을 특징으로 하는 방법.
제6항에 있어서, 상기 이득 함수의 연속적인 블록들의 평균화의 메모리는 상기 불일치에 반비례하는 것을 특징으로 하는 방법.
제6항에 있어서, 상기 연속적인 블록들의 평균화의 메모리는 상기 불일치의 감소에 정비례하여 증가하게 되고 상기 불일치의 증가에 따라 지수적으로 감쇠하게 되는 것을 특징으로 하는 방법.
이동 전화기에 있어서,

잡음 섞인 근단 음성 신호(noisy near-end speech signal)를 필터링하여 잡음 저감된 근단 음성 신호를 제공하도록 구성된 스펙트럼 공제 프로세서를 포함하고,

상기 스펙트럼 공제 프로세서의 이득 함수는 상기 잡음 섞인 근단 음성 신호의 스펙트럼 밀도의 추정치 및 상기 잡음 섞인 근단 음성 신호의 잡음 성분의 스펙트럼 밀도의 평균 추정치에 기초하여 계산되고,

상기 이득 함수의 연속적인 샘플 블록들이 평균화되는

것을 특징으로 하는 이동 전화기.
제11항에 있어서, 상기 이득 함수의 연속적인 샘플 블록들은 상기 잡음 섞인 근단 음성 신호의 스펙트럼 밀도의 추정치와 상기 잡음 섞인 근단 음성 신호의 잡음 성분의 스펙트럼 밀도의 평균 추정치 사이의 불일치에 기초하여 평균화되는 것을 특징으로 하는 이동 전화기.
제11항에 있어서, 상기 이득 함수의 연속적인 샘플 블록들은 지수 평균화를 이용하여 평균화되는 것을 특징으로 하는 이동 전화기.
제11항에 있어서, 상기 평균화의 메모리는 상기 불일치에 반비례하는 것을 특징으로 하는 이동 전화기.
제11항에 있어서, 상기 평균화의 메모리는 상기 불일치의 감소에 정비례하여 증가하게 되고 상기 불일치의 증가에 따라 지수적으로 감쇠하게 되는 것을 특징으로 하는 이동 전화기.