KR100330230B1

KR100330230B1 - 잡음 억제 방법 및 장치

Info

Publication number: KR100330230B1
Application number: KR1020007005629A
Authority: KR
Inventors: 이사벨스티븐에이취.
Original assignee: 윤종용; 삼성전자 주식회사
Priority date: 1998-09-23
Filing date: 1999-09-22
Publication date: 2002-05-09
Also published as: EP1116224A1; IL136090A0; AU6037899A; WO2000017855A1; KR20010075343A; JP2003517624A; KR20010032390A; BR9913011A; WO2000017859A1; CA2344695A1; CA2310491A1; AU6007999A; WO2000017859A8; CN1286788A; US6122610A; EP1116224A4; CN1326584A

Abstract

본 발명은 잡음과 음성의 조합을 반송하는 입력 신호내의 잡음을 억제하는 방법 및 장치를 개시한다. 본 발명에서는 입력 신호를 신호 블록들로 분할하고, 이들 신호 블록들을 처리하여 입력 신호의 단기간 인지가능 대역 스펙트럼 추정치를 제공하고, 각종 시점에서 입력 신호가 잡음만의 신호를 반송하는지 또는 잡음과 음성의 조합을 반송하는지를 판단하여 입력 신호가 잡음만의 신호를 반송하는 경우 그에 대응하는 입력 신호의 단기간 인지가능 대역 스펙트럼 추정치를 사용해서 잡음의 장기간 인지가능 대역 스펙트럼 추정치를 갱신하고, 잡음의 장기간 인지가능 대역 스펙트럼 추정치와 입력 신호의 단기간 인지가능 대역 스펙트럼 추정치에 근거하여 잡음 억제 주파수 응답을 결정하며, 잡음 억제 주파수 응답에 따라 입력 신호의 현재 블록을 성형한다.

Description

잡음 억제 방법 및 장치{NOISE SUPPRESSION FOR LOW BITRATE SPEECH CODER}

본 발명의 기술적 배경은 다음의 종래 기술 문헌에서 볼 수 있다.

"ENHANCED VARIABLE RATE CODEC, SPEECH SERVICE OPTION 3 FOR WIDEBAND SPREAD SPECTRUM DIGITAL SYSTEM", TIA/EIA/IS-127 Standard.

"THE STUDY OF SPEECH/PAUSE DETECTORS FOR SPEECH ENHANCEMENT METHODS", P. Sovka and P. Pollak, Eurospeech 95 Madrid, 1995, pp. 1575-1578.

"SPEECH ENHANCEMENT USING A MINIMUM MEAN-SQUARE ERROR SHORT-TIME SPECTRAL AMPLITUDE ESTIMATOR", Y. Ephraim, D. Malah, IEEE Transactions on Acoustics Speech and Signal Processing, Vol. ASSP-32, No. 6, Dec. 1984, pp. 1105-1121.

"SUPPRESSION OF ACOUSTIC NOISE USING SPECTRAL SUBTRACTION", S. Boll, IEEE Transactions on Acoustics Speech and Signal Processing, Vol. ASSP-27, No. 2, April, 1979, pp. 113-120.

"STATICAL-MODEL-BASED ENHANCEMENT SYSTEMS", Proceedings of the IEEE, Vol. 80, No. 10, October 1992, pp. 1526-1544.

복잡도가 낮은 잡음 억제 알고리즘으로서는 스펙트럼 변형 기법(이 기법은 스펙트럼 감법으로서도 알려져 있음)을 사용하는 것이 있다. 이와 같이 스펙트럼 변형 기법을 사용하는 잡음 억제 알고리즘에서는, 먼저 잡음이 있는 함유(이하에서는 간단히 “잡음 함유”라고 함)(noisy) 음성 신호를 수개의 주파수 대역으로 분할하고, 그다음 전형적으로 그 대역에서 추정되는 신호 대 잡음 비를 기초로 하는 이득을 각 대역에 대해 계산하며, 그다음 이들 이득을 적용하여 신호를 재계산한다. 이같은 유형의 방식에서는 그 관찰하는 잡음 함유 음성 신호로부터 신호 및 잡음 특성을 추정해야만 한다. 스펙트럼 변형 기법의 수개의 구현예는 다음과 같은 미국 특허들 즉, 5,687,285; 5,680,393; 5,668,927; 5,659,622; 5,651,071; 5,630,015; 5,625,684; 5,621,850; 5,617,505; 5,617,472; 5,602,962; 5,577,161; 5,555,287; 5,550,924; 5,544,250; 5,539,859; 5,533,133; 5,530,768; 5,479,560; 5,432,859; 5,406,635; 5,402,496; 5,388,182; 5,388,160; 5,353,376; 5,319,736; 5,278,780; 5,251,263; 5,168,526; 5,133,013; 5,081,681; 5,040,156; 5,012,519; 4,908,855; 4,897,878; 4,811,404; 4,747,143; 4,737,976; 4,630,305; 4,630,304; 4,628,529; 4,468,804에서 볼 수 있다.

스펙트럼 변형 기법은 수개의 바람직한 특성을 가진다. 첫째, 그 기법은 적응적이어서, 잡음 환경 변화에 대응할 수 있다. 둘째, 대다수의 계산을 이산 푸리에 변환(discrete Fourier transform: DFT) 도메인에서 수행할 수 있다. 따라서, (고속 푸리에 변환(fast Fourier transform: FFT)과 같은) 고속 알고리즘을 사용할 수 있다.

그러나, 현재의 기술 수준에서는 수개의 단점이 존재하는데, 이들 단점의 예로서는 다음과 같은 것들이 있다.

(ⅰ) 높은 잡음 레벨을 적절하게 조절할 때 원하는 음성 신호의 바람직하지 못한 왜곡(이러한 왜곡의 원인으로서는 수개가 존재하는데, 이들 중의 몇 개에 대해서는 후술하겠다.).

(ⅱ) 과도한 계산상의 복잡도.

본 발명은 비트 전송 속도가 낮은 음성 코더(low-bitrate speech coder)에 대한 프론트 엔드(front end)로서 사용하는데 적합한 잡음 억제 기법(noise suppression technique)에 관한 것으로서, 본 발명의 잡음 억제 기법은 셀룰러 전화 분야(cellular telephony application)에 사용하기에 특히 적합하다.

도 1은 본 발명에 따른 잡음 억제 알고리즘의 블록도

도 2는 본 발명에 따른 입력 신호 처리 블록을 도시한 도면

도 3은 이산 푸리에 변환(DFT) 빈들을 가지며 서로 다른 대역폭을 가진 각종 잡음 스펙트럼 대역(NS 대역)들간의 상관관계를 도시한 도면

도 4는 음성/중지 검출부의 한 가지 가능한 실시 예에 대한 블록도

도 5는 잡음 함유 음성의 에너지 지수의 일 예를 제공하는 파형도

도 6은 잡음 함유 음성의 스펙트럼 전이 지수의 일 예를 제공하는 파형도

도 7은 잡음 함유 음성의 유사 지수의 일 예를 제공하는 파형도

도 8은 잡음 함유 음성 신호를 모델링 하는 단일-상태 기계를 도시한 도면

도 9는 구분적-일정 주파수 응답을 도시한 도면

도 10은 도 9에 도시한 구분적-일정 주파수 응답에 대한 평활화를 도시한 도면

따라서, 종래 기술의 문제점들을 해결할 수 있는 잡음 억제 기법을 제공하는 것이 바람직할 것이다. 특히, 블록 기반(block based) 잡음 억제 기법에서 전형적인 시간 도메인 불연속성을 감안한 잡음 억제 기법을 제공하는 것이 바람직할 것이다. 또한, 스펙트럼 감법에 내재하는 주파수 도메인 불연속성으로 인한 왜곡을 감소시키는 기법을 제공하는 것이 바람직할 것이다. 또한, 잡음 억제시의 스펙트럼 성형 동작의 복잡도를 감소시키고 잡음 억제 기법에서 추정한 잡음 통계의 신뢰도를 증가시키는 것이 바람직할 것이다.

따라서, 본 발명은 이들 및 기타 다른 장점을 가진 잡음 억제 기법을 제공하고자 하는 것이다.

본 발명에 따르면, 잡음 억제 기법이 제공되는데, 이 기법에서는 블록 기반 억제 기법에서 전형적인 시간 도메인 불연속성으로 인한 왜곡을 감소시킨다. 또한, 이 기법에서는, 스펙트럼 감법에서의 고유한 주파수 도메인 불연속으로 인한 왜곡도 감소시킴은 물론이고, 잡음 억제 프로세스에서 사용되는 스펙트럼 성형 처리의복잡성도 감소시킨다. 본 발명은 또한 개선된 음성 활성 검출부를 사용하여 추정 잡음 통계의 신뢰성을 증대시킨다.

본 발명에 일 실시예에 따른 잡음과 음성의 조합을 반송하는 입력 신호내의 잡음을 억제하는 방법에서는 입력 신호를 신호 블록들로 분할하고, 이들 신호 블록들을 처리하여 입력 신호의 단기간 인지가능 대역 스펙트럼 추정치(estimate of a short term perceptual band spectrum)를 제공하고, 각종 시점에서 입력 신호가 잡음만의 신호를 반송하는지 또는 잡음과 음성의 조합을 반송하는지를 판단하여 입력 신호가 잡음만의 신호를 반송하는 경우 그에 대응하는 입력 신호의 단기간 인지가능 대역 스펙트럼 추정치를 사용해서 잡음의 장기간 인지가능 대역 스펙트럼 추정치(estimate of a long term perceptual band spectrum)를 갱신하고, 잡음의 장기간 인지가능 대역 스펙트럼 추정치와 입력 신호의 단기간 인지가능 대역 스펙트럼 추정치에 근거하여 잡음 억제 주파수 응답을 결정하며, 잡음 억제 주파수 응답에 따라 입력 신호의 현재 블록을 성형한다.

본 발명의 방법은 입력 신호를 사전 필터링하여 그의 고주파수 응답 성분을 강조하는단계를 더 포함한다. 예시적인 실시예에서는, 입력 신호를 처리하는단계가 신호 블록들에 대해 이산 푸리에 변환을 적용하여 각 블록의 복소수값 주파수 도메인 표현을 제공하는단계와, 블록의 주파수 도메인 표현을 크기만의 신호로 변환하는단계와, 크기만의 신호들을 이산 주파수 대역들에 걸쳐 평균화하여 인지가능-대역 스펙트럼으로서 제공하는단계와, 인지가능-대역 스펙트럼의 시간 변동분들을 평활화하여 단기간 인지가능 대역 스펙트럼 추정치를 제공하는단계를 포함한다.

본 발명에서는, 잡음 억제 주파수 응답을 입력 신호의 현재 블록을 성형하는데 사용하기 위한 전극 필터(all-pole filter)를 사용하여 모델링할 수 있다.

본 발명의 다른 실시예에 따른 잡음과 음성의 조합을 반송하는 입력 신호내의 잡음을 억제하기 위한 장치는 입력 신호를 사전 필터링하여 그 신호의 고주파수 성분을 강조할 수 있는 것으로서 입력 신호를 블록들로 분할하는 신호 전처리부와, 블록들을 처리하여 입력 신호의 복소수값 주파수 도메인 스펙트럼을 제공하는 고속 푸리에 변환 처리기와, 복소수값 주파수 도메인 스펙트럼을 폭이 동일하지 않은 주파수 대역들을 포함하는 장기간 인지가능-대역 스펙트럼으로 누적시키는 누적기(accumulator)와, 장기간 인지가능-대역 스펙트럼을 필터링하여 장기간 인지가능-대역 스펙트럼의 현재 세그먼트와 잡음을 포함하는 단기간 인지가능-대역 스펙트럼의 추정치를 발생하는 필터와, 입력 신호가 소정 시점에서 잡음만 인지 또는 잡음과 음성의 조합인지를 판단하는 음성/중지 검출부(speech/pause detector)와, 입력 신호가 잡음만의 신호인 경우 음성/중지 검출부에 응답하여 입력 신호의 단기간 인지가능 대역 스펙트럼에 근거해서 잡음의 장기간 인지가능 대역 스펙트럼 추정치를 갱신하는 잡음 스펙트럼 추정기와, 잡음 스펙트럼 추정기에 응답하여 잡음 억제 주파수 응답을 결정하는 스펙트럼 이득 처리기와, 스펙트럼 이득 처리기에 응답하여 입력 신호의 현재 블록을 성형해서 그 신호 내의 잡음을 억제하는 스펙트럼 성형 처리기를 포함한다.

본 발명의 또 다른 실시예에 따른 잡음과 오디오 정보를 반송하는 입력 신호내의 잡음을 억제하는 방법은 주파수 도메인에서 입력 신호에 대한 잡음 억제 주파수 응답을 계산하는단계와, 그 계산된 잡음 억제 주파수 응답을 주파수 도메인에서 입력 신호에 대해 적용하여 입력 신호내의 잡음을 억제하는단계를 포함한다. 본 발명에 따른 방법은 입력 신호의 잡음 억제 주파수 응답을 계산하기 전에 입력 신호를 블록들로 분할하는단계를 더 포함한다. 예시적인 실시 예에서는, 잡음 억제 주파수 응답의 자기상관 함수(autocorrelation function)를 결정하는 것에 의해서 발생된 전극 필터를 사용하여 잡음 억제 주파수 응답을 입력 신호에 적용한다.

본 발명에 따른 잡음 억제 알고리즘에서는, 시변 필터 응답(time varying filter response)을 계산하여 그 결과를 잡음 함유 음성에 적용한다. 이 알고리즘의 블록도를 도 1에 도시한다. 도 1에서, "AR 파라미터 계산(AR parameter computation)" 블록 및 "AR 스펙트럼 성형(AR spectral shaping)" 블록은 시변 필터 응답의 적용에 관련되며, "AR"은 "자동-회귀(auto-regressive)"를 의미한다. 도 1의 다른 모든 블록은 잡음 음성으로부터의 시변 필터 응답을 계산하는 것에 대응한다.

신호 전처리부(preprocessor)(10)는 잡음 함유 입력 신호를 간단한 고역 통과 필터에 의해서 사전 처리하여 그 신호의 고주파수를 약간 강조한다. 전처리부는 그다음 그 필터링된 신호를 수개의 블록으로 분할하며, 이들 블록은 고속 푸리에 변환(FFT) 모듈(12)에 전달된다. FFT 모듈(12)은 그들 신호 블록에 윈도우(window)를 적용하고 또한 그 신호에 이산 푸리에 변환을 적용한다. 그 결과에 따른 복소수값의 주파수 도메인 표현(complex-valued frequency domain representation)은 소정의 처리를 통해 크기만의 신호(magnitude-only signal)로서 발생된다. 이들 크기만의 신호 값은 이산 주파수 대역(disjoint frequency band)들에서 평균화되어 "인지가능-대역 스펙트럼(perceptual-band spectrum)"으로서 발생된다. 이러한 평균화 처리는 처리해야만 하는 데이터의 양을 감소시킨다.

인지가능-대역 스펙트럼에서의 시간 변동은 신호/잡음 스펙트럼 추정 모듈(14)에서 평활화되어 입력 신호의 단기간 인지가능-대역 스펙트럼의 추정치로서 발생된다. 이 추정치는 음성/중지(speech/pause) 검출부(16), 잡음 스펙트럼 추정기(18) 및 스펙트럼 이득 계산 모듈(20)에 인가된다.

음성/중지 검출부(16)는 현대의 입력 신호가 단순히 잡음인지 또는 음성과 잡음이 조합된 것인지를 판단한다. 이러한 판단은 입력 음성 신호의 수개의 특성을 측정하고, 이들 측정치를 사용하여 입력 신호의 모델을 갱신하며, 이 모델의 상태를 이용해서 최종 음성/중지 판단을 행하는 식으로 이루어진다. 이러한 판단 결과는 그다음 잡음 스펙트럼 추정기에 전달된다.

음성/중지 검출부(16)에 의해 입력 신호가 잡음만으로 이루어져 있다고 판단되면, 잡음 스펙트럼 추정기(18)는 현재의 인지가능-대역 스펙트럼을 이용해서 잡음의 인지가능-대역 스펙트럼 추정치를 갱신한다. 또한, 잡음 스펙트럼 추정기의 어떤 파라미터들은 그 추정기 모듈에서 갱신되어 음성/중지 검출부(16)에 다시 전달된다. 잡음의 인지가능-대역 스펙트럼 추정치는 그다음 스펙트럼 이득 계산 모듈(20)에 전달된다.

스펙트럼 이득 계산 모듈(20)은 현재 신호의 인지가능-대역 스펙트럼 추정치와 잡음의 인지가능-대역 스펙트럼 추정치를 이용하여 잡음 억제 주파수 응답을 판단한다. 이 잡음 억제 주파수 응답은 도 9에 도시한 바와 같이 구분적-일정(piecewise-constant) 주파수 응답이다. 각각의 구분적-일정 세그먼트는 임계 대역 세그먼트의 한 요소에 대응한다. 이 주파수 응답은 AR 파라미터 계산 모듈(22)에 전달된다.

AR 파라미터 계산 모듈은 전극(all-pole) 필터에 의해 잡음 억제 주파수 응답을 모델링한다. 이 잡음 억제 주파수 응답은 구분적-일정 주파수 응답이기 때문에, 그의 자기-상관 함수(auto-correlation function)는 폐쇄 형태로(in closed form) 용이하게 결정될 수 있다. 전극-필터 파라미터들은 이때 자기-상관 함수로부터 효율적으로 계산될 수 있다. 구분적-일정 스펙트럼의 전극 모델링은 잡음 억제에서의 불연속성을 평활화하는 효과를 나타낸다. 당연히 알 수 있듯이, 전극 필터를 사용하는 대신에 현재 알려진 또는 차후 개발될 다른 모델링 기법을 사용할 수도 있을 것인데, 이러한 모든 등가물을 본 발명의 범주에 포함시키고자 한다.

AR 스펙트럼 성형 모듈(24)은 AR 파라미터들을 이용해서 입력 신호의 현재 블록에 필터를 적용한다. 시간 도메인에서 스펙트럼 성형을 실시하는 것에 의해, 블록 처리로 인한 시간 불연속성이 감소된다. 또한, 잡음 억제 주파수를 하위(low-order) 전극 필터에 의해서 모델링하기 때문에, 어떤 프로세서들에서는 시간 도메인 성형을 더욱 더 효과적으로 실시할 수도 있다.

전위처리 모듈(10)에서는, 신호를 먼저 H(z)=1-0.8z^-1형태의 고역 통과 필터에 의해서 사전 강조한다. 이 고역 통과 필터는 음성에 내재하는 스펙트럼 경사를 부분적으로 보상할 수 있는 것이 선택된다. 이런 식으로 사전 처리된 신호들은 보다 정확한 잡음 주파수 응답을 발생한다.

도 2에 도시한 바와 같이, 입력 신호(30)는 (샘플링 주파수가 8㎑이고 지속기간이 10㎳인) 80개 샘플의 블록들로 처리된다. 이들 블록을 분석 블록(34)으로서 도시했다. 분석 블록(34)은 도시한 바와 같이 80개 샘플의 길이를 가진다. 더욱 구체적으로 말해서, 도시한 실시예에서, 입력 신호는 128개 샘플의 블록들로 분할된다. 각 블록은 이전 블록으로부터의 최종 24개 샘플(32)과, 80개 새로운 샘플의 분석 블록(34)과, "0"의 24개 샘플(36)로 이루어진다. 각 블록은 해밍 윈도우(Hamming window)에 의해서 윈도우화되며 푸리에 변환된다.

블록 구조에서의 암시적인 제로-패딩(zero-padding)을 더 설명할 필요가 있다. 특히, 신호 처리면에서 볼 때, 제로-패딩은 불필요한데, 이는 이산 푸리에 변환에 의해 (후술하는) 스펙트럼 성형을 실시하지 않기 때문이다. 그러나, 제로-패딩을 포함시키면, 그 알고리즘을 본 발명의 양수인인 Solana Technology Development Corporation이 구현한 기존의 EVRC 음성 코덱(voice codec)에 통합시키는 것이 용이하다. 이러한 블록 구조는 기존 EVRC의 전체 버퍼 관리 방식의 어떠한 변경도 요구하지 않는다.

각각의 잡음 억제 프레임은 128-포인트 시퀀스로서 나타낼 수 있다. 이 시퀀스를 g[n]으로 표기하면, 신호 블록의 주파수-도메인 표현은 다음과 같은 수학식 1의 이산 주파수 변환으로서 정의될 수 있다.

상기 수학식 1에서, C는 비정규화 상수이다.

신호 스펙트럼은 그다음 다음의 수학식 2와 같이 서로 폭이 다른 대역들로 누적된다.

여기서,

상기한 신호 스펙트럼은 인지가능-대역 스펙트럼으로서 언급된다. 상기한 대역들은 도 3에서 대역(50)으로서 도시된다. 도시한 바와 같이, 잡음 스펙트럼 대역들(NS 밴드)은 서로 다른 폭을 가지며 이산 푸리에 변환(DFT) 빈(bin)들과 상관관계를 갖는다.

신호와 잡음이 합해진 조합의 인지가능-대역 스펙트럼 추정치는 모듈(도 1의 14)에서 인지가능-대역 스펙트럼을 예를 들어 단극(single-pole) 순환 필터에 의해 필터링하는 것에 의해서 발생된다. 신호와 잡음이 합해진 조합의 전력 스펙트럼 추정치는 다음의 수학식 3과 같다.

음성의 특성은 비교적 단기간에 걸쳐 정적이기 때문에, 필터 파라미터 β는 단지 몇 개의(예를 들어 2개 내지 4개의) 잡음 억제 블록에 걸쳐 평활 처리를 수행하도록 선택된다. 이 평활 처리는 "단기간(short-time)" 평활 처리로서 언급되는 것으로서, "단기간 인지가능-대역 스펙트럼"의 추정치를 제공한다.

잡음 억제 시스템은 적절한 기능 수행을 위해 정확한 잡음 통계 추정치를 필요로 한다. 이 기능은 음성/중지 검출부 모듈(16)에 의해서 제공된다. 하나의 가능한 실시예에서는, 단일의 마이크로폰에 의해 음성과 잡음을 모두 측정한다. 잡음 억제 알고리즘은 잡음 통계 추정치를 필요로 하기 때문에, 잡음을 함유한 음성 신호와 잡음만의 신호를 구별하기 위한 방법이 필요하다. 이 방법은 기본적으로 잡음 함유 음성의 중지를 검출해야만 하는데, 이러한 작업은 다음과 같은 수개의 요인으로 인해서 더욱 어렵게 된다.

1. 중지 검출은 (0㏈ 내지 5㏈ 정도의) 작은 신호 대 잡음 비로 적절히 수행되어야 한다.

2. 중지 검출은 배경 잡음 통계의 완만한 변동에 민감하기 않아야 한다.

3. 중지 검출은 잡음과 같은 음성(예를 들어, 마찰음)과 배경 잡음을 정확하게 구별해야만 한다.

음성/중지 검출부(16)의 한가지 가능한 실시예에 대한 블록도를 도 4에 도시한다.

중지 검출부는 현재 발생되고 있는 잡음 함유 음성 신호를 유한 수의 신호 모델들간에서 전환시키는 것에 의해 모델링한다. 유한-상태 기계(finite-state machine: FSM)(64)는 모델들간의 전이를 관리한다. 음성/일시정지 판정은 현재 신호에 대한 측정치 및 기타 다른 적절한 상태 변수와 함께 현재 FSM 상태의 함수이다. 상태들 간의 전이는 현재 FSM 상태와 현재 신호에 대한 측정치의 함수이다.

후술하는 측정된 값들은 신호-상태 상태 기계(64)를 구동시키는 이진(binary)값의 파라미터를 결정하는데 사용된다. 일반적으로, 이들 이진값의 파라미터는 정확한 실수값의 측정치를 적응적 임계값과 비교하는 것에 의해서 결정된다. 신호 측정 모듈(60)이 제공하는 신호 측정치에 의해서 다음과 같은 신호 특성이 정량화된다.

1. 에너지 지수에 의해서는 신호가 큰 에너지를 갖는지 또는 작은 에너지를 갖는지가 판단된다. 이 신호 에너지 E[i]는 다음의 수학식 4로서 정의된다.

잡음 함유 음성의 에너지 지수에 대한 일 예는 도 5에 도시된다. 도 5에서는, 개별 음성 샘플의 진폭을 커브(70)로 나타냈고, 대응하는 NS 블록의 에너지 지수를 커브(72)로 나타냈다.

2. 스펙트럼 전이 지수에 의해서는 신호 스펙트럼이 단기간의 윈도우에 걸쳐 정상 상태(steady-state)에 있는지 또는 전이 상태에 있는지가 판단된다. 이 스펙트럼 전이 지수는 인지가능 대역 스펙트럼의 각 대역에 대한 경험적인 평균치 및 변동분을 결정하는 것에 의해 계산된다. 인지가능 대역 스펙트럼의 모드 대역에 대한 변동분들의 합은 스펙트럼 전이 지수로서 사용된다. 구체적으로 말해서, 전이 지수 Ti는 다음과 같이 계산된다. 인지가능 대역 스펙트럼의 각 대역에 대한 평균치는 다음의 수학식 5와 같은 단극 순환 필터에 의해서 계산된다.

인지가능 스펙트럼의 각 대역에 대한 변동분은 순환 필터에 의해서 계산된다.

필터 파라미터 α는 비교적 장기간 즉 10 내지 1 잡음 블록에 걸쳐 평활 처리를 수행하도록 선택된다. 전체적인 변동분은 다음의 수학식 7과 같은 각 대역에 대한 변동분의 합으로서 계산된다.

주목해야 할 것은,의 변동분 자체는 인지가능 대역 스펙트럼이 그의 장기간 평균치로부터 크게 변하지 않을 때에 가장 작다는 것이다. 적절한 스펙트럼 전이 지수는의 변동분으로서, 이것은 다음의 수학식 8과 수학식 9에 의해서 계산된다.

적응적 시정수 ω_i는 다음의 수학식 10으로 주어진다.

이 시정수를 적응시키는 것에 의해, 스펙트럼 전이 지수는 정적인 신호의 위치들을 적절히 추적하게 된다. 잡음 음성의 스펙트럼 지수는 도 6에 도시된다. 도 6에서는, 개별 음성 샘플의 진폭을 커브(74)로 나타냈고, 대응하는 NS 블록의 에너지 지수는 커브(75)로 나타냈다.

3. 스펙트럼 유사(similarity) 지수 SS_i에 의해서는 현재 신호 스펙트럼과 추정 잡음 스펙트럼의 유사 정도가 측정된다. 스펙트럼 유사 지수를 정의하기 위해, 잡음의 인지가능 대역 스펙트럼 N_i[k]에 대한 로그 추정치가 이용가능한 것으로 가정한다(N_i[k]의 정의는 잡음 스펙트럼 추정기에 대한 설명과 관련해서 후술하겠다.). 스펙트럼 유사 지수는 이때 다음의 수학식 11과 같이 정의된다.

잡음의 스펙트럼 유사 지수에 대한 일 예를 도 7에 도시했다. 도 7에서는, 개별 음성 샘플의 진폭을 커브(76)로 나타냈고, 대응하는 NS 블록의 에너지 지수를 커브(78)로 나타냈다. 주목할 것은, 낮은 값의 스펙트럼 유사 지수는 상당히 유사한 스펙트럼들에 대응하는 반면에, 높은 값의 스펙트럼 유사 지수는 상이한 스펙트럼들에 대응한다는 것이다.

4. 에너지 유사 지수에 의해서는 다음의 수학식 12와 같은 현재 신호 에너지와 추정 잡음 에너지의 유사 여부가 판단된다.

이같은 유사 여부는 신호 에너지를 임계치 적용 모듈(62)이 적용하는 임계치와 비교함으로써 판단된다. 실제 임계치는 임계치 계산 프로세서(66)에 의해 계산된다. 임계치 계산 프로세서(66)는 마이크로프로세서일 수 있다.

이진 파라미터들은 신호 스펙트럼의 현재 추정치를 S[k]로 표기하고, 신호 에너지의 현재 추정치를 E_i로 표기하고, 로그 잡음 스펙트럼의 현재 추정치를 N_i[k]로 표기하고, 잡음 에너지의 현재 추정치를로 표기하며, 잡음 에너지 추정치의 변동분을로 표기하는 것에 의해 정의된다.

파라미터 "고_저_에너지"는 신호가 높은 에너지를 갖는 지의 여부를 나타낸다. 고 에너지는 배경 잡음의 추정 에너지에 대해 정의되는 것으로서, 그것은 현재 신호 프레임의 에너지를 추정하고 임계치를 적용하는 것에 의해 계산되며 다음의 수학식 12로서 정의된다.

수학식 13에서, E는 다음의 수학식 14에 의해서 정의되며, E_i는 적응적 임계치이다.

파라미터 "전이"는 신호 스펙트럼이 전이하고 있는 때를 나타낸다. 이 파라미터 전이는 신호 스펙트럼으로부터 현재 단기간 스펙트럼의 이탈을 관찰하는 것에 의해 측정된다. 수학적으로, 그 파라미터 전이는 다음의 수학식 15에 의해서 정의된다

수학식 15에서, T는 전술한 바와 같이 정의한 스펙트럼 지수이며, T_i는 더욱 상세히 후술하는 바와 같이 적응적으로 계산한 임계치이다.

파라미터 "스펙트럼_유사성"에 의해서 현재 신호 스펙트럼과 추정 잡음 스펙트럼간의 유사성이 측정되는데, 이 파라미터는 현재 신호의 로그 스펙트럼과 잡음의 추정 로그 스펙트럼간의 거리를 측정하는 것에 의해 측정된다.

수학식 16에서, SS_i는 전술한 바와 같은 것이며, SS_t는 후술하는 바와 같은 임계치(예를 들어, 상수)이다.

파라미터 "에너지_유사성"에 의해서는 현재 신호의 에너지와 추정 잡음 에너지간의 유사성이 측정된다.

수학식 17에서, E는 다음의 수학식 18에 의해서 정의되며, ES_i는 후술하는 바와 같이 적응적으로 계산한 임계치이다.

상술한 변수들 모두는 수를 임계치와 비교하는 것에 의해서 계산된다. 앞쪽의 3개의 임계치는 동적 신호의 특성들을 반영하는 것으로서 잡음의 특성들에 의존한다. 이들 3개의 임계치는 추정 평균치와 다수의 표준 편차와의 합이다. 스펙트럼 유사성에 대한 임계치는 잡음의 특정한 특성에 의존하지 않으며 일정한 값으로 설정될 수 있다.

고/저 에너지 임계치는 임계치 계산 프로세서(도 4의 66)에 의해 다음과 같은 수학식 19로서 계산된다.

수학식 19에서,는 다음과 같은 수학식 20으로서 정의된 경험적인 변동분이며,는 다음과 같은 수학식 21로서 정의된 경험적인 평균치이다.

에너지 유사성 임계치는 다음의 수학식 22로서 계산된다.

주목할 것은, 에너지 유사성 임계치의 증가 속도는 본 예에서 1.05의 계수에 의해 제한된다. 따라서, 그 임계치는 높은 잡음 에너지에 의해서 부적절한 영향을 받지 않게 된다.

스펙트럼 전이 임계치는로서 계산된다. 스펙트럼 유사성 임계치는 SS_i=10의 상태로 일정하다.

잡음 함유 신호를 모델링하는 신호-상태 상태 기계(64)는 도 8에 더욱 상세히 도시된다. 이 상태 기계의 상태 전이는 전술한 신호 측정에 의해 좌우된다. 신호 상태들은 정상-상태 저 에너지(80), 전이(82) 및 정상-상태 고 에너지(84)이다. 정상-상태 저 에너지 상태 동안에는, 어떠한 스펙트럼 전이도 발생되지 않으며 신호 에너지는 임계치 아래에 있다. 전이 상태 동안에는, 어떠한 스펙트럼 전이도 발생하지 않으며 신호 에너지는 임계치 위에 있다. 상태들 간의 전이는 상술한 신호 측정에 의해 좌우된다.

상태 기계 전이들은 다음과 같은 표 1에서 정의된다.

이 표에서, "X"는 "임의의 값"이다. 주목할 것은, 상태 전이는 어떤 측정의 경우에도 보증된다.

검출부(16)가 제공하는 음성/중지 판정은 신호-상태 상태 기계의 현재 상태에 의존하며 또한 도 4와 관련하여 설명한 신호 측정에 의존한다. 음성/중지는 다음의 의사코드(중지: dec=0; 음성: dec=1)에 의해서 좌우된다.

dec = 1;

스펙트럼-유사성 == 1 이면

dec = 0;

그외에, 현재 상태 == 1 이면

에너지-유사성 == 1 이면

dec = 0;

끝

잡음 스펙트럼은 다음의 수학식을 사용하여 중지로서 분류한 프레임 동안 잡음 파라미터 추정 모듈(도 4의 68)에 의해서 추정된다.

수학식 23에서, β는 0과 1사이의 상수이다. 잡음 에너지의 현재 추정치및 잡음 추정치은 다음의 수학식 24 및 수학식 25로서 정의된다.

상기 수학식 24 및 수학식 25에서, 필터 상수 λ는 10개 내지 20개의 잡음 억제 블록을 평균화하기 위해 선택된다. 스펙트럼 이득은 당해 기술 분야에 잘 알려진 각종 방법에 의해서 계산된다. 다음과 같은 수학식 26으로서 신호 대 잡음 비를 정의하는 것을 포함하는 현재의 구현에 적합한 한가지 방법은 상술한 바와 같다.

수학식 26에서, c는 상수이며, S_u[k] 및 N_i[k]는 상술한 바와 같다. 이득의 잡음 종속 성분은 다음의 수학식 27로서 정의된다.

순간 이득은 다음의 수학식 28로서 계산된다.

일단 순간 이득을 계산한 후에는, 그 결과를 다음과 같은 수학식 29를 사용하여 평활화한다.

수학식 29에서, 벡터 G_s[k]는 시점 k에서 평활화된 채널 이득 벡터이다.

일단 목표 주파수 응답을 계산한 후에는, 그 결과를 잡음 함유 음성에 적용해야 한다. 이것은 잡음 함유 신호의 단기간 스펙트럼을 변형하는 (시변) 필터링 동작에 대응하며, 이 필터링 동작의 결과로써 잡음이 억제된 신호가 생성된다. 현재 실시하는 것과는 달리, 주파수 도메인에서의 스펙트럼 변형은 필요하지 않다.실제로, 주파수 도메인 구현 방식은 다음과 같은 단점을 가질 수도 있다.

1. 주파수 도메인 구현 방식은 불필요하게 복잡할 수도 있다.

2. 주파수 도메인 구현 방식에 의하면, 잡음이 억제된 음성의 질이 저하될 수도 있다.

스펙트럼 성형의 시간 도메인 구현 방식은 성형 필터의 임펄스 응답을 선형 위상으로 할 필요가 없게 한다는 장점을 가진다. 또한, 시간 도메인 구현 방식에 의하면, 순환 콘벌루션(circular convolution)으로 인한 인공적인 결함의 발생가능성이 배제된다.

본 명세서에서 설명하는 스펙트럼 성형 기법은 복잡도가 낮은 필터를 설계하는 방법으로 이루어지는데, 이 방법은 그 필터에 의해 잡음 억제 주파수 응답을 구현한다. 이러한 필터는 AR 파라미터 계산 프로세서(22)가 제공하는 파라미터들에 근거한 AR 스펙트럼 성형 모듈(도 1의 24)에 의해서 제공된다.

원하는 주파수 응답은 도 9에 도시한 바와 같이 비교적 적은 수의 세그먼트에 걸친 구분적으로 일정한 주파수 응답이기 때문에, 그 응답의 자기-상관 함수는 폐쇄 형태로 효율적으로 결정될 수 있다. 자기-상관 계수가 주어지면, 구분적-일정 주파수 응답을 근사화하는 전극 필터가 결정될 수 있다. 이 방식은 여러 가지 장점을 제공한다. 첫째, 구분적-일정 주파수 응답에 관련된 스펙트럼 불연속성이 평활화된다. 둘째, FFT 블록 처리와 관련된 시간 불연속성이 제거된다. 셋째, 성형 처리가 시간 도메인에서 적용되기 때문에, 역 DFT가 필요하지 않다. 하위 전극 필터가 주어지면, 고정점(fixed point) 구현에서 계산상의 장점이 제공된다.

이러한 주파수 응답은 다음의 수학식과 같이 수학적으로 표현될 수 있다.

수학식 30에서, G_s[k]는 평활화된 채널 이득으로서 이 이득은 i번째 구분적-일정 세그먼트의 진폭을 설정하며, I(ω, ω_i-1, ω_i)는 주파수(ω_i-1, ω_i)에 의해서 경계가 정해지는 구간에 대한 지시기 함수(indicator function)이다. 즉, I(ω, ω_i-1, ω_i)는 ω_i-1,〈ω〈ω_i인 경우에는 1이고, 그렇지 않은 경우에는 0이다. 자기-상관 함수는 H²(ω)의 역 푸리에 변환 즉 다음의 수학식 31과 같다.

수학식 31에서, γ_i=(ω_i-ω_i-1)이며, β_i=(ω_i-1+ω_i)/2이다. 이러한 자기-상관 함수는 다음과 같은 수학식 32의 값들에 대한 룩업 테이블에 의해 용이하게 구현될 수 있다.

상기한 자기-상관 함수가 주어지면, 스펙트럼의 전극 모델은 수학식들의 해를 구함으로써 결정될 수 있다. 필요한 매트릭스 반전은 예를 들어 레비슨/더빈 순환(Levinson/Durbin recursion)에 의해서 효율적으로 계산될 수 있다.

순서적인 16개 필터에 의한 전극 모델링의 효율성에 대한 일 예를 도 10에 도시한다. 주목할 것은, 스펙트럼 불연속성이 평활화되었다는 것이다. 분명하게 알 수 있듯이, 모델은 전극 필터 순서가 증가함에 따라 더욱 더 정확하게 될 수 있으며, 16개의 필터 순서에 의해 적절한 계산상의 비용으로 양호한 성능이 제공된다.

AR 파라미터 계산 프로세서(22)가 계산한 파라미터들에 의해서 제공되는 전극 필터는 AR 스펙트럼 성형 모듈(24)에서 잡음 함유 입력 신호의 현재 블록에 적용됨으로써 스펙트럼적으로 성형된 출력 신호가 제공된다.

본 발명을 그의 특정 실시 예에 대해 설명하였으나, 당업자라면 알 수 있듯이, 특허청구범위에 기술한 본 발명의 범주를 벗어나지 않는 범위 내에서 다수의 변형 예 및 적용 예가 가능할 수도 있을 것이다.

이제 자명하듯이, 본 발명에 의하면, 각종 특유의 특징을 가진 잡음 억제 방법 및 장치가 제공된다. 특히, 입력 신호에 대한 상태 기계 모듈로 이루어진 음성 상태 검출부가 제공된다. 이 상태 기계는 입력 신호로부터의 다양한 측정치에 의해서 구동된다. 따라서, 이러한 구조에 의하면, 복잡도가 낮으면서도 음성/중지 판정이 아주 정확하게 된다. 또한, 잡음 억제 주파수 응답이 주파수 도메인에서 계산되나 시간 도메인에 적용된다. 따라서, 주파수 도메인에서 잡음 억제 주파수 응답을 적용하는 "블록-기반" 방법의 경우에 발생하는 시간 도메인 불연속성이 배제되는 효과가 제공된다. 또한, 잡음 억제 필터가 잡음 억제 주파수 응답의 자기-상관 함수를 결정하는 새로운 기법에 의해 설계된다. 따라서, 자기-상관 시퀀스가 전극 필터의 생성에 사용된다. 이 전극 필터는 어떤 경우 주파수 도메인 방법을 구현하는데 있어서 덜 복잡할 수도 있다.

비트 전송 속도가 낮은 음성 코더에 대한 프론트 엔드로서 사용하는 데 적합한 본 발명의 잡음 억제 기법은 셀룰러 전화 분야에 사용하기에 특히 적합하다.

Claims

잡음과 음성의 조합을 반송하는 입력 신호내의 잡음을 억제하기 위한 방법으로서,

상기 입력 신호를 신호 블록들로 분할하는 제1단계와;

상기 신호 블록들을 처리하여 상기 입력 신호의 단기간 인지가능 대역 스펙트럼 추정치를 제공하는 제2단계와;

각종 시점에서 상기 입력 신호가 잡음만의 신호를 반송하는지 또는 잡음과 음성의 조합을 반송하는지를 판단하여, 상기 입력 신호가 잡음만의 신호를 반송하는 경우에는, 그에 대응하는 상기 입력 신호의 단기간 인지가능 대역 스펙트럼 추정치를 사용해서 상기 잡음의 장기간 인지가능 대역 스펙트럼 추정치를 갱신하는 제3단계와;

상기 잡음의 장기간 인지가능 대역 스펙트럼 추정치와 상기 입력 신호의 단기간 인지가능 대역 스펙트럼 추정치에 근거하여 잡음 억제 주파수 응답을 결정하는 제4단계와;

상기 잡음 억제 주파수 응답에 따라 상기 입력 신호의 현재 블록을 성형하는 제5단계를 포함하는 잡음 억제 방법.
제1항에 있어서,

상기 제2단계 전에 상기 입력 신호를 사전 필터링하여 그의 고주파수 응답 성분을 강조하는단계를 더 포함하는 것을 특징으로 잡음 억제 방법.
제2항에 있어서,

상기 제2단계는:

상기 신호 블록들에 대해 이산 푸리에 변환을 적용하여 각 블록의 복소수값 주파수 도메인 표현을 제공하는 단계와;

상기 블록의 주파수 도메인 표현을 크기만의 신호로 변환하는 단계와;

상기 크기만의 신호들을 이산 주파수 대역들에 걸쳐 평균화하여 인지가능-대역 스펙트럼으로서 제공하는 단계와;

상기 인지가능-대역 스펙트럼의 시간 변동분들을 평활화하여 상기 단기간 인지가능 대역 스펙트럼 추정치를 제공하는 단계를 포함하는 것을 특징으로 잡음 억제 방법.
제3항에 있어서,

상기 잡음 억제 주파수 응답을 상기 제5단계 동안 전극 필터를 사용하여 모델링하는 것을 특징으로 잡음 억제 방법.
제1항에 있어서,

상기 잡음 억제 주파수 응답을 상기 제5단계 동안 전극 필터를 사용하여 모델링 하는 것을 특징으로 잡음 억제 방법.
제1항에 있어서,

상기 제2단계는:

상기 신호 블록들에 대해 이산 푸리에 변환을 적용하여 각 블록의 복소수값 주파수 도메인 표현을 제공하는 단계와;

상기 블록의 주파수 도메인 표현을 크기만의 신호로 변환하는 단계와;

상기 크기만의 신호들을 이산 주파수 대역들에 걸쳐 평균화하여 인지가능-대역 스펙트럼으로서 제공하는 단계와;

상기 인지가능-대역 스펙트럼의 시간 변동분들을 평활화하여 상기 단기간 인지가능 대역 스펙트럼 추정치를 제공하는 단계를 포함하는 것을 특징으로 잡음 억제 방법.
잡음과 음성의 조합을 반송하는 입력 신호내의 잡음을 억제하기 위한 장치로서,

상기 입력 신호를 블록들로 분할하는 신호 전처리부와;

상기 블록들을 처리하여 상기 입력 신호의 복소수값 주파수 도메인 스펙트럼을 제공하는 고속 푸리에 변환 처리기와;

상기 복소수값 주파수 도메인 스펙트럼을 폭이 동일하지 않은 주파수 대역들을 포함하는 장기간 인지가능-대역 스펙트럼으로 누적시키는 누적기와;

상기 장기간 인지가능-대역 스펙트럼을 필터링하여 상기 장기간 인지가능-대역 스펙트럼의 현재 세그먼트와 잡음을 포함하는 단기간 인지가능-대역 스펙트럼의 추정치를 발생하는 필터와;

상기 입력 신호가 현재 잡음만 인지 또는 잡음과 음성의 조합인지를 판단하는 음성/중지 검출부와;

상기 입력 신호가 잡음만의 신호인 경우 상기 음성/중지 검출부에 응답하여 상기 입력 신호의 단기간 인지가능 대역 스펙트럼에 근거해서 상기 잡음의 장기간 인지가능 대역 스펙트럼 추정치를 갱신하는 잡음 스펙트럼 추정기와;

상기 잡음 스펙트럼 추정기에 응답하여 잡음 억제 주파수 응답을 결정하는 스펙트럼 이득 처리기와;

상기 스펙트럼 이득 처리기에 응답하여 상기 입력 신호의 현재 블록을 성형해서 그 신호내의 잡음을 억제하는 스펙트럼 성형 처리기를 포함하는 잡음 억제 장치.
제7항에 있어서,

상기 스펙트럼 성형 처리기는 전극 필터를 포함하는 것을 특징으로 하는 잡음 억제 장치.
제6항에 있어서,

상기 신호 전처리부는 상기 입력 신호를 사전 필터링하여 그 신호의 고주파수 성분을 강조하는 것을 특징으로 하는 잡음 억제 장치.
제7항에 있어서,

상기 신호 전처리부는 상기 입력 신호를 사전 필터링하여 그 신호의 고주파수 성분을 강조하는 것을 특징으로 하는 잡음 억제 장치.
잡음과 오디오 정보를 반송하는 입력 신호내의 잡음을 억제하는 방법으로서,

주파수 도메인에서 상기 입력 신호에 대한 잡음 억제 주파수 응답을 계산하는 제1단계와;

상기 주파수 도메인에서 상기 입력 신호에 대해 상기 잡음 억제 주파수 응답을 적용하여 상기 입력 신호내의 잡음을 억제하는 제2단계를 포함하는 것을 특징으로 하는 잡음 억제 방법.
제11항에 있어서,

상기 제1단계 전에 상기 입력 신호를 블록들로 분할하는 단계를 더 포함하는 것을 특징으로 하는 잡음 억제 방법.
제12항에 있어서,

상기 잡음 억제 주파수 응답의 자기상관 함수를 결정하는 것에 의해서 발생된 전극 필터를 사용하여 상기 잡음 억제 주파수 응답을 상기 입력 신호에 적용하는 것을 특징으로 하는 잡음 억제 방법.
제11항에 있어서,

기 잡음 억제 주파수 응답의 자기상관 함수를 결정하는 것에 의해서 발생된 전극 필터를 사용하여 상기 잡음 억제 주파수 응답을 상기 입력 신호에 적용하는 것을 특징으로 하는 잡음 억제 방법.