KR100414841B1

KR100414841B1 - 잡음저감방법및장치

Info

Publication number: KR100414841B1
Application number: KR1019960003844A
Authority: KR
Inventors: 죠셉 찬
Original assignee: 소니 가부시끼 가이샤
Priority date: 1995-02-17
Filing date: 1996-02-16
Publication date: 2004-03-10
Also published as: CA2169424A1; EP0727769A3; SG52253A1; CN1140869A; DE69617069T2; EP0727769B1; AU696187B2; ATE209389T1; RU2127454C1; BR9600761A; US6032114A; CA2169424C; MY121575A; EP0727769A2; TW297970B; PL312845A1; PL184098B1; TR199600132A2; AU4444496A; DE69617069D1

Abstract

입력 음성 신호로부터 잡음을 제거함으로써 음성 신호내의 잡음을 저감하는 방법이 개시되어있다. 잡음 저감 방법은 입력 음성 신호를 주파수 스펙트럼으로 변환하는 단계, 상기 주파수 스펙트럼의 레벨의 상기 주파수 스펙트럼 내에 포함된 잡음 스펙트럼의 추정 레벨에 대한 비에 근거하여 획득된 제1치 및 상기 주파수 스펙트럼의 프레임에 기초한 신호 레벨의 상기 추정 레벨에 대한 비의 최대값 및 상기 추정 잡음 레벨로부터 구해진 제2치에 따라 필터 특성을 측정하는 단계, 및 상기 필터 특성에 응답하여 필터링함으로써 상기 입력 음성 신호내의 잡음을 저감하는 단계를 포함한다. 또한 상응하는 잡음 저감 장치가 개시되어 있다.

Description

잡음 저감 방법 및 장치

본 발명은 음성 신호 내에 함유된 잡음을 억제하거나 또는 저감시키기 위해 잡음을 제거하는 방법에 관한 것이다.

휴대용 전화기 세트의 분야 또는 음성 인식 분야에서, 음성 성분을 강조하기 위해 수신된 음성 신호에 포함된 음성 배경 잡음 또는 환경 잡음 등의 잡음을 억제할 필요가 있다는 것이 인식되어 왔다.

음성을 강조하는 방법 또는 잡음을 저감하는 기술로서, 감쇠 팩터 조정을 위해서 조건부 확률 함수를 채용하는 기술이 "경판정 잡음 억제 필터를 사용하는 음성 강조(Speech Enhancement Using a Soft-Decision noise Suppression Filter, R.J.McAulay, M.L.Malpass, IEEE Trans, Acoust., Speech, Signal Processing, Vol.28, pp.137-145, April 1980)"에 개시되어 있다.

상기 음성 억제 기술에서는, 부적절한 억제 필터 또는 부적절한 고정된 신호대 잡음비(SNR)에 따른 동작으로 인하여 부자연스러운 음색 또는 왜곡된 음성이 생성될 수 있다. 사용자에게는, 실제 동작 중에 최적의 성능을 실현하기 위해서는, 음성 억제 디바이스의 파라미터 중에 하나인 SNR을 조정하는 것은 바람직하지 않다. 또한, 종래의 음성 신호 강조 기술로서는 단시간에 SNR에서의 현저한 변화에 민감한 음성 신호에서 왜곡을 발생시키지 않고 잡음을 충분히 제거하기가 어렵다.

상기와 같은 음성 강조 또는 잡음 저감 기술은 입력 전력 또는 레벨과 소정의 문턱치를 비교함으로써 잡음 구간을 판별하는 기술을 채용한다. 그러나, 음성을 트래킹하는 것을 방지하는데 문턱치가 사용되는 이러한 기술에 있어서 문턱치의 시정수가 증가할 경우에, 노이즈 레벨의 변화, 특히 노이즈 레벨의 증가가 후속할 수 없으며, 따라서 때때로 판별 오류를 발생시킨다. 이러한 결점을 극복하기 위해, 본 발명의 발명자들은 일본국 특허 출원 평성 6-99869호(1994)의 음성 신호에서의 잡음을 저감시키는 잡음 저감 방법을 제안했다.

이 음성 신호의 잡음 저감 방법에 의한, 입력 음성 신호로부터 산출된 SNR에 따라 그리고 음성 존재 확률에 따라, 음성 성분을 산출하기 위해 배치된 최적의 필터를 적응적으로 제어함으로써 잡음 억제가 실현된다. 이러한 방법은 음성 존재 확률의 산출에 있어서, 입력 음성 스펙트럼으로부터 추정 잡음 스펙트럼을 감산한 값에 상응하는 신호를 사용한다.

이러한 음성 신호 잡음 저감 방법에 의해, 입력 음성 신호의 SNR에 따라 최적의 필터가 최적의 억제 필터로 조정되었기 때문에, 입력 음성 신호에 대한 충분한 잡음 저감이 실현될 수 있다.

그러나, 상기 음성 존재 확률을 산출하기 위해서는 복잡하고 대량의 연산이 요구되기 때문에 연산을 간략화할 필요가 있다.

따라서, 입력 음성 신호에 대한 잡음 저감 방법을 제공하여서 입력 음성 신호에 대한 잡음 억제를 위한 연산을 간략화하는 것이 본 목적이다.

한 관점에 있어서, 본 발명은 음성 입력 신호를 주파수 스펙트럼으로 변환하는 단계, 주파수 스펙트럼의 레벨과 상기 주파수 스펙트럼 내에 포함된 추정 잡음 스펙트럼의 레벨과의 비(ratio)에 따라 획득된 제1치(first value) 및 주파수 스펙트럼의 프레임에 기초한(frame based) 신호 레벨과 추정 잡음 레벨과의 비의 최대치로부터 그리고 추정 잡음 레벨로부터 구해진 제2치(second value)에 근거하여 필터 특성을 측정하는 단계, 및 필터 특성에 따라 필터링함으로써 입력 음성 신호 내의 잡음을 저감시키는 단계를 포함하며, 잡음 억제를 위해 입력 음성 신호 내의 잡음을 저감하는 방법을 제공한다.

다른 관점에서는, 본 발명은 음성 입력 신호를 주파수 스펙트럼으로 변환하는 수단, 주파수 스펙트럼의 레벨과 상기 주파수 스펙트럼 내에 포함된 추정 잡음 스펙트럼의 레벨과의 비(ratio)에 따라 획득된 제1치(first value) 및 주파수 스펙트럼의 프레임에 기초한(frame based) 신호 레벨과 추정 잡음 레벨과의 비의 최대치로부터 그리고 추정 잡음 레벨로부터 구해진 제2치(second value)에 근거하여 필터 특성을 측정하는 수단, 및 필터 특성에 따라 필터링함으로써 입력 음성 신호 내의 잡음을 저감시키는 수단을 포함하며, 잡음 억제를 위해 입력 음성 신호 내의 잡음을 저감하는 장치를 제공한다.

이러한 음성 신호 내의 잡음을 저감하기 위한 방법 및 장치에 있어서, 본 발명에 따르면, 제1치는 입력 음성 신호를 입력 신호 스펙트럼 내에 포함된 추정 잡음 스펙트럼으로 변환함으로써 획득된 입력 신호 스펙트럼의 비에 따라 산출된 값이며, 잡음 감소를 위한 필터링에서 잡음 감소량을 결정하는 필터 특성의 초기값을 설정한다. 제2치는 입력 신호 스펙트럼의 신호 레벨과 추정 잡음 레벨과의 비의 최대치인 최대 SNR 및 추정 잡음 레벨에 따라 산출된 값이며, 필터 특성을 가변적으로 조정하는 값이다. 제1치 및 제2치에 의해 가변적으로 제어되는 필터에 부합하여 필터링함으로써 최대 SNR에 상응하는 양만큼 입력 음성 신호로부터 잡음이 제거될 수 있다.

입력 신호 스펙트럼의 소정의 레벨 및 입력 신호 레벨 내에 입력된 추정 잡음 스펙트럼 레벨이 있는 표가 제1치를 구하기 위해 사용될 수 있으므로, 유익하게처리량(processing volume)이 감소될 수 있다.

또한, 제2치는 최대 SNR과 프레임에 기초한 잡음 레벨에 응답하여 획득되며, 필터 특성은 필터링에 의한 최대 잡음 저감량이 최대 SN비에 응답하여 dB영역에서 거의 선형적으로 변화하도록 조정될 수 있다.

상술된 본 발명의 잡음 저감 방법에 있어서, 제1치 및 제2치가 입력 음성 신호로부터 잡음을 제거하기 위해 필터링하기 위한 필터 특성을 제어하기 위해 사용되며, 이에 의해 입력 음성 신호 내의 최대 SNR에 따라 필터링함으로써 입력 음성 신호로부터 잡음이 제거될 수 있고, 특히 높은 SN비에서 필터링함으로써 발생된 음성 신호 내의 왜곡이 감소될 수 있으며 필터 특성을 획득하기 위한 연산량이 감소될 수 있다.

부가적으로, 본 발명에 따라, 필터 특성을 획득하기 위해 필터 특성을 제어하기 위한 제1치가 입력 신호 스펙트럼의 레벨 및 입력 신호 스펙트럼 내에 입력된 추정 잡음 스펙트럼의 레벨이 있는 표를 사용하여 산출될 수 있으며, 그에 의해 필터 특성을 획득하기 위한 처리량을 감소시키게 된다.

또한, 본 발명에 따라, 최대 SN비 및 프레임에 기초한 잡음 레벨에 응답하여 획득된 제2치가 필터 특성을 제어하기 위해 사용될 수 있으며, 그에 의해 필터 특성을 획득하기 위한 처리량을 감소시킨다. 필터 특성에 의해 획득된 최대 잡음 저감량은 입력 음성 신호의 SN비에 응답하여 변환될 수 있다.

이하, 첨부 도면을 참조하여 본 발명의 음성 신호 내의 잡음을 저감시키기 위한 방법 및 장치를 상세히 설명하고자 한다.

제1도는 본 발명에 따른 음성 신호 내의 잡음을 저감하는 잡음 저감 장치의 실시예를 도시한다.

잡음 저감 장치는, 주부품으로서, 입력 음성 신호를 주파수 영역 신호 또는 주파수 스펙트럼으로 변환하는 고속 푸리에 변환 유닛(3), 필터링에 의해 입력 음성 신호로부터 잡음 부분을 제거하는 동안에 필터 특성을 조정하는 Hn값 계산 유닛(7), 및 Hn값 계산 유닛(7)에 의해 발생된 필터링 특성에 응답하여 필터링함으로써 입력 음성 신호 내의 잡음을 저감시키는 스펙트럼 보정 유닛(10)을 포함한다.

잡음 저감 장치의 음성 신호 입력 터미널(13)에 입력되는 입력 음성 신호 y[t]가 프레이밍 유닛(1)으로 제공된다. 프레이밍 유닛(1)에 의해 출력된 프레임 신호 y_frame_j,k가 윈도윙 유닛(2), 잡음 추정 유닛(5) 내의 제곱 평균 제곱근(RMS)계산 유닛(21), 및 필터링 유닛(8)으로 제공된다.

윈도윙 유닛(2)의 출력은 변환 유닛(3)으로 제공되고, 고속 푸리에 변환 유닛(3)의 출력은 스펙트럼 보정 유닛(10) 및 밴드 분할 유닛(4) 모두에 제공된다. 밴드 분할 유닛(4)의 출력은 스펙트럼 보정 유닛(10), 잡음 추정 유닛(5)내의 잡음 스펙트럼 추정 유닛(26) 및 Hn값 계산 유닛(7)으로 제공된다. 스펙트럼 보정 유닛(10)의 출력은 역고속 푸리에 변환 유닛(11) 및 오버랩-앤드-애드 유닛(12)을 통해서 음성 신호 출력 터미널(14)로 제공된다.

RMS 계산 유닛(21)의 출력은 상대 에너지 계산 유닛(22), 최대 RMS 계산 유닛(23), 추정 잡음 레벨 계산 유닛(24) 및 잡음 스펙트럼 추정 유닛(26)으로 제공된다. 최대 RMS 계산 유닛(23)의 출력은 추정 잡음 레벨 계산 유닛(24) 및 최대 SNR 계산 유닛(25)으로 제공된다. 상대 에너지 계산 유닛(22)의 출력은 잡음 스펙트럼 추정 유닛(26)으로 제공된다. 추정 잡음 레벨 계산 유닛(24)의 출력은 필터링 유닛(8), 최대 SNR 계산 유닛(25), 잡음 스펙트럼 추정 유닛(26) 및 NR값 계산 유닛(6)으로 제공된다. 최대 SNR 계산 유닛(25)의 출력은 NR값 계산 유닛(6), 및 잡음 스펙트럼 추정 유닛(26)으로 제공되고 NR값 계산 유닛(6), 및 잡음 스펙트럼 추정 유닛(26)은 Hn값 계산 유닛(7)으로 제공된다.

NR값 계산 유닛(6)의 출력은 NR값 계산 유닛(6)으로 다시 제공되면서, 또한 Hn값 계산 유닛(7)으로 제공된다.

Hn값 계산 유닛(7)의 출력은 필터링 유닛(8)과 밴드 변환 유닛(9)을 통해서 스펙트럼 보정 유닛(10)으로 제공된다.

잡음 저감 장치의 상술된 제1 실시예의 연산이 설명된다.

음성 신호 입력 터미널(13)로 음성 성분 및 잡음 성분을 포함하는 입력 음성 신호 y[t]가 공급된다. 일례로, 샘플링 주파수(FS)에서의 디지털 신호 샘플인 입력 음성 신호 y[t]가 각 프레임이 FL 샘플의 프레임 길이를 갖는 다수의 프레임으로 분할되는 프레이밍 유닛(1)으로 제공된다. 이렇게 분할된 입력 음성 신호 y[t]는, 전 동작에 이어서, 프레임 단위(frame basis)로 프로세스된다. 시간축을 따라 프레임이 이동한 양인 프레임 간격은 FI 샘플이며, 따라서 (k+1)번째 프레임은 k번째 샘플에서와 같이 FI 샘플 이후에 시작한다. 샘플링 주파수 및 샘플의 개수에 대한 설명의 예로서, 샘플링 주파수(FS)가 8kHz인 경우, 80 샘플의 프레임 간격(FI)은10ms에 상응하고, 반면에 160 샘플의 프레임 길이(FL)는 20ms에 상응한다.

고속 푸리에 변환 유닛(3)에 의해 직교 변환 계산을 하기 이전에, 윈도윙 유닛(2)은 프레이밍 유닛(1)으로부터 각 프레임 신호 y_frame_j,k과 윈도윙 함수 w_input을 곱한다. 후술한 바와 같이, 프레임에 기초한 신호 연산의 종단에서 이행된 역 FFI에 따라서, 출력 신호는 윈도윙 함수 w_output과 곱해진다. 윈도윙 함수 w_input및 w_output는 각각 다음의 식 (1) 및 (2)에 의해 표현될 수 있다.

이어서 고속 푸리에 변환 유닛(3)은 주파수 스펙트럼 진폭치를 얻기 위해 256-포인트 고속 푸리에 변환 동작을 이행한다. 이어서 주파수 스펙트럼 진폭치는 밴드 분할 유닛(4)에 의해, 예를 들어, 18개 밴드로 분할된다. 이러한 밴드들의 주파수 범위가 표1에 예시되어 있다.

표 1

주파수 스펙트럼 분할의 결과로서 발생한 주파수 밴드의 진폭치는 입력 신호 스펙트럼의 진폭 Y[w,k]가 되며, 상술된 바와 같이, 각 부분으로 출력된다. 상기 주파수 범위는 고주파가 될수록 인간 청각 체계의 지각 분해능이 더욱 무디어진다는 사실에 기초한 것이다. 각 밴드의 진폭으로서는, 관련 주파수 범위 내의 최대 FFT 진폭이 채용된다.

잡음 추정 유닛(5)에서, 프레임 신호 y_frame_j,k의 잡음은 음성 신호로부터 분리되고 잡음이라고 추정되는 프레임이 검출되며, 반면에 NR값 계산 유닛(6)으로 추정 잡음 레벨값 및 최대 SN비가 제공된다. 잡음 영역 추정(noisy domain estimation) 또는 잡음 프레임 검출(noisy frame detection)은, 예를 들어, 3개의 검출 동작의 조합으로써 이행된다. 잡음 영역 추정에 대한 설명의 예가 이하 설명된다.

RMS 계산 유닛(21)은 모든 프레임 신호들의 RMS치를 산출하고 산출된 RMS치를 출력한다. k번째 프레임의 RMS치 또는 RMS[k]가 다음의 식 (3)에 의해 산출된다.

상대 에너지 계산 유닛(22)에서, 이전 프레임으로부터의 감쇠 에너지에 관한 k번째 프레임의 상대 에너지, 또는 dB_rel[k]가 산출되고, 결과치가 출력된다. dB 단위로서의 상대 에너지, 즉 dB_rel[k]는 다음의 식 (4)에 의해서 구해진다.

반면에 에너지값 E[k] 및 감쇠 에너지값 E_decay[k]는 다음의 식 (5) 및 (6)으로부터 구해진다.

식(5)은 식(3)으로부터 FL*(RMS[K])²로서 표현될 수 있다. 물론, RMS 계산 유닛(21)에 의해 식(3)의 계산 중에 획득된 식(5)의 값은 상대 에너지 계산 유닛(21)으로 직접 제공될 수 있다. 식(6)에서, 감쇠 시간은 0.65초로 세트된다.

제2도는 에너지값 E[k] 및 감쇠 에너지값 E_decay[k]에 대한 설명의 예를 보여준다. 최대 RMS 계산 유닛(23)은 신호 레벨의 잡음 레벨에 대한 비의 최대값을 추정하기 위해 필요한 최대 RMS값을 구하고 출력한다. 이 최대 RMS값 MaxRMS[k]은 식(7)에 의해 구해질 수 있다.

여기서 θ 는 감쇠 상수이다. θ 에 대해서, 최대 RMS값이 3.2초안에 1/e로 감쇠되게하는 값으로서, θ =0.993769가 사용된다.

추정 잡음 레벨 계산 유닛(24)은 배경 잡음 레벨을 평가하기에 적합한 최소 RMS 값을 구하고 출력한다. 이 추정 잡음 레벨값 minRMS[k]은 현재 시간점 이전의 5개의 국부 최소값(local minimum value) 중에 가장 작은 값이다. 상기의 5개의 값은 다음의 식(8)을 만족시킨다.

추정 잡음 레벨값 minRMS[k]은 음성의 배경 잡음 제거도(background noise freed)를 상승시키도록 세트된다. 높은 잡음 레벨에 대한 상승률(rise rate)은 지수 함수이며, 반면에 고정 상승률(fixed rise rate)은 보다 현저한 상승을 실현하기 위해 낮은 잡음 레벨에 대해서 사용된다.

제3도는 RMS값 RMS[k], 추정 잡음 레벨값 minRMS[k] 및 최대 RMS값 MaxRMS[k] 등에 대한 설명의 예를 보여준다.

최대 SNR 계산 유닛(25)은 최대 RMS값 및 추정 잡음 레벨값을 사용하여 다음의 식 (9)에 의해 최대 SN비 MaxRMS[k]를 추정하고 계산한다.

최대 SNR값 MaxSNR으로부터 상대 잡음 레벨을 표시하는 범위가 0 에서 1 사

이인 정규화 파라미터 NR_level이 산출된다. NR_level에 대해서, 다음의 함수가 사용된다.

잡음 스펙트럼 추정 유닛(26)의 동작이 후술된다. 상대 에너지 계산 유닛(22), 추정 잡음 레벨 계산 유닛(24) 및 최대 SNR 계산 유닛(25)에서 구해진 각 값들은 배경 잡음으로부터 음성을 판별하기 위해 사용된다. 조건 (11)이 만족되는 경우, k번째 프레임의 신호가 배경 잡음으로서 분류된다.

여기서

이다. 이렇게 분류된 배경 잡음의 진폭이 산출되고 잡음 스펙트럼의 시평균

추정값 N[w,k]으로서 출력된다.

제4도는 잡음 판별을 위한 문턱치의 하나로써 식(11)에 보인 dB단위의 상대에너지, 즉 dB_rel[k], 최대 SNR[k] 및 dBthres_rel에 대한 설명의 예를 도시한다.

제6도는 식(10)에서의 MaxSNR의 함수로서의 NR_level[k]을 도시한다.

k번째 프레임이 배경 잡음 또는 잡음으로서 분류되는 경우에, 잡음 스펙트럼의 시평균 추정값 N[w,k]은 다음의 식(12)에 의해 현재 프레임의 신호의 입력 신호 스펙트럼의 진폭 Y[w,k]을 사용하여 갱신된다.

여기서 w는 밴드 분할에서 밴드 번호를 의미한다.

k번째 프레임이 음성으로서 분류되는 경우, N[w,k-1]의 값이 N[w,k]에 직접 사용된다.

NR값 계산 유닛(6)은 필터 응답이 급작스럽게 변화하는 것을 방지하기 위해 사용되는 값인 NR[w,k]을 계산하고, 생성된 값 NR[w,k]을 출력한다. 이 NR[w,k]는 0에서 1에 걸쳐있는 범위의 값이며, 식(13)에 의해서 정의된다.

식(13)에서, adj[w,k]는 후술된 효과를 참작하기 위해 사용된 파라미터이며 식(14)에 의해 정의된다.

식(14)에서, adj1[k]는 후술한 바와 같이 필터링함으로써, 높은 SNR에서 필터링하는 것에 의한 잡음 억제 효과를 억제하는 효과를 갖는 값이며, 다음의 식(15)에 의해 정의된다.

식(14)에서, adj2[k]는 상술된 필터링 동작에 의해 극히 낮은 잡음 레벨 또는 극히 높은 잡음 레벨에 관해서 잡음 억제 비율(noise suppression rate)을 억제하는 효과를 갖는 값이며, 식(16)에 의해 정의된다.

식(14)에서, adj3[k]는 2375Hz과 4000Hz 사이에서 18dB 내지는 15dB까지 최대 잡음 저감량을 억제하는 효과를 갖는 값이며, 식(17)에 의해 정의된다.

또한, 상기 NR[w,k]의 값과 dB단위의 최대 잡음 저감량과의 관계가 제6도에 도시된 바와 같이 dB영역에서 거의 선형적이라는 것을 알게 된다.

Hn값 계산 유닛(7)은 주파수 밴드로 분할된 입력 신호 스펙트럼의 진폭 Y[w,k], 잡음 스펙트럼의 시평균 추정값 N[w,k] 및 상기 NR[w,k]로부터, 입력 음성 신호로부터 잡음 부분을 제거하기 위해 구성된 필터 특성을 측정하는 Hn[w,k]값을 발생시킨다. Hn[w,k]값은 다음의 식(18)에 따라 산출된다.

상기 식(18)에서의 값 H[w][S/N=r]은 SNR이 값 r에 고정되어 있는 경우 잡음 억제 필터의 최적 특성과 동등하며, 다음의 식(19)에 의해서 구해진다.

또한, 이 값은 사전에 구해질 수 있으며, Y[w,k]/N[w,k] 값에 따라 테이블에 기록될 수 있다. 또한, 식(19)에서의 x[w,k]는 Y[w,k]/N[w,k]과 동등하며, 또한 G_min은 H[w][S/N=r]의 최소 이득을 표시하는 파라미터이다. 다른 한 편으로, P(H1｜Y_w)[S/N=r] 및 P(H0｜Y_w)[S/N=r]은 진폭 Y[w,k]의 상태를 표시하는 파라미터인데, P(H1｜Y_w)[S/N=r]는 Y[w,k] 내에 음성 성분과 잡음 성분이 함께 혼재하는 상태를 표시하는 파라미터이며, P(H0｜Y_w)[S/N=r]은 Y[w,k]내에 음성 성분만이 포함된 상태를 표시하는 파라미터이다. 이러한 값들이 식(20)에 따라 산출된다.

식(20)으로부터 P(H1｜Y_w)[S/N=r] 및 P(H0｜Y_w)[S/N=r]은 x[w,k]의 함수이며, 또한 Io(2*r*x[w,k])는 베셀 함수이며 r 및 [w,k]의 값에 응답하여 구해진다.P(H1) 및 P(H0)는 모두 0.5로 고정된다. 상술된 파라미터를 단순화함으로써 처리량이 종래 방법의 처리량의 거의 1/5로 감소될 수 있다.

Hn값 계산 유닛(7)에 의해 생성된 Hn[w,k]과, 비 Y[w,k]/N[w,k]인 x[w,k]과의 관계는 다음과 같다. 비 Y[w,k]/N[w,k]가 높은 값인 경우, 즉 음성 성분이 잡음 성분보다 높게 되는 경우, Hn[w,k]값이 증가되고, 억제가 약화된다. 반면에, 비 Y[w,k]/N[w,k]가 낮은 값인 경우, 즉 음성 성분이 잡음 성분보다 낮게 되는 경우, Hn[w,k]값이 감소되고, 억제가 강화된다. 상기 식에서, 실선은 r=2.7, G_min=-18dB 이고 NR[w,k]=1인 경우를 나타낸다. 상기 관계를 표시하는 커브가 NR[w,k]값에 따라 범위 L내에서 변화된다는 것을 알게 되며, NR[w,k]의 값에 대한 각 곡선들은 NR[w,k]=1인 경우와 동일한 경향으로 변화된다.

필터링 유닛(8)은 주파수 축 및 시간축을 따라서 Hn[w,k]을 원활하게 하는 필터링을 이행하고, 원활화된 신호 Ht__smooth[w,k]가 출력 신호로서 발생된다. 주파수 축을 따라 있는 방향으로의 필터링은 신호 Hn[w,k]의 유효 임펄스 응답 길이를 감소시키는 효과를 갖는다. 이것은 주파수 영역 내에서의 승산에 의한 필터의 실현에 기인한 사이클릭 컨벌루션(cyclic convolution)으로 인하여 에일리어싱이 생성되는 것을 방지한다. 시간축 방향으로의 필터링은 급작스런 잡음 발생을 억제하는 중에 필터 특성의 변화율을 제한하는 효과를 한다.

먼저 주파수축 방향으로의 필터링이 설명된다. 각 밴드의 Hn[w,k]에 대한 메디안 필터링이 실행된다. 이러한 방법은 다음 식(21) 및 (22)로 표현되어 있다.

식(21) 및 식(22)에서, (w-1) 또는 (w+1)가 존재하지 않는 경우, 각각 H1[w,k] = Hn[w,k] 이고 H2[w,k] = H1[w,k]이다.

단계 1에서, H1[w,k]은 단일의 고립된 제로(0) 밴드가 결여되어 있는 Hn[w,k]이며, 반면에, 단계 2에서는, H2[w,k]은 단일의 고립되거나 돌출된 밴드가

결여된 H1[w,k]이다. 이러한 방법으로, Hn[w,k]은 H2[w,k]로 변환된다.

다음으로, 시간축 방향으로의 필터링이 설명된다. 시간축 방향으로의 필터링에 대해서, 입력 신호 음성, 배경 잡음 및 음성의 상승부의 과도 상태를 표시하는 과도 상태의 3개의 성분을 포함한다는 사실이 참고된다. 음성 신호 H_speech[w,k]는 식 (23)에 표현된 바와 같이 시간축을 따라 원활화된다.

배경 잡음은 제(24)식에 표현된 바와 같이 시간축을 따라서 원활화된다.

상기 식(24)에서, Min_H 및 MAX_H는 Min_H = min(H2[w,k], H2[w,k-1]) 및MAX_H = max(H2[w,k], H2[w,k-1])에 의해 각각 구해진다.

과도 상태에서의 신호들은 시간축 방향을 따라 원활화되지 않는다.

상술된 원활화 신호를 사용하여, 원활화 출력 신호가 식(25)에 의해 생성된다.

상기 식(25)에서, α_sp및 α_tr은 각각 식(26) 및 식(27)으로부터 구해질 수 있다.

여기서,

이어서, 밴드 변환 유닛(9)에서, 필터링 유닛(8)으로부터의 18 밴드에 대한원활화 신호 Ht__smooth[w,k]가 보간 처리에 의해서, 예를 들어, 출력된 128-밴드 신호 H₁₂₈[w,k]까지 확장된다. 이 변환은, 예를 들어 2단계로 이행되는데, 18밴드에서 64밴드까지의 확장은 제로차 홀딩(zero-order holding)에 의해서 이행되고 64밴드에서 128밴드까지의 확장은 저역필터 타입 보간 처리에 의해 이행된다.

이어서 스펙트럼 보정 유닛(10)은 FFT유닛(3)에 의해 얻어진 프레임화 신호 y_frame j,k의 고속 푸리에 변환에 의해 얻어진 FFT 계수의 실부 및 허부와 상기 신호 H₁₂₈[w,k]를 곱하고 이에 의해 스펙트럼 보정 및 잡음 성분 저감이 행해진다. 결과 신호가 출력된다. 결과적으로 위상 변화없이 스펙트럼 진폭이 보정된다.

이어서 역 FFT 유닛(11)은 스펙트럼 보정 유닛(10)의 출력 신호 상에서 역 FFT를 이행하고, 그 결과로서 IFFT화 신호를 출력한다.

오버랩-앤드-애드 유닛(12)은 프레임에 기초한 IFFT화 신호의 프레임 경계부를 오버랩하고 애드한다. 결과적인 출력 음성 신호는 음성 신호 출력 터미널(14)에서 출력된다.

제8도는 본 발명에 따른 음성 신호의 잡음 저감 방법을 이행하는 음성 저감장치의 다른 실시예를 도시한다. 제1도에 도시된 잡음 저감 장치의 구성과 공통된 구성 부분은 제1도와 동일한 번호로 표시되었으며 설명의 간략화를 위해서 동작의 설명이 생략되었다.

잡음 저감 장치는 입력 음성 신호를 주파수 영역 신호로 변환하는 고속 푸리에 변환 유닛(3), 입력 음성 신호로부터 잡음 부분을 제거하는 필터링 동작의 필터 특성을 제어하는 Hn값 계산 유닛(7), 및 Hn값 계산 유닛(7)에 의해 얻어진 필터 특성에 부합하는 필터 동작에 의해 입력 음성 신호 내의 잡음을 저감시키는 스펙트럼 보정 유닛(10) 등을 갖는다.

Hn값 계산 유닛(7)이 있는 잡음 억제 필터 특성 발생 유닛(35)에서, 밴드 분할부(4)는 FFT유닛(3)으로부터 출력된 주파수 스펙트럼의 진폭을 18개의 밴드로 분할하고, 밴드에 기초한(band based) 진폭 Y[w,k]를 RMS, 추정 잡음 레벨, 및 최대 SNR을 계산하는 계산 유닛(31), 잡음 스펙트럼 추정 유닛(26)과 초기 필터 응답 계산 유닛(33)으로 출력한다.

계산 유닛(31)은 프레이밍 유닛(1)으로부터 출력된 y_frame_j,k와 밴드 분할 유닛(4)으로부터 출력된 Y[w,k]로부터 프레임에 기초한 RMS값 RMS[k], 추정 잡음 레벨값 MinRMS[k], 최대 RMS값 MAXRMS[k]를 산출하고, 산출된 값을 잡음 스펙트럼 추정 유닛(26)과 adj1, adj2, 및 adj3 계산 유닛(32)으로 전송한다.

초기 필터 응답 계산 유닛(33)은 잡음 스펙트럼 추정 유닛(26)으로부터 출력된 시평균 잡음값 N[w,k] 및 밴드 분할 유닛(4)으로부터 출력된 Y[w,k]를 필터 억제 곡선 테이블 유닛(34)으로 공급하여서 필터 억제 곡선 테이블 유닛(34)에 저장된 Y[w,k] 및 N[w,k]에 상응하는 H[w,k]의 값을 구하고 구해진 값을 Hn값 계산 유닛(7)으로 전송한다. 필터 억제 곡선 테이블 유닛(34)에는 H[w,k]의 값이 저장된다.

제1도 및 제8도에 도시된 음성 저감 장치에 의해 얻어진 출력 음성 신호는 휴대용 전화기 세트의 각종 인코딩 회로 같은 신호 처리 회로 또는 음성 인식 장치로 공급된다. 또는, 잡음 억제는 휴대용 전화기 세트의 디코더 출력 신호 상에서 이행될 수 있다.

제9도 및 제10도는 각각 본 발명의 잡음 저감 방법에 의한 잡음 억제 후에 획득된 음성 신호 내의 왜곡(검은색으로 도시), 및 종래의 잡음 저감 방법에 의한 잡음 억제 후에 획득된 음성 신호 내의 왜곡(힌색으로 도시)을 도시한다. 제9도의 그래프에서 20ms마다 샘플된 세그먼트의 SNR값은 이러한 세그먼트의 왜곡에 대하여 구성된다. 제10도의 그래프에서, 세그먼트의 SNR값은 전체 입력 음성 신호의 왜곡에 대하여 구성된다. 제9도 및 제10도에서, 세로 좌표는 원점으로부터 멀어질수록 작아지는 왜곡을 표시하며, 반면에 가로좌표는 오른쪽으로 멀어질수록 높아지는, 세그먼트의 S/N비를 표시한다.

이러한 도면들로부터 종래의 잡음 저감 방법에 의한 잡음 억제에 의해 획득된 음성 신호에 비해 본 발명의 잡음 저감 방법에 의한 잡음 억제에 의해 획득된 음성 신호가 특히 20 이상의 높은 SNR값에서 보다 적은 범위의 왜곡이 발생한다는 것을 알게 된다.

제1도는 노이즈 저감 장치에 적용된, 본 발명의 음성 신호에 대한 잡음 저감방법을 도시한 도면.

제2도는 제1도의 실시예에서의 에너지 E[k] 및 감쇠 에너지 E_decay[k]의 구체적인 예를 도시한 도면.

제3도는 제1도의 실시예에서의 RMS값 RMS[k], 추정 잡음 레벨값 MinRMS[k], 및 최대 RMS값 MaxRMS[k]의 구체적인 예들을 도시한 도면.

제4도는 제1도의 실시예에서의, dB단위의 상대적 에너지 B_rel[k], 최대 SNR MaxSNR[k], 및 잡음 판별을 위한 문턱치들 중에 하나인 dBthres_rel[k]의 구체적인 예들을 도시한 도면.

제5도는 제1도의 실시예에서의, 최대 SNR MaxSNR[k]에 관해서 정의된 함수로서의 NR_level[K]를 도시하는 그래프.

제6도는 제1도의 실시예에서의, NR[w,k]과 최대 잡음 저감량과의 관계를 dB단위로 도시하는 그래프.

제7도는 제1도의 실시예에서의, Y[w,k]/N[w,k]의 비와 Hn[w,k] 간의 NR[w,k]에 따른 관계를 dB단위로 도시하는 그래프.

제8도는 노이즈 저감 장치에 적용된, 본 발명의 음성 신호에 대한 잡음 저감방법의 제2 실시예를 도시하는 도면.

제9도 및 제10도는 제1도 및 제8도의 잡음 저감 장치에 의해 잡음을 억제한 후에 획득된 음성 신호의 세그먼트부의 왜곡을 세그먼트의 SN비에 관해서 도시한 그래프.

도면의 주요 부분에 대한 부호의 설명

3 : 고속 푸리에 변환 처리 유닛 4 : 밴드 분할 유닛

5 : 잡음 추정 유닛 6 : NR값 계산 유닛

7 : Hn값 계산 유닛 21 : RMS 계산 유닛

22 : 상대 에너지 계산 유닛 23 : 최대 RMS 계산 유닛

24 : 추정 잡음 레벨 계산 유닛 25 : 최대 SNR 계산 유닛

26 : 잡음 스펙트럼 추정 유닛 31 : RMS, 추정 잡음 레벨,

최대 SNR 계산 유닛

32 : adj1, adj2, adj3 계산 유닛 33 : 초기 필터 응답 계산 유닛

34 : 필터 억제 곡선 테이블 유닛 35 : 잡음 억제 필터 특성 생성 유닛

Claims

입력 음성 신호로부터 잡음을 제거함으로써 잡음 억압을 행하는 음성 신호의 잡음 저감 방법에 있어서,

상기 입력 음성 신호를 주파수 스펙트럼으로 변환하는 변환 단계와,

상기 입력 음성 신호로부터 잡음 부분을 제거할 때의 필터 처리의 필터 특성을 제어하는 제어 단계와,

상기 제어 단계에서 얻어지는 필터 특성에 따른 필터 처리에 의해, 상기 입력 음성 신호로부터 잡음을 저감하는 잡음 저감 단계를 포함하고,

상기 제어 단계는, 미리 설정된 입력 신호 스펙트럼의 레벨과 추정 잡음 스펙트럼의 레벨로 구성되는 테이블로부터 얻어지는 값을 이용하여 얻어지며, 상기 변환 단계에서 얻어지는 입력 신호 스펙트럼의 레벨과 상기 입력 신호 스펙트럼에 포함되는 추정 잡음 스펙트럼의 레벨과의 비에 기초하여 얻어지는 제1 값과, 상기 입력 신호 스펙트럼의 프레임마다의 신호 레벨과 추정 잡음 레벨과의 비의 최대값 및 추정 잡음 레벨로부터 얻어지는 제2 값에 의해 상기 필터 특성을 제어하는 단계이며,

상기 잡음 저감 단계는, 상기 프레임마다의 신호 레벨이 상기 프레임 마다의 추정 잡음 레벨보다 큰 경우는 잡음 필터 처리를 저감시키고, 상기 프레임 마다의 신호 레벨이 상기 프레임 마다의 추정 잡음 레벨보다 작은 경우는 잡음 필터 처리를 증가시키는 것을 특징으로 하는 음성 신호의 잡음 저감 방법.
제1항에 있어서,

상기 제2치가 상기 추정 잡음 레벨에 대한 상기 신호 레벨의 비의 최대값 및 상기 프레임에 기초한 잡음 레벨에 응답하여 획득된 값이며, 상기 필터 특성에 따라 필터링함으로써 최대 잡음 저감량이 dB영역에서 거의 선형적으로 변화되게 하기 위해서 상기 최대 잡음 저감량을 조절하는 값인 것을 특징으로 하는 잡음 저감 방법.
제1항에 있어서,

상기 추정 잡음 레벨은 프레임에 기초한 입력 신호의 진폭의 제곱 평균 제곱근(RMS)값 및 상기 제곱 평균 제곱근값에 근거하여 획득된 값이며, 상기 추정 잡음 레벨에 대한 상기 신호 레벨의 비의 최대값은 상기 제곱 평균 제곱근값의 최대값 및 상기 추정 잡음 레벨에 근거하여 산출된 값이고, 상기 제곱 평균 제곱근값의 최대값은 프레임에 기초한 입력 신호의 진폭의 제곱 평균 제곱근값, 바로 이전 프레임의 제곱 평균 제곱근값의 최대값에 근거하여 획득된 값 및 바로 이전 프레임의 제곱 평균 제곱근값의 하한을 결정하는 값 중에서 최대값인 것을 특징으로 하는 잡음 저감 방법.
입력 음성 신호로부터 잡음을 제거함으로써 잡음 억압을 행하는 음성 신호의 잡음 저감 장치에 있어서,

상기 입력 음성 신호를 주파수 스펙트럼으로 변환하는 변환 수단과,

상기 입력 음성 신호로부터 잡음 부분을 제거할 때의 필터 처리의 필터 특성을 제어하는 제어 수단과,

상기 제어 수단에서 얻어지는 필터 특성에 따른 필터 처리에 의해, 상기 입력 음성 신호로부터 잡음을 저감하는 잡음 저감 수단을 포함하고,

상기 제어 수단은, 미리 설정된 입력 신호 스펙트럼의 레벨과 추정 잡음 스펙트럼의 레벨로 구성되는 테이블로부터 얻어지는 값을 이용하여 얻어지며, 상기 변환 수단에서 얻어지는 입력 신호 스펙트럼의 레벨과 상기 입력 신호 스펙트럼에 포함되는 추정 잡음 스펙트럼의 레벨과의 비에 기초하여 얻어지는 제1 값과, 상기 입력 신호 스펙트럼의 프레임마다의 신호 레벨과 추정 잡음 레벨과의 비의 최대값 및 추정 잡음 레벨로부터 얻어지는 제2 값에 의해 상기 필터 특성을 제어하는 수단이며,

상기 잡음 저감 수단은, 상기 프레임마다의 신호 레벨이 상기 프레임 마다의 추정 잡음 레벨보다 큰 경우는 잡음 필터 처리를 저감시키고, 상기 프레임 마다의 신호 레벨이 상기 프레임 마다의 추정 잡음 레벨보다 작은 경우는 잡음 필터 처리를 증가시키는 것을 특징으로 하는 음성 신호의 잡음 저감 장치.