KR100640865B1

KR100640865B1 - 음성 품질 향상 방법 및 장치

Info

Publication number: KR100640865B1
Application number: KR1020040071371A
Authority: KR
Inventors: 김찬우
Original assignee: 엘지전자 주식회사
Priority date: 2004-09-07
Filing date: 2004-09-07
Publication date: 2006-11-02
Also published as: EP1632935B1; CN1746974A; US20060074640A1; US7590524B2; BRPI0503959A; ATE385027T1; RU2005127995A; DE602005004464D1; JP2006079085A; DE602005004464T2; CN100520913C; RU2391778C2; KR20060022525A; EP1632935A1; JP4350690B2

Abstract

본 발명은 효과적인 음성 품질 향상 방법 및 장치에 관한 것으로, 무성음(unvoiced speech)에서의 잡음 제거를 통해 음성 품질 저하를 줄여주는데 적당하며, 특히 ALE (Adaptive Line Enhancer)와 SSM (Spectral Subtraction Method)를 적용하여 잡음을 효과적으로 제거하는데 적당한 음성 품질 향상 방법 및 장치에 관한 발명이다.

스펙트럴 서브트랙션 기법(SSM : Spectral Subtraction Method), 적응 라인 향상기법(ALE : Adaptive Line Enhancer)

Description

음성 품질 향상 방법 및 장치 {method and apparatus for enhancing quality of speech}

도 1은 일반적인 ALE를 설명하기 위한 도면.

도 2는 일반적인 SSM(Spectral Subtraction Method)을 설명하기 위한 도면.

도 3은 본 발명에 따른 음성 품질 향상 절차를 설명하기 위한 도면.

본 발명은 효과적인 음성 품질 향상 방법 및 장치에 관한 것이다.

종래에 많은 음질 향상 기법들이 제안되었다.

그 대표적인 기법 중 하나가 스펙트럴 서브트랙션 기법(Spectral Subtraction Method ; 이하, SSM 이라 약칭함)이다. 그 SSM을 도 1을 참조하여 설명한다.

SSM은 직접적으로 숏-타임 스펙트럼 크기 (short-time spectral magnitude)를 추정하는 기법이다.

SSM에서 음성(speech)은 비상관된 랜덤 변수 (uncorrelated random variable)로 표시되는 잡음이 더해진 형태로 모델링된다. 그 모델링을 다음의 식 1 과 같이 나타낼 수 있다.

y[n]=s[n]+d[n]

상기 식 1에서

이

에 비상관된 잡음이라고 가정했으므로, 전력 스펙트럼 밀도(power spectral density)를 구하면 다음 식 2와 같이 나타낼 수 있다.

상기한 식 2에서 S_y(e^jw)를 숏-타임 (short-time) 이산시간 퓨리에 변환(Discrete-Time Fourier Transform ; 이하, DTFT 라 약칭함)으로 표시하면, 다음 식 3이 된다.

음성 프레임 (speech frame) 자체의 스펙트럼을 구하기 위해서는 위상 (phase)을 알아야 하는데, 사실상 잡음이 섞인 음성 (noisy speech)의 위상으로 음성 프레임의 위상을 결정해도 큰 문제가 없는 것이 입증되었다.[1]

[1] D. L. Wang and J. S. Lim, "The unimportance of phase in speech enhancement," IEEE Trans. on Acoust . Speech, and Signal Processing, vol-ASSP. 30, pp. 679-681, 1982.

상기와 같이 잡음 섞인 음성의 위상으로 음성 프레임의 위상을 결정하는 경우에, 얻고자 하는 숏-타임 DTFT는 다음의 식 4로부터 구해진다.

상기한 식 4에서 S_y(e^jw)는 상기 식 2 로부터 구해서 사용하며,

는 잡음 섞인 음성 (noisy speech)의 위상으로부터 이용한다.

결국 식 4로부터 얻고자 하는

의 추정 값을 얻게 되며,

는 음성 (speech)이 없을 때 잡음으로부터 추정한다.

다음은 또다른 음성 품질 향상 기법 중 하나인 적응 라인 향상기법(Adaptive Line Enhancer ; 이하, ALE 라 약칭함)에 대해 설명한다. 그 ALE를 도 2를 참조하여 설명한다.

ALE의 설명에 앞서서 일반적인 적응 필터 (Adaptive Filter)를 이용하는 경우에 대해 먼저 설명한다. 적응 필터를 이용하는 경우에는 두 마이크로폰의 입력들 즉, 한 쪽은 잡음 섞인 음성 (noisy speech)을 입력받고 다른 쪽은 잡음만 입력받은 후에, 두 마이크로폰 간의 거리 등으로 전달함수 (transfer function) 등이 생긴다. 그러나 그를 적응 필터로 제거하여 깨끗한 음성 (clean speech)을 얻을 수 있다.

상기한 적응 필터를 사용하는 기법은 경우에 따라 매우 효과적이고 실용적인 목적으로 매우 성공적으로 사용되어 왔다. 그러나 두 개의 마이크로폰을 설치해야 하며, 두 마이크로폰 사이의 거리를 어느 정도로 하여야 하는지 등의 구조적인 어려움이 따르기 때문에 단말기에 적용하기에는 무리가 따른다.

ALE는 상기한 적응 필터를 사용하는 기법을 개량한 것으로, 동일한 마이크로폰으로부터 피치 주기 (pitch period)만큼의 차이를 두고 얻어진 신호를 적응 필터링(adaptive filtering)하는 기법이다. 상기에서 피치 주기는 음성 신호(speech signal)의 유성음(voiced speech) 부분의 주기이다.

한편 유성 신호(voiced signal)의 경우에는, 주기적인 임펄스 열 (impulse train)이 보컬 트랙트 (vocal tract)를 여기(excite)시키는 구조로 되어 있으므로, 유성음(voiced speech)에는 아주 큰 효과를 발휘한다. 그러나 무성음(unvoiced speech)의 경우는 음(speech)이 뭉개지는 등의 현상이 나타난다.

다음은 또하나의 음성 품질 향상 기법 중 하나인 적응 콤 필터(Adaptive Comb Filter)를 사용하는 기법에 대해 설명한다.

적응 콤 필터(Adaptive Comb Filter)를 사용하는 경우도 ALE와 유사한 점이 있어서, 유성음(Voiced speech)의 경우에 보다 좋은 효과를 발휘한다.

유성음(voiced speech)의 경우에 여기 신호(excitation signal)가 주기적인 신호인데, 잘 알려진 바와 같이 임펄스 열(impulse train)을 퓨리에 전환(Fourier Transform)해도 그 결과를 보면 주파수 영역(frequency domain)에서 임펄스 열(impulse train)로 나타난다.

따라서 유성음의 경우 피치 주파수(pitch frequency)의 배(multiple)가 되는 부분이 피크(Peak)가 주기적으로 나타나는 형태로 구성된다. 물론 전체 스펙트럼의 윤곽은 포르먼트(formant)라는 보컬 트랙트(vocal tract)의 반향(resonance)으로 표시된다.

잡음 섞인 음(noisy speech)을

으로 표시하고, 음성(speech)을

으로 표시하고, 잡음을 제거한 음을 추정한 것을

으로 표시할 경우에, 적응 콤 필터(Adaptive Comb Filter)에 의해 향상된 음(speech)은 다음의 식 5와 같이 나타낸다.

상기한 식 5에서 T₀는 추출된 피치 주기를 나타내며, c_i는 콤 필터 계수(comb filter coefficient)를 나타낸다. L의 값은 보통 작은 값(1 내지 6)을 사용한다.

한편 적응 콤 필터(Adaptive Comb Filter)는 일반적으로 잡음이 주기적이지 않기 때문에, 그를 제거하는데 효과적이다.

상기한 종래 기술에 따른 음성 품질 향상 기법들을 사용하는데는 다음의 문제점들이 있다.

먼저 SSM에서

는 음성(speech)이 없을 때 잡음으로부터 추정하는데, 그

를 신뢰성있게 측정할 수 없다는 것이다. 즉,

는 잡음인

이 고정된 신호(stationary signal)라고 가정할 경우에 추정할 수 있다. 그러나 실제의 경우는 그렇다고 하더라도 시간에 따른 스펙트럼 변화가 있을 수밖에 없으며, 특히 휴대용 단말기 등의 경우는 계속 주변 환경들이 변하므로, 실제적으로

를 신뢰도 있게 측정할 수 없다.

또한 ALE의 경우나 적응 콤 필터를 사용하는 경우는 유성음(voiced speech)의 경우에 보다 탁월한 성능을 발휘한다. 그러나 이들 기법은 유성 신호(voiced signal)에 대해서만 적용가능하며, 유성/무성(Voiced/Unvoiced : V/UV) 결정이 조금 어긋나서 무성 신호(unvoiced signal)에 그 기법들이 적용될 경우에는 오히려 성능 저하를 일으킨다.

또한 일부 음의 경우에, 저주파수에서는 유성 특성을 보이지만 고주파수에서는 무성 특성을 보이기도 한다. 이러한 점이 ALE의 성능 저하를 가져온다.

따라서, 본 발명의 목적은 상기한 점들을 감안하여 안출한 것으로, 무성음(unvoiced speech)에서의 잡음 제거를 통해 음성 품질 저하를 줄여주는데 적당한 음성 품질 향상 방법 및 장치를 제공하는데 있다.

본 발명의 또다른 목적은 ALE (Adaptive Line Enhancer)와 SSM (Spectral Subtraction Method)를 적용하여 잡음을 효과적으로 제거하는데 적당한 음성 품질 향상 방법 및 장치를 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명에 따른 음성 품질 향상 방법의 특징은, 입력된 음성을 유성음과 무성음으로 구분하는 단계와, 상기 유성음에 대한 소정 음질 향상 기법을 수행하는 단계와, 상기 유성음의 구간에서 얻어진 잡음 스펙트럼 데이터를 사용하여 상기 무성음에 대한 스펙트럴 서브트랙션 기법(SSM : Spectral Subtraction Method)을 수행하는 단계를 포함하여 이루어지는 것이다.

보다 바람직하게, 상기 잡음 스펙트럼 데이터는 이전 유성음의 소정 프레임에서 추정된 잡음 스펙트럼들의 평균이다.

또한 바람직하게, 상기 유성음에 대한 음질 향상 기법이 적응 라인 향상기법(ALE : Adaptive Line Enhancer)이다.

또한 바람직하게, 상기 입력된 음성에 대해 저역통과 필터링(Low Pass Filtering) 및 고역통과 필터링(High Pass Filtering)을 수행하는 단계를 더 포함한다. 여기서 상기 고역통과 필터링된 출력에서 잡음을 제거하기 위한 적응 콤 필터링(adaptive comb filtering)을 더 수행한다.

한편, 상기 목적을 달성하기 위한 본 발명에 따른 음성 품질 향상 장치의 특징은, 입력된 음성을 유성음(Voiced Speech)과 무성음 (Unvoiced Speech)으로 구분하여 출력하는 수단과, 상기 유성음에 대해 적응 라인 향상기법(ALE : Adaptive Line Enhancer)을 수행하는 수단과, 유성음 구간에서 추정된 잡음 스펙트럼을 이용하여 스펙트럴 서브트랙션 기법(SSM : Spectral Subtraction Method)을 수행하는 수단을 포함하여 구성된다.

보다 바람직하게, 상기 입력된 음성을 저역통과 필터링하는 저역통과필터 (LPF)와, 상기 입력된 음성을 고역통과 필터링하는 고역통과필터(HPF)를 더 구비한다.

또한 바람직하게, 상기 고역통과필터의 출력이 유성음인 경우에, 상기 고역통과필터 출력에서 잡음을 제거하기 위한 적응 콤 필터(adaptive comb filter)를 더 구비한다. 그리고 상기 저역통과필터의 출력 중 유성음에서 피치 주기(pitch period)를 추출하여 상기 적응 콤 필터와 상기 적응 라인 향상기법(ALE : Adaptive Line Enhancer)을 수행하는 수단에 제공하는 피치 추출기를 더 구비한다.

본 발명의 다른 목적, 특징 및 이점들은 첨부한 도면을 참조한 실시 예들의 상세한 설명을 통해 명백해질 것이다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예의 구성과 그 작용을 설명하며, 도면에 도시되고 또 이것에 의해서 설명되는 본 발명의 구성과 작용은 적어도 하나의 실시 예로서 설명되는 것이며, 이것에 의해서 상기한 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 제한되지는 않는다.

본 발명에 따른 음성 품질 향상 방법은 유성음(voiced speech)에 대해 소정 음성 품질 향상 기법을 수행하고, 그에 따라 얻어진 잡음 스펙트럼 데이터를 사용하여 무성음(unvoiced speech)에 대한 SSM을 수행하는 것이 핵심이다.

이를 위해 본 발명에서는 먼저 입력된 음성에 대해 저역통과 필터링(Low Pass Filtering) 및 고역통과 필터링(High Pass Filtering)을 수행한다.

본 발명에서는 저역통과 필터링의 출력에 대해 유성/무성 결정(V/UV Decision)을 수행한다. 즉, 입력된 음성(speech)을 유성음과 무성음으로 구분한다.

특히 무성음으로 판정된 프레임에 대해서는 SSM을 수행한다. SSM은 스펙트럼 크기 (spectral magnitude)를 추정한다.

본 발명에서 SSM을 수행할 때는 유성음의 구간에서 얻어진 잡음 스펙트럼 데이터를 사용한다. 특히 상기한 잡음 스펙트럼 데이터는 유성음의 소정 프레임에서 추정된 잡음 스펙트럼들의 평균이다. 다시 말하자면, 유성음 구간에서 적어도 하나 이상의 프레임에서 얻어지는 잡음 스펙트럼들에 대해 평균을 구하여 그를 SSM에 사용한다.

한편 일반적으로 피치 주파수(pitch frequency)가 존재하는 주파수 범위가 50~400㎐이므로, 본 발명에서는 그 주파수 범위를 충분히 포함하면서 피치 주기(pitch period)의 영향이 가장 우세한 부분을 저역통과 필터링(Low pass filtering)시킨다. 상기에서 저역통과 필터링의 컷오프(cutoff) 주파수는 800㎐ 정도가 바람직하다.

그리고, 상기 저역통과 필터링된 출력에 대해 유성/무성 결정(V/UV Decision)을 수행한다.

유성음으로 판정된 프레임에 대해서는 소정의 음질 향상 기법을 수행한다. 본 발명에서는 유성음에 대한 음질 향상 기법으로써 도 3에 도시된 바와 같이 ALE를 수행하는 것이 바람직하다. 보다 상세하게, 본 발명에 따른 ALE는 적응 필터링을 사용하여 잡음을 제거한다. 특히 ALE는 동일한 마이크로폰으로부터 피치 주기 (pitch period)만큼의 차이를 두고 얻어진 신호를 적응 필터링(adaptive filtering)한다. 여기서, 피치 주기는 음성 신호(speech signal)에서 유성음(voiced speech) 부분의 주기이다. 그러나 본 발명에서는 사용되는 음질 향상 기법으로써 반드시 ALE로 한정하지는 않는다.

한편, 입력된 음성을 고역통과 필터링한 출력에 대해서는 그의 잡음을 제거하기 위한 적응 콤 필터링(adaptive comb filtering)을 수행한다. 이 때는 저역통과 필터링된 출력 중 유성음에서 추출한 피치 주기(pitch period)를 적응 콤 필터링(adaptive comb filtering)을 수행하는데 사용한다. 특히, 상기 추출된 피치 주 기는 전술된 ALE를 수행하는데도 사용된다.

다음은 도 3을 참조한 장치 구성에 대해 설명한다.

도 3은 본 발명에 따른 음성 품질 향상을 위한 장치 구성을 나타낸 도면이다.

도 3을 참조하면, 본 발명에 따른 장치는 입력된 음성 y[n]을 저역통과 필터링하는 저역통과필터(LPF)(51)와, 그 입력된 음성 y[n]을 고역통과 필터링하는 고역통과필터(HPF)(50)를 구비한다.

고역통과필터(HPF)(50)의 출력은 적응 콤 필터(Adaptive Comb Filter)(56)에 입력되며, 저역통과필터(LPF)(51)의 출력은 유성음이냐 무성음이냐에 따라 서로 다른 경로(ALE를 사용하는 경로와 SSM을 사용하는 경로)를 거치게 된다.

먼저 본 발명의 장치는 유성/무성 결정(V/UV Decision)의 결과로부터 ALE를 사용할 것인지 SSM을 사용할 것인지를 결정하는 판단 수단(52)을 포함한다. 상기 판단 수단(52)은 저역통과필터(LPF)(51)를 통과한 음성(speech)이 유성음인지 무성음인지를 구분한다.

상기 판단 수단(52)은 무성음에 해당하는 음성 프레임은 SSM을 사용하는 스펙트럴 서브트랙션 블록(55)으로 전달한다. 반면에 유성음에 해당하는 음성 프레임은 일단 피치 추출기(Pitch extractor)(53)로 전달한다.

피치 추출기(53)는 유성음에 해당하는 음성 프레임에서 피치 주기(pitch period)를 추출하여 다음에 설명된 적응 콤 필터(Adaptive Comb Filter)에 제공하며, 또한 그 피치 주기를 상기 유성음에 해당하는 음성 프레임에 대해 ALE를 사용 하여 음질을 향상시키는 ALE 블록(54)에 제공한다. 별도의 예로써, 본 발명에서는 유성음에 해당하는 음성 프레임의 음질을 향상시키는데 ALE를 사용하는 수단(54)을 사용하였으나, 이는 하나의 실시 예에 불과하다.

일반적인 피치 주파수(pitch frequency)가 존재하는 주파수 범위가 50~400㎐이므로, 본 발명에서는 그 주파수 범위를 충분히 포함하면서 피치 주기(pitch period)의 영향이 가장 우세한 부분을 통과시키도록 저역통과필터(51)의 컷오프(cutoff) 주파수를 정한다. 바람직하게, 그 컷오프 주파수는 800㎐ 정도가 바람직하다.

한편, 본 발명에서 상기와 같이 ALE를 적용시킬 경우에, 400㎐부터 4000㎐까지의 범위와 다시 결합시켜 0~4㎑의 대역폭을 갖는 음을 얻는다. 이는 8㎑ 샘플링 레이트(sampling rate)의 경우이며, 상기의 경우에 대비하여 본 발명에서는 적응 콤 필터(Adaptive Comb Filter)(56)를 더 사용한다.

상기에서 적응 콤 필터(Adaptive Comb Filter)(56)는 고역주파수에서 피치 성분으로 나타내는 임펄스 열처럼 보이는 부분 사이에 있는 잡음들을 제거하기 위해 사용된다. 특히 적응 콤 필터(56)는 고역 주파수 성분에 유성음에 해당되는 분명한 신호가 존재하는 경우에만 동작한다.

한편, SSM을 사용하는 스펙트럴 서브트랙션 블록(55)은 유성음의 구간에서 얻어진 잡음 스펙트럼 데이터를 사용한다. 즉 스펙트럴 서브트랙션 블록(55)은 ALE 블록(54)에서 이전 유성음의 소정 프레임에서 추정된 잡음 스펙트럼들을 평균한 값을 사용한다. 다시 말하자면, 상기 스펙트럼 데이터(spectral data)는 유성음에서 잡음 스펙트럼을 얻을 때마다 소정 개수의 프레임의 잡음 스펙트럼 데이터열들에 대한 평균을 내어 얻는다.

이상에서 설명된 본 발명에 따르면, ALE나 SSM 보다 좋은 성능을 기대할 수 있다.

본 발명은 피치 특성이 가장 강하게 나타나는 저역 주파수 성분에 대해서 ALE를 수행한 후에, 다시 고역 주파수 성분이 유성음일 경우에는 적응 콤 필터(adaptive comb filter)를 더 사용하므로, 저역 주파수가 유성음적인 특성을 가지고 고역 주파수가 무성음적인 특성을 가질 때도 효과적인 성능을 발휘한다.

본 발명은 음성의 고유한 특징인 피치(pitch)에 기반하여 음성 품질을 향상시키므로, 불분명한 잡음(babble noise) 등에 대해 다른 음질 향상 기법들(예, Wiener filtering 혹은 spectral subtraction method) 보다 강인한 특성을 보인다.

이상의 본 발명은 특히 휴대폰에서 단일 마이크로폰을 사용할 때 잡음 제거에 유용하며, 휴대용 녹음기에서 잡음 제거를 하면서 녹음을 하는데도 유용하다.

또한 본 발명은 일반 유/무선 전화에서 잡음 제거를 하기 위한 용도나 기타 PDA 등에서 음성을 녹음하기 위한 용도로도 사용 가능하다.

이상 설명한 내용을 통해 당업자라면 본 발명의 기술사상을 일탈하지 아니하는 범위에서 다양한 변경 및 수정이 가능함을 알 수 있을 것이다.

따라서, 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허 청구의 범위에 의해 정하여져야만 할 것이다.

Claims

입력된 음성을 유성음과 무성음으로 구분하는 단계와;

상기 유성음의 잡음을 제거하기 위한 적응 필터링을 수행하는 단계와;

상기 무성음의 잡음을 제거하기 위해, 상기 유성음의 구간에서 얻어진 잡음 스펙트럼 데이터를 사용하여 상기 무성음에 대한 스펙트럴 서브트랙션(Spectral Subtraction)을 수행하는 단계를 포함하여 이루어지는 것을 특징으로 하는 음성 품질 향상 방법.
제 1 항에 있어서, 상기 잡음 스펙트럼 데이터는 이전 유성음의 소정 프레임에서 추정된 잡음 스펙트럼들의 평균인 것을 특징으로 하는 음성 품질 향상 방법.
제 1 항에 있어서, 상기 유성음에서 추출된 피치 주기를 사용하여 적응 필터링하는 것을 특징으로 하는 음성 품질 향상 방법.
제 1 항에 있어서, 상기 입력된 음성에 대해 저역통과 필터링(Low Pass Filtering) 및 고역통과 필터링(High Pass Filtering)을 수행하는 단계를 더 포함하는 것을 특징으로 하는 음성 품질 향상 방법.
제 4 항에 있어서, 상기 고역통과 필터링된 출력에서 잡음을 제거하기 위한 적응 콤 필터링(adaptive comb filtering)을 더 수행하는 것을 특징으로 하는 음성 품질 향상 방법.
입력된 음성을 유성음(Voiced Speech)과 무성음 (Unvoiced Speech)으로 구분하여 출력하는 수단과;

상기 유성음의 잡음을 제거하기 위해 적응 필터링을 수행하는 수단과;

상기 무성음의 잡음을 제거하기 위해, 유성음 구간에서 추정된 잡음 스펙트럼을 이용하여 스펙트럴 서브트랙션(Spectral Subtraction)을 수행하는 수단을 포함하여 구성되는 것을 특징으로 하는 음성 품질 향상 장치.
제 6 항에 있어서, 상기 입력된 음성을 저역통과 필터링하는 저역통과필터(LPF)와,

상기 입력된 음성을 고역통과 필터링하는 고역통과필터(HPF)를 더 구비하는 것을 특징으로 하는 음성 품질 향상 장치.
제 7 항에 있어서, 상기 고역통과필터의 출력이 유성음인 경우에, 상기 고역통과필터 출력에서 잡음을 제거하기 위한 적응 콤 필터(adaptive comb filter)를 더 구비하는 것을 특징으로 하는 음성 품질 향상 장치.
제 8 항에 있어서, 상기 저역통과필터의 출력 중 유성음에서 피치 주기(pitch period)를 추출하여 상기 적응 콤 필터와 상기 적응 필터링을 수행하는 수단에 제공하는 피치 추출기를 더 구비하는 것을 특징으로 하는 음성 품질 향상 장치.
제 5 항에 있어서, 상기 적응 콤 필터링을 통해 상기 고역통과 필터링된 출력 중 유성음의 잡음을 제거하는 것을 특징으로 하는 음성 품질 향상 방법.
제 4 항에 있어서, 상기 유성음과 상기 무성음은 상기 저역통과 필터링의 출력인 것을 특징으로 하는 음성 품질 향상 방법.