KR100511316B1

KR100511316B1 - 음성신호의 포만트 주파수 검출방법

Info

Publication number: KR100511316B1
Application number: KR10-2003-0069175A
Authority: KR
Inventors: 김찬우
Original assignee: 엘지전자 주식회사
Priority date: 2003-10-06
Filing date: 2003-10-06
Publication date: 2005-08-31
Also published as: CN1331111C; EP1530199A3; EP1530199A2; DE602004010035T2; US20050075864A1; US8000959B2; EP1530199B1; DE602004010035D1; ATE378672T1; KR20050033206A; CN1606062A

Abstract

본 발명은 음성신호의 포만트 주파수 검출방법에 관한 것으로, Cauchy's Integral Formula를 이용하여, 음성신호의 선형 예측 스펙트럼에서 판명된 극대값이 중첩된 포만츠로 이루어져 있는지 검출하고, 만약 그 극대값이 중첩된 포만츠로 이루어져 있으면 근을 Polishing하는 방법으로 포만트 주파수를 검출함으로써, 많은 연산량 없이도 정교하게 포만트 주파수를 검출할 수 있도록 한 것이다. 이를 위하여 본 발명은 다수의 포만트 주파수가 포함된 음성신호에 있어서, 상기 음성신호를 필터링한 다음, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트 타임 신호를 추출하는 과정과; 상기 쇼트 타임신호에 의해 선형 예측 계수(Linear Prediction Coefficient)를 계산한 다음, 그 선형 예측 계수로 예측 오차 필터(Prediction Error Filter)를 구하는 과정과; 상기 예측 오차 필터를 이용하여 선형 예측 스펙트럼(Linear Prediction Spectrum)을 구한 다음, 그 선형 예측 스펙트럼의 극대값들로부터 포만트 주파수 후보를 추출하는 과정과; 상기 포만트 주파수 후보들에 대하여, Cauchy's Integral Formula로 z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개 이상인지를 판단하는 과정과; 상기 판단결과, z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개이상이 이면 근을 Polishing 하여 근을 추출하고, 그 추출된 근을 이용하여 포만트 주파수를 구하는 과정으로 이루어진다.

Description

음성신호의 포만트 주파수 검출방법{FORMANT FREQUENCY DETECTING METHOD OF VOICE SIGNAL}

본 발명은 음성신호의 포만트 주파수 검출방법에 관한 것으로, 특히 Cauchy's Integral Formula를 이용하여, 음성신호의 선형 예측 스펙트럼에서 판명된 극대값이 중첩된 포만츠를 가지고 있는지를 검출하고, 중첩된 포만츠를 가지고 있는 극대값에서 근을 Polishing하는 방법으로 포만트 주파수를 검출하도록 한 음성신호의 포만츠(포만트) 주파수 검출방법에 관한 것이다.

일반적으로, 음성신호에서 추출된 공진주파수(format frequency 혹은 formants: 이하 포만트 주파수 혹은 포만츠라함)는 포만츠 보코더 (formants vocoder)와 같은 음성 코딩, 포만츠를 이용한 음성 합성 (Text-to-Speech) 또는 음성 인식기에서의 특징 벡터(feature vector)등으로 유용하게 활용된다.

종래에는, 음성신호에서 포만트 주파수를 추출하는 경우, 대부분 두 개의 포만츠(formants)가 근접하게 위치한 경우에는 스펙트럼상에서 하나의 극대값으로 표시되면 사실상 두 개의 포만츠로 분해하는 것이 어려웠다.

여기서, 종래 포만츠를 검출하기 위한 다양한 기술을 『[1] L. R. Rabiner and R. W. Schafer, Digital Processing of Speech Signal, Englewood Cliff, NJ: Prentice Hall, 1978.

[2] S. S. McCandless, "an algorithm for automatic formant extraction using linear prediction spectra," IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-22, no. 2, pp. 135-141, Apr. 1974.

[3] J. R Dellar Jr., J. G Proakis., and J. H. L Hansen, Discrete-Time Processing of Speech Signals, New York: Macmillan Publishing Company, 1993

[4] R. C. Snell and F. Milinazzo, Formant location from LPC analysis data,IEEE Trans. Speech Audio Processing, vol. 1, no. 2, pp. 129-134, Apr. 1993.』와 같은 참고문헌을 참조하여 설명한다.

첫번째, 도1과 같이, 선형 예측 스펙트럼 (Linear Prediction Spectrum) 또는 켑스트럼으로 평탄화한 스펙트럼 (Cepstrally Smoothed Spectrum)에서의 극대점 (Local Maximum)을 찾아서 포만트 주파수를 구하는 방법이다.

즉, 처리할 음성 신호를 전 처리 과정(preprocessing)으로서 필터링 (filtering)을 해 주거나, 신호처리적으로 품질 향상 (enhancement) 시키거나, 또는 프리-엠퍼시스(pre-emphasis) 필터에 통과시킨다(SP1).

그 다음, 음성 신호에서 적절한 범위 (일반적으로 20 ms~40 ms)를 필요에 따른 적절한 윈도우(Hamming 윈도우, Kaiser 윈도우)를 곱함으로써 쇼트 타임(short-time) 신호를 추출해 낸다(SP2).

그 다음, 상기 쇼트 타임 신호에서 선형 예측 계수 (Linear Prediction Coefficient)를 구하여 선형 예측 스펙트럼 (Linear Prediction Spectrum)을 구하거나, 또는 켑스펙트럼으로 평탄화시킨 스텍트럼(Capstrally Smoothed Spectrum)을 구한다(SP3).

상기 선형 예측 계수 (Linear Prediction Coefficient)는, 벡터 형태로 표현하면 하기의 수학식으로 나타난다.

[수학식]

상기 수학식을 연산하여, 를 구하면 그 값이 선형 예측 계수 (Linear Prediction Coefficient)가 된다.

상기 수학식에서 로 표시한 것은 autocorrelation 함수이다.

상기 선형 예측 스펙트럼 (Linear Prediction Spectrum)은, 하기의 수학식에 의해 구한다.

[수학식]

그 다음, 상기에서 구한 스펙트럼에서 극대점 (Local Maximum)이 되는 값들을 찾아낸후(SP4), 그 극대점에 대응되는 포만트 주파수를 구한다(SP5).

이때, 후처리 과정으로 평탄화(smoothing)를 거쳐서 갑자기 발생할 수 있는 잘못된 값들을 걸러 낸다.

그러나, 상술한 종래기술은, 두 개의 포만츠가 주파수 대역에서 매우 인접하면 스펙트럼을 구하기 위해, FFT를 충분히 큰 차수(512-pt나 1024-pt)로 한다고 해도 주파수 영역상에서 분해가 안되어 중첩된 포만츠가 하나의 극대점으로 나타나는 문제점이 있다.

두번째로는, 예측 오차 필터(Prediction Error Filter)의 근, 즉 'zero'를 구하여 포만츠 주파수를 구하는 방법이다.

우선, 음성신호를 전처리 과정(low pass filtering이나 pre-emphasis filtering)등을 거친 다음, 그 음성신호에서 적절한 구간(일반적으로 20ms~40ms)을 필요에 따라 적절한 윈도우 (Hamming 윈도우, Kaiser 윈도우 등)를 승산함으로써 쇼트 타임(short-time) 신호를 얻어낸다(SP11.SP12).

그 다음, 상기 쇼트타임(short-time) 신호에서 선형 예측 계수 (Linear Prediction Coefficient)를 계산하여 예측 오차 필터를 구한다(SP13,SP14).

상기 예측 오차 필터는, 를 선형 예측 계수라고 가정하면, 하기의 수학식과 같이 주어진다.

[수학식]

그 다음, 상기 예측 오차필터(예측 오차 필터)를 수치 해석적인 방법으로 풀어서 'zero'를 구한 다음(SP15), 그 'zero'를 하기의 수학식에 적용하여 포만츠 주파수를 구한다(SP16).

[수학식]

여기서, 는 'zero'의 위상이고, 는 신호의 샘플링 레이트이다.

그러나, 상술한 종래 기술은, 실제로 구해진 근(zero)들이 포만츠와 직접적으로 관련이 있는지, 또는 스펙트럼의 형태를 만드는 데만 관련이 있는지에 대한 명확한 기준을 만들 수 없는 문제점이 있고, 또한 계산량이 많으며 고정 소수점 연산 (fixed point arithmetic)을 할 경우에 정밀도가 저하되는 문제점이 있다.

세번째로는,R.C.Snell등이 제안한 방식으로, Cauchy's integral formula로 z-영역에서 영역을 나누어 'zero'의 위치를 점진적으로 찾아 가는 방식이다.

우선, 예측 오차 필터를 이용하여, 하기의 수학식으로 구현되는 Cauchy's integral formula를 이용하여 z-영역상에서의 부채꼴 영역에서 'zero'의 개수를 구한다.

[수학식]

그 다음, 상기 부채꼴 영역중 'zero'가 없는 영역은 그대로 두고 'zero'가 있는 영역은 계속 분할(bisection) 하여 'zero'가 존재하는 부채꼴 영역을 얻는데, 이러한 동작을 충분할 정밀도가 될때까지 반복하여 실행한다.

그 다음, 상기 'zero'가 존재하는 부채꼴 영역에서 'zero'의 위상을 구한후, 포만트 주파수를 구한다.

그러나, 상술한 Cauchy's integral formula로 z-영역에서 'zero'가 존재하는 영역을 반복적으로 찾는 방법은 근을 구하는 방법이므로, 실제로 구해진 'zero'가 포만츠와 직접적으로 관련이 있는지, 아니면 스펙트럼의 형태만 결정하는데에 어느 정도의 영향을 미치는지의 구별을 하지 못하는 문제점이 있다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로, Cauchy's Integral Formula를 이용하여, 음성신호의 선형 예측 스펙트럼에서 판명된 극대값이 중첩된 포만츠를 가지고 있는지를 검출하고, 중첩된 포만츠를 가지고 있는 극대값에서 근을 Polishing하는 방법으로 포만트 주파수를 검출함으로써, 많은 연산량 없이도 정교하게 포만트 주파수를 검출할 수 있도록 한 음성신호의 포만트 주파수 검출방법을 제공함에 그 목적이 있다.

상기와 같은 목적을 달성하기 위한 본 발명은, 포만트 주파수가 포함된 음성신호에 있어서, 상기 음성신호를 필터링한 다음, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트 타임 신호를 추출하는 과정과; 상기 쇼트 타임신호에 의해 선형 예측 계수를 계산한 다음, 그 선형 예측 계수로 선형 예측 계수 오차 필터를 구하는 과정과; 상기 선형 예측 계수 오차 필터를 이용하여 선형 예측 스펙트럼을 구한 다음, 그 선형 예측 스펙트럼의 극대값들로부터 포만츠 주파수 후보를 추출하는 과정과; 상기 포만츠 주파수 후보들에 대하여, Cauchy's Integral Formula로 z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개 이상인지를 판단하는 과정과; 상기 판단결과, z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개이상이 이면 근을 Polishing 하여 근을 추출하고, 그 추출된 근을 이용하여 포만트 주파수를 구하는 과정으로 수행함을 특징으로 한다.

이하, 본 발명에 의한 음성신호의 포만트 주파수 검출방법에 대한 작용 및 효과를 첨부한 도면을 참조하여 상세히 설명한다.

도3은 본 발명 음성신호의 포만트 주파수 검출방법에 대한 동작흐름도이다.

도3에 도시한 바와같이, 본 발명은 음성신호가 입력되면 그 음성신호를 필터링한 다음, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트 타임 신호를 추출하는 과정(SP21~SP23)과; 상기 쇼트 타임신호에 의해 선형 예측 계수를 계산한 다음, 그 선형 예측 계수로 선형 예측 계수 오차 필터를 구하는 과정(SP24)과; 상기 선형 예측 계수 오차 필터를 이용하여 선형 예측 스펙트럼을 구한 다음, 그 선형 예측 스펙트럼의 극대값들로부터 포만트 주파수 후보를 추출하는 과정(SP25 ,SP26)과; 상기 포만츠가 중첩될 가능성이 있으면, 상기 포만츠 후보들에 대하여 Cauchy's Integral Formula로 z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개 이상인지를 판단하는 과정(SP27,SP28)과; 상기 판단결과, z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개이상이면 근을 Polishing 하여 근을 추출하고, 그 추출된 근을 이용하여 포만츠 주파수를 구하는 과정(SP29,SP30)으로 이루어지며, 이와같은 본 발명의 동작을 설명한다.

먼저, 음성신호가 입력되면 그 음성신호를 필터링한 다음(SP21), 그 음성신호에 적절한 윈도우를 승산하여 소정 크기를 가진 쇼트 타임신호를 추출한다 (SP22).

이때, 상기 음성신호를 필터링 시키는 대신에, 음성신호를 인핸스먼트 (enhancement)시키거나, 음성신호를 프리-엠퍼시스(pre-emphasis) 필터에 통과시킨다.

여기서, 상기 윈도우는 20ms~40ms의 크기를 가진 해밍(Hamming) 윈도우를 사용하거나, 20ms~40ms의 크기를 가진 카이저(Kaiser) 윈도우를 사용한다.

그 다음, 상기 쇼트 타임신호에 의해 선형 예측 계수를 계산한 다음, 그 선형 예측 계수로 선형 예측 계수 오차 필터를 구한다(SP24).

그 다음, 상기 선형 예측 계수 오차 필터를 이용하여 선형 예측 스펙트럼을 구한후(SP25), 그 선형 예측 스펙트럼 상의 극대값들로부터 포만트 주파수 후보를 추출한다(SP26).

즉, 상기 선형 예측 스펙트럼에서 극대값을 찾는 방식(Spectral Peak-picking)으로 스펙트럼에서 극대값을 찾는다.

그 다음, 상기 포만트 주파수가 중첩될 가능성이 있으면(SP27), 상기 포만트 주파수 후보들에 대하여 Cauchy's Integral Formula로 z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개 이상인지를 판단하는데(SP28), 즉 상기 선형 예측 스펙트럼상의 극대점이 한 개의 포만츠를 이루는 'zero'로 되어 있는지, 또는 두 개의 포만츠를 이루는 각각의 'zero'들이 결합되어서 한 개의 극대값으로 되어 있는지를 Cauchy's integral formula로 조사한다.

상기 판단결과, 도4와 같은, Z-영역의 스펙트럼에 (z-영역으로 표시를 했을 경우), 예측 오차 필터의 'zero', 즉 피크가 있는 영역의 폴의 갯수(극대점)가 하나이면 (도4의 실선으로 표시한 영역안에 하나이면)해당 포만츠 주파수를 검출한 다음(위에서 얻은 포만트 주파수를 그대로 사용하며), 새로운 음성신호에 대하여 상기 동작을 반복수행한다.

상기 도4에서, 는 스펙트럼에서 극대값에 해당되는 점의 위상을 Z-영역(z-영역)에 표시한 것이고, 과 는 그 값 주위로 두개의 포만츠가 결합할 수 있는 범위는 나타내는데, 상기 과 는 이론적으로 두개의 포만츠를 하나의 극대값으로 결합시킬 수 있을 만큼 가까운 영역에 설정한다.

한편, 상기 판단결과, z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개 이상이면 근을 Polishing 하여 근을 추출하고(SP29), 그 추출된 근을 이용하여 포만츠 주파수를 구한다(SP30).

상기 근을 Polishing하는 방법은, 상기 도4에서, 두개의 포만츠가 결합할 수 있는 영역에 들어있는 초기값의 근사치, 즉 ''를 시작점으로 하여 반복적으로 수렴하게 되는데, 이때 복소 평면상에서 비교적 작은 영역 안에 두개의 근이 존재하므로 위의 시작점으로부터 순환적인 방법을 이용하면 모든 근을 연산하는 방법을 사용하지 않고도 신속하게 'zero'값을 얻을 수 있다.

상기 근을 추출하는 다른 방법으로, Bairstow's 알고리즘을 사용할 수도 있는데, 상기 Bairstow's 알고리즘이 위의 근을 Polishing하는 방법의 일종이고 기타의 다른 근을 Polishing또는 Approximation하는 방법이 사용가능하다.

상기 포만츠 주파수(F)는, 하기의 수학식에 의해 구현한다.

[수학식]

여기서, 는 'zero'의 위상이고, 는 신호의 샘플링 레이트 이다.

다시 말해서, 본 발명은 선형 예측 스펙트럼에서 극대값을 찾는 방식 (Spectral Peak-picking)으로 스펙트럼에서 극대값을 찾은 다음, 그 스펙트럼상의 극대점이 한 개의 포만츠를 이루는 'zero'로 되어 있는지, 또는 두 개의 포만츠를 이루는 각각의 zero들이 결합되어서 한 개의 극대값으로 되어 있는지를 Cauchy's integral formula로 조사하고, 그 결과, 만약 두 개의 'zero'로 되어 있다고 판단되면 스펙트럼에서 찾은 극대값을 Roots polishing 하는 방법으로 분해해 낸다.

이때, 상기 Cauchy's integral formula를 적용할 때, 종래 'R. C. Snell'이 제안한 Cauchy's integral formula와 같이 적용 방식을 영역을 나누어 가면서 계속 반복 사용하는 것이 아니라, z-영역에서 극대값을 가지는 부분 주위에서만 한번 Cauchy's integral formula로 'zero'의 개수를 구하여,연산량을 종래보다 현저하게 줄인다.

만약, 상기 Cauchy's integral fomula를 적용한 결과, 'Zero'의 개수가 2개로 판명될 경우, 연산량이 많이 드는 방정식을 직접 푸는 방식을 취하는 것이 아니라, 'zero'를 Polishing 하는 방법을 사용하는데, 'zero'에 대한 개략적인 값을 알 수가 있으므로, 적은 연산으로 빠르게 'zero'를 구할 수 있다.

상기 본 발명의 상세한 설명에서 행해진 구체적인 실시 양태 또는 실시예는 어디까지나 본 발명의 기술 내용을 명확하게 하기 위한 것으로 이러한 구체적 실시예에 한정해서 협의로 해석해서는 안되며, 본 발명의 정신과 다음에 기재된 특허 청구의 범위내에서 여러가지 변경 실시가 가능한 것이다.

이상에서 상세히 설명한 바와같이 본 발명은, Cauchy's Integral Formula를 이용하여, 음성신호의 선형 예측 스펙트럼에서 판명된 극대값이 중첩된 포만츠를 가지고 있는지를 검출하고, 중첩된 포만츠를 가지고 있는 극대값에서 근을 Polishing하는 방법으로 포만트 주파수를 검출함으로써, 많은 연산량 없이도 정교하게 포만트 주파수를 검출하는 효과가 있다.

도1은 종래 음성신호의 포만트 주파수 검출방법에 대한 일실시예의 동작흐름도.

도2는 종래 음성신호의 포만트 주파수 검출방법에 대한 일실시예의 동작흐름도.

도3은 본 발명 음성신호의 포만트 주파수 검출방법에 대한 실시예의 동작흐름도.

도4는 도3에 있어서, 스펙트럼에서 극대값에 해당되는 점의 위상을 z-영역에 표시한 도.

Claims

포만트 주파수가 포함된 음성신호에 있어서,

상기 음성신호를 필터링한 다음, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트 타임 신호를 추출하는 과정과;

상기 쇼트 타임신호에 의해 선형 예측 계수를 계산한 다음, 그 선형 예측 계수로 선형 예측 계수 오차 필터를 구하는 과정과;

상기 선형 예측 계수 오차 필터를 이용하여 선형 예측 스펙트럼을 구한 다음, 그 선형 예측 스펙트럼의 극대값들로부터 포만츠 주파수 후보를 추출하는 과정과;

상기 포만츠 주파수 후보들에 대하여, Cauchy's Integral Formula로 z-영역에서 보았을때 스펙트럼에서 피크가 있는 영역에 해당되는 폴의 갯수가 2개 이상인지를 판단하는 과정과;

상기 판단결과, z-영역의 스펙트럼에서 피크가 있는 영역에 해당되는 폴의 갯수가 2개 이상이면 근을 Polishing 하여 근을 추출하고, 그 추출된 근을 이용하여 포만츠 주파수를 구하는 과정으로 수행함을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
제1 항에 있어서, 음성신호를 필터링한 다음, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트 타임 신호를 추출하는 과정은,

음성신호를 인핸스먼트(enhancement)를 시키는 단계를 포함하는 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
제1 항에 있어서, 음성신호를 필터링한 다음, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트 타임 신호를 추출하는 과정은,

음성신호를 프리-엠퍼시스(pre-emphasis) 필터에 통과시키는 단계를 포함하는 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
제1 항에 있어서, Z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개 이상이면 근을 Polishing 하여 근을 추출하고, 그 추출된 근을 이용하여 포만트 주파수를 구하는 과정은,

두개 이상의 폴이 존재하는 영역에 들어 있는 초기값의 근사치를 시작점으로 하여 반복하여 근을 Polishing 함으로써, 근을 추출하는 단계를 포함하는 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
제 4항에 있어서, 초기값의 근사치는, 하기의 수학식에 구하는 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.

[수학식]
제1 항에 있어서, 윈도우는, 20ms~40ms의 크기를 가진 해밍(Hamming) 윈도우인 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
제1 항에 있어서, 윈도우는, 20ms~40ms의 크기를 가진 카이저(Kaiser) 윈도우인 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
제1 항에 있어서, 윈도우는, 20ms~40ms의 크기를 가진 해닝(Hanning) 윈도우인 것을 특징으로 하는 포만트 주파수 검출방법
제1 항에 있어서, 윈도우는, 20ms~40ms의 크기를 가진 Blackman 윈도우인 것을 특징으로 하는 포만트 주파수 검출방법.
제5 항에 있어서, 0.9 대신에 0.8 ~ 1.0 사이의 값을 설정하거나, 을 그 값에서 약간 벗어난 값으로 설정하여 초기값의 근사치로 설정하는 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
제 1항에 있어서, z-영역의 스펙트럼에서 피크가 있는 영역에 해당되는 폴의 갯수가 2개 이상이면, 포만츠가 중첩되었다는 사실을 이용하여 극대점 근처의 특정 정해진 값을 포만트 주파수로 구하는 과정을 더 포함하는 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.