KR100511316B1 - 음성신호의 포만트 주파수 검출방법 - Google Patents
음성신호의 포만트 주파수 검출방법 Download PDFInfo
- Publication number
- KR100511316B1 KR100511316B1 KR10-2003-0069175A KR20030069175A KR100511316B1 KR 100511316 B1 KR100511316 B1 KR 100511316B1 KR 20030069175 A KR20030069175 A KR 20030069175A KR 100511316 B1 KR100511316 B1 KR 100511316B1
- Authority
- KR
- South Korea
- Prior art keywords
- formant frequency
- window
- roots
- spectrum
- voice signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000005498 polishing Methods 0.000 claims abstract description 10
- 238000001228 spectrum Methods 0.000 claims description 44
- 238000001914 filtration Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 8
- 230000005236 sound signal Effects 0.000 claims description 8
- 230000002708 enhancing effect Effects 0.000 claims 1
- 230000003595 spectral effect Effects 0.000 abstract description 4
- 101100333868 Homo sapiens EVA1A gene Proteins 0.000 description 2
- 102100031798 Protein eva-1 homolog A Human genes 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000007517 polishing process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 101100365087 Arabidopsis thaliana SCRA gene Proteins 0.000 description 1
- 101100310674 Tenebrio molitor SP23 gene Proteins 0.000 description 1
- 101100438139 Vulpes vulpes CABYR gene Proteins 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000036186 satiety Effects 0.000 description 1
- 235000019627 satiety Nutrition 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrically Operated Instructional Devices (AREA)
- Testing Of Balance (AREA)
- Electrophonic Musical Instruments (AREA)
- Seasonings (AREA)
- Saccharide Compounds (AREA)
- Fats And Perfumes (AREA)
- Apparatuses For Generation Of Mechanical Vibrations (AREA)
Abstract
본 발명은 음성신호의 포만트 주파수 검출방법에 관한 것으로, Cauchy's Integral Formula를 이용하여, 음성신호의 선형 예측 스펙트럼에서 판명된 극대값이 중첩된 포만츠로 이루어져 있는지 검출하고, 만약 그 극대값이 중첩된 포만츠로 이루어져 있으면 근을 Polishing하는 방법으로 포만트 주파수를 검출함으로써, 많은 연산량 없이도 정교하게 포만트 주파수를 검출할 수 있도록 한 것이다. 이를 위하여 본 발명은 다수의 포만트 주파수가 포함된 음성신호에 있어서, 상기 음성신호를 필터링한 다음, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트 타임 신호를 추출하는 과정과; 상기 쇼트 타임신호에 의해 선형 예측 계수(Linear Prediction Coefficient)를 계산한 다음, 그 선형 예측 계수로 예측 오차 필터(Prediction Error Filter)를 구하는 과정과; 상기 예측 오차 필터를 이용하여 선형 예측 스펙트럼(Linear Prediction Spectrum)을 구한 다음, 그 선형 예측 스펙트럼의 극대값들로부터 포만트 주파수 후보를 추출하는 과정과; 상기 포만트 주파수 후보들에 대하여, Cauchy's Integral Formula로 z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개 이상인지를 판단하는 과정과; 상기 판단결과, z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개이상이 이면 근을 Polishing 하여 근을 추출하고, 그 추출된 근을 이용하여 포만트 주파수를 구하는 과정으로 이루어진다.
Description
본 발명은 음성신호의 포만트 주파수 검출방법에 관한 것으로, 특히 Cauchy's Integral Formula를 이용하여, 음성신호의 선형 예측 스펙트럼에서 판명된 극대값이 중첩된 포만츠를 가지고 있는지를 검출하고, 중첩된 포만츠를 가지고 있는 극대값에서 근을 Polishing하는 방법으로 포만트 주파수를 검출하도록 한 음성신호의 포만츠(포만트) 주파수 검출방법에 관한 것이다.
일반적으로, 음성신호에서 추출된 공진주파수(format frequency 혹은 formants: 이하 포만트 주파수 혹은 포만츠라함)는 포만츠 보코더 (formants vocoder)와 같은 음성 코딩, 포만츠를 이용한 음성 합성 (Text-to-Speech) 또는 음성 인식기에서의 특징 벡터(feature vector)등으로 유용하게 활용된다.
종래에는, 음성신호에서 포만트 주파수를 추출하는 경우, 대부분 두 개의 포만츠(formants)가 근접하게 위치한 경우에는 스펙트럼상에서 하나의 극대값으로 표시되면 사실상 두 개의 포만츠로 분해하는 것이 어려웠다.
여기서, 종래 포만츠를 검출하기 위한 다양한 기술을 『[1] L. R. Rabiner and R. W. Schafer, Digital Processing of Speech Signal, Englewood Cliff, NJ: Prentice Hall, 1978.
[2] S. S. McCandless, "an algorithm for automatic formant extraction using linear prediction spectra," IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-22, no. 2, pp. 135-141, Apr. 1974.
[3] J. R Dellar Jr., J. G Proakis., and J. H. L Hansen, Discrete-Time Processing of Speech Signals, New York: Macmillan Publishing Company, 1993
[4] R. C. Snell and F. Milinazzo, Formant location from LPC analysis data,IEEE Trans. Speech Audio Processing, vol. 1, no. 2, pp. 129-134, Apr. 1993.』와 같은 참고문헌을 참조하여 설명한다.
첫번째, 도1과 같이, 선형 예측 스펙트럼 (Linear Prediction Spectrum) 또는 켑스트럼으로 평탄화한 스펙트럼 (Cepstrally Smoothed Spectrum)에서의 극대점 (Local Maximum)을 찾아서 포만트 주파수를 구하는 방법이다.
즉, 처리할 음성 신호를 전 처리 과정(preprocessing)으로서 필터링 (filtering)을 해 주거나, 신호처리적으로 품질 향상 (enhancement) 시키거나, 또는 프리-엠퍼시스(pre-emphasis) 필터에 통과시킨다(SP1).
그 다음, 음성 신호에서 적절한 범위 (일반적으로 20 ms~40 ms)를 필요에 따른 적절한 윈도우(Hamming 윈도우, Kaiser 윈도우)를 곱함으로써 쇼트 타임(short-time) 신호를 추출해 낸다(SP2).
그 다음, 상기 쇼트 타임 신호에서 선형 예측 계수 (Linear Prediction Coefficient)를 구하여 선형 예측 스펙트럼 (Linear Prediction Spectrum)을 구하거나, 또는 켑스펙트럼으로 평탄화시킨 스텍트럼(Capstrally Smoothed Spectrum)을 구한다(SP3).
상기 선형 예측 계수 (Linear Prediction Coefficient)는, 벡터 형태로 표현하면 하기의 수학식으로 나타난다.
[수학식]
상기 수학식을 연산하여, 를 구하면 그 값이 선형 예측 계수 (Linear Prediction Coefficient)가 된다.
상기 수학식에서 로 표시한 것은 autocorrelation 함수이다.
상기 선형 예측 스펙트럼 (Linear Prediction Spectrum)은, 하기의 수학식에 의해 구한다.
[수학식]
그 다음, 상기에서 구한 스펙트럼에서 극대점 (Local Maximum)이 되는 값들을 찾아낸후(SP4), 그 극대점에 대응되는 포만트 주파수를 구한다(SP5).
이때, 후처리 과정으로 평탄화(smoothing)를 거쳐서 갑자기 발생할 수 있는 잘못된 값들을 걸러 낸다.
그러나, 상술한 종래기술은, 두 개의 포만츠가 주파수 대역에서 매우 인접하면 스펙트럼을 구하기 위해, FFT를 충분히 큰 차수(512-pt나 1024-pt)로 한다고 해도 주파수 영역상에서 분해가 안되어 중첩된 포만츠가 하나의 극대점으로 나타나는 문제점이 있다.
두번째로는, 예측 오차 필터(Prediction Error Filter)의 근, 즉 'zero'를 구하여 포만츠 주파수를 구하는 방법이다.
우선, 음성신호를 전처리 과정(low pass filtering이나 pre-emphasis filtering)등을 거친 다음, 그 음성신호에서 적절한 구간(일반적으로 20ms~40ms)을 필요에 따라 적절한 윈도우 (Hamming 윈도우, Kaiser 윈도우 등)를 승산함으로써 쇼트 타임(short-time) 신호를 얻어낸다(SP11.SP12).
그 다음, 상기 쇼트타임(short-time) 신호에서 선형 예측 계수 (Linear Prediction Coefficient)를 계산하여 예측 오차 필터를 구한다(SP13,SP14).
상기 예측 오차 필터는, 를 선형 예측 계수라고 가정하면, 하기의 수학식과 같이 주어진다.
[수학식]
그 다음, 상기 예측 오차필터(예측 오차 필터)를 수치 해석적인 방법으로 풀어서 'zero'를 구한 다음(SP15), 그 'zero'를 하기의 수학식에 적용하여 포만츠 주파수를 구한다(SP16).
[수학식]
여기서, 는 'zero'의 위상이고, 는 신호의 샘플링 레이트이다.
이때, 후처리 과정으로 평탄화(smoothing)를 거쳐서 갑자기 발생할 수 있는 잘못된 값들을 걸러 낸다.
그러나, 상술한 종래 기술은, 실제로 구해진 근(zero)들이 포만츠와 직접적으로 관련이 있는지, 또는 스펙트럼의 형태를 만드는 데만 관련이 있는지에 대한 명확한 기준을 만들 수 없는 문제점이 있고, 또한 계산량이 많으며 고정 소수점 연산 (fixed point arithmetic)을 할 경우에 정밀도가 저하되는 문제점이 있다.
세번째로는,R.C.Snell등이 제안한 방식으로, Cauchy's integral formula로 z-영역에서 영역을 나누어 'zero'의 위치를 점진적으로 찾아 가는 방식이다.
우선, 예측 오차 필터를 이용하여, 하기의 수학식으로 구현되는 Cauchy's integral formula를 이용하여 z-영역상에서의 부채꼴 영역에서 'zero'의 개수를 구한다.
[수학식]
그 다음, 상기 부채꼴 영역중 'zero'가 없는 영역은 그대로 두고 'zero'가 있는 영역은 계속 분할(bisection) 하여 'zero'가 존재하는 부채꼴 영역을 얻는데, 이러한 동작을 충분할 정밀도가 될때까지 반복하여 실행한다.
그 다음, 상기 'zero'가 존재하는 부채꼴 영역에서 'zero'의 위상을 구한후, 포만트 주파수를 구한다.
그러나, 상술한 Cauchy's integral formula로 z-영역에서 'zero'가 존재하는 영역을 반복적으로 찾는 방법은 근을 구하는 방법이므로, 실제로 구해진 'zero'가 포만츠와 직접적으로 관련이 있는지, 아니면 스펙트럼의 형태만 결정하는데에 어느 정도의 영향을 미치는지의 구별을 하지 못하는 문제점이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로, Cauchy's Integral Formula를 이용하여, 음성신호의 선형 예측 스펙트럼에서 판명된 극대값이 중첩된 포만츠를 가지고 있는지를 검출하고, 중첩된 포만츠를 가지고 있는 극대값에서 근을 Polishing하는 방법으로 포만트 주파수를 검출함으로써, 많은 연산량 없이도 정교하게 포만트 주파수를 검출할 수 있도록 한 음성신호의 포만트 주파수 검출방법을 제공함에 그 목적이 있다.
상기와 같은 목적을 달성하기 위한 본 발명은, 포만트 주파수가 포함된 음성신호에 있어서, 상기 음성신호를 필터링한 다음, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트 타임 신호를 추출하는 과정과; 상기 쇼트 타임신호에 의해 선형 예측 계수를 계산한 다음, 그 선형 예측 계수로 선형 예측 계수 오차 필터를 구하는 과정과; 상기 선형 예측 계수 오차 필터를 이용하여 선형 예측 스펙트럼을 구한 다음, 그 선형 예측 스펙트럼의 극대값들로부터 포만츠 주파수 후보를 추출하는 과정과; 상기 포만츠 주파수 후보들에 대하여, Cauchy's Integral Formula로 z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개 이상인지를 판단하는 과정과; 상기 판단결과, z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개이상이 이면 근을 Polishing 하여 근을 추출하고, 그 추출된 근을 이용하여 포만트 주파수를 구하는 과정으로 수행함을 특징으로 한다.
이하, 본 발명에 의한 음성신호의 포만트 주파수 검출방법에 대한 작용 및 효과를 첨부한 도면을 참조하여 상세히 설명한다.
도3은 본 발명 음성신호의 포만트 주파수 검출방법에 대한 동작흐름도이다.
도3에 도시한 바와같이, 본 발명은 음성신호가 입력되면 그 음성신호를 필터링한 다음, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트 타임 신호를 추출하는 과정(SP21~SP23)과; 상기 쇼트 타임신호에 의해 선형 예측 계수를 계산한 다음, 그 선형 예측 계수로 선형 예측 계수 오차 필터를 구하는 과정(SP24)과; 상기 선형 예측 계수 오차 필터를 이용하여 선형 예측 스펙트럼을 구한 다음, 그 선형 예측 스펙트럼의 극대값들로부터 포만트 주파수 후보를 추출하는 과정(SP25 ,SP26)과; 상기 포만츠가 중첩될 가능성이 있으면, 상기 포만츠 후보들에 대하여 Cauchy's Integral Formula로 z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개 이상인지를 판단하는 과정(SP27,SP28)과; 상기 판단결과, z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개이상이면 근을 Polishing 하여 근을 추출하고, 그 추출된 근을 이용하여 포만츠 주파수를 구하는 과정(SP29,SP30)으로 이루어지며, 이와같은 본 발명의 동작을 설명한다.
먼저, 음성신호가 입력되면 그 음성신호를 필터링한 다음(SP21), 그 음성신호에 적절한 윈도우를 승산하여 소정 크기를 가진 쇼트 타임신호를 추출한다 (SP22).
이때, 상기 음성신호를 필터링 시키는 대신에, 음성신호를 인핸스먼트 (enhancement)시키거나, 음성신호를 프리-엠퍼시스(pre-emphasis) 필터에 통과시킨다.
여기서, 상기 윈도우는 20ms~40ms의 크기를 가진 해밍(Hamming) 윈도우를 사용하거나, 20ms~40ms의 크기를 가진 카이저(Kaiser) 윈도우를 사용한다.
그 다음, 상기 쇼트 타임신호에 의해 선형 예측 계수를 계산한 다음, 그 선형 예측 계수로 선형 예측 계수 오차 필터를 구한다(SP24).
그 다음, 상기 선형 예측 계수 오차 필터를 이용하여 선형 예측 스펙트럼을 구한후(SP25), 그 선형 예측 스펙트럼 상의 극대값들로부터 포만트 주파수 후보를 추출한다(SP26).
즉, 상기 선형 예측 스펙트럼에서 극대값을 찾는 방식(Spectral Peak-picking)으로 스펙트럼에서 극대값을 찾는다.
그 다음, 상기 포만트 주파수가 중첩될 가능성이 있으면(SP27), 상기 포만트 주파수 후보들에 대하여 Cauchy's Integral Formula로 z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개 이상인지를 판단하는데(SP28), 즉 상기 선형 예측 스펙트럼상의 극대점이 한 개의 포만츠를 이루는 'zero'로 되어 있는지, 또는 두 개의 포만츠를 이루는 각각의 'zero'들이 결합되어서 한 개의 극대값으로 되어 있는지를 Cauchy's integral formula로 조사한다.
상기 판단결과, 도4와 같은, Z-영역의 스펙트럼에 (z-영역으로 표시를 했을 경우), 예측 오차 필터의 'zero', 즉 피크가 있는 영역의 폴의 갯수(극대점)가 하나이면 (도4의 실선으로 표시한 영역안에 하나이면)해당 포만츠 주파수를 검출한 다음(위에서 얻은 포만트 주파수를 그대로 사용하며), 새로운 음성신호에 대하여 상기 동작을 반복수행한다.
상기 도4에서, 는 스펙트럼에서 극대값에 해당되는 점의 위상을 Z-영역(z-영역)에 표시한 것이고, 과 는 그 값 주위로 두개의 포만츠가 결합할 수 있는 범위는 나타내는데, 상기 과 는 이론적으로 두개의 포만츠를 하나의 극대값으로 결합시킬 수 있을 만큼 가까운 영역에 설정한다.
한편, 상기 판단결과, z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개 이상이면 근을 Polishing 하여 근을 추출하고(SP29), 그 추출된 근을 이용하여 포만츠 주파수를 구한다(SP30).
상기 근을 Polishing하는 방법은, 상기 도4에서, 두개의 포만츠가 결합할 수 있는 영역에 들어있는 초기값의 근사치, 즉 ''를 시작점으로 하여 반복적으로 수렴하게 되는데, 이때 복소 평면상에서 비교적 작은 영역 안에 두개의 근이 존재하므로 위의 시작점으로부터 순환적인 방법을 이용하면 모든 근을 연산하는 방법을 사용하지 않고도 신속하게 'zero'값을 얻을 수 있다.
상기 근을 추출하는 다른 방법으로, Bairstow's 알고리즘을 사용할 수도 있는데, 상기 Bairstow's 알고리즘이 위의 근을 Polishing하는 방법의 일종이고 기타의 다른 근을 Polishing또는 Approximation하는 방법이 사용가능하다.
상기 포만츠 주파수(F)는, 하기의 수학식에 의해 구현한다.
[수학식]
여기서, 는 'zero'의 위상이고, 는 신호의 샘플링 레이트 이다.
다시 말해서, 본 발명은 선형 예측 스펙트럼에서 극대값을 찾는 방식 (Spectral Peak-picking)으로 스펙트럼에서 극대값을 찾은 다음, 그 스펙트럼상의 극대점이 한 개의 포만츠를 이루는 'zero'로 되어 있는지, 또는 두 개의 포만츠를 이루는 각각의 zero들이 결합되어서 한 개의 극대값으로 되어 있는지를 Cauchy's integral formula로 조사하고, 그 결과, 만약 두 개의 'zero'로 되어 있다고 판단되면 스펙트럼에서 찾은 극대값을 Roots polishing 하는 방법으로 분해해 낸다.
이때, 상기 Cauchy's integral formula를 적용할 때, 종래 'R. C. Snell'이 제안한 Cauchy's integral formula와 같이 적용 방식을 영역을 나누어 가면서 계속 반복 사용하는 것이 아니라, z-영역에서 극대값을 가지는 부분 주위에서만 한번 Cauchy's integral formula로 'zero'의 개수를 구하여,연산량을 종래보다 현저하게 줄인다.
만약, 상기 Cauchy's integral fomula를 적용한 결과, 'Zero'의 개수가 2개로 판명될 경우, 연산량이 많이 드는 방정식을 직접 푸는 방식을 취하는 것이 아니라, 'zero'를 Polishing 하는 방법을 사용하는데, 'zero'에 대한 개략적인 값을 알 수가 있으므로, 적은 연산으로 빠르게 'zero'를 구할 수 있다.
상기 본 발명의 상세한 설명에서 행해진 구체적인 실시 양태 또는 실시예는 어디까지나 본 발명의 기술 내용을 명확하게 하기 위한 것으로 이러한 구체적 실시예에 한정해서 협의로 해석해서는 안되며, 본 발명의 정신과 다음에 기재된 특허 청구의 범위내에서 여러가지 변경 실시가 가능한 것이다.
이상에서 상세히 설명한 바와같이 본 발명은, Cauchy's Integral Formula를 이용하여, 음성신호의 선형 예측 스펙트럼에서 판명된 극대값이 중첩된 포만츠를 가지고 있는지를 검출하고, 중첩된 포만츠를 가지고 있는 극대값에서 근을 Polishing하는 방법으로 포만트 주파수를 검출함으로써, 많은 연산량 없이도 정교하게 포만트 주파수를 검출하는 효과가 있다.
도1은 종래 음성신호의 포만트 주파수 검출방법에 대한 일실시예의 동작흐름도.
도2는 종래 음성신호의 포만트 주파수 검출방법에 대한 일실시예의 동작흐름도.
도3은 본 발명 음성신호의 포만트 주파수 검출방법에 대한 실시예의 동작흐름도.
도4는 도3에 있어서, 스펙트럼에서 극대값에 해당되는 점의 위상을 z-영역에 표시한 도.
Claims (11)
- 포만트 주파수가 포함된 음성신호에 있어서,상기 음성신호를 필터링한 다음, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트 타임 신호를 추출하는 과정과;상기 쇼트 타임신호에 의해 선형 예측 계수를 계산한 다음, 그 선형 예측 계수로 선형 예측 계수 오차 필터를 구하는 과정과;상기 선형 예측 계수 오차 필터를 이용하여 선형 예측 스펙트럼을 구한 다음, 그 선형 예측 스펙트럼의 극대값들로부터 포만츠 주파수 후보를 추출하는 과정과;상기 포만츠 주파수 후보들에 대하여, Cauchy's Integral Formula로 z-영역에서 보았을때 스펙트럼에서 피크가 있는 영역에 해당되는 폴의 갯수가 2개 이상인지를 판단하는 과정과;상기 판단결과, z-영역의 스펙트럼에서 피크가 있는 영역에 해당되는 폴의 갯수가 2개 이상이면 근을 Polishing 하여 근을 추출하고, 그 추출된 근을 이용하여 포만츠 주파수를 구하는 과정으로 수행함을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
- 제1 항에 있어서, 음성신호를 필터링한 다음, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트 타임 신호를 추출하는 과정은,음성신호를 인핸스먼트(enhancement)를 시키는 단계를 포함하는 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
- 제1 항에 있어서, 음성신호를 필터링한 다음, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트 타임 신호를 추출하는 과정은,음성신호를 프리-엠퍼시스(pre-emphasis) 필터에 통과시키는 단계를 포함하는 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
- 제1 항에 있어서, Z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개 이상이면 근을 Polishing 하여 근을 추출하고, 그 추출된 근을 이용하여 포만트 주파수를 구하는 과정은,두개 이상의 폴이 존재하는 영역에 들어 있는 초기값의 근사치를 시작점으로 하여 반복하여 근을 Polishing 함으로써, 근을 추출하는 단계를 포함하는 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
- 제 4항에 있어서, 초기값의 근사치는, 하기의 수학식에 구하는 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.[수학식]
- 제1 항에 있어서, 윈도우는, 20ms~40ms의 크기를 가진 해밍(Hamming) 윈도우인 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
- 제1 항에 있어서, 윈도우는, 20ms~40ms의 크기를 가진 카이저(Kaiser) 윈도우인 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
- 제1 항에 있어서, 윈도우는, 20ms~40ms의 크기를 가진 해닝(Hanning) 윈도우인 것을 특징으로 하는 포만트 주파수 검출방법
- 제1 항에 있어서, 윈도우는, 20ms~40ms의 크기를 가진 Blackman 윈도우인 것을 특징으로 하는 포만트 주파수 검출방법.
- 제5 항에 있어서, 0.9 대신에 0.8 ~ 1.0 사이의 값을 설정하거나, 을 그 값에서 약간 벗어난 값으로 설정하여 초기값의 근사치로 설정하는 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
- 제 1항에 있어서, z-영역의 스펙트럼에서 피크가 있는 영역에 해당되는 폴의 갯수가 2개 이상이면, 포만츠가 중첩되었다는 사실을 이용하여 극대점 근처의 특정 정해진 값을 포만트 주파수로 구하는 과정을 더 포함하는 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2003-0069175A KR100511316B1 (ko) | 2003-10-06 | 2003-10-06 | 음성신호의 포만트 주파수 검출방법 |
EP04023155A EP1530199B1 (en) | 2003-10-06 | 2004-09-29 | Formants extracting method |
AT04023155T ATE378672T1 (de) | 2003-10-06 | 2004-09-29 | Verfahren zum extrahieren von formanten |
DE602004010035T DE602004010035T2 (de) | 2003-10-06 | 2004-09-29 | Verfahren zum Extrahieren von Formanten |
US10/960,595 US8000959B2 (en) | 2003-10-06 | 2004-10-06 | Formants extracting method combining spectral peak picking and roots extraction |
CNB2004100835125A CN1331111C (zh) | 2003-10-06 | 2004-10-08 | 共振峰析取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2003-0069175A KR100511316B1 (ko) | 2003-10-06 | 2003-10-06 | 음성신호의 포만트 주파수 검출방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050033206A KR20050033206A (ko) | 2005-04-12 |
KR100511316B1 true KR100511316B1 (ko) | 2005-08-31 |
Family
ID=34386745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2003-0069175A KR100511316B1 (ko) | 2003-10-06 | 2003-10-06 | 음성신호의 포만트 주파수 검출방법 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8000959B2 (ko) |
EP (1) | EP1530199B1 (ko) |
KR (1) | KR100511316B1 (ko) |
CN (1) | CN1331111C (ko) |
AT (1) | ATE378672T1 (ko) |
DE (1) | DE602004010035T2 (ko) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8315398B2 (en) | 2007-12-21 | 2012-11-20 | Dts Llc | System for adjusting perceived loudness of audio signals |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
US8204742B2 (en) | 2009-09-14 | 2012-06-19 | Srs Labs, Inc. | System for processing an audio signal to enhance speech intelligibility |
EP2737479B1 (en) | 2011-07-29 | 2017-01-18 | Dts Llc | Adaptive voice intelligibility enhancement |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
CN104704560B (zh) * | 2012-09-04 | 2018-06-05 | 纽昂斯通讯公司 | 共振峰依赖的语音信号增强 |
KR101621778B1 (ko) * | 2014-01-24 | 2016-05-17 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
US9934793B2 (en) * | 2014-01-24 | 2018-04-03 | Foundation Of Soongsil University-Industry Cooperation | Method for determining alcohol consumption, and recording medium and terminal for carrying out same |
WO2015115677A1 (ko) * | 2014-01-28 | 2015-08-06 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
KR101621797B1 (ko) | 2014-03-28 | 2016-05-17 | 숭실대학교산학협력단 | 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 |
KR101569343B1 (ko) | 2014-03-28 | 2015-11-30 | 숭실대학교산학협력단 | 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 |
KR101621780B1 (ko) | 2014-03-28 | 2016-05-17 | 숭실대학교산학협력단 | 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 |
US11244818B2 (en) | 2018-02-19 | 2022-02-08 | Agilent Technologies, Inc. | Method for finding species peaks in mass spectrometry |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5146539A (en) * | 1984-11-30 | 1992-09-08 | Texas Instruments Incorporated | Method for utilizing formant frequencies in speech recognition |
CA1250368A (en) | 1985-05-28 | 1989-02-21 | Tetsu Taguchi | Formant extractor |
NL8603163A (nl) * | 1986-12-12 | 1988-07-01 | Philips Nv | Werkwijze en inrichting voor het afleiden van formantfrekwenties uit een gedeelte van een spraaksignaal. |
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
JP3199338B2 (ja) | 1993-10-01 | 2001-08-20 | 日本電信電話株式会社 | フォルマント抽出方法 |
KR100211965B1 (ko) | 1996-12-20 | 1999-08-02 | 정선종 | 유성음 구간에서 피치동기식 포먼트 추정방법 |
US6195632B1 (en) | 1998-11-25 | 2001-02-27 | Matsushita Electric Industrial Co., Ltd. | Extracting formant-based source-filter data for coding and synthesis employing cost function and inverse filtering |
US6587816B1 (en) | 2000-07-14 | 2003-07-01 | International Business Machines Corporation | Fast frequency-domain pitch estimation |
-
2003
- 2003-10-06 KR KR10-2003-0069175A patent/KR100511316B1/ko not_active IP Right Cessation
-
2004
- 2004-09-29 EP EP04023155A patent/EP1530199B1/en not_active Not-in-force
- 2004-09-29 DE DE602004010035T patent/DE602004010035T2/de active Active
- 2004-09-29 AT AT04023155T patent/ATE378672T1/de not_active IP Right Cessation
- 2004-10-06 US US10/960,595 patent/US8000959B2/en not_active Expired - Fee Related
- 2004-10-08 CN CNB2004100835125A patent/CN1331111C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1331111C (zh) | 2007-08-08 |
EP1530199A3 (en) | 2005-05-18 |
EP1530199A2 (en) | 2005-05-11 |
DE602004010035T2 (de) | 2008-09-18 |
US20050075864A1 (en) | 2005-04-07 |
US8000959B2 (en) | 2011-08-16 |
EP1530199B1 (en) | 2007-11-14 |
DE602004010035D1 (de) | 2007-12-27 |
ATE378672T1 (de) | 2007-11-15 |
KR20050033206A (ko) | 2005-04-12 |
CN1606062A (zh) | 2005-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shrawankar et al. | Techniques for feature extraction in speech recognition system: A comparative study | |
KR100511316B1 (ko) | 음성신호의 포만트 주파수 검출방법 | |
Mowlaee et al. | Interspeech 2014 special session: Phase importance in speech processing applications | |
JPH05346797A (ja) | 有声音判別方法 | |
WO2011026247A1 (en) | Speech enhancement techniques on the power spectrum | |
WO2017017014A1 (en) | A method and a system for decomposition of acoustic signal into sound objects, a sound object and its use | |
Nadeu et al. | Filtering the time sequences of spectral parameters for speech recognition | |
US8909539B2 (en) | Method and device for extending bandwidth of speech signal | |
Athineos et al. | LP-TRAP: Linear predictive temporal patterns | |
AU2020227065B2 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
US8942977B2 (en) | System and method for speech recognition using pitch-synchronous spectral parameters | |
WO2016137696A1 (en) | Systems and methods for speech restoration | |
CN108369803B (zh) | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 | |
Benetos et al. | Auditory spectrum-based pitched instrument onset detection | |
JP2779325B2 (ja) | ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法 | |
Eyben et al. | Acoustic features and modelling | |
CN115938346A (zh) | 音准评估方法、系统、设备及存储介质 | |
CN112270934B (zh) | 一种nvoc低速窄带声码器的语音数据处理方法 | |
CN112397087B (zh) | 共振峰包络估计、语音处理方法及装置、存储介质、终端 | |
JP2011150232A (ja) | Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム | |
Chowdhury et al. | Formant estimation from speech signal using the magnitude spectrum modified with group delay spectrum | |
CN111862931A (zh) | 一种语音生成方法及装置 | |
JP4537821B2 (ja) | オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体 | |
Radfar et al. | A novel low complexity VQ-based single channel speech separation technique | |
JP3866171B2 (ja) | 音素決定方法、その装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120727 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20130724 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20140724 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20150724 Year of fee payment: 11 |
|
LAPS | Lapse due to unpaid annual fee |