KR100511316B1 - 음성신호의 포만트 주파수 검출방법 - Google Patents

음성신호의 포만트 주파수 검출방법 Download PDF

Info

Publication number
KR100511316B1
KR100511316B1 KR10-2003-0069175A KR20030069175A KR100511316B1 KR 100511316 B1 KR100511316 B1 KR 100511316B1 KR 20030069175 A KR20030069175 A KR 20030069175A KR 100511316 B1 KR100511316 B1 KR 100511316B1
Authority
KR
South Korea
Prior art keywords
formant frequency
window
roots
spectrum
voice signal
Prior art date
Application number
KR10-2003-0069175A
Other languages
English (en)
Other versions
KR20050033206A (ko
Inventor
김찬우
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR10-2003-0069175A priority Critical patent/KR100511316B1/ko
Priority to EP04023155A priority patent/EP1530199B1/en
Priority to AT04023155T priority patent/ATE378672T1/de
Priority to DE602004010035T priority patent/DE602004010035T2/de
Priority to US10/960,595 priority patent/US8000959B2/en
Priority to CNB2004100835125A priority patent/CN1331111C/zh
Publication of KR20050033206A publication Critical patent/KR20050033206A/ko
Application granted granted Critical
Publication of KR100511316B1 publication Critical patent/KR100511316B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Testing Of Balance (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Seasonings (AREA)
  • Saccharide Compounds (AREA)
  • Fats And Perfumes (AREA)
  • Apparatuses For Generation Of Mechanical Vibrations (AREA)

Abstract

본 발명은 음성신호의 포만트 주파수 검출방법에 관한 것으로, Cauchy's Integral Formula를 이용하여, 음성신호의 선형 예측 스펙트럼에서 판명된 극대값이 중첩된 포만츠로 이루어져 있는지 검출하고, 만약 그 극대값이 중첩된 포만츠로 이루어져 있으면 근을 Polishing하는 방법으로 포만트 주파수를 검출함으로써, 많은 연산량 없이도 정교하게 포만트 주파수를 검출할 수 있도록 한 것이다. 이를 위하여 본 발명은 다수의 포만트 주파수가 포함된 음성신호에 있어서, 상기 음성신호를 필터링한 다음, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트 타임 신호를 추출하는 과정과; 상기 쇼트 타임신호에 의해 선형 예측 계수(Linear Prediction Coefficient)를 계산한 다음, 그 선형 예측 계수로 예측 오차 필터(Prediction Error Filter)를 구하는 과정과; 상기 예측 오차 필터를 이용하여 선형 예측 스펙트럼(Linear Prediction Spectrum)을 구한 다음, 그 선형 예측 스펙트럼의 극대값들로부터 포만트 주파수 후보를 추출하는 과정과; 상기 포만트 주파수 후보들에 대하여, Cauchy's Integral Formula로 z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개 이상인지를 판단하는 과정과; 상기 판단결과, z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개이상이 이면 근을 Polishing 하여 근을 추출하고, 그 추출된 근을 이용하여 포만트 주파수를 구하는 과정으로 이루어진다.

Description

음성신호의 포만트 주파수 검출방법{FORMANT FREQUENCY DETECTING METHOD OF VOICE SIGNAL}
본 발명은 음성신호의 포만트 주파수 검출방법에 관한 것으로, 특히 Cauchy's Integral Formula를 이용하여, 음성신호의 선형 예측 스펙트럼에서 판명된 극대값이 중첩된 포만츠를 가지고 있는지를 검출하고, 중첩된 포만츠를 가지고 있는 극대값에서 근을 Polishing하는 방법으로 포만트 주파수를 검출하도록 한 음성신호의 포만츠(포만트) 주파수 검출방법에 관한 것이다.
일반적으로, 음성신호에서 추출된 공진주파수(format frequency 혹은 formants: 이하 포만트 주파수 혹은 포만츠라함)는 포만츠 보코더 (formants vocoder)와 같은 음성 코딩, 포만츠를 이용한 음성 합성 (Text-to-Speech) 또는 음성 인식기에서의 특징 벡터(feature vector)등으로 유용하게 활용된다.
종래에는, 음성신호에서 포만트 주파수를 추출하는 경우, 대부분 두 개의 포만츠(formants)가 근접하게 위치한 경우에는 스펙트럼상에서 하나의 극대값으로 표시되면 사실상 두 개의 포만츠로 분해하는 것이 어려웠다.
여기서, 종래 포만츠를 검출하기 위한 다양한 기술을 『[1] L. R. Rabiner and R. W. Schafer, Digital Processing of Speech Signal, Englewood Cliff, NJ: Prentice Hall, 1978.
[2] S. S. McCandless, "an algorithm for automatic formant extraction using linear prediction spectra," IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-22, no. 2, pp. 135-141, Apr. 1974.
[3] J. R Dellar Jr., J. G Proakis., and J. H. L Hansen, Discrete-Time Processing of Speech Signals, New York: Macmillan Publishing Company, 1993
[4] R. C. Snell and F. Milinazzo, Formant location from LPC analysis data,IEEE Trans. Speech Audio Processing, vol. 1, no. 2, pp. 129-134, Apr. 1993.』와 같은 참고문헌을 참조하여 설명한다.
첫번째, 도1과 같이, 선형 예측 스펙트럼 (Linear Prediction Spectrum) 또는 켑스트럼으로 평탄화한 스펙트럼 (Cepstrally Smoothed Spectrum)에서의 극대점 (Local Maximum)을 찾아서 포만트 주파수를 구하는 방법이다.
즉, 처리할 음성 신호를 전 처리 과정(preprocessing)으로서 필터링 (filtering)을 해 주거나, 신호처리적으로 품질 향상 (enhancement) 시키거나, 또는 프리-엠퍼시스(pre-emphasis) 필터에 통과시킨다(SP1).
그 다음, 음성 신호에서 적절한 범위 (일반적으로 20 ms~40 ms)를 필요에 따른 적절한 윈도우(Hamming 윈도우, Kaiser 윈도우)를 곱함으로써 쇼트 타임(short-time) 신호를 추출해 낸다(SP2).
그 다음, 상기 쇼트 타임 신호에서 선형 예측 계수 (Linear Prediction Coefficient)를 구하여 선형 예측 스펙트럼 (Linear Prediction Spectrum)을 구하거나, 또는 켑스펙트럼으로 평탄화시킨 스텍트럼(Capstrally Smoothed Spectrum)을 구한다(SP3).
상기 선형 예측 계수 (Linear Prediction Coefficient)는, 벡터 형태로 표현하면 하기의 수학식으로 나타난다.
[수학식]
상기 수학식을 연산하여, 를 구하면 그 값이 선형 예측 계수 (Linear Prediction Coefficient)가 된다.
상기 수학식에서 로 표시한 것은 autocorrelation 함수이다.
상기 선형 예측 스펙트럼 (Linear Prediction Spectrum)은, 하기의 수학식에 의해 구한다.
[수학식]
그 다음, 상기에서 구한 스펙트럼에서 극대점 (Local Maximum)이 되는 값들을 찾아낸후(SP4), 그 극대점에 대응되는 포만트 주파수를 구한다(SP5).
이때, 후처리 과정으로 평탄화(smoothing)를 거쳐서 갑자기 발생할 수 있는 잘못된 값들을 걸러 낸다.
그러나, 상술한 종래기술은, 두 개의 포만츠가 주파수 대역에서 매우 인접하면 스펙트럼을 구하기 위해, FFT를 충분히 큰 차수(512-pt나 1024-pt)로 한다고 해도 주파수 영역상에서 분해가 안되어 중첩된 포만츠가 하나의 극대점으로 나타나는 문제점이 있다.
두번째로는, 예측 오차 필터(Prediction Error Filter)의 근, 즉 'zero'를 구하여 포만츠 주파수를 구하는 방법이다.
우선, 음성신호를 전처리 과정(low pass filtering이나 pre-emphasis filtering)등을 거친 다음, 그 음성신호에서 적절한 구간(일반적으로 20ms~40ms)을 필요에 따라 적절한 윈도우 (Hamming 윈도우, Kaiser 윈도우 등)를 승산함으로써 쇼트 타임(short-time) 신호를 얻어낸다(SP11.SP12).
그 다음, 상기 쇼트타임(short-time) 신호에서 선형 예측 계수 (Linear Prediction Coefficient)를 계산하여 예측 오차 필터를 구한다(SP13,SP14).
상기 예측 오차 필터는, 를 선형 예측 계수라고 가정하면, 하기의 수학식과 같이 주어진다.
[수학식]
그 다음, 상기 예측 오차필터(예측 오차 필터)를 수치 해석적인 방법으로 풀어서 'zero'를 구한 다음(SP15), 그 'zero'를 하기의 수학식에 적용하여 포만츠 주파수를 구한다(SP16).
[수학식]
여기서, 는 'zero'의 위상이고, 는 신호의 샘플링 레이트이다.
이때, 후처리 과정으로 평탄화(smoothing)를 거쳐서 갑자기 발생할 수 있는 잘못된 값들을 걸러 낸다.
그러나, 상술한 종래 기술은, 실제로 구해진 근(zero)들이 포만츠와 직접적으로 관련이 있는지, 또는 스펙트럼의 형태를 만드는 데만 관련이 있는지에 대한 명확한 기준을 만들 수 없는 문제점이 있고, 또한 계산량이 많으며 고정 소수점 연산 (fixed point arithmetic)을 할 경우에 정밀도가 저하되는 문제점이 있다.
세번째로는,R.C.Snell등이 제안한 방식으로, Cauchy's integral formula로 z-영역에서 영역을 나누어 'zero'의 위치를 점진적으로 찾아 가는 방식이다.
우선, 예측 오차 필터를 이용하여, 하기의 수학식으로 구현되는 Cauchy's integral formula를 이용하여 z-영역상에서의 부채꼴 영역에서 'zero'의 개수를 구한다.
[수학식]
그 다음, 상기 부채꼴 영역중 'zero'가 없는 영역은 그대로 두고 'zero'가 있는 영역은 계속 분할(bisection) 하여 'zero'가 존재하는 부채꼴 영역을 얻는데, 이러한 동작을 충분할 정밀도가 될때까지 반복하여 실행한다.
그 다음, 상기 'zero'가 존재하는 부채꼴 영역에서 'zero'의 위상을 구한후, 포만트 주파수를 구한다.
그러나, 상술한 Cauchy's integral formula로 z-영역에서 'zero'가 존재하는 영역을 반복적으로 찾는 방법은 근을 구하는 방법이므로, 실제로 구해진 'zero'가 포만츠와 직접적으로 관련이 있는지, 아니면 스펙트럼의 형태만 결정하는데에 어느 정도의 영향을 미치는지의 구별을 하지 못하는 문제점이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로, Cauchy's Integral Formula를 이용하여, 음성신호의 선형 예측 스펙트럼에서 판명된 극대값이 중첩된 포만츠를 가지고 있는지를 검출하고, 중첩된 포만츠를 가지고 있는 극대값에서 근을 Polishing하는 방법으로 포만트 주파수를 검출함으로써, 많은 연산량 없이도 정교하게 포만트 주파수를 검출할 수 있도록 한 음성신호의 포만트 주파수 검출방법을 제공함에 그 목적이 있다.
상기와 같은 목적을 달성하기 위한 본 발명은, 포만트 주파수가 포함된 음성신호에 있어서, 상기 음성신호를 필터링한 다음, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트 타임 신호를 추출하는 과정과; 상기 쇼트 타임신호에 의해 선형 예측 계수를 계산한 다음, 그 선형 예측 계수로 선형 예측 계수 오차 필터를 구하는 과정과; 상기 선형 예측 계수 오차 필터를 이용하여 선형 예측 스펙트럼을 구한 다음, 그 선형 예측 스펙트럼의 극대값들로부터 포만츠 주파수 후보를 추출하는 과정과; 상기 포만츠 주파수 후보들에 대하여, Cauchy's Integral Formula로 z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개 이상인지를 판단하는 과정과; 상기 판단결과, z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개이상이 이면 근을 Polishing 하여 근을 추출하고, 그 추출된 근을 이용하여 포만트 주파수를 구하는 과정으로 수행함을 특징으로 한다.
이하, 본 발명에 의한 음성신호의 포만트 주파수 검출방법에 대한 작용 및 효과를 첨부한 도면을 참조하여 상세히 설명한다.
도3은 본 발명 음성신호의 포만트 주파수 검출방법에 대한 동작흐름도이다.
도3에 도시한 바와같이, 본 발명은 음성신호가 입력되면 그 음성신호를 필터링한 다음, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트 타임 신호를 추출하는 과정(SP21~SP23)과; 상기 쇼트 타임신호에 의해 선형 예측 계수를 계산한 다음, 그 선형 예측 계수로 선형 예측 계수 오차 필터를 구하는 과정(SP24)과; 상기 선형 예측 계수 오차 필터를 이용하여 선형 예측 스펙트럼을 구한 다음, 그 선형 예측 스펙트럼의 극대값들로부터 포만트 주파수 후보를 추출하는 과정(SP25 ,SP26)과; 상기 포만츠가 중첩될 가능성이 있으면, 상기 포만츠 후보들에 대하여 Cauchy's Integral Formula로 z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개 이상인지를 판단하는 과정(SP27,SP28)과; 상기 판단결과, z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개이상이면 근을 Polishing 하여 근을 추출하고, 그 추출된 근을 이용하여 포만츠 주파수를 구하는 과정(SP29,SP30)으로 이루어지며, 이와같은 본 발명의 동작을 설명한다.
먼저, 음성신호가 입력되면 그 음성신호를 필터링한 다음(SP21), 그 음성신호에 적절한 윈도우를 승산하여 소정 크기를 가진 쇼트 타임신호를 추출한다 (SP22).
이때, 상기 음성신호를 필터링 시키는 대신에, 음성신호를 인핸스먼트 (enhancement)시키거나, 음성신호를 프리-엠퍼시스(pre-emphasis) 필터에 통과시킨다.
여기서, 상기 윈도우는 20ms~40ms의 크기를 가진 해밍(Hamming) 윈도우를 사용하거나, 20ms~40ms의 크기를 가진 카이저(Kaiser) 윈도우를 사용한다.
그 다음, 상기 쇼트 타임신호에 의해 선형 예측 계수를 계산한 다음, 그 선형 예측 계수로 선형 예측 계수 오차 필터를 구한다(SP24).
그 다음, 상기 선형 예측 계수 오차 필터를 이용하여 선형 예측 스펙트럼을 구한후(SP25), 그 선형 예측 스펙트럼 상의 극대값들로부터 포만트 주파수 후보를 추출한다(SP26).
즉, 상기 선형 예측 스펙트럼에서 극대값을 찾는 방식(Spectral Peak-picking)으로 스펙트럼에서 극대값을 찾는다.
그 다음, 상기 포만트 주파수가 중첩될 가능성이 있으면(SP27), 상기 포만트 주파수 후보들에 대하여 Cauchy's Integral Formula로 z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개 이상인지를 판단하는데(SP28), 즉 상기 선형 예측 스펙트럼상의 극대점이 한 개의 포만츠를 이루는 'zero'로 되어 있는지, 또는 두 개의 포만츠를 이루는 각각의 'zero'들이 결합되어서 한 개의 극대값으로 되어 있는지를 Cauchy's integral formula로 조사한다.
상기 판단결과, 도4와 같은, Z-영역의 스펙트럼에 (z-영역으로 표시를 했을 경우), 예측 오차 필터의 'zero', 즉 피크가 있는 영역의 폴의 갯수(극대점)가 하나이면 (도4의 실선으로 표시한 영역안에 하나이면)해당 포만츠 주파수를 검출한 다음(위에서 얻은 포만트 주파수를 그대로 사용하며), 새로운 음성신호에 대하여 상기 동작을 반복수행한다.
상기 도4에서, 는 스펙트럼에서 극대값에 해당되는 점의 위상을 Z-영역(z-영역)에 표시한 것이고, 는 그 값 주위로 두개의 포만츠가 결합할 수 있는 범위는 나타내는데, 상기 는 이론적으로 두개의 포만츠를 하나의 극대값으로 결합시킬 수 있을 만큼 가까운 영역에 설정한다.
한편, 상기 판단결과, z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개 이상이면 근을 Polishing 하여 근을 추출하고(SP29), 그 추출된 근을 이용하여 포만츠 주파수를 구한다(SP30).
상기 근을 Polishing하는 방법은, 상기 도4에서, 두개의 포만츠가 결합할 수 있는 영역에 들어있는 초기값의 근사치, 즉 ''를 시작점으로 하여 반복적으로 수렴하게 되는데, 이때 복소 평면상에서 비교적 작은 영역 안에 두개의 근이 존재하므로 위의 시작점으로부터 순환적인 방법을 이용하면 모든 근을 연산하는 방법을 사용하지 않고도 신속하게 'zero'값을 얻을 수 있다.
상기 근을 추출하는 다른 방법으로, Bairstow's 알고리즘을 사용할 수도 있는데, 상기 Bairstow's 알고리즘이 위의 근을 Polishing하는 방법의 일종이고 기타의 다른 근을 Polishing또는 Approximation하는 방법이 사용가능하다.
상기 포만츠 주파수(F)는, 하기의 수학식에 의해 구현한다.
[수학식]
여기서, 는 'zero'의 위상이고, 는 신호의 샘플링 레이트 이다.
다시 말해서, 본 발명은 선형 예측 스펙트럼에서 극대값을 찾는 방식 (Spectral Peak-picking)으로 스펙트럼에서 극대값을 찾은 다음, 그 스펙트럼상의 극대점이 한 개의 포만츠를 이루는 'zero'로 되어 있는지, 또는 두 개의 포만츠를 이루는 각각의 zero들이 결합되어서 한 개의 극대값으로 되어 있는지를 Cauchy's integral formula로 조사하고, 그 결과, 만약 두 개의 'zero'로 되어 있다고 판단되면 스펙트럼에서 찾은 극대값을 Roots polishing 하는 방법으로 분해해 낸다.
이때, 상기 Cauchy's integral formula를 적용할 때, 종래 'R. C. Snell'이 제안한 Cauchy's integral formula와 같이 적용 방식을 영역을 나누어 가면서 계속 반복 사용하는 것이 아니라, z-영역에서 극대값을 가지는 부분 주위에서만 한번 Cauchy's integral formula로 'zero'의 개수를 구하여,연산량을 종래보다 현저하게 줄인다.
만약, 상기 Cauchy's integral fomula를 적용한 결과, 'Zero'의 개수가 2개로 판명될 경우, 연산량이 많이 드는 방정식을 직접 푸는 방식을 취하는 것이 아니라, 'zero'를 Polishing 하는 방법을 사용하는데, 'zero'에 대한 개략적인 값을 알 수가 있으므로, 적은 연산으로 빠르게 'zero'를 구할 수 있다.
상기 본 발명의 상세한 설명에서 행해진 구체적인 실시 양태 또는 실시예는 어디까지나 본 발명의 기술 내용을 명확하게 하기 위한 것으로 이러한 구체적 실시예에 한정해서 협의로 해석해서는 안되며, 본 발명의 정신과 다음에 기재된 특허 청구의 범위내에서 여러가지 변경 실시가 가능한 것이다.
이상에서 상세히 설명한 바와같이 본 발명은, Cauchy's Integral Formula를 이용하여, 음성신호의 선형 예측 스펙트럼에서 판명된 극대값이 중첩된 포만츠를 가지고 있는지를 검출하고, 중첩된 포만츠를 가지고 있는 극대값에서 근을 Polishing하는 방법으로 포만트 주파수를 검출함으로써, 많은 연산량 없이도 정교하게 포만트 주파수를 검출하는 효과가 있다.
도1은 종래 음성신호의 포만트 주파수 검출방법에 대한 일실시예의 동작흐름도.
도2는 종래 음성신호의 포만트 주파수 검출방법에 대한 일실시예의 동작흐름도.
도3은 본 발명 음성신호의 포만트 주파수 검출방법에 대한 실시예의 동작흐름도.
도4는 도3에 있어서, 스펙트럼에서 극대값에 해당되는 점의 위상을 z-영역에 표시한 도.

Claims (11)

  1. 포만트 주파수가 포함된 음성신호에 있어서,
    상기 음성신호를 필터링한 다음, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트 타임 신호를 추출하는 과정과;
    상기 쇼트 타임신호에 의해 선형 예측 계수를 계산한 다음, 그 선형 예측 계수로 선형 예측 계수 오차 필터를 구하는 과정과;
    상기 선형 예측 계수 오차 필터를 이용하여 선형 예측 스펙트럼을 구한 다음, 그 선형 예측 스펙트럼의 극대값들로부터 포만츠 주파수 후보를 추출하는 과정과;
    상기 포만츠 주파수 후보들에 대하여, Cauchy's Integral Formula로 z-영역에서 보았을때 스펙트럼에서 피크가 있는 영역에 해당되는 폴의 갯수가 2개 이상인지를 판단하는 과정과;
    상기 판단결과, z-영역의 스펙트럼에서 피크가 있는 영역에 해당되는 폴의 갯수가 2개 이상이면 근을 Polishing 하여 근을 추출하고, 그 추출된 근을 이용하여 포만츠 주파수를 구하는 과정으로 수행함을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
  2. 제1 항에 있어서, 음성신호를 필터링한 다음, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트 타임 신호를 추출하는 과정은,
    음성신호를 인핸스먼트(enhancement)를 시키는 단계를 포함하는 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
  3. 제1 항에 있어서, 음성신호를 필터링한 다음, 그 음성신호에 적절한 윈도우를 승산하여 소정의 쇼트 타임 신호를 추출하는 과정은,
    음성신호를 프리-엠퍼시스(pre-emphasis) 필터에 통과시키는 단계를 포함하는 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
  4. 제1 항에 있어서, Z-영역의 스펙트럼에서 피크가 있는 영역의 폴의 갯수가 2개 이상이면 근을 Polishing 하여 근을 추출하고, 그 추출된 근을 이용하여 포만트 주파수를 구하는 과정은,
    두개 이상의 폴이 존재하는 영역에 들어 있는 초기값의 근사치를 시작점으로 하여 반복하여 근을 Polishing 함으로써, 근을 추출하는 단계를 포함하는 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
  5. 제 4항에 있어서, 초기값의 근사치는, 하기의 수학식에 구하는 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
    [수학식]
  6. 제1 항에 있어서, 윈도우는, 20ms~40ms의 크기를 가진 해밍(Hamming) 윈도우인 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
  7. 제1 항에 있어서, 윈도우는, 20ms~40ms의 크기를 가진 카이저(Kaiser) 윈도우인 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
  8. 제1 항에 있어서, 윈도우는, 20ms~40ms의 크기를 가진 해닝(Hanning) 윈도우인 것을 특징으로 하는 포만트 주파수 검출방법
  9. 제1 항에 있어서, 윈도우는, 20ms~40ms의 크기를 가진 Blackman 윈도우인 것을 특징으로 하는 포만트 주파수 검출방법.
  10. 제5 항에 있어서, 0.9 대신에 0.8 ~ 1.0 사이의 값을 설정하거나, 을 그 값에서 약간 벗어난 값으로 설정하여 초기값의 근사치로 설정하는 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
  11. 제 1항에 있어서, z-영역의 스펙트럼에서 피크가 있는 영역에 해당되는 폴의 갯수가 2개 이상이면, 포만츠가 중첩되었다는 사실을 이용하여 극대점 근처의 특정 정해진 값을 포만트 주파수로 구하는 과정을 더 포함하는 것을 특징으로 하는 음성신호의 포만트 주파수 검출방법.
KR10-2003-0069175A 2003-10-06 2003-10-06 음성신호의 포만트 주파수 검출방법 KR100511316B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR10-2003-0069175A KR100511316B1 (ko) 2003-10-06 2003-10-06 음성신호의 포만트 주파수 검출방법
EP04023155A EP1530199B1 (en) 2003-10-06 2004-09-29 Formants extracting method
AT04023155T ATE378672T1 (de) 2003-10-06 2004-09-29 Verfahren zum extrahieren von formanten
DE602004010035T DE602004010035T2 (de) 2003-10-06 2004-09-29 Verfahren zum Extrahieren von Formanten
US10/960,595 US8000959B2 (en) 2003-10-06 2004-10-06 Formants extracting method combining spectral peak picking and roots extraction
CNB2004100835125A CN1331111C (zh) 2003-10-06 2004-10-08 共振峰析取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2003-0069175A KR100511316B1 (ko) 2003-10-06 2003-10-06 음성신호의 포만트 주파수 검출방법

Publications (2)

Publication Number Publication Date
KR20050033206A KR20050033206A (ko) 2005-04-12
KR100511316B1 true KR100511316B1 (ko) 2005-08-31

Family

ID=34386745

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2003-0069175A KR100511316B1 (ko) 2003-10-06 2003-10-06 음성신호의 포만트 주파수 검출방법

Country Status (6)

Country Link
US (1) US8000959B2 (ko)
EP (1) EP1530199B1 (ko)
KR (1) KR100511316B1 (ko)
CN (1) CN1331111C (ko)
AT (1) ATE378672T1 (ko)
DE (1) DE602004010035T2 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8315398B2 (en) 2007-12-21 2012-11-20 Dts Llc System for adjusting perceived loudness of audio signals
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8204742B2 (en) 2009-09-14 2012-06-19 Srs Labs, Inc. System for processing an audio signal to enhance speech intelligibility
EP2737479B1 (en) 2011-07-29 2017-01-18 Dts Llc Adaptive voice intelligibility enhancement
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
CN104704560B (zh) * 2012-09-04 2018-06-05 纽昂斯通讯公司 共振峰依赖的语音信号增强
KR101621778B1 (ko) * 2014-01-24 2016-05-17 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
US9934793B2 (en) * 2014-01-24 2018-04-03 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
WO2015115677A1 (ko) * 2014-01-28 2015-08-06 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR101621797B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101569343B1 (ko) 2014-03-28 2015-11-30 숭실대학교산학협력단 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101621780B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
US11244818B2 (en) 2018-02-19 2022-02-08 Agilent Technologies, Inc. Method for finding species peaks in mass spectrometry

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5146539A (en) * 1984-11-30 1992-09-08 Texas Instruments Incorporated Method for utilizing formant frequencies in speech recognition
CA1250368A (en) 1985-05-28 1989-02-21 Tetsu Taguchi Formant extractor
NL8603163A (nl) * 1986-12-12 1988-07-01 Philips Nv Werkwijze en inrichting voor het afleiden van formantfrekwenties uit een gedeelte van een spraaksignaal.
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
JP3199338B2 (ja) 1993-10-01 2001-08-20 日本電信電話株式会社 フォルマント抽出方法
KR100211965B1 (ko) 1996-12-20 1999-08-02 정선종 유성음 구간에서 피치동기식 포먼트 추정방법
US6195632B1 (en) 1998-11-25 2001-02-27 Matsushita Electric Industrial Co., Ltd. Extracting formant-based source-filter data for coding and synthesis employing cost function and inverse filtering
US6587816B1 (en) 2000-07-14 2003-07-01 International Business Machines Corporation Fast frequency-domain pitch estimation

Also Published As

Publication number Publication date
CN1331111C (zh) 2007-08-08
EP1530199A3 (en) 2005-05-18
EP1530199A2 (en) 2005-05-11
DE602004010035T2 (de) 2008-09-18
US20050075864A1 (en) 2005-04-07
US8000959B2 (en) 2011-08-16
EP1530199B1 (en) 2007-11-14
DE602004010035D1 (de) 2007-12-27
ATE378672T1 (de) 2007-11-15
KR20050033206A (ko) 2005-04-12
CN1606062A (zh) 2005-04-13

Similar Documents

Publication Publication Date Title
Shrawankar et al. Techniques for feature extraction in speech recognition system: A comparative study
KR100511316B1 (ko) 음성신호의 포만트 주파수 검출방법
Mowlaee et al. Interspeech 2014 special session: Phase importance in speech processing applications
JPH05346797A (ja) 有声音判別方法
WO2011026247A1 (en) Speech enhancement techniques on the power spectrum
WO2017017014A1 (en) A method and a system for decomposition of acoustic signal into sound objects, a sound object and its use
Nadeu et al. Filtering the time sequences of spectral parameters for speech recognition
US8909539B2 (en) Method and device for extending bandwidth of speech signal
Athineos et al. LP-TRAP: Linear predictive temporal patterns
AU2020227065B2 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
WO2016137696A1 (en) Systems and methods for speech restoration
CN108369803B (zh) 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
Benetos et al. Auditory spectrum-based pitched instrument onset detection
JP2779325B2 (ja) ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法
Eyben et al. Acoustic features and modelling
CN115938346A (zh) 音准评估方法、系统、设备及存储介质
CN112270934B (zh) 一种nvoc低速窄带声码器的语音数据处理方法
CN112397087B (zh) 共振峰包络估计、语音处理方法及装置、存储介质、终端
JP2011150232A (ja) Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム
Chowdhury et al. Formant estimation from speech signal using the magnitude spectrum modified with group delay spectrum
CN111862931A (zh) 一种语音生成方法及装置
JP4537821B2 (ja) オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体
Radfar et al. A novel low complexity VQ-based single channel speech separation technique
JP3866171B2 (ja) 音素決定方法、その装置及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120727

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20130724

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20140724

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20150724

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee