KR100211965B1 - 유성음 구간에서 피치동기식 포먼트 추정방법 - Google Patents

유성음 구간에서 피치동기식 포먼트 추정방법 Download PDF

Info

Publication number
KR100211965B1
KR100211965B1 KR1019960068952A KR19960068952A KR100211965B1 KR 100211965 B1 KR100211965 B1 KR 100211965B1 KR 1019960068952 A KR1019960068952 A KR 1019960068952A KR 19960068952 A KR19960068952 A KR 19960068952A KR 100211965 B1 KR100211965 B1 KR 100211965B1
Authority
KR
South Korea
Prior art keywords
pitch
formant
signal
analysis
section
Prior art date
Application number
KR1019960068952A
Other languages
English (en)
Other versions
KR19980050173A (ko
Inventor
강동규
한민수
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR1019960068952A priority Critical patent/KR100211965B1/ko
Publication of KR19980050173A publication Critical patent/KR19980050173A/ko
Application granted granted Critical
Publication of KR100211965B1 publication Critical patent/KR100211965B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

본 발명은 유성음 구간에서 피치동기식 포먼트(formant) 추정방법에 관한 것이다. 그 목적은 선형예측(Linear Prediction) 기법으로 음성신호의 유성음구간에서 피치(pitch) 길이에 관계없이 음원에 의한 영향을 최소화하면서 정밀한 포먼트 정보를 추출하는 데에 있다.
그 특징은 에포크(epoch)를 참조하여 분석구간의 길이를 결정하는 단계와, 선택된 분석구간 내에서 각각의 성문열림 구간 중 에포크로부터 해당 피치의 20% 내외의 구간을 '0'으로 대치하고 선형예측(공분산 혹은 자기 상관계수방법 등) 분석을 수생하는 단계와, 산출된 선형예측계수를 이용하여 '0'으로 대치된 각각의 성문열림 구간을 선형 예측된 값으로 음성을 합성하여 대치함으로써 성문파(음원)의 영향이 줄어든 임펄스 응답신호에 가까운 신호로 변환하고 다시 선형예측 계수를 산출하는 단계와, 선형예측 분석단계에서 산출된 선형예측 계수를 이용하여 성문열림 구간을 피치의 30% 내외까지 확장하여 성문파의 영향을 더욱 억제하여 보다 임펄스 응답신호에 가까운 신호로 변환한 다음 최종적인 선형예측 분석을 수행하여 포먼트 정보를 추출하는 단계 및 전체 음성신호에 대해 상기 단계들을 모두 수행하여 얻은 포먼트 궤적에 대하여 피티 주기별로 포먼트의 변화치를 산출하여 그 값이 200Hz를 초과할 경우에 에러발생 여부를 확인하고 궤적의 밀림현상을 보정하여 최종적인 포먼트 궤적을 구하는 단계로 이루어지는 데에 있다.

Description

유성음 구간에서 피치동기식 포먼트 추정방법
본 발명은 유성음 구간에서 피치 동기식 포먼트 추정방법에 관한 것이다.
일반적으로, 피치동기식 분석방법은 크게 나누어 퓨리에 변환(Fourier Transform, FT)에 의한 방법과 선형예측(Linear Prediction, LP)에 의한 방법으로 연구되어 왔다.
두 방법은 모두 정밀한 주기별 피치정보를 필요로 하며 LP 방법의 경우에는 음원에 의한 영향을 줄이기 위해 성문열림시점(glottal opening instant)에 대한 정보가 추가적으로 필요하다.
유성음의 단시간 스펙트럼(short-time spectrum) 분석에서 창함수의 종류 및 길이와 적용위치에 대한 문제를 해결하기위해 메단(Y.Medan)과 예어(Eyal Yair)는 유성음의 경우에 분석 구간을 한 피치구간으로 하고 방형 참함수(rectangular window)를 적용하여 FT 방법으로 스펙트럼을 구함으로써 실제에 가까운 분석결과를 얻을 수 있는 방법을 제안하였다.
즉, 방형 창함수의 길이 N에 대한 스펙트럼은 2p/N 라디안마다 '0'이 나타나고 피차주기 T에 대해 N=T가 되도록 창함수를 적용하면 두 스펙트럼이 컨벌루션(convolution)될 때에 창함수 스펙트럼의 사이드 로우브(side lobe)에 의해서는 영향받지 않고 메인 로우(main lobe)의 피크에 의한 값만 나타나므로 스펙트럼 누설(spcetrum leakage) 현상에 의한 영향을 받지 않는다.
피치 동기식 FT에서 산출된 주파수 값들의 수는 Fs/F0개가 존재하므로 주파수 영역에서의 표본화 율(sampling rate)은 피치주기에 의해 결정된다.
Fs/F0가 정수배로 되도록 분산구간 N을 줄일 경우에 분석 경계점에서 불연속을 초래하여 스펙트럼은 왜곡되므로 보다 정밀한 분석 결과를 얻기 위해서는 Fs/F0가 정수가 되도록 표본화 율을 피치에 동기시켜야 한다.
이 방법은 FT의 분해능이 입력 데이터의 길이에 의해 결정되므로 짧은 피치의 경우에서는 정밀한 분석결과를 기대하기가 어렵다.
여기원을 임펄스나 백색잡음으로 가정하고 있는 LP 방법은 음원이 임펄스가 아닌 성문파가 여기되는 유성음의 경우 음원에 의한 영향이 크게 나타난다.
유성음의 음원에 의한 영향을 받지 않고 분석할 수 있는 방법으로서 한 피치구간 내에서 음원의 영향이 없는 성문닫힘 구간에 대해서만 분석하려는 많은 연구가 진행되었으나 정말힌 성문닫힘 구간 검출이 선행되어야 한다는 어려움이 있다.
크리쉬나무르티(Krishnamurthy)와 칠더스(Childers)는 음성 신호와 동시에 채취된 EGG 신호에서 정확한 성문닫힘 구간을 결정하여 유성음을 분석할 수 있는 2채널 음석 분석기법을 개벌하여 합성음의 음질개선에 많은 기여를 하였다.
페네만(Veeneman)과 비멘트(Bement)는 EGG 신호에서 구한 성문닫힘 구간 정보를 이용하여 닫힘구간 만을 분석하고 이에 따른 역 필터링으로 유성음의 음원을 추출할 수 있는 기법을 발표하였다.
이 두가지 방법은 EGG 신호를 얻기 위한 보조기구가 필요하므로 일반적인 경우에 이용하기 어렵기 때문에 음성신호에서 직접 성문닫힘시점(Glottal Closure Instant, GCI)를 추출할 수 있는 방법들이 연구되었다.
GCI 또는 에포크(epoch)는 성대가 급격히 닫히는 시점으로 성도는 이 순간에 최대의 에너지로 여기되며 그 후에는 아무런 입력을 받지 않고 자연스런 감쇠진동을 하게 된다.
따라서 입력이 사라진 이후의 음성신호는 영 입력(zero-input) 응답으로 간주될 수 있으므로 이 때의 성도는 전극형 필터(all-pole filter)로 모델링될 수 있다.
음원신호를 g(n), 성도함수를 h(n), 발성된 음성신호를 v(n)일 할 때 비음을 제외한 유성음의 주파수 응답 V(z)는 수학식 1과 같이 표현할 수 있다.
여기서, aK는 LP 계수이며 성문닫힘 구간에서 음원특성인 수학식 1의 G(z)는 상수 값으로서 스펙트럼 특성에 영향을 주지 않으므로 이 구간의 신호는 영 입력 응답으로 모델링될 수 있을 뿐만 아니라 이 구간의 신호는 한 피치구간 내에서 대부분의 에너지 및 포먼트 정보를 포함하고 있으므로 입력을 임펄스(impulse)로 가정하고 있는 LP 분석기법으로 정확한 분석이 가능하다.
그러나 피치구간이 짧은 경우에는 성문닫힘 구간이 극히 짧고 불명확해지므로 안정된 분석결과를 얻기 어렵다는 문제점이 있었다.
미요시(Y.Miyoshi) 등은 LP 기법으로 짧은 음성신호를 분석하기 위해 일정구간의 유성음 신호 중에서 음원의 영향이 적은 구간만을 선택하여 분석할 수 있는 표본선택 선형예측(Sample-Selective Linear Prediction, SSLP) 방법을 제안하였다.
이 방법은 비교적 일반적인 LP 방법보다 우수한 성능을 보이지만 유성음 신호를 선별적으로 선택함으로써 신호의 불연속을 초래하여 정확한 분석결과를 기대하기 어렵다는 문제점이 있었다.
상기 문제점을 해결하기 위해 안출된 본 발명은 선형예측(LP) 기법으로 음성신호의 유성음 구간에서 피치 길이 및 음원에 의한 영향을 최소화하면서 정밀한 포먼트 정보를 추출하는 데에 그 목적이 있다.
또한, 본 발명은 음성신호에서 직접 추출한 에포크를 참조하여 긴 피치에서는 성문닫힘 구간 분석기법을 수행하고 짧은 피치의 경우에는 성문열림 구간 개선기법(Glotal Open Phase Enhancement)으로 음원의 영향을 최소화시킨 다음 안정된 분석을 위해 충분한 분석구간을 선택하여 피치 길이에 의한 영향을 감소시킴으로써 보다 정밀한 포먼트 정보를 추출하는 데에 또 다른 목적이 있다.
상기 목적을 달성하기 위한 본 발명의 특징은 에포크를 참조하여 분석구간의 길이를 결정하는 단계와, 선택된 분석구간 내에서 각각의 성문열림 구간 중 에포크로부터 해당 피치의 15∼25%의 구간을 '0'으로 대치하고 선형예측 분석을 수행하는 단계와, 상기 결정단계에서 산출된 선형예측 계수를 이용하여 '0'으로 삽입된 각각의 성문열림 구간을 선형예측된 값으로 대치하여 성문파의 영향을 줄이면서 신호의 연속성을 유지시키고 다시 선형예측 계수를 산출하는 단계와, 상기 선형예측 분석 단계에서 산출된 선형예측 계수를 이용하여 성문열림 구간을 피치의 25∼35%까지 확장하여 성문파의 영향을 제거하고 최종적인 선형예측 분석을 수행하여 포먼트 정보를 추출하는 단계 및 전체 음성신호에 대해 상기 단계들을 모두 수행하여 얻은 포먼트 궤적에 대하여 피치 주기별로 포먼트의 변화치를 산출하여 그 값이 200Hz를 초과할 경우에 에러발생 여부를 확인하고 궤적의 밀림현상을 보정하여 최종적인 포먼트 궤적을 구하는 단계로 이루어지는 데에 있다.
제1도는 유성음에서의 성문닫힘 구간 및 열림구간을 도시한 파형도.
제2(a)도는 실제 음성신호의 파형도.
제2(b)도는 실제 음성신호에 대하여 성문열림 구간 개선에 의해 성문파가 제거된 신호의 파형도.
제3(a)도는 음성신호의 파형도.
제3(b)도는 음성신호에서 추정된 포먼트의 궤적도.
제3(c)도는 음성신호에서 추정된 포먼트의 궤적으로부터 피치 주기별로 산출한 포먼트의 변화도.
제4도는 본 발명이 적용될 하드웨어의 구성도.
제5도는 본 발명에 따른 유성음 구간에서 피치동기식 포먼트 추정방법의 흐름도.
제6(a)도는 본 발명에 의한 남자 음성신호 그리고 우리를 간절히 부르고 있다 에 대한 처리결과의 음성신호의 파형도.
제6(b)도는 본 발명에 의한 남자 음성신호 그리고 우리를 간절히 부르고 있다 에 대한 스펙트로그램(spectrogram).
제6(c)도는 본 발명에 의한 남자 음성신호 그리고 우리를 간절히 부르고 있다 에 대한 피치 동기식 포먼트 궤적도.
제6(d)도는 본 발명에 의한 남자 음성신호 그리고 우리를 간절히 부르고 있다 에 대한 프레임 동기식 포먼트 궤적도.
제7(a)도는 본 발명에 의한 여자 음성신호 인간은 어느 한쪽 뇌만 가지고는 에 대한 처리결과의 음성신호의 파형도.
제7(b)도는 본 발명에 의한 여자 음성신호 인간은 어느 한쪽 뇌만 가지고는 에 대한 스페트로그램.
제7(c)도는 본 발명에 의한 여자 음성신호 인간은 어느 한쪽 뇌만 가지고는 에 대한 피치 동기식 포먼트의 궤적도.
제7(d)도는 본 발명에 의한 여자 음성신호 인간은 어느 한쪽 뇌만 가지고는 에 대한 프레임 동기식 포먼트 궤적도.
* 도면의 주요부분에 대한 부호의 설명
1 : 마이크 2 : 아날로그/디지탈(A/D) 변환기
3 : 계산능력을 갖춘 특정 하드웨어나 범용 컴퓨터
본 발명은 크게 5단계로 나눌 수 있다.
제 1 단계는 먼저 에포크를 참조하여 분석구간의 길이를 결정한다.
15msec 내에서 여러개의 피치가 존재하면 마지막으로 반복되는 피치구간은 그 피치의 50%만을 선택하고 만일 한 피치구간이 15msec를 초과할 경우에는 해당 피치의 70%만을 선택한 다음 프레엠퍼시스(pre-emphasis)를 수행한다.
2 단계에서는 선택된 분석구간 내에서 각각의 성문열림 구간 중 에포크로부터 해당 피치의 15∼25%를 '0'으로 대치한 다음 LP 분석을 수행한다.
제 3 단계에서는 제 2 단계에서 산출된 LP 계수를 이용하여 '0'으로 삽입된 각각의 성문열림 구간을 선형 예측된 값으로 대치하여 성문파의 영향을 줄이면서 신호의 연속성을 유지시킨 후 다시 LP 계수를 산출한다.
제 4 단계에서는 제 3 단계에서 산출된 LP 계수를 이용하여 성문열림 구간을 에포크로부터 해당 피치의 25∼35%까지 확장하여 제 3 단계를 반복함으로써 유성음 신호를 임펄스 응답 신호에 가까운 신호로 변환한 다음 최종적인 LP 계수를 구하고 근해석을 통해 포먼트 정보를 추출한다.
제 5 단계에서는 전체 음성신호에 대해 제 1 단계 ∼ 제 4 단계를 모두 수행하여 얻은 포먼트 궤적에 대하여 피치주기별로 포먼트의 변화치를 산출하여 그 값이 200Hz를 초과할 경우에 에러발생 여부를 확인하여 궤적의 밀림현상을 보정하여 최종적인 포먼트 궤적을 구한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예들 중의 하나를 상세히 설명한다.
실제 음성신호와 동시에 녹음된 EGG 신호를 관찰하면 성문열림 구간은 남자의 경우 보통 피치의 40 ∼ 60% 정도임을 알 수 있으므로 음성신호에서 에포크를 결정할 수 있다면 에포크로부터 피치구간의 50%를 근사적인 성문열림 구간으로 생각할 수 있다.
제1도는 음성신호의유성음에서 성문열림 구간과 성문닫힘 구간을 근사적으로 분석한 것으로 성문닫힘 구간에서 수학식 1의 음성신호 V(z)는 G(z)에 의한 영향이 거의 없고 열림구간에서는 많은 영향이 나타난다.
피치가 충분히 긴 경우에는 성문닫힘 구간에 대해서만 분석하여도 정확하고 안정된 분석결과를 얻을 수 있지만 피치가 짧은 경우에는 성문닫힘 구간만으로는 분석에 필요한 충분한 데이터를 갖지 못하므로 부정확한 분석결과를 얻게 된다.
그러나 A(z)를 알고 있으면 G(z)를 역필터링에 의해 분리할 수 있고, G(z)가 분리된 신호는 여기신호가 임펄스로 근사되므로 LP 분석기법으로 음원에 의한 영향을 받지 않으면서 분석에 필요한 충분한 음성구간을 임의로 선택할 수 있다.
V(n)을 음성신호, a(k)을 선형 예측 계수라 하면 성문파가 제거된 신호 s(n)은 다음의 수학식 2 와 같이 나타낼 수 있다.
여기서, p는 LP 분석 차수이며 GCI(m), GCI(m+1)은 제1도에서와 같은 성문닫힘 시점이고 GOI(m)은 m번째 성문열림 시점이다.
수학식 2를 수행하기 위해 1단계로서 우선 성문닫힘 시점 검출이 선행되어야 하므로 본 발명에서는 영교차점별 면적 차분 피크(peak)에 의해 프레임별 피치와 성문딛힘 시점인 에포크를 검출한 후 에포크를 참조하여 분석 구간의 길이를 결정한다.
15msec 이내에 여러개의 피치가 존재하면 마지막 피치는 해당피치의 50%를 취하고 한 피치가 15msec를 초과하면 해당피치의 70%를 취하여 분석구간으로 결정한다.
2 단계에서는 일반적인 LP 방법보다 우수한 성능을 나타내는 표본선택 선형 예측(SSLP) 방법과 같이 음원의 영향이 많은 GOI(m) ∼ GCI(m+1) 구간을 실제의 성문 열림 구간으로 하면 짧은 피치에서는 분석의 안정성이 저하되므로 피치의 15 ∼ 25%로 한다.
3 단계에서는 2 단계에서 산출된 a(k)를 이용하여 수학식 2에 따라 음성신호로부터 근사적으로 성문파를 제거하여 제 2 단계에서 야기된 신호의 불연속이 줄어든 신호를 산출한 다음 이 신호에 대하여 다시 a(k)를 산출한다.
제 4 단계에서는 제 3 단계에서 산출된 a(k)를 이용하여 다음의 수학식 3의 GOI(m) ∼ GCI(m+1)를 피치의 25∼35%까지 확장하여 수학식 3을 수행하여 유성음 신호를 임펄스 응답 신호에 유사한 신호로 변환한 다음 최종적인 a(k)를 산출하고 근해석을 통해 포먼트 및 대역폭 정보를 추출한다.
제2도는 실제의 음성신호에 대하여 성문열림 구간 개선 방법에 의해 얻은 신호로서 성문열림 구간에서 성문파가 제거된 것을 알 수 있다.
표 1은 제 1 단계의 SSLP 방법과 제 2 단계 ∼ 제 3 단계의 성문열림 구간 개선 방법에 의한 분석의 개선도를 알아보기 위해 4msc 정도의 짧은 피치를 나타내는 합성음 아에 대한 분석결과이다.
성문열림 구간 개선에 의한 방법은 피치가 짧은 경우 좋은 효과를 나타내고 피치가 충분히 긴 경우에는 성문닫힘 구간 분석 기법이 정밀한 분석결과를 얻을 수 있으므로 피치의 길이에 따라 두 가지 방법을 선별적으로 적용하면 보다 정확하면서도 임의의 피치를 나타내는 음성신호에 모두 적용할 수 있다.
분석 구간의 길이는 세밀한 포먼트의 변화를 추적하기 위해서 약 15msec 내외로 하고 마지막으로 반복되는 피치 구간을 성문파의 영향이 적은 성문닫힘 구간(피치의 약 50%)만을 선택하여 가능한 한 성문파의 영향을 줄일 수 있도록 한다.
만일 한 피치 구간이 15msec를 초과하면 분석의 안정성을 고려하여 피치구간의 약 70%만을 선택하여 분석하면 긴 피치에서는 성문닫힘 구간분석이 이루어지고 짧은 피치에서는 성문열림 구간 개선 방법에 의한 분석이 수행된다.
실험결과에 의하면 대체적으로 여성화자와 같은 경우에는 분석구간 내에 2.5∼5.5번의 피치가 반복되었고 남성화자의 경우 0.7∼2.5번의 피치가 반복되었다.
제3도는 실제 음성신호로부터 포먼트 궤적을 산출하여 피치 단위별로 포먼트의 변화치를 나타낸 것으로서 포먼트의 궤적은 불연속점이나 추정에러가 있을 수 있으므로 이들에 대한 후 처리가 필요하다.
일반적으로 궤적이 하나인 피치 궤적(pitch contour)에 대한 후 처리는 비선형 스무딩(nonlinear smoothing)을 이용하여 좋은 결과를 얻을 수 있는 것으로 알려져 있으나 포먼트의 경우에는 궤적의 수가 3∼5개 정도이므로 비선형 스무딩만으로는 좋은 결과를 기대하기 어렵다.
포먼트 궤적의 추적 시에 낮은 포먼트를 추정하지 못하거나 그 이하의 값으로 추정하게 되면 그 포먼트 이상의 모든 궤적에 영향을 주게 되므로 스무딩을 수행하기 전에 먼저 추정 에러에 의한 포먼트 궤적의 밀림(shift) 현상이 발생하였는지를 검사하여 궤적을 교정할 필요가 있다.
음성신호는 조음구조에 따른 고유의 포먼트 구조를 나타내고 조음구조의 변화에 따라 포먼트가 변화한다.
그러므로 피치 주기별 포먼트의 변화는 조음기관의 물리적인 한계에 의해 변화의 한계치를 가질 수 있으나 개인성이나 피치의 길이에 따라 달라질 수 있다.
피치 주기별 포먼트 변화를 관찰하기 위해 피치 단위별 포먼트를 추출하고 추출된 포먼트에 대하여 피치 단위별로 1차 도함수를 구하면 피치 주기별 포먼트의 변화를 알 수 있다.
제3도에서 알 수 있듯이 일반적으로 포먼트는 주파수에 관계없이 피치 주기별로 약 200Hz 이하의 변화를 보이고 있으며 200Hz 이상의 변화를 나타내는 경우에는 에러발생 가능성이 큰 부분임을 알 수 있다.
따라서, 피치 주기별 포먼트 변화가 200Hz를 초과할 경우에는 포먼트 궤적이 밀렸는지를 검사하고 그 결과에 따라 궤적을 수정할 수 있다.
이 과정을 제 1 포먼트 궤적에서부터 차례로 적용하면 포먼트 값에 손상을 주지 않으면서 일차적인 에러 보정을 한 다음 이차적으로 비선형 스무딩 처리를 한다.
제4도는 본 발명이 적용되는 H/W 구성도이다.
음성신호의 음압변화는 마이크(1)를 통해 아날로그 전기신호로 변환되고 아날로그 음성신호는 A/D 변환기(2)에 의해 디지탈 음성신호로 변환된다.
디지탈 음성신호는 CPU, 메모리 등을 갖춘, 즉 계산 능력을 갖춘 특정 하드웨어(H/W) 범용 컴퓨터(3) 등에 입력되어 본 발명에 따라 처리 과정을 수행한다.
제5도는 본 발명에 따른 음성신호의 유성음 구간에서 피치동기식 포먼트 추정 방법의 흐름도를 나타낸다.
피치는 유성음 신호에서만 존재하므로 본 발명은 유/무성음 구간의 결정과 에포크 검출이 끝난 후에 적용된다.
제5도를 참조하면서 본 발명을 보다 구체적으로 살펴 보면, 다음과 같다.
먼저 분석구간의 길이를 결정하기 위하여 15 msec 내에 여러개의 피치가 존재하면 마지막 피치구간을 음원의 영향이 적은 구간인 GCI 이후로부터 해당 피치의 50% 구간만을 선택하여 그 길이가 15 msec 에 가장 근접하도록 한다(600).
만일 한 피치가 15 msec를 초과하면 성문닫힘 구간으로서 그 피치길이의 70%만을 선택하고(601) 선택된 음성신호에 대해 프리엠퍼시스(약0.0)를 수행(602)하여 음원의 영향을 억제한다.
분석구간 내에서 여러개의 피치가 반복될 경우에는 성문열림 구간 개선을 위해 (604)를 수행하고 한번 반복될 경우에는 성문닫힘 구간 분석이 수행되어 (604)-(608) 과정이 아무런 영향을 주지 못하므로 계산시간의 단축을 위해 (609)과정으로 전환한다(603).
성문열림 구간 개선의 경우에서 각 성문열림 구간 중에서 에포크로부터 헤딩 피치 길이의 15 ∼ 25% 를 '0'으로 대치하여 음원의 영향을 1차적으로 제거한 다음 (604) LP 분석을 수행한다(605).
(605)에서 산출된 LP 계수를 이용하여 분석 구간 내에 '0'으로 삽입된 구간에 대해 수학식 2에 의해 선형예측된 값으로 대치하여 신호의 연속성을 유지시킨 다음(606) 다시 LP 분석을 수행한다(607).
(607)에서 산출된 LP 계수를 이용하여 분석 구간 내의 각 성문열림 구간 중에서 에포크로부터 해당 피치 길이의 25∼35% 구간을 수학식 3에 의해 선형예측된 값으로 대치시킨 다음 (608) 최종적으로 LP 분석을 수행한 다음 근해석을 통해 포먼트와 대역폭 정보를 산출한다(609).
(600)-(609) 과정을 피치 단위별로 전체 음성신호에 대하여 수행하여(610) 포먼트 궤적을 구한 다음 피치 주기별로 포먼트의 1차 도함수를 구하여 포먼트의 변화도를 구한다(612).
포먼트의 변화도에서 변화치가 200Hz를 초과하면 에러발생 가능성이 높으므로 궤적의 밀림현상을 검사하여 보정한(613) 다음 비선형 스무딩 방법으로 에러를 보상하여 최종적이 포먼트 궤적을 산출한다(614).
제6도와 제7도는 남성화자 및 여성화자가 각각 발생한 음성신호에 대해 본 발명을 이용하여 산출한 포먼트 궤적과 비교 평가하기 위해 음성신호의 스펙트로프로그램과 일반적인 프레임 동기식 방법에 의한 결과를 함께 나타내었다.
상기와 같은 과정으로 이루어진 본 발명은 다음과 같은 효과를 가지고 있다.
첫째, 본 발명은 SSLP 기법에서 발생하는 신호의 불연속성을 성문열림 구간 개선에 의해 제거함으로써 안정성 및 정밀도를 개선할 수 있다.
둘째, 본 발명은 긴 피치의 경우에는 성문닫힘 구간 분석을 수행하고 짧은 피치의 경우에는 성문열림 구간 개선 기법으로 분석함으로써 피치 길이 및 음원의 영향을 최소화하여 유성음의 정밀한 포먼트 정보를 추출할 수 있다.
셋째, 유성음을 안정되고 정밀하게 분석함과 동시에 성문파에 대한 정보를 얻을 수 있기 때문에 음원 추출이 가능한 장점을 가지고 있다.
넷째, 피치 단위별 포먼트 변화치를 이용하여 포먼트 궤적의 이동 현상을 검사하여 후 처리를 수행함으로써 보다 정확한 포먼트 궤적의 추적이 가능하다.
제안된 방법은 15msec 이내에 피치가 반복되는 회수에 의해 피치의 0.7∼5.5배 길이를 분석하므로 긴 피치에 대해서는 성문닫힘 구간 분석이 이루어지고 짧은 피치의 경우에는 성문열림 구간 개선에 의한 방법으로 분석되므로 피치 길이 및 성문파에 의한 영향을 최소화하여 정밀한 분석할 수 있고 부수적으로 성문파에 대한 정보를 얻을 수 있다.

Claims (2)

  1. 에포크를 참조하여 분석구간의 길이를 결정하는 단계; 선택된 분석구간 내에서 각각의 성문열림 구간 중 에포크로부터 해당 피치의 15 ∼ 25%의 구간을 '0'으로 대치하고 선형예측 분석을 수행하는 단계; 상기 결정단계에서 산출된 선형예측 계수를 이용하여 '0'으로 삽입된 각각의 성문열림 구간을 선형 예측된 값으로 대치하여 성문파의 영향을 줄이면서 신호의 연속성을 유지시키고 다시 선형예측 계수를 산출하는 단계; 상기 선형예측 분석단계에서 산출된 선형예측 계수를 이용하여 성문열림 구간을 피치의 25∼35%까지 확장하여 성문파의 영향을 제거하고 최종적인 선형예측 분석을 수행하여 포먼트 정보를 추출하는 단계; 및 전체 음성신호에 대해 상기 단계들을 모두 수행하여 얻은 포먼트 궤적에 대하여 피치 주기별로 포먼트의 변화치를 산출하여 그 값이 200Hz를 초과할 경우에 에러발생 여부를 확인하고 궤적의 밀림현상을 보정하여 최종적인 포먼트 궤적을 구하는 단계로 이루어지는 것을 특징으로 하는 유성음 구간에서 피치동기식 포먼트 추정방법.
  2. 제1항에 있어서, 상기 결정단계가, 성문파의 영향이 큰 부분인 성문열림 구간의 신호를 전 단계에서 산출된 음성신호의 스펙트럼 파라미터를 이용하여 합성된 음성으로 대치하여 유성음 신호를 보다 정밀하게 분석할 수 있는 임펄스 응답 신호에 가깝게 변환한 다음 스펙트럼 분석을 수행하는 것을 특징으로 하는 유성음 구간에서 피치동기식 포먼트 추정방법.
KR1019960068952A 1996-12-20 1996-12-20 유성음 구간에서 피치동기식 포먼트 추정방법 KR100211965B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960068952A KR100211965B1 (ko) 1996-12-20 1996-12-20 유성음 구간에서 피치동기식 포먼트 추정방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960068952A KR100211965B1 (ko) 1996-12-20 1996-12-20 유성음 구간에서 피치동기식 포먼트 추정방법

Publications (2)

Publication Number Publication Date
KR19980050173A KR19980050173A (ko) 1998-09-15
KR100211965B1 true KR100211965B1 (ko) 1999-08-02

Family

ID=19489718

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960068952A KR100211965B1 (ko) 1996-12-20 1996-12-20 유성음 구간에서 피치동기식 포먼트 추정방법

Country Status (1)

Country Link
KR (1) KR100211965B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8000959B2 (en) 2003-10-06 2011-08-16 Lg Electronics Inc. Formants extracting method combining spectral peak picking and roots extraction

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8000959B2 (en) 2003-10-06 2011-08-16 Lg Electronics Inc. Formants extracting method combining spectral peak picking and roots extraction

Also Published As

Publication number Publication date
KR19980050173A (ko) 1998-09-15

Similar Documents

Publication Publication Date Title
Yegnanarayana et al. Extraction of vocal-tract system characteristics from speech signals
Murty et al. Epoch extraction from speech signals
Kulmer et al. Phase estimation in single channel speech enhancement using phase decomposition
Akande et al. Estimation of the vocal tract transfer function with application to glottal wave analysis
EP1850328A1 (en) Enhancement and extraction of formants of voice signals
Zhou et al. Classification of speech under stress based on features derived from the nonlinear Teager energy operator
Ealey et al. Harmonic tunnelling: tracking non-stationary noises during speech.
WO2007026436A1 (ja) ボーカル・フライ検出装置
Kadiri et al. Determination of glottal closure instants from clean and telephone quality speech signals using single frequency filtering
Kadiri A quantitative comparison of epoch extraction algorithms for telephone speech
Zhao et al. A processing method for pitch smoothing based on autocorrelation and cepstral F0 detection approaches
Yadav et al. Epoch detection from emotional speech signal using zero time windowing
KR100211965B1 (ko) 유성음 구간에서 피치동기식 포먼트 추정방법
Kodukula Significance of excitation source information for speech analysis
Liu et al. Pitch-synchronous linear prediction analysis of high-pitched speech using weighted short-time energy function
Ding et al. Determining polarity of speech signals based on gradient of spurious glottal waveforms
Hasan et al. An approach to voice conversion using feature statistical mapping
Kotnik et al. Noise robust F0 determination and epoch-marking algorithms
KR100194953B1 (ko) 유성음 구간에서 프레임별 피치 검출 방법
Yegnanarayana et al. Processing linear prediction residual for speech enhancement.
Dasgupta et al. Detection of Glottal Excitation Epochs in Speech Signal Using Hilbert Envelope.
Ramesh et al. Glottal opening instants detection using zero frequency resonator
Wood et al. Excitation synchronous formant analysis
Shah et al. A novel filtering-based F 0 estimation algorithm with an application to voice conversion
Yadav Detection of vowel transition regions from Hindi language

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080428

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee