KR100289317B1 - 음성신호의 피치 검출장치 및 그 방법 - Google Patents

음성신호의 피치 검출장치 및 그 방법 Download PDF

Info

Publication number
KR100289317B1
KR100289317B1 KR1019960054321A KR19960054321A KR100289317B1 KR 100289317 B1 KR100289317 B1 KR 100289317B1 KR 1019960054321 A KR1019960054321 A KR 1019960054321A KR 19960054321 A KR19960054321 A KR 19960054321A KR 100289317 B1 KR100289317 B1 KR 100289317B1
Authority
KR
South Korea
Prior art keywords
sample
peak
pitch
bone
voice signal
Prior art date
Application number
KR1019960054321A
Other languages
English (en)
Other versions
KR19980035871A (ko
Inventor
배성근
Original Assignee
박종섭
현대전자산업주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 박종섭, 현대전자산업주식회사 filed Critical 박종섭
Priority to KR1019960054321A priority Critical patent/KR100289317B1/ko
Publication of KR19980035871A publication Critical patent/KR19980035871A/ko
Application granted granted Critical
Publication of KR100289317B1 publication Critical patent/KR100289317B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

본 발명은 디지털 통신 시스템의 음성신호 처리에 있어서, 상관관계에 따른 포만트 영향을 제거한 국부 봉우리와 골을 이용하여 음성신호의 피치를 검출하는 음성신호의 피치 검출장치 및 그 방법에 관한 것으로서, 입력되는 디지털 음성신호의 봉우리와 골을 검출하는 제1과정과, 제1과정에서 검출한 봉우리와 골중 상관관계가 최저인 국부 봉우리와 골만을 남기고 나머지 봉우리와 골을 데시메이션하는 제2과정과, 상기 제2과정에서 선택된 국부 봉우리와 골을 상관관계에 따른 새로운 샘플을 상기 극부 봉우리와 골마다 삽입하는 제3과정과, 상기 제3과정에서 삽입된 샘플과 제2과정에서 선택된 봉우리와 골의 인터폴레이션된 신호를 다시 한번 데시메이션하여 피치를 검출하는 제4과정으로 이루어져, 계산량이 적고 구조가 간단하여 실시간 처리가 용이함은 물론 분해력이 우수한 장점이 있다.

Description

음성신호의 피치 검출장치 및 그 방법
제1도는 본 발명에 의한 음성신호의 피치 검출장치의 블록 구성도.
제2(a)도, 제2(b)도는 본 발명에 의한 봉우리와 골의 검출상태를 보여주는 도면.
제3(a)도, 제3(b)도는 본 발명에 의한 일부 봉우리와 골의 데시메이션된 상태를 보여주는 도면.
제4(a)도, 제4(b)도는 본 발명에 의한 봉우리와 골마다 샘플을 삽입상태를 보여주는 도면.
* 도면의 주요부분의 대한 부호의 설명
10 : 디지털변환부 20 : 저역 통과 필터부
30 : 봉우리/골 검출부 40 : 샘플 삽입부
50 : 피치 검출부
본 발명은 디지털 통신 시스템의 음성신호 처리에 있어서, 상관관계에 따른 포만트 영향을 제거한 국부 봉우리와 골을 이용하여 음성신호의 피치를 검출함으로써 구조가 간단하고 계산량이 적어 실시간 처리가 용이함은 물론 분해력이 우수한 음성신호의 피치 검출장치 및 그 방법에 관한 것이다.
일반적으로 음성인식, 합성 및 분석과 같은 디지털 음성신호 처리기술에 있어서 기저기술이라 할 수 있는 기본 주파수(pitch frequency) 즉, 피치를 정확히 검출하는 것을 매우 중요하다.
이러한 기본 주파수는 음의 전이구간이나 잡음에 혼탁된 음에서는 음의 변화가 심하고 구간별 문턱값을 설정하기가 힘들기 때문에 검출하기가 매우 어렵다.
따라서, 만일 피치 정보를 정확히 검출할 수 있다면, 음성인식에 있어서는 화자에 따른 영향을 최소화하여 포만트 주파수(formant frequency)를 통한 인식의 정확도를 높일 수 있게 되고, 음성합성의 경우에는 포만트 주파수와 성도성분을 분리하여 임의로 합성함으로써 자연성과 개성을 쉽게 변경 및 유지할 수 있다.
또한, 분석시에는 피치에 동기시켜 분석함에 따라 성문의 영향을 제거하고 분석에 따른 오차를 줄여 정확한 성도 파라미터를 통한 고음질을 얻을 수 있게 된다.
그러므로 상기와 같은 장점들을 갖도록 피치를 검출하기 위한 종래의 검출방법으로는 파형의 주기성을 강조한 후 결정논리에 의해 피치를 검출하는 병렬처리법, AMDF법, ACM법 등의 시간 영역법과 음성 스펙트럼의 고조파 간격을 측정하여 유성음의 기본 주파수를 검출하는 고조파 분석법, Lifter 법, Combfiltering법 등의 주파수 영역법 및 상기 시간 영역법과 주파수 영역법의 장점을 이용한 시간-주파수 혼성영역법이 있다.
상기 시간 영역법은 시간영역에서 수행되므로 영역의 변환의 불필요하고, 합, 차, 비교 및 논리등 간단한 연산만이 필요한 반면, 음소가 천이구간에 걸쳐있는 경우에는 프레임 내의 레벨변화가 심하고 피치주기가 변동하여 피치검출이 어렵고, 특히 잡음이 섞인 음성에서 피치 검출을 위한 결정논리가 복잡하여 검출오류가 증가하는 단점이 있다.
상기 주파수 영역법은 한 프레임(20~40ms)단위로 이루어진 스펙트럼 구간에서 음소의 천이나 변동이 일어나거나 배경잡음이 발생하여도 평균화되므로 그 영향을 적게 받으나, 처리과정상 주파수 영역으로의 변환과정이 필요하여 계산이 복잡하며, 기본 주파수의 정밀성을 높이기 위해 FET의 포인터수를 늘리는 경우 그 만큼 처리시간이 길어지는 결점이 있다.
그리고, 상기 시간 영역법의 계산시간 절감과 피치의 정밀성 등의 장점과 주파수 영역법의 배경잡음이나 음소변화에 대해서도 피치를 정확히 검출할 수 있는 장점을 취한 상기 시간-주파수 혼성영역법에는 Cepstrum법, 스펙트럼 비교법 등이 있는데, 이러한 시간-주파수 혼성영역법은 시간과 주파수영역을 왕복할 때 오차가 가중되어 나타나므로 피치추출의 영향을 줄일 수 있으나, 시간과 주파수 영역을 동시에 적용하기 때문에 계산과정이 복잡하다는 문제점이 있다.
따라서 본 발명은 상기와 같은 종래의 피치 검출방법의 문제점들을 해결하기 위해 창안된 것으로서, 그 목적은 음성신호에 있어서 상관관계에 따른 포만트 영향을 제거한 국부 봉우리와 골을 이용하여 피치를 정확하게 검출할 수 있는 음성신호의 피치 검출장치 및 그 방법을 제공하는데 있다.
이러한 목적을 달성하기 위한 본 발명은 입력되는 디지털 음성신호 중 저역통과 필터를 통해 저역의 음성신호만을 통과시킨 다음, 데시메이션을 수행하여 상관관계가 최저인 국부 봉우리 샘플과 골 샘플을 검출하고, 이 검출한 국부 봉우리 샘플과 골 샘플마다 상관관계에 따른 새로운 샘플을 삽입한 후 간단한 결정논리를 통해 상기 봉우리 샘플과 골 샘플 및 삽입 샘플을 다시한번 데시메이션하여 정확한 피치를 검출하도록 한다. 이하, 첨부된 도면을 참조하여 본 발명의 음성신호를 피치 검출장치 및 그 검출방법을 상세히 설명한다.
제1도는 본 발명에 의한 음성신호의 피치 검출장치의 블록 구성도로서, 이에 도시된 바와 같이, 디지털 변환부(10)에 의해 변환출력되는 디지털 음성신호를 입력하여 저주파 대역의 음성신호만을 통과시키는 저역 통과 필터부(20)와, 상기 저역 통과 필터부(20)를 통과한 저역 음성신호에 대해 데시메이션함으로써 상관관계가 최저인 봉우리 샘플과 골 샘플을 검출하는 봉우리/골 검출부(30)와, 상기 봉우리/골 검출부(30)에 검출한 봉우리 샘플과 골 샘플의 상관관계에 따른 새로운 샘플을 상기 봉우리 샘플과 골 샘플마다 삽입하는 샘플 삽입부(40)와, 상기 샘플 삽입부(40)에서 삽입한 샘플과 상기 봉우리/골 검출부(30)에서 검출부 봉우리 샘플 및 골 샘플에 대해 간단한 결정논리에 따라 다시한번 데시메이션하여 피치를 검출하는 피치 검출부(50)로 구성된다.
제2(a)도, 제2(b)도는 본 발명에 의한 봉우리와 골의 검출상태를 보여주고, 제3(a),(b)도는 본 발명에 의해 일부 봉우리와 골이 데시메이션된 상태를 보여주며, 제4(a)도, 제4(b)도는 본 발명에 의한 봉우리 샘플과 골 샘플마다 새로운 샘플의 삽입상태를 보여주는 도면이다.
위와 같이 구성되는 본 발명의 음성신호의 피치 검출장치의 검출방법을 설명하면 다음과 같다.
먼저, 음성신호의 피치가 1KHZ이내에 존재함에 따라 디지털 변환부(10)에 의해 변환출력되는 디지털 음성신호는 저역 통과 필터부(20)에 인가되어 저역의 음성신호만이 통과되어 봉우리/골 검출부(30)에 출력된다.
이때, 상기 붕우리/골 검출부(30)에 출력되는 파형은 제2(a)도와 같다.
상기 봉우리/골 검출부(30)는 제2(b)도에 도시된 바와 같이 상관관계가 봉우리와 골을 단위로 최대와 최소로 이루어짐에 따라 봉우리 샘플과 골 샘플을 검출하게 되는데, 이러한 봉우리와 골을 검출함으로써 화자의 개성을 담고 있는 기본 주파수와 성도의 필터링과정에서 발생하는 포만트 성분으로 이루어진 음성신호에 상기 기본 주파수의 n배 되는 고조파들의 영향을 제거할 수 있게 된다.
이때, 봉우리와 골을 검출하는 식은 아래 [식 1]과 같다.
[식 1]
SPV(n)=[s(n+1)-s(n)]·[s(n+2)]-s(n+1)]
n=1, 2, 3,........,k
여기서, s(n)은 음성신호이고 SPV(n)은 검출된 봉우리와 골들이다.
본 발명에서는 상기 [식 1]에서 SPV(n)의 값이 음의 값인 경우에는 봉우리와 골로 간주하고, 양의 값이나 영일 때는 상승이나 하강 중인 샘플로 간주한다.
이어서, 상기 봉우리/골 검출부(30)는 제3(a)도의 검출된 봉우리와 골 중에서 제3(b)도에서와 같이 일부 봉우리와 골을 데시메이션함으로써 상관관계가 최저인 국부 봉우리와 골만을 선택하여 검출한다.
이때, 상기 봉우리/골 검출부(30)에서 검출부 국부 봉우리와 골은 기본적인 주파수 이외에 성도의 공명으로 발생하는 포만트 성분을 가지고 있기 때문에 결정논리를 정하여 피치검출을 수행하도록 해야한다.
따라서, 샘플 삽입부(40)에 의해 상기 검출된 제4(a)도의 국부 봉우리 샘플과 골 샘플 마다 상관관계가 0.8이고 진폭이 80%되는 새로운 샘플을 제4(b)도와 같이 삽입한다.
이어, 피치 검출부(50)에서 상기 샘플 삽입부(40)에서 삽입한 샘풀과 상기 봉우리/골 검출부(30)에서 검출한 국부 봉우리 샘플 및 골 샘플에 대한 간단한 결정논리를 통해 다시한번 데시메이션하여 봉우리와 골을 검출하면서 정확한 피치를 검출하도록 한다.
즉, 상기 삽입 샘플로 인터폴레이션된 신호에 대해서 영을 제외한 봉우리 샘플이나 골 샘플만을 비교하여 아래 [식 2]와 같은 결정논리에 의해 피치를 검출하게 된다.
[식 2]는 영이 아닌 신호에 대해서 상기 [식 1]을 수정하여 적용한 것으로서 다음과 같다.
[식 2]
여기서 SPV(n-1)은 영이 아닌 첫번째 SPV(n )의 값이고, SPV(n-2)는 영이 아닌 두번째 SPV(n)의 값이며, SPV(n-3)은 영이 아닌 세 번째 SPV(n)의 값이다.
그리고, SPV(n-2)는 검출된 봉우리값으로, 간단한 결정논리를 적용하여 피치를 정확하게 검출할 수 있게 된다.
이상에서와 같이, 본 발명은 시간영역에서 2번의 데시메이션과 1번의 삽입기술을 이용하여 피치를 검출함으로써 계산량이 적고 구조가 간단하여 실시간 처리가 용이함은 물론 분해력이 우수한 장점이 있다.

Claims (2)

  1. 입력되는 디지털 음성신호는 저역을 통과시키는 저역 통과 필터부(20)와, 상기 저역 통과필터부(20)를 통과한 저역의 음성신호를 데시메이션하여 상관관계가 최저인 봉우리 샘플과 골 샘플을 검출하는 봉우리/골 검출부(30)와, 상기 봉우리/골 검출부(30)에서 검출부 봉우리 샘플과 골샘플의 상관관계에 따른 새로운 샘플을 상기 봉우리 샘플과 골 샘플마다 삽입하는 샘플 삽입부(40)와, 상기 샘플 삽입부(40)에서 삽입한 샘플과 상기 봉우리/골 검출부(30)에서 검출한 봉우리 샘플 및 골 샘플에 대해 데시메이션하여 피치를 검출하는 피치 검출부(50)로 구성됨을 특징으로 하는 음성신호의 피치 검출장치.
  2. 입력되는 디지털 음성신호의 봉우리와 골을 검출하는 제1과정과, 제1과정에서 검출한 봉우리와 골 중 상관관계가 최저인 국부 봉우리와 골만을 남기고 나머지 봉우리와 골을 데시메이션하는 제2과정과, 상기 제2과정에서 선택된 국부 봉우리와 골의 상관관계에 따른 새로운 샘플을 상기 국부 봉우리와 골마다 삽입하는 제3과정과, 상기 제3과정에서 삽입된 샘플과 제2과정에서 선택된 봉우리와 골의 인터폴레이션된 신호를 다시한번 데시메이션하여 피치를 검출하는 제4과정으로 이루어지는 것을 특징으로 하는 피치 검출방법.
KR1019960054321A 1996-11-15 1996-11-15 음성신호의 피치 검출장치 및 그 방법 KR100289317B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960054321A KR100289317B1 (ko) 1996-11-15 1996-11-15 음성신호의 피치 검출장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960054321A KR100289317B1 (ko) 1996-11-15 1996-11-15 음성신호의 피치 검출장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR19980035871A KR19980035871A (ko) 1998-08-05
KR100289317B1 true KR100289317B1 (ko) 2001-05-02

Family

ID=37517667

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960054321A KR100289317B1 (ko) 1996-11-15 1996-11-15 음성신호의 피치 검출장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100289317B1 (ko)

Also Published As

Publication number Publication date
KR19980035871A (ko) 1998-08-05

Similar Documents

Publication Publication Date Title
Drugman et al. Joint robust voicing detection and pitch estimation based on residual harmonics
Deshmukh et al. Use of temporal information: Detection of periodicity, aperiodicity, and pitch in speech
EP1309964B1 (en) Fast frequency-domain pitch estimation
Sukhostat et al. A comparative analysis of pitch detection methods under the influence of different noise conditions
KR100552693B1 (ko) 피치검출방법 및 장치
Vasilakis et al. Voice pathology detection based eon short-term jitter estimations in running speech
Koutrouvelis et al. A fast method for high-resolution voiced/unvoiced detection and glottal closure/opening instant estimation of speech
US4081605A (en) Speech signal fundamental period extractor
Friedman Pseudo-maximum-likelihood speech pitch extraction
Kadiri et al. Estimation of Fundamental Frequency from Singing Voice Using Harmonics of Impulse-like Excitation Source.
US6470311B1 (en) Method and apparatus for determining pitch synchronous frames
US4982433A (en) Speech analysis method
CN1971707B (zh) 一种进行基音周期估计和清浊判决的方法及装置
Niederjohn et al. A zero-crossing consistency method for formant tracking of voiced speech in high noise levels
KR100289317B1 (ko) 음성신호의 피치 검출장치 및 그 방법
Yoo et al. Speech enhancement based on the generalized dual excitation model with adaptive analysis window
Park et al. Improving pitch detection through emphasized harmonics in time-domain
Ding et al. A method combining lpc-based cepstrum and harmonic product spectrum for pitch detection
Zubrycki et al. Accurate speech decomposition into periodic and aperiodic components based on discrete harmonic transform
Park et al. Pitch detection based on signal-to-noise-ratio estimation and compensation for continuous speech signal
KR100283604B1 (ko) 평탄화된 스펙트럼에서 유성-무성구간 분류방법
KR100194953B1 (ko) 유성음 구간에서 프레임별 피치 검출 방법
KR0128851B1 (ko) 극성이 다른 가변길이 듀얼 임펄스의 스펙트럼 하모닉스 매칭에 의한 피치 검출 방법
KR100212453B1 (ko) 양자화 오차를 이용한 음성 신호의 피치 검출 방법
Kumar et al. Synthesized speech quality measurement of an Improved Fundamental Frequency (Pitch) Detection Algorithm

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20050120

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee