KR0128851B1 - Pitch detecting method by spectrum harmonics matching of variable length dual impulse having different polarity - Google Patents

Pitch detecting method by spectrum harmonics matching of variable length dual impulse having different polarity

Info

Publication number
KR0128851B1
KR0128851B1 KR1019940036135A KR19940036135A KR0128851B1 KR 0128851 B1 KR0128851 B1 KR 0128851B1 KR 1019940036135 A KR1019940036135 A KR 1019940036135A KR 19940036135 A KR19940036135 A KR 19940036135A KR 0128851 B1 KR0128851 B1 KR 0128851B1
Authority
KR
South Korea
Prior art keywords
pitch
impulse
dual impulse
dual
value
Prior art date
Application number
KR1019940036135A
Other languages
Korean (ko)
Other versions
KR960025317A (en
Inventor
강동규
정유현
한민수
Original Assignee
양승택
한국전자통신연구원
조백제
한국전기통신공사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 양승택, 한국전자통신연구원, 조백제, 한국전기통신공사 filed Critical 양승택
Priority to KR1019940036135A priority Critical patent/KR0128851B1/en
Publication of KR960025317A publication Critical patent/KR960025317A/en
Application granted granted Critical
Publication of KR0128851B1 publication Critical patent/KR0128851B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Abstract

본 발명은 음성신호의 최대피치값과 최소피치값을 초기화하는 단계(81); 음성신호를 샘플링하여 디지털 신호로 변환한 다음, 방형 창함수의 길이(w)를 최대피치의 2배로하여 w개의 음성 샘플을 입력하는 단계(82); 듀얼 임펄스의 변화폭(N)을 최소피치 길이로 정의 하는 단계(83); 음성신호와 상기 듀얼 임펄스의 변화폭(N)을 컨버류션하여 에너지 변환 함수 Ec(n)을 구한 후 에너지 변환 함수 Ec(n)의 모든 진폭의 절대값을 합하여 듀얼 임펄스의 변화폭(N)에 따른 에너지 변환 함수 Ef(N)을 산출하는 단계(84); 듀얼 임펄스의 변화폭(N)이 최대 피치값 보다 클때까지 상기 Ef(N)산출을 반복하는 단계(85'); 두얼 임펄스의 변화폭(N)이 최대 피치값 보다 크면 최대피치의 Ef(N)값과 최소피치의 Ef(N)에 의한 문턱값을 산출하고 산출된 문턱값보다 작은 골중에서 듀얼 임펄스이 변화폭이 작은 순서대로 3개의 골을 구하는 단계(86); 상기 구해진 골의 수에 따라 피치를 정의 하는 단계(87)를 포함하는 것을 특징으로 하는 가변길이 듀얼 임펄스의 스펙트럼 하모닉스 매칭에 의한 피치 검출방법에 관한 것으로, 음성합성, 인식, 부호화 분야에서 발성자에 따른 영향을 받지 않고 음성신호를 정확히 분석하는 효과가 있다.The present invention comprises the steps of: initializing the maximum pitch value and the minimum pitch value of the voice signal (81); Sampling the audio signal and converting it into a digital signal, and then inputting 82 voice samples by doubling the length w of the rectangular window function to a maximum pitch (82); Defining a change width N of the dual impulse as the minimum pitch length (83); The energy conversion function Ec (n) is obtained by converging the change width (N) of the voice signal and the dual impulse, and then adding the absolute values of all amplitudes of the energy conversion function Ec (n) to the energy according to the change width (N) of the dual impulse. Calculating 84 a transform function Ef (N); Repeating (85 ') the Ef (N) calculation until the variation width N of the dual impulse is greater than the maximum pitch value; If the change width (N) of the dual impulse is larger than the maximum pitch value, the threshold value obtained by the maximum pitch Ef (N) and the minimum pitch Ef (N) is calculated, and the order in which the dual impulse changes in the bone smaller than the calculated threshold value is smaller. Obtaining three bones as shown 86; Pitch detection method according to the spectral harmonics matching of variable length dual impulse characterized in that it comprises a step (87) for defining the pitch according to the number of the obtained goal, in the field of speech synthesis, recognition, encoding There is an effect of accurately analyzing the voice signal without being affected.

Description

극성이 다른 가변길이 듀얼 임펄스의 스펙트럼 하모닉스 매칭에 의한 피치 검출 방법Pitch Detection Method by Spectral Harmonic Matching of Variable Length Dual Impulse with Different Polarities

제1도는 유성음의 주파수 특성을 나타내는 파워 스펙트럼(power spectrum).1 is a power spectrum showing the frequency characteristics of voiced sound.

제2도는 극성이 같은 듀얼 임펄스와 이에 해당하는 파워 스펙트럼.2 shows dual impulses with the same polarity and corresponding power spectrum.

제3도는 극성이 다른 듀얼 임펄스와 이에 해당하는 파워 스펙트럼.3 shows dual impulses with different polarities and corresponding power spectra.

제4도는 유성음과 극성이 같은 듀얼 임펄스의 스펙트럼이 곱해질 때 유성음의 피치와 듀얼 임펄스의 간격이 같으면 봉우리(peak)가 서로 일치하는 현상을 나타내는 파워 스펙트럼.FIG. 4 is a power spectrum showing peaks coinciding with each other when the pitch of the voiced sound is equal to the interval between the dual impulses when the spectrum of the dual impulse having the same polarity is multiplied.

제5도는 유성음과 극성이 다른 듀얼 임펄스의 스펙트럼이 곱해질 때 유성음의 피치와 듀얼 임펄스의 간격이 같으면 봉우리와 골(valley)이 서로 일치하는 현상을 나타내는 파워 스펙트럼.FIG. 5 is a power spectrum showing peaks and valleys coinciding with each other when the pitch of the voiced sound is equal to the interval of the dual impulse when the spectrum of the dual impulse having different polarities is multiplied.

제6도는 음성신호(상)에 대해 극성이 다른 듀얼 임펄스의 간격을 변화시키면서 제5도의 방법에 의해 구해진 신호의 에너지를 N에 따른 함수로 나타낸 에너지 변동함수(하).6 is an energy fluctuation function (below) representing the energy of a signal obtained by the method of FIG. 5 as a function of N while varying the interval of dual impulses having different polarities with respect to the voice signal (up).

제7도는 본 발명에 따른 피치 검출방법이 적용되는 시스템 블록도, 제8도는 본 발명에 따른 피치 검출방법을 나타내는 흐름도.7 is a system block diagram to which the pitch detection method according to the present invention is applied, and FIG. 8 is a flowchart showing the pitch detection method according to the present invention.

본 발명은 전자공학의 음성 신호처리분야에서 유성음의 피치 검출에 관한 것으로, 음성인식, 합성, 분석, 부호화 등의 분야에 적용되는 극성이 다른 가변길이 듀얼 임펄스의 스펙트럼 하모닉스 매칭에 의한 피치 검출방법에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to pitch detection of voiced sounds in the field of speech signal processing in electronics. It is about.

현대사회가 정보화 사회로 발전하면서 많은 정보를 주고 받을 때 데이타를 입력하거나 데이타를 읽어야 하고, 많은 데이타 베이스로부터 정보를 찾아야 하는 번거로운 일들이 증가하게 되고 따라서 이에 소요되는 시간과 인력이 급증하게 되었다. 이러한 문제를 해결하기 위해 인간의 가장 손쉬운 통신 수단인 음성을 이용하려는 연구가 오래전부터 진행되어 왔다.As the modern society develops into an information society, the cumbersome tasks of inputting or reading data and finding information from many databases have increased, and the time and manpower required for it have increased rapidly. In order to solve this problem, researches on using voice, which is the easiest means of communication, have been conducted for a long time.

음성신호는 음원에 따라 무성음, 유성음, 혼합음, 묵음으로 구분되면 음성신호의 대부분을 차지하고 있는 유성음은 성대(vocal cord)의 진동에 의해 성도(vocal track)가 여기되어 발성된다. 성대의 진동은 준주기적인 특성을 가지며 에너지가 큰 것이 특징이므로 이것에 의해 발성되는 유성음 역시 에너지가 크고 준주기적이고, 성도의 특성에 따른 고유한 공명 주파수를 나타낸다.When the voice signal is divided into unvoiced sound, voiced sound, mixed sound, and mute according to the sound source, the voiced sound, which occupies most of the voice signal, is excited by the vocal track by the vibration of the vocal cord. Since the vocal cords have quasi-periodic characteristics and are characterized by high energy, the voiced sounds produced by them are also large and quasi-periodic, and exhibit unique resonance frequencies according to the characteristics of the vocal tracts.

유성음에서 낮은 쪽 주파수부터 차례로 나타나는 3개정도의 공명 주파수(formant)는 거의 모든 유성음에 대한 정보를 나타내므로 이들 정보를 정확히 추출하려는 연구가 활발히 진행되어 왔다. 연속되는 음성신호를 분석하기 위해서는 창함수(window function)를 적용해야 하는데 먼저, 창함수의 길이를 결정한 다음, 창함수의 종류를 선택해야한다. 유성음의 경우 창함수의 길이가 짧으면 스미어링( smearing) 현상에 의해 추출된 특징변수가 왜곡되고 이와는 반대로 길경우에는 피치에 의해 발생하는 스펙트럼 하모닉스에 의해 포먼트의 위치가 변하고 추출된 특징변수가 평균화(average)된다. 이러한 문제는 적절한 창함수를 적용하면 어느 정도 해결할 수 있으나 근본적으로 해결하기 위해서는 피치에 동기하여 분석을 수행해야 하며 이를 위해서는 우선적으로 피치를 추출해야 한다.Since about three resonant frequencies (formant) appear in order from the lower frequencies in the voiced sound, information about almost all voiced sound has been actively studied. In order to analyze a continuous speech signal, a window function must be applied. First, the length of the window function is determined, and then the type of the window function is selected. In the case of voiced sound, if the window function is short, the feature variable extracted by smearing is distorted. On the contrary, if the length is long, the position of the formant is changed by the spectral harmonics generated by the pitch, and the extracted feature variable is averaged. (average) This problem can be solved to some extent by applying an appropriate window function, but in order to solve the fundamental problem, the analysis must be performed in synchronism with the pitch.

음성신호에서 정확한 피치를 검출할 수 있으면 발성자에 영향 받지 않고 정확한 분석이 가능하므로 음성인식이나 합성 시스템의 성능을 향상시킬수 있을 뿐만 아니라 음성부호화(speech coding)분야에서 소량의 데이타로 양질의 통화를 가능케하는 등 음성관련 분야에 많은 파급효과를 기대할 수 있다.If the correct pitch can be detected from the voice signal, accurate analysis is possible without being influenced by the speaker, which not only improves the performance of speech recognition or synthesis system, but also makes a good call with a small amount of data in the speech coding field. Many ripple effects can be expected in the voice-related fields, such as enabling.

이와 같이 높은 신뢰도를 갖는 피치검출기 개발의 절실한 요구에 따라 지금까지 많은 연구가 진행되었고 발표된 피치 검출알고리즘이 상당수임에도 불구하고 아직도 어려운 과제로 남아 있는 것은 발성자에 따른 피치의 분포가 넓고 발성자의 심리적 상태에 따라 피치의 변화폭이 크기 때문인 것으로 알려져 있다.Due to the urgent demand for the development of high reliability pitch detectors, many studies have been conducted so far, and despite the large number of published pitch detection algorithms, it remains a difficult task. It is known that the pitch variation is large depending on the state.

상기한 문제점을 해결하기 위하여 안출된 본 발명은, 음성합성, 인식, 부호화 분야에서 발성자에 따른 영향을 받지 않고 음성신호를 정확히 분석하는데 반드시 필요한 모든 피치에 적용하여 분석 구간내의 대표적인 주기를 정확하게 추출하는 극성이 다른 가변길이 듀얼 임펄스의 스펙트럼 하모닉스 매칭에 의한 피치 검출방법에 관한 것이다.The present invention devised to solve the above problems, in the field of speech synthesis, recognition, and encoding, extracts a representative period in the analysis section by applying to all pitches necessary to accurately analyze the speech signal without being influenced by the speaker. The present invention relates to a pitch detection method using spectral harmonic matching of variable length dual impulses having different polarities.

상기 목적을 달성하기 위하여 본 발명은 음성신호의 최대피치값과 최소피치값을 초기화하는 단계; 음성신호를 샘플링하여 디지털 신호로 변환한 다음, 방형 창함수의 길이(w)를 최대피치의 2배로하여 w개의 음성 샘플을 입력하는 단계; 듀얼 임펄스의 변화폭(N)을 최소피치 길이로 정의하는 단계; 음성신호와 상기 듀얼 임펄스의 변화폭(N)을 컨버류션하여 에너지 변환 함수 Ec(n)을 구한 후 에너지 변환 함수 Ec(n)의 모든 진폭의 절대값을 합하여 듀얼 임펄스의 변화폭(N)에 따른 에너지 변환 함수 Ef(N)을 산출하음, 방형 창함수의 길이(w)를 최대피치의 2배로하여 w개의 음성 샘플을 입력하는 단계; 듀얼 임펄스의 변화폭(N)을 최소피치 길이로 정의 하는 단계; 음성신호와 상기 듀얼 임펄스의 변화폭(N)을 컨버류션하여 에너지 변환 함수Ec(n)을 구한 후 에너지 변환 함수 Ec(n)의 모든 진폭의 절대값을 합하여 듀얼 임펄스의 변화폭(N)에 따른 에너지 변환 함수 Ef(N)을 산출하는 단계; 듀얼 임펄스의 변화폭(N)이 최대 피치값 보다 클때까지 상기 Ef(N) 산출을 반복하는 단계; 듀얼 임펄스의 변화폭(N)이 최대 피치값 보다 크면 최대피치의 Ef(N)값과 최소피치의 Ef(N)에 의한 문턱값을 산출하고 산출된 문턱값보다 작은 골중에서 듀얼 임펄스의 변화폭이 작은 순서대로 3개의 골을 구하는 단계; 상기 구해진 골의 수에 따라 피치를 정의 하는 단계를 포함하는 것을 특징으로 하는 가변길이 듀얼 임펄스의 스펙트럼 하모닉스 매칭에 의한 피치 검출방법.In order to achieve the above object, the present invention comprises the steps of: initializing the maximum pitch value and the minimum pitch value of the voice signal; Sampling the speech signal and converting the speech signal into a digital signal, inputting w speech samples by doubling the length w of the rectangular window function to a maximum pitch; Defining the variation width N of the dual impulse as the minimum pitch length; The energy conversion function Ec (n) is obtained by converging the change width (N) of the voice signal and the dual impulse, and then adding the absolute values of all amplitudes of the energy conversion function Ec (n) to the energy according to the change width (N) of the dual impulse. Calculating a conversion function Ef (N), inputting w speech samples with the length w of the rectangular window function being twice the maximum pitch; Defining the variation width N of the dual impulse as the minimum pitch length; The energy conversion function Ec (n) is obtained by converging the voice signal and the change width N of the dual impulse, and then adding the absolute values of all amplitudes of the energy conversion function Ec (n) to the energy according to the change width N of the dual impulse. Calculating a transform function Ef (N); Repeating the calculation of Ef (N) until the variation width N of the dual impulse is greater than the maximum pitch value; If the change width (N) of the dual impulse is larger than the maximum pitch value, the threshold value obtained by the maximum pitch Ef (N) and the minimum pitch Ef (N) is calculated, and the change width of the dual impulse is smaller than the calculated threshold value. Obtaining three goals in order; Pitch detection method according to the spectral harmonics matching of variable length dual impulse characterized in that it comprises the step of defining the pitch in accordance with the number of the obtained goal.

이하, 도면 제1도 내지 제8도를 참조하여 본 발명의 원리 및 실시 예를 상세히 설명한다.Hereinafter, the principle and the embodiment of the present invention will be described in detail with reference to FIGS. 1 to 8.

먼저, 본 발명의 이론적 배경은 다음과 같다.First, the theoretical background of the present invention is as follows.

제1도는 일반적인 유성음의 스펙트럼 형태를 보이고 있다. 유성음에서 성대의 진동 특성을 g(n), 성도특성을 v(n)이라 할 때, 발성된 음성신호는 여기원인 성대 진동특성과 성도특성이 컨버루션(convolution)된 것으로 식(1)과 같이 표현할 수 있고1 shows a spectral form of a general voiced sound. In voiced sound, when the vibration characteristic of the vocal cords is g (n) and the vocal tract characteristic is v (n), the vocalized voice signal is a convolution of the vocal cord vibration characteristics and vocal tract characteristics as the excitation source. Can express

이에 대한 주파수 응답은The frequency response is

이다.to be.

유성음의 스펙트럼은 식(2)와 같이 성대특성의 스펙트럼과 성도의 스펙트럼이 곱해진 형태 즉, 성도특성(스펙트럼의 포락선)에 성대 진동주파수인 기본주파수의 하모닉스가 타고 있는 제1도와 같은 형태를 나타낸다.The voiced sound spectrum has a form in which the vocal tract characteristic spectrum and the vocal spectral spectrum are multiplied as shown in Eq. .

제2도는 극성이 같은 듀얼 임펄스의 파워 스펙트럼이다. 먼저, 편의상 간격이 2N인 듀얼 임펄스를이라 정의하자. 시간축에서 N만큼 이동된 임펄스의 퓨리에(Fourier)변환은 식 (3), (4)와 같이 표시할 수 있다.2 is the power spectrum of dual impulse with the same polarity. First, for convenience, dual impulses with 2N spacing Let's define it. The Fourier transform of the impulse shifted by N on the time axis can be expressed as Equations (3) and (4).

여기서,는 퓨리에 변환이다. 식 (3), (4)에 율러(Euler)의 관계식here, Is the Fourier transform. Euler's relation to equations (3) and (4)

을 적용하여 임펄스 간격이 2N이고 극성이 같은 듀얼 임펄스함수의 퓨리에변환을 다음과 같이 직접 구할 수 있다.Dual impulse function with 2N impulse interval and same polarity The Fourier transform of can be directly obtained as

식 (6)에서 알 수 있듯이 극성이 같은의 퓨리에 변환은 주기가인 코사인(cosine)함수로 나타낼 수 있고 파워 스펙트럼은 도면 제2도와 같은 형태로 나타낸다.As you can see from equation (6), Fourier transform of the cycle It can be represented by a cosine function and the power spectrum is shown in the form as shown in FIG.

제3도는 극성이 다른 듀얼 임펄스의 파워 스펙트럼이다. 율러(Euler)의 관계식3 is a power spectrum of dual impulses of different polarities. Euler's relation

과 식 (3), (4)로부터 임펄스 간격이 2N이고 극성이 다른의 퓨리에 변환은 식(8)과 같이 직접 구할 수 있다.And impulse intervals of 2N and different polarities from Eqs. (3) and (4). The Fourier transform of can be obtained directly as in Equation (8).

식(8)에서 알 수 있듯이 간격이 2N이고 극성이 다른의 퓨리에 변환은 주기가인 sine함수로 표시할 수 있고 이것의 파워 스펙트럼은 제3도와 같은 형태로 나타난다.As you can see from equation (8), the interval is 2N and the polarity is different. Fourier transform of the cycle It can be expressed by the sine function, and its power spectrum is shown in the form shown in FIG.

제4도는 유성음과 극성이 같은의 스펙트럼 하모닉스 봉우리(spectrum harmonics peak)가 서로 일치하는 경우로서, 이때 두 스펙트럼이 곱해져 산출된 신호는 최대의 에너지를 나타내고 의 길이 2N은 피치의 길이와 같다.4 is the same polarity as voiced sound In this case, the spectral harmonics peaks of s are coincident with each other, where the signals obtained by multiplying the two spectra show the maximum energy and the length of 2N equals the length of the pitch.

간격이 피치의 3/2배가 되는 경우에는 두 스펙트럼 하모닉스의 봉우리와 골이 각각 곱해져 에너지가 최소화 된다.If the spacing is 3/2 times the pitch, the peaks and valleys of the two spectral harmonics are multiplied separately to minimize energy.

제5도에서와 같이 극성이 다른의 경우에는 유성음의 봉우리와의 골이 일치할 경우 최소의 에너지를 나타내고, 이때의길이 2N은 피치길이와 같다. 듀얼 임펄스 간격이 피치의 3/2배가 될 때에는 두 스펙트럼 하모닉스의 봉우리끼리 곱해져 에너지는 최대가 된다.Different polarity as in FIG. In the case of the voiced peaks If the valleys of match the minimum energy, then The length 2N is equal to the pitch length. When the dual impulse interval is 3/2 times the pitch, the peaks of the two spectral harmonics are multiplied to maximize energy.

제6도는 유성음(도면의 상)에 대해 제5도의 현상을 이용하여 추출한 에너지의 변동함수를 Ef라 할때 N을 피치가 분포하는 범위내에서 변화시켜 추출한 Ef를 N의 함수로 표시한 Ef(N)의 변화도(도면의 하)이다.FIG. 6 shows Ef extracted as a function of N by changing N within the range of pitch distribution when the fluctuation function of energy extracted using the phenomenon of FIG. N) is the change degree (lower figure).

에너지 변동함수는 유성음의 피치와 N이 같아질때 최소화되어 골이 나타나고 최초의 골을 추출하여 피치를 검출한다.The energy fluctuation function is minimized when the pitch of the voiced sound is equal to N, and the goal appears, and the pitch is detected by extracting the first goal.

이 방법(제6도)에서 최대에너지 및 최소에너지의 차이가 현저하게 예상 피치위치에서 골(혹은 봉우리)의 첨예도가 높아야 검출의 정확도 및 정밀도를 높일 수 있다.In this method (Fig. 6), the difference between the maximum energy and the minimum energy is remarkably high in the sharpness of the valleys (or peaks) at the expected pitch position, so that the accuracy and accuracy of detection can be increased.

제4도의 경우에는 두 스펙트럼이 곱해질 때 하모닉스 봉우리의 대역폭이 넓으므로 완만한 변화를 나타내 최대 에너지 봉우리의 첨예도가 작기 때문에 정확한 피치를 구하기가 어렵다.In the case of FIG. 4, when the two spectra are multiplied, the bandwidth of the harmonic peaks is wide, so that the exact pitch is difficult to obtain because the sharpness of the maximum energy peak is small because the bandwidth of the harmonic peaks is wide.

그러나, 제5도의 경우에는 봉우리와 골이 곱해질 때 골의 대역폭이 좁으므로 추출된 에너지 변화의 골은 첨예도가 높아 제4도의 방법보다 정확하고 정밀한 최소점의 위치를 검출할 수 있다.However, in the case of FIG. 5, when the peak and the valley are multiplied, the valley width of the valley is narrow, and thus, the extracted valley of the energy change has a high sharpness, so that the position of the minimum point is more accurate and accurate than the method of FIG.

제7도는 본 발명에 따른 피치 검출방법이 적용되는 시스템 블록도로서, 도면에서 71은 대역통과필터를, 72는 아날로그 음성신호를 디지털 음성신호로 변환하는 A/D 변환장치를, 73은 디지털 음성신호에서 피치를 검출하는 컴퓨터 혹은 프로그램을 실행시킬수 있는 장치를 각각 나타낸다.7 is a system block diagram to which the pitch detection method according to the present invention is applied, in which 71 is a band pass filter, 72 is an A / D converter for converting an analog voice signal into a digital voice signal, and 73 is a digital voice. Represents a computer or apparatus capable of executing a program for detecting a pitch in a signal.

제8도는 본 발명에 따른 피치 검출방법을 나타내는 흐름도로서, 제5도 및 제6도의 원리를 이용한 본 발명의 전반적인 처리를 나타내는 흐름도이다.8 is a flowchart showing a pitch detection method according to the present invention, which shows the overall process of the present invention using the principles of FIGS.

먼저, 인간의 피치는 조음기관의 물적 한계로 2.5msec 내지 25msec인점을 고려하여 모든 피치에 적용하기 위해 최대피치값과 최소피치값을 초기화한다.(81)First, the human pitch initializes the maximum pitch value and the minimum pitch value to apply to all pitches considering the point of 2.5msec to 25msec as the physical limit of the articulation organ.

대역통과된 음성신호를 10k㎐로 샘플링(sampling)하여 디지털 (digital)신호로 변환한 다음, 방형 창함수(rectangular window function)의 길이 w를 최대피치의 2배로 하여 w개의 음성 샘플을 입력한다. 그 다음으로 고역 성분에 의한 영향을 줄이기위해 500㎐로 저역통과(low pass filter)를 한다.(82)The band-passed speech signal is sampled at 10k㎐ and converted into a digital signal. Then, w speech samples are input with the length w of the rectangular window function being twice the maximum pitch. Next, a low pass filter of 500 Hz is used to reduce the effects of high frequency components (82).

듀얼 임펄스의 변화폭(N)을 최소피치 길이로 정의하고(83), 음성신호와 상기 듀얼 임펄스의 변화폭(N)을 컨버류션하여 에너지 변환 함수Ec(n)을 구한 후 에너지 변환 함수Ec(n)의 모든 진폭의 절대값을 합하여 듀얼 임펄스의 변화폭(N)에 따른 에너지 변환 함수 Ef(N)을 산출한다.(84)The change width N of the dual impulse is defined as the minimum pitch length (83), and the energy conversion function Ec (n) is obtained by converging the change width (N) of the voice signal and the dual impulse and then converting the energy conversion function Ec (n). The sum of the absolute values of all amplitudes of is calculated to calculate the energy conversion function Ef (N) according to the variation width N of the dual impulse.

이어서, 듀얼 임펄스의 변화폭(N)이 최대 피치값 보다 클때까지 상기 평균 진폭값을 Ef(N)을 산출을 반복한다.(85')Subsequently, the average amplitude value Ef (N) is calculated until the change width N of the dual impulse is larger than the maximum pitch value (85 ').

계속해서 듀얼 임펄스의 변화폭(N)이 최대 피치값 보다 크면 Ef(N)의 값은 N이 피치의 정수배가 될 때마다 최소치를 나타내므로 이들중에서 최대치 및 최대치에 의한 문턱값을 산출하고 산출된 문턱값보다 작은 골중에서 듀얼 임펄스의 변화폭이 작은 순서대로 3개의 골을 구한다.(86)Subsequently, if the change width N of the dual impulse is larger than the maximum pitch value, the value of Ef (N) represents the minimum value every time N becomes an integer multiple of the pitch, so the threshold value calculated by the maximum value and the maximum value among them is calculated. Of the bones that are smaller than the value, the three bones are found in the order of the smallest change in the dual impulse.

계속해서, 구해진 골의 수가 1개 뿐이면 이 골의 위치 N을 피치로하고, 2개이면 이들값이 정수배의 관계인가를 검사하고 정수배이면 작은 쪽의 골이 피치이고 아니면 큰쪽이 피치이다.Subsequently, if only one goal is found, the position N of the goal is pitch. If it is two, it is checked whether these values are integer multiples. If it is an integer multiple, the smaller one is the pitch or the larger one is the pitch.

골이 3개일 경우에도 3개의 값들이 정수배의 관계를 갖는지 검사하고 정수배의 관계를 갖는 골들 중에서 제일 작은 값이 피치가 된다.(87)In the case of three goals, it is checked whether three values have an integer multiple, and the smallest value among the valleys having an integral multiple becomes the pitch.

계속해서, 다음구간에서 피치를 추출할 때 처리시간을 단축하기 위하여 상기의 과정에서 구해진 피치 값에 일정 % 값을 곱하여 듀얼 임펄스의 변화 폭을 제한한다(예:최대피치는 160%, 최소피치는 60%).(88)Then, in order to reduce the processing time when extracting the pitch in the next section, the pitch value obtained in the above process is multiplied by a certain% value to limit the variation of the dual impulse (e.g., the maximum pitch is 160% and the minimum pitch is 60%). (88)

그리고, 음성의 끝을 판단(89)하여 끝이 아닐 경우 상기 피치를 구하는 단계를 반복 수행한다.Then, the end of the voice is determined (89), and if not, the step of obtaining the pitch is repeated.

이상, 상기와 같은 과정으로 이루어진 본 발명은 다음과 같은 장점을 가진다.Above, the present invention made of the above process has the following advantages.

첫째, 듀얼 임펄스의 변화폭을 조절하므로서 광범위하게 분포하는 모든 피치에 적용하여 피치를 추출할 수 있다.First, it is possible to extract the pitch by applying to all the widely distributed pitch by adjusting the variation of the dual impulse.

둘째, 유성음의 기본적인 주파수 특성을 이용하여 주파수 영역에서의 현상을 시간영역으로 처리하므로 잡음환경하에서도 강할 뿐 아니라 처리시간을 줄이면서도 정확하게 피치를 추출할 수 있다.Second, since the phenomenon in the frequency domain is processed into the time domain using the basic frequency characteristics of the voiced sound, it is not only strong under a noise environment but also can accurately extract the pitch while reducing the processing time.

셋째, 피치 결정논리 전에 추출된 예비 피치들이 실제 피치의 절반으로 되는 현상이 없으므로 예비피치들이 정수배의 관계로 나타나 결정논리가 간단하다.Third, since the preliminary pitches extracted before the pitch decision logic do not become half of the actual pitch, the preliminary pitches are expressed as integer multiples, and thus the decision logic is simple.

Claims (3)

음성신호의 최대피치값과 최소피치값을 초기화하는 단계(81); 음성신호를 샘플링하여 디지털 신호로 변환한 다음, 방형 창함수의 길이(w)를 최재피치의 2배로 하여 w개의 음성 샘플을 입력하는 단계(82); 듀얼 임펄스의 변화폭(N)을 최소피치 길이로 정의 하는 단계(83); 음성신호와 상기 듀얼 임펄스의 변화폭(N)을 컨버류션하여 에너지 변환 함수 Ec(n)을 구한 후 에너지 변환 함수 En(n)의 모든 진폭의 절대값을 합하여 듀얼 임펄스의 변화폭(N)에 따른 에너지 변환 함수 Ef(N)을 산출하는 단계(84); 듀얼 임펄스의 변화폭(N)이 최대 피치값 보다 클때까지 상기 Ef(N) 산출을 반복하는 단계(85'); 듀얼 임펄스의 변화폭(N)이 최대 피치값 보다 크면 최대피치의 Ef(N)값과 최소피치의 Ef(N)에 의한 문턱값을 산출하고 산출된 문턱값보다 작은 골중에서 듀얼 임펄스의 변화폭이 작은 순서대로 3개의 골을 구하는 단계(86); 상기 구해진 골의 수에 따라 피치를 정의 하는 단계(87)를 포함하는 것을 특징으로 하는 가변길이 듀얼 임펄스의 스펙트럼 하모닉스 매칭에 의한 피치 검출방법.Initializing a maximum pitch value and a minimum pitch value of the audio signal (81); Sampling the speech signal and converting the speech signal into a digital signal, and then inputting 82 speech samples at a length w of the rectangular window function twice the maximum pitch; Defining a change width N of the dual impulse as the minimum pitch length (83); The energy conversion function Ec (n) is obtained by converging the voice signal and the change width N of the dual impulse, and then adding the absolute values of all amplitudes of the energy conversion function En (n) to the energy according to the change width N of the dual impulse. Calculating 84 a transform function Ef (N); Repeating the calculation of Ef (N) until the change width N of the dual impulse is greater than the maximum pitch value (85 '); If the change width (N) of the dual impulse is larger than the maximum pitch value, the threshold value obtained by the maximum pitch Ef (N) and the minimum pitch Ef (N) is calculated, and the change width of the dual impulse is smaller than the calculated threshold value. Obtaining three goals in order 86; Pitch detection method according to the spectral harmonics matching of variable length dual impulse characterized in that it comprises a step (87) according to the obtained number of goals. 제1항에 있어서; 상기 구해진 골의 수에 따라 피치를 정의 하는 단계(87) 이후에 다음구간에서 피치를 추출할 때 처리시간을 단축하기 위하여 상기의 과정에서 구해진 피치 값에 일정 %값을 곱하여 듀얼 임펄스의 변화폭을 제한하는 단계(88)를 더 포함하는 것을 특징으로 하는 가변길이 듀얼 임펄스의 스펙트럼 하모닉스 매칭에 의한 피치 검출방법.The method of claim 1; In order to shorten the processing time when extracting the pitch in the next section after defining the pitch according to the number of the obtained goals (87), multiply the pitch value obtained in the above process by a certain% value to limit the variation of the dual impulse. Pitch detection method according to the spectral harmonics matching of variable length dual impulse further comprising the step (88). 제1항에 있어서; 상기 구해진 골의 수에 따라 피치를 정의 하는 단계(87)는, 구해진 골의 수가 1개이면 이 골의 위치 듀얼 임펄스의 변화폭을 피치로 하고, 2개이면 이들값이 정수배의 관계인가를 검사하여 정수배이면 작은 쪽의 골이 피치이고 아니면 큰쪽을 피치로 하며, 골이 3개일 경우 3개의 값들이 정수배의 관계를 갖는지 검사하고 정수배의 관계를 갖는 골들 중에서 제일 작은 값을 피치로 하는 것을 특징으로 하는 가변길이 듀얼 임펄스의 스펙트럼 하모닉스 매칭에 의한 피치 검출방법The method of claim 1; In step 87, the pitch is defined according to the number of the obtained goals. If the number of the goals is one, the pitch of the position dual impulse of the goal is set as the pitch. If it is an integer multiple, the smaller one is pitch, or the larger one is pitch. If there are three goals, it is checked whether three values have an integer multiple relationship, and the smallest value among the valleys having an integral multiple relationship is used as the pitch. Pitch Detection Method by Spectral Harmonic Matching of Variable Length Dual Impulse
KR1019940036135A 1994-12-23 1994-12-23 Pitch detecting method by spectrum harmonics matching of variable length dual impulse having different polarity KR0128851B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019940036135A KR0128851B1 (en) 1994-12-23 1994-12-23 Pitch detecting method by spectrum harmonics matching of variable length dual impulse having different polarity

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019940036135A KR0128851B1 (en) 1994-12-23 1994-12-23 Pitch detecting method by spectrum harmonics matching of variable length dual impulse having different polarity

Publications (2)

Publication Number Publication Date
KR960025317A KR960025317A (en) 1996-07-20
KR0128851B1 true KR0128851B1 (en) 1998-10-01

Family

ID=19403024

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019940036135A KR0128851B1 (en) 1994-12-23 1994-12-23 Pitch detecting method by spectrum harmonics matching of variable length dual impulse having different polarity

Country Status (1)

Country Link
KR (1) KR0128851B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107833581A (en) * 2017-10-20 2018-03-23 广州酷狗计算机科技有限公司 A kind of method, apparatus and readable storage medium storing program for executing of the fundamental frequency for extracting sound
KR20220048198A (en) 2020-10-12 2022-04-19 주식회사 쿡키스 High power induction controller

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100662872B1 (en) * 2005-11-22 2007-01-02 삼성전자주식회사 Impulse signal acquisition method and apparatus

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107833581A (en) * 2017-10-20 2018-03-23 广州酷狗计算机科技有限公司 A kind of method, apparatus and readable storage medium storing program for executing of the fundamental frequency for extracting sound
CN107833581B (en) * 2017-10-20 2021-04-13 广州酷狗计算机科技有限公司 Method, device and readable storage medium for extracting fundamental tone frequency of sound
KR20220048198A (en) 2020-10-12 2022-04-19 주식회사 쿡키스 High power induction controller

Also Published As

Publication number Publication date
KR960025317A (en) 1996-07-20

Similar Documents

Publication Publication Date Title
EP1309964B1 (en) Fast frequency-domain pitch estimation
US7272551B2 (en) Computational effectiveness enhancement of frequency domain pitch estimators
KR101110141B1 (en) Cyclic signal processing method, cyclic signal conversion method, cyclic signal processing device, and cyclic signal analysis method
Sukhostat et al. A comparative analysis of pitch detection methods under the influence of different noise conditions
US8412526B2 (en) Restoration of high-order Mel frequency cepstral coefficients
EP0853309B1 (en) Method and apparatus for signal analysis
WO1984002992A1 (en) Signal processing and synthesizing method and apparatus
EP1422693B1 (en) Pitch waveform signal generation apparatus; pitch waveform signal generation method; and program
Virtanen Audio signal modeling with sinusoids plus noise
US7305339B2 (en) Restoration of high-order Mel Frequency Cepstral Coefficients
Cosi et al. Lyon's auditory model inversion: a tool for sound separation and speech enhancement
US6470311B1 (en) Method and apparatus for determining pitch synchronous frames
US4982433A (en) Speech analysis method
KR0128851B1 (en) Pitch detecting method by spectrum harmonics matching of variable length dual impulse having different polarity
US7043424B2 (en) Pitch mark determination using a fundamental frequency based adaptable filter
CN109584902B (en) Music rhythm determining method, device, equipment and storage medium
JPH05281996A (en) Pitch extracting device
JPH0573093A (en) Extracting method for signal feature point
Dajani et al. Fine structure spectrography and its application in speech
JP3398968B2 (en) Speech analysis and synthesis method
JP3019603B2 (en) Speech fundamental frequency extraction device
JP3223564B2 (en) Pitch extraction method
KR0173924B1 (en) Epoch detection method in voiced sound section of voice signal
JPH1020886A (en) System for detecting harmonic waveform component existing in waveform data
KR100289317B1 (en) System and method for detecting pitch of voice signal

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20031030

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee