KR100205060B1 - Pitch detection method of celp vocoder using normal pulse excitation method - Google Patents

Pitch detection method of celp vocoder using normal pulse excitation method Download PDF

Info

Publication number
KR100205060B1
KR100205060B1 KR1019960064203A KR19960064203A KR100205060B1 KR 100205060 B1 KR100205060 B1 KR 100205060B1 KR 1019960064203 A KR1019960064203 A KR 1019960064203A KR 19960064203 A KR19960064203 A KR 19960064203A KR 100205060 B1 KR100205060 B1 KR 100205060B1
Authority
KR
South Korea
Prior art keywords
pitch
signal
residual
vocoder
residual signal
Prior art date
Application number
KR1019960064203A
Other languages
Korean (ko)
Other versions
KR19980045951A (en
Inventor
변경진
김종재
한기천
유하영
배명진
차진종
김경수
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR1019960064203A priority Critical patent/KR100205060B1/en
Publication of KR19980045951A publication Critical patent/KR19980045951A/en
Application granted granted Critical
Publication of KR100205060B1 publication Critical patent/KR100205060B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/113Regular pulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 이동통신용, 개인통신용 등에 유용하게 적용하고 있는 보코더 기법중 하나인 CELP부호화에 관한 것으로서, 본 발명에서 제공하는 정규 펄스 여기 방식을 이용한 CELP 보커더의 피치 검색 방법은 입력 음성 신호를 포만트 필터에 통과시켜 잔여신호를 생성시키는 제1단계와, 상기 제1단계에서 생성된 잔여 신호를 인식 가경화 필터를 통과시키는 제2단계와 상기 제2단계의 결과 신호를 데시메이션시켜 다수의 잔여 신호를 그룹화하는 제3단계와, 상기 제3단계에서 생성된 다수의 잔여 신호 그룹 중 최적으로 데시메이션된 잔여 신호 그룹을 표본값으로 선택하는 제4단계와, 피치 지연값을 일정간격으로 증가시키면서, 상기 제4단계에서 선택된 표본값에 대해 합성 음성을 구한후 상기 제1단계에서 입력된 음성 신호와의 오차를 구하는 제5단계와, 상기 제5단계 결과 오차가 가장적은 때의 피치 지연과 피치 이득을 선택하는 제6단계로 구성되어 피치 검색시간을 약 48%정도로 줄일 수 있으므로, 처리 속도가 낮은 저가의 DSP칩으로도 CELP 보커더의 실시간 구현을 할 수 있으며, 휴대용 보커더의 사용시간을 연장시킬 수 있게 되어, 상품의 대외 경쟁력을 높일 수 있다는 장점이 있다.The present invention relates to CELP encoding, which is one of the vocoder techniques usefully applied to mobile communication, personal communication, and the like, and the pitch search method of the CELP vocoder using the normal pulse excitation method provided by the present invention forms an input speech signal. A first step of passing through the filter to generate a residual signal, and a resultant signal of the second step and the second step of passing the residual signal generated in the first step through the recognition temporary hardening filter and a plurality of residual signals A third step of grouping, a fourth step of selecting an optimally decimated residual signal group among the plurality of residual signal groups generated in the third step as a sample value, and increasing the pitch delay value at a predetermined interval, A fifth step of obtaining a synthesized voice with respect to the sample value selected in the fourth step and then obtaining an error from the voice signal input in the first step; The fifth step consists of a sixth step to select the pitch delay and the pitch gain when the error is the smallest, and the pitch search time can be reduced to about 48%. Real-time implementation can be made, and the use time of the portable vocoder can be extended, thereby increasing the external competitiveness of the product.

Description

정규 펄스 여기 방식을 이용한 CELP 보코더의 피치 검색 방법Pitch Search Method for CELP Vocoder Using Normal Pulse Excitation

제1도는 음성 처리 장치의 구성도이고,1 is a configuration diagram of a speech processing device,

제2도는 일반적인 CELP 보코더의 Encoding 처리 과정에 대한 흐름도이고,2 is a flowchart illustrating an encoding process of a general CELP vocoder.

제3도는 종래의 피치 검색 방법에 대한 흐름도이고,3 is a flowchart of a conventional pitch search method,

제4도는 본 발명의 실시예에 따른 피치 검색 방법에 대한 흐름도이다.4 is a flowchart of a pitch search method according to an embodiment of the present invention.

[발명의 목적][Purpose of invention]

본 발명은 정규 펄스 여기 방식을 이용하여 피치 검색 시간을 48%까지 감소시킬 수 있는 CELP(Code Excited Linear Prediction) 보코더의 피치 검색 방법을 제공하는 것을 목적으로 한다.An object of the present invention is to provide a pitch search method of a Code Excited Linear Prediction (CELP) vocoder which can reduce the pitch search time by 48% using a normal pulse excitation method.

[발명이 속하는 기술분야 및 그 분야의 종래기술][Technical field to which the invention belongs and the prior art in that field]

본 발명은 이동통신용, 개인통신용 등에 유용하게 적용하고 있는 보코더 기법중 하나인 CELP 부호화에 관한 것으로서, 음성부호를 부호화하기 위한 보코더 기법은 크게 파형 부호화법, 소스 부호화법, 혼성 부호화법의 세가지가 있으며, 이중 최근의 부호화 기술과 합성된 음질을 고려할 때 보코더용으로 가장 바람직한 기법이 혼성 부호화법이며, 상기 혼성 부호화법은 성도필터를 선형 예측 분석법으로 모델링하고, 남은 잔류신호는 그대로 전송하는 부호화법으로써 그 종류는 RELP(Residual Excited Linear Prediction)법, VELP(Voice Excited Linear Prediction)법, CELP법이 있다.The present invention relates to CELP encoding, which is one of the vocoder techniques that are usefully applied to mobile communication, personal communication, and the like. There are three vocoder techniques for encoding speech codes: waveform encoding, source encoding, and hybrid encoding. In consideration of the recent encoding technique and synthesized sound quality, the most preferable technique for vocoder is hybrid coding. The hybrid coding method is a coding method for modeling a vocal filter using linear prediction analysis and transmitting the remaining residual signal as it is. The types include RELP (Residual Excited Linear Prediction) method, VELP (Voice Excited Linear Prediction) method, and CELP method.

이중 본 발명이 속하는 CELP 부호화법은 사용 대역폭에 비해 가장 음질이 우수하다고 알려진 것으로서 입력으로 얻어진 음성신호를 합성하여 입력 음성신호와 비교하는 합성에 의한 분석 방법을 사용함으로써 낮은 전송율에서도 매우 우수한 음질을 얻을 수 있으나, 매번 음성을 합성해서 비교해야 하므로 매우 복잡한 구조를 갖고 그에 따른 방대한 계산량으로 인해 실시간 구현에 어려움이 있다.Among them, the CELP coding method to which the present invention belongs is known to have the best sound quality compared to the used bandwidth. Thus, by using a synthesis analysis method that synthesizes an input speech signal and compares it with an input speech signal, a very good sound quality is obtained even at a low transmission rate. However, since the speech has to be synthesized and compared each time, it has a very complicated structure and a large amount of computation is difficult to implement in real time.

특히, CELP부호화기에서 가장 큰 계산량을 필요로하는 부분은 코드북에서 입력 여기 신호를 찾아내는 과정과 피치필터의 계수를 구하는 과정이며, 이중 피치 분석은 음성 신호의 장기 상관 관계에 해당하는 피치 주기에 관한 정보를 얻어 내는 과정인데 CELP 부화화기의 전체 계산량의 50% 이상을 차지하는 부분이므로 이 부분의 개선은 전체부호화기의 많은 영향을 미치게 된다.Particularly, the part that needs the largest amount of computation in the CELP encoder is the process of finding the input excitation signal and the coefficient of the pitch filter in the codebook, and the dual pitch analysis is the information about the pitch period corresponding to the long-term correlation of the speech signal. It is a process that obtains more than 50% of the total calculation of CELP incubator, so the improvement of this part has a great influence on the overall encoder.

상기와 같은 CELP 음성신호의 경우 피치분석을 위한 구간은 일정 크기 이상으로 늘어날 경우 음질이 급속도로 저하되므로 보통 5ms에서 10ms사이로 결정하여 계산량을 최소화하고 음질을 저하시키지 않도록 한다. 만약, 8KHz의 표본화된 음성신호의 경우라면 보통 피치필터의 파라미터인 피치지연(L)과 피치이득(b))을 구하는 데 있어서 음질이 우수한 폐루프구조를 사용하게 되는데 폐회로 구조에서는 피치지연을 20에서 147까지의 값으로 제한하여, 이 범위내의 제한된 128개의 지연값에 대해 피치이득을 구하고 이를 이용하여 스펙트럼 필터의 잔여신호에 대한 피치필터의 응답을 얻는다. 각각의 경우에 대한 잔여신호들의 평균제곱 오차값을 계산하여 최소값에 해당하는 피치이득(b)과 피치 지연값(L)을 얻으면 최적의 피치필터가 결정된다.In the case of the CELP voice signal as described above, when the interval for pitch analysis increases more than a predetermined size, the sound quality is rapidly deteriorated, so it is usually determined between 5 ms and 10 ms to minimize the amount of calculation and not reduce the sound quality. In case of the sampled speech signal of 8KHz, a closed loop structure with excellent sound quality is used to obtain pitch delay (L) and pitch gain (b), which are parameters of a pitch filter. By limiting to 147, we obtain the pitch gain for the limited 128 delay values within this range and use it to obtain the response of the pitch filter to the residual signal of the spectral filter. The optimum pitch filter is determined by calculating the mean square error value of the residual signals in each case to obtain the pitch gain (b) and the pitch delay value (L) corresponding to the minimum value.

이하, 도면을 참조하여 종래의 피치 이득 및 피치 지연 계산 방법을 설명하면 다음과 같다.Hereinafter, a conventional pitch gain and pitch delay calculation method will be described with reference to the accompanying drawings.

도3은 종래의 피치 검색 방법에 대한 흐름도이다. 도3을 참조하면,, 종래의 피치 검색방법은 먼저, 입력된 음성 신호로부터 40개의 잔여 신호를 생성하고(301), 상기 잔여 신호를 인식 가중화 필터에 통과(302)시킨 후, 피치 지연을 20으로 설정(303)하여, 상기 피치지연에 대한 합성음성(304)을 구한다.3 is a flowchart of a conventional pitch search method. Referring to FIG. 3, the conventional pitch search method first generates 40 residual signals from an input speech signal (301), passes the residual signals through a recognition weighting filter (302), and then adjusts the pitch delay. Set to 20 to obtain a synthesized voice 304 for the pitch delay.

또한, 상기 합성음성과 입력된 음성 신호의 오차를 구한다(305).In addition, an error between the synthesized voice and the input voice signal is obtained (305).

상기 304 및 305 단계는 상기 피치 지연을 147까지 1씩 증가(307)시키며 계속 수행한다. 상기와 같은 일련의 과정이 종료되면, 상기 305 단계에서 구해진 오차 값을 비교하여 오차가 가장 적은 피치 지연과 피치 이득을 선택(308)한다.Steps 304 and 305 continue to increase 307 the pitch delay by 1 up to 147. When the above-described process is completed, the pitch delay and pitch gain having the smallest error are selected by comparing the error values obtained in step 305.

이와 같은 종래의 피치 검색 방법에서 최적의 피치 지연값과 이득을 구하기 위해서는 128번의 페루프에 대한 계산을 항상 반복하게 되므로 하나의 피치 파라미터값을 구하기 위한 계산량이 엄청나게 많아지는 단점이 있다.In order to obtain the optimal pitch delay value and gain in such a conventional pitch search method, since the calculation for the 128 number of Perupes is always repeated, there is a disadvantage in that a large amount of calculation for obtaining one pitch parameter value is required.

[발명이 이루고자 하는 기술적 과제][Technical problem to be achieved]

상기와 같은 단점을 보완하기 위해 본 발명에서는 피치 검색시 정규 필스 검색법에서 사용하였던 잔여 펄스 데시메이션법을 사용하여 피치 검색 시간을 단축하는 방법을 제공하고자 한다.In order to compensate for the above disadvantages, the present invention is to provide a method for shortening the pitch search time by using the residual pulse decimation method used in the regular field search method during the pitch search.

[발명의 구성 및 작용][Configuration and Function of Invention]

본 발명에서 제공하는 정규 필스 여기 방식을 이용한 CELP 보코더의 피치 검색 방법은 입력 음성 신호를 포만트 필터에 통과시켜 다수의 잔여신호를 생성시키는 제1단계와, 상기 제1단계에서 생성된 잔여 신호를 인식 가중화 필터를 통과시키는 제2단계와, 상기 제2단계의 결과 신호를 데시메이션시켜 다수의 잔여 신호를 그룹화하는 제3단계와, 상기 제3단계에서 생성된 다수의 잔여 신호 그룹 중 최적으로 데시메이션된 잔여 신호 그룹을 표본값으로 선택하는 제4단계와, 피치 지연값을 일정간격으로 증가시키면서, 상기 제4단계에서 선택된 표본값에 대해 합성 음성을 구한후 상기 제1단계에서 입력된 음성 신호와의 오차를 구하는 제5단계와, 상기 제6단계 결과 오차가 가장적은 때의 피치 지연과 피치 이득을 선택하는 제6단계로 구성된다.According to the present invention, a pitch search method of a CELP vocoder using the normal fill excitation method includes a first step of passing an input voice signal through a formant filter to generate a plurality of residual signals, and a residual signal generated in the first step. A second step of passing the recognition weighting filter; a third step of decimating the resultant signal of the second step to group a plurality of residual signals; and a plurality of residual signal groups generated in the third step. A fourth step of selecting the decimated residual signal group as a sample value, and obtaining a synthesized voice for the sample value selected in the fourth step while increasing the pitch delay value at a predetermined interval, and then inputting the voice input in the first step. A fifth step of obtaining an error with the signal, and a sixth step of selecting a pitch delay and a pitch gain when the sixth result error is the least.

이하, 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.Hereinafter, with reference to the accompanying drawings will be described in detail the present invention.

도1은 음성 처리 장치의 구성도이고, 도2는 일반적인 CELP 보코더의 Encoding 처리 과정에 대한 흐름도이고, 도4는 본 발명의 실시예에 따른 피치 검색 방법에 대한 흐름도이다.1 is a configuration diagram of a speech processing apparatus, FIG. 2 is a flowchart illustrating an encoding process of a general CELP vocoder, and FIG. 4 is a flowchart illustrating a pitch search method according to an embodiment of the present invention.

도1을 참조하면 본 발명의 발명이 적용되는 음성 처리 장치는 마이크로폰과(100)와, 상기 미이크로폰(100)의 신호를 증폭하는 증폭기(AMP : Amplifier)(101,110)와, 저역 통과 여파기(LPF : Low Pass Filter)(102,109)와, 아날로그와 디지탈간 변환을 하는 ADC (Analog/Digital Converter)(103)와, 입력 포트(104)와, 메모리(105)와, DSP(Digital Signal Processor) 프로세서(106)와, 출력포트(107)와, 디지탈 신호와 아날로그 신호간 변환을 하는 DAC(Digital Analog Converter(108)와, 입출력 포트(120)와, 전송 채절(121)로 구성된다.Referring to FIG. 1, a speech processing apparatus to which the present invention is applied includes a microphone 100, an amplifier 101, 110 for amplifying a signal of the microphone 100, and a low pass filter. LPF: Low Pass Filter (102,109), Analog / Digital Converter (ADC) 103 for converting between analog and digital, input port 104, memory 105, DSP (Digital Signal Processor) processor 106, an output port 107, a DAC (Digital Analog Converter 108) for converting between a digital signal and an analog signal, an input / output port 120, and a transmission channel 121.

상기와 같이 구성된 음성 신호 처리 장치는 마이크로폰(100)을 통해 음파가 전기신호로 변환되면 이를 증폭기(AMP)(101)를 통해 증폭하여, 일정한 레벨로 높이게 된다. 상기 마이크로폰(100)을 통해 입력된 신호의 성분은 음성 신호인 경우에 20Hz∼20KHz 범위의 주파수를 갖는 성분으로 구성된다. 이를 성분중 본 발명을 구현하하기 위해서는 의사전달 정보 성분만 포함하면 되기 때문에 저역통과 여파기(LPF)(102)를 통해 의사전달 정보성분 주파수의 범위인 4KHz 이상 주파수 성분은 제거한다. 이 처럼 특정 주파수 이상의 성분을 제거하는 이유는 이 음성신호를 디지탈로 변환하였을때 1초당 처리할 데이터 수를 줄이기 위함이다.When the sound signal processing apparatus configured as described above converts sound waves into electrical signals through the microphone 100, they are amplified by the amplifier (AMP) 101 and raised to a predetermined level. The component of the signal input through the microphone 100 is a component having a frequency in the range of 20 Hz to 20 KHz in the case of a voice signal. In order to implement the present invention among these components, only the communication information component needs to be included, so the low pass filter (LPF) 102 removes a frequency component of 4KHz or more, which is a range of the frequency of the communication information component. The reason for removing components above a certain frequency is to reduce the number of data to be processed per second when this voice signal is converted to digital.

4KHz 이하의 신호 성분만 남기고 저역여파시킨 신호에 대해 컴퓨터로 이를 처리하기 위해 디지탈 신호로 변화하여야 하는데, 이것은 아날로그를 디지탈로 변환하는 ADC(103)에 의해 표본화한다. 이 때, 디지탈 신호로 표본화하는 율은 나이키스트(Nyquist)의 표본화 이론에 따라 신호 최대주파수(여기서는 4KHz)의 두배인 8KHz로 한다. 또한 한 표본당 전압레벨을 양자화(Quantization)해야 하는데, 전화음질을 기준하기 위해 12비트(212=4096)레벨을 사용하였다.The low-filtered signal, leaving only 4KHz or less signal components, must be converted into a digital signal for processing by a computer, which is sampled by the ADC 103 converting analog to digital. At this time, the sampling rate of the digital signal is 8KHz, which is twice the maximum signal frequency (4KHz in this case) according to Nyquist's sampling theory. In addition, we need to quantize the voltage level per sample. We used a 12-bit (2 12 = 4096) level to refer to the phone quality.

이렇게 처리된 디지탈 음성신호는 상기 DSP 프로세서(106)에서 계산 및 처리하기 위해 상기 입력 포트(104)를 통해 입력된다. 입력된 음성신호 데이타는 소프트웨어 처리과정을 통해 처리한 다음, 필요에 따라서 메모리(105)에 저장시키거나 전송채널(121)에 전송하기 위해 입력/출력포트(120)에 출력한다. 그리고 필요시에는 메모리(105)에서 읽어낸 데이터나, 전송채널(121)을 통해 입력된 데이터를 사용하여 복호화과정을 통해 음성신호를 합성한다. 이 처럼 상기 DSP 프로세서(106)에서 복호화 처리가 완료된 합성된 음성신호는 스피커(111)를 통해 들어보기 위해 출력포트(107)에 전달 된다.The digital voice signal thus processed is input through the input port 104 for calculation and processing by the DSP processor 106. The input voice signal data is processed through a software process and then output to the input / output port 120 for storage in the memory 105 or for transmission to the transmission channel 121 as necessary. If necessary, the voice signal is synthesized through a decoding process using data read from the memory 105 or data input through the transmission channel 121. In this way, the synthesized speech signal, which has been decoded by the DSP processor 106, is transmitted to the output port 107 for listening through the speaker 111.

출력포트에 데이터가 전달되면 이것이 디지탈을 안라로그로 변환하는 변환기(108)(Digital to Analog Converter)에 전달된다. 이 경우에도 표본화율 8KHz 단위로 아날로그 값으로 변환하게 된다. 변환된 신호는 아직 표본화율의 고조파가 포함된 개별신호로 나타나기 때문에, LPF(109)에 통과시켜 기본대역의 신호만 남도록 처리한다. 이렇게 처리된 신호를 스피커를 구동할 수 있도록, AMP(110)에서 증폭하여 스피커(111)에 공급하게 된다. 이로써 처리된 신호를 스피커가 음압파로 변환하여 주기 때문에 인간의 귀를 통해 청취하게 되는 것이다.When data is delivered to the output port, it is passed to a digital to analog converter (108) which converts digital to analog. In this case, too, the sampling rate is converted to analog values in units of 8KHz. Since the converted signal is still represented as an individual signal including harmonics of sampling rate, it is passed through the LPF 109 so that only the signal of the baseband remains. The signal thus processed is amplified by the AMP 110 and supplied to the speaker 111 so as to drive the speaker. In this way, the speaker converts the processed signal into a sound pressure wave, so that it is heard through the human ear.

도2를 참조하면, 상기와 같은 구성의 음성 신호 처리 장치중 CELP 보코더의 엔코딩(Encoding)과정은 음성이 8000 samples/sec로 샘플링(sampling)되어 보코더의 입력으로 들어 가면 20ms에 해당되는 샘플(sample)(160sample)을 하나의 프레임(frame)으로 하여 음성신호를 처리하게 되는데, 먼저, 입력된 음성 신호에서 DC(Direct Current) 성분을 제거(201)한 후, 10개의 LPC(Linear Predictive Coding) 계수(202)를 구한다. 이 때, LPC 계수는 음성의 포만트(formant) 성분을 나타낸다. 상기와 같이 LPC 계수를 구했으면 상기 LPC 계수로부터 양자화 오차에 강한 LSP 주파수로 변환(204)하고, 데이터 전송율을 결정(205)한다.Referring to FIG. 2, the encoding process of the CELP vocoder in the speech signal processing apparatus having the above-described configuration includes a sample corresponding to 20 ms when the voice is sampled at 8000 samples / sec and enters the vocoder input. The voice signal is processed by using 160 samples as one frame. First, a DC (Direct Current) component is removed from the input voice signal (201), and then 10 LPC (Linear Predictive Coding) coefficients are processed. Find (202). At this time, the LPC coefficient represents the formant component of the negative. When the LPC coefficient is obtained as described above, the LPC coefficient is converted from the LPC coefficient to an LSP frequency resistant to quantization error (204), and the data rate is determined (205).

그리고, 상기 203 단계에서 계산된, 한 프레임(20ms)에 대한 LPC 주파수를 5ms의 각 부 프레임(subframe)에 대하여 성형보간(Linear interpolation)한 후 다시 LPC 계수로 변환(206)한 후, 최적의 피치 파라미터와 코드북 파라미터를 얻기위하여 피치검색(207)과 코드북 검색 과정(208)을 거치게 되는 데, 이때, 피치검색(207)은 음질의 저하를 막기위하여 5ms의 음성신호(40sample)에 대하여 한 번씩 수행 하므로, 한 프레임(frame)에 4번의 피치 검색 과정을 거치게 되며, 합성음성을 만들어 입력음성과 비교하여 오차가 최소가 되는 피치지연과 피치이득을 찾게 된다.After linear interpolation of the LPC frequency for one frame (20 ms) calculated in step 203 for each subframe of 5 ms, the signal is converted back to the LPC coefficient (206), and then optimized. In order to obtain the pitch parameter and the codebook parameter, a pitch search 207 and a codebook search process 208 are performed. In this case, the pitch search 207 is performed once for a 5 ms audio signal (40sample) to prevent the sound quality deterioration. As a result, four pitch searching processes are performed in one frame, and the synthesized speech is made and compared with the input speech to find the pitch delay and the pitch gain which minimize the error.

또한, 코드북 검색(208)은 음성의 포만트 성분과 피치 성분을 걸러내고 남은 나머지 잔류신호에 대한 정보를 코드북에서 찾는 과정으로서, 이때도 코드북으로부터 합성된 합성음성과 입력음성을 비교하는 방법으로 비교오차가 최소가 되는 코드북을 찾는다.In addition, the codebook search 208 filters the formant and pitch components of the voice and searches for information on the remaining residual signal in the codebook, and compares the synthesized speech synthesized from the codebook with the input speech. Find the codebook with the least error.

상기와 같이 피치 검색(207) 및 코드북 검색(208)이 종료되면, 상기 검색 결과를 가지고 필터 메모리를 갱신(209)한 후 코드북 부 프레임이 모두 수행되었는지를 확인(210)하여, 코드북 부 프레임이 모두 수행되지 않았으면 상기 208 및 209 단계를 반복 수행하고, 코드북 부 프레임이 모두 수행되었으면 피치 부 프레임이 모두 수행되었는지를 확인(211)하여, 피치 부 프레임이 모두 수행되지 않았으면 상기 206 내지 210 단계를 반복 수행한다.When the pitch search 207 and the codebook search 208 are finished as described above, after updating the filter memory with the search result 209 and confirming that all the codebook subframes have been performed (210), the codebook subframe is Repeat step 208 and step 209 if all have not been performed, and if all the code sub-frames have been performed (211) if all the codebook sub-frames have been performed, and if the pitch sub-frames have not been performed (steps 206 to 210) Repeat.

또한, 상기 211 단계 결과 피치 부 프레임이 모두 수행되었으면 CRC(Cyclic Redundancy Check)코드 생성 및 패킹(Packing)작업을 수행(212)한다.In addition, when the pitch sub-frames are all performed as a result of step 211, a CRC (Cyclic Redundancy Check) code generation and packing operation is performed (212).

이와 같이 160sample (20ms)의 음성 신호에서 구한 LSP 주파수, 피치지연(L), 피치이득(b), 코드북 인덱스(I), 코드북 이득(G)를 160bit 의 데이터로 만들어 주면 8kbps로 음성을 전송할 수 있게된다.In this way, if the LSP frequency, pitch delay (L), pitch gain (b), codebook index (I) and codebook gain (G) obtained from the 160sample (20ms) voice signal are made into 160 bits of data, voice can be transmitted at 8kbps. Will be.

상기와 같은 일련의 과정중 본 발명의 요지가 되는 부분은 상기 207 단계의 피치 검색으로서, 도4를 참조하여 상기 피치 검색 즉, 피치 이득 및 피치 지연 계산 방법을 설명한다.One of the gist of the present invention in the above series of processes is the pitch search in step 207, and the pitch search, that is, the pitch gain and pitch delay calculation method will be described with reference to FIG.

본 발명의 피치 검색 방법은 먼저, 입력된 음성 신호로부터 40개의 잔여 신호를 생성하고(401), 상기 잔여 신호를 인식 가중화 필터에 통과(402)시킨후, 상기 잔여 신호를 1/3의 정규 펄스 여기 간격이 되도록 데시메이션을 수행(403)하여, 잔여 신호의 샘플 갯수가 13개인 4개의 잔여신호 그룹을 식1과 같이 만든다.The pitch search method of the present invention first generates 40 residual signals from the input speech signal (401), passes the residual signals through a recognition weighting filter (402), and then normalizes the residual signals by 1/3 normal. The decimation is performed to have a pulse excitation interval (403), so that four residual signal groups having 13 samples of residual signals are generated as in Equation 1.

[식1][Equation 1]

여기서, m은 데시메이션의 시점을 나타내고, kj는 각 부프레임의 시작점을 나타낸다. 그리고, 상기 403 단계에서 생성된 4가지의 잔여 신호에 대해 다음의 식 2와 같이 에너지를 계산하고, 최대 값이 얻어지는 데이메이션 시점m을 선택하여 최적으로 데시메이션된 잔여 신호를 구하게 된다(404).Here, m represents a start point of decimation and kj represents a start point of each subframe. Then, the energy is calculated for the four residual signals generated in step 403 as shown in Equation 2 below, and the decimation time m at which the maximum value is obtained is selected to obtain an optimal decimated residual signal (404). .

[식2][Equation 2]

위와 같이 4개의 후보 잔여 신호 중에서 선택된 하나의 잔여 신호를 이용하여 피치를 구하게 된다. 피치를 구하는 과정은 처음에 피치 지연을 20으로 설정한(405)후, 위에서 구해진 잔여 신호를 이용하여 합성 음성을 구하여(406) 입력 음성과의 오차를 구하게 된다(407).As described above, a pitch is obtained using one residual signal selected from four candidate residual signals. In the process of obtaining the pitch, the pitch delay is initially set to 20 (405), and then the synthesized speech is obtained using the residual signal obtained above (406) to obtain an error with the input speech (407).

이, 상기 406 및 407 단계는 상기 피치 지연을 147까지 1씩 증가(409)시키며 계속 수행하며, 상기와 같은 일련의 과정이 종료되면, 상기 407 단계에서 구해진 오차 값을 비교하여 오차가 가장 적은 피치 지연과 피치 이득을 선택(410)한다.The steps 406 and 407 continue to increase the pitch delay by 1 up to 147 (409). When the series of processes is completed, the pitches having the smallest error are compared by comparing the error values obtained in the step 407. Delay and pitch gain are selected (410).

이와 같은 본 발명의 방법은 현재의 부프레임에서 포만트 필터를 통과한 원래 음성의 잔여신호에 대해 정규펄스 여기법을 사용하여 1/3로 데시메이션한 다음에 이를 여기신호로 합성한 것을 기준으로 사용하여 피치검색을 수행하므로 합성에 필요한 표본수는 부프레임의 1/3만 필요로하게 되어 피치 검색 구조가 1/3정도로 단축된다.The method of the present invention is based on the decimation of the residual signal of the original voice passing through the formant filter in the current subframe by one-third using a normal pulse excitation method, and then synthesizing it into an excitation signal. Since the pitch search is performed using this method, the number of samples required for synthesis requires only one third of the subframes, which reduces the pitch search structure to about one third.

또한, 본 발명은 CELP 피치검색의 저전송율 특성과 정규 펄스 검색 방식의 고속 검색특성을 함께 이용하였다. 즉, CELP에서의 피치 적응코드북의 검색은 종래의 방식대로 수행하고, 피치 검색시에는 정규 펄스 검색에서 사용 하였던 잔여 펄스 데시메이션법을 사용함으로써 피치 적응코드북에서 피치 지연 마다 코드워드를 3씩 건너뛰면서 합성한 신호와 인지가증화된 편차로 비교를 수행하게 된다.In addition, the present invention uses the low-rate characteristics of the CELP pitch search and the fast-search characteristics of the normal pulse search method. That is, the pitch adaptive codebook search in CELP is performed according to the conventional method, and the pitch adaptive codebook skips 3 codewords for every pitch delay by using the residual pulse decimation method used in the regular pulse search. The synthesized signal is compared with the cognitively enhanced deviation.

상기와 같은 데시메이션 과정을 통해 피치를 검색하면 CELP형 보코더에서의 피치검색에 필요한 계산과정이 기존의 순차(full)검색에 비해 이론적으로 약 1/3 정도로 단축되어야 하나, 종래의 방법 및 본 발명의 방법에서 코드북 검색 시간차를 비교해본 결과, 종래의 피치 검색법은 평균 7.62초가 소요 되었고 제안한 방법으로 평균 3.98초가 소요되어 약 47.8%의 시간 절약이 이 루어 졌다. 이는 피치 검색에 앞서 초기화하는 시간이 필요하기 때문이다.When the pitch is searched through the decimation process as described above, the calculation process required for the pitch search in the CELP-type vocoder should be shortened theoretically by about 1/3 compared to the conventional full search. As a result of comparing the codebook search time difference, the conventional pitch search method takes 7.62 seconds on average and 3.98 seconds on average, which saves 47.8% of the time. This is because the initialization time is required before the pitch search.

이때, 상기의 시간 측정치는 컴퓨터의 기종에 따라 다르기 때문에 CPU의 저속 운용으로 상대적인 시간 단축율만을 비교한 것이다.In this case, since the time measurement value is different depending on the type of computer, only the relative time reduction rate is compared due to the low speed operation of the CPU.

[발명의 효과][Effects of the Invention]

상기와 같이 정규 펄스 검색법을 피치검색에 적용하면 CELP보코더의 실현시에 음질의 저하없이 보코더 전체 처리과정의 피치 검색시간을 약 48%정도로 줄일 수 있으므로, 처리 속도가 낮은 저가의 DSP칩으로도 CELP 보코더의 실시간 구현을 할 수 있으며, 피치검색시에 줄인 계산량 만큼의 처리 과정을 다른 서비스기능을 위해 사용할 수 있으므로 경제적인 CELP보코더 시스템을 설계할 수 있다.Applying the regular pulse search method to the pitch search as described above can reduce the pitch search time of the entire vocoder process to about 48% without degrading the sound quality when realizing the CELP vocoder, so that even a low-cost DSP chip with a low processing speed Real-time implementation of the CELP vocoder can be implemented, and the economical CELP vocoder system can be designed by using the same amount of processing that is reduced during pitch search for other service functions.

또한, 보코더의 처리시간은 소비전력에 직접적인 영향을 주기 때문에 휴대용 보코더의 사용시간을 연장시킬 수 있게 되어, 상품의 대외 경쟁력을 높일 수 있다는 장점이 있다.In addition, since the processing time of the vocoder directly affects the power consumption, the use time of the portable vocoder can be extended, thereby increasing the external competitiveness of the product.

Claims (2)

입력 음성 신호를 포만트 필터에 통과시켜 다수의 잔여신호를 생성시키는 제1단계와, 상기 제1단계에서 생성된 잔여 신호를 인식 가중화 필터를 통과시키는 제2단계와, 상기 제2단계의 결과 신호를 데시메이션시켜 다수의 잔여 신호를 그룹화하는 제3단계와, 상기 제3단계에서 생성된 다수의 잔여 신호 그룹 중 최적으로 데시메이션된 잔여 신호 그룹을 표본값으로 선택하는 제4단계와, 피치 지연값을 일정간격으로 증가시키면서, 상기 제4단계에서 선택된 표본값에 대해 합성 음성을 구한후 상기 제1단계에서 입력된 음성 신호와의 오차를 구하는 제5단계와 상기 제5단계 결과 오차가 가장적은때의 피치 지연과 피치 이득을 선택하는 제6단계로 구성된 것을 특징으로 하는 정규 펄스 여기 방식을 이용한 CELP 보코더의 피치 검색 방법.A first step of generating an input speech signal through a formant filter to generate a plurality of residual signals; a second step of passing the residual signal generated in the first step through a recognition weighting filter; and a result of the second step A third step of decimating a signal to group a plurality of residual signals, a fourth step of selecting an optimal decimated residual signal group among the plurality of residual signal groups generated in the third step as a sample value, and a pitch The resultant error of the fifth step and the fifth step of obtaining the synthesized voice with respect to the sample value selected in the fourth step and increasing the delay value at a predetermined interval are the most A pitch search method of a CELP vocoder using a regular pulse excitation method, comprising a sixth step of selecting a pitch delay and a gain of a small time. 제1항에 있어서, 상기 제3단계는 상기 잔여 신호를 1/3의 정규 펄스 여기 간격이 되도록 데시메이션을 수행하는데, 잔여 신호 13개로 구성된 잔여 신호 그룹을 데시메이션 시점별로 생성하는 것을 특징으로 하는 정규 펄스 여기 방식을 이용한 CELP 보코더의 피치 검색 방법.The method of claim 1, wherein the third step decimates the residual signal to have a normal pulse excitation interval of 1/3, wherein a residual signal group consisting of 13 residual signals is generated for each decimation time point. Pitch Search Method for CELP Vocoder Using Normal Pulse Excitation.
KR1019960064203A 1996-12-11 1996-12-11 Pitch detection method of celp vocoder using normal pulse excitation method KR100205060B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960064203A KR100205060B1 (en) 1996-12-11 1996-12-11 Pitch detection method of celp vocoder using normal pulse excitation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960064203A KR100205060B1 (en) 1996-12-11 1996-12-11 Pitch detection method of celp vocoder using normal pulse excitation method

Publications (2)

Publication Number Publication Date
KR19980045951A KR19980045951A (en) 1998-09-15
KR100205060B1 true KR100205060B1 (en) 1999-06-15

Family

ID=19487173

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960064203A KR100205060B1 (en) 1996-12-11 1996-12-11 Pitch detection method of celp vocoder using normal pulse excitation method

Country Status (1)

Country Link
KR (1) KR100205060B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100446739B1 (en) * 2001-10-31 2004-09-01 엘지전자 주식회사 Delay pitch extraction apparatus

Also Published As

Publication number Publication date
KR19980045951A (en) 1998-09-15

Similar Documents

Publication Publication Date Title
RU2257556C2 (en) Method for quantizing amplification coefficients for linear prognosis speech encoder with code excitation
KR100873836B1 (en) Celp transcoding
EP0673013B1 (en) Signal encoding and decoding system
US6081776A (en) Speech coding system and method including adaptive finite impulse response filter
USRE43099E1 (en) Speech coder methods and systems
KR100544731B1 (en) Method and system for estimating artificial high band signal in speech codec
JPH10207498A (en) Input voice coding method by multi-mode code exciting linear prediction and its coder
US5434947A (en) Method for generating a spectral noise weighting filter for use in a speech coder
US6205423B1 (en) Method for coding speech containing noise-like speech periods and/or having background noise
EP1114414B1 (en) An adaptive criterion for speech coding
KR0155315B1 (en) Celp vocoder pitch searching method using lsp
US5657419A (en) Method for processing speech signal in speech processing system
US20100153099A1 (en) Speech encoding apparatus and speech encoding method
US6377914B1 (en) Efficient quantization of speech spectral amplitudes based on optimal interpolation technique
KR100205060B1 (en) Pitch detection method of celp vocoder using normal pulse excitation method
JP2004302259A (en) Hierarchical encoding method and hierarchical decoding method for sound signal
JP3916934B2 (en) Acoustic parameter encoding, decoding method, apparatus and program, acoustic signal encoding, decoding method, apparatus and program, acoustic signal transmitting apparatus, acoustic signal receiving apparatus
JP3552201B2 (en) Voice encoding method and apparatus
JP2001166800A (en) Voice encoding method and voice decoding method
JP2001265390A (en) Voice coding and decoding device and method including silent voice coding operating with plural rates
KR100263298B1 (en) Pitch search method with correlation characteristic of quantization error in vocoder
KR950001437B1 (en) Method of voice decoding
KR960014427B1 (en) Processing time diminishing method for voice coding
JP3199128B2 (en) Audio encoding method
KR0138878B1 (en) Method for reducing the pitch detection time of vocoder

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080307

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee