KR0156983B1 - Voice coder - Google Patents

Voice coder Download PDF

Info

Publication number
KR0156983B1
KR0156983B1 KR1019950003270A KR19950003270A KR0156983B1 KR 0156983 B1 KR0156983 B1 KR 0156983B1 KR 1019950003270 A KR1019950003270 A KR 1019950003270A KR 19950003270 A KR19950003270 A KR 19950003270A KR 0156983 B1 KR0156983 B1 KR 0156983B1
Authority
KR
South Korea
Prior art keywords
pitch
unvoiced
spectrum
sound
synthesized
Prior art date
Application number
KR1019950003270A
Other languages
Korean (ko)
Other versions
KR960032965A (en
Inventor
오영환
박승종
Original Assignee
윤덕용
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤덕용, 한국과학기술원 filed Critical 윤덕용
Priority to KR1019950003270A priority Critical patent/KR0156983B1/en
Publication of KR960032965A publication Critical patent/KR960032965A/en
Application granted granted Critical
Publication of KR0156983B1 publication Critical patent/KR0156983B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

음성신호에서 선형 예측 분석으로 선형 예측 계수를 추출하고, 피치주기와 유/무성음 정보를 추출하고, 추정되어진 선형 예측 계수와 피치주기, 그리고 유/무성음 정보와 같은 파라미터를 양자화한 후에 전송하는 분석기와, 전송된 10차 선형 예측 계수와 같은 파라미터를 사용하여 음성의 스펙트럼 포락을 계산하고, 이와 같이 생성된 스펙트럼 포락을 피치주기와 각 고조파 대역별 유/무성음 정보를 사용하여 유성음 스펙트럼 포락과 무성음 스펙트럼 포락으로 분리한 뒤에, 분리되어진 스펙트럼 포락을 사용하여 유성음과 무성음을 합성하여, 합성된 유성음과 무성음을 시간영역에서 더하여 합성음을 생성하는 합성기로 구성되어 있으며, 1초당 전송률이 4kbps 이하인 2.9kbps이며, 고품질의 합성음을 출력할 수 있는 음성 부호기를 제공한다.An analyzer that extracts linear prediction coefficients from speech signals, extracts pitch periods and unvoiced sound information, and quantizes parameters such as estimated linear prediction coefficients, pitch periods, and unvoiced sound information, and transmits them; Then, the spectral envelope of the speech is calculated using parameters such as the transmitted tenth order linear prediction coefficient, and the generated spectral envelope is used for the voiced speech envelope and the unvoiced spectrum envelope using pitch periods and voice / voice information of each harmonic band. After synthesized by the separated spectral envelope, synthesized voiced and unvoiced sound is synthesized and synthesized by adding synthesized voiced and unvoiced sound in time domain.It has a 2.9kbps per second transmission rate of 4kbps or less, It provides a speech coder that can output the synthesized sound of.

Description

음성 부호기Voice encoder

제1도는 이 발명의 실시예에 따른 음성 부호기의 전체 구성도이고,1 is an overall configuration diagram of a speech coder according to an embodiment of the present invention,

제2도는 이 발명의 실시예에 따른 음성 부호기에서 유/무성음 정보를 10비트로 양자화하는 방법을 나타낸 도면이고,2 is a diagram illustrating a method of quantizing voiced / unvoiced voice information into 10 bits in a voice encoder according to an embodiment of the present invention.

제3도는 이 발명의 실시예에 따른 음성 부호기의 합성기에서 사용하는 창함수를 나타낸 도면이고,3 is a view showing a window function used in the synthesizer of the speech encoder according to an embodiment of the present invention,

제4도는 이 발명의 실시예에 따른 음성 부호기의 무성음 합성기에서 무성음 합성 스펙트럼을 생성하는 과정을 나타낸 도면이고,4 is a diagram illustrating a process of generating an unvoiced speech spectrum in an unvoiced speech synthesizer of a speech coder according to an embodiment of the present invention.

제5도는 이 발명의 실시예에 따른 음성 부호기의 LSP 계수의 비트 할당을 나타낸 도면이고,5 is a diagram showing bit allocation of LSP coefficients of a speech coder according to an embodiment of the present invention.

제6도는 이 발명의 실시예에 따른 음성 부호기의 집합별 대역 갯수를 나타낸 도면이고,6 is a diagram showing the number of bands per set of speech coders according to an embodiment of the present invention.

제7도는 이 발명의 실시예에 따른 음성 부호기의 비트할당을 나타낸 도면이다.7 is a diagram showing bit allocation of a speech coder according to an embodiment of the present invention.

* 도면의 주요부분에 대한 부호의 설명* Explanation of symbols for main parts of the drawings

10 : LPC 분석기 20 : 피치 추정기10: LPC Analyzer 20: Pitch Estimator

30 : FFT 40 : 유/무성음 추정기30: FFT 40: voiced / unvoiced estimator

50 : 양자회기 60 : 디코더50: quantum circuit 60: decoder

70 : LPC 스펙트럼 포락 추정기 80 : 유성음 합성기70: LPC spectral envelope estimator 80: voiced sound synthesizer

90 : 무성음 합성기90: unvoiced synthesizer

이 발명은 디지털 이동 통신 시스템, 자동 응답 시스템등에서 음성자료를 전송하거나 저장하기 위하여 사용되는 음성 부호기에 관한 것으로서, 더욱 상세하게 말하자면 1초당 전송률이 4kbps 이하인 2.9kbps이며, 고품질의 합성음을 제공할 수 있는 음성 부호기에 관한 것이다.The present invention relates to a voice coder used for transmitting or storing voice data in a digital mobile communication system, an answering machine, and more specifically, 2.9 kbps having a transmission rate of 4 kbps or less per second, which can provide high quality synthesized sound. A voice encoder.

종래에 낮은 전송률을 요구하는 디지틀 이동통신 분야와 자동 응답 시스템 분야에 있어서, 4.8kbps∼8kbps의 전송률에서 성능이 우수하다고 알려진 부호기로서는 벡터 여기 부호기와 다중대역 부호기가 있다.Background Art [0002] In the field of digital mobile communication and automatic answering systems, which require low transmission rates, vector excitation encoders and multiband encoders are known to have excellent performance at transmission rates of 4.8 kbps to 8 kbps.

상기한 벡터 여기 부호기로서는 CELP(Code Excited Linear Prediction), VSELP(Vector Sum Excited Linear Prediction) 등의 부호기가 있다.The vector excitation encoder includes encoders such as CELP (Code Excited Linear Prediction) and VSELP (Vector Sum Excited Linear Prediction).

그러나, 상기한 벡터 여기 부호기는, 음성신호에서 성도 특성정보가 제거된 잔여신호(여기신호)를 벡터 양자화 방법을 사용하여 나타내므로 연산량이 많은 문제점이 있다. 또한, 상기한 벡터 여기 부호기에서는 전송률을 4kbps 이하로 낮출 경우에, 합성음의 음질이 급격하게 저하되는 문제점이 발생한다.However, since the vector excitation encoder indicates a residual signal (excitation signal) from which the vocal characteristic information is removed from the speech signal by using the vector quantization method, there is a problem in that a large amount of calculation is required. In addition, in the vector excitation encoder, when the transmission rate is lowered to 4 kbps or less, a problem arises in that the sound quality of the synthesized sound is sharply degraded.

상기한 다중대역 여기 부호기로서 성능이 우수하다고 평가되는 부호기로는 IMBE(Improved Multi-Band Excitation) 부호기가 있다. 상기한 IMBE 부호기는 4.8kbps의 전송률을 가지며, 합성음의 음질은 전송률 4.8kbps 음성 부호기중에서 가장 뛰어나며, 연산량도 벡터 여기 부호기보다 상대적으로 적은 것으로 평가된다.An encoder that is evaluated to have excellent performance as the multiband excitation encoder is an IMBE (Improved Multi-Band Excitation) encoder. The IMBE coder has a rate of 4.8 kbps, and the sound quality of the synthesized sound is the best among the rate 4.8 kbps speech coders, and the amount of calculation is also estimated to be relatively less than that of the vector excitation coder.

그러나, 상기한 다중대역 여기 부호기에서도 전송률을 4kbps 이하로 낮출 경우에, 연산량이 증가되는 문제점이 발생한다.However, even in the multi-band excitation encoder described above, a problem arises in that the amount of calculation increases when the transmission rate is lowered to 4 kbps or less.

이 발명의 목적은 상기한 바와 같은 종래의 문제점을 해결하기 위한 것으로서, 1초당 전송률이 4kbps이하인 2.9kbps이며, 고품질의 합성음을 출력할 수 있는 음성 부호기를 제공하는데 있다.SUMMARY OF THE INVENTION An object of the present invention is to solve the conventional problems as described above, and to provide a voice encoder capable of outputting a high quality synthesized sound having a transmission rate of 2.9 kbps per second of 4 kbps or less.

상기한 목적을 달성하기 위한 수단으로서 이 발명은, 선형 예측 분석(linear prediction analysis)과 다중대역 여기 방법(multi-band excitation)을 조합한 음원 부호기(source coder)의 일종인 2.9kbps 선형예측-단순화된 다중대역 여기 부호기(Linear Prediction-Simplified Multi-Band Excitation vocoder, LP-SMBE)로 특징된다.As a means for achieving the above object, the present invention provides a 2.9 kbps linear prediction-simplification, which is a type of source coder that combines linear prediction analysis and multi-band excitation. It is characterized by a Linear Prediction-Simplified Multi-Band Excitation Vocoder (LP-SMBE).

여기에서, 음원 부호기란 인간 음성 생성과정을 모델링하여, 음성모델(speech model)을 표현하는 파라미터(parameter)를 추출, 압축하는 부호기를 말한다.Here, the sound source encoder refers to an encoder that models a human speech generation process and extracts and compresses a parameter representing a speech model.

이 발명의 실시예에 따른 음성 부호기에서는, 새로이 제안한 LP-SMPE 음성모델을 사용하여 음성을 부호화한다. 상기한 LP-SMBE 음성모델은 사람의 발성기관을 모의한 것으로서, 음성을 음성 발생의 근원인 음원과 조음기관(혀, 이, 입술 등)에 의한 조음특성으로 분리한 후에, 선형예측 분석을 이용하여 조음특성을 표현하며 다중대역 여기 방법을 이용하여 음원을 표현한다.In the speech encoder according to the embodiment of the present invention, the speech is encoded using the newly proposed LP-SMPE speech model. The LP-SMBE voice model simulates the human vocal organs. The LP-SMBE speech model simulates the human vocal organs. Expresses articulation characteristics and expresses sound source using multi-band excitation method.

이 발명의 실시예에 따른 음성 부호기의 구성은, 음성신호 S(n)에서 선형 예측 계수를 추출하고, 피치주기와 유/무성음 정보를 추출하고, 추정되어진 선형 예측 계수와 피치주기, 그리고 유/무성음 정보와 같은 파라미터는 양자화된 후에 전송하는 분석기와, 전송된 10차 선형 예측 계수와 같은 파라미터를 사용하여 음성의 스펙트럼 포락을 계산하고, 이와 같이 생성된 스펙트럼 포락을 피치주기와 각 고조파 대역별 유/무성음 정보를 사용하여 유성음 스펙트럼 포락과 무성음 스펙트럼 포락으로 분리한 뒤에, 분리되어진 스펙트럼 포락을 사용하여 유성음과 무성음을 합성하여, 합성된 유성음과 무성음을 시간영역에서 더하여 합성음을 생성하는 합성기로 이루어진다.The speech coder according to an embodiment of the present invention is configured to extract linear prediction coefficients from speech signal S (n), extract pitch periods and voice / voice information, and estimate estimated linear prediction coefficients and pitch periods. Parameters such as unvoiced information are calculated by using an analyzer that transmits after quantization and parameters such as the transmitted tenth order linear prediction coefficients, and calculates the spectral envelopes generated in this manner according to the pitch period and each harmonic band. After the voiced voice information is separated into the voiced sound spectral envelope and the unvoiced spectral envelope, the synthesized voiced sound and the unvoiced sound are synthesized using the separated spectral envelope, and the synthesized voiced sound and the unvoiced sound are added in the time domain to generate a synthesized sound.

상기한 분석기는, 조음특성인 성도 특성정보를 추정하는 LPC 분석기와, 피치를 추정하는 피치 추정기와, 음성 분석 구간의 피치에 따라 존재하는 10개∼50개의 고조파 대역의 유/무성음 정보를 추정하는 유/무성음 추정기와, 10차 선형예측 계수를 전송시 채널오류에 영향이 적고, 양자화 특성이 좋은 10차 LSP(Line Spectrum Pair)계수로 변환하는 양자화기로 구성된다.The analyzer includes an LPC analyzer for estimating vocal trait characteristic information, which is an articulation characteristic, a pitch estimator for estimating pitch, and estimation of voice and unvoiced sound information of 10 to 50 harmonic bands according to the pitch of a voice analysis section. Voice / voice estimator and quantizer convert 10th linear prediction coefficients into 10th order LSP (Line Spectrum Pair) coefficients with little effect on channel error and good quantization characteristics.

상기한 LPC 분석기는 기존의 음성 부호기에서 많이 사용하고 있는 선형예측방법을 사용하며, 여기신호를 추정하는 피치 추정기와 유/무성음 추정기는 새로이 제안한 단순화된 대중대역 여기신호 추정방법을 사용한다.The LPC analyzer uses a linear prediction method that is widely used in the existing speech coder, and the pitch estimator and the voice / voice voice estimator which estimate the excitation signal use the newly proposed simplified popular band excitation signal estimation method.

상기한 합성기는, 전송된 LSP 계수와 에너지로부터 스펙트럼 포락을 계산하여 출력하는 LPC 포락 추정기와, 시간영역에서의 합성방법을 이용하여 스펙트럼 영역의 각 고조파에 해당하는 삼각함수들의 합으로써 합성음을 생성하는 유성음 합성기와, 주파수 영역에서의 합성 방법을 이용하여 스펙트럼 포락과 여기 파라미터로부터 무성음 합성 스펙트럼을 구한 후, 역푸리에 변환(inverse FFT)하여 합성음을 생성하는 무성음 합성기로 구성된다.The synthesizer is an LPC envelope estimator that calculates and outputs a spectral envelope from the transmitted LSP coefficients and energy, and generates a synthesized sound as a sum of trigonometric functions corresponding to each harmonic of the spectral region using a synthesis method in a time domain. It is composed of a voiced sound synthesizer and an unvoiced sound synthesizer which obtains an unvoiced sound synthesized spectrum from a spectral envelope and excitation parameters by using a synthesis method in a frequency domain, and then generates inverse FFT.

이하, 이 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 이 발명을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 이 발명의 가장 바람직한 실시예를 첨부된 도면을 참조로 하여 설명하기로 한다.Hereinafter, the most preferred embodiments of the present invention will be described with reference to the accompanying drawings so that those skilled in the art can easily implement the present invention.

제1도는 이 발명의 실시예에 따른 음성 부호기의 전체 구성도이다.1 is an overall configuration diagram of a speech coder according to an embodiment of the present invention.

제1도에 도시되어 있듯이 이 발명의 실시예에 따른 음성 부호기의 구성은, 조음특성인 성도 특성정보를 추정하는 LPC 분석기(10)와, 피치를 추정하는 피치 추정기(20)와, 유/무성음 추정기(40)와, 양자화기(50)와, 디코더(60)와, LPC 스펙트럼 포락 추정기(70)와, 유성음 합성기(80)와, 무성음 합성기(90)로 구성된다.As shown in FIG. 1, the configuration of the speech coder according to the embodiment of the present invention includes an LPC analyzer 10 for estimating vocal tract characteristic information that is an articulation characteristic, a pitch estimator 20 for estimating a pitch, and a voice / voiceless sound The estimator 40, the quantizer 50, the decoder 60, the LPC spectrum envelope estimator 70, the voiced sound synthesizer 80, and the unvoiced sound synthesizer 90 are comprised.

상기한 구성에 의한, 이 발명의 실시예에 따른 음성 부호기의 작용은 다음과 같이 이루어진다.With the above configuration, the operation of the speech coder according to the embodiment of the present invention is performed as follows.

먼저, 이 발명의 전체적인 흐름을 개략적으로 설명하면 다음과 같다.First, the overall flow of the present invention will be described as follows.

음성신호 S(n)가 입력되면, 음성신호 S(n)에서 선형 예측 분석(이하, LPC 분석으로 칭함)으로 선형 예측 계수(LPC 계수)를 추출하고, 피치주기와 유/무성음 정보를 추출한다. 다음으로, 각각의 추정기에서 추정되어진 선형 예측 계수와 피치주기, 그리고 유/무성음 정보와 같은 파라미터는 양자화된 후에, 합성기로 전송된다. 합성기에서는 전송된 10차 선형 예측 계수와 같은 파라미터를 사용하여 음성의 스펙트럼 포락을 계산한다. 이와 같이 생성된 스펙트럼 포락을 피치주기와 각 고조파 대역별 유/무성음 정보를 사용하여 유성음 스펙트럼 포락과 무성음 스펙트럼 포락으로 분리한다. 다음으로, 유성음 합성기와 무성음 합성기에서 분리되어진 스펙트럼 포락을 사용하여 유성음과 무성음을 합성한다. 끝으로, 합성된 유성음과 무성음을 시간영역에서 더하여 합성음을 생성한다.When the voice signal S (n) is input, the linear prediction coefficient (LPC coefficient) is extracted from the voice signal S (n) by linear prediction analysis (hereinafter referred to as LPC analysis), and the pitch period and voice / voice information are extracted. . Next, parameters such as linear prediction coefficients, pitch periods, and voiced / unvoiced information estimated by each estimator are quantized and then transmitted to the synthesizer. The synthesizer calculates the spectral envelope of speech using parameters such as the transmitted tenth order linear prediction coefficients. The generated spectral envelope is separated into a voiced spectral envelope and an unvoiced spectral envelope by using pitch periods and voice / unvoiced information for each harmonic band. Next, voiced sound and unvoiced sound are synthesized using the spectral envelope separated from the voiced sound synthesizer and the unvoiced sound synthesizer. Finally, synthesized voiced and unvoiced sounds are added in the time domain to generate a synthesized sound.

다음에, 이 발명의 구체적인 동작에 관하여 설명하면 다음과 같다.Next, the specific operation of the present invention will be described.

음성신호 S(n)가 분석기의 LPC 분석기(10)로 입력되면, LPC 분석기(10)에서는 (식 1)의 오차 e(N)에 대한 평균 자승 오류(mean square error)를 최소화하는 p(=10)차 선형 예측 계수(αi)와 에너지를 계산한다. 이때, 계산된 선형 예측 계수(αi)는 음성의 조음특성을 반영하게 된다.When the voice signal S (n) is input to the analyzer's LPC analyzer 10, the LPC analyzer 10 uses p (= to minimize the mean square error with respect to the error e (N) of Equation (1). 10) Calculate the order linear prediction coefficient α i and the energy. In this case, the calculated linear prediction coefficient α i reflects the articulation characteristics of the voice.

다음으로, 피치 추정기(20)에서는 정규화된 스펙트럼 비교방법을 사용하여 피치주기를 추정한다. 이 방법은 기존의 방법보다 연산량(computational complexcity)과 지연시간(delay time)이 적은 장점이 있다.Next, the pitch estimator 20 estimates the pitch period using a normalized spectral comparison method. This method has the advantage of lower computational complexity and delay time than the conventional method.

피치 추정기(20)에서 피치주기를 추정하는 과정은 크게 4단계로 구성되며, 이를 상세히 설명하면 다음과 같다.The process of estimating the pitch period in the pitch estimator 20 is largely composed of four steps.

제1단계 : 후보 피치 선정Step 1: Select Candidate Pitch

시간영역에서 자기상관(autocorrelation) 방법을 사용하여 자기상관 함수값을 계산한 후, K(=4)개의 부분 최대치(local maximum)를 후보 피치로 선정한다.After calculating autocorrelation function values using autocorrelation in the time domain, K (= 4) local maximums are selected as candidate pitches.

제2단계 : 정수피치 추정 (정규화된 스펙트럼 영역에서의 스펙트럼 비교방법)Step 2: Integer Pitch Estimation (Spectrum Comparison Method in Normalized Spectral Domain)

제1단계에서 선정된 후보 피치들을 사용하여 K개의 주기적 스펙트럼을 합성한다. 다음으로, 합성 스펙트럼의 첫 번째 고조파 대역을 0에서 1의 값을 갖도록 정규화한다.K periodic spectra are synthesized using the candidate pitches selected in the first step. Next, the first harmonic band of the composite spectrum is normalized to have a value of 0 to 1.

K개의 정규화된 주기적 스팩트럼중에서 다음의 (식 2)의 오차(ε)를 최소화시키는 스펙트럼의 피치를 최종적인 정수 피치로 선택한다.Of the K normalized periodic spectra, the pitch of the spectrum that minimizes the error ε of the following (Equation 2) is selected as the final integer pitch.

여기에서, a1, b1은 각각 해당 후보피치의 첫 번째 고조파 대역의 저역 주파수와 고역 주파수이며, S(ω)는 원음 스펙트럼을 첫 번째 고조파 대역에서 최대값으로 나누어 구한 정규화 스펙트럼이며 E(w)는 후보피치를 사용하여 합성한 정규화 스펙트럼이다.Where a 1 and b 1 are the low and high frequencies of the first harmonic band of the corresponding candidate pitch, respectively, and S (ω) is a normalized spectrum obtained by dividing the original sound spectrum by the maximum value in the first harmonic band and E (w). ) Is a normalized spectrum synthesized using candidate pitches.

상기한 제1단계와 제2단계를 거쳐서 선택된 정수 피치(integer pitch)는 최종적으로 0.5 샘플단위의 비정수 피치(noniteger pitch)로 정교화(refine)된다. 단, 제2 단계에서 선택된 피치의 오류가 일정한 임계치를 초과할 경우에는, 해당 음성구간에는 유성음 성분이 없는 것으로 간주하고 비정수 피치 정교화 과정을 수행하지 않는다.The integer pitch selected through the above first and second steps is finally refined to a noniteger pitch of 0.5 sample units. However, if the error of the pitch selected in the second step exceeds a certain threshold, it is considered that there is no voiced sound component in the corresponding voice section and the non-integer pitch refinement process is not performed.

비정수 피치 추정의 과정은 다음과 같다.The process of non-integer pitch estimation is as follows.

제3단계 : 비정수 피치의 주기적 스펙트럼 합성Step 3: Periodic Spectral Synthesis of Non-Integer Pitch

선정된 정수 피치에 인접한 0.5 샘플간격의 비정수 피치를 사용하여 주기적 스펙트럼을 합성한다.A periodic spectrum is synthesized using a non-integer pitch of 0.5 sample intervals adjacent to the selected integer pitch.

제4단계 : 스펙트럼 비교Step 4: Spectrum Comparison

합성된 스펙트럼 중에서 다음의 (식 3)의 오차(ε)를 최소화시키는 스펙트럼의 비정수 피치를 최종적인 피치 주기로 결정한다.In the synthesized spectrum, the non-integer pitch of the spectrum that minimizes the error ε of the following equation (3) is determined as the final pitch period.

여기에서, P는 피치 주기이며, W(n)은 분석시 사용되는 창함수이다.Where P is the pitch period and W (n) is the window function used in the analysis.

유/무성음 추정기(40)는, 음성 분석 구간의 피치에 따라 존재하는 10개∼50개의 고조파 대역(harmonics)의 유/무성음 정보를 추정한다. 각 고조파 대역의 유/무성음 구분을 결정하기 위하여, 먼저 피치 추정기(20)에서 추정한 피치를 사용하여 주기적 스펙트럼을 합성한다. 다음으로 합성된 주기적 스펙트럼과 정규화된 원음 스펙트럼간의 각 고조파 대역별 오차(εm)를 (식 4)와 같이 계산한다.The voiced / unvoiced estimator 40 estimates voiced and unvoiced voice information of 10 to 50 harmonic bands (harmonics) existing according to the pitch of the voice analysis section. To determine the distinction between voiced and unvoiced sound of each harmonic band, first, a periodic spectrum is synthesized using the pitch estimated by the pitch estimator 20. Next, the error (ε m ) for each harmonic band between the synthesized periodic spectrum and the normalized original sound spectrum is calculated as shown in Equation 4.

상기한 고조파 대역별 오차(εm)가 일정한 임계치보다 작을 경우에, 해당 음성 스펙트럼의 고조파 대역은 추정된 피치를 사용하여 합성한 주기적 스펙트럼과 유사하므로 유성음 고조파 대역으로 결정할 수 있다.When the error of each harmonic band ε m is smaller than a predetermined threshold, the harmonic band of the corresponding speech spectrum is similar to the periodic spectrum synthesized using the estimated pitch, and thus may be determined as a voiced harmonic band.

이와는 반대로, 고조파 대역별 오차(εm)가 임계치보다 클 경우에, 해당 고조파 대역은 주기적 스펙트럼과 유사하지 않으므로 무성음 고조파 대역으로 결정할 수 있다.On the contrary, when the harmonic band error (ε m ) is larger than the threshold, the corresponding harmonic band is not similar to the periodic spectrum, and thus can be determined as an unvoiced harmonic band.

이와 같이 추정된 파라미터는 양자화기(encoder) (50)에서 양자화되어 합성기로 전송된다.The estimated parameter is quantized in an encoder 50 and transmitted to the synthesizer.

양자화기(50)에서는 먼저 10차 선형예측 계수를 전송시 채널오류(channel error)에 영향이 적고, 양자화 특성이 좋은 10차 LSP(Line Spectrum Pair)계수로 변환한다. 이때, LSP 계수는 선형 예측 계수(LPC 계수)의 다른 표현으로 선형 예측 계수보다 양자화 오류에 강한 특성 때문에 음성 부호기 등에서 많이 사용되고 있다.The quantizer 50 first converts the tenth order linear prediction coefficient into a tenth order LSP (Line Spectrum Pair) coefficient having little influence on channel error during transmission and having good quantization characteristics. In this case, the LSP coefficient is another representation of the linear prediction coefficient (LPC coefficient), and thus, the LSP coefficient is used in a speech coder and the like because it is stronger in quantization error than the linear prediction coefficient.

p차 선형 예측 계수에 의해 결정되는 성도 특성 분석 필터의 특성 함수(characteristc function)를 1/A(z)라 하면, LSP 계수는 (식5)로 정의되는 2개의 가상 필터함수Pp(z), Qp(z)의 폴(Pole)들이 존재하는 z평면상에서의 위치를 나타낸다.If the characteristic function of the vocal trait analysis filter determined by the p-order linear prediction coefficient is 1 / A (z), the LSP coefficients are the two virtual filter functions Pp (z), It shows the position on the z plane where the poles of Qp (z) are present.

상기한 Pp(z), Qp(z)는 성도를 성문파가 완전히 반사되는 에너지 손실이 없는 이상적인 공명관으로 가정한 특성함수이므로, 그 스펙트럼은 선스펙트럼(line spectrum)의 형태가 된다. LSP계수에 의해 결정되는 각 폴의 위치는 독립적이어서 특정계수에 오류가 발생하더라도 전체 스펙트럼 포락에는 국소적인 영향만을 미치게 된다.Since Pp (z) and Qp (z) are characteristic functions that assume saints as ideal resonance tubes with no energy loss in which the glottal waves are fully reflected, the spectrum is in the form of a line spectrum. The position of each pole, determined by the LSP coefficients, is independent so that a failure of a particular coefficient has only a local effect on the entire spectral envelope.

양자화기(50)는 변환된 10차 LSP 계수를 모두 34비트로 양자화한다. 양자화시 LSP 계수(LSP1∼LSP10)의 각차수에 제5도에 도시되어 있는 바와 같이 서로 다른 비트를 할당한다. 그리고, 선형 예측 분석과정에서 구한 입력 음성의 에너지는 6비트로 선형양자화한다. 이 에너지 정보는 합성기에서 LPC 스펙트럼 포락을 구하기 위해 LSP 계수와 함께 사용된다.The quantizer 50 quantizes all of the transformed 10th order LSP coefficients to 34 bits. In the quantization, different bits are allocated to the respective orders of the LSP coefficients LSP1 to LSP10 as shown in FIG. The energy of the input speech obtained during the linear prediction analysis is linearly quantized to 6 bits. This energy information is used together with the LSP coefficients to find the LPC spectral envelope in the synthesizer.

다음으로, 양자화기(50)는 추정된 피치를 18 샘플부터 120 샘플까지 0.5 샘플단위로 선형 양자화하여 전송한다.Next, the quantizer 50 linearly quantizes and estimates the estimated pitch from 18 samples to 120 samples in 0.5 sample units.

이 발명의 실시예에 따른 LP-SMBE 음성 모델에서는 하나의 음성 분석구간에 10개에서 50개의 유/무성음 정보가 존재한다. 이 발명에서 제안한 부호기에서는 전송률을 낮추기 위하여 위의 가변정보를 10개의 유/무성음 정보로 고정시켜 변환 전송한다.In the LP-SMBE speech model according to an embodiment of the present invention, there are 10 to 50 voice / voice information in one speech analysis section. In the encoder proposed by the present invention, the above variable information is fixed to 10 voice / unvoiced information in order to reduce the transmission rate, and is transmitted.

상기한 변환과정은 먼저, 10에서 50개의 가변 유/무성음 정보를 제2도에 도시되어 있는 바와 같이 10개의 집합(Set1∼Set10)으로 분류한다. 제2도는 이 발명의 실시예에 따른 음성 부호기에서 유/무성음 정보를 10비트로 양자화하는 방법을 나타낸 도면이다.In the above conversion process, first, 10 to 50 variable voiced / unvoiced sound information is classified into 10 sets (Set 1 to Set 10) as shown in FIG. 2 is a diagram illustrating a method of quantizing voiced / unvoiced voice information into 10 bits in a voice encoder according to an embodiment of the present invention.

음성을 인식할 때 저주파 대역의 정보가 고주파 대역의 정보보다 중요하므로, 제2도에 도시되어 있는 바와 같이, 저주파 대역이 속하는 집합의 대역의 갯수를 고주파 대역이 속한 집합보다 적게 한다.Since the information of the low frequency band is more important than the information of the high frequency band when recognizing the voice, as shown in FIG. 2, the number of bands of the set to which the low frequency band belongs is less than the set to which the high frequency band belongs.

상기한 각 집합(Set1∼Set10)에서의 대역의 갯수를 제6도에 도시하였다.6 shows the number of bands in each of the sets Set1 to Set10 described above.

제6도는 이 발명의 실시예에 따른 음성 부호기의 집합별 대역 갯수를 나타낸 도면이다.6 is a diagram showing the number of bands per set of speech coders according to an embodiment of the present invention.

분류된 10개의 집합(Set1∼Set10)에 대하여 고조파 대역의 유성음 갯수가 과반수를 초과할 경우에, 해당집합에 속하는 대역전체를 유성음 대역으로 결정하여 전송한다. 이와는 반대로, 고조파 대역의 유성음 갯수가 과반수 미만을 경우 무성음 대역으로 결정하여 전송한다.When the number of voiced sounds in the harmonic band is more than half of the 10 sets (Set 1 to Set 10) classified, the entire band belonging to the set is determined as the voiced sound band and transmitted. On the contrary, if the number of voiced sounds in the harmonic band is less than half, the voiced sound band is determined and transmitted.

다음으로, LP-SMBE 부호기에서 각 파라미터의 비트 할당에 대하여 기술하면 제7도에 도시되어 있는 바와 같다. 파라미터의 분석구간의 길이는 25ms이며, 이동길이(shift length)는 20ms이다.Next, the bit allocation of each parameter in the LP-SMBE encoder is illustrated in FIG. The length of the analysis section of the parameter is 25ms and the shift length is 20ms.

먼저, 성도 특성정보를 표현하는 LSP 계수와 에너지값에는 각각 34비트와 6비트를 할당한다. 그리고, 여기신호인 피치주기와 유/무성음 정보에는 각각 8비트와 10비트를 할당한다. 음성구간의 모든 파라미터에 할당하는 총 비트는 58비트이며, 이를 초당 비트할당으로 환산하면 2900비트가 된다.First, 34 bits and 6 bits are allocated to the LSP coefficient and the energy value representing the saint characteristics. Then, 8 bits and 10 bits are allocated to the pitch period and the voiced / unvoiced sound information as the excitation signal. The total number of bits assigned to all parameters in the speech section is 58 bits, which translates into 2900 bits per second.

다음은, 합성기에 대하여 설명하기로 한다.Next, a synthesizer will be described.

합성기에서 음성을 합성하기 위해서, LPC 스펙트럼 포락 추정기(70)는 전송된 LSP 계수와 에너지로부터 스펙트럼 포락(spectral envelop)을 계산한다. 합성음 스펙트럼 포락의 계산과정은 다음과 같다.To synthesize speech in the synthesizer, LPC spectral envelope estimator 70 calculates a spectral envelope from the transmitted LSP coefficients and energy. The calculation process of synthesized sound spectrum envelope is as follows.

제1단계 : 선형 예측 계수로의 변환Step 1: transform to linear prediction coefficients

전송된 LSP 계수를 선형 예측 계수로 변환한다.Convert the transmitted LSP coefficients into linear prediction coefficients.

제2단계 : 스펙트럼 포락 계산Second step: spectral envelope calculation

전송된 에너지 G와 선형 예측 계수의 임펄스 응답(impulse response)을 고속 푸리에 변환(Fast Fourier Transform, FFT)하여 구한를 (식 6)과 같이 계산하여 스펙트럼 포락을 구한다.A fast Fourier transform (FFT) of the impulse response of the transmitted energy G and the linear prediction coefficient Is calculated as (Equation 6) Obtain

위에서 계산된 스펙트럼 포락은 대역별 유/무성음 정보에 따라 유성음 스펙트럼 포락과 무성음 스펙트럼 포락으로 분리된 후, 유성음 합성기(80)와 무성음 합성기(90)로 전달된다.The spectral envelope calculated above is divided into a voiced sound spectrum envelope and an unvoiced spectral envelope according to voice / unvoiced sound information for each band, and then transmitted to the voiced sound synthesizer 80 and the unvoiced sound synthesizer 90.

유성음 합성기(80)에서는 유성음 합성하기 위하여 시간 영역에서의 합성방법을 사용한다. 시간영역에서의 합성방법에서는 스펙트럼 영역의 각 고조파에 해당하는 삼각함수들의 합으로써 합성음을 생성한다. 시간영역에서의 합성방법은 인접 프레임간의 시간적인 불연속이 적다는 장점이 있다.The voiced sound synthesizer 80 uses a synthesis method in the time domain to synthesize voiced sounds. In the synthesis method in the time domain, a synthesized sound is generated by the sum of trigonometric functions corresponding to each harmonic in the spectral domain. The synthesis method in the time domain has the advantage that the temporal discontinuity between adjacent frames is small.

유성음을 합성하기 위한 합성단위는 제3도에 도시되어 있는 바와 같이 합성창 Ws(n)이 이동되는 길이를 기준으로 한다.The synthesis unit for synthesizing the voiced sound is based on the length at which the synthesis window Ws (n) is moved as shown in FIG.

유성기 합성음(80)에서는 유성음을 합성하기 위하여, 먼저 각 고조파 대역에 해당하는 신호 Sv,m(n)를 생성한 후, 생성된 신호들을 (식7)과 같이 시간영역에서 합하여 생성한다.In the meteor synthesized sound 80, in order to synthesize the voiced sound, first, a signal Sv, m (n) corresponding to each harmonic band is generated, and the generated signals are summed and generated in the time domain as shown in Equation (7).

위의 (식 7)에서 Sv,m(n)은 합성 단위내에서의 m번째 고조파에 해당하는 유성음을 나타내며, L(-1)과 L(0)은 이전 프레임과 현재 프레임에 존재하는 고조파 대역의 갯수이다. 이때, (-1)은 이전 프레임의 값을 의미하고, (0)은 현재 프레임의 값을 의미한다.In Equation (7), Sv, m (n) represents the voiced sound corresponding to the mth harmonic in the synthesis unit, and L (-1) and L (0) represent harmonic bands existing in the previous frame and the current frame. The number of At this time, (-1) means the value of the previous frame, (0) means the value of the current frame.

합성 단위내에서 m번째 대역의 유성음은 이전 프레임과 현재 프레임의 m번째 대역의 유성음/무성음 정보에 따라 다음의 5가지 경우로 구분되어 합성된다.Within the synthesis unit, the voiced sound of the mth band is divided and synthesized into the following five cases according to the voiced / unvoiced information of the mth band of the previous frame and the current frame.

경우 1 : 이전 프레임 m번째 대역 = 무성음Case 1: previous frame mth band = unvoiced

현재 프레임 m번째 대역 = 무성음M frame of current frame = unvoiced

이전 프레임과 현재 프레임의 m번째 대역이 모두 무성음이므로 합성 단위내에서의 m번째 유성음은 존재하지 않는다. 그러므로 (식8)과 같이 Sv,m을 0으로 설정한다.Since the m-th band of the previous frame and the current frame are both unvoiced, there is no m-th voiced sound in the synthesis unit. Therefore, set Sv, m to 0 as shown in (8).

경우 2 : 이전 프레임 m번째 대역 = 유성음Case 2: m frame of previous frame = voiced sound

현재 프레임 m번째 대역 = 무성음M frame of current frame = unvoiced

유성음이 존재하는 이전 프레임의 m번째 대역 뒷부분을 (식9)와 같이 코사인(cosine) 함수를 사용하여 생성한다. ω0(-1), Mm(-1), φm(-1)은 각각 이전 프레임의 기본 주파수, 그리고 이전 프레임의 m번째 대역에 해당하는 삼각함수의 진폭과 위상이다.After the m-th band of the previous frame where the voiced sound is present, the cosine function is generated as shown in (9). ω0 (-1), Mm (-1), and φm (-1) are the fundamental frequency of the previous frame and the amplitude and phase of the trigonometric function corresponding to the m-th band of the previous frame, respectively.

경우 3 : 이전 프레임 m번째 대역 = 무성음Case 3: mth band of previous frame = unvoiced

현재 프레임 m번째 대역 = 유성음M frame of current frame = voiced sound

다음의 (식10)을 사용하여 유성음이 존재하는 현재 프레임의 m번째 대역 앞부분 반을 생성한다. ω0(-1), Mm(-1), φm(-1)은 각각 현재 프레임의 기본 주파수, 그리고 현재 프레임의 m번째 대역에 해당하는 삼각함수의 진폭과 위상이다.Using the following equation (10), we create the first half of the m-th band of the current frame where voiced sounds exist. ω0 (-1), Mm (-1), and φm (-1) are the fundamental frequency of the current frame and the amplitude and phase of the trigonometric function corresponding to the m-th band of the current frame, respectively.

경우 4 : 이전 프레임 m번째 대역 = 유성음Case 4: mth band of previous frame = voiced sound

현재 프레임 m번째 대역 = 유성음M frame of current frame = voiced sound

현재 프레임의 피치가 이전 프레임의 피치보다 10%이상 변할 경우, 또는 m〉10 일 경우If the pitch of the current frame changes by 10% or more than the pitch of the previous frame, or m> 10

이전 프레임과 현재 프레임의 m번째 대역의 유성음을 (식11)과 같이 각각 독립적으로 생성한 후, 시간영역에서 중첩 가산(overlap-add) 방법으로 합성한다.After the voiced sounds of the m-th band of the previous frame and the current frame are independently generated as shown in Equation 11, they are synthesized by an overlap-add method in the time domain.

경우 5 : 그외의 경우Case 5: Otherwise

이전 프레임과 현재 프레임의 m번째 대역의 유성음을 한 개의 삼각함수를 사용하여 (식12)와 같이 생성한다.The voiced sound of the m-th band of the previous frame and the current frame is generated using (1) using one trigonometric function.

단, (식12)에서 삼각함수의 진폭 am(n)은 이전 프레임과 현재 프레임에서 m번째 대역의 진폭을 선형보간한 함수로서 (식13)과 같다. 위상 θm(n)은 (식14)와 같이 인접한 앞, 뒤 프레임에서 m번째 대역의 위상의 연속성이 유지될 수 있도록 계산된 함수이다.However, in equation (12), the amplitude am (n) of the trigonometric function is a function of linear interpolation of the amplitude of the m-th band in the previous frame and the current frame, as shown in equation (13). The phase θ m (n) is a function calculated to maintain the continuity of the phase of the m-th band in the adjacent front and rear frames as shown in Equation (14).

이상의 5가지 경우에서 현재 프레임의 m번째 대역의 위상정보 φm(0)은 (식15)와 같이 이전 프레임의 위상정보 φm(-1)과 고조파 대역의 주파수 ω0(-1), ω0(0)을 이용하여 계산한다. 저주파와 고주파 대역 모두에서 위상의 연속성을 유지할 경우에, 합성음에서 잡음(buzziness)이 발생하기 때문에 저주파 대역에서는 인접한 프레임간의 위상의 연속성을 유지시키고 고주파 대역에서는 연속성을 없앤다. 이때, ρm(0)은 -π에서 π사이의 값을 갖는 난수(random number)이고 Luv(0)은 무성음 고조파 대역의 갯수이다.In the above five cases, the phase information φ m (0) of the m-th band of the current frame is represented by Eq. Calculate using When the continuity of phase is maintained in both low and high frequency bands, noise is generated in the synthesized sound, so the continuity of phases between adjacent frames is maintained in the low frequency band and continuity is eliminated in the high frequency band. Where ρm (0) is a random number with a value between -π and π and L uv (0) is the number of unvoiced harmonic bands.

무성음 합성기(90)에서는 주파수 영역에서 무성음 생성한다. 주파수 영역에서의 합성 방법은 스펙트럼 포락과 여기 파라미터로부터 무성음 합성 스펙트럼을 구한 후, 역푸리에 변환(inverse FFT)하여 합성음을 생성한다.The unvoiced synthesizer 90 generates unvoiced sound in the frequency domain. The synthesis method in the frequency domain obtains the unvoiced synthesized spectrum from the spectral envelope and the excitation parameter, and then generates an synthesized sound by inverse FFT.

무성음 합성기(90)는 무성음을 합성하기 위하여, 먼저 매 프레임마다 백색 잡음신호 u(n)을 생성한다. 이와 같이 생성된 백색 잡음신호 u(n)을 FFT하여 잡음 스펙트럼을 생성한다.The unvoiced synthesizer 90 first generates a white noise signal u (n) every frame to synthesize unvoiced sound. The white noise signal u (n) generated as described above is FFTed to generate a noise spectrum.

다음으로, 제4도에 도시되어 있는 바와 같이 잡음 스펙트럼과 분리된 무성음 스펙트럼 포락을 곱하여 무성음 스펙트럼 Uw(w)을 생성한다.Next, as shown in FIG. 4, the unvoiced spectrum Uw (w) is generated by multiplying the noise spectrum by the separated unvoiced spectral envelope.

이와 같이 생성된 무성음 스펙트럼 Uw(w)을 역푸리에 변환하여 시간영역에서의 무성음 신호 Uw(n)을 구한 후, 이전 프레임과 현재 프레임에서 구한 무성음 신호 Uw(n, -1)과 Uw(n-N, 0)으로부터 (식16)과 같이 가중 중첩 가산방법(weighted over lapped add method)을 사용하여 무성음을 합성한다.After the unvoiced spectrum Uw (w) generated as described above is inverse Fourier transformed to obtain the unvoiced signal Uw (n) in the time domain, the unvoiced signal Uw (n, -1) and Uw (nN, From 0), the unvoiced sound is synthesized using a weighted over lapped add method as shown in (16).

위의 (식16)에서 Ws(n)은 합성창이며, N은 160 샘플이다.In Equation 16 above, Ws (n) is a synthesis window, and N is 160 samples.

본 방식에 의하여 음성을 부호화할 경우에, 2.9kbps의 낮은 전송률에서 적은 연산량으로 고품질 재생음을 제공할 수 있는 효과가 있다. 또한, 본 방식은 기존의 4.8kbps 전송률의 부호기보다도 전송률이 낮으면서, 보다 우수한 합성음을 제공하므로 기존 부호기가 이용되는 시스템의 효율을 향상시킬 수 있는 효과가 있다.In the case of encoding the voice by this method, there is an effect of providing a high quality reproduction sound with a small amount of calculation at a low data rate of 2.9 kbps. In addition, the present scheme has a lower transmission rate than the existing 4.8kbps coder and provides a better synthesized sound, thereby improving the efficiency of the system in which the existing encoder is used.

따라서, 디지털 이동통신 시스템과 같이 낮은 전송률의 부호기를 요구하는 분양에 사용하는 경우, 시스템의 용량을 증가시킬 뿐만 아니라 단말기의 가격을 감소시킬 수 있다. 그외에도, 전화기에 사용되는 자동 응답 시스템과 개인용 학습 시스템등에서 이용될 수가 있다.Therefore, when used for the distribution that requires a low bit rate encoder such as a digital mobile communication system, it is possible to increase the capacity of the system and reduce the price of the terminal. In addition, it can be used in the answering machine and personal learning system used in the telephone.

Claims (4)

음성신호로부터 음성의 조음 특성을 나타내는 선형 예측 계수를 선형 예측 분석에 의해 추출하는 선형 예측 계수(LPC) 분석기와; 정규화된 스펙트럼 비교 방법을 이용하여 상기 음성신호로부터 피치 주기를 추정하는 피치 추정기와; 상기 피치 추정기에서 추정한 피치를 이용하여 주기적 스펙트럼을 합성하고, 합성된 주기적 스펙트럼과 정규화된 원음 스펙트럼간의 각 고조파 대역별 오차를 계산하여 음성 구간의 피치에 따라 존재하는 고조파 대역의 유/무성음 정보를 추정하는 유/무성음 추정기와; 상기 선형 예측 계수를 LSP(Line Spectrum Pair) 계수로 변환하고, 상기 LSP 계수, 입력 음성의 에너지, 추정된 피치와 추정된 유/무성음 정보를 양자화하여 전송하는 양자화기와; 상기 전송된 LSP 계수를 LPC 계수로 변환시키고, 상기 LPC 계수와 상기 음성의 에너지로부터 스펙트럼 포락을 계산하여, 대역별 유/무성음 정보에 따라 유성음 스펙트럼 포락과 무성음 스펙트럼 포락으로 분리시키는 LPC 포락 추정기와; 상기 유성음 스펙트럼 포락의 각 고조파에 해당하는 삼각 함수들을 시간 영역에서의 합성 방법을 이용하여 합함으로써 합성음을 생성하는 유성음 합성기와; 주파수 영역에서의 합성 방법을 이용하여 상기 무성음 스펙트럼 포락과 여기 파라메터로부터 무성음 합성 스펙트럼을 구한 후, 역 푸리에 변환하여 합성음을 형성하는 무성음 합성기로 이루어지는 것을 특징으로 하는 음성 부호기.A linear prediction coefficient (LPC) analyzer for extracting linear prediction coefficients representing the articulation characteristics of speech from the speech signal by linear prediction analysis; A pitch estimator for estimating a pitch period from the speech signal using a normalized spectral comparison method; Synthesizes a periodic spectrum using the pitch estimated by the pitch estimator, calculates an error for each harmonic band between the synthesized periodic spectrum and the normalized original sound spectrum, and extracts sound / voice information of the harmonic bands according to the pitch of the speech section. An estimated voiced / unvoiced estimator; A quantizer for converting the linear prediction coefficients into LSP (Line Spectrum Pair) coefficients and quantizing and transmitting the LSP coefficients, energy of an input speech, an estimated pitch, and estimated voiced and unvoiced sound information; An LPC envelope estimator for converting the transmitted LSP coefficients into LPC coefficients, calculating spectral envelopes from the LPC coefficients and the energy of the speech, and separating the voiced spectral envelopes and the unvoiced spectral envelopes according to band-specific voiced / unvoiced information; A voiced sound synthesizer for generating synthesized sound by adding trigonometric functions corresponding to each harmonic of the voiced sound spectrum envelope using a synthesis method in a time domain; And an unvoiced synthesizer which obtains an unvoiced synthesized spectrum from the unvoiced spectral envelope and excitation parameters using a synthesis method in a frequency domain, and then inverse Fourier transforms to form a synthesized sound. 제1항에 있어서, 상기 피치 추정기는 시간영역에서의 자기상관 함수값을 계산하여 K개의 부분 최대치를 후보피치로 선정하고, 선정한 후보 피치를 사용하여 K개의 주기적 스펙트럼을 합성한 후, 다음식의 오차 ε를 최소화시키는 스펙트럼 피치를 정수 피치로 추정하는 것을 특징으로 하는 음성 부호기.The method of claim 1, wherein the pitch estimator calculates autocorrelation function values in the time domain, selects the K partial maximum values as candidate pitches, synthesizes the K periodic spectra using the selected candidate pitch, and then A speech encoder, characterized by estimating a spectral pitch that minimizes the error ε as an integer pitch. (여기서 a1, b1은 각각 해당 후보 피치의 첫 번째 고조파 대역의 저역 주파수와 고역 주파수이며, S(ω)와 E(ω)는 각각 원음 스펙트럼을 첫 번째 고주파 대역에서 최대값으로 나누어 구한 정규화 스펙트럼 값과 후보 피치를 사용하여 합성한 정규화 스펙트럼.) Where a1 and b1 are the low and high frequencies of the first harmonic band of the corresponding candidate pitch, respectively, and S (ω) and E (ω) are the normalized spectrum values obtained by dividing the original sound spectrum by the maximum value in the first high frequency band, respectively. And a normalized spectrum synthesized using the candidate pitch.) 제2항에 있어서, 상기 유/무성음 추정기는 상기 피치 추정기에서 추정한 피치를 사용하여 주기적 스펙트럼을 합성하고, 합성된 주기적 스펙트럼과 정규화된 원음 스펙트럼간의 각 고조파 대역별 오차(εm)을 다음 식에 의해 구하여,The speech / unvoice estimator synthesizes a periodic spectrum using the pitch estimated by the pitch estimator, and calculates an error (ε m ) for each harmonic band between the synthesized periodic spectrum and the normalized original sound spectrum. Obtained by 상기 εm이 임계치보다 작은 경우 유성음 고조파 대역으로 결정하고, 상기 εm이 임계치보다 클 경우 무성음 고조파 대역으로 결정하는 것을 특징으로 하는 음성 부호기.And the ε m is smaller than the threshold, and determines the voiced harmonic band, and when ε m is greater than the threshold, determines the unvoiced harmonic band. 제1항에 있어서, 상기 LPC 포락 추정기는 상기 전송된 에너지 G와 상기 LPC 계수의 임펄스 응답을 고속 푸리에 변환하여 구한를 다음 식과 같이 계산하여 스펙트럼 포락을 구하는 것을 특징으로 하는 음성 부호기.The LPC envelope estimator of claim 1, wherein the LPC envelope estimator is obtained by fast Fourier transforming an impulse response of the transmitted energy G and the LPC coefficient. Is computed as Voice encoder, characterized in that for obtaining.
KR1019950003270A 1995-02-20 1995-02-20 Voice coder KR0156983B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019950003270A KR0156983B1 (en) 1995-02-20 1995-02-20 Voice coder

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019950003270A KR0156983B1 (en) 1995-02-20 1995-02-20 Voice coder

Publications (2)

Publication Number Publication Date
KR960032965A KR960032965A (en) 1996-09-17
KR0156983B1 true KR0156983B1 (en) 1998-11-16

Family

ID=19408470

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019950003270A KR0156983B1 (en) 1995-02-20 1995-02-20 Voice coder

Country Status (1)

Country Link
KR (1) KR0156983B1 (en)

Also Published As

Publication number Publication date
KR960032965A (en) 1996-09-17

Similar Documents

Publication Publication Date Title
JP4662673B2 (en) Gain smoothing in wideband speech and audio signal decoders.
JP4550289B2 (en) CELP code conversion
JP5373217B2 (en) Variable rate speech coding
JP4824167B2 (en) Periodic speech coding
EP0409239B1 (en) Speech coding/decoding method
EP1619664B1 (en) Speech coding apparatus, speech decoding apparatus and methods thereof
US5574823A (en) Frequency selective harmonic coding
US6081776A (en) Speech coding system and method including adaptive finite impulse response filter
EP0878790A1 (en) Voice coding system and method
US6138092A (en) CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency
US6094629A (en) Speech coding system and method including spectral quantizer
EP1222659A1 (en) Lpc-harmonic vocoder with superframe structure
JP2007525707A (en) Method and device for low frequency enhancement during audio compression based on ACELP / TCX
JP2003323199A (en) Device and method for encoding, device and method for decoding
JPH11510274A (en) Method and apparatus for generating and encoding line spectral square root
EP1597721B1 (en) 600 bps mixed excitation linear prediction transcoding
KR0155798B1 (en) Vocoder and the method thereof
JP4578145B2 (en) Speech coding apparatus, speech decoding apparatus, and methods thereof
KR0156983B1 (en) Voice coder
JP4287840B2 (en) Encoder
JP2853170B2 (en) Audio encoding / decoding system
Xydeas An overview of speech coding techniques
JPH02160300A (en) Voice encoding system
GB2352949A (en) Speech coder for communications unit
JPH06195098A (en) Speech encoding method

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20070216

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee