KR20010073377A - A new decision criteria of SID frame of Comfort Noise Generator of voice coder - Google Patents

A new decision criteria of SID frame of Comfort Noise Generator of voice coder Download PDF

Info

Publication number
KR20010073377A
KR20010073377A KR1020000001734A KR20000001734A KR20010073377A KR 20010073377 A KR20010073377 A KR 20010073377A KR 1020000001734 A KR1020000001734 A KR 1020000001734A KR 20000001734 A KR20000001734 A KR 20000001734A KR 20010073377 A KR20010073377 A KR 20010073377A
Authority
KR
South Korea
Prior art keywords
frame
sid
zcr
value
cng
Prior art date
Application number
KR1020000001734A
Other languages
Korean (ko)
Other versions
KR100312335B1 (en
Inventor
김정진
장경아
배명진
Original Assignee
대표이사 서승모
(주)씨앤에스 테크놀로지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 대표이사 서승모, (주)씨앤에스 테크놀로지 filed Critical 대표이사 서승모
Priority to KR1020000001734A priority Critical patent/KR100312335B1/en
Priority to US09/749,786 priority patent/US6687668B2/en
Publication of KR20010073377A publication Critical patent/KR20010073377A/en
Application granted granted Critical
Publication of KR100312335B1 publication Critical patent/KR100312335B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

PURPOSE: A method for determining a new SID(Silence Insertion Descriptor) frame of CNG(Comfortable Noise Generator) in a voice encoder is provided to be capable of decreasing the complexity and a lot of calculation required to LPC(Linear Predictive Coefficient) filter calculation by using a ZCR(zero crossing rate) parameter which can approximately represent a G.723.1 spectrum feature. CONSTITUTION: First, a first frame of a bundle section appeared next to a voice activity section is determined as an SID frame. Then, a ZCR extracted from a first bundle section is obtained. Next, it is determined whether a compared value between the ZCR and a ZCR of the SID frame is within a predetermined range. Then, it is determined whether the index value of energy quantized using energy value provided in COD-CNG has a difference over a predetermined value if the compared value isn't within the predetermined range. In this state, a current frame is set as a new SID frame by determining that a noise signal of the current frame was changed.

Description

음성부호화기 중 쾌적 잡음 발생기의 새로운 SID 프레임 결정방법{A new decision criteria of SID frame of Comfort Noise Generator of voice coder}A new decision criteria of SID frame of Comfort Noise Generator of voice coder

본 발명은 음성부호화기 중 쾌적 잡음 발생기의 새로운 SID 프레임 결정방법에 관한 것이다.The present invention relates to a new SID frame determination method of a comfortable noise generator in a voice encoder.

G.723.1 ANNEX A에서는 잡음 구간에서의 전송률을 감소시키기 위해 VAD(Voice Activity Detector)/CNG(Comfortable Noise Generator)을 사용한다. 이중에서 CNG 알고리즘은 최소의 전송량으로 실제 배경잡음과 유사한 잡음을 생성하기 위한 것이다. CNG 알고리즘은 현재의 묵음구간과 이전의 SID(Silence Insertion Descriptor) 프레임과의 비교를 통하여 현재의 묵음프레임을 SID 프레임으로 선정을 하거나 그렇지 않은 판정을 하고 SID 프레임으로 판정하는 경우에는 복호화단에서 잡음생성에 필요한 파라미터를 전송하게 된다.G.723.1 ANNEX A uses Voice Activity Detector (VAD) / Comfortable Noise Generator (CNG) to reduce the transmission rate in the noise section. Among these, the CNG algorithm is to generate noise similar to the actual background noise with a minimum amount of transmission. The CNG algorithm selects the current silent frame as the SID frame or compares it with the previous Silence Insertion Descriptor (SID) frame. It will send the necessary parameters.

묵음 프레임 동안 CNG 알고리즘은 복호화단에서 단구간 합성필터에 pseudo random noise를 입력하여 쾌적 잡음을 합성해 낸다. 쾌적 잡음을 합성하기 위한 파라미터로는 LPC 합성필터의 계수와 여기신호의 에너지이다. 부호화단에서 현재의 묵음 프레임이 SID 프레임으로 선정된 경우 CNG 알고리즘은 LPC 파라미터들을 LSP 양자화기를 이용하여 양자화하고 여기신호의 에너지를 계산하여 양자화한다.During the silent frame, the CNG algorithm inputs pseudo random noise into the short-term synthesis filter at the decoder to synthesize the comfort noise. Parameters for synthesizing pleasant noise are the coefficients of the LPC synthesis filter and the energy of the excitation signal. When the current silent frame is selected as the SID frame by the encoding end, the CNG algorithm quantizes the LPC parameters by using the LSP quantizer and calculates and quantizes the energy of the excitation signal.

상기와 같은 종래의 CNG 알고리즘은 필요한 LPC 필터 계산이 복잡하고 계산량이 많은 문제점이 있다.The conventional CNG algorithm as described above has a problem in that the calculation of the required LPC filter is complicated and the calculation amount is large.

본 발명은 상기와 같은 문제점을 해결하고자 제시된 것으로서, 본 발명의 목적은 G.723.1 스펙트럼 특성을 근사적으로 표현할 수 있는 ZCR 파라미터를 사용하여 LPC 필터 계산에 필요한 복잡성과 많은 계산량을 줄일 수 있는 알고리즘을 제공하는 데 있다.The present invention has been presented to solve the above problems, and an object of the present invention is to provide an algorithm that can reduce the complexity and the large amount of computation required for the calculation of the LPC filter by using a ZCR parameter that can approximate G.723.1 spectral characteristics. To provide.

상기 본 발명의 목적을 달성하기 위한 기술적 사상으로서, 본 발명은 음성 부호화기에서 잡음 구간에서의 전송률을 감소 시키고 최소의 전송량으로 실제 배경잡음과 유사한 잡음을 생성하는 쾌적 잡음 발생기에 있어서, 음성활동 구간 다음에 나타나는 묵음 구간의 첫 번째 프레임을 SID(Silence Insertion Descriptor) 프레임으로 결정하는 과정과, 첫 번째 묵음 구간에서 추출하는 파라미터 ZCR(Zero Crossing Rate)을 구하는 과정과, 상기 ZCR과 SID 프레임의 ZCR과의 비교를 수행하여 비교치가 설정범위값에 해당하는 지를 판단하는 과정과, 상기 판단과정에서 비교값이 설정범위 값에 해당하지 않는 경우 음성부호화기에서 COD-CNG에서 제공하는 에너지 값을 이용하여 양자화된 에너지의 인덱스가 일정값 이상 차이가 나는 지를 판단하는 과정과, 상기의 경우 현재 프레임의 잡음신호가 변경됐다고 판정하여 새로운 SID 프레임으로 설정하는 과정을 포함하는 것을 특징으로 하는 발명이 제시된다.As a technical idea for achieving the object of the present invention, the present invention provides a comfortable noise generator for reducing the transmission rate in the noise interval in the speech coder and generating a noise similar to the actual background noise with a minimum amount of transmission, Determining the first frame of the silence section as a Silence Insertion Descriptor (SID) frame, obtaining a parameter ZCR (Zero Crossing Rate) extracted from the first silence section, and the ZCR between the ZCR and the SID frame. Determining whether the comparison value corresponds to the set range value by performing a comparison, and when the comparison value does not correspond to the set range value in the determination process, the quantized energy using the energy value provided by the COD-CNG in the voice encoder The process of determining whether the index of the difference is more than a predetermined value, and in the above case the current frame Determining dwaetdago the noise signal changes the invention comprises a process of setting a new SID frame is presented.

도 1은 음성활동검출기(VAD)와 쾌적잡음발생기(CNG) 블록을 갖는 부호화단의 블록구성도이다.1 is a block diagram of an encoding stage having a voice activity detector (VAD) and a comfort noise generator (CNG) block.

도 2는 쾌적잡음발생기의 부호화단에 대한 블록구성도이다.2 is a block diagram of an encoding stage of a comfort noise generator.

도 3은 본 발명에 따른 쾌적잡음발생기의 SID 프레임 결정방법을 나타내는 순서도이다.3 is a flowchart illustrating a method of determining an SID frame of a comfort noise generator according to the present invention.

<도면의 주요부분에 대한 부호의 설명><Description of the symbols for the main parts of the drawings>

1 : G.723.1 부호화기(coder) 2 : 음성활동검출장치(VAD)1: G.723.1 coder 2: Voice activity detection device (VAD)

3 : 부호화단측 쾌적잡음발생기(COD-CNG)3: Coded-side Comfort Noise Generator (COD-CNG)

4 : 다중화장치(MUX)4: MUX

10 : 프레임 자기상관계수 계산기10: frame autocorrelation coefficient calculator

20 : 프레임 타입 추정기20: frame type estimator

30 : SID 파라메타 블록30: SID parameter block

40 : e[n]과 LSP 갱신 블록40: e [n] and LSP update block

이하에서는 본 발명의 실시예의 구성 및 작용에 관하여 첨부된 도면을 참조하여 설명하면 다음과 같다.Hereinafter, with reference to the accompanying drawings with respect to the configuration and operation of the embodiment of the present invention will be described.

도 1은 VAD/CNG를 갖는 부호화단의 블록구성도이다.1 is a block diagram of an encoding stage having VAD / CNG.

도 1에 도시된 바와 같이, 부호화단은 G.723.1 부호화기(1)와, 음성활동검출기(2)와, COD-CNG(3)와, MUX(4)로 구성된다.As shown in Fig. 1, the encoding stage is composed of a G.723.1 encoder 1, a voice activity detector 2, a COD-CNG 3, and a MUX 4.

CNG(Comfort Noise Generator) 알고리즘의 목적은 가능한 적은 전송량으로 실제 배경잡음과 유사한 잡음을 생성하기 위한 것이다. 수신단에서 CNG 알고리즘은 각 프레임의 음성 활동 유무를 결정하는 상기 VAD(Voice Activity Detector)(2) 정보와 전송된 파라미터를 이용하여 인공적인 잡음 신호를 생성해 낸다. 전송된 파라미터들은 음성이 존재하는 프레임에 비해 보다 적은 비트를 요구하면서 음성이 활동하지 않는 구간에서 전송되는 SID(Silence Insertion Descriptor)프레임을 구성한다.The purpose of the Comfort Noise Generator (CNG) algorithm is to generate noise similar to the actual background noise with as little transmission as possible. In the receiver, the CNG algorithm generates an artificial noise signal using the VAD (Voice Activity Detector) 2 information and the transmitted parameters, which determine the presence or absence of voice activity in each frame. The transmitted parameters constitute a Silence Insertion Descriptor (SID) frame that is transmitted in an interval where voice is not active while requiring fewer bits than a frame in which voice is present.

CNG 알고리즘의 주요한 특징은 SID 프레임의 전송이 주기적이 아니라는 것이다. 즉, CNG 알고리즘은 현재의 묵음구간과 이전의 SID 프레임과의 비교를 통하여 현재의 묵음프레임을 SID프레임으로 선정을 하거나 그렇지 않은 판정을 하게 되고 SID 프레임으로 판정하는 경우에는 복호화단에서 잡음생성에 필요한 파라미터를 전송하게 된다. SID 프레임 판정유무는 잡음의 파워 스펙트럼(power spectrum)이 변하는 경우로 한정한다.The main feature of the CNG algorithm is that the transmission of SID frames is not periodic. That is, the CNG algorithm selects the current silent frame as the SID frame or compares it with the previous silent section and the previous SID frame. The parameter will be sent. The presence or absence of SID frame determination is limited to the case where the power spectrum of the noise is changed.

묵음 프레임 동안 CNG 알고리즘은 복호화단에서 단구간 합성필터에 의사 임의 잡음(pseudo random noise)을 입력으로 하여 쾌적 잡음을 합성해 낸다. 쾌적 잡음을 합성하기 위한 파라미터들은 LPC 합성필터의 계수와 여기신호의 에너지이다. 부호화단에서 현재의 묵음 프레임이 SID 프레임으로 선정된 경우 CNG 알고리즘은 LPC 파라메타들을 계산하고, 이 파라미터들은 24 비트 LSP 양자화기를 이용하여 LSP로 양자화된다. 또한 CNG 알고리즘은 여기신호의 에너지를 계산하여 6비트로 양자화된다. 결과적으로 부호화된 SID프레임은 4바이트로 전송되며 여기에는 전송율을 나타내는 2비트와 DTX정보가 포함된다.During the silent frame, the CNG algorithm synthesizes the pleasant noise by inputting pseudo random noise into the short-term synthesis filter at the decoding stage. The parameters for combining pleasant noise are the coefficients of the LPC synthesis filter and the energy of the excitation signal. If the current silent frame is selected as the SID frame at the encoding end, the CNG algorithm calculates LPC parameters, and these parameters are quantized to LSP using a 24-bit LSP quantizer. In addition, the CNG algorithm calculates the energy of the excitation signal and quantizes it into 6 bits. As a result, the encoded SID frame is transmitted in 4 bytes, which includes 2 bits indicating the transmission rate and DTX information.

CNG 알고리즘의 주목할 만한 특징은 각 SID 프레임의 잡음 환경을 고려한 스펙트럼을 모델링하여 전송한다는 것이다. 이것은 입력신호의 지역 거치(local stationarity)와 비거치(non-stationarity)를 고려한 것이다.A notable feature of the CNG algorithm is the modeling and transmission of the spectrum considering the noise environment of each SID frame. This takes into account the local stationarity and non-stationarity of the input signal.

마지막으로, 여기신호는 G.723.1 6.3kbps의 여기신호와 동일하다. 고정 코드북의 여기신호는 오히려 더 나쁜 스펙트럼을 가지고 있기 때문에 보다 나은 백색잡음(white noise)형태의 여기신호를 얻기 위해 장구간 여기신호를 사용한다. 이 알고리즘은 장구간(long term) 파라미터(지연과 이득)와 고정 코드북 파라미터(그리드, 펄스 위치, 부호)를 랜덤하게 선택한다. CNG알고리즘은 전송된 SID에너지로부터 계산된 글로벌 에너지를 얻기 위해 매 두 번째 부프레임 마다 고정 여기 신호의 이득을 계산한다. 여기 신호의 계산에는 부호화단과 복호화단의 동기를 유지하기 위한 알고리즘이 필요하다. 또한 복호화단에서 생성된 잡음은 유성음이 아니므로 처리를 단순화하기 위해 하모닉 포스트필터는 작동되지 않는다.Finally, the excitation signal is the same as the excitation signal of G.723.1 6.3kbps. Since the excitation signal of the fixed codebook has a worse spectrum, the long-term excitation signal is used to obtain an excitation signal in the form of better white noise. The algorithm randomly selects long term parameters (delay and gain) and fixed codebook parameters (grid, pulse position, sign). The CNG algorithm calculates the gain of the fixed excitation signal every second subframe to obtain the calculated global energy from the transmitted SID energy. The calculation of the excitation signal requires an algorithm for maintaining synchronization between the encoding end and the decoding end. In addition, since the noise generated at the decoding stage is not voiced, the harmonic post filter is not operated to simplify the processing.

이 알고리즘은 부호화단과 복호화단에 위치한 두 개의 부분으로 나뉘어지고 각각 COD-CNG, DEC-CNG로 불리운다. 부호화단에서 상기 COD-CNG블록(3)은 각 60개의 샘플을 갖는 부프레임에서 계산된 음성신호와 과거 여기 샘플들과 이전 프레임의 LSP 와의 자기상관함수를 사용한다.The algorithm is divided into two parts located at the encoding end and the decoding end, and are called COD-CNG and DEC-CNG, respectively. In the encoding stage, the COD-CNG block 3 uses a speech signal calculated in a subframe having 60 samples each and an autocorrelation function of past excitation samples and the LSP of the previous frame.

묵음 프레임에서 COD-CNG는 부호화단 안의 로컬 부호화단과 수신단에 있는 복호화단과의 동기를 맞추기 위해 CNG 여기 샘플들을 계산한다.In the silent frame, the COD-CNG calculates the CNG excitation samples to synchronize the local coding end in the coding end with the decoding end in the receiving end.

G.723.1내의 LSP 예측 코딩방법 때문에 CNG 알고리즘은 묵음 구간 동안 유사한 LSP 들의 갱신과정이 수행된다.Because of the LSP predictive coding method in G.723.1, the CNG algorithm performs similar LSP updates during the silent period.

COD-CNG는 부호화된 SID 프레임과 최종 결정된 Ftypt(프레임 t에서 프레임의 종류)를 출력한다. 여기서 Ftypt는 0,1,2를 가지며 각각 비전송(untransmitted), 활성 음성(active speech), SID 프레임을 나타낸다.The COD-CNG outputs the encoded SID frame and the final determined Ftyp t (type of frame in frame t). Where Ftyp t has 0, 1, 2 and represents untransmitted, active speech, and SID frames, respectively.

수신단에서 DEC-CNG 블록은 Ftypt가 0 이거나 2인 묵음구간에서만 동작한다. DEC-CNG는 SID나 비전송 프레임인 경우 SID 프레임 복호화하고, COD-CNG와 동일한 방법으로 현재의 LSP와 여기신호를 계산한다.At the receiving end, the DEC-CNG block operates only in the silent section where Ftyp t is 0 or 2. The DEC-CNG decodes the SID frame in the case of the SID or the non-transmitted frame, and calculates the current LSP and the excitation signal in the same manner as the COD-CNG.

그런 다음 G.723.1 복호화단은 CNG 여기신호와 LSP들을 사용하여 쾌적 잡음을 합성한다.The G.723.1 decoder then synthesizes the pleasant noise using the CNG excitation signal and the LSPs.

COD-CNG블록은 240 샘플의 각 프레임마다 VAD나 코더에서 제공되는 정보를 처리하거나 도 2와 다음의 서술에 나타나 있는 과정에 따라 Ftypt정보와 부호화된 SID프레임을 처리한다.The COD-CNG block processes the information provided by the VAD or coder for each frame of 240 samples, or processes the Ftyp t information and the encoded SID frame according to the procedure shown in FIG. 2 and the following description.

도 2는 CNG의 부호화단에 대한 블록구성도이다.2 is a block diagram of an encoding end of a CNG.

도 2에 도시된 바와 같이, CNG 부호화단은 프레임 자기상관계수 계산기(10)와, 프레임 타입 추정기(20)와, SID파라메타블록(30)와, e[n]과 LSP 갱신블록(40)으로 구성된다.As shown in FIG. 2, the CNG encoding stage includes a frame autocorrelation coefficient calculator 10, a frame type estimator 20, an SID parameter block 30, an e [n], and an LSP update block 40. It is composed.

각 프레임 t에서 i=0∼3까지 인덱스되는 4개 부프레임의 Ri[j],j=0,1,...,10의 자기상관 계수들은 합해진다. 현재 프레임 t의 누적된 자기상관 계수는 다음 식과 같다.The autocorrelation coefficients of R i [j], j = 0,1, ..., 10 of four subframes indexed from i = 0 to 3 in each frame t are summed. The accumulated autocorrelation coefficient of the current frame t is as follows.

,for j=0,1,...,10 , for j = 0,1, ..., 10

만약 현재 프레임 t가 활성(active, VAD=1)이라면, Ftypt=1이 되고 CNG는 동작하지 않는다. 그렇지 않은 경우, SID/비전송(untransmitted) 프레임의 결정은 다음과 같다. 현재 프레임 t의 LPC 필터 At(z)는 입력으로 Rt[j]를 사용하여 듀빈(Durbin) 알고리즘을 이용하여 계산된다. At(z)의 계수들은 at[j], j=1,2,...,10로 표기된다. 듀빈 알고리즘은 또한 프레임의 여기신호 에너지의 추정치로써 사용되는 잔차에너지, Et를 제공한다. 그런 다음 현재 프레임 종류, Ftypt는 다음과 같은 과정을 통해 결정된다.If the current frame t is active (active, VAD = 1), Ftyp t = 1 and the CNG does not operate. Otherwise, the determination of the SID / untransmitted frame is as follows. The LPC filter A t (z) of the current frame t is calculated using the Dubin algorithm using R t [j] as input. The coefficients of A t (z) are denoted by a t [j], j = 1,2, ..., 10. The Dubin algorithm also provides the residual energy, E t , used as an estimate of the excitation signal energy of the frame. Then, the current frame type, Ftyp t, is determined by the following process.

만약 현재 프레임이 비활성(inactive)영역의 첫 번째 비활성프레임이라면 그 프레임은 SID 프레임으로 선택되고, 에너지 합을 반영하는 변수, E는 Et와 동일하게 된다. 그리고 합산에 포함된 프레임의 수를 나타내는 kE는 1로 초기화 된다.If the current frame is the first inactive frame of the inactive region, the frame is selected as the SID frame, and the variable reflecting the energy sum, E, is equal to E t . And k E representing the number of frames included in the sum is initialized to 1.

그렇지 않은 경우, 만약 현재의 필터가 이전의 SID 필터와 현저하게 차이가 나거나 만약 현재 여기 에너지가 이전의 SID 에너지와 현저하게 차이가 난다면 그프레임은 SID(Ftypt=2)로 선택된다.Otherwise, if the current filter is significantly different from the previous SID filter, or if the current excitation energy is significantly different from the previous SID energy, the frame is selected as SID (Ftyp t = 2).

만약 위 2가지 경우에 모두 만족하지 않는 경우, 즉 만약 현재 프레임이 비활성 영역의 첫 번째 프레임도 아니고, 현재 LPC 필터와 여기 에너지가 SID의 LPC 필터와 여기 에너지와 유사한 경우 그 프레임은 전송되지 않는다.(Ftypt=0)If the above two cases are not satisfied, that is, if the current frame is not the first frame of the inactive region, and the current LPC filter and the excitation energy are similar to the LPC filter and the excitation energy of the SID, the frame is not transmitted. (Ftyp t = 0)

LPC 필터들과 에너지들은 다음과 같은 방법에 의해 비교되어진다.LPC filters and energies are compared by the following method.

현재 LPC필터와 SID필터는 다음과 같이 표현되는 두 필터 사이의 이타쿠라 거리가 주어진 임계치를 초과하는 경우 현저하게 차이가 난다고 고려된다.The current LPC filter and the SID filter are considered to be significantly different when the itakura distance between the two filters expressed as follows exceeds a given threshold.

상기 수학식 3에서 Ra[j], j=0,1,...,10은 다음 식과 같이 주어진 SID필터 계수들의 자기상관으로부터 유도된 함수이다.In Equation 3, R a [j], j = 0,1, ..., 10 are functions derived from autocorrelation of given SID filter coefficients as shown in the following equation.

asid[0]=1이며 thr1에 사용된 값은 1.2136이다.a sid [0] = 1 and the value used for thr1 is 1.2136.

kE값은 먼저 최대 3까지 증가된 다음 프레임 에너지들의 합은 계산된다.The k E value is first increased up to 3 and then the sum of the frame energies Is calculated.

그런다음는 6 비트 의사 로그(pseudo logarithmic) 양자화기에 의해 양자화된다. 부호화된 이득 인덱스 GIndt는 이전에 부호화된 SID 이득 인덱스, GIndsid와 비교되어 진다. 만약 그 차이가 임계값, thr2=3을 초과하면 두 개의 에너지들은 현저하게 차이가 난다고 고려된다.after that Is quantized by a 6-bit pseudo logarithmic quantizer. The encoded gain index GInd t is compared with the previously encoded SID gain index, GInd sid . If the difference exceeds the threshold, thr2 = 3, the two energies are considered to be significantly different.

현재 프레임이 SID 프레임일 때 SID 파라미터들은 계산되고 양자화된다. 그러한 파라미터들은 다음의 SID프레임이 올 때 까지 다음의 비활성 프레임에 대한 SID 결정을 위해 사용된다.SID parameters are calculated and quantized when the current frame is an SID frame. Such parameters are used to determine the SID for the next inactive frame until the next SID frame.

먼저, 현재 프레임 이전의 세 개의 프레임에서 계산된 과거 평균 LPC 필터는 입력으로 다음과 같은 자기상관 함수를 갖는 더빈(Durbin)알고리즘을 사용하여 추정된다.First, the historical average LPC filter calculated from three frames before the current frame Is estimated using the Durbin algorithm with the autocorrelation function

자기상관 함수 Rk[j]는 수학식 1에 의해 계산된 누적된 값이다. 과거 평균 LPC 필터 계수들은, j=1,2,...,10와 같다. VAD잡음 LPC필터는 그런 다음 적응 이네이블 플래그(adaptation enable flag) Aent가 다음 식과 같은 경우만을 제외하고를 갖고서 갱신된다.The autocorrelation function R k [j] is a cumulative value calculated by Equation 1. Historical average LPC filter coefficients , j = 1,2, ..., 10 The VAD noise LPC filter is then used only if the adaptation enable flag Aen t is Is updated with

, j=1,2,...,10 , j = 1,2, ..., 10

Then Asid(z)= Then A sid (z) =

현재 LPC 필터 At(z)와 과거 평균 LPC 필터사이의 거리는 VAD와 동일한 방법으로 계산된다. 새로운 SID LPC필터의 계수, asid[j],j=1,2,...,10은 LSP로 변환되고 LSP계수들은 24비트 양자화 과정을 거쳐 양자화된다. 복호화된 값은로 불린다.Current LPC Filter A t (z) and Past Average LPC Filter The distance between them is calculated in the same way as VAD. The coefficients of the new SID LPC filter, a sid [j], j = 1,2, ..., 10, are converted to LSP and the LSP coefficients are quantized through a 24-bit quantization process. The decrypted value It is called

여기신호의 갱신은 SID프레임과 비전송 프레임에 대해 수행된다. 먼저 목적 여기 이득를 현재 프레임 t에서의 합성 여기에서 얻어져야 하는 평균에너지의 제곱근이라고 정의한다.는 다음 식의 스무딩과정을 통하여 계산되어진다.The update of the excitation signal is performed for the SID frame and the untransmitted frame. First purpose gain here Is defined as the square root of the mean energy that should be obtained from the composite excitation at the current frame t. Is calculated through the following smoothing process.

프레임의 240샘플은 60샘플을 갖는 두 개의 부프레임으로 구성된 120 샘플의 두 개의 블록으로 나뉘어 진다. 각 블록에 대해 CNG 여기 샘플들은 다음과 같은 알고리즘을 이용하여 합성된다. 먼저 두 부프레임의 LTP 파라미터들은 선택된다.The 240 samples of the frame are divided into two blocks of 120 samples consisting of two subframes with 60 samples. For each block, CNG excitation samples are synthesized using the following algorithm. First, the LTP parameters of two subframes are selected.

첫 번째 부프레임의 피치 지연은 [123,143]사이에서 랜덤하게 선택된다.The pitch delay of the first subframe is randomly selected between [123, 143].

두 부프레임의 이득 벡터 인덱스들은 120엔트리 이득 코드북의 처음 50 벡터에 해당하는 [0, 49]사이에서 랜덤하게 선택된다.The gain vector indices of the two subframes are randomly selected between [0, 49] corresponding to the first 50 vectors of the 120 entry gain codebook.

두 번째 부프레임 지연 오프셋은 첫 번째 블록에서는 0, 두 번째 블록에서는 3을 갖는다.The second subframe delay offset has 0 in the first block and 3 in the second block.

다음으로 두 부프레임의 고정 코드북 벡터들은 G.723.1 6.3kbps와 같은 구조를 갖도록 그리드, 펄스 부호와 위치를 랜덤하게 선택한다. 그런 다음 독특한 고정 여기 이득은 블록의 두 부프레임에 대해 계산된다. 현재 블록에서 적응 여기 벡터는 u[n],n=0,1,...,119와 같이 표기되고 고정 여기 벡터는 v[n],n=0,1,...,119와 같이 표기된다.Next, the fixed codebook vectors of the two subframes randomly select the grid, pulse code and position to have a structure of G.723.1 6.3kbps. The unique fixed excitation gain is then calculated for the two subframes of the block. In the current block, the adaptive excitation vector is written as u [n], n = 0,1, ..., 119 and the fixed excitation vector is written as v [n], n = 0,1, ..., 119 do.

고정 여기 이득은 목적 에너지에 가장 가까운 블록 평균에너지를 만들어 내는 Gf를 계산함으로써 얻어진다.를 최소로 만드는 Gf를 선택한다. 여기서 Gf는 음의 값을 가질 수도 있다.Fixed excitation gain is the purpose energy It is obtained by calculating Gf which yields the block average energy closest to. Choose the Gf that minimizes Here, Gf may have a negative value.

a,b,c가 다음 식과 같은 값을 갖는 C(X)=aX2+2bX+c를 정의하고where a, b, c defines C (X) = aX 2 + 2bX + c with the value

방정식 C(X)=0이 되도록 하는 Gf를 찾는다. 만약 판별식이 0보다 작거나 같다면 Gf=-b/a이 선택되고, 그렇지 않으면 두 근을 계산한 다음 절대값이 최소가 되는 값을 선택한다. 그리고 Gf는 Gf≤5000이 되도록 바운드된다. 마지막으로 블록CNG 여기는 다음 식을 이용하여 계산된다.Find Gf such that equation C (X) = 0. If the discriminant is less than or equal to 0, then Gf = -b / a is chosen, otherwise the two roots are calculated and the absolute value is chosen to be the minimum. And Gf is bound such that Gf ≦ 5000. Finally, block CNG excitation is calculated using the equation

e[n]=u[n]+Gf×v[n],n=0,1,...,119e [n] = u [n] + Gf × v [n], n = 0,1, ..., 119

수신단에서 DEC-CNG는 합성된 쾌적 잡음을 생성하기 위해 SID프레임과 비전송 프레임을 처리한다.At the receiving end, DEC-CNG processes SID frames and non-transmitted frames to produce synthesized pleasant noise.

G.723.1 CNG블록은 묵음 구간에서의 전송률을 감소시키기 위해 SID프레임을 사용하고 있다. 이 프레임은 잡음구간에서의 LPC필터가 SID프레임의 LPC필터와 비교하여 크게 변화하거나 에너지 값이 크게 변하는 경우 새로운 SID프레임의 파라미터들을 추출하게 되고 이 값들을 전송하게 된다. 하지만 여기에 사용되는 LPC필터를 구성하는 파라미터들을 추출하는 과정의 복잡성과 이에 따른 계산량을 줄이기 위해 간단한 파라미터를 이용하여 SID프레임을 결정하는 알고리즘을 제안한다.G.723.1 CNG blocks use SID frames to reduce the transmission rate in the silent period. This frame extracts the parameters of the new SID frame and transmits these values when the LPC filter in the noise section changes significantly compared to the LPC filter in the SID frame or when the energy value changes significantly. However, in order to reduce the complexity of the process of extracting the parameters constituting the LPC filter used here and the computational amount, the algorithm for determining the SID frame using simple parameters is proposed.

도 3은 본 발명에 따른 쾌적잡음발생기의 SID 프레임 결정방법을 나타내는 순서도이다.3 is a flowchart illustrating a method of determining an SID frame of a comfort noise generator according to the present invention.

도 3에 도시된 바와 같이, SID프레임을 결정하는 알고리즘은 음성활동 구간 다음에 나타나는 묵음 구간의 첫 번째 프레임을 SID(Silence Insertion Descriptor) 프레임으로 결정하는 과정(S10)과, 첫 번째 묵음 구간에서 추출하는 파라미터 ZCR(Zero Crossing Rate)을 구하는 과정(S20)과, 상기 ZCR과 SID 프레임의 ZCR과의 비교를 수행하는 과정 즉 현재 프레임 t에서 구한 ZCRt가 SID프레임의 ZCRsid의 3배보다 크거나 1/3배보다 작은지를 비교판단하는 과정(S30)과, 그렇지 않은 경우 G.723.1에서 COD-CNG에서 제공하는 에너지 값을 이용하여 양자화된 에너지의 인덱스가 3이상 차이가 나는 지를 판단하는 과정(S40)과, 상기의 경우 현재 프레임의 잡음신호가 변경됐다고 판정하여 새로운 SID 프레임으로 설정하는 과정(S50)으로 구성된다.As shown in Figure 3, the algorithm for determining the SID frame is a process of determining the first frame of the silence interval that appears after the voice activity interval (Silence Insertion Descriptor) frame (S10), and extracted from the first silence interval A process of obtaining a parameter ZCR (Zero Crossing Rate) and a process of performing a comparison between the ZCR and the ZCR of the SID frame, that is, the ZCR t obtained in the current frame t is greater than or equal to three times the ZCR sid of the SID frame. Comparative process of determining whether it is smaller than 1/3 times (S30), and if not, the process of determining whether the index of quantized energy differs by 3 or more using the energy value provided by COD-CNG in G.723.1 ( S40), and in this case, it is determined that the noise signal of the current frame has been changed and set to a new SID frame (S50).

먼저 G.723.1 CNG 블록과 동일하게 음성활동 구간 다음에 나타나는 묵음 구간의 첫 번째 프레임은 SID프레임으로 결정하고 이 프레임에서 추출한 파라미터들을 이용하여 다음에 나타나는 묵음 구간과의 비교를 수행하게 된다. 첫 번째 묵음 구간에서 추출하는 파라미터는 ZCR(Zero Crossing Rate)과 에너지이다. 프레임 t에서의 ZCR을 구하는 수식은 다음과 같다.Firstly, the first frame of the silent section following the voice activity section is determined as the SID frame, and the comparison with the next silent section is performed using the parameters extracted from this frame, similar to the G.723.1 CNG block. The parameters extracted in the first silent section are ZCR (Zero Crossing Rate) and energy. The equation for obtaining the ZCR at frame t is as follows.

여기서, sgn[s(n)]=1, s(n)≥0Where sgn [s (n)] = 1, s (n) ≥0

=-1, s(n)<0= -1, s (n) <0

이렇게 얻어진 ZCR은 SID프레임의 ZCR과 비교를 수행한다. 만약 현재 프레임 t에서 구한 ZCRt가 ZCRsid의 3배보다 크거나 1/3배보다 작다면 현재 프레임의 잡음신호가 변경됐다고 판정한다. 그렇지 않은 경우 G.723.1에서 COD-CNG에서 제공하는 에너지 값을 이용하여 양자화된 에너지의 인덱스가 3이상 차이가 난 경우 현재 프레임의 잡음신호가 변경됐다고 판정한다.The ZCR thus obtained compares with the ZCR of the SID frame. If the ZCR t obtained from the current frame t is greater than 3 times or less than 1/3 times the ZCR sid , it is determined that the noise signal of the current frame has been changed. Otherwise, in G.723.1, if the index of quantized energy differs by more than 3 by using the energy value provided by COD-CNG, it is determined that the noise signal of the current frame has been changed.

이상의 설명에서 알 수 있는 바와 같이, 본 발명은 묵음 프레임 동안 쾌적잡음 발생기가 복호화단에서 단구간 합성필터에 의해 의사 임의 잡음을 입력하여 쾌적 잡음을 합성하기 위한 파라미터로 G.723.1 스펙트럼 특성을 근사적으로 표현할 수 있는 ZCR 파라미터를 사용하여 LPC 필터 계산에 필요한 복잡성과 많은 계산량을 감소할 수 있으며 이는 DSP 칩을 이용한 실시간 구현시 이득을 제공하게 된다. CNG알고리즘은 현재의 묵음구간과 이전의 SID프레임과의 비교를 통해 현재의 묵음프레임을 SID프레임으로 선정을 하거나 그렇지 않은 판정을 하고 SID프레임으로 판정하는 경우에는 복호화단에서 잡음생성에 필요한 파라미터를 전송하게 된다.As can be seen from the above description, the present invention approximates G.723.1 spectral characteristics as a parameter for synthesizing pleasant noise by inputting pseudo random noise by a short-term synthesis filter at the decoder stage during the silence frame. Using the ZCR parameter, which can be expressed as, can reduce the complexity and large amount of computation required for LPC filter calculation, which provides the gain in real time implementation using DSP chip. The CNG algorithm selects the current silent frame as the SID frame by comparing the current silent section with the previous SID frame, or transmits the parameters necessary for noise generation in the case of determining that the silent frame is not the SID frame. Done.

Claims (5)

음성부호화기에서 잡음 구간에서의 전송률을 감소 시키고 최소의 전송량으로 실제 배경잡음과 유사한 잡음을 생성하는 쾌적 잡음 발생기에 있어서,In the voice encoder, in the noise generator, it reduces the transmission rate in the noise section and generates the noise similar to the actual background noise with the minimum amount of transmission. 음성활동 구간 다음에 나타나는 묵음 구간의 첫 번째 프레임을 SID(Silence Insertion Descriptor) 프레임으로 결정하는 과정과,Determining the first frame of the silence section following the voice activity section as a Silence Insertion Descriptor (SID) frame, 첫 번째 묵음 구간에서 추출하는 파라미터 ZCR(Zero Crossing Rate)을 구하는 과정과,Obtaining a parameter ZCR (Zero Crossing Rate) extracted from the first silent section, 상기 ZCR과 SID 프레임의 ZCR과 비교하여 비교치가 설정범위 값에 해당하는 지를 판단하는 과정과,Determining whether the comparison value corresponds to a setting range value by comparing with the ZCR of the ZCR and the SID frame; 상기 판단과정에서 비교값이 설정 범위 값에 해당하지 않는 경우 G.723.1에서 COD-CNG에서 제공하는 에너지 값을 이용하여 양자화된 에너지의 인덱스가 일정값 이상 차이가 나는 지를 판단하는 과정과,Determining whether an index of quantized energy differs by a predetermined value or more from the energy value provided by COD-CNG in G.723.1 when the comparison value does not correspond to a set range value in the determination process; 상기의 경우 현재 프레임의 잡음신호가 변경됐다고 판정하여 새로운 SID 프레임으로 설정하는 과정을 포함하는 것을 특징으로 하는 음성부호화기 중 쾌적 잡음 발생기의 새로운 SID 프레임 결정방법.In the above case, it is determined that the noise signal of the current frame has been changed and set to a new SID frame. 청구항 1에 있어서, 상기 설정 범위 값은 현재 프레임 t에서 구한 ZCRt가 SID프레임의 ZCRsid의 3배보다 크거나 1/3배보다 작은지를 비교판단하는 과정인 것을특징으로 하는 음성부호화기 중 쾌적 잡음 발생기의 새로운 SID 프레임 결정방법.The method according to claim 1, wherein the set range value is a process of comparing whether the ZCR t obtained in the current frame t is greater than three times or less than 1/3 times the ZCR sid of the SID frame. New SID frame determination method of generator. 청구항 1에 있어서, 상기 양자화된 에너지의 인덱스가 일정값 이상 차이가 나는 지를 판단하는 과정은 그 일정값이 3이상 인 것을 특징으로 하는 음성부호화기 중 쾌적 잡음 발생기의 새로운 SID 프레임 결정방법.The method of claim 1, wherein the determining of whether the index of the quantized energy differs by a predetermined value is 3 or more. 청구항 2에 있어서, 상기 파라메타 ZCRt를 구하는 식은 다음 식인 것을 특징으로 하는 음성부호화기 중 쾌적 잡음 발생기의 새로운 SID 프레임 결정방법.The method of claim 2, wherein the parameter ZCR t is obtained by the following equation. 4. 청구항 4에 있어서, 상기 sgn[s(n)]의 값은 다음 식과 같은 것을 특징으로 하는 음성부호화기 중 쾌적 잡음 발생기의 새로운 SID 프레임 결정방법.5. The method of claim 4, wherein the value of sgn [s (n)] is as follows. sgn[s(n)]=1, s(n)≥0sgn [s (n)] = 1, s (n) ≥0 =-1, s(n)<0= -1, s (n) <0
KR1020000001734A 1999-12-31 2000-01-14 A new decision criteria of SID frame of Comfort Noise Generator of voice coder KR100312335B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020000001734A KR100312335B1 (en) 2000-01-14 2000-01-14 A new decision criteria of SID frame of Comfort Noise Generator of voice coder
US09/749,786 US6687668B2 (en) 1999-12-31 2000-12-28 Method for improvement of G.723.1 processing time and speech quality and for reduction of bit rate in CELP vocoder and CELP vococer using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000001734A KR100312335B1 (en) 2000-01-14 2000-01-14 A new decision criteria of SID frame of Comfort Noise Generator of voice coder

Publications (2)

Publication Number Publication Date
KR20010073377A true KR20010073377A (en) 2001-08-01
KR100312335B1 KR100312335B1 (en) 2001-11-03

Family

ID=19638627

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000001734A KR100312335B1 (en) 1999-12-31 2000-01-14 A new decision criteria of SID frame of Comfort Noise Generator of voice coder

Country Status (1)

Country Link
KR (1) KR100312335B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8046215B2 (en) 2007-11-13 2011-10-25 Samsung Electronics Co., Ltd. Method and apparatus to detect voice activity by adding a random signal
US8370135B2 (en) 2008-03-26 2013-02-05 Huawei Technologies Co., Ltd Method and apparatus for encoding and decoding

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8046215B2 (en) 2007-11-13 2011-10-25 Samsung Electronics Co., Ltd. Method and apparatus to detect voice activity by adding a random signal
US8370135B2 (en) 2008-03-26 2013-02-05 Huawei Technologies Co., Ltd Method and apparatus for encoding and decoding

Also Published As

Publication number Publication date
KR100312335B1 (en) 2001-11-03

Similar Documents

Publication Publication Date Title
EP0409239B1 (en) Speech coding/decoding method
US6980951B2 (en) Noise feedback coding method and system for performing general searching of vector quantization codevectors used for coding a speech signal
EP1157375B1 (en) Celp transcoding
CN103325375B (en) One extremely low code check encoding and decoding speech equipment and decoding method
JPH03211599A (en) Voice coder/decoder with 4.8 bps information transmitting speed
EP1222659A1 (en) Lpc-harmonic vocoder with superframe structure
JP4438127B2 (en) Speech encoding apparatus and method, speech decoding apparatus and method, and recording medium
JP2008502022A (en) Audio encoding
KR100421648B1 (en) An adaptive criterion for speech coding
JP2008503786A (en) Audio signal encoding and decoding
EP0867862A2 (en) Coding and decoding system for speech and musical sound
US20040181398A1 (en) Apparatus for coding wide-band low bit rate speech signal
KR100312335B1 (en) A new decision criteria of SID frame of Comfort Noise Generator of voice coder
JP3232701B2 (en) Audio coding method
JPH07168596A (en) Voice recognizing device
JP3232728B2 (en) Audio coding method
JP4230550B2 (en) Speech encoding method and apparatus, and speech decoding method and apparatus
KR0156983B1 (en) Voice coder
JP2898641B2 (en) Audio coding device
JPH02160300A (en) Voice encoding system
KR100318335B1 (en) pitch postfilter performance upgrade method of voice signal processing decoder by normalizing energy level of residual signal
JP4373667B2 (en) Adaptive codebook update method, adaptive codebook update device, speech encoding device, and speech decoding device
Kim et al. A 4 kbps adaptive fixed code-excited linear prediction speech coder
JPH034300A (en) Voice encoding and decoding system
EP1334486A2 (en) System for vector quantization search for noise feedback based coding of speech

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20111006

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20120911

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee