WO2012044066A1 - 쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치 - Google Patents

쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치 Download PDF

Info

Publication number
WO2012044066A1
WO2012044066A1 PCT/KR2011/007147 KR2011007147W WO2012044066A1 WO 2012044066 A1 WO2012044066 A1 WO 2012044066A1 KR 2011007147 W KR2011007147 W KR 2011007147W WO 2012044066 A1 WO2012044066 A1 WO 2012044066A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
shaping
codebook
fixed codebook
frame data
Prior art date
Application number
PCT/KR2011/007147
Other languages
English (en)
French (fr)
Inventor
이미숙
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020110097636A external-priority patent/KR101847213B1/ko
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US13/876,691 priority Critical patent/US20130191134A1/en
Publication of WO2012044066A1 publication Critical patent/WO2012044066A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Definitions

  • the present invention relates to a method and apparatus for decoding an audio signal, and more particularly, to a method and apparatus for decoding an audio signal using a shaping function.
  • an encoder for compressing an audio signal converted into a digital signal and a decoder for recovering an audio signal from encoded data are used.
  • One of the most widely used speech codec (encoder and decoder) technologies is Code Excited Linear Prediction (CELP).
  • CELP codec represents an audio signal with a synthesis filter modeling saints and the input signal from the synthesis filter.
  • CELP codecs include G.729 and Adaptive Multi-Rate (AMR) codecs.
  • the encoders of these codecs extract the coefficients of the synthesis filter from the input signal of one frame corresponding to 10 or 20 msec, and divide the frame into subframes of 5 msec again, the pitch index and gain of the adaptive codebook, and the pulse of the fixed codebook. Find the index and gain.
  • the decoder also generates an excitation signal using the pitch index and gain of the adaptive codebook, and the pulse index and gain of the fixed codebook, and restores the audio signal by filtering the excitation signal with a synthesis filter.
  • frame loss may occur according to the state of the communication network.
  • a frame loss concealment algorithm is used.
  • the frame loss concealment algorithm of the CELP codec generally recovers lost frames using normal frame data, random functions, and scaling values before the frame where the frame loss occurs.
  • the fixed codebook when the frame data loss occurs, the fixed codebook is restored by using the shaping function calculated based on the adaptive codebook, thereby emphasizing the pitch period and reducing the influence of the fixed codebook between the pitch periods. It is an object of the present invention to provide an audio signal decoding method and apparatus capable of reducing degradation.
  • a method of decoding an audio signal comprising: receiving frame data of an audio signal, restoring a fixed codebook of frame data by using a random function, and using an adaptive codebook of frame data Calculating a shaping function, shaping the reconstructed fixed codebook using the shaping function, and synthesizing an audio signal from the frame data using the shaped fixed codebook and the adaptive codebook.
  • the present invention provides an apparatus for decoding an audio signal, comprising: an input unit for receiving frame data of an audio signal, a fixed codebook restoring unit for restoring a fixed codebook of frame data using a random function, and shaping using an adaptive codebook of frame data And a shaping unit for calculating a function, shaping a fixed codebook reconstructed using a shaping function, and an audio signal synthesizing unit for synthesizing an audio signal from frame data using the shaped fixed codebook and the adaptive codebook.
  • 1 is a configuration diagram showing a configuration of a CELP encoder.
  • FIG. 2 is a configuration diagram showing a configuration of a CELP decoder.
  • 3 is an adaptive codebook graph of a voice signal frame normally received.
  • 5 is a fixed codebook graph restored by an existing algorithm when frame loss occurs.
  • FIG. 6 is a graph of a fixed codebook calculated by the decoding method of an audio signal according to the present invention when frame loss occurs.
  • FIG. 7 is a flowchart of a method of decoding an audio signal by a CELP decoder.
  • FIG. 8 is a flowchart of a decoding algorithm according to an embodiment of the present invention.
  • FIG. 9 is a block diagram of an audio signal decoding apparatus according to an embodiment of the present invention.
  • 1 is a configuration diagram showing the configuration of a CELP encoder.
  • Preprocessing filter 102 scales the input signal and performs high pass filtering.
  • the input signal may have a length of 10 msec or 20 msec, and is composed of a plurality of subframes.
  • the subframe generally has a length of 5 msec.
  • the LPC obtaining unit 104 extracts a linear prediction coefficient (LPC) corresponding to the coefficient of the synthesis filter from the preprocessed input signal.
  • LPC linear prediction coefficient
  • the LPC obtainer 104 then quantizes the extracted LPC and interpolates with the LPC of the previous frame to obtain the synthesis filter coefficients of each subframe.
  • the pitch analyzer 106 analyzes the pitch of the input signal in units of subframes to obtain a pitch index and a gain of the adaptive codebook.
  • the obtained pitch index is used to reproduce the adaptive codebook value in the adaptive codebook module 112.
  • the fixed codebook search unit 108 retrieves the fixed codebook of the input signal on a subframe basis to obtain a pulse index and a gain of the fixed codebook.
  • the obtained pulse index is used to reproduce the fixed codebook value in the fixed codebook module 110.
  • the adaptive codebook gain and the fixed codebook gain are quantized by the gain quantization unit 122.
  • the output of the fixed codebook module 110 reproduced by the pulse index is multiplied by the quantized fixed codebook gain (114).
  • the output of adaptive codebook module 112 reproduced by the pitch index is then multiplied by the quantized adaptive codebook gain (116).
  • the gain multiplied by the adaptive codebook value and the fixed codebook value are then added to generate an excitation signal.
  • the generated excitation signal is input to the synthesis filter 118. Subsequently, the error between the input signal preprocessed by the preprocessing unit 102 and the output signal of the synthesis filter 118 is filtered by the cognitive weighting filter 120 reflecting the human auditory characteristics, and the pitch at which the error signal is the smallest.
  • the index, the quantized gain, and the pulse index and the quantized gain are obtained and transmitted to the parameter encoder 124.
  • the parameter encoding unit 124 encodes the pitch index of the adaptive codebook, the pulse index of the fixed codebook, the output of the gain quantization unit 122 and the LPC parameters in a form suitable for transmission, and outputs frame data.
  • the output frame data is transmitted to the decoder via a network or the like.
  • FIG. 2 is a configuration diagram illustrating a configuration of a CELP decoder.
  • the decoder reconstructs the fixed codebook 202 and the adaptive codebook 204 through the pulse index and pitch index transmitted from the encoder, respectively.
  • the output of the fixed codebook 202 is then multiplied by the fixed codebook gain (206), and the output of the adaptive codebook 204 is multiplied by the adaptive codebook gain (208).
  • the gain multiplied by the adaptive codebook value and the fixed codebook value are added to recover the excitation signal.
  • the reconstructed excitation signal is filtered by a synthesis filter 210 consisting of coefficients produced by interpolating the LPC coefficients transmitted from the encoder.
  • the output of the synthesis filter 205 is post-processed by the post processor 212 to restore the audio signal.
  • loss of the frame data may occur according to the state of the network. This frame data loss results in degradation of the synthesized audio signal at the decoder. To reduce the degradation of these audio signals, most codecs have a built-in frame loss concealment algorithm.
  • the existing algorithm processes the frame loss as follows.
  • the synthesis filter coefficients of the N-th frame are restored using the synthesis filter coefficients of the N-th frame.
  • the pitch index of the adaptive codebook is reconstructed by using the pitch index of the last subframe of the N-1th frame as it is or using the pitch indexes of the previous subframes.
  • the gains of the adaptive codebook and the fixed codebook are obtained based on the gains of the previous subframes and then scaled.
  • the fixed codebook is restored using a random function instead of a pulse index.
  • the reconstructed data is used to synthesize the audio signal of the lost frame.
  • the adaptive codebook models the pitch, which is a periodic component
  • the fixed codebook models the remaining signal from which the pitch component has been removed.
  • some pitch components remain in the fixed chordbook.
  • 3 shows an adaptive codebook graph of a normally received voiced sound signal frame
  • FIG. 4 shows a fixed codebook graph of a normally received voiced sound signal frame. Referring to FIG. 4, it can be seen that some pitch period components remain in the fixed codebook.
  • FIG. 5 shows a fixed codebook graph restored by an existing algorithm when frame loss occurs. Referring to FIG. 5, it can be seen that no pitch period component remains in the fixed codebook reconstructed by the existing algorithm.
  • the present invention shapes a reconstructed fixed codebook using a random function.
  • the present invention is particularly effective against frame loss in voiced sound intervals.
  • FIG. 6 is a graph of a fixed codebook calculated by the method for decoding an audio signal according to the present invention. Comparing the fixed codebook of the normally received frame data shown in FIG. 4 with the fixed codebook reconstructed by the existing algorithm of FIG. 5 and the fixed codebook reconstructed by the present invention, FIG. It can be seen that the fixed codebook restored by the present invention has a shape closer to the original fixed codebook than the fixed codebook.
  • FIG. 7 is a flowchart of an audio signal decoding method by a CELP decoder.
  • the frame data is normal by receiving the frame data generated by the encoder (701). If the input frame data is normal, the pitch index is decoded as described with reference to FIG. 2 (702), and then the adaptive codebook is used using this pitch index (703), and the fixed codebook is restored (704). After decoding the gain of each codebook (705), the excitation signal is synthesized using these values (706). The excitation signal is filtered using a synthesis filter (707) to reproduce an audio signal.
  • the pitch index of the lost frame is restored from the previous normal frame pitch index (708), and then the adaptive codebook value is used (709).
  • the fixed codebook value is restored using a random function.
  • the gains of the adaptive codebook and the fixed codebook are restored using the codebook gain values of the previous normal frame.
  • the excitation signal is synthesized using the reconstructed codebook value and the gain, and the synthesized excitation signal is filtered by the synthesis filter to output an audio signal.
  • the coefficients of the synthesis filter are also recovered using the filter coefficients of the previous normal frame.
  • FIG. 8 is a flowchart of a decoding algorithm according to an embodiment of the present invention.
  • step 801 if the input frame data is abnormal or missing data, the pitch is restored (802) and the adaptive codebook is restored using the recovered pitch (804). A random function is generated and the fixed codebook is restored using the generated random function (804).
  • the fixed codebook reconstruction 804 may be performed in units of subframes.
  • the fixed codebook thus restored may have a shape as shown in FIG. 5.
  • the shaping function is calculated using the adaptive codebook (805).
  • the shaping function calculation 805 may be performed in subframe units.
  • the shaping function may be calculated by finding a maximum value in the adaptive codebook of the corresponding frame and normalizing the adaptive codebook of the corresponding subframe using the maximum value.
  • the calculated shaping function value may be compared with a predetermined reference value, and when the shaping function value is smaller than the reference value, the corresponding function value may be set to zero. This function value is set to 0 to adjust the number of pulses in the fixed codebook.
  • the restored fixed codebook is shaped (806).
  • shaping 806 of the fixed codebook using the shaping function may be performed only in a stable voiced sound interval.
  • the adaptive codebook and the fixed codebook gain are recovered (807), and the excitation signal is synthesized (808).
  • the audio signal is output through the synthesis filter (809).
  • the present invention when the frame loss occurs, can be generated by applying a pitch shaping function to the fixed codebook restored by the random function to emphasize the periodicity and using the random function as the fixed codebook. Can reduce the noise.
  • FIG. 9 is a block diagram of an audio signal decoding apparatus according to an embodiment of the present invention.
  • An audio signal decoding apparatus 902 includes a fixed codebook reconstruction unit 904, an adaptive codebook reconstruction unit 906, and a shaping unit 908.
  • the audio signal decoding apparatus 902 may further include an input unit that receives frame data of an audio signal and determines whether the input frame data is normal data.
  • the fixed codebook reconstruction unit 904 reconstructs the fixed codebook by using a random function.
  • the fixed codebook reconstruction may be performed in units of subframes.
  • the fixed codebook thus restored may have a shape as shown in FIG. 5.
  • the adaptive codebook reconstruction unit 906 reconstructs the adaptive codebook for audio signal synthesis.
  • the shaping unit 908 calculates a shaping function using the adaptive codebook reconstructed by the adaptive codebook reconstructor 906.
  • the shaping function may be calculated in units of subframes.
  • the shaping unit 908 may obtain a maximum value from the adaptive codebook of the corresponding subframe, and normalize the adaptive codebook of the corresponding subframe using the maximum value to calculate a shaping function. have.
  • the shaping unit 908 may compare the calculated shaping function value with a predetermined reference value, and set the function value to 0 when the shaping function value is smaller than the reference value. This function value is set to 0 to adjust the number of pulses in the fixed codebook.
  • the shaping unit 908 shapes the restored fixed codebook using the calculated shaping function.
  • the shaping unit 908 may perform shaping only in a stable voiced sound section.
  • the adaptive codebook reconstructed by the adaptive codebook reconstruction unit 906 and the fixed codebook output through the shaping unit 908 may be used to synthesize an audio signal in the decoding module as shown in FIG. 2.
  • the audio signal decoding apparatus 902 synthesizes an audio signal using an adaptive codebook restored through the adaptive codebook reconstructor 906 and a fixed codebook output through the shaping unit 908.
  • the apparatus may further include a signal synthesizer.
  • the present invention applies shaping using a shaping function to the fixed codebook reconstructed by a random function. Accordingly, by giving a pitch component to the fixed codebook, the quality of the audio signal synthesized from the lost frame data can be improved. In other words, when frame data loss occurs, the present invention recovers the fixed codebook using a shaping function calculated based on the adaptive codebook, thereby emphasizing the pitch period and reducing the influence of the fixed codebook between the pitch periods. There is an effect that can reduce the degradation.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 쉐이핑 함수를 이용한 오디오 신호의 디코딩 방법 및 장치에 관한 것이다. 본 발명의 일 실시예에 따른 오디오 신호를 디코딩하는 방법은, 오디오 신호의 프레임 데이터를 입력받는 단계, 랜덤 함수를 이용하여 프레임 데이터의 고정 코드북을 복원하는 단계, 프레임 데이터의 적응 코드북을 이용하여 쉐이핑 함수를 계산하는 단계, 쉐이핑 함수를 이용하여 복원된 고정 코드북을 쉐이핑하는 단계 및 쉐이핑된 고정 코드북 및 적응 코드북을 이용하여, 프레임 데이터로부터 오디오 신호를 합성하는 단계를 포함한다. 본 발명에 의하면 프레임 데이터 손실이 발생했을 경우, 적응 코드북을 기반으로 계산된 쉐이핑 함수를 이용하여 고정 코드북을 복원함으로써, 피치 주기를 강조하고 피치 주기 사이의 고정 코드북 영향을 줄여 합성된 신호의 품질 저하를 줄일 수 있는 효과가 있다.

Description

쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치
본 발명은 오디오 신호를 디코딩하는 방법 및 장치에 관한 것으로, 보다 상세하게는 쉐이핑 함수를 이용한 오디오 신호의 디코딩 방법 및 장치에 관한 것이다.
음성(오디오) 통화를 위한 음성(오디오) 신호를 통신망으로 전송하기 위해서, 디지털 신호로 변환된 오디오 신호를 압축하는 인코더와 인코딩된 데이터로부터 오디오 신호를 복원하는 디코더가 사용된다. 가장 널리 사용되는 음성 코덱(인코더와 디코더) 기술 중 하나는 CELP(Code Excited Linear Prediction)이다. CELP 코덱은 성도를 모델링하는 합성 필터와 이 합성 필터의 입력 신호로 오디오 신호를 표현한다.
대표적인 CELP 코덱으로는 G.729와 AMR(Adaptive Multi-Rate)코덱이 있다. 이들 코덱의 인코더는 10 또는 20 msec에 해당하는 한 프레임의 입력 신호로부터 합성 필터의 계수를 추출하고, 이 프레임을 다시 5 msec의 서브프레임으로 나누어 적응 코드북의 피치 인덱스와 이득, 그리고 고정 코드북의 펄스 인덱스와 이득을 구한다. 또한 디코더는 적응 코드북의 피치 인덱스와 이득, 고정 코드북의 펄스 인덱스와 이득을 이용하여 여기 신호를 만들고, 이 여기 신호를 합성 필터로 필터링함으로써 오디오 신호를 복원한다.
인코더에서 출력되는 프레임 데이터를 전송하는 과정에서, 통신망의 상태에 따라 프레임 손실이 발생할 수 있다. 이러한 프레임 손실로 인한 합성 신호의 품질 저하를 줄이기 위해, 프레임 손실 은닉 알고리즘이 사용된다. CELP 코덱의 프레임 손실 은닉 알고리즘에서는 일반적으로 프레임 손실이 발생한 프레임 이전의 정상 프레임 데이터, 랜덤함수 그리고 스케일링 값을 이용하여 손실된 프레임을 복원한다.
본 발명은 프레임 데이터 손실이 발생했을 경우, 적응 코드북을 기반으로 계산된 쉐이핑 함수를 이용하여 고정 코드북을 복원함으로써, 피치 주기를 강조하고, 피치 주기 사이의 고정 코드북 영향을 줄임으로써 합성된 신호의 품질 저하를 줄일 수 있는 오디오 신호 디코딩 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
이러한 목적을 달성하기 위한 본 발명은 오디오 신호를 디코딩하는 방법에 있어서, 오디오 신호의 프레임 데이터를 입력받는 단계, 랜덤 함수를 이용하여 프레임 데이터의 고정 코드북을 복원하는 단계, 프레임 데이터의 적응 코드북을 이용하여 쉐이핑 함수를 계산하는 단계, 쉐이핑 함수를 이용하여 복원된 고정 코드북을 쉐이핑하는 단계 및 쉐이핑된 고정 코드북 및 적응 코드북을 이용하여, 프레임 데이터로부터 오디오 신호를 합성하는 단계를 포함하는 것을 일 특징으로 한다.
또한 본 발명은 오디오 신호를 디코딩하는 장치에 있어서, 오디오 신호의 프레임 데이터를 입력받는 입력부, 랜덤 함수를 이용하여 프레임 데이터의 고정 코드북을 복원하는 고정 코드북 복원부, 프레임 데이터의 적응 코드북을 이용하여 쉐이핑 함수를 계산하고, 쉐이핑 함수를 이용하여 복원된 고정 코드북을 쉐이핑하는 쉐이핑부 및 쉐이핑된 고정 코드북 및 적응 코드북을 이용하여, 프레임 데이터로부터 오디오 신호를 합성하는 오디오 신호 합성부를 포함하는 것을 다른 특징으로 한다.
전술한 바와 같은 본 발명에 의하면, 프레임 데이터 손실이 발생했을 경우, 적응 코드북을 기반으로 계산된 쉐이핑 함수를 이용하여 고정 코드북을 복원함으로써, 피치 주기를 강조하고 피치 주기 사이의 고정 코드북 영향을 줄여 합성된 신호의 품질 저하를 줄일 수 있는 효과가 있다.
도 1은 CELP 인코더의 구성을 나타내는 구성도.
도 2는 CELP 디코더의 구성을 나타내는 구성도.
도 3은 정상적으로 수신된 유성음 신호 프레임의 적응 코드북 그래프.
도 4는 정상적으로 수신된 유성음 신호 프레임의 고정 코드북 그래프.
도 5는 프레임 손실이 발생했을 때, 기존 알고리즘에 의해 복원된 고정 코드북 그래프.
도 6은 프레임 손실이 발생했을 때, 본 발명에 의한 오디오 신호의 디코딩 방법에 의해 계산된 고정 코드북의 그래프.
도 7은 CELP 디코더에 의한 오디오 신호의 디코딩 방법의 흐름도.
도 8은 본 발명의 일 실시예에 의한 디코딩 알고리즘의 흐름도.
도 9는 본 발명의 일 실시예에 의한 오디오 신호 디코딩 장치의 구성도.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용된다.
도 1은 CELP 인코더의 구성을 나타내는 구성도이다.
전처리 필터(102)는 입력 신호를 스케일링하고, 고대역 통과 필터링을 수행한다. 이 때 입력 신호는 10msec 또는 20msec의 길이를 가질 수 있으며, 복수의 서브프레임으로 구성된다. 이 때 서브프레임은 일반적으로 5msec의 길이를 갖는다.
LPC 획득부(104)는 전처리된 입력 신호로부터, 합성 필터의 계수에 해당하는 선형 예측 계수(Linear Prediction Coefficient: LPC)를 추출한다. 그리고 나서 LPC 획득부(104)는 추출된 LPC를 양자화하고, 이전 프레임의 LPC와 인터폴레이션하여 각 서브프레임의 합성 필터 계수를 획득한다.
피치 분석부(106)는 서브프레임 단위로 입력 신호의 피치를 분석하여 적응 코드북의 피치 인덱스와 이득을 획득한다. 획득된 피치 인덱스는 적응 코드북 모듈(112)에서 적응 코드북 값을 재생하는데 사용된다. 그리고 고정 코드북 검색부(108)는 서브프레임 단위로 입력 신호의 고정 코드북을 검색하여 고정 코드북의 펄스 인덱스와 이득을 획득한다. 획득된 펄스 인덱스는 고정 코드북 모듈(110)에서 고정 코드북 값을 재생하는데 사용된다. 적응 코드북 이득과 고정 코드북 이득은 이득 양자화부(122)에 의해 양자화된다.
펄스 인덱스에 의해 재생된 고정 코드북 모듈(110)의 출력은 양자화된 고정 코드북 이득과 곱해진다(114). 그리고 피치 인덱스에 의해 재생된 적응 코드북 모듈(112)의 출력은 양자화된 적응 코드북 이득과 곱해진다(116). 이렇게 이득이 곱해진 적응 코드북 값과 고정 코드북 값이 더해져서 여기 신호가 생성된다.
생성된 여기 신호는 합성 필터(118)로 입력된다. 이후, 전처리부(102)에서 전처리된 입력 신호와 합성 필터(118)의 출력 신호의 오차를 사람의 청각적 특성을 반영한 인지 가중 필터(120)로 필터링한 후, 이 오차 신호가 가장 작아지는 피치 인덱스와 양자화된 이득, 그리고 펄스 인덱스와 양자화된 이득을 구하여 파라미터 인코딩부(124)로 전달한다. 파라미터 인코딩부(124)에서는 적응 코드북의 피치 인덱스, 고정 코드북의 펄스 인덱스, 그리고 이득 양자화부(122)의 출력 및 LPC 파라미터를 전송에 적합한 형태로 인코딩하여 프레임 데이터를 출력한다. 출력된 프레임 데이터는 네트워크 등을 통해 디코더로 전송된다.
도 2는 CELP 디코더의 구성을 나타내는 구성도이다.
디코더는 인코더로부터 전송된 펄스 인덱스와 피치 인덱스를 통해 각각 고정 코드북(202)과 적응 코드북(204)을 복원한다. 그리고 나서, 고정 코드북(202)의 출력에 고정 코드북 이득이 곱해지고(206), 적응 코드북(204)의 출력에 적응 코드북 이득이 곱해진다(208). 이렇게 이득이 곱해진 적응 코드북 값과 고정 코드북 값이 더해져서 여기 신호가 복원된다. 복원된 여기 신호는 인코더로부터 전송된 LPC 계수를 인터폴레이션해서 만든 계수로 이루어진 합성 필터(210)에서 필터링된다. 합성 필터(205)의 출력은 후처리부(212)에서 후처리되어 오디오 신호가 복원된다.
한편, 도 1의 인코더를 통해 출력된 프레임 데이터가 도 2의 디코더로 전송되는 과정에서, 네트워크의 상태에 따라 프레임 데이터의 손실이 발생할 수 있다. 이러한 프레임 데이터 손실은 결과적으로 디코더에서 합성된 오디오 신호의 품질 저하로 이어진다. 이러한 오디오 신호의 품질 저하를 줄이기 위해, 대부분의 코덱에는 프레임 손실 은닉 알고리즘이 내장되어 있다.
예를 들어, 인코더의 프레임 데이터 전송 중 N-1번째 프레임 데이터는 정상적으로 수신되고, N번째 프레임 데이터가 손실되었을 때, 기존의 알고리즘에 따르면 다음과 같이 프레임 손실을 처리한다. 먼저 N-1번째 프레임의 합성필터 계수를 이용하여 N번째 프레임의 합성필터 계수를 복원한다. 그리고 적응 코드북의 피치 인덱스는 N-1번째 프레임의 마지막 서브프레임의 피치 인덱스를 그대로 사용하거나, 이전 서브프레임들의 피치 인덱스를 이용하여 복원한다. 또한 적응 코드북과 고정 코드북의 이득은 이전 서브프레임들의 이득을 바탕으로 구한 후 스케일링하여 사용한다. 그리고 고정 코드북은 펄스 인덱스 대신 랜덤 함수를 이용하여 복원한다. 이렇게 복원된 데이터를 이용하여 손실된 프레임의 오디오 신호를 합성한다.
합성 필터로 입력되는 여기 신호 중에서, 적응 코드북은 주기적인 성분인 피치를 모델링하고, 고정 코드북은 피치 성분이 제거된 나머지 신호를 모델링한다. 그런데, 유성음의 경우에는 고정 코드북에 어느 정도의 피치 성분이 남게 된다. 도 3은 정상적으로 수신된 유성음 신호 프레임의 적응 코드북 그래프를 나타내고, 도 4는 정상적으로 수신된 유성음 신호 프레임의 고정 코드북 그래프를 나타낸다. 도 4를 참조하면, 고정 코드북에도 피치 주기 성분이 어느 정도 남아 있음을 알 수 있다.
도 5는 프레임 손실이 발생했을 때, 기존 알고리즘에 의해 복원된 고정 코드북 그래프를 나타낸다. 도 5를 참조하면, 기존 알고리즘에 의해 복원된 고정 코드북에는 피치 주기 성분이 남아 있지 않음을 알 수 있다.
본 발명은 프레임 손실 은닉 알고리즘의 성능 향상을 위해, 랜덤 함수를 이용하여 복원된 고정 코드북을 쉐이핑(shaping)한다. 본 발명은 특히 유성음 구간의 프레임 손실에 대해 보다 효과적이다.
도 6은 본 발명에 의한 오디오 신호의 디코딩 방법에 의해 계산된 고정 코드북의 그래프이다. 도 4에 나타나 있는 정상적으로 수신된 프레임 데이터의 고정 코드북과, 도 5의 기존 알고리즘으로 복원한 고정 코드북, 그리고 본 발명에 의해 복원한 고정 코드북의 그래프인 도 6을 비교해보면, 기존 알고리즘에 의해 복원된 고정 코드북보다 본 발명에 의해 복원된 고정 코드북이 원래의 고정 코드북에 더 근접한 모양을 갖는 것을 알 수 있다.
도 7은 CELP 디코더에 의한 오디오 신호 디코딩 방법의 흐름도이다.
먼저 인코더에 의해 생성된 프레임 데이터를 입력받아 프레임 데이터가 정상인지 여부를 판단한다(701). 만약 입력된 프레임 데이터가 정상이면, 도 2를 통해 설명한 바와 같이 피치 인덱스를 디코딩한 후(702), 이 피치 인덱스를 이용하여 적응 코드북을 하며(703), 고정 코드북을 복원한다(704). 그리고 각 코드북의 이득을 디코딩한 후(705), 이 값들을 이용하여 여기 신호를 합성한다(706). 그리고 여기 신호를 합성필터로 필터링하여(707) 오디오 신호를 재생한다.
만약 단계 701에서, 입력된 프레임 데이터가 비정상 프레임이라면, 먼저 이전 정상 프레임 피치 인덱스로부터 손실된 프레임의 피치 인덱스를 복원하고(708), 이를 이용하여 적응 코드북 값을 복원한다(709). 그리고 랜덤 함수를 이용하여 고정 코드북 값을 복원한다(710). 그리고 이전 정상 프레임의 코드북 이득 값을 이용하여 적응 코드북과 고정 코드북의 이득을 복원한다(711). 이후에는 정상 프레임 디코딩과 마찬가지로, 복원된 코드북 값과 이득을 이용하여 여기 신호를 합성하고, 합성된 여기 신호를 합성 필터로 필터링하여 오디오 신호를 출력한다. 비정상 프레임의 경우, 합성 필터의 계수 또한 이전 정상 프레임의 필터 계수를 이용하여 복원된다.
도 8은 본 발명의 일 실시예에 의한 디코딩 알고리즘의 흐름도이다.
단계 801에서, 입력된 프레임 데이터가 비정상 또는 손실된 데이터라면, 피치를 복원하고(802) 복원된 피치를 이용하여 적응 코드북을 복원한다(804). 그리고 랜덤 함수를 생성하고, 생성된 랜덤 함수를 이용하여 고정 코드북을 복원한다(804). 이 때 고정 코드북 복원(804)은 서브프레임 단위로 이루어질 수 있다. 이렇게 복원된 고정 코드북은 도 5와 같은 모양을 가질 수 있다.
다음으로, 적응 코드북을 이용하여 쉐이핑 함수를 계산한다(805). 이 때 쉐이핑 함수 계산(805)은 서브프레임 단위로 이루어질 수 있다. 본 발명의 다른 실시예에서는, 해당 프레임의 적응 코드북에서 최대 값을 찾고, 이 최대 값을 이용하여 해당 서브프레임의 적응 코드북을 노멀라이징(normalizing)하여 쉐이핑 함수를 계산할 수 있다. 또한 본 발명의 다른 실시예에서는, 계산된 쉐이핑 함수값을 미리 정해진 기준값과 비교하고, 비교 결과 쉐이핑 함수값이 기준값보다 작은 경우 해당 함수값을 0으로 설정할 수 있다. 이렇게 함수값을 0으로 설정하는 것은 고정 코드북의 펄스 수를 조정하기 위해서이다.
그리고 나서, 계산된 쉐이핑 함수를 이용하여, 복원된 고정 코드북을 쉐이핑한다(806). 본 발명의 다른 실시예에서, 쉐이핑 함수를 이용한 고정 코드북의 쉐이핑(806)은 안정적인 유성음 구간에서만 수행될 수 있다.
이후, 적응 코드북과 고정 코드북 이득을 복원하고(807), 여기 신호를 합성한다(808). 그리고 합성 필터를 통해 오디오 신호를 출력한다(809).
도 7과 도 8을 통해 알 수 있듯이, 본 발명은 프레임 손실이 발생하였을 경우, 랜덤 함수에 의해 복원된 고정 코드북에 피치 쉐이핑 함수를 적용하여 주기성을 강조하고, 랜덤 함수를 고정 코드북으로 사용함으로써 발생할 수 있는 잡음을 줄일 수 있다.
도 9는 본 발명의 일 실시예에 의한 오디오 신호 디코딩 장치의 구성도이다.
본 발명의 일 실시예에 의한 오디오 신호 디코딩 장치(902)는 고정 코드북 복원부(904), 적응 코드북 복원부(906), 쉐이핑부(908)를 포함한다. 또한 도 9에는 도시되지 않았으나, 오디오 신호 디코딩 장치(902)는 오디오 신호의 프레임 데이터를 입력받고, 입력된 프레임 데이터가 정상 데이터인지 여부를 판단하는 입력부를 더 포함할 수 있다.
고정 코드북 복원부(904)는 랜덤 함수를 이용하여 고정 코드북을 복원한다. 이 때 고정 코드북 복원은 서브프레임 단위로 이루어질 수 있다. 이렇게 복원된 고정 코드북은 도 5와 같은 모양을 가질 수 있다. 그리고 적응 코드북 복원부(906)는 오디오 신호 합성을 위한 적응 코드북을 복원한다.
쉐이핑부(908)는 적응 코드북 복원부(906)를 통해 복원된 적응 코드북을 이용하여 쉐이핑 함수를 계산한다. 이 때 쉐이핑 함수 계산은 서브프레임 단위로 이루어질 수 있다. 본 발명의 다른 실시예에서, 쉐이핑부(908)는 해당 서브프레임의 적응 코드북에서 최대값을 획득하고, 이 최대값을 이용하여 해당 서브프레임의 적응 코드북을 노멀라이징(normalizing)하여 쉐이핑 함수를 계산할 수 있다. 또한 본 발명의 다른 실시예에서, 쉐이핑부(908)는 계산된 쉐이핑 함수값을 미리 정해진 기준값과 비교하고, 비교 결과 쉐이핑 함수값이 기준값보다 작은 경우 해당 함수값을 0으로 설정할 수 있다. 이렇게 함수값을 0으로 설정하는 것은 고정 코드북의 펄스 수를 조정하기 위해서이다.
다음으로, 쉐이핑부(908)는 계산된 쉐이핑 함수를 이용하여, 복원된 고정 코드북을 쉐이핑한다. 본 발명의 다른 실시예에서, 쉐이핑부(908)는 안정적인 유성음 구간에서만 쉐이핑을 수행할 수 있다.
적응 코드북 복원부(906)를 통해 복원된 적응 코드북과, 쉐이핑부(908)를 통해 출력된 고정 코드북은 이후 도 2와 같은 디코딩 모듈에서 오디오 신호를 합성하는데 이용될 수 있다. 도 9에는 도시되지 않았으나, 오디오 신호 디코딩 장치(902)는 적응 코드북 복원부(906)를 통해 복원된 적응 코드북과, 쉐이핑부(908)를 통해 출력된 고정 코드북을 이용하여 오디오 신호를 합성하는 오디오 신호 합성부를 더 포함할 수 있다.
이와 같이 본 발명에서는 랜덤함수로 복원한 고정 코드북에 쉐이핑 함수를 이용한 쉐이핑을 적용한다. 이에 따라 고정 코드북에 피치 성분을 부여함으로써, 손실된 프레임 데이터로부터 합성된 오디오 신호의 품질을 향상시킬 수 있다. 다시 말해서, 본 발명은 프레임 데이터 손실이 발생했을 경우, 적응 코드북을 기반으로 계산된 쉐이핑 함수를 이용하여 고정 코드북을 복원함으로써, 피치 주기를 강조하고 피치 주기 사이의 고정 코드북 영향을 줄여 합성된 신호의 품질 저하를 줄일 수 있는 효과가 있다.
전술한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

Claims (10)

  1. 오디오 신호를 디코딩하는 방법에 있어서,
    상기 오디오 신호의 프레임 데이터를 입력받는 단계;
    랜덤 함수를 이용하여 상기 프레임 데이터의 고정 코드북을 복원하는 단계;
    상기 프레임 데이터의 적응 코드북을 이용하여 쉐이핑 함수를 계산하는 단계;
    상기 쉐이핑 함수를 이용하여 상기 복원된 고정 코드북을 쉐이핑하는 단계; 및
    상기 쉐이핑된 고정 코드북 및 상기 적응 코드북을 이용하여, 상기 프레임 데이터로부터 상기 오디오 신호를 합성하는 단계를
    포함하는 오디오 신호의 디코딩 방법.
  2. 제1항에 있어서,
    상기 고정 코드북 복원 단계는
    상기 프레임 데이터의 서브프레임 단위로 상기 고정 코드북을 복원하는 단계를
    포함하는 오디오 신호의 디코딩 방법.
  3. 제1항에 있어서,
    상기 쉐이핑 함수 계산 단계는
    상기 프레임 데이터의 서브프레임의 적응 코드북의 최대값을 획득하는 단계;
    상기 최대값을 이용하여 상기 서브프레임의 적응 코드북을 노말라이징하는 단계; 및
    상기 노말라이징된 적응 코드북을 이용하여 상기 쉐이핑 함수를 계산하는 단계를
    포함하는 오디오 신호의 디코딩 방법.
  4. 제1항에 있어서,
    상기 쉐이핑 함수 계산 단계는
    상기 쉐이핑 함수 계산을 통해 획득된 함수값을 미리 정해진 기준값과 비교하는 단계; 및
    상기 비교 결과 상기 함수값이 상기 기준값보다 작으면 상기 함수값을 0으로 설정하는 단계를
    포함하는 오디오 신호의 디코딩 방법.
  5. 제1항에 있어서,
    상기 복원된 고정 코드북을 쉐이핑하는 단계는
    상기 오디오 신호의 유성음 구간에 대해서만 상기 복원된 고정 코드북을 쉐이핑하는 단계를
    포함하는 오디오 신호의 디코딩 방법.
  6. 오디오 신호를 디코딩하는 장치에 있어서,
    상기 오디오 신호의 프레임 데이터를 입력받는 입력부;
    랜덤 함수를 이용하여 상기 프레임 데이터의 고정 코드북을 복원하는 고정 코드북 복원부;
    상기 프레임 데이터의 적응 코드북을 이용하여 쉐이핑 함수를 계산하고, 상기 쉐이핑 함수를 이용하여 상기 복원된 고정 코드북을 쉐이핑하는 쉐이핑부; 및
    상기 쉐이핑된 고정 코드북 및 상기 적응 코드북을 이용하여, 상기 프레임 데이터로부터 상기 오디오 신호를 합성하는 오디오 신호 합성부를
    포함하는 오디오 신호의 디코딩 장치.
  7. 제6항에 있어서,
    상기 고정 코드북 복원부는
    상기 프레임 데이터의 서브프레임 단위로 상기 고정 코드북을 복원하는
    오디오 신호의 디코딩 장치.
  8. 제6항에 있어서,
    상기 쉐이핑부는
    상기 프레임 데이터의 서브프레임의 적응 코드북의 최대값을 획득하고, 상기 최대값을 이용하여 상기 서브프레임의 적응 코드북을 노말라이징하며, 상기 노말라이징된 적응 코드북을 이용하여 상기 쉐이핑 함수를 계산하는
    오디오 신호의 디코딩 장치.
  9. 제6항에 있어서,
    상기 쉐이핑부는
    상기 쉐이핑 함수 계산을 통해 획득된 함수값을 미리 정해진 기준값과 비교하고, 상기 비교 결과 상기 함수값이 상기 기준값보다 작으면 상기 함수값을 0으로 설정하는
    오디오 신호의 디코딩 장치.
  10. 제6항에 있어서,
    상기 쉐이핑부는
    상기 오디오 신호의 유성음 구간에 대해서만 상기 복원된 고정 코드북을 쉐이핑하는
    오디오 신호의 디코딩 장치.
PCT/KR2011/007147 2010-09-28 2011-09-28 쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치 WO2012044066A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US13/876,691 US20130191134A1 (en) 2010-09-28 2011-09-28 Method and apparatus for decoding an audio signal using a shaping function

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2010-0093921 2010-09-28
KR20100093921 2010-09-28
KR1020110097636A KR101847213B1 (ko) 2010-09-28 2011-09-27 쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치
KR10-2011-0097636 2011-09-27

Publications (1)

Publication Number Publication Date
WO2012044066A1 true WO2012044066A1 (ko) 2012-04-05

Family

ID=45893385

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2011/007147 WO2012044066A1 (ko) 2010-09-28 2011-09-28 쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치

Country Status (1)

Country Link
WO (1) WO2012044066A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990006262A (ko) * 1997-06-24 1999-01-25 윤종용 디지털 음성 압축 알고리즘에 입각한 음성 부호화 방법
KR20010011066A (ko) * 1999-07-24 2001-02-15 조정남 적응 코드북의 에너지와 이득을 이용한 음성구간 검출 방법
KR100346729B1 (ko) * 1995-11-29 2002-12-26 삼성전자 주식회사 코드여기선형예측부호화의잡음코드북작성방법
KR20080080235A (ko) * 2005-12-28 2008-09-02 보이세지 코포레이션 음성 코덱에서 효율적인 프레임 소거 은폐를 위한 방법 및장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100346729B1 (ko) * 1995-11-29 2002-12-26 삼성전자 주식회사 코드여기선형예측부호화의잡음코드북작성방법
KR19990006262A (ko) * 1997-06-24 1999-01-25 윤종용 디지털 음성 압축 알고리즘에 입각한 음성 부호화 방법
KR20010011066A (ko) * 1999-07-24 2001-02-15 조정남 적응 코드북의 에너지와 이득을 이용한 음성구간 검출 방법
KR20080080235A (ko) * 2005-12-28 2008-09-02 보이세지 코포레이션 음성 코덱에서 효율적인 프레임 소거 은폐를 위한 방법 및장치

Similar Documents

Publication Publication Date Title
EP0409239B1 (en) Speech coding/decoding method
EP0911807B1 (en) Sound synthesizing method and apparatus, and sound band expanding method and apparatus
JP4583093B2 (ja) ビット率拡張音声符号化及び復号化装置とその方法
US8396706B2 (en) Speech coding
EP1222659A1 (en) Lpc-harmonic vocoder with superframe structure
JPH05197400A (ja) 低ビット・レート・ボコーダ手段および方法
AU653969B2 (en) A method of, system for, coding analogue signals
KR102173422B1 (ko) 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
US5027405A (en) Communication system capable of improving a speech quality by a pair of pulse producing units
CN102522092A (zh) 一种基于g.711.1的语音带宽扩展的装置和方法
JP5489711B2 (ja) 音声符号化装置及び音声復号装置
CN112614495A (zh) 一种软件无线电多制式语音编解码器
AU697256B2 (en) Predictive split-matrix quantization of spectral parameters for efficient coding of speech
JP5313967B2 (ja) ビット率拡張音声符号化及び復号化装置とその方法
CA2293165A1 (en) Method for transmitting data in wireless speech channels
KR100651712B1 (ko) 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법
US4881267A (en) Encoder of a multi-pulse type capable of optimizing the number of excitation pulses and quantization level
JP3964144B2 (ja) 入力信号をボコーディングする方法と装置
WO2012044066A1 (ko) 쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치
WO2012044067A1 (ko) 적응 코드북 업데이트를 이용한 오디오 신호 디코딩 방법 및 장치
KR20120032444A (ko) 적응 코드북 업데이트를 이용한 오디오 신호 디코딩 방법 및 장치
US6385574B1 (en) Reusing invalid pulse positions in CELP vocoding
KR20120032443A (ko) 쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치
JPH0411040B2 (ko)
EP1035538A2 (en) Multimode quantizing of the prediction residual in a speech coder

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11829572

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13876691

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 11829572

Country of ref document: EP

Kind code of ref document: A1