KR20110106779A - A method and an apparatus for processing an audio signal - Google Patents

A method and an apparatus for processing an audio signal Download PDF

Info

Publication number
KR20110106779A
KR20110106779A KR1020100086487A KR20100086487A KR20110106779A KR 20110106779 A KR20110106779 A KR 20110106779A KR 1020100086487 A KR1020100086487 A KR 1020100086487A KR 20100086487 A KR20100086487 A KR 20100086487A KR 20110106779 A KR20110106779 A KR 20110106779A
Authority
KR
South Korea
Prior art keywords
signal
coding structure
coding
mode
current frame
Prior art date
Application number
KR1020100086487A
Other languages
Korean (ko)
Inventor
정규혁
이병석
이창헌
전혜정
서형식
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Publication of KR20110106779A publication Critical patent/KR20110106779A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Abstract

인코더로 입력되는 입력 신호를 이용하여 코어 레이어에서 합성 신호가 생성되고, 상기 입력 신호와 상기 코어 레이어의 합성 신호를 이용하여 인핸스먼트 레이어의 차분 신호가 생성될 수 있다. 상기 인핸스먼트 레이어의 차분 신호에 대한 에너지와 에너지 문턱값을 비교하고, 상기 비교 결과에 기초하여 현재 프레임의 코딩 구조 모드를 선택함으로써, 음성 신호, 음악 신호, 혼합 신호 등 다양한 컨텐츠에 대한 코딩의 효율성을 향상시킬 수 있다.A synthesized signal may be generated in the core layer using an input signal input to the encoder, and a difference signal of an enhancement layer may be generated using the synthesized signal of the input signal and the core layer. By comparing the energy and the energy threshold value of the difference signal of the enhancement layer, and selecting the coding structure mode of the current frame based on the comparison result, the efficiency of coding for various contents such as voice signal, music signal, mixed signal, etc. Can improve.

Description

오디오 신호 처리 방법 및 장치{A METHOD AND AN APPARATUS FOR PROCESSING AN AUDIO SIGNAL}Audio signal processing method and apparatus {A METHOD AND AN APPARATUS FOR PROCESSING AN AUDIO SIGNAL}

본 발명은 오디오 신호 처리 방법 및 장치에 관한 것이다.The present invention relates to an audio signal processing method and apparatus.

오디오 신호를 코딩함에 있어서, 오디오 신호의 압축률을 높이기 위해서 벡터 양자화 기법 등이 이용된다.In coding an audio signal, a vector quantization technique or the like is used to increase the compression ratio of the audio signal.

본 발명의 목적은 오디오 신호를 코딩함에 있어서, 벡터 양자화 기법 등을 이용하여 다양한 컨텐츠에 대한 코딩 효율을 향상시키고자 함에 있다.An object of the present invention is to improve coding efficiency for various contents by using a vector quantization technique in coding an audio signal.

상기 목적을 달성하기 위하여 본 발명은 입력 신호의 특성을 고려하여 인핸스먼트 레이어에서 가변적인 코딩 구조 모드를 사용하는 것을 특징으로 하는 오디오 신호 처리 방법을 제시한다.In order to achieve the above object, the present invention proposes an audio signal processing method using a variable coding structure mode in an enhancement layer in consideration of characteristics of an input signal.

본 발명은 인핸스먼트 레이어의 타겟 신호의 에너지 및 파라미터를 고려하여 가변적인 코딩 구조 모드를 사용하는 것을 특징으로 하는 오디오 신호 처리 방법을 제시한다.The present invention proposes an audio signal processing method using a variable coding structure mode in consideration of energy and parameters of a target signal of an enhancement layer.

본 발명은 현재 프레임의 코딩 모드를 고려하여 가변 적인 코딩 구조 모드를 사용하는 것을 특징으로 하는 오디오 신호 처리 방법을 제시한다.The present invention proposes an audio signal processing method using a variable coding structure mode in consideration of a coding mode of a current frame.

본 발명은 참조 프레임의 코딩 구조 모드를 고려해서 현재 프레임의 코딩 구조 모드를 수정하는 것을 특징으로 하는 오디오 신호 처리 방법을 제시한다.The present invention proposes an audio signal processing method characterized in that the coding structure mode of the current frame is modified in consideration of the coding structure mode of the reference frame.

본 발명에 따르면, 입력 신호의 특성을 고려하여 프레임마다 가변적인 코딩 구조 모드를 사용함으로써 음성 신호, 음악 신호, 혼합 신호 등 다양한 컨텐츠에 대한 코딩의 효율성을 향상시킬 수 있다.According to the present invention, the coding efficiency of various contents such as a voice signal, a music signal, and a mixed signal can be improved by using a variable coding structure mode for each frame in consideration of characteristics of an input signal.

도 1은 본 발명이 적용되는 일실시예로서, 코딩 구조 모드를 도시한 것이다.
도 2는 본 발명이 적용되는 일실시예로서, 코딩 구조 모드를 적응적으로 결정하는 장치의 개괄적인 블록도이다.
도 3은 본 발명이 적용되는 일실시예로서, 인핸스먼트 레이어의 타겟 신호에 기초하여 코딩 구조 모드를 적응적으로 결정하는 방법을 도시한 순서도이다.
도 4는 본 발명이 적용되는 일실시예로서, 코딩 모드를 결정하기 위해 이용되는 파라미터를 도시한 것이다.
도 5는 본 발명이 적용되는 일실시예로서, 참조 프레임의 코딩 구조 모드에 기초하여 현재 프레임의 코딩 구조 모드를 수정하는 방법을 도시한 순서도이다.
1 illustrates a coding structure mode as an embodiment to which the present invention is applied.
2 is a schematic block diagram of an apparatus for adaptively determining a coding structure mode according to an embodiment to which the present invention is applied.
3 is a flowchart illustrating a method of adaptively determining a coding structure mode based on a target signal of an enhancement layer according to an embodiment to which the present invention is applied.
4 illustrates, as an embodiment to which the present invention is applied, parameters used to determine a coding mode.
FIG. 5 is a flowchart illustrating a method of modifying a coding structure mode of a current frame based on a coding structure mode of a reference frame according to an embodiment to which the present invention is applied.

인코더에서 선형 예측 분석은 다음과 같은 과정으로 수행될 수 있다.Linear prediction analysis in the encoder may be performed by the following process.

단기 예측(short-term prediction) 또는 선형 예측 분석은 시계열적 데이터에서 현재 상태가 과거 또는 미래 상태와 밀접한 연관성을 가지고 있음을 이용한 접근방법(autocorrelation approach)을 사용하여, CELP(Code-Excited Linear Prediction Coding) 모델의 합성 필터의 계수를 결정한다. 상기 합성 필터의 계수 즉, 선형 예측 필터의 계수는 ISP(Immitance Spectral Pair)로 변형된 후, 양자화 및 인터폴레이션을 위해 ISF(Immitance Spectral Frequencies)로 변형된다. 상기 인터폴레이션된, 그리고 양자화된 선형 예측 필터의 계수는 선형 예측 도메인(LP domain)상으로 변형되고, 각각의 서브 프레임에 대해서 합성 및 가중 필터링(weighting filtering)이 적용된다.Short-term prediction or linear predictive analysis uses Code-Excited Linear Prediction Coding, using an autocorrelation approach in which the current state is closely related to past or future states in time-series data. Determine the coefficients of the synthesis filter of the model. The coefficients of the synthesis filter, that is, the coefficients of the linear prediction filter, are transformed into an ISP (Immitance Spectral Pair) and then transformed into ISF (Immitance Spectral Frequencies) for quantization and interpolation. The coefficients of the interpolated and quantized linear prediction filters are transformed onto a linear prediction domain (LP domain), and synthesis and weighting filtering is applied to each subframe.

도 1은 본 발명이 적용되는 일실시예로서, 코딩 구조 모드를 도시한 것이다.1 illustrates a coding structure mode as an embodiment to which the present invention is applied.

코딩 구조 모드라 함은 음성 신호를 모델링하기 위한 코딩 방식과 음악 신호를 모델링하기 위한 코딩 방식간의 비트 할당 비율을 나타내는 모드를 의미할 수 있다. 도 1을 참조하면, 음성 신호를 모델링하기 위한 코딩 방식(예를 들어, ACELP)과 음악 신호를 모델링하기 위한 코딩 방식(예를 들어, MDCT)간의 비트 할당 비율에 따라 5가지 모드로 나타낼 수 있다. 다만 이에 한정되지 아니하며, 비트 할당 비율에 따라 코딩 구조 모드의 개수는 조절될 수 있다. The coding structure mode may refer to a mode indicating a bit allocation ratio between a coding scheme for modeling a speech signal and a coding scheme for modeling a music signal. Referring to FIG. 1, five modes may be represented according to a bit allocation ratio between a coding scheme (eg, ACELP) for modeling a speech signal and a coding scheme (eg, MDCT) for modeling a music signal. . However, the present invention is not limited thereto, and the number of coding structure modes may be adjusted according to the bit allocation ratio.

입력 신호의 특성을 고려하여 프레임마다 적합한 코딩 구조(coding structure)를 선택하는 방법에 대해서 살펴보기로 한다.A method of selecting an appropriate coding structure for each frame in consideration of characteristics of an input signal will be described.

도 2는 본 발명이 적용되는 일실시예로서, 코딩 구조 모드를 적응적으로 결정하는 장치의 개괄적인 블록도이다.2 is a schematic block diagram of an apparatus for adaptively determining a coding structure mode according to an embodiment to which the present invention is applied.

도 2를 참조하면, 코딩 구조를 적응적으로 결정하는 장치는 차분 신호 생성부(200), 파라미터 생성부(210), 코딩 모드 결정부(220) 및 코딩 구조 결정부(230)를 포함할 수 있고, 상기 코딩 구조 결정부(230)는 코딩 구조 선택부(240) 및 코딩 구조 수정부(250)를 더 포함할 수 있다.2, an apparatus for adaptively determining a coding structure may include a differential signal generator 200, a parameter generator 210, a coding mode determiner 220, and a coding structure determiner 230. In addition, the coding structure determiner 230 may further include a coding structure selector 240 and a coding structure corrector 250.

상기 코딩 구조는 코어 레이어(core layer)에 의해서 입력 신호가 효율적으로 모델링되었는지 여부, 또는 입력 신호가 음성 신호에 가까운지 음악 신호에 가까운지 여부에 기초하여 선택될 수 있다.The coding structure may be selected based on whether the input signal is efficiently modeled by a core layer, or whether the input signal is close to a speech signal or a music signal.

인핸스먼트 레이어(enhancement layer)의 타겟 신호에 기초하여 입력 신호가 코어 레이어에서 효율적으로 모델링되었는지 여부, 또는 입력 신호가 음성 신호에 가까운지 음악 신호에 가까운지 여부를 판단할 수 있다. 이는 도 3을 참조하여 살펴보기로 한다.Based on the target signal of the enhancement layer, it may be determined whether the input signal is efficiently modeled in the core layer, or whether the input signal is close to the voice signal or the music signal. This will be described with reference to FIG. 3.

도 3은 본 발명이 적용되는 일실시예로서, 인핸스먼트 레이어의 타겟 신호에 기초하여 코딩 구조 모드를 적응적으로 결정하는 방법을 도시한 순서도이다.3 is a flowchart illustrating a method of adaptively determining a coding structure mode based on a target signal of an enhancement layer according to an embodiment to which the present invention is applied.

코어 레이어의 입력 신호가 수신될 수 있고(S300), 상기 입력 신호를 이용하여 상기 코어 레이어의 합성 신호가 생성될 수 있다(S310). 차분 신호 생성부(200)는 상기 입력 신호와 상기 코어 레이어의 합성 신호로부터 인핸스먼트 레이어의 타겟 신호를 생성할 수 있다(S320). 인핸스먼트 레이어의 차분 신호는 입력 신호와 코어 레이어의 합성 신호간의 차분으로 정의될 수 있다. 상기 입력 신호는 필터링된 입력 신호일 수 있다. 상기 입력 신호에 적용된 필터는 저주파수 성분을 제거하기 위한 하이 패스 필터(high pass filter)일 수 있다. 상기 인핸스먼트 레이어의 타겟 신호로부터 상기 인핸스먼트 레이어의 타겟 신호의 에너지가 검출될 수 있다(S330). 상기 인핸스먼트 레이어의 타겟 신호의 에너지와 에너지 문턱값간의 비교 및 분석을 수행할 수 있다(S340). 상기 에너지 문턱값은 입력 신호와 인코더에서 생성된 상기 입력 신호에 대한 합성 신호간의 에러(error)를 최소화하기 위해 결정된 값일 수 있다. 상기 비교 결과에 따라 현재 프레임에 대한 코딩 구조 모드가 선택될 수 있다(S350).An input signal of the core layer may be received (S300), and a composite signal of the core layer may be generated using the input signal (S310). The difference signal generator 200 may generate a target signal of an enhancement layer from the composite signal of the input signal and the core layer (S320). The difference signal of the enhancement layer may be defined as the difference between the input signal and the composite signal of the core layer. The input signal may be a filtered input signal. The filter applied to the input signal may be a high pass filter for removing low frequency components. The energy of the target signal of the enhancement layer may be detected from the target signal of the enhancement layer (S330). A comparison and analysis between the energy of the target signal of the enhancement layer and the energy threshold may be performed (S340). The energy threshold may be a value determined to minimize an error between the input signal and the synthesized signal for the input signal generated by the encoder. According to the comparison result, a coding structure mode for the current frame may be selected (S350).

또는, 인핸스먼트 레이어의 차분 신호는 입력 신호와 코어 레이어의 합성 신호간의 차분으로 정의될 수 있는바, 상기 입력 신호와 코어 레이어의 합성 신호에 기초하여 코딩 구조가 선택될 수 있다. Alternatively, the difference signal of the enhancement layer may be defined as the difference between the input signal and the composite signal of the core layer, and a coding structure may be selected based on the composite signal of the input signal and the core layer.

예를 들어, 코어 레이어로 입력 신호가 수신되고, 상기 코어 레이어로부터 상기 입력 신호에 대한 합성 신호가 산출될 수 있다. 상기 입력 신호와 상기 코어 레이어의 합성 신호에 대한 에너지가 각각 산출될 수 있다. 이 경우, 상기 입력 신호와 상기 코어 레이어의 합성 신호는 MDCT(Modified Discrete Cosine Transform) 도메인상의 신호일 수 있다. 상기 입력 신호의 에너지와 상기 코어 레이어의 합성 신호의 에너지를 비교하고, 상기 비교 결과에 기초하여 코딩 구조가 선택될 수 있다. 즉, 상기 코어 레이어의 합성 신호의 에너지가 상기 입력 신호의 에너지를 초과하는 경우, 코어 레이어(음성 신호를 모델링하는 코딩 구조로 구성-예를 들어 ACELP)가 입력 신호를 효율적으로 모델링하는데 적합하지 아니한 것으로 볼 수 있다. 상기 입력 신호는 음악 신호에 가까운 신호로 볼 수 있다. 상기 입력 신호를 모델링하는데 적합한 코딩 구조가 선택될 수 있다. 상기 선택된 코딩 구조는 음성 신호를 모델링하기 위한 코딩 구조(예를 들어, ACELP)에 비해 음악 신호를 모델링하기 위한 코딩 구조(예를 들어, MDCT)에 더 많은 비트가 할당된 코딩 구조일 수 있다. 그러나, 상기 코어 레이어의 합성 신호의 에너지가 상기 입력 신호의 에너지를 초과하지 아니하는 경우, 코어 레이어가 입력 신호를 효율적으로 모델링하는데 적합하며, 상기 입력 신호는 음성 신호에 가까운 신호로 볼 수 있다. 즉, 음악 신호를 모델링하기 위한 코딩 구조에 비해 음성 신호를 모델링하기 위한 코딩 구조에 더 많은 비트가 할당된 코딩 구조가 선택될 수 있다.For example, an input signal may be received at the core layer, and a composite signal for the input signal may be calculated from the core layer. Energy for the combined signal of the input signal and the core layer may be calculated, respectively. In this case, the composite signal of the input signal and the core layer may be a signal on a Modified Discrete Cosine Transform (MDCT) domain. The energy of the input signal and the energy of the composite signal of the core layer may be compared, and a coding structure may be selected based on the comparison result. That is, when the energy of the composite signal of the core layer exceeds the energy of the input signal, the core layer (composed of a coding structure for modeling a voice signal-for example, ACELP) is not suitable for efficiently modeling the input signal. It can be seen as. The input signal may be viewed as a signal close to a music signal. A coding scheme suitable for modeling the input signal can be selected. The selected coding structure may be a coding structure in which more bits are allocated to a coding structure (eg, MDCT) for modeling a music signal than a coding structure (eg, ACELP) for modeling a speech signal. However, when the energy of the composite signal of the core layer does not exceed the energy of the input signal, the core layer is suitable for efficiently modeling the input signal, and the input signal may be viewed as a signal close to the voice signal. That is, a coding structure in which more bits are allocated to the coding structure for modeling the speech signal may be selected than the coding structure for modeling the music signal.

파라미터 생성부(210)는 코딩 구조를 적응적으로 결정하기 위해 이용되는 파라미터를 생성할 수 있다.The parameter generator 210 may generate a parameter used to adaptively determine a coding structure.

상기 파라미터의 예로 스펙트럴 차이 파라미터(spectral diversity parameter), 토널 파라미터(tonal parameter) 등이 있다.Examples of the parameter include a spectral diversity parameter and a tonal parameter.

스펙트럴 차이 파라미터(spectral diversity parameter)는 음악 신호를 탐색하기 위해 이용되는 파라미터일 수 있다. 상기 스펙트럴 차이 파라미터는 주파수 도메인에서 신호의 급격한 변화에 대한 정보일 수 있다. 상기 신호의 변화는 현재 프레임의 스펙트럴 분석과 참조 프레임의 스페트럴 분석에 따른 각각의 에너지를 비교함으로써 알 수 있다. 상기 참조 프레임은 현재 프레임을 기준으로 이전에 코딩된 프레임을 의미할 수 있고, 상기 참조 프레임으로 2개 이상의 프레임이 이용될 수 있다. 상기 스펙트럴 차이 파라미터를 획득하기 위해 상기 현재 프레임의 에너지와 참조 프레임의 에너지간의 비율값이 이용될 수 있다. 상기 비율값에 가중치가 적용될 수 있다. 상기 가중치는 상기 현재 프레임의 에너지와 참조 프레임의 에너지 중 최대값을 의미할 수 있다. 상기 스펙트럴 차이 파라미터가 입력 신호의 급격한 변화를 나타내는 경우, 상기 입력 신호는 음악 신호에 가까운 신호로 볼 수 있다.The spectral diversity parameter may be a parameter used for searching for a music signal. The spectral difference parameter may be information about a sudden change in a signal in the frequency domain. The change in the signal can be known by comparing the respective energies according to the spectral analysis of the current frame and the spectral analysis of the reference frame. The reference frame may mean a frame previously coded based on the current frame, and two or more frames may be used as the reference frame. The ratio value between the energy of the current frame and the energy of a reference frame may be used to obtain the spectral difference parameter. A weight may be applied to the ratio value. The weight may mean a maximum value of energy of the current frame and energy of a reference frame. When the spectral difference parameter indicates a sudden change in the input signal, the input signal may be viewed as a signal close to the music signal.

토널 파라미터(tonal parameter)는 음악 신호를 탐색하기 위해 이용되는 파라미터일 수 있다. 상기 토널 파라미터는 언보이스드 신호를 분류하는데 이용되는 파라미터일 수 있다. 일반적으로 음악 신호는 연속적인 프레임에서 안정적인 톤(tone)을 가지고 있다. 스펙트럴 피크(spectral peak)의 위치 및 형태는 상기 톤(tone)에 대응될 수 있다. 따라서, 상기 스펙트럴 피크의 위치 및 형태를 분석함으로써, 상기 토널 파라미를 획득할 수 있다. 예를 들어, 상기 토널 파라미터는 현재 프레임과 참조 프레임의 스펙트럴 피크간의 연관성 분석(correlation analysis)에 기초하여 획득될 수 있다. 상기 토널 파라미터가 연속적인 프레임에서 안정적인 톤이 나타남을 지시하는 경우, 입력 신호는 음악 신호에 가까운 신호로 볼 수 있다. 반면, 상기 토널 파라미터가 연속적인 프레임에서 불안정적인 톤이 나타남을 지시하는 경우, 상기 입력 신호는 음성 신호에 가까운 신호로 볼 수 있다.The tonal parameter may be a parameter used to search for a music signal. The tonal parameter may be a parameter used to classify an unvoiced signal. In general, music signals have stable tones in successive frames. The position and shape of the spectral peak may correspond to the tone. Thus, by analyzing the position and shape of the spectral peak, it is possible to obtain the tonal parameters. For example, the tonal parameter may be obtained based on a correlation analysis between a spectral peak of a current frame and a reference frame. When the tonal parameter indicates that stable tones appear in successive frames, the input signal may be viewed as a signal close to the music signal. On the other hand, when the tonal parameter indicates that an unstable tone appears in successive frames, the input signal may be viewed as a signal close to a voice signal.

코딩 모드 결정부(220)는 입력 신호의 코딩 모드를 결정할 수 있으며, 코딩 구조 모드는 상기 입력 신호의 코딩 모드에 기초하여 선택될 수 있다. 상기 코딩 모드는 언보이스드 코딩 (Unvoiced Coding) 모드, 보이스드 코딩 (Voiced Coding) 모드, 트랜지션 코딩 (Transition Coding) 모드 및 제너릭 코딩 (Generic Coding) 모드를 포함할 수 있다. 입력 신호에서 유성음이 많은 구간은 보이스드 코딩 모드 또는 제너릭 코딩 모드로 코딩될 수 있다. 보이스드 코딩 모드 또는 제너릭 코딩 모드로 코딩된 경우, 음성 신호를 모델링하기 위한 코딩 구조가 이용함으로써, 코딩의 효율성을 향상시킬 수 있다. 반면, 입력 신호에서 무성음이 많은 구간 또는 주기적인 성분이 없는 구간은 언보이스드 코딩 모드 또는 트랜지션 코딩 모드로 코딩될 수 있다. 언보이스드 코딩 모드 또는 트랜지션 코딩 모드로 코딩된 경우, 음악 신호를 모델링하기 위한 코딩 구조를 이용하는 것이 코딩의 효율성을 향상시킬 수 있다. 이하, 상기 코딩 모드로 코딩되는 프레임을 선택하기 위한 신호 분류(classification) 및 개선(refinement)하는 방법에 대해서 도 4를 참조하여 살펴보기로 한다.The coding mode determiner 220 may determine a coding mode of the input signal, and the coding structure mode may be selected based on the coding mode of the input signal. The coding mode may include an unvoiced coding mode, a voiced coding mode, a transition coding mode, and a generic coding mode. The voiced section of the input signal may be coded in the voiced coding mode or the generic coding mode. When coded in the voiced coding mode or the generic coding mode, the coding structure for modeling the speech signal can be used, thereby improving the efficiency of coding. On the other hand, a section with many unvoiced sounds or a period without periodic components in the input signal may be coded in an unvoiced coding mode or a transition coding mode. When coded in the unvoiced coding mode or the transition coding mode, using a coding structure for modeling the music signal can improve the coding efficiency. Hereinafter, a signal classification and refinement method for selecting a frame coded in the coding mode will be described with reference to FIG. 4.

도 4는 본 발명이 적용되는 일실시예로서, 코딩 모드를 결정하기 위해 이용되는 파라미터를 도시한 것이다.4 illustrates, as an embodiment to which the present invention is applied, parameters used to determine a coding mode.

먼저, 언보이스드 코딩 모드로 코딩되는 프레임(이하, 언보이스드 프레임)을 선택하기 위한 신호 분류에 대해서 설명하기로 한다. 입력 신호에서 주기적인 성분이 없는 부분을 언보이스드 부분으로 볼 수 있다. 언보이스드 프레임은 다음 파라미터를 이용하여 분류될 수 있다.First, signal classification for selecting a frame to be coded in an unvoiced coding mode (hereinafter, an unvoiced frame) will be described. The part of the input signal that has no periodic component can be seen as the unvoiced part. Unvoiced frames may be classified using the following parameters.

보이싱 파라미터(voicing parameter)는 프레임의 코릴레이션 정보 (correlation information)를 이용하여 획득될 수 있다. 상기 프레임은 현재 프레임과 이웃 프레임을 포함할 수 있다. 상기 이웃 프레임은 시간적으로 현재 프레임에 인접한 프레임을 의미할 수 있다. 상기 프레임의 코릴레이션 정보는 프레임내의 서브 프레임 단위로 획득될 수 있다.The voicing parameter may be obtained by using correlation information of the frame. The frame may include a current frame and a neighbor frame. The neighboring frame may mean a frame adjacent to the current frame in time. Correlation information of the frame may be obtained in units of subframes within the frame.

스펙트럴 틸트 파라미터(spectral tilt parameter)는 에너지의 주파수 분포에 대한 정보를 의미할 수 있다. 상기 스펙트럴 틸트 파라미터는 주파수 도메인에서 저주파수에 집중된 에너지와 고주파수에 집중된 에너지간의 비율로 나타낼 수 있다. 상기 스펙트럴 틸트 파라미터는 현재 프레임의 스펙트럴 틸트 파라미터와 참조 프레임의 스펙트럴 틸트 파라미터를 이용하여 획득될 수 있다. 상기 스펙트럴 틸트 파라미터는 프레임내의 서브 프레임마다 획득될 수 있다. 예를 들어, 현재 프레임의 제 1 서브 프레임과 제 2 서프 프레임에 대한 2개의 스펙트럴 틸트 파라미터와 참조 프레임의 제 2 서브 프레임에 대한 스펙트럴 틸트 파라미터간의 평균값으로 획득될 수 있다. 상기 고주파수의 에너지는 마지막 2개의 크리티컬 밴드(critical band)의 에너지의 평균값으로 정의될 수 있다. 상기 저주파수의 에너지는 와이드 밴드(Wide Band)의 경우, 처음 10개의 크리티컬 밴드(critical band)의 에너지 평균값으로 정의될 수 있고, 내로우 밴드(Narrow Band)의 경우, 처음 9개의 크리티컬 밴드(critical band)의 에너지 평균값으로 정의될 수 있다. 즉, 중간에 위치한 크리티컬 밴드의 사용이 배제될 수 있다.The spectral tilt parameter may refer to information about a frequency distribution of energy. The spectral tilt parameter may be expressed as a ratio between energy concentrated at low frequency and energy concentrated at high frequency in the frequency domain. The spectral tilt parameter may be obtained using the spectral tilt parameter of the current frame and the spectral tilt parameter of the reference frame. The spectral tilt parameter may be obtained for each subframe in the frame. For example, it may be obtained as an average value between two spectral tilt parameters for the first subframe and the second surf frame of the current frame and the spectral tilt parameters for the second subframe of the reference frame. The energy of the high frequency may be defined as an average value of energy of the last two critical bands. The energy of the low frequency may be defined as an average value of energy of the first 10 critical bands in the case of the wide band, and the first 9 critical bands in the case of the narrow band. Can be defined as the mean value of energy. That is, the use of a critical band located in the middle can be excluded.

에너지 변화 파라미터(energy variation parameter)는 에너지 증가에 대한 정보를 의미할 수 있다. 상기 에너지 증가(energy increase)는 연속적인 2개의 세그먼트들간의 비율값으로 결정될 수 있다. 상기 세그먼트는 서브 프레임에 속하는 샘플들의 집합 단위를 의미할 수 있다. 예를 들어, 상기 서브 프레임은 제 1 세그먼트와 제 2 세그먼트로 구성될 수 있다. 예를 들어, 상기 에너지 변화 파라미터는 현재 세그먼트와 이전 세그먼트간의 에너지 비율로 정의될 수 있다. 상기 현재 세그먼트의 에너지는 현재 세그먼트내의 샘플들에 대한 에너지 중 최대값일 수 있다.The energy variation parameter may mean information on energy increase. The energy increase may be determined as a ratio value between two consecutive segments. The segment may mean a collection unit of samples belonging to a subframe. For example, the subframe may be composed of a first segment and a second segment. For example, the energy change parameter may be defined as an energy ratio between the current segment and the previous segment. The energy of the current segment may be the maximum of energy for the samples in the current segment.

앞서 설명한 토널 파라미터를 이용하여 언보이스드 프레임을 분류할 수도 있다.The unvoiced frame may be classified using the tonal parameter described above.

이하, 보이스드 코딩 모드로 코딩되는 프레임(이하, 보이스드 프레임)을 선택하기 위한 신호 분류에 대해서 설명하기로 한다.Hereinafter, signal classification for selecting a frame to be coded in the voiced coding mode (hereinafter, referred to as a voiced frame) will be described.

보이스드 프레임은 강한 주기성과 부드러운 피치 컨투어(smooth pitch contour)를 가진다. 상기 보이스드 프레임은 개루프 피치 서치(open-loop pitch search)에 기초하여 분류될 수 있다. 상기 개루프 피치 서치는 서브 프레임별로 수행될 수 있다. 예를 들어, 개루프 피치 서치를 수행한 결과 4개의 서브 프레임에 대하여 부드러운 피치 컨투어를 가진다면, 프레임은 보이스드 코딩 모드로 코딩될 수 있다. 또한, 각 서브 프레임의 코릴레이션 정보 및 스펙트럴 틸트 파라미터를 고려하여 보이스드 프레임을 분류할 수 있다.The voiced frame has a strong periodicity and a smooth pitch contour. The voiced frames may be classified based on open-loop pitch search. The open loop pitch search may be performed for each subframe. For example, if a result of performing an open loop pitch search has a smooth pitch contour for four subframes, the frame can be coded in the voiced coding mode. In addition, the voiced frame may be classified in consideration of correlation information and spectral tilt parameters of each subframe.

노이즈 채널에서 코딩의 효율성을 향상시키기 위해서 상기 신호 분류에 대한 개선(refinement)이 요구될 수 있다. 코릴레이션 파라미터(correlation parameter), 스펙트럴 틸트 파라미터(spectral tilt parameter), 피치 카운터 파라미터(pitch counter parameter), 제로 크로싱 파라미터(zero crossing parameter) 등이 신호 분류의 개선을 위해 이용될 수 있다.Refinement to the signal classification may be required to improve the efficiency of coding in the noise channel. Correlation parameters, spectral tilt parameters, pitch counter parameters, zero crossing parameters, and the like may be used to improve signal classification.

코릴레이션 파라미터(correlation parameter)는 현재 프레임의 코릴레이션 정보와 이웃 프레임의 코릴레이션 정보를 이용하여 획득될 수 있다. 예를 들어, 상기 코릴레이션 파라미터는 현재 프레임의 코릴레이션 정보와 이웃 프레임의 코릴레이션 정보간의 평균값일 수 있다.A correlation parameter may be obtained using correlation information of a current frame and correlation information of a neighboring frame. For example, the correlation parameter may be an average value between correlation information of a current frame and correlation information of a neighboring frame.

스펙트럴 틸트 파라미터는 앞서 설명한 바와 동일한 바, 자세한 설명은 생략하기로 한다.Since the spectral tilt parameter is the same as described above, a detailed description thereof will be omitted.

피치 카운터 파라미터(pitch counter parameter)는 개루프 피치 레그(open-loop pitch lag)를 이용하여 피치 주기의 변화를 측정한 값일 수 있다. 상기 개루프 피치 레그로 현재 프레임내의 각 서브 프레임에 대한 피치 레그와 이웃 프레임내의 서브 프레임에 대한 피치 레그가 이용될 수 있다.The pitch counter parameter may be a value obtained by measuring a change in pitch period using an open-loop pitch lag. As the open loop pitch leg, a pitch leg for each subframe in a current frame and a pitch leg for a subframe in a neighboring frame may be used.

제로 크로싱 파라미터(zero crossing parameter)는 일정 간격내의 신호의 부호가 변하는 횟수를 나타내는 파라미터일 수 있다. 상기 일정 간격은 현재 프레임내의 서브 프레임과 이웃 프레임내의 서브 프레임간의 간격을 의미할 수 있다.The zero crossing parameter may be a parameter indicating the number of times a sign of a signal changes within a predetermined interval. The predetermined interval may mean an interval between a subframe in a current frame and a subframe in a neighboring frame.

상기 파라미터들에 기초하여 입력 신호의 코딩 모드를 결정할 수 있다. 한편, 신호의 왜곡을 최소화하기 위해서 상기 파라미터들은 기결정된 계수에 의해서 스케일링된 후 이용될 수 있다.The coding mode of the input signal may be determined based on the parameters. Meanwhile, in order to minimize distortion of the signal, the parameters may be used after being scaled by predetermined coefficients.

상기 선택된 코딩 구조는 참조 프레임의 코딩 구조에 기초하여 수정될 수 있다. 이는 현재 프레임의 코딩 구조가 참조 프레임의 코딩 구조와의 관계에서 급격하게 변화하는 것을 방지하기 위함이다.The selected coding structure may be modified based on the coding structure of the reference frame. This is to prevent the coding structure of the current frame from changing rapidly in relation to the coding structure of the reference frame.

도 5는 본 발명이 적용되는 일실시예로서, 참조 프레임의 코딩 구조 모드에 기초하여 현재 프레임의 코딩 구조 모드를 수정하는 방법을 도시한 순서도이다. FIG. 5 is a flowchart illustrating a method of modifying a coding structure mode of a current frame based on a coding structure mode of a reference frame according to an embodiment to which the present invention is applied.

앞서 살펴본 바와 같이 인핸스먼트 레이어의 타겟 신호, 코딩 구조를 결정하기 위한 파라미터, 또는 현재 프레임의 코딩 모드에 기초하여 현재 프레임의 코딩 구조 모드가 선택될 수 있다(S500). 상기 선택된 현재 프레임의 코딩 구조 모드와 참조 프레임의 코딩 구조 모드를 비교할 수 있다(S510). 상기 비교 결과에 기초하여 상기 현재 프레임의 코딩 구조 모드가 수정될 수 있다(S530). 예를 들어, 상기 참조 프레임의 코딩 구조는 상기 현재 프레임 이전에 코딩된 프레임에 대한 코딩 구조를 의미할 수 있다. 상기 비교 결과, 연속적인 양 프레임간의 코딩 구조가 급격하게 변화하는 경우, 상기 현재 프레임의 코딩 구조는 수정될 수 있다. 상기 현재 프레임의 코딩 구조와 참조 프레임의 코딩 구조간의 차이값(difference value)이 획득될 수 있다. 상기 차이값(difference value)이 기결정된 값(predetermined value)을 초과하는 경우, 상기 현재 프레임의 코딩 구조는 수정될 수 있다. 한편, 상기 현재 프레임의 코딩 구조가 수정된 경우, 현재 프레임에 대한 코딩 구조는 상기 수정된 코딩 구조로 업데이트될 수 있다(S540). 다만, 상기 현재 프레임의 코딩 구조와 상기 참조 프레임의 코딩 구조가 동일한 경우, 또는 상기 차이값이 기결정된 값을 초과하지 아니하는 경우에는 상기 현재 프레임은 상기 선택된 코딩 구조에 기초하여 코딩될 수 있다(S520).As described above, the coding structure mode of the current frame may be selected based on a target signal of the enhancement layer, a parameter for determining a coding structure, or a coding mode of the current frame (S500). In operation S510, the coding structure mode of the selected current frame may be compared with the coding structure mode of the reference frame. The coding structure mode of the current frame may be modified based on the comparison result (S530). For example, the coding structure of the reference frame may mean a coding structure for a frame coded before the current frame. As a result of the comparison, when the coding structure between two consecutive frames changes rapidly, the coding structure of the current frame may be modified. A difference value between the coding structure of the current frame and the coding structure of the reference frame may be obtained. If the difference value exceeds a predetermined value, the coding structure of the current frame may be modified. Meanwhile, when the coding structure of the current frame is modified, the coding structure for the current frame may be updated with the modified coding structure (S540). However, when the coding structure of the current frame and the reference frame of the reference frame are the same or when the difference value does not exceed a predetermined value, the current frame may be coded based on the selected coding structure ( S520).

인코더에서 선택된 또는 수정된 코딩 구조에 대한 정보(이하, 코딩 구조 식별 정보라 함.)는 디코더로 전송될 수 있다. 상기 코딩 구조 식별 정보(coding structure identification information)라 함은 음성 신호를 위한 코딩 구조와 음악 신호를 위한 코딩 구조간의 비트 할당에 대한 비율을 특정하는 정보를 의미할 수 있다. 또는, 상기 코딩 구조 식별 정보는 인핸스먼트 레이어내의 각 레이어에 대한 코딩 구조를 식별하는 정보를 의미할 수 있다. 즉, 인핸스먼트 레이어가 음성 신호를 위한 코딩 구조인지, 음악 신호를 위한 코딩 구조인지 여부를 식별케하는 정보일 수 있다. 따라서, 프레임은 인핸스먼트 레이어에서 상기 코딩 구조 식별 정보에 따라 음성 신호를 위한 코딩 구조 또는 음악 신호를 위한 코딩 구조를 이용하여 디코딩될 수 있다.Information about the coding structure selected or modified by the encoder (hereinafter, referred to as coding structure identification information) may be transmitted to the decoder. The coding structure identification information may refer to information specifying a ratio of bit allocation between a coding structure for a speech signal and a coding structure for a music signal. Alternatively, the coding structure identification information may refer to information for identifying a coding structure for each layer in the enhancement layer. That is, the enhancement layer may be information for identifying whether the enhancement layer is a coding structure for a speech signal or a coding structure for a music signal. Accordingly, the frame may be decoded using the coding structure for the speech signal or the coding structure for the music signal according to the coding structure identification information in the enhancement layer.

디코더에서 프레임마다 상기 코딩 구조 식별 정보를 파싱하지 아니하고, 상기 코딩 구조 식별 정보를 유도함으로써, 코딩의 효율성을 향상시킬 수 있다.Coding efficiency can be improved by deriving the coding structure identification information without parsing the coding structure identification information for each frame in a decoder.

예를 들어, 현재 프레임에 대한 코딩 구조 식별 정보를 파싱하기 전에 코딩 구조 참조 정보(coding structure reference information)를 파싱할 수 있다. 상기 코딩 구조 참조 정보는 현재 프레임의 코딩 구조가 참조 프레임의 코딩 구조와 동일한지 여부를 지시하는 정보일 수 있다. 상기 코딩 구조 참조 정보가 현재 프레임의 코딩 구조와 참조 프레임의 코딩 구조가 동일함을 지시하는 경우, 상기 현재 프레임에 대한 코딩 구조 식별 정보는 별도로 파싱되지 아니하고, 참조 프레임에 대한 코딩 구조 식별 정보와 동일한 값으로 유도될 수 있다. 다만, 상기 코딩 구조 참조 정보가 현재 프레임의 코딩 구조와 참조 프레임의 코딩 구조가 동일하지 아니함을 지시하는 경우, 상기 현재 프레임에 대한 코딩 구조 식별 정보는 별도로 파싱될 수 있다.For example, coding structure reference information may be parsed before parsing coding structure identification information for the current frame. The coding structure reference information may be information indicating whether the coding structure of the current frame is the same as the coding structure of the reference frame. If the coding structure reference information indicates that the coding structure of the current frame and the coding structure of the reference frame are the same, the coding structure identification information for the current frame is not parsed separately and is identical to the coding structure identification information for the reference frame. Can be derived from a value. However, when the coding structure reference information indicates that the coding structure of the current frame and the coding structure of the reference frame are not the same, the coding structure identification information for the current frame may be parsed separately.

또는, 베이스 코딩 구조 식별 정보(base coding structure coding identification information)를 이용함으로써, 프레임마다 코딩 구조 식별 정보를 전송함에 따른 비트수를 줄일 수도 있다. 상기 베이스 코딩 구조 식별 정보라 함은 인코더에서 선택된 또는 수정된 코딩 구조 중에서 가장 빈도수가 높은 코딩 구조를 특정하는 정보일 수 있다.Alternatively, by using base coding structure coding identification information, the number of bits for transmitting the coding structure identification information for each frame may be reduced. The base coding structure identification information may be information specifying a coding structure having the highest frequency among coding structures selected or modified by an encoder.

예를 들어, 프레임 레벨보다 상위 레벨에서 상기 베이스 코딩 구조 식별 정보를 획득할 수 있다. 프레임 레벨에서 프레임 단위로 베이스 코딩 구조 참조 정보(base coding structure reference information)를 파싱할 수 있다. 상기 베이스 코딩 구조 참조 정보라 함은 베이스 코딩 구조 식별 정보와 현재 프레임의 코딩 구조 식별 정보가 동일한지 여부를 지시하는 정보일 수 있다. 상기 베이스 코딩 구조 참조 정보가 베이스 코딩 구조 식별 정보와 현재 프레임의 코딩 구조 식별 정보가 동일함을 지시하는 경우, 상기 현재 프레임의 코딩 구조 식별 정보는 별도로 파싱되지 아니하고 상기 베이스 코딩 구조 식별 정보와 동일한 값으로 설정될 수 있다. 다만, 상기 베이스 코딩 구조 참조 정보가 베이스 코딩 구조 식별 정보와 현재 프레임의 코딩 구조 식별 정보가 동일하지 아니함을 지시하는 경우, 상기 현재 프레임의 코딩 구조 식별 정보는 별도로 파싱될 수 있다.For example, the base coding structure identification information may be obtained at a level higher than a frame level. Base coding structure reference information may be parsed at a frame level on a frame-by-frame basis. The base coding structure reference information may be information indicating whether the base coding structure identification information is identical to the coding structure identification information of the current frame. When the base coding structure reference information indicates that the base coding structure identification information and the coding structure identification information of the current frame are the same, the coding structure identification information of the current frame is not parsed separately and is the same value as the base coding structure identification information. Can be set. However, when the base coding structure reference information indicates that the base coding structure identification information and the coding structure identification information of the current frame are not the same, the coding structure identification information of the current frame may be parsed separately.

본 발명은 벡터 양자화 기법 등을 이용하여 오디오 신호를 코딩하는데 이용될 수 있다.
The present invention can be used to code an audio signal using a vector quantization technique or the like.

Claims (5)

입력 신호를 수신하는 단계;
상기 입력 신호를 이용하여 코어 레이어에서 합성 신호를 생성하는 단계;
상기 입력 신호와 상기 코어 레이어의 합성 신호를 이용하여 인핸스먼트 레이어의 차분 신호를 생성하는 단계;
상기 인핸스먼트 레이어의 차분 신호의 에너지와 에너지 문턱값을 비교하는 단계; 및
상기 비교 결과에 기초하여 현재 프레임의 코딩 구조 모드를 선택하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 인코딩 방법.
Receiving an input signal;
Generating a synthesized signal in a core layer using the input signal;
Generating a difference signal of an enhancement layer using the combined signal of the input signal and the core layer;
Comparing the energy of the difference signal of the enhancement layer with an energy threshold; And
Selecting a coding structure mode of the current frame based on the comparison result.
제 1항에 있어서, 상기 인핸스먼트 레이어의 차분 신호는 상기 입력 신호와 상기 코어 레이어의 합성 신호간의 차분 신호인 것을 특징으로 하는 오디오 신호 인코딩 방법.The audio signal encoding method of claim 1, wherein the difference signal of the enhancement layer is a difference signal between the input signal and the composite signal of the core layer. 제 1항에 있어서, 상기 현재 프레임의 코딩 구조 모드를 선택하는 단계는,
현재 프레임에 대한 코딩 모드를 결정하는 단계를 더 포함하되,
상기 현재 프레임의 코딩 구조 모드는 상기 현재 프레임에 대한 코딩 모드에 기초하여 선택되며, 상기 코딩 구조는 언보이스드 코딩 모드, 보이스드 코딩 모드, 트랜지션 코딩 모드 및 제너릭 코딩 모드를 포함하는 것을 특징으로 하는 오디오 신호 인코딩 방법.
The method of claim 1, wherein selecting a coding structure mode of the current frame comprises:
Determining a coding mode for the current frame;
The coding structure mode of the current frame is selected based on the coding mode for the current frame, wherein the coding structure comprises an unvoiced coding mode, a voiced coding mode, a transition coding mode and a generic coding mode. Audio signal encoding method.
제 1항에 있어서, 상기 현재 프레임의 코딩 구조 모드를 선택하는 단계는,
상기 선택된 현재 프레임의 코딩 구조 모드와 이전 프레임의 코딩 구조 모드를 비교하는 단계; 및
상기 비교 결과에 기초하여 상기 선택된 현재 프레임의 코딩 구조 모드를 수정하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 인코딩 방법.
The method of claim 1, wherein selecting a coding structure mode of the current frame comprises:
Comparing a coding structure mode of the selected current frame with a coding structure mode of a previous frame; And
Modifying a coding structure mode of the selected current frame based on the comparison result.
제 4 항에 있어서, 상기 선택된 현재 프레임의 코딩 구조 모드와 상기 이전 프레임의 코딩 구조 모드간의 차이값이 모드 차이 문턱값보다 큰 경우, 상기 선택된 현재 프레임의 코딩 구조 모드를 수정하는 것을 특징으로 하는 오디오 신호 인코딩 방법.The audio of claim 4, wherein the coding structure mode of the selected current frame is modified when the difference between the coding structure mode of the selected current frame and the coding structure mode of the previous frame is larger than a mode difference threshold. Signal Encoding Method.
KR1020100086487A 2010-03-23 2010-09-03 A method and an apparatus for processing an audio signal KR20110106779A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US31639110P 2010-03-23 2010-03-23
US61/316,391 2010-03-23

Publications (1)

Publication Number Publication Date
KR20110106779A true KR20110106779A (en) 2011-09-29

Family

ID=44956493

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100086487A KR20110106779A (en) 2010-03-23 2010-09-03 A method and an apparatus for processing an audio signal

Country Status (1)

Country Link
KR (1) KR20110106779A (en)

Similar Documents

Publication Publication Date Title
JP5551692B2 (en) Speech encoder, speech decoder, speech encoding method, speech decoding method, and computer program
US10706865B2 (en) Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
JP6470857B2 (en) Unvoiced / voiced judgment for speech processing
KR20080101872A (en) Apparatus and method for encoding and decoding signal
EP1982329B1 (en) Adaptive time and/or frequency-based encoding mode determination apparatus and method of determining encoding mode of the apparatus
CN103493129B (en) For using Transient detection and quality results by the apparatus and method of the code segment of audio signal
KR20020052191A (en) Variable bit-rate celp coding of speech with phonetic classification
CN106463134B (en) method and apparatus for quantizing linear prediction coefficients and method and apparatus for inverse quantization
JPH08328588A (en) System for evaluation of pitch lag, voice coding device, method for evaluation of pitch lag and voice coding method
JP2011518345A (en) Multi-mode coding of speech-like and non-speech-like signals
KR101792712B1 (en) Low-frequency emphasis for lpc-based coding in frequency domain
JP2010540990A (en) Method and apparatus for efficient quantization of transform information in embedded speech and audio codecs
RU2414009C2 (en) Signal encoding and decoding device and method
KR20110106779A (en) A method and an apparatus for processing an audio signal
KR20100006491A (en) Method and apparatus for encoding and decoding silence signal
CA3157876A1 (en) Methods and system for waveform coding of audio signals with a generative model

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination