KR101281945B1 - Apparatus and method for coding audio - Google Patents

Apparatus and method for coding audio Download PDF

Info

Publication number
KR101281945B1
KR101281945B1 KR1020060120137A KR20060120137A KR101281945B1 KR 101281945 B1 KR101281945 B1 KR 101281945B1 KR 1020060120137 A KR1020060120137 A KR 1020060120137A KR 20060120137 A KR20060120137 A KR 20060120137A KR 101281945 B1 KR101281945 B1 KR 101281945B1
Authority
KR
South Korea
Prior art keywords
bass
frequency
signal
information
fundamental frequency
Prior art date
Application number
KR1020060120137A
Other languages
Korean (ko)
Other versions
KR20080049499A (en
Inventor
김재현
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020060120137A priority Critical patent/KR101281945B1/en
Publication of KR20080049499A publication Critical patent/KR20080049499A/en
Application granted granted Critical
Publication of KR101281945B1 publication Critical patent/KR101281945B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Abstract

본 발명은 오디오 코더에 관한 것으로, 특히 인코딩시 입력 오디오 신호의 저음 영역을 제거하고, 저음 신호 정보를 전송하고, 디코딩시 부가 정보로 넘어온 저음 신호 정보를 바탕으로 인공저음을 생성한다.

본 발명의 실시 예에 따른 오디오 인코딩 장치는, 디지털 오디오 신호를 인코딩하는 인코더에 있어서, 외부 제어부로부터 전송된 차단 주파수(cutoff frequency) 정보에 따라 HPF(High Pass Filter)를 이용하여 상기 디지털 오디오 신호에서 저음 신호를 제거하는 저음 제거부와, FFT(Fast Fourier transform) 결과를 이용하여 주파수 영역에서 기본 주파수를 검출하는 기본 주파수 분석부, 상기 기본 주파수를 이용하여 저음 신호 관련 정보를 추출하는 저음 정보 추출부와, 상기 저음 신호 관련 정보와 상기 저음 제거된 디지털 오디오 신호를 이용하여 비트 스트림을 구성하여 인코딩된 오디오 신호를 출력하는 비트 스트림 형성부를 포함한다.

Figure R1020060120137

저음, 코딩, 인코더, 디코더, 오디오 코더

BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an audio coder, and in particular, to remove a bass region of an input audio signal during encoding, to transmit bass signal information, and to generate artificial bass based on bass signal information transferred as additional information when decoding.

An audio encoding apparatus according to an embodiment of the present invention, in an encoder for encoding a digital audio signal, in the digital audio signal using an HPF (High Pass Filter) according to cutoff frequency information transmitted from an external control unit A bass remover for removing the bass signal, a fundamental frequency analyzer for detecting a fundamental frequency in the frequency domain using a fast fourier transform (FFT) result, and a bass information extractor for extracting bass signal related information using the fundamental frequency And a bit stream forming unit configured to output an encoded audio signal by configuring a bit stream using the bass signal related information and the bass-removed digital audio signal.

Figure R1020060120137

Bass, coding, encoder, decoder, audio coder

Description

오디오 코딩 장치 및 방법{APPARATUS AND METHOD FOR CODING AUDIO} Audio coding apparatus and method {APPARATUS AND METHOD FOR CODING AUDIO}

도 1a 및 도 1b는 일반적인 지각 인코더/디코더(perceptual encoding/decoding)의 블록 구성도,1A and 1B are block diagrams of a general perceptual encoder / decoder.

도 2a 및 도 2b는 일반적인 mp3 인코더와 디코더의 블록 구성도,2a and 2b is a block diagram of a typical mp3 encoder and decoder,

도 3a 및 도 3b는 본 발명의 실시 예에 따른 지각 인코더/디코더의 블록 구성도,3A and 3B are block diagrams of a perceptual encoder / decoder according to an embodiment of the present invention;

도 4a 및 도 4b는 본 발명의 실시 예에 따른 mp3 인코더/디코더의 블록 구성도,4A and 4B are block diagrams of an mp3 encoder / decoder according to an embodiment of the present invention;

도 5 및 도 6은 본 발명의 실시 예에 따른 오디오 코딩 방법을 도시한 흐름도.5 and 6 are flowcharts illustrating an audio coding method according to an embodiment of the present invention.

본 발명은 오디오 코더에 관한 것으로, 특히 디지털 오디오 신호들의 인코딩/디코딩 장치 및 방법에 관한 것이다.The present invention relates to audio coders, and more particularly, to an apparatus and method for encoding / decoding digital audio signals.

일반적으로, 지각 오디오 코더(perceptual audio coder)는 지각 모 델(perceptual model)을 적용하여 소리를 압축하고 재생하는 시스템으로 mp3(MPEG Audio Layer-3) 인코더/디코더(encoder/decoder) 또는 AAC(Advanced Audio Coding) 인코더/디코더 등을 예로 들 수 있다. In general, a perceptual audio coder is a system that compresses and reproduces sound by applying a perceptual model, which is an mp3 (MPEG Audio Layer-3) encoder / decoder or AAC (Advanced). Audio Coding) encoder / decoder, for example.

상기 지각 오디오 코더로 소리를 압축 재생할 시에는 불필요한 정보를 어떻게 효율적으로 배제하고 청취 시 얼마나 원음과 차이가 없는지에 초점이 맞추어졌다. 여기서는 일반적인 지각 오디오 코더에 대해 기술한 후 보다 자세한 동작은 엠피3 인코더/디코더를 예로 설명한다.When the audio is compressed and reproduced by the perceptual audio coder, the focus is on how to effectively exclude unnecessary information and how much difference there is from the original sound when listening. Here, the general perceptual audio coder will be described, and then the detailed operation will be described using the MP3 encoder / decoder as an example.

도 1a 및 도 1b는 일반적인 지각 인코더/디코더(perceptual encoding/decoding)의 블록 구성도를 도시한 것이다. 이는 지각 모델(perceptual model)을 적용한 오디오 압축 코더에 대한 일반적인 블록 구성도이다.1A and 1B show a block diagram of a general perceptual encoder / decoder. This is a general block diagram of an audio compression coder using a perceptual model.

먼저, 도 1a를 참조하면, 인코더는, 분석 필터 뱅크(105), 지각 모델 적용부(120), 양자화 및 코딩부(110), 인코딩부(115)로 구성된다.First, referring to FIG. 1A, an encoder includes an analysis filter bank 105, a perceptual model application unit 120, a quantization and coding unit 110, and an encoding unit 115.

오디오 신호는 분석 필터 뱅크(105)와 지각 모델 적용부(120)로 각각 입력된다. The audio signal is input to the analysis filter bank 105 and the perceptual model application unit 120, respectively.

상기 분석 필터 뱅크(Analysis Filterbank)(105)는 오디오 신호가 입력되면 입력 디지털 오디오 샘플에 대해 필터 뱅크를 적용하여 여러 개의 서브밴드 신호로 나누어 재구성하고 주파수 밴드별로 분석한다. 즉, 분석 필터 뱅크(105)는 상기 오디오 신호가 입력되면 주파수 영역에서 일정 구간을 나눠서 필터 뱅크를 적용하여 따로 따로 처리한다. When an audio signal is input, the analysis filter bank 105 applies a filter bank to an input digital audio sample, reconstructs it into a plurality of subband signals, and analyzes the frequency band. That is, when the audio signal is input, the analysis filter bank 105 divides a predetermined section in the frequency domain and separately applies the filter bank by applying the filter bank.

상기 지각 모델(perceptual model) 적용부(120)는 상기 필터 뱅크 분석 결과 를 사용하여 지각 모델을 적용한 실제적인 마스킹 임계치를 산출하여 상기 양자화 및 코딩부(110)로 출력한다. 즉, 지각 모델 적용부(120)는 입력된 오디오 신호를 분석하여 인지 특성상 불필요한 부분을 오디오 압축시 제거할 수 있도록 분석한다. The perceptual model application unit 120 calculates an actual masking threshold to which the perceptual model is applied using the filter bank analysis result, and outputs the masking threshold to the quantization and coding unit 110. That is, the perceptual model application unit 120 analyzes the input audio signal so that an unnecessary part due to cognitive characteristics can be removed during audio compression.

상기 양자화 및 코딩(Quantization & Coding)부(110)는 상기 지각 모델을 적용한 상기 오디오 신호를 소정의 오차를 두고 디지털 신호로 양자화하고 코딩한다. 예를 들어, 양자화 처리 시, 사람이 잘 듣지 못하는 부분은 듬성듬성 처리하고, 사람이 잘 들리는 부분은 세밀하게 처리한다. 다시 말해서 상기 양자화 및 코딩부(110)는 스펙트럴 컴포넌트(spectral component)에 대해서 마스킹 임계치 아래에서 있도록 양자화를 수행하고 코드화한다. The quantization & coding unit 110 quantizes and codes the audio signal to which the perceptual model is applied, into a digital signal with a predetermined error. For example, in the quantization process, the parts that are hard to hear are sparsely processed, and the parts that are hard to hear are finely processed. In other words, the quantization and coding unit 110 performs quantization and codes the spectral component so as to be below a masking threshold.

상기 인코딩부(115)는 상기 양자화 및 코딩부(110)의 출력을 비트 스트림으로 정형화한다. 상기 비트 스트림은 전형적으로 양자화, 코드화된 스펙트럴 컴포넌트, 부가 정보(side-information)로 구성된다.The encoder 115 forms the output of the quantization and coding unit 110 into a bit stream. The bit stream typically consists of quantized, coded spectral components, and side-information.

한편, 상기 디코더는 디코딩부(135)와, 역양자화부(140), 합성 필터 뱅크(145)로 구성된다.The decoder includes a decoder 135, an inverse quantizer 140, and a synthesis filter bank 145.

상기 디코딩부(135)는 입력된 비트 스트림을 디코딩하여 역양자화부(140)로 출력한다.The decoder 135 decodes the input bit stream and outputs the decoded bit to the dequantizer 140.

상기 역양자화부(De-Quantization)(140)는 상기 디코딩부(135)로부터 출력된 디코딩된 비트 스트림을 역양자화하여 합성 필터 뱅크(145)로 출력한다.The de-quantization unit 140 dequantizes the decoded bit stream output from the decoding unit 135 and outputs the dequantized bit stream to the synthesis filter bank 145.

상기 합성 필터 뱅크(synthesis Filterbank)(145)는 원래의 오디오 신호로부터 지각적으로 구별할 수 없는 오디오 신호를 발생시키도록 합성 필터들의 뱅크를 상기 역양자화부(140)의 출력에 적용하여 비트 스트림을 출력한다.The synthesis filterbank 145 applies a bank of synthesis filters to the output of the dequantizer 140 to generate a perceptually indistinguishable audio signal from the original audio signal. Output

도 2a 및 도 2b는 일반적인 mp3 인코더와 디코더의 블록 구성도이다.2A and 2B are block diagrams of a general mp3 encoder and decoder.

mp3 코더는 지각 인코딩/디코딩 시스템의 대표적 예이다. mp3 압축에는 32 밴드에 기초한 서브밴드 코딩과 변형이산여현변환(Modified Discrete Discrete Cosine Transform, MDCT)을 사용하며, 청각 심리적(Psychoacoustic) 특성을 이용하여 고능률의 압축을 실현하고 있다.The mp3 coder is a representative example of a perceptual encoding / decoding system. 32-band subband coding and Modified Discrete Cosine Transform (MDCT) are used for mp3 compression, and high efficiency compression is achieved using the psychoacoustic characteristics.

도 2a를 참조하면 디지털 신호가 mp3 오디오 인코더에 입력되면, 도면에 도시되지 않은 입력 버퍼에 저장된다. 상기 버퍼에 저장된 디지털 데이터는 순차적으로 필터 뱅크(210)로 출력된다.Referring to FIG. 2A, when a digital signal is input to an mp3 audio encoder, it is stored in an input buffer not shown. Digital data stored in the buffer is sequentially output to the filter bank 210.

상기 필터 뱅크(210)는 입력 디지탈 오디오 샘플에 대해 필터 뱅크를 적용하여 32 개의 서브밴드 신호로 재구성하고 주파수 밴드별로 분석한다. The filter bank 210 reconstructs 32 subband signals by applying a filter bank to an input digital audio sample and analyzes each frequency band.

상기 MDCT(215)는 지각 에너지(perceptual energy)를 이용하여 MDCT에 적용될 윈도우(window)를 선택한다.The MDCT 215 selects a window to be applied to the MDCT using perceptual energy.

이때, 각 임계대역에 대해서 SMR(Signal to Masking Ratio)을 구하고, 지각 에너지가 임계치 보다 크거나 같으면 숏 윈도우(short window)를 선택하고, 지각 에너지가 임계치 보다 작으면, 롱 윈도우(long window)를 선택한다.In this case, the SMR (Signal to Masking Ratio) is obtained for each critical band, and if the perceptual energy is greater than or equal to the threshold, a short window is selected. If the perceptual energy is less than the threshold, the long window is determined. Choose.

각 MDCT를 수행한 후, 양자화부(230)로 출력된다. After performing each MDCT, it is output to the quantization unit 230.

FFT(Fast Fourier transform)(220)는 상기 입력 버퍼에 대해서 1024(long window), 256(short window)를 구성된 것에 FFT를 수행한다.Fast Fourier transform (FFT) 220 performs an FFT on the 1024 (long window) and 256 (short window) of the input buffer.

심리 음향 모델(Psychoacoustic Model) 적용부(225)는 상기 FFT(220) 결과에 심리 음향 모델을 적용하여 상기 양자화부(230)로 출력한다.The psychoacoustic model application unit 225 applies the psychoacoustic model to the result of the FFT 220 and outputs the psychoacoustic model to the quantization unit 230.

상기 양자화부(230)는 상기 심리 음향 모델을 적용한 상기 오디오 신호를 소정의 오차를 두고 디지털 신호로 양자화한다. 양자화 수행 후, 허프만 코딩부(235)로 출력된다.The quantization unit 230 quantizes the audio signal to which the psychoacoustic model is applied to a digital signal with a predetermined error. After quantization is performed, the Huffman coding unit 235 is output to the Huffman coding unit 235.

상기 허프만 코딩(Huffman Encoding)부(235)는 상기 양자화부(230)의 출력값에 허프만 코딩을 수행한 후, 비트 스트림 형성부(250)로 출력된다. 여기서 허프만 코딩 방식은 오디오, 영상, 기타 다양한 분야에 널리 사용되는 알고리즘으로서, 이는 데이터의 통계적인 출현 빈도수를 고려하여, 데이터들의 발생 확률에 따라 서로 다른 길이의 부호를 할당함으로써 정보의 손실 없이 압축을 실시하는 방법이다.The Huffman encoding unit 235 performs Huffman coding on the output value of the quantization unit 230 and then outputs the bit stream forming unit 250. Here, the Huffman coding method is an algorithm widely used in audio, video, and various other fields. It considers the statistical frequency of data and assigns codes of different lengths according to the occurrence probability of the data, thereby compressing without loss of information. It is a method to carry out.

상기 비트 스트림 형성부(bitstream formatting)(240)는 비트 스트림을 구성한 다음, 에러 체크하는 CRC(Cyclic Redundancy Checking) 체크 후 파일 형태의 오디오 신호를 출력한다.The bitstream formatting unit 240 configures a bitstream, and then outputs an audio signal in the form of a file after checking a cyclic redundancy checking (CRC).

상기 부가 정보 코딩(side-information coding)부(240)는 상기 양자화부(230)의 출력값에서 부가 정보에 대해 코딩한 다음 비트 스트림 형성부(250)로 출력한다. The side-information coding unit 240 codes the additional information in the output value of the quantization unit 230 and then outputs the additional information to the bit stream forming unit 250.

상기 외부 제어(external control)부(245)는 출력 장치에 대한 정보를 상기 양자화부(230)에 제공한다. The external control unit 245 provides information about the output device to the quantization unit 230.

한편, 도 2b를 참조하여 mp3 디코더를 설명하기로 한다. 상기 mp3 디코더는 상기 mp3 인코더의 인코딩의 역순으로 진행하면된다.Meanwhile, the mp3 decoder will be described with reference to FIG. 2B. The mp3 decoder may proceed in the reverse order of encoding of the mp3 encoder.

파일 형태의 코딩된 오디오 신호가 프레임 언팩부(250)로 입력된다. The coded audio signal in the form of a file is input to the frame unpacking unit 250.

상기 프레임 언팩(unpack)부(250)는 압축된 상기 오디오 신호를 원래대로 되돌린 후 허프만 디코딩부(255)와 부가 정보 코딩부(265)로 각각 전송한다.The frame unpack unit 250 returns the compressed audio signal to its original state and transmits the compressed audio signal to the Huffman decoding unit 255 and the additional information coding unit 265, respectively.

상기 허프만 디코딩부(255)는 상기 프레임 언팩부(250)의 출력값인 언팩된 스펙트럴 컴포넌트에 대해 허프만 디코딩을 수행 후, 역양자화부(260)로 출력한다.The Huffman decoding unit 255 performs Huffman decoding on the unpacked spectral component that is the output value of the frame unpacking unit 250, and then outputs the Huffman decoding unit to the dequantization unit 260.

상기 부가 정보 코딩부(265)는 상기 언팩된 데이터로부터 부가 정보에 대해 디코딩한 후, 역양자화부(260)로 출력한다.The additional information coding unit 265 decodes additional information from the unpacked data and outputs the decoded information to the dequantization unit 260.

상기 역양자화(De-quantization)부(260)는 역양자화를 수행한 후, 역변형이산여현변환(Inverse Modified Discrete Discrete Cosine Transform, IMDCT)(270)로 출력한다.The de-quantization unit 260 performs inverse quantization and outputs the inverse modified discrete cosine transform (IMDCT) 270.

상기 IMDCT(270)는 상기 역양자화부(260)의 출력값에 IMDCT를 수행한 후, iPQF(275)로 출력한다.The IMDCT 270 performs IMDCT on the output value of the inverse quantization unit 260 and then outputs it to iPQF 275.

상기 iPQF(inverse Poly-phase Quadrature Filter)(275)는 각 서브밴드에 대해 필터 뱅크를 합성한 후, PCM 형태의 디지털 신호를 출력한다. 도 1b에 기재된 합성 필터 뱅크(145)와 동일한 기능을 갖는다.The inverse poly-phase quadrature filter (iPQF) 275 synthesizes a filter bank for each subband and outputs a PCM type digital signal. It has the same function as the synthesis filter bank 145 described in FIG. 1B.

종래의 지각 오디오 코더는 압축과 재생 시 출력장치(예컨대, 일반 스피터, 핸드폰에 내장된 스피커 등)의 특성을 고려하지 않고, 압축 전 원음과 얼마나 똑같이 압축되고 복원되느냐가 중요한 문제였다. 그러나 멀티미디어 기기가 다양해지고 그에 따른 출력재생 장치도 천차만별인 상황에서 재생 시 사용하는 출력장치의 특성을 고려한 압축 재생 방법을 적용하는 것이 필요하다.The conventional perceptual audio coder is an important problem of how to compress and reconstruct the same as the compressed source sound without considering the characteristics of the output device (for example, the speaker, built-in speaker, etc.) during compression and playback. However, it is necessary to apply a compression and reproduction method considering the characteristics of the output device to be used when the multimedia equipment is diversified and the output reproduction device according to the situation.

특히 핸드폰, PDA(Personal Digital Assistants)나 PMP(Portable Multimedia Player) 등과 같이 작은 스피커를 사용하게 되면 저음 재생 능력이 현저히 떨어지게 된다. 종래에는 이퀄라이져(equlizer)를 사용하여 강제적으로 저주파 대역을 강조하거나 누락 기본음(missing fundamental) 기법을 적용하여 가상의 저음(bass)을 만들어 내는 후처리 과정을 거쳐야만 했다. In particular, the use of small speakers such as mobile phones, PDAs (Personal Digital Assistants), or PMPs (Portable Multimedia Players) can significantly reduce bass reproduction. Conventionally, it has to go through a post-processing process that uses an equalizer to forcibly emphasize low frequency bands or apply a missing fundamental technique to create a virtual bass.

그 중 missing fundamental 기법은 사람의 저음 인지 특성을 반영하는 심리 음향학적 방법으로 단순한 이퀄라이져와 비교해 훨씬 깊고 자연스러운 저음 청취를 가능하게 해준다. 즉, missing fundamental 기법은 사람의 저음 인지 특성과 관련한 기술로 재생 장치에 따라 물리적으로 낼 수 없는 저 주파수 영역의 소리에 대해 하모닉(harmonics) 성분을 만들어 들려줌으로써 실제 저음처럼 느끼게 하는 방법이다. 하지만 사람의 청각적 착각을 도모하는 만큼 세밀한 신호 처리적인 조정과 많은 연산량이 요구된다. 따라서 적은 연산량으로 실시간 처리가 우선인 모바일-멀티미디어 기기에 적용하기 어려운 문제점이 있다.   Among them, the missing fundamental technique is a psychoacoustic method that reflects human bass cognitive characteristics, allowing deeper and more natural bass listening compared to a simple equalizer. In other words, the missing fundamental technique is a technique related to human bass cognition characteristics. It is a method of making the harmonics of the low frequency region sound that cannot be physically produced by the playback device to make it feel like real bass. However, as much as human auditory illusion, detailed signal processing adjustment and a large amount of computation are required. Therefore, there is a problem in that it is difficult to apply to a mobile-multimedia device in which real-time processing is a priority with a small amount of calculation.

따라서 본 발명은 인식 오디오 코더에 missing fundamental 기법을 적용하여 연산량을 줄이는 오디오 코딩 장치 및 방법을 제공한다.Accordingly, the present invention provides an audio coding apparatus and method for reducing the amount of computation by applying a missing fundamental technique to a recognition audio coder.

본 발명은 지각 오디오 코더에 missing fundamental 기법을 적용하여 더 나은 압축 이득을 얻는 오디오 코딩 장치 및 방법을 제공한다.The present invention provides an audio coding apparatus and method for obtaining a better compression gain by applying a missing fundamental technique to a perceptual audio coder.

본 발명의 실시예에 따른 오디오 인코딩 장치는 디지털 오디오 신호를 인코딩하는 인코더에 있어서, 외부 제어부로부터 전송된 차단 주파수(cutoff frequency) 정보에 따라 HPF(High Pass Filter)를 이용하여 상기 디지털 오디오 신호에서 저음 신호를 제거하는 저음 제거부와, FFT(Fast Fourier transform) 결과를 이용하여 주파수 영역에서 기본 주파수를 검출하는 기본 주파수 분석부, 상기 기본 주파수를 이용하여 저음 신호 관련 정보를 추출하는 저음 정보 추출부와, 상기 저음 신호 관련 정보와 상기 저음 제거된 디지털 오디오 신호를 이용하여 비트 스트림을 구성하여 인코딩된 오디오 신호를 출력하는 비트 스트림 형성부를 포함한다.An audio encoding apparatus according to an embodiment of the present invention is an encoder for encoding a digital audio signal, the bass in the digital audio signal using a high pass filter (HPF) according to the cutoff frequency information transmitted from an external control unit A bass removal unit for removing a signal, a fundamental frequency analysis unit for detecting a fundamental frequency in a frequency domain using a fast fourier transform (FFT) result, a bass information extraction unit for extracting bass signal related information using the fundamental frequency, and And a bit stream forming unit configured to output a encoded audio signal by configuring a bit stream using the bass signal related information and the bass-removed digital audio signal.

본 발명의 실시예에 따른 오디오 디코딩 장치는 디지털 신호를 디코딩하는 디코더에 있어서, 디코딩된 저음 신호 관련 정보를 이용하여 기본 주파수에 대한 하모닉을 생성하는 하모닉 생성부와, 출력장치의 차단 주파수에 따라 BPF(Band Pass Filter)를 적용하여 상기 하모닉을 추출하고, 주파수별 이득값을 제어하여 가상 저음을 합성하는 BPF 및 이득 제어부와, 상기 디코딩된 저음 신호 관련 정보에 상기 가상 저음을 추가하는 가상 저음 추가부를 포함한다.An audio decoding apparatus according to an embodiment of the present invention is a decoder for decoding a digital signal, the harmonic generator for generating a harmonic of the fundamental frequency using the decoded bass signal-related information, and the BPF according to the cutoff frequency of the output device A BPF and a gain control unit for extracting the harmonics by applying a band pass filter and controlling gain values for each frequency to synthesize virtual bass, and a virtual bass adding unit for adding the virtual bass to the decoded bass signal related information. Include.

본 발명의 실시예에 따른 오디오 인코딩 방법은 디지털 오디오 신호를 인코딩하는 방법에 있어서, 외부 제어부로부터 전송된 차단 주파수(cutoff frequency) 정보에 따라 HPF(High Pass Filter)를 이용하여 상기 디지털 오디오 신호에서 저음 신호를 제거하는 과정과, FFT(Fast Fourier transform) 결과를 이용하여 주파수 영역에서 기본 주파수를 검출하는 과정과, 상기 기본 주파수를 이용하여 저음 신호 관련 정보를 추출하는 과정과, 상기 저음 신호 관련 정보와 상기 저음 제거된 디지털 오디오 신호를 이용하여 비트 스트림을 구성하여 인코딩된 오디오 신호를 출력하는 과정을 포함한다.In an audio encoding method according to an embodiment of the present invention, in a method of encoding a digital audio signal, bass in the digital audio signal using a high pass filter (HPF) according to cutoff frequency information transmitted from an external control unit Removing a signal, detecting a fundamental frequency in a frequency domain using a fast fourier transform (FFT) result, extracting information about a bass signal using the fundamental frequency, And outputting an encoded audio signal by constructing a bit stream using the bass-removed digital audio signal.

본 발명의 실시예에 따른 오디오 디코딩 방법은 디지털 신호를 디코딩하는 방법에 있어서, 디코딩된 저음 신호 관련 정보를 이용하여 기본 주파수에 대한 하모닉을 생성하는 과정과, 출력장치의 차단 주파수에 따라 BPF(Band Pass Filter)를 적용하여 상기 하모닉을 추출하고 주파수별 이득값을 제어하여 가상 저음을 합성하는 과정과, 상기 디코딩된 저음 신호 관련 정보에 상기 가상 저음을 추가하는 과정을 포함한다. In an audio decoding method according to an embodiment of the present invention, a method of decoding a digital signal, generating a harmonic of the fundamental frequency using the decoded bass signal-related information, and BPF (Band) according to the cutoff frequency of the output device And extracting the harmonics and controlling gains for each frequency to synthesize virtual bass, and adding the virtual bass to the decoded low signal information.

하기에서 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear. The following terms are defined in consideration of the functions of the present invention, and may be changed according to the intentions or customs of the user, the operator, and the like. Therefore, the definition should be based on the contents throughout this specification.

본 발명은 종래의 지각 오디오 코더에 missing fundamental 기법을 적용하기 위해 인코더단에서 심리 음향 블록의 FFT 결과를 이용하여 기본 주파수 분석(fundamental frequency analysis)을 미리 수행한다. 그리고 인코딩(encoding) 음원이 재생될 출력장치의 특성에 따라 사전에 입력 오디오 신호의 저음 영역을 제 거하고, 저대역 서브밴드를 생략한다는 특징이 있다. The present invention performs a fundamental frequency analysis (fundamental frequency analysis) using the FFT result of the psychoacoustic block in the encoder stage in order to apply the missing fundamental technique to the conventional perceptual audio coder. In addition, according to the characteristics of the output device to which the encoding sound source is to be reproduced, the low sound region of the input audio signal is removed in advance, and the low band subband is omitted.

디코더단에서는 부가 정보로 넘어온 저음 신호 정보(기본 주파수(fundamental frequency), 크기(magnitude), 저대역 평균 에너지 등)를 바탕으로 인공 저음을 만든다는 특징이 있다.The decoder has a feature of generating artificial bass based on bass signal information (fundamental frequency, magnitude, low band average energy, etc.) transferred as additional information.

도 3a 및 도 3b는 본 발명의 실시 예에 따른 지각 인코더/디코더의 블록 구성도이다.3A and 3B are block diagrams of a perceptual encoder / decoder according to an embodiment of the present invention.

우선 도 3a에 도시된 인코더를 살펴보면, 종래의 지각 오디오 코더(도 1a 참조)에 하기 블록들이 추가되었다. 추가된 블록들에 대해서 설명하기로 한다. Referring first to the encoder shown in FIG. 3A, the following blocks have been added to a conventional perceptual audio coder (see FIG. 1A). The added blocks will be described.

저음 제거(Bass Subtraction)부(310)는 외부 제어부로부터 전송된 차단 주파수(cutoff frequency) 정보에 따라 HPF(High Pass Filter)를 이용하여 저음 신호를 제거한다. 이때, 상기 차단 주파수는 출력 장치의 차단 주파수에 기준하게 되는데 이어폰이나 고성능의 스피커 사용시에는 낮은 차단 주파수를 설정하고 재생 특성이 열악한 핸드폰 마이크로 스피커와 같은 경우 높은 차단 주파수를 설정하게 된다. 이와 같이, 저음 신호를 제거함으로써 입력 신호의 동적 범위(dynamic range)를 낮출 수 있으며 MDCT에서 MDCT 수행시 저대역의 서브밴드를 생략할 수 있다. 이는 결국 종래 기술 보다 압축시 비트 래이트(bit rate)를 낮출 수 있는 장점이 있다. The bass subtraction unit 310 removes the bass signal using the HPF (High Pass Filter) according to the cutoff frequency information transmitted from the external controller. At this time, the cutoff frequency is based on the cutoff frequency of the output device. When using an earphone or a high-performance speaker, a low cutoff frequency is set, and a high cutoff frequency is set in the case of a mobile phone micro speaker having poor reproduction characteristics. As such, by removing the bass signal, the dynamic range of the input signal may be lowered, and the subband of the low band may be omitted when the MDCT is performed in the MDCT. This, in turn, has the advantage of lowering the bit rate during compression compared to the prior art.

저음 신호 분석(Bass Signal Analysis)부(320)는 종래의 지각 오디오 코더에 missing fundamental 기법을 적용하기 위해 인코더단에서 지각 모델 적용 결과를 이용하여 저음 신호를 검출한 후, 인코딩부(115)로 출력한다.The bass signal analysis unit 320 detects the bass signal using the result of applying the perceptual model at the encoder stage to apply the missing fundamental technique to the conventional perceptual audio coder, and then outputs it to the encoding unit 115. do.

도 3b에 도시된 디코더를 살펴보면, 다음과 같다.Looking at the decoder shown in Figure 3b, it is as follows.

가상 저음 생성(Virtyal Bass Generation)부(330)는 디코딩된 저음 신호에 대한 정보를 이용하여 가상 저음을 생성한다.The virtual bass generation unit 330 generates virtual bass using information on the decoded bass signal.

가상 저음 추가(Virtual Bass Adding)부(340)는 디코딩된 오디오 신호에 상기 가상 저음 생성부(330)에서 생성된 가상 저음을 추가하여 비트 스트림을 출력한다.The virtual bass adding unit 340 outputs a bit stream by adding the virtual bass generated by the virtual bass generator 330 to the decoded audio signal.

도 4a 및 도 4b는 본 발명의 실시 예에 따른 mp3 인코더/디코더의 블록 구성도를 도시한 것이다.4A and 4B illustrate block diagrams of an mp3 encoder / decoder according to an embodiment of the present invention.

도 4a를 참조하면, 종래의 mp3 인코더에 하기 블록들이 추가되었다. 추가된 블록들에 대해서 설명하기로 한다. 4A, the following blocks have been added to the conventional mp3 encoder. The added blocks will be described.

저음 제거부(410)는 외부 제어부로부터 전송된 차단 주파수(cutoff frequency) 정보에 따라 HPF(High Pass Filter)를 이용하여 저음 신호를 제거한다. 이때, 상기 차단 주파수는 출력 장치의 차단 주파수에 기준하게 되는데 이어폰이나 고성능의 스피커 사용시에는 낮은 차단 주파수를 설정하고 재생 특성이 열악한 핸드폰 마이크로 스피커와 같은 경우 높은 차단 주파수를 설정하게 된다. 이와 같이, 저음 신호를 제거함으로써 입력 신호의 동적 범위(dynamic range)를 낮출 수 있으며 MDCT에서 MDCT 수행시 저대역의 서브밴드를 생략할 수있다. 이는 결국 종래 기술 보다 압축시 비트 래이트(bit rate)를 낮출 수 있는 장점을 갖는다. The bass removal unit 410 removes the bass signal using the HPF (High Pass Filter) according to the cutoff frequency information transmitted from the external controller. At this time, the cutoff frequency is based on the cutoff frequency of the output device. When using an earphone or a high-performance speaker, a low cutoff frequency is set, and a high cutoff frequency is set in the case of a mobile phone micro speaker having poor reproduction characteristics. As such, by removing the bass signal, the dynamic range of the input signal can be lowered, and the subband of the low band can be omitted when the MDCT is performed in the MDCT. This in turn has the advantage of lowering the bit rate during compression than the prior art.

기본 주파수 분석부(420)는 상기 지각 오디오 코더에서는 심리 음향 모델을 적용하기 위해 입력 오디오 신호에 대해서 FFT를 수행하게 되는데 분석을 위해 쓰일 뿐 압축을 위한 별도의 역할이 없다. 본 발명에서의 기본 주파수 분석부(420)는 FFT 결과를 이용하여 missing fundamental 기법에서 필요한 기본 주파수를 검출해내고 하모닉(harmonics) 특성을 분석한다. 종래처럼 디코딩 후 처리 과정에 적용할 경우 추가적인 계산이 최종 출력 전에 필요하고 기본 주파수를 찾기 위해 FFT를 수행한다면 동작이 반복될 뿐 아니라 연산량도 많이 차지하게 된다. 그러나 인코더단에서 FFT 결과를 이용하여 미리 분석할 경우 계산량을 현저히 줄일 수 있고 주파수 영역에서 보다 정확한 분석이 가능하다. The basic frequency analyzer 420 performs an FFT on the input audio signal in order to apply the psychoacoustic model in the perceptual audio coder. The basic frequency analyzer 420 is used for analysis and has no additional role for compression. The fundamental frequency analyzer 420 of the present invention detects the fundamental frequency required by the missing fundamental technique using the FFT result and analyzes the harmonics. When applied to a post-decoding process as in the prior art, if an additional calculation is required before the final output and the FFT is performed to find the fundamental frequency, the operation is not only repeated but also takes a large amount of computation. However, if the FFT results are pre-analyzed at the encoder stage, the computation can be significantly reduced and more accurate analysis can be performed in the frequency domain.

저음 정보 추출(Bass Info. Extraction)부(430)는 상기 기본 주파수 분석(420)에서 검출된 기본 주파수를 이용하여 기본 주파수의 위치와 에너지, 차단 주파수 이하의 저 주파대역 평균에너지를 계산해 낸다. 이는 다시 부가 정보 코딩부(240)를 통해 부호화되고 비트 스트림 형성부(250)에 추가된다. 이 정보를 바탕으로 디코더단에서 인공적인 저음 신호를 만들어 낸다. 이때 missing fundamental 기법을 이용하여 하모닉을 첨가하게 되면 출력장치에서 물리적으로 재생이 불가능한 소리도 들리는 것처럼 만들 수 있다. 이것을 가상 저음(virtual bass)라고 한다. Bass Info. Extraction unit 430 calculates the location and energy of the fundamental frequency and the average energy of the low frequency band below the cutoff frequency using the fundamental frequency detected by the fundamental frequency analysis 420. This is encoded by the additional information coding unit 240 and added to the bit stream forming unit 250. Based on this information, the decoder produces artificial bass signals. In this case, adding harmonics using the missing fundamental technique can make the output device sound like it is not physically playable. This is called virtual bass.

도 4b에 도시된 디코더는, 도 2b의 블록 구성도에 하기의 블록이 추가되었다. 추가된 블록들에 대해서 설명하기로 한다.In the decoder illustrated in FIG. 4B, the following block is added to the block diagram of FIG. 2B. The added blocks will be described.

가상 저음 합성(virtual Bass Synthesis)부(440)는 하모닉 생성부(442)와 BPF & 이득 제어부(444)로 구성된다.The virtual bass synthesis unit 440 includes a harmonic generator 442 and a BPF & gain controller 444.

상기 하모닉(또는 배음) 생성(Harmonics Generation)부(442)는 디코딩된 저음 신호에 대한 정보(기본 주파수 위치, 기본 주파수에서의 크기(magnitude), 저음 대역의 평균 에너지)를 이용하여 기본 주파수에 대한 하모닉을 만들어 낸다.The harmonics generation unit 442 uses the information about the decoded bass signal (base frequency position, magnitude in the fundamental frequency, average energy of the bass band) for the fundamental frequency. Create a harmonic

상기 BPF & 이득 제어(Band Pass filter & Control)부(444)는 출력장치의 차단 주파수에 따라 BPF를 적용하여 하모닉을 추출해 내고 왜곡(distortion)이 생기지 않도록 주파수별 이득값을 제어하여 가상 저음 추가부(450)로 출력한다.The BPF & gain control unit 444 extracts the harmonics by applying the BPF according to the cutoff frequency of the output device and controls the gain value for each frequency so as not to cause distortion, thereby adding a virtual bass. Output at 450.

상기 가상 저음 추가(Virtual Bass Adding)부(450)는 제어부(460)의 선택에 따라 가상 저음과 디코딩된 오디오 신호에 믹스한다.The virtual bass adding unit 450 mixes the virtual bass with the decoded audio signal according to the selection of the controller 460.

상기 제어부(460)는 출력장치(이어폰, 하이파이(HiFi) 스피커, 마이크로 스피커 등)의 차단 주파수에 따라 하모닉 추출을 위한 BPF와 이득값을 제어하고 최종 출력 전 믹스 여부와 믹스시 이득 제어 등을 수행한다.The control unit 460 controls the BPF and the gain value for the harmonic extraction according to the cutoff frequency of the output device (earphone, Hi-Fi speaker, micro speaker, etc.), and performs the mixing before the final output and gain control during the mixing. do.

도 5 및 도 6은 본 발명의 실시 예에 따른 오디오 코딩 방법을 도시한 흐름도다. 이 중에서 도 5는 본 발명의 실시 예에 따른 인코더에서의 인코딩 동작을 도시한 흐름도이다.5 and 6 are flowcharts illustrating an audio coding method according to an exemplary embodiment of the present invention. 5 is a flowchart illustrating an encoding operation in an encoder according to an embodiment of the present invention.

인코더는 501 단계에서 PCM 데이터를 수신한다. 상기 인코더는 503 단계에서 외부 제어부로부터 차단 주파수와 저음 제거 여부 정보를 수신하고, 수신된 PCM 데이터에서 저음을 제거할 것인가를 판단한다. 이와 동시에 인코더는 513 단계로 진행하여 진행한다. 513 단계 이하의 설명은 하기에서 설명하기로 한다.The encoder receives the PCM data in step 501. In step 503, the encoder receives the cutoff frequency and the bass removal information from the external controller, and determines whether to remove the bass from the received PCM data. At the same time, the encoder proceeds to step 513. A description of the step 513 will be described below.

상기 저음을 제거할 경우 인코더는 505 단계로 진행하여 저음을 제거한다. 이때 인코더는 외부 제어부로부터 전송된 차단 주파수 정보에 따라 HPF를 이용하여 저음을 제거하게 된다. 저음을 제거한 후, 507 단계로 진행한다. When removing the bass, the encoder proceeds to step 505 to remove the bass. At this time, the encoder removes the bass using the HPF according to the cutoff frequency information transmitted from the external controller. After removing the bass, go to step 507.

그러나 상기 저음을 제거하지 않을 경우 인코더는 507 단계에서 입력된 PCM 데이터에 대해 필터 뱅크를 적용하여 필터링하여 32 개의 서브밴드 신호로 재구성하고 주파수 밴드별로 분석한다. 이후 인코더는 509 단계에서 MDCT에 적용된 윈도우를 선택한다. 이때, 각 임계대역에 대해서 SMR(Signal to Masking Ratio)을 구하고, 지각 에너지가 임계치 보다 크거나 같으면 숏 윈도우(short window)를 선택하고, 지각 에너지가 임계치 보다 작으면, 롱 윈도우(long window)를 선택한다.However, if the bass is not removed, the encoder applies a filter bank to the PCM data input in step 507 to filter and reconstruct the 32 subband signals, and analyzes each frequency band. The encoder then selects the window applied to the MDCT in step 509. In this case, the SMR (Signal to Masking Ratio) is obtained for each critical band, and if the perceptual energy is greater than or equal to the threshold, a short window is selected. If the perceptual energy is less than the threshold, the long window is determined. Choose.

이후 인코더는 511 단계에서 심리 음향 모델을 적용한 상기 오디오 신호를 소정의 오차를 두고 디지털 신호로 양자화한다. 양자화 수행 후, 허프만 코딩을 수행한다. 인코더는 521 단계에서 비트 스트림을 구성한 다음, 에러 체크하는 CRC(Cyclic Redundancy Checking) 체크 후 파일 형태의 오디오 신호를 출력한다.In step 511, the encoder quantizes the audio signal to which the psychoacoustic model is applied, into a digital signal with a predetermined error. After quantization is performed, Huffman coding is performed. The encoder configures the bit stream in step 521, and then outputs an audio signal in the form of a file after performing a cyclic redundancy checking (CRC) check.

한편, 503 단계와 동시에 발생하는 513 단계에서 인코더는 입력 버퍼에 대해서 1024(long window), 256(short window)를 구성된 것에 FFT(Fast Fourier transform)을 수행한 후, 515 단계에서 상기 FFT 결과에 심리 음향 모델을 적용한다.Meanwhile, in step 513, which occurs simultaneously with step 503, the encoder performs a fast fourier transform (FFT) on 1024 (long window) and 256 (short window) for the input buffer, and then examines the FFT result in step 515. Apply the acoustic model.

이후 인코더는 517 단계에서 상기 심리 음향 모델에 적용한 FFT 결과를 이용하여 기본 주파수를 검출하여 하모닉 특성을 분석한다. 즉, 인코더는 FFT 결과를 이용하여 missing fundamental 기법에서 필요한 기본 주파수를 찾아내고 하모닉(harmonics) 특성을 분석한다. 이후, 인코더는 519 단계에서 기본 주파수의 위치와 크기를 계산하고, 차단 주파수 이하의 저음 영역에 대한 평균 에너지를 계산하여 저음 신호 정보를 추출한다. 상기 추출된 저음 신호 정보는 부가 정보 코딩부(240)를 통해 코딩되고 비트 스트림 형성부(250)에 추가된다. 상기 비트 스트림 형성부(250)는 비트 스트림을 구성한 다음, 에러 체크하는 CRC 체크 후 파일 형태의 오디오 신호를 출력한다.After that, the encoder detects the fundamental frequency using the FFT result applied to the psychoacoustic model in step 517 to analyze the harmonic characteristics. In other words, the encoder uses the FFT results to find the fundamental frequencies required by the missing fundamental technique and analyze the harmonics. In step 519, the encoder calculates the position and magnitude of the fundamental frequency and extracts the bass signal information by calculating the average energy for the bass region below the cutoff frequency. The extracted basal signal information is coded through the additional information coding unit 240 and added to the bit stream forming unit 250. The bit stream forming unit 250 configures a bit stream, and then outputs an audio signal in the form of a file after a CRC check for error checking.

도 6은 본 발명의 실시 예에 따른 디코더에서의 디코딩 동작을 도시한 흐름도이다.6 is a flowchart illustrating a decoding operation in a decoder according to an embodiment of the present invention.

먼저, 디코더는 601 단계에서 파일 형태의 코딩된 오디오 데이터를 프레임 언팩(unpacking)한다. 이후, 디코더는 603 단계에서 언팩된 데이터를 스펙트럴 컴포넌트에 대한 허프만 디코딩한다. 이와 동시에 디코더는 613 단계에서 저음 신호 정보를 디코딩한다. 613 이하의 단계는 하기에서 설명하기로 한다.First, in step 601, the decoder unpacks the coded audio data in the form of a file. The decoder then decodes the unpacked data Huffman for the spectral component in step 603. At the same time, the decoder decodes the bass signal information in step 613. Steps 613 and below will be described below.

603 단계 이후 디코더는 605 단계에서 역양자화를 수행한 후, 607 단계에서 IMDCT를 수행한다. 이후 디코더는 609 단계에서 각 서브밴드에 대해 필터 뱅크를 합성한 후, 611 단계에서 가상 저음을 추가할 것인가를 판단한다. 만약 가상 저음을 추가하지 않을 경우 디코더는 디코딩 동작을 종료한다. 그러나 가상 저음을 추가할 경우 디코더는 619 단계로 진행하여 가상 저음을 추가한 후, 디코딩 동작을 종료한다.After step 603, the decoder performs dequantization in step 605 and then performs IMDCT in step 607. The decoder then synthesizes a filter bank for each subband in step 609 and then determines whether to add virtual bass in step 611. If no virtual bass is added, the decoder terminates the decoding operation. However, when adding virtual bass, the decoder proceeds to step 619 to add the virtual bass and ends the decoding operation.

한편 603 단계와 동시에 진행하는 613 단계에서 디코더는 언팩된 부가 정보로부터 저음 신호에 대한 부가 정보에 대해 디코딩한다.On the other hand, in step 613, which proceeds simultaneously with step 603, the decoder decodes the additional information of the bass signal from the unpacked additional information.

이후 디코더는 615 단계에서 상기 디코딩된 저음 신호에 대한 정보(기본 주파수 위치, 기본 주파수에서의 크기(magnitude), 저음 대역의 평균 에너지)를 이용하여 기본 주파수에 대한 하모닉을 만들어 낸다. 이후 디코더는 617 단계에서 출력장치의 차단 주파수에 따라 BPF를 적용하여 하모닉을 추출해 내고 왜 곡(distortion)이 생기지 않도록 주파수별 이득값을 제어한다.In operation 615, the decoder generates a harmonic of the fundamental frequency by using the information about the decoded bass signal (base frequency position, magnitude in the fundamental frequency, and average energy of the bass band). In step 617, the decoder extracts the harmonics by applying the BPF according to the cutoff frequency of the output device and controls the gain value for each frequency such that distortion does not occur.

이후, 디코더는 619 단계에서 제어부(460)의 선택에 따라 가상 저음과 디코딩된 오디오 신호에 가상 저음을 추가한다.In operation 619, the decoder adds the virtual bass to the virtual bass and the decoded audio signal according to the selection of the controller 460.

한편, 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해서 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도내에서 여러 가지 변형이 가능함을 당해 분야에서 통상의 지식을 가진 자에게 있어서 자명하다 할 것이다. Meanwhile, in the detailed description of the present invention, specific embodiments have been described, but it will be apparent to those skilled in the art that various modifications are possible without departing from the scope of the present invention.

이상에서 상세히 설명한 바와 같이 동작하는 본 발명에 있어서, 개시되는 발명 중 대표적인 것에 의하여 얻어지는 효과를 간단히 설명하면 다음과 같다.In the present invention that operates as described in detail above, the effects obtained by the representative ones of the disclosed inventions will be briefly described as follows.

본 발명은, 디코딩시 종래 기술에 비해 계산량을 1/3 가량 줄일 수 있다.The present invention can reduce the amount of calculation by about 1/3 compared to the prior art during decoding.

또한 본 발명은 인코딩시 출력 장치에서 물리적으로 재생할 수 없는 대역을 생략하므로 비트 레이트 측면에서 압축률을 높일 수 있다. 최소 원래 데이터의 1/32 가량 줄일 수 있으며 입력 신호의 동적 범위(dynamic range)가 줄어들게 되므로 추가적인 데이터 압축을 기대할 수 있다. In addition, since the present invention omits a band that cannot be physically reproduced by an output device during encoding, the compression rate can be increased in terms of bit rate. At least 1/32 of the original data can be reduced and the dynamic range of the input signal can be reduced, so additional data compression can be expected.

또한 본 발명은 인코더단에서 심리 음향 모델 적용 시 사용하는 FFT 정보를 이용하게 후처리로 적용되는 종래의 missing fundamental 기법보다 정확한 기본 주파수 검출이 가능하여 저음 보상 기능의 성능을 높일 수 있다. In addition, the present invention can improve the performance of the bass compensation function by detecting the fundamental frequency more accurately than the conventional missing fundamental technique applied to the post-processing by using the FFT information used when applying the psychoacoustic model in the encoder stage.

본 발명은 연산량을 많이 차지하는 missing fundamental 기법의 일부를 인코더쪽으로 넘김으로써 저음보상을 위한 후처리 계산량을 줄일 수 있다. 이로 인해서 종래에는 적용하기 어려웠던 embaded system(모바일-멀티미디어 기기)에도 missing fundamental 기법을 적용할 수 있다.The present invention can reduce the post-processing calculation amount for low tone compensation by passing a part of the missing fundamental technique, which takes up a large amount of computation, to the encoder. As a result, the missing fundamental technique can be applied to an embaded system (mobile-multimedia device), which was difficult to apply in the related art.

또한 본 발명은 missing fundamental를 적용함으로써 열악한 출력 장치에서 물리적으로 재생하지 못했던 저음 신호를 가상 저음으로 들을 수 있게 된다. 종래에 이퀄라이져를 이용한 방법보다 보다 나은 저음 재생이 가능하다.In addition, according to the present invention, by applying a missing fundamental, a low bass signal that cannot be physically reproduced in a poor output device can be heard as a virtual bass. Better bass reproduction is possible than conventional methods using equalizers.

Claims (8)

디지털 오디오 신호를 인코딩하는 인코더에 있어서,An encoder for encoding a digital audio signal, 외부 제어부로부터 전송된 차단 주파수(cutoff frequency) 정보에 따라 HPF(High Pass Filter)를 이용하여 상기 디지털 오디오 신호에서 저음 신호를 제거하는 저음 제거부와,A bass removing unit for removing bass signals from the digital audio signal using a high pass filter (HPF) according to cutoff frequency information transmitted from an external controller; FFT(Fast Fourier transform) 결과를 이용하여 주파수 영역에서 기본 주파수를 검출하는 기본 주파수 분석부,A fundamental frequency analyzer for detecting a fundamental frequency in a frequency domain by using a fast fourier transform (FFT) result; 상기 기본 주파수를 이용하여 저음 신호 관련 정보를 추출하는 저음 정보 추출부와,A bass information extraction unit for extracting bass signal related information using the fundamental frequency; 상기 저음 신호 관련 정보와 상기 저음 제거된 디지털 오디오 신호를 이용하여 비트 스트림을 구성하여 인코딩된 오디오 신호를 출력하는 비트 스트림 형성부를 포함하는 인코더.And a bit stream forming unit configured to output a encoded audio signal by constructing a bit stream using the bass signal related information and the bass-removed digital audio signal. 제1항에 있어서,The method of claim 1, 상기 저음 신호 관련 정보는,The bass signal related information, 상기 기본 주파수의 위치, 에너지, 및 차단 주파수 이하의 저 주파수대역 평균 에너지 중 적어도 하나를 포함하는 인코더.And at least one of a position, an energy of the fundamental frequency, and a low frequency average energy below a cutoff frequency. 디지털 신호를 디코딩하는 디코더에 있어서,A decoder for decoding a digital signal, 디코딩된 저음 신호 관련 정보를 이용하여 기본 주파수에 대한 하모닉을 생성하는 하모닉 생성부와,A harmonic generator for generating harmonics with respect to the fundamental frequency using the decoded bass signal related information; 출력장치의 차단 주파수에 따라 BPF(Band Pass Filter)를 적용하여 상기 하모닉을 추출하고, 주파수별 이득값을 제어하여 가상 저음을 합성하는 BPF 및 이득 제어부와,A BPF and gain control unit which extracts the harmonics by applying a band pass filter (BPF) according to a cutoff frequency of an output device and synthesizes virtual bass by controlling gain values for each frequency; 상기 디코딩된 저음 신호 관련 정보에 상기 가상 저음을 추가하는 가상 저음 추가부를 포함하는 디코더. And a virtual bass adder configured to add the virtual bass to the decoded bass signal related information. 제3항에 있어서,The method of claim 3, 상기 저음 신호 관련 정보는,The bass signal related information, 상기 기본 주파수의 위치, 에너지, 및 차단 주파수 이하의 저 주파수대역 평균 에너지 중 적어도 하나를 포함하는 디코더.And at least one of a position, an energy of the fundamental frequency, and a low frequency average energy below a cutoff frequency. 디지털 오디오 신호를 인코딩하는 방법에 있어서,In the method of encoding digital audio signals, 외부 제어부로부터 전송된 차단 주파수(cutoff frequency) 정보에 따라 HPF(High Pass Filter)를 이용하여 상기 디지털 오디오 신호에서 저음 신호를 제거하는 과정과,Removing a bass signal from the digital audio signal using a high pass filter (HPF) according to cutoff frequency information transmitted from an external controller; FFT(Fast Fourier transform) 결과를 이용하여 주파수 영역에서 기본 주파수를 검출하는 과정과,Detecting the fundamental frequency in the frequency domain using the fast fourier transform (FFT) result, 상기 기본 주파수를 이용하여 저음 신호 관련 정보를 추출하는 과정과,Extracting information related to a bass signal using the fundamental frequency; 상기 저음 신호 관련 정보와 상기 저음 제거된 디지털 오디오 신호를 이용하여 비트 스트림을 구성하여 인코딩된 오디오 신호를 출력하는 과정을 포함하는 인코딩 방법.And constructing a bit stream using the bass signal related information and the bass-removed digital audio signal to output an encoded audio signal. 제5항에 있어서,The method of claim 5, 상기 저음 신호 관련 정보는,The bass signal related information, 상기 기본 주파수의 위치, 에너지, 및 차단 주파수 이하의 저 주파수대역 평균 에너지 중 적어도 하나를 포함하는 인코딩 방법.And at least one of a position, an energy of the fundamental frequency, and a low frequency average energy below a cutoff frequency. 디지털 신호를 디코딩하는 방법에 있어서,In the method of decoding a digital signal, 디코딩된 저음 신호 관련 정보를 이용하여 기본 주파수에 대한 하모닉을 생성하는 과정과,Generating a harmonic of a fundamental frequency using information about the decoded bass signal; 출력장치의 차단 주파수에 따라 BPF(Band Pass Filter)를 적용하여 상기 하모닉을 추출하고 주파수별 이득값을 제어하여 가상 저음을 합성하는 과정과,Extracting the harmonics by applying a band pass filter (BPF) according to a cutoff frequency of an output device and synthesizing a virtual bass by controlling a gain value for each frequency; 상기 디코딩된 저음 신호 관련 정보에 상기 가상 저음을 추가하는 과정을 포함하는 디코딩 방법. And adding the virtual bass to the decoded bass signal related information. 제7항에 있어서,The method of claim 7, wherein 상기 저음 신호 관련 정보는,The bass signal related information, 상기 기본 주파수의 위치, 에너지, 및 차단 주파수 이하의 저 주파수대역 평균 에너지 중 적어도 하나를 포함하는 디코딩 방법.And at least one of a position, an energy of the fundamental frequency, and a low frequency average energy below a cutoff frequency.
KR1020060120137A 2006-11-30 2006-11-30 Apparatus and method for coding audio KR101281945B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060120137A KR101281945B1 (en) 2006-11-30 2006-11-30 Apparatus and method for coding audio

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060120137A KR101281945B1 (en) 2006-11-30 2006-11-30 Apparatus and method for coding audio

Publications (2)

Publication Number Publication Date
KR20080049499A KR20080049499A (en) 2008-06-04
KR101281945B1 true KR101281945B1 (en) 2013-07-03

Family

ID=39805273

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060120137A KR101281945B1 (en) 2006-11-30 2006-11-30 Apparatus and method for coding audio

Country Status (1)

Country Link
KR (1) KR101281945B1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10333698A (en) * 1997-05-27 1998-12-18 Matsushita Electric Ind Co Ltd Vice encoding method, voice decoding method, voice encoder, and recording medium
JP2001094433A (en) 1999-09-17 2001-04-06 Matsushita Electric Ind Co Ltd Sub-band coding and decoding medium
JP2001094432A (en) 1999-09-17 2001-04-06 Matsushita Electric Ind Co Ltd Sub-band coding and decoding method
JP2001343998A (en) 2000-05-31 2001-12-14 Yamaha Corp Digital audio decoder

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10333698A (en) * 1997-05-27 1998-12-18 Matsushita Electric Ind Co Ltd Vice encoding method, voice decoding method, voice encoder, and recording medium
JP2001094433A (en) 1999-09-17 2001-04-06 Matsushita Electric Ind Co Ltd Sub-band coding and decoding medium
JP2001094432A (en) 1999-09-17 2001-04-06 Matsushita Electric Ind Co Ltd Sub-band coding and decoding method
JP2001343998A (en) 2000-05-31 2001-12-14 Yamaha Corp Digital audio decoder

Also Published As

Publication number Publication date
KR20080049499A (en) 2008-06-04

Similar Documents

Publication Publication Date Title
JP7383067B2 (en) Compressor and decompressor and method for reducing quantization noise using advanced spectral expansion
JP5302980B2 (en) Apparatus for mixing multiple input data streams
KR101265669B1 (en) Economical Loudness Measurement of Coded Audio
RU2332727C2 (en) Device and method of multichannel signal processing
CN101183527B (en) Method and apparatus for encoding and decoding high frequency signal
JP5873936B2 (en) Phase coherence control for harmonic signals in perceptual audio codecs
JP2011059714A (en) Signal encoding device and method, signal decoding device and method, and program and recording medium
CA2490064A1 (en) Audio coding method and apparatus using harmonic extraction
JP2003108197A (en) Audio signal decoding device and audio signal encoding device
EP2489036B1 (en) Method, apparatus and computer program for processing multi-channel audio signals
CN115171709B (en) Speech coding, decoding method, device, computer equipment and storage medium
KR101281945B1 (en) Apparatus and method for coding audio
CN113314132A (en) Audio object coding method, decoding method and device applied to interactive audio system
KR101386645B1 (en) Apparatus and method for purceptual audio coding in mobile equipment
JP5569476B2 (en) Signal encoding apparatus and method, signal decoding apparatus and method, program, and recording medium
AU2012202581B2 (en) Mixing of input data streams and generation of an output data stream therefrom
CN114783449A (en) Neural network training method, neural network training device, electronic equipment and medium
KR20140037118A (en) Method of processing audio signal, audio encoding apparatus, audio decoding apparatus and terminal employing the same

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160530

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170529

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180530

Year of fee payment: 6