KR101281945B1 - Apparatus and method for coding audio - Google Patents
Apparatus and method for coding audio Download PDFInfo
- Publication number
- KR101281945B1 KR101281945B1 KR1020060120137A KR20060120137A KR101281945B1 KR 101281945 B1 KR101281945 B1 KR 101281945B1 KR 1020060120137 A KR1020060120137 A KR 1020060120137A KR 20060120137 A KR20060120137 A KR 20060120137A KR 101281945 B1 KR101281945 B1 KR 101281945B1
- Authority
- KR
- South Korea
- Prior art keywords
- bass
- frequency
- signal
- information
- fundamental frequency
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Abstract
본 발명은 오디오 코더에 관한 것으로, 특히 인코딩시 입력 오디오 신호의 저음 영역을 제거하고, 저음 신호 정보를 전송하고, 디코딩시 부가 정보로 넘어온 저음 신호 정보를 바탕으로 인공저음을 생성한다.
본 발명의 실시 예에 따른 오디오 인코딩 장치는, 디지털 오디오 신호를 인코딩하는 인코더에 있어서, 외부 제어부로부터 전송된 차단 주파수(cutoff frequency) 정보에 따라 HPF(High Pass Filter)를 이용하여 상기 디지털 오디오 신호에서 저음 신호를 제거하는 저음 제거부와, FFT(Fast Fourier transform) 결과를 이용하여 주파수 영역에서 기본 주파수를 검출하는 기본 주파수 분석부, 상기 기본 주파수를 이용하여 저음 신호 관련 정보를 추출하는 저음 정보 추출부와, 상기 저음 신호 관련 정보와 상기 저음 제거된 디지털 오디오 신호를 이용하여 비트 스트림을 구성하여 인코딩된 오디오 신호를 출력하는 비트 스트림 형성부를 포함한다.
저음, 코딩, 인코더, 디코더, 오디오 코더
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an audio coder, and in particular, to remove a bass region of an input audio signal during encoding, to transmit bass signal information, and to generate artificial bass based on bass signal information transferred as additional information when decoding.
An audio encoding apparatus according to an embodiment of the present invention, in an encoder for encoding a digital audio signal, in the digital audio signal using an HPF (High Pass Filter) according to cutoff frequency information transmitted from an external control unit A bass remover for removing the bass signal, a fundamental frequency analyzer for detecting a fundamental frequency in the frequency domain using a fast fourier transform (FFT) result, and a bass information extractor for extracting bass signal related information using the fundamental frequency And a bit stream forming unit configured to output an encoded audio signal by configuring a bit stream using the bass signal related information and the bass-removed digital audio signal.
Bass, coding, encoder, decoder, audio coder
Description
도 1a 및 도 1b는 일반적인 지각 인코더/디코더(perceptual encoding/decoding)의 블록 구성도,1A and 1B are block diagrams of a general perceptual encoder / decoder.
도 2a 및 도 2b는 일반적인 mp3 인코더와 디코더의 블록 구성도,2a and 2b is a block diagram of a typical mp3 encoder and decoder,
도 3a 및 도 3b는 본 발명의 실시 예에 따른 지각 인코더/디코더의 블록 구성도,3A and 3B are block diagrams of a perceptual encoder / decoder according to an embodiment of the present invention;
도 4a 및 도 4b는 본 발명의 실시 예에 따른 mp3 인코더/디코더의 블록 구성도,4A and 4B are block diagrams of an mp3 encoder / decoder according to an embodiment of the present invention;
도 5 및 도 6은 본 발명의 실시 예에 따른 오디오 코딩 방법을 도시한 흐름도.5 and 6 are flowcharts illustrating an audio coding method according to an embodiment of the present invention.
본 발명은 오디오 코더에 관한 것으로, 특히 디지털 오디오 신호들의 인코딩/디코딩 장치 및 방법에 관한 것이다.The present invention relates to audio coders, and more particularly, to an apparatus and method for encoding / decoding digital audio signals.
일반적으로, 지각 오디오 코더(perceptual audio coder)는 지각 모 델(perceptual model)을 적용하여 소리를 압축하고 재생하는 시스템으로 mp3(MPEG Audio Layer-3) 인코더/디코더(encoder/decoder) 또는 AAC(Advanced Audio Coding) 인코더/디코더 등을 예로 들 수 있다. In general, a perceptual audio coder is a system that compresses and reproduces sound by applying a perceptual model, which is an mp3 (MPEG Audio Layer-3) encoder / decoder or AAC (Advanced). Audio Coding) encoder / decoder, for example.
상기 지각 오디오 코더로 소리를 압축 재생할 시에는 불필요한 정보를 어떻게 효율적으로 배제하고 청취 시 얼마나 원음과 차이가 없는지에 초점이 맞추어졌다. 여기서는 일반적인 지각 오디오 코더에 대해 기술한 후 보다 자세한 동작은 엠피3 인코더/디코더를 예로 설명한다.When the audio is compressed and reproduced by the perceptual audio coder, the focus is on how to effectively exclude unnecessary information and how much difference there is from the original sound when listening. Here, the general perceptual audio coder will be described, and then the detailed operation will be described using the MP3 encoder / decoder as an example.
도 1a 및 도 1b는 일반적인 지각 인코더/디코더(perceptual encoding/decoding)의 블록 구성도를 도시한 것이다. 이는 지각 모델(perceptual model)을 적용한 오디오 압축 코더에 대한 일반적인 블록 구성도이다.1A and 1B show a block diagram of a general perceptual encoder / decoder. This is a general block diagram of an audio compression coder using a perceptual model.
먼저, 도 1a를 참조하면, 인코더는, 분석 필터 뱅크(105), 지각 모델 적용부(120), 양자화 및 코딩부(110), 인코딩부(115)로 구성된다.First, referring to FIG. 1A, an encoder includes an
오디오 신호는 분석 필터 뱅크(105)와 지각 모델 적용부(120)로 각각 입력된다. The audio signal is input to the
상기 분석 필터 뱅크(Analysis Filterbank)(105)는 오디오 신호가 입력되면 입력 디지털 오디오 샘플에 대해 필터 뱅크를 적용하여 여러 개의 서브밴드 신호로 나누어 재구성하고 주파수 밴드별로 분석한다. 즉, 분석 필터 뱅크(105)는 상기 오디오 신호가 입력되면 주파수 영역에서 일정 구간을 나눠서 필터 뱅크를 적용하여 따로 따로 처리한다. When an audio signal is input, the
상기 지각 모델(perceptual model) 적용부(120)는 상기 필터 뱅크 분석 결과 를 사용하여 지각 모델을 적용한 실제적인 마스킹 임계치를 산출하여 상기 양자화 및 코딩부(110)로 출력한다. 즉, 지각 모델 적용부(120)는 입력된 오디오 신호를 분석하여 인지 특성상 불필요한 부분을 오디오 압축시 제거할 수 있도록 분석한다. The perceptual
상기 양자화 및 코딩(Quantization & Coding)부(110)는 상기 지각 모델을 적용한 상기 오디오 신호를 소정의 오차를 두고 디지털 신호로 양자화하고 코딩한다. 예를 들어, 양자화 처리 시, 사람이 잘 듣지 못하는 부분은 듬성듬성 처리하고, 사람이 잘 들리는 부분은 세밀하게 처리한다. 다시 말해서 상기 양자화 및 코딩부(110)는 스펙트럴 컴포넌트(spectral component)에 대해서 마스킹 임계치 아래에서 있도록 양자화를 수행하고 코드화한다. The quantization &
상기 인코딩부(115)는 상기 양자화 및 코딩부(110)의 출력을 비트 스트림으로 정형화한다. 상기 비트 스트림은 전형적으로 양자화, 코드화된 스펙트럴 컴포넌트, 부가 정보(side-information)로 구성된다.The
한편, 상기 디코더는 디코딩부(135)와, 역양자화부(140), 합성 필터 뱅크(145)로 구성된다.The decoder includes a
상기 디코딩부(135)는 입력된 비트 스트림을 디코딩하여 역양자화부(140)로 출력한다.The
상기 역양자화부(De-Quantization)(140)는 상기 디코딩부(135)로부터 출력된 디코딩된 비트 스트림을 역양자화하여 합성 필터 뱅크(145)로 출력한다.The
상기 합성 필터 뱅크(synthesis Filterbank)(145)는 원래의 오디오 신호로부터 지각적으로 구별할 수 없는 오디오 신호를 발생시키도록 합성 필터들의 뱅크를 상기 역양자화부(140)의 출력에 적용하여 비트 스트림을 출력한다.The
도 2a 및 도 2b는 일반적인 mp3 인코더와 디코더의 블록 구성도이다.2A and 2B are block diagrams of a general mp3 encoder and decoder.
mp3 코더는 지각 인코딩/디코딩 시스템의 대표적 예이다. mp3 압축에는 32 밴드에 기초한 서브밴드 코딩과 변형이산여현변환(Modified Discrete Discrete Cosine Transform, MDCT)을 사용하며, 청각 심리적(Psychoacoustic) 특성을 이용하여 고능률의 압축을 실현하고 있다.The mp3 coder is a representative example of a perceptual encoding / decoding system. 32-band subband coding and Modified Discrete Cosine Transform (MDCT) are used for mp3 compression, and high efficiency compression is achieved using the psychoacoustic characteristics.
도 2a를 참조하면 디지털 신호가 mp3 오디오 인코더에 입력되면, 도면에 도시되지 않은 입력 버퍼에 저장된다. 상기 버퍼에 저장된 디지털 데이터는 순차적으로 필터 뱅크(210)로 출력된다.Referring to FIG. 2A, when a digital signal is input to an mp3 audio encoder, it is stored in an input buffer not shown. Digital data stored in the buffer is sequentially output to the
상기 필터 뱅크(210)는 입력 디지탈 오디오 샘플에 대해 필터 뱅크를 적용하여 32 개의 서브밴드 신호로 재구성하고 주파수 밴드별로 분석한다. The
상기 MDCT(215)는 지각 에너지(perceptual energy)를 이용하여 MDCT에 적용될 윈도우(window)를 선택한다.The MDCT 215 selects a window to be applied to the MDCT using perceptual energy.
이때, 각 임계대역에 대해서 SMR(Signal to Masking Ratio)을 구하고, 지각 에너지가 임계치 보다 크거나 같으면 숏 윈도우(short window)를 선택하고, 지각 에너지가 임계치 보다 작으면, 롱 윈도우(long window)를 선택한다.In this case, the SMR (Signal to Masking Ratio) is obtained for each critical band, and if the perceptual energy is greater than or equal to the threshold, a short window is selected. If the perceptual energy is less than the threshold, the long window is determined. Choose.
각 MDCT를 수행한 후, 양자화부(230)로 출력된다. After performing each MDCT, it is output to the
FFT(Fast Fourier transform)(220)는 상기 입력 버퍼에 대해서 1024(long window), 256(short window)를 구성된 것에 FFT를 수행한다.Fast Fourier transform (FFT) 220 performs an FFT on the 1024 (long window) and 256 (short window) of the input buffer.
심리 음향 모델(Psychoacoustic Model) 적용부(225)는 상기 FFT(220) 결과에 심리 음향 모델을 적용하여 상기 양자화부(230)로 출력한다.The psychoacoustic
상기 양자화부(230)는 상기 심리 음향 모델을 적용한 상기 오디오 신호를 소정의 오차를 두고 디지털 신호로 양자화한다. 양자화 수행 후, 허프만 코딩부(235)로 출력된다.The
상기 허프만 코딩(Huffman Encoding)부(235)는 상기 양자화부(230)의 출력값에 허프만 코딩을 수행한 후, 비트 스트림 형성부(250)로 출력된다. 여기서 허프만 코딩 방식은 오디오, 영상, 기타 다양한 분야에 널리 사용되는 알고리즘으로서, 이는 데이터의 통계적인 출현 빈도수를 고려하여, 데이터들의 발생 확률에 따라 서로 다른 길이의 부호를 할당함으로써 정보의 손실 없이 압축을 실시하는 방법이다.The Huffman
상기 비트 스트림 형성부(bitstream formatting)(240)는 비트 스트림을 구성한 다음, 에러 체크하는 CRC(Cyclic Redundancy Checking) 체크 후 파일 형태의 오디오 신호를 출력한다.The
상기 부가 정보 코딩(side-information coding)부(240)는 상기 양자화부(230)의 출력값에서 부가 정보에 대해 코딩한 다음 비트 스트림 형성부(250)로 출력한다. The side-
상기 외부 제어(external control)부(245)는 출력 장치에 대한 정보를 상기 양자화부(230)에 제공한다. The
한편, 도 2b를 참조하여 mp3 디코더를 설명하기로 한다. 상기 mp3 디코더는 상기 mp3 인코더의 인코딩의 역순으로 진행하면된다.Meanwhile, the mp3 decoder will be described with reference to FIG. 2B. The mp3 decoder may proceed in the reverse order of encoding of the mp3 encoder.
파일 형태의 코딩된 오디오 신호가 프레임 언팩부(250)로 입력된다. The coded audio signal in the form of a file is input to the frame
상기 프레임 언팩(unpack)부(250)는 압축된 상기 오디오 신호를 원래대로 되돌린 후 허프만 디코딩부(255)와 부가 정보 코딩부(265)로 각각 전송한다.The
상기 허프만 디코딩부(255)는 상기 프레임 언팩부(250)의 출력값인 언팩된 스펙트럴 컴포넌트에 대해 허프만 디코딩을 수행 후, 역양자화부(260)로 출력한다.The Huffman
상기 부가 정보 코딩부(265)는 상기 언팩된 데이터로부터 부가 정보에 대해 디코딩한 후, 역양자화부(260)로 출력한다.The additional
상기 역양자화(De-quantization)부(260)는 역양자화를 수행한 후, 역변형이산여현변환(Inverse Modified Discrete Discrete Cosine Transform, IMDCT)(270)로 출력한다.The
상기 IMDCT(270)는 상기 역양자화부(260)의 출력값에 IMDCT를 수행한 후, iPQF(275)로 출력한다.The IMDCT 270 performs IMDCT on the output value of the
상기 iPQF(inverse Poly-phase Quadrature Filter)(275)는 각 서브밴드에 대해 필터 뱅크를 합성한 후, PCM 형태의 디지털 신호를 출력한다. 도 1b에 기재된 합성 필터 뱅크(145)와 동일한 기능을 갖는다.The inverse poly-phase quadrature filter (iPQF) 275 synthesizes a filter bank for each subband and outputs a PCM type digital signal. It has the same function as the
종래의 지각 오디오 코더는 압축과 재생 시 출력장치(예컨대, 일반 스피터, 핸드폰에 내장된 스피커 등)의 특성을 고려하지 않고, 압축 전 원음과 얼마나 똑같이 압축되고 복원되느냐가 중요한 문제였다. 그러나 멀티미디어 기기가 다양해지고 그에 따른 출력재생 장치도 천차만별인 상황에서 재생 시 사용하는 출력장치의 특성을 고려한 압축 재생 방법을 적용하는 것이 필요하다.The conventional perceptual audio coder is an important problem of how to compress and reconstruct the same as the compressed source sound without considering the characteristics of the output device (for example, the speaker, built-in speaker, etc.) during compression and playback. However, it is necessary to apply a compression and reproduction method considering the characteristics of the output device to be used when the multimedia equipment is diversified and the output reproduction device according to the situation.
특히 핸드폰, PDA(Personal Digital Assistants)나 PMP(Portable Multimedia Player) 등과 같이 작은 스피커를 사용하게 되면 저음 재생 능력이 현저히 떨어지게 된다. 종래에는 이퀄라이져(equlizer)를 사용하여 강제적으로 저주파 대역을 강조하거나 누락 기본음(missing fundamental) 기법을 적용하여 가상의 저음(bass)을 만들어 내는 후처리 과정을 거쳐야만 했다. In particular, the use of small speakers such as mobile phones, PDAs (Personal Digital Assistants), or PMPs (Portable Multimedia Players) can significantly reduce bass reproduction. Conventionally, it has to go through a post-processing process that uses an equalizer to forcibly emphasize low frequency bands or apply a missing fundamental technique to create a virtual bass.
그 중 missing fundamental 기법은 사람의 저음 인지 특성을 반영하는 심리 음향학적 방법으로 단순한 이퀄라이져와 비교해 훨씬 깊고 자연스러운 저음 청취를 가능하게 해준다. 즉, missing fundamental 기법은 사람의 저음 인지 특성과 관련한 기술로 재생 장치에 따라 물리적으로 낼 수 없는 저 주파수 영역의 소리에 대해 하모닉(harmonics) 성분을 만들어 들려줌으로써 실제 저음처럼 느끼게 하는 방법이다. 하지만 사람의 청각적 착각을 도모하는 만큼 세밀한 신호 처리적인 조정과 많은 연산량이 요구된다. 따라서 적은 연산량으로 실시간 처리가 우선인 모바일-멀티미디어 기기에 적용하기 어려운 문제점이 있다. Among them, the missing fundamental technique is a psychoacoustic method that reflects human bass cognitive characteristics, allowing deeper and more natural bass listening compared to a simple equalizer. In other words, the missing fundamental technique is a technique related to human bass cognition characteristics. It is a method of making the harmonics of the low frequency region sound that cannot be physically produced by the playback device to make it feel like real bass. However, as much as human auditory illusion, detailed signal processing adjustment and a large amount of computation are required. Therefore, there is a problem in that it is difficult to apply to a mobile-multimedia device in which real-time processing is a priority with a small amount of calculation.
따라서 본 발명은 인식 오디오 코더에 missing fundamental 기법을 적용하여 연산량을 줄이는 오디오 코딩 장치 및 방법을 제공한다.Accordingly, the present invention provides an audio coding apparatus and method for reducing the amount of computation by applying a missing fundamental technique to a recognition audio coder.
본 발명은 지각 오디오 코더에 missing fundamental 기법을 적용하여 더 나은 압축 이득을 얻는 오디오 코딩 장치 및 방법을 제공한다.The present invention provides an audio coding apparatus and method for obtaining a better compression gain by applying a missing fundamental technique to a perceptual audio coder.
본 발명의 실시예에 따른 오디오 인코딩 장치는 디지털 오디오 신호를 인코딩하는 인코더에 있어서, 외부 제어부로부터 전송된 차단 주파수(cutoff frequency) 정보에 따라 HPF(High Pass Filter)를 이용하여 상기 디지털 오디오 신호에서 저음 신호를 제거하는 저음 제거부와, FFT(Fast Fourier transform) 결과를 이용하여 주파수 영역에서 기본 주파수를 검출하는 기본 주파수 분석부, 상기 기본 주파수를 이용하여 저음 신호 관련 정보를 추출하는 저음 정보 추출부와, 상기 저음 신호 관련 정보와 상기 저음 제거된 디지털 오디오 신호를 이용하여 비트 스트림을 구성하여 인코딩된 오디오 신호를 출력하는 비트 스트림 형성부를 포함한다.An audio encoding apparatus according to an embodiment of the present invention is an encoder for encoding a digital audio signal, the bass in the digital audio signal using a high pass filter (HPF) according to the cutoff frequency information transmitted from an external control unit A bass removal unit for removing a signal, a fundamental frequency analysis unit for detecting a fundamental frequency in a frequency domain using a fast fourier transform (FFT) result, a bass information extraction unit for extracting bass signal related information using the fundamental frequency, and And a bit stream forming unit configured to output a encoded audio signal by configuring a bit stream using the bass signal related information and the bass-removed digital audio signal.
본 발명의 실시예에 따른 오디오 디코딩 장치는 디지털 신호를 디코딩하는 디코더에 있어서, 디코딩된 저음 신호 관련 정보를 이용하여 기본 주파수에 대한 하모닉을 생성하는 하모닉 생성부와, 출력장치의 차단 주파수에 따라 BPF(Band Pass Filter)를 적용하여 상기 하모닉을 추출하고, 주파수별 이득값을 제어하여 가상 저음을 합성하는 BPF 및 이득 제어부와, 상기 디코딩된 저음 신호 관련 정보에 상기 가상 저음을 추가하는 가상 저음 추가부를 포함한다.An audio decoding apparatus according to an embodiment of the present invention is a decoder for decoding a digital signal, the harmonic generator for generating a harmonic of the fundamental frequency using the decoded bass signal-related information, and the BPF according to the cutoff frequency of the output device A BPF and a gain control unit for extracting the harmonics by applying a band pass filter and controlling gain values for each frequency to synthesize virtual bass, and a virtual bass adding unit for adding the virtual bass to the decoded bass signal related information. Include.
본 발명의 실시예에 따른 오디오 인코딩 방법은 디지털 오디오 신호를 인코딩하는 방법에 있어서, 외부 제어부로부터 전송된 차단 주파수(cutoff frequency) 정보에 따라 HPF(High Pass Filter)를 이용하여 상기 디지털 오디오 신호에서 저음 신호를 제거하는 과정과, FFT(Fast Fourier transform) 결과를 이용하여 주파수 영역에서 기본 주파수를 검출하는 과정과, 상기 기본 주파수를 이용하여 저음 신호 관련 정보를 추출하는 과정과, 상기 저음 신호 관련 정보와 상기 저음 제거된 디지털 오디오 신호를 이용하여 비트 스트림을 구성하여 인코딩된 오디오 신호를 출력하는 과정을 포함한다.In an audio encoding method according to an embodiment of the present invention, in a method of encoding a digital audio signal, bass in the digital audio signal using a high pass filter (HPF) according to cutoff frequency information transmitted from an external control unit Removing a signal, detecting a fundamental frequency in a frequency domain using a fast fourier transform (FFT) result, extracting information about a bass signal using the fundamental frequency, And outputting an encoded audio signal by constructing a bit stream using the bass-removed digital audio signal.
본 발명의 실시예에 따른 오디오 디코딩 방법은 디지털 신호를 디코딩하는 방법에 있어서, 디코딩된 저음 신호 관련 정보를 이용하여 기본 주파수에 대한 하모닉을 생성하는 과정과, 출력장치의 차단 주파수에 따라 BPF(Band Pass Filter)를 적용하여 상기 하모닉을 추출하고 주파수별 이득값을 제어하여 가상 저음을 합성하는 과정과, 상기 디코딩된 저음 신호 관련 정보에 상기 가상 저음을 추가하는 과정을 포함한다. In an audio decoding method according to an embodiment of the present invention, a method of decoding a digital signal, generating a harmonic of the fundamental frequency using the decoded bass signal-related information, and BPF (Band) according to the cutoff frequency of the output device And extracting the harmonics and controlling gains for each frequency to synthesize virtual bass, and adding the virtual bass to the decoded low signal information.
하기에서 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear. The following terms are defined in consideration of the functions of the present invention, and may be changed according to the intentions or customs of the user, the operator, and the like. Therefore, the definition should be based on the contents throughout this specification.
본 발명은 종래의 지각 오디오 코더에 missing fundamental 기법을 적용하기 위해 인코더단에서 심리 음향 블록의 FFT 결과를 이용하여 기본 주파수 분석(fundamental frequency analysis)을 미리 수행한다. 그리고 인코딩(encoding) 음원이 재생될 출력장치의 특성에 따라 사전에 입력 오디오 신호의 저음 영역을 제 거하고, 저대역 서브밴드를 생략한다는 특징이 있다. The present invention performs a fundamental frequency analysis (fundamental frequency analysis) using the FFT result of the psychoacoustic block in the encoder stage in order to apply the missing fundamental technique to the conventional perceptual audio coder. In addition, according to the characteristics of the output device to which the encoding sound source is to be reproduced, the low sound region of the input audio signal is removed in advance, and the low band subband is omitted.
디코더단에서는 부가 정보로 넘어온 저음 신호 정보(기본 주파수(fundamental frequency), 크기(magnitude), 저대역 평균 에너지 등)를 바탕으로 인공 저음을 만든다는 특징이 있다.The decoder has a feature of generating artificial bass based on bass signal information (fundamental frequency, magnitude, low band average energy, etc.) transferred as additional information.
도 3a 및 도 3b는 본 발명의 실시 예에 따른 지각 인코더/디코더의 블록 구성도이다.3A and 3B are block diagrams of a perceptual encoder / decoder according to an embodiment of the present invention.
우선 도 3a에 도시된 인코더를 살펴보면, 종래의 지각 오디오 코더(도 1a 참조)에 하기 블록들이 추가되었다. 추가된 블록들에 대해서 설명하기로 한다. Referring first to the encoder shown in FIG. 3A, the following blocks have been added to a conventional perceptual audio coder (see FIG. 1A). The added blocks will be described.
저음 제거(Bass Subtraction)부(310)는 외부 제어부로부터 전송된 차단 주파수(cutoff frequency) 정보에 따라 HPF(High Pass Filter)를 이용하여 저음 신호를 제거한다. 이때, 상기 차단 주파수는 출력 장치의 차단 주파수에 기준하게 되는데 이어폰이나 고성능의 스피커 사용시에는 낮은 차단 주파수를 설정하고 재생 특성이 열악한 핸드폰 마이크로 스피커와 같은 경우 높은 차단 주파수를 설정하게 된다. 이와 같이, 저음 신호를 제거함으로써 입력 신호의 동적 범위(dynamic range)를 낮출 수 있으며 MDCT에서 MDCT 수행시 저대역의 서브밴드를 생략할 수 있다. 이는 결국 종래 기술 보다 압축시 비트 래이트(bit rate)를 낮출 수 있는 장점이 있다. The
저음 신호 분석(Bass Signal Analysis)부(320)는 종래의 지각 오디오 코더에 missing fundamental 기법을 적용하기 위해 인코더단에서 지각 모델 적용 결과를 이용하여 저음 신호를 검출한 후, 인코딩부(115)로 출력한다.The bass
도 3b에 도시된 디코더를 살펴보면, 다음과 같다.Looking at the decoder shown in Figure 3b, it is as follows.
가상 저음 생성(Virtyal Bass Generation)부(330)는 디코딩된 저음 신호에 대한 정보를 이용하여 가상 저음을 생성한다.The virtual
가상 저음 추가(Virtual Bass Adding)부(340)는 디코딩된 오디오 신호에 상기 가상 저음 생성부(330)에서 생성된 가상 저음을 추가하여 비트 스트림을 출력한다.The virtual
도 4a 및 도 4b는 본 발명의 실시 예에 따른 mp3 인코더/디코더의 블록 구성도를 도시한 것이다.4A and 4B illustrate block diagrams of an mp3 encoder / decoder according to an embodiment of the present invention.
도 4a를 참조하면, 종래의 mp3 인코더에 하기 블록들이 추가되었다. 추가된 블록들에 대해서 설명하기로 한다. 4A, the following blocks have been added to the conventional mp3 encoder. The added blocks will be described.
저음 제거부(410)는 외부 제어부로부터 전송된 차단 주파수(cutoff frequency) 정보에 따라 HPF(High Pass Filter)를 이용하여 저음 신호를 제거한다. 이때, 상기 차단 주파수는 출력 장치의 차단 주파수에 기준하게 되는데 이어폰이나 고성능의 스피커 사용시에는 낮은 차단 주파수를 설정하고 재생 특성이 열악한 핸드폰 마이크로 스피커와 같은 경우 높은 차단 주파수를 설정하게 된다. 이와 같이, 저음 신호를 제거함으로써 입력 신호의 동적 범위(dynamic range)를 낮출 수 있으며 MDCT에서 MDCT 수행시 저대역의 서브밴드를 생략할 수있다. 이는 결국 종래 기술 보다 압축시 비트 래이트(bit rate)를 낮출 수 있는 장점을 갖는다. The
기본 주파수 분석부(420)는 상기 지각 오디오 코더에서는 심리 음향 모델을 적용하기 위해 입력 오디오 신호에 대해서 FFT를 수행하게 되는데 분석을 위해 쓰일 뿐 압축을 위한 별도의 역할이 없다. 본 발명에서의 기본 주파수 분석부(420)는 FFT 결과를 이용하여 missing fundamental 기법에서 필요한 기본 주파수를 검출해내고 하모닉(harmonics) 특성을 분석한다. 종래처럼 디코딩 후 처리 과정에 적용할 경우 추가적인 계산이 최종 출력 전에 필요하고 기본 주파수를 찾기 위해 FFT를 수행한다면 동작이 반복될 뿐 아니라 연산량도 많이 차지하게 된다. 그러나 인코더단에서 FFT 결과를 이용하여 미리 분석할 경우 계산량을 현저히 줄일 수 있고 주파수 영역에서 보다 정확한 분석이 가능하다. The
저음 정보 추출(Bass Info. Extraction)부(430)는 상기 기본 주파수 분석(420)에서 검출된 기본 주파수를 이용하여 기본 주파수의 위치와 에너지, 차단 주파수 이하의 저 주파대역 평균에너지를 계산해 낸다. 이는 다시 부가 정보 코딩부(240)를 통해 부호화되고 비트 스트림 형성부(250)에 추가된다. 이 정보를 바탕으로 디코더단에서 인공적인 저음 신호를 만들어 낸다. 이때 missing fundamental 기법을 이용하여 하모닉을 첨가하게 되면 출력장치에서 물리적으로 재생이 불가능한 소리도 들리는 것처럼 만들 수 있다. 이것을 가상 저음(virtual bass)라고 한다. Bass Info.
도 4b에 도시된 디코더는, 도 2b의 블록 구성도에 하기의 블록이 추가되었다. 추가된 블록들에 대해서 설명하기로 한다.In the decoder illustrated in FIG. 4B, the following block is added to the block diagram of FIG. 2B. The added blocks will be described.
가상 저음 합성(virtual Bass Synthesis)부(440)는 하모닉 생성부(442)와 BPF & 이득 제어부(444)로 구성된다.The virtual
상기 하모닉(또는 배음) 생성(Harmonics Generation)부(442)는 디코딩된 저음 신호에 대한 정보(기본 주파수 위치, 기본 주파수에서의 크기(magnitude), 저음 대역의 평균 에너지)를 이용하여 기본 주파수에 대한 하모닉을 만들어 낸다.The
상기 BPF & 이득 제어(Band Pass filter & Control)부(444)는 출력장치의 차단 주파수에 따라 BPF를 적용하여 하모닉을 추출해 내고 왜곡(distortion)이 생기지 않도록 주파수별 이득값을 제어하여 가상 저음 추가부(450)로 출력한다.The BPF & gain
상기 가상 저음 추가(Virtual Bass Adding)부(450)는 제어부(460)의 선택에 따라 가상 저음과 디코딩된 오디오 신호에 믹스한다.The virtual
상기 제어부(460)는 출력장치(이어폰, 하이파이(HiFi) 스피커, 마이크로 스피커 등)의 차단 주파수에 따라 하모닉 추출을 위한 BPF와 이득값을 제어하고 최종 출력 전 믹스 여부와 믹스시 이득 제어 등을 수행한다.The
도 5 및 도 6은 본 발명의 실시 예에 따른 오디오 코딩 방법을 도시한 흐름도다. 이 중에서 도 5는 본 발명의 실시 예에 따른 인코더에서의 인코딩 동작을 도시한 흐름도이다.5 and 6 are flowcharts illustrating an audio coding method according to an exemplary embodiment of the present invention. 5 is a flowchart illustrating an encoding operation in an encoder according to an embodiment of the present invention.
인코더는 501 단계에서 PCM 데이터를 수신한다. 상기 인코더는 503 단계에서 외부 제어부로부터 차단 주파수와 저음 제거 여부 정보를 수신하고, 수신된 PCM 데이터에서 저음을 제거할 것인가를 판단한다. 이와 동시에 인코더는 513 단계로 진행하여 진행한다. 513 단계 이하의 설명은 하기에서 설명하기로 한다.The encoder receives the PCM data in
상기 저음을 제거할 경우 인코더는 505 단계로 진행하여 저음을 제거한다. 이때 인코더는 외부 제어부로부터 전송된 차단 주파수 정보에 따라 HPF를 이용하여 저음을 제거하게 된다. 저음을 제거한 후, 507 단계로 진행한다. When removing the bass, the encoder proceeds to step 505 to remove the bass. At this time, the encoder removes the bass using the HPF according to the cutoff frequency information transmitted from the external controller. After removing the bass, go to step 507.
그러나 상기 저음을 제거하지 않을 경우 인코더는 507 단계에서 입력된 PCM 데이터에 대해 필터 뱅크를 적용하여 필터링하여 32 개의 서브밴드 신호로 재구성하고 주파수 밴드별로 분석한다. 이후 인코더는 509 단계에서 MDCT에 적용된 윈도우를 선택한다. 이때, 각 임계대역에 대해서 SMR(Signal to Masking Ratio)을 구하고, 지각 에너지가 임계치 보다 크거나 같으면 숏 윈도우(short window)를 선택하고, 지각 에너지가 임계치 보다 작으면, 롱 윈도우(long window)를 선택한다.However, if the bass is not removed, the encoder applies a filter bank to the PCM data input in
이후 인코더는 511 단계에서 심리 음향 모델을 적용한 상기 오디오 신호를 소정의 오차를 두고 디지털 신호로 양자화한다. 양자화 수행 후, 허프만 코딩을 수행한다. 인코더는 521 단계에서 비트 스트림을 구성한 다음, 에러 체크하는 CRC(Cyclic Redundancy Checking) 체크 후 파일 형태의 오디오 신호를 출력한다.In
한편, 503 단계와 동시에 발생하는 513 단계에서 인코더는 입력 버퍼에 대해서 1024(long window), 256(short window)를 구성된 것에 FFT(Fast Fourier transform)을 수행한 후, 515 단계에서 상기 FFT 결과에 심리 음향 모델을 적용한다.Meanwhile, in
이후 인코더는 517 단계에서 상기 심리 음향 모델에 적용한 FFT 결과를 이용하여 기본 주파수를 검출하여 하모닉 특성을 분석한다. 즉, 인코더는 FFT 결과를 이용하여 missing fundamental 기법에서 필요한 기본 주파수를 찾아내고 하모닉(harmonics) 특성을 분석한다. 이후, 인코더는 519 단계에서 기본 주파수의 위치와 크기를 계산하고, 차단 주파수 이하의 저음 영역에 대한 평균 에너지를 계산하여 저음 신호 정보를 추출한다. 상기 추출된 저음 신호 정보는 부가 정보 코딩부(240)를 통해 코딩되고 비트 스트림 형성부(250)에 추가된다. 상기 비트 스트림 형성부(250)는 비트 스트림을 구성한 다음, 에러 체크하는 CRC 체크 후 파일 형태의 오디오 신호를 출력한다.After that, the encoder detects the fundamental frequency using the FFT result applied to the psychoacoustic model in
도 6은 본 발명의 실시 예에 따른 디코더에서의 디코딩 동작을 도시한 흐름도이다.6 is a flowchart illustrating a decoding operation in a decoder according to an embodiment of the present invention.
먼저, 디코더는 601 단계에서 파일 형태의 코딩된 오디오 데이터를 프레임 언팩(unpacking)한다. 이후, 디코더는 603 단계에서 언팩된 데이터를 스펙트럴 컴포넌트에 대한 허프만 디코딩한다. 이와 동시에 디코더는 613 단계에서 저음 신호 정보를 디코딩한다. 613 이하의 단계는 하기에서 설명하기로 한다.First, in
603 단계 이후 디코더는 605 단계에서 역양자화를 수행한 후, 607 단계에서 IMDCT를 수행한다. 이후 디코더는 609 단계에서 각 서브밴드에 대해 필터 뱅크를 합성한 후, 611 단계에서 가상 저음을 추가할 것인가를 판단한다. 만약 가상 저음을 추가하지 않을 경우 디코더는 디코딩 동작을 종료한다. 그러나 가상 저음을 추가할 경우 디코더는 619 단계로 진행하여 가상 저음을 추가한 후, 디코딩 동작을 종료한다.After
한편 603 단계와 동시에 진행하는 613 단계에서 디코더는 언팩된 부가 정보로부터 저음 신호에 대한 부가 정보에 대해 디코딩한다.On the other hand, in step 613, which proceeds simultaneously with
이후 디코더는 615 단계에서 상기 디코딩된 저음 신호에 대한 정보(기본 주파수 위치, 기본 주파수에서의 크기(magnitude), 저음 대역의 평균 에너지)를 이용하여 기본 주파수에 대한 하모닉을 만들어 낸다. 이후 디코더는 617 단계에서 출력장치의 차단 주파수에 따라 BPF를 적용하여 하모닉을 추출해 내고 왜 곡(distortion)이 생기지 않도록 주파수별 이득값을 제어한다.In
이후, 디코더는 619 단계에서 제어부(460)의 선택에 따라 가상 저음과 디코딩된 오디오 신호에 가상 저음을 추가한다.In
한편, 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해서 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도내에서 여러 가지 변형이 가능함을 당해 분야에서 통상의 지식을 가진 자에게 있어서 자명하다 할 것이다. Meanwhile, in the detailed description of the present invention, specific embodiments have been described, but it will be apparent to those skilled in the art that various modifications are possible without departing from the scope of the present invention.
이상에서 상세히 설명한 바와 같이 동작하는 본 발명에 있어서, 개시되는 발명 중 대표적인 것에 의하여 얻어지는 효과를 간단히 설명하면 다음과 같다.In the present invention that operates as described in detail above, the effects obtained by the representative ones of the disclosed inventions will be briefly described as follows.
본 발명은, 디코딩시 종래 기술에 비해 계산량을 1/3 가량 줄일 수 있다.The present invention can reduce the amount of calculation by about 1/3 compared to the prior art during decoding.
또한 본 발명은 인코딩시 출력 장치에서 물리적으로 재생할 수 없는 대역을 생략하므로 비트 레이트 측면에서 압축률을 높일 수 있다. 최소 원래 데이터의 1/32 가량 줄일 수 있으며 입력 신호의 동적 범위(dynamic range)가 줄어들게 되므로 추가적인 데이터 압축을 기대할 수 있다. In addition, since the present invention omits a band that cannot be physically reproduced by an output device during encoding, the compression rate can be increased in terms of bit rate. At least 1/32 of the original data can be reduced and the dynamic range of the input signal can be reduced, so additional data compression can be expected.
또한 본 발명은 인코더단에서 심리 음향 모델 적용 시 사용하는 FFT 정보를 이용하게 후처리로 적용되는 종래의 missing fundamental 기법보다 정확한 기본 주파수 검출이 가능하여 저음 보상 기능의 성능을 높일 수 있다. In addition, the present invention can improve the performance of the bass compensation function by detecting the fundamental frequency more accurately than the conventional missing fundamental technique applied to the post-processing by using the FFT information used when applying the psychoacoustic model in the encoder stage.
본 발명은 연산량을 많이 차지하는 missing fundamental 기법의 일부를 인코더쪽으로 넘김으로써 저음보상을 위한 후처리 계산량을 줄일 수 있다. 이로 인해서 종래에는 적용하기 어려웠던 embaded system(모바일-멀티미디어 기기)에도 missing fundamental 기법을 적용할 수 있다.The present invention can reduce the post-processing calculation amount for low tone compensation by passing a part of the missing fundamental technique, which takes up a large amount of computation, to the encoder. As a result, the missing fundamental technique can be applied to an embaded system (mobile-multimedia device), which was difficult to apply in the related art.
또한 본 발명은 missing fundamental를 적용함으로써 열악한 출력 장치에서 물리적으로 재생하지 못했던 저음 신호를 가상 저음으로 들을 수 있게 된다. 종래에 이퀄라이져를 이용한 방법보다 보다 나은 저음 재생이 가능하다.In addition, according to the present invention, by applying a missing fundamental, a low bass signal that cannot be physically reproduced in a poor output device can be heard as a virtual bass. Better bass reproduction is possible than conventional methods using equalizers.
Claims (8)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060120137A KR101281945B1 (en) | 2006-11-30 | 2006-11-30 | Apparatus and method for coding audio |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060120137A KR101281945B1 (en) | 2006-11-30 | 2006-11-30 | Apparatus and method for coding audio |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080049499A KR20080049499A (en) | 2008-06-04 |
KR101281945B1 true KR101281945B1 (en) | 2013-07-03 |
Family
ID=39805273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060120137A KR101281945B1 (en) | 2006-11-30 | 2006-11-30 | Apparatus and method for coding audio |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101281945B1 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10333698A (en) * | 1997-05-27 | 1998-12-18 | Matsushita Electric Ind Co Ltd | Vice encoding method, voice decoding method, voice encoder, and recording medium |
JP2001094433A (en) | 1999-09-17 | 2001-04-06 | Matsushita Electric Ind Co Ltd | Sub-band coding and decoding medium |
JP2001094432A (en) | 1999-09-17 | 2001-04-06 | Matsushita Electric Ind Co Ltd | Sub-band coding and decoding method |
JP2001343998A (en) | 2000-05-31 | 2001-12-14 | Yamaha Corp | Digital audio decoder |
-
2006
- 2006-11-30 KR KR1020060120137A patent/KR101281945B1/en active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10333698A (en) * | 1997-05-27 | 1998-12-18 | Matsushita Electric Ind Co Ltd | Vice encoding method, voice decoding method, voice encoder, and recording medium |
JP2001094433A (en) | 1999-09-17 | 2001-04-06 | Matsushita Electric Ind Co Ltd | Sub-band coding and decoding medium |
JP2001094432A (en) | 1999-09-17 | 2001-04-06 | Matsushita Electric Ind Co Ltd | Sub-band coding and decoding method |
JP2001343998A (en) | 2000-05-31 | 2001-12-14 | Yamaha Corp | Digital audio decoder |
Also Published As
Publication number | Publication date |
---|---|
KR20080049499A (en) | 2008-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7383067B2 (en) | Compressor and decompressor and method for reducing quantization noise using advanced spectral expansion | |
JP5302980B2 (en) | Apparatus for mixing multiple input data streams | |
KR101265669B1 (en) | Economical Loudness Measurement of Coded Audio | |
RU2332727C2 (en) | Device and method of multichannel signal processing | |
CN101183527B (en) | Method and apparatus for encoding and decoding high frequency signal | |
JP5873936B2 (en) | Phase coherence control for harmonic signals in perceptual audio codecs | |
JP2011059714A (en) | Signal encoding device and method, signal decoding device and method, and program and recording medium | |
CA2490064A1 (en) | Audio coding method and apparatus using harmonic extraction | |
JP2003108197A (en) | Audio signal decoding device and audio signal encoding device | |
EP2489036B1 (en) | Method, apparatus and computer program for processing multi-channel audio signals | |
CN115171709B (en) | Speech coding, decoding method, device, computer equipment and storage medium | |
KR101281945B1 (en) | Apparatus and method for coding audio | |
CN113314132A (en) | Audio object coding method, decoding method and device applied to interactive audio system | |
KR101386645B1 (en) | Apparatus and method for purceptual audio coding in mobile equipment | |
JP5569476B2 (en) | Signal encoding apparatus and method, signal decoding apparatus and method, program, and recording medium | |
AU2012202581B2 (en) | Mixing of input data streams and generation of an output data stream therefrom | |
CN114783449A (en) | Neural network training method, neural network training device, electronic equipment and medium | |
KR20140037118A (en) | Method of processing audio signal, audio encoding apparatus, audio decoding apparatus and terminal employing the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20160530 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20170529 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20180530 Year of fee payment: 6 |