KR100590340B1 - 디지털 오디오 부호화 방법 및 장치 - Google Patents

디지털 오디오 부호화 방법 및 장치 Download PDF

Info

Publication number
KR100590340B1
KR100590340B1 KR1020030067457A KR20030067457A KR100590340B1 KR 100590340 B1 KR100590340 B1 KR 100590340B1 KR 1020030067457 A KR1020030067457 A KR 1020030067457A KR 20030067457 A KR20030067457 A KR 20030067457A KR 100590340 B1 KR100590340 B1 KR 100590340B1
Authority
KR
South Korea
Prior art keywords
subband
bits
digital audio
allocated
bit
Prior art date
Application number
KR1020030067457A
Other languages
English (en)
Other versions
KR20050031227A (ko
Inventor
오현오
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020030067457A priority Critical patent/KR100590340B1/ko
Publication of KR20050031227A publication Critical patent/KR20050031227A/ko
Application granted granted Critical
Publication of KR100590340B1 publication Critical patent/KR100590340B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

고속 연산을 수행할 수 있는 디지털 오디오 부호화 방법 및 장치가 개시된다.
본 발명의 디지털 오디오 부호화 방법은 디지털 오디오 신호로부터 검출된 스케일 팩터(scale factor)와 상수인 절대 가청 임계치(Absolute Masking Threshold)를 이용하여 SMR(Signal-to-Masking Ratio)을 산출하고, 산출된 SMR와 목표 NMR(Noise-to-Masking Ratio)와의 차이를 소정 상수 값으로 나눈 값에 따라 비트를 할당하며, 할당된 비트에 따라 디지털 오디오 신호를 양자화한 다음, 프레임으로 생성하게 된다.
따라서, 본 발명에 의하면, 연산량이 대폭 줄어듦에 따라 하드웨어 비용을 크게 절감시킬 수 있을 뿐만 아니라 보다 고속으로 디지털 오디오 신호를 압축시킬 수 있는 효과가 있다.
디지털 오디오, 스케일 팩터, 절대 가청 임계치, 비트 할당

Description

디지털 오디오 부호화 방법 및 장치{Digital audio encoding method and device thereof}
도 1은 일반적인 MPEG 표준안에 따른 계층 1, 2 부호화 장치의 기본 구성도.
도 2는 도 1에 따른 특정 프레임에서 각 서브밴드에 대한 SMR 곡선을 나타낸 예시도.
도 3은 도 1에 따른 비트 할당에 따라 NMR 곡선이 변화되는 모습을 나타낸 예시도.
도 4는 본 발명의 바람직한 일 실시예에 따른 디지털 오디오 부호화 장치의 개략적인 구성을 나타낸 도면.
도 5는 본 발명의 바람직한 일 실시예에 따른 특정 프레임에서 각 서브밴드에 대한 SMR 곡선을 나타낸 예시도.
도 6은 본 발명의 바람직한 일 실시예에 따른 SMR을 이용하여 비트가 할당되는 것을 보여주는 예시도.
<도면의 주요 부분에 대한 부호의 명칭>
11 : 서브밴드 필터 뱅크 12 : 스케일 팩터 검출부
13 : SMR 산출부 14 : 비트 할당부
15 : 양자화부 16 : 비트열 생성부
본 발명은 디지털 오디오 부호화 장치에 관한 것으로, 특히 고속 연산을 수행할 수 있는 디지털 오디오 부호화 방법 및 장치에 관한 것이다.
일반적으로, 디지털 오디오가 통신, 컴퓨터, 가전 등 여러 분야로 이용 범위가 확대되면서, 많은 양의 데이터를 저장 및 전송하는 문제가 등장하게 되었다. 이러한 문제를 해결하기 위해서 국제 표준화 기구 산하의 MPEG-1 표준안을 91년에 확정하였고, 이것을 다채널로 확장하여 94년 11월에 MPEG-2 표준안이 확정되었다.
이러한 MPEG 표준안에서는 오디오 부호화 방식의 표준안으로 약 128Kbps에서 CD(Compact Disc) 수준의 음질을 얻을 수 있는 MUSICAM(Masking-pattern adapted Universal Subband Integrated Coding And Multiplexing) 방식이 채택되었다.
상기 MUSICAM 방식은 청각 특성을 이용하여 오디오를 다수개의 주파수 대역(서브밴드)으로 분할하여 각각의 서브밴드마다 그 특징에 맞는 양자화/부호화를 수행하는 서브밴드 부호화 방식으로, 각 서브밴드에서 지각적인 잡음을 최소화하도록 음을 부호화하여 96~128Kbps에서 주관적 원음과 동일한 복원 음을 얻을 수 있는 방식으로써, MPEG의 계층 1 및 2로 선정되었다.
한편, MPEG 오디오 표준 압축 방식은 부호화의 응용 목적에 따라 일반적으로 MPEG-1 및 MPEG-2로 나뉘어지고, 다시 비트 율에 따라 계층 1, 계층 2, 계층 3으로 나뉘어진다.
여기서, MPEG-1 오디오 부호화 방식과 MPEG-2 오디오 부호화 방식의 기본적인 알고리즘은 동일하나, MPEG-1 오디오 부호화 방식의 경우 최대 두 채널(좌, 우)만을 부호화하기 때문에 음상정위(Sound Image Localization)가 불안정하여 현장감을 충실히 재현하지 못하는 단점이 있었다.
따라서, MPEG-2 오디오 부호화 방식에서는 이러한 현장감을 살리기 위해 좌(L), 우(R) 두 채널의 기본 스테레오 신호에 중앙 채널(C), 서라운드 채널(LS, RS) 및 저주파 효과 채널(Low Frequency Effect)을 첨가하여 SMPTE(Society of Motion Picture and Television Engineers, 영화 및 텔레비전 기술자 협회), ITU(International Telecommunication Union, 국제전기통신연합)의 권고안으로 채택된 3/2+1로 구성된 5.1 채널의 부호화 알고리즘으로 표준화되었다.
도 1은 일반적인 MPEG 표준안에 따른 계층 1, 2 부호화 장치의 기본 구성도를 나타낸다.
도 1을 참조하면, 일반적인 부호화 장치는 48kHz의 16비트로 디지털화된 768Kbps/ch의 디지털 오디오 신호를 32개의 서브밴드로 분할하는 서브밴드 필터 뱅크(100)와, 상기 서브밴드 필터 뱅크(100)에서 출력되는 32개의 서브밴드로 분할된 디지털 오디오 신호로부터 각 서브밴드의 스케일 팩터를 검출하는 스케일 팩터 검출부(101)와, 768Kbps/ch의 디지털 오디오 신호를 푸리에 변환하여 그 스펙트럼을 출력하는 FFT(Fast Fourier Transform)부(102)와, 상기 FFT부(102)에서 출력되는 스펙트럼과 상기 스케일 팩터 검출부(101)로부터 검출된 스케일 팩터와의 비교를 통해 각 서브밴드의 최대 스펙트럼을 선택하여 상기 최대 스펙트럼에 상응하는 신호 파워(signal power)와 마스킹 임계치(masking threshold)를 이용하여 신호 대 마스킹 비(SMR : Signal-to-Masking Ratio, 이하 SMR이라 함)를 산출하는 신호 대 마스킹 비 산출부(103)와, 상기 심리 음향 모델에서 산출된 신호 대 마스킹 비와 신호 대 잡음비(SNR : Signal-to-Noise Ratio, 이하 SNR이라 함)를 이용하여 잡음 대 마스킹 비(NMR : Noise-to-Masking Ratio, 이하 NMR이라 함)를 산출하여, 산출된 잡음 대 마스킹 비에 따라 비트를 할당하는 비트 할당부(104)와, 상기 비트 할당부(104)에서 할당된 비트에 따라 상기 서브밴드 필터 뱅크(100)로부터 출력된 디지털 오디오 신호를 양자화하는 양자화부(105)와, 상기 양자화부(105)에서 양자화된 디지털 오디오 신호에 부가 정보를 포함시키는 프레임을 생성하는 비트열 생성부(106)로 구성된다. 여기서, 상기 FFT부와 신호 대 마스킹 산출부는 심리 음향 모델에 의한 것이다. 여기서, 부가정보는 나중에 양자화되어 압축된 디지털 오디오 신호를 복원할 때 필요한 스케일 팩터의 인덱스 정보와 비트 할당 정보 등을 의미한다.
이를 더욱 상세히 설명하면, 통계학적 중복성을 제거하기 위하여 입력 디지털 오디오 신호를 32개의 가중 중첩 가산(Weighted Overlap-Add) 방식의 등간격 필터 뱅크(100)에 통과시켜 서브밴드 샘플로 변환함과 동시에, 고속 푸리에 변환을 사용하는 심리 음향(Psychoacoustic) 모델에서 지각적인 중복성을 제거한 후, 마스크 임계값을 얻어 양자화에 쓰이는 비트 할당 정보를 제공한다.
또한, MPEG의 계층 1, 2에서는 32개의 동일 크기를 갖는 가중 중첩 가산 방식의 단일 서브밴드 필터 뱅크(100)를 사용하는데, 서브밴드 분석에 사용되는 필터는 512-탭 저역 통과 필터가 기본이 되며, 행렬 연산에 의해 주파수 천이가 되어 32개의 동일 크기 서브밴드가 분할된다.
MPEG에서는 제공하는 심리 음향 모델은 FFT 스펙트럼을 순음(Tonal) 성분과 잡음(Non-tonal) 성분으로 나누어 각 성분에 의한 마스킹 임계치를 구한 후, 절대 가청 한계(Absolute Masking Threshold)를 고려하여 마스킹 임계치를 구한다. MPEG의 계층 2에서는 상술한 바와 같은 심리 음향 모델을 이용하여 마스킹 임계값을 구하며, 낮은 압축 율이 요구될 때 사용한다.
일반적으로, 심리 음향 모델에서 산출되는 SMR은 심리 음향 모델의 결과인 마스킹 임계치(Masking Threshold)와 FFT 스펙트럼 및 스케일 팩터로부터 산출되는 신호 파워와의 비로 데시벨(dB)로 표시할 때, 수학식 1과 같이 표현될 수 있다.
[수학식 1]
SMR(dB)=신호파워(Signal Power)(dB)-마스킹 임계치(Masking Threshold)(dB)
여기서, SMR은 각 서브밴드별로 하나씩 한 프레임에 대해 32개가 얻어진다. SMR의 물리적 의미는 각 서브밴드별로 신호 파워가 마스킹 임계치에 비해 상대적으로 큰 정도를 나타낸다.
여기서, 마스킹 임계치는 이미 설명한 바와 같이 FFT 스펙트럼을 순음(Tonal) 성분과 잡음(Non-tonal) 성분으로 나누어 각 성분에 의한 마스킹 임계치를 구한 후, 절대 가청 한계(Absolute Masking Threshold)를 고려하여 얻어진 임 계치를 의미한다. 이때, 절대 가청 한계는 입력 디지털 오디오 신호의 스펙트럼과는 무관하게 사람의 귀가 들을 수 있는 주파수 대역별 최저 한계 크기를 나타낸 곡선으로서, 심리 음향 모델의 최종 마스킹 임계치를 구하는 과정에서 반영되는 값이다.
도 2는 도 1에 따른 특정 프레임에서 각 서브밴드에 대한 SMR 곡선을 나타낸 예시도이다.
도 2에 나타낸 바와 같이, SMR은 서브밴드 1과 서브밴드 17 사이에서 0dB 이상의 양의 값을 갖는 반면에, 서브밴드 18과 서브밴드 32 사이에서 0dB 이하의 음의 값을 갖게 됨을 알 수 있다. 이때, 0dB 이하의 음의 값을 갖는 서브밴드 구간(예컨대, 서브밴드 18과 서브밴드 32 사이)은 이미 모든 신호가 마스킹된 상태로, 더 이상 비트 할당을 할 필요가 없게 됨을 나타낸다. 따라서, 0dB 이상의 양의 값을 갖는 서브밴드 구간(예컨대, 서브밴드 1과 서브밴드 17 사이)만을 대상으로 비트 할당을 해주어야 한다.
한편, 각 서브밴드의 샘플 값을 정규화(nomalization)시키기 위한 스케일 팩터를 검출하기 위해서는 먼저 12개의 샘플의 정규화된 절대값 중 최대값을 찾아야 한다. 다음에 이 최대값과 MPEG에서 제안한 64개의 스케일 팩터를 비교하여 정규화된 최대값보다 바로 다음으로 큰 스케일 팩터를 그 프레임의 스케일 팩터로 정의한다.
상기 비트 할당부는 32개로 분할된 서브밴드 중에 산출된 NMR이 가장 큰 서브밴드에 우선 1비트를 할당하고, 새로 각 서브밴드별로 NMR을 산출하여 다시 가장 큰 서브밴드에 1비트를 할당하는 식의 반복 과정을 한 프레임에 할당된 총 비트수가 소진될 때까지 수행한다.
이러한 비트 할당 과정에서 사용되는 NMR은 SNR과 SMR를 이용하여 하기 수학식 2와 같이 표현될 수 있다.
[수학식 2]
NMR(dB)=SMR(dB)-SNR(dB)
여기서, SNR은 양자화 과정에서 발생하는 양자화 잡음과 원 신호 파워 사이의 비를 나타낸다.
상기 NMR의 물리적 의미는 해당 서브밴드의 양자화 잡음이 마스킹 임계치에 비해 상대적으로 큰 정보를 나타낸다. 이로부터 NMR이 크게 될수록 제거돼야 할 잡음이 많게 됨을 알 수 있다.
따라서, 비트 할당을 통해 NMR이 큰 서브밴드일수록 보다 많은 비트를 할당하여주게 된다. 통상적으로 1비트를 할당하게 되면, SNR이 6dB 향상되게 된다. 그러므로, 비트 할당이란 각 서브밴드별로 적절하게 비트를 할당하여 NMR값을 모두 음수로 만들어주어, 양자화 잡음이 마스킹 임계치보다 작도록 만들어주는 과정이라 할 수 있다.
이렇게 되면, 부호화 과정에서 발생한 잡음이 청각적으로 사람의 귀에 들리지 않게 되어 음질의 손실 없이 압축이 가능해지게 된다.
수학식 2에서 SMR은 신호 파워와 마스킹 임계치에 의해 얻어지는 고정된 값이므로, 결국 SNR에 의해서 변화되게 된다.
도 3은 도 1에 따른 비트 할당에 따라 NMR 곡선이 변화되는 모습을 나타낸 예시도이다.
일반적으로, 비트 할당을 하기 전에는 모든 서브밴드들에 0비트가 할당된 상태가 되게 되어 모든 신호가 잡음이 되므로, 이때의 SNR은 0dB가 된다. 따라서, 초기의 NMR은 SMR과 같게 된다(a).
(a) 곡선은 비트 할당을 하기 전에 모든 신호가 잡음이 되어 SNR이 0dB이 됨에 따라 NMR이 SMR이 되는 것을 나타낸다. (a)곡선에 나타낸 바와 같이, 서브밴드에 따라 0dB을 기준으로 그 이상의 양의 값을 갖는 서브밴드 구간(서브밴드 1과 서브밴드 17 사이)과 그 이하의 음의 값을 갖는 서브밴드 구간(서브밴드 18과 서브밴드 32 사이)으로 나뉘어진다. 이러한 경우에 앞에서 설명한 바와 같이, 0dB 이하의 음의 값을 갖는 서브밴드 구간은 이미 마스킹이 되어 있어 더 이상 비트 할당이 필요 없는 구간이므로, 0dB 이상의 양의 값을 갖는 서브밴드 구간을 대상으로 비트 할당을 통해 NMR이 0dB 이하가 되도록 하여 주게 된다.
도 3에 나타낸 바와 같이, (a) 곡선을 바탕으로 비트를 적절히 할당함에 따라 모든 서브밴드 구간에서 0dB 이하로 낮아지게 됨을 알 수 있다(b)(c). 이때 사용되는 비트 할당 과정은 이미 앞에서 설명한 바와 같다.
이때, 비트 율이 현재의 신호를 부호화하기에 적합한 정도의 비트수를 갖는 경우(b)에는 0dB 바로 아래에 NMR 값이 형성되게 되지만, 비트 율이 충분히 높은 경우(c)에는 남는 비트들을 모두 소진할 때까지 NMR 값이 지속적으로 낮아지게 되어 0dB보다 훨씬 낮은 위치에 NMR값이 분포하게 된다.
여기서, (c) 곡선과 같이 비트 율이 높은 경우에는 심리 음향 모델의 결과인 SMR의 정확성이 큰 의미가 없음을 나타낸다. 다시 말해, 비트 율이 충분히 높은 경우에는 SMR에 어느 정도의 오차가 있더라도 비트 할당시 양자화 잡음은 사람의 귀에 들리지 않을 수 있게 된다.
하지만, 종래의 디지털 오디오 부호화 장치는 이러한 상황을 고려하지 않고, 무조건 심리 음향 모델을 통해 마스킹 임계치를 구하고, 이러한 마스킹 임계치에 의해 SMR을 얻게 된다. 또한, 이러한 SMR을 바탕으로 NMR을 구하고 NMR을 통해 비트 할당을 반복 루프를 통해 할당하게 된다. 따라서, 종래의 디지털 오디오 부호화 장치는 심리 음향 모델을 통해 SMR을 구하는데 필요한 지수 또는 로그와 같은 초월 함수 연산이 많이 요구되고, 또한 비트 할당 과정도 잡음 정형(noise shaping)이 이루어질 때까지 반복된 최적화 과정이 수행되기 때문에, 결국 상당한 양의 연산이 진행되어야 한다. 특히, 비트 율이 높은 경우에는 많은 수행시간이 요구되고 있다.
이해를 돕기 위해 통상 복호화 장치의 연산량은 스테레오 구현시 대략 10~20MIPS(Million Instructions Per Second)가 요구되는데 반해, 종래의 부호화 장치는 범용 DSP(Digital Signal Processing)로 구현시 80MIPS의 연산량이 요구되고 있다. 그리고, 이러한 종래의 부호화 장치의 연산량 중 70% 정도는 심리 음향 모델과 비트 할당 연산에 사용되고 있다.
따라서, 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 심리 음향 모델을 생략하는 대신 새로운 방식으로 비트를 할당함으로써, 고속 연산을 수행할 수 있는 디지털 오디오 부호화 방법 및 장치를 제공함에 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명의 바람직한 일 실시예에 따르면, 디지털 오디오 부호화 방법은, 디지털 오디오 신호를 다수의 서브밴드로 분할하는 단계; 상기 분할된 디지털 오디오 신호로부터 각 서브밴드의 스케일 팩터를 검출하는 단계; 상기 검출된 스케일 팩터와 절대 가청 임계치를 이용하여 각 서브밴드의 신호 대 마스킹 비를 산출하는 단계; 상기 산출된 신호 대 마스킹 비를 이용하여 서브밴드별로 비트를 할당하는 단계; 상기 할당된 비트에 따라 상기 서브밴드별로 분할된 디지털 오디오 신호를 양자화하는 단계; 및 상기 양자화된 디지털 오디오 신호에 부가 정보를 포함시키는 프레임 비트열을 생성하는 단계를 포함한다.
상기 디지털 오디오 부호화 방법은, 상기 각 서브밴드별로 할당된 비트의 총합을 상기 다수의 서브밴드로 이루어지는 프레임에 허용된 총 비트에서 소정 비트를 감산한 값과 비교하는 단계; 및 상기 각 서브밴드별로 할당된 비트의 총합이 상기 프레임에 허용된 총 비트에서 소정 비트를 감산한 값과 일치하지 않는 경우, 상기 각 서브밴드별로 할당된 비트를 재할당하는 단계를 더 포함할 수 있다.
또한, 상기 디지털 오디오 부호화 방법은, 각 서브밴드별로 산출된 신호 대 마스킹 비 중 소정 서브밴드 구간 내에 존재하는 신호 대 마스킹 비를 일정 정도 증폭시키는 단계를 더 포함할 수 있다.
본 발명의 바람직한 다른 실시예에 따르면, 디지털 오디오 부호화 장치는, 디지털 오디오 신호를 다수의 서브밴드로 분할하기 위한 수단; 상기 분할된 디지털 오디오 신호로부터 각 서브밴드의 스케일 팩터를 검출하기 위한 수단; 상기 검출된 스케일 팩터와 절대 가청 임계치를 이용하여 각 서브밴드의 신호 대 마스킹 비를 산출하기 위한 수단; 상기 산출된 신호 대 마스킹 비를 이용하여 서브밴드별로 비트를 할당하기 위한 수단; 상기 할당된 비트에 따라 상기 서브밴드별로 분할된 디지털 오디오 신호를 양자화하기 위한 수단; 및 상기 양자화된 디지털 오디오 신호에 부가 정보를 포함시키는 프레임을 생성하기 위한 수단을 포함한다.
이하, 첨부된 도면을 참조하여 본 발명의 디지털 오디오 부호화 방법 및 장치를 상세히 설명한다.
도 4는 본 발명의 바람직한 일 실시예에 따른 디지털 오디오 부호화 장치의 개략적인 구성을 나타낸 도면이다.
도 4를 참조하면, 본 발명에 따른 디지털 오디오 부호화 장치는, 디지털 오디오 신호를 다수의 서브밴드로 분할하는 서브밴드 필터 뱅크(11)와, 상기 서브밴드 필터 뱅크(11)에서 분할된 디지털 오디오 신호로부터 각 서브밴드의 스케일 팩터를 검출하는 스케일 팩터 검출부(12)와, 상기 스케일 팩터 검출부(12)에서 검출된 스케일 팩터와 절대 가청 임계치를 이용하여 각 서브밴드의 신호 대 마스킹 비를 산출하는 SMR 산출부(13)와, 상기 SMR 산출부(13)에서 산출된 신호 대 마스킹 비를 이용하여 서브밴드별로 비트를 할당하는 비트 할당부(14)와, 상기 비트 할당부(14)에서 할당된 비트에 따라 상기 서브밴드별로 분할된 디지털 오디오 신호를 양자화하는 양자화부(15)와, 상기 양자화부(15)에서 양자화된 디지털 오디오 신호에 부가 정보를 포함시키는 프레임을 생성하는 비트열 생성부(16)를 포함하여 이루어진다. 여기서, 상기 부가 정보에는 스케일 팩터의 인덱스 정보 및 비트 할당 정보가 포함될 수 있다.
상기 서브밴드 필터 뱅크(11)는 통계학적 중복성을 제거하기 위하여 입력 디지털 오디오 신호를 32개의 가중 중첩 가산(Weighted Overlap-Add) 방식의 등간격 필터 뱅크에 통과시켜 32개의 서브밴드로 분할한다.
상기 스케일 팩터 검출부(12)는 각 서브밴드의 샘플 값을 정규화(nomalization)시키기 위한 스케일 팩터를 검출하기 위해서는 먼저 12개의 샘플의 정규화된 절대값 중 최대값을 찾아야 한다. 다음에 이 최대값과 MPEG에서 제안한 64개의 스케일 팩터를 비교하여 정규화된 최대값보다 바로 다음으로 큰 스케일 팩터를 그 프레임의 스케일 팩터로 검출한다. 이때, 검출된 스케일 팩터는 해당 서브밴드의 신호 파워로 정의된다.
종래에는 스케일 팩터와 FFT 스펙트럼 파워 중 큰 값을 해당 서브밴드의 신호 파워로 정의하는데 반해, 본 발명에서는 무조건 스케일 팩터를 해당 서브밴드의 신호 파워로 정의한다. 이는 앞에서 살펴본 바와 같이 심리 음향 모델의 결과인 FFT 스펙트럼 파워와 스케일 팩터 중 큰 값으로 정의된 신호 파워를 통해 얻어진 SMR이나 직접 스케일 팩터로 정의된 신호 파워를 통해 얻어진 SMR이 별다른 차이를 보이지 않는데 기인한다.
따라서, 본 발명에서는 복잡한 연산량이 요구되는 심리 음향 모델을 생략하고, 상기 스케일 팩터 검출부에서 검출되는 스케일 팩터를 직접 신호 파워로 이용하여 이로부터 SMR을 구하고자 한 것이다.
상기 SMR 산출부(13)는 상기 스케일 팩터 검출부로부터 검출된 스케일 팩터를 신호 파워로 이용하여 SMR을 산출한다. 이때, SMR은 하기 수학식 3과 같이 표현될 수 있다.
[수학식 3]
SMR(dB)=스케일팩터(dB)-절대 가청 임계치(Absolute Masking Threshold)(dB)
여기서, 스케일 팩터는 앞서 설명한 바와 같이 상기 스케일 팩터 검출부로부터 얻어진 신호 파워 값이다. 또한, 절대 가청 임계치는 미리 실험을 통해 산출된 고정된 상수 값으로서, 각 서브밴드마다 주어지게 된다. 이러한 절대 가청 임계치는 입력되는 디지털 오디오 신호의 스펙트럼과는 무관하게 사람의 귀가 들을 수 있는 주파수 대역별 최저 한계 크기를 나타내는 것으로서, 실험을 통해 산출된 값이다.
따라서, 본 발명에서는 종래의 복잡한 연산량이 요구되는 심리 음향 모델을 사용하지 않고, 간단히 얻어지는 스케일 팩터와 상수 값인 절대 가청 임계치를 사용하여 SMR을 산출할 수 있다.
상기 SMR 산출부(13)에 의해 각 서브밴드별로 얻어진 SMR 곡선은 도 5에 나타낸 바와 같다.
도 5는 본 발명에 따른 특정 프레임에서 각 서브밴드에 대한 SMR 곡선을 나 타낸 예시도이다. 여기서, (a)는 종래의 심리 음향 모델을 이용하여 얻어진 SMR 곡선을 나타내고, (b)는 본 발명에 따른 스케일 팩터와 절대 가청 임계치를 이용하여 얻어진 SMR 곡선을 나타낸다.
도 5에 나타낸 바와 같이, 전반적으로 본 발명에 따른 SMR 곡선(b)이 종래의 SMR 곡선(a)보다 일정 정도 낮아지게 됨을 알 수 있다. 이에 따라, 본 발명에 따른 SMR 곡선(b)이 보다 참값에 해당하는 종래의 SMR 곡선(a)보다 다소 오차가 존재할 수는 있지만, 전체적이 추이는 비슷한 형태를 보이고 있다. 하지만, 이러한 오차는 복잡한 심리 음향 모델을 이용함에 따른 시간적인 낭비에 비추어보면, 그리 큰 오차는 아닐 것으로 예측된다.
한편, 비트 할당부(14)는 상기 SMR 산출부에서 산출된 SMR을 이용하여 비트를 할당시킨다.
본 발명에서는 종래에 프레임 당 할당된 총 비트수를 소진할 때까지 반복적으로 비트를 할당하게 됨으로써, 연산량이 증가되는 문제점을 해결하기 위해 새로운 비트 할당 방법을 제시한다.
먼저, 각 서브밴드별로 비트를 할당하는데, 이는 하기 수학식 4에 의해 이루어지게 된다.
[수학식 4]
bitalloc(sb)=[(SMR(sb)-목표 NMR)/6]
단, (SMR(sb)-목표 NMR)/6을 a로 표현할 때, [a]는 a보다 작지 않은 최소 정수임.
여기서, SMR값을 목표 NMR값과의 차이를 6으로 나눈 이유는 이미 상술한 바와 같이 1비트가 할당될 때마다 SNR이 6dB씩 향상되는데 기인한다. 따라서, 상기 수학식 6에 의해 비트가 할당될 때, 할당된 비트에 6을 곱한 만큼 SNR 값이 향상되고, 이에 따라 얻어지는 NMR 값이 낮아지어 음의 값을 갖게 된다.
이때, 목표 NMR은 부호화 비트율에 따라 고정되는 상수값이며, 비트율이 높아질수록 작은 값이 되며, 0dB보다 작은 값을 갖는 것이 바람직하다.
예를 들면, 서브밴드 1의 SMR이 20dB이고, 서브밴드 2의 SMR은 27dB이며, 목표 NMR이 -30dB이라고 하면, 서브밴드 1에는 수학식 4에 의해 [(20-(-30))/6]=[50/6]=[8.33]=9비트가 할당된다. 또한, 서브밴드 2에는 수학식 4에 의해 [(27-(-30))/6]=[57/6]=[9.33]=10비트가 할당된다. 이와 같은 과정을 통해 모든 서브밴드별로 비트를 할당할 수 있다.
하지만, 실제로는 앞에서 설명한 바와 같이 모든 서브밴드에 대해 비트를 할당하지 않는다. 즉, 비트를 할당하는 서브밴드는 0dB 이하인 SMR을 갖는 서브밴드들에 한정될 수 있다.
주의할 점은 수학식 4에 의해 각 서브밴드에 할당된 비트들의 총합이 모든 서브밴드들을 포함하는 한 프레임에 허용되는 총 비트보다 크거나 작아질 수 있다는 것이다. 이때, 한 프레임에 허용되는 총 비트보다 약간 적은 총합이 각 서브밴드들에 할당되는 것이 바람직하다. 물론, 각 서브밴드에 할당된 비트들의 총합이 한 프레임에 허용되는 총 비트와 일치해도 무방하다.
이러한 것을 수식으로 표현하면, 하기 수학식 5와 같다.
[수학식 5]
total-bits=각 서브밴드별로 할당된 비트들의 총합≤프레임당 허용된 총 비트-소정 비트
따라서, 상기 비트 할당부(14)는 상기 수학식 4에 의해 각 서브밴드별로 비트를 할당하고, 각 서브밴드별로 할당된 비트들의 총합을 프레임당 허용된 총 비트에서 소정 비트 감한 값과 비교한다.
비교 결과 각 서브밴드별로 할당된 비트들의 총합이 프레임당 허용된 총 비트에서 소정 비트 감한 값과 일치하지 않는 경우에는 각 서브밴드별로 할당된 비트들을 재할당시켜 준다.
즉, 각 서브밴드별로 할당된 비트들의 총합이 프레임당 허용된 총 비트를 초과하게 되면, 초과된 비트만큼 각 서브밴드별로 할당된 비트들에서 감산된다.
반대로, 각 서브밴드별로 할당된 비트들의 총합이 프레임당 허용된 총 비트보다 부족하다면, 부족한 비트만큼 각 서브밴드별로 할당된 비트들에 가산된다.
이와 같이 각 서브밴드별로 할당된 비트들을 재할당하는 경우, 비트 감산시에는 높은 서브밴드로부터, 비트 가산시에는 낮은 서브밴드로부터 수행하는 것이 바람직하다.
도 6은 본 발명의 바람직한 일 실시예에 따른 SMR을 이용하여 비트가 할당되는 것을 보여주는 예시도이다.
도 6에서 (a)는 본 발명에 의해 얻어진 SMR 곡선을 나타내고, (b)는 종래에 의해 얻어진 SMR 곡선을 나타내고, (c)는 (a)을 기준으로 할당되는 비트 곡선을 나 타내고, (d)는 (c)의 비트 할당을 (a)의 SMR 곡선에 적용했을 때 얻는 최종 NMR 곡선을 나타내며, (e)는 (c)의 비트 할당을 (b)의 SMR 곡선에 적용했을 때의 최종 NMR 곡선을 나타낸다.
도 6에 나타낸 바와 같이, 본 발명에 의해 얻어진 SMR 곡선(a)을 각 서브밴드별로 비트 할당한 다음(c), 이와 같이 할당된 비트를 적용하여 구한 NMR 곡선(d)과, 종래에 의해 얻어진 SMR 곡선(b)을 본 발명에 의해 얻어진 비트(c)를 적용하여 구한 NMR 곡선(e)이 도시되어 있다. 도 6에서 알 수 있듯이, 본 발명에 따른 비트 할당을 종래 방법의 SMR 곡선에 적용할 때(e), (e)에서도 모두 0dB 이하의 NMR 곡선이 나타나므로, 본 발명에 따른 NMR 곡선(d)는 매우 유효하다 할 것이다. 또한, (d) 곡선과 (e) 곡선이 서로 다르긴 하지만, 비트율이 높아 마진이 충분하게 되면, 양자 사이에 아무런 문제가 되지 않음을 알 수 있다.
따라서, 심리 음향 모델을 이용하지 않고도 양자화 잡음이 충분히 마스킹되어 음질 손상 없이 부호화가 가능하다는 것을 도 6에서 보여주고 있다.
상기 양자화부(15)는 이와 같이 각 서브밴드별로 비트가 할당되면, 각 서브밴드별로 할당된 비트에 따라 서브밴드별로 분할된 디지털 오디오 신호를 양자화시킨다.
상기 양자화된 디지털 오디오 신호는 상기 비트열 생성부(16)에 의해 부가 정보가 포함되는 프레임 비트열로 생성된다.
실제로, 다양한 음원에 대한 충분한 실험 결과, 본 발명에 따른 SMR 값과 종래의 SMR 값과의 차이는 도 5에 나타낸 바와 같이 서브밴드 10 내지 서브밴드 20 사이에서 최대 20dB 정도의 오차가 발생한다.
하지만, 이와 같은 오차는 그 오차가 주로 발생되는 서브밴드 10 내지 서브밴드 20 사이에 존재하는 본 발명에 의해 얻어진 SMR 값을 해당 오차만큼을 증폭시켜 줌으로써 간단히 해결될 수 있다.
따라서, 상기 비트 할당부(14)에서 비트를 할당하기 전에 각 서브밴드별로 산출된 SMR 중 서브밴드 10 내지 서브밴드 20 사이의 SMR값을 증폭시켜 줄 수 있다.
이와 같은 특정 서브밴드 구간에서의 SMR 값의 증폭은 반드시 수행할 필요는 없고 필요한 경우에 수행될 수 있다.
이상에서 살펴본 바와 같이, 본 발명의 디지털 오디오 부호화 방법 및 장치는 종래의 심리 음향 모델을 사용하지 않고, 직접 스케일 팩터와 절대 가청 임계치를 이용하여 SMR 값을 산출하고, 산출된 SMR 값을 이용하여 간단한 수식에 의해 비트를 할당함으로써, 종래에 심리 음향 모델과 반복적인 루프를 이용하여 비트 할당 방식에 따라 연산량이 증가되는 것을 방지하게 되어 이에 따른 하드웨어 비용을 크게 절감시킬 수 있을 뿐만 아니라 보다 고속으로 디지털 오디오 신호를 압축시킬 수 있는 효과가 있다.
일 예로, 본 발명에 따른 부호화 방법에 의하면, 범용 DSP에서 대략 10~20MIPS (스테레오 기준) 정도로 부호화가 가능하게 되는데, 이러한 연산량은 일 반적인 복호화기수준의 연산량에 해당되며, 80MIPS 정도가 요구되는 종래의 부호화기에 비해 월등히 적다.
따라서, 본 발명은 PVR(Personal Video Recorder)와 같이 높은 비트 율로 저장이 되는 응용 분야에서 구현이 용이하게 되고 나아가 수행시간이 대폭 줄어들어 하드웨어 비용이 크게 절감될 수 있다. 또한, 본 발명은 저전력 설계가 요구되는 휴대용 오디오 기기(예컨대, MP3 등)나 연산량이 극도로 많이 요구되는 다채널(3채널 이상) 오디오 기기 등에도 대략 종래의 30% 미만의 연산량만으로도 실시간 구현이 가능하게 된다.

Claims (15)

  1. 입력되는 디지털 오디오 신호를 고속 압축시키기 위한 디지털 오디오 부호화 방법에 있어서,
    상기 디지털 오디오 신호를 다수의 서브밴드로 분할하는 단계;
    상기 분할된 디지털 오디오 신호로부터 각 서브밴드의 스케일 팩터를 검출하는 단계;
    상기 검출된 스케일 팩터와 절대 가청 임계치를 이용하여 각 서브밴드의 신호 대 마스킹 비를 산출하는 단계;
    상기 산출된 신호 대 마스킹 비를 이용하여 서브밴드별로 비트를 할당하는 단계;
    상기 할당된 비트에 따라 상기 서브밴드별로 분할된 디지털 오디오 신호를 양자화하는 단계; 및
    상기 양자화된 디지털 오디오 신호에 부가 정보를 포함시키는 프레임 비트열을 생성하는 단계
    를 포함하는 디지털 오디오 부호화 방법.
  2. 제1항에 있어서, 상기 할당된 비트는 하기의 수학식에 의해 산출되는 것을 특징으로 하는 디지털 오디오 부호화 방법.
    bitalloc(sb)=[(SMR(sb)-목표 NMR)/6]
    단, (SMR(sb)-목표 NMR)/6을 a로 표현할 때, [a]는 a보다 작지 않은 최소 정수이고,
    bitalloc는 할당된 비트이고,
    SMR은 신호 대 마스킹 비이며,
    목표 NMR은 부호화 비트율에 따라 고정되는 상수 값임.
  3. 제1항에 있어서, 상기 각 서브밴드별로 할당된 비트의 총합을 상기 다수의 서브밴드로 이루어지는 프레임에 허용된 총 비트에서 소정 비트를 감산한 값과 비교하는 단계; 및
    상기 각 서브밴드별로 할당된 비트의 총합이 상기 프레임에 허용된 총 비트에서 소정 비트를 감산한 값과 일치하지 않는 경우, 상기 각 서브밴드별로 할당된 비트를 재할당하는 단계
    를 더 포함하는 디지털 오디오 부호화 방법.
  4. 제3항에 있어서, 상기 각 서브밴드별로 할당된 비트의 총합이 상기 프레임에 허용된 총 비트를 초과하는 경우, 상기 초과된 비트만큼 상기 각 서브밴드별로 할당된 비트에서 감산되는 것을 특징으로 하는 디지털 오디오 부호화 방법.
  5. 제3항에 있어서, 상기 각 서브밴드별로 할당된 비트의 총합이 상기 프레임에 허용된 총 비트보다 부족한 경우, 상기 부족한 비트만큼 상기 각 서브밴드별로 할 당된 비트에 가산되는 것을 특징으로 하는 디지털 오디오 부호화 방법.
  6. 제3항에 있어서, 상기 비트가 재할당되는 경우, 비트 감산시에는 높은 서브밴드로부터 그리고 비트 가산시에는 낮은 서브밴드로부터 수행되는 것을 특징으로 하는 디지털 오디오 부호화 방법.
  7. 제1항에 있어서, 각 서브밴드별로 산출된 신호 대 마스킹 비 중 소정 서브밴드 구간 내에 존재하는 신호 대 마스킹 비를 일정 정도 증폭시키는 단계
    를 더 포함하는 디지털 오디오 부호화 방법.
  8. 제7항에 있어서, 상기 서브밴드 구간은 서브밴드 10 내지 서브밴드 20 사이인 것을 특징으로 하는 디지털 오디오 부호화 방법.
  9. 입력되는 디지털 오디오 신호를 고속 압축시키기 위한 디지털 오디오 부호화 장치에 있어서,
    상기 디지털 오디오 신호를 다수의 서브밴드로 분할하기 위한 수단;
    상기 분할된 디지털 오디오 신호로부터 각 서브밴드의 스케일 팩터를 검출하기 위한 수단;
    상기 검출된 스케일 팩터와 절대 가청 임계치를 이용하여 각 서브밴드의 신호 대 마스킹 비를 산출하기 위한 수단;
    상기 산출된 신호 대 마스킹 비를 이용하여 서브밴드별로 비트를 할당하기 위한 수단;
    상기 할당된 비트에 따라 상기 서브밴드별로 분할된 디지털 오디오 신호를 양자화하기 위한 수단; 및
    상기 양자화된 디지털 오디오 신호에 부가 정보를 포함시키는 프레임을 생성하기 위한 수단
    을 포함하는 디지털 오디오 부호화 장치.
  10. 제9항에 있어서, 상기 비트 할당 수단은 상기 신호 대 마스킹 비와 목표 노이즈 대 마스킹 비의 차이를 소정 상수 값으로 나눈 값에 따라 비트를 할당하는 것을 특징으로 하는 디지털 오디오 부호화 장치.
  11. 제9항에 있어서, 상기 각 서브밴드별로 할당된 비트의 총합을 상기 다수의 서브밴드로 이루어지는 프레임에 허용된 총 비트에서 소정 비트를 감산한 값과 비교하기 위한 수단; 및
    상기 각 서브밴드별로 할당된 비트의 총합이 상기 프레임에 허용된 총 비트에서 소정 비트를 감산한 값과 일치하지 않는 경우, 상기 각 서브밴드별로 할당된 비트를 재할당하기 위한 수단
    을 더 포함하는 디지털 오디오 부호화 장치.
  12. 제11항에 있어서, 상기 각 서브밴드별로 할당된 비트의 총합이 상기 프레임에 허용된 총 비트를 초과하는 경우, 상기 초과된 비트만큼 상기 각 서브밴드별로 할당된 비트에서 감산되는 것을 특징으로 하는 디지털 오디오 부호화 장치.
  13. 제11항에 있어서, 상기 각 서브밴드별로 할당된 비트의 총합이 상기 프레임에 허용된 총 비트보다 부족한 경우, 상기 부족한 비트만큼 상기 각 서브밴드별로 할당된 비트에 가산되는 것을 특징으로 하는 디지털 오디오 부호화 장치.
  14. 제11항에 있어서, 상기 비트가 재할당되는 경우, 비트 감산시에는 높은 서브밴드로부터 그리고 비트 가산시에는 낮은 서브밴드로부터 수행되는 것을 특징으로 하는 디지털 오디오 부호화 장치.
  15. 제9항에 있어서, 각 서브밴드별로 산출된 신호 대 마스킹 비 중 서브밴드 10 내지 서브밴드 20 사이에 존재하는 신호 대 마스킹 비를 일정 정도 증폭시키기 위한 수단
    을 더 포함하는 디지털 오디오 부호화 장치.
KR1020030067457A 2003-09-29 2003-09-29 디지털 오디오 부호화 방법 및 장치 KR100590340B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030067457A KR100590340B1 (ko) 2003-09-29 2003-09-29 디지털 오디오 부호화 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030067457A KR100590340B1 (ko) 2003-09-29 2003-09-29 디지털 오디오 부호화 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20050031227A KR20050031227A (ko) 2005-04-06
KR100590340B1 true KR100590340B1 (ko) 2006-06-15

Family

ID=37236202

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030067457A KR100590340B1 (ko) 2003-09-29 2003-09-29 디지털 오디오 부호화 방법 및 장치

Country Status (1)

Country Link
KR (1) KR100590340B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5173840B2 (ja) * 2006-02-07 2013-04-03 エルジー エレクトロニクス インコーポレイティド 符号化/復号化装置及び方法

Also Published As

Publication number Publication date
KR20050031227A (ko) 2005-04-06

Similar Documents

Publication Publication Date Title
KR100269213B1 (ko) 오디오신호의부호화방법
JP3762579B2 (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
KR960012475B1 (ko) 디지탈 오디오 부호화장치의 채널별 비트 할당 장치
KR101265669B1 (ko) 코딩된 오디오의 경제적인 소리세기 측정
JP3278900B2 (ja) データ符号化装置及び方法
US20070016404A1 (en) Method and apparatus to extract important spectral component from audio signal and low bit-rate audio signal coding and/or decoding method and apparatus using the same
JP3336618B2 (ja) 高能率符号化方法及び高能率符号化信号の復号化方法
JP3186292B2 (ja) 高能率符号化方法及び装置
US20040162720A1 (en) Audio data encoding apparatus and method
JP3297240B2 (ja) 適応的符号化システム
JP2005338850A (ja) デジタル信号の符号化方法及び装置ならびに復号化方法及び装置
US7003449B1 (en) Method of encoding an audio signal using a quality value for bit allocation
JPH066236A (ja) 高能率符号化及び/又は復号化装置
US8149927B2 (en) Method of and apparatus for encoding/decoding digital signal using linear quantization by sections
JP2001343997A (ja) デジタル音響信号符号化装置、方法及び記録媒体
US7613609B2 (en) Apparatus and method for encoding a multi-channel signal and a program pertaining thereto
JPH0816195A (ja) ディジタルオーディオ符号化方法及び装置
KR100477701B1 (ko) Mpeg 오디오 인코딩 방법 및 mpeg 오디오 인코딩장치
US6128593A (en) System and method for implementing a refined psycho-acoustic modeler
KR100590340B1 (ko) 디지털 오디오 부호화 방법 및 장치
JP3465341B2 (ja) オーディオ信号符号化方法
Yen et al. A low-complexity MP3 algorithm that uses a new rate control and a fast dequantization
JP3297238B2 (ja) 適応的符号化システム及びビット割当方法
JP2000137497A (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
KR0138325B1 (ko) 오디오 신호 부호화 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100331

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee