KR960012475B1 - 디지탈 오디오 부호화장치의 채널별 비트 할당 장치 - Google Patents

디지탈 오디오 부호화장치의 채널별 비트 할당 장치 Download PDF

Info

Publication number
KR960012475B1
KR960012475B1 KR1019940000784A KR19940000784A KR960012475B1 KR 960012475 B1 KR960012475 B1 KR 960012475B1 KR 1019940000784 A KR1019940000784 A KR 1019940000784A KR 19940000784 A KR19940000784 A KR 19940000784A KR 960012475 B1 KR960012475 B1 KR 960012475B1
Authority
KR
South Korea
Prior art keywords
frame
channels
channel
value
frames
Prior art date
Application number
KR1019940000784A
Other languages
English (en)
Other versions
KR950024447A (ko
Inventor
김종일
Original Assignee
대우전자 주식회사
배순훈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 대우전자 주식회사, 배순훈 filed Critical 대우전자 주식회사
Priority to KR1019940000784A priority Critical patent/KR960012475B1/ko
Priority to EP94120948A priority patent/EP0663740A3/en
Priority to US08/367,521 priority patent/US5613035A/en
Priority to CN95101259A priority patent/CN1119376A/zh
Priority to JP7023465A priority patent/JP2908270B2/ja
Publication of KR950024447A publication Critical patent/KR950024447A/ko
Application granted granted Critical
Publication of KR960012475B1 publication Critical patent/KR960012475B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form

Abstract

요약없음

Description

디지탈 오디오 부호화장치의 채널별 비트 할당 장치
도면 1은 일반적인 디지탈 오디오 부호기를 개략적으로 도시한 블럭도.
도면 2는 본 발명에 따른 디지탈 오디오 부호화 장치의 채널별 비트 할당 장치를 도시한 블럭도.
도면 3은 도면 2에 도시된 각 채널에 대한 전체 프레임을 나타내는 1프레임군(1GOF)부를 나타내는 구성도.
도면 4는 본 발명의 인지 정보량(PE1)(X축)대 프레임 비트 할당 상태(Index)(Y축)을 도시한 그라프.
* 도면의 주요부분에 대한 부호의 설명
210 : 프레임군부210a~210c : 각 채널의 프레임군부
220 : 채널 및 프레임 인지 정보량 계산부
230 : 적응적 채널 및 프레임 비트 할당부
240 : 부호기 240a~240c : 각 채널의 부호기
250 : MUX
본 발명은 디지탈 오디오 부호기(digital audio coder)에 관한 것으로, 특히, 다수개의 채널로 입력되는 오디오 신호를 인간의 청각 특성에 의한 인지 정보량(perceptual entropy ; PE)에 따라 비트를 할당하는 디지탈 오디오 부호화 장치를 채널별 비트 할당 장치에 관한 것이다. 현재 실용화되어 있는 컴팩트 디스크(compact disk : CD) 및 디지탈 오디오 테이프 레코더(digital audio tape recoder : DAT) 등과 같은 음질 수준의 신호 재생을 목표로 개발중에 있는 고화질 텔레비젼(HDTV) 정보 전송 시스템에서는 비교적 좁은 6MHz의 전송선로를 통하여 영상 및 오디오 신호를 전송하여야 하기 때문에 영상신호에서와 마찬가지로 오디오 신호에 대해서도 효율적인 신호 압축기법이 요구되어 왔다. 이를 위하여 인간의 청각 특성을 반영하는 적응적 변환 부호화(adaptive transform coding) 기법을 이용하여 낮은 전송률에서 비교적 간단한 수신기로도 전술한 디지탈 오디오 기기 수준의 음질을 재생할 수 있는 HDTV용 고음질 디지탈 오디오 기술의 알고리즘 및 하드웨어 구현을 위해 활발히 연구되고 있다.
전술한 적응적 변환 부호화 기법으로서, 널리 알려진 디지탈 오디오 부호기의 선행기술이 제1도에 도시되는데, 이러한 전형적인 종래의 디지탈 오디오 부호기는 디지탈 오디오 신호를 입력하여 직교 대칭 필터(quadrature mirror filter : QMF)를 이용하여 1프레임(one frame)에 대해 저주파에서 고주파 영역으로 32개의 동일한 주파수 대역으로 대역 분할하는 대역분할 필터부(subband filter)(110)와, 역시 전술한 디지탈 오디오 신호를 입력하여 고속 퓨리어 변환(fast fourier transform ; FFT)을 통해 입력신호의 전력 스펙트럼(power spectrum)으로부터 1프레임 단위(one frame unit)로 인간의 청각 특성에 부합되는 파라메터(즉, 신호 대 마스킹 비율 : SMR)를 검출하는 심리 음향 모델부(psychoacoustic model part)(120)를 포함한다. 또한, 디지탈 오디오 부호기는 전술한 대역 분할필터부(110)에서 주파수 대역별로 분할한 32개의 동일 주파수 대역에 대해 심리 음향 모델부(120)에서 검출한 청각 특성 파라메터(즉, 신호 대 마스킹비 : SMR)를 이용하여 각각 적응적으로 비트를 할당하고, 이 할당된 비트에 응답하여 각 대역을 압축 부호화하는 비트 할당 및 양자화부(130)와, 전술한 비트를 할당 및 양자화부(130)에서 제공되는 양자화 샘플들과 심리 음향 모델부(120)에서 제공되는 SMR을 입력하여 전송선로의 상태, 저장 매체의 특성, 부호기의 복잡도, 사용자의 요구 등에 따라 선택적으로 오디오 서비스를 제공받을 수 있도록 계층(layer) 구조로 포맷팅(formatting)하는 비트 스트림 포맷팅부(140)를 포함한다.
전술한 형태로 구성된 전형적인 종래의 디지탈 오디오 부호기는 32개의 동일 분할 대역으로 포함하는 한 프레임에서 전술한 바와같이 각 프레임의 청각 특성에 따라 각 대역에 가변적으로 비트를 할당하여 양자화하는 식으로 부호화를 수행하였다. 즉, 오디오 신호의 시간적 변화에 대한 매 프레임들마다 일정한 비트(예를 들면, MPEG에서 제안한 HDTV의 오디오 섹션에서는 1프레임을 3072비트로 설정함)를 사전에 설정하여 비트를 할당하여 부호화를 행하였다.
전술한 바와같이, 선행기술의 디지탈 오디오 부호화 장치에 있어서 부호화 방식은 각 프레임의 중요도에 따라 적응적으로 비트를 할당하여 부호화를 행하지 않고 단지 인간의 청각 특성을 이용하여 각 프레임 적응적으로 비트를 할당하며, 또한 각 프레임마다 일률적으로 중요도를 설정하여 부호화 하므로써, 즉 각 프레임마다의 신호 특성을 전혀 고려치 않고 부호화하여, 고음질을 실현하는데 어느 정도 한계가 있었다.
또한, 다수개의 채널, 예를 들어 3개의 채널 좌측(L) 및 우측(R) 채널 및 센터 채널을 갖는 스테레오 디지탈 오디오 부호화 장치에 있어서, 각 채널에 비트를 할당하는 종래의 방법으로는 L 및 R의 각 채널을 각기 독립적으로 부호화하는 방식, L채널이나 R채널을 기준채널로 하여 오디오 신호의 크기 정보(scale factor)를 기준채널과 비교하여 그 차이가 크면 나머지 채널의 크기 정보를 별도로 전송하거나 또는 그 차가 비슷하면 크기 정보를 공유하여 하나 혹은 두개의 크기 정보만을 송신하여 데이타 압축의 효율을 증대시키는 부호화 방식이 있다. 그러나 이러한 부호화 방식들은 단순히 크기정보에 대한 스테레오 채널의 상관성(correlation)을 이용하므로 정보압축을 하는데 한계가 있고, 실제적으로 얻는 이득 즉, 크기정보를 각 채널별로 독립적으로 전송하는 대신, 한개 또는 두개의 크기정보를 전송하므로 비트감축량이 그다지 크지 않아 부호화 효율의 증대 및 고음질을 실현하는데 어려움이 있었다. 따라서, 본 발명의 주목적은 다수개의 채널 및 각 채널의 프레임에 대한 인간의 청각 특성을 이용하여 측정한 인지 정보량에 응답하여 다수개의 채널 및 프레임에 적응적으로 비트를 할당하여 부호화하므로서 압축 효율을 증대시킨 디지탈 오디오 부호화 장치의 채널별 비트 할당 장치를 제공하는데 있다.
전술한 목적을 달성하기 위해 본 발명은, 다수개 채널로 각기 입력되는 다수개의 프레임을 가지는 프레임군(group of frame ; GOF)의 디지탈 오디오 신호에 대한 인간의 인지 정보량에 응답하여 상기 다수개의 채널 및 상기 채널의 프레임에 대해 적응적으로 비트를 할당하여 부호화하는 것에 관한 것으로, 상기 다수개의 프레임을 가진 프레임군의 오디오 신호를 각기 입력하여 상기 채널 및 상기 채널의 프레임에 대한 인지 정보량(perceptual entropy)을 산출하는 채널 및 프레임 인지 정보량 계산부와 ; 상기 채널 및 프레임 인지 정보량 계산부(220)에서 얻은 다수개의 채널 및 각 채널의 프레임에 대한 인지 정보량에 응답하여 상기 다수개의 채널 및 각 채널의 프레임에 적응적으로 비트를 할당하는 적응적 채널 및 프레임 비트 할당(adaptive channel and frame bit allocatiom)부와 ; 상기 다수개의 채널로 입력되는 각 채널의 다수개의 프레임 오디오 신호를 상기 각 채널 및 각 채널의 프레임에 할당된 비트를 적용하여 부호화하는 부호기를 포함한다. 이하에서는 도면을 참조하여 본 발명의 바람직한 실시예가 상세하게 설명된다.
도면 2는 본 발명에 따른 디지탈 오디오 부호화 장치의 채널별 비트 할당 장치를 도시한 블럭도로서, 다수개 채널에 대한 프레임군부(210), 채널 및 프레임 인지 정보량 계산부(220), 적응적 채널 및 프레임 비트 할당부(230), 제1도에 도시된 알려진 부호기(240) 및 다중화(MUX)부(250)를 포함한다. 이러한 장치들을 포함하는 디지탈 오디오 부호화 장치에 의해서 입력되는 각 채널에 대해 소정의 프레임으로 이루어지는 프레임군의 디지탈 오디오 신호를 각 채널 및 프레임의 오디오 신호를 인간의 청각 특성을 이용하여 측정한 인지 정보량에 의해 비트를 적응적으로 할당하여 부호화하므로써 부호화 효율을 증대시키고 음질을 향상시킬 수가 있게 된다.
다수개의 채널(1,2,…,L) 프레임군부(210a~210c)를 가지는 프레임군(GOF)(210)부는 다수개 채널로 입력되는 디지탈 오디오 신호를 각 채널의 GOF 및 각 프레임의 인지 정보량을 산출하기 위해 복수개(예를들면, M개, 여기서, M은 1프레임군내의 프레임 갯수를 나타냄)의 프레임을 가진 프레임군 단위로 데이타를 분류하여 부호기(240)와 채널 및 프레임 인지 정보량 계산부(220)로 각각 제공한다.
도면 3를 참조하면, 도면 3은 전술한 다수개 채널에 대한 전체 프레임, 즉 GOF 구성을 나타낸 것이다. 도시된 바와같이, 한 프레임은 N개(여기서, N은 양의 정수)의 샘플(sample)로 이루어지며, 통상 10msec 내지 약 40msec 단위로 이루어진다. 또한, 도시된 바와같이 각 채널의 1GOF는 M개의 프레임으로 이루어지므로 전체 채널의 1GOF는 N×LM(여기서 L은 양의 정수로서 채널수를 나타냄)개의 샘플로 구성된다. 여기서, N값은 비디오 카메라(camera)(도시안됨)로부터 입력되는 영상 신호의 부호화 및 복호화 과정에서 필연적으로 발생되는 지연(delay) 시간을 이용하여 10msec 내지 40msec 단위로 구성할 수 있고, M값은 부호화 및 복호화(codec)의 지연시간에 의해 결정된다.
다시 도면 2를 참조하면, 채널 및 프레임 인지 정보량 계산부(220)는 영상 신호의 부호화 및 복호화 과정을 지연 시간 동안 오디오 신호를 분석하여 인간의 청각 특성에 부합되는 인지 정보량을 산출하므로써, 후술하는 적응적 채널 및 프레임 비트 할당부(230)에서 각 프레임마다 비트 할당량을 달리하므로써 부호화 효율을 증가시키며 음질을 향상시킬 수 있다.
이러한 채널 및 프레임 인지 정보량 계산부(220)는 N개의 샘플들로 이루어진 한 프레임의 유한 디지탈 오디오 신호원, 즉, x(n)의 전력 밀도 스펙트럼(Sxx(w))에 의해 인간의 청각 특성을 이용하여 마스킹 문턱치(masking threshold)(M(w))를 구하고, 그 다음, 다음과 같은 식에 의해 인지 정보량을 얻을 수가 있다.
예컨데, 먼저, 한 프레임의 유한 디지탈 오디오 신호원 x(n)에 대한 근사적인 전력 밀도 스펙트럼(power density spectrum ; PDS)(Sxx(w))은 [수식 1]에 의해 구한다.
즉,
[수식 1]
또한, 전술한 M(w)는 Sxx(w)의 전력 밀도 스펙트럼을 갖는 신호에 대하여 소정의 주파수 성분에서 인간의 귀로서는 감지할 수 없는 영역의 전력 값에 해당하므로, 소정의 주파수 성분에 대하여 M(w) 이하의 오차값으로 신호를 재생하면 귀로서는 그 영역을 감지할 수 없게 되므로, 그 영역, 즉, 오차 신호의 전력밀도스펙트럼(See(w))을 구하기 위해, 부호기의 입력 신호를 x(n), 출력신호를 y(n)이라 하고, 먼저, 오차 신호 e(n)을 다음 [수식 2]에 의해 구한다.
[수식 2]
e(n)=x(n)-Y(n)
그 다음, N개의 유한 신호원에 대한 See(w)를 M(w)로 대치하여 인간의 귀로서 오차를 감지할 수 없도록 신호 x(n)을 전송하기 위한 인지 정보량(RPE)은 다음 [수식 3]에 의해 구한다.
[수식 3]
한편 , 마스킹 문턱치 M(w)가 매 프레임마다 동일하고 무한개의 주파수 대역을 갖는 대역 분할 부호기를 이용하는 경우, 이론적으로 실현가능한 최소 비트 전송률은 전술한 [수식 3]에 의해 얻어진 값이다.
그러나, 실제의 오디오 데이타에 대하여 부호기를 구성하는 경우, N개의 샘플을 가진 한 프레임 시간 영역 신호마다 각각의 청각 파라메터를 분석한 후 이에 맞도록 대역 분할된 각 주파수 구간마다 양자화 수준을 달리 이용하여, N개의 샘플마다 변화하는 청각 파라메터를 전송해야 하므로, 실질적으로 필요한 비트 전송률은 전술한 [수식 3]에 의해 산출된 인지 정보량 보다 크게 될 것이다.
예컨대, 입력 신호 x(n)을 L개(여기서, L은 양의 정수)의 균일한 대역 폭을 갖는 주파수 대역으로 분할하여 부호화하는 경우, i번째 주파수 대역의 전력 밀도 스펙트럼 Sxx(i) 및 마스킹 문턱치 M(i)는 다음과 같은 [수식 4 및 5]에 의해 근사적으로 구할 수 있다.
즉,
[수식 4]
여기서,
(여기서 π는 3.141597의 상수값을 의미한다.)
이며,
Ri는 i번째 분할 대역에 해당하는 주파수 영역이고, Sxx(Wj)는 N포인트 이산 퓨리어 변환(discrete fourier transform : DFT)에 있어서 j번째 주파수 성분의 전력 밀도 스펙트럼에 해당하는 값이다.
또한,
[수식 5]
여기서, M(i)는 i번째 분할 대역에 속하는 마스킹 문턱치값 M(w)중 최소값을 나타낸다.
예를들어, 1024 포인트 DFT(즉, L=1024)를 이용하여 전력 밀도 스펙트럼을 구한 후, 32개의 주파수 대역(즉, L=32)으로 분할하는 경우, 인지 정보량 RPE는 다음과 같은 [수식 6]에 의해 구할 수 있다.
즉,
[수식 6]
여기서,
다음으로, 다수개 채널에 대해 전체 프레임을 나타내는 1GOF의 인지 정보량을 계산하기 위한 개념을 설명한다.
N개의 샘플로 구성된 i(여기서, i는 0보다 크고 프레임 수 보다는 작은 양의 정수)번째 프레임의 오디오 데이타에 대하여 전력 밀도 스펙트럼 및 마스킹 문턱치를 이용하여 전술한 식(6)에 의해 인지 정보량 PE1를 구하고, 그 다음 LM개의 프레임을 갖는 1프레임군에 대한 평균 인지 정보량 PEm및 전술한 각 PEm에 대한 PE1의 변화량을 나타내는 표준 편차 PEstd를 [수식 7 및 8]에 의해 구한다.
즉,
[수식 7]
[수식 8]
적응적 채널 및 프레임 비트 할당부(230)는 채널 및 프레임 인지 정보량 계산부(220)에서 구한 1GOF 내의 각 프레임에 대한 인지 정보량을 제공받아 후술하는 기법에 의해 각 채널 및 프레임마다 적응적으로 비트량을 할당하여 전술한 다수개 채널에 대응하는 부호기(240a~240c)를 가지는 부호기(240)에 제공한다.
이하에서는 채널 및 프레임 인지 정보량 계산부(220)에서 얻은 다수개의 채널 및 프레임에 대한 인지 정보량에 의해 가변적으로 비트를 할당하는 방법에 대해 상세하게 설명된다.
도면 4 참조하면, 도면 4는 전술한 바와같이 다수개의 채널에 대한 총 LM개의 프레임으로 구성된 1GOF내의 i번째 프레임에 대한 인지 정보량을 PE1라 하고, 1GOF의 평균 인지 정보량을 PEm이라 할 때, 인지 정보량 X1에 따른 프레임 비트 할당 상태(Index)를 나타낸 그라프이다.
여기서 δ한 프레임(GOF)에서 [수식 7, 8]에 의하여 구한 PEm및 PEstd값의 분포에 따라 결정되는 가중치이다.
예를 들어 M=4인 경우에 적용된 가중치(δ)는 전술한 [수식 7 및 8]을 통해 구한 PEm및 PEstd에 대한 실험 결과를 참조하면 다음[표 1]과 같이 얻을 수 있다.
[표 1]
(여기서 (x, y)의 기호는 0의 값이 x0<y인 경우를 의미한다.)
즉, PEm이 0~0.63이고, PEstd가 0~0.125인 경우에는 δ는 10이며, 그와 다른 값들에 대해서도 전술한 표 1을 참조하면 PEm및 PESTD값을 이용하여 δ값을 얻을 수 있을 것이다. 그리고, 전술한 [표 1]에 근거하여 구한 가중치(δ)와 X1관계를 나타내는 [수식 9]에 의해 결정 구간(D1)를 구할 수 있다.
[수식 9]
여기서, i와 -q와 q 사이의 정수 값이고 D1는 결정 구간(desion level)값이다.
[수식 9]에서 알 수 있듯이 결정 구간(D1)의 값은 인지 정보량의 평균(PEm)과 표준 편차(PEstd)의 함수이며 가중치 값(δ)에 해당한다. 이 가중치 값(δ)이 크게되면 결정 구간(D1)의 값이 커지며, 반대의 경우가 작아진다.
[표 1]에서 인지 정보량의 평균(PEm)이 작고 표준 편차(PEstd)가 큰 경우에는 GOF내에서 인지 정보량의 변화가 큰 경우이므로 가중치 값(δ)이 매우 작음을 알 수 있다. 반대의 경우에는 즉, 인지 정보량의 평균(PEm)이 크고 표준 편차(PEstd)가 작은 경우에는 GOF내에서 인지 정보량의 변화가 작은 경우이므로 가중치 값(δ)이 매우 크게 된다.
또한, sign(i)는 다음과 같은 조건을 가정한다.
sing(i)=1 if(i>0)
sing(i)=-1 if(i<0)
sing(i)=0 if(i=0)
또한, δ값은 1GOF에 대한 전체 LM개의 PE1의 값을 전술한 [수식 7 및 8]에 의해 구한 PEm및 PEstd값에 따라 결정되는 가중치이다.
GOF내의 인지 정보량에 대한 평균값(PEm)과 표준편차(PEstd)를 이용하여 가중치(δ)의 값을 표 1)를 통하여 결정한 후 식 9)를 이용하여 결정 구간(D1)의 값을 계산한다.
결정 구간(D1)의 값은 q의 값에 따라 그 개수가 결정되는데 만일 q의 값이 4인 경우에는 -4에서 4 사이의 정수값(i)에 대하여 9개의 결정 구간(D1)이 [수식 9]에 의하여 계산된다.
예를 들어 인지 정보량의 평균값(PEm)이 1이고 표준편차(PEstd)가 0.15인 경우 GOF가 2개의 프레임으로 구성되어 인지 정보량의 값이 0.8, 1.3인 경우에는 [표 1]에서 가중치의 값이 2값을 갖는다. 이 경우 q의 값이 2라 가정하면 i값은 -2와 2 사이의 정수값으로 -2, -1, 0, 1, 2의 값을 갖는다. 이 값에 따라 결정 구간(D1)값을 계산하면 다음과 같다.
D-2의 값은 [수식 9]를 이용하면 평균값(PEm)의 값이 1이라 가정하였으므로 1+[2×{-2-(-1)}+(-1)]×2/2=-2이고 D-1값은 0값이 된다. 같은 방법으로 모든 i값에 대하여 결정 구간(D1)의 값을 구할 수 있다. 이렇게 구한 결정 구간(D1)의 값을 이용하여 GOF내의 각 프레임에 비트를 할당하는 과정은 다음과 같다.
GOF가 2개의 프레임으로 구성된다면(도면 3에서 M=2인 경우), 상술한 예에서 인지 정보량의 값이 0.8, 1.3인 경우, 평균(PEm)과 표준 편차(PEstd)의 값이 각각 1, 0.15이다. 이와 같은 2개의 프레임에 대하여 표 1)을 이용하여 가중치(δ)를 구하고, 이 가중치(δ)를 이용하여 결정 구간(D1)의 값을 [수식 9]를 이용하여 구한다. 이 값은 상술한 예에서 설명한 바와 같다.
상술한 예에서는 q의 값이 2인 경우이므로 결정 구간의 값이 D-2에서 D2까지의 값이 각각 -2, 0, 1, 2, 4로 [수식 9]를 이용하여 계산된다. 이 결정 구간(D1)은 비트 할당을 위한 인덱스 값을 구하는데 이용된다. 이와 같은 결정 구간(D1)을 이용하여 비트를 할당하는 과정은 다음과 같다.
두 프레임에 대한 인지 정보량이 X1, X2라 하면 X1, X2의 값이 위에서 구한 결정 구간(D1)의 어느 부분에 해당하는지를 조사한다. X1의 값이 0.8이면 이 값은 결정 구간(D1)의 0에서 1 사이에 있으므로 인덱스의 값은 -1이고, X2의 값이 1.3인 프레임은 결정 구간(D1) 1에서 2 사이에 있으므로 인덱스의 값은 1이 된다. 이와 같이 인덱스의 값을 구한 후에는 기설정된 비트 할당 값으로부터 인덱스의 값을 이용하여 해당하는 비트 할당을 수행하는 것이다. 이와 같은 과정을 수식으로 표현하면 다음과 같다.
[수식 10]
if(D1-1<=Xi<Dj) 인덱스=j
상기 [수식 13]에서 Dj는 [수식 9]에서 구한 결정 구간의 값이고 Xi는 i번째 프레임의 인지 정보량 값에 해당한다. 또한, j는 -q에서 q 사이의 정수값이고 i는 GOF내의 프레임을 지칭하는 값이다. 즉, 위에서 프레임이 2개로 구성되는 GOF의 경우에는 i값이 1과 2값을 갖는다. 이와 같이 구한 인덱스의 값을 이용하여 프레임 비트를 할당하는 과정은 [표 2]에서 기술한 바와 같다.
[표 2]에서는 q의 값이 4인 경우를 예로 든 것이며, 이때, GOF내의 각 인지 정보량에 해당하는 인덱스(index)의 값에 따라 할당되는 비트는 [표 2]에서와 같이 프레임 비트가 결정된다. 이 과정은 본 발명을 실시하는 예를 든 것이므로 q의 값이 다른 값이거나 혹은 평균 프레임 비트의 값이 [표 2]와 다른 경우에는 할당되는 비트가 다를 수 있다. 그러나, 본 발명의 요지는 인지 정보량을 프레임 단위로 구한 후 GOF 단위로 분석하여 인지 정보량의 평균(PEm)과 표준 편차(PEstd)를 구한 후 이 값으로부터 상술한 바와 같이 인덱스를 결정하는 과정에 해당한다. 이 과정은 인간의 청각 특성을 이용하여 프레임 단위로 비트를 할당하는 과정인 것이다.
[표 2]
(단위, Frame Bit : Bit/Frame, Bit Rate : K Bit/sec)
즉, [표 2]를 참조하면, Index가 0인 경우, 즉, 1152샘플로 구성되는 프레임 단위로 초당 128kbps의 정보 전송률로 신호처리되는 경우, 1프레임에 할당하는 프레임 비트수는 3072로서, MPEG의 오디오 섹션에서 제안하는 비트수가 할당되고, Index가 4인 경우, 프레임 비트수는 평균치를 훨씬 초과하는 반면에, Index가 -4인 경우의 프레임 비트수는 평균치보다 훨씬 적게 할당됨을 알 수 있을 것이다.
다시 도면 2을 참조하면, 부호기(240)는 도면 1을 참조하여 상세하게 설명된 전술한 부호기와 동일하게 구성되어 동작하는 것으로, 그의 출력들은 다중화부(250)에 접속된다. 다중화부(250)는 부호기(240a 내지 240c)에서 제공되는 오디오 데이타와 작응적 채널 및 프레임 비트 할당부(240)에서 제공되는 다수개의 채널 및 프레임에 대해 할당된 비트를 다중화하여 채널(Channel) 특성에 적합하도록 비트 스트림으로 변환하여 출력한다.
즉, 본 발명은 상술한 바와 같이 각각의 프레임에 비트가 할당되면 이 값을 이용하여 해당하는 프레임을 부호화 한다. 이와 같이 할당된 비트를 이용하면 인간의 청각 특성에 부합되는 적응 프레임 비트 할당 과정이 되는 것이다. 이 할당된 비트를 이용하여 기존의 MPEG-1 오디오 부호화기를 적용하면 이후의 과정은 종래의 기술과 동일한 방법을 이용할 수 있게 된다. 단자, 종래의 기술에서는 각 프레임에 동일한 비트를 할당하므로써 프레임 각각의 청각적인 중요도를 고려하지 않았으므로 부호화 효율이 떨어지게 된다. 그러나, 본 발명에서는 인간의 청각적인 중요도를 이용하여 프레임 비트 할당을 수행하므로써 동일한 정보 비트 전송율로 음질이 나은 부호화기를 구현할 수 있는 것이다.
이상에서 설명한 본 발명에 따른 다수개의 채널 및 프레임에 적응적으로 비트 할당하여 부호화하는 디지탈 오디오 부호화 장치에 의하면, 다수개의 채널 및 프레임에 대한 인지 정보량의 평균 및 분산값(또는 표준 편차)에 응답하여 채널 및 각 프레임에 적응적으로 비트를 할당하여 부호화하므로써 부호화 효율을 증대시키고, 음질을 향상시키는 커다란 장점이 있다.

Claims (1)

  1. 다수개의 채널(210a), (210b), (210c)로 각기 입력되는 다수개의 프레임을 가진 프레임군(group of frame : GOF)의 디지탈 오디오 신호에 대한 인간의 인지 정보량에 응답하여 상기 다수개의 채널 및 상기 채널의 프레임에 대해 적응적으로 비트를 할당하여 부호화하는 것으로, 상기 다수개의 프레임을 가진 프레임군의 오디오 신호를 각기 입력하여 상기 채널(210a,210b,210c) 및 상기 채널 (210a, 210b, 210c)의 프레임에 대한 인지 정보량(perceptual entropy)을 산출하는 채널 및 프레임 인지 정보량 계산부(220)와 ; 상기 채널 및 프레임 인지 정보량 계산부(220)에서 얻은 다수개의 채널(210a), (210b), (210c) 및 각 채널의 프레임에 대한 인지 정보량에 응답하여 상기 다수개의 채널(210a), (210b), (210c) 및 각 채널의 프레임에 적응적으로 비트를 할당하는 적응적 채널 및 프레임 비트 할당(adaptive channel and frame bit allocation)부(230)와 ; 상기 다수개의 채널(210a), (210b), (210c)로 입력되는 각 채널(210a), (210b), (210c)의 다수개의 프레임 오디오 신호를 상기 각 채널(210a), (210b), (210c) 및 각 채널(210a), (210b), (210c)의 프레임에 할당된 비트를 적용하여 부호화하는 부호기(240)를 포함하는 디지탈 오디오 부호화 장치의 채널별 비트 할당 장치.
KR1019940000784A 1994-01-18 1994-01-18 디지탈 오디오 부호화장치의 채널별 비트 할당 장치 KR960012475B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1019940000784A KR960012475B1 (ko) 1994-01-18 1994-01-18 디지탈 오디오 부호화장치의 채널별 비트 할당 장치
EP94120948A EP0663740A3 (en) 1994-01-18 1994-12-30 Apparatus for adaptively encoding input digital audio signals from a plurality of channels
US08/367,521 US5613035A (en) 1994-01-18 1994-12-30 Apparatus for adaptively encoding input digital audio signals from a plurality of channels
CN95101259A CN1119376A (zh) 1994-01-18 1995-01-16 对来自多个信道的输入数字音频信号自适应编码的装置
JP7023465A JP2908270B2 (ja) 1994-01-18 1995-01-18 適応的符号化システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019940000784A KR960012475B1 (ko) 1994-01-18 1994-01-18 디지탈 오디오 부호화장치의 채널별 비트 할당 장치

Publications (2)

Publication Number Publication Date
KR950024447A KR950024447A (ko) 1995-08-21
KR960012475B1 true KR960012475B1 (ko) 1996-09-20

Family

ID=19375804

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019940000784A KR960012475B1 (ko) 1994-01-18 1994-01-18 디지탈 오디오 부호화장치의 채널별 비트 할당 장치

Country Status (5)

Country Link
US (1) US5613035A (ko)
EP (1) EP0663740A3 (ko)
JP (1) JP2908270B2 (ko)
KR (1) KR960012475B1 (ko)
CN (1) CN1119376A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7382886B2 (en) 2001-07-10 2008-06-03 Coding Technologies Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
US9431020B2 (en) 2001-11-29 2016-08-30 Dolby International Ab Methods for improving high frequency reconstruction
US9542950B2 (en) 2002-09-18 2017-01-10 Dolby International Ab Method for reduction of aliasing introduced by spectral envelope adjustment in real-valued filterbanks
US10297261B2 (en) 2001-07-10 2019-05-21 Dolby International Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970011727B1 (en) * 1994-11-09 1997-07-14 Daewoo Electronics Co Ltd Apparatus for encoding of the audio signal
KR0144011B1 (ko) * 1994-12-31 1998-07-15 김주용 엠펙 오디오 데이타 고속 비트 할당 및 최적 비트 할당 방법
JP2820117B2 (ja) * 1996-05-29 1998-11-05 日本電気株式会社 音声符号化装置
TW384434B (en) 1997-03-31 2000-03-11 Sony Corp Encoding method, device therefor, decoding method, device therefor and recording medium
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
US6005893A (en) * 1997-09-23 1999-12-21 Telefonaktiebolaget Lm Ericsson Reduced complexity bit allocation to subchannels in a multi-carrier, high speed data transmission system
DE19742655C2 (de) * 1997-09-26 1999-08-05 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals
KR100361883B1 (ko) 1997-10-03 2003-01-24 마츠시타 덴끼 산교 가부시키가이샤 오디오신호압축방법,오디오신호압축장치,음성신호압축방법,음성신호압축장치,음성인식방법및음성인식장치
KR100335611B1 (ko) 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
TW477119B (en) * 1999-01-28 2002-02-21 Winbond Electronics Corp Byte allocation method and device for speech synthesis
IL134182A (en) 2000-01-23 2006-08-01 Vls Com Ltd Method and apparatus for visual lossless pre-processing
US6753929B1 (en) 2000-06-28 2004-06-22 Vls Com Ltd. Method and system for real time motion picture segmentation and superposition
US6744818B2 (en) * 2000-12-27 2004-06-01 Vls Com Ltd. Method and apparatus for visual perception encoding
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7079633B2 (en) * 2002-01-15 2006-07-18 Howard Leventhal Coding a masked data channel in a radio signal
CN1233163C (zh) * 2002-08-21 2005-12-21 中山正音数字技术有限公司 多声道数字音频信号的压缩编码和解码设备及其方法
CN100349207C (zh) * 2003-01-14 2007-11-14 北京阜国数字技术有限公司 高频耦合的伪小波5声道音频编/解码方法
US7212666B2 (en) * 2003-04-01 2007-05-01 Microsoft Corporation Generating visually representative video thumbnails
JP2004309921A (ja) * 2003-04-09 2004-11-04 Sony Corp 符号化装置、符号化方法及びプログラム
GB2398191B (en) * 2004-03-10 2004-12-22 David Asher Jaffa Adaptive quantiser
EP1852851A1 (en) * 2004-04-01 2007-11-07 Beijing Media Works Co., Ltd An enhanced audio encoding/decoding device and method
EP1873753A1 (en) * 2004-04-01 2008-01-02 Beijing Media Works Co., Ltd Enhanced audio encoding/decoding device and method
US7903902B2 (en) 2004-07-26 2011-03-08 Sheraizin Semion M Adaptive image improvement
US7639892B2 (en) * 2004-07-26 2009-12-29 Sheraizin Semion M Adaptive image improvement
JP4639073B2 (ja) * 2004-11-18 2011-02-23 キヤノン株式会社 オーディオ信号符号化装置および方法
US7526142B2 (en) * 2005-02-22 2009-04-28 Sheraizin Vitaly S Enhancement of decompressed video
US7885809B2 (en) * 2005-04-20 2011-02-08 Ntt Docomo, Inc. Quantization of speech and audio coding parameters using partial information on atypical subsequences
US7630882B2 (en) 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US7562021B2 (en) 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
US8190425B2 (en) 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
US7953604B2 (en) 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US7831434B2 (en) 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
US7761290B2 (en) 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US8046214B2 (en) 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8249883B2 (en) 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
CN104282311B (zh) * 2014-09-30 2018-04-10 武汉大学深圳研究院 一种音频编码带宽扩展中子带划分的量化方法及装置
US10666289B1 (en) 2019-01-16 2020-05-26 International Business Machines Corporation Data compression using dictionary encoding

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2389277A1 (fr) * 1977-04-29 1978-11-24 Ibm France Procede de quantification a allocation dynamique du taux de bits disponible, et dispositif de mise en oeuvre dudit procede
US4455649A (en) * 1982-01-15 1984-06-19 International Business Machines Corporation Method and apparatus for efficient statistical multiplexing of voice and data signals
CA1253255A (en) * 1983-05-16 1989-04-25 Nec Corporation System for simultaneously coding and decoding a plurality of signals
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
US5230038A (en) * 1989-01-27 1993-07-20 Fielder Louis D Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
US5539829A (en) * 1989-06-02 1996-07-23 U.S. Philips Corporation Subband coded digital transmission system using some composite signals
US5367608A (en) * 1990-05-14 1994-11-22 U.S. Philips Corporation Transmitter, encoding system and method employing use of a bit allocation unit for subband coding a digital signal
KR100263599B1 (ko) * 1991-09-02 2000-08-01 요트.게.아. 롤페즈 인코딩 시스템
US5331414A (en) * 1991-12-23 1994-07-19 Intel Corporation Method and apparatus for encoding a digital motion video signal using pyramid specific filtering
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
JP2976701B2 (ja) * 1992-06-24 1999-11-10 日本電気株式会社 量子化ビット数割当方法
DE4222623C2 (de) * 1992-07-10 1996-07-11 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern von digitalisierten Tonsignalen

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10297261B2 (en) 2001-07-10 2019-05-21 Dolby International Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
US8014534B2 (en) 2001-07-10 2011-09-06 Coding Technologies Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
US8059826B2 (en) 2001-07-10 2011-11-15 Coding Technologies Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
US8073144B2 (en) 2001-07-10 2011-12-06 Coding Technologies Ab Stereo balance interpolation
US8081763B2 (en) 2001-07-10 2011-12-20 Coding Technologies Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
US8116460B2 (en) 2001-07-10 2012-02-14 Coding Technologies Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
US8243936B2 (en) 2001-07-10 2012-08-14 Dolby International Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
US9218818B2 (en) 2001-07-10 2015-12-22 Dolby International Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
US7382886B2 (en) 2001-07-10 2008-06-03 Coding Technologies Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
US10902859B2 (en) 2001-07-10 2021-01-26 Dolby International Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
US10540982B2 (en) 2001-07-10 2020-01-21 Dolby International Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
US9431020B2 (en) 2001-11-29 2016-08-30 Dolby International Ab Methods for improving high frequency reconstruction
US10403295B2 (en) 2001-11-29 2019-09-03 Dolby International Ab Methods for improving high frequency reconstruction
US11238876B2 (en) 2001-11-29 2022-02-01 Dolby International Ab Methods for improving high frequency reconstruction
US10157623B2 (en) 2002-09-18 2018-12-18 Dolby International Ab Method for reduction of aliasing introduced by spectral envelope adjustment in real-valued filterbanks
US9542950B2 (en) 2002-09-18 2017-01-10 Dolby International Ab Method for reduction of aliasing introduced by spectral envelope adjustment in real-valued filterbanks

Also Published As

Publication number Publication date
US5613035A (en) 1997-03-18
KR950024447A (ko) 1995-08-21
EP0663740A3 (en) 1998-08-19
JP2908270B2 (ja) 1999-06-21
EP0663740A2 (en) 1995-07-19
CN1119376A (zh) 1996-03-27
JPH0851366A (ja) 1996-02-20

Similar Documents

Publication Publication Date Title
KR960012475B1 (ko) 디지탈 오디오 부호화장치의 채널별 비트 할당 장치
JP2756515B2 (ja) 可聴信号の知覚符号化方法および音声信号伝送方法
KR970007661B1 (ko) 스테레오포닉 오디오 신호의 입력세트 코딩방법
KR100388730B1 (ko) 고능률부호화및복호화장치
JP4925671B2 (ja) デジタル信号の符号化/復号化方法及びその装置並びに記録媒体
JP3297240B2 (ja) 適応的符号化システム
WO2019170955A1 (en) Audio coding
KR0134318B1 (ko) 채널간의 마스킹특성을 고려한 비트할당장치 및 그 방법과 복호화장치
US20010047256A1 (en) Multi-format recording medium
JP3395001B2 (ja) ディジタルオーディオ信号の適応的符号化方法
KR20030085521A (ko) 디지털 음성 데이터의 부호화 방법 및 복호화 방법
JPH06242797A (ja) 変換符号化装置のブロックサイズ決定法
US6463405B1 (en) Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband
EP0734019A1 (en) Information processing method, information processing device and media
KR960012476B1 (ko) 디지탈 오디오 부호화 장치의 프레임별 비트 할당장치
KR960012473B1 (ko) 스테레오 디지탈 오디오 부호화 장치의 비트 할당 장치
KR960003453B1 (ko) 채널 및 각 프레임에 적응적으로 비트 할당하여 부호화하는 스테레오 디지탈 오디오 부호화장치
KR960003454B1 (ko) 적응적 스테레오 디지탈 오디오 부호화장치
JP3297238B2 (ja) 適応的符号化システム及びビット割当方法
JPH08123488A (ja) 高能率符号化方法、高能率符号記録方法、高能率符号伝送方法、高能率符号化装置及び高能率符号復号化方法
KR960012474B1 (ko) 인간의 청각 특성에 적응적인 스테레오 디지탈 오디오 부호화장치
JP3528260B2 (ja) 符号化装置及び方法、並びに復号化装置及び方法
KR0144297B1 (ko) 적응적 디지탈 오디오 부호화 장치
KR960012477B1 (ko) 인지 정보량을 이용한 적응적 스테레오 디지탈 오디오 부호화 및 복호화장치
KR100224582B1 (ko) Mpeg-2 오디오의 에러 검출 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
G160 Decision to publish patent application
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110901

Year of fee payment: 16

FPAY Annual fee payment

Payment date: 20120903

Year of fee payment: 17

EXPY Expiration of term