KR100261254B1

KR100261254B1 - 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치

Info

Publication number: KR100261254B1
Application number: KR1019970061300A
Authority: KR
Inventors: 김연배
Original assignee: 윤종용; 삼성전자주식회사
Priority date: 1997-04-02
Filing date: 1997-11-19
Publication date: 2000-07-01
Also published as: BR9705838B1; JP3354863B2; MY117039A; CN1195160A; ID19832A; EP0869622A2; US6094636A; EG21303A; RU2224302C2; EP0869622B1; EP0869622A3; DE69732761T2; IL122669A; JPH10285042A; DE69732761D1; US6108625A; CN1154085C; BR9705838A; KR19980079476A; IL122669A0

Abstract

본 발명은 비트율 조절이 가능한 오디오 부호화/복호화 방법 및 장치에 관한 것으로서, 오디오 신호를 기본계층과 소정 개수의 향상계층으로 이루어지는 계층적인 데이터스트림으로 부호화하는 방법은 입력 오디오 신호를 신호처리하여 소정의 부호화 대역별로 양자화하는 양자화처리단계; 기본계층에 상응하는 양자화된 데이터들을 소정의 layer 크기 내에서 부호화하는 기본계층 부호화단계; 부호화된 계층의 다음 enhancement 계층에 속하는 양자화된 데이터 및 상기 부호화된 계층에 속하면서 부호화되지 않고 남아있는 양자화된 데이터들을 소정의 계층 크기 내에서 부호화하는 계층부호화 단계; 및 그 계층부호화단계를 모든 계층에 대해 수행하는 순차부호화단계를 포함함을 특징으로 한다. 각 단계의 부호화는 부호화되는 해당 계층에 속하는 대역들의 전역비트할당정보를 구하는 단계; 각 대역별로 할당할 수 있는 비트수를 구하는 단계; 할당된 비트수에 상응하는 양자화된 데이터에 대해 위치정보를 생성하는 단계; 및 전역비트할당정보, 양자화스텝크기, 위치정보 및 할당된 비트수에 상응하는 양자화된 데이터를 소정의 부호화 방법에 의해 비트스트림으로 생성하는 단계로 이루어진다.

Description

비트율 조절이 가능한 오디오 데이터 부호화/복호화 방법 및 장치

본 발명은 데이터 부호화 및 복호화에 관한 것으로서, 특히 비트율 조절이 가능한 디지탈 오디오 데이터 부호화/복호화 장치 및 그 방법에 관한 것이다.

즉, 하나의 비트스트림내에 1개의 비트율에 대한 것만으로 구성하는 것이 아니라 기본 단계(Base Layer)를 기반으로 여러 상위 단계(Enhancement Layer)의 비트율에 대한 데이터를 함께 표현하는 오디오 부호화/복호화 장치 및 방법에 관한 것이다.

오디오 기기는 기록저장매체에 신호를 저장해준 뒤 사용자가 필요시에 저장된 신호를 듣는 장치이다. 최근 디지탈 신호처리 기술이 발달함에 따라 기존의 아날로그 신호에 의한 LP 및 테이프(Tape)로부터 디지탈 신호에 의한 CD(Compact Disc)와 DAT(Digital Audio Tape)로의 개발이 진행되어 음질의 향상을 이루었으나, 데이타의 양이 많아 저장 및 전송에 문제가 있다. 따라서 데이터의 양을 줄이기 위해 DPCM(Differential Pulse Code Modulaton)이나 ADPCM(Adaptive Differential Pulse Code Modulation)등의 방법이 제안되었으나 신호의 종류에 따라 효율성이 크게 차이가 나는 단점을 보였다. 최근 ISO (International Standard Organization)에 의해 표준화 작업이 이루어진 MPEG(Moving Pictures Expert Group) 오디오나 상품화된 필립스의 DCC(Digital Compact Cassette), SONY의 MD(MiniDisc)에서는 인간의 청각심리(psychoacoustics)를 고려하여 데이타의 양을 줄이는 방법을 사용했다. 이러한 방법은 신호의 특성에 관계없이 효율적으로 데이타의 양을 줄이는데 크게 기여하였다.

사람의 청각심리특성을 고려한 오디오 부호화장치의 구성은 도 1과 같이 시간/주파수 매핑부(100), 청각심리부(110), 비트할당부(120), 할당된 비트들에 따라 양자화 처리하는 양자화(quantization)부(130), 비트팩킹부(bit packing, 140)로 이루어진다. 여기서, 상기 청각심리부(110)는 인간의 청각특성을 이용하여 신호대 마스킹비를 계산하는 블록이다. 즉, 인간의 청각특성 가운데 특히 마스킹현상을 이용한 것으로, 입력신호의 크기와 신호들의 상호작용으로 인해 인간이 들어도 느끼지 못하는 신호의 최소 크기인 마스크된 문턱치(Masked Threshold)를 구한다. 비트할당부(120)는 마스크된 문턱치를 이용하여 청각에 중요한 역할을 하는 신호가 있는 부분부터 한정된 비트내에서 먼저 비트를 할당해줌으로써 데이타의 압축효과를 얻게 되는 부분이다.

인간의 청각특성중 디지탈 오디오신호의 부호화에 있어 가장 중요한 현상으로 사용하는것이 마스킹(masking)효과와 임계대역(critical band)의 성질이다. 마스킹효과란 어떤 신호(소리)에 의해 다른 신호(소리)가 들리지 않게 되는 현상이다. 도 2는 상기 마스킹 현상을 설명하기 위한 도면으로서, 예를 들면 기차역에서 기차가 지나갈때 낮은 소리로 대화한다면 그 대화는 기차소리에 묻혀 들리지 않게 되는 현상이다. 임계대역은 인간의 가청주파수범위내에서 어떤 대역별로 신호를 인지하는 현상인데 여러가지 특성을 가지고 있다. 이 특징 중 하나가 같은 크기의 잡음(noise)에 대해서 하나의 임계대역내에 있을때와 임계대역 범위를 넘어설때 인간이 인지하는 잡음의 크기가 다르다는 것이다. 이 경우 임계대역을 벗어날 때의 잡음에 대한 인지가 더 높아진다.

청각특성을 이용하여 부호화 한다는 것은 기본적으로 이 두가지의 특성을 이용하여 하나의 임계대역 내에서 얼마나 잡음을 할당할 수 있는가를 계산한 후 양자화시 양자화 잡음을 그 만큼 발생시킴으로써 부호화에 의한 정보의 손실을 최소로 하는 것이다. 이러한 디지탈 오디오 부호화방법의 응용은 디지탈 오디오 방송이나 오디오 기기, multimedia, AOD(Audio On Demand) 등이 있다.

이러한 부호화 방법은 대부분의 경우 고정 비트율(fixed bitrate)을 지원한다. 즉, 하나의 비트문자열(bitstream)이 1개의 특정 비트율(예를들어, 128kbps, 96kbps 또는 64kbps)에 대해 구성되어 있다. 이러한 구성은 전송선이 오디오데이타 전용선으로만 사용될때는 별 문제가 없다. 전용선이란 특정비트율을 고정적으로 지원하는 선로이기 때문에 전용선에 알맞는 특정비트율로 구성되어진 비트문자열은 아무런 오차없이 수신부로 전달되어진다.

그러나 오디오신호에 대한 전송선로가 불안정하다면 고정비트율로 구성된 데이터는 수신단에서 제대로 해석하기가 어려워진다. 즉, 전송선로의 상태에 따라 오디오데이타 전체에 대한 비트문자열을 받을 수 있고 일부분에 대한 문자열만을 받을 수도 있다. 수신부에서 데이터에 대한 문자열을 일부분만 받는다면 해당되는 오디오 데이터를 복원하기가 어려워지므로 재생시 상당한 음질의 열화를 가져올 수 있다.

일반적으로 디지탈 오디오 부호화방법은 1개의 비트스트림의 헤더에 1개의 비트율에 대한 정보만을 담고 있다. 예를 들면, 한 비트스트림의 헤더정보에 비트율이 128kbps 라면 계속적으로 128kbps인 비트스트림을 사용한다. 이러한 방법의 장점은 해당 비트율에서 나타낼 수 있는 최상의 음질을 표현할 수 있는 것이다. 즉, 특정 비트율에 대해, 예를 들어 64kbps, 48kbps, 32kbps 등 오디오데이타에 대한 가장 최적의 비트문자열을 구성한다.

이러한 방법의 단점은, 전송선로의 상태에 매우 민감하게 작용한다는 것이다. 전송선로가 매우 안정적이라면 문제가 없으나 전송선로가 매우 불안정할 경우는 올바른 데이터를 재생하지 못한다. 예를들어, 하나의 오디오 프레임이 n개의 slot으로 구성되어 있다고 가정하자. 주어진 시간내에 n개의 slot이 모두 수신부로 전달되어지면 올바른 데이터를 재생한다. 그러나 전송선로가 불안정하여 주어진 시간내에 n-m개의 slot만 전달되어 진다면 올바른 데이터를 재생할 수가 없다.

또한, 도 3을 참조하여 하나의 송신부에서 제공되는 데이터를 여러 수신부에서 받는 경우를 생각해보자. 각 수신부마다 전송선로의 용량이 다르거나 각 수신부에 의해 서로 다른 비트율을 요구할때 고정비트율만을 지원하는 송신부라면 이러한 요구사항을 만족시키기가 어렵다. 이러한 경우 오디오의 비트스트림이 여러 가지 단계의 비트율로 구성이 되어있다면 주어진 환경이나 사용자의 요구사항에 대해 적절하게 대처할 수 있을 것이다.

이러한 목적을 위해 비트율 조절이 가능하도록 하는 방법은 크게 세 가지로 나눌 수 있다. 첫번째는 비트스트림에 여러단계(Layer)의 정보가 순차적으로 구성되어 있어 요구하는 비트율로 단순히 비트스트림만 절단하여 전달하는 방법이다. 도 4에 도시된 바와 같이 기본계층(Base Layer)부터 최상위계층(Top Layer)까지의 비트스트림이 순차적으로 구성되어있다. 각 계층에 따른 부가정보(side information)와 오디오데이타가 모두 하나의 비트스트림에 기록되는 방식이다. 따라서 사용자의 요구가 기본 계층만을 요구하면 기본 계층에 해당하는 비트스트림을 전달하고, 제1계층(Layer 1)에 대한 정보를 요구하면 제1계층까지의 비트스트림을 전달한다. 또한, 최상위 계층의 정보를 요구하면 비트스트림 전체를 전달한다.

두번째 방법은 송신단과 수신단 사이에 어떤 장치가(예를 들면, 변환기) 사용자의 요구에 따라 비트스트림을 재구성(reformatting)하는 것이다. 도 5에 도시된 바와 같이 부호화장치에서는 1 가지 비트율로 비트스트림을 작성하지만 변환기에서 사용자의 요구에 따라 보다 낮은 비트율로 비트스트림을 다시 만들어서 보내주는 것이다. 이 때에 부호화장치에서 작성된 비트스트림 내에는 변환기에서 이 보다 낮은 계층의 비트스트림을 만들 수 있도록 하기 위한 어떤 부가정보가 반드시 있어야 한다.

세번째 방법은 도 6에 도시된 바와 같이, 변환기에서 재부호화(reencoding)하는 것이다. 재부호화란 복호화기(decoder)에서 수행하는 것과 같이 완전히 신호를 복원한 후 부호화장치에서 수행하는 것처럼 사용자가 요구하는 비트율로 다시 부호화하여 전달하는 것이다. 복호화의 모든 과정을 거쳐 PCM데이타를 만들고, 부호화의 모든 과정을 거쳐 원하는 비트율에 대한 비트스트림을 생성하여 전달하는 것이다. 예를 들면, 어떤 주전송 선로에 64kbps 비트스트림이 전달되는데 어떤 사용자에게로 가는 전송선로의 용량이 32kbps 라고 할때, 중간의 변환기에서는 먼저 64kbps에 대한 복호화기를 이용하여 PCM데이타를 만든뒤 32kbps 부호화장치를 동작시켜 32kbps 비트스트림을 만든 뒤 그 전송선로를 통해 데이터를 보낸다.

상술한 방법 중 첫번째 방법이 가장 적절하지만 각 계층에서 데이터의 중복이 있을 수 있어 성능이 떨어지는 단점이 있다. 두 번째 방법은 첫 번째 방법에 비해 음질이 조금 나아질 수 있으나 보다 낮은 비트스트림의 작성은 부호화장치에서 전달해준 부가정보에 따라 달라진다. 예를 들어 48kbps로 변환하기를 원하는 경우, 원래 비트스트림에 48kbps에 대한 정보가 없다면 재작성하기가 매우 어렵게 된다. 또한 첫번째 방법에 비해 변환기라는 단계를 거쳐야 하므로 시간지연 및 비용이 많이 소요되는 단점이 있다. 세번째 방법은 변환기의 역할이 복호화기와 부호화기의 역할을 동시에 수행하여야 하기 때문에 복잡도가 높아 비용이 크고 재부호화에 따른 시간 지연(delay)이 발생할 수 있다. 그러나, 변환기의 입력에 사용되는 비트스트림에 중복되는 부분이 없으므로 음질이 첫번째 방법에 비해 좋은 장점이 있다. 상기 두번째 방법(reformatting)과 세번째 방법(reencoding)의 구분은 상당히 모호한데, 낮은 비트스트림을 구성하는 과정에 역양자화(dequantization)과정이 있으면 reencoding으로 간주한다.

비트율조절이 가능한 시스템에서 변환기의 역할은 사용자와 송신단 간의 단순한 연결이므로 복잡도면에서 낮을수록 좋다. 따라서 일반적으로 시간지연이 없고 비용이 적게드는 낮은 복잡도의 변환기를 사용하므로 제한조건(restriction)으로 재부호화를 하지 않는 방법을 내세운다.

첫번째 방법과 같이 비트스트림을 작성하기 위해서는 일반적으로 도 7에 도시된 바와 같이 먼저 낮은 계층에 대한 부호화를 행한후 다시 복호화하여 얻은 신호와 원래신호와의 차이를 다시 다음 계층의 부호화장치 입력으로 사용하여 처리한다. 이러한 방법은 일반적으로 2가지 이상의 부호화 방식을 사용한다. 기본계층을 생성하는 core codec과 다음 계층을 생성하는 다른 codec의 혼용이다. 이러한 방법은 2가지 이상의 부호화장치가 있으므로 부호화장치의 복잡도를 높인다. 부호화장치 뿐만 아니라 복호화장치에서도 역시 여러 가지 복호화장치로 인해 복잡도가 늘어난다. 또한 계층이 늘어나면 늘어나는 것 만큼 부호화의 복잡도가 비례해서 늘어난다. 이것은 각 계층에서 생성되는 시간영역의 데이터를 합산해야만 해당 계층의 올바른 시간영역의 데이터를 얻을 수 있기 때문이다.

본 발명이 이루고자 하는 기술적 과제는 효율적인 전송선로의 사용과 다양한 사용자의 요구를 충족시키고, 사용자의 요구에 따라 여러 계층의 비트율에 대한 정보를 중복없이 하나의 비트스트림에 결합시킴으로써 좋은 음질의 비트스트림을 제공하기 위해, 비트율 조절이 가능한 오디오 부호화/복호화 방법 및 장치를 제공하는 것이다.

도 1은 청각심리특성을 이용한 일반적인 오디오 데이터 부호화장치의 구성을 블록도로 도시한 것이다.

도 2는 마스킹 현상을 설명하기 위한 것이다.

도 3은 일반적인 전송선로의 구성을 블록도로 도시한 것이다.

도 4는 다단계 비트율에 대한 정보를 담고 있는 비트스트림을 도시한 것이다.

도 5는 재작성(Reformatting)을 설명하기 위한 도면을 도시한 것이다.

도 6는 재부호화(Reencoding)을 설명하기 위한 도면을 도시한 것이다.

도 7은 비트율조절이 가능한 부호화기의 일반적인 구조를 블록도로 도시한 것이다.

도 8은 본발명에 의한 부호화장치의 구성을 블록도로 도시한 것이다.

도 9a 내지 도 9g는 본발명에 의한 부호화장치의 동작원리를 설명하기 위한 일예를 도시한 것이다.

도 10은 비트플레인 마스크를 이용한 위치정보추출을 설명하기 위한 도면이다.

도 11a 및 도 11b는 본 발명에 의해 작성된 비트스트림구조를 도시한 것이다.

도 12는 본 발명에 의해 작성된 비트스트림구조를 도시한 것이다.

도 13은 본 발명에 의한 복호화 장치의 구성을 블록도로 도시한 것이다.

도 14는 데이터생성알고리즘의 실행 예를 도시한 것이다.

상기 본 발명이 이루고자 하는 기술적 과제를 해결하기 위한 본 발명에 의한, 비트율 조절이 가능한 오디오 데이터 부호화 방법은, 오디오 신호를 기본계층(base layer)과 소정 개수의 향상계층(enhancement layer)으로 이루어지는 계층적인 데이터스트림으로 부호화하는 방법에 있어서, 입력 오디오 신호를 신호처리하여 소정의 부호화 대역별로 양자화하는 양자화처리단계; 상기 기본계층에 상응하는 양자화된 데이터들을 소정의 layer 크기 내에서 부호화하는 기본계층 부호화단계; 상기 부호화된 계층의 다음 enhancement 계층에 속하는 양자화된 데이터 및 상기 부호화된 계층에 속하면서 부호화되지 않고 남아있는 양자화된 데이터들을 소정의 계층 크기 내에서 부호화하는 계층부호화 단계; 및 상기 계층부호화단계를 모든 계층에 대해 수행하는 순차부호화단계를 포함함을 특징으로 한다.

상기 기본계층부호화단계, 계층부호화단계 및 순차부호화단계의 부호화는 부호화하고자 하는 해당 계층에 속하는 각 대역(sub-band)에 대해, 상기 대역에 상응하는 양자화된 데이터의 비트수를 나타내는 전역비트할당정보를 구하는 제1단계; 상기 계층의 각 대역 크기 내에서 각 대역별로 할당할 수 있는 비트수를 구하는 제2단계; 상기 할당된 비트수에 상응하는 양자화된 데이터에 대해 상기 대역을 구성하고 있는 소정 주파수 성분별로 양자화된 데이터의 존재유무를 나타내는 위치정보를 생성하는 제3단계; 및 상기 전역비트할당정보, 양자화스텝크기, 위치정보 및 상기 대역별로 할당된 비트수에 상응하는 양자화된 데이터를 소정의 부호화 방법에 의해 비트스트림으로 생성하는 제4단계로 이루어진다.

상기 대역별로 할당된 비트수에 상응하는 양자화된 데이터는, 양자화된 데이터의 최상위 비트부터 하위비트로 내려가면서 상응하는 양자화된 데이터임이 바람직하다.

상기 제4단계의 상기 대역별로 할당된 비트수에 상응하는 양자화된 데이터의 부호화는, 상기 양자화된 데이터들을 소정 개수의 비트 단위로 묶어서 부호화함이 바람직하다.

상기 제2단계의 할당되는 비트수는 1 비트이고, 상기 제4단계는 상기 전역비트할당정보와 위치정보를 소정의 부호화 방법에 의해 비트스트림으로 생성함이 바람직하다.

상기 소정의 부호화방법은 무손실 부호화이며, 허프만 부호화(Huffman coding) 또는 산술 부호화(Arithmetic coding) 임이 바람직하다.

그리고 상기 양자화처리단계는 시간 영역의 입력 오디오 신호를 주파수 영역의 신호로 변환하는 단계; 상기 시간/주파수 맵핑에 의해 주파수 성분으로 변환된 입력 오디오 신호들을 소정의 대역(subband) 신호들로 묶고, 상기 각 대역(subband)에서의 마스킹 문턱치(masking threshold)를 계산하는 단계; 및 각 대역의 양자화 잡음이 마스킹 문턱치보다 작아지도록 소정의 부호화 대역별로 양자화하는 단계로 이루어짐이 바람직하다.

상기 본 발명이 이루고자 하는 기술적 과제를 해결하기 위한 본 발명에 의한, 비트율 조절이 가능한 오디오 데이터 부호화 장치는, 오디오 신호를 소정 개수의 다른 비트율로 이루어지는 계층적인 비트율을 갖도록 부호화하는 장치에 있어서, 입력 오디오 신호를 신호처리하여 소정의 부호화 대역별로 양자화하는 양자화처리부; 및 상기 기본계층에 속하는 각 대역(sub-band)의 양자화된 데이터의 비트수를 나타내는 기본계층의 대역별 전역비트할당정보 및 상기 각 대역별로 할당할 수 있는 비트수에 상응하는 양자화된 데이터의 소정 주파수 성분별 데이터 존재유무를 나타내는 위치정보, 양자화 스텝 크기 및 양자화된 데이터들을 부호화하고, 상기 기본계층에 대한 부호화가 끝나면 그 다음 계층에 대한 전역비트할당정보, 위치정보, 양자화스텝 크기 및 양자화된 데이터들을 부호화하여 이를 모든 계층에 대해 수행하여 비트스트림을 형성하는 비트패킹부를 포함함이 바람직하다.

상기 대역별로 할당된 비트수에 상응하는 양자화된 데이터의 부호화는, 양자화된 데이터의 최상위 비트부터 하위비트로 내려가면서 상응하는 양자화된 데이터를 부호화함이 바람직하다.

상기 비트패킹부의 대역별로 할당된 비트수에 상응하는 양자화된 데이터의 부호화는, 상기 양자화된 데이터들을 소정 개수의 비트 단위로 묶어서 부호화함이 바람직하다. 상기 비트패킹부의 대역별로 할당되는 비트수는 1 비트이고, 상기 부호화는 전역비트할당정보와 위치정보를 소정의 부호화 방법에 의해 부호화함이 바람직하다.

상기 비트패킹부의 부호화는 낮은 주파수 성분부터 높은 주파수 성분 순서로 수행함이 바람직하다. 상기 양자화처리부는 시간 영역의 입력 오디오 신호를 주파수 영역의 신호로 변환하는 시간/주파수 맵핑부; 상기 시간/주파수 맵핑에 의해 주파수 성분으로 변환된 입력 오디오 신호들을 소정의 대역(subband) 신호들로 묶고, 상기 각 대역(subband)에서의 마스킹 문턱치(masking threshold)를 계산하는 청각심리부; 및 각 대역의 양자화 잡음이 마스킹 문턱치보다 작아지도록 소정의 부호화 대역별로 양자화하는 양자화부를 포함함이 바람직하다.

상기 본 발명이 이루고자 하는 다른 기술적 과제를 해결하기 위한 본 발명에 의한, 비트율 조절이 가능한 오디오 데이터 복호화 방법은, 계층적인 비트율을 갖도록 부호화된 오디오 데이터를 복호화하는 방법에 있어서, 상기 계층에 속하는 각 대역(sub-band)에 상응하는 양자화된 데이터의 비트수를 나타내는 전역비트할당정보, 양자화 스텝 크기, 상기 할당된 비트수에 상응하는 양자화된 데이터의 주파수 성분별 존재유무를 나타내는 위치정보 및 양자화된 데이터를 상기 비트스트림의 계층이 생성된 순서에 따라 복호화하되, 상기 각 계층에 속하는 대역에 할당된 비트수를 구하고 상기 할당된 비트수에 상응하는 양자화된 데이터를 상기 위치정보에 참조하여 복호화하는 복호화단계; 상기 복호화된 양자화 스텝 크기와 양자화된 데이터들을 원래 크기의 신호로 복원하는 단계; 및 상기 역양자화된 주파수 영역의 오디오 신호를 시간 영역의 신호로 변환하는 단계를 포함함이 바람직하다.

상기 복호화단계의 양자화된 데이터의 복호화는 양자화된 데이터의 최상위 비트부터 하위비트로 내려가면서 부호화된 데이터를 복호화함이 바람직하다.

상기 복호화단계의 양자화된 데이터의 복호화는 소정의 개수의 비트로 이루어지는 벡터단위로 부호화된 데이터를 복호화함이 바람직하다.

상기 본 발명이 이루고자 하는 또 다른 기술적 과제를 해결하기 위한 본 발명에 의한, 비트율 조절이 가능한 오디오 데이터 복호화 장치는, 계층적인 비트율을 갖도록 부호화된 오디오 데이터를 복호화하는 장치에 있어서, 상기 계층에 속하는 각 대역(sub-band)에 상응하는 양자화된 데이터의 비트수를 나타내는 전역비트할당정보, 양자화 스텝 크기, 상기 할당된 비트수에 상응하는 양자화된 데이터의 주파수 성분별 존재유무를 나타내는 위치정보 및 양자화된 데이터를 상기 비트스트림의 계층이 생성된 순서에 따라 복호화하되, 상기 각 계층에 속하는 대역에 할당된 비트수를 구하고 상기 할당된 비트수에 상응하는 양자화된 데이터를 상기 위치정보에 참조하여 복호화하는 비트스트림분석부; 상기 비트스트림분석부에서 복호화된 양자화 스텝 크기와 양자화된 데이터들을 원래 크기의 신호로 복원하는 역양자화부; 및 상기 역양자화부에서 역양자화된 주파수 영역의 오디오 신호를 시간 영역의 신호로 변환하는 주파수/시간매핑부를 포함함이 바람직하다.

이하에서 첨부된 도면을 참조하여 본 발명의 바람직한 일실시예를 상세히 설명하기로 한다. 본 발명은 여러 계층의 비트율(bitrate)에 대한 정보를 하나의 비트스트림에서 표현하는 방법으로 사용자의 요구 또는 전송선로의 상태에 따라 각 단계의 비트율에 대한 비트스트림이 간단히 재구성되어 보내질 수 있다. 예를 들면 기본계층(Base Layer)은 16kbps, 최상위 계층(Top Layer)은 64kbps 이고 각 계층(Enhancement Layer)이 8kbps로 구성되어 있다고 가정하자. 그러면 부호화장치에서 구성되는 비트스트림은 최상위 계층인 64kbps에 대한 비트스트림 내에 각 계층(16, 24, 32, 40, 48, 56, 64kbps)에 대한 정보가 함께 저장되어 있는 형태이다. 만일 어떤 사용자가 최상위 계층에 대한 데이타를 요구하면 이 비트스트림을 어떤 가공도 없이 전달한다. 또 다른 사용자가 기본 계층에(16kbps에 해당하는) 대한 데이타를 요구하면 단순히 앞 부분의 비트스트림만을 잘라내어 전달한다.

도 8은 본 발명에 의한 비트율 조절이 가능한 오디오 부호화장치의 바람직한 일실시예에 대한 구성을 블록도로 도시한 것으로서, 양자화처리부(830) 및 비트패킹부(840)로 이루어진다.

상기 양자화처리부(830)는 입력 오디오신호를 신호처리하여 소정의 부호화대역별로 양자화하는 블록으로서, 시간/주파수 매핑부(800), 청각심리부(810) 및 양자화부(820)로 이루어진다.

상기 시간/주파수 매핑부(800)는 시간영역의 입력오디오 신호를 주파수 영역의 신호로 변환한다. 시간상으로 인간이 인지하는 신호의 특성 차이가 그리 크지 않지만, 이렇게 변환된 주파수 영역의 신호들은 인간의 음향심리모델에 따라 각 대역에서 인간이 느낄 수 있는 신호와 느낄 수 없는 신호의 차이가 크기 때문에 각 주파수 대역에 따른 양자화 비트를 다르게 할당할 수 있음으로써 압축의 효율을 높일 수 있다.

청각심리부(810)는 상기 시간/주파수 맵핑부(800)에 의해 주파수 성분으로 변환된 입력 오디오 신호들을 소정의 대역(subband) 신호들로 묶고, 각 신호들의 상호작용으로 인해 발생되는 마스킹현상을 이용하여 각 대역(subband)에서의 마스킹 문턱치(masking threshold)를 계산한다.

양자화부(820)는 각 대역의 양자화 잡음이 마스킹 문턱치(masking thershold )보다 작아지도록 소정의 부호화 대역별로 양자화한다. 즉 인간이 들어도 느끼지 못도록 각 대역의 양자화 잡음의 크기가 상기 마스킹 문턱값보다 작도록 각 대역의 주파수 신호들을 스칼라 양자화를 사용한다. 청각심리부(810)에서 계산한 마스킹문턱치와 각 대역에서 발생하는 잡음(noise)의 비율인 NMR(Noise-to-Mask Ratio)를 이용하여 전(全)대역의 NMR 값이 0dB 이하가 되도록 양자화를 행한다. NMR 값이 0dB이하라는 것은 양자화잡음에 비해 마스킹값이 높다는것을 나타내는데, 이것은 양자화잡음을 사람이 들을 수 없다는 의미이다.

상기 비트패킹부(840)는 양자화부(820)에서 양자화된 주파수대역의 데이터값을 각 계층에 해당하는 비트율에 따라 해당 대역의 부가정보와 오디오 데이터에 대한 양자화 정보를 결합하여 비트스트림을 생성한다. 이를 보다 상세히 설명하면, 부호화하고자 하는 해당 계층에 속하는 각 대역(sub-band)에 대해, 상기 대역에 상응하는 양자화된 데이터의 비트수를 나타내는 전역비트할당정보를 구한다. 그리고 나서 상기 계층의 각 대역 크기 내에서 각 대역별로 할당할 수 있는 비트수를 구하고, 상기 할당된 비트수에 상응하는 양자화된 데이터에 대해 상기 대역을 구성하고 있는 소정 주파수 성분별로 양자화된 데이터의 존재유무를 나타내는 위치정보를 생성한다. 그 다음에 상기 전역비트할당정보, 양자화스텝크기, 위치정보 및 상기 대역별로 할당된 비트수에 상응하는 양자화된 데이터를 소정의 부호화 방법에 의해 비트스트림으로 생성한다. 그리고 대역별로 할당된 비트수에 상응하는 양자화된 데이터의 부호화는 양자화된 데이터의 최상위비트(MSB)부터 하위비트로 내려가면서 상응하는 양자화된 데이터를 부호화한다. 그리고 상기 양자화된 데이터의 부호화는 소정 개수의 비트단위로 묶어서 낮은 주파수 성분부터 높은 주파수 성분 순서로 부호화할 수도 있다.

한편, 본 발명의 동작을 설명하면 다음과 같다. 하나의 비트스트림 내에 여러 계층의 정보를 같이 기록하는 가장 일반적인 방법은 도 7에 도시된 바와 같이, 낮은 계층으로 부호화한 결과를 저장하고 이 결과를 복호화하여 재생된 신호와 원신호와의 차이를 그 다음 계층에서 처리하여 저장하는 방식이다. 예를 들면, 기본계층을 16kbps 라고 하자. 그러면, 먼저 16kbps로 부호화하여 나온 결과를 비트스트림에 저장한다. 그리고 원신호와 16kbps로 부호화된 데이터를 복호화하여 나온 결과의 차이를 원신호로 가정하여 다음 계층의 부호화를 행한다. 이러한 방식은 비트스트림에 많은 부분의 중복(redundancy)이 있기 때문에 음질이 떨어지는 단점이 있다. 즉, 낮은 주파수 대역의 데이터는 여러 계층에서 중복되어 표현된다. 이러한 것을 피하기 위해서는 같은 주파수성분에 대해 각 계층에서 표현되는 데이터 간에 연속성을 주어야 한다. 예를 들어, 어떤 주파수성분의 데이타에 대해 i번째 계층의 비트할당이 m비트이고 i-1번째 계층의 비트할당이 n비트이라면, (n+m)비트로 표현된 것이 하나의 정보로 효과가 있어야 한다.

본 발명에서는 같은 주파수 성분에 대해 각 계층에서 표현되는 데이터사이의 연관성을 위하여 데이터의 MSB부터 기록하는 방식을 사용한다. 도 9를 참조하여 예를 들어 설명한다.

양자화부(820)에서 NMR 0에 대해 양자화한 결과가 도 9a라고 하자. 데이터는 각 계층에서 MSB부터 표현된다. 즉 기본(base)계층에서는 도 9b에 도시된 바와 같이 최상위 MSB만이 표현되고, 다음 계층은 그 다음 MSB가 표현된다. 이러한 방법으로 최상위 계층까지 진행되면 데이터의 모든 비트가 표현된다. 따라서 계층이 진행될수록 좀 더 세밀한 정보를 나타낸다. 복호화부에 전달되는 데이터는 이 대역에 할당되는 비트의 길이를 나타내는 전역비트할당정보와 데이터의 위치정보(index) 그리고 데이터 비트이다. 상기 위치정보는 데이터비트가 대역내의 어느 위치에 존재하는가를 나타내는 역할을 한다. 이것은 비트플레인 마스크(bit plane mask)를 이용하여 생성한다. 비트 플레인 마스크는 모든 비트가 1인 값이다. 상기 위치정보는 도 10에 도시된 바와 같이 상기 마스크와 데이터의 MSB를 마스크의 비트수 만큼 AND로 연결하여 생성되는 값이다.

상기 도 10의 예에서는 이 대역의 비트할당정보는 7비트이다. 제일 위에 있는 데이터를 예를 들면, 기본계층에서 데이터의 MSB 1비트만 있더라도 복호화기에서 이 값은 '1000000’으로 인식한다. 이것은 이 대역의 최대 비트수가 7인데 최상위 MSB가 1이라는 것은 최소한 이값이‘1000000’보다는 크다는 것을 의미하기 때문이다. 그 다음 계층의 1비트에 의해 이값은‘1100000’으로 인식된다. 위치정보는 데이터의 위치를 표현하는 것 뿐아니라 1 이라는 데이터 값을 나타낸다. 따라서 도 9에서‘1000001'를 표현할 때는 위치정보에 의한 값 1을 데이터값에서 뺀 후에 사용한다. 그러므로 위치정보의 1과 데이터비트에 의해 표현된 ‘1000000’을 더한‘1000001’이 복호화기에서 재생된다. 도 9에서 2단계와 5단계 이후의 데이터는 decoder에 전달하지 않아도 모든 데이터를 나타낼 수 있다. 위치정보의 표현은 huffman code를 쓰거나 runlength coding 방식 또는 arithmetic coding 방식을 사용한다. 데이터는 해당되는 비트를 그대로 사용한다. 또한 데이터비트가 1비트인 경우, 위치정보만을 가지고 데이터비트까지 나타낼 수 있다. 이것은 마스크에 의해 나온 생성되는 1이라는 값은 해당 위치에 MSB가 존재한다는 것을 의미한다. 따라서 추가의 데이터비트가 없더라도 전체값을 표현할 수 있다. 예를 들면 비트할당 정보가 5일때 기본단계의 index에 있는 값 1은 1과 ‘10000’을 동시에 나타내므로 복원되는 값은‘10001’이 된다.

상술한 것처럼 한 계층에서 1비트씩 표현하는 것은 가장 기본적인 방식이다. 이것을 변형하여 한 계층에서 1비트 이상을 표현할 수 있다.

각 대역의 데이터를 표현하는 방법은 먼저 각 계층에 해당하는 대역의 MSB를 최소한 1비트씩 할당하여 표현하고 비트할당 정보가 큰 순서로 낮은 대역부터 높은 대역까지 순차적으로 표현한다. 즉, 비트할당정보가 큰 대역은 중요한 대역이므로 많은 부분을 먼저 표현하고 비트할당정보가 적은 대역은 상대적으로 중요도가 떨어지므로 나중에 표현한다. 다음 알고리즘은 각 계층의 데이터 생성 알고리즘으로서, scalable bitstream 을 구성하기 위해 각 계층의 비트할당정보와 데이터를 계산하는 부분이다.

도 11는 도 14에 도시된 알고리즘을 실행한 하나의 예 중에서 기본계층과 계층 1에 대한 처리결과를 나타낸다. 도 11에서 초기비트할당정보는 전역비트할당정보의 1/2에 해당하는 정보이다. 그 후 남아있는 비트할당정보(전역비트할당정보-초기비트할당정보)중 크기가 큰 순서로 비트할당을 실시한다. 상기 알고리즘의 예에서는 기본계층에서 허용가능한 비트내에 2번째 대역까지만 추가비트를 줄 수 있음을 나타낸다. 기본계층의 처리가 끝난 후 원신호에서 처리된 신호를 뺀 신호를 다음 계층에서 처리한다.

이와 같이 계층이 진행됨에 따라 세밀한 데이터 값의 표현이 이루어지므로

계층이 올라감에 따라 양질의 음질을 나타낼 수 있다.

이렇게 표현된 데이터를 이용하여 scalable bitstream 을 구성하는 방법은 다음과 같다. 먼저 기본계층의 대역폭에 대한 부가정보를 기록한다. 부가정보는 각 대역의 비트할당 정보와 역양자화를 위해 필요한 양자화 스텝크기이다. 여기서 양자화 스텝크기는 해당 대역에 처음으로 비트할당이 되는 경우에 기록한다. 부가정보 뒤에 기본 계층에 대한 오디오 데이타값을 기록한다. 데이터값의 기록은 도 11의 알고리즘에 의해 첫번째 대역부터 기본 계층의 비트율에 따른 허용가능한 비트수 내에서 표현가능한 대역까지의 MSB정보와 데이터의 위치정보를 계산한 뒤 순차적으로 기록한다. 도 11의 예에서, 비트스트림내에 기록되어지는 것은 위치정보인 index와 실선의 네모로 표시된 데이터비트이다. 이때 각 계층의 비트할당정보가 0 인것은 어떤 데이터도 기록하지 않는다. 또한 각 계층의 비트할당정보가 0이 아닌경우, 위치정보에 어느 정보도 없다면(즉, 위치정보가 모두 0이라면) 데이터비트는 기록하지 않고 위치정보만 기록한다. 기본계층에 대한 기록이 끝나면 그 다음계층에 대한 부가정보와 오디오데이타의 양자화값을 기록한다. 이러한 방법으로 모든 계층의 데이터를 기록한다. 도 12는 기록된 비트스트림의 구조이다.

한편, 본 발명에 의한 부호화방법을 보다 구체적인 예를 들어 상세히 설명하면 다음과 같다. 기본계층(Base Layer)은 16kbps 이고 최상위계층(Top Layer)은 64kbps 이며 각 계층(Enhancement Layer)은 8kbps 로 구성되는 경우를 보기로 한다. 즉, 16, 24, 32, 40, 48, 56, 64kbps 7계층의 scalable bitstream 을 구성하는 예이다. 표 1에 도시된 바와 같이, 각 계층은 처리되는 대역폭이 제한되어 있다. 입력 데이타는 48kHz로 샘플링된 PCM데이타이고 1프레임의 크기는 1024개이다. 64kbps 비트율의 1프레임에서 쓸수있는 비트의 수는 평균적으로 1356비트(64000 bits/sec * (1024/48000 sec))이다.

Bit Rate (kbps)	Bandwidth(kHz)
16	3.5
24	6
32	7.5
40	10
48	12
56	14
64	16

먼저 입력데이타는 청각심리모델을 통해 필요한 정보를 계산한다. 청각심리모델을 계산하는 방법은 ISO/IEC 11172-3의 Model 2를 사용한다. 청각심리부(810)의 출력은 현재 처리되고 있는 프레임의 block type(long, start, short, stop)과 표 2에 도시된 각 처리대역(processing band)의 SMR값, short block인 경우 영역정보 그리고 청각심리부(810)와 T/F mapping부(800)의 동기를 맞추기 위해 시간지연된 PCM 데이타이다.

대역	주파수(Hz)	대역	주파수(Hz)	대역	주파수(Hz)
0	188	10	3093	20	9843
1	375	11	3468	21	10593
2	562	12	3843	22	11343
3	844	13	4593	23	12093
4	1125	14	5343	24	13031
5	1406	15	6093	25	14062
6	1687	16	6843	26	15093
7	1968	17	7593	27	16125
8	2343	18	8343	28
9	2718	19	9093	29

청각심리부(810)의 출력인 block type에 따라 T/F mapping부(800)에서는 MDCT(Modified Discrete Cosine Transform)를 이용하여 시간영역의 데이터를 주파수 영역의 데이터로 변환한다. 이때 block의 크기는 long block인경우 2048이고 short block 인 경우 크기가 256인 MDCT를 8번한다.

주파수영역으로 변환된 데이터는 청각심리부(810)의 출력값인 SMR을 이용하여 양자화된다. 양자화는 비선형 스칼라양자화(non-linear scala quantization)를 사용하며 기본적인 양자화 step size는 21/4 를 사용한다. 양자화는 NMR값이 0 이하가 되도록 수행한다. 이때 얻어지는 출력은 양자화된 데이터와 각 처리대역의 양자화 step size, 그리고 이 대역의 최대값을 표현할 수 있는 비트수(전역비트할당정보)이다.

각 계층의 데이터는 상기 알고리즘을 이용하여 생성한다. 이를 실시예를 이용하여 설명하면 다음과 같다. 최하위계층의 대역폭은 3.5kHz이므로 처리대역은 12번째 대역까지이다. 먼저 12번째 대역까지의 전역비트할당정보를 이용하여 기본계층의 비트할당정보를 생성한다. 0번째 대역부터 전역비트할당정보의 1/2크기의 비트내에 있는 데이터를 뽑아내어 기본계층의 허용가능한 비트내에 표현이 가능한지를 조사한다. 이것이 가능하면 그 다음 대역의 데이터에 대해 0번째 대역의 방법을 이용하여 조사한다. 이렇게 12번째 대역까지 진행하는 중 허용가능한 비트수를 넘는 대역을 만나거나 12번째 대역까지 모두 허용가능한 비트수내에서 표현가능하다면 다음은 현재 처리되고 있는 대역들 중에 비트할당정보가 큰 순서로 1비트씩 할당하여 조사한다. 위치정보인 index값은 huffman code와 runlength code 중 크기가 적은 것을 사용한다. 기본계층의 처리가 끝나면, 기본계층에서 처리된 데이터값을 원래 데이터값에서 뺀 값을 다음계층의 입력 데이터로 사용한다. 다른 계층의 처리도 기본단계와 마찬가지로 처리한다.

한편, 상기 부호화장치에 의해 생성된 비트스트림을 복호화하는 복호화 장치를 상세히 설명하기로 한다. 도 13는 상기 복호화 장치의 구성을 블록도로 도시한 것으로서, 비트스트림분석부(10), 역양자화부(20) 및 주파수/시간 맵핑부(30)로 이루어진다.

상기 비트스트림 분석부(10)는 상기 계층의 전역비트할당정보, 양자화 스텝 크기, 위치정보 및 양자화된 데이터를 상기 비트스트림의 계층이 생성된 순서에 따라 복호화하되, 상기 각 계층에 속하는 대역에 할당된 비트수를 구하고 상기 할당된 비트수에 상응하는 양자화된 데이터를 상기 위치정보에 참조하여 복호화한다.

상기 역양자화부(20)는 복호화된 양자화 스텝의 크기와 양자화된 데이터들을 가지고 원래 크기의 신호로 복원한다. 상기 주파수/시간 맵핑부(30)는 주파수 영역의 오디오 신호를 다시 시간 영역의 신호로 변환해서 사용자가 재생할 수 있도록 해 준다.

상기 복호화장치의 동작을 설명하기로 한다. 상술한 부호화 장치에 의해 생성된 비트스트림의 복호화 과정은 부호화 과정의 역순을 거치면 된다.

먼저 기본 계층에 대한 정보를 복호화한다. 간단히 그 과정을 살펴보면, 먼저 기본계층의 부가정보 즉, 전역비트할당정보, 양자화스텝 크기 및 위치정보를 복호화한다. 그리고 상기 기본계층에 속하는 대역들에 할당된 비트수를 구하고 상기 할당된 비트수에 상응하는 양자화된 데이터를 상기 위치정보를 참조하여 복호화한다. 여기서 상기 양자화된 데이터의 최상위 비트부터 하위비트로 내려가면서, 그리고 낮은 주파수부터 높은 주파수 순서대로 부호화된 비트스트림에서 양자화된 값들을 복호화한다. 상기 복호화는 부호화단계에서 사용한 부호화방법에 상응하는 복호화방법을 사용한다. 바람직하게는 무손실 복호화방법이 사용되며, 그 예로 허프만 복호화 방법 및 산술복호화 방법이 사용될 수 있다.

이렇게 기본계층에 할당된 크기의 비트스트림에 대한 복호화가 끝나면 그 다음 계층에 대한 부가정보와 오디오데이타의 양자화값을 복호화한다. 이러한 방법으로 모든 계층의 데이터를 복호화할 수 있다. 이렇게 복호화 과정을 거쳐 양자화된 데이터들은 앞서 부호화기와 반대의 순서로, 도 13에 도시된 역양자화부(20)와 주파수/시간 맵핑부(30)를 거쳐 복원된 신호를 만들 수 있다.

본 발명에 의하면, 여러 계층의 비트율에 대한 데이터를 하나의 비트스트림내에 표현함으로써 전송선로의 상태 또는 사용자의 요구사항에 대해 적응적으로 대처할 수 있다.

또한 비트율조절이 가능한 형태의 비트스트림을 생성하므로 하나의 비트스트림으로 여러 계층의 비트스트림을 생성할 수 있다.

그리고 각 계층에 모두 동일한 부호화기를 사용하므로 부호화기의 복잡도가 낮다. 또한 각 계층에서 시간영역의 데이터 차이를 부호화하지 않고 주파수영역의 데이터를 처리하므로 부호화기의 복잡도가 낮다.

그리고 각 계층에 모두 동일한 복호화기를 사용하므로 복호화기의 복잡도가 낮다. 또한 각 계층에 시간영역의 데이터를 단지 한번만 생성하므로 복호화기의 복잡도가 낮다.

그리고 여러 계층의 비트스트림을 간단하게 생성할 수 있으므로 변환기의 복잡도가 낮다. 또한 각 계층의 데이터 비트 간에 비트연속성을 가지므로 좋은 음질을 제공할 수 있다. 또한 전송선로의 상태 및 사용자의 요구에 쉽게 대응할 수 있다.

그리고 본 발명은 다양한 사용자의 요구에 부응하기 위하여 비트스트림의 구성을 유연하게 한다. 즉, 사용자의 요구에 따라 여러 계층의 비트율에 대한 정보를 중복없이 하나의 비트스트림에 결합시킴으로써 좋은 음질의 비트스트림을 제공할 수 있다. 또한, 송신단과 수신단 사이에 어떤 변환기도 필요없으며 전송선로의 상태나 사용자의 어떠한 요구도 수용할 수 있는 장점이 있다.

그리고 본 발명의 적용분야는 유선 또는 무선을 사용하여 제공되는 모든 응용분야이다.

Claims

오디오 신호를 기본계층(base layer)과 소정 개수의 향상계층(enhancement layer)으로 이루어지는 계층적인 데이터스트림으로 부호화하는 방법에 있어서, (a) 입력 오디오 신호를 신호처리하여 소정의 부호화 대역별로 양자화하는 양자화처리단계, (b) 상기 기본계층에 상응하는 양자화된 데이터들을 소정의 layer 크기 내에서 부호화하는 기본계층 부호화단계, (c) 상기 부호화된 계층의 다음 enhancement 계층에 속하는 양자화된 데이터 및 상기 부호화된 계층에 속하면서 부호화되지 않고 남아있는 양자화된 데이터들을 소정의 계층 크기 내에서 부호화하는 계층부호화 단계 및 (d) 상기 계층부호화단계를 모든 계층에 대해 수행하는 순차부호화단계를 포함함을 특징으로 하고, 상기 (b), (c) 및 (d) 단계의 부호화는 (e) 부호화하고자 하는 해당 계층에 속하는 각 대역(sub-band)에 대해, 상기 대역에 상응하는 양자화된 데이터의 비트수를 나타내는 전역비트할당정보를 구하는 단계, (f) 상기 계층의 각 대역 크기 내에서 각 대역별로 할당할 수 있는 비트수를 구하는 단계, (g)상기 할당된 비트수에 상응하는 양자화된 데이터에 대해 상기 대역을 구성하고 있는 소정 주파수 성분별로 양자화된 데이터의 존재유무를 나타내는 위치정보를 생성하는 단계 및 (h)상기 전역비트할당정보, 양자화스텝크기, 위치정보 및 상기 대역별로 할당된 비트수에 상응하는 양자화된 데이터를 소정의 부호화 방법에 의해 비트스트림으로 생성하는 단계로 이루어지는, 비트율 조절이 가능한 오디오 부호화 방법.
제1항에 있어서, 상기 대역별로 할당된 비트수에 상응하는 양자화된 데이터는 양자화된 데이터의 최상위 비트부터 하위비트로 내려가면서 상응하는 양자화되는 것임을 특징으로 하는, 비트율 조절이 가능한 오디오 부호화 방법.
제2항에 있어서, 상기 (h) 단계의 상기 대역별로 할당된 비트수에 상응하는 양자화된 데이터의 부호화는 상기 양자화된 데이터들을 소정 개수의 비트 단위로 묶어서 부호화함을 특징으로 하는, 비트율 조절이 가능한 오디오 부호화 방법.
제2항에 있어서, 상기 (f)단계의 할당되는 비트수는 1 비트이고, 상기 (h)단계는 상기 전역비트할당정보와 위치정보를 소정의 부호화 방법에 의해 비트스트림으로 생성함을 특징으로 하는, 비트율 조절이 가능한 오디오 부호화 방법.
제1항에 있어서, 상기 소정의 부호화방법은 무손실 부호화임을 특징으로 하는 비트율 조절이 가능한 오디오 부호화 방법.
제5항에 있어서, 상기 무손실 부호화는 허프만 부호화(Huffman coding) 임을 특징으로 하는 비트율 조절이 가능한 오디오 부호화 방법.
제5항에 있어서, 상기 무손실 부호화는 산술 부호화(Arithmetic coding) 임을 특징으로 하는 비트율 조절이 가능한 오디오 부호화 방법.
제1항에 있어서, 상기 (a) 단계는 시간 영역의 입력 오디오 신호를 주파수 영역의 신호로 변환하는 단계, 상기 시간/주파수 맵핑에 의해 주파수 성분으로 변환된 입력 오디오 신호들을 소정의 대역(subband) 신호들로 묶고, 상기 각 대역(subband)에서의 마스킹 문턱치(masking threshold)를 계산하는 단계 및 각 대역의 양자화 잡음이 마스킹 문턱치보다 작아지도록 소정의 부호화 대역별로 양자화하는 단계로 이루어짐을 특징으로 하는 비트율 조절이 가능한 오디오 부호화 방법.
오디오 신호를 소정 개수의 다른 비트율로 이루어지는 계층적인 비트율을 갖도록 부호화하는 장치에 있어서, 입력 오디오 신호를 신호처리하여 소정의 부호화 대역별로 양자화하는 양자화처리부 및 상기 기본계층에 속하는 각 대역(sub-band)의 양자화된 데이터의 비트수를 나타내는 기본계층의 대역별 전역비트할당정보 및 상기 각 대역별로 할당할 수 있는 비트수에 상응하는 양자화된 데이터의 소정 주파수 성분별 데이터 존재유무를 나타내는 위치정보, 양자화 스텝 크기 및 양자화된 데이터들을 부호화하고, 상기 기본계층에 대한 부호화가 끝나면 그 다음 계층에 대한 전역비트할당정보, 위치정보, 양자화스텝 크기 및 양자화된 데이터들을 부호화하여 이를 모든 계층에 대해 수행하여 비트스트림을 형성하는 비트패킹부를 포함함을 특징으로 하는, 비트율 조절이 가능한 오디오 부호화 장치.
제9항에 있어서, 상기 대역별로 할당된 비트수에 상응하는 양자화된 데이터의 부호화는 최상위 비트부터 하위비트로 내려가면서 수행함을 특징으로 하는, 비트율 조절이 가능한 오디오 부호화 방법.
제10항에 있어서, 상기 비트패킹부의 대역별로 할당된 비트수에 상응하는 양자화된 데이터의 부호화는 상기 양자화된 데이터들을 소정 개수의 비트 단위로 묶어서 부호화함을 특징으로 하는, 비트율 조절이 가능한 오디오 부호화 방법.
제10항에 있어서, 상기 비트패킹부의 대역별로 할당되는 비트수는 1 비트이고, 상기 부호화는 전역비트할당정보와 위치정보를 소정의 부호화 방법에 의해 부호화함을 특징으로 하는, 비트율 조절이 가능한 오디오 부호화 방법.
제10항에 있어서, 상기 비트패킹부의 부호화는 낮은 주파수 성분부터 높은 주파수 성분 순서로 수행함을 특징으로 하는 비트율 조절이 가능한 오디오 부호화 장치.
제9항 또는 제10항에 있어서, 상기 양자화처리부는 시간 영역의 입력 오디오 신호를 주파수 영역의 신호로 변환하는 시간/주파수 맵핑부, 상기 시간/주파수 맵핑에 의해 주파수 성분으로 변환된 입력 오디오 신호들을 소정의 대역(subband) 신호들로 묶고, 상기 각 대역(subband)에서의 마스킹 문턱치(masking threshold)를 계산하는 청각심리부 및 각 대역의 양자화 잡음이 마스킹 문턱치보다 작아지도록 소정의 부호화 대역별로 양자화하는 양자화부를 포함함을 특징으로 하는 비트율 조절이 가능한 오디오 부호화 장치.
계층적인 비트율을 갖도록 부호화된 오디오 데이터를 복호화하는 방법에 있어서, 상기 계층에 속하는 각 대역(sub-band)에 상응하는 양자화된 데이터의 비트수를 나타내는 전역비트할당정보, 양자화 스텝 크기, 상기 할당된 비트수에 상응하는 양자화된 데이터의 주파수 성분별 존재유무를 나타내는 위치정보 및 양자화된 데이터를 상기 비트스트림의 계층이 생성된 순서에 따라 복호화하되, 상기 각 계층에 속하는 대역에 할당된 비트수를 구하고 상기 할당된 비트수에 상응하는 양자화된 데이터를 상기 위치정보에 참조하여 복호화하는 복호화단계, 상기 복호화된 양자화 스텝 크기와 양자화된 데이터들을 원래 크기의 신호로 복원하는 단계 및 상기 역양자화된 주파수 영역의 오디오 신호를 시간 영역의 신호로 변환하는 단계를 포함함을 특징으로 하는, 비트율 조절가능한 오디오 데이터 복호화 방법.
제15항에 있어서, 상기 복호화단계의 양자화된 데이터의 복호화는 최상위 비트부터 하위비트로 내려가면서 수행되는 것을 특징으로 하는 비트율 조절가능한 오디오 데이터 복호화 방법.
제15항에 있어서, 상기 복호화단계의 양자화된 데이터의 복호화는 소정의 개수의 비트로 이루어지는 벡터단위로 복호화함을 특징으로 하는 비트율 조절가능한 오디오 데이터 복호화 방법.
제15항에 있어서, 상기 복호화단계에서 복호화는 산술복호화 방법에 의해 복호화함을 특징으로 하는 비트율 조절가능한 오디오 데이터 복호화 방법.
제15항에 있어서, 상기 복호화단계에서 복호화는 허프만복호화 방법에 의해 복호화함을 특징으로 하는 비트율 조절가능한 오디오 데이터 복호화 방법.
계층적인 비트율을 갖도록 부호화된 오디오 데이터를 복호화하는 장치에 있어서, 상기 계층에 속하는 각 대역(sub-band)에 상응하는 양자화된 데이터의 비트수를 나타내는 전역비트할당정보, 양자화 스텝 크기, 상기 할당된 비트수에 상응하는 양자화된 데이터의 주파수 성분별 존재유무를 나타내는 위치정보 및 양자화된 데이터를 상기 비트스트림의 계층이 생성된 순서에 따라 복호화하되, 상기 각 계층에 속하는 대역에 할당된 비트수를 구하고 상기 할당된 비트수에 상응하는 양자화된 데이터를 상기 위치정보에 참조하여 복호화하는 비트스트림분석부, 상기 비트스트림분석부에서 복호화된 양자화 스텝 크기와 양자화된 데이터들을 원래 크기의 신호로 복원하는 역양자화부 및 상기 역양자화부에서 역양자화된 주파수 영역의 오디오 신호를 시간 영역의 신호로 변환하는 주파수/시간매핑부를 포함함을 특징으로 하는, 비트율 조절가능한 오디오 데이터 복호화 장치.
제20항에 있어서, 비트스트림 분석부의 상기 복호화단계의 양자화된 데이터의 복호화는 양자화된 데이터의 최상위 비트부터 하위비트로 내려가면서 부호화된 데이터를 복호화함을 특징으로 하는 비트율 조절가능한 오디오 데이터 복호화 장치.