KR100370411B1 - 비트율 조절이 가능한 오디오 부호화방법 및 이를이용한오디오부호화기 - Google Patents

비트율 조절이 가능한 오디오 부호화방법 및 이를이용한오디오부호화기 Download PDF

Info

Publication number
KR100370411B1
KR100370411B1 KR1019960011281A KR19960011281A KR100370411B1 KR 100370411 B1 KR100370411 B1 KR 100370411B1 KR 1019960011281 A KR1019960011281 A KR 1019960011281A KR 19960011281 A KR19960011281 A KR 19960011281A KR 100370411 B1 KR100370411 B1 KR 100370411B1
Authority
KR
South Korea
Prior art keywords
information
bitstream
bit rate
unit
audio
Prior art date
Application number
KR1019960011281A
Other languages
English (en)
Other versions
KR970071695A (ko
Inventor
김연배
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to KR1019960011281A priority Critical patent/KR100370411B1/ko
Publication of KR970071695A publication Critical patent/KR970071695A/ko
Application granted granted Critical
Publication of KR100370411B1 publication Critical patent/KR100370411B1/ko

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10009Improvement or modification of read or write signals
    • G11B20/10481Improvement or modification of read or write signals optimisation methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 비트율 조절이 가능한 오디오 부호화방법 및 이를 이용한 오디오 부호화기에 관한 것이다. 본 발명에 의한 오디오 부호화기는 입력되는 디지탈 오디오 데이타를 대역 필터링을 통하여 소정수의 주파수 대역으로 분할하는 매핑부, 스케일팩터를 이용하여 각 분할대역에 대하여 정규화를 수행하는 정규화부, 하나의 비트스트림에 포함하고자 하는 다단계에 대하여 각 단계별로 대역폭을 한정시킨 후, 청각심리모델을 이용하여 각 분할대역에서의 마스킹 문턱치를 계산하는 청각심리부, 각 단계별로 독립적으로 수행되며, 마스킹 문턱치와 각 분할대역에서 발생하는 잡음의 비를 이용하여 정규화된 데이타에 대하여 다차원 나무구조 벡터양자화를 수행하는 양자화부, 양자화부에서 생성되는 각 단계에서 계산된 비트율에 대한 부가정보와 최상위 단계에서 생성된 오디오 데이타에 대한 정보가 결합된 비트스트림을 생성하는 비트패킹부를 구비한다. 따라서, 양방향 통신이 가능한 시스템에 있어서 다단계의 비트율에 대한 정보를 하나의 비트스트림내에 표현함으로서 비트율 조절이 가능하도록 하여 전송선로를 효율적으로 사용할 수 있을뿐 아니라 다양한 사용자의 요구를 충족시킬 수 있다.

Description

비트율 조절이 가능한 오디오 부호화방법 및 이를 이용한 오디오 부호화기
본 발명은 오디오 부호화방법 및 오디오 부호화기에 관한 것으로서, 특히 다차원 나무구조를 가진 벡터양자화기법을 사용함으로써 비트율(bitrate) 조절이 가능한 오디오 부호화방법 및 이를 이용한 부호화기에 관한 것이다.
오디오기기는 기록 저장매체에 신호를 저장해 둔 뒤 사용자가 필요시에 저장된 신호를 듣는 장치로서, 최근 디지탈 신호처리 기술의 발달에 의해 기존의 아날로그 신호에 의한 LP(Long Play)와 테이프에서 디지탈신호에 의한 CD(Compact Disc)와 DAT(Digital Audio Tape)로의 개발이 진향되어 음질의 향상을 이루었으나, 데이타 양이 많아 저장 및 전송시 문제가 발생한다. 이러한 문제를 해결하기 위하여 DPCM(Differential Pulse Code Modulation)이나 ADPCM(Adaptive Differential Pulse Code Modulation) 등의 방법을 사용하여 데이타 양을 줄이려는 노력이 있었으나, 신호의 종류에 따라 효율성이 크게 차이가 나는 단점이 있었다. 최근 ISO(International Standard Organization)에 의해 표준화 작업이 이루어진 MPEG (Moving Picture Experts Group) 오디오나 상품화된 필립스의 DCC(Digital Compact Cassette), 소니의 MD(Mini Disc)에서는 인간의 청각심리특성(psychoacoustics)을 고려하여 신호의 특성에 상관없이 효율적으로 데이타 양을 줄이는 방법을 사용했다.
인간의 청각심리특성을 고려한 오디오 부호화기의 구성은 제1도에 도시된 바와 같이, 매핑부(11), 청각심리부(12), 비트할당부(13), 양자화부(14)와 비트패킹부(15)로 구성된다. 여기서, 청각심리부(12)에서는 인간의 청각심리특성을 이용하여 신호대 마스킹비를 계산하는데, 특히 인간의 청각심리특성 가운데 마스킹현상을이용하여 입력신호의 크기와 신호들의 상호작용으로 인해 인간이 들어도 느끼지 못하는 신호의 최소 크기인 마스크된 문턱치를 구한다. 비트할당부(13)에서는 마스크된 문턱치를 이용하여 청각에 중요한 역할을 하는 신호가 있는 부분부터 한정된 비트내에서 먼저 할당해 줌으로써 데이타를 압축시킨다.
그러면, 인간의 청각심리특성 중 디지탈 오디오신호의 부호화에 있어 가장 중요한 마스킹 효과(Masking Effect)와 임계대역(Critical Band)에 대하여 좀 더 상세히 설명하기로 한다. 마스킹 효과란, 제2도에 도시된 바와 같이 어떤 신호(소리)에 의해 다른 신호(소리)가 들리지 않게 되는 현상으로서, 예를 들면 기차역에서 기차가 지나갈때 낮은 소리로 대화한다면 그 대화는 기차 소리에 묻혀 들리지 않게 되는 현상을 말한다. 한편, 임계대역은 가청 주파수범위내에서 어떤 대역별로 신호를 인지하는 현상으로서, 여러가지 특성을 가진다. 이 특성 중 하나가 같은 크기의 잡음에 대해서 하나의 임계대역내에 있을때와 임계대역 범위를 벗어날때 인간이 인지하는 잡음의 크기가 다르다는 것이다. 이 경우 임계대역을 벗어날때의 잡음에 대한 인지가 더 높아진다.
청각심리특성을 이용하여 오디오신호를 부호화한다는 것은 기본적으로 이 두가지의 특성을 이용하여 하나의 임계대역내에서 얼마나 잡음을 할당할 수 있는가를 계산한 후, 양자화시 양자화잡음을 그만큼 발생시킴으로써 부호화에 의한 정보의 손실을 최소화하는 것이다. 이러한 디지탈 오디오 부호화방법의 응용은 디지탈 오디오 방송이나 오디오기기, 멀티미디어 및 AOD(Audio On Demand) 등이 있다.
한편, 디지탈 오디오 부호화방법에서는 1개의 비트스트림내에 128 kbps, 96kbps 또는 64 kbps 중 1개의 비트율에 대한 정보만을 가지고 있다. 즉, 비트스트림의 헤더에 비트율에 대한 정보를 담고 고정적으로 사용한다. 이러한 구성은 전송선이 오디오 데이타 전용으로 단방향으로만 사용될때는 별 문제가 없다. 예를 들어, 디지탈 오디오 방송과 같이 단일 전송선로에서 단방향으로 하나의 오디오신호가 전송되어지는 경우 1개의 비트율로 구성된 비트스트림은 효율적으로 운영될 수 있다. 그러나, 오디오신호가 비디오신호와 함께 전송되며, 비디오의 화질과 오디오의 음질 사이에 상호보완관계를 지원하는 양방향통신이 가능하다면 1개의 비트율로 구성된 비트스트임을 사용할때 전송선로의 효율적인 운영이 어려워진다. 예를 들어, 용량이 128 kbps 인 전송선로 상에서 비디오에 64 kbps, 오디오에 64 kbps로 할당하여 전송하다가 비디오를 좀 더 자세히 보고자 할 경우에는 비디오에 할당되는 비트율을 높이고, 오디오에 할당되는 비트율을 낮춰 준다. 이로 인하여 오디오의 음질은 다소 떨어지더라도 원하는 비디오의 화질을 높일 수 있지만 단일 비트율로 구성된 비트스트림을 사용한다면 이러한 방법을 사용하는 것이 불가능해진다. 이와 같이 기존의 오디오 부호화방법은 양방향 통신에서 사용자의 요구에 유연하게 대처할 수 없는 단점이 있다.
이러한 단점을 보완하기 위해, 비트스트림이 저장되어 있는 송신단과 사용자 사이의 중간단계로서, 사용자의 요구에 부응하기 위한 역할을 수행하는 변환기 (transcoder)를 설치한다. 즉, 사용자의 요구에 따라 변환기에서 적절하게 비트스트림을 조작하여 전달한다.
변환기에서 사용자의 요구에 따라 여러가지 비트율로 비트스트림을 재작성하여 전달하는 방법은 크게 2가지로 분류할 수 있다.
그 중 첫번째 방법은 제3도에 도시된 바와 같이 비트스트림에 여러 단계(Layer)의 정보가 포함되어 있어 요구하는 비트율로 단순히 비트스트림만 재작성하여 전달하는 방법이다. 이때 기본단계(Basic Layer)부터 최상위단계(Top Layer)까지가 순차적으로 구성된다. 즉, 각 단계에 따른 부가정보와 오디오 데이타가 모두 하나의 비트스트림에 기록되는 방식이다. 따라서, 사용자의 요구가 기본단계만을 요구하면 기본단계에 해당하는 비트스트림을 전달하고, 단계 1에 대한 정보를 요구하면 기본단계와 단계 1까지의 비트스트림을 전달한다. 또한, 최상위단계의 정보를 요구하면 비트스트림 전체를 전달한다. 여기서 변환기는 사용자의 요구에 따라 단순하게 비트스트림을 분리하여 전달하는 역할만 수행한다.
두번째 방법은 제4도에 도시된 바와 같이 변환기(40)에서 재부호화 (reencoding)하는 것이다. 여기서 재부호화란, 복호화기(41)에서 완전히 신호를 복원한 후, 부호화기(42)에서 사용자가 요구하는 비트율로 다시 부호화하여 전달하는 것이다. 즉, 복호화기(41)에서 복호화의 전과정을 거쳐 PCM 데이타를 생성하고, 부호화기(42)에서 부호화의 전과정을 거쳐 원하는 비트율에 대한 비트스트림을 생성하여 전달하는 것이다.
그러나, 상술한 두가지 방법은 각각 장단점이 있다. 첫번째 방법은 변환기에서 수행하는 작업이 간단하기 때문에 변환기의 복잡도(complexity)가 낮아 비용이 적게 드는 반면, 비트스트림에 많은 부분의 중복(redundancy)이 발생하기 때문에 음질이 떨어지는 단점이 있다. 두번째 방법은 변환기의 입력에 사용되는 비트스트림에 중복되는 부분이 없으므로 음질이 첫번째 방법에 비해 좋은 반면, 변환기의 역할이 복호화기와 부호화기의 역할을 동시에 수행하여야 하기 때문에 복잡도가 높아 비용이 많이 들고 재부호화에 따른 시간 지연이 발생하는 단점이 있다.
비트율 조절이 가능한 시스템에 있어서 변환기의 역할은 사용자와 송신단간의 단순한 연결이므로 복잡도 면에서 낮을수록 좋다. 따라서 일반적으로 시간지연이 없고 비용이 적게 드는 낮은 복잡도의 변환기를 사용하면서 제한조건으로 재부호화를 하지 않는 방법을 제안한다. 재부호화를 하지 않고 비트율 조절이 가능한 비트스트림을 구성하는 첫번째 방법은 변환기가 간단한 반면 각 단계의 정보가 중복되어 표현되기 때문에 음질이 떨어진다. 이러한 점은 변환기에서 약간의 처리를 한다면 더욱 좋은 음질을 기대할 수 있다. 즉, 부호화기에서 각 단계의 처리에 필요한 정보를 제공한다면 변환기에서는 적은 노력으로 좋은 음질의 비트스트림을 제공할 수 있다.
또한, 오디오 데이타 검색시 단지 어떤 신호들이 있는가만을 찾을때에는 좋은 음질의 신호를 필요로 하지 않는다. 다만 어떤 신호인지 알 수 있을 정도의 음질이면 여러 신호를 같이 보낼 수 있으므로 전송선로를 훨씬 효율적으로 운영할 수 있다.
따라서 본 발명의 목적은 사용자의 요구에 따라 여러 단계의 비트율에 대한 정보를 중복없이 하나의 비트스트림내에 결합시킴으로써 비트율 조절이 가능한 오디오 부호화방법 및 부호화기를 제공하는데 있다.
본 발명의 다른 목적은 부호화된 비트스트림을 읽어들여 부가정보와 오디오데이타를 분리하고, 원하는 단계의 부가정보를 이용하여 다른 비트율의 비트스트림을 생성하는 비트율 변환방법 및 변환기를 제공하는데 있다.
상기 목적을 달성하기 위하여 본 발명에 의한 비트율 조절이 가능한 오디오 부호화방법은
하나의 비트스트림에 포함시키고자 하는 다단계의 비트율을 각각 결정하는 과정; 및
입력되는 디지탈 오디오 데이타를 각 단계별로 청각심리모델과 다차원 나무구조를 가진 벡터양자화기법을 이용하여 부호화하여 최상위 단계의 오디오 데이타와 각 단계의 비트율에 대한 부가정보를 결합한 비트스트림을 형성하는 과정을 구비하는 것을 특징으로 한다.
상기 목적을 달성하기 위하여 본 발명에 의한 비트율 조절이 가능한 오디오 부호화기는
입력되는 디지탈 오디오 데이타를 대역 필터링을 통하여 소정수의 주파수 대역으로 분할하는 매핑부;
스케일팩터를 이용하여 각 분할대역에 대하여 정규화를 수행하는 정규화부;
하나의 비트스트림에 포함하고자 하는 다단계에 대하여 각 단계별로 대역폭을 한정시킨 후, 청각심리모델을 이용하여 각 분할대역에서의 마스킹 문턱치를 계산하는 청각심리부;
각 단계별로 독립적으로 수행되며, 상기 청각심리부에서 계산한 마스킹 문턱치와 각 분할대역에서 발생하는 잡음의 비를 이용하여 상기 정규화된 데이타에 대하여 다차원 나무구조 벡터양자화를 수행하는 양자화부; 및
상기 양자화부에서 생성되는 각 단계에서 계산된 비트율에 대한 부가정보와 최상위 단계에서 생성된 오디오 데이타에 대한 정보가 결합된 비트스트림을 생성하는 비트패킹부를 구비하는 것을 특징으로 한다.
상기 다른 목적을 달성하기 위하여 본 발명에 의한 비트율 변환방법은
다단계의 비트율에 대한 정보가 포함된 부호화된 제1비트스트림으로부터 각 단계에 대한 부가정보와 최상위 단계의 오디오 데이타에 대한 정보를 분리하는 과정; 및
각 단계의 부가정보를 이용하여 해당 코드북상에서의 경로를 재작성하여 단일 비트율의 비트스트림을 형성하는 과정을 구비하는 것을 특징으로 한다.
상기 다른 목적을 달성하기 위하여 본 발명에 의한 비트율 변환기는
다단계의 비트율에 대한 정보가 포함된 부호화된 제1비트스트림으로부터 각 단계에 대한 부가정보와 최상위 단계의 오디오 데이타에 대한 정보를 분리하는 비트스트림 해체부;
각 단계의 부가정보를 이용하여 해당 코드북상에서의 경로를 재작성하여 해당 단계에 대한 비트율을 갖는 제2비트스트림을 재구성하는 비트스트림 재구성부; 및
해당 단계에 대한 부가정보와 오디오 데이타에 대한 정보를 결합하는 비트패킹부를 구비하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히설명하기로 한다.
제5도는 본 발명에 의한 비트율 조절이 가능한 오디오 부호화기의 구성을 나타낸 블럭도로서, 매핑부(51), 정규화부(52), 청각심리부(53), 양자화부(54)와 비트패킹부(55)로 구성된다.
제5도에 도시된 오디오 부호화기(50)의 동작을 설명하면 다음과 같다.
매핑부(51)에서는 입력신호를 주파수 대역별로 분류하는데, 입력신호를 대역별로 나누어 처리해 줌으로써 나중에 신호를 복원하였을 경우 양자화처리시에 발생한 양자화잡음에 의한 영향이 전대역에 퍼지는 현상을 줄일 수 있고 인간의 청각심리특성 가운데 임계대역 효과를 고려해 주기가 편리하다.
정규화부(52)는 각 분할대역에서 가장 큰 신호 즉, 스케일팩터를 찾는 스케일팩터 계산부(미도시)와 스케일팩터를 이용하여 정규화를 시키는 정규화부(미도시)로 나누어진다.
청각심리부(53)에서는 입력신호를 변환방법에 의해 주파수성분으로 변환한 후, 각 신호간의 상호작용으로 인해 발생하는 마스킹 현상을 이용하여 각 분할대역에서의 마스킹 문턱치를 계산한다. 이때 여러 단계에 대한 정보를 담기 위해서는 각 단계에 따라 대역폭을 한정시킨 후 각 단계에 대한 마스킹 문턱치를 계산한다.
양자화부(54)에서는 복원시에 발생하는 오차가 최소가 되도록 신호의 특성에 따라서 양자화 처리를 수행한다. 이때 청각심리부(53)에서 계산한 마스킹 문턱치와 각 분할대역에서 발생하는 잡음의 비인 NMR(Noise-to-Masking threshold Ratio)을 이용하여 전대역의 NMR이 일정하게 유지되도록 양자화를 행하는데, 각 단계별로 독립된 양자화를 행한다. 예를 들어, 기본 단계가 6 kbps이고, 중간 단계 (Intermediate Layer)가 24 kbps이고, 최상위 단계(Top Layer)가 64 kbps인 경우 각 단계별로 양자화를 행한다.
본 발명에서 사용하는 양자화부(54)는 다차원 나무구조 벡터양자화기법 (Multi-Dimension Tree-Structured Vector Quantization)을 사용하므로 이때, 오디오 데이타에 대한 정보는 벡터 코드북에서의 탐색 경로이다. 또한, 부가정보는 어떤 차원의 코드북을 사용했는가에 대한 정보(cbsel 정보)와 각 분할대역에서 정규화를 위해 사용된 스케일팩터에 대한 정보이다. 어떤 차원의 코드북을 사용하였는가는 양자화시 NMR에 의해 결정된다. 즉, 모든 대역의 NMR이 일정하게 유지되도록 각 분할대역의 데이타에 대해 여러 코드북을 적용하여 결정한다. 복호화기에서는 cbsel 정보와 오디오 데이타에 대한 경로정보를 가지고 복호화를 수행한다. 즉, 어떤 코드북인가와 어떤 경로인가를 알면 해당 코드북에서 오디오 데이타를 찾을 수 있다.
비트패킹부(55)에서는 각 단계에서 계산된 부가정보와 최상위 단계에서 생성된 오디오 데이타에 대한 정보를 결합한다. 본 발명에서는 각 단계에 대한 부가정보 중 어떤 차원의 코드북을 사용했는가에 대한 정보(cbsel 정보)를 비트스트림에 저장한다. 예를 들면, 기본 단계의 cbsel 정보, 단계 1의 cbsel 정보, 단계 2의 cbsel 정보와 최상위 단계의 cbsel 정보가 기록된다. 오디오 데이타에 대한 정보는 최상위 단계에 대한 cbsel 정보에 따른 코드북에서의 경로가 기록된다.
제6도는 본 발명에서 사용하는 변환기(60)의 구성을 나타낸 블럭도로서, 비트스트림 해체부(61), 비트스트림 재구성부(62)와 비트패킹부(63)로 구성된다.
제6도에 도시된 변환기(60)의 동작을 설명하면 다음과 같다.
비트스트림 해체부(61)에서는 비트스트림의 각 부분 즉, 각 단계에 대한 부가정보와 최상위 단계의 오디오 데이타에 대한 정보를 분리한다. 여기서, 각 단계에 대한 부가정보는 cbsel 정보와 스케일팩터 정보이고, 최상위 단계의 오디오 데이타에 대한 정보는 벡터 코드북에서의 탐색경로 정보이다.
비트스트림 재구성부(62)에서는 사용자가 요구하는 단계를 만족시키기 위해 해당 단계의 부가정보 즉, cbsel 정보를 이용하여 해당 코드북상에서의 경로를 재작성하여 해당 단계에서의 오디오 데이타를 생성한다. 여기서, cbsel 정보는 이미 부호화기(50)에서 최선으로 선택되어진 것이기 때문에 변환기(60)에서 cbsel 정보를 다시 찾을 필요는 없다. 이것이 비트스트림상에 여러 단계의 cbsel 정보를 기록해두는 이유이다. 최선의 cbsel 정보를 찾기 위해서는 NMR을 이용해야 하므로 청각심리모델에서 계산된 마스킹 문턱치가 있어야 한다. 따라서, 변환기(60)에서 최선의 cbsel 정보를 얻기 위해서는 청각심리모델을 사용해야 하는 부담이 생긴다. 부호화기(50)에서는 각 단계에서 필요로 하는 마스킹 문턱치를 계산하여 해당 단계에서 최선의 cbsel 정보를 찾게 된다. 그러므로 변환기(60)에서는 부호화기(50)에서 계산한 cbsel 정보를 이용하여 오디오 데이타에 대한 코드북에서의 경로만 재작성하면 다른 단계에 대한 비트스트림이 생성된다.
비트패킹부(63)에서는 사용자가 요구하는 단계에 대한 부가정보와 오디오 데이타에 대한 정보를 결합한다.
본 발명에서는 여러 단계의 비트율에 대한 정보를 하나의 비트스트림에서 표현하여 저장한 후, 사용자의 요구에 따라 각 단계의 비트율에 대한 비트스트림을 간단한 변환기를 통해 재구성하여 보내준다. 즉, 부호화기(50)에서 만들어진 비트스트림은 임의의 데이타베이스에 저장되어 있는 상태에서 사용자의 요구에 따라 그 데이타베이스내에 저장된 비트스트림을 이용하여 원하는 비트율에 대한 비트스트림을 변환기(60)에서 재구성하여 전달한다. 예를 들면, 기본단계(Basic Layer)는 6 kbps, 단계 1(Layer 1)은 20 kbps, 단계 2(Layer 2)는 40 kbps 그리고 최상위 단계(Top Layer)는 64 kbps로 가정할 경우, 데이타베이스내에 저장되어 있는 비트스트림은 최상위 단계인 64 kbps에 대한 비트스트림내에 기본 단계, 단계 1, 단계 2에 대한 정보가 함께 저장되어 있는 형태이다. 만일 어떤 사용자가 최상위 단계에 대한 데이타를 요구하면 데이타베이스에 있는 비트스트림을 어떤 가공도 없이 전달한다. 또 다른 사용자가 단계 1에 대한 데이타를 요구하면 데이타베이스내에 있는 비트스트림을 변환기에서 비트스트림내에 있는 단계 1에 대한 정보를 이용하여 재구성한 후 전달한다.
그러면, 하나의 비트스트림이 2 단계로 구성되는 경우를 예로 들어 본 발명의 부호화기(50)를 좀 더 상세히 설명하기로 한다. 이 경우 기본 단계(Basic Layer)는 6 kbps이고, 최상위 단계(Top Layer)는 64 kbps로 구성되는 경우이다. 이때 최상위 단계의 대역은 15 kHz까지로 제한되며 음질은 고음질로 하고, 기본 단계의 대역은 4 kHz까지로 제한되며 구별가능한 음질로 한다. 입력 데이타는 48 kHz로 샘플링된 PCM 데이타이고, 1 프레임의 크기는 1152개이다. 그리고 1 프레임에서 사용할 수 있는 비트의 수는 1536비트이다. 먼저 부호화기(50)에 대하여 설명하기로 한다.
입력 데이타는 먼저 매핑부(51)에서 64개의 대역으로 분할된다. 각 분할대역마다 18개의 데이타가 생성되며 한 대역의 대역폭은 375 Hz이다. 최상위 단계에 대한 대역은 40개의 대역으로 제한한다. 각 분할대역에서 절대값이 가장 큰 샘플을 찾아 다음 표1에 도시된 63개의 스케일팩터 테이블에서 가장 유사한 값중 큰 값으로 매핑하여 그 대역의 스케일팩터로 둔다. 각 분할대역의 스케일팩터를 모두 찾은 후, 정규화부(52)에서 각 스케일팩터를 이용하여 정규화를 수행한다.
< 표 1 > 최상위 단계의 스케일팩터
청각심리부(53)에서는 PCM 데이타를 입력으로 하여 최상위 단계와 기본 단계에 대한 마스킹값을 각각 계산한다. 마스킹값을 계산하는 방법은 ISO/IEC 11172-3의 모델 2를 사용한다.
양자화부(54)에서는 정규화부(52)에서 정규화된 데이타에 대하여 청각심리부 (53)에서 계산된 마스킹값을 이용하여 양자화를 수행한다.
이때, 먼저 다차원 나무구조를 가진 벡터양자화기법을 사용하여 최상위 단계에 대한 양자화를 실시한다. 다차원 나무구조를 가진 벡터양자화기법에 대한 코드북은 각 차원마다 1개씩이다. 각 차원의 코드북은 제7도에 도시된 바와 같이 깊이(depth)에 따라 서브-코드북(sub-codebook)으로 분류한다. 여기서는 6차원, 3차원, 2차원 그리고 1차원인 모두 4개 차원의 코드북을 사용한다. 최상위 단계에 대한 양자화과정에 대하여 설명하면 다음과 같다.
먼저, 각 분할대역에서 가장 큰 NMR을 갖는 대역(sb)을 찾고, 대역(sb)의 cbsel 값(초기값은 0임)을 1 증가시킨다. 대역(sb)에 대한 cbsel 값에 나타난 코드북을 이용하여 양자화를 한 후, 이때 발생한 잡음에 대하여 NMR을 다시 계산하고, 소요되는 비트수를 이용하여 총 비트발생량을 다시 계산한다. 여기서, cbsel에 들어가는 값의 의미는 다음 표2와 같다. 즉, cbsel의 값이 3이면 6차원의 코드북에 깊이가 6인 서브 코드북을 사용한다.
< 표 2 > cbsel 테이블
한편, 최상위 단계의 양자화가 완료되면 양자화된 값을 이용하여 기본 단계의 양자화를 실시한다. 기본 단계의 양자화는 6차원의 코드북만 사용하여 대역폭이 제한되는 것을 제외하고는 최상위 단계의 양자화와 유사하다.
따라서, 비트패킹부(55)에서 생성되는 비트스트림의 구성은 제8도에 도시된 바와 같다. 즉, 비트스트림의 제일 앞단에 헤더 정보가 들어가고, 이어 기본 단계에 대한 cbsel 값(cbsel_basic), 최상위 단계에 대한 cbsel 값(cbsel_top)과 스케일팩터가 순차적으로 기록된다. 맨 마지막에 최상위 단계에서의 오디오 데이타에 대한 코드북에서의 경로가 기록된다.
다음, 하나의 비트스트림이 2 단계로 구성되는 경우를 예로 들어 본 발명의 변환기(60)를 좀 더 상세히 설명하기로 한다. 이때, 변환기(60)에서 1 프레임에 사용하는 비트의 수는 144 비트이다.
먼저, 최상위 단계의 스케일팩터를 읽어 기본 단계의 대역수 10개에 대한 스케일팩터를 다음 표3에 도시된 스케일팩터 테이블에 대해 가장 유사한 값으로 매핑한다.
< 표 3 > 기본 단계의 스케일팩터
최상위 단계의 cbsel 정보와 오디오 데이타의 경로 정보를 이용하여 최상위 단계의 양자화값을 찾는다. 그리고, 기본 단계에 cbsel 값을 이용하여 기본 단계의 오디오 데이타에 대한 경로를 찾는다.
한편, 기본 단계에 대한 복호화는 우선 cbsel 정보와 오디오 데이타에 대한 경로 정보를 이용하여 양자화값을 코드북에서 찾은 후, 스케일팩터 정보를 이용하여 역정규화를 수행한다. 그리고, 합성필터(미도시)를 거쳐 다운샘플링 필터(미도시)를 통해 8 kHz PCM 데이타를 생성한다.
본 발명에 의한 비트율 조절이 가능한 오디오 부호화방법 및 부호화기는 오디오 데이터 검색분야, AOD, 인터액티브 게임(Interactive Game) 등 양방향 통신이 가능한 시스템에 적용할 수 있다.
상술한 바와 같이 본 발명에 의한 비트율 조절이 가능한 오디오 부호화방법 및 부호화기는 양방향 통신이 가능한 시스템에 있어서 다단계의 비트율에 대한 정보를 하나의 비트스트림내에 표현하여 비트율 조절이 가능하도록 함으로써 전송선로를 효율적으로 사용할 수 있을뿐 아니라 다양한 사용자의 요구를 충족시킬 수 있다. 또한, 변환기의 복잡도에 비해 좋은 음질을 제공할 수 있고, 오디오 데이타베이스 등에서 원하는 오디오 데이타를 용이하게 검색할 수 있다.
제1도는 청각심리특성을 이용한 일반적인 오디오 부호화기의 구성을 나타낸 블럭도.
제2도는 마스킹 현상을 설명하기 위한 도면.
제3도는 다단계 비트율에 대한 정보를 가지고 있는 비트스트림을 나타낸 도면.
제4도는 재부호화를 설명하기 위한 블럭도.
제5도는 본 발명에 의한 비트율 조절이 가능한 오디오 부호화기의 구성을 나타낸 블럭도.
제6도는 본 발명에 의한 비트율 변환기의 구성을 나타낸 블럭도.
제7도는 다차원 나무구조를 가진 벡터양자화기법에 있어서 코드북의 구조를 나타낸 도면.
제8도는 2 단계로 구성되는 비트스트림의 예를 나타낸 도면.

Claims (6)

  1. 하나의 비트스트림에 포함시키고자 하는 다단계의 비트율을 각각 결정하는 과정; 및
    입력되는 디지탈 오디오 데이타를 각 단계별로 청각심리모델과 다차원 나무구조를 가진 벡터양자화기법을 이용하여 부호화하여 최상위 단계의 오디오 데이타와 각 단계의 비트율에 대한 부가정보를 결합한 비트스트림을 형성하는 과정을 구비하는 것을 특징으로 하는 비트율 조절이 가능한 오디오 부호화방법.
  2. 입력되는 디지탈 오디오 데이타를 대역 필터링을 통하여 소정수의 주파수 대역으로 분할하는 매핑부;
    스케일팩터를 이용하여 각 분할대역에 대하여 정규화를 수행하는 정규화부;
    하나의 비트스트림에 포함하고자 하는 다단계에 대하여 각 단계별로 대역폭을 한정시킨 후, 청각심리모델을 이용하여 각 분할대역에서의 마스킹 문턱치를 계산하는 청각심리부;
    각 단계별로 독립적으로 수행되며, 상기 청각심리부에서 계산한 마스킹 문턱치와 각 분할대역에서 발생하는 잡음의 비를 이용하여 상기 정규화된 데이타에 대하여 다차원 나무구조 벡터양자화를 수행하는 양자화부; 및
    상기 양자화부에서 생성되는 각 단계에서 계산된 비트율에 대한 부가정보와 최상위 단계에서 생성된 오디오 데이타에 대한 정보가 결합된 비트스트림을 생성하는 비트패킹부를 구비하는 것을 특징으로 하는 비트율 조절이 가능한 오디오 부호화기.
  3. 제2항에 있어서, 상기 비트스트림에 저장되는 각 단계에 대한 부가정보는 사용한 코드북의 차원정보와 각 분할대역에서 정규화를 위해 사용된 스케일팩터정보인 것을 특징으로 하는 비트율 조절이 가능한 오디오 부호화기.
  4. 제3항에 있어서, 상기 비트스트림에 저장되는 오디오 데이타에 대한 정보는 상기 최상위 단계에서 사용한 해당 차원의 코드북에서의 탐색경로정보인 것을 특징으로 하는 비트율 조절이 가능한 오디오 부호화기.
  5. 다단계의 비트율에 대한 정보가 포함된 부호화된 제1비트스트림으로 부터 각 단계에 대한 부가정보와 최상위 단계의 오디오 데이타에 대한 정보를 분리하는 과정; 및
    각 단계의 부가정보를 이용하여 해당 코드북상에서의 경로를 재작성하여 단일 비트율의 비트스트림을 형성하는 과정을 구비하는 것을 특징으로 하는 비트율 변환방법.
  6. 다단계의 비트율에 대한 정보가 포함된 부호화된 제1비트스트림으로부터 각 단계에 대한 부가정보와 최상위 단계의 오디오 데이타에 대한 정보를 분리하는 비트스트림 해체부;
    각 단계의 부가정보를 이용하여 해당 코드북상에서의 경로를 재작성하여 해당 단계에 대한 비트율을 갖는 제2비트스트림을 재구성하는 비트스트림 재구성부; 및
    해당 단계에 대한 부가정보와 오디오 데이타에 대한 정보를 결합하는 비트패킹부를 구비하는 것을 특징으로 하는 비트율 변환기.
KR1019960011281A 1996-04-15 1996-04-15 비트율 조절이 가능한 오디오 부호화방법 및 이를이용한오디오부호화기 KR100370411B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960011281A KR100370411B1 (ko) 1996-04-15 1996-04-15 비트율 조절이 가능한 오디오 부호화방법 및 이를이용한오디오부호화기

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960011281A KR100370411B1 (ko) 1996-04-15 1996-04-15 비트율 조절이 가능한 오디오 부호화방법 및 이를이용한오디오부호화기

Publications (2)

Publication Number Publication Date
KR970071695A KR970071695A (ko) 1997-11-07
KR100370411B1 true KR100370411B1 (ko) 2003-04-07

Family

ID=37416438

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960011281A KR100370411B1 (ko) 1996-04-15 1996-04-15 비트율 조절이 가능한 오디오 부호화방법 및 이를이용한오디오부호화기

Country Status (1)

Country Link
KR (1) KR100370411B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100908116B1 (ko) * 2002-12-12 2009-07-16 삼성전자주식회사 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
KR100803205B1 (ko) * 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03191618A (ja) * 1989-12-21 1991-08-21 Toshiba Corp 可変レート符号化方法
JPH03191628A (ja) * 1989-12-21 1991-08-21 Toshiba Corp 可変レート符号化方式
JPH04333900A (ja) * 1991-05-10 1992-11-20 Matsushita Electric Ind Co Ltd 音声符号化装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03191618A (ja) * 1989-12-21 1991-08-21 Toshiba Corp 可変レート符号化方法
JPH03191628A (ja) * 1989-12-21 1991-08-21 Toshiba Corp 可変レート符号化方式
JPH04333900A (ja) * 1991-05-10 1992-11-20 Matsushita Electric Ind Co Ltd 音声符号化装置

Also Published As

Publication number Publication date
KR970071695A (ko) 1997-11-07

Similar Documents

Publication Publication Date Title
JP3354863B2 (ja) ビット率の調節可能なオーディオデータ符号化/復号化方法及び装置
US6741965B1 (en) Differential stereo using two coding techniques
JP2756515B2 (ja) 可聴信号の知覚符号化方法および音声信号伝送方法
JP3277679B2 (ja) 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置
US5490130A (en) Apparatus and method for compressing a digital input signal in more than one compression mode
JP4925671B2 (ja) デジタル信号の符号化/復号化方法及びその装置並びに記録媒体
JP3123290B2 (ja) 圧縮データ記録装置及び方法、圧縮データ再生方法、記録媒体
US20040174911A1 (en) Method and apparatus for encoding and/or decoding digital data using bandwidth extension technology
KR100310216B1 (ko) 다중채널오디오신호를위한코딩장치또는방법
KR100908117B1 (ko) 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
EP1536410A1 (en) Method and apparatus for encoding/decoding MPEG-4 BSAC audio bitstream having ancillary information
JPH0830295A (ja) ディジタル・オーディオ信号記録・再生方法と装置
KR20070037945A (ko) 오디오 신호의 부호화/복호화 방법 및 장치
JPH08190764A (ja) ディジタル信号処理方法、ディジタル信号処理装置及び記録媒体
KR100528325B1 (ko) 비트율 조절이 가능한 스테레오 오디오 부호화 및복호화방법 및 그 장치
US7098814B2 (en) Method and apparatus for encoding and/or decoding digital data
JP3227942B2 (ja) 高能率符号化装置
RU2214047C2 (ru) Способ и устройство для масштабируемого кодирования/декодирования аудиосигналов
KR100370411B1 (ko) 비트율 조절이 가능한 오디오 부호화방법 및 이를이용한오디오부호화기
US6161088A (en) Method and system for encoding a digital audio signal
US6463405B1 (en) Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband
JP3304739B2 (ja) ロスレス符号装置とロスレス記録媒体とロスレス復号装置とロスレス符号復号装置
JP3531178B2 (ja) ディジタル信号処理装置及び方法
KR0144935B1 (ko) 비트율 조정이 가능한 부호화 및 복호화장치
KR100563161B1 (ko) 부호화 방법 및 장치, 복호화 방법 및 장치,기록 매체

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121228

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20131230

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee