KR20040086878A - 대역 확장 기법을 이용한 오디오 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치 - Google Patents

대역 확장 기법을 이용한 오디오 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치 Download PDF

Info

Publication number
KR20040086878A
KR20040086878A KR1020030017977A KR20030017977A KR20040086878A KR 20040086878 A KR20040086878 A KR 20040086878A KR 1020030017977 A KR1020030017977 A KR 1020030017977A KR 20030017977 A KR20030017977 A KR 20030017977A KR 20040086878 A KR20040086878 A KR 20040086878A
Authority
KR
South Korea
Prior art keywords
audio data
band
base layer
encoding
information
Prior art date
Application number
KR1020030017977A
Other languages
English (en)
Other versions
KR100923300B1 (ko
Inventor
김중회
김상욱
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020030017977A priority Critical patent/KR100923300B1/ko
Priority to CNB031650317A priority patent/CN1290078C/zh
Publication of KR20040086878A publication Critical patent/KR20040086878A/ko
Application granted granted Critical
Publication of KR100923300B1 publication Critical patent/KR100923300B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • G10L19/0216Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation using wavelet decomposition
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

대역 확장 기법을 이용한 오디오 데이터의 부호화 방법, 그 장치, 복호화 방법 및 그 장치가 개시된다.
본 발명에 따라 오디오 데이터를 부호화하는 방법은 (a) 오디오 데이터를 대역 확장 부호화하여 대역 제한 오디오 데이터를 출력하고 대역 확장 정보를 생성하는 단계: (b) 상기 대역 제한 데이터를 비트율 조절가능하도록 기저 계층과 적어도 하나의 상위 계층을 갖는 계층 구조로 허프만 부호화하는 단계; 및 (c) 허프만 부호화된 대역 제한 오디오 데이터와 상기 대역 확장 정보를 다중화하는 단계를 포함하는 것을 특징으로 한다. 이에 의해, 네트워크 상황 등에 따라 비트율 조절가능하며, 복호화단에서 비트스트림의 일부만을 가지고 복원하더라도 보다 좋은 품질을 보장할 수 있다.

Description

대역 확장 기법을 이용한 오디오 데이터의 부호화 방법, 그 장치, 복호화 방법 및 그 장치{Method and apparatus for encoding/decoding audio data using bandwidth extension technology}
본 발명은 오디오 데이터의 부호화 및 복호화에 관한 것으로, 보다 상세하게는 대역 확장 기법을 이용한 오디오 데이터의 부호화 방법, 그 장치, 복호화 방법 및 그 장치에 관한 것이다.
최근 디지털 신호처리 기술의 발달에 의해 오디오 신호는 디지털 데이터로 저장되고 재생되는 경우가 대부분이다. 디지털 오디오 저장/재생 장치는 아날로그 오디오 신호를 샘플링하고 양자화하여 디지탈 신호인 PCM(Pulse Code Modulation) 오디오 데이터로 변환하여 CD, DVD와 같은 정보저장매체에 저장해둔 다음 사용자가 필요로 할 때 이를 재생해서 들을 수 있도록 해준다. 디지털 방식에 의한 오디오 신호의 저장/복원 방식은 LP(Long-Play Record), 마그네틱 테이프와 같은 아날로그 저장/복원 방식에 비해 음질을 크게 향상시켰고 저장 기간에 따른 열화 현상을 현저히 감소시켰으나 디지털 데이터의 크기가 적지 않아 저장 및 전송이 원할하지 못한 문제점이 있었다.
이와 같은 문제점을 해결하기 위해, 디지털 오디오 신호의 크기를 줄이기 위한 다양한 압축 방식이 사용되고 있다. ISO (International Standard Organization)에 의해 표준화 작업이 이루어진 MPEG (Moving Pictures Expert Group)/audio나 Dolby사에 의해 개발된 AC-2/AC-3는 인간의 심리음향 모델(Psychoacoustic Model)을 이용하여 데이터의 양을 줄이는 방법을 채용하였고그 결과 신호의 특성에 관계없이 효율적으로 데이터의 양을 줄일 수 있었다. 즉, MPEG/audio 표준이나 AC-2/AC-3 방식은 이전의 디지털 부호화 방식에 비해 1/6 내지 1/8로 줄어든 64 Kbps - 384 Kbps 비트율만으로 CD의 음질과 거의 같은 정도의 음질을 제공한다.
그러나, 이들 방법은 모두 고정된 비트율에 대해 최적의 상태를 찾아 양자화 과정과 부호화 과정을 거치는 방식을 따르므로, 네트워크를 통해 전송할 때 네트워크 상황이 좋지 않아 전송 대역폭이 낮아지면 끊김이 발생하며 사용자에게 더 이상의 서비스를 제공할 수 없게 되는 문제점이 있다. 또한, 제한된 저장 용량을 가지고 있는 이동식 기기에 적합하도록 좀 더 작은 크기의 비트스트림으로 변환하고자 할 때 크기를 줄이기 위해서는 재부호화 과정을 거쳐야 하므로 많은 계산량이 요구된다.
이에, 본 출원인은 비트 분할 산술 부호화(BSAC, Bit-Sliced Arithmetic Coding) 기법을 사용하여 비트율 조절이 가능한 오디오 부호화/복호화 방법 및 장치를 1997년 11월 19일자 대한민국 특허출원 제97-61298호로 출원하여 2000년 4월 17일자 등록특허 제261253호로 등록받았다. BSAC에 따르면, 높은 비트율로 부호화된 비트스트림을 낮은 비트율의 비트스트림으로 만들 수도 있고 그 중 일부의 비트스트림만을 가지고도 복원이 가능하므로 네트워크에 과부화가 걸리거나 복호화기의 성능이 좋지 않거나 또는 사용자가 낮은 비트율을 요구하면 비트스트림의 일부만을 가지고도 - 비트율이 낮아진 만큼 성능의 열화를 보이겠지만 - 사용자에게 어느 정도의 음질로 서비스를 제공할 수 있다. 그럼에도 불구하고, 비트율이 낮아지면 성능의 열화는 피할 수 없는 문제점이 있다.
더불어, BSAC는 산술 부호화(arithmetic coding)를 채용하고 있음으로 인해 complexity가 높아 실제로 장치에 구현할 때 비용이 증가하는 단점이 있다. 또한, BSAC는 오디오 신호를 변환함에 있어 MDCT(Modified Discrete Cosine Transform)를 사용함에 따라 낮은 계층에서 음질의 열화가 보다 심해지는 문제점이 있다.
따라서, 본 발명이 이루고자 하는 기술적 과제는 비트스트림의 일부만을 가지고 복원하더라도 좋은 품질을 보장할 수 있는 비트율 조절가능한 오디오 부호화 방법, 그 장치, 복호화 방법 및 그 장치를 제공하는 것이다.
본 발명이 이루고자 하는 다른 기술적 과제는 complexity가 보다 낮은 비트율 조절가능한 오디오 부호화 방법, 그 장치, 복호화 방법 및 그 장치를 제공하는 것이다.
본 발명이 이루고자 하는 또 다른 기술적 과제는 낮은 계층에서도 보다 양호한 음질을 제공할 수 있는 비트율 조절가능한 오디오 부호화 방법, 복호화 방법, 그 부호화 장치 및 복호화 장치를 제공하는 것이다.
도 1은 본 발명에 따른 부호화 장치의 블록도,
도 2는 도 1의 부호화 장치의 상세 블럭도,
도 3은 본 발명에 따른 복호화 장치의 블록도,
도 4는 도 3의 복호화 장치의 상세 블럭도,
도 5는 FGS 부호화기(2)로부터 출력된 비트스트림의 구조도,
도 6은 도 5의 부가 정보의 상세 구조도,
도 7은 다중화기(3)로부터 출력되거나 역다중화기(7)로 입력되는 비트스트림의 구조도,
도 8은 본 발명의 부호화 장치 및 복호화 장치에서 각각 수행되는 허프만 부호화/복호화 방식을 설명하기 위한 참고도,
도 9는 BWE 복호화기(9)에서 수행되는 대역 확장 복호화, 즉 BWE 복호화를 보다 상세히 설명하기 위한 참고도,
도 10은 본 발명에 따른 부호화 방법을 설명하기 위한 플로우챠트,
도 11은 본 발명에 따른 복호화 방법을 설명하기 위한 플로우챠트이다.
상기 기술적 과제는 본 발명에 따라 오디오 데이터를 부호화하는 방법에 있어서, (a) 오디오 데이터를 대역 확장 부호화하여 대역 제한 오디오 데이터를 출력하고 대역 확장 정보를 생성하는 단계: (b) 상기 대역 제한 데이터를 비트율 조절가능하도록 기저 계층과 적어도 하나의 상위 계층을 갖는 계층 구조로 허프만 부호화하는 단계; 및 (c) 허프만 부호화된 대역 제한 오디오 데이터와 상기 대역 확장 정보를 다중화하는 단계를 포함하는 것을 특징으로 하는 부호화 방법에 의해 달성된다.
상기 (b)단계는 (b11) 상기 기저 계층에 해당하는 부가 정보를 차분 부호화하는 단계; (b12) 상기 기저 계층에 해당하는 복수개의 양자화 샘플을 비트 분할 부호화하는 단계; 및 (b13) 미리 결정된 복수개의 계층에 대한 부호화가 완료될 때까지 다음 상위 계층에 대해 상기 (b11)단계 및 (b12)단계를 반복 수행하는 단계를 포함하는 것이 바람직하다.
상기 (b)단계는 (b21) 상기 기저 계층에 해당하는 스케일 팩터 정보 및 코딩 모델 정보를 포함하는 부가 정보를 차분 부호화하는 단계; (b22) 상기 기저 계층에 해당하는 복수개의 양자화 샘플을 상기 코딩 모델 정보를 참조하여 비트 분할 부호화하는 단계; 및 (b23) 미리 결정된 복수개의 계층에 대한 부호화가 완료될 때까지 다음 상위 계층에 대해 상기 (b21)단계 및 (b22)단계를 반복 수행하는 단계를 포함하는 것이 바람직하다.
상기 양자화 샘플은 PWT 변환하여 얻어진 것임이 바람직하다.
상기 (c)단계는 상기 부호화된 대역 제한 오디오 데이터 중 상기 기저 계층에 해당하는 데이터가 맨 먼저 배치되고 이어서 상기 대역 확장 정보가 배치되며 다음으로 나머지 상위 계층에 해당하는 데이터가 배치되는 순서로 다중화하는 단계이거나, 상기 대역 확장 정보가 맨 먼저 배치되고 이어서 상기 부호화된 대역 제한 오디오 데이터 중 상기 기저 계층에 해당하는 데이터가 배치되며 다음으로 나머지상위 계층에 해당하는 데이터가 배치되는 순서로 다중화하는 단계임이 바람직하다.
한편, 본 발명의 다른 분야에 따르면 상기 기술적 과제는 오디오 데이터를 복호화하는 방법에 있어서, (a) 입력된 오디오 비트스트림을 역다중화하여 기저 계층과 적어도 하나의 상위 계층을 갖는 계층 구조로 부호화된 대역 제한 오디오 데이터와 대역 확장 정보를 추출하는 단계; (b) 적어도 기저 계층에 해당하는 상기 대역 제한 오디오 데이터를 허프만 복호화하는 단계; 및 (c) 복호화된 오디오 데이터를 기초로 상기 대역 확장 정보를 참조하여 상기 복호화된 오디오 데이터가 커버하지 않는 적어도 일부 대역의 오디오 데이터를 생성하여 상기 복호화된 오디오 데이터에 덧붙이는 단계를 포함하는 것을 특징으로 하는 복호화 방법에 의해서도 달성된다.
상기 (c)단계는 상기 복호화된 오디오 데이터의 경계에 맞도록 상기 일부 대역의 오디오 데이터를 생성하는 단계를 포함하는 것이 바람직하며, 웨이블릿 변환에서 사용되는 필터 뱅크(filter bank)에 경계에 맞도록 상기 일부 대역의 오디오 데이터를 생성하는 단계를 포함하거나, 웨이블릿 변환에서 사용되는 필터 뱅크(filter bank)에 경계에 맞지 않을 경우 상기 복호화된 오디오 데이터와 상기 생성된 일부 대역의 오디오 데이터가 중첩된 부분을 보간(interpolation)하는 단계를 포함하는 것이 더욱 바람직하다.
상기 (a)단계는 상기 비트스트림으로부터 맨 먼저 상기 기저 계층에 해당하는 데이터를 추출하고, 이어서 상기 대역 확장 정보를 추출하며, 다음으로 나머지 상위 계층에 해당하는 데이터를 추출하는 순서로 역다중화하는 단계임이 바람직하다.
상기 (a)단계는 상기 비트스트림으로부터 맨 먼저 상기 대역 확장 정보를 추출하고 이어서 상기 기저 계층에 해당하는 데이터를 추출하며 다음으로 나머지 상위 계층에 해당하는 데이터를 추출하는 순서로 역다중화하는 단계임이 바람직하다.
상기 (b)단계는 (b11) 상기 기저 계층에 해당하는 부가 정보를 차분 복호화하는 단계; (b12) 상기 기저 계층에 해당하는 복수개의 양자화 샘플을 비트 분할 복호화하는 단계; 및 (b13) 미리 결정된 복수개의 계층에 대한 복호화가 완료될 때까지 다음 상위 계층에 대해 상기 (b11)단계 및 (b12)단계를 반복 수행하는 단계를 포함하는 것이 바람직하다.
상기 (b)단계는 (b21) 상기 기저 계층에 해당하는 스케일 팩터 정보 및 코딩 모델 정보를 포함하는 부가 정보를 차분 복호화하는 단계; (b22) 상기 기저 계층에 해당하는 복수개의 양자화 샘플을 상기 코딩 모델 정보를 참조하여 비트 분할 복호화하는 단계; 및 (b23) 미리 결정된 복수개의 계층에 대한 복호화가 완료될 때까지 다음 상위 계층에 대해 상기 (b21)단계 및 (b22)단계를 반복 수행하는 단계를 포함하는 것이 바람직하다.
한편, 본 발명의 다른 분야에 따르면 상기 기술적 과제는 오디오 데이터를 부호화하는 장치에 있어서, 오디오 데이터를 대역 확장 부호화하여 대역 제한 오디오 데이터를 출력하고 대역 확장 정보를 생성하는 BWE 부호화기; 상기 대역 제한 데이터를 비트율 조절가능하도록 기저 계층과 적어도 하나의 상위 계층을 갖는 계층 구조로 허프만 부호화하는 FGS 부호화기; 및 부호화된 대역 제한 오디오 데이터와 상기 대역 확장 정보를 다중화하는 다중화기를 포함하는 것을 특징으로 하는 부호화 장치에 의해서도 달성된다.
상기 FGS 부호화기는 상기 기저 계층에 해당하는 부가 정보를 차분 부호화하고 상기 기저 계층에 해당하는 복수개의 양자화 샘플을 비트 분할 부호화하며, 미리 결정된 복수개의 계층에 대한 부호화가 완료될 때까지 다음 상위 계층에 해당하는 부가 정보 및 복수개의 양자화 샘플을 비트 분할 부호화하는 것이 바람직하다.
상기 FGS 부호화기는 상기 기저 계층에 해당하는 스케일 팩터 정보 및 코딩 모델 정보를 포함하는 부가 정보를 차분 부호화하고, 상기 기저 계층에 해당하는 복수개의 양자화 샘플을 상기 코딩 모델 정보를 참조하여 비트 분할 부호화하며, 미리 결정된 복수개의 계층에 대한 부호화가 완료될 때까지 다음 상위 계층에 해당하는 스케일 팩터 정보 및 코딩 모델 정보를 포함하는 부가 정보를 부호화하고 다음 상위 계층에 해당하는 복수개의 양자화 샘플을 비트 분할 부호화하는 것이 바람직하다.
상기 FGS 부호화기는 PWT 변환하여 상기 양자화 샘플을 얻는 것이 바람직하다.
상기 다중화기는 상기 부호화된 대역 제한 오디오 데이터 중 상기 기저 계층에 해당하는 데이터가 맨 먼저 배치되고 이어서 상기 대역 확장 정보가 배치되며 다음으로 나머지 상위 계층에 해당하는 데이터가 배치되는 순서로 다중화하는 것이 바람직하다.
한편, 본 발명의 다른 분야에 따르면 상기 기술적 과제는 오디오 데이터를복호화하는 장치에 있어서, 입력된 오디오 비트스트림을 역다중화하여 기저 계층과 적어도 하나의 상위 계층을 갖는 계층 구조로 부호화된 대역 제한 오디오 데이터와 대역 확장 정보를 추출하는 역다중화기; 적어도 기저 계층에 해당하는 상기 대역 제한 오디오 데이터를 복호화하는 FGS 허프만 복호화기; 및 복호화된 오디오 데이터를 기초로 상기 대역 확장 정보를 참조하여 상기 복호화된 오디오 데이터가 커버하지 않는 적어도 일부 대역의 오디오 데이터를 생성하여 상기 복호화된 오디오 데이터에 덧붙이는 BWE 복호화기를 포함하는 것을 특징으로 하는 복호화 장치에 의해서도 달성된다.
상기 FGS 복호화기는 상기 기저 계층에 해당하는 부가 정보를 차분 복호화하고, 상기 기저 계층에 해당하는 복수개의 양자화 샘플을 비트 분할 복호화하며, 미리 결정된 복수개의 계층에 대한 복호화가 완료될 때까지 다음 상위 계층에 대응하는 부가 정보를 복호화하고 대응하는 복수개의 양자화 샘플을 비트 분할 복호화하는 것이 바람직하다.
상기 역다중화기는 상기 비트스트림으로부터 맨 먼저 상기 기저 계층에 해당하는 데이터를 추출하고, 이어서 상기 대역 확장 정보를 추출하며, 다음으로 나머지 상위 계층에 해당하는 데이터를 추출하는 순서로 역다중화하거나, 상기 비트스트림으로부터 맨 먼저 상기 대역 확장 정보를 추출하고 이어서 상기 기저 계층에 해당하는 데이터를 추출하며 다음으로 나머지 상위 계층에 해당하는 데이터를 추출하는 순서로 역다중화하는 것이 바람직하다.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다.
도 1은 본 발명에 따른 부호화 장치의 블럭도이다.
도 1을 참조하면, 부호화 장치는 부호화 장치는 PCM(Pulse Coded Modulation) 오디오 데이터를 입력받아 본 발명에 따라 부호화하여 오디오 비트스트림을 출력하는 장치로서, BWE 부호화기(1), FGS 부호화기(2) 및 다중화기(3)를 포함한다.
BWE 부호화기(1)는 PCM 오디오 데이터를 대역 확장 부호화하여 대역 제한 데이터를 출력하고 대역 확장 정보를 생성한다. 대역 확장 부호화란 오디오 데이터를 입력받아 소정 주파수 이상의 높은 주파수 대역의 데이터를 잘라내어 버리는 한편 잘라내어 버린 높은 주파수 대역의 데이터를 복원하기 위해 필요한 부가 정보를 생성하는 것을 가리킨다. 여기서, 입력된 오디오 데이터 중 높은 주파수 대역의 데이터를 잘라내어 버리고 남은 데이터를 대역 제한 오디오 데이터라고 하고, 버린 데이터를 복원하기 위해 필요한 부가 정보는 대역 확장 정보라고 한다. 대역 확장 기술의 대표적인 예로는 Coding Technology사의 SBR(Spectral Band Replication) 기술을 들 수 있다. SBR에 대한 상세한 설명은 2002년 5월 10-13일 Audio Engineering Society 112 차 컨벤션에서 발표된 Convention Paper 5560에 개시되어 있다.
FGS 부호화기(2)는 대역 제한 오디오 데이터를 비트율 조절가능하도록 기저 계층과 적어도 하나의 상위 계층을 갖는 계층 구조로 부호화한다. FGS 부호화는비트율 조절가능하도록, 즉 FGS(Fine Grain Scalability)를 제공할 수 있도록 복수개의 계층 구조로 부호화하는 것을 의미한다. FGS 부호화의 일 예로는 본 출원인에 의해 1997년 11월 19일자 대한민국 특허출원 제97-61298호로 출원하여 2000년 4월 17일자 등록특허 제261253호 비트율 조절이 가능한 오디오 부호화/복호화 방법 및 장치에 개시된 비트 분할 부호화 기술, 즉 BSAC(Bit-Sliced Arithmetic Coding) 부호화 기술을 들 수 있다. 즉, FGS 부호화기(2)는 기저 계층에 해당하는 부가 정보를 차분 부호화하고, 기저 계층에 해당하는 복수개의 양자화 샘플을 비트 분할 부호화하며, 미리 결정된 복수개의 계층에 대한 부호화가 완료될 때까지 다음 상위 계층에 대한 부가 정보를 차분 부호화하고, 대응하는 복수개의 양자화 샘플을 비트 분할 부호화한다. 부가 정보는 스케일 팩터 정보 및 코딩 모델 정보를 포함한다. 양자화 샘플은 입력된 오디오 데이터를 변환하고 양자화하여 얻어진다. 보다 상세한 설명은 후술한다.
다중화기(3)는 FGS 부호화기(2)에 의해 부호화된 대역 제한 오디오 데이터와 BWE 부호화기(1)에 의해 생성된 대역 확장 정보를 다중화한다.
도 2는 도 1의 부호화 장치의 상세 블럭도이다.
도 2를 참조하면, 부호화 장치는 BWE 부호화기(1), FGS 부호화기(2) 및 다중화기(3)를 포함한다. 도 1의 그것과 실질적으로 동일한 기능을 수행하는 블럭에는 동일한 참조번호를 부여하고 중복되는 설명은 생략한다.
특히, FGS 부호화기(2)는 PWT 변환부(21), 심리음향부(22), 양자화부(23), FGS 허프만 부호화부(24)를 구비한다.
PWT 변환부(21)는 시간 영역의 오디오 신호인 PCM 오디오 데이터를 입력받아 심리음향부(22)로부터의 제공되는 음향심리모델에 관한 정보를 참조하여 주파수 영역의 신호로 PWT(Pseudo Wavelet Transform) 변환한다. 시간 영역에서는 인간이 인지하는 오디오 신호의 특성의 차이가 그리 크지 않지만, 변환을 통해 얻어진 주파수 영역의 오디오 신호는 인간의 음향심리모델에 따라 각 주파수 대역에서 인간이 느낄 수 있는 신호와 느낄 수 없는 신호의 특성 차이가 크기 때문에 각 주파수 대역 별로 할당되는 비트수를 다르게 함으로써 압축의 효율을 높일 수 있다. 낮은 주파수 대역에서의 주파수 분해능이 필요 이상으로 높음으로 인해 작은 왜곡(distortion)에 의해서도 인간의 귀에 인지되는 열화가 발생되는 MDCT에 비해, PWT 변환은 시간/주파수 분해능이 보다 적절하여 낮은 주파수 대역을 갖는 낮은 계층에서도 보다 안정적인 음질을 제공해줄 수 있다.
심리음향부(22)는 어택(attack) 감지 정보, 등 음향심리모델에 관한 정보를 변환부(21)로 제공하는 한편, 변환부(21)에 의해 변환된 오디오 신호를 적절한 서브 밴드의 신호들로 묶고 각 신호들의 상호작용으로 인해 발생되는 마스킹현상을 이용하여 각 서브 밴드에서의 마스킹 문턱치(masking threshold)를 계산하여 양자화부(23)로 제공한다. 마스킹 문턱치란 오디오 신호들의 상호 작용으로 인해 인간이 들어도 느끼지 못하는 신호의 최대 크기를 말한다. 본 실시예에서 심리음향부(22)는 BMLD(Binaural Masking Level Depression)를 이용하여 스테레오 성분에 대한 마스킹 문턱치 등을 계산한다.
양자화부(23)는 인간이 들어도 느끼지 못하도록 각 대역의 양자화 잡음의 크기가 심리음향부(22)에서 제공된 마스킹 문턱치보다 작도록 각 대역의 오디오 신호들을 대응하는 스케일 팩터 정보를 기초로 스칼라 양자화하여 양자화 샘플들을 출력한다. 즉, 양자화부(23)는 심리음향부(22)에서 계산된 마스킹 문턱치와 각 대역에서 발생하는 잡음(noise)의 비율인 NMR (Noise-to-Mask Ratio)를 이용하여 전 대역의 NMR 값이 0 dB 이하가 되도록 양자화한다. NMR 값이 0 dB 이하라는 것은 양자화 잡음을 인간이 들을 수 없음을 의미한다.
FGS 허프만 부호화부(24)는 각 계층에 속하는 양자화 샘플들 및 부가 정보를 부호화하여 계층 구조로 부호화한다. 부가 정보는 각 계층에 해당하는 스케일 밴드 정보, 코딩 밴드 정보, 그 스케일 팩터 정보 및 코딩 모델 정보를 포함한다. 스케일 밴드 정보와 코딩 밴드 정보는 오디오 비트스트림을 구성하는 각 프레임의 헤더 정보로서 패킹되어 복호화 장치로 전송될 수도 있고, 각 계층마다의 부가 정보로서 부호화되고 패킹되어 복호화 장치로 전송될 수도 있으며, 복호화 장치에 미리 저장되어 있음으로 인해 전송되지 않을 수도 있다.
보다 구체적으로, FGS 허프만 부호화부(24)는 첫 번째 계층에 상응하는 스케일 팩터 정보 및 코딩 모델 정보를 포함하는 부가 정보를 차분 부호화하는 한편, 첫 번째 계층에 상응하는 양자화 샘플들을 대응 코딩 모델 정보를 참조하여 비트 분할 부호화한다. 비트 분할 부호화는 전술한 BSAC 부호화에서 채용된 부호화로서 양자화 샘플들의 최상위 비트들, 다음 상위 비트들,‥, 최하위 비트들의 순서로 무손실 부호화함을 의미한다. 다음으로 두 번째 계층에 대해서도 동일한 과정을 반복한다. 즉, 미리 결정된 복수개의 계층에 대한 부호화가 완료될 때까지 계층을증가시키면서 부호화한다. 첫번째 계층은 기저 계층이라고 하고 나머지 계층은 상위 계층이라고 부른다. 계층 구조에 대한 보다 상세한 설명은 후술한다.
스케일 밴드 정보는 오디오 신호의 주파수 특성에 따라 보다 적절하게 양자화를 수행하기 위한 정보로, 주파수 영역을 복수개의 밴드로 나누고 각 밴드에 적합한 스케일 팩터를 할당하였을 때 각 계층에 대응하는 스케일 밴드를 알려주는 정보를 말한다. 이에, 각 계층은 적어도 하나의 스케일 밴드에 속하게 된다. 각 스케일 밴드는 할당된 하나의 스케일 팩터를 가진다. 코딩 밴드 정보 또한 오디오 신호의 주파수 특성에 따라 보다 적절하게 부호화를 수행하기 위한 정보로, 주파수 영역을 복수개의 밴드로 나누고 각 밴드에 적합한 코딩 모델을 할당하였을 때 각 계층에 대응하는 코딩 밴드를 알려주는 정보를 말한다. 스케일 밴드와 코딩 밴드는 실험에 의해 적절히 나누어지며 대응하는 스케일 팩터와 코딩 모델이 결정된다.
다중화기(3)는 부호화된 양자화 샘플 중 기저 계층에 해당하는 데이터를 맨 먼저 배치하고 이어서 대역 확장 정보를 배치하며 다음으로 나머지 상위 계층에 해당하는 데이터를 배치하거나 또는 대역 확장 정보를 맨 먼저 배치하고 이어서 기저 계층에 해당하는 데이터를 배치하며 다음으로 나머지 상위 계층에 해당하는 데이터를 배치하는 순서로 다중화한다.
도 3은 본 발명에 따른 복호화 장치의 블럭도이다.
도 3을 참조하면, 복호화 장치는 오디오 비트스트림을 입력받아 본 발명에 따라 복호화하여 오디오 데이터를 출력하는 장치로서, 역다중화기(7), FGS 복호화기(8) 및 BWE 복호화기(9)를 포함한다.
역다중화기(7)는 입력된 오디오 비트스트림을 역다중화하여 기저 계층과 적어도 하나의 상위 계층을 갖는 계층 구조로 부호화된 대역 제한 오디오 데이터와 대역 확장 정보를 추출한다. 여기서, 대역 제한 오디오 데이터 및 대역 확장 정보는 도 1을 참조하여 설명한 그것과 동일한 의미를 가진다. FGS 복호화기(8)는 역다중화기(7)에 의해 추출된 대역 제한 데이터 중 적어도 기저 계층에 해당하는 대역 제한 오디오 데이터를 복호화한다. 어느 계층까지 복호화할 것인지 여부는 네트워크 상태, 사용자의 선택 등에 따라 결정된다.
BWE 복호화기(9)는 FGS 복호화기(8)에 의해 복호화된 오디오 데이터를 기초로 역다중화기(7)에 의해 추출된 대역 확장 정보를 참조하여 FGS 복호화기(8)에 의해 복호화된 데이터가 커버하지 않는 적어도 일부 대역의 오디오 데이터를 생성하여 FGS 복호화기(8)에 의해 복호화된 대역 제한 오디오 데이터에 덧붙인다.
한편, 본 발명은 Pseudo Wavelet 변환에 따르므로 BWE 복호화기(9)는 다음과 같은 과정을 거친다. Pseudo Wavelet 변환을 통하여 부호화를 수행할 때 대역 제한 오디오 데이터를 결정함에 있어서 주파수 축 상의 마지막 노드를 결정하여 컷오프 주파수가 선택된다. MDCT와는 달리 wavelet 변환은 고주파 부분에서는 주파수 분해능이 낮기 때문에, 결정된 마지막 노드에 따라 대역제한을 할 경우 미세한 조절이 불가능하다. 따라서 복호화 과정에 있어서, BWE 복호화기(8)는 FGS 복호화기(9)에 의해 생성된 core 부분을 주파수 축 상에 정렬시켜서 FGS 복호화기(9)에 의해 생성된 core부분의 주파수 대역폭을 확인하고 이에 맞도록 BWE 부분을 수정하여 복호화한다.
예를 들어 16 개의 계층으로 구성된 64 kbps로 부호화된 비트스트림 중 8개의 계층만을 이용하여 복원할 경우 8 번째 계층에 해당하는 주파수가 8.5kHz하자. 이와 같은 경우 BWE 복호화기(8)는 8.5kHz에서부터 15kHz 이상까지의 데이터를 복원해주어 한다. BWE 복호화기(8)는 QMF(Quadrature mirror filter) 필터 특성상 QMF 한 채널의 밴드폭(bandwidth) 단위로만 주파수 대역폭의 조절이 가능하다. QMF 필터의 n 번째 필터의 주파수 대역폭이 8.3kHz이라 하자. 그와 같은 경우 8.3~8.5kHz에 해당하는 주파수 성분은 core부분과 BWE부분 양측에 모두 존재하기 때문에 두 데이터를 적절히 처리하야 한다.
이를 처리하기 위한 첫번째 방법은 core부분에서 8.3~8.5kHz에 해당하는 주파수 성분을 모두 제거하는 방법이다. 이 경우, FGS 복호화기(9)는 BWE부분의 대역폭 정보를 고려하여 복호화를 수행하는 것이고, 두번째 방법은 core부분의 데이터를 BWE 복호화기(8)에서 사용되는 QMF 필터를 거친 다음 보간(interpolation)을 통해 QMF 데이터를 만들어 역 QMF필터링을 하여 복원하는 방법이다.
이처럼, FGS 복호화기(8)에 의해 복호화된 오디오 데이터가 기저 대역에 속하는 오디오 데이터뿐일 경우라도 결손된 대역의 오디오 데이터를 BWE 복호화기(9)에 의해 생성하여 덧붙임으로써 복호화된 오디오 데이터의 품질을 높일 수 있게 된다.
도 4는 도 3의 복호화 장치의 상세 블럭도이다.
도 4를 참조하면, 복호화 장치는 역다중화기(7), FGS 복호화기(8) 및 BWE 복호화기(9)를 포함한다. 본 발명의 관점에서 실질적으로 동일한 기능을 수행하는블럭에는 도 3의 그것과 동일한 참조번호를 부여하고 중복되는 설명은 생략한다.
특히, FGS 복호화기(8)는 네트워크 상황, 장치의 성능, 사용자 선택 등에 따라 결정된 타겟 계층까지 복호화함으로써 비트율을 조절할 수 있는 장치로서, FGS 허프만 복호화부(81), 역양자화부(82) 및 PWT 역변환부(83)를 구비한다. FGS 허프만 복호화부(81)는 오디오 비트스트림을 타겟 계층까지 복호화한다. 보다 구체적으로, 각 계층 대응하는 스케일 팩터 정보, 코딩 모델 정보가 포함된 부가 정보를 복호화하여 얻어진 코딩 모델 정보를 기초로 각 계층에 속하는 부호화된 양자화 샘플들을 허프만 복호화하여 양자화 샘플들을 얻는다. 보다 상세한 설명은 후술한다.
한편, 스케일 밴드 정보와 코딩 밴드 정보는 비트스트림의 헤더 정보로부터 얻거나, 각 계층 별 부가 정보를 복호화하여 얻을 수 있다. 대안적으로, 복호화 장치가 스케일 밴드 정보 및 코딩 밴드 정보를 미리 저장하고 있을 수도 있다.
역양자화부(82)는 각 계층의 양자화 샘플을 대응하는 스케일 팩터 정보에 따라 역양자화하여 복원한다. PWT 역변환부(83)는 복원된 샘플을 주파수/시간 매핑하여 시간 영역의 PCM 오디오 데이터로 PWT 역변환하여 출력한다.
BWE 복호화기(9)는 변환부(91), 고주파 생성부(92), 조정부(93) 및 합성부(94)를 구비한다. 변환부(91)는 역변환부(83)로부터 출력된 PCM 오디오 데이터를 주파수 영역의 데이터로 변환한다. 변환된 데이터는 저주파 부분이라고 부른다. 고주파 생성부(92)는 BWE 정보를 참조하여 변환부(91)에 의해 변환된 저주파 부분을 복제하여 덧붙이는(patch) 방식으로 변환부(91)에 의해 변환된 데이터가커버하지 못하는 부분, 즉 고주파 부분을 만들어낸다. 조정부(93)는 BWE 정보의 하나인 엔벨로프 정보를 이용하여 고주파 생성부(92) 고주파 부분의 레벨을 조정한다. 엔벨로프 정보는 부호화 단에서 보내진 정보로서 부호화 단에서 BWE 부호화시 잘라낸 고주파 부분에 해당하는 오디오 데이터의 엔벨로프 정보를 의미한다. 합성부(94)는 변환부(91)로부터 출력된 저주파 부분과 조정부(93)로부터 출력된 고주파 부분을 합성하여 PCM 오디오 데이터를 출력한다.
이처럼, 비록 FGS 복호화기(8)가 기저 대역의 오디오 데이터만을 복호화하더라도 BWE 복호화기(9)가 결손된 대역의 오디오 데이터를 복원해서 덧붙여줌으로써 오디오 데이터의 품질을 높일 수 있게 된다.
도 5는 FGS 부호화기(2)로부터 출력된 비트스트림의 구조를 보여준다.
도 5를 참조하면, FGS 부호화기(2)에 의해 부호화된 비트스트림의 프레임은 FGS(Fine Grain Scalability)를 위해 양자화 샘플과 부가 정보를 계층 구조에 맵핑시켜 부호화되어 있다. 즉, 하위 계층의 비트스트림이 상위 계층의 비트스트림에 포함되어 있는 계층 구조를 가진다. 각 계층에 필요한 부가 정보들은 계층 별로 나뉘어서 부호화된다.
비트스트림의 선두에는 헤더 정보가 저장된 헤더 영역이 마련되고, 계층 0의 정보가 패킹되어 있으며, 상위 계층(enhancement layer)인 계층 1 내지 계층 N에 속하는 정보가 순서대로 패킹되어 있다. 헤더 영역에서부터 계층 0 정보까지를 기저 계층(base layer)이라고 부르고, 헤더 영역에서부터 계층 1 정보까지를 계층 1, 계층 2 정보까지를 계층 2라고 부른다. 마찬가지 방식으로, 최상위 계층은 헤더 영역에서부터 계층 N 정보까지, 즉 기저 계층에서부터 상위 계층인 계층 N까지를 말한다. 각 계층 정보로는 부가 정보와 부호화된 데이터가 저장되어 있다. 가령, 계층 2 정보로 부가 정보 2와 부호화된 양자화 샘플들이 저장되어 있다. 여기서, N은 1 보다 크거나 같은 정수이다.
도 6은 도 5의 부가 정보의 상세 구조를 보여준다.
도 6을 참조하면, 임의의 계층 정보로는 부가 정보와 부호화된 양자화 샘플들이 저장되어 있고, 본 실시예에서 부가 정보는 양자화 샘플에 대해 허프만 부호화를 수행하였으므로, 허프만 코딩 모델 정보, 양자화 팩터 정보, 채널에 대한 부가 정보와 기타 부가 정보를 포함한다. 허프만 코딩 모델 정보는 대응하는 계층에 속하는 양자화 샘플들의 부호화에 사용되거나 복호화에 사용되어야 할 허프만 코딩 모델에 대한 인덱스 정보를 말한다. 양자화 팩터 정보는 대응하는 계층에 속하는 오디오 데이터를 양자화하거나 역영자화하기 위한 양자화 스텝 사이즈를 알려준다. 채널에 대한 부가 정보란 M/S stereo와 같은 채널에 대한 정보를 말한다. 기타 부가 정보는 M/S stereo의 채용 여부에 대한 플래그 정보 등을 말한다.
도 7은 다중화기(3)로부터 출력되거나 역다중화기(7)로 입력되는 비트스트림의 구조를 보여준다.
도 7을 참조하면, 비트스트림의 앞에는 FGS 부호화기(2)에 의해 부호화된 기저 계층인 계층 0이 선두에 배치되고 이어서 BWE 정보가 배치되며 다음으로 상위 계층, 즉 계층 1, 계층 2,‥, 계층 N이 차례대로 배치된다. 이에 따라, 복호화단에서는 기저 계층까지만 수신하거나 기저 계층만을 복호화하였더라도 BWE 정보를참조하여 복호화된 기저 계층의 오디오 데이터를 기초로 결손된 계층의 오디오 데이터를 생성해낼 수 있게 된다.
도 8은 본 발명의 부호화 장치 및 복호화 장치에서 각각 수행되는 허프만 부호화/복호화 방식을 설명하기 위한 참고도이다.
도 8을 참조하면, 부호화해야 할 양자화 샘플 전체가 3 개의 계층으로 구성되어 있다. 빗금친 사각형은 양자화 샘플들로 구성된 스펙트럼 라인을 나타내며, 실선은 스케일 밴드를 표시하며, 띠선은 코딩 밴드를 나타낸다. 계층 0에는 스케일 밴드 ①, ②, ③, ④ 및 ⑤가 속하며, 코딩 밴드 ①, ②, ③, ④ 및 ⑤가 속하고, 계층 1에는 스케일 밴드 ⑤ 및 ⑥이 속하며, 코딩 밴드 ⑥, ⑦, ⑧, ⑨ 및 ⑩이 속하고, 계층 2에는 스케일 밴드 ⑥ 및 ⑦이 속하며, 코딩 밴드 ⑪, ⑫, ⑬, ⑭ 및 ⑮가 속한다. 한편, 계층 0은 주파수 대역 ⓐ까지 부호화하도록 고정되어 있고, 계층 1은 주파수 대역 ⓑ까지 부호화하도록 고정되어 있으며, 계층 2는 주파수 대역 ⓒ까지 부호화하도록 고정되어 있다.
먼저, 100 비트 내에서 계층 0에 해당하는 양자화 샘플들을 해당하는 코딩 밴드 ①, ②, ③, ④ 및 ⑤에 정해져 있는 코딩 모델을 사용하여 부호화한다. 또한, 계층 0의 부가 정보로서 계층 0에 속하는 스케일 밴드 ①, ②, ③, ④, ⑤와 코딩 밴드 ①, ②, ③, ④, ⑤를 부호화한다. 계층 0의 샘플들을 심벌 단위로 부호화하면서 비트 수를 카운트하여 허용된 비트 범위, 즉 100비트를 넘어서면 계층 0의 부호화를 중단하고 계층 1을 부호화한다. 부호화되지 못한 계층 0의 샘플들은 계층 1 및 계층 2에 허용된 비트 범위에 여유가 생겼을 때 부호화한다.
다음으로, 계층 1에 속하는 코딩 밴드, 즉 코딩 밴드 ⑥, ⑦, ⑧, ⑨ 및 ⑩ 중 부호화하고자 하는 양자화 샘플이 속하는 코딩 밴드의 코딩 모델을 사용하여 계층 1에 속하는 양자화 샘플들을 부호화한다. 또한, 계층 1의 부가 정보로서 계층 1에 속하는 스케일 밴드 ⑤ 및 ⑥과 코딩 밴드 ⑥, ⑦, ⑧, ⑨ 및 ⑩을 부호화한다. 만일 계층 1에 해당하는 샘플들을 모두 부호화하고도 허용된 비트 범위, 즉 100 비트가 되지 않을 경우에는 100비트가 다 찰 때까지 계층 0에서 부호화하지 못하였던 샘플을 부호화한다. 계층 1에 해당하는 샘플들을 심벌 단위로 부호화하면서 비트 수를 카운트하여 허용된 비트 범위, 즉 100 비트를 넘어서면 계층 1의 부호화를 중단하고 계층 2의 부호화로 넘어간다.
마지막으로, 계층 2에 속하는 코딩 밴드, 즉 코딩 밴드 ⑪, ⑫, ⑬, ⑭ 및 ⑮ 중 부호화하고자 하는 양자화 샘플이 속하는 코딩 밴드의 코딩 모델을 사용하여 계층 2에 속하는 양자화 샘플을 부호화한다. 또한, 계층 2의 부가 정보로서 계층 2에 속하는 스케일 밴드 ⑥ 및 ⑦과 코딩 밴드 ⑪, ⑫, ⑬, ⑭ 및 ⑮를 부호화한다. 만일 계층 1에 해당하는 샘플들을 모두 부호화하고도 허용된 비트 범위, 즉 100 비트가 되지 않을 경우에는 100 비트가 다 찰 때까지 계층 0에서 부호화하지 못하였던 샘플을 부호화한다.
만일 계층 0 또는 계층 1에서 허용된 비트 범위를 고려하지 않고 해당하는 양자화 샘플을 모두 부호화해버린다면, 다시 말해 부호화된 비트 수가 이미 허용된 비트 범위, 즉 100비트를 초과하였는데도 불구하고 모두 부호화한다면 결국 다음 계층인 계층 1에 허용된 비트 범위의 적어도 일부를 차용하는 셈이 되어 정작 계층1에 속하는 양자화 샘플들을 부호화할 수 없게 되는 일이 발생된다. 따라서, 비트율 조절 가능(scalable)하게 복호화할 경우 계층 1까지만 복호화한다면 계층 1의 주파수 ⓑ까지 부호화되지 못했기 때문에 복호화된 양자화 샘플들은 주파수 ⓑ 이하에서 오르락 내리락하는 모습을 띄게 된다. 이 때 음질이 열화되는 버디 효과(birdy effect)가 나타난다.
한편, 복수개의 계층(타겟 계층)을 결정할 때 부호화해야할 오디오 데이터 전체의 크기를 고려하여 비트 범위가 할당되므로 전체적으로 부호화해야할 비트 범위가 모자라서 부호화하지 못하는 경우는 발생되지 않는다.
복호화 과정 또한 부호화와 마찬가지로 그 역과정을 수행하면서 허용하는 비트 범위에 따라 비트 수를 카운트하기 때문에 계층 1로 복호화할 시점을 알아낼 수 있다.
도 9는 BWE 복호화기(9)에서 수행되는 대역 확장 복호화, 즉 BWE 복호화를 보다 상세히 설명하기 위한 참고도이다.
도 9를 참조하면, 줄무늬 부분은 FGS 복호화기(8)에 의해 복호화된 데이터를 나타내고, 회색 부분은 BWE 복호화기(9)에 의해 생성된 데이터를 나타낸다. 샘플링 주파수 Fs의 1/4까지의 데이터가 기저 계층에 속한다고 할 때 (a)는 복호화단에서 기저 대역에 해당하는 데이터만이 복호화된 경우를, (b), (c) 및 (d)는 기저 계층 및 적어도 하나의 상위 계층에 속하는 데이터가 FGS 복호화기(8)에 의해 복호화된 경우를 보여준다. 즉, FGS 복호화기(8)는 비트율 조절가능하도록 데이터의 복호화가 가능하며 BWE 복호화기(9)는 FGS 복호화기(8)가 복호화하지 못한 결손 대역의 데이터를 생성해낸다.
상기와 같은 구성을 기초로 본 발명의 바람직한 실시예에 따른 부호화 방법 및 복호화 방법을 설명하면 다음과 같다.
도 10은 본 발명에 따른 부호화 방법을 설명하기 위한 플로우챠트이다.
도 10을 참조하면, 부호화 장치는 오디오 데이터를 대역 확장 부호화하여 대역 제한 오디오 데이터를 출력하고 기저 계층에 대한 대역 확장 정보를 생성한다(1001단계). 기저 계층에 대한 대역 확장 정보의 의미는 복호화단에서 기저 계층에 속하는 오디오 데이터를 기초로 나머지 결손된 대역의 오디오 데이터를 생성해낼 수 있기 위한 정보로서, 엔벨로프 정보 등을 포함한다. 다음으로, 부호화 장치는 대역 제한 데이터를 비트율 조절가능하도록 기저 계층과 적어도 하나의 상위 계층을 갖는 계층 구조로 부호화한다. 보다 구체적으로, 각 계층 별로 대역 제한 오디오 데이터를 PWT 변환하고(1002단계), 양자화하고(1003단계), 허프만 부호화한 다음 비트율 조절가능하도록 계층 구조로 패키징한다(1004단계). 마지막으로, 부호화된 대역 제한 오디오 데이터와 대역 확장 정보를 다중화하여 얻어진 오디오 비트스트림을 출력한다(1004단계). 보다 구체적으로, 부호화 장치는 부호화된 대역 제한 오디오 데이터 중 기저 계층에 해당하는 데이터가 맨 먼저 배치되고 이어서 대역 확장 정보가 배치되며 다음으로 나머지 상위 계층에 해당하는 데이터가 배치되는 순서로 다중화하거나 또는 대역 확장 정보가 맨 먼저 배치되고 이어서 기저 계층에 해당하는 데이터가 배치되고 난 다음 나머지 상위 계층에 해당하는 데이터가 배치되는 순서로 다중화한다.
도 11은 본 발명에 따른 복호화 방법을 설명하기 위한 플로우챠트이다.
도 11을 참조하면, 복호화 장치는 입력된 오디오 비트스트림을 역다중화하여 기저 계층과 적어도 하나의 상위 계층을 갖는 계층 구조로 부호화된 대역 제한 오디오 데이터와 대역 확장 정보를 추출한다(1101단계). 즉, 입력된 오디오 비트스트림으로부터 맨 먼저 기저 계층에 해당하는 데이터를 추출하고, 이어서 대역 확장 정보를 추출하며, 다음으로 나머지 상위 계층에 해당하는 데이터를 추출하는 순서로 역다중화하거나 맨 먼저 대역 확장 정보를 추출하고 이어서 기저 계층에 해당하는 데이터를 추출하며 다음으로 나머지 상위 계층에 해당하는 데이터를 추출하는 순서로 역다중화한다. 이어서, 복호화 장치는 적어도 기저 계층에 해당하는 대역 제한 오디오 데이터를 비트율 조절가능하도록 복호화한다. 보다 구체적으로, 타겟 계층까지 허프만 복호화한 다음(1102단계), 역양자화하고(1103단계) PWT 역변환하여(1104단계) 대역 제한된 PCM 오디오 데이터를 얻는다. 다음으로, 1104단계에서 얻어진 PCM 오디오 데이터를 기초로 대역 확장 정보를 참조하여 1104단계에서 얻어진 오디오 데이터가 커버하지 않는 적어도 일부 대역의 PCM 오디오 데이터를 생성하여 1104단계에서 얻어진 PCM 오디오 데이터에 덧붙여서 출력한다(1105단계).
전술한 바와 같이, 본 발명에 따르면 비트스트림의 일부만을 가지고 복원하더라도 보다 좋은 품질을 보장할 수 있는 비트율 조절가능한 오디오 부호화 방법, 그 장치, 복호화 방법 및 그 장치가 제공된다.
또한, complexity가 보다 낮으며 낮은 계층에서도 보다 양호한 음질을 제공할 수 있게 된다. 산술 부호화를 이용하는 MPEG-4 Audio BSAC에 비해 허프만 부호화를 이용하는 본 발명의 부호화 장치/복호화 장치는 비트 패킹/언패킹(bit packing/unpacking) 과정에서 계산량이 크게 줄어든다. FGS를 제공하기 위해 본 발명에 따른 비트 패킹을 수행하여도 오버헤드가 적어 부호화 이득 측면에서 scalability를 제공하지 않은 경우와 거의 유사하다.
더불어, 네트워크를 통한 오디오스트림 전송시 사용자의 의지 혹은 네트워크 환경에 따라 전송 비트율을 변경하여 전송함으로써 끊김없는 서비스의 제공이 가능하다. 용량의 제한을 갖는 정보저장매체에 저장할 때 파일 사이즈를 임의로 조절하여 저장할 수 있게 된다. 비트율이 낮아지면 대역이 제한되어 있기 때문에 주로 부호화/복호화 장치의 복잡성의 대부분을 차지하는 필터의 복잡성이 상당히 감소하기 때문에 비트율에 반비례해서 부호화 장치/복호화 장치의 실제 복잡성도 감소하게 된다.
또한, PWT 변환을 채용함으로써, 기존의 MDCT 기반의 부호화에 비해 시간/주파수축의 분해능이 우월하므로 낮은 계층에서 보다 좋은 음질을 제공한다.

Claims (23)

  1. 오디오 데이터를 부호화하는 방법에 있어서,
    (a) 오디오 데이터를 대역 확장 부호화하여 대역 제한 오디오 데이터를 출력하고 대역 확장 정보를 생성하는 단계:
    (b) 상기 대역 제한 데이터를 비트율 조절가능하도록 기저 계층과 적어도 하나의 상위 계층을 갖는 계층 구조로 허프만 부호화하는 단계; 및
    (c) 허프만 부호화된 대역 제한 오디오 데이터와 상기 대역 확장 정보를 다중화하는 단계를 포함하는 것을 특징으로 하는 부호화 방법.
  2. 제1항에 있어서,
    상기 (b)단계는
    (b11) 상기 기저 계층에 해당하는 부가 정보를 차분 부호화하는 단계;
    (b12) 상기 기저 계층에 해당하는 복수개의 양자화 샘플을 비트 분할 부호화하는 단계; 및
    (b13) 미리 결정된 복수개의 계층에 대한 부호화가 완료될 때까지 다음 상위 계층에 대해 상기 (b11)단계 및 (b12)단계를 반복 수행하는 단계를 포함하는 것을 특징으로 하는 부호화 방법.
  3. 제1항에 있어서,
    상기 (b)단계는
    (b21) 상기 기저 계층에 해당하는 스케일 팩터 정보 및 코딩 모델 정보를 포함하는 부가 정보를 차분 부호화하는 단계;
    (b22) 상기 기저 계층에 해당하는 복수개의 양자화 샘플을 상기 코딩 모델 정보를 참조하여 비트 분할 부호화하는 단계; 및
    (b23) 미리 결정된 복수개의 계층에 대한 부호화가 완료될 때까지 다음 상위계층에 대해 상기 (b21)단계 및 (b22)단계를 반복 수행하는 단계를 포함하는 것을 특징으로 하는 부호화 방법.
  4. 제2항 또는 제3항에 있어서,
    상기 양자화 샘플은 PWT 변환하여 얻어진 것임을 특징으로 하는 부호화 방법.
  5. 제1항에 있어서,
    상기 (c)단계는
    상기 부호화된 대역 제한 오디오 데이터 중 상기 기저 계층에 해당하는 데이터가 맨 먼저 배치되고 이어서 상기 대역 확장 정보가 배치되며 다음으로 나머지 상위 계층에 해당하는 데이터가 배치되는 순서로 다중화하는 단계임을 특징으로 하는 부호화 방법.
  6. 제1항에 있어서,
    상기 (c)단계는
    상기 대역 확장 정보가 맨 먼저 배치되고 이어서 상기 부호화된 대역 제한 오디오 데이터 중 상기 기저 계층에 해당하는 데이터가 배치되며 다음으로 나머지 상위 계층에 해당하는 데이터가 배치되는 순서로 다중화하는 단계임을 특징으로 하는 부호화 방법.
  7. 오디오 데이터를 복호화하는 방법에 있어서,
    (a) 입력된 오디오 비트스트림을 역다중화하여 기저 계층과 적어도 하나의 상위 계층을 갖는 계층 구조로 부호화된 대역 제한 오디오 데이터와 대역 확장 정보를 추출하는 단계;
    (b) 적어도 기저 계층에 해당하는 상기 대역 제한 오디오 데이터를 허프만 복호화하는 단계; 및
    (c) 복호화된 오디오 데이터를 기초로 상기 대역 확장 정보를 참조하여 상기 복호화된 오디오 데이터가 커버하지 않는 적어도 일부 대역의 오디오 데이터를 생성하여 상기 복호화된 오디오 데이터에 덧붙이는 단계를 포함하는 것을 특징으로 하는 복호화 방법.
  8. 제7항에 있어서,
    상기 (c)단계는
    상기 복호화된 오디오 데이터의 경계에 맞도록 상기 일부 대역의 오디오 데이터를 생성하는 단계를 포함하는 것을 특징으로 하는 복호화 방법.
  9. 제8항에 있어서,
    상기 (c)단계는
    웨이블릿 변환에서 사용되는 필터 뱅크(filter bank)에 경계에 맞도록 상기일부 대역의 오디오 데이터를 생성하는 단계를 포함하는 것을 특징으로 하는 복호화 방법.
  10. 제8항에 있어서,
    상기 (c)단계는
    웨이블릿 변환에서 사용되는 필터 뱅크(filter bank)에 경계에 맞지 않을 경우 상기 복호화된 오디오 데이터와 상기 생성된 일부 대역의 오디오 데이터가 중첩된 부분을 보간(interpolation)하는 단계를 더 포함하는 것을 특징으로 하는 복호화 방법
  11. 제7항에 있어서,
    상기 (a)단계는
    상기 비트스트림으로부터 맨 먼저 상기 기저 계층에 해당하는 데이터를 추출하고, 이어서 상기 대역 확장 정보를 추출하며, 다음으로 나머지 상위 계층에 해당하는 데이터를 추출하는 순서로 역다중화하는 단계임을 특징으로 하는 복호화 방법.
  12. 제7항에 있어서,
    상기 (a)단계는
    상기 비트스트림으로부터 맨 먼저 상기 대역 확장 정보를 추출하고 이어서상기 기저 계층에 해당하는 데이터를 추출하며 다음으로 나머지 상위 계층에 해당하는 데이터를 추출하는 순서로 역다중화하는 단계임을 특징으로 하는 복호화 방법.
  13. 제7항에 있어서,
    상기 (b)단계는
    (b11) 상기 기저 계층에 해당하는 부가 정보를 차분 복호화하는 단계;
    (b12) 상기 기저 계층에 해당하는 복수개의 양자화 샘플을 비트 분할 복호화하는 단계; 및
    (b13) 미리 결정된 복수개의 계층에 대한 복호화가 완료될 때까지 다음 상위 계층에 대해 상기 (b11)단계 및 (b12)단계를 반복 수행하는 단계를 포함하는 것을 특징으로 하는 복호화 방법.
  14. 제7항에 있어서,
    상기 (b)단계는
    (b21) 상기 기저 계층에 해당하는 스케일 팩터 정보 및 코딩 모델 정보를 포함하는 부가 정보를 차분 복호화하는 단계;
    (b22) 상기 기저 계층에 해당하는 복수개의 양자화 샘플을 상기 코딩 모델 정보를 참조하여 비트 분할 복호화하는 단계; 및
    (b23) 미리 결정된 복수개의 계층에 대한 복호화가 완료될 때까지 다음 상위계층에 대해 상기 (b21)단계 및 (b22)단계를 반복 수행하는 단계를 포함하는 것을 특징으로 하는 복호화 방법.
  15. 오디오 데이터를 부호화하는 장치에 있어서,
    오디오 데이터를 대역 확장 부호화하여 대역 제한 오디오 데이터를 출력하고 대역 확장 정보를 생성하는 BWE 부호화기;
    상기 대역 제한 데이터를 비트율 조절가능하도록 기저 계층과 적어도 하나의 상위 계층을 갖는 계층 구조로 허프만 부호화하는 FGS 부호화기; 및
    부호화된 대역 제한 오디오 데이터와 상기 대역 확장 정보를 다중화하는 다중화기를 포함하는 것을 특징으로 하는 부호화 장치.
  16. 제15항에 있어서,
    상기 FGS 부호화기는
    상기 기저 계층에 해당하는 부가 정보를 차분 부호화하고 상기 기저 계층에 해당하는 복수개의 양자화 샘플을 비트 분할 부호화하며, 미리 결정된 복수개의 계층에 대한 부호화가 완료될 때까지 다음 상위 계층에 해당하는 부가 정보 및 복수개의 양자화 샘플을 비트 분할 부호화하는 것을 특징으로 하는 부호화 장치.
  17. 제15항에 있어서,
    상기 FGS 부호화기는
    상기 기저 계층에 해당하는 스케일 팩터 정보 및 코딩 모델 정보를 포함하는 부가 정보를 차분 부호화하고, 상기 기저 계층에 해당하는 복수개의 양자화 샘플을 상기 코딩 모델 정보를 참조하여 비트 분할 부호화하며, 미리 결정된 복수개의 계층에 대한 부호화가 완료될 때까지 다음 상위 계층에 해당하는 스케일 팩터 정보 및 코딩 모델 정보를 포함하는 부가 정보를 부호화하고 다음 상위 계층에 해당하는 복수개의 양자화 샘플을 비트 분할 부호화하는 것을 특징으로 하는 부호화 장치.
  18. 제15항에 있어서,
    상기 FGS 부호화기는
    PWT 변환하여 상기 양자화 샘플을 얻는 것을 특징으로 하는 부호화 장치.
  19. 제15항에 있어서,
    상기 다중화기는
    상기 부호화된 대역 제한 오디오 데이터 중 상기 기저 계층에 해당하는 데이터가 맨 먼저 배치되고 이어서 상기 대역 확장 정보가 배치되며 다음으로 나머지 상위 계층에 해당하는 데이터가 배치되는 순서로 다중화하는 것을 특징으로 하는 부호화 장치.
  20. 오디오 데이터를 복호화하는 장치에 있어서,
    입력된 오디오 비트스트림을 역다중화하여 기저 계층과 적어도 하나의 상위계층을 갖는 계층 구조로 부호화된 대역 제한 오디오 데이터와 대역 확장 정보를 추출하는 역다중화기;
    적어도 기저 계층에 해당하는 상기 대역 제한 오디오 데이터를 복호화하는 FGS 허프만 복호화기; 및
    복호화된 오디오 데이터를 기초로 상기 대역 확장 정보를 참조하여 상기 복호화된 오디오 데이터가 커버하지 않는 적어도 일부 대역의 오디오 데이터를 생성하여 상기 복호화된 오디오 데이터에 덧붙이는 BWE 복호화기를 포함하는 것을 특징으로 하는 복호화 장치.
  21. 제20항에 있어서,
    상기 FGS 복호화기는
    상기 기저 계층에 해당하는 부가 정보를 차분 복호화하고, 상기 기저 계층에 해당하는 복수개의 양자화 샘플을 비트 분할 복호화하며, 미리 결정된 복수개의 계층에 대한 복호화가 완료될 때까지 다음 상위 계층에 대응하는 부가 정보를 복호화하고 대응하는 복수개의 양자화 샘플을 비트 분할 복호화하는 것을 특징으로 하는 복호화 장치.
  22. 제20항에 있어서,
    상기 역다중화기는
    상기 비트스트림으로부터 맨 먼저 상기 기저 계층에 해당하는 데이터를 추출하고, 이어서 상기 대역 확장 정보를 추출하며, 다음으로 나머지 상위 계층에 해당하는 데이터를 추출하는 순서로 역다중화하는 것을 특징으로 하는 복호화 장치.
  23. 제20항에 있어서,
    상기 역다중화기는
    상기 비트스트림으로부터 맨 먼저 상기 대역 확장 정보를 추출하고 이어서 상기 기저 계층에 해당하는 데이터를 추출하며 다음으로 나머지 상위 계층에 해당하는 데이터를 추출하는 순서로 역다중화하는 것을 특징으로 하는 복호화 장치.
KR1020030017977A 2003-03-22 2003-03-22 대역 확장 기법을 이용한 오디오 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치 KR100923300B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020030017977A KR100923300B1 (ko) 2003-03-22 2003-03-22 대역 확장 기법을 이용한 오디오 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
CNB031650317A CN1290078C (zh) 2003-03-22 2003-09-17 采用带宽扩展技术编码和/或解码音频数据的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030017977A KR100923300B1 (ko) 2003-03-22 2003-03-22 대역 확장 기법을 이용한 오디오 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20040086878A true KR20040086878A (ko) 2004-10-13
KR100923300B1 KR100923300B1 (ko) 2009-10-23

Family

ID=34309372

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030017977A KR100923300B1 (ko) 2003-03-22 2003-03-22 대역 확장 기법을 이용한 오디오 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치

Country Status (2)

Country Link
KR (1) KR100923300B1 (ko)
CN (1) CN1290078C (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007043811A1 (en) * 2005-10-12 2007-04-19 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding audio data and extension data
CN102511062A (zh) * 2009-07-07 2012-06-20 法国电信公司 用于改进数字音频信号的分级编码/解码的增强编码/解码中的比特分配

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103165135B (zh) * 2013-03-04 2015-03-25 深圳广晟信源技术有限公司 一种数字音频粗分层编码方法和装置
CN111462767B (zh) * 2020-04-10 2024-01-09 全景声科技南京有限公司 音频信号的增量编码方法及装置
CN112104952B (zh) * 2020-11-19 2021-05-11 首望体验科技文化有限公司 应用于720度球幕全景影院的全景声音频系统
CN112669860B (zh) * 2020-12-29 2022-12-09 北京百瑞互联技术有限公司 一种增加lc3音频编解码有效带宽的方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819215A (en) 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
KR100261253B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007043811A1 (en) * 2005-10-12 2007-04-19 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding audio data and extension data
KR100851972B1 (ko) * 2005-10-12 2008-08-12 삼성전자주식회사 오디오 데이터 및 확장 데이터 부호화/복호화 방법 및 장치
US8055500B2 (en) 2005-10-12 2011-11-08 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding/decoding audio data with extension data
CN102511062A (zh) * 2009-07-07 2012-06-20 法国电信公司 用于改进数字音频信号的分级编码/解码的增强编码/解码中的比特分配
CN102511062B (zh) * 2009-07-07 2013-07-31 法国电信公司 用于改进数字音频信号的分级编码/解码的增强编码/解码中的比特分配

Also Published As

Publication number Publication date
CN1290078C (zh) 2006-12-13
KR100923300B1 (ko) 2009-10-23
CN1532809A (zh) 2004-09-29

Similar Documents

Publication Publication Date Title
KR100917464B1 (ko) 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
KR100908117B1 (ko) 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
JP4223679B2 (ja) 低ビットレート多重オーデイオチャンネル符号・復号方法及び装置
EP1715476B1 (en) Low-bitrate encoding/decoding method and system
JP3397001B2 (ja) 符号化方法及び装置、復号化装置、並びに記録媒体
JP2000501846A (ja) 心理音響学的アダプティブ・ビット割り当てを用いたマルチ・チャネル予測サブバンド・コーダ
EP2228791B1 (en) Scalable lossless audio codec and authoring tool
JP6759277B2 (ja) マルチチャネル・オーディオ・コンテンツの符号化
JP3964860B2 (ja) ステレオオーディオの符号化方法、ステレオオーディオ符号化装置、ステレオオーディオの復号化方法、ステレオオーディオ復号化装置及びコンピュータで読み取り可能な記録媒体
KR101015497B1 (ko) 디지털 데이터의 부호화/복호화 방법 및 장치
KR100923301B1 (ko) 대역 확장 기법을 이용한 오디오 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
KR100923300B1 (ko) 대역 확장 기법을 이용한 오디오 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
KR100891666B1 (ko) 믹스 신호의 처리 방법 및 장치
KR100528327B1 (ko) 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
KR100300887B1 (ko) 디지털 오디오 데이터의 역방향 디코딩 방법
US6463405B1 (en) Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband
KR100908116B1 (ko) 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
JP2003330497A (ja) オーディオ信号の符号化方法及び装置、符号化及び復号化システム、並びに符号化を実行するプログラム及び当該プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120927

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20130927

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140929

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150925

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20160929

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee