KR20050007312A - 시간-이산 오디오 신호를 부호화하기 위한 장치 및 방법그리고 부호화 오디오 데이터를 복호화하기 위한 장치 및방법 - Google Patents

시간-이산 오디오 신호를 부호화하기 위한 장치 및 방법그리고 부호화 오디오 데이터를 복호화하기 위한 장치 및방법 Download PDF

Info

Publication number
KR20050007312A
KR20050007312A KR10-2004-7016744A KR20047016744A KR20050007312A KR 20050007312 A KR20050007312 A KR 20050007312A KR 20047016744 A KR20047016744 A KR 20047016744A KR 20050007312 A KR20050007312 A KR 20050007312A
Authority
KR
South Korea
Prior art keywords
block
integer
time
audio data
quantization
Prior art date
Application number
KR10-2004-7016744A
Other languages
English (en)
Other versions
KR100892152B1 (ko
Inventor
랄프 가이거
토마스 스포러
칼하인즈 브란덴부르크
위르겐 헤르
위르겐 콜러
요아힘 데구아라
Original Assignee
프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 filed Critical 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Publication of KR20050007312A publication Critical patent/KR20050007312A/ko
Application granted granted Critical
Publication of KR100892152B1 publication Critical patent/KR100892152B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

양자화된 스펙트럼 값을 갖는 하나의 양자화 블록을 제공하기 위하여 하나의 시간-이산 오디오 신호가 처리된다(52). 더욱이, 하나의 정수 스펙트럼 표시가 하나의 정수 변환 알고리즘(56)을 사용하여 시간-이산 오디오 신호로부터 발생된다. 심리음향 모델(54)을 사용하여 발생된 상기 양자화 블록은, 정수 스펙트럼 값과 역양자화된 라운딩 스펙트럼 값 사이의 차분(difference)을 형성하기 위하여 역양자화되고 라운딩된다(58). 상기 양자화 블록은 그것 하나만으로는 복호화 후에 하나의 손실이 많은 심리음향적 부호화/복호화 오디오 신호(lossy psychoacoustically coded/decoded audio signal)를 제공하나, 결합블록과 함께 함으로써 복호화에서 손실없이 또는 거의 손실없이 부호화되고 다시 복호화된 오디오 신호를 제공한다. 주파수 도메인에서 차분 신호를 발생시킴에 의해, 하나의 더 간단한 부호기/복호기 구조(a simpler coder/decoder structure)가 만들어진다.

Description

시간-이산 오디오 신호를 부호화하기 위한 장치 및 방법 그리고 부호화 오디오 데이터를 복호화하기 위한 장치 및 방법{Device and method for encoding a time-discrete audio signal and device and method for decoding coded audio data}
MPEG Layer3 (MP3) 또는 MPEG AAC와 같은 최신 오디오 부호화 방법은, 오디오 신호의 블록형 주파수 표시(block-wise frequency representation)를 얻기 위해 소위 변경 이산 코사인 변환(modified discrete cosine transform; MDCT) 이라 불리는 변환을 사용한다. 그러한 오디오 부호기(coder)는 시간-이산 오디오 샘플들의 하나의 스트림을 얻는 것이 일반적이다. 오디오 샘플들의 하나의 스트림은 예를 들어 1,024 또는 2,048 윈도윙화(windowed) 오디오 샘플들의 하나의 윈도윙화 블록을얻도록 윈도윙화된다. 상기 윈도윙을 위해, 사인 윈도우(sine window)와 같은 여러 가지 윈도우 기능들이 사용된다.
윈도윙화 시간-이산 오디오 샘플들은 그 다음에 하나의 필터 뱅크(filter bank)에 의해 스펙트럼 표시(spectral representation)로 변환된다. 원칙적으로, 푸리에 변환(Fourier transform), 또는 FFT 또는 앞서 설명된 MDCT와 같은 특별한 이유로 인한 푸리에 변환의 변환이 이를 위해 사용될 수 있다. 필터 뱅크의 출력부의 오디오 스펙트럼 값의 블록은 필요(demand)에 따라 더 처리될 수 있다. 상기 오디오 부호기들에 있어서, 오디오 스펙트럼 값의 양자화가 뒤따르는데, 이 때 양자화에 의해 생기는 양자화 잡음(quantization noise)이 심리음향 차폐 임계치(psychoacoustic masking threshold) 아래에 있게, 즉 차폐되도록(masked away) 양자화 단계가 선택되는 것이 일반적이다. 양자화는 손실 부호화(lossy coding)이다. 데이터 양을 추가적으로 감소시키기 위하여, 양자화된 스펙트럼 값은 그 다음에 예를 들어 허프만 부호화(Huffman coding)로 엔트로피 부호화된다. 스케일 계수(scale factor) 등과 같은 보조 정보(side information)를 추가함에 의해, 저장되거나 전송될 하나의 비트 스트림이 엔트로피-부호화 양자화된 스펙트럼 값(entropy-coded quantized spectral value)으로부터 비트 스트림 다중화기(multiplexer)에 의하여 만들어진다.
오디오 복호기에 있어서, 비트 스트림은 비트 스트림 복다중화기(de-multiplexer)에 의해 부호화 양자화 스펙트럼 값(coded quantized spectral values)과 보조 정보로 나누어진다. 그 다음에 엔트로피-부호화 양자화 스펙트럼값은, 심리음향 차폐 임계치 아래에 있어 들리지 않는 양자화 잡음으로 구성되는 복호화 스펙트럼 값을 얻기 위해 역양자화된다. 이러한 스펙트럼 값들은 그 다음에 시간-이산 복호화 오디오 샘플을 얻기 위해 합성 필터 뱅크에 의해 시간 표시(temporal representation)로 변환된다. 합성 필터 뱅크에서, 상기 변환 알고리즘에 반대인 하나의 변환 알고리즘이 사용되어야 한다. 게다가, 주파수-시간 역 변환(inverse or backward transform) 이후에 윈도윙(windowing)이 취소되어야(cancelled) 한다.
우수한 주파수 선택성(selectivity)을 얻기 위해, 최신 오디오 부호기들은 블록 중첩(block overlap)을 사용하는 것이 일반적이다. 그러한 경우가 도 4a에 나타나 있다. 먼저, 예를 들어 2,048 시간-이산 오디오 샘플들이 취해져서 수단(402)에 의해 윈도윙화된다. 윈도우 구현 수단(window embodying means)(402)은 2N 샘플들의 윈도우 길이를 갖고 2N 윈도우 샘플들의 블록을 출력 측(output side)에 제공한다. 명확화라는 이유만으로(only for clarity reasons) 수단(402)과 분리된 것으로 도 4a에 도시되어 있는 수단(404)에 의한 윈도우 중첩을 얻기 위해, 2N 윈도윙화 샘플들의 제2 블록이 생성된다. 그러나, 수단(404)에 공급된 2,048 샘플들은 제1 윈도우에 이어 즉시 발생되는 시간-이산 오디오 샘플들이 아니지만, 수단(402)에 의해 윈도윙화 샘플들의 제2 하프(the second half)를 포함하고 1,024 "새로운(new)" 샘플들만을 추가적으로 포함한다. 윈도우 중첩은, 50%의 중첩도(overlapping degree)를 일으키는 도 4a의 수단(406)에 의해 상징적으로 도시되어 있다. 수단(402)에 의해 출력된 2N 윈도윙화 샘플들 출력과 수단(404)에 의해 2N윈도윙화 샘플 출력 모두 그 다음에 수단(408 및 410)에 의한 MDCT 알고리즘에 각각 처리된다. 수단(408)은 공지된 MDCT 알고리즘에 따라 제1 윈도우를 위한 N 스펙트럼 값을 제공하는 반면, 수단(410)은 제2 윈도우를 위한 N 스펙트럼 값들을 제공하며, 이 때 상기 제1 윈도우와 제2 윈도우 사이에 50%의 중첩이 있다.
복호기에 있어서, 도 4b에 나타나 있는 제1 윈도우의 N 스펙트럼 값은, 역 변경 이산 코사인 변환(inverse modified discrete cosine transform)을 실행하는 수단(412)에 공급된다. 제2 윈도우의 N 스펙트럼 값도 동일하다. 이들은 역 변경 이산 코사인 변환을 또한 실행하는 수단(414)에 공급된다. 수단(412 및 414) 모두 제1 윈도우를 위한 2N 샘플들과 제2 윈도우를 위한 2N 샘플들을 각각 제공한다.
도 4b에 TDAC(time domain aliasing cancellation)로 표시된 수단(416)에 있어서, 두 개의 윈도우가 중첩된다는 사실이 고려된다. 특히, 제1 윈도우의 제2 하프의 샘플(y1), 즉 지표(index) N+k를 갖는 샘플은, 제2 윈도우의 제1 하프로부터 샘플(y2), 즉 지표 k를 갖는 샘플과 합산되어, N 복호화 시간 샘플들이 출력 측에, 즉 복호기에 생성된다.
가산 함수(add function)로도 불리는, 수단(416)의 함수(function)에 의해, 도 4a에 개략적으로 나타나 있는 부호기에서 실행된 윈도윙이 자동적으로 얼마간 고려되어, 도 4b에 도시된 복호기에서 명백한(explicit) "역 윈도윙(inverse windowing)"이 발생하지 않아야 한다.
수단(402 또는 404)에 의해 실행된 윈도우 함수가 [w(k)]로 표시될 때, 지표 k는 시간을 나타내고, 제곱된 윈도우 가중치 [w(N+k)]에 더해진 제곱된 윈도우 가중치 [w(k)]가 함께 1이 되는 조건과 맞아야만 하며, 여기서 k는 0에서 N-1이다. 그 윈도우 가중치가 사인 함수의 제1 반파(the first half-wave)를 뒤따르는 사인 윈도우가 사용될 때는, 각 각도의 사인(sine)의 제곱과 코사인(cosine)의 제곱의 합의 값이 1이 되기 때문에 이 조건이 항상 충족된다.
90도 각도는 별문제로 하고, 0도와 180도 사이의 하나의 각도의 사인(sine)이 정수(integer)가 되지 않기 때문에, 도 4a에 설명된 후행(ensuing) MDCT 함수를 갖는 윈도우 방법은, 부동소수점 수(floating-point number)로 얻어지므로 시간-이산 샘플의 다중화(multiplication)에 의한 윈도윙은 하나의 사인 윈도우로 생각할 때 불리하다. 정수 시간-이산 샘플들이 윈도윙될 때조차도 부동소수점 수들이 윈도윙 후에 나온다.
따라서, 심리음향 부호기가 사용되지 않을 때, 즉, 무손실 부호화가 달성되어야 할 때라도, 합리적으로 제어가 용이한(reasonably manageable) 엔트로피 부호화를 실행할 수 있도록 수단(408 또는 410)의 출력부에서의 양자화가 필요하다.
도 4a에 따라 설명한 공지의 변환을 무손실 오디오 부호화를 위해 사용하려고 할 때, 부동소수점 수의 라운딩 때문에 생기는 오류를 무시할 수 있도록 고정밀 양자화(very fine quantization)가 사용되어야만 하거나, 또는 오류 신호가 예를 들어 시간 도메인에서 부가적으로 부호화되어야만 한다.
앞에서 설명한, 즉 양자화가 매우 정밀하게 조정되어 부동소수점 수의 라운딩으로 인해 생기는 오류가 무시할 수 있는 정도가 된다는 개념(concepts)은 예를 들어 독일 특허 제DE 197 42 201 C1호에 개시되어 있다. 여기서, 오디오 신호가 양자화된 스펙트럼 값을 얻기 위하여 그 스펙트럼 표시로 변환되어 양자화된다. 양자화된 스펙트럼 값들은 그 다음에 역양자화되고, 시간 도메인으로 변환된 다음, 원래의 오디오 신호와 비교된다. 만약 오류, 즉 원래의 오디오 신호와 양자화/역양자화 오디오 신호간의 오류가 오류 임계치 위에 있다면, 양자화기는 피드백(feedback)에서 더 정밀하게 조절되어, 다시 비교된다. 오류 임계치가 임계치를 하회하면 위 과정의 반복이 종결된다. 여전히 존재할 수 있는 잔류 신호는 시간 도메인 부호기에 의해 부호화되어, 시간-도메인-부호화 잔류 신호는 별도로 하고 반복 취소시에 존재했고 양자화기 조절에 따라 양자화된 부호화 스펙트럼 값을 또한 포함하는 하나의 비트 스트림으로 기록된다(write). 양자화기는 심리음향 모델로부터 제어되지 않아, 부호화 스펙트럼 값들이 심리음향 모델로 인한 경우보다 더 정확하게 양자화되는 것이 일반적이다.
티. 모리야(T. Moriya) 등의 (Proc. ICASSP, 2000) 출판물 "손실 및 무손실 스케일러블 오디오 부호화의 설계(A Design of Lossy and Lossless Scalable Audio Coding)"에, 예를 들어 MPEG 부호기를 제1 손실 데이터 압축 모듈(lossy data compression module)로서 포함하는 스케일러블 부호기가 설명되어 있는데, 이 MPEG 부호기는 블록형 디지털 신호 형식(form)을 입력 신호로서 가지며 압축 비트 스트림을 발생시킨다. 역시 그안에 있는(also present) 로컬 복호기에서, 부호화가 다시 취소되고 하나의 부호화/복호화 신호가 생성된다. 이 신호는 원래의 입력 신호에서 부호화/복호화 신호를 제하고 원래의 입력 신호와 비교된다. 오류 신호는 그 다음에 무손실 비트 전환(conversion)이 사용되는 제2 모듈로 공급된다. 이 전환은두 단계를 거친다. 제1 단계는 2의 보완 포맷(a two's complement format)으로부터 프리사인-매그니튜드 포맷(a presign-magnitude format)으로의 전환으로 구성된다. 제2 단계는 하나의 프로세싱 블록에서 수직 매그니튜드 시퀀스(vertical magnitude sequence)로부터 수평 비트 시퀀스(horizontal bit sequence)로의 변환으로 구성된다. 이러한 무손실 데이터 전환은 디지털 수로 인해 존재하는 시간 오류 신호의 가능한 한 양호한 압축을 얻기 위해 0의 갯수(number)를 최대화하기 위해 또는 하나의 시퀀스내의 연속적 0의 갯수들을 최대화하기 위해 실행된다. 이 원리는 출판물 "(다층 비트 슬라이스화 레이트 스케일러블 오디오 부호기(Multi-Layer Bit Sliced Rate Scalable Audio Coder)" (103차 AES Convention, Preprint No. 4520)에 설명되어 있는 BSAC(bit slice arithmetic coding) 체계에 기초한 것이다.
상술한 개념의 단점은 무손실 확장 레이어(expansion layer)를 위한 데이터, 즉 오디오 신호의 무손실 복호화를 달성하기 위해 필요한 보조 데이터가 시간 도메인에서 얻어져야만 한다는 것이다. 이것은 주파수/시간 변환을 포함하는 완전한 복호화가 시간 도메인에서 부호화/복호화 신호를 얻기 위해 필수적이라는 것을 의미하여, 심리음향 부호화로 인해 손실이 발생되는, 원래의 오디오 입력 신호와 부호화/복호화 오디오 신호 간의 샘플형 차분 형성(sample-wise difference formation)에 의해, 오류 신호가 계산된다. 이 개념은, 오디오 데이터 스트림을 발생시키는 부호기에서, 필터 뱅크 또는 예를 들어 MDCT 알고리즘과 같은 쌍방 완전 시간/주파수 전환 수단(both complete time/frequency conversion means)이 순방향 변환(forward transform)을 위해 필요하고, 동시에 오류 신호의 발생만을 위하여 완전역 필터 뱅크(complete inverse filter bank) 또는 완전 합성 알고리즘이 필요한 점에서 특히 불리하다. 따라서, 그 고유의 부호기 기능성(functionalities)외에 또 완벽한 복호기 기능성을 포함하여야만 한다. 상기 부호기가 소프트웨어에서 실행되면, 그에 따른 저장 용량(storage capacity)과 프로세서 용량(processor capacity)이 모두 필요하며, 이는 부호기를 실행시키는 비용의 증가로 이어진다.
본 발명은 오디오 부호화/복호화에 관한 것으로서, 더욱 상세하게는 무손실 복호화(lossless decoding)를 위한 심리음향 제1 스케일링 레이어(scaling layer)와 제2 스케일링 레이어를 갖는 스케일러블 부호화/복호화 알고리즘(scalable coding/decoding algorithms)에 관한 것이다.
본 발명의 이러한 그리고 다른 목적들과 특성들이 첨부도면을 참고한 다음의 설명으로부터 명백해질 것인 바,
도 1은 그로부터 정수 스펙트럼 값이 확인될(ascertained) 수 있는 정수 값을 얻기 위해 시간-이산 오디오 샘플들을 처리하기 위한 바람직한 수단의 블록 회로도이고;
도 2는, 기븐스 회전(Givens rotations)과 두 개의 DCT-IV 연산(operations)에서 MDCT 및 역 MDCT의 분할(split-up)의 개략도이며;
도 3은, 상기 회전 및 DCT-IV 연산(operations)에서 50% 중첩된 MDCT의 분할을 설명하기 위한 도면이고;
도 4a는, MDCT와 50% 중첩을 갖는 공지된 부호기의 블록 회로 개략도이며;
도 4b는, 도 4a에 의해 발생된 값을 복호화하기 위한 공지의 복호기의 블록 회로 개략도이고;
도 5는, 본 발명의 바람직한 부호기의 원리 블록 회로도(principle block circuit diagram)이며;
도 6은, 본 발명의 바람직한 다른 부호기의 원리 블록 회로도이고;
도 7은, 본 발명의 바람직한 복호기의 원리 블록 회로도이며;
도 8a는, 제1 스케일링 레이어와 제2 스케일링 레이어를 갖는 하나의 비트 스트림의 개략도이고;
도 8b는, 제1 스케일링 레이어와 몇 개의 추가 스케일링 레이어를 갖는 하나의 비트 스트림의 개략도이며;
도 9는, 차분 스펙트럼값의 정확도(비트) 및/또는 차분 스펙트럼값의 주파수(샘플속도: sample rate)와 관련하여 실행가능한 스케일링을 설명하기 위한 이진 부호화 차분 스펙트럼 값의 개략도이다.
본 발명의 목적은, 적어도 거의 무손실 방식으로 복호화될 수 있는 오디오 데이터 스트림을 생성할 수 있는, 저비용 개념(a less expensive concept)을 제공하는 것이다.
이 목적은 청구항 1의 시간-이산 오디오 신호를 부호화하기 위한 장치에 의해, 청구항 21의 시간-이산 오디오 신호를 부호화하는 방법에 의해, 청구항 22의 부호화 오디오 데이터 신호를 복호화하기 위한 장치에 의해, 청구항 31의 부호화 오디오 데이터를 복호화하는 방법에 의해, 또는 청구항 32 또는 33의 컴퓨터 프로그램에 의해 달성될 수 있다.
본 발명은, 오디오 신호의 무손실 복호화를 가능하게 하는 보조 오디오 데이터(ancillary audio data)를, 통상적으로 양자화된 스펙트럼 값의 하나의 블록을 제공하고, 그 다음에 그것을 심리음향 모델에 의한 양자화로 인해 손실이 있는 역양자화된 스펙트럼 값을 갖도록 하기 위해 역양자화함으로써 얻을 수 있다는 발견(finding)에 기초한다. 이러한 역양자화 스펙트럼 값은 그 다음에 라운딩된(rounded) 역양자화 스펙트럼 값의 라운딩 블록을 얻기 위해 라운딩된다. 본 발명에 따르면, 차분 형성(difference formation)을 위한 기준(reference)으로서, 정수 시간-이산 샘플들의 하나의 블록으로부터의 정수 스펙트럼 값들로만 구성되는 스펙트럼 값의 하나의 정수 블록을 발생시키는 정수 변환 알고리즘이 사용된다. 본 발명에 따르면, 라운딩 블록과 정수 블록의 스펙트럼 값들의 결합(combination)은, 부호기 그 자체에서 합성 알고리즘, 즉, 역 필터 뱅크 또는 역 MDCT 알고리즘이 필요하지 않도록 스펙트럼 값에 관하여(spectral value-wise), 즉 주파수 도메인에서, 실행된다. 차분 스펙트럼 값들로 구성되는 결합 블록(combination block)은, 정수 변환 알고리즘과 라운딩된 양자화 값(rounded quantization values)으로 인해, 공지된 방식으로 엔트로피 부호화될 수 있는 정수 값들만을 포함한다. 임의의 엔트로피 부호기(arbitrary entropy coders)가 결합 블록의 엔트로피 부호화를 위해 사용될 수 있음을 알 수 있는데, 허프만 부호기 또는 연산 부호기(arithmetic coder) 등이 그 예이다.
양자화 블록의 양자화된 스펙트럼 값의 부호화를 위해 임의의 부호기들이 또한 사용될 수 있는데, 최신 오디오 부호기에 통상 사용되는 공지된 툴(tools)들이 그것이다.
본 발명의 부호화/복호화 개념이, 윈도우 스위칭(window switching), TNS 또는 다중-채널 오디오 신호의 센터/사이드 부호화(center/side coding)와 같은 최신 부호화 툴(tool)과 호환성이 있음을 알 수 있다.
본 발명의 바람직한 실시예에서, 심리음향 모델을 사용하여 스펙트럼 값의하나의 양자화 블록을 제공하기 위해 MDCT가 사용된다. 추가적으로, 정수 변환 알고리즘으로 소위 IntMDCT를 사용하는 것이 선호된다.
본 발명의 다른 실시예에 있어서, 양자화블록의 제공이 통상적인 MDCT 없이 행해질 수 있으며, IntMDCT가 MDCT와 유사한 것(approximation)으로서 사용될 수 있는바, 즉, IntMDCT 스펙트럼 값을 얻기 위해 정수 변환 알고리즘에 의해 얻어진 정수 스펙트럼이 심리음향적 양자화기(psychoacoustic quantizer)로 공급되며, 양자화된 IntMDCT는 원래의 정수 스펙트럼 값과 비교되기 위해 다음에 다시 역양자화되고 양자화된다. 이 경우 단일 변환만이 필요한 바, 즉 IntMDCT가 정수 시간-이산 샘플들로부터의 정수 스펙트럼 값을 발생시킨다.
일반적으로, 프로세서는 정수들로 동작하거나(work), 또는 각 부동소수점 수가 하나의 정수로 표시될 수 있다.
정수 연산(integer arithmetic)이 프로세서에서 사용된다면, 역양자화된 스펙트럼 값을 라운딩하지 않고서 실행될 수 있는데 이는, 프로세서의 연산 때문에, 최하위 비트(LSB, the least significant bit)의 정확도(accuracy)내에 라운딩값이 여하튼 존재하기 때문이다. 이 경우에, 완전 무손실 프로세싱, 즉 사용된 프로세서 시스템의 정확도내의 처리가 달성된다. 그러나, 이와 달리, 결합 블록의 차분 신호가 라운딩 함수(rounding function)에 의해 고정되는 정확도로 라운딩되는 더 낮은(rougher) 정확도로의 라운딩이 실행될 수 있다. 프로세서 시스템의 고유 라운딩(inherent rounding)을 넘어서는 라운딩을 도입하는 것은, 데이터 압축의 의미에서(in the sense of data compression) 거의 무손실 부호기를 발생시키기 위하여, 부호화의 무손실의 "정도(degree)"에 영향을 미치는 한 융통성(flexibility)을 가능하게 한다.
본 발명의 복호기는 심리음향적으로 부호화 오디오 데이터와, 그 오디오 데이터로부터 추출되어 존재가능성 있는(possibly present) 엔트로피 부호화를 거친 다음 후술하는 바와 같이 처리되는 보조 오디오 데이터 두가지에 특색이 있다. 먼저, 엔트로피-복호화 보조 오디오 데이터에 첨가되기 위해 복호기의 양자화 블록이 역양자화되고, 부호기에서 또한 사용된 동일한 라운딩 함수를 사용하여 라운딩된다. 그 다음에는, 복호기에 오디오 신호의 심리음향적 압축 스펙트럼 표시와 오디오 신호의 무손실 표시(a lossless representation)가 존재하는데, 여기서 오디오 신호의 심리음향적 압축 스펙트럼 표시는 손실초래(lossy) 부호화/복호화 오디오 신호를 얻기 위해 시간 도메인으로 변환되며, 한편 무손실 표시는 전술한 바와 같이 무손실적으로 또는 거의 무손실적으로 부호화/복호화된 오디오 신호를 얻기 위해 상기 정수 변환 알고리즘에 반대되는 하나의 정수 변환 알고리즘을 사용하여 시간 도메인으로 변환된다.
다음에서, 도 5 내지 7에 따라, 본 발명의 부호기 회로(도 5 및 도 7) 또는 본 발명의 바람직한 복호기 회로(도 7)를 설명하기로 한다. 도 5에 도시된 본 발명의 부호기는, 부호화 오디오 데이터가 출력되는 하나의 출력부(52) 와 함께 시간-이산 오디오 신호가 공급되는 하나의 입력부(50)를 포함한다. 입력부(50)에 공급된 시간-이산 오디오 신호는, 출력부 측에 시간-이산 오디오 신호의 양자화 블록을 제공하고 심리음향 모델(54)을 사용하여 시간-이산 오디오 신호(50)의 양자화된 스펙트럼 값을 포함하여 구성되는 양자화 블록을 제공하기 위한 수단(52)에 공급된다. 본 발명의 부호기는, 정수 시간-이산 샘플들로부터 정수 스펙트럼 값을 발생시키도록 동작하며(operative), 정수 변환 알고리즘(56)을 사용하여 하나의 정수 블록을 발생시키기 위한 수단을 더 포함한다.
본 발명의 부호기는, 양자화 블록제공수단(52)에서 출력된 양자화 블록을 역 양자화하기 위한 수단(58) 그리고 프로세서 정확도외에 또 다른 정확도가 필요할 때 라운딩 기능을 더 포함한다. 전술한 바와 같이, 그것이 프로세서 시스템의 정확도까지 도달해야만 한다면, 정수 연산(integer arithmetic)을 갖는 프로세서가 여하튼 비-정수 값을 제공할 수 없기 때문에, 그 라운딩 기능이 이미 양자화 블록의 역양자화에 원래부터 포함된다. 따라서, 수단(58)은, 원래부터 또는 명시적으로 라운딩된 정수인, 역양자화된 스펙트럼 값을 포함하는 소위 라운딩 블록을 제공한다. 라운딩 블록과 정수 블록 모두 차분형성(difference formation)을 사용하여, 차분 블록에 차분 스펙트럼 값들을 제공하는 결합 수단(combining means)으로 공급되며,여기서 "차분 블록"이라는 용어는 차분 스펙트럼 값들이 정수 블록과 라운딩 블록 사이의 차분을 포함하는 값이라는 것을 의미하는 것이다.
수단(52)으로부터 출력된 양자화 블록과 차분 형성 수단으로부터 출력된 차분 블록 모두가, 예를 들어 양자화 블록의 통상적인 처리를 실행하고 그리고 예를 들어 차분 블록의 엔트로피 부호화를 일으키는, 프로세싱 수단(60)으로 공급된다. 프로세싱 수단(60)은 양자화 블록의 정보와 차분 블록의 정보를 모두 포함하는 부호화 오디오 데이터를 출력부(52)에서 출력한다.
도 6에 도시된 바람직한 제1 실시예에 있어서, 시간-이산 오디오 신호가, MDCT에 의해 그 스펙트럼 표시로 변환된 다음에 양자화된다. 따라서, 양자화 블록을 제공하기 위한 수단(52)은 MDCT 수단(52a)과 하나의 양자화기(52b)로 구성된다.
또한, 정수 변환 알고리즘인 하나의 IntMDCT(56)로 정수 블록을 발생시키는 것이 바람직하다.
도 6에 있어서, 도 5에 도시된 프로세싱 수단(60)이, 차분 블록을 엔트로피 부호화하기 위한 엔트로피 부호기(60b)에 의해서 뿐만 아니라 수단(52b)에 의해서 출력된 양자화 블록을 비트 스트림 부호화하기 위한 비트 스트림 부호화 수단(60a)으로 또한 도시되어 있다. 엔트로피 부호기(60b)가 하나의 엔트로피-부호화 차분 블록(entropy-coded difference block)을 출력하는 반면, 비트 스트림 부호기(60a)는 심리음향적 부호화 오디오 데이터(psychoacoustically coded audio data)를 출력한다. 블록(60a 및 60b)의 두 개의 출력 데이터는, 제1 스케일링 레이어로 심리음향적 부호화 오디오 데이터를 가지며 제2 스케일링 레이어로 무손실 복호화를 위한 부가적인 오디오 데이터를 가지는 하나의 비트 스트림으로 적절한 방식으로 결합될 수 있다. 스케일링된 비트 스트림(scaled bit stream)은 그 다음에 부호기의 출력부(52)에서 도 5에 나타낸 부호화 오디오 데이터(coded audio data)에 상응한다.
다른 바람직한 실시예에서는, 도 5에 점선 화살표(62)로 나타낸 바와 같이, 도 6의 MDCT 블록(52a) 없이도 실행될 수 있다. 이 경우에, 정수 변환 수단(56)에 의해 제공된 정수 스펙트럼은 도 6의 차분 형성 수단(58)과 양자화기(52b) 모두로 공급된다. 정수 변환에 의해 발생된 스펙트럼 값들은, 여기서 통상적인 MDCT 스펙트럼과 유사한 것(approximation)으로서 어느정도 사용된다. 이 실시예는 부호기에 IntMDCT 알고리즘만이 존재하고, 부호기에 IntMDCT 알고리즘과 MDCT 알고리즘 모두가 존재해야 하는 것은 아니라는 이점이 있다.
도 6을 다시 참조하면, 점선 블록과 선(dashed blocks and lines)이 그러한 통상적인 MPEG 부호기의 확장(extension)을 설명하는 반면, 실선 블록과 선(solid blocks and lines)이 MPEG 표준들중의 하나에 따른 통상적인 오디오 부호기를 설명함을 알 수 있다. 따라서, 통상적인 MPEG 부호기의 근본적인 변경이 필요하지 않으나, 정수 변환에 의한 무손실 부호화를 위한 보조 오디오 데이터의 본 발명에 의한 데이터 입력(inventive capture)이 부호기/복호기 기본 구조에 대한 변경없이 추가될 수 있음을 알 수 있다.
도 7은 도5의 출력부(52)에서 출력된 부호화 오디오 데이터를 복호화하기 위한 본 발명의 복호기의 원리 블록 회로도를 나타낸다. 이것은 먼저 한편으로는 심리음향적 부호화 오디오 데이터로, 다른 한편으로는 보조 오디오 데이터로 분할된다. 보조 오디오 데이터가 부호기에서 엔트로피 부호화될 때 엔트로피 부호기(72)에 의해 엔트로피 부호화되는 반면, 심리음향적 부호화 오디오 데이터는 하나의 통상적인 비트 스트림 복호기(70)로 공급된다. 도 7의 비트 스트림 복호기(70)의 출력부에 존재하는 양자화된 스펙트럼 값들이 도 6의 수단의 역양자화기와 원리적으로 동일하게 구성될 수 있는 역양자화기(74)로 공급된다. 프로세서 정확도에 부합하지 않는 정확도를 목적으로 한다면, 실수를 정수로 맵핑(mapping)하기 위한 동일한 알고리즘 또는 동일한 라운딩 기능을 실행하는 라운딩 수단(76)이 복호기에 또한 제공되며, 도 6의 수단(58)에서도 실행될 수 있다. 복호기-측 콤바이너(decoder-side combiner)(78)에 있어서, 라운딩 역양자화 스펙트럼 값들(rounded inversely quantized spectral values)은 스펙트럼 값에 관하여(spectral value-wise) 엔트로피 부호화 보조 오디오 데이터에 추가적으로 결합되어, 복호기에서 한편으로는 역양자화된 스펙트럼 값들이 수단(74)의 출력부에 존재하고 다른 한편으로는 정수 스펙트럼 값들이 콤바이너(78)의 출력부에 존재하는 것이 바람직하다.
수단(74)의 출력측 스펙트럼 값들은, 그 다음에 손실 발생적으로 심리음향 부호화되고 다시 복호화된 오디오 신호를 얻기 위해, 역 변경 이산 코사인 변환(inverse modified discrete cosine transform)을 실행하기 위한 수단(80)에 의해 시간 도메인으로 변환될 수 있다. 무손실 부호화/복호화 오디오 신호, 또는 상응하는 낮은 수준의(rougher) 라운딩이 사용될 때는 거의 무손실 부호화되고 다시 복호화된 오디오 신호를 얻기 위해, 콤바이너(78)의 출력 신호도 역 정수(inverseinteger) MDCT(IntMDCT)를 실행하기 위한 수단(82)에 의해 그 시간 표시로 변환된다.
다음에, 특히 바람직한 실시예의 도 6의 엔트로피 부호기(60b)를 설명한다. 통상적인 최신 MPEG 부호기에 양자화 스펙트럼 값들의 평균 통계(average statistics)에 따라 선택된 여러가지 부호 테이블들이 존재하기 때문에, 콤바이너(58)의 출력부에 차분 블록의 엔트로피 부호화를 위한 동일한 코드 테이블 또는 코드 북을 사용하는 것이 바람직하다. 차분 블록, 즉 잔류 IntMDCT 스펙트럼의 크기가 양자화의 정확도에 달려있기 때문에, 엔트로피 부호기(60b)의 하나의 코드북 선택이 보조 정보(ancillary side information)없이 실행될 수 있다.
MPEG-2 AAC 부호기에서, 스펙트럼 계수(spectral coefficients), 즉 양자화된 스펙트럼 값들은 양자화 블록내의 스케일 계수 밴드들(scale factor bands)로 그룹지어지며, 여기서 스펙트럼 값들은 하나의 스케일 인수(factor) 밴드와 관련된 하나의 상응 스케일 인수로부터 유래된 이득 인수(gain factor)와 비교된다(weighed). 이 공지된 부호기 개념에서 비-균일 양자화기(a non-uniform quantizer)가 비교된 스펙트럼 값들(weighted spectral values)을 양자화하기 위해 사용되기 때문에, 잔류 값(residual values), 즉 콤바이너의 출력부에서의 스펙트럼 값의 크기는 스케일 인수 뿐만 아니라 그들 자신의 양자화 값(quantized values)에도 달려 있다. 그러나, 스케일 인수와 양자화 스펙트럼 값 모두가 도 6의 수단(60a)에 의해 발생된 비트 스트림, 즉 심리음향적 부호화 오디오 데이터에 포함되기 때문에, 차분 스펙트럼 값의 크기에 따라 부호기에서 코드북 선택을 실행하고, 또한 비트 스트림내에 전송된 스케일 인수들과 양자화 값 두가지를 기초로 하여 복호기에서 부호기에 사용된 코드 테이블을 확인하는(ascertain) 것이 바람직하다. 콤바이너(58)의 출력부에서 보조 정보가 차분 스펙트럼 값들의 엔트로피 부호화를 위해 송신되어야 하는 것은 아니므로, 엔트로피 부호화는, 엔트로피 부호기(60b)를 위한 보조 정보로서 신호화 비트(signalization bits)를 데이터 스트림내에 확장시키지 않고, 단지 데이터 레이트 압축(data rate compression)으로 이어진다.
표준 MPEG-2 AAC에 따른 오디오 부호기에서, 과도적 오디오 신호 영역(transient audio signal areas)에서의 프리-에코(pre-echoes)를 피하기 위해 윈도우 스위칭(window switching)이 사용된다. 이 기술은 MDCT 윈도우의 각 하프(half)에서 윈도우 형상(window shapes)을 개별적으로 선택할 가능성(possibility)에 기초하고, 연속적인 블록에서 블록 크기를 변경하는 것을 가능하게 한다. 이와 유사하게, 도 1 내지 3을 참고하여 설명된 IntMDCT 형태의 정수 변환 알고리즘이 또한 윈도윙에서 그리고 MDCT 분할(split-up)의 시간 도메인 에일리어싱 섹션(time domain aliasing section)에서 상이한 윈도우 형상을 사용하기 위해 실행된다. 따라서, 정수 변환 알고리즘 그리고 양자화 블록을 발생시키기 위한 변환 알고리즘 모두를 위해 동일한 윈도우 결정(window decisions)을 사용하는 것이 바람직하다.
MPEG-2 AAC에 따른 부호기에 있어서, TNS(temporal noise shaping) 그리고 센터/사이드 스테레오 부호화[center/side (CS) stereo coding]이 언급될 몇몇의 추가 부호화 툴(coding tools)이 또한 존재한다. 바로 CS 부호화와 같은 TNS 부호화에서, 양자화에 앞서 스펙트럼 값의 변환이 실행된다. 따라서, IntMDCT 값들간의 차분, 즉 정수 블록과 양자화된 MDCT 값 사이의 차분이 증가한다. 본 발명에 따르면, 정수 스펙트럼 값들의 TNS 부호화와 센터/사이드 부호화 모두를 허용하기 위해 정수 변환 알고리즘이 만들어진다. TNS 기술은 주파수에 걸친 MDCT 값(MDCT values over the frequency)의 적응성 순방향 예측(adaptive forward prediction)에 기초한다. 신호-적응 방식으로(in a signal-adaptive manner) 통상적인 TNS 모듈에 의해 계산된 동일한 예상 필터(prediction filter)도 정수 스펙트럼 값을 예측하기 위하여 사용되는 것이 바람직한데, 여기서 비-정수 값이 그것에 의해 발생되면, 정수 값을 다시 발생시키기 위하여 하향 라운딩(downstream rounding)이 사용될 수 있다. 이 라운딩은 각 예상 단계 후에 일어나는 것이 바람직하다. 복호기에서, 원래의 스펙트럼은 역 필터(inverse filter)와 동일한 라운딩 기능을 사용하여 다시 재구성(reconstructed)될 수 있다. 이와 유사하게, CS 부호화가 또한 리프팅 스킴(lifting scheme)에 기초한 각도 p/4의 라운딩된 기븐스 회전(rounded Givens rotations)을 적용함에 의해 IntMDCT 스펙트럼 값에 적용될 수 있다. 그것에 의해, 복호기의 원래의 IntMDCT 값들이 재구성될 수 있다.
정수 변환 알고리즘으로 IntMDCT를 갖는 바람직한 실시예에 있어서의 본 발명의 개념이 모든 MDCT-기초 청취-적응 오디오 부호기(MDCT-based hearing-adapted audio coders)에 적용될 수 있음을 알 수 있다. 그러한 부호기들은, 단지 하나의 예시로서, MPEG-4 AAC 스케일러블(Scalable), MPEG-4 AAC 저지연(Low Delay), MPEG-4 BSAC, MPEG-4 트윈(Twin) VQ, 돌비(Dolby) AC-3 등에 따른 부호기들이다.
특히, 본 발명의 개념은 역으로 호환가능함을 알 수 있다. 청취-적응 부호기(hearing-adapted coder) 또는 복호기가 변경되지는 않으나 다만 확장된다. 무손실 성분(lossless components)을 위한 보조 정보는, "보조 데이터" 필드의 MPEG-2 AAC와 같은 역으로 호환가능한 방식으로 청취-적응 방식으로 부호화된 비트 스트림에 전송될 수 있다. 도 7의 점선으로 그려진 앞의 청취-적응 복호기에의 추가는 이 보조 데이터의 값을 구하고(evaluate), 양자화된 MDCT 스펙트럼과 함께 IntMDCT 스펙트럼을 청취-적응 복호기로부터 무손실 방식으로 복원할 수 있다.
본 발명의 무손실적 또는 거의 무손실적 부호화에 의해 보완되는 심리음향적 부호화의 개념은, 스케일러블 데이터 스트림의 발생, 전송, 및 복호화에 특히 적합하다. 스케일러블 데이터 스트림이, 적어도 그 하위 스케일링 레이어들이 상위 스케일링 레이어들(higher scaling layers)과 독립적으로 전송되고 복호화될 수 있는 여러 가지 스케일러블 레이어들을 포함함이 잘 알려져 있다. 또한, 스케일링 레이어들 또는 강화 레이어들(enhancement layers)이 데이터의 스케일러블 처리에서(in a scalable processing) 제1 스케일링 레이어 또는 베이스 레이어(base layer)에 추가된다. 완전히 갖추어진 부호기는 제1 스케일링 레이어를 가지며 원리적으로 임의의 수(arbitrary number)의 추가 스케일링 레이어들을 갖는 하나의 스케일러블 데이터 스트림을 발생시킬 수 있다. 스케일링 개념의 이점은, 광대역 전송 채널(broadband transmission channel)이 이용가능한 경우, 부호기에 의해 발생되어 스케일링된 데이터 스트림(scaled data stream)이 광대역 전송 채널을 통해 완전히, 즉 모든 스케일링 레이어를 포함하여, 전송될 수 있다는 점이다. 그러나, 만약 협대역 전송 채널(narrowband transmission channel)만이 있다면, 부호화 신호는 단지 제1 스케일링 레이어 또는 특정의 수의 추가 스케일링 레이어들의 형태로만 전송 채널을 통해 전송될 수 있으며, 여기서 상기 특정의 수는 부호기에 의해 발생된 스케일링 레이어들의 전체 수보다 더 작다. 물론, 그것이 연결된 채널에 적합한(adapted) 부호기는, 채널에 의존하는 베이스 스케일링 레이어 또는 제1 스케일링 레이어 그리고 많은 추가 스케일링 레이어들을 발생시킬 수 있다.
복호기 측에서(on the decoder side), 스케일러블 개념(scalable concept)은 역으로 호환가능하다는 점에서 또한 유리하다. 이것은 제1 스케일링 레이어만을 처리할 수 있는 복호기가 데이터 스트림의 제2 및 추가 스케일링 레이어들을 쉽게 무시하고 유용한 출력 신호를 발생시킬 수 있다는 것을 의미한다. 그러나, 만약 복호기가 스케일링된 데이터 스트림으로부터의 몇몇의 스케일링 레이어들을 처리할 수 있는 최신식 복호기라면, 이 부호기는 동일한 데이터 스트림을 가지고 베이스 복호기(base decoder)로 지정될(addressed) 수 있다.
본 발명에 있어서, 베이직 스케일러빌리티(basic scalability)는 양자화 블록, 즉 비트 스트림 부호기(60a)의 출력은, 도 6을 고려할 때 예를 들어 하나의 프레임(frame)을 위한 심리음향적으로 부호화된 데이터(psychoacoustically coded data)를 포함하는 도 8의 제1 스케일링 레이어에 기록된다. 결합 수단(58)에 의해 발생된 바람직하게는 엔트로피-부호화된 차분 스펙트럼 값들은, 하나의 프레임을 위한 보조 오디오 데이터를 포함하는, 심플 스케일러빌리티에서의(at simple scalability), 도 8a의 도면부호 82로 표시된, 제2 스케일링 레이어로 기록된다(written).
만약 부호기로부터 복호기로의 전송 채널이 하나의 광대역 전송 채널이면, 두 스케일링 레이어들(81 및 82) 모두 복호기로 전송될 수 있다. 그러나, 만약 전송 채널이 제1 스케일링 레이어만이 "꼭 들어맞는(fit)" 하나의 협대역 전송 채널이라면, 제2 스케일링 레이어는 전송 전에 데이터 스트림으로부터 쉽게 제거되어, 복호기가 제1 스케일링 레이어로만 지정될(addressed) 수 있다.
복호기 측에서, 하나의 심리음향 부호화 데이터만을 처리할 수 있는 "베이스 복호기"는, 광대역 전송 채널을 통해 수신되는 한, 제2 스케일링 레이어(82)를 쉽게 생략할 수 있다. 그러나, 복호기가 심리음향 복호화 알고리즘과 정수 복호화 알고리즘을 둘다 포함하는 완전히 갖추어진 복호기라면, 완전히 갖추어진 이 복호기는, 무손실 부호화되고 다시 복호화 출력 신호를 생성시키기 위하여 복호화를 위한 제1 스케일링 레이어와 제2 스케일링 레이어를 모두 취할 수 있다.
도 8a에 개략적으로 도시된 본 발명의 바람직한 실시예에서, 하나의 프레임을 위한 심리음향 부호화 데이터는 다시 제1 스케일링 레이어에 있게 된다. 그러나, 도 8a의 제2 스케일링 레이어는 더 정밀하게 스케일링되어(scaled), 도 8a의 이 제2 스케일링 레이어로부터 (더 작은) 제2 스케일링 레이어, 제3 스케일링 레이어, 제4 스케일링 레이어 등과 같은 몇개의 스케일링 레이어들이 생긴다.
가산기(adder)(58)에서 출력된 차분 스펙트럼 값은, 도 9를 기초하여 설명된 바와 같이, 특히 추가 서브스케일링(further subscaling)에 매우 적합하다(suited). 도 9는 이진 부호화 스펙트럼 값(binarily coded spectral values)을 개략적으로 도시한다. 도 9의 각 열(90)은 이진 부호화 차분 스펙트럼 값을 나타낸다. 도 9에서, 차분 스펙트럼 값은 화살표 91로 표시된 바와 같이 주파수에 따라 분류된다(sorted). 따라서, 차분 스펙트럼 값(92)은 차분 스펙트럼 값(90) 보다 높은 주파수(higher frequency)를 가진다. 도 9의 표의 첫번째 열(the first column)은 하나의 차분 스펙트럼 값의 최상위 비트(most significant bit)를 제공한다. 두 번째 자릿수(the second digit)는 중요도(significance) MSB-1을 갖는 비트를 제공하고, 세 번째 열은 중요도(significance) MSB-2를 갖는 비트를 제공한다. 뒤에서부터 세 번째 열은 중요도 LSB+2를 갖는 비트를 제공한다. 뒤에서부터 두 번째 열은 중요도 LSB+1을 갖는 비트를 제공한다. 마지막으로, 마지막 열은 중요도 LSB를 갖는 비트, 즉 차분 스펙트럼 값의 최하위 비트(least significant bit)를 제공한다.
본 발명의 바람직한 실시예에 있어서, 정밀 스케일링(accuracy scaling)은, 원할 경우 그 다음에 엔트로피 부호기(60b)로 엔트로피 부호화되도록, 예를 들어 차분 스펙트럼 값의 16 최상위 비트가 제2 스케일링 레이어로 취해질 때 이루어진다. 제2 스케일링 레이어를 사용하는 복호기는 출력부 측에 16 비트의 정확도로 차분 스펙트럼 값을 얻어, 제2 스케일링 레이어가 제1 스케일링 레이어와 함께 CD 음질(quality)로 무손실 복호화 오디오 신호를 제공한다. 16 비트의 폭(width)을 갖는 CD 음질의 오디오 샘플들이 있는 것으로 알려져 있다.
다른 한편으로 스튜디오 음질(studio quality)의 오디오 신호, 즉 각기 24 비트를 포함하는 샘플들을 갖는 오디오 신호가 부호기에 공급되면, 부호기는 최종8 비트(the last eight bits)의 차분 스펙트럼 값을 포함하고, 필요에 따라 엔트로피 부호화도 되는 제3 스케일링 레이어[도 6의 수단(60)]을 추가로 생성시킬 수 있다.
제1 스케일링 레이어, 제2 스케일링 레이어(16 최상위 비트의 차분 스펙트럼 값) 그리고 제3 스케일링 레이어(8 하위 비트의 차분 스펙트럼 값)를 갖는 데이터 스트림을 얻는 완전히 갖추어진 복호기는, 세가지 모두의 스케일링 레이어들을 사용하여 스튜디오 음질의, 즉, 복호기의 출력부에 존재하는 24 비트의 샘플의 단어 폭(word width)을 갖는, 무손실 부호화/복호화 오디오 신호를 제공할 수 있다.
스튜디오 영역(studio area)에서는 소비자 영역(consumer area)에서 보다 상위 단어 길이(higher word length)를 갖는 샘플들이 더 일반적이다. 소비자 영역에서 단어 폭은 오디오 CD로 16 비트인 반면, 스튜디오 영역에서 24 비트 또는 20 비트가 사용된다.
전술된 바와 같은 IntMDCT 영역에서의 스케일링의 개념에 기초하여, 모든 3가지 정확도(accuracies)(16 비트, 20 비트 또는 24 비트) 또는 최소한 1 비트로 스케일링된(scaled) 임의 정확도(arbitrary accuracies)가 스케일링가능하게 부호화될(scalably coded) 수 있다.
여기서, 24 비트 정확도로 제공되는 오디오 신호는, 역 IntMDCT의 도움으로 정수 스펙트럼 영역에 제공되고, 청각-적응 MDCT-기초 오디오부호기 출력 신호(hearing-adapted MDCT-based audiocoder output signal)에 스케일링가능하게 결합된다(scalably combined).
무손실 표시(lossless representation)를 위해 존재하는 정수 차분 값은 하나의 스케일링 레이어에서 완벽하게 부호화되지 않고 처음에는 하위 정확도로 부호화된다. 추가 스케일링 레이어에서만, 정확한 표시를 위해 필수적인 잔류 값이 전송된다. 그러나, 이와 달리, 차분 스펙트럼 값은 전체로, 즉 예를 들어 24 비트로, 하나의 추가 레이어에서도 표시될 수 있어, 이 추가 스케일링 레이어의 복호화를 위해 하위 스케일링 레이어(underlying scaling layer)가 필요하지 않다. 그러나, 이 시나리오(scenario)는 전체적으로 상위 비트 스트림 크기(higher bit stream size)에 이르게 하나, 복호기에서 스케일링 레이어는 그 다음에 더 이상 결합되지 않고 하나의 스케일링 레이어 단독으로도 복호화할 수 있기 때문에 전송 채널의 대역폭이 문제되지 않을(unproblematic) 때는 복호기의 간소화(simplification)에 기여할 수 있다.
예를 들어 도 9에 도시된 하위 8 LSB(the lower eight LSB)가 먼저 전송되지 않는다면, 24 비트와 16 비트 사이의 스케일러빌리티가 달성된다.
하위 정확도로 시간 도메인으로 전송된 값들의 역 변환을 위해, 전송된 값들은 예를 들어 28을 그들에 곱함에 의해 원래의 영역으로, 예를 들어 24 비트로, 역 스케일링화되는(scaled back) 것이 바람직하다. 그 다음에 역 IntMDCT가 상응 역 스케일링화 값(correspondingly scaled-back values)에 적용된다.
본 발명의 주파수 도메인에서의 정밀 스케일링에 있어서, LSBs의 중복성(redundancy)을 이용하는 것도 선호된다. 예를 들어 오디오 신호가 상위 주파수 도메인(upper frequency domain)에서 매우 적은 에너지를 가진다면 이것은 또한 IntMDCT 스펙트럼에서 매우 작은 값, 예를 들어 8 비트로 가능한 값(-128, ..., 127) 보다 상당히 더 작은 값을 나타낸다. 이것은 IntMDCT 스펙트럼의 LSB값의 압축성(compressibility)에 나타나 있다. 또한, 매우 작은 차분 스펙트럼 값, 대표적으로 MSB에서 MSB-1의 다수의 비트들은 대체로 0 이며, 게다가 이진 부호화 차분 스펙트럼 값의 첫 번째, 즉, 리딩(leading) 1은 유효자릿수(significance) MSB-n-1을 갖는 비트 앞에 나타나지 않는다. 그러한 경우에, 제2 스케일링 레이어의 차분 스펙트럼 값이 0 만을 포함할 때 엔트로피 부호화는 특히 추가 데이터 압축에 매우 적합하다.
본 발명의 다른 실시예에 따르면, 도 8a의 제2 스케일링 레이어에 있어서 하나의 샘플 레이트 스케일러빌리티(sample rate scalability)가 선호된다. 샘플 레이트 스케일러빌리티는 도 9의 오른쪽에 도시된 바와 같이 제2 스케일링 레이어에 포함된 제1 차단 주파수까지의 차분 스펙트럼 값에 의해 얻어지는 반면, 제1 차단 주파수와 최대 주파수 사이의 주파수를 갖는 차분 스펙트럼 값은 추가 스케일링 레이어에 포함된다. 물론, 추가 스케일링은 몇몇의 스케일링 레이어가 전체 주파수 도메인(entire frequency domain)으로 만들어지도록 실행될 수 있다.
본 발명의 바람직한 실시예에 있어서, 도 9의 제2 스케일링 레이어는, 48 kHz의 샘플 레이트에 해당하는 24 kHz의 주파수까지 차분 스펙트럼 값을 포함한다. 그 다음에 제3 스케일링 레이어는 96 kHz의 샘플 레이트에 해당하는 24 kHz에서 48 kHz까지의 스펙트럼 값을 포함한다.
제2 스케일링 레이어와 제3 스케일링 레이어에서 차분 스펙트럼 값의 모든 비트가 반드시 부호화되어야만 하는 것은 아니다. 결합 스케일러빌리티(combined scalability)의 추가 형태에서, 제2 스케일링 레이어는 MSB 내지 MSB-X 비트의 차분 스펙트럼 값을 특정(certain) 차단 주파수까지 포함할 수 있다. 그 다음에 제3 스케일링 레이어는 MSB 내지 MSB-X 비트의 차분 스펙트럼 값을 제1 차단 주파수에서 최대 주파수까지 포함할 수 있다. 그 다음에 제4 스케일링 레이어는 잔류 비트(residual bits)의 차분 스펙트럼 값을 차단 주파수까지 포함할 수 있다. 그 다음에 최종 스케일링 레이어는 상위 주파수를 위한, 잔류 비트의 차분 스펙트럼 값을 포함할 수 있다. 이 개념은 도 9의 표를 각 면이 하나의 스케일링 레이어를 나타내는 4 분면(quarter)으로 분할되게 한다.
주파수의 스케일러빌리티와 관련하여, 본 발명의 바람직한 실시예에서 48 kHz 및 96 kHz 샘플 레이트 사이의 스케일러빌리티가 설명된다. 96 kHz 샘플 신호는 먼저 무손실 확장 레이어(lossless extension layer)의 IntMDCT 영역에서 하프(half)만이 부호화되고 전송된다. 상위부(upper part)가 추가로 전송되지 않는다면, 복호기에서 0으로 인식된다. 역 IntMDCT (부호기에서와 동일한 길이), 그 다음에 상위 주파수 도메인의 에너지를 포함하지 않아 음질 손실(quality losses) 없이 48kHz에서 서브샘플링될(subsampled) 수 있는 96 kHz 신호가 생성된다.
실제로 스케일링 레이어에 예를 들어 16 비트 또는 8 비트 또는 차단 주파수까지 또는 차단 주파수보다 높은 스펙트럼 값이 포함되어야만 하기 때문에, 고정 경계선(fixed boundaries)을 갖는 도 9의 4분면에서의 차분 스펙트럼 값의 스케일링은 스케일링 레이어의 크기에 관해서는 유리하다.
다른 스케일링은 도 9의 4분면 경계선을 얼마간 "약화시키는(soften)" 것이다. 주파수 스케일러빌리티의 예시에서, 이것은 차분 스펙트럼 값이 차단 주파수 앞에서는 불변이고 차단 주파수 다음에는 0인 소위 "장벽 저역 통과(brickwall low pass)"에 적용하지 않는 것을 의미할 수 있다. 그 대신에, 차단 주파수 아래의 스펙트럼 값은 다소 저해하나 차단 주파수 위의 스펙트럼 값은 차분 스펙트럼 값이 에너지를 감소시킴에도 불구하고 여전히 에너지를 유지시키는 임의 저역 통과로 차분 스펙트럼 값이 또한 필터링될 수 있다. 그 다음에 그렇게 생성된 스케일링 레이어에 차단 주파수 위의 스펙트럼 값이 또한 포함된다. 그러나 이 스펙트럼 값들은 상대적으로 작기 때문에 엔트로피 부호화에 의해 유효하게 부호화될 수 있다. 이 경우 최상위 스케일링 레이어(the highest scaling layer)는 완전 차분(complete difference) 스펙트럼 값과 제2 스케일링 레이어에 포함된 스펙트럼 값 사이의 차분을 가진다.
정밀 스케일링(accuracy scaling)은 유사하게 얼마간 약화될 수 있다. 제1 스케일링 레이어는 예를 들어 16 비트보다 큰 스펙트럼 값을 또한 가질 수 있으며, 여기서 다음 스케일링 레이어는 그 후에 여전히 차분을 가진다. 대체로, 다음 스케일링 레이어의 레스트(rest), 즉, 완전 스펙트럼 값과, 제2 스케일링 레이어에 포함된 스펙트럼 값 사이의 차분이 전송되기 때문에 제2 스케일링 레이어는 이와 같이 낮은 정확도로 차분 스펙트럼 값을 가진다. 이로써, 정확도의 가변성(variable accuracy)이 축소된다.
본 발명의 부호화 또는 복호화 방법은 전자식 판독가능 제어 신호(electronically readable control signals)로 플로피 디스크와 같은 디지털 저장 매체(digital storage medium)에 저장되는 것이 바람직하며, 여기서 제어 신호가 프로그램가능 컴퓨터(programmable computer)와 협력하여 부호화 및/또는 복호화 방법이 실행될 수 있다. 바꾸어 말하면, 프로그램 제품이 컴퓨터에서 실행될 때, 부호화 방법 및/또는 복호화 방법을 실행하기 위한 기계 판독형 매체(machine-readable carrier)에 저장된 프로그램 부호를 갖는 컴퓨터 프로그램 제품이 있다. 본 발명의 방법은, 컴퓨터 프로그램이 컴퓨터에서 실행될 때 본 발명의 방법을 실행하기 위한 프로그램 부호로 실현될 수 있다.
다음에, 정수 변환 알고리즘의 하나의 예시로서, "정수 변환에 의존하는 오디오 부호화(Audio Coding Based on Integer Transforms)" [111차 AES Convention, 뉴욕, 2001]에 설명된 IntMDCT 변환 알고리즘에 이른다. IntMDCT는 오디오 신호, 임계 샘플링(critical sampling) 및 블록 중첩의 우수한 스펙트럼 표시와 같은 MDCT의 두드러진 특성을 가지기 때문에 특히 유리하다. 도 5에 화살표 62로 도시된 바와 같이, 하나의 IntMDCT가 MDCT의 우수한 근사치(good approximation)인 것은 도 5에 나타낸 복호기에서 단 하나의 변환 알고리즘만을 사용하는 것을 가능하게 한다. 도 1 내지 4를 기초로 하여, 이 특정 형태의 정수 변환 알고리즘의 실질적 특성이 설명된다.
도 1은, Int-MDCT 정수 변환 알고리즘이 동작하는 정수 값을 얻기 위해 하나의 오디오 신호를 나타내는 시간-이산 샘플들을 처리하기 위한 본 발명의 바람직한장치의 개략도를 나타낸다. 시간-이산 샘플들은 도 1에 도시된 장치에 의해 윈도윙되고 선택적으로 스펙트럼 표시로 변환된다. 입력부(10)에서 장치로 공급된 시간-이산 샘플들은, 정수 윈도윙 샘플들을 출력부(12)에 얻기 위해 2N 시간-이산 샘플들에 상응하는 길이를 갖는 하나의 원도우(w)로 윈도윙되고, 이것은 변환 그리고 특히 하나의 정수 DCT를 실행하기 위한 수단(14)에 의해 하나의 스펙트럼 표시로 변환되기에 적합하다. 도 4a의 MDCT 함수(408)와는 달리, 정수 DCT는 N 입력값으로부터 N 출력값을 생성시키도록 만들어지며, 이것은 MDCT 식(equation)으로 인해 2N 윈도윙된 샘플들로부터 N 스펙트럼 값들만을 생성시킨다.
시간-이산 샘플들을 윈도윙하기 위해, 먼저 시간-이산 샘플들의 하나의 벡터를 동시에 나타내는 두개의 시간-이산 샘플들이 수단(16)에서 선택된다. 수단(16)에 의해 선택된 시간-이산 샘플들은 윈도우의 제1 4분면(the frist quarter)에 있다. 다른 시간-이산 샘플은, 도 3에 기초하여 더욱 상세히 설명된 윈도우의 제2 4분면에 있다.
수단(16)에 의해 생성된 벡터에 2X2 차원(dimension)의 회전 매트릭스가 적용되는데, 여기서 이 연산(operation)은 몇몇의 소위 리프팅 매트릭스(lifting matrices)에 의한 것을 제외하고는 즉시 실행되지 않는다.
리프팅 매트릭스는 윈도우 (w)에 의존하고 "1" 또는 "0"이 아닌 하나의 요소(element)로만 구성되는 특성을 가진다. 리프팅 단계로의 웨이브렛 변환(wavelet transform)의 인수분해(factorization)가 잉그리드 다우베치즈(Ingrid Daubechies) 및 윔 스웰덴스(Wim Sweldens)의 출판물 "Factoring Wavelet Transforms IntoLifting Steps" [견본인쇄(preprint), 벨 래버러토리즈(Bell Laboratories), 루센트 테크놀로지즈(Lucent Technologies), 1996년]에 설명되어 있다. 일반적으로, 리트팅 체계(lifting scheme)는 동일한 저역 또는 고역 필터(high-pass)를 갖는 완벽하게 복원된 필터 쌍들(perfectly reconstructed filter pairs) 사이의 단순 관계(simple relation)이다. 각 쌍의 상보 필터들(complementary filters)은 리프팅 단계로 인수분해될(factorized) 수 있다. 이것은 특히 기븐스 회전(Givens rotations)에 적용된다. 다상 매트릭스(poly-phase matrix)가 하나의 기븐스 회전인 경우를 고려하면, 다음이 적용된다.
등호 오른쪽의 세개의 리프팅 매트릭스 각각은 주 대각선 요소(main diagonal elements)로서 값 "1"을 가진다. 또한, 각 리프팅 매트릭스에서 주 대각선에 있지 않은 하나의 요소는 0 이고, 주 대각선에 있지 않은 하나의 요소는 회전 각도에 달려있다.
벡터는 제1 결과 벡터를 얻기 위해 제3 매트릭스, 즉 상기 식에서 제일 오른쪽에 있는 리프팅 매트릭스로 곱해진다. 이것은 도 1에 수단(18)에 의해 설명되어 있다. 제1 결과 벡터는, 도 1에 수단(20)으로 설명된 바와 같이, 실수 세트를 정수 세트로 맵핑하는(mapping) 임의 라운딩 함수(arbitrary rounding function)로 라운딩된다. 수단(20)의 출력부에서, 라운딩 제1 결과 벡터(rounded first resultvector)가 얻어진다. 라운딩 제2 결과 벡터를 얻기 위해 수단(24)에서 다시 라운딩되는 제2 결과 벡터를 얻기 위하여 라운딩 제1 결과 벡터가 가운데, 즉 제2 리프팅 매트릭스를 곱하기 위한 수단(22)으로 공급된다. 라운딩 제2 결과 벡터는, 그 스펙트럼 표시가 필요할 때 스펙트럼 출력부(30)에 정수 스펙트럼 값을 얻기 위해 수단(14)에 의해 처리되어야만 하는 정수 윈도윙 샘플들(integer windowed samples)을 출력부(12)에 얻기 위한 수단(28)으로 여전히 라운딩되는 제3 결과 벡터를 얻기 위해 상기 식의 왼쪽에 보이는 리프팅 매트릭스, 즉 첫 번째 것을 곱하기 위한 수단(26)으로 공급된다.
수단(14)은 정수 DCT로 구체화하는 것이 바람직하다.
N 길이를 갖는 유형(type) 4 (DCT-IV)에 따른 이산 코사인 변환이 다음 식으로 주어진다:
DCT-IV의 계수는 정방형(orthonormal) N x N 매트릭스를 형성한다. 각 정방형 N x N 매트릭스는, 피. 피. 배이디어나단(P. P. Vaidyanathan)의 출판물 "다중속도 시스템 및 필터 뱅크(Multirate Systems And Filter Banks)" [ 프렌티스 홀(Prentice Hall), 엔글우드 클리프스(Englewood Cliffs), 1993년]에 설명된 바와 같이, N (N-1)/2 기븐스 회전(Givens rotations)으로 분할될 수 있다. 추가 분할이 있음을 알 수 있다.
여러 가지 DCT 알고리즘의 분류와 관련하여, 에이취. 에스. 맬버(H. S. Malvar)의 "(랩 변환을 갖는 신호 처리(Signal Processing With Lapped Transforms)" [아르테크 하우스(Artech House), 1992년]을 참조한다. 일반적으로 DCT 알고리즘들은 그 기저 함수(basis function)의 종류가 다르다. 본 발명에서 선호되는 DCT-IV는, 비대칭형 기저 함수, 즉 코사인 쿼터 파장, 코사인 3/4 파장, 코사인 5/4 파장, 코사인 7/4 파장 등을 포함하나, 예를 들어 유형 II (DCT-II)의 이산 코사인 변환은 축-대칭 그리고 점-대칭 기저 함수(axis-symmetrical and point-symmetrical basis functions)를 가진다. 0번째 기저 함수는 하나의 DC 요소를 가지며, 제1 기저 함수는 코사인 파장의 반(half)이고, 제2 기저 함수는 전체 코사인 파장 등이다. DCT-II 가 특히 DC 요소를 참작한다는 사실로 인하여, 비디오 부호화와는 달리 오디오 부호화에서 DC 요소는 무관하기 때문에 이것은 오디오 부호화가 아닌 비디오 부호화에서 사용된다.
다음에서, 기븐스 회전의 회전 각도 a가 윈도우 함수에 어떻게 의존하는지 설명한다.
2N 윈도우 길이를 갖는 MDCT는 N 길이를 갖는 유형 IV의 이산 코사인 변환을 축소시킬 수 있다. 이것은 시간 도메인과, 그 다음에 적용되는 DCT-IV에서 명시적으로 실행되는 TDAC 연산에 의해 달성된다. 블록(t)의 윈도우의 왼쪽 반이 선행 블록, 즉 블록(t-1)의 오른쪽 반과 50% 중첩으로 중첩된다. 두 개의 연속적인 블록들(t-1과 t)의 중첩부는 시간 도메인에서, 변환 이전에, 즉 도 1의 입력부(10)와 출력부(12) 사이에 다음과 같이 예비처리(preprocessed)된다:
상기 식에서 틸데(tilde; ~)없이 지정된(addressed) x 값은 입력부(10)에서의 값이거나 선택 수단(16) 뒤의 값인 반면, 틸데(tilde; ~)가 있는 x 값은 도 1의 출력부(12)에서의 값이다. w가 윈도우 함수를 나타내는 반면, 운전 지표(running index) k는 0 에서 N/2-1 까지의 값이다.
윈도우 함수(w)를 위한 TDAC 조건(condition)으로부터 다음의 관계가 적용된다:
임의의 각도 ak(k = 0, . . . ., N/2-1)를 위해, 시간 도메인에서의 이 예비처리는 전술된 바와 같이 기븐스 회전으로 기록될 수 있다.
기븐스 회전의 각도 a는 윈도우 함수(w)에 다음과 같이 의존한다:
이 TDAC 조건과 부합하는 임의 윈도우 함수(arbitrary window functions; w)가 사용될 수 있다.
다음에서, 도 2에 기초하여 계단식(cascaded) 부호기와 복호기가 설명된다.하나의 윈도우로 같이 윈도윙된(windowed) 시간-이산 샘플들[x(0) 내지 x(2N-1)]은 처음에 도 1의 수단(16)에 의해 선택되어 샘플 [x(0)]과 샘플 [x(N-1)] , 즉 원도우의 제1 4분면의 샘플과 윈도우의 제2 4분면의 샘플이 수단(16)의 출력부에 벡터를 만들기 위하여 선택된다. 횡단 화살표들이 DCT-IV 블록의 입력부에 정수 윈도윙 샘플들을 얻기 위한 리프팅 곱셈과 수단(18, 20 또는 22, 24 또는 26, 28)의 연속적인 라운딩(ensuing roundings)을 개략적으로 설명한다.
제1 벡터가 상술한 대로 처리될 때, 제2 벡터가 샘플 [x(N/2-1) 및 x(N/2)], 즉 윈도우의 제1 4분면의 하나의 샘플과 윈도우의 제2 4분면의 하나의 샘플로부터 선택되고 다시 도 1에 설명된 알고리즘에 의해 처리된다. 윈도우의 제1 및 제2 4분면들의 모든 다른 샘플 쌍들이 그와 유사하게 처리된다. 제1 윈도우의 제3 및 제4 4분면들을 위해 동일한 처리가 실행된다. 도 2에 설명된 바와 같이, 하나의 DCT-IV 변환으로 공급되는 N 윈도윙 정수 샘플들이 출력부(12)에 존재한다. 특히, 제2 및 제3 4분면들의 정수 윈도윙 샘플들이 DCT로 공급된다. 윈도우의 제1 4분면의 윈도윙 정수 샘플들이 선행 윈도우의 제4 4분면의 윈도윙 정수 샘플들과 함께 선행 DCT-IV로 처리된다. 도 2의 윈도윙 정수 샘플들의 제4 4분면이 다음 윈도우의 제1 4분면과 함께 이와 유사하게 하나의 DCT-IV 변환으로 공급된다. 도 2에 나타낸 센터 정수 DCT-IV 변환(32)은 N 정수 스펙트럼 값[y(0) 내지 y(N-1)]을 제공한다. 이러한 정수 스펙트럼 값들은, 윈도윙과 변환이 정수 출력 값을 제공하기 때문에 필요한 양자화를 간섭받지 않고(without an intervening quantization) 쉽게 엔트로피 부호화될 수 있다.
도 2의 오른쪽 반의 영역(half)에서 복호기가 설명된다. 역 변환과 "역 윈도윙"을 포함하는 복호기는 부호기의 역으로 동작한다. 도 2에 도시된 바와 같이 DCT-IV의 역 변환을 위해 역 DCT-IV가 사용될 수 있다. 수단(34) 또는 선행 및 후행 변환의 출력부에 정수 윈도윙 샘플들로부터 시간-이산 오디오 샘플들[x(0) 내지 x(2N-1)]을 다시 생성시키기 위하여, 도 2에 도시된 바와 같이, 복호기(DCT-IV)(34)의 출력 값이 선행 변환 또는 후행 변환의 상응하는 값으로 역 처리된다.
출력측 연산(output-side operation)은 역 기븐스 회전에 의해 생성되어, 블록들(26, 28 또는 22, 24 또는 18, 20)이 반대 방향으로 통과된다. 이것은 식 1의 제2 리프팅 매트릭스에 기초하여 더 상세히 설명된다. (부호기에서) 제2 결과 벡터가 라운딩 제1 결과 벡터에 제2 리프팅 매트릭스[수단(22)]를 곱함에 의해 만들어질 때, 다음 식(term)이 결과로 나온다:
식 (6)의 오른쪽 값(x, y)은 정수이다. 그러나, 이것은 [x sinα] 값에는 적용되지 않는다. 여기서, 라운딩 함수(r)는 다음 식으로 설명되어야 한다.
이 연산은 수단(24)을 실행한다.
(복호기에서) 역 맵핑(inverse mapping)은 다음과 같이 규정된다:
라운딩 작용 앞의 마이너스 부호(minus sign)로 인해, 리프팅 단계의 정수 근사치가 오류의 도입없이 반전될(reversed) 수 있음이 명백해진다. 세 리프팅 단계의 각각에 이 근사치의 적용은 기븐스 회전의 정수 근사치로 이끈다. 도 1의 알고리즘 복호화가 하부로부터 상부로 실행될 때 (부호기에서) 라운딩 회전은 오류의 도입없이, 즉 역순서로 역 라운딩 리프팅 단계를 통과함에 의해 (복호기에서) 반전될 수 있다.
라운딩 함수(r)이 점대칭인 경우, 역 라운딩 회전은 각도 -α를 갖는 라운딩 회전과 동일하며, 다음과 같이 판독된다.
이 경우에 복호기, 즉 역 기븐스 회전을 위한 리프팅 매트릭스가 항(term) "sinα"를 항 "-sinα"로 단순 대체함에 의해 즉시 식 (1)의 결과로서 생긴다.
다음에서, 중첩 윈도우(overlapping windows)(40 내지 46)를 갖는 통상적인 MDCT의 분할(split-up)이 도 3에 기초하여 다시 한번 설명된다. 윈도우(40 내지 46)는 각각 50% 중첩이다. 화살표 (48)에 의해 개략적으로 설명된 바와 같이, 윈도우마다 먼저 윈도우의 제1 및 제2 4분면내에서 또는 윈도우의 제3 및 제4 4분면내에서 기븐스 회전이 실행된다. 그 다음에 회전값, 즉 윈도윙 정수 샘플들이 N-대-NDCT로 공급되어, 윈도우의 제2 및 제3 4분면들 또는 연속적인 윈도우의 제4 및 제1 4분면들이 같이 DCT-IV 알고리즘에 의해 스펙트럼 표시로 변환된다.
그러므로, 연속적으로 실행되는 통상적인 기븐스 회전은 리프팅 매트릭스들로 분할되고, 여기서 각 리프팅 매트릭스 곱셈 후에 하나의 라운딩 단계가 도입되어, 부동소수점 수들이 발생(development) 후에 즉시 라운딩되고, 결과 벡터의 리프팅 매트릭스에 의한 각 곱셈 이전에 결과 벡터는 정수만을 가진다.
출력값은 항상 정수인 채로 있으며, 정수 입력 값을 사용하는 것이 바람직하다. 하나의 CD에 저장된 예시적인 PCM 샘플들(exemplary PCM samples)은, 그 범위가 비트 폭에 따라, 즉 시간-이산 디지털 입력 값이 16-비트 값인지 24-비트 값인지에 따라, 변화하는 정수 값이기 때문에 이것은 제한을 의미하는 것이 아니다. 그렇지만, 전술한 바와 같이, 전체 처리(entire process)는 역순서로 역 회전을 실행함에 의해 전회가 가능하다(invertible). 따라서, 완벽하게 복원된 MDCT의 정수 근사치, 즉 무손실 변환이 존재한다.
명백한(shown) 변환은 부동소수점 값 대신에 정수 출력 값을 제공한다. 정방향 그리고 그 다음에 역방향 변환을 실행할 때 완벽한 복원을 제공하여 오류가 도입되지 않게 한다. 본 발명의 바람직한 실시예에 따른 변환은 변경 이산 코사인 변환을 위한 대체(replacement)이다. 그러나, 다른 변환 방법들이 또한 회전으로의 분할 그리고 리프팅 단계로의 회전의 분할을 하는 한 정수 방식으로(in an integer manner) 실행될 수 있다.
정수 MDCT는 MDCT의 가장 유리한 특성을 가진다. 그것은 하나의 중첩 구조를가지며, 그것에 의해 비-중첩 블록에서 보다 더 우수한 주파수 선택성(selectivity)이 얻어진다. 변환에 앞서 윈도윙될 때 이미 고려된 TDAC 기능성에 의해, 임계 샘플링(critical sampling)이 유지되어, 하나의 오디오 신호를 나타내는 스펙트럼 값들의 전체 갯수(overall number)가 입력 샘플들의 전체 갯수와 동일하다.
전술된 바람직한 정수 변환에서 부동소수점 샘플을 제공하는 표준(normal) MDCT와 비교해 보면, 미미한 신호 레벨(little signal level)이 있는 스펙트럼 영역에서만 잡음이 증대되나 이 잡음 증대는 상당한 신호 레벨(significant signal levels)에서는 느껴지지 않는다.
시프트/가산 단계(shift/add steps)로 쉽게 분할될 수 있고 하드웨어에서 용이하게 그리고 신속히 실행될 수 있는 곱셈 단계만이 사용되기 때문에, 정수 처리는 그 자체가 유효한 하드웨어 실행에 기여한다. 물론, 소프트웨어 실행이 또한 가능하다.
정수 변환은 오디오 신호의 우수한 스펙트럼 표시를 제공하나 여전히 정수의 영역에 남아있다. 오디오 신호의 음조부(tonal parts)에 적용될 때, 이것은 에너지를 상당히 농축시킨다. 이로써, 유효 무손실 부호화 체계(efficient lossless coding scheme)는, 하나의 엔트로피 부호기로 도 1에 설명된 윈도윙/변환을 단순히 캐스케이딩(cascadeing)함에 의해 구축될(built up) 수 있다. 특히, 이스케이프 값(escape values)을 사용하는 스택 부호화(stacked coding)가 MPEG AAC에 사용되기 때문에 유리하다. 원하는 부호 테이블에 맞을 때까지 2의 특정 제곱으로(by acertain power of two) 모든 값들을 축소시킨 다음 추가로 생략된 최하위 비트(the omitted least significant bits)를 부호화하는 것이 바람직하다. 더 큰 부호 테이블을 사용하는 다른 경우와 비교할 때, 다른 경우가 부호 테이블을 저장하기 위한 저장공간 소비량(storage consumption)에 대해서는 더 유리하다. 거의 무손실 부호화가 또한 임의의 최하위 비트를 단순히 생략함에 의해 얻어질 수 있다.
특히, 음조 신호(tonal signals)에 있어서, 정수 스펙트럼 값의 엔트로피 부호화가 고능률 부호화 이득(high coding gain)을 가능하게 한다. 신호의 과도부(transient parts)에 있어서,
과도 신호의 평평한 스펙트럼(flat spectrum)으로 인해, 다시 말하면 0 이거나 거의 0인 낮은 스펙트럼 값 때문에, 부호화 이득이 낮다. 제이. 헤리, 제이. 디. 존스톤(J. Herre, J. D. Johnston)의 "TNS를 사용한 지각 오디오 부호기의 실행 강화[Enhancing the Performance of Perceptual Audio Coders by Using Temporal Noise Shaping (TNS)]" [101차 AES Convention, 로스 엔젤레스, 1996년, Preprint 4384] 에 설명되어 있듯이, 이 평탄도(flatness)는 그러나 주파수 도메인에서 선형 예측(linear prediction)의 사용에 이용될 수 있다. 하나의 대안은 개방 루프(open loop)를 구비한 예측기이다. 또 다른 대안은 패쇄 루프(closed loop)를 구비한 예측기(predictor)이다. 첫 번째 대안, 즉 개방 루프를 구비한 예측기는 TNS로 불리운다. 예측 후의 양자화는 최종 양자화 소음(resulting quantization noise)의 오디오 신호의 시간 구조(temporal structure)로의 적응(adaptation)으로 이끌고 이리하여 심리음향 오디오 부호기에서 프리-에코(pre-echoes)를 방지한다. 무손실 오디오 부호화를 위한 제2 대안, 즉 패쇄 루프를 구비한 예측기가 더 적합한데, 패쇄 루프를 사용한 예측은 입력 신호의 정확한 복원을 가능하게 하기 때문이다. 이 기술이 생성된 스펙트럼에 적용될 때, 라운딩 단계는, 정수의 영역에 머무르기 위하여 예측 필터(prediction filter)의 각 단계 이후에 실행되어야만 한다. 역 필터 및 동일한 라운딩 함수를 사용함에 의해 원래의 스펙트럼은 정확하게 생성될 수 있다.
데이터 축소(data reduction)를 위해 두 개의 채널 간의 중복성(redundancy)을 이용하기 위하여, 센터측(center-side) 부호화가 각도 a/4의 라운딩화 회전이 사용되는 무손실 방식으로 사용될 수 있다. 스테레오 신호의 왼쪽 및 오른쪽 채널의 합과 차분을 계산하는 다른 방법과 비교할 때, 라운딩화 회전은 에너지 보존의 이점이 있다. 소위 접속 스테레오 부호화 기술(joint stereo coding techniques)은 표준 MPEG AAC에서도 실행되기 때문에 이것의 사용은 각 밴드를 위해 켜지거나 꺼질 수(switched on or off) 있다. 두 채널간의 중복성을 더욱 융통성있게 감소시킬 수 있도록 추가 회전 각도도 고려될 수 있다.

Claims (33)

  1. 심리음향(psychoacoustic) 모델(54)을 사용하여 양자화된 시간-이산 오디오 신호의 스펙트럼 값(spectral values)의 양자화 블록(quantization block)을 제공하기 위한 수단(52)과;
    라운드된 역양자화 스펙트럼 값(rounded inversely quantized spectral values)의 라운딩 블록(rounding block)을 획득하도록 상기 양자화 블록을 역양자화하고 역양자화된 스펙트럼 값을 라운딩하기 위한 수단(58)과;
    정수 시간-이산 샘플(integer time-discrete samples)의 블록으로부터 스펙트럼 값의 정수 블록(integer block)을 발생하도록 형성된 정수 변환 알고리즘(integer transform algorithm)을 사용하여 정수 스펙트럼 값의 정수 블록을 발생시키기 위한 수단(56)과;
    차분 스펙트럼 값(difference spectral values)을 갖는 차분 블록(difference block)을 얻기 위하여, 상기 라운딩 블록과 정수 블록의 스펙트럼 값의 차분(spectral value-wise difference)에 따라 하나의 차분 블록을 생성하기 위한 결합 수단(combination means)(58)과;
    상기 양자화 블록의 정보와 차분 블록의 정보를 포함하는 부호화 오디오 데이터를 생성하기 위하여 상기 양자화 블록과 차분 블록을 처리(processing) 하기 위한 수단(60)을 포함하여 구성되는, 부호화 오디오 데이터를 얻기 위한 시간-이산 오디오 신호 부호화 장치.
  2. 제1항에 있어서, 상기 양자화 블록 제공 수단(52)이,
    MDCT를 통해 시간적 오디오 신호(temporal audio signal)값의 시간 블록에서 MDCT 스펙트럼 값의 MDCT 블록을 형성하고, 양자화된 MDCT 스펙트럼 값으로 구성되는 양자화 블록을 생성하도록, 심리음향 모델을 사용하여 상기 MDCT 블록을 양자화하도록 형성된, 부호화 오디오 데이터를 얻기 위한 시간-이산 오디오 신호 부호화 장치.
  3. 제2항에 있어서, 상기 정수 블록을 발생시키기 위한 수단(56)이,
    IntMDCT 스펙트럼 값으로 구성되는 정수 블록을 형성하기 위하여 상기 시간 블록에 IntMDCT를 실행하도록 형성된, 부호화 오디오 데이터를 얻기 위한 시간-이산 오디오 신호 부호화 장치.
  4. 앞의 청구항들 중 어느 한 항에 있어서, 상기 양자화 블록 제공 수단(52)이,
    부동소수점 변환 알고리즘(floating-point transform algorithm)을 사용하여 양자화 블록을 계산하도록 형성된, 부호화 오디오 데이터를 얻기 위한 시간-이산 오디오 신호 부호화 장치.
  5. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 제공 수단(52)이,
    상기 발생 수단(56)에 의해 발생된 정수 블록을 사용하여 양자화 블록을 계산하도록 형성된, 부호화 오디오 데이터를 얻기 위한 시간-이산 오디오 신호 부호화 장치.
  6. 앞의 청구항들중의 어느 한 항에 있어서, 상기 프로세싱 수단(60)이,
    엔트로피-부호화된 양자화 블록(entropy-coded quantization block)을 얻기 위하여 양자화 블록을 엔트로피 부호화시키고(60a),
    엔트로피-부호화된 라운딩 블록을 얻기 위하여 라운딩 블록을 엔트로피 부호화시키며(60b),
    엔트로피-부호화된 양자화 블록을 부호화 오디오 데이터를 표시하는 스케일 데이터 스트림(scaled data stream)의 제1 스케일링 레이어(scaling layer)로, 엔트로피-부호화된 라운딩 블록을 스케일 데이터 스트림의 제2 스케일링 레이어로 전환시키도록 형성된, 부호화 오디오 데이터를 얻기 위한 시간-이산 오디오 신호 부호화 장치.
  7. 제6항에 있어서, 상기 프로세싱 수단(60)이 또한,
    양자화 블록의 엔트로피 부호화를 위한 양자화 스펙트럼 값에 의존하는 다수의 부호 테이블들 중 하나를 사용하기 위해 형성되고, 차분 블록의 엔트로피 부호화를 위한 양자화 블록을 생성시키기 위해 양자화에 사용가능한 양자화기(quantizer)의 특성에 의존하는 다수의 부호 테이블들 중의 하나를 선택하도록 형성된, 부호화 오디오 데이터를 얻기 위한 시간-이산 오디오 신호 부호화 장치.
  8. 앞의 청구항들중의 어느 한 항에 있어서,
    상기 양자화 블록 제공 수단(52)이, 오디오 신호의 특성에 의존하는 오디오 신호 값의 시간 블록(temporal block)을 윈도우화(windowing)하기 위해 다수의 윈도우들 중의 하나를 사용하도록 형성되고,
    상기 발생 수단(56)이 상기 정수 변환 알고리즘을 위해 상기 시간블록을 윈도우화하기 위해 사용할 윈도우와 같은 윈도우를 선택하도록 형성된, 부호화 오디오 데이터를 얻기 위한 시간-이산 오디오 신호 부호화 장치.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 발생 수단이,
    N개의 입력값으로 N개의 출력값을 발생시킬 수 있는 변환(transform)을 통한 시간-이산 샘플의 스펙트럼 표시로의 전환을 위해 윈도우 처리된 시간-이산 샘플들을 제공하도록, 2N 시간-이산 샘플들에 상응하는 길이를 갖는 윈도우(w)로 상기 시간-이산 샘플들을 윈도우화하는 단계로서,
    시간-이산 샘플들의 벡터를 얻기 위해 윈도우의 하나의 4분면으로부터 하나의 시간-이산 샘플 그리고 윈도우의 다른 4분면으로부터의 하나의 시간-이산 샘플을 선택하는 소단계(16)와,
    제1 결과 벡터(result vector)를 얻기 위하여 상기 벡터를 리프팅 매트릭스로 곱하는 부분 단계(18)와, 라운드된 제1 결과 벡터를 얻기 위하여 하나의 실수를하나의 정수로 맵핑(mapping)하는 라운딩 함수(r)로 제1 결과 벡터의 하나의 성분(component)을 라운딩하는 부분 단계(20)를 포함하며, 각기 윈도우(w)에 의존하고 1 또는 0이 아닌 단 하나의 요소(element)를 포함하여 구성되는 다수의 리프팅 매트릭스로 표시될 수 있고, 그 차원(dimension)이 상기 벡터의 차원과 동일한 스퀘어 전환 매트릭스(square rotation matrix)를 상기 벡터에 적용하는 소단계와,
    윈도우의 하나의 4분면으로부터 얻어진 정수 윈도우 샘플과 윈도우의 다른 4분면으로부터 얻어진 정수 윈도우 샘플을 포함하여 구성되는 하나의 순환 벡터(rotated vector)를 얻기 위하여 모든 리프팅 매트릭스(lifting matrices)들이 처리될 때까지 리프팅 매트릭스로 곱하고(22) 라운딩하는(24) 단계를 연속적으로 실행하는 소단계와, 그리고
    2N개의 필터링 정수 값(filtered integer values)을 얻기 위하여 남아 있는 윈도우4분면들의 모든 시간-이산 샘플들에 대해 윈도우 처리하는 단계를 수행하는 소 단계를 포함하는 단계와; 그리고
    N개의 정수 스펙트럼 값을 얻기 위하여 윈도우의 제2 4분면과 윈도우의 제3 4분면의 필터링된 정수 샘플들을 갖는 값들에 대한 정수 DCT처리에 의해 N개의 윈도우 처리된 정수 샘플들을 스펙트럼 표시(representation)로 전환하는 단계(14)를 포함하여 구성된 정수 변환 알고리즘을 사용하기 위해 형성된 것인, 부호화 오디오 데이터를 얻기 위한 시간-이산 오디오 신호 부호화 장치.
  10. 앞의 청구항들중의 어느 한 항에 있어서,
    상기 양자화 블록을 제공하는 수단(52)이, 양자화 후에 양자화 블록을 표시할 수 있도록 하는 예측 잔류 스펙트럼 값(prediction residual spectral values)을 얻기 위하여, 양자화 단계(52b) 이전에 예측 필터를 사용하여 주파수에 대한 스펙트럼 값(spectral values over the frequency)을 예측하도록 형성되고;
    상기 정수 블록의 정수 스펙트럼 값의 주파수에 대한 예측을 하도록 형성된 예측 수단과, 라운딩 블록을 표시할 수 있도록 하는 정수 스펙트럼 값으로 예측 잔류 스펙트럼 값을 라운딩하기 위한 라운딩 수단이 더 구비된, 부호화 오디오 데이터를 얻기 위한 시간-이산 오디오 신호 부호화 장치.
  11. 앞의 청구항들중 어느 한 항에 있어서,
    상기 시간-이산 오디오 신호가 적어도 두 개의 채널을 포함하여 구성되고;
    상기 제공 수단(52)이 중심/측면 스펙트럼 값의 양자화 후의 양자화 블록을 얻기 위하여 시간-이산 오디오 신호의 스펙트럼 값으로 중심/측면(center/side) 부호화를 실행하도록 형성되며; 그리고
    상기 정수 블록을 발생시키는 수단(56)이 상기 제공 수단(52)의 중심/측면 부호화에 상응하는 중심/측면 부호화를 또한 실행하도록 형성된, 부호화 오디오 데이터를 얻기 위한 시간-이산 오디오 신호 부호화 장치.
  12. 앞의 청구항들중 어느 한 항에 있어서,
    상기 프로세싱 수단(60)이 MPEG-2 AAC 데이터 스트림을 발생시키도록 형성되고, ㅂ조 데이터(Ancillary Data)내의 하나의 필드에 정수 변환 알고리즘을 위한 보조 정보(ancillary information)가 도입되는, 부호화 오디오 데이터를 얻기 위한 시간-이산 오디오 신호 부호화 장치.
  13. 앞의 청구항들중 어느 한 항에 있어서,
    상기 프로세싱 수단(60)이, 상기 부호화 오디오 데이터들을 다수의 스케일링 레이어들을 갖는 데이터 스트림으로 출력하도록 형성된, 부호화 오디오 데이터를 얻기 위한 시간-이산 오디오 신호 부호화 장치.
  14. 제13항에 있어서,
    상기 프로세싱 수단(60)이, 양자화 블록의 정보를 제1 스케일링 레이어(81)로 삽입하고, 차분 블록의 정보를 제2 스케일링 레이어(82)로 삽입하도록 형성된, 부호화 오디오 데이터를 얻기 위한 시간-이산 오디오 신호 부호화 장치.
  15. 제13항에 있어서,
    상기 프로세싱 수단(60)이, 양자화 블록의 정보를 제1 스케일링 레이어(81)로 삽입하고, 차분 블록의 정보를 적어도 제2 및 제3 스케일링 레이어로 삽입하도록 형성된, 부호화 오디오 데이터를 얻기 위한 시간-이산 오디오 신호 부호화 장치.
  16. 제15항에 있어서,
    정확도가 저하된(with reduced accuracy) 차분 스펙트럼 값이 제2 스케일링 레이어에 포함되고, 상기 차분 스펙트럼 값의 나머지 부분(residual part)이 하나 또는 그 이상의 상위 스케일링 레이어(higher scaling layers)에 포함되는, 부호화 오디오 데이터를 얻기 위한 시간-이산 오디오 신호 부호화 장치.
  17. 제15항 또는 제16항에 있어서,
    상기 차분 블록의 정보가 이진 부호화 차분 스펙트럼 값(binarily coded difference spectral values)을 포함하고,
    상기 차분 블록을 위한 제2 스케일링 레이어가 차분 스펙트럼 값에 대한 최상위 비트(most significant bit; MSB)로부터 하위 비트(less significant bit; MSB-x)까지의 다수의 비트를 포함하며, 그리고
    제3 스케일링 레이어가 하위 비트(less significant bit; MSB-x-1)로부터 최하위 비트(least significant bit; LSB)까지의 다수의 비트를 포함하는, 부호화 오디오 데이터를 얻기 위한 시간-이산 오디오 신호 부호화 장치.
  18. 제17항에 있어서,
    시간-이산 오디오 신호가 24 비트의 폭(width)을 갖는 샘플의 형태로 존재하고,
    상기 프로세싱 수단(60)이, 차분 스펙트럼 값의 더 유효한 16 비트를 제2 스케일링 레이어에 삽입하고, 상기 차분 스펙트럼 값의 잔류 8 비트를 제3 스케일링 레이어에 삽입하여, 복호기(decoder)가 제2 스케일링 레이어를 사용하여 CD 음질(quality)에 도달하도록 하고 제3 스케일링 레이어를 또한 사용하여 스튜디오 음질(studio quality)에 도달하도록 형성된, 부호화 오디오 데이터를 얻기 위한 시간-이산 오디오 신호 부호화 장치.
  19. 제15항에 있어서,
    상기 프로세싱 수단(60)이,
    저역 통과 신호(low-pass signal)의 표시를 위해 하나의 차분 스펙트럼 값의 적어도 일부를 제2 스케일링 레이어에 삽입하고,
    제2 스케일링 레이어의 차분 스펙트럼 값과 원래의 차분 스펙트럼 값(original difference spectral values) 사이의 차분(difference)을 적어도 하나의 추가 스케일링 레이어로 삽입하도록 형성된, 부호화 오디오 데이터를 얻기 위한 시간-이산 오디오 신호 부호화 장치.
  20. 제15항 또는 제19항에 있어서,
    상기 프로세싱 수단(60)이, 특정(a certain) 차단 주파수(cut-off frequency)까지의 차분 스펙트럼 값의 적어도 일부를 제2 스케일링 레이어에 삽입하고, 상기 특정 차단 주파수로부터 그 보다 높은 주파수까지의 차분 스펙트럼 값의 적어도 일부를 제3 스케일링 레이어에 삽입하도록 형성된, 부호화 오디오 데이터를 얻기 위한 시간-이산 오디오 신호 부호화 장치.
  21. 심리음향 모델(54)을 사용하여 양자화된 시간-이산 오디오 신호의 스펙트럼 값의 양자화 블록을 제공하는 단계(52)와;
    라운드된 역양자화 스펙트럼 값의 라운딩 블록을 얻기 위하여 상기 양자화 블록을 역양자화하고 역양자화 스펙트럼 값을 라운딩하는 단계(58)와;
    정수 시간-이산 샘플의 블록으로부터 스펙트럼 값의 정수 블록을 발생시키도록 형성된 정수 변환 알고리즘을 사용하여 정수 스펙트럼 값의 정수 블록을 발생시키는 단계(56)와;
    차분 스펙트럼 값을 갖는 차분 블록을 얻기 위하여 라운딩 블록과 정수 블록의 스펙트럼 값 차분(a spectral value-wise difference)에 따른 차분 블록을 형성하는 단계(58)와;
    양자화 블록의 정보와 차분 블록의 정보를 포함하는 부호화 오디오 데이터를 발생시키기 위하여 양자화 블록과 차분 블록을 처리하는 단계(60)를 포함하여 구성되는, 부호화 오디오 데이터를 얻기 위한 시간-이산 오디오 신호 부호화 방법.
  22. 심리음향 모델(54)을 사용하여 양자화된 시간-이산 오디오 신호의 스펙트럼 값의 양자화 블록을 제공하고(52), 라운드된 역양자화 스펙트럼 값의 양자화 블록을 얻기 위하여 양자화블록을 역양자화하고 역양자화 스펙트럼값을 라운딩하며(58), 정수 시간-이산 샘플들로부터 스펙트럼 값의 정수 블록을 발생시키도록 형성된 정수 변환 알고리즘을 사용하여 정수 스펙트럼값의 정수블록을 발생시키고(56), 그리고 차분 스펙트럼 값을 갖는 차분 블록을 얻기 위하여 라운딩 블록과 정수 블록의 스펙트럼 값 차분에 따라 하나의 차분 블록을 형성함(58)에 의해 시간-이산 오디오 신호로부터 발생된 부호화 오디오 데이터를 복호화하기 위한 장치에 있어서,
    하나의 양자화 블록과 하나의 차분 블록을 얻기 위하여 부호화 오디오 데이터를 처리하기 위한 수단(70)과;
    하나의 정수 역양자화된 양자화 블록(integer inversely quantized quantization block)을 얻기 위하여 양자화 블록을 역양자화하고 라운딩하기 위한 수단(74)과;
    하나의 결합 블록을 얻기 위하여, 정수 양자화 블록과 차분 블록을 스펙트럼 관련 값으로 결합시키기 위한 수단(78)과; 그리고
    결합 블록을 사용하고 상기 정수 변환 알고리즘의 역 정수 변환 알고리즘을 사용하여 시간-이산 오디오 신호의 시간 표시(temporal representation)를 발생시키기 위한 수단(82)을 포함하여 구성되는, 시간-이산 오디오 신호로부터 발생된 부호화 오디오 데이터 복호화 장치.
  23. 제22항에 있어서,
    상기 부호화 오디오 데이터가 스케일되고(scaled), 복수의 스케일링 레이어들을 포함하며,
    상기 부호화 오디오 데이터로부터 양자화 블록을 제1 스케일링 레이어로 확인하고(ascertain) 부호화 오디오 데이터로부터의 차분 블록을 제2 스케일링 레이어로 확인하도록 형성된, 시간-이산 오디오 신호로부터 발생된 부호화 오디오 데이터 복호화 장치.
  24. 제22항에 있어서,
    차분 블록의 정보가 이진 부호화 차분 스펙트럼 값을 포함하고;
    상기 부호화 오디오 데이터가 스케일되고 다수의 스케일링 레이어들을 포함하며;
    상기 부호화 오디오 데이터를 처리하기 위한 수단(70)이 부호화 오디오 데이터로부터 얻어진 양자화 블록을 제1 스케일링 레이어로 확인하고 정확도가 저하된(with reduced accuracy) 차분 스펙트럼 값의 표시(representation)를 제2 스케일링 레이어로 추출하도록(extract) 형성된, 시간-이산 오디오 신호로부터 발생된 부호화 오디오 데이터 복호화 장치.
  25. 제24항에 있어서,
    상기 부호화 오디오 데이터를 처리하기 위한 수단(70)이, 최상위 비트(a most significant bit)로부터 차분 스펙트럼 값의 최하위 비트보다는 더 중요한(more significant) 하위 비트(a less significant bit)까지의 다수의 비트를 제2 스케일링 레이어로 추출하도록 형성되고, 그리고
    시간-이산 오디오 신호의 시간 표시를 발생시키기 위한 수단(82)이 정수 변환 알고리즘의 사용 전에 차분 스펙트럼 값을 위한 분실 비트(missing bits)를 합성적으로(synthetically) 발생시키도록 형성된, 시간-이산 오디오 신호로부터 발생된 부호화 오디오 데이터 복호화 장치.
  26. 제25항에 있어서,
    상기 수단(82)이, 2n(여기서 n은 제2스케일링 레이어에 포함되지 않은 하위 비트들의 수이다)과 동일한 하나의 스케일 계수(scale factor)가 사용되는, 합성적 발생(synthetical generation)을 위한 제2 스케일링 레이어의 업스케일링(upscaling)을 실행하거나, 또는 종합적 발생을 위한 디더링 알고리즘(dithering algorithm)을 사용하도록 형성된, 시간-이산 오디오 신호로부터 발생된 부호화 오디오 데이터 복호화 장치.
  27. 제22항에 있어서,
    상기 부호화 오디오 데이터가 스케일되고(scaled), 다수의 스케일링 레이어들을 포함하며,
    상기 부호화 오디오 데이터를 처리하기 위한 수단(70)이 부호화 오디오 데이터로부터 얻어진 양자화 블록을 제1 스케일링 레이어로 확인하고, 저역 필터링된 차분 스펙트럼 값을 제2 스케일링 레이어로 확인하도록 형성된, 시간-이산 오디오신호로부터 발생된 부호화 오디오 데이터 복호화 장치.
  28. 제22항 또는 제27항에 있어서,
    상기 부호화 오디오 데이터가 스케일되고 다수의 스케일링 레이어들을 포함하며,
    상기 부호화 오디오 데이터를 처리하기 위한 수단(70)이 부호화 데이터의 양자화 블록을 제1 스케일링 레이어로 확인하고, 하나의 부호기(corder)에서 발생될 수 있는 차분 스펙트럼 값의 최대 주파수보다 더 작은 제1 차단 주파수까지의 차분 스펙트럼 값을 제2 스케일링 레이어로 확인하도록 형성된, 시간-이산 오디오 신호로부터 발생된 부호화 오디오 데이터 복호화 장치.
  29. 제28항에 있어서,
    하나의 시간 표시를 발생시키기 위한 수단(82)이, 제2 스케일링 레이어의 차단 주파수 전체 길이(full length)에 대한 정수 변환 알고리즘내의 입력값을 예정값(a predetermined value)으로 셋팅하고, 하나의 부호기에 의해 발생될 수 있는 차분 스펙트럼 값의 최대 주파수와 차단 주파수의 비율에 상응하여 선택된 하나의 계수(factor)에 의한 역 정수 변환 알고리즘(inverse integer transform algorithm)을 사용한 후에 시간-이산 오디오 신호의 시간 표시를 다운샘플(downsample)하도록 형성된, 시간-이산 오디오 신호로부터 발생된 부호화 오디오 데이터 복호화 장치.
  30. 제29항에 있어서,
    차단 주파수상의 모든 입력값에 대해 상기 예정값이 0인, 시간-이산 오디오 신호로부터 발생된 부호화 오디오 데이터 복호화 장치.
  31. 하나의 양자화 블록과 하나의 차분 블록을 얻기 위하여 부호화 오디오 데이터를 처리하는 단계(70)와;
    하나의 정수 역양자화된 양자화 블록을 얻기 위하여, 양자화 블록을 역양자화하고 라운딩(rounding)하는 단계(74)와;
    하나의 결합 블록을 얻기 위하여 정수 양자화 블록과 차분 블록을 스펙트럼 관련 값으로 결합시키는(spectral value-wise combining) 단계(78)와; 그리고
    하나의 결합 블록을 사용하여 그리고 상기 정수 변환 알고리즘의 역 정수 변환 알고리즘을 사용하여 시간-이산 오디오 신호의 시간 표시를 발생시키는 단계(82)를 포함하여 구성되는, 제공, 역양자화, 발생, 형성 및 처리(processing)단계에 의해 시간-이산 오디오 신호로부터 발생된 부호화 오디오 데이터의 복호화 방법.
  32. 컴퓨터에 실행될 때, 제21항의 부호화 방법을 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램.
  33. 컴퓨터에 실행될 때 제31항의 복호화 방법을 실행하기 위한 프로그램 부호를 갖는 컴퓨터 프로그램.
KR1020047016744A 2002-04-18 2002-12-02 시간-이산 오디오 신호를 부호화하기 위한 장치 및 방법그리고 부호화 오디오 데이터를 복호화하기 위한 장치 및방법 KR100892152B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE10217297.8 2002-04-18
DE10217297A DE10217297A1 (de) 2002-04-18 2002-04-18 Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten
PCT/EP2002/013623 WO2003088212A1 (de) 2002-04-18 2002-12-02 Vorrichtung und verfahren zum codieren eines zeitdiskreten audiosignals und vorrichtung und verfahren zum decodieren von codierten audiodaten

Publications (2)

Publication Number Publication Date
KR20050007312A true KR20050007312A (ko) 2005-01-17
KR100892152B1 KR100892152B1 (ko) 2009-04-10

Family

ID=28798541

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020047016744A KR100892152B1 (ko) 2002-04-18 2002-12-02 시간-이산 오디오 신호를 부호화하기 위한 장치 및 방법그리고 부호화 오디오 데이터를 복호화하기 위한 장치 및방법

Country Status (9)

Country Link
EP (1) EP1495464B1 (ko)
JP (1) JP4081447B2 (ko)
KR (1) KR100892152B1 (ko)
CN (1) CN1258172C (ko)
AT (1) ATE305655T1 (ko)
CA (1) CA2482427C (ko)
DE (2) DE10217297A1 (ko)
HK (1) HK1077391A1 (ko)
WO (1) WO2003088212A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008100034A1 (en) * 2007-02-12 2008-08-21 Samsung Electronics Co., Ltd. Audio encoding and decoding apparatus and method
KR20210016839A (ko) * 2019-08-05 2021-02-17 국방과학연구소 수동 소나의 협대역 신호를 탐지하기 위한 lofar 또는 demon 그램의 압축 장치

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070276894A1 (en) * 2003-09-29 2007-11-29 Agency For Science, Technology And Research Process And Device For Determining A Transforming Element For A Given Transformation Function, Method And Device For Transforming A Digital Signal From The Time Domain Into The Frequency Domain And Vice Versa And Computer Readable Medium
KR101141247B1 (ko) * 2003-10-10 2012-05-04 에이전시 포 사이언스, 테크놀로지 앤드 리서치 디지털 신호를 확장성 비트스트림으로 인코딩하는 방법;확장성 비트스트림을 디코딩하는 방법
DE102004007200B3 (de) * 2004-02-13 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007184B3 (de) * 2004-02-13 2005-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Quantisieren eines Informationssignals
DE102004059979B4 (de) 2004-12-13 2007-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Berechnung einer Signalenergie eines Informationssignals
US8494667B2 (en) 2005-06-30 2013-07-23 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
ATE455348T1 (de) 2005-08-30 2010-01-15 Lg Electronics Inc Vorrichtung und verfahren zur dekodierung eines audiosignals
KR100878833B1 (ko) 2005-10-05 2009-01-14 엘지전자 주식회사 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치
US7653533B2 (en) 2005-10-24 2010-01-26 Lg Electronics Inc. Removing time delays in signal paths
EP1852849A1 (en) 2006-05-05 2007-11-07 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
EP1883067A1 (en) * 2006-07-24 2008-01-30 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
EP1903559A1 (en) 2006-09-20 2008-03-26 Deutsche Thomson-Brandt Gmbh Method and device for transcoding audio signals
DE102006051673A1 (de) * 2006-11-02 2008-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
DE102007003187A1 (de) * 2007-01-22 2008-10-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines zu sendenden Signals oder eines decodierten Signals
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
MX2010001763A (es) * 2007-08-27 2010-03-10 Ericsson Telefon Ab L M Analisis/sintesis espectral de baja complejidad utilizando la resolucion temporal seleccionable.
EP2063417A1 (en) * 2007-11-23 2009-05-27 Deutsche Thomson OHG Rounding noise shaping for integer transform based encoding and decoding
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
CN102177426B (zh) * 2008-10-08 2014-11-05 弗兰霍菲尔运输应用研究公司 多分辨率切换音频编码/解码方案
CN102918590B (zh) * 2010-03-31 2014-12-10 韩国电子通信研究院 编码方法和装置、以及解码方法和装置
US20120029926A1 (en) * 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
JP5799707B2 (ja) * 2011-09-26 2015-10-28 ソニー株式会社 オーディオ符号化装置およびオーディオ符号化方法、オーディオ復号装置およびオーディオ復号方法、並びにプログラム
EP2830058A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
CN105632503B (zh) * 2014-10-28 2019-09-03 南宁富桂精密工业有限公司 信息隐藏方法及系统
US10354667B2 (en) * 2017-03-22 2019-07-16 Immersion Networks, Inc. System and method for processing audio data
EP3471271A1 (en) * 2017-10-16 2019-04-17 Acoustical Beauty Improved convolutions of digital signals using a bit requirement optimization of a target digital signal
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091576A1 (en) * 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
CN107911122A (zh) * 2017-11-13 2018-04-13 南京大学 基于分解压缩的分布式光纤振动传感数据无损压缩方法
US11281312B2 (en) 2018-01-08 2022-03-22 Immersion Networks, Inc. Methods and apparatuses for producing smooth representations of input motion in time and space
CN115410583A (zh) 2018-04-11 2022-11-29 杜比实验室特许公司 基于机器学习的用于音频编码和解码的基于感知的损失函数
DE102019204527B4 (de) * 2019-03-29 2020-11-19 Technische Universität München Kodierungs-/dekodierungsvorrichtungen und verfahren zur kodierung/dekodierung von vibrotaktilen signalen
CN118571234A (zh) * 2023-02-28 2024-08-30 华为技术有限公司 音频编解码方法及相关装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008100034A1 (en) * 2007-02-12 2008-08-21 Samsung Electronics Co., Ltd. Audio encoding and decoding apparatus and method
US8055506B2 (en) 2007-02-12 2011-11-08 Samsung Electronics Co., Ltd. Audio encoding and decoding apparatus and method using psychoacoustic frequency
KR20210016839A (ko) * 2019-08-05 2021-02-17 국방과학연구소 수동 소나의 협대역 신호를 탐지하기 위한 lofar 또는 demon 그램의 압축 장치

Also Published As

Publication number Publication date
CA2482427A1 (en) 2003-10-23
JP2005527851A (ja) 2005-09-15
DE50204426D1 (de) 2005-11-03
HK1077391A1 (en) 2006-02-10
JP4081447B2 (ja) 2008-04-23
CN1625768A (zh) 2005-06-08
KR100892152B1 (ko) 2009-04-10
WO2003088212A1 (de) 2003-10-23
AU2002358578A1 (en) 2003-10-27
DE10217297A1 (de) 2003-11-06
CN1258172C (zh) 2006-05-31
EP1495464A1 (de) 2005-01-12
EP1495464B1 (de) 2005-09-28
ATE305655T1 (de) 2005-10-15
CA2482427C (en) 2010-01-19

Similar Documents

Publication Publication Date Title
KR100892152B1 (ko) 시간-이산 오디오 신호를 부호화하기 위한 장치 및 방법그리고 부호화 오디오 데이터를 복호화하기 위한 장치 및방법
US7275036B2 (en) Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
US7343287B2 (en) Method and apparatus for scalable encoding and method and apparatus for scalable decoding
US8620674B2 (en) Multi-channel audio encoding and decoding
US8255234B2 (en) Quantization and inverse quantization for audio
US7801735B2 (en) Compressing and decompressing weight factors using temporal prediction for audio data
US8195730B2 (en) Apparatus and method for conversion into a transformed representation or for inverse conversion of the transformed representation
EP2279562B1 (en) Factorization of overlapping transforms into two block transforms
US7512539B2 (en) Method and device for processing time-discrete audio sampled values
Britanak et al. Cosine-/Sine-Modulated Filter Banks
Geiger et al. IntMDCT-A link between perceptual and lossless audio coding
Geiger et al. Integer low delay and MDCT filter banks
US20170206905A1 (en) Method, medium and apparatus for encoding and/or decoding signal based on a psychoacoustic model
Herre Audio Coding Based on Integer Transforms
Fraunhofer INTMDCT-A LINK BETWEEN PERCEPTUAL AND LOSSLESS AUDIO CODING

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130325

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140320

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160323

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170323

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20180327

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20190325

Year of fee payment: 11