KR20060115385A

KR20060115385A - 디지털 신호를 확장성 비트스트림으로 인코딩하는 방법；확장성 비트스트림을 디코딩하는 방법

Info

Publication number: KR20060115385A
Application number: KR1020067009023A
Authority: KR
Inventors: 롱샨 유; 시아오 린; 수산토 라하르드자
Original assignee: 에이전시 포 사이언스, 테크놀로지 앤드 리서치
Priority date: 2003-10-10
Filing date: 2004-10-06
Publication date: 2006-11-08
Also published as: EP1673764A1; MY137785A; WO2005036528A1; EP1673764A4; JP4849466B2; ATE391988T1; CN1890711B; DE602004013031T2; JP2007509362A; US8446947B2; EP1939863A2; TWI347755B; CN1890711A; US20070274383A1; DE602004013031D1; EP1939863A3; KR101141247B1; ES2305852T3; EP1673764B1; TW200520400A

Abstract

디지털 신호를 확장성 비트스트림으로 부호화하는 방법은, 디지털 신호를 양자화하고, 그 양자화된 신호를 부호화하여 코어 계층 비트스트림을 생성하는 단계, 코어 계층 비트스트림 안에 부호화되어 있는 정보를 제거하도록, 디지털 신호 및 코어 계층 비트스트림에 기반하여 에러 매핑을 수행함으로써 에러 신호를 생성하는 단계, 인지 모델을 이용해 정해지는 디지털 신호의 인지 정보에 기반해 에러 신호를 비트 평면 부호화함으로써 인핸스먼트 계층 비트스트림을 생성하는 단계, 및 코어 계층 비트스트림과 인핸스먼트 계층 비트스트림을 멀티플렉싱하여, 확장성 비트스트림을 생성하는 단계를 포함한다. 확장성 비트스트림을 디지털 신호로 복호화하는 방법은, 확장성 비트스트림을 코어 계층 비트스트림 및 인핸스먼트 계층 비트스트림으로 디멀티플렉싱하는 단계, 코어 계층 비트스트림을 디코딩 및 역양자화하여 코어 계층 신호를 생성하는 단계, 디지털 신호의 인지 정보에 기초하여 인핸스먼트 계층 비트스트림을 비트 평면 디코딩하는 단계, 및 비트 평면 디코딩된 인핸스먼트 계층 비트스트림 및 역양자화된 코어 계층 신호에 기반하여 에러 매핑을 수행함으로써 디지털 신호인 재구성 변환 신호를 생성하는 단계를 포함한다.

Description

디지털 신호를 확장성 비트스트림으로 인코딩하는 방법； 확장성 비트스트림을 디코딩하는 방법{Method for encoding a digital signal into a scalable bitstream； Method for decoding a scalable bitstream}

최근 들어, 컴퓨터의 고급화와 함께, 인터넷, 무선 랜, 홈 네트워크 및 상용 셀룰라 전화 시스템 등의 네트워크를 통해 오디오 콘텐츠를 스트리밍하는 네트워킹 및 통신이 오디오 서비스 전송의 주류 수단이 되고 있다. xDSL, 광섬유, 및 광대역 무선 액세스를 포함하는 광대역 네트워크 기반구조의 발전과 함께, 이러한 채널들의 비트 레이트들은 높은 샘플링 레이트에 높은 진폭 해상도를 갖는 (이를테면, 96 kHz, 24 bit/샘플) 무손실 오디오 신호를 전송하기 위한 비트 레이트에 빠르게 접근하고 있다고 생각된다. 한편, MPEG-4 AAC (참증 [1]에 설명됨)와 같은 고압축 디지털 오디오 포맷들이 요구되는 어플리케이션 영역 역시 여전히 존재한다. 결과적으로, 현재의 채널들과 빠르게 출현하고 있는 광대역 채널들을 잇는 공동 이용 가능한 동작들이 강력하게 요구된다. 또, 광대역 채널들이 널리 사용될 수 있고 그 대역폭 제한이 궁극적으로 제거될 때조차, 전송 중에 비트 레이트가 동적으로 가변될 수 있는 계층적(hierarchical) 비트 스트림을 발생할 수 있는 비트 레이트 확장가능 (bit-rate-scalable) 코딩 시스템 또한 크게 선호될 수 있다. 예를 들어, 사고나 자원 공유 요건으로 인해 때때로 패킷 손실이 발생하는 어플리케이션들 의 경우, PCM (Pulse Code Modulation)과 같은 현재의 광대역 파형 표현들과 무손실 코딩 포맷들은 스트리밍 상황하에서 심각한 왜곡에 시달릴 수 있다. 그러나, 이러한 문제는, 네트워크 자원들이 동적으로 가변되는 경우 누군가 패킷 우선순위(priorities)를 정할 수 있다면 해결될 수 있다. 결국, 비트 레이트 확장가능 코딩 시스템은 클라이언트 사이트들로부터 지나치게 과도한 횟수의 요구들이 들어올 때 완만한 QoS 저하가 일어날 수 있는, 오디오 스트리밍 서비스에 바람직한 서버를 또한 제공한다.

이전에 많은 무손실(lossless, 가역부호화) 오디오 코딩 알고리즘들이 제안되어 왔다 (참증 [2]-[8] 참조). 대부분의 방식들은 오리지널 오디오 신호의 리던던시(redundancy, 중복)를 제외한 나머지 신호들은 엔트로피 부호화되지만 상기 리던던시는 제거하는 예측 필터에 의존한다. 예측 필터들의 존재로 인해, 이러한 예측 기반 방식들에 기초해 발생되는 비트스트림들은, 불가능하지 않다면, 비트 레이트 확장성(scalability)을 달성하도록 스케일링 되기가 어렵고 효율적이지도 못하다 (참증 [5], [6] 참조). 다른 방식들은, 참증 [3]에서 개시한 것처럼, 오리지널 오디오 신호들이 먼저 손실이 생기는 인코더에서 부호화되고 그런 다음 그 나머지가 잔차(residual) 인코더에서 무손실로 부호화되는 두 단계 접근방식을 통해 무손실 오디오 코더를 성립시킨다. 이러한 두 단계 디자인이 일종의 어떤 비트 레이트 확장성을 지원하기는 하지만, 그 세분화 정도(granularity)가 너무 조악한 나머지 오디오 스트리밍 어플리케이션을 통해 감상할 수가 없다. 비트 레이트에 대해 세부 단위 (fine grain) 확장성을 지원하는 오디오 코덱들이 이전에 참증 [4] 및 [18]에서 제안되었으나, 여기서 논의할 시스템과는 달리, 그 코덱들은 백워드 (backward) 호환성을 지원하지 않아서, 양 코덱들에 의해 발생되는 손실있는(비가역부호화(lossy)) 비트스트림들이 기존의 어떤 오디오 코덱과도 호환되지 않는다.

참증 [21], [22], [23]에서 인식 모델들이 개시되고 있다.

본 발명의 목적은 백워드 호환성이 유지될 수 있는, 디지털 신호의 확장성 비트스트림으로의 부호화 방법을 제공하는 것이다.

디지털 신호를 확장형 비트스트림으로 부호화하는 방법이 제공되며, 이 방법은, 디지털 신호를 양자화하고, 양자화된 신호를 부호화하여 코어 계층 (core-layer) 비트스트림을 형성하는 단계; 디지털 신호 및 코어 계층 비트스트림에 기반하는 에러 매핑을 수행하여, 코어 계층 비트스트림으로 부호화되었던 정보를 제거함으로써 에러 신호를 생성하는 단계; 인식 모델을 이용해 정해진 디지털 신호의 인식 정보에 기초하여, 상기 에러 신호를 비트-플레인 (bit-plane) 코딩함으로써 인핸스먼트 (enhancement) 계층 비트스트림을 생성하는 단계; 및 코어 계층 비트스트림과 인핸스먼트 계층 비트스트림을 멀티플렉싱함으로써 확장성 비트스트림을 생성하는 단계를 포함한다.

또, 디지털 신호를 확장성 비트스트림으로 부호화하는 인코더, 컴퓨터 판독가능 매체, 컴퓨터 프로그램 요소, 확장성 비트스트림을 디지털 신호로 복호화하는 방법, 상기 방법에 따른 다른 컴퓨터 판독가능 매체 및 컴퓨터 프로그램 요소가 제공된다.

일실시예에서, 세부 단위 (fine-grain) 비트 레이트 확장성 (FGBS)을 달성하는 무손실 오디오 코덱이 다음과 같은 특징을 가진 것으로서 제공된다:

- 백워드 호환성: MPEG-4 AAC 비트스트림과 같은 고압축 코어 계층 비트스트림이 무손실 비트 스트림에 내장된다(embedded).

- 인식적으로 내장된 무손실 비트스트림: 재구성된 오디오를 인식함에 있어 최적성에 손실을 야기하지는 않으면서, 무손실 비트스트림은 손실(lossy) 레이트를 가질 정도로 일부가 버려진다 (truncated).

- 낮은 복잡성: 이것은 AAC (이진 산술연산 코덱)에 대해 단지 매우 한정된 계산 기능 및 매우 제한된 메모리만을 부가한다.

제안된 오디오 코덱에 의해 지원되는 풍부한 기능이, 서로 다른 오디오 스트리밍이나 스토리지 어플리케이션에 대한 다양한 레이트/품질 요건을 충족시키는 "보편적인" 오디오 포맷으로서 알맞은 기능을 제공한다. 이를테면, 코어 계층 비트스트림으로 사용되는 MPEC-4 AAC 순응 비트 스트림이, 일반적인 MPEG-4 AAC 오디오 서비스의 코덱을 이용해 비트스트림으로부터 용이하게 추출될 수 있다. 한편, 무손실 재구성 요건을 갖는 오디오 편집 또는 스토리지 어플리케이션들의 코덱에 의해 무손실 압축 역시 지원된다. FGBS가 필요로 되는 오디오 스트리밍 어플리케이션들에 있어서, 코덱의 무손실 비트스트림이, 실제 시스템에서 일어날 수 있는 임의의 레이트/충실도/복잡도 구속요건을 위해 인코더/디코더 또는 통신 채널에서 더 낮은 비트 레이트로 더 잘라질 수 있다.

일실시예에서, 디지털 신호를 부호화하여 확장성 비트스트림을 생성하기 위한 방법이 제공되며, 이때 확장성 비트스트림은 디코더에 의해 복호화될 때 임의의 지점에서 잘라져서 보다 낮은 품질의 (lossy, 손실있는) 신호로서 생성될 수 있다. 이 방법은 오디오나 이미지나 비디오 신호들과 같은 임의 타입의 디지털 신호를 부호화하는데 사용될 수 있다. 물리적으로 계측되는 신호에 해당하는 디지털 신호는 대응되는 아날로그 신호의 적어도 한 특징적 특성 (가령, 비디오 신호의 휘도 및 색도, 아날로그 사운드 신호의 진폭, 또는 센서로부터의 아날로그 감지 신호)을 스캐닝함으로써 발생될 수 있다. 예를 들어, 마이크가 아날로그 오디오 신호를 포획하는데 사용될 수 있고, 그런 다음 그 포획된 아날로그 신호는 샘플링 및 양자화를 통해 디지털 오디오 신호로 변환된다. 비디오 카메라가 아날로그 비디오 신호를 포획하는데 사용될 수 있으며, 그 아날로그 비디오 신호는 적절한 아날로그-디지털 컨버터를 사용해 디지털 비디오 신호로 변환된다. 이와 달리, 디지털 카메라가 이미지 센서 (CMOS나 CCD) 상의 이미지나 비디오 신호를 디지털 신호로서 바로 포획하는데 사용될 수도 있다.

디지털 신호는 양자화 및 부호화되어 코어 계층 비트스트림을 형성한다. 코어 계층 비트스트림은 확장성 비트스트림의 최소 비트 레이트/품질을 이룬다.

확장성 비트스트림의 부가적 비트 레이트/품질을 지원하기 위해 인핸스먼트 (enhancement) 계층 비트스트림이 사용된다. 인핸스먼트 계층 비트스트림은 본 발명에 따라, 전송된 신호 및 코어 계층 비트스트림에 기초하는 에러 매핑을 수행하여 에러 신호를 만들어냄으로써 생성된다. 에러 매핑의 수행 목적은, 코어 계층 비트스트림 안에 이미 부호화되었던 정보를 제거하고자 하는 것이다.

에러 신호는 비트 평면 (bit-plane) 코딩되어 인핸스먼트 계층 비트스트림을 형성한다. 에러 신호의 비트 평면 코딩은 인식 정보, 즉, 디지털 신호에 대해 인지되거나 인식 가능한 중요도에 기반해 수행된다. 본 발명에 이용되는 인식 정보는 이를테면 사람의 시각 시스템 (즉, 사람의 눈) 및 사람의 청각 시스템 (즉, 사람의 귀) 등, 사람의 감각 시스템과 관련된 정보를 말한다. 이러한 디지털 신호 (비디오나 오디오)의 인식 정보는, 오디오 신호에 대해서는 MPEG-1 오디오의 심리음향 모델 I 또는 II (참증 [21]에 개시됨)를, 이미지에 대해서는 인간의 시각 시스템 모델 (참증 [22]에 개시됨)을, 비디오에는 시공간 (Spatio-Temporal) 모델 (참증 [23]에 개시됨)등의 인식 모델을 이용해 얻어진다.

심리음향 모델은, 사람의 귀가 다양한 환경 조건에 따라 소정 주파수대의 대역 안에 있는 소리만을 골라 들을 수 있다는 사실에 기반한다. 마찬가지로, HVM (human visual model; 인간의 시각 모델)은 사람의 눈이 어떤 동작, 컬러 및 콘트라스트 (contrast)에 더 주목한다는 사실에 기반한다.

코어 계층 비트스트림 및 인핸스먼트 계층 비트스트림이 멀티플렉싱되어 확장성 비트스트림을 생성한다.

확장성 비트스트림은 무손실로 디지털 신호를 재구성하도록 복호화될 수 있다. 상술한 바와 같이, 코어 계층 비트스트림은 확장성 비트스트림의 최소 비트 레이트/품질을 이루는 내장된 비트스트림이고, 인핸스먼트 계층 비트스트림은 확장성 비트스트림의 무손실 부분에 대해 손실을 만든다. 인핸스먼트 계층 비트스트림이 감각적으로(perceptually) 비트 평면 코딩되면서, 인핸스먼트 계층 비트스트림 내에서 감각적으로 덜 중요한 데이터가 먼저 버려지는 방식으로 인핸스먼트 계층 비트스트림이 일부 버려져, 확장성 비트스트림의 감각적 확장성을 지원할 수 있게 된다. 즉, 확장성 비트스트림은, 인핸스먼트 계층 비트스트림을 자름으로써(truncating) 스케일링되어, 인핸스먼트 계층 비트스트림, 및 그에 따른 확장성 비트스트림이 보다 낮은 비트 레이트/품질을 갖도록 일부 버려질 때조차 감각적으로 최적화될 수 있게 된다.

본 발명에 따른 방법은 고대역폭 또는 고충실도 시스템에서, 이미지, 비디오, 또는 오디오 신호와 같은 디지털 신호의 무손실 인코더로서 사용될 수 있다. 대역폭 요건이 변화할 때, 인코더에 의해 발생된 비트스트림의 비트 레이트는 대역폭 요건 변화에 맞춰지도록 그에 따라 변화될 것이다. 이 방법은 MEG 오디오, JPEG 2000의 이미지 및 비디오 압축과 같은 여러 어플리케이션들 및 시스템들에서 구현될 수 있다.

본 발명의 실시예에 따르면, 디지털 신호가 양자화 신호가 되도록 양자화되기 전에 적절한 도메인으로 변환된다. 디지털 신호는 이 디지털 신호를 더 잘 표현하여 이 디지털 신호의 쉽고도 효율적인 양자화 및 코딩이 가능하게 되어 코어 계층 비트스트림을 생성할 수 있도록, 같은 도메인 안에서, 혹은 한 도메인에서 다른 도메인으로 변환될 것이다. 그러한 도메인으로는 시간 도메인, 주파수 도메인, 그리고 시간 및 주파수의 하이브리드가 있을 수 있으나, 이 도메인들에 국한되지는 않을 것이다. 디지털 신호의 변환은 단위 매트릭스 I를 통해서도 수행될 수 있다.

일실시예에서, 디지털 신호는 intMDCT (integer Modified Discrete Cosine Transform, 정수형 변형 이산 코사인 변환)를 이용해 변환 신호로 변환된다. intMDCT는 MPEG-4 AAC 코더에서 보통으로 사용되는 변형된 이산 코사인 변환 (MDCT) 필터뱅크의 가역 근사 방식 (reversible approximation)이다. 디지털 신호의 추가 처리를 위해 디지털 신호를 알맞은 도메인으로 변환하는 다른 변환들 역시 사용될 수 있으며, 여기에는, 이산 코사인 변환, 이산 사인 (sine) 변환, 고속 퓨리에 변환 및 이산 웨이블릿 (wavelet) 변환이 포함될 수 있으나, 반드시 이에 국한되지는 않는다.

intMDCT가 디지털 신호를 변환하여 변환 신호를 만들기 위해 사용될 때, 변환 신호 (특히 변환 신호를 나타내는 intMDCT 계수들)는 MDCT 필터뱅크의 출력에 근사하도록 정규화되거나 (normalized) 스케일링된다 (scaled). intMDCT 변환된 신호의 정규화는, 가령 AAC 양자화기와 같이 변환 신호를 양자화하는 양자화기가 intMDCT 필터뱅크의 포괄적 이익 (global gain)과 상이한 포괄적 이익을 갖는 MDCT 필터뱅크를 구비하는 경우에 유용할 수 있다. 이러한 정규화 프로세스는 intMDCT 변환 신호를 MDCT 필터뱅크에 근사화함으로써, 양자화기에 의해 코어 계층 비트스트림을 생성하도록 바로 양자화되고 부호화되기 적합하게 된다.

오디오 디지털 신호를 부호화하기 위해, 디지털/변환 신호는 코어 계층 비트스트림을 생성하기 위해 MPEG AAC 사양에 따라 양자화 및 부호화됨이 바람직하다. 이것은 AAC가 저 비트레이트이면서도 높은 품질의 오디오 비트스트림을 생성하는 가장 효율적인 지각 오디오 코딩 알고리즘 중 하나이기 때문이다. 따라서, AAC를 이용해 생성된 코어 계층 비트스트림 (AAC 비트스트림이라 칭함)은 낮은 비트레이트를 가지며, 확장성 비트스트림이 코어 계층 비트스트림으로 잘라질 때에도 그 잘린 비트스트림의 인지적 품질은 여전히 높게 유지된다. MPEG-1 오디오 계층 3 (MP3) 등의 다른 양자화 및 코딩 알고리즘/방법들이나 코어 계층 비트스트림 생성을 위한 다른 독점적 코딩/양자화 방법들 역시 사용될 수 있음을 알아야 한다.

코어 계층 비트스트림으로 이미 부호화된 정보를 제거하고 나머지 신호 (또는 에러 신호)를 생성하는 에러 매핑은, 변환 신호로부터 양자화 신호의 각 양자화 값의 하위 양자화 문턱치 (0에 보다 가까운 것)를 감산함으로써 수행된다. 양자화 문턱치에 기반하는 이러한 에러 매핑 절차는, 나머지 신호의 값이 항상 양 (positive)이고, 나머지 신호의 크기가 양자화 문턱치와 무관하다는 이점을 가진다. 이것이 복잡도가 낮으면서 효율적인 내장 (embedded) 코딩 방식이 구현될 수 있게 한다. 그러나, 그 나머지 신호를 만들기 위해 변환 신호로부터 재구성된 변환 신호를 감산하는 것 역시 가능하다.

에러 신호의 비트 평면 코딩을 위한 디지털 신호의 인지 정보를 결정하기 위해, 심리 음향 모델이 인지 모델로서 사용될 수 있다. 심리 음향 모델은 MPEG-1 오디오에서 사용되는 심리음향 모델 I 또는 II (참증 [21]에 개시됨), 또는 MPEG-4 오디오의 심리 음향 모델 (참증 [19]에 개시)에 기초할 수 있다. AAC에 따라 사용되는 것 같은 감각 양자화기가 디지털/변환 신호를 양자화하고 부호화하는데 사용될 때, 이 감각 양자화기에 사용되는 인지 모델 또한 에러 신호의 비트 평면 코딩을 위한 감각 정보를 결정하는데 사용될 수 있다. 즉, 이 경우 에러 신호의 비트 평면 코딩을 위한 인지 정보를 제공하기 위해 별도의 인지 모델이 필요로 되지 않는다.

에러 신호의 비트 평면 코딩을 위한 인지 정보 또한 코어 계층 및 인핸스먼트 계층 비트스트림들과 함께 멀티플렉싱되어 사이드 (side) 정보인 확장성 비트스트림을 생성하도록 됨이 바람직하다. 사이드 정보는 디코더에 의해 에러 신호를 재구성하는데 사용될 수 있다.

에러 신호는 복수의 비트 평면들 안에 정렬되고, 이때 각 비트 평면은 복수의 비트 평면 심볼들을 구비한다.

본 발명의 실시예에서, 에러 신호의 비트 평면들의 정렬 또는 배치는 변화하거나 이동할 있고 (shifted), 비트 평면들은 연속적인 순차적 방식에 따라 순차적으로 스캐닝 및 부호화된다. 비트 평면 코딩이 이동한 비트 평면들에 대해 수행될 때 감각적으로(인지적으로) 보다 중요한 비트 평면 심볼들을 가진 비트 평면들이 먼저 스캐닝 및 부호화되는 식으로, 비트 평면들이 이동한다. 이 실시예에서, 비트 평면 내 모든 비트 평면 심볼들이 계속되는 인접한 비트 평면의 비트 평면 심볼들을 코딩하기 전에 모두 부호화된다.

본 발명의 다른 실시예에서, 비트 평면들의 비트 평면 심볼들은 인지 정보에 기초하여 순차적으로 스캐닝 및 부호화된다. 즉, 비트 평면 내 비트 평면 심볼들 모두가 다른 비트 평면으로부터의 비트 평면 심볼들을 코딩하기 전에 다 부호화되는 것은 아니다. 복수의 비트 평면들로부터의 비트 평면 심볼들의 스캐닝 및 코딩 시퀀스는, 감각적으로 보다 중요한 비트 평면 심볼들이 먼저 부호화될 수 있도록 인지 정보에 기반해 정해진다.

인지 모델에 의해 결정된 디지털 신호의 인지 정보에는, 에러 신호의 비트 평면 코딩 및/또는 디지털 신호의 JND (Just Noticeable Distortion; 최소 식별 차이)을 위한 복수의 비트 평면들의 제1 (또는 최대) 비트 평면 M(들) (즉, 제1비트 평면을 나타내는 넘버 (인덱스))가 포함될 수 있다. 인지 정보는 서로 다른 모든 도메인 특징들 (가령 주파수, 시간, 신호 크기 등)이나 도메인 특징들의 범위와 관련된 것임을 알아야 한다. 예를 들어, 디지털 신호가 주파수 도메인으로 변환될 때, 매 주파수에서의 인지 정보 또는 주파수 대역 (주파수 대역 s 또는 보다 일반적으로 도메인 대역 s)에서의 값들은 서로 다른 것으로, 신호가 소정 주파수대에서 인지적으로 보다 중요할 수 있다는 것을 나타낸다.

본 발명의 실시예에서, 각 주파수 대역 s에 대응하는 디지털 신호의 인지적 중요도 P(s)가 인지 정보로서 결정된다. 이 실시예에서, 에러 신호의 비트 평면에 해당하는 디지털 신호의 JND 레벨

가 정해진다. 그런 다음 JDN 레벨

에 해당하는 비트 평면이 에러 신호 M(s)의 비트 평면 코딩을 위한 복수의 비트 평면들 중 제1비트 평면의 인덱스로부터 감산되고, 그 결과가 인지 중요도 P(s)가 된다. 인지 중요도 P(s)는 비트 평면들의 이동 (shifting)을 제어하는데 사용되어, 인지상 보다 중요한 비트 평면 심볼들을 구비한 비트 평면들이 우선 스캐닝 및 부호화될 수 있도록 한다. 보다 바람직한 것은, 인지 중요도 P9s)가 복수의 비트 평면들로부터의 비트 평면 심볼들의 스캐닝 및 코딩 시퀀스를 제어하여 인지상 더 중요한 비트 평면 심볼들이 우선 부호화될 수 있도록 하는데 사용될 수 있다는 것이다.

본 발명의 다른 실시예에서, 인지 중요도 P(s)가 정규화되어 정규화 인지 중요도 Ps'(s)가 생성된다. 이 실시예에서, 인지 중요도 Ps(s) 함수에 기초해 디지털 신호의 공통적 인지 중요도 Ps_common이 정의된다. 이 인지 중요도 Ps(s) 함수의 예들로서 인지 중요도 Ps(s)의 평균치, 최대치, 최소치, 또는 정규화된 값이 포함된다. 공통적 인지 중요도 Ps_common이 인지 중요도 Ps(s)로부터 감산되어 각 주파수 대역 s에 대한 정규화된 인지 중요도 Ps'(s)가 나타난다. 주파수 대역 s가 적어도 한 개의 0 아닌 값의 양자화 신호를 포함할 때, 그 주파수 대역 s는 중요한 대역이다. 그와 같지 않으면, 주파수 대역 s는 중요하지 않은 대역 s이다. 중요 대역에 있어서, 해당 인지 중요도 Ps(s)의 값이 공통 인지 중요도 Ps_common의 값으로 설정된다. 중요하지 않은 대역에 있어서, 해당 정규 인지 중요도 Ps'(s)는 전송할 확장성 비트스트림을 생성하기 위해 코어 계층 비트스트림 및 인핸스먼트 계층 비트스트림과 함께 멀티플렉싱된다. 이 정규 인지 중요도 Ps'(s)는 디코더에서의 확장성 비트스트림의 복호화를 위한 사이드 정보로서 확장성 비트스트림을 통해 전송된다.

공통 인지 중요도 Ps_common을 규정하여 인지 중요도 Ps(s)를 정규화하는 것은, 코어 계층 비트스트림을 생성하기 위해 디지털/변환 신호를 양자화할 때 얻어지는 정보를 활용해 확장성 비트스트림을 통해 전송될 인지 정보량을 줄인다는 장점을 가진다. 따라서, 중요 대역에 대한 인지 정보가 디코더에서 용이하게 재생될 수 있도록, 중요하지 않은 대역에 대해 디코더 측으로 그러한 인지 정보, 특히 정규화된 인지 정보 Ps'(s)만이 전송될 필요가 있다.

디지털 신호의 인지 정보의 일부인, 에러 신호 M(s)의 비트 평면 코딩을 위한 복수의 비트 평면들의 제1 (또는 최대) 비트 평면의 인덱스가, 디지털/변환 신호를 양자화하는데 사용되는 최대 양자화 간격으로부터 결정될 수 있다. 중요 대역에 있어서, 최대 양자화 간격 (양자화된 신호의 각각의 양자화 값에 해당하는 상위 및 하위 양자화 문턱치 사이의 차이)이 정해지고, 그에 따라 상기 제1비트 평면 (M(s)에 의해 특정됨)이 정해진다. 상기 최대 양자화 간격은 디코더 측에서 결정될 수도 있고, 그에 따라, 상기 제1비트 평면 (M(s)에 의해 특정됨)은 이 경우 (중요 대역에 대해) 확장성 비트스트림의 일부로서 전송될 필요가 없다.

디지털 신호를 확장성 비트스트림으로 인코딩하는 것에 대해 설명하였으나, 본 발명은 상술한 방법의 반대 과정을 통해 확장성 비트스트림을 복호화된 디지털 신호로 디코딩하는 동작 역시 포함한다.

본 발명의 일실시예에서, 확장성 비트스트림을 디지털 신호로 디코딩하는 방법이 제공되며, 이 방법은 확장성 비트스트림을 코어 계층 비트스트림과 인핸스먼트 계층 비트스트림으로 디멀티플렉싱(de-multiplexing)하는 단계, 코어 계층 비트스트림을 역양자화(de-quantizing)하여 코어 계층 신호를 생성하는 단계, 디지털 신호의 인지 정보에 기반하여 인핸스먼트 계층을 비트 평면 디코딩하는 단계, 비트 평면 디코딩된 인핸스먼트 계층 신호 및 역양자화된 코어 계층 신호에 기반해 에러 매핑을 수행해 재구성된 변환 신호를 발생하는 단계를 포함하고, 상기 재구성된 변환 신호는 디지털 신호이다. 확장성 비트스트림을 디코딩하는 방법은, 상술한 바와 같이 디지털 신호를 확장성 비트스트림으로 인코딩하는 방법과 함께, 또는 그와 별도로 이용될 수 있다.

디지털 신호가 재구성된 변환 신호와 다른 도메인에 있는 경우, 그 재구성된 변환 신호는 디지털 신호를 생성하도록 변환된다.

디지털 신호를 생성하기 위해 확장성 비트스트림의 디코딩을 정확히 구현하는 것은 확장성 비트스트림이 인코더에 의해 어떻게 부호화되는지에 달려 있다. 일례로서, 디지털 신호를 생성하기 위해 재구성된 변환 신호를 intMDCT를 이용해 변환할 수 있다. 코어 계층 비트스트림은 MPEG AAC 사양에 따라 복호화(디코딩) 및 역양자화될 것이다. 에러 매핑은 변환 신호를 역양자화하기 위해 사용되는 하위 양자화 문턱치와 비트 평면 복호화된 인핸스먼트 계층 비트스트림을 더함으로써 수행되어 재구성 변환 신호를 발생한다. 이러한 디코더의 이점 및 기타 실시 구성은 이미 상술한 인코더와 유사하다.

디지털 신호의 인지 정보는, 이 인지 정보가 사이드 정보로서 확장성 비트스트림으로 멀티플렉싱되었을 때, 그 확장성 비트 스트림을 디멀티플렉싱함으로써 얻어질 수 있다. 이와 달리, 코어 계층 비트스트림이 인지적으로 부호화될 때, 그 코어 계층 비트스트림을 디코딩 및 역양자화하여 얻은 인지 저보가 인핸스먼트 계층 비트스트림의 비트 평면 디코딩에 사용될 수 있다.

본 발명의 실시예에서, 인핸스먼트 계층 비트스트림은 연속 시퀀스로 비트 평면 디코딩되어 복수의 비트 평면 심볼들을 구비한 복수의 비트 평면들을 생성하고, 비트 평면들은 디지털 신호의 인지 정보에 기반해 쉬프트하여 비트 평면 디코딩된 인핸스먼트 계층 비트스트림을 발생한다.

본 발명의 다른 실시예에서, 인핸스먼트 계층 비트스트림은 복수의 비트 평면 심볼들을 구비한 복수의 비트 평면들을 생성하기 위해 디지털 신호의 인지 정보에 기반해 순차적으로 비트 평면 디코딩됨으로써, 비트 평면 디코딩된 인핸스먼트 게층 비트스트림을 생성한다.

디지털 신호의 인지 정보는 다음과 같은 것 중 적어도 한 가지일 수 있다:

- 인핸스먼트 계층 비트스트림의 비트 평면 디코딩이 M(s)에서 시작될 때 인핸스먼트 계층 비트스트림에 해당하는 비트 평면; 및

- s가 디지털 신호의 한 주파수 대역에 해당할 때, 디지털 신호의 JND (Just Noticeable Distortion; 최소 식별 차이) 레벨.

인핸스먼트 계층 비트스트림의 비트 평면 디코딩이 M(s)에서 시작할 때 인핸스먼트 계층에 해당하는 비트 평면은, 코어 계층 비트스트림을 역양자화하기 위해 사용되는 최대 양자화 간격으로부터 결정된다.

본 발명의 제2양태는 확장성 비트스트림을 디지털 신호로 복호화하는 방법에만 관련되는 것이 아니라, 상기 방법을 구현하는 컴퓨터 프로그램, 컴퓨터 판독가능 매체, 및 장치 역시 포함한다.

본 발명의 다양한 실시예들과 구성에 대해 다음과 같은 도면들을 참조해 보다 상세히 설명할 것이다.

도 1은 본 발명의 실시예에 따른 인코더를 도시한 것이다.

도 2는 본 발명의 실시예에 따른 디코더를 도시한 것이다.

도 3은 비트 평면 코딩 프로세스의 구조를 예시한 것이다.

도 4는 본 발명의 실시예에 따른 인코더를 도시한 것이다.

도 5는 본 발명의 실시예에 따른 디코더를 도시한 것이다.

도 6은 본 발명의 실시예에 따른 인코더를 도시한 것이다.

도 7은 본 발명의 실시예에 따른 디코더를 도시한 것이다.

도 1은 본 발명의 실시예에 따른 인코더(100)를 도시한 것이다.

인코더(100)는 확장성 비트스트림 (scalable bitstream)을 생성하기 위한 것으로, 두 개의 서로 다른 계층, 즉, 코어 계층 (core-layer) 비트스트림을 생성하는 코어 계층, 및 인핸스먼트 계층 (enhancement-layer) 비트스트림을 생성하는 무손실 (Lossless) 인핸스먼트 (LLE) 계층을 포함한다.

인코더는 도메인 변환기(101), 양자화기(102), 에러 매핑 유닛(103), 인지적 비트 평면 코더(104) 및 멀티플렉서(105)를 포함한다.

인코더(100)에서, 디지털 신호는 우선 도메인 변환기(101)에 의해 주파수 도메인과 같은 적절한 도메인으로 변환되어, 변환 신호 (transformed signal)가 된다. 변환 신호의 계수들이 양자화기(102)에 의해 양자화되고 부호화되어 코어 계층 비트스트림을 생성한다. 에러 매핑이, LLE 계층에 해당하는 에러 매핑 유닛(103)에 의해 수행되어, 코어 계층에서 사용되거나 코딩되었던 변환 신호의 계수들에서 정보를 제거해 코어 계층 비트스트림을 생성한다. 그 결과로서 나머지 또 는 에러 신호, 특히 에러 계수들이 비트 평면 코더(104)에 의해 비트 평면(bit-plane) 부호화되어 내장형(embedded) LLE 비트스트림을 생성한다. 이 내장형 비트 스트림은 인코더(100) 또는 디코더 (도 2에서 도시된 디코더(200) 및 이하에서 설명함), 또는 통신 채널에서, 레이트/충실도 요건을 만족하기 위해 일부가 더 버려져(truncated) 더 낮은 비트 레이트로 될 수 있다. 인지 모델(106)이 에러 계수들의 비트 평면 코딩을 제어하는데 사용됨으로써, 보다 인지적으로 중요한 에러 계수들의 비트들이 우선 코딩될 수 있다.

마지막으로, 파생된 LLE 계층 비트스트림이 멀티플렉서(105)에 의해 코어 계층 비트스트림과 함께 멀티플렉싱되어, 확장성 비트스트림으로서 발생된다. 또, 에러 계수들의 비트 평면 코딩을 제어하기 위한 인지 정보 역시 사이드 정보로서 전송될 수 있어, 해당 비트 평면 디코더가 올바른 순서로 에러 계수들을 재구성할 수 있도록 한다.

LLE 비트스트림이 더 낮은 레이트로 잘릴 때, 그 디코딩된 신호는 오리지널 입력 신호의 손실 있는 (lossy) 버전이 될 것이다.

도 2는 본 발명의 실시예에 따른 디코더(200)를 도시한 것이다.

디코더(200)는 인코더(200)에 의해 생성된 확장성 비트스트림을 디코딩해, 인코더(100)에서 부호화되었던 디지털 신호를 재구성한다.

디코더(200)는 도메인 변환기(201), 역양자화기(202), 에러 매핑 유닛(203), 인지적 비트 평면 디코더(204), 및 디멀티플렉서(205)를 포함한다.

디멀티플렉서(205)가 입력으로서 확장성 비트스트림을 수신하고 그 확장성 비트스트림을 인코더(100)에 의해 생성된 것 같은 코어 계층 비트스트림과 인핸스먼트 계층 비트스트림으로 분리한다. 코어 계층 비트스트림은 역양자화기(202)에 의해 복호화(디코딩) 및 역양자화되어, 코어 계층 신호로서 생성된다. 인핸스먼트 계층 비트스트림은 인지적 비트 평면 디코더(204)에 의해, 인지 모델(206)이 제공한 인지 정보에 기반해 인지적으로 비트 평면 디코딩되고, 코어 계층 신호와 함께 에러 매핑 유닛(203)에 의해 순차적으로 에러 매핑되어 인핸스먼트 계층 신호로서 생성된다. 인핸스먼트 계층 신호는 마지막으로 도메인 변환기(201)에 의해 디지털 신호의 도메인으로 다시 변환됨으로써, 재구성된 디지털 신호인, 인핸스먼트 계층 변환 신호가 된다.

인코더(100) 및 디코더(200)에 의해 수행된 절차는 이하에서 보다 자세히 설명될 것이다.

입력 신호는 보통 도메인 변환기(101)에 의해 주파수 도메인으로 변환된 후, 양자화기(101) (코어 계층 인코더의 일부임)를 통해 양자화되어 코어 계층 비트스트림으로서 생성된다. 입력 신호를 주파수 도메인으로 변환하기 위해, 이산 코사인 변환 (DCT), 변형된 이산 코사인 변환 (MDCT), 정수 MDCT (IntMDCT), 또는 고속 퓨리에 변환 (FFT)과 같은 다양한 변환 함수들이 사용될 수 있다.

MPEG-4 AAC 인코더가 (오디오 신호를 위한) 코어 계층 인코더로서 사용될 때, 참증 [1]에 개시된 것과 같이 MDCT가 통상적으로 입력 오디오 신호를 주파수 도메인으로 변환하는데 사용된다. 참증 [13]에서, 정수 MDCT (IntMDCT)가, MPEG-4 AAC 인코더와 함께 사용되는 변형된 이산 코사인 변환 (MDCT) 필터뱅크의 가 역(revertible) 근사방식으로서 제안된다. IntMDCT를 구현하기 위해 일반적으로 사용되는 방법은 MDCT 필터뱅크를 다음과 같은 형태의 기븐스(Givens) 로테이션들(rotations)의 직렬연결(cascade)로 인수분해하는 것이다:

위 식은 다음의 세 리프팅(lifting) 단계들로 더 인수분해된다.

각 리프팅 단계는, 회복(revertible) 정수에 의해 가장 가까운 정수 작업 (integer operation) r: R -> Z 으로의 반올림(rounding)을 통한 정수 매핑에 근사하게 될 수 있다. 예를 들어, 마지막 리프팅 단계는 다음과 같이 근사화될 수 있다:

위 식은 다음 식을 통해 무손실로 복구될 수 있다:

그에 따라 상술한 바와 같은 회복 정수 매핑을 통해 모든 기븐스 로테이션들을 구현하여 IntMDCT가 얻어지게 된다.

디코더에서, intMDCT는 인핸스먼트 계층 신호를 (재구성된) 디지털 신호로 변환하기 위해 도메인 변환기(201)에 의해 다시 사용될 수 있다.

코어 계층에서, 변환 신호의 계수들 c(k) (k=1, ..., 1024로서, 코어 계층 비트스트림의 프레임 길이)은 양자화기(102)에 의해 양자화되어 코어 계층 비트스트림으로 부호화되다. 입력 오디오 신호의 경우, 변환 신호 계수들은 MPEG-4 ACC 코더, MPEG-1 계층 3 오디오 (MP3) 코더, 또는 임의의 독점적 오디오 코더의 양자화 값들에 따라 양자화될 수 있다.

MPEG-4 ACC 코더가 IntMDCT와 결부되어 사용될 때, 변환 신호 계수들 (IntMDCT 계수들로도 알려짐), c(k)는 우선

로 정규화되어, 그 정규화된 출력들이 MDCT 필터뱅크의 출력들과 근사화된 후, 다음과 같이 주어진 AAC 양자화기 (참증 [19] 참조) 등에 의해 양자화 및 부호화된다:

여기서

은 유동 소수점의 피연산자를 정수로 자르는 플러링(flooring) 연산을 나타내고, i(k)는 AAC 양자화된 계수들이며, 스케일_팩터 (s)는 계수 c(k)가 속하는 스케일 팩터 대역의 스케일 팩터이다. 스케일 팩터들은 잡음 정형화 (noise shaping) 절차를 통해 적응적으로 조정되어, 양자화 잡음이 사람의 청각 시스템의 마스킹(masking) 문턱치에 의해 최상으로 마스킹될 수 있다. 이러한 잡음 정형화 절차에 널리 채택된 방식이 참증 [1]에 자세히 설명된 것 같은 네스티드 (nested) 양자화 및 코딩 루프이다.

양자화 계수들 i(k)은 참증 [17]에 개시된 것과 같은 비트-슬라이싱 산술 코드 (BSAC)나 허프만 HHuffman) 코드 등을 이용해, (이 예에서 양자화기(102)에 의해) 잡음없이 부호화된다. BSAC는 비트 레이트 확장성이 코어 계층 비트스트림에서 더 필요로될 때 바람직하다. 스케일 팩터들은 가령 참증 [1]에 개시된 DPCM 인코딩 프로세스나 허프만 코드를 이용해 서로 다르게 부호화된다. 그리고나서 AAC 비트스트림 문법에 따라, 부호화된 모든 정보를 멀티플렉싱함으로써 코어 계층 비트스트림이 생성될 수 있다.

MPEG AAC에 관한 보다 포괄적인 설명을 참증 [1]이나, MPEG AAC에 대한 참증 [19]의 국제 표준 문서에서 찾을 수 있다. MPEG-4 AAC에 따르는 비트스트림을 내장하는 메커니즘을 설명하였지만, MPEG 1/2 계층 I, II, III (MP3), 돌비 AC3, 또는 참증 [20]에 기술한 것과 같은 소니의 ATRAC 전매 인코더들과 같은 다른 코더들을 따르는 비트스트림들을 이용하는 것 역시 가능하다.

양자화기(102)가 MPEG AAC 코더에 따라 동작할 때, 역양자화기(202)는 디코더(200)에서 코어 계층 비트스트림을 디코딩 및 역양자화함에 있어 MPEG AAC 디코더에 따라 동작함이 바람직하다. 특히, 역양자화기(202)는 디코더(200)에서 에러 매핑 유닛(203)에 의해 에러 매핑하는데 순차적으로 사용되는 코어 계층 신호를 생성하하는데 사용되어, 이하에서 설명할 인핸스먼트 계층 신호를 생성한다.

그러나, MP3 도는 다른 독점적 디코더들과 같은 기타 사양에 따른 역양자화들 역시 디코더(200)에서 사용될 수 있다는 것을 알아야 한다.

LLE 계층에서, 에러 매핑 절차는 코어 계층 비트스트림에서 이미 부호화되었던 정보를 제거하기 위해 사용된다. 그러한 에러 매핑 절차를 구축하는 가능한 방법은, 해당 변환 입력 신호 계수로부터 각각의 양자화 계수의 하위 (0에 가까운) 양자화 문턱치를 감산하는 것이다.

이것은 다음과 같이 표현될 수 있다:

e(k)=c(k)-thr(k)

여기서 thr(k)는 c(k)에 대한 하위 (0에 가까운) 양자화 문턱치이고, e(k)는 에러 신호를 나타내는 에러 계수이다.

MPEG-4 AAC 코더가 양자화기로서 사용될 때,

.

실제 어플리케이션들에서, 견고한 재구성을 보장하기 위해, 정수 i(k)에서 정수 thr(k)로의 매핑은 룩업 테이블을 이용해 수행될 수 있다. 상기 식에서 분명하게 알 수 있는 바와 같이, 서로 다른 스케일_팩터들의 값에 대해 총 4 개의 테이블이 필요로 된다 (비트-쉬프팅(bit-shifting)에 의해 계수(modulus) 4를 가지는 경우 서로 다른 스케일_팩터들의 값들 사이에 같은 테이블이 공유될 수 있기 때문에). 이때 각 테이블은 계수 4를 갖는 것들의 집합으로부터의 임의의 스케일_팩터에 대한 i(k)의 모든 가능한 값들과 그에 상응하는 thr(k) 사이의 매핑을 포함한다.

다음과 같이 나타낼 수 있는 것처럼, 참증 [3]에 개시된 바와 같이 변환 신 호 계수로부터 변환 입력 신호 계수의 재구성 계수를 감산함에 다른 에러 매핑 절차를 수행하는 것 역시 가능하다:

는 재구성된 변환 신호 계수이다.

일반적으로, 다음과 같은 식을 사용함에 기초하는 에러 매핑 수행 역시 가능하다:

f(k)는

와 같이, c(k)에 해당하는 임의의 함수이다.

분명한 것은, 코어 계층에서 이미 의미가 있던 c(k)에 대해 (

), IntMDCT 잔차(residual) e(k)의 부호는 코어 계층 재구성으로부터 정해질 수 있고, 그에 따라 그 크기만이 LLE 계층에서 부호화될 필요가 있게 된다. 또, 대부분의 오디오 신호에 대해, c(k)는 확률 밀도 함수 (pdf)를 통한 라플라스 랜덤 변수들에 의해 근사화될 수 있다는 것이 잘 알려져 있다:

는 c(k)의 분산이다. 라플라스 pdf의 "비기억(memoryless) 특성으로부 터, e(k)의 크기가 기하학적으로 다음과 같이 분포된다는 것이 쉽게 증명된다

분포 파라미터

는 c(k)의 분산 및 코어 계층 양자화기의 스텝 사이즈에 의해 정해진다. 이 특성은 에러 신호를 부호화하는 비트 평면 골롬(Golomb) 코드 (BPGC) 0와 같은 매우 효율적인 비트 평면 코딩 방식이 적용될 수 있게 한다.

디코더(200)에서, 변환 신호의 계수들은 다음과 같은 식에 의해, 에러 매핑 유닛(203)에 의해 수행되는 에러 매핑 절차에 따라 재구성될 수 있다:

e'(k)는 인코더(100)에서 에러 계수들 e(k)에 대응하는, 비트 평면 복호화된 인핸스먼트 계층 비트스트림을 나타내는 복호화된 에러 계수들이다. 따라서, 변환 신호 계수들 c(k)가, 복호화된 에러 계수들인 e'(k) (LLE 비트스트림이 일부 버려져 더 낮은 레이트로 되는 경우 손실 포함 버전이 될) 및, 내장된 코어 계층 (AAC) 비트스트림에 양자화 인덱스 i(k)가 포함된 인코더에서 같은 방법으로 생성된 양자화 문턱치 thr(k)로부터 생성될 수 있다.

인코더(100)와 마찬가지로, 디코더(200)의 변환 신호 계수들 c(k) 역시 복호화된 에러 계수들인 e'(k)와 코어 계층 비트스트림의 재구성 계수들을 이용 (부가)하여 생성될 수 있다. 또, 변환 신호 계수들 c(k)는 복호화된 에러 계수들 e'(k) 및 c(k)의 함수를 이용 (가산)하여 생성될 수도 있다.

최종적인, 내장형 무손실 비트스트림의 무손실 부분에 대해 확장가능한 것을 생성하기 위해, 잔차 또는 에러 신호는 LLE 계층에서, 오디오 코딩 [참증 3]이나 이미지 코딩 [참증 5]에서 널리 채택되고 있는 내장형(embedded) 코딩 기술인 비트 평면 코딩을 이용해 인지적 비트 평면 코더(104)를 통해 더 부호화된다.

일반적인 비트 평면 코딩 절차에 대한 설명을 참증 [4] 및 참증 [15]에서 찾을 수 있다.

가 어떤 알파벳

의 일부 랜덤 소스들로부터 추출되고 부호 심볼

과 크기 심볼들인

을 포함하는 이진 비트 평면 심볼들의 직렬연결을 통해 이진 포맷

으로 표현될 수 있을 때, 입력되는 n-차원 데이터 벡터

를 고려하자. 실제로, 비트 평면 코딩은 M이

을 만족하는 정수일 때, 벡터

의 최대 비트 평면 M에서 시작되어,

이 정수 벡터인 경우 비트 평면 0에서 중지될 것이다.

인지적 비트 평면 코더(104) 및 인지적 비트 평면 디코더(104)에서 수행되는 것과 같은 본 발명의 일실시예에 따른 비트 평면 코딩 및 디코딩 프로세스가 도 3을 참조하여 이하에서 설명될 것이다.

도 3은 상기 비트 평면 코딩 (BPC)의 구조를 예시한 것으로, 여기서 각각의 입력 벡터가 먼저 이진 부호 (sign) 및 크기 심볼들로 분해되고, 그런 다음 비트 평면 스캐닝 유닛(301)에 의해 원하는 순서대로 스캐닝되고, 엔트로피 코더(302)에 의해 (가령, 산술 코드나 허프만 코드, 또는 런렝스(run-length) 코드로서) 부호화된다. 또, 입력 신호의 라플라스 분포 등에 기초하여, 부호화될 각각의 이진 심볼에 대한 확률 배정 (probability assignment)을 정하는데 보통 통계적 모델(303)이 사용된다. 대응되는 디코더에서, 데이터 흐름은 반대가 된다. 즉, 엔트로피 인코더(302)의 출력이 상응하는 통계 모델(304)을 이용해 엔트로피 디코더(303)에 의해 복호화되고, 그 결과는 비트 평면 재구성 유닛(304)에 의해 사용되어 비트 평면이 구축되고, 여기서 데이터 벡터의 비트 평면을 재구축하도록 복호화되는 부호 및 크기 심볼들은 인코더에서와 동일한 스캐닝 순서를 따른다.

상술한 것과 같은 비트 평면 코딩 시스템을 구비한다는 것의 가장 큰 이점은, 그 결과에 따라 파생되는 압축 비트스트림이 임의의 원하는 레이트가 되도록 용이하게 잘라질 수 있다는 것이다. 이때 재생 데이터 벡터

는 이렇게 잘린 비트스트림으로부터 복호화된, 부분적 재구성 비트 평면들에 의해 여전히 얻어질 수 있다. 최고의 코딩 성능을 위해, 보통 내장 원리 (embedded principle) (참증 [24] 참조)가 BPC에 채택되고, 그에 따라 비트 평면 심볼들은 레이트 왜곡 경사(rate-distortion slope)를 줄이는 순서로 부호화됨으로써, 단위 레이트 당 최종 왜곡에 대해 가장 큰 기여를 하는 심볼들이 항상 먼저 부호화될 수 있다.

비트 평면 스캐닝의 순서에 대한 선택은 원하는 왜곡의 크기에 달려 있다. 평균 제곱 에러 (MSE)나 제곱 에러 함수의 기대치가 다음과 같은 왜곡 크기로서 사용되고,

가 왜곡 값이고,

은 오리지널 데이터 벡터일 때,

은 디코더에서의

의 재구성 벡터이다. 참증 [24]로부터의 결과는, 매우 뒤틀린 비트 평면 심볼 왜곡을 제외하면, 대부분의 소스들에 대한 순차적 비트 평면 스캐닝 및 코딩 절차에 의해 내장 원리가 잘 만족되고 있음을 보인다

간단한 순차적 비트 평면 스캐닝 및 코딩 절차의 예는 다음과 같은 단계들을 포함한다:

1. 가장 중요한 비트 평면 j=M-1에서 시작한다;

2.

인

만을 부호화한다. 중요도 스캔에 있어

일 때,

를 부호화한다; (중요도 패스, significance pass);

3. 중요도 패스시 부호화되지 않은

를 부호화한다 (세분 패스, refinement pass);

4. 비트 평면 j-1로 진행한다.

리스트 1. 비트 평면 스캐닝 및 코딩 절차

상기 절차는 소정 중단(terminating) 기준에 도달할 때까지 되풀이된다. 그 기준은 보통 미리 정의된 레이트/왜곡 제한요건이 된다. 또, 비트 평면 심볼들이 동등하지 않은 왜곡을 가지는 것으로 알려질 때, 중요도 패스시 코딩 시퀀스의 추가 조정이 필요로 될 수 있다.

상기 순차적 코딩 절차의 예가 4 차원, 즉 {9, -7, 14, 2}의 데이터 벡터 x를 고려해 예시된다. 따라서 이것은 가장 의미 있는(중요한) 비트 평면 4로부터 비트 평면 부호화된다. 모든 요소들이 아직 중요하지 않기 때문에 중요도 패스가 시작된다. (X는 바이패스 (간과되는) 심볼들을 나타낸다). 부호는 다음과 같이 부호화된다: 양의 부호는 1로 부호화되고, 음의 부호는 0으로 부호화된다.

데이터 벡터	9	-7	14	1
1차 중요 패스(부호)	1(부호:1)	0	1(부호:1)	0
1차 세분 패스	X	X	X	X
2차 중요 패스 (부호)	X	1(부호:0)	X	0
2차 세분 패스	0	X	1	X
3차 중요 패스	X	X	X	0
3차 세분 패스	0	1	1	X
4차 중요 패스	X	X	X	1(부호:1)
4차 세분 패스	1	1	0	X

따라서, 출력되는 이진 스트림은 11011010001001111110이 되고, 이것은 엔트로피 부호화된 후 디코더로 보내진다. 디코더에서, 오리지널 데이터 벡터의 비트 평면 구조가 재구성된다. 이진 스트림 전부가 디코더에 의해 수신되면, 오리지널 데이터 벡터의 비트 평면이 복원될 수 있고, 그에 따라, 오리지널 데이터 벡터의 무손실 재구성이 이뤄진다. 이진 스트림의 부분집합 (가장 중요한 부분)만이 수신되면, 디코더는 여전히 오리지널 데이터 벡터의 부분적 비트 평면을 복원할 수 있 으므로, 오리지널 데이터 벡터의 조악한 재구성 (양자화된) 버전이 얻어지게 된다.

상술한 것은, 비트 평면 스캐닝 및 코딩 절차의 간단한 예일 뿐이다. 실제로는, 중요 패스가, JPEG2000의 비트 평면 절차나 참증 [4]에 개시된 내장형 오디오 코더 (EAC)에서의 비트 평면 절차와 같이, 데이터 벡터의 요소들에 대한 통계적 상관성을 활용하도록 더 인수분해될 수 있다.

상기 순차적 비트 평면 스캐닝 및 코딩 절차는 단지 MSE 성능을 최적화하기 위한 노력을 지원할 뿐이다. 오디오, 이미지 또는 비디오 영역에서, 보통 MSE 대신 인지상의 왜곡을 최소화하는 것이, 재구성된 오디오, 이미지 또는 비디오 신호의 최적의 인지적 품질을 얻기 위한 보다 효과적인 코딩 방법이다. 따라서, 에러 신호의 순차적 비트 평면 코딩은 한정적인 차선의 최적 옵션이다.

인코더(100)에서, 에러 계수들은, 각 주파수 대역 s가 연속적인 순서로 다수의 에러 계수들을 포함하도록 된 주파수 대역들로 그룹화됨이 바람직하다. (스케일 팩터 대역 그룹화는 인지적 코더가 양자화기(102)로서 사용될 때 양자화기(102) 내에서 채택되는 대역 그룹화에 기초할 수 있다. 그러나, 다른 대역 그룹화 역시 있을 수 있다).

양자화기로부터의 양자화 계수 thr(k)가 0이 아닌 에러 계수가 주파수 대역 s 안에 존재하는 경우, 그 주파수 대역 s를 중요하다고 한다. 즉, e(k)가 주파수 대역 s의 에러 계수일 때:

주파수 대역 s는

(i(k)=0일 때 thr(k)=0)일 때 의미가 있고, 그에 따라 e(k)=c(k)가 되며, 그렇지 않으면 주파수 대역 s는 의미가 없다고 간주된다.

에러 계수들의 비트들의 인지적 중요도는 주파수 위치 i에서의 JND 레벨에 의해 정해질 수 있다. 이 JND 레벨,

는 심리음향 모델 (I 또는 II) 같은 인지 모델이나 어떤 특징적 인지 모델들로부터 정해질 수 있다. 인지적 양자화기는 코어 계층 비트스트림을 형성하는데 사용되고, 이 양자화기에 사용되는 인지 모델 역시 에러 계수들의 인지적 비트 평면 코딩을 위한 JND 생성에 사용될 수 있다.

간결성을 위해, 동일한 주파수 대역 s 내에 있는 에러 계수 비트들의 인지적 중요도는 동일한 값으로 설정될 수 있다.

이하에서, 인지적 비트 평면 코딩의 가능한 구성이 도 4를 참조해 설명될 것이다.

인코더(100)와 마찬가지로, 인코더(400)는 도메인 변환기(401), 양자화기(402), 에러 매핑 유닛(403), 인지적 비트 평면 코더(404) (인지 모델(406)을 이용함), 및 멀티플렉서(405)를 포함한다.

인지적 BPC 블록, 즉 인지적 비트 평면 코더(404)는 비트 평면 쉬프팅 블록(407) 및 통상의 BPC 블록(408)을 포함한다.

비트 평면 쉬프팅 블록(407)에서, 비트 평면들은 인지적으로 쉬프트되고, 인지적으로 쉬프트된 비트 평면들은 BPC 블록(408)에서 일반적인 순차 스캐닝 및 코 딩 방식으로 부호화된다.

다음의 (변형된) 인지적으로 가중된 왜곡의 크기

를 생각할 수 있다.

인지적 오디오 코딩과 관련해, 데이터 벡터

이 오디오 신호로 변환되고 가중 함수

가 서로 다른 주파수 위치들, 즉,

에서

의 중요도가 되도록 오디오 신호가 주파수 도메인 상에서 양자화 및 부호화된다.

상기 인지적으로 가중된 왜곡 함수는 다음과 같이 다시 표현될 수 있다:

이때,

.

그러므로, 가중 제곱 에러 함수는 이제 스케일링된 벡터

에 대한 제곱 에러 함수가 된다. 따라서,

의 인지적 최적화 코딩이, 단순히

에 대한 순차적 비트 평면 코딩을 수행을 통해 달성될 수 있다. 이에 대응하는 디코더에서, 비트 평면 디코딩된 데이터 벡터

의 각 구성 요소가 다시 스케일링되어 다음과 같이 재구성된 데이터 벡터

를 얻는다.

가중치들인

는 이들이 디코더 상에서 알려져 있지 않은 경우 사이드 정보로서 디코더로 전송됨이 바람직하다는 것이 자명하다.

는 2의 짝수 멱수로 더 양자화되어 다음과 같이 된다.

, 이때

이고, 그에 따라 오리지널 데이터 벡터 내 각각의 구성요소를 비트 쉬프팅함으로써 다음과 같이 스케일링된 데이터 벡터가 얻어질 수 있다.

위 식은

를

만큼 우측 쉬프팅 연산을 수행함으로써 쉽게 얻어진다. 예를 들어,

이고

일 때, 스케일링된 데이터 벡터 구 성요소

는 01001100이 되고;

일 때, 스케일링된 벡터는 00000100.11이 된다.

이렇게, 에러 계수들의 비트 평면들은, 순차적 비트 평면 코딩이 쉬프팅된 비트 평면에 대해 수행될 때 (가장 높은 MSE를 갖는 것 대신) 인지적으로 보다 중요한 비트들이 먼저 부호화될 수 있도록 하는 방식을 통해, 인지적으로 쉬프트된다.

분명한 것은, 오리지널 데이터 벡터 내 각각의 구성요소가 제한된 워드 길이를 갖는 정수일 때, 가령,

내 각 구성요소가 L인 최대 비트 평면을 가지는 경우, 스케일링된 벡터 내 모든

가 비트 평면

범위에서 코딩될 때

의 무손실 코딩이 이뤄질 수 있다.

앞에서 언급했다시피, JND 레벨과 같은 인지적 중요도 관련 정보는 인지 모델로부터 비트 평면 쉬프팅 블록으로 제공될 수 있다.

비트 평면 코딩 프로세스에서, 최대 비트 평면 M(s)가, 비트 평면 스캐닝 및 코딩이 시작되어야 하는 시작 비트 평면을 특정하기 위해 사용될 수 있다. 최대 비트 평면 M(s) 및

는 사이드 정보로서 확장성 비트스트림을 통해 대응되는 디코더로 전송되어, 디코더로 하여금 그 비트스트림을 올바르게 복호화할 수 있도록 함이 바람직할 것이다. 사이드 정보의 크기를 줄이기 위해, M(s) 및

는 인코더 에서 같은 스케일 팩터 대역 s에 대해서는 동일한 값을 갖도록 제한될 수 있다.

각각의 주파수 대역 s 내 최대 비트 평면 M(s)의 값은 다음과 같은 식을 이용해 에러 계수들인 e(k)로부터 정해질 수 있다:

또, 각각의 중요 주파수 대역 s 내 에러 계수들의 최대 절대값

은 인지적 양자화기의 양자화 간격에 따라 바운드된다(bounded):

따라서, 이것이 각각의 중요 주파수 대역 s에 있어서 최대 비트 평면 M(s)이 다음 식으로부터 정해지도록 한다:

인지적 양자화기의 양자화 계수들 i(k)이 디코더에 알려지기 때문에, 중요 주파수 대역 s에 대해, 최대 비트 평면 M(s)를 사이드 정보로서 디코더로 전송할 필요가 없게 되다.

최대 비트 평면 M(s)의 값은 인코더 및 디코더에서 미리 정해질 수도 있고, 그에 따라, 사이드 정보로서 전송될 필요가 없게 된다.

도 5는 본 발명의 실시예에 따른 디코더(500)를 보인다.

디코더(500)는 비트 평면 쉬프팅 및 통상의 (순차적) 비트 평면 코딩을 포함하는 인지적 비트 평면 디코더를 구현한다.

디코더(200)와 마찬가지로, 디코더(500)는 도메인변환기(501), 역양자화기(502), 에러 매핑 유닛(503), 인지적 비트 평면 디코더(504) (인지 모델(506) 사용), 및 디멀티플렉서(505)를 포함한다.

인지적 비트 평면 코더(404)와 유사하게, 인지적 비트 평면 디코더(504)는 비트 평면 쉬프팅 블록(507) 및 통상의 BPC 블록(508)을 포함한다.

인코더(400)에서 생성된 인핸스먼트 계층 비트스트림이 연속적인 순차적 방법 (인코더(400)와 동일한 순차적 비트 평면 스캐닝 절차)에 따라 디코더(500)에서 디코딩되어, 비트 평면들을 재구성한다. 재구성된 비트 평면들은 수신 또는 재생된 값인

에 기초해, 인코더(400)와 반대로 쉬프트되어, 비트 평면 디코딩된 인핸스먼트 계층 비트스트림을 나타내는 디코딩된 에러 계수들

를 생성한다.

도 6은 본 발명의 실시예에 따른 인코더(600)를 보인다.

인코더(600)는 인지적 비트 평면 코딩을 이용한다.

인코더(600)는 도메인 변환기 (intMDCT)(601), 양자화기 (ACC 양자화기 및 코더)(602), 에러 매핑 유닛(603), 인지적 중요도 산출 유닛(604)(심리음향 모델(605) 이용), 인지적 비트 평면 코딩 유닛(606), 및 멀티플렉서(607)를 포함한다.

이 구성에서, 비트 평면들과 비트 평면 심볼들의 스캐닝 순서는 순차적일 필요가 없으나, 상이한 주파수 대역들에 해당하는 비트 평면 심볼들의 인지적 중요도를 기초로 한다. 비트 평면 심볼들의 인지적 중요도는, 비트 평면 디코딩을 위한 제1(최대) 비트 평면과 인지적 중요도 등의, 인지 정보와 관련된 파라미터들을 산출함으로써 결정된다. 인지 정보 파라미터들의 산출은 인지적 중요도 산출 블록, 즉, 인지적 비트 평면 코딩 유닛(604)으로 재현된다.

상이한 주파수 대역들에 대응하는 비트 평면 심볼들의 인지적 중요도(importance), 또는 보다 명시적으로 인지적 의의(significance)를 결정하는 수많은 방법들이 존재한다. 널리 채택된 한 방법이, 입력 디지털 신호의, 참증 [19]에 개시된 심리음향 모델 2와 같은 심리음향 모델을 이용하는 것이다. 심리음향 모델을 이용해 결정된 각각의 주파수 대역의 JND 레벨 T(s)는 다음과 같이 비트 평면 레벨

로 변환될 수 있다:

그러나, 본 발명은 T(s)나

를 구하는 방법을 제한하지 않는다.

이제, Ps(s)가 주파수 대역 s의 인지적 중요도를 나타낸다고 하고, 이것이 다음 식과 같이 M(s)에서

까지의 거리에 따라 정해질 수 있다고 하자.

잡음 레벨, 또는 IntMDCT 에러 계수들인 e(k)의 레벨이 중요 대역들의 JND 레벨과 관련해 (코어 코더의 잡음 정형화(shaping) 메터니즘의 결과로서) 평평해지려는 경향이 있을 수 있음을 알 수 있다. 즉, Ps(s)의 값은, 중요 주파수 대역들 에 있어서, 동일하지 않더라도 매우 유사할 수 있다. 이러한 사실은 모든 중요 대역들에 대해 공통 팩터 Ps_common을 공유함에 따라, 본 발명에 따른 방법에서 활용될 수 있다. Ps_common의 가능한 선택은, 평균값, 최대값, 최소값, 또는 중요한 모든 s에 대한 어떤 다른 합당한 Ps(s)의 함수일 수 있다. 따라서 Ps(s)는 다음과 같이 정규화될 수 있다:

중요 대역 s에 대해, Ps'(s)가 0일 수 있음이 알려져 있으므로, Ps'(s)는 디코더로 전송될 필요가 없다. 그렇지 않으면, 의미없는 대역 s에 대해, Ps'(s)는 사이드 정보로서 해당 디코더로 전송됨이 바람직할 것이다.

다른 몇몇 예들에서 중요 대역이 존재하지 않을 때, Ps_common은 0으로 설정될 수 있다.

인지적 코딩을 위한 필요성을 만족시키기 위해 코어 인코더에서 잡음 정형화 절차를 이용하는 것 역시 가능하다. 그에 따라, 인핸스 (enhance) 계층에서 어떤 노이즈 정형화 또는 인지적 중요 식별법을 더 구현할 필요가 없게 된다. 그러한 경우들에서, 모든 s에 대해 Ps'(s)=0이 설정될 수 있다. 보통 이들은 모든 0이라는 것이 디코더에게 알려져 있는 경우 디코더로 전송될 필요가 없다.

인지적 비트 평면 코딩 메커니즘의 가능한 구성을, 이하의 의사(pseudo) 코드를 이용해 설명할 것이다. 여기서 주파수 대역의 총 개수는 s_total로 표시한다.

1. 가장 큰 Ps'(s)를 갖는 주파수 대역 s를 찾는다.

2. 대역 s에서 e(3)의 비트 평면 M(s)의 비트 평면 심볼들을 부호화한다.

3. M(s)=M(s) -1; Ps'(s)=Ps'(s)-1

4.

인 대역 s가 존재하면 1 단계로 간다.

최대 비트 평면 M(s)를구하는 방법이 여기서 설명될 것이다.

중요 대역에 있어서, M(s)는 AAC 양자화기 같은 인지적 양자화기가 사용되는 경우 양자화기의 최대 양자화 간격으로부터 정해질 수 있다. 특히, M(s)는 다음을 만족하는 정수이다:

이 경우, i(k)가 디코더에 알려져 있을 것이므로 M(s)는 디코더로 전송될 필요가 없다.

중요 대역들에 있어서, M(s)는 다음과 같이 e(k)로부터 산출될 수 있다:

또한 이들 대역들에 있어서, M(s)는 사이드 정보로서 디코더로 전송됨이 바람직한데, 이는 그러한 정보가 코어 계층 비트스트림에 포함되지 않기 때문이다.

최대 비트 평면 M(s)의 값 역시 인코더(600)와 대응하는 디코더에서 미리 정의될 수 있고, 그러면 사이드 정보로 전송될 필요가 없게 된다.

비트 평면 코딩 방식에서 원하는 어떤 잡음 정형화 목적을 지향해, 파라미터 Ps(s)를 활용하는 다른 대안적 방법들 역시 있을 수 있다. 일반적으로, Ps(s)는 이하의 식 등과 같이, M(s) 및

의 어떤 함수들로서 구해질 수도 있다:

도 7은 본 발명의 실시예에 따른 디코더(700)를 보인다.

디코더(700)는 코더(600)에 대응하는 디코더로서, 그 안에서 상술한 것과 같이 인지적 비트 평면 스캐닝 절차를 이용해 인지적 비트평면 디코딩이 구현된다.

그에 따라 디코더(700)는 도메인 변환기 (역 intMDCT)(701), 역양자화기 (AAC 역양자화기 및 디코더)(702), 에러 매핑 유닛(703), 인지적 중요도 산출 유닛(704), 인지적 비트 평면 디코딩 유닛(706) 및 디멀티플렉서(707)를 포함한다.

디코더(700)에서, 중요 대역에 대해, Ps'(s)가 0으로 설정되고, M(s)는 인코더에서와 동일한 방식, 즉 다음과 같은 식으로 AAC 양자화 인덱스 i(k)로부터 산출될 수 있다:

중요하지 않은 대역에 대해, Ps(s) 및 M(s)는 전송된 사이드 정보로부터 간단히 복구될 수 있다. 일단 Ps(s) 및 M(s)가 모든 주파수 대역들에 대해 복구되면, IntMDCT 에러 계수들인

는 수신된 비트스트림을 디코딩함으로써 용이하게 재구성되고 인코더(700)에서와 정확히 동일한 순서로 재구성된 그 비트 평면 심 볼들을 재구성할 수 있다. 예를 들어, 위에서 주어진 인코딩에 대한 디코딩 프로세스는 다음과 같을 것이다:

1. 가장 큰 Ps'(s)를 갖는 주파수 대역 s를 찾는다.

2. 대역 내

에 대한 비트 평면 M(s)의 비트 평면 심볼들을 디코딩한다.

3. M(s)=M(s)-1; Ps'(s)=Ps'(s)-1.

4.

인 대역 s가 존재하면 1 단계로 간다.

에러 계수들의 비트 평면 코딩을 위한 최대 비트 평면을 결정한다.

중요 대역 s에 있어서 (즉, 에러 게수

또는

), e(k)의 최대 절대값은 AAC 양자화기의 양자화기 간격에 따라 다음과 같이 바운드된다:

따라서, 최대 비트 평면 M(k)는 다음 식을 이용해 결정될 수 있다:

i(k)가 이미 디코더에 알려져 있을 때, 디코더가 thr(k)를 재생할 수 있고, 그에 따라, 중요 대역 s에 대한 i(k)로부터 M(k)를 재생할 수 있으므로, M(k)를 디코더로 전송할 필요가 없다.

중요하지 않은 대역에 있어서, M(k)는 다음과 같이 e(k)로부터 산출될 수 있다:

산출된 M(s)는 인핸스먼트 계층 비트스트림이 올바르게 비트 평면 디코딩될 수 잇도록, 사이드 정보로서 인핸스먼트 계층 비트스트림과 함께 전송됨이 바람직하다.

사이드 정보의 양을 줄이기 위해, M(k)는 코어 계층 양자화기에서 같은 스케일 팩터 대역 s에 대해 동일한 k 값들을 가지도록 더 제한될 수 있다. 그에 따라, M(k)는 M(s)로도 표시될 수 있다.

디코더(700)에서, 에러 신호에 상응하는 에러 계수들이, M(s)에 기반하는 인코더에서와 동일한 비트 평면 스캐닝 절차를 이용해 인핸스먼트 계층 비트스트림을 비트 평면 디코딩함으로써 재구성될 수 있다. 중요 대역에 있어서, M(s)는 이하의 식을 이용해 재생될 수 있다:

중요하지 않은 대역에 있어서, 디코더는 인코더에 의해 사이드 정보로서 전송된 M(s)를 활용한다.

참증들

[1] 1997년 10월, J. Audio Eng. Soc. 45권 제10호, 789-814 페이지, M. Bosi 등의 "ISO/IEC Mpeg-2 고급형 오디오 코딩"

[2] 도쿄, AES 9차 지역 회의 Jr. Stuart 등의 "MLP 무손실 압축"

[3] IEEE Proc. ICASP 2002, R. Geiger, J. Herre, J. Koller, 및 K. Brandenburg의 "INTMDCT - 인지적 오디오 코딩 및 무손실 오디오 코딩 사이의 링크"

[4] 2002년 12월 프랑스 니스에서 열린 ACM 멀티미디어 2002, J. Li의 "함축적 청각 매스킹 (implicit auditory masking)을 통한 내장형 오디오 코딩 (EAC)"

[5] IEEE Proc. ICASSP 2000, T. Moriya, N. Iwakami, T. Mori, 및 A. Jin의 "손실 포함(lossy) 및 무손실(lossless) 확장성 오디오 코딩 설계"

[6] ICASSP 2002 회보, T. Moriya 등의 "무손실 확장성 오디오 코더 및 품질 개선"

[7] 2001년 IEEE 신호 처리 회보 제18권 제4호, 21-32 페이지, M. Hans 및 R.W. Schafer의 "디지털 오디오의 무손실 압축"

[8] 일본, IEEE ICME2001 8월 회보, Lin Xiao, Li Gang, Li Zhengguo, Chia Thien King, Yoh Ai Ling의 "오디오 파형의 무손실 압축을 위한 새로운 예측 방식"

[9] Shorten: http://www.softsund.com/Shorten.html

[10] WaveZip: http://www. gadgetlabs.com/wavezip.html

[11] LPAC: http://www-ft.ee.tu-berlin.de/~liebchen/

[12] Wave Archiver: www.ecf.utoronto.ca/~denlee/wavarc.html

[13] 2001년 9월, 111차 AES 회의, R. Geiger, T. Sporer, J. Koller, 및 K. Brandenburg의 "정수 변환에 기반한 오디오 코딩"

[14] ICASSP 1988 회보, J. Johnston의 "인지적 엔트로피의 평가"

[15] ICASSP 2003 회보, R Yu, C.C.Ko, X. Lin 및 S. Rahardja의 "라플라스 분포를 통해 소스의 비트 v여면 골롬 코드"

[16] Monkey's Audio, http://www.monkeysaudio.com

[17] 1997년9월 뉴욕, AES 103차 회의에서 발표된 (사전프린트 4520), S. H. Park 등의 "멀티 계층 비트 슬라이스된 비트 레이트 확장성 MPEG-4 오디오 코더"

[18] ICASSP2003 회보, Ralf Geiger 등의 "INTMDCT 기반 세부 단위 확장성 인지 및 무손실 오디오 코딩"

[19] 1998 ISO/JTC 1/SC 29/WG11, ISO/IEC 14496-3 서브파트 4, 정보 기술 - 시청각적 오브젝트들에 대한 코딩, 파트 3. 오디오, 서브 파트 4 시간/주파수 코딩

[20] 200년 4월 IEEE 회보 제88권 제4호, T Painter, A. Spanias의 "디지털 오디오의 인지적 코딩"

[21] ISO/IEC 11172-3, "디지털 스토리지 매체를 위해 동영상 및 관련 오디오를 약 1.5 Mbit/s까지 코딩하는 방법", 파트 3 오디오

[22] 인간 시력 및 전자 이미징 관련 SPIE 회의, Western, S.J.P,, R.L. Lagendijk, 및 J. Biemond의 "인간 시각 시스템 모델을 이용한 JPEG 컬러 이미지 코딩의 최적화"

[23] 전자 이미징 97의 SPIE 회보, Western, S.J.P,, R.L. Lagendijk, 및 J. Biemond의 "디지털 비디오 압축을 위한 인간 시력의 시공간적 모델"

[24] 1999년 7월 이미지 처리 관련 IEEE 회보 제8권 제7호 913-924 페이지, J. Li 및 S. Lie의 "레이트 왜곡 최적화를 통한 내장형 정지 영상 코더"

Claims

디지털 신호를 확장성(scalable) 비트스트림으로 부호화(인코딩)하는 방법에 있어서,

- 디지털 신호를 양자화하고, 그 양자화된 신호를 부호화하여 코어 계층(core-layer) 비트스트림을 생성하는 단계;

-코어 계층 비트스트림 안에 부호화되어 있는 정보를 제거하도록, 디지털 신호 및 코어 계층 비트스트림에 기반하여 에러 매핑을 수행함으로써 에러 신호를 생성하는 단계;

- 인지 모델(perceptual model)을 이용해 정해지는 디지털 신호의 인지 정보(perceptual information)에 기반해 에러 신호를 비트 평면(bit-plane) 부호화함으로써 인핸스먼트 계층(enhancement-layer) 비트스트림을 생성하는 단계; 및

- 코어 계층 비트스트림과 인핸스먼트 계층 비트스트림을 멀티플렉싱하여, 확장성 비트스트림을 생성하는 단계를 포함함을 특징으로 하는 부호화 방법.
제1항에 있어서,

- 디지털 신호를 알맞은 도메인으로 변환하는 단계를 더 포함하고,

상기 변환된 신호는 부호화 전에 양자화되어, 부호화될 양자화 신호로 생성됨을 특징으로 하는 부호화 방법.
제1항 또는 제2항에 있어서, 상기 디지털 신호의 인지 정보는 코어 계층 비트스트림 및 인핸스먼트 계층 비트스트림과 함께 더 다중화됨으로써, 상기 확장성 비트스트림가 발생됨을 특징으로 하는 부호화 방법.
제2항에 있어서, 상기 디지털 신호는, 정수 변형 이산 코사인 변환 (integer Modified Discrete Cosine Transformation)을 통해 변환되어 변환 디지털 신호로 됨을 특징으로 하는 부호화 방법.
제4항에 있어서, 상기 변환 신호는 정규화되어 MDCT 필터뱅크의 출력과 근사하게 됨을 특징으로 하는 부호화 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 디지털 신호 또는 변환 디지털 신호는 MPEG (Moving Pictures Expert Group) AAC (Advanced Audio Coding) 사양에 따라 양자화 및 부호화됨을 특징으로 하는 부호화 방법.
제1항 내지 제6항 중 어느 한 항에 있어서, 상기 에러 매핑은, 디지털 신호 또는 변환 디지털 신호로부터, 양자화된 신호의 각 양자화 값에 해당하는 양자화 하위 문턱치를 감산함으로써 수행됨을 특징으로 하는 부호화 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 디지털 신호의 인지 정보를 정하기 위한 인지 모델로서 심리 음향(psychoacoustic) 모델이 사용됨을 특징으로 하는 부호화 방법.
제1항 내지 제8항 중 어느 한 항에 있어서, 상기 에러 신호는 복수의 비트 평면 심볼들을 구비한 비트 평면들을 통해 재현되고, 에러 신호의 비트 평면 코딩 중에 비트 평면들이 연속적 시퀀스로 스캐닝 및 부호화될 때 인지적으로 더 중요한 비트 평면들이 먼저 부호화되도록, 디지털 신호의 인지 정보에 기반해 비트 평면들이 쉬프트됨을 특징으로 하는 부호화 방법.
제1항 내지 제8항 중 어느 한 항에 있어서, 상기 에러 신호는 복수의 비트 평면 심볼들을 구비한 비트 평면들을 통해 재현되고, 상기 비트 평면들 및 비트 평면 심볼들은, 인지적으로 더 중요한 비트 평면들의 비트 평면 심볼들이 우선 부호화되도록, 에러 신호의 순차적 비트 평면 코딩 중에 디지털 신호의 인지 정보에 기반해 스캐닝 및 부호화됨을 특징으로 하는 부호화 방법.
제9항 또는 제10항에 있어서,

- 에러 신호의 비트 평면 코딩이 시작되는 에러 신호의 비트 평면 M(s) 정보; 및

- s가 디지털 신호나 변환된 디지털 신호의 주파수 대역에 해당할 때, 디지털 신호의 JND (Just Noticeable Distortion) 레벨 정보 중 적어도 하나가 인지 모 델에 의한 디지털 신호의 인지 정보로서 결정됨을 특징으로 하는 부호화 방법.
제11항에 있어서, 상기 디지털 정보의 인지 중요도 Ps(s)가 인지 정보로서 더 결정되고, 상기 인지 중요도는,

- 디지털 신호의 JND 레벨
에 해당하는 에러 신호의 비트 평면을 결정하는 단계,

- 에러 신호의 비트 평면 코딩이 시작되는 에러 신호의 비트 평면 M(s)에서, 디지털 신호의 JND 레벨
에 해당하는 에러 신호의 비트 평면을 감산하여, 적어도 비트 평면들이나 비트 평면들의 비트 평면 심볼들의 스캐닝 및 코딩 시퀀스를 제어하는데 사용되는 인지 중요도 Ps(s)를 결정하는 단계에 의해 정해짐을 특징으로 하는 부호화 방법.
제12항에 있어서, 상기 인지 중요도 Ps(s)의 정규화가,

- 상기 인지 중요도 Ps(s)의 함수에 기반하여 공통 인지 중요도 Ps(s)_common을 정의하는 단계; 및

- 상기 인지 중요도 Ps(s)로부터 공통 인지 중요도 Ps(s)_common를 감산하여, 정규화된 인지 중요도 Ps'(s)를 생성하는 단계를 통해 수행되고,

양자화 값들이 모두 0이 아닌 주파수 대역 s에 대해, 인지 중요도 Ps(s)의 값은 공통 인지 중요도 Ps_common의 값으로 설정되고,

양자화 값들이 모두 0인 주파수 대역 s에 대해, 정규화된 인지 중요도 Ps'(s)는 코어 계층 비트스트림 및 인핸스먼트 계층 비트스트림과 멀티플렉싱되어 확장성 비트스트림으로 생성됨을 특징으로 하는 부호화 방법.
제11항에 있어서, 상기 에러 신호의 비트 평면 코딩이 시작되는 에러 신호의 비트 평면은, 디지털 신호나 그 변환 신호를 양자화기 위해 주파수 대역 s에서 사용되는 최대 양자화 간격으로부터 정해짐을 특징으로 하는 부호화 방법.
디지털 신호를 확장성(scalable) 비트스트림으로 부호화(인코딩)하는 인코더에 있어서,

- 디지털 신호를 양자화하고, 그 양자화된 신호를 부호화하여 코어 계층(core-layer) 비트스트림을 생성하는 양자화 유닛;

-코어 계층 비트스트림 안에 부호화되어 있는 정보를 제거하도록, 디지털 신호 및 코어 계층 비트스트림에 기반하여 에러 매핑을 수행함으로써, 에러 신호를 생성하는 에러 매핑 유닛;

- 인지 모델(perceptual model)을 이용해 정해지는 디지털 신호의 인지 정보(perceptual information)에 기반해 에러 신호를 비트 평면(bit-plane) 부호화함으로써 인핸스먼트 계층(enhancement-layer) 비트스트림을 생성하는 인지적 비트 평면 코딩 유닛; 및

- 코어 계층 비트스트림과 인핸스먼트 계층 비트스트림을 멀티플렉싱하여, 확장성 비트스트림을 생성하는 멀티플렉싱 유닛을 포함함을 특징으로 하는 부호화 방법.
컴퓨터를 통해 실행될 때, 컴퓨터가 디지털 신호를 확장성(scalable) 비트스트림으로 부호화(인코딩)하는 절차를 수행하도록 하는 프로그램을 포함하는 컴퓨터 판독가능 매체에 있어서, 상기 절차는,

- 디지털 신호를 양자화하고, 그 양자화된 신호를 부호화하여 코어 계층(core-layer) 비트스트림을 생성하는 단계;

-코어 계층 비트스트림 안에 부호화되어 있는 정보를 제거하도록, 디지털 신호 및 코어 계층 비트스트림에 기반하여 에러 매핑을 수행함으로써, 에러 신호를 생성하는 단계;

- 인지 모델(perceptual model)을 이용해 정해지는 디지털 신호의 인지 정보(perceptual information)에 기반해 에러 신호를 비트 평면(bit-plane) 부호화함으로써 인핸스먼트 계층(enhancement-layer) 비트스트림을 생성하는 단계; 및

- 코어 계층 비트스트림과 인핸스먼트 계층 비트스트림을 멀티플렉싱하여, 확장성 비트스트림을 생성하는 단계를 포함함을 특징으로 하는 컴퓨터 판독가능 매체.
컴퓨터를 통해 실행될 때, 컴퓨터가 디지털 신호를 확장성(scalable) 비트스트림으로 부호화(인코딩)하는 절차를 수행하도록 하는 컴퓨터 프로그램 요소에 있 어서, 상기 절차는,

- 디지털 신호를 양자화하고, 그 양자화된 신호를 부호화하여 코어 계층(core-layer) 비트스트림을 생성하는 단계;

-코어 계층 비트스트림 안에 부호화되어 있는 정보를 제거하도록, 디지털 신호 및 코어 계층 비트스트림에 기반하여 에러 매핑을 수행함으로써, 에러 신호를 생성하는 단계;

- 인지 모델(perceptual model)을 이용해 정해지는 디지털 신호의 인지 정보(perceptual information)에 기반해 에러 신호를 비트 평면(bit-plane) 부호화함으로써 인핸스먼트 계층(enhancement-layer) 비트스트림을 생성하는 단계; 및

- 코어 계층 비트스트림과 인핸스먼트 계층 비트스트림을 멀티플렉싱하여, 확장성 비트스트림을 생성하는 단계를 포함함을 특징으로 하는 컴퓨터 프로그램 요소.
확장성 비트스트림을 디지털 신호로 복호화(디코딩)하는 방법에 있어서,

- 확장성 비트스트림을 코어 계층 비트스트림 및 인핸스먼트 계층 비트스트림으로 디멀티플렉싱(de-multiplexing)하는 단계;

- 코어 계층 비트스트림을 디코딩 및 역양자화(de-quantizing)하여 코어 계층 신호를 생성하는 단계;

- 디지털 신호의 인지 정보에 기초하여 인핸스먼트 계층 비트스트림을 비트 평면 디코딩하는 단계; 및

- 비트 평면 디코딩된 인핸스먼트 계층 비트스트림 및 역양자화된 코어 계층 신호에 기반하여 에러 매핑을 수행함으로써 재구성 변환 신호(reconstructed transforemed signal)를 생성하는 단계를 포함하고,

상기 재구성 변환 신호가 디지털 신호임을 특징으로 하는 복호화 방법.
제18항에 있어서,

상기 재구성 변환 신호를 재구성 신호로 변환하는 단계를 더 포함하고,

상기 재구성 신호가 디지털 신호임을 특징으로 하는 복호화 방법.
제18항 또는 제19항에 있어서, 상기 디지털 신호의 인지 정보는 확장성 비트스트림의 디멀티플렉싱으로부터 얻어짐을 특징으로 하는 복호화 방법.
제19항 또는 제20항에 있어서, 상기 코어 계층 신호 및 인핸스먼트 계층 신호는, 정수 MDCT (Modified Discrete Cosine Transform)을 이용해 변환됨을 특징으로 하는 복호화 방법.
제18항 내지 제21항 중 어느 한 항에 있어서, 상기 코어 계층 비트스트림은, MPEG AAC 사양에 따라 복호화 및 역양자화됨을 특징으로 하는 복호화 방법.
제18항 내지 제22항 중 어느 한 항에 있어서, 상기 에러 매핑은, 상기 변환 신호를 역양자화하는데 사용된 하위 양자화 문턱치와 비트 평면 디코딩된 인핸스먼트 계층 비트스트림을 더함으로써 수행되고, 그에 따라 인핸스먼트 계층 신호가 생성됨을 특징으로 하는 복호화 방법.
제18항 내지 제23항 중 어느 한 항에 있어서, 상기 인핸스먼트 계층 비트스트림은 비트 평면 디코딩되어 복수의 비트 평면 심볼들을 구비하는 복수의 비트 평면들이 연속적 시퀀스에 따라 생성되고, 상기 비트 평면들은 디지털 신호의 인지 정보에 기반해 쉬프트되어 비트 평면 디코딩된 인핸스먼트 계층 비트스트림이 생성됨을 특징으로 하는 복호화 방법.
제18항 내지 제23항 중 어느 한 항에 있어서, 상기 인핸스먼트 계층 비트스트림이 디지털 신호의 인지 정보에 기반하여 비트 평면 디코딩되어 복수의 비트 평면 심볼들을 구비하는 복수의 비트 평면들을 연속적 시퀀스에 따라 생성함으로써, 비트 평면 디코딩된 인핸스먼트 계층 비트스트림이 생성됨을 특징으로 하는 복호화 방법.
제24항 또는 제25항에 있어서,

- 넘버 M(s)로 특정되는, 인핸스먼트 계층 비트스트림의 비트 평면 디코딩이 시작될 때 인핸스먼트 계층 비트스트림에 해당하는 비트 평면 정보; 및

- s가 디지털 신호나 변환된 디지털 신호의 주파수 대역에 해당할 때, 디지 털 신호의 JND (Just Noticeable Distortion) 레벨 정보 중 적어도 하나가 디지털 신호의 인지 정보로서 수신됨을 특징으로 하는 복호화 방법.
제26항에 있어서, 상기 인핸스먼트 계층 비트스트림의 비트 평면 디코딩이 시작될 때 인핸스먼트 계층 비트스트림에 해당하는 비트 평면 M(s)은, 코어 계층 비트스트림을 역양자화하기 위해 주파수 대역 s에서 사용되는 최대 양자화 간격으로부터 정해짐을 특징으로 하는 복호화 방법.
확장성 비트스트림을 디지털 신호로 복호화(디코딩)하는 디코더에 있어서,

- 확장성 비트스트림을 코어 계층 비트스트림 및 인핸스먼트 계층 비트스트림으로 디멀티플렉싱(de-multiplexing)하는 디멀티플렉싱 유닛;

- 코어 계층 비트스트림을 디코딩 및 역양자화(de-quantizing)하여 코어 계층 신호를 생성하는 역양자화 유닛;

- 디지털 신호의 인지 정보에 기초하여 인핸스먼트 계층 비트스트림을 비트 평면 디코딩하는 비트 평면 디코딩 유닛; 및

- 비트 평면 디코딩된 인핸스먼트 계층 비트스트림 및 역양자화된 코어 계층 신호에 기반하여 에러 매핑을 수행함으로써 재구성 변환 신호(reconstructed transforemed signal)를 생성하는 에러 매핑 유닛을 포함하고,

상기 재구성 변환 신호가 디지털 신호임을 특징으로 하는 복호화 방법.
컴퓨터를 통해 실행될 때, 컴퓨터로 하여금 확장성 비트스트림을 디지털 신호로 디코딩하는 절차를 수행하게 하는 프로그램이 기록되어 있는 컴퓨터 판독가능 매체에 있어서, 상기 절차는,

- 확장성 비트스트림을 코어 계층 비트스트림 및 인핸스먼트 계층 비트스트림으로 디멀티플렉싱(de-multiplexing)하는 단계;

- 코어 계층 비트스트림을 디코딩 및 역양자화(de-quantizing)하여 코어 계층 신호를 생성하는 단계;

- 디지털 신호의 인지 정보에 기초하여 인핸스먼트 계층 비트스트림을 비트 평면 디코딩하는 단계; 및

- 비트 평면 디코딩된 인핸스먼트 계층 비트스트림 및 역양자화된 코어 계층 신호에 기반하여 에러 매핑을 수행함으로써 재구성 변환 신호(reconstructed transforemed signal)를 생성하는 단계를 포함하고,

상기 재구성 변환 신호는 디지털 신호임을 특징으로 하는 컴퓨터 판독가능 매체.
컴퓨터를 통해 실행될 때, 컴퓨터로 하여금 확장성 비트스트림을 디지털 신호로 디코딩하는 절차를 수행하게 하는 컴퓨터 프로그램 요소에 있어서,

확장성 비트스트림을 디지털 신호로 복호화(디코딩)하는 방법에 있어서,

- 확장성 비트스트림을 코어 계층 비트스트림 및 인핸스먼트 계층 비트스트림으로 디멀티플렉싱(de-multiplexing)하는 단계;

- 코어 계층 비트스트림을 디코딩 및 역양자화(de-quantizing)하여 코어 계층 신호를 생성하는 단계;

- 디지털 신호의 인지 정보에 기초하여 인핸스먼트 계층 비트스트림을 비트 평면 디코딩하는 단계; 및

- 비트 평면 디코딩된 인핸스먼트 계층 비트스트림 및 역양자화된 코어 계층 신호에 기반하여 에러 매핑을 수행함으로써 재구성 변환 신호(reconstructed transforemed signal)를 생성하는 단계를 포함하고,

상기 재구성 변환 신호는 디지털 신호임을 특징으로 하는 컴퓨터 프로그램 요소.