KR101370522B1

KR101370522B1 - 적응형 하이브리드 변환을 사용한 다채널 오디오 엔코딩된 비트 스트림들의 디코딩

Info

Publication number: KR101370522B1
Application number: KR1020127012464A
Authority: KR
Inventors: 카말라나단 라마무르시
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2009-12-07
Filing date: 2010-10-28
Publication date: 2014-03-06
Also published as: CA2779453C; AP3301A; EP2706529A3; EP2510515B1; CL2012001493A1; EP2801975A1; IL219304A; PE20130167A1; AP2012006289A0; CN104217724B; GT201200134A; ES2463840T3; TW201126511A; US8891776B2; KR20130116959A; CO6460719A2; CA2779453A1; CN102687198B; MX2012005723A; WO2011071610A1

Abstract

인핸스드 AC-3 비트 스트림의 프레임들을 디코딩하기 위해 사용되는 프로세스의 처리 효율은 프레임 내 각 오디오 블록을 단지 한 번만 처리함으로써 개선된다. 엔코딩된 데이터의 오디오 블록들은 채널 순서가 아니라 블록 순서로 디코딩된다. 적응형 하이브리드 변환 처리 및 스펙트럼 확장과 같은 인핸스드 비트 스트림 부호화 특징들을 위한 예시적 디코딩 프로세스들이 개시된다.

Description

적응형 하이브리드 변환을 사용한 다채널 오디오 엔코딩된 비트 스트림들의 디코딩{DECODING OF MULTICHANNEL AUDIO ENCODED BIT STREAMS USING ADAPTIVE HYBRID TRANSFORMATION}

관련출원들에 대한 상호참조

이 출원은 전체를 참조로서 본원에 포함시키는 2009년 12월 7일에 출원된 미국 가특허출원 61/267,422의 우선권을 주장한다.

본 발명은 일반적으로 오디오 코딩 시스템들에 관한 것으로, 특히 엔코딩된 디지털 오디오신호들을 디코딩하는 방법들 및 장치들에 관한 것이다.

JCIC(Joint Committee on InterSociety Coordination)의 가맹단체들에 의해 형성되었던 ATSC(The United States Advanced Television Systems Committee) 사는 미국 자국내 텔레비전 서비스들을 개발하기 위해 협조된 한 세트의 국제 표준들을 개발하였다. 관계된 오디오 엔코딩/디코딩 표준들을 포함하는 이들 표준들은 전체를 참조로서 본원에 포함시키는 2005년 6월 14일에 공포된 Revision B의 "Digital Audio Compression Standard(AC-3, E-AC-3)" 명칭의 문서 A/52B를 포함한 몇몇 문서들에 개시되어 있다. 문서 A/52B에 명시된 오디오 부호화 알고리즘을 "AC-3"이라고 한다. 문서의 부록 E에 기술된 이 알고리즘의 인핸스드 버전을 "E-AC-3"이라고 한다. 이들 두 알고리즘들을 본원에서는 "AC-3"이라고 지칭되며 관계된 표준들을 본원에서는 "ATSC 표준들"이라고 지칭된다.

A/52B 문서는 알고리즘 설계의 매우 많은 면들을 특정하진 않지만 대신에 표준에 준수하는 디코더가 디코딩할 수 있어야 하는 엔코딩된 정보의 구조 및 구문론적 특징들을 정의하는 "비트 스트림 신택스(bit stream syntax)"를 기술한다. ATSC 표준들을 준수하는 많은 응용들은 엔코딩된 디지털 오디오 정보를 일련으로 바이너리 데이터로서 전송할 것이다. 결국, 엔코딩된 데이터를 흔히 비트 스트림이라고 하지만 데이터의 그외 다른 배열이 허용될 수 있다. 설명을 쉽게 하기 위해서, "비트 스트림"이라는 용어를 본원에서는 사용되는 포맷이나 기록 또는 송신 기술에 관계없이 엔코딩된 디지털 오디오 신호를 지칭하는데 사용한다.

ATSC 표준들을 준수하는 비트 스트림은 일련의 "동기화 프레임들"로 배열된다. 각 프레임은 펄스 부호 변조(PCM) 디지털 오디오 데이터의 하나 이상의 채널들로 완전히 디코딩될 수 있는 비트 스트림 유닛이다. 각 프레임은 "오디오 블록들"과, 오디오 블록들에 연관된 프레임 메타데이터를 포함한다. 오디오 블록들 각각은 하나 이상의 오디오 채널들에 대한 디지털 오디오 샘플들을 나타내는 엔코딩된 오디오 데이터와, 엔코딩된 오디오 데이터에 연관된 블록 메타데이터를 내포한다.

알고리즘적 설계의 상세가 ATSC 표준들에 명시되어 있지 않을지라도, 어떤 알고리즘적 특징들은 전문적인 그리고 소비자 디코딩 장비 제조업자들에 의해 널리 채택되었다. E-AC-3 엔코더들에 의해 발생된 인핸스드 AC-3 비트 스트림들을 디코딩할 수 있는 디코더들에 대한 구현의 한 보편적 특징은 다른 채널을 위한 데이터를 디코딩하기 전에 각각의 채널에 대한 프레임 내 모든 엔코딩된 데이터를 디코딩하는 알고리즘이다. 이 수법은 일부 디코딩 프로세스들이 한 프레임 내 오디오 블록들 각각으로부터 한 주어진 채널에 대한 데이터를 요구하기 때문에 거의 칩 내에 메모리가 없는 단일-칩 프로세서들 상에 구현들의 성능을 개선하기 위해 사용되었다. 엔코딩된 데이터를 채널 순서로 처리함으로써, 디코딩 동작들은 한 특정 채널에 대한 칩 내에 메모리를 사용하여 수행될 수 있다. 이어서, 디코딩된 채널 데이터는 다음 채널을 위한 칩 내의 자원들을 방면하기 위해 칩 밖의 메모리로 전송될 수 있다.

ATSC 표준들을 준수하는 비트 스트림은 매우 많은 변형들이 가능하기 때문에 매우 복잡할 수 있다. 본원에서 언급되는 몇가지 예들은 단지 간략히 표준 AC-3 비트 스트림들을 위한 채널 커플링, 채널 리매트릭스, 다이알로그 정규화, 동적범위 압축, 채널 다운믹스 및 블록-길이 스위칭, 및 인핸스드 AC-3 비트 스트림들을 위한 복수의 독립적 스트림들, 종속적 서브-스트림들, 스펙트럼 확장 및 적응형 하이브리드 변환만을 포함한다. 이들 특징들에 대한 상세는 A/52B 문서로부터 얻어질 수 있다.

각 채널을 독립적으로 처리함으로써, 이들 변형예들에 대해 요구되는 알고리즘들은 단순화될 수 있다. 합성 필터링과 같은 후속되는 복잡한 프로세스들은 이들 변형예들에 대한 우려없이 수행될 수 있다. 보다 간단한 알고리즘들은 한 프레임의 오디오 데이터를 처리하는데 필요한 계산 자원들을 감소시키는데 있어 이점을 제공하는 것으로 보일 것이다.

불행히도, 이 수법은 디코딩 알고리즘에 2번에 걸쳐 모든 오디오 블록들에 데이터를 판독하여 조사할 것을 요구한다. 한 프레임 내 오디오 블록 데이터를 판독하여 조사하는 매 반복을 본원에서는 오디오 블록들에 대한 "패스(pass)"라고 언급한다. 제 1 패스는 각 블록 내 엔코딩된 오디오 데이터의 위치를 판정하기 위한 상당한 계산들을 수행한다. 제 2 패스는 이것이 디코딩 프로세스들을 수행하기 때문에 이들 동일한 계산들의 대부분을 수행한다. 두 패스들은 데이터 위치들을 계산하기 위해 상당한 계산 자원들을 요구한다. 초기 패스가 제거될 수 있다면, 한 프레임의 오디오 데이터를 디코딩하는데 필요한 총 처리 자원들을 감소시키는 것이 가능할 수 있다.

본 발명의 목적은 위에 언급된 프레임들 및 오디오 블록들처럼 계층 유닛들로 배열된 엔코딩된 비트 스트림들에서 오디오 데이터의 프레임을 디코딩하는데 필요한 계산 자원들을 감소시키는 것이다. 전술한 바와 다음에 개시되는 바는 ATSC 표준들에 따르는 엔코딩된 비트 스트림들을 언급하나, 본 발명은 이들 비트 스트림들만에 사용하는 것으로 한정되는 것은 아니다. 본 발명의 원리는 AC-3 부호화 알고리즘들에서 사용되는 프레임들, 블록들 및 채널들과 유사한 구조적 특징들을 갖는 것이면 본질적으로 어떠한 엔코딩된 비트 스트림에든 적용될 수 있다.

본 발명의 일면에 따라서, 방법은 프레임을 수신하고, 각 오디오 블록에 대한 엔코딩된 오디오 데이터를 블록별로 순서대로 디코딩하기 위해 상기 엔코딩된 디지털 오디오 신호를 단일 패스에서 조사함으로써, 한 프레임의 엔코딩된 디지털 오디오 신호을 디코딩한다. 각 프레임은 프레임 메타데이터 및 복수의 오디오 블록들을 포함한다. 각 오디오 블록은 하나 이상의 오디오 채널들에 대한 블록 메타데이터 및 엔코딩된 오디오 데이터를 포함한다. 블록 메타데이터는 엔코딩된 오디오 데이터를 생성하였던 엔코딩 프로세스에 의해 사용된 부호화 툴들을 기술하는 제어 정보를 포함한다. 부호화 툴들 중 하나는 하나 이상의 오디오 채널들의 스펙트럼 성분을 나타내는 스펙트럼 계수들을 생성하기 위해서 1차 변환(primary transform)에 의해 구현되는 분석 필터 뱅크를 하나 이상의 오디오 채널들에 적용하고 하이브리드 변환계수들을 생성하기 위해 하나 이상의 오디오 채널들 중 적어도 일부에 대한 스펙트럼 계수들에 2차 변환을 적용하는 하이브리드 변환 처리이다. 각 오디오 블록의 디코딩은 엔코딩된 오디오 데이터 중 어느 한 데이터를 엔코딩하기 위해 엔코딩 프로세스가 적응형 하이브리드 변환 처리를 사용하였는지를 판정한다. 엔코딩 프로세스가 적응형 하이브리드 변환 처리를 사용하였다면, 방법은 프레임 내 제 1 오디오 블록 내 엔코딩된 오디오 데이터로부터 프레임에 대한 모든 하이브리드 변환계수들을 얻고, 역 2차 변환계수들을 얻기 위해서 하이브리드 변환계수들에 역 2차 변환을 적용하며, 역 2차 변환계수들로부터 스펙트럼 계수들을 얻는다. 엔코딩 프로세스가 적응형 하이브리드 변환 처리를 사용하지 않았다면, 각각의 오디오 블록 내 엔코딩된 오디오 데이터로부터 스펙트럼 계수들이 얻어진다. 각각의 오디오 블록 내 하나 이상의 채널들을 나타내는 출력 신호를 발생하기 위해서 스펙트럼 계수들에 역 1차 변환(inverse primary transform)이 적용된다.

본 발명 및 이의 바람직한 실시예의 다양한 특징들은 다음 설명과 몇몇 도면들에서 동일 구성요소들에 동일 참조부호를 사용한 동반된 도면들을 참조함으로써 더 잘 이해될 수 있다. 다음 설명 및 도면들의 내용들은 단지 예들로서 개시되며 본 발명의 범위에 대한 제한들을 나타내는 것으로 이해되어서는 안 된다.

본 발명은 적응형 하이브리드 변환을 사용한 다채널 오디오 엔코딩된 비트 스트림들의 디코딩을 제공하여, 계층 유닛들로 배열된 엔코딩된 비트 스트림들에서 오디오 데이터의 프레임을 디코딩하는데 필요한 계산 자원들을 절약할 수 있다.

도 1은 엔코더의 예시적 구현들의 개략적 블록도이다.
도 2는 디코더의 예시적 구현들의 개략적 블록도이다.
도 3a 및 도 3b는 표준 및 인핸스드 구문론적 구조들에 따르는 비트 스트림들에 프레임들의 개략적 예시도이다.
도 4a 및 도 4b는 표준 및 인핸스드 구문론적 구조들에 따르는 오디오 블록들의 개략적 예시도이다.
도 5a 내지 도 5c는 프로그램 및 채널 확장들을 가진 데이터가 실린 예시적 비트 스트림들을 개략적으로 도시한 것이다.
도 6은 엔코딩된 오디오 데이터를 채널 순서로 처리하는 디코더에 의해 구현되는 예시적 프로세스의 개략적 블록도이다.
도 7은 엔코딩된 오디오 데이터를 블록 순서로 처리하는 디코더에 의해 구현되는 예시적 프로세스의 개략적 블록도이다.
도 8은 본 발명의 여러 면들을 구현하기 위해 사용될 수 있는 장치의 개략적 블록도이다.

A. 부호화 시스템의 개요

도 1 및 도 2는 디코더가 본 발명의 여러 면들을 포함시킬 수 있는 오디오 코딩 시스템을 위한 엔코더 및 디코더의 예시적 구현예들의 개략적 블록도들이다. 이들 구현예들은 위에 인용된 A/52B 문서에 개시된 것을 준수한다.

코딩 시스템의 목적은, 엔코딩된 신호를 나타내기 위해 최소량의 디지털 정보를 사용하면서도 입력 오디오 신호들과 본질적으로 동일하게 들리는 출력 오디오 신호들을 생성하기 위해 기록되거나 전송되어 나중에 디코딩될 수 있는 입력 오디오 신호들의 엔코딩된 표현을 발생하는 것이다. 기본 ATSC 표준들에 따르는 코딩 시스템들은 하나 내지 소위 5.1 채널들의 오디오 신호들을 나타낼 수 있는 정보를 엔코딩 및 디코딩할 수 있는 것으로, 5.1이라는 것은 전체-대역폭 신호들과, 저-주파수 효과들(LFE)을 위한 신호들이 실리게 한, 대역폭이 제한된 한 채널을 실을 수 있는 5 채널들을 의미하는 것으로 이해한다.

다음 단락들은 엔코더 및 디코더의 구현예들, 및 엔코딩된 비트 스트림 구조와 관계된 엔코딩 및 디코딩 프로세스들의 얼마간의 상세를 기술한다. 이들 설명들은 본 발명의 여러 가지 면들이 보다 간결하게 기술되고 보다 명확하게 이해될 수 있도록 제공된다.

1. 엔코더

도 1에 예시적 구현예를 참조하면, 엔코더는 입력 신호 경로(1)로부터 하나 이상의 입력 채널들의 오디오 신호들을 나타내는 일련의 펄스 부호 변조(PCM) 샘플들을 수신하고, 일련의 샘플들에 분석 필터 뱅크(analysis filter bank)(2)를 적용하여 입력 오디오 신호들의 스펙트럼 구성성분을 나타내는 디지털 값들을 발생한다. ATSC 표준들에 따르는 실시예들에 있어서, 분석 필터 뱅크는 A/52B 문서에 기술된 수정 이산 코사인 변환(Modified Discrete Cosine Transform, MDCT)에 의해 구현된다. MDCT는 각 입력 채널의 오디오 신호에 대해서 서로 중첩하는 다수 세그먼트들 또는 다수 블록들의 샘플들에 적용되어 이 입력 채널 신호의 스펙트럼 구성성분을 나타내는 다수 블록들의 변환계수들을 발생한다. MDCT는 시간-영역 에일리어싱을 상쇄시키기 위해 특별하게 설계된 윈도우 함수들 및 중첩/부가 프로세스들을 사용하는 분석/합성 시스템의 부분이다. 각 블록에 변환계수들은 부동-소수점 지수들 및 가수들을 포함하는 블록-부동 소수점(block-floating point, BFP) 형태로 표현된다. 이 설명에서는 부동-소수점 지수들 및 가수들로서 표현된 오디오 데이터를 언급하는데, 이것은 이 형태의 표현이 ATSC 표준들에 따르는 비트 스트림들에서 사용되기 때문이지만, 그러나, 이 특별한 표현은 스케일 팩터들 및 연관된 스케일된 값들을 사용하는 수치적 표현들의 단지 일예일 뿐이다.

각 블록에 대한 BFP 지수들은 총체적으로 입력 오디오 신호에 대한 근사적 스펙트럼 엔벨로프를 제공한다. 이들 지수들은 정보 요건들을 줄이기 위해 델타 변조 및 그외 다른 코딩 기술들에 의해 엔코딩되고, 포맷터(5)에 보내지고, 엔코딩되는 신호의 음향심리학 마스킹 임계값을 추정하기 위해 음향심리학 모델에 입력된다. 모델로부터의 결과들은 양자화에 의해 야기되는 잡음 수준이 엔코딩되는 신호의 음향심리학 마스킹 임계값 미만으로 유지되게, 가수들의 양자화를 위한 비트들의 형태로 디지털 정보를 할당하기 위해 비트 할당기(3)에 의해 사용된다. 양자화기(4)는 비트 할당기(3)로부터 수신되어 포맷터(5)에 전달되는 비트 할당들에 따라 가수들을 양자화한다.

포맷터(5)는 엔코딩된 지수들, 양자화된 가수들, 및 종종 블록 메타데이터라고도 하는 그외 제어 정보를 오디오 블록들에 멀티플렉스 또는 조립한다. 6개의 연속적 오디오 블록들을 위한 데이터는 프레임들이라고 하는 디지털 정보의 단위들로 조립된다. 프레임들 자신들도 제어 정보 또는 프레임 메타데이터를 내포한다. 연속적 프레임들에 대한 엔코딩된 정보는 정보 저장매체 상에 기록을 위해서 혹은 통신 채널을 따른 송신을 위해 경로(6)를 따라 비트 스트림으로서 출력된다. ATSC 표준들에 따르는 엔코더들에 있어서, 비트 스트림 내 각 프레임의 포맷은 A/52B 문서에 명시된 신택스에 따른다.

ATSC 표준들에 따르는 전형적인 엔코더들에 의해 사용되는 부호화 알고리즘은 도 1에 도시되고 위에 기술된 것보다 더 복잡하다. 예를 들면, 수신 디코더가 비트 스트림을 유효화할 수 있게 하기 위해서 프레임들에 오류 검출 부호들이 삽입된다. 변하는 신호 특징들에 대해 자신의 성능을 최적화하기 위해 분석 필터 뱅크의 시간적 및 스펙트럼적 해상도를 적응시키기 위해서, 종종 간단하게 블록 스위칭이라고도 하는 블록-길이 스위칭으로서 알려진 부호화 기술이 사용될 수 있다. 부동-소수점 지수들은 가변 시간 및 주파수 해상도에 따라 엔코딩될 수도 있다. 2 이상의 채널들은 채널 커플링으로서 알려진 부호화 기술을 사용하여 복합적인 표현으로 결합될 수 있다. 채널 리매트릭스로서 알려진 또 다른 부호화 기술이 2-채널 오디오 신호들에 대해 적응형으로 사용될 수도 있다. 여기에 언급되지 않은 추가적인 부호화 기술들이 사용될 수도 있다. 이들 다른 부호화 기술들 중 몇 가지를 이하 논한다. 구현예의 많은 다른 상세들은 본 발명을 이해하기 위해 필요하지 않기 때문에 생략된다. 이들 상세들은 필요시 A/52B 문서으로부터 얻어질 수 있다.

2. 디코더

디코더는 엔코더에서 수행되는 본질적으로 부호화 알고리즘의 역인 디코딩 알고리즘을 수행한다. 도 2에 예시적 구현예를 참조하면, 디코더는 입력 신호 경로(11)로부터 일련의 프레임들을 나타내는 엔코딩된 비트 스트림을 수신한다. 엔코딩된 비트 스트림은 정보 저장매체로부터 인출되거나 통신 채널로부터 수신될 수 있다. 디포맷터(12)는 각 프레임에 대해 엔코딩된 정보를 프레임 메타데이터 및 6개의 오디오 블록들로 디멀티플렉스 또는 언팩(unpack)한다. 오디오 블록들은 이들 각각의 블록 메타데이터, 엔코딩된 지수들 및 양자화된 가수들로 언팩된다. 엔코딩된 지수들은 비트들이 엔코더에서 할당되었던 방식과 동일한 방식으로 양자화된 가수들의 역양자화를 위해서 비트들의 형태로 디지털 정보를 할당하기 위해 비트 할당기(13)에서 음향심리학 모델에 의해 사용된다. 역양자화기(14)는 양자화된 가수들를 비트 할당기(13)로부터 수신된 비트 할당들에 따라 역양자화하고 역양자화된 가수들을 합성 필터 뱅크(synthesis filter bank)(15)에 보낸다. 엔코딩된 지수들은 디코딩되어 합성 필터 뱅크(15)에 보내진다.

디코딩된 지수들 및 역양자화된 가수들은 엔코더에 의해 엔코딩된 입력 오디오 신호의 스펙트럼 성분의 BFP 표현을 구성한다. 합성 필터 뱅크(15)는 출력 신호 경로(16)를 따라 전달되는 원 입력 오디오 신호들의 부정확한 복제를 재구성하기 위해 스펙트럼 성분의 표현에 적용된다. ATSC 표준들에 따르는 실시예들에 있어서, 합성 필터 뱅크는 A/52B 문서에 기술된 역 수정 이산 코사인 변환(Inverse Modified Discrete Cosine Transform, IMDCT)에 의해 구현된다. IMDCT는 시간-영역 에일리어싱을 상쇄시키기 위해서 중첩되고 더해지는 다수 블록들의 오디오 샘플들을 발생하기 위해 다수 블록들의 변환계수들에 적용되는 위에 간략히 언급된 분석/합성 시스템의 부분이다.

ATSC 표준들에 따르는 전형적인 디코더들에 의해 사용되는 디코딩 알고리즘은 도 2에 도시되고 위에 기술된 것보다 더 복잡하다. 위에 기술된 부호화 기술들의 역인 몇몇 디코딩 기술들은 오류 정정 또는 은폐를 위한 오류 검출, 합성 필터 뱅크의 시간적 및 스펙트럼 해상도를 적응시키기 위한 블록-길이 스위칭, 결합된 복합적 표현들로부터 채널 정보를 복구하기 위한 채널 디커플링, 및 리매트릭스된 2-채널 표현들의 복구를 위한 매트릭스 동작들을 포함한다. 그외 기술들 및 추가의 상세에 관한 정보는 필요시 A/52B 문서로부터 얻어질 수 있다.

B. 엔코딩된 비트 스트림 구조

1. 프레임

ATSC 표준들에 따르는 엔코딩된 비트 스트림은 종종 간단히 프레임들이라고도 하는 "동기화 프레임들"이라 불리우는 일련의 엔코딩된 정보 유닛들을 포함한다. 위에 언급된 바와 같이, 각 프레임은 프레임 메타데이터 및 6개의 오디오 블록들을 내포한다. 각 오디오 블록은 하나 이상의 채널들의 오디오 신호들의 공존 구간을 위해 블록 메타데이터 및 엔코딩된 BFP 지수들과 가수들을 내포한다. 표준 비트 스트림을 위한 구조는 도 3a에 개략적으로 도시되었다. A/52B 문서의 부록 E에 기술된 바와 같은 인핸스드 AC-3 비트 스트림에 대한 구조가 도 3b에 도시되었다. SI부터 CRC까지의 표시된 구간 내에 각 비트 스트림의 부분이 한 프레임이다.

디코더가 프레임의 시작을 확인하고 자신의 디코딩 프로세스들을 엔코딩된 비트 스트림과 동기화를 유지할 수 있게 각 프레임의 시작부분에 제공되는 동기화 정보(SI)에 특별한 비트 패턴 또는 동기화 워드가 포함된다. SI 바로 다음에 비트 스트림 정보(BSI) 구간은 프레임을 디코딩하기 위해 디코딩 알고리즘에 의해 필요로 하는 파라미터들을 싣는다. 예를 들면, BSI는 프레임 내에 엔코딩된 정보로 나타내는 채널들의 수, 유형 및 순서와, 디코더에 의해 사용될 동적범위 압축 및 다이아알로그 정규화 정보를 명시한다. 각 프레임은 6개의 오디오 블록들(ABO 내지 AB5)을 내포하는데, 이들 다음엔 요망될 경우 보조(AUX) 데이터가 이어질 수도 있다. 순환 중복 검사(CRC) 워드 형태의 오류 검출 정보는 각 프레임의 끝부분에 제공된다.

인핸스드 AC-3 비트 스트림 내 프레임은 표준 비트 스트림을 부호화하는데 사용하는데 이용할 수 없는 추가의 부호화 기술들에 속하는 플래그들 및 파라미터들을 내포하는 오디오 프레임(AFRM) 데이터도 내포한다. 일부 추가의 기술들은 스펙트럼 복제라고도 알려진 스펙트럼 확장(SPX), 및 적응형 하이브리드 변환(AHT)의 사용을 포함한다. 다양한 부호화 기술들이 이하 논의된다.

2. 오디오 블록들

각 오디오 블록은 256개의 변환계수들에 대한 BFP 지수들 및 양자화된 가수들의 엔코딩된 표현들과, 엔코딩된 지수들 및 양자화된 가수들을 디코딩하는데 필요한 블록 메타데이터를 내포한다. 이 구조가 도 4a에 개략적으로 도시되었다. A/52B 문서의 부록 E에 기술된 바와 같은 인핸스드 AC-3 비트 스트림 내 오디오 블록에 대한 구조가 도 4b에 도시되었다. A/52B 문서의 부록 D에 기술된 바와 같은 비트 스트림의 대안적 버전에서의 오디오 블록 구조는 이의 특이한 특징들은 본 발명에 관련이 없기 때문에 본원에서는 논의되지 않는다.

블록 메타데이터의 몇가지 예들은 블록 스위칭(BLKSW), 동적범위 압축(DYNRNG), 채널 커플링(CPL), 채널 리매트릭싱(REMAT), BFP 지수들을 엔코딩하기 위해 사용되는 지수 부호화 기술 또는 전략(EXPSTR), 엔코딩된 BFP 지수들(EXP), 가수들을 위한 비트 할당(BA) 정보, 델타 비트 할당(DBA) 정보로서 알려진 비트 할당에 대한 조절들, 및 양자화된 가수들(MANT)을 위한, 플래그들 및 파라미터들을 포함한다. 인핸스드 AC-3 비트 스트림 내 각 오디오 블록은 스펙트럼 확장(SPX)을 포함하는 추가의 부호화 기술들을 위한 정보를 포함할 수도 있다.

3. 비트 스트림 제약들

ATSC 표준들은 본 발명에 관련있는 비트 스트림의 성분들에 대한 몇 가지 제약들을 부과한다. 여기에서는 2가지 제약들을 언급한다: (1) ABO라고 하는 프레임 내 제 1 오디오 블록은 프레임 내 모든 오디오 블록을 디코딩하는 것을 시작하기 위해 디코딩 알고리즘이 필요로 하는 모든 정보를 갖고 있어야 하며, (2) 비트 스트림이 채널 커플링에 의해 발생되는 엔코딩된 정보를 실리기를 시작할 때는 언제든, 채널 커플링이 처음 사용되는 오디오 블록은 디커플링을 위해 필요로 되는 모든 파라미터들을 갖고 있어야 한다. 이들 특징들이 이하 논의된다. 본원에서 논의되지 않는 다른 프로세스들에 관한 정보는 A/52B 문서로부터 얻어질 수 있다.

C. 표준 부호화 프로세스들 및 기술들

ATSC 표준들은 엔코딩된 비트 스트림을 발생하기 위해 사용될 수 있는 엔코딩 프로세스들 또는 "부호화 툴들"에 관련해서 다수의 비트 스트림 구문론적 특징들을 기술한다. 엔코더는 모든 부호화 툴들을 채용할 필요가 없으나 표준에 따르는 디코더는 표준 준수에 필수적인 것으로 간주되는 부호화 툴들에 응답할 수 있어야 한다. 이 응답은 본질적으로 대응하는 부호화 툴의 역인 적합한 디코딩 툴을 수행함으로써 구현된다.

디코딩 툴들 중 일부는 이들을 사용하는지 사용하지 않는지가 본 발명의 특징들이 어떻게 구현되어야 하는가에 영향을 미치기 때문에 본 발명에 특히 관련이 있다. 몇 개의 디코딩 프로세스들 및 몇개의 디코딩 툴들을 다음 단락들에서 간략히 논의한다. 다음의 설명들은 완벽히 설명하려는 것이 아니다. 여러 상세 및 선택적인 특징들은 생략된다. 단지 설명들은 기술들에 익숙하지 않은 자들에게 고 수준의 소개를 제공하고 이들 용어들이 어떤 기술들을 설명하는지를 잊고 있을 수도 있을 자들의 기억을 되살리고자 하는 것이다.

요망된다면, 추가의 상세는 A/52B 문서로부터, 그리고 1996년 12월 10일에 발행되고 전체를 참조로서 본원에 포함시키는 Davis 등의 "Encoder/Decoder for Multi-Dimensional Sound Fields" 명칭의 미국특허 5,583,962로부터 얻어질 수 있다.

1. 비트 스트림 언팩

모든 디코더들은 파라미터들 및 엔코딩된 데이터를 얻기 위해서 엔코딩된 비트 스트림을 언팩 또는 디멀티플렉스해야 한다. 이 프로세스는 위에 논의된 디포맷터(12)로 나타내었다. 이 프로세스는 본질적으로 인입되는 비트 스트림에서 데이터를 읽고 비트 스트림의 부분들을 레지스터들에 카피하고 부분들을 메모리 위치들에 카피하거나, 버퍼에 저장되는 비트 스트림 내 데이터에 대한 포인터들 또는 그외 참조들을 저장하는 프로세스이다. 메모리는 데이터 및 포인터들을 저장하기 위해 필요하며, 추후에 사용을 위해 이 정보를 저장하거나 필요할 때는 언제든 정보를 얻기 위해 비트 스트림을 다시 판독하는 것 간에 절충이 행해질 수 있다.

2. 지수 디코딩

모든 BFP 지수들의 값들은 이들 값들이 양자화된 가수들에 할당된 비트들의 수를 간접적으로 나타내기 때문에 각 프레임에 대한 오디오 블록들에 데이터를 언팩하기 위해 필요하다. 그러나, 비트 스트림 내 지수 값들은 시간 및 주파수 둘 다에 걸쳐 적용될 수 있는 차분 부호화 기술들에 의해 엔코딩된다. 결국, 엔코딩된 지수들을 나타내는 데이터는 비트 스트림로부터 언팩되어야 하며 이들이 다른 디코딩 프로세스들을 위해 사용될 수 있기 전에 디코딩되어야 한다.

3. 비트 할당 처리

비트 스트림 내 양자화된 BFP 가수들 각각은 BFP 지수들 및 아마도 비트 스트림에 내포된 그외 다른 메타데이터의 함수인 가변 수의 비트들에 의해 표현된다. BFP 지수들은 각 가수에 대해 비트 할당을 계산하는 명시된 모델에 입력된다. 오디오 블록이 델타 비트 할당(DBA) 정보도 내포한다면, 이 추가된 정보는 모델에 의해 계산되는 비트 할당을 조절하기 위해 사용된다.

4. 가수 처리

양자화된 BFP 가수들은 엔코딩된 비트 스트림 내 대부분의 데이터를 구성한다. 비트 할당은 역양자화된 가수들을 얻기 위한 적합한 역양자화 함수를 선택하는 것만이 아니라 언팩을 위해 비트 스트림에 각 가수의 위치를 판정하기 위해 사용된다. 비트 스트림 내 일부 데이터는 단일 값에 의해 복수의 가수들을 나타낼 수 있다. 이 상황에서, 적합한 수의 가수들이 단일 값으로부터 도출된다. 제로의 할당을 갖는 가수들은 제로인 값으로 혹은 의사-난수로서 재현될 수 있다.

5. 채널 디커플링

채널 커플링 부호화 기술은 엔코더가 적은 데이터로 복수의 오디오 채널들을 나타낼 수 있게 한다. 이 기술은 커플링된 채널들이라고 하는 2 이상의 선택된 채널들로부터 스펙트럼 성분들을 결합하여, 커플링 채널이라고 하는 단일 채널의 복합 스펙트럼 성분들을 형성한다. 커플링 채널의 스펙트럼 성분들은 BFP 포맷으로 표현된다. 커플링 코디네이트들로서 알려진 것인, 커플링 채널과 각 커플링된 채널 간에 에너지 차이를 기술하는 한 세트의 스케일 팩터들은 커플링된 채널들 각각마다 도출되어 엔코딩된 비트 스트림에 포함된다. 커플링은 각 채널의 대역폭의 명시된 부분만을 위해 사용된다.

비트 스트림 내 파라미터들로 나타낸 바와 같이 채널 커플링이 사용될 때, 디코더는 커플링 채널의 스펙트럼 성분들과 커플링 코디네이트들로부터 각 커플링된 채널에 대한 BFP 지수들 및 가수들의 부정확한 복제를 도출하기 위해서 채널 디커플링으로서 알려진 디코딩 기술을 사용한다. 이것은 각 커플링된 채널 스펙트럼 성분을 적합한 커플링 코디네이트로 곱함으로써 행해진다. 추가의 상세는 A/52B 문서로부터 얻어질 수 있다.

6. 채널 리매트릭싱

채널 리매트릭싱 부호화 기술은 2개의 독립적인 오디오 채널들을 합 및 차 채널들로 변환하기 위해 매트릭스를 사용함으로써 엔코더가 적은 데이터로 2-채널 신호들을 나타낼 수 있게 한다. 대신에좌측 및 우측 오디오 채널들용으로 비트 스트림에 통상적으로 패킹되는 BFP 지수 및 가수들은 합 및 차 채널들을 나타낸다. 이 기술은2 채널들이 고도의 유사성을 가질 때 이점이 있게 사용될 수 있다.

비트 스트림 내 플래그에 의해 나타난 바와 같이, 리매트릭싱이 사용될 때, 디코더는 적합한 매트릭스를 합 및 차 값들에 적용함으로써 2 오디오 채널들을 나타내는 값들을 얻는다. 추가의 상세는 A/52B 문서로부터 얻어질 수 있다.

D. 인핸스드 부호화 프로세스들 및 기술들

A/52B의 부록 E는 추가의 부호화 툴들을 사용할 수 있게 하는 인핸스드 AC-3 비트 스트림 신택스의 특징들을 기술한다. 이들 툴들 및 관계된 프로세스들 중 몇가지를 이하 간략히 기술한다.

1. 적응형 하이브리드 변환 처리

적응형 하이브리드 변환(AHT) 부호화 기술은 두 가지 변환들을 직렬로 적용함으로써 변하는 신호 특성들에 응하여 분석 및 합성 필터 뱅크들의 시간적 및 스펙트럼 해상도를 적응시키기 위한 블록 스위칭 외에도 다른 툴을 제공한다. AHT 처리에 대한 추가 정보는 A/52B 문서 및 전체를 참조로 본원에 포함시키는 2009년 4월 7일에 발행된 Vinton 등의"Adaptive Hybrid Transform for Signal Analysis and Synthesis" 명칭의 미국특허 7,516,064에서 얻어질 수 있다.

엔코더들은 타입-II 이산 코사인 변환(Type-II Discrete Cosine Transform, DCT-II)에 의해 구현되는 2차 변환 앞에 이와 직렬로 위에 언급된 MDCT 분석 변환에 의해 구현되는 1차 변환을 채용한다. MDCT는 중첩하는 다수 블록들의 오디오 신호 샘플들에 적용되어 오디오 신호의 스펙트럼 성분을 나타내는 스펙트럼 계수들을 생성한다. DCT-II는 요망될 때 신호 처리 경로로 그리고 경로 밖으로 전환될 수 있고, 경로 내로 전환되었을 땐, 동일 주파수를 나타내는 중첩하지 않는 다수 블록들의 MDCT 스펙트럼 계수들에 적용되어 하이브리드 변환계수들을 발생한다. 전형적 사용에 있어서, 입력 오디오 신호가 충분히 스태셔너리(stationary)한 것으로 여겨질 때는 DCT-II를 사용하는 것이 분석 필터 뱅크의 유효 시간적 해상도를 256개의 샘플들에서 1536개의 샘플들로 감소시킴으로써 이의 유효 스펙트럼적 해상도를 현저하게 증가시키기 때문에 DCT-II은 스위치 온 된다.

디코더들은 타입-II 역 이산 코사인 변환(Type-II Inverse Discrete Cosine Transform, IDCT-II)에 의해 구현되는 역 2차 변환 다음에 오고 이와 직렬로 위에 언급된IMDCT 합성 필터 뱅크에 의해 구현되는 역 1차 변환을 채용한다. IDCT-II는 엔코더에 의해 제공되는 메타데이터에 응하여 신호 처리 경로 내로 그리고 경로 밖으로 전환된다. 경로 내로 전환되었을 때, IDCT-II는 중첩하지 않는 다수 블록들의 하이브리드 변환계수들에 적용되어 역 2차 변환계수들을 얻는다. 역 2차 변환계수들은 채널 커플링 또는 SPX와 같은 다른 어떤 부호화 툴도 사용되지 않았다면 IMDCT에 직접 입력하기 위한 스펙트럼 계수들일 수 있다. 대안적으로, MDCT 스펙트럼 계수들은 채널 커플링 또는 SPX와 같은 부호화 툴들이 사용되었다면 역 2차 변환계수들로부터 도출될 수 있다. MDCT 스펙트럼 계수들이 얻어진 후에, IMDCT는 통상적인 방식으로 다수 블록들의 MDCT 스펙트럼 계수들에 적용된다.

AHT는 커플링 채널 및 LFE 채널을 포함하는 어떠한 오디오 채널에든 사용될 수 있다. AHT를 사용하여 엔코딩되는 채널은 대안적 비트 할당 프로세스 및 2개의 서로 다른 유형들의 양자화를 사용한다. 한 유형은 벡터 양자화(VQ)이며, 두 번째 유형은 이득-적응형 양자화(GAQ)이다. GAQ 기술은 2001년 6월 12일에 발행되었고 전체를 참조로서 본원에 포함시키는 Davidson 등의 "Using Gain-Adaptive Quantization and Non-Uniform Symbol Lengths for Improved Audio Coding" 명칭의 미국특허 6,246,345에 다루어져 있다.

AHT의 사용은 엔코딩된 비트 스트림 내 내포된 정보로부터 몇몇의 파라미터들을 도출할 것을 디코더에게 요구한다. A/52B 문서는 이들 파라미터들이 어떻게 계산될 수 있는가를 기술한다. 한 세트의 파라미터들은 BFP 지수들이 프레임에 실리게 되는 횟수를 명시하며 프레임 내 모든 오디오블록들에 내포된 메타데이터를 조사함으로써 도출된다. 이와는 다른 두 세트들의 파라미터들은 어느 BFP 가수들이 GAQ을 사용하여 양자화되었는가와 양자화기들을 위한 이득-제어 워드들을 제공하는지를 나타내며 오디오 블록 내 한 채널에 대한 메타데이터를 조사함으로써 도출된다.

AHT를 위한 모든 하이브리드 변환계수들은 프레임의 제 1 오디오 블록, 즉 ABO에 실린다. AHT가 커플링 채널에 적용된다면, AHT 계수들을 위한 커플링 코디네이트들은 AHT 없이 커플링된 채널들에 대한 것과 동일한 방식으로 모든 오디오 블록들에 걸쳐 분배된다. 이 상황을 처리하는 프로세스를 이하 기술한다.

2. 스펙트럼 확장 처리

스펙트럼 확장(SPX) 부호화 기술은, 엔코딩된 비트 스트림 내 고-주파수 스펙트럼 성분들을 제외시키고 디코더에게 누락된 스펙트럼 성분들을 엔코딩된 비트 스트림 내 내포된 저-주파수 스펙트럼 성분들로부터 합성하게 함으로써, 엔코더가 전체-대역폭 채널을 엔코딩하는데 필요한 정보량을 감소시킬 수 있게 한다.

SPX가 사용될 때, 디코더는 저-주파수 MDCT 계수들을 고-주파수 MDCT 계수 위치들에 카피하고, 카피된 변환계수들에 의사-난수 값들 또는 잡음을 추가하고, 엔코딩된 비트 스트림 내 포함된 SPX 스펙트럼 엔벨로프에 따라 진폭을 스케일링함으로써, 누락된 스펙트럼 성분들을 합성한다. 엔코더는 SPX 스펙트럼 엔벨로프를 계산하고 이를 SPX 부호화 툴이 사용될 때는 언제나 엔코딩된 비트 스트림에 삽입한다.

SPX 기술은 전형적으로 채널을 위한 가장 높은 대역들의 스펙트럼 성분들을 합성하기 위해 사용된다. 중간 범위의 주파수들에 대해선 채널 커플링과 더불어 사용될 수도 있다. 처리의 추가의 상세는 A/52B 문서에서 얻어질 수 있다.

3. 채널 및 프로그램 확장들

인핸스드 AC-3 비트 스트림 신택스는 엔코더가 5.1 이상의 채널들을 가진 단일 프로그램(채널 확장), 혹은 최대 5.1 채널들을 가진 2 이상의 프로그램들(프로그램 확장), 혹은 최대 5.1 채널들과 5.1 이상의 채널들을 가진 프로그램의 조합을 나타내는 엔코딩된 비트 스트림을 발생할 수 있게 한다. 프로그램 확장은 엔코딩된 비트 스트림 내 복수의 독립적인 데이터 스트림들에 대한 프레임들을 멀티플렉스함으로써 구현된다. 채널 확장은 독립적인 데이터 스트림에 연관된 하나 이상의 종속적인 데이터 서브(sub)-스트림들에 대한 프레임들을 멀티플렉스함으로써 구현된다. 프로그램 확장을 위한 바람직한 구현들에서, 어느 프로그램 혹은 프로그램들을 디코딩할지가 디코더에 알려지며 디코딩 프로세스는 디코딩되지 않을 프로그램들을 나타내는 스트림들 및 서브-스트림들을 묵과하거나 근본적으로 무시한다.

도 5a 내지 도 5c는 프로그램 및 채널 확장들을 가진 데이터를 싣는 비트 스트림들의 3가지 예들을 도시한 것이다. 도 5a는 채널 확장을가진 예시적 비트 스트림을 도시한 것이다. 단일 프로그램(P1)은 독립적인 스트림(SO) 및 3개의 연관된 종속적인 서브-스트림들(SS0, SS1, SS2)로 표현된다. 독립적인 스트림(SO)을 위한 프레임(Fn) 바로 다음엔 연관된 종속적 서브-스트림들(SS0 내지 SS3) 각각에 대한 프레임들(Fn)이 이어진다. 이들 프레임들 다음엔 독립적인 스트림(SO)을 위한 다음 프레임(Fn+1)이 이어지고, 이에 바로 이어, 연관된 종속적 서브-스트림들(SS0 내지 SS2) 각각에 대한 프레임들(Fn+1)이 온다. 인핸스드 AC-3 비트 스트림 신택스는 각 독립적 스트림에 대해서 8개만큼의 종속적 서브-스트림들을 허용한다.

도 5b는 프로그램 확장을 가진 예시적 비트 스트림을 도시한 것이다. 4개의 프로그램들(P1, P2, P3, P4) 각각은 각각 독립적 스트림들(S0, S1, S2, S3)에 의해 표현된다. 독립적인 스트림(SO)에 대한 프레임(Fn) 바로 다음엔 독립적 스트림들(S1, S2, S3) 각각에 대한 프레임들(Fn)이 이어진다. 이들 프레임들 다음엔 독립적 스트림들 각각에 대한 다음 프레임(Fn+1)이 이어진다. 인핸스드 AC-3 비트 스트림 신택스는 적어도 한 독립적 스트림을 가져야 하며 8개만큼의 독립적 스트림들을 허용한다.

도 5c는 프로그램 확장 및 채널 확장을 가진 예시적 비트 스트림을 도시한 것이다. 프로그램(P1)은 독립적인 스트림(S0) 내 데이터로 표현되고, 프로그램(P2)는 독립적 스트림(S1) 및 연관된 종속적 서브-스트림들(SSO, SS1) 내 데이터로 표현된다. 독립적인 스트림(S0)에 대한 프레임(Fn) 바로 다음엔 독립적 스트림(S1)에 대한 프레임(Fn)이 오며, 이에 바로 이어서는 연관된 종속적 서브-스트림들(SSO, SS1)에 대한 프레임들(Fn)이 온다. 이들 프레임들 다음엔 독립적 스트림들 및 종속적 서브-스트림들 각각에 대한 다음 프레임(Fn+1)이 온다.

채널 확장이 없는 독립적 스트림은 최대 5.1의 독립적 오디오 채널들을 나타낼 수 있는 데이터를 내포한다. 채널 확장을 가진 독립적 스트림, 또는 환언하여, 하나 이상의 연관된 종속적 서브-스트림들을 가진 독립적 스트림은 프로그램을 위한 모든 채널들의 5.1 채널 다운믹스를 나타내는 데이터를 내포한다. "다운믹스"라는 용어는 더 작은 수의 채널들로 채널들의 결합을 말한다. 이것은 종속적 서브-스트림들을 디코딩하지 않는 디코더들과의 호환성을 위해서 행해진다. 종속적 서브-스트림들은 연관된 독립적 스트림에 실리는 채널들을 대체하거나 보충하는 채널들을 나타내는 데이터를 내포한다. 채널 확장은 프로그램에 대해 14개 만큼의 채널들을 허용한다.

비트 스트림 신택스 및 연관된 처리의 추가 상세는 A/52B 문서로부터 얻어질 수 있다.

E. 블록-우선도 처리

복합적인 논리는 엔코딩된 비트 스트림을 생성하기 위해 부호화 툴들의 다양한 조합들이 사용될 때 발생하는 비트 스트림 구조에 있어 많은 변형들을 처리하고 적합하게 디코딩하기 위해 요구된다. 위에 언급된 바와 같이, 알고리즘적 설계의 상세는 ATSC 표준들에 명시되어 있지 않지만, E-AC-3 디코더들의 통상적인 구현의 보편적인 특징은 다른 채널에 대한 데이터를 디코딩하기 전에 각각의 채널에 대한 프레임 내 모든 데이터를 디코딩하는 알고리즘이다. 이 통상적 수법은 비트 스트림을 디코딩하는데 필요한 칩 내 메모리 량을 감소시키지만, 프레임의 모든 오디오 블록들에 데이터를 판독하고 조사하기 위해서 각 프레임 내 데이터에 대한 다수회 패스들을 요구한다.

통상적 수법이 도 6에 개략적으로 도시되었다. 구성요소(19)는 경로(1)로부터 수신된 엔코딩된 비트 스트림으로부터 프레임들을 파싱(parse)하고 경로(20)로부터 수신된 제어 신호들에 응하여 프레임들로부터 데이터를 추출한다. 파싱은 프레임 데이터에 대한 복수회 패스들에 의해 달성된다. 한 프레임으로부터 추출된 데이터는 구성요소(19) 밑에 있는 박스들로 나타내었다. 예를 들면, AB0-CH0로 표기된 박스는 오디오 블록(ABO) 내 채널 0을 위한 추출된 데이터를 나타내며, AB5-CH2로 표기된 박스는 오디오 블록(AB5) 내 채널 2를 위한 추출된 데이터를 나타낸다. 도면을 단순화시키기 위해서 3개의 채널들(채널 0 내지 채널 2) 및 3개의 오디오 블록들(오디오 블록 0, 오디오 블록 1, 오디오 블록 5)만이 도시되었다. 또한, 구성요소(19)는 경로(20)를 따라 프레임 메타데이터로부터 얻어진 파라미터들을 채널 처리 구성요소들(31, 32, 33)에 전달한다. 신호 경로들과, 데이터 박스들의 좌측으로의 회전 스위치들은 엔코딩된 오디오 데이터를 채널별로 순서대로 처리하기 위해 통상적인 디코더들에 의해 수행되는 논리를 나타낸다. 프로세스 채널 구성요소(31)는 오디오 블록(ABO)부터 시작하여 오디오 블록(AB5)으로 끝나는 채널(CH0)에 대해서 회전 스위치(rotary switch)(21)를 통해 엔코딩된 오디오 데이터 및 메타데이터를 수신하여, 데이터를 디코딩하고 디코딩된 데이터에 합성 필터 뱅크를 적용함으로써 출력 신호를 발생한다. 이의 처리 결과는 경로(41)를 따라 전달된다. 프로세스 채널 구성요소(32)는 회전 스위치(22)를 통해서 오디오 블록들(ABO 내지 AB5)를 위한 채널(CH1)에 대한 데이터를 수신하고, 데이터를 처리하여 이의 출력을 경로(42)를 따라 전달한다. 프로세스 채널 구성요소(33)는 회전 스위치(23)를 통해서 오디오 블록들(ABO 내지 AB5)를 위한 채널(CH2)에 대한 데이터를 수신하고, 데이터를 처리하여 이의 출력을 경로(43)를 따라 전달한다.

본 발명의 응용들은 많은 상황들에서 프레임 데이터에 대한 복수의 패스들을 제거함으로써 처리 효율을 개선시킬 수 있다. 복수의 패스들은 엔코딩된 비트 스트림을 발생하기 위해 부호화 툴들의 어떤 조합들이 사용될 때 일부 상황들에서 사용되는데, 그러나, 이하 논의되는 부호화 툴들의 어떤 조합들에 의해 발생되는 인핸스드 AC-3 비트 스트림들은 단일 패스에서 디코딩될 수 있다. 이 새로운 수법이 도 7에 개략적으로 도시되었다. 구성요소(19)는 경로(1)로부터 수신된 엔코딩된 비트 스트림으로부터 프레임들을 파싱하고 경로(20)로부터 수신된 제어 신호들에 응하여, 프레임들로부터 데이터를 추출한다. 많은 상황들에서, 파싱은 프레임 데이터에 대한 단일 패스에 의해 달성된다. 한 프레임으로부터 추출된 데이터는 도 6에 대해 위에 기술된 바와 동일한 방식으로 구성요소(19) 밑에 있는 박스들로 나타내었다. 구성요소(19)는 경로(20)를 따라 프레임 메타데이터로부터 얻어진 파라미터들을 블록 처리 구성요소들(61, 62, 63)에 전달한다. 프로세스 블록 구성요소(61)는 엔코딩된 오디오 데이터 및 메타데이터를 오디오 블록(ABO) 내 모든 채널들을 위한 회전 스위치(51)를 통해 수신하고, 데이터를 디코딩하고, 디코딩된 데이터에 합성 필터 뱅크를 적용함으로써 출력 신호를 발생한다. 채널들(CH0, CH1, CH2)에 대한 이의 처리 결과들은 회전 스위치(71)를 통해서 각각 적합한 출력 경로(41, 42, 43)에 전달된다. 프로세스 블록 구성요소(62)는 오디오 블록(AB1)에 모든 채널들에 대한 데이터를 회전 스위치(52)를 통해 수신하고, 데이터를 처리하고, 이의 출력을 회전 스위치(72)를 통해 각 채널에 대해 적합한 출력 경로에 보낸다. 프로세스 블록 구성요소(63)는 오디오 블록(AB5)에 모든 채널들에 대한 데이터를 회전 스위치(53)를 통해 수신하고, 데이터를 처리하고, 이의 출력을 회전 스위치(73)를 통해 각 채널에 대해 적합한 출력 경로에 보낸다.

본 발명의 여러 면들이 프로그램 단편들을 사용하여 이하 논의되고 예시된다. 이들 프로그램 단편들은 실제적이거나 최적의 구현들이 되게 한 것이 아니라 단지 예시적 예들이다. 예를 들면, 프로그램 명령문들의 순서는 명령문들의 몇몇을 서로 바꿈으로써 변경될 수도 있다.

1. 일반 프로세스

본 발명의 고 수준의 예시를 다음 프로그램 단편에 나타내었다.

(1.1) determine start of a frame in bit stream S

(1.2) for each frame N in bit stream S

(1.3) unpack metadata in frame N

(1.4) get parameters from unpacked frame metadata

(1.5) determine start of first audio block K in frame N

(1.6) for audio block K in frame N

(1.7) unpack metadata in block K

(1.8) get parameters from unpacked block metadata

(1.9) determine start of first channel C in block K

(1.10) for channel C in block K

(1.11) unpack and decode exponents

(1.12) unpack and dequantize mantissas

(1.13) apply synthesis filter to decoded audio data for channel C

(1.14) determine start of channel C+1 in block K

(1.15) end for

(1.16) determine start of block K+1 in frame N

(1.17) end for

(1.18) determine start of next frame N+1 in bit stream S

(1.19) end for

명령문 (1.1)은 SI 정보에 실린 동기화 패턴과 일치하는 한 스트링의 비트들이 있는지에 대해 비트 스트림을 스캔한다. 동기화 패턴이 발견되었을 때, 비트 스트림에 프레임의 시작부분이 판정되었다.

명령문들 (1.2) 및 (1.19)은 비트 스트림내 각 프레임에 대해 수행될 디코딩 프로세스를, 혹은 어떤 다른 수단에 의해 디코딩 프로세스가 중지될 때까지 제어한다. 명령문들 (1.3) 내지 (1.18)는 엔코딩된 비트 스트림 내 프레임을 디코딩하는 프로세스들을 수행한다.

명령문들 (1.3) 내지 (1.5)은 프레임 내 메타데이터를 언팩하고, 언팩된 메타데이터로부터 디코딩 파라미터들을 얻으며, 프레임 내 제 1 오디오 블록 K에 대해서 비트 스트림 내에서 데이터가 시작하는 위치를 판정한다. 명령문 (1.16)은 프레임 내 어떤 후속 오디오 블록이든 있다면 비트 스트림내 다음 오디오 블록의 시작부분을 판정하다.

명령문 (1.6) 및 명령문 (1.17)은 프레임 내 각 오디오 블록에 대해 디코딩 프로세스가 수행되게 한다. 명령문들 (1.7) 내지 (1.15)은 프레임 내 오디오 블록을 디코딩하는 프로세스들을 수행한다. 명령문 (1.7) 내지 명령문 (1.9)은 오디오 블록 내 메타데이터를 언팩하고, 언팩된 메타데이터로부터 디코딩 파라미터들을 얻고, 제 1 채널에 대해 데이터가 어디에서 시작하는지를 판정한다.

명령문들 (1.10) 및 (1.15)은 오디오 블록 내 각 채널에 대해 디코딩 프로세스가 수행되게 한다. 명령문들 (1.11) 내지 (1.13)은 지수들을 언팩하여 디코딩하고, 디코딩된 지수들을 사용하여 각 양자화된 가수를 언팩하고 역양자화하기 위한 비트 할당을 결정하고, 역양자화된 가수들에 합성 필터 뱅크를 적용한다. 명령문 (1.14)은 프레임에 어떤 후속되는 채널이든 있다면, 다음 채널에 대한 데이터가 시작하는 비트 스트림 내 위치를 판정한다.

프로세스의 구조는 엔코딩된 비트 스트림을 발생하기 위해 사용되는 서로 다른 부호화 기술들을 수용하기 위해 여러 가지이다. 몇가지 변형들이 이하 프로그램 단편들에서 논의되고 예시된다. 다음 프로그램 단편들의 설명은 선행 프로그램 단편을 위해 기술된 상세의 일부를 생략한다.

2. 스펙트럼 확장

스펙트럼 확장(SPX)이 사용될 때, 확장 프로세스가 시작하는 오디오 블록은 프레임에서 SPX를 사용하는 다른 오디오 블록들뿐만 아니라 시작 오디오 블록에서 SPX를 위해 필요한 공유된 파라미터들을 내포한다. 공유된 파라미터들은 프로세스에 관여하는 채널들의 확인, 스펙트럼 확장 주파수 범위, 및 각 채널에 대해 SPX 스펙트럼 엔벨로프가 시간 및 주파수에 걸쳐 어떻게 공유되는가를 포함한다. 이들 파라미터들은 SPX의 사용을 시작하는 오디오 블록로부터 언팩되고 프레임 내 후속 오디오 블록들에서 SPX를 처리하는데 사용하기 위해 메모리에 혹은 컴퓨터 레지스터들에 저장된다.

프레임이 SPX를 위한 하나 이상의 시작 오디오 블록을 갖는 것이 가능하다. 오디오 블록은 이 오디오 블록에 대한 메타데이터가 SPX가 사용됨을 나타낸다면, 그리고 프레임 내 선행 오디오 블록에 대한 메타데이터가 SPX가 사용되지 않음을 나타내거나 오디오 블록이 프레임 내 제 1 블록이라면 SPX를 시작한다.

SPX를 사용하는 각 오디오 블록은 이 오디오 블록에서 스펙트럼 확장 처리를 위해 사용되는 SPX 코디네이트들이라고 하는 SPX 스펙트럼 엔벨로프를 포함하거나, 이전 블록에 대한 SPX 코디네이트들이 사용될 것임을 나타내는 "재사용" 플래그를 포함한다. 블록 내 SPX 코디네이트들은 언팩되고 후속 오디오 블록들에서 SPX 동작에 의한 있을 수 있는 재사용을 위해 보존된다.

다음 프로그램 단편은 SPX를 사용하는 오디오 블록들이 처리될 수 있는 한 방법을 예시한다.

(2.1) determine start of a frame in bit stream S

(2.2) for each frame N in bit stream S

(2.3) unpack metadata in frame N

(2.4) get parameters from unpacked frame metadata

(2.5) if SPX frame parameters are present then unpack SPX frame parameters

(2.6) determine start of first audio block K in frame N

(2.7) for audio block K in frame N

(2.8) unpack metadata in block K

(2.9) get parameters from unpacked block metadata

(2.10) if SPX block parameters are present then unpack SPX block parameters

(2.11) for channel C in block K

(2.12) unpack and decode exponents

(2.13) unpack and dequantize mantissas

(2.14) if channel C uses SPX then

(2.15) extend bandwidth of channel C

(2.16) end if

(2.17) apply synthesis filter to decoded audio data for channel C

(2.18) determine start of channel C+1 in block K

(2.19) end for

(2.20) determine start of block K+1 in frame N

(2.21) end for

(2.22) determine start of next frame N+1 in bit stream S

(2.23) end for

명령문 (2.5)은 프레임 메타데이터에 어떠한 것이든 있다면 이 프레임 메타데이터로부터 SPX 프레임 파라미터들을 언팩한다. 명령문 (2.10)은 블록 메타데이터에 어떠한 것이든 있다면 이 블록 메타데이터로부터 SPX 블록 파라미터들을 언팩한다. 블록 SPX 파라미터들은 블록에 하나 이상의 채널들에 대한 SPX 코디네이트들들을 포함할 수 있다.

명령문들 (2.12) 및 (2.13)은 지수들을 언팩하고 디코딩하며 디코딩된 지수들을 사용하여 각 양자화된 가수를 언팩 및 역양자화할 비트 할당을 결정한다. 명령문 (2.14)은 현 오디오 블록내 채널 C가 SPX를 사용하는지를 판정한다. 이것이 SPX를 사용한다면, 명령문 (2.15)은 채널 C의 대역폭을 확장하기 위해 SPX 처리를 적용한다. 이 프로세스는 명령문 (2.17)에서 적용되는 합성 필터 뱅크에 입력되는 채널 C에 대한 스펙트럼 성분들을 제공한다.

3. 적응형 하이브리드 변환

적응형 하이브리드 변환(AHT)이 사용될 때, 프레임내 제 1 오디오 블록(ABO)은 DCT-II 변환에 의해 처리된 각 채널에 대해 모든 하이브리드 변환계수들을 내포한다. 그외 모든 채널들에 있어서, 프레임 내 6개의 오디오 블록들 각각은 MDCT 분석 필터 뱅크에 의해 생성되는 256개만큼의 스펙트럼 계수들을 내포한다.

예를 들면, 엔코딩된 비트 스트림은 좌측, 중앙, 우측 채널들을 위한 데이터를 내포한다. 좌측 및 우측 채널들이 AHT에 의해 처리되고 중앙 채널이 AHT에 의해 처리되지 않을 때, 오디오 블록(ABO)은 좌측 및 우측 채널들 각각에 대한 모든 하이브리드 변환계수들을 내포하며, 중앙 채널을 위한 256 개만큼의 MDCT 스펙트럼 계수들을 내포한다. 오디오 블록들(AB1 내지 AB5)은 중앙 채널을 위한 MDCT 스펙트럼 계수들을 내포하며 좌측 및 우측 채널들을 위해선 어떠한 계수들도 내포하지 않는다.

다음 프로그램 단편은 AHT 계수들을 가진 오디오 블록들이 처리될 수 있는 한 방법을 예시한다.

(3.1) determine start of a frame in bit stream S

(3.2) for each frame N in bit stream S

(3.3) unpack metadata in frame N

(3.4) get parameters from unpacked frame metadata

(3.5) determine start of first audio block K in frame N

(3.6) for audio block K in frame N

(3.7) unpack metadata in block K

(3.8) get parameters from unpacked block metadata

(3.9) determine start of first channel C in block K

(3.10) for channel C in block K

(3.11) if AHT is in use for channel C then

(3.12) if K=0 then

(3.13) unpack and decode exponents

(3.14) unpack and dequantize mantissas

(3.15) apply inverse secondary transform to exponents and mantissas

(3.16) store MDCT exponents and mantissas in buffer

(3.17) end if

(3.18) get MDCT exponents and mantissas for block K from buffer

(3.19) else

(3.20) unpack and decode exponents

(3.21) unpack and dequantize mantissas

(3.22) end if

(3.23) apply synthesis filter to decoded audio data for channel C

(3.24) determine start of channel C+1 in block K

(3.25) end for

(3.26) determine start of block K+1 in frame N

(3.27) end for

(3.28) determine start of next frame N+1 in bit stream S

(3.29) end for

명령문 (3.11)은 AHT가 채널 C에 대해 사용되고 있는지를 판정한다. 이것이 사용되고 있다면, 명령문 (3.12)은 제 1 오디오 블록(ABO)이 처리되고 있는지를 판정한다. 제 1 오디오 블록이 처리되고 있다면, 명령문들 (3.13) 내지 (3.16)은 채널 C에 대한 모든 AHT 계수들을 얻고, AHT 계수들에 역 2차 변환 또는 IDCT-II을 적용하여 MDCT 스펙트럼 계수들을 얻으며, 이들을 버퍼에 저장한다. 이들 스펙트럼 계수들은 AHT가 사용되고 있지 않은 채널들에 대해 명령문들 (3.20) 및 (3.21)에 의해 얻어지는 지수들 및 역양자화된 가수들에 대응한다. 명령문 (3.18)은 처리되고 있는 오디오 블록(K)에 대응하는 MDCT 스펙트럼 계수들의 지수들 및 가수들을 얻는다. 예를 들면, 제 1 오디오 블록 (K=0)이 처리되고 있다면, 제 1 블록에 대해 한 세트의 MDCT 스펙트럼 계수들에 대한 지수들 및 가수들은 버퍼로부터 얻어진다. 예를 들면, 제 2 오디오 블록 (K=l)이 처리되고 있다면, 제 2 블록에 대한 한 세트의 MDCT 스펙트럼 계수들에 대한 지수들 및 가수들은 버퍼로부터 얻어진다.

4. 스펙트럼 확장 및 적응형 하이브리드 변환

SPX 및 AHT는 동일 채널들에 대한 엔코딩된 데이터를 발생하기 위해 사용될 수 있다. 스펙트럼 확장 및 하이브리드 변환 처리에 대해 개별적으로 위에서 논의된 논리는 SPX가 사용되거나, AHT가 사용되거나, SPX 및 AHT 둘 다가 사용되는 채널들을 처리하기 위해 결합될 수도 있다.

다음 프로그램 단편은 SPX 및 AHT 계수들을 가진 오디오 블록들이 처리될 수 있는 한 방법을 도시한 것이다.

(4.1) start of a frame in bit stream S

(4.2) for each frame N in bit stream S

(4.3) unpack metadata in frame N

(4.4) get parameters from unpacked frame metadata

(4.5) if SPX frame parameters are present then unpack SPX frame parameters

(4.6) determine start of first audio block K in frame N

(4.7) for audio block K in frame N

(4.8) unpack metadata in block K

(4.9) get parameters from unpacked block metadata

(4.10) if SPX block parameters are present then unpack SPX block parameters

(4.11) for channel C in block K

(4.12) if AHT in use for channel C then

(4.13) if K=0 then

(4.14) unpack and decode exponents

(4.15) unpack and dequantize mantissas

(4.16) apply inverse secondary transform to exponents and mantissas

(4.17) store inverse secondary transform exponents and mantissas in buffer

(4.18) end if

(4.19) get inverse secondary transform exponents and mantissas for block K from buffer

(4.20) else

(4.21) unpack and decode exponents

(4.22) unpack and dequantize mantissas

(4.23) end if

(4.24) if channel C uses SPX then

(4.25) extend bandwidth of channel C

(4.26) end if

(4.27) apply synthesis filter to decoded audio data for channel C

(4.28) determine start of channel C+1 in block K

(4.29) end for

(4.30) determine start of block K+1 in frame N

(4.31) end for

(4.32) determine start of next frame N+1 in bit stream S

(4.33) end for

명령문 (4.5)는 프레임 메타데이터에 어떠한 것이든 있다면 이 메타데이터로부터 SPX 프레임 파라미터들을 언팩한다. 명령문 (4.10)는 블록 메타데이터에 어떠한 것이든 있다면 블록 메타데이터로부터 SPX 프레임 파라미터들을 언팩한다. 블록 SPX 파라미터들은 블록 내 하나 이상의 채널들에 대한 SPX 코디네이트들을 포함할 수 있다.

명령문 (4.12)는 AHT가 채널 C에 대해 사용되는지를 판정한다. AHT가 채널 C에 대해 사용된다면, 명령문 (4.13)은 이것이 제 1 오디오 블록인지를 판정한다. 이것이 제 1 오디오 블록이라면, 명령문들 (4.14) 내지 (4.17)은 채널 C에 대한 모든 AHT 계수들을 얻고, AHT 계수들에 역 2차 변환 또는 IDCT-II을 적용하여 역 2차 변환계수들을 얻고, 이들을 버퍼에 저장한다. 명령문 (4.19)은 처리되고 있는 오디오 블록 K에 대응하는 역 2차 변환계수들의 지수들 및 가수들을 얻는다.

AHT이 채널 C에 대해 사용되고 있지 않다면, 명령문들 (4.21) 및 (4.22)는 프로그램 명령문들 (1.11) 및 (1.12)에 대해 위에 논의된 블록 K에 채널 C 에 대한 지수들 및 가수들을 언팩하여 얻는다.

명령문 (4.24)는 현재 오디오 블록에 채널 C가 SPX를 사용하는지를 판정한다. 이것이 SPX를 사용한다면, 명령문 (4.25)는 SPX 처리를 역 2차 변환계수들에 적용하여 대역폭을 확장함으로써 채널 C의 MDCT 스펙트럼 계수들을 얻는다. 이 프로세스는 명령문 (4.27)에서 적용된 합성 필터 뱅크에 입력되는 채널 C에 대한 스펙트럼 성분들을 제공한다. SPX 처리가 채널 C에 대해 사용되지 않는다면, MDCT 스펙트럼 계수들은 역 2차 변환계수들로부터 직접 얻어진다.

5. 커플링 및 적응형 하이브리드 변환

채널 커플링 및 AHT는 동일 채널들에 대해 엔코딩된 데이터를 발생하기 위해 사용될 수 있다. 본질적으로 스펙트럼 확장 및 하이브리드 변환 처리에 대해 위에서 논의된 동일 논리는 위에서 논의된 SPX 처리의 상세가 채널 커플링에 대해 수행되는 처리에 적용하기 때문에 채널 커플링 및 AHT를 사용하여 비트 스트림들을 처리하는데 사용될 수 있다.

다음 프로그램 단편은 커플링 및 AHT 계수들을 가진 오디오 블록들이 처리될 수 있는 한 방법을 예시한다.

(5.1) start of a frame in bit stream S

(5.2) for each frame N in bit stream S

(5.3) unpack metadata in frame N

(5.4) get parameters from unpacked frame metadata

(5.5) if coupling frame parameters are present then unpack coupling frame parameters

(5.6) determine start of first audio block K in frame N

(5.7) for audio block K in frame N

(5.8) unpack metadata in block K

(5.9) get parameters from unpacked block metadata

(5.10) if coupling block parameters are present then unpack coupling block parameters

(5.11) for channel C in block K

(5.12) if AHT in use for channel C then

(5.13) if K=0 then

(5.14) unpack and decode exponents

(5.15) unpack and dequantize mantissas

(5.16) apply inverse secondary transform to exponents and mantissas

(5.17) store inverse secondary transform exponents and mantissas in buffer

(5.18) end if

(5.19) get inverse secondary transform exponents and mantissas for block K from buffer

(5.20) else

(5.21) unpack and decode exponents for channel C

(5.22) unpack and dequantize mantissas for channel C

(5.23) end if

(5.24) if channel C uses coupling then

(5.25) if channel C is first channel to use coupling then

(5.26) if AHT in use for the coupling channel then

(5.27) if K=0 then

(5.28) unpack and decode coupling channel exponents

(5.29) unpack and dequantize coupling channel mantissas

(5.30) apply inverse secondary transform to coupling channel

(5.31) store inverse secondary transform coupling channel exponents and mantissas in buffer

(5.32) end if

(5.33) get coupling channel exponents and mantissas for block K from buffer

(5.34) else

(5.35) unpack and decode coupling channel exponents

(5.36) unpack and dequantize coupling channel mantissas

(5.37) end if

(5.38) end if

(5.39) obtain coupled channel C from coupling channel

(5.40) end if

(5.41) apply synthesis filter to decoded audio data for channel C

(5.42) determine start of channel C+1 in block K

(5.43) end for

(5.44) determine start of block K+1 in frame N

(5.45) end for

(5.46) determine start of next frame N+1 in bit stream S

(5.47) end for

명령문 (5.5)는 프레임 메타데이터에 어떠한 것이든 있다면 프레임 메타데이터로부터 채널 커플링 파라미터들을 언팩한다. 명령문 (5.10)은 블록 메타데이터에 어떠한 것이든 있다면 블록 메타데이터로부터 채널 커플링 파라미터들을 언팩한다. 이들이 있다면, 커플링 코디네이트들은 블록 내 커플링된 채널들에 대해서 얻어진다.

명령문 (5.12)는 AHT가 채널 C에 대해 사용되고 있는지는 판정한다. AHT가 사용되고 있다면, 명령문 (5.13)는 이것이 제 1 오디오 블록인지를 판정한다. 이것이 제 1 오디오 블록이라면, 명령문들 (5.14) 내지 (5.17)는 채널 C에 대한 모든 AHT 계수들을 얻고, AHT 계수들에 역 2차 변환 또는 IDCT-II을 적용하여 역 2차 변환계수들을 얻으며, 이들을 버퍼에 저장한다. 명령문 (5.19)는 처리되고 있는 오디오 블록 K에 대응하는 역 2차 변환계수들의 지수들 및 가수들을 얻는다.

AHT가 채널 C에 대해 사용되지 않는다면, 명령문들 (5.21) 및 (5.22)는 프로그램 명령문들 (1.11) 및 (1.12)에 대해 위에서 논의된 바와 같이 블록 K 에 채널 C에 대한 지수들 및 가수들을 언팩하여 얻는다.

명령문 (5.24)은 채널 커플링이 채널 C에 대해 사용되는지를 판정한다. 이것이 사용되고 있다면, 명령문 (5.25)는 채널 C가 커플링을 사용하기 위해 블록 내 제 1 채널인지를 판정한다. 그러하다면, 커플링 채널을 위한 지수들 및 가수들은 명령문들 (5.26) 내지 (5.33)에 보인 바와 같이 커플링 채널 지수들 및 가수들에 역 2차 변환을 적용하거나, 명령문들 (5.35) 및 (5.36)에 보인 바와 같이 비트 스트림 내 데이터로부터 얻어진다. 커플링 채널 가수들을 나타내는 데이터는 채널 C의 가수들을 나타내는 데이터 바로 다음에 비트 스트림 내에 놓여진다. 명령문 (5.39)는 채널 C에 대한 적합한 커플링 코디네이트들을 사용하여 커플링된 채널 C를 커플링 채널로부터 도출한다. 채널 커플링이 채널 C에 대해 사용되지 않는다면, MDCT 스펙트럼 계수들은 역 2차 변환계수들로부터 직접 얻어진다.

6. 스펙트럼 확장, 커플링 및 적응형 하이브리드 변환

스펙트럼 확장, 채널 커플링 및 AHT는 모두 동일 채널들에 대해 엔코딩된 데이터를 발생하기 사용될 수 있다. 스펙트럼 확장 및 커플링에 AHT 처리의 조합들에 대해 위에서 논의된 논리는 8가지 있을 수 있는 상황들을 취급하는데 필요한 추가의 논리를 포함함으로써 3개의 부호화 툴들의 임의의 조합을 사용하여 채널들을 처리하기 위해 조합될 수 있다. 채널 디커플링을 위한 처리는 SPX 처리를 수행하기 전에 수행된다.

F. 구현

본 발명의 여러 가지 면들을 포함하는 장치들은 범용 컴퓨터에서 볼 수 있는 것들과 유사한 구성요소들에 결합되는 디지털 신호 프로세서(DSP) 회로와 같은 보다 전용의 구성요소들을 포함하는 컴퓨터 혹은 그외 어떤 다른 장치에 의한 실행을 위한 소프트웨어를 포함하는 다양한 방법들로 구현될 수 있다. 도 8은 본 발명의 면들을 구현하기 위해 사용될 수 있는 장치(90)의 개략적 블록도이다. 프로세서(92)는 계산 자원을 제공한다. RAM(93)은 처리를 위해 프로세서(92)에 의해 사용되는 시스템 랜덤 액세스 메모리(RAM)이다. ROM(94)은 장치(90)를 동작시키는데 필요한 프로그램들을 저장하고 아마도 본 발명의 여러 가지 면들을 수행하기 위한 판독전용 메모리(ROM)와 같은 어떤 형태의 영구적 저장장치를 나타낸다. I/O 콘트롤(95)은 통신 채널들 1, 16에 의해 신호들을 수신하고 송신하기 위한 인터페이스 회로를 나타낸다. 제시된 실시예에서, 모든 주요 시스템 구성요소들은 버스(91)에 연결하는데, 이것은 하나 이상의 물리적 혹은 논리적 버스를 나타낼 수 있는데, 그러나, 본 발명을 구현하기 위해 버스 아키텍처는 요구되지 않는다.

범용 컴퓨터 시스템에 의해 구현되는 실시예들에서, 키보드 또는 마우스 또는 디스플레이와 같은 장치들과 인터페이스하기 위해서, 그리고 자기 테이프 또는 디스크, 혹은 광학 매체와 같은 저장매체를 구비한 저장장치를 제어하기 위해서 추가의 구성요소들이 포함될 수 있다. 저장매체는 운영 시스템들, 유틸리티들 및 애플리케이션들을 위한 명령들의 프로그램들을 기록하기 위해 사용될 수 있고, 본 발명의 여러 면들을 구현하는 프로그램들을 포함할 수 있다.

본 발명의 여러 면들을 실시하는데 필요한 기능들은 이산 논리 구성요소들, 집적회로들, 하나 이상의 주문형 반도체(ASIC)들 및/또는 프로그램으로 제어되는 프로세서들을 포함한 매우 다양한 방법들로 구현되는 구성요소들에 의해 수행될 수 있다. 이들 구성요소들이 구현되는 방법은 본 발명에 중요하지 않다.

본 발명의 소프트웨어 구현들은 기저대 또는 초음속 내지 자외 주파수들을 포함한 스펙트럼 전체에 걸쳐 변조된 통신 경로들과 같은 다양한 기계 판독가능 매체나, 자기 테이프, 카드들 또는 디스크, 광학 카드들 또는 디스크, 및 종이를 포함한 매체들 상에 검출가능 마킹들을 포함한 본질적으로 임의의 기록 기술을 사용하여 정보를 전달하는 저장매체에 의해 전달될 수 있다.

2: 분석 필터 뱅크
3: 비트 할당기
4: 양자화기
5: 포맷터
12: 디포맷터
13: 비트 할당기
14: 역양자화기
15: 합성 필터 뱅크

Claims

엔코딩된 디지털 오디오 신호의 프레임을 디코딩하는 방법에 있어서,
상기 프레임은 프레임 메타데이터, 제 1 오디오 블록 및 하나 이상의 후속 오디오 블록들을 포함하며,
상기 제 1 및 후속 오디오 블록들 각각은 두개 이상의 오디오 채널들에 대한 블록 메타데이터 및 엔코딩된 오디오 데이터를 포함하며,
상기 엔코딩된 오디오 데이터는 상기 두개 이상의 오디오 채널들의 스펙트럼 성분을 나타내는 스케일 팩터들 및 스케일링된 값들을 포함하며, 각각의 스케일링된 값은 상기 스케일 팩터들 각각에 연관되며
상기 블록 메타데이터는 상기 엔코딩된 오디오 데이터를 생성하였던 엔코딩 프로세스에 의해 사용되는 부호화 툴들을 기술하는 제어 정보를 포함하며,
상기 부호화 툴들은,
1차 변환계수들을 생성하기 위하여, 1차 변환에 의해 구현된 분석 필터 뱅크를 상기 두개 이상의 오디오 채널들에 적용하는 것과,
하이브리드 변환계수들을 생성하기 위하여, 상기 두개 이상의 오디오 채널들 중 적어도 일부에대한 상기 1차 변환계수들에 2차 변환을 적용하는 것을 포함하는 적응형 하이브리드 변환 처리를 포함하며
상기 방법은,
(A) 상기 엔코딩된 디지털 오디오 신호의 상기 프레임을 수신하는 단계 및
(B) 각 오디오 블록에 대한 상기 엔코딩된 오디오 데이터를 블록별로 순서대로 디코딩하기 위해, 상기 프레임의 상기 엔코딩된 디지털 오디오 신호를 조사하는 단계를 포함하며,
각각의 오디오 블록의 상기 디코딩은,
(1) 상기 엔코딩된 오디오 데이터 중 어느 데이터를 엔코딩하기 위해 상기 엔코딩 프로세스가 적응형 하이브리드 변환 처리를 사용하였는지를 상기 두개 이상의 채널들의 각각의 채널마다 판정하는 단계
(2) 상기 엔코딩 프로세스가 상기 각각의 채널에 대해 적응형 하이브리드 변환 처리를 사용하였다면:
(a) 상기 각각의 오디오 블록이 상기 프레임 내의 상기 제 1 오디오 블록인 경우: (i) 상기 제 1 오디오 블록 내의 상기 엔코딩된 오디오 데이터로부터 상기 프레임에 대한 상기 각각의 채널의 모든 하이브리드 변환계수들을 획득하고, (ii) 역 2차 변환계수들을 획득하기 위하여, 상기 하이브리드 변환계수들에 역 2차 변환을 적용하며,
(b) 상기 각각의 오디오 블록 내의 상기 각각의 채널에 대한 상기 역 2차 변환계수들로부터 1차 변환계수들을 획득하는 단계
(3) 상기 엔코딩 프로세스가 상기 각각의 채널에 대한 적응형 하이브리드 변환 처리를 사용하지 않았다면, 상기 각각의 오디오 블록 내의 상기 엔코딩된 데이터를 디코딩함으로써 상기 각각의채널에 대한 1차 변환계수들을 획득하는 단계 및
(C) 상기 각각의 오디오 블록 내의 상기 각각의 채널을 나타내는 출력 신호를 생성하기 위하여, 상기 1차 변환계수들에 역 1차 변환을 적용하는 단계를 포함하는 것을 특징으로 하는 디코딩하는 방법.
제1항에 있어서,
상기 엔코딩된 디지털 오디오 신호의 상기 프레임은 인핸스드 AC-3 비트 스트림 신택스에 따르는 것을 특징으로 하는 디코딩하는 방법.
제2항에 있어서,
상기 부호화 툴들은 스펙트럼 확장 처리를 포함하며,
각각의 오디오 블록의 상기 디코딩은,
상기 엔코딩된 오디오 데이터 중 어느 데이터를 디코딩하기 위해 상기 디코딩 프로세스가 스펙트럼 확장 처리를 사용해야 할지를 판정하는 단계 및
스펙트럼 확장 처리가 사용되어야 한다면, 확장된 대역폭을 가진 1차 변환계수들을 획득하기 위하여 상기 역 2차 변환계수들로부터 하나 이상의 스펙트럼 성분들을 합성하는 단계를 더 포함하는 것을 특징으로 하는 디코딩하는 방법.
제2항에 있어서,
상기 부호화 툴들은 채널 커플링을 포함하며,
각각의 오디오 블록의 상기 디코딩은,
상기 엔코딩된 오디오 데이터 중 어느 데이터를 엔코딩하기 위해 상기 엔코딩 프로세스가 채널 커플링을 사용하였는지를 판정하는 단계 및
상기 엔코딩 프로세스가 채널 커플링을 사용하였다면, 커플링된 채널들에 대한 1차 변환계수들을 획득하기 위해 상기 역 2차 변환계수들로부터 스펙트럼 성분들을 도출하는 단계를 더 포함하는 것을 특징으로 하는 디코딩하는 방법.
제3항에 있어서,
상기 부호화 툴들은 채널 커플링을 포함하며,
각각의 오디오 블록의 상기 디코딩은,
상기 엔코딩된 오디오 데이터 중 어느 데이터를 엔코딩하기 위해 상기 엔코딩 프로세스가 채널 커플링을 사용하였는지를 판정하는 단계 및
상기 엔코딩 프로세스가 채널 커플링을 사용하였다면, 커플링된 채널들에 대한 1차 변환계수들을 획득하기 위해 상기 역 2차 변환계수들로부터 스펙트럼 성분들을 도출하는 단계를 더 포함하는 것을 특징으로 하는 디코딩하는 방법.
엔코딩된 디지털 오디오 신호의 프레임을 디코딩하는 장치로서, 상기 장치는 제1항 내지 제5항 중 어느 한 항의 모든 단계들을 수행하는 수단을 포함하는 것을 특징으로 하는 디코딩하는 장치.
엔코딩된 디지털 오디오 신호의 프레임을 디코딩하기 위한 방법을 수행하는 장치에 의해 실행될 수 있는 명령들의 프로그램을 기록하는 저장매체로서, 상기 방법은 제1항 내지 제5항 중 어느 한 청구항의 모든 단계들을 포함하는 것을 특징으로 하는 저장매체.
삭제
삭제
삭제