KR20070051915A

KR20070051915A - 스테레오 호환성의 멀티채널 오디오 코딩

Info

Publication number: KR20070051915A
Application number: KR1020077006367A
Authority: KR
Inventors: 하이코 푸른하겐; 제뢴 브레바트; 에릭 슈이예르스; 라르스 빌레뫼스; 조나스 로덴; 조나스 엔그데가아드
Original assignee: 코딩 테크놀러지스 에이비; 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2004-11-02
Filing date: 2005-10-31
Publication date: 2007-05-18
Also published as: US20060133618A1; EP1784819A1; CN101036183A; US7916873B2; JP2008519301A; DE602005006424D1; HK1106606A1; ES2306235T3; CN101036183B; ATE393951T1; JP4616349B2; TW200627379A; RU2381570C2; US20110211703A1; TWI330825B; KR100936498B1; DE602005006424T2; EP1784819B1; SE0402650D0; WO2006048226A1

Abstract

멀티채널 오디오 신호의 복구를 계산하기 위해 모노포닉 다운믹스 신호와 함께 사용되기에 적당한 파라미터를 갖는 멀티채널 오디오신호의 파라미터 표현(12)이 스테레오 하향호환성 있게 효율적으로 유도된다. 파라미터 결합기(18)가 하나 또는 그 이상의 공간 파라미터(20)와 스테레오 파라미터(22)를 결합하여 하나의 파라미터 표현(12)을 생성한다. 이 파라미터 표현(12)은 디코더에서 사용할 수 있는 스테레오 파라미터(24)와, 하나 또는 그 이상의 공간 파라미터(26)에 관한 정보로 구성된다. 공간 파라미터(26)에 관한 정보는 디코더에서 사용할 수 있는 스테레오 파라미터(24)와 함께 하나 또는 그 이상의 공간 파라미터(20)를 표시한다.

멀티채널 오디오신호, 파라미터 표현, 스테레오 파라미터, 공간 파라미터

Description

스테레오 호환성의 멀티채널 오디오 코딩{Stereo compatible multi-channel audio coding}

본 발명은 멀티채널 오디오 코딩에 관한 것이며, 특히 파라메트릭 스테레오 재생 환경에 대해 완전한 하향호환성을 갖는 멀티채널 오디오 신호의 파라미터 표현을 발생 및 사용하는 방법에 관한 것이다.

본 발명은 공간 오디오 파라미터를 사용하는 오디오신호의 멀티채널 표현을 파라메트릭 스테레오 파라미터를 사용하는 2-채널 스테레오 신호의 코딩와 호환성이 있게 코딩하는 것에 관련된다. 본 발명은 공간 오디오 파라미터와 파라메트릭 스테레오 파라미터에 대한 효율적인 코딩 방법 및 코딩된 파라미터들을 하향 호환성 있게 비트스트림 내에 끼워넣는 방법을 새로이 제안한다. 특히 본 발명은 디코딩된 스테레오 또는 멀티채널 오디오신호의 품질을 손상시키지 않으면서 하향 호환성 있는 비트스트림에 존재하는 파라메트릭 스테레오 및 공간 오디오 파라미터에 대한 전체 비트율을 최소화하는 것을 목표로 한다. 만일 디코딩된 스테레오 신호에 약간의 품질 손상이 허용될 수 있다면, 전체 비트율은 상당히 감소할 수 있다.

최근, 멀티채널 오디오 재생기술이 더욱더 중요해지고 있다. 5개 또는 그 이상의 채널을 가진 멀티채널 오디오신호를 효율적으로 전송할 목적으로 스테레오 또는 멀티채널 신호를 압축하는 몇 가지 방법이 개발되었다. 멀티채널 오디오신호를 파라메트릭 코딩하는 최신 방법들[파라메트릭 스테레오(PS), 바이노럴 큐 코딩(BCC) 등]은 다운-믹스 신호(모노포닉 신호로 되거나 수 개의 채널을 포함할 수 있음) 및 사운드스테이지 공간 지각 특성을 대표하는 파라메트릭 부수 정보("공간 큐"라고도 부름)를 통해 멀티채널 오디오신호를 표현한다.

멀티채널 인코딩 장치는 일반적으로 입력으로서 적어도 2개 채널을 수신하고, 하나 또는 그 이상의 캐리어 채널 및 파라메트릭 데이터를 출력한다. 파라메트릭 데이터는 디코더에서 원시 멀티채널 신호의 근사가 계산됨으로써 유도된다. 일반적으로, 캐리어 채널은 기본신호를 비교적 미세하게 표현하는 서브밴드 샘플, 공간 계수, 시간 영역 샘플 등을 포함하는 반면, 파라메트릭 데이터는 그와 같은 공간 계수 샘플들을 포함하지 않고 대신 소정의 복구 알고리즘을 제어하기 위한 제어 파라미터를 포함한다. 복구 알고리즘은 곱에 의한 가중, 시간 편이, 주파수 편이 등을 포함할 수 있다. 따라서, 파라미터 데이터는 신호 또는 관련 채널의 비교적 정확하지 않은 표현만을 포함한다.

바이노럴 큐 코딩(BCC) 방법은 AES 총회 논문 5574호 "Binaural cue coding applied to stereo and multi-channel audio compression", C. Faller, F. Baumgarte, May 2002, Munich, 및 ICASSP 협회지 논문 "Estimation of auditory spatial cues for binaural cue coding" 및 "Binaural cue coding: a normal and efficient representation of spatial audio", C. Faller, F. Baumgarte, Orlando, FL, May 2002 에 설명되어 있다.

BCC 코딩 방법에서, 다수의 오디오 입력채널은 윈도 중첩과 함께 DFT(Discrete Fourier Transform:이산 프리에 변환) 기반 변환방법을 사용하여 스펙트럼 표현으로 변환된다. 그 결과로 생긴 균일한 스펙트럼은 비중첩 파티션으로 분할된다. 각 파티션은 동등 직각 대역폭(ERB:equivalent rectangular bandwidth)에 비례한 대역폭을 갖는다. 채널간 레벨 차(ICLD:Inter-Channel Level Difference) 및 채널간 시간 차(ICTD: Inter-Channel Time Difference)라 칭하는 공간 파라미터가 각 파티션 별로 계산된다. ICLD 파라미터는 2개 채널간의 레벨 차를 기술한 것이며 ICTD 파라미터는 서로 다른 채널의 2개 신호 사이의 시간 차(위상 변화)를 기술한 것이다. 채널간 레벨 차 및 채널간 시간 차가 기준 채널에 비례하여 각 채널에 주어진다. 이들 파라미터가 유도되고 나서 파라미터는 양자화되고 최종 전송을 위해 코딩된다.

ICLD 파라미터와 ICTD 파라미터가 가장 중요한 음원 국소화 파라미터를 대표하고 있지만, 이들 파라미터를 사용한 공간 표현은 부가적인 파라미터를 도입함으로써 향상될 수 있다.

관련된 기술로서, "파라메트릭 스테레오"라 부르는 기술은 전송된 모노 신호와 파라미터 부수 정보에 근거한 2-채널 스테레오 신호의 파라메트릭 코딩에 대한 것이다. 채널간 강도 차(IID: inter-channel intensity difference), 채널간 위상 차(IPD:inter-channel phase differences), 및 채널간 긴밀도(ICC: inter-channel coherence)라 부르는 3가지 공간 파라미터가 유도된다. 긴밀도 파라미터 (상관관계 파라미터)에 의한 공간 파라미터 집합의 확장은 사운드스테이지의 청각 공간 '확산성(diffuseness)' 또는 공간 '밀집성(compactness)'을 파라미터화 할 수 있게 한다. 파라메트릭 스테레오에 대해서는 논문, "Parametric coding of stereo audio" J. Breebaart, S. van de Par, A. Kohlrausch and E. Schuijers, EURASIP J. Applied Signal Proc. 2005:9, pp.1305-1322 에 상세히 설명되어 있다. 더 이상의 참고 자료로는 J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers가 저술한 논문 "High-Quality Parametric Spatial Audio Coding at Low Bitrates", AES 116th Convention, Berlin, Preprint 6072, May 2004 및 E. Schuijers, J. Breebaart, H. Purnhagen, J. Engdegard가 저술한 "Low Complexity Parametric Stereo Coding", AES 116th Convention, Berlin, Preprint 6073, May 2004 가 있다.

위에서 언급한 바와 같이, 파라메트릭 스테레오 코딩 및 공간 오디오 코딩을 위한 시스템이 근래에 개발되었다. 파라메트릭 스테레오 기술에서와 같이 2-채널 스테레오 오디오신호는 모노 다운믹스 오디오신호와, 스테레오 파라미터를 수반하는 부가적 부수 정보를 통해 표현된다 (국제출원번호 PCT/SE02/01372 "Efficient and scalable Parametric Stereo Coding for Low Bitrate Audio Coding Applications" 참조). 레거시 파라메트릭 스테레오 디코더는 모노 신호와 부수 정보로부터 2-채널 스테레오 신호를 복구한다.

공간 오디오 코딩 방법에서, 멀티채널 서라운드 오디오신호는 모노 또는 스 테레오 다운믹스 오디오신호와 그리고 공간 오디오 파라미터를 수반하는 부가적 부수 정보를 통해 표현된다. 이것의 널리 알려진 예로는 가정 오락 시스템에 사용되는 5.1 채널 구성이다.

레거시 공간 오디오 디코더는 모노 또는 스테레오 신호와 그리고 부가적 공간 오디오 파라미터에 근거하여 5.1 멀티채널 신호를 복구한다.

일반적으로, 파라메트릭 스테레오 또는 공간 오디오 코딩 시스템에서 채용하고 있는 다운믹스 신호는 서로 다른 유형의 신호를 전송하는데 필요한 전송 대역폭을 더 줄이기 위해 낮은 비트율의 청각 오디오 코딩(PAC) 기술(예: MPEG AAC)을 사용하여 부가적으로 인코딩된다. 더욱이, 다운믹스 신호는 일반적으로 파라메트릭 스테레오와 결합하거나 또는 비트스트림에 존재하는 공간 오디오 부수 정보와 결합하여 레거시 디코더, 즉 파라메트릭 스테레오 또는 공간 오디오 파라미터들을 처리하지 않는 디코더와의 하향 호환성을 보장한다. 이와 같은 방식에 의해서만 레거시 오디오 디코더는 전송된 모노 또는 스테레오 다운믹스 신호를 복구한다. 파라메트릭 스테레오 또는 공간 오디오 코딩 기술을 채택한 디코더가 사용될 때, 디코더는 비트스트림에 삽입된 부수 정보를 회수하고 또 완전한 2-채널 스테레오 또는 5.1 채널 서라운드 신호를 복구한다.

공간 오디오 코딩이 모노 다운믹스 신호 기반으로 사용될 때, 다음과 같이 하여 하향 호환성을 높이는 것이 더 바람직하다. 즉, 신호를 공급함에 있어 레거시 청각 오디오 디코더가 모노 다운믹스 신호를 유도할 수 있게 하는 것뿐만 아니라 공간 오디오 디코딩을 지원하지 않는 파라메트릭 스테레오 디코더라도 부가적으로 비트스트림의 파라메트릭 스테레오 디코딩을 가능하게 하는 것이다. 이 목적을 이루기 위해서는 파라메트릭 스테레오 부수 정보와 공간 오디오 부수 정보의 양쪽 정보를 비트스트림에 포함시키는 것이 필요하다. 이에 대한 방법은 명백하게 비트스트림에서 바람직하지 않은 많은 양의 부수 정보를 생성한다. 이것은 모노 신호 및 부수 정보를 전달하기 위해 전부 최대의 비트율이 유지되어야하는 경우를 의미하며, 부수 정보의 증가는 청각적으로 코딩되는 모노 다운믹스 신호가 사용할 수 있는 데이터 비율을 낮게 만들고, 결과적으로 코딩된 모노 다운믹스 신호의 음질을 현저히 떨어트린다.

파라메트릭 스테레오 및 공간 오디오 파라미터와 부수 정보 양자를 동시에 포함시키는 또 하나의 시도는 공간 오디오 파라미터의 서브세트가 모노 다운믹스 신호로부터 2-채널 스테레오 신호를 복구하도록 만들어진 일단의 공간 오디오 파라미터를 사용하는 것이다. 이 서브세트는 파라메트릭 스테레오 비트스트림과 호환성 있게 비트스트림 내에 파라메트릭 부수 정보로서 삽입되는 한편, 서브세트에 속하지 않은 나머지 공간 오디오 파라미터들은 공간 오디오 인코더와 호환성 있는 비트스트림 내에 공간 오디오 부수 정보로서 삽입된다. 디코더 측에서, 단지 파라메트릭 스테레오를 구현한 디코더는 파라메트릭 스테레오 부수 정보로서 삽입된 파라미터 서브세트에 근거하여 2-채널 스테레오 신호를 복구한다. 다른 한편으로, 공간 오디오를 구현한 디코더는 파라메트릭 스테레오 서브세트와 나머지 공간 오디오 파라미터를 회수한다. 이 전체 공간 파라미터 세트에 의해 멀티채널 신호가 복구될 수 있다.

그러나, 위와 같은 시도는 하향 호환성 있는 파라메트릭 스테레오 복구에서나 멀티채널 복구에서 모두 음질을 손상시킨다는 단점이 있다. 이것은 첫 번째 경우에서 공간 오디오 파라미터로서 사용된 파라미터 서브세트가 5.1 채널 신호의 2개 채널 간의 상호관계를 표현하고 있다는 점에서 분명하다. 가장 자연스러운 선택은 전방 좌측(l) 및 전방 우측(r) 채널이 될 것이다. 그러나, 여기서 스테레오 다운믹스의 좌측(l0) 및 우측(r0) 채널간 관계에 대한 정확한 값과는 실질적으로 상이할 수 있다. 다음에, 스테레오 다운믹스의 정확한 값이 상기 제1의 서브세트를 형성하는 두 번째 경우로서 이것은 멀티채널 서라운드 신호의 전방 좌측과 전방 우측 채널 간의 상호관계를 표현하는 데 사용됨을 의미한다. 그러나, 이 방법은 멀티채널 호환성 있게 공간 오디오 파라미터를 비트스트림에 삽입하는 데 필요한 파라미터 양자화 동작 때문에, 공간 오디오 복구가 매우 불완전하게 된다.

본 발명의 목적은 파라메트릭 스테레오 복구 품질이나 공간 오디오 복구 품질을 거의 손상하지 않고 더욱 효과 있는 표현을 허용하는, 멀티채널 오디오신호의 파라미터 표현을 생성 및 사용하기 위한 개념을 제공하는 데 있다.

이 목적은 청구항 1에 따른 멀티채널 오디오 디코더 또는 청구항 11에 따른 오디오 인코더에 의해 달성된다.

본 발명은 파라미터 결합기가 일단의 공간 파라미터와 스테레오 파라미터를 결합하여 파라메트릭 표현을 생성하게 할 때, 모노포닉 다운믹스 신호와 함께 사용하기에 적합한 파라미터들을 가진 멀티채널 오디오신호의 파라메트릭 표현을 하향 호환성 있게 효율적으로 유도한 결과, 디코더가 사용가능한 스테레오 파라미터와 이 디코더 사용가능한 스테레오 파라미터와 함께 공간 파라미터 세트를 나타내는 일단의 공간 파라미터에 대한 정보를 갖는 파라메트릭 표현을 얻을 수 있다는 발견에 근거를 두고 있다.

공간 파라미터에 의해 표현된 동일한 멀티채널 오디오신호의 스테레오 다운믹스 신호를 표현하는 스테레오 파라미터와 공간 파라미터 간의 상호관계를 이용하여 파라메트릭 스테레오 파라미터에 근거한 공간 파라미터의 서브세트를 쉽게 예측할 수 있다.

스테레오 파라미터로 묘사된 2-채널 스테레오 신호가 5.1 멀티채널 신호의 스테레오-다운믹스에 대한 소정의 형태를 표현하고 있기 때문에, 상기 언급한 바와 같이 파라메트릭 스테레오 시스템의 스테레오 파라미터들과 공간 오디오 코딩 시스템의 공간 파라미터들 사이에 의존성이 존재한다. 본 발명은 공간 오디오 파라미터 서브세트에 포함되지 않은 나머지 공간 오디오 파라미터의 값을 예측하기 위해 공간 오디오 파라미터의 서브세트와 공동으로 상기 스테레오 파라미터들을 사용한다. 따라서, 서브세트에 포함되지 않은 공간 오디오 파라미터의 예측 값과 실제 값 사이의 차이만이 전달된다. 이 차이(즉, 예측 오차)의 엔트로피는 일반적으로 실제 파라미터 자체의 엔트로피보다 작다. 이것은 본 발명의 방법과 어떤 후속 엔트로피 코딩을 채택하는 시스템에서 사용될 수 있다. 그와 같은 시스템은 파라메트릭 스테레오와 공간 오디오 파라미터에 대하여, 모든 파라미터들을 단순히 개별로 삽입하는 시스템에 비해 작은 부수 정보 비트율을 필요로 한다. 동시에, 본 발명을 채택한 그와 같은 시스템은 파라메트릭 스테레오 복구의 품질이나 공간 오디오 복구의 품질을 손상시키지 않음을 주목해야 한다.

파라메트릭 스테레오 디코더와 하향 호환성 있는 파라메트릭 표현을 제공하는 것을 목표로 하고 있기 때문에, 파라메트릭 스테레오 디코더로부터 복구된 2-채널 스테레오 신호의 품질을 손상시키지 않기 위해서는 스테레오-다운믹스를 표현하는 정확한 파라미터를 사용하는 것이 바람직하다. 그럼에도, 본 발명의 대체 실시예에서는 공간 오디오 파라미터에 대한 파라미터 예측 성능을 개선하기 위해, 계산된 공간 파라미터에 근거하여 약간의 수정을 가한 파라메트릭 스테레오 파라미터들이 인코더에서 사용된다. 이와 같은 파라메트릭 스테레오(PS) 파라미터들에 대한 수정은 단지 파라메트릭 스테레오 디코딩을 수행하는 디코더에 의해 복구된 스테레오 신호에 약간 저하된 품질을 가져올 뿐이다. 이와 같은 본 발명의 실시예에서, PS 파라미터 수정에 의해 복구된 공간 오디오 신호는 악영향을 받지 않으며, 호환성 비트스트림에 삽입된 파라메트릭 스테레오 및 공간 부수 정보에 필요한 전체 비트율이 감소한다.

본 발명의 바람직한 실시예에 있어서, 멀티채널 오디오 신호의 파라메트릭 표현을 유도하는 인코더는 비트스트림를 발생하고, 공간 오디오 파라미터는 물론 멀티채널 신호의 스테레오 다운믹스의 파라메트릭 스테레오 파라미터가 충분히 하향 호환성 있게 삽입된다. 즉, 파라메트릭 스테레오 파라미터만을 처리할 수 있는 파라메트릭 스테레오 디코더가 파라메트릭 스테레오 파라미터를 사용하여 고품질의 스테레오 신호를 복구할 수 있게 된다. 더욱이, 본 발명의 인코더는 약간의 공간 파라미터를 실제 공간 파라미터의 차분 표현 및 공간 파라미터의 예측 값으로 대체한다. 여기서 공간 파라미터의 예측은 스테레오 파라미터에 기초하고 또 대체되지 않은 공간 오디오 파라미터 세트에 기초한다. 공간 오디오 파라미터 표현과 파라메트릭 스테레오 표현 파라미터가 채널 쌍 간의 레벨 차 및 상관관계를 기술하는 것이기 때문에, 공간 오디오 파라미터와 스테레오 파라미터 간에는 이들이 동일한 데이터, 즉 멀티채널 신호로부터 유도될 때 상호관계가 존재한다. 따라서, 예측 값과 전송용의 실제 값 사이의 차이를 사용할 때, 그 차이가 통상 기본 공간 오디오 파라미터의 엔트로피보다 훨씬 작은 엔트로피를 가지기 때문에 비트율이 절감될 수 있다. 예측이 정확할 때, 예측 값과 실제 값과의 차이는 0이 되며, 이는 단지 0의 값을 갖는 교체된 공간 파라미터의 표현이 전송되거나 파라메트릭 표현 내에 저장되는 것을 의미한다. 이것은 통상적인 경우 그 표현에 대해 부가적 엔트로피 코딩 동작이 수행될 때 가장 유리하다.

상술한 개념을 사용하는 것에 의해, 본 발명의 인코더 또는 디코더는 공간 오디오 파라미터 및 파라메트릭 스테레오 파라미터를 손실 없이 하향 호환성 있게 전송할 수 있음에도, 공간 오디오 파라미터와 파라메트릭 스테레오 파라미터가 개별적으로 비트스트림 내로 단순히 전송되는 경우와 비교할 때 비트율이 감소될 수 있음을 알 수 있다.

본 발명의 부가적 실시예에서, 공간 파라미터의 예측 이전에 그리고 수정된 공간 파라미터의 전송 이전에 약간의 변경이 파라메트릭 스테레오 파라미터에 가해진다. 이것은 파라메트릭 스테레오 파라미터에 대한 약간의 변경이 예측의 안정성을 개선할 수 있다는 커다란 이점을 가지며, 따라서 전체 비트율이 더 감소될 수 있다. 실제 인코딩 과정에서 최적의 파라메트릭 스테레오 파라미터가 변경되기 때문에, 수정된 스테레오 파라미터를 사용하여 복구된 스테레오 업믹스 신호의 품질에 약간의 저하가 있을 뿐이다.

본 발명의 부가 실시예에서, 본 발명의 오디오 인코더는 이 인코더에 입력되는 멀티채널 신호로부터 모노포닉 신호를 발생하기 위한 공간 다운믹서를 포함한다. 그 모노포닉 신호는 예를 들어 청각 오디오 코딩 압축방법을 사용하는 오디오 인코더에 의해 부가적으로 압축되어 전송에서 사용될 모노포닉 다운믹스 신호의 비트율을 더 감소시킨다. 비트스트림 발생기가 모노 신호, 공간 오디오 파라미터 및 파라메트릭 스테레오 파라미터를 단일의 파라메트릭 스테레오 호환성의 비트스트림으로 결합한 비트스트림을 발생한다.

본 발명의 부가적 실시예에 있어서, 파라메트릭 인코더 또는 디코더는 필요한 비트율을 더 감소시키기 위한 제어 장치를 포함한다. 여기서 비트율의 감소는 실제 공간 파라미터와 그 예측 값과의 차이를 이용하여 발생된 공간 파라미터의 차분 표현에서 필요한 비트율과 공간 파라미터를 직접 인코딩하는데 필요한 비트율을 비교하는 것에 의해 달성된다. 인코딩은 2단계 인코딩 과정을 거쳐 수행되며, 그 과정은 먼저 각 파라미터를 개별적으로 시간 및/또는 주파수 차분 코딩하고, 후속하여 엔트로피 인코딩을 (예를 들어, 허프만 인코더, 산술 인코더, 또는 런-렝스 인코더를 사용함) 수행하는 것으로 이루어진다. 이 처리는 각 파라미터 고유의 히스토리에 근거하여 각각의 파라미터에 대해 (상술한 바와 같은 파라미터 세트 전역에서의 예측과 비교할 때) 예측가능성(중복성)을 이용한다. 차분 예측 코딩이 보다 큰 비트율을 가져올 경우, 소정의 시간 프레임 동안 공간 파라미터를 직접 전송하는 것에 의해 비트율을 더 절감할 수 있다. 어떤 방법을 선택하였는지에 대한 판단은 디코더 측에서 처리될 비트스트림 내로 전달되거나 또는 인코더에서 적절한 검출 알고리즘을 적용함에 의해 어떤 방법이 처음에 사용되었는지를 통지받음이 없이 판단한다.

전술한 바와 같이, 본 발명에 따라 발생된 신호는 파라메트릭 스테레오 디코더에 대해 하향 호환성이 있는 커다란 이점을 가진다. 더욱이 그 신호는 본 발명의 디코더로 전송될 때 충분히 공간적인 (서라운드) 신호를 재생하는데 필요한 정보를 보유한다는 이점을 가진다.

따라서, 파라메트릭 스테레오 파라미터와 공간 오디오 파라미터를 수신하는 본 발명의 디코더는 차분 전송된 공간 오디오 파라미터에서와 동일한 예측 및 역 변환 방법을 적용하여 본 발명의 비트스트림으로부터 멀티채널 신호의 공간 특성을 표현하는 완전한 세트의 공간 파라미터를 유도하는 것으로 완전한 세트의 공간 파라미터를 복구할 수 있다.

다시 말해, 파라메트릭 스테레오 파라미터와 완전한 세트의 공간 파라미터를 복구하기 위해 수신된 공간 오디오 파라미터를 결합하는데 사용된 결합 법칙은 인코더 측에 적용된 법칙의 역이다. 상술한 바와 같은 차분 코딩의 경우, 이것은 먼저 바람직한 파라미터의 예측이 하나 또는 그 이상의 파라메트릭 스테레오 파라미터 및 하나 또는 그 이상의 수신된 공간 오디오 파라미터를 이용하여 계산된다는 것을 의미한다. 그 다음, 예측된 값과 전송된 값의 합이 계산되고, 이 합은 상기 완전한 세트의 공간 파라미터의 바람직한 파라미터로 된다.

본 발명의 부가 실시예에서, 본 발명의 디코더는 고품질의 파라메트릭 스테레오 파라미터를 이용하여 멀티채널 신호의 스테레오 표현을 복구할 수 있다. 이것은 본 발명의 디코더가 필요에 따라 구성될 수 있다는 커다란 이점을 가진다. 즉, 스테레오 재생 환경만이 사용가능할 경우, 고품질의 스테레오 신호가 본 발명의 디코더에 의해 재생될 수 있다. 반면에 멀티채널 재생 환경이 갖추어져 있을 때, 신호의 멀티채널 표현이 재생될 수 있으므로 서라운드 사운드를 즐겁게 청취할 수 있다.

본 발명의 부가적 실시예로서, 본 발명의 인코더는 송신기 또는 녹음기에 포함되는 것에 의해 비트율을 절감시키는 기억장치 또는 오디오신호의 송신을 가능하게 한다. 그 오디오신호는 스테레오 신호로서 또는 완전한 서라운드 신호로서 모두 훌륭한 품질을 가지고 재생될 수 있는 것이다.

본 발명의 부가적 실시예에서, 본 발명의 디코더는 수신기 또는 오디오 재생기 내부에 구성됨으로써 서로 다른 라우드스피커 설정을 이용하여 신호를 수신 또는 재생하게 하고, 여기서 오디오신호는 실제 재생 환경에 최적인 표현을 가지고 재생될 수 있다.

요약하면, 본 발명은 다음과 같은 유리한 특징이 있다:

멀티채널 오디오신호를 호환성 있게 코딩하는 데 있어서,

인코더 측에서, 멀티채널 신호를 다운믹싱하여 하나의 채널 표현으로 만들고,

상기 멀티채널 신호가 주어지는 인코더 측에서, 멀티채널 신호를 표현하는 파라미터를 정의하고,

상기 멀티채널 신호가 주어진 인코더 측에서, 멀티채널 신호의 스테레오 다운믹스를 표현하는 파라미터를 정의하고,

인코더 측에서, 2개 세트의 파라미터들을 효율적인 비트율 및 하향 호환성 있게 비트스트림 내에 삽입하고,

디코더 측에서, 비트스트림에서 삽입되어진 파라미터를 추출하고,

디코더 측에서, 비트스트림에서 추출된 파라미터로부터 멀티채널 신호를 표현하는 파라미터를 복구하고,

디코더 측에서, 비트스트림 데이터로부터 복구된 파라미터와 상기 다운믹스 신호가 주어진 멀티채널 출력 신호를 복구하고,

스테레오 다운믹스를 표현하는 파라미터를 비트스트림에 삽입하여 이들이 파라메트릭 스테레오 디코딩만을 지원하는 (레거시) 디코딩 방법에 의해 디코딩될 수 있게 하고,

멀티채널 신호를 표현하는 파라미터 세트를 제1의 서브세트와 제2의 서브세트로 분할하고,

상기 파라미터의 제2의 서브세트 및 멀티채널 신호의 스테레오 다운믹스를 표현하는 파라미터에 근거하여 상기 파라미터의 제1의 서브세트의 값을 예측하고,

파라미터의 제1의 서브세트를 직접 인코딩할 것인지 또는 예측된 파라미터 값에 대한 차이 값만을 인코딩할 것인지를 자동으로 선택하는 제어 메커니즘과,

스테레오 다운믹스를 표현하는 파라미터를 수정하고, 여기서 멀티채널 신호를 표현하는 원래 파라미터와 스테레오 다운믹스를 표현하는 원래 파라미터 모두가 수정된 파라미터를 유도하는 기준으로 사용되고,

상기 예측된 파라미터 값을 구하는데 사용되는 룩-업 테이블과,

상기 예측된 파라미터 값을 구하는데 사용되는 다항식과,

상기 예측된 파라미터 값을 구하는데 사용되고 스테레오 다운믹스를 생성하기 위해 사용된 방법으로부터 유도된 수학식.

본 발명의 바람직한 실시예들이 첨부 도면을 참고하여 이후에 설명된다.

도 1은 본 발명에 따른 인코더의 블록도.

도 2는 본 발명에 따라 발생된 비트스트림의 간략도.

도 3은 본 발명에 따른 인코더의 부가적 실시예를 나타낸 블록도.

도 4는 도 3의 디코더의 상세한 구성도.

도 5는 본 발명에 따른 디코더의 개념도.

도 6은 본 발명의 멀티채널 디코더의 바람직한 실시예를 보인 블록도.

도 7은 도 6의 멀티채널 디코더의 상세한 구성도.

도 8은 본 발명에 따른 신호의 하향 호환성을 설명하기 위한 블록도.

도 9는 본 발명의 인코더를 가진 송신기 또는 녹음기를 나타낸 개략도.

도 10은 본 발명의 멀티채널 디코더를 가진 수신기 또는 오디오 재생기를 나타낸 개략도.

도 11은 본 발명이 적용된 전송 시스템을 나타낸 개략도.

이하에 설명되는 실시예는 공간 오디오의 개선된 파라메트릭 스테레오 호환성 있는 코딩을 위해 본 발명의 원리를 단지 예시적으로 나타낸 것이다. 여기서 설명되는 장치 및 세부사항들에 대한 개조와 변경은 당업자가 용이하게 실시할 수 있을 것이다. 따라서, 본 발명은 첨부된 특허 청구 범위에 의해서만 제한을 받으며 이하 실시예의 기재 및 설명을 통해 제시된 특정 사항에 의해서는 제한받을 수 없다.

도 1은 멀티채널 신호에 대한 파라메트릭 표현(12)을 유도하기 위한 본 발명의 인코더(10)를 나타낸다. 인코더(10)는 공간 파라미터 계산기(14), 스테레오 파라미터 계산기(16) 및 파라미터 결합기(18)를 포함한다.

공간 파라미터 계산기(14)는 멀티채널 신호의 공간 특성을 기술하는 일단의 공간 파라미터(20)를 계산한다. 스테레오 파라미터 계산기(16)는 멀티채널 신호의 스테레오 다운믹스에 대한 공간 특성을 기술하는 스테레오 파라미터(22)를 계산한다. 일단의 공간 파라미터(20) 및 스테레오 파라미터(22)는 파라미터 결합기(18)로 전달되고, 파라미터 결합기(18)는 파라메트릭 표현(12)을 유도한다(이하에서 "산출한다" "얻는다" "이끌어낸다"와 같은 의미를 가진 것으로 사용한다). 이 파라메트 릭 표현은 디코더가 사용가능한 스테레오 파라미터(24)와 일단의 공간 파라미터(26)에 관한 정보를 포함한다.

도 2는 하향 호환성 있는 비트스트림의 예를 나타낸 것으로, 도 1에 따른 본 발명의 인코더에서 생성된 멀티채널 오디오신호의 파라메트릭 표현과 같은 것이다. 이 비트스트림은 스테레오 파라미터 부분(30)과 공간 파라미터 부분(32)을 포함한다. 스테레오 파라미터 부분(30)은 스테레오 파라미터 부분(30)의 처음에 위치하는 스테레오 헤더(34)와, 이에 후속하여 디코더에서 사용되는 2개의 스테레오 파라미터(36a) 및 (36b)로 구성된다. 2개의 스테레오 파라미터(36a) 및 (36b)는 파라메트릭 스테레오 디코더에서 사용되어 스테레오 신호를 복구한다. 파라메트릭 스테레오 파라미터를 처리할 수 있는 디코더는 스테레오 헤더(34)에 포함된 정보에 의해 스테레오 파라미터(36a) 및 (36b)를 식별하게 된다.

공간 파라미터 부분(32)은 공간 헤더(38)로 시작되며 4개의 공간 오디오 파라미터(40a - 40d)를 포함한다. 본 발명에 따른 멀티채널 디코더는 스테레오 헤더(34)가 스테레오 파라미터(36a) 및 (36b)를 식별하는 것과 같이 공간 헤더(38)에 의해 공간 오디오 파라미터(40a - 40d)를 식별한다. 도 2에 나타낸 것과 같이, 공간 파라미터(40a)는 나머지 공간 파라미터(40b - 40d)에 비해 작은 비트율을 점유한다. 도 2에 보인 예에서, 공간 파라미터(40a)는 기본 원시 공간 파라미터와 예측된 공간 파라미터의 차이를 표현한다. 여기서 예측된 공간 파라미터는 하나 또는 그 이상의 스테레오 파라미터(36a, 36b)와 하나 또는 그 이상의 공간 오디오 파라미터(40b - 40d)를 사용하여 유도되는 것이다. 따라서, 본 발명의 멀티채널 디코더 는 비트스트림으로 전송되는 공간 파라미터(40a)에 관한 정보에 잠재하고 있는 공간 파라미터를 복구하기 위해 스테레오 파라미터(36a, 36b)와 공간 오디오 파라미터(40b - 40d)를 사용할 필요가 있다.

도 3은 멀티채널 오디오신호(50)의 파라메트릭 표현을 유도하기 위한 본 발명의 인코더(52)의 바람직한 실시예를 나타낸다. 여기서 멀티채널 오디오신호(50)는 3개의 채널, 즉 좌 채널(l), 우 채널(r) 및 중앙 채널(c)을 갖는다.

본 발명의 인코더(52)는 공간 다운믹서(54), 공간 파라미터 추정기(56), 스테레오 다운믹서(58), 파라메트릭 스테레오 파라미터 추정기(60), 오디오 인코더(62), 파라미터 결합기(조인트 인코딩 블록: 64) 및 비트스트림 계산기(멀티플렉서 MUX: 66)를 포함한다.

공간 다운믹서(54), 공간 파라미터 추정기(56) 및 스테레오 다운믹서(58)는 입력으로서 멀티채널 신호(50)를 수신한다. 공간 다운믹서(54)는 멀티채널 신호(50)로부터 모노포닉 다운믹스 신호(68)를 생성한다. 공간 파라미터 추정기(56)는 멀티채널 신호의 공간적 특성을 기술하는 공간 파라미터(70)를 유도한다. 스테레오 다운믹서(58)는 멀티채널 신호(50)로부터 스테레오 다운믹스 신호(72)를 생성한다.

스테레오 다운믹스 신호(72)는 파라메트릭 스테레오 파라미터 추정기(60)로 입력되고, 이 파라미터 추정기(60)는 스테레오 다운믹스 신호(72)의 공간적 특성을 기술하는 스테레오 다운믹스 신호로부터 스테레오 파라미터(74)를 유도한다. 모노포닉 다운믹스 신호(68)는 오디오 인코더(62)로 입력되고, 이 오디오 인코더(62)는 예를 들어 청각 오디오 코딩 기술을 사용한 인코딩을 통해 모노포닉 다운믹스 신호(68)를 표현하는 오디오 비트스트림(76)를 유도한다. 파라미터 결합기(64)는 입력으로서 공간 파라미터(70)는 물론 파라메트릭 스테레오 파라미터(74)를 수신하여 출력으로서 디코더가 사용가능한 스테레오 파라미터(파라메트릭 스테레오 부수 정보: 78) 및 공간 파라미터(공간 부수 정보: 80)에 관한 정보를 유도한다. 유도 과정은 공간 파라미터 세트를 공간 파라미터의 예측 값과 공간 파라미터 자체 값 사이의 차이 값으로 대체하는 것으로 이루어진다. 이 유도 과정은 다음 도면을 따라 더 상세히 설명된다.

비트스트림 계산기(66)는 입력으로서 오디오 비트스트림(76)과, 공간 파라미터(80) 세트에 관한 정보와, 그리고 디코더가 사용가능한 스테레오 파라미터(78)를 수신하고, 이들 입력을 예를 들어 도 2에 나타낸 파라미터 세그먼트로 구성될 수 있는 파라메트릭 스테레오 호환성의 비트스트림(82)으로 결합한다.

비트스트림 계산기(66)는 단순히 멀티플렉서로 구성될 수 있다. 그럼에도, 본 발명에 따라 비트스트림를 유도하기 위해 3개 입력을 하나의 호환성 비트스트림으로 결합하는 다른 수단이 실시될 수 있다.

다시 말해, 도 3에 나타낸 인코더는, 입력으로서 채널 l, r, c 를 포함하는 멀티채널 오디오신호를 수신하고, 공간 디코더에 의한 디코딩은 물론 파라메트릭 스테레오 디코더에 의한 하향호환성 있는 디코딩을 가능하게 하는 호환성 비트스트림를 발생한다. 공간 다운믹서는 멀티채널 신호 l, r, c 를 취하여 모노 다운믹스 신호 m을 발생한다. 이 신호는 임의의 청각 오디오 코딩기에 의해 인코딩되어 모노 신호를 표현하는 컴팩트 오디오 비트스트림을 생성한다. 공간 파라미터 추정기는 입력으로서 멀티채널 신호 l, r, c 를 취하여 일단의 양자화된 공간 파라미터를 발생한다. 이들 파라미터는 시간과 주파수의 함수로 될 수 있다. 스테레오 다운믹서는 예를 들어 ITU-R 다운믹스 등식을 사용하거나 대체 방법을 사용하여 멀티채널 신호의 2-채널 스테레오 다운믹스 신호 l0, r0 를 생성한다. 파라메트릭 스테레오(PS) 파라미터 추정기는 이 스테레오 다운믹스 신호를 입력으로 받아들이고 출력에서 일단의 양자화된 PS 파라미터를 발생한다. PS 파라미터는 시간과 주파수의 함수로 될 수 있다. 파라미터 결합기(조인트 인코딩 블록)는 입력으로서 공간 파라미터와 PS 파라미터를 취하고, 파라메트릭 스테레오 부수 정보(PS 부수 정보)와 공간 부수 정보를 생성한다. 멀티플렉서는 오디오 비트스트림과 공간 및 PS 부수 정보 비트스트림을 입력으로 받아들이고, 레거시 디코더(단지 PS 만을 수행)에 의한 하향 호환성 디코딩이 가능하게 되는 방식으로 부수 정보를 비트스트림 내에 삽입한다.

도 4는 도 3에 나타낸 파라미터 결합기(64)의 상세도이다. 파라미터 결합기(64)는 파라미터 분할기(90), 파라메트릭 스테레오 파라미터 수정기(92), 공간 파라미터 예측기(94), 결합기(96), 제어 장치(98), 공간 파라미터 집합기(100), 제1의 차분 인코더(102), 제2의 차분 인코더(104), 제3의 차분 인코더(106a) 및 제4의 차분 인코더(106b)로 구성된다.

파라미터 결합기(64)는 입력으로서 공간 파라미터(70)와 파라메트릭 스테레오 파라미터(74)를 수신한다. 파라메트릭 스테레오 파라미터(74)는 파라메트릭 스 테레오 파라미터 수정기(92)의 제1의 입력으로 입력되고, 공간 파라미터(70)는 파라메트릭 스테레오 파라미터 수정기(92)의 제2의 입력에 입력된다. 공간 파라미터(70)는 더욱이 파라미터 분할기(90)로 입력된다. 파라메트릭 스테레오 파라미터 수정기(92)는 임의의 장치로서, 공간 파라미터(70)의 정보를 사용하여 파라메트릭 스테레오 파라미터(74)를 수정하는 것에 의해 디코더에서 사용가능한 스테레오 파라미터(110)를 유도하는데 사용할 수 있다.

파라미터 분할기(90)는 공간 파라미터(70)를 그 제1의 서브세트(112)와 제2의 서브세트(114)로 분할한다. 여기서, 공간 파라미터(70)의 제1의 서브세트(112)는 멀티채널 신호의 최종 파라메트릭 표현에서 차분 예측에 의해 대체될 수 있는 공간 파라미터의 서브세트이다.

제1의 서브세트에서 파라미터의 예측이 디코더에서 사용가능한 스테레오 파라미터(110)와 공간 파라미터의 제2의 서브세트(114)를 사용하여 수행되기 때문에, 디코더에서 사용가능한 스테레오 파라미터(110)와 공간 파라미터의 제2의 서브세트(114)는 공간 파라미터 예측기(94)로 입력된다. 공간 파라미터 예측기(94)는 디코더에서 사용가능한 스테레오 파라미터(110)와 공간 파라미터의 제2의 서브세트(114)를 이용하여 예측된 파라미터(116)를 유도한다. 예측된 파라미터(116)는 제1 서브세트(112)의 파라미터에 대한 예측 값이며, 이는 제1 서브세트(112)의 파라미터와 비교된다.

따라서, 예측된 파라미터(116)와 제1 서브세트 파라미터(112)의 차이는 결합기(96)에 의해 파라미터처럼 계산되어 차분 파라미터(118)를 유도한다. 제1 서브세 트 파라미터(112)는 제3의 차분 인코더(106a)로 입력된다. 제3의 차분 인코더(106a)는 시간 또는 주파수에 대한 차분 코딩 방법을 적용함으로써 제1 서브세트의 파라미터를 차분 코딩한다. 차분 파라미터(118)는 제4의 차분 인코더(106b)로 입력된다.

도 4에 나타낸 본 발명의 바람직한 실시예에 따르면, 제1 서브세트(112)의 차분 코딩된 표현은 제어 장치(98)에 의해 차분 파라미터(118)의 차분 코딩된 표현과 비교되어 어떤 표현이 비트스트림에서 더 많은 비트를 요구하는지를 추정한다. 제어 장치(98)는 스위치(120)를 제어하여 적은 비트를 요구하는 제1 서브세트(112)의 표현을 공간 파라미터 집합기(100)로 공급한다. 이때, 어떤 표현이 사용되었는지에 대한 정보가 부가적으로 제어 장치(98)로부터 공간 파라미터 집합기(100)로 전달된다.

공간 파라미터의 제2 서브세트(114) 역시 제2의 차분 인코더(104)에 의해 차분 코딩된다. 제2 서브세트(114)의 차분 코딩된 표현은 공간 파라미터 집합기(100)로 입력되고, 공간 파라미터 집합기(100)는 공간 파라미터(70)에 대한 완전한 정보를 갖게 된다. 공간 파라미터 집합기(100)는 제1 서브세트(112)의 표현과 제2 서브세트(114)의 표현을 공간 파라미터(70)에 대해 완전한 정보를 갖는 공간 파라미터(80) 세트에 대한 정보로 재조합하는 것에 의해 공간 파라미터(80)에 대한 정보를 유도한다.

따라서, 일단의 공간 파라미터(80)에 대한 최종 정보는 차분 코딩에 불구하고 수정되지 않은 제2 서브세트의 공간 파라미터와, 제1 서브세트의 공간 파라미터 의 표현으로 구성된다. 제1 서브세트 공간 파라미터의 표현은 직접 제1 서브세트(112)의 차분 코딩된 표현으로 될 수 있거나 어떤 표현이 작은 비트율을 요구하는지에 따라 차분 파라미터(118)의 차분 코딩된 표현으로 될 수 있다.

본 발명의 파라미터 결합기(64)에 의해 유도된 디코더 사용가능한 파라메트릭 스테레오 파라미터(78)는 제1의 차분 인코더(102)에 의해 유도된다. 제1의 차분 인코더(102)는 입력으로서 수정된 파라메트릭 스테레오 파라미터(110)를 수신하고, 이 수정된 파라메트릭 스테레오 파라미터(110)를 차분 코딩함에 의해 디코더 사용가능한 파라메트릭 스테레오 파라미터(78)를 유도한다.

다시 말해, 도 4는 공간 파라미터와 PS 파라미터를 입력으로 취하여 공간 부수 정보와 PS 부수 정보를 발생하는 조인트 인코딩 블록을 설명한 것이다. 임의의 PS 파라미터 수정 블록 역시 공간 파라미터와 PS 파라미터를 입력으로 취하여 수정된 PS 파라미터를 발생한다. 이에 의해 수정된 PS 파라미터에서 복구된 2-채널 스테레오 신호의 품질을 손상시키는 대가로 공간 파라미터를 더 잘 예측할 수 있게 된다. PS 파라미터 수정 블록이 사용되지 않는다면, 입력되는 PS 파라미터는 직접 공간 파라미터 예측 블록과 PS 인코딩 블록에 대한 입력으로 작용한다. (수정된) PS 파라미터 세트는 이 파라미터 세트를 표현하는데 필요한 비트 수를 최소화하기 위해 시간-차분(dt) 또는 주파수-차분(df) 코딩, 즉 후속 파라미터와의 차분을 시간 또는 주파수에 대해 각각 코딩하는 방법, 및 허프만 코딩, 즉 무손실 엔트로피 코딩 방법을 사용하여 인코딩될 수 있다. 파라미터 분할 블록은 일단의 공간 파라미터를 직접 인코딩되는 제2의 서브세트와 파라미터 예측을 통해 인코딩될 수 있는 나머지 모든 파라미터를 포함하는 상보성의 제1 서브세트로 분리한다. 공간 파라미터 예측 블록은 입력으로 공간 파라미터의 제2 서브세트와 (수정된) PS 파라미터를 취하여 공간 파라미터 제1 서브세트에 대한 예측 값을 계산한다. 이 예측 값은 제1 서브세트 공간 파라미터의 실제 값에서 감산 되어 일단의 예측 오차 값이 만들어진다.

제2의 파라미터 서브세트는 그 파라미터 서브세트를 표현하는데 필요한 비트 수를 최소화하기 위해 시간-차분 또는 주파수-차분 코딩 및 허프만 코딩 방법을 사용하여 인코딩될 수 있다. 제1의 파라미터 서브세트는 그 파라미터 서브세트를 표현하는데 필요한 비트 수를 최소화하기 위해 시간-차분 또는 주파수-차분 코딩 및 허프만 코딩 방법을 사용하여 인코딩될 수 있다. 제1의 파라미터 서브세트에 대한 예측 오차 값은 파라미터 서브세트를 표현하는데 필요한 비트 수를 최소화하기 위해 시간-차분 또는 주파수-차분 코딩 및 허프만 코딩 방법을 사용하여 인코딩될 수 있다. 제어 장치는 제1의 파라미터 서브세트가 직접 인코딩될 것인지 또는 제1 파라미터 서브세트를 표현하는데 필요한 비트 수를 최소화하기 위해 예측 오차 값이 인코딩될 것인지를 선택한다. 이 선택은 서브세트 내 각각의 파라미터에 대해 개별적으로 수행된다. 실제 선택 결정은 부수 정보로서 비트스트림에 전해져 있거나 공간 파라미터 예측의 일부로 되는 법칙에 기반되어 있을 수 있다. 후자의 경우, 그 결정은 부수 정보로서 전달되어 있을 필요가 없다. 최종적으로, 멀티플렉서가 모든 인코딩된 데이터를 결합하여 공간 부수 정보를 형성한다.

본 발명의 인코딩 또는 디코딩 개념을 사용하기 위해, 파라미터를 예측하는 다른 방법이 실행 가능하다. 일반적으로, 스테레오 파라미터와 공간 파라미터의 제2의 서브세트로부터 공간 파라미터의 제1의 서브세트를 예측 값을 유도하기 위해 적절하게 설계된 룩-업 테이블을 사용할 수 있으며, 또한 이와 다르게, 특정한 다운믹스 처리 방식 및 공간 파라미터와 스테레오 파라미터가 유도된 방식에 근거하여 예측된 파라미터를 유도하기 위한 해석 함수를 적용할 수 있다. 다음은 적절한 예측을 수행하기 위한 몇 가지 특정한 예에 대한 개요를 기술한 것이다.

이 개요는 단지 예로서 간주하여야 할 다음의 3개 채널을 가진 멀티채널 신호에 기반한다.

l: 좌측

c: 중앙

r: 우측

따라서 여기에 기술되는 원리는 다른 채널 구성에도 적용된다. 예를 들어, 5.1 채널 구성의 경우, 전방 좌측 및 좌측 서라운드 채널은 파라메트릭 스테레오 모듈을 사용하여 좌측 신호 l 을 형성하도록 결합할 수 있으며, 전방 우측 및 우측 서라운드 채널은 파라메트릭 스테레오 모듈을 사용하여 우측 신호 r 을 형성하도록 결합할 수 있다. 또 전방 중앙 및 저주파 증강 채널은 파라메트릭 스테레오 모듈을 사용하여 중앙 신호 c 를 형성하도록 결합할 수 있다.

다음은 공간 파라미터 예측 블록을 더 상세히 설명하기 위한 것이다. 스테레오 다운믹스 신호의 2개 채널은 다음과 같이 표시된다:

l ₀ : 좌측 다운믹스

r ₀ : 우측 다운믹스

그리고 모노 다운믹스 신호는 다음과 같이 표시된다:

m: 모노 다운믹스

공간 파라미터 예측 블록은, 양자화되고 수정된 또는 수정되지 않은 PS 파라미터를 p₁, p₂라 하고, 나머지 양자화된 공간 파라미터의 제2 서브세트를 s_k ₊₁, s_k+2,...,s_N 이라 할 때, 제1의 K 양자화된 공간 파라미터들 s₁,...,s_k (즉, 공간 파라미터의 제1 서브세트)의 예측 값

를 출력한다.

가장 일반적으로, 예측 값은 표 함수(룩-업 테이블)로 구성된다.

(1)

차분 신호는 예측 오차와 동일하게 된다.

(2)

제1의 설계 방법은 F를 대형 데이터베이스 파라미터에 대해 최소 자승법으로 예측 오차를 최소화하도록 선택된 다변량 다항식 또는 표 함수로 정하는 것이다. 이와 달리, F는 공간 파라미터의 제1 서브세트를 표현하는데 필요한 최종 비트율을 최소화하도록 선택될 수 있다. 여기서 대형 데이터베이스의 파라미터는 최적의 F를 찾기 위한 트레이닝 데이터로서 사용된다. 예측기에서 사용하기 전에, 위와 같은 표 함수 또는 다항식은 정수 값으로 나타내기 위해 반올림 또는 양자화 처리를 거친다.

그 중요한 특별 케이스는 F가 1차 다항식으로 되는 선형 예측 방법을 사용하는 것이다.

제2의 예측기 설계로서는 사용된 실제 파라미터 구조를 고려하는 것이다. 본 발명의 바람직한 실시예에서, K=2 및 N=4 이고, 파라미터에 전달되는 정보는 다음과 같다:

p₁: iid_l0_r0 채널 l ₀ 와 r ₀ 간의 채널간 강도 차(IID)

p₂: icc_l0_r0 채널 l ₀ 와 r ₀ 간의 채널간 긴밀도 또는 상호관계(ICC)

s₁: iid_l_r 채널 l 과 r 간의 채널간 강도 차(IID)

s₂: icc_l_r 채널 l 과 r 간의 채널간 긴밀도 또는 상호관계(ICC)

s₃: iid_lr_c 채널 l +r 와 c 간의 채널간 강도 차(IID)

s₄: icc_lr_c 채널 l +r 와 c 간의 채널간 긴밀도 또는 상호관계(ICC)

위와 같은 설계의 제1의 예는 상기한 바와 같이 선형 예측기 설계에 대한 특별한 경우이며 간단히 기술하면 다음과 같다:

(3)

이 간단한 예측기는 (최소 예측 오차보다) 더 안정적인 예측 오차를 가져온 다는 이점이 있다. 이것은 예측 오차를 시간 차분 코딩 또는 주파수 차분 코딩하는데 매우 적합하다. 이는 상기한 다항식과 같은 모든 예측기에 대해서도 마찬가지이다.

제2의 예는 스테레오 다운믹스가 다음 식에 의해 생성된다는 가정에 근거하고 있다:

(4)

여기서 q 는 알려진 중앙 채널 이득이다(통상 1 또는 1/√2).

모든 신호 l, r, c는 시간 신호를 복소 변조된 필터 뱅크 해석을 통해 서브밴드 샘플들의 시간 및 주파수 간격에서 유래하는 유한 길이 벡터이다. 복소 벡터 x, y 에 대해, 복소 내적 및 자승 놈(norm)은 다음과 같이 정의된다:

(5)

위 식에서, 별표는 복소 공액을 나타낸다. IID 파라미터의 선형 및 비양자화된 버전은 다음에 의해 구할 수 있다.

(6)

ICC 파라미터에 대해, 상호관계를 나타낼 때의 식은 다음과 같다:

(7)

긴밀도를 나타낼 경우, 실수 값 연산은 식(7)에서 절대 값(복소 크기)으로 대체된다.

간단하게 < l, c > = < r, c > = 0 이라 가정할 때, L₀ = L + q² C 및 R₀ = R + q² C 가 되고, 이것들은 식(6)의 첫 번째 식에 대입될 수 있다. 2개 미지수에 대해 2개의 식을 풀면 P₁ 과 S₃로부터 X = L/C 및 Y = R/C 에 대한 다음의 추정을 구할 수 있다.

(8)

식(8)에서 양쪽 값이 양이면, S₁ 은

의 형태로 된다. 여기서, 필요한 선형 파라미터 값은 주어진 정수 파라미터를 비양자화함에 의해 구하고, 정수 파라미터 추정값

은

을 양자화함에 의해 얻어진다.

디코딩된 스테레오 신호에 약간의 품질 손상이 허용될 수 있다면, 파라메트릭 스테레오 파라미터를 개조하는 것에 의해 전체 비트율이 더 감소할 수 있다. 이러한 개조의 목적은 공간 파라미터 제1 서브세트의 예측을 더욱 안정하게 수행하고 예측 오차를 줄이기 위한 것이다. 이것은 위와 같은 계산을 안정화시키기 위한 수 단으로 이해하여야 한다. 파라미터 개조의 극단적인 경우는 p₁'= s₁, p₂'= s₂ 를 사용하는 것이며, 여기서 p₁', p₂'는 수정된 파라메트릭 스테레오 파라미터를 나타낸다. 이와 같은 파라미터 수정 동작이 인코더 측에서만 수행되기 때문에, 디코더 측에서는 아무런 조치를 취할 필요가 없다.

더 일반적인 해결 방법은 식(6) 및 식(7)을 통해 P₁, P₂, S₃, S₄ 에서 구할 수 있는 완전 제곱과 상관관계 구조 정보를 결합하여 S₁, S₂ 의 추정 값을 구하는 것이다. 파라미터의 스케일링 불변성에 의해 계산상 C=1 이라 가정하면 보편성의 손상은 전혀 없다. 다음과 같이 정의하면:

(9)

다음과 같은 연립방정식이 얻어진다:

(10)

추정에 있어 중요한 미지수는 L, R,

이며, a, b는 부가적인 미지수이다. 이 (결정되지 않은) 연립방정식은 미지수 쌍 a,b 에 대한 선택의 제한에 의존하여 다수의 예측 공식을 만들기 위한 가이드로 사용될 수 있다. 예를 들어, 식(10)에서 제1 및 제3의 방정식은 다음 식을 함축하고 있다.

(11)

따라서 식(8)에 대한 계산은 P₁ ² b = a 인 경우에 해당한다. 더욱 일반적으로, 발견적 파라미터 γ은 식 γ = P₁ ² b - a 를 통해 미지수 쌍 a,b 에 대한 제한을 정의한다.

다시 말하지만, 위에 기술한 예측 방법은 인코더 측이나 디코더 측에서 실시될 수 있는 있음 직한 예측 기법에 대해 단지 예를 든 것뿐임을 이해하여야 한다.

도 5는 파라메트릭 표현(202)을 처리하기 위한 본 발명의 멀티채널 오디오 디코더(200)를 나타낸다.

파라메트릭 표현(202)은 멀티채널 신호의 공간 특성을 기술하는 일단의 공간 파라미터(204)와 멀티채널 신호의 스테레오 다운믹스 공간 특성을 기술하는 디코더 사용가능한 스테레오 파라미터(206)를 포함한다. 본 발명의 멀티채널 오디오 디코더(200)는 파라미터 복구기(208)를 구비하고, 파라미터 복구기(208)는 디코더 사용가능한 스테레오 파라미터(206)와 공간 파라미터 세트에 대한 정보를 결합하여 공간 파라미터(210)를 얻는다.

도 6는 본 발명에 따른 멀티채널 오디오 디코더(220)의 실시예를 나타낸다. 멀티채널 오디오 디코더(220)는 비트스트림 분해기(디멀티플렉서: 222)와, 오디오 디코더(224)와, 파라미터 복구기(조인트 디코더: 226)와, 그리고 업믹서(228)를 가 진다.

비트스트림 분해기(222)는 입력으로서 하향 호환성 비트스트림(230)을 수신하고, 이 비트스트림을 분해 또는 디멀티플렉스하여 오디오 비트스트림(231), 공간 파라미터 세트에 대한 정보(232), 그리고 디코더 사용가능한 스테레오 파라미터(234)를 유도한다. 오디오 디코더(224)는 입력으로 오디오 비트스트림(231)을 수신하고 이로부터 모노포닉 다운믹스 신호(236)를 유도한다.

파라미터 복구기(226)는 입력으로서 공간 파라미터 세트에 대한 정보(232)와 디코더 사용가능한 스테레오 파라미터(234)를 수신한다. 파라미터 복구기(226)는 공간 파라미터 세트에 대한 정보(232)와 디코더 사용가능한 스테레오 파라미터(234)를 결합하여 업믹서(228)의 입력으로 작용하는 일단의 공간 파라미터(238)를 유도한다. 업믹서(228)는 제2의 입력으로서 모노포닉 다운믹스 신호(236)를 수신한다. 공간 파라미터(238)와 모노포닉 다운믹스 신호(236)에 근거하여 업믹서(228)는 그 출력에서 복구된 멀티채널 신호(240)를 유도한다.

다시 말해 도 6는 공간 오디오 디코더를 나타낸 것으로서, 그 입력에서 호환성 비트스트림을 받아들이고 출력에서 멀티채널 오디오 신호 l, r, c를 발생한다. 먼저, 디멀티플렉서(DEMUX)는 입력으로 호환성 비트스트림을 취하여 이를 오디오 비트스트림, 공간 부수 정보 및 PS 부수 정보로 분해한다. 가청 오디오 코딩 방법이 모노 신호에 적용되었을 경우, 대응하는 오디오 디코더는 입력으로 그 오디오 비트스트림을 취하여 디코딩된 모노 신호 m을 발생한다. 이때 가청 오디오 코덱에 의해 유도된 왜곡이 일어날 수 있다. 조인트 디코더는 공간 부수 정보와 PS 부수 정보를 입력으로 취하여 공간 파라미터를 복구한다. 끝으로, 공간 파라미터 복구기는 디코딩된 모노 신호 m과 공간 파라미터를 입력으로 취하여 멀티채널 오디오 신호를 복구한다.

도 7은 멀티채널 오디오 디코더(220)에서 사용하는 파라미터 복구기(226)의 상세한 구성을 나타낸다. 파라미터 복구기(226)는 공간 파라미터 분해기(250), 제어 장치(252), 공간 파라미터 예측기(254), 공간 파라미터 통합기(256), 제1의 차분 디코더(258), 제2의 차분 디코더(260), 제3의 차분 디코더(262a) 및 제4의 차분 디코더(262b)를 포함한다.

공간 파라미터 분해기(250)는 입력으로서 공간 파라미터 세트에 관한 정보(232)를 수신하고 이 공간 파라미터 세트에 관한 정보(232)로부터 제1의 서브세트(266)와 제2의 서브세트(268)를 유도한다. 제1의 서브세트(266)는 인코더 측에서 수행하는 예측 차분 표현에 의해 표현될 수 있는 파라미터들을 포함하고, 제2의 서브세트(268)는 비트스트림 내에서 수정되지 않고 전송된 공간 파라미터 세트에 관한 정보의 서브세트를 포함한다.

더욱이, 제어 장치(252)는 공간 파라미터 분해기로부터 예측 차분 표현이 인코딩시 사용되었는지 여부를 나타내는 제어 정보를 선택적으로 수신한다. 이 정보는 제어 장치(252)가 표시 파라미터에 액세스하지 않으면서 위와 같은 예측이 수행되었는지 여부를 적절한 알고리즘을 사용하여 양자택일적으로 유도할 수 있다는 점에서 선택적이다.

파라미터의 제2 서브세트(268)는 제2의 차분 디코더(260)로 입력되고, 이 제 2의 차분 디코더(260)는 제2의 서브세트를 차분 디코딩하여 공간 파라미터의 제2 서브세트(270)를 유도한다.

제1의 차분 디코더(258)는 입력으로서 디코더 사용가능한 스테레오 파라미터(234)를 수신하여 코딩된 표현으로부터 파라메트릭 스테레오 파라미터(272)를 유도한다. 공간 파라미터 예측기(254)는 인코더 측에서의 대응부분과 동일한 방식으로 동작하며, 따라서 이 공간 파라미터 예측기(254)는 제1의 입력으로서 파라메트릭 스테레오 파라미터(272)를 수신하고, 제2의 입력으로서 공간 파라미터의 제2 서브세트(270)를 수신하여 예측된 파라미터(274)를 유도한다.

제어 장치(252)는 공간 파라미터 세트에 관한 정보의 제1 서브세트에 대해 2개의 있음직한 서로 다른 데이터 통로를 제어한다. 제어 장치(252)가 공간 파라미터 세트에 관한 정보의 제1 서브세트가 예측 차분 코딩 방법을 사용하여 전송되지 않았음을 나타낼 때, 제어 장치(252)는 스위치(278a, 278b)를 구동하여 제1의 서브세트(266)가 제3의 차분 디코더(262a)로 입력되게 하고 여기서 역 예측 방법을 적용하지 않고 공간 파라미터 세트의 제1 서브세트(280)를 유도하게 한다. 공간 파라미터의 제1 서브세트(280)는 공간 파라미터 통합기(256)의 제2의 입력으로 입력된다.

그러나, 제어 장치(252)가 차분 예측된 파라미터를 나타낼 경우, 공간 파라미터 세트에 관한 정보의 제1 서브세트(266)는 제4의 차분 디코더(262b)로 입력되어 차분 디코더의 입력(282)에서 그 제1 서브세트(266)의 차분 예측 표현을 유도한다. 그 다음, 가산기(284)에 의해 차분 표현과 예측된 파라미터의 합이 계산되고, 따라서 인코더 측에서 수행되는 차분 예측 동작을 전환한다. 결과적으로, 공간 파라미터의 제1 서브세트(280)는 공간 파라미터 통합기(256)의 제2의 입력에서 얻어진다. 공간 파라미터 통합기(256)는 공간 파라미터의 제1 서브세트(280)와 공간 파라미터의 제2 서브세트(270)를 결합하여 그 출력에서 코딩된 신호에 대한 멀티채널 복구의 기초로 되는 공간 파라미터의 완전한 세트를 제공한다.

요약하면, 도 7은 조인트 디코딩 블록에 대해 설명한 것으로서, 공간 부수 정보와 PS 부수 정보를 입력으로 취하여 공간 파라미터를 복구한다. 디멀티플렉서는 공간 부수 정보를 공간 파라미터의 인코딩된 제2의 서브세트, 공간 파라미터의 인코딩된 제1의 서브세트, 및 제어 정보로 분리한다. 디코딩 블록은 입력으로서 공간 파라미터의 인코딩된 제2의 서브세트를 취하여 이 파라미터의 서브세트를 복구한다. 복구는 인코더에서 사용한 코딩 방식과 같은 허프만 디코딩 및 시간-차분(dt) 또는 주파수-차분(df) 디코딩 방법을 포함한다. 디코딩 블록은 입력으로서 PS 부수 정보를 취하여 (수정된) PS 파라미터를 복구한다. 공간 파라미터 예측 블록은 공간 파라미터의 제2의 서브세트와 (수정된) PS 파라미터를 입력으로 취하고, 인코더에서의 그 대응부분에서 수행하였던 것과 동일한 방법으로 공간 파라미터의 제1의 서브세트에 대한 예측 값을 계산한다. 제어 블록은 인코더에서의 대응블록, 즉 제어 블록에서 어떤 선택 결정을 하였는지를 판단한다. 그 선택 결정에 의존하여 공간 파라미터의 인코딩된 제1의 서브세트는 직접 디코딩되거나, 또는 예측 값을 고려하여 디코딩된다. 양쪽 경우 모두 인코더에서 사용한 코딩 방식과 같은 허프만 디코딩 및 시간-차분 또는 주파수-차분 디코딩 방법을 포함한다. 제어 블록이 예측 값이 사용되지 않았다고 판단하였을 경우, 디코딩 블록의 출력은 복구된 공간 파라미터의 제1의 서브세트로 취해진다. 이와 달리, 디코딩 블록의 출력이 예측 오차 값을 포함하면 이값은 공간 파라미터 제1의 서브세트의 원래 값을 얻기 위해 공간 파라미터 예측기에서 발생한 예측된 파라미터 값에 가산된다. 끝으로, 복구된 공간 파라미터의 제1 및 제2의 서브세트는 통합되어 완전한 세트의 공간 파라미터를 형성한다.

도 8은 본 발명의 방법이 가진 완전한 하향 호환성의 큰 이점을 강조하기 위해 호환성 있는 본 발명의 비트스트림이 어떻게 레거시 파라메트릭 스테레오 디코더에 의해 처리되어 신호의 스테레오 업믹스를 유도하는지를 설명하기 위한 것이다.

파라메트릭 스테레오 디코더(300)는 입력으로서 호환성 비트스트림을 수신한다. 파라메트릭 스테레오 디코더(300)는 디멀티플렉서(304), 오디오 디코더(306), 차분 디코더(308), 및 업믹서(310)를 포함한다. 디멀티플렉서(304)는 호환성 비트스트림(302)으로부터 오디오 비트스트림(312)과 디코더 사용가능한 파라메트릭 스테레오 파라미터(314)를 유도한다.

파라메트릭 스테레오 디코더(300)가 공간 오디오 파라미터를 가지고 동작할 수 없기 때문에, 디멀티플렉서(304)는 예를 들어 디코더에 알려지지 않은 비트스트림에 있는 헤더 필드와 관련 데이터 부분을 스킵하는 것에 의해 호환성 비트스트림(302)에 포함된 공간 오디오 파라미터를 무시한다. 오디오 비트스트림(312)은 모노포닉 다운믹스 신호(316)를 유도하는 오디오 디코더(306)으로 입력되고, 디코더 사용가능한 파라메트릭 스테레오 파라미터(314)는 차분 디코더(308)에 의해 차분 디코딩되어 파라메트릭 스테레오 파라미터(318)를 유도한다. 모노포닉 다운믹스 신호(316)와 파라메트릭 스테레오 파라미터(318)는 업믹서(310)로 입력되고, 이 업믹서(310)는 모노포닉 다운믹스 신호(316)와 파라메트릭 스테레오 파라미터(318)를 이용하여 스테레오 업믹스 신호(320)를 유도한다.

다시 말해, 도 8은 파라메트릭 스테레오(PS) 디코더를 설명하는 것으로서, 호환성 비트스트림을 입력으로 취하여 채널 l0 및 r0 을 포함하는 2-채널 스테레오 오디오신호를 발생한다. 먼저, 디멀티플렉서는 호환성 비트스트림을 입력으로 취하고 이를 오디오 비트스트림과 PS 부수 정보로 분해한다. 공간 부수 정보가 하향 호환성 있게 호환성 비트스트림 내에 삽입되어 있기 때문에 멀티플렉서에 영향을 주지 않는다. 청각 오디오 코딩 방법이 모노 신호에 적용되었을 경우, 대응하는 오디오 디코더는 입력으로서 오디오 비트스트림을 취하여 디코딩된 모노 오디오신호 m 을 발생한다. 이때 가청 오디오 코딩에 의해 유도된 왜곡이 일어날 수 있다. PS 디코딩 블록은 PS 부수 정보를 입력으로 취하여 PS 파라미터를 복구한다. 복구 동작은 인코더에서 사용한 코딩 방식과 같은 허프만 디코딩 및 시간-차분(dt) 또는 주파수-차분(df) 디코딩 방법을 포함한다. 끝으로, PS 복구기는 디코딩된 모노 오디오신호 m 과 PS 파라미터를 입력으로 취하여 2-채널 스테레오 신호를 복구한다.

도 9는 본 발명에 따른 인코더를 가진 송신기 또는 녹음기(330)를 나타낸 것으로, 송신기 또는 녹음기(330)는 오디오 인코더(10), 입력 인터페이스(332) 및 출력 인터페이스(334)를 포함한다.

오디오신호는 송신기/녹음기(330)의 입력 인터페이스(332)에 공급될 수 있다. 오디오신호는 송신기/녹음기(330) 내에 설치된 본 발명의 인코더(10)에 의해 인코딩되고, 인코딩된 표현은 그 출력 인터페이스(334)로 출력된다. 인코딩된 표현은 전송되거나 기억매체에 저장될 수 있다.

도 10은 본 발명의 멀티채널 디코더를 가진 수신기 또는 오디오 재생기(340)를 나타낸 것으로, 수신기/오디오 재생기(340)는 본 발명의 오디오 디코더(180), 비트스트림 입력(342), 및 오디오 출력(344)을 갖는다.

비트스트림은 본 발명에 따른 수신기/오디오 재생기(340)의 입력(342)에서 입력될 수 있다. 비트스트림은 디코더(180)에 의해 디코딩되고, 이 디코딩된 신호는 수신기/오디오 재생기(340)의 오디오 출력(344)에서 출력 또는 재생된다.

도 11은 본 발명이 적용된 전송 시스템을 나타낸 것으로 본 발명의 송신기(330)와 본 발명의 수신기(340)를 포함한다.

송신기(330)의 입력 인터페이스(332)에 입력된 오디오신호는 인코딩되고, 이 인코딩된 오디오신호는 송신기(330)의 출력(334)으로부터 수신기(340)의 입력(342)으로 전달된다. 수신기(340)는 오디오신호를 디코딩하고, 이 디코딩된 오디오신호는 그 출력(344)에서 재생 또는 출력된다.

본 발명의 개념을 요약한다면, 본 발명은 공간 오디오 파라미터를 사용하는 오디오신호의 멀티채널 표현을 파라메트릭 스테레오 파라미터를 사용하는 2-채널 스테레오 신호의 코딩와 호환성이 있게 코딩하는 것에 관련된다. 본 발명은 공간 오디오 파라미터와 파라메트릭 스테레오 파라미터에 대한 효율적인 코딩 방법 및 코딩된 파라미터들을 하향호환성 있게 비트스트림 내에 끼워넣는 방법을 새로이 제안한다. 특히 본 발명은 디코딩된 스테레오 또는 멀티채널 오디오신호의 품질을 손상시키지 않으면서 하향 호환성 있는 비트스트림에 존재하는 파라메트릭 스테레오 및 공간 오디오 파라미터에 대한 전체 비트율을 최소화한다. 그러나, 디코딩된 스테레오 신호에 약간의 품질 손상이 허용된다면, 전체 비트율은 더 감소한다.

본 발명 신호의 하향 호환성을 표현하는 비트스트림과 그 발생에서 모노포닉 다운믹스 신호를 표현하는 파라미터를 포함하지 않는다 할지라도, 그와 같은 파라미터는 상술한 것과 같은 비트스트림 내에 용이하게 결합될 수 있다.

파라미터를 예측하는 적절한 법칙을 유도할 수 있다면, 공간 오디오 파라미터의 임의의 수가 파라메트릭 스테레오 파라미터를 이용하여 예측된다. 따라서, 상기 설명한 바와 같은 예측 방법은 단지 예를 든 것에 불과하다. 다른 예측 방법을 가지고도 동일한 비트 절감 효과를 가져올 수 있기 때문에 본 발명은 상기한 어느 하나의 예측 법칙을 사용하는 것에 제한받지 않는다.

멀티채널 신호의 스테레오 다운믹스를 유도하는 파라메트릭 스테레오 다운믹서(58)가 예시된 본 발명의 인코더에 존재하고 있다 할지라도, 실시에 있어서, 다운믹싱 법칙을 알고 있거나 따라서 파라메트릭 스테레오 파라미터가 멀티채널 신호로부터 직접 유도될 때, 스테레오 다운믹서(58)는 생략될 수 있다.

제시된 실시예에서, 모노포닉 다운믹스 신호는 오디오 인코더에 의해 부가적으로 인코딩되거나 디코더 측에서 디코딩된다. 그 인코딩 및 디코딩은 선택적이다. 즉, 모노포닉 다운믹스 신호의 부가적 압축을 생략하는 것은 본 발명의 개념을 통 합한 인코더 및 디코더를 만들 수 있다.

본 발명의 인코더 및 디코더에 포함된 제어 장치는 차분 예측 표현이 전송 비트율을 절감하지 못할 경우 제어 장치를 절감한다는 이점을 가지고 드문 경우이지만 약간 높은 비트율을 허용하면서 공간 파라미터의 서브세트를 표현하기 위한 일반적인 결정을 수행할 수 있다.

제시된 실시예에서, 신호 통로에 적용된 부가적 인코더들이 차분 인코더 또는 차분 디코더로 칭해지고 있지만, 파라미터를 압축하기에 적당한 어느 다른 적절한 인코더 또는 디코더, 특히 차분 인코더 또는 차분 디코더 및 허프만 인코더 및 디코더의 결합을 사용할 수도 있다. 이러한 결합은 첫째 파라미터들이 차분 인코딩되고 그리고 차분 인코딩 된 것이 다시 허프만 코딩되는 것과 같은 방식으로 이용된다. 이 허프만 코딩은 최종적으로 적은 비크율을 사용하는 파라미터 표현을 실현시킨다. 이것은 차분 예측 표현이 일반적으로 기본적인 공간 파라미터보다 적은 엔트로피를 가지고 있기 때문이다.

본 발명의 개념을 요약할 때, 본 발명은 다음과 같은 양상들을 제공한다:

제1의 양상에서, 멀티채널 오디오신호를 호환성 있게 코딩하는 방법으로서, 인코더 측에서, 멀티채널 신호를 다운믹싱하여 하나의 채널 표현으로 만들고, 상기 멀티채널 신호가 주어지는 인코더 측에서, 멀티채널 신호를 표현하는 파라미터를 정의하고, 상기 멀티채널 신호가 주어진 인코더 측에서, 멀티채널 신호의 스테레오 다운믹스를 표현하는 파라미터를 정의하고, 인코더 측에서, 2개 세트의 파라미터들을 효율적인 비트율 및 하향 호환성 있게 비트스트림 내에 삽입하고, 디코더 측에 서, 비트스트림에서 삽입되어진 파라미터를 추출하고, 디코더 측에서, 비트스트림에서 추출된 파라미터로부터 멀티채널 신호를 표현하는 파라미터를 복구하고, 디코더 측에서, 비트스트림 데이터로부터 복구된 파라미터와 상기 다운믹스 신호가 주어진 멀티채널 출력 신호를 복구하는 것을 특징으로 한다.

제2의 양상으로는, 제1의 양상에 따른 방법에 있어서, 스테레오 다운믹스를 표현하는 파라미터를 비트스트림에 삽입하여 이들이 파라메트릭 스테레오 디코딩만을 지원하는 (레거시) 디코딩 방법에 의해 디코딩될 수 있게 하는 것을 특징으로 한다.

제3의 양상은 제1의 양상에 따른 방법에 있어서, 멀티채널 신호를 표현하는 파라미터 세트를 제1의 서브세트와 제2의 서브세트로 분할하는 것을 특징으로 한다.

제4의 양상은 제3의 양상에 따른 방법에 있어서, 제2의 서브세트 파라미터 및 멀티채널 신호의 스테레오 다운믹스를 표현하는 파라미터에 근거하여 상기 제1의 서브세트 파라미터의 값을 예측하는 것을 특징으로 한다.

제5의 양상은 제4의 양상에 따른 방법에 있어서, 제1 서브세트 파라미터를 직접 인코딩할 것인지 또는 예측된 파라미터 값에 대한 차이 값만을 인코딩할 것인지를 자동으로 선택하는 제어 방법을 갖는 것을 특징으로 한다.

제6의 양상은 제3의 양상에 따른 방법에 있어서, 스테레오 다운믹스를 표현하는 파라미터를 수정하고, 여기서 멀티채널 신호를 표현하는 원래 파라미터와 스테레오 다운믹스를 표현하는 원래 파라미터 모두가 수정된 파라미터를 유도하는 기 준으로 사용되는 것을 특징으로 한다.

제7의 양상은 제4의 양상에 따른 방법에 있어서, 상기 예측된 파라미터 값을 구하는데 룩-업 테이블이 사용되는 것을 특징으로 한다.

제8의 양상은 제4의 양상에 따른 방법에 있어서, 상기 예측된 파라미터 값을 구하는데 다항식이 사용되는 것을 특징으로 한다.

제9의 양상은 제4의 양상에 따른 방법에 있어서, 상기 예측된 파라미터 값을 구하는데 사용되고 스테레오 다운믹스를 생성하기 위해 사용된 방법으로부터 유도된 수학식에 특징이 있다.

제10의 양상은, 멀티채널 오디오신호의 표현을 인코딩하는 장치로서, 이 장치가 멀티채널 신호를 하나의 채널 표현으로 만드는 다운믹싱 수단과, 멀티채널 신호를 표현하는 파라미터를 정의하는 수단과, 멀티채널 신호의 스테레오 다운믹스를 표현하는 파라미터를 정의하는 수단과, 2개 세트의 파라미터들을 효율적인 비트율 및 하향 호환성 있게 비트스트림 내에 삽입하는 수단을 갖는 것을 특징으로 한다.

제11의 양상은, 다운믹스 신호와 대응하는 파라미터 세트에 근거하여 멀티채널 신호를 복구하기 위한 장치로서, 이 장치가 비트스트림에 삽입된 파라미터를 추출하는 수단과, 비트스트림에서 추출된 파라미터로부터 멀티채널 신호를 표현하는 파라미터를 복구하는 수단과, 비트스트림 데이터로부터 복구된 파라미터와 상기 다운믹스 신호가 주어진 멀티채널 출력 신호를 복구하는 수단을 가지는 것을 특징으로 한다.

본 발명의 방법을 실시하는데 필요한 조건에 따라, 본 발명의 방법은 하드웨어로 또는 소프트웨어로 실시될 수 있다. 그 실시는 디지털 기억 매체, 특히 디스크, DVD 또는 컴팩트 디스크(CD)를 사용하여 수행될 수 있다. 그 매체는 전자적으로 독출될 수 있는 제어 신호를 가지며, 프로그램 가능한 컴퓨터 시스템과 협동하여 본 발명의 방법을 실행하게 된다. 일반적으로, 본 발명은 따라서 컴퓨터 프로그램 제품으로 구성된다. 이 컴퓨터 프로그램 제품은 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때, 기계 판독가능한 매체에 저장된 방법을 수행하기 위한 프로그램 코드를 가진다. 다시 말해, 본 발명은 컴퓨터 프로그램이 컴퓨터에서 실행될 때, 본 발명의 적어도 하나의 방법을 수행하는 프로그램 코드를 갖는 컴퓨터 프로그램으로 구현된다.

위에서 특정한 실시예들을 참고하여 도시되고 설명되었지만 이 분야에서 숙련된 기술자들은 실시예의 형태 및 세부 사항에 다양한 다른 변경들이 본 발명의 정신과 범위를 벗어나지 않고 이루어질 수 있다는 것을 알아야 한다. 또한 다양한 변경들이 여러 가지 실시예들을 적용하는 데 있어 여기서 설명된 광의의 개념 및 첨부된 청구범위를 벗어나지 않고 이루어질 수 있다는 것을 알아야 한다.

Claims

파라메트릭 표현(202)을 처리하기 위한 멀티채널 오디오 디코더(200)에서, 파라메트릭 표현(202)은 멀티채널 신호의 공간 특성을 기술하는 하나 또는 그 이상의 공간 파라미터(204)에 관한 정보와 멀티채널 신호의 스테레오 다운믹스의 공간 특성을 기술하는 스테레오 파라미터(206)를 포함하고, 상기 스테레오 파라미터(206)와 하나 또는 그 이상의 상기 공간 파라미터(204)에 관한 정보는, 결합 법칙을 사용하여 결합할 때, 하나 또는 그 이상의 공간 파라미터(210)를 얻도록 하는데, 상기 디코더는:

하나 또는 그 이상의 공간 파라미터(210)를 얻기 위해 결합 법칙을 사용하여 하나 또는 그 이상의 공간 파라미터(204)에 관한 상기 정보와 상기 스테레오 파라미터(206)를 결합하는 파라미터 복구기(208)를 포함하는 멀티채널 오디오 디코더.
청구항 1에 따른 멀티채널 오디오 디코더(200)에 있어서,

상기 결합 법칙은 결합이 하나 또는 그 이상의 공간 파라미터(204)에 관한 정보의 제1 서브세트 파라미터를 스테레오 파라미터(206)와 상기 제1 서브세트 파라미터를 결합하는 것에 의해 유도된 대체 파라미터로 대체하는 것을 포함하는 것으로 이루어지는 것인 멀티채널 오디오 디코더.
청구항 2에 따른 멀티채널 오디오 디코더(200)에 있어서,

상기 결합 법칙은 대체 파라미터가 제1 서브세트 파라미터에서 대응하는 파라미터와 그 파라미터 예측을 선형적으로 결합하는 것에 의해 유도되게 하는 것이고, 그 예측은 하나 또는 그 이상의 공간 파라미터(204)에 관한 정보의 제2 서브세트 파라미터와 스테레오 파라미터(206)를 사용하고, 예측 법칙을 이용하여 양자를 결합하는 것에 의해 유도되게 하는 것인 멀티채널 오디오 디코더.
청구항 3에 따른 멀티채널 오디오 디코더(200)에 있어서,

상기 예측 법칙은 예측이 스테레오 파라미터(206)를 사용하여 유도되게 하는 것인 멀티채널 오디오 디코더.
청구항 4에 따른 멀티채널 오디오 디코더(200)에 있어서,

상기 예측 법칙은 스테레오 파라미터(206)가 공간 파라미터를 예측하는데 사용되도록 하는 것인 멀티채널 오디오 디코더.
선행하는 청구항 중 어느 하나의 항에 따른 멀티채널 오디오 디코더(200)에 있어서,

상기 스테레오 파라미터(206)는 스테레오 다운믹스의 채널간 강도 차를 기술하는 제1의 파라미터 p₁ 와, 스테레오 다운믹스의 채널간 상관관계를 기술하는 제2의 파라미터 p₂ 를 포함하고,

상기 제2 서브세트 파라미터는 멀티채널 신호의 좌측 채널 및 우측 채널과 멀티채널 신호의 중앙 채널의 합 사이의 강도 차를 기술하는 파라미터 s₃ 를 포함하며,

상기 예측 법칙은, 멀티채널 신호의 좌측 채널과 우측 채널 간의 강도 차를 기술하는, 제1 서브세트 파라미터의 파라미터 s₁ 이 이하의 식:

여기서,

에 따른 예측 파라미터
에 의해 예측되게 하는 것으로 이루어진 멀티채널 오디오 디코더.
선행하는 청구항 중 어느 하나의 항에 따른 멀티채널 오디오 디코더(200; 220)에 있어서,

상기 파라미터 복구기(226)는 제1 서브세트 파라미터가 대체 파라미터로 대체될 것인지 여부를 결정하기 위한 결정 장치(252)를 더 포함하는 멀티채널 오디오 디코더.
선행하는 청구항 중 어느 하나의 항에 따른 멀티채널 오디오 디코더(200; 220)에 있어서,

비트스트림(230)을 스테레오 파라미터(234)의 표현과 하나 또는 그 이상의 공간 파라미터(232)에 관한 정보의 표현으로 분해하기 위한 비트스트림 분해기(222)를 더 포함하고, 상기 비트스트림(230)은 레거시 파라메트릭 스테레오 장치에서 처리할 수 있는 하향 호환성을 가진 것인 멀티채널 오디오 디코더.
청구항 8에 따른 멀티채널 오디오 디코더(200; 220)에 있어서,

상기 스테레오 파라미터(234)의 표현과 하나 또는 그 이상의 공간 파라미터(232)에 관한 정보의 표현으로부터 스테레오 파라미터(272)와 하나 또는 그 이상의 공간 파라미터(266, 268)에 관한 정보를 유도하기 위해 엔트로피 디코더 및 차분 디코더(258, 260, 262a, 262b)를 더 포함하는 것인 멀티채널 오디오 디코더.
청구항 8 또는 청구항 9에 따른 멀티채널 오디오 디코더(220)에 있어서,

상기 비트스트림 분해기(222)는 비트스트림으로부터 모노포닉 다운믹스 신호(236)를 분해하도록 동작하고, 그 모노포닉 다운믹스 신호(236)는 멀티채널 신호의 모노포닉 다운믹스 신호로 되며,

상기 다운믹스 신호(236)와 하나 또는 그 이상의 파라미터(238)를 사용하여 멀티채널 신호(240)의 복구 신호를 유도하기 위한 업믹서(228)를 더 포함하는 것인 멀티채널 오디오 디코더.
청구항 10에 따른 멀티채널 오디오 디코더(220)에 있어서,

비트스트림(230)에서 분해된 모노포닉 다운믹스 신호(231)의 인코딩된 표현으로부터 모노포닉 다운믹스 신호(236)를 유도하기 위한 오디오 디코더(224)를 더 포함하는 것인 멀티채널 오디오 디코더.
멀티채널 오디오신호의 파라메트릭 표현(12)을 유도하기 위한 인코더(10)로서, 그 파라메트릭 표현(12)은 모노포닉 다운믹스 신호와 함께 사용하기에 적합한 파라미터를 가지며, 그 인코더(10)는:

멀티채널 신호의 공간 특성을 기술하는 하나 또는 그 이상의 공간 파라미터(20)를 계산하는 공간 파라미터 계산기(14)와,

멀티채널 신호에서 유도된 스테레오 다운믹스 신호의 공간 특성을 기술하는 스테레오 파라미터(22)를 계산하는 스테레오 파라미터 계산기(16)와,

결합 법칙을 사용하여 하나 또는 그 이상의 공간 파라미터(20)와 스테레오 파라미터(22)를 결합하는 것에 의해 파라메트릭 표현(12)을 발생하는 파라미터 결합기(18)와, 여기서 이 파라미터 결합기(18)는 디코더 사용가능한 스테레오 파라미터(24)와 하나 또는 그 이상의 공간 파라미터(26)에 관한 정보를 산출하는 결합 법칙을 사용하도록 동작하고, 그 정보가 상기 디코더 사용가능한 스테레오 파라미터(24)와 함께, 하나 또는 그 이상의 공간 파라미터(20)를 표현하는 것인 파라미터 결합기를을 포함하는 인코더.
청구항 12에 따른 인코더(10; 52)에 있어서,

상기 스테레오 파라미터 계산기(16)는 멀티채널 신호(50)로부터 스테레오 다운믹스 신호(72)를 유도하기 위한 스테레오 다운믹서(58)를 더 포함하는 것인 인코더.
청구항 12 또는 청구항 13에 따른 인코더(10; 52)에 있어서,

멀티채널 신호(50)로부터 모노포닉 다운믹스 신호(68)를 유도하기 위한 공간 다운믹서(54)를 더 포함하는 것인 인코더.
청구항 12 내지 청구항 14에 따른 인코더(10; 52)에 있어서,

파라메트릭 표현과 모노포닉 다운믹스를 포함하는 비트스트림(82)을 레거시 파라메트릭 스테레오 디코더에 대해 하향 호환성 있게 유도하는 비트스트림 계산기(66)를 더 포함하는 것인 인코더.
청구항 14 또는 청구항 15에 따른 인코더에 있어서,

상기 공간 다운믹서(54)는 압축 법칙을 사용하여 모노포닉 다운믹스 신호(68)를 압축하기 위한 오디오 인코더(62)를 더 포함하는 것인 인코더.
파라메트릭 표현을 처리하기 위한 방법으로서, 이 파라메트릭 표현은 멀티채널 신호의 공간 특성을 기술하는 하나 또는 그 이상의 공간 파라미터와 멀티채널 신호의 스테레오 다운믹스의 공간 특성을 기술하는 스테레오 파라미터에 관한 정보를 포함하고, 하나 또는 그 이상의 공간 파라미터와 스테레오 파라미터에 관한 정보는 결합 법칙을 사용하여 결합할 때 하나 또는 그 이상의 공간 파라미터를 얻게 되는 상기 방법은:

하나 또는 그 이상의 공간 파라미터가 얻어지도록 결합 법칙을 사용하여 스테레오 파라미터와 하나 또는 그 이상의 공간 파라미터에 관한 정보를 결합하는 단계를 포함하는 것인 방법.
멀티채널 오디오신호의 파라메트릭 표현을 유도하기 위한 방법으로서, 그 파라메트릭 표현은 모노포닉 다운믹스 신호와 함께 사용되기에 적합한 파라미터를 가지며, 상기 방법은:

멀티채널 신호의 공간 특성을 기술하는 하나 또는 그 이상의 공간 파라미터를 계산하는 단계와,

멀티채널 신호에서 유도된 스테레오 다운믹스 신호의 공간 특성을 기술하는 스테레오 파라미터를 계산하는 단계와,

결합 법칙을 사용하여 하나 또는 그 이상의 공간 파라미터와 스테레오 파라미터를 결합하는 것에 의해 파라메트릭 표현을 발생하는 단계를 포함하고, 여기서 상기 결합 법칙은 디코더 사용가능한 스테레오 파라미터와 하나 또는 그 이상의 공간 파라미터에 관한 정보를 만들고, 이 정보가 상기 디코더 사용가능한 스테레오 파라미터와 함께, 하나 또는 그 이상의 공간 파라미터를 표현하는 것인 방법.
멀티채널 오디오신호의 파라메트릭 표현으로서, 이 파라메트릭 표현은 모노포닉 다운믹스 신호와 함께 사용되기에 적합한 파라미터를 가지며,

상기 파라메트릭 표현은 멀티채널 신호에서 유도된 스테레오 다운믹스 신호의 공간 특성을 기술하는 디코더 사용가능한 스테레오 파라미터와 하나 또는 그 이상의 공간 파라미터에 관한 정보를 가지고,

상기 하나 또는 그 이상의 공간 파라미터에 관한 정보는 멀티채널 신호의 공간 특성을 기술하는 하나 또는 그 이상의 공간 파라미터와 스테레오 파라미터를 결합하는 것에 의해 발생되고,

상기 결합에서 하나 또는 그 이상의 공간 파라미터에 관한 정보가, 상기 디코더 사용가능한 스테레오 파라미터와 함께, 하나 또는 그 이상의 공간 파라미터를 표현하는 것인 파라메트릭 표현.
컴퓨터에서 읽을 수 있는 기억 매체로서,

상기 기억 매체에 저장되고 청구항 19에 따른 멀티채널 오디오신호의 파라메트릭 표현을 가진 컴퓨터에서 읽을 수 있는 기억 매체.
송신기 또는 녹음기(330)로서,

청구항 12에 따른 멀티채널 오디오신호의 파라메트릭 표현을 유도하기 위한 인코더를 가진 송신기 또는 녹음기.
수신기 또는 오디오 재생기(340)로서,

청구항 1에 따른 멀티채널 오디오 디코더(200)를 가진 수신기 또는 오디오 재생기.
송신 또는 녹음하는 방법으로서,

청구항 18에 따른 멀티채널 오디오신호의 파라메트릭 표현을 유도하기 위한 방법을 갖는 송신 또는 녹음하는 방법.
수신 또는 오디오를 재생하는 방법으로서,

청구항 17에 따른 파라메트릭 표현을 처리하기 위한 방법을 갖는 수신 또는 오디오를 재생하는 방법.
송신기(330)와 수신기(340)를 가진 전송 시스템으로서,

상기 송신기(330)는 청구항 12에 따른 멀티채널 오디오신호의 파라메트릭 표현을 유도하기 위한 인코더를 가지며,

상기 수신기(340)는 청구항 1에 따른 멀티채널 오디오 디코더를 가지는 전송 시스템.
송신 및 수신 방법으로서, 이 방법은:

청구항 18에 따른 멀티채널 오디오신호의 파라메트릭 표현을 유도하기 위한 방법을 갖는 송신 방법과,

청구항 17에 따른 파라메트릭 표현을 처리하기 위한 방법을 갖는 수신 방법을 포함하는 것인 송신 및 수신 방법.
컴퓨터에서 실행될 때 청구항 17, 18, 23, 24, 또는 26중 어느 하나의 청구항에 따른 방법을 수행하기 위한 컴퓨터 프로그램.