KR101433701B1

KR101433701B1 - 적응형으로 선택가능한 좌／우 또는 미드／사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩

Info

Publication number: KR101433701B1
Application number: KR1020137020130A
Authority: KR
Inventors: 헤이코 푸른하겐; 폰투스 칼슨; 크리스토퍼 크죌링
Original assignee: 돌비 인터네셔널 에이비
Priority date: 2009-03-17
Filing date: 2010-03-05
Publication date: 2014-08-28
Also published as: US20180144751A1; CA3152894C; RU2020122022A; US20240127829A1; US20150269948A1; US11315576B2; US20190287538A1; CA2949616C; HK1166414A1; BR122019023924B1; US20120002818A1; US11133013B2; RU2017108988A; KR101367604B1; AU2010225051B2; WO2010105926A3; RU2614573C2; ES2519415T3; CA2754671C; EP2409298A2

Abstract

본 발명은 오디오 인코더 및 디코더 시스템들에 관한 것이다. 인코더 시스템의 실시예는 스테레오 신호에 기초하여 다운믹스 신호 및 잔차 신호를 생성하기 위한 다운믹스 스테이지를 포함한다. 또한, 인코더 시스템은 채널간 세기차 및 채널간 교차상관과 같은 파라메트릭 스테레오 파라미터들을 결정하기 위한 파라미터 결정 스테이지를 포함한다. 바람직하게, 파라메트릭 스테레오 파라미터들은 시간-가변 및 주파수-가변적이다. 또한, 인코더 시스템은 변환 스테이지를 포함한다. 변환 스테이지는 다운믹스 신호 및 잔차 신호에 기초하여 변환을 실행함으로써 의사 좌/우 스테레오 신호를 생성한다. 의사 스테레오 신호는 인지 스테레오 인코더에 의해 처리된다. 스테레오 인코딩을 위해서, 좌/우 인코딩 또는 미드/사이드 인코딩은 선택가능하다. 바람직하게, 좌/우 스테레오 인코딩과 미드/사이드 스테레오 인코딩 간에 선택은 시간-가변 및 주파수-가변적이다.

Description

적응형으로 선택가능한 좌／우 또는 미드／사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩{ADVANCED STEREO CODING BASED ON A COMBINATION OF ADAPTIVELY SELECTABLE LEFT/RIGHT OR MID/SIDE STEREO CODING AND OF PARAMETRIC STEREO CODING}

본 발명은 오디오 코딩에 관한 것으로, 특히 파라미터 및 파형 기반의 코딩 기술들을 결합한 스테레오 오디오 코딩에 관한 것이다.

스테레오 신호의 좌측(L) 채널 및 우측(R) 채널의 조인트(joint) 코딩은 L 및 R의 독립적 코딩에 비해 더 효율적인 코딩을 가능하게 한다. 조인트 스테레오 코딩을 위한 일반적인 수법은 미드(mid)/사이드(side)(M/S) 코딩이다. 여기에서, 미드(M) 신호는 L 신호와 R 신호를 더함으로써 형성되는데, 예를 들면, M 신호는 다음의 형태를 취할 수 있다.

또한, 사이드(S) 신호는 2개의 채널 L 및 채널 R을 서로 감함으로써 형성되는데, 예를 들면, S 신호는 다음의 형태를 취할 수 있다.

M/S 코딩의 경우에, L 신호 및 R 신호 대신에 M 신호 및 S 신호가 코딩된다.

MPEG(Moving Picture Experts Group) AAC(Advanced Audio Coding) 표준(표준 문서 ISO/IEC 13818-7 참조)에서, L/R 스테레오 코딩 및 M/S 스테레오 코딩은 시간-가변 및 주파수-가변 방식으로 선택될 수 있다. 따라서, 스테레오 인코더는 스테레오 신호의 일부 주파수 대역들에 대해선 L/R 코딩을 적용할 수 있고 반면 M/S 코딩은 스테레오 신호의 그외 다른 주파수 대역들을 인코딩하기 위해 이용된다(주파수 가변). 또한, 인코더는 시간에 따라 L/R과 M/S 코딩 간을 전환할 수 있다(시간-가변). MPEG AAC에서, 스테레오 인코딩을 주파수 영역, 특히 MDCT(수정된 이산 코사인 변환) 영역에서 실행된다. 이것은 주파수 및 시간 가변적으로 L/R 또는 M/S 코딩을 적응형으로 선택할 수 있게 한다. L/R과 M/S 스테레오 인코딩 간에 결정은 사이드 신호를 평가함으로써 기초할 수 있는데, 사이드 신호의 에너지가 낮을 때는 M/S 스테레오 인코딩이 더 효율적이고 이용되어야 한다. 대안적으로, 두 스테레오 코딩 수법들 간을 결정함에 있어, 두 코딩 수법들을 시도해보고, 선택은 나타난 양자화 결과, 즉, 관찰된 인지 엔트로피에 기초할 수 있다.

조인트 스테레오 코딩에 대한 대안적 수법은 파라메트릭 스테레오(PS) 코딩이다. 여기에서, 스테레오 신호는 AAC 인코더와 같은 통상의 오디오 인코더로 다운믹스 신호를 인코딩한 후에 모노 다운믹스 신호로서 전달된다. 다운믹스 신호는 L 채널과 R 채널의 중첩이다. 모노 다운믹스 신호는 채널간(즉, L과 R 간에) 세기 차(IID) 및 채널간 교차상관(ICC)과 같은 추가의 시간-가변 및 주파수-가변적 PS 파라미터들과 조합하여 전달된다. 디코더에서, 디코딩된 다운믹스 신호 및 파라메트릭 스테레오 파라미터들에 기초하여, 원 스테레오 신호의 인지 스테레오 이미지에 근사한 스테레오 신호가 재구성된다. 재구성하기 위해서, 다운믹스 신호의 역상관된(decorrelated) 버전이 역상관기에 의해 생성된다. 이러한 역상관기는 적합한 전역-통과 필터에 의해 실현될 수 있다. PS 인코딩 및 디코딩은 논문 "Low Complexity 파라미터 Stereo Coding in MPEG-4", H. Purnhagen, Proc. Of the 7th Int. Conference on Digital Audio Effects (DAFx'04), Naples, Italy, October 5-8, 2004, pages 163-168에 기술되어 있다. 이 문서에 개시된 바를 참조로서 여기에 포함시킨다.

MPEG 서라운드 표준(문서 ISO/IEC 23003-1 참조)은 PS 코딩의 개념을 이용한다. MPEG 서라운드 디코더에서 복수의 출력 채널들은 몇개의 입력 채널들 및 제어 파라미터들에 기초하여 생성된다. MPEG 서라운드 디코더들 및 인코더들은 파라메트릭 스테레오 모듈들을 연이어 연결함으로써 구성되는데, MPEG 서라운드에서는 디코더에 있어서선 OTT 모듈들(1 대 2 모듈들) 이라고 하고 인코더에 있어선 R-OTT 모듈들(역 1 대 2 모듈들)이라고 한다. OTT 모듈은 PS 파라미터들을 동반한 단일 입력 채널(다운믹스 신호)에 의해 2개의 출력 채널들을 결정한다. OTT 모듈은 PS 디코더에 대응하고 R-OTT 모듈은 PS 인코더에 대응한다. 파라메트릭 스테레오는 디코더측에서 단일 OTT 모듈과 인코더측에서 단일 R-OTT 모듈을 이용한 MPEG 서라운드를 이용함으로써 실현될 수 있고, 이것을 "MPEG 서라운드 2-1-2" 모드라고도 한다. 비트스트림 신택스는 다를 수 있는데, 그러나 기본 이론 및 신호 처리는 동일하다. 그러므로, 다음에서 PS에 대한 모든 언급들은 "MPEG 서라운드 2-1-2" 또는 MPEG 서라운드 기반 파라메트릭 스테레오를 포함한다.

PS 인코더에서(예를 들면, MPEG 서라운드 PS 인코더에서), 다운믹스 신호 외에도 잔차 신호(RES)가 결정되어 송신될 수 있다. 이러한 잔차 신호는 원 채널들을 이들의 다운믹스 및 PS 파라미터들로 나타낸 것에 연관된 오차를 나타낸다. 디코더에서, 잔차 신호는 다운믹스 신호의 역상관된 버전 대신에 이용될 수 있다. 이것은 원 채널 L 및 채널 R의 파형들을 더 잘 재구성할 수 있게 한다. 추가의 잔차 신호의 이용은 예를 들면, MPEG 서라운드 표준(문서 ISO/IEC 23003-1 참조)에 및 논문 "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding, J. Herre et al., Audio Engineering Convention Paper 7084, 122^nd Convention, May 5-8, 2007에 기술되어 있다. 두 문서들의 내용, 특히 이들에 잔차 신호에 대한 설명을 참조로서 여기에 포함시킨다.

잔차를 이용한 PS 코딩은 M/S 코딩보다는 조인트 스테레오 코딩에 더 일반적인 수법이고, M/S 코딩은 L/R 신호들을 M/S 신호들로 변환할 때 신호 회전(rotation)을 실행한다. 또한, 잔차 이용 PS 코딩은 L/R 신호들을 다운믹스 신호 및 잔차 신호로 변환할 때 신호 회전 을 실행한다. 그러나, 후자의 경우에 신호 회전는 가변적이고 PS 파라미터들에 종속적이다.

잔차 이용 PS 코딩의 더 일반적 수법에 기인하여, 잔차 이용 PS 코딩은 팬(paned) 모노 신호같은 어떤 유형들의 신호들의 코딩을 M/S 코딩보다 더 효율적이게 한다. 따라서, 제시된 코더는 파라메트릭 스테레오 코딩 기술들을 파형 기반 스테레오 코딩 기술들과 효율적으로 결합할 수 있게 한다.

흔히, MPEG AAC 인지 스테레오 인코더와 같은 인지 스테레오 인코더들은 L/R 스테레오 인코딩과 M/S 스테레오 인코딩 중 하나를 결정할 수 있는데, 후자의 경우 미드/사이드 신호는 스테레오 신호에 기초하여 발생된다. 이러한 선택은 주파수-가변적일 수 있는데, 즉, 일부 주파수 대역들에 대해서 L/R 스테레오 인코딩이 이용될 수 있고, 그외 주파수 대역들에 대해선 M/S 스테레오 인코딩이 이용될 수 있다.

L 및 R 채널들이 기본적으로 독립적 신호들인 상황에서, 이러한 인지 스테레오 인코더는 이 상황에서 이러한 인코딩 수법이 L/R 스테레오 인코딩에 비해 어떠한 코딩 이득도 제공하지 않기 때문에 전형적으로 M/S 스테레오 인코딩을 제공하지 않을 것이다. 인코더는 기본적으로 L 및 R을 독립적으로 처리하는 단순 L/R 스테레오 인코딩으로 되돌아 갈 것이다.

같은 상황에서, PS 인코더 시스템은 L 및 R 채널들 양쪽 모두를 내포하는 다운믹스 신호를 생성할 것이고, 이것은 L 및 R 채널들의 독립적 처리를 못하게 한다. 잔차 신호 이용 PS 코딩에 있어서, 이것은 스테레오 인코딩에 비해 덜 효율적인 코딩임을 의미할 수 있고, L/R 스테레오 인코딩 또는 M/S 스테레오 인코딩은 적응형으로 선택될 수 있다.

따라서, L/R 스테레오 인코딩과 M/S 스테레오 인코딩 중 하나를 적응형으로 선택함으로써 PS 코더가 인지 스테레오 코더보다 낮고, 다른 상황들에서는 후자의 코더가 PS 코더보다 더 나은 상황들이 있다.

본 발명의 목적은 파라미터 및 파형 기반의 코딩 기술들을 결합한 스테레오 오디오 코딩을 제공하는 것이다.

본 발명은 잔차를 이용하는 PS 코딩을 적응형 L/R 또는 M/S 인지 스테레오 코딩(예를 들면, MDCT 영역에서 AAC 인지 조인트 스테레오 코딩)에 결합하는 착상에 기초한 오디오 인코더 시스템 및 인코딩 방법을 기술한다. 이것은 적응형 L/R 또는 M/S 스테레오 코딩(예를 들면, MPEG AAC에서 이용되는)의 잇점들과 잔차 신호를 이용하는 PS 코딩(예를 들면, MPEG 서라운드에서 이용되는)의 잇점들을 결합할 수 있게 한다. 또한, 본 발명은 대응하는 오디오 디코더 시스템 및 디코딩 방법을 기술한다.

본 발명의 제 1 양태는 스테레오 신호를 비트스트림 신호로 인코딩하기 위한 인코더 시스템에 관한 것이다. 인코더 시스템의 실시예에 따라서, 인코더 시스템은 스테레오 신호에 기초하여 다운믹스 신호 및 잔차 신호를 생성하기 위한 다운믹스 스테이지를 포함한다. 잔차 신호는 이용되는 오디오 주파수 범위의 일부분만을 또는 전부를 포함할 수 있다. 또한, 인코더 시스템은 채널간 세기 차 및 채널간 교차상관과 같은 PS 파라미터들을 결정하기 위한 파라미터 결정 스테이지를 포함한다. 바람직하게, PS 파라미터들 주파수-가변적이다. 이러한 다운믹스 스테이지 및 파라미터 결정 스테이지는 전형적으로 PS 인코더의 일부이다.

또한, 인코더 시스템은 다운믹스 스테이지 하류측에 있는 인지 인코딩 수단을 포함하고, 다운믹스 신호와 잔차 신호의 합에 기초하고 다운믹스 신호와 잔차 신호의 차에 기초하여 인코딩하거나, 다운믹스 신호에 기초하고 잔차 신호에 기초하여 인코딩하는 것인 2가지 인코딩 수법들이 선택가능하다.

인코딩이 다운믹스 신호 및 잔차 신호에 기초하는 경우에, 다운믹스 신호 및 잔차 신호가 인코딩되거나 이에 비례하는 신호들이 인코딩될 수 있는 것에 유의한다. 인코딩이 합 및 차에 기초하는 경우, 합 및 차가 인코딩되거나 이에 비례하는 신호들이 인코딩될 수 있다.

선택은 주파수-가변적(및 시간-가변적)일 수 있는데, 즉, 제 1 주파수 대역에 대해서 인코딩이 합 신호 및 차 신호에 기초하는 것이 선택될 수 있고, 제 2 주파수 대역에 대해서 인코딩은 다운믹스 신호 및 잔차 신호에 기초하는 것이 선택될 수 있다.

이러한 인코더 시스템은 잔차를 이용하여 L/R 스테레오 코딩과 PS 코딩 간을 전환할 수 있게 하는(바람직하게 주파수-가변적으로) 잇점이 있는데, 인지 인코딩 수단이 다운믹스 신호 및 잔차 신호에 기초한 인코딩을 선택한다면(특정 대역에 대해서 또는 전체 이용되는 주파수 범위에 대해서), 인코딩 시스템은 잔차 이용 표준 PS 코딩을 이용하는 시스템처럼 동작한다. 그러나, 인지 인코딩 수단이 다운믹스 신호 및 잔차 신호의 합 신호에 기초하고 및 다운믹스 신호 및 잔차 신호의 차 신호에 기초하여 인코딩을 선택한다면(특정 대역에 대해서 또는 전체 이용되는 주파수 범위에 대해서), 어떤 상황들 하에서, 합 및 차 연산들은 근본적으로 전체 시스템이 실제로 전체 스테레오 신호 또는 이의 주파수 대역에 대해서 L/R 인코딩을 실행할 수 있게 이전의 다운믹스 동작(아마도 다른 이득률은 제외하고)을 보상한다. 예를 들면, 이러한 상황들은 스테레오 신호의 L 채널 및 R 채널이 독립적이고 후술하는 바와 같이 동일 레벨을 가질 때 일어난다.

바람직하게, 인코딩 수법의 적응은 시간 및 주파수에 종속적이다. 따라서, 바람직하게 스테레오 신호의 일부 주파수 대역들은 L/R 인코딩 수법에 의해 인코딩되고, 스테레오 신호의 이외 다른 주파수 대역들은 잔차를 이용하는 PS 코딩 수법에 의해 인코딩된다.

위에 논한 바와 같이 인코딩이 다운믹스 신호 및 잔차 신호에 기초하는 경우에, 코어 인코더에 입력되는 실제 신호는 다운믹스 신호 및 반대인 잔차 신호에 대해 2개의 일련의 동작들(아마도 다른 이득율에 대해선 제외하고)에 의해 형성될 수도 있는 것에 유의한다. 예를 들면, 다운믹스 신호 및 잔차 신호는 M/S 대 L/R 변환 스테이지에 공급되고 이어서 변환 스테이지의 출력은 L/R 대 M/S 변환 스테이지에 공급된다. 결과적인 신호(이어서 인코딩하기 위해 이용된다)는 다운믹스 신호 및 잔차 신호(아마도 다른 이득율에 대해선 제외하고)에 대응한다.

다음 실시예는 이 착상을 이용한다. 인코더 시스템의 실시예에 따라서, 인코더 시스템은 위에 논한 바와 같이 다운믹스 스테이지 및 파라미터 결정 스테이지를 포함한다. 또한, 인코더 시스템은 변환 스테이지(예를 들면, 위에 논한 인코딩 수단의 부분으로서)를 포함한다. 변환 스테이지는 다운믹스 신호 및 잔차 신호의 변환을 실행함으로써 의사 L/R 스테레오 신호를 생성한다. 변환 스테이지는 바람직하게는 합차 변환을 실행하는데, 다운믹스 신호 및 잔차 신호들은 의사 스테레오 신호의 한 채널을 생성하기 위해 합해지며(아마도, 합은 인수로 곱해진다), 의사 스테레오 신호의 다른 한 채널을 생성하기 위해 서로 감해진다(아마도, 차는 인수로 곱해진다). 바람직하게, 의사 스테레오 신호의 제 1 채널(예를 들면, 의사 좌 채널)은 다운믹스 신호 및 잔차 신호의 합에 비례하고, 제 2 채널(예를 들면, 의사 우 채널)은 다운믹스 신호 및 잔차 신호의 차에 비례한다. 이에 따라, PS 인코더로부터 다운믹스 신호(DMX) 및 잔차 신호(RES)는 다음 식들에 따라 의사 스테레오 신호(L_p, R_p)로 변환될 수 있다.

L_p = g(DMX + RES)

R_p = g(DMX - RES)

위의 식들에서 이득 정규화율 g는 예를 들면, 다음의 값을 갖는다.

의사 스테레오 신호는 바람직하게는 인지 스테레오 인코더(예를 들면, 인코딩 수단의 부분으로서)에 의해 처리된다. 인코딩에 있어서, L/R 스테레오 인코딩 또는 M/S 스테레오 인코딩은 선택될 수 있다. 적응형 L/R 또는 M/S 인지 스테레오 인코더는 AAC 기반 인코더일 수 있다. 바람직하게, L/R 스테레오 인코딩 및 M/S 스테레오 인코딩 간에 선택은 주파수-가변적이고, 따라서 선택은 위에 논한 바와 같이 상이한 주파수 대역들마다 다를 수 있다. 또한, L/R 인코딩과 M/S 인코딩 간에 선택은 바람직하게는 시간-가변적이다. L/R 인코딩과 M/S 인코딩 간에 결정은 바람직하게는 인지 스테레오 인코더에 의해 행해진다.

M/S 인코딩에 대해 선택가능한 이러한 인지 인코더는 (의사) M 및 S 신호들(시간 영역에서 또는 선택된 주파수 대역들에서)를 의사 스테레오 L/R 신호에 기초하여 내부에서 계산할 수 있다. 이러한 의사 M 및 S 신호들은 다운믹스 신호 및 잔차 신호(아마도 다른 이득율에 대해선 제외하고)에 대응한다. 따라서, 인지 스테레오 인코더가 M/S 인코딩을 선택한다면, 이것은 시스템에서 잔차 이용 표준 PS 코딩을 이용하여 행해졌을 다운믹스 신호 잔차 신호(의사 M 신호 S 신호에 대응하는)을 실제로 인코딩한다.

또한, 특별한 상황들 하에서, 변환 스테이지는 전체 인코더 시스템이 실제로 전체 스테레오 신호 또는 이의 주파수 대역에 대해서 L/R 인코딩을 실행할 수 있게(인지 인코더에서 L/R 인코딩이 선택된다면) 이전의 다운믹스 동작(아마도 다른 이득률은 제외하고)을 근본적으로 보상한다. 이것은 예를 들면, 스테레오 신호의 L 채널 및 R 채널이 독립적이고 나중에 상세히 설명되는 바와 같이 동일 레벨을 가질 때의 경우이다. 따라서, 주파수 대역에 대해서 스테레오 신호의 좌 채널 및 우 채널이 근본적으로 독립적이고 근본적으로 동일 레벨을 갖는다면, 주어진 주파수 대역에 대해서 의사 스테레오 신호는 근본적으로 스테레오 신호에 대응하거나 이에 비례한다.

따라서, 인코더 시스템은 주어진 스테레오 입력 신호의 특성들에 맞출 수 있기 위해서, L/R 스테레오 코딩과 잔차 이용 PS 코딩 간을 실제적으로 전환할 수 있게 한다. 바람직하게, 인코딩 수법의 적응은 시간 및 주파수 종속적이다. 따라서, 바람직하게, 스테레오 신호의 일부 주파수 대역들은 L/R 인코딩 수법에 의해 인코딩되고, 스테레오 신호의 그외 주파수 대역들은 잔차 이용 PS 코딩 수법에 의해 인코딩된다. M/S 코딩은 기본적으로 잔차 이용 PS 코딩의 특별한 경우이고(L/R 대 M/S 변환은 PS 다운믹스 동작의 특별한 경우이기 때문에) 따라서 인코더 시스템도 전체 M/S 코딩을 실행할 수 있는 것에 유의한다.

PS 인코더의 하류측에 및 L/R 또는 M/S 인지 스테레오 인코더의 상류측에 변환 스테이지를 갖는 상기 실시예는 통상의 PS 인코더 및 통상의 인지 인코더가 이용될 수 있다는 잇점이 있다. 그럼에도불구하고, PS 인코더 또는 인지 인코더는 여기에서 특별한 이용에 기인하여 적응형이 될 수 있다.

새로운 개념은 PS 코딩 및 조인트 스테레오 코딩을 효율적으로 결합할 수 있게 함으로써 스테레오 코딩의 성응을 개선한다.

대안적 실시예에 따라, 위에 논한 바와 같은 인코딩 수단은 하나 이상의 주파수 대역들(예를 들면, 전체 이용되는 주파수 범위에 대해서 또는 한 주파수 범위에 대해서만)에 대해서 다운믹스 신호 및 잔차 신호에 기초하여 합차 변환을 실행하는 변환 스테이지를 포함한다. 변환은 주파수 영역 또는 시간 영역에서 실행될 수 있다. 변환 스테이지는 하나 이상의 주파수 대역들에 대해 의사 좌/우 스테레오 신호를 생성한다. 의사 스테레오 신호의 한 채널은 합에 대응하고, 다른 채널은 차에 대응한다.

따라서, 인코딩이 합차 신호들에 기초하는 경우에, 변환 스테이지의 출력이 인코딩을 위해 이용될 수 있고, 인코딩이 다운믹스 신호 및 잔차 신호에 기초하는 경우에, 인코딩 스테이지의 상류측에 신호들이 인코딩을 위해 이용될 수 있다. 따라서, 이 실시예는 다운믹스 신호 및 잔차 신호에 대해 2개의 일련의 합차 변환들을 이용하지 않아, 다운믹스 신호 및 잔차 신호(아마도 다른 이득율에 대해선 제외하고)가 되게 한다.

다운믹스 신호 및 잔차 신호에 기초하여 인코딩을 선택하였을 때, 스테레오 신호의 파라메트릭 스테레오 인코딩이 선택된다. 합차에 기초하여 인코딩(즉, 의사 스테레오 신호에 기초한 인코딩)을 선택하였을 때, 스테레오 신호의 L/R 인코딩이 선택된다.

변환 스테이지는 L/R 및 M/S 스테레오 인코딩(아마도 이득율은 통상의 L/R 대 M/S 변환 스테이지에 비교하여 다르다) 간을 적응형으로 선택하는 인지 인코더의 부분으로서 L/R 대 M/S 변환 스테이지일 수 있다. L/R과 M/S 스테레오 인코딩 간에 결정은 반대로 되어야 함에 유의한다. 따라서, 다운믹스 신호 및 잔차 신호에 기초한 인코딩은 결정 수단이 M/S 인지 디코딩을 결정하였을 때 선택되고(즉, 인코딩된 신호는 변환 스테이지를 거치지 않았다), 변환 스테이지에 의해 생성된 의사 스테레오 신호에 기초한 인코딩은 결정 수단이 L/R 인지 디코딩을 결정하였을 때 선택된다(즉, 인코딩된 신호는 변환 스테이지를 거쳤다).

위에 논의된 실시예들 중 어느 한 실시예에 따른 인코더 시스템은 추가의 SBR(스펙트럼 대역 복제) 인코더를 포함할 수도 있다. SBR은 HFR(고 주파수 재구성)의 형태이다. SBR 인코더는 디코더에서 오디오 신호의 고 주파수 범위의 재구성을 위한 사이드 정보를 결정한다. 저 주파수 범위만이 인지 인코더에 의해 인코딩되고, 그럼으로써 비트레이트를 감소시킨다. 바람직하게, SBR 인코더는 PS 인코더의 상류측에 연결된다. 따라서, SBR 인코더는 스테레오 영역에 있을 수 있고, 스테레오 신호를 위한 SBR 파라미터들을 생성한다. 이것은 도면들에 관련하여 상세히 논의될 것이다.

바람직하게, PS 인코더(즉, 다운믹스 스테이지 및 파라미터 결정 스테이지)은 오버샘플된 주파수 영역에서 동작한다(이하 논의된 바와 같이 PS 디코더는 바람직하게는 오버샘플된 주파수 영역에서 동작한다). 시간을 주파수로 변환에 있어 예를 들면, QMF(quadrature mirror filter) 및 나이키스트 필터를 구비한 복소수값 하이브리드 필터 뱅크는 MPEG 서라운드 표준(문서 ISO/IEC 23003-1 참조)에 기술된 바와 같이 PS 인코더의 상류측에서 이용될 수 있다. 이것은 가청 에일리어싱 아티팩트없이 시간 및 주파수 적응형 신호 처리를 할 수 있게 한다. 반면, 적응형 L/R 또는 M/S 인코딩은 바람직하게 효율적 양자화된 신호 표현이 될 수 있게 하기 위해서 크리티컬 샘플링(critically sampled) MDCT 영역(예를 들면, AAC에 기술된 바와 같은) 에서 실행된다.

다운믹스 신호 및 잔차 신호와 의사 L/R 스테레오 신호 간에 변환은 PS 인코더 및 인지 스테레오 인코더가 전형적으로 어째든 시간 영역에서 연결되기 때문에 시간 영역에서 실행될 수 있다. 따라서, 의사 L/R 신호를 생성하기 위한 변환 스테이지는 시간 영역에서 동작할 수 있다.

도면들에 관련하여 논의된 다른 실시예들에서, 변환 스테이지는 오버샘플된 주파수 영역에서 또는 크리티컬 샘플링 MDCT 영역에서 동작한다.

본 발명의 제 2 양태는 위에 논한 인코더 시스템에 의해 생성되는 비트스트림 신호 을 디코딩하기 위한 디코더 시스템 에 관한 것이다.

디코더 시스템의 실시예에 따라서, 디코더 시스템은 비트스트림 신호에 기초하여 디코딩하는 인지 디코딩 수단을 포함한다. 디코딩 수단은 디코딩에 의해 (내부) 제 1 신호 및 (내부) 제 2 신호를 생성하고 다운믹스 신호 및 잔차 신호를 출력하도록 구성된다. 다운믹스 신호 및 잔차 신호는 선택적으로, 제 1 신호 및 제 2 신호의 합에 기초하고 제 1 신호 및 제 2 신호의 차에 기초하거나, 제 1 신호에 기초하고 제 2 신호에 기초한다.

인코더 시스템에 관련하여 위에 논한 바와 같이, 여기에서도 선택은 주파수-가변적이거나 주파수-불변적일 수 있다.

또한, 시스템은 다운믹스 신호 및 잔차 신호에 기초하여 스테레오 신호를 발생하는 업믹스 스테이지를 포함하고, 업믹스 스테이지의 업믹스 동작은 하나 이상의 파라메트릭 스테레오 파라미터들에 종속적이다.

인코더 시스템과 유사하게, 디코더 시스템은 바람직하게 시간 및 주파수 가변적으로, L/R 디코딩과 잔차 이용 PS 디코딩 중 하나를 실제적으로 전환할 수 있게 한다.

또 다른 실시예에 따라서, 디코더 시스템은 비트스트림 신호을 디코딩하고 의사 스테레오 신호를 생성하는 인지 스테레오 디코더(예를 들면, 디코딩 수단의 부분으로서)를 포함한다. 인지 디코더는 AAC 기반 디코더일 수 있다. 인지 스테레오 디코더에 있어서, L/R 인지 디코딩 또는 M/S 인지 디코딩을 주파수-가변 또는 주파수-불변적으로 선택될 수 있다(실제 선택은 바람직하게는 비트스트림 내 사이드-정보로서 전달되는 인코더에서 판단에 의해 제어된다). 디코더는 인코딩을 위해 이용되는 인코딩 수법에 기초하여 디코딩 수법을 선택한다. 이용된 인코딩 수법은 수신된 비트스트림 내 내포된 정보에 의해 디코더에 지시될 수 있다.

또한, 변환 스테이지는 의사 스테레오 신호의 변환을 실행함으로써 다운믹스 신호 및 잔차 신호를 생성하기 위해 제공된다. 즉, 인지 디코더로부터 얻어진 의사 스테레오 신호는 다운믹스 및 잔차 신호들로 다시 변환된다. 이러한 변환은 합차 변환이고, 결과적인 다운믹스 신호는 의사 스테레오 신호의 좌 채널 및 우 채널의 합에 비례한다. 결과적인 잔차 신호는 의사 스테레오 신호의 좌 채널 및 우 채널 의 차에 비례한다. 따라서, 준 L/R 대 M/S 변환이 실행되었다. 두 채널들(L_p, R_p)을 가진 의사 스테레오 신호는 다음 식들에 따라 다운믹스 및 잔차 신호들로 변환될 수 있다.

위에 식들에서, 이득 정규화율 g은 예를 들면, g =

의 값을 가질 수 있다. 디코더에서 이용되는 잔차 신호(RES)는 전체 이용되는 오디오 주파수 범위 또는 이용된 오디오 주파수 범위의 부분만을 포함할 수 있다.

이어서 다운믹스 신호 및 잔차 신호는 최종 스테레오 출력 신호를 얻기 위해서 PS 디코더의 업믹스 스테이지에 의해 처리된다. 다운믹스 신호 및 잔차 신호를 스테레오 신호로 업믹스하는 것은 수신된 PS 파라미터들에 종속된다.

대안적 실시예에 따라, 인지 디코딩 수단은 하나 이상의 주파수 대역들(예를 들면, 전체 이용된 주파수 범위에 대해서)에 대해서 제 1 신호 및 제 2 신호에 기초하여 실행하기 위한 합차 변환 스테이지를 포함할 수 있다. 따라서, 변환 스테이지는 다운믹스 신호 및 잔차 신호가 제 1 신호 및 제 2 신호의 합에 기초하고 제 1 신호 및 제 2 신호의 차에 기초하는 경우에 대해 다운믹스 신호 및 잔차 신호를 생성한다. 변환 스테이지는 시간 영역 또는 주파수 영역에서 동작할 수 있다.

인코더 시스템에 관련하여 유사하게 논의된 바와 같이, 변환 스테이지는 L/R 및 M/S 스테레오 디코딩(아마도 이득율은 통상의 M/S 대 L/R 변환 스테이지와 비교하여 다르다) 간을 적용으로 선택하는 인지 디코더의 부분으로서 M/S 대 L/R 변환 스테이지일 수 있다. L/R 및 M/S 스테레오 디코딩간에 선택인 반대로 되어야 함에 유의한다.

전술한 실시예들 중 어느 한 실시예에 따른 디코더 시스템은 SBR 인코더로부터 사이드 정보를 디코딩하고 오디오 신호의 고 주파수 성분을 발생하는 추가의 SBR 디코더를 포함할 수 있다. 바람직하게, SBR 디코더는 PS 디코더의 하류측에 위치된다. 이것은 도면들에 관련하여 상세히 논의될 것이다.

바람직하게, 업믹스 스테이지는 오버샘플 주파수 영역에서 동작하는데, 예를 들면, 위에서 논한 하이브리드 필터 뱅크는 PS 디코더의 상류측에서 이용될 수 있다.

L/R 대 M/S 변환은 인지 디코더 및 PS 디코더(업믹스 스테이지를 포함한)가 전형적으로 시간 영역에서 연결되기 때문에 시간 영역에서 실행될 수 있다.

도면들에 관련하여 논의된 다른 실시예들에서, L/R 대 M/S 변환은 오버샘플 주파수 영역(예를 들면, QMF)에서, 또는 크리티컬 샘플링 주파수 영역(예를 들면, MDCT)에서 실행된다.

본 발명의 제 3 양태는 스테레오 신호를 비트스트림 신호으로 인코딩하기 위한 방법에 관한 것이다. 방법은 위에서 논한 인코더 시스템과 유사하게 동작한다. 따라서, 인코더 시스템에 관계된 위에 언급한 바는 기본적으로 인코딩 방법에도 적용될 수 있다.

본 발명의 제 4 양태는 스테레오 신호를 생성하기 위한 PS 파라미터들을 포함하는 비트스트림 신호를 디코딩하는 방법에 관한 것이다. 방법은 위에서 논한 디코더 시스템과 동일한 방식으로 동작한다. 따라서, 디코더 시스템에 관계된 위에 언급한 바는 기본적으로 디코딩 방법에도 적용될 수 있다.

본 발명은 동반된 도면에 관련하여 예들에 의해 이하 설명된다.

도 1은 인지 스테레오 인코더에서 선택적으로 PS 파라미터들이 음향심리 제어를 돕는 인코더 시스템의 실시예도.
도 2는 PS 인코더의 실시예도.
도 3은 디코더 시스템의 실시예도.
도 4는 L/R 인코딩이 잇점이 있는 경우 PS 인코딩을 비활성화하기 위해 검출기를 포함하는 PS 인코더의 또 다른 실시예를 도시한 도면.
도 5는 다운믹스를 위해 추가의 SBR 인코더를 갖는 통상의 PS 인코더 시스템의 실시예도.
도 6은 다운믹스 신호에 대해 추가의 SBR 인코더를 갖는 인코더 시스템의 실시예도.
도 7은 스테레오 영역에서 추가의 SBR 인코더를 갖는 인코더 시스템의 실시예도.
도 8a 내지 도 8d는 디코더 출력에서 2개의 출력 채널들 중 한 채널의 여러 시간-주파수 표현을 도시한 도면들.
도 9a는 코어 인코더의 실시예도.
도 9b는 선형 예측 영역(전형적으로 모노 신호들만에 대해서)에서 코딩과 변환 영역(전형적으로 모노 및 스테레오 신호들 양쪽 모두에 대해서)에서 코딩 간을 전환할 수 있게 하는 인코더의 실시예도.
도 10은 인코더 시스템의 실시예도.
도 11a는 인코더 시스템의 실시예의 일부를 도시한 도면.
도 l1b는 도 11a에 실시예의 구현예를 도시한 도면.
도 11c는 도 11a에 실시예에 대한 대안예를 도시한 도면.
도 12는 인코더 시스템의 실시예도.
도 13는 도 12의 인코더 시스템의 부분으로서 스테레오 코더의 실시예를 도시한 도면.
도 14는 도 6의 인코더 시스템에 의해 발생된 비트스트림 신호를 디코딩하기 위한 디코더 시스템의 실시예도.
도 15는 도 7의 인코더 시스템에 의해 발생된 비트스트림 신호를 디코딩하기 위한 디코더 시스템의 실시예도.
도 16a는 디코더 시스템의 실시예의 부분을 도시한 도면.
도 16b는 도 16a에 실시예의 구현예를 도시한 도면.
도 16c는 도 16a에 실시예의 대안예를 도시한 도면.
도 17은 인코더 시스템의 실시예도.
도 18은 디코더 시스템의 실시예도.

도 1은 잔차를 이용한 PS 인코딩을 적응형 L/R 또는 M/S 인지 스테레오 인코딩과 결합한 인코더 시스템의 실시예를 도시한 것이다. 이 실시예는 단지 본 발명의 원리를 예시하기 위한 것이다. 실시예의 수정예들 및 변형들이 당업자들에게 명백할 것임을 알 것이다. 인코더 시스템은 스테레오 신호(L, R)를 수신하는 PS 인코더(1)를 포함한다. PS 인코더(1)는 스테레오 신호(L, R)에 기초하여 다운믹스(DMX) 및 잔차(RES) 신호들을 생성하기 위한 다운믹스 스테이지를 갖는다. 이 동작은 L 신호 및 R 신호를 다운믹스 신호(DMX) 및 잔차 신호(RES)로 변환하는 2ㆍ2 다운믹스 행렬 H^-1에 의해 기술될 수 있다.

전형적으로, 행렬 H^-1은 주파수-가변 및 시간-가변적인데, 즉, 행렬 H^-1의 원소들은 주파수에 따라 변하고 시간슬롯마다 변한다. 행렬 H^-1은 프레임마다(예를 들면, 21 또는 42ms마다) 업데이트될 수 있고 인지를 기준으로 한(바크(Bark)와 같은)주파수 스케일로 복수의 대역들, 예를 들면, 28, 20, 또는 10 대역들("파라미터 대역들"이라 함)의 주파수 분해능을 가질 수 있다.

행렬 H^-1의 원소들은 시간-가변 및 주파수-가변적 PS 파라미터들(IID(채널간 세기차; CLD-채널 레벨차라고도 함) 및 ICC(채널간 교차상관))에 따른다. PS 파라미터들(5), 예를 들면, IID 및 ICC를 결정하기 위해서, PS 인코더(1)는 파라미터 결정 스테이지를 포함한다. 역행렬 H의 행렬 원소들을 계산하는 예는 다음에 의해 주어지며 참조로서 여기에 포함시키는 MPEG 서라운드 명세 문서 ISO/IEC 23003-1, 6.5.3.2 부단락에 기술되어 있다.

, 및

이고,

여기서,

, 및

이고,

이다.

또한, 인코더 시스템은 PS 인코더(1)로부터의 다운믹스 신호(DMX) 및 잔차 신호(RES)를 예를 들면, 다음 식들에 따라 의사 스테레오 신호(L_p, R_p)로 변환하는 변환 스테이지(2)를 포함한다.

L_p = g(DMX + RES)

R_p = g(DMX - RES)

위에 식들에서 이득 정규화율 g는 예를 들면, g =

값을 갖는다. g =

에 대해서, 의사 스테레오 신호(L_p, R_p)에 대한 2개의 식들은 다음처럼 다시 쓸 수 있다.

이어서 의사 스테레오 신호(Lp, Rp)는 L/R 또는 M/S 스테레오 인코딩을 적응형으로 선택하는 인지 스테레오 인코더(3)에 공급된다. M/S 인코딩은 조인트 스테레오 코딩 형태이다. L/R 인코딩 또한 조인트 인코딩 특징들에 기초할 수 있는데, 예를 들면, 비트들은 공통 비트 저장소(reservoir)로부터 L 채널 및 R 채널에 대해 공동으로 할당될 수 있다.

L/R 또는 M/S 스테레오 인코딩 간에 선택은 바람직하게는 주파수-가변적인데, 즉, 일부 주파수 대역들은 L/R 인코딩될 수 있고, 그외 다른 주파수 대역들은 M/S 인코딩될 수 있다. L/R 또는 M/S 스테레오 인코딩 간에 선택을 구현하기 위한 실시예는 문서 "Sum-Difference Stereo Transform Coding", J.D. Johnston et al., IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 1992, pages 569-572에 기술되어 있다. 이 문서, 특히 5.1 및 5.2 단락들에 L/R 또는 M/S 스테레오 인코딩 간에 선택에 대한 논의를 참조로서 여기에 포함시킨다.

의사 스테레오 신호(L_p, R_p)에 기초하여, 인지 인코더(3)는 내부에서 (의사) 미드/사이드 신호들(M_p, S_p)를 계산할 수 있다. 이러한 신호들은 기본적으로 다운믹스 신호(DMX) 및 잔차 신호(RES)(아마도 다른 이득율에 대해선 제외하고)에 대응한다. 그러므로, 인지 인코더(3)가 주파수 대역에 대해 M/S 인코딩을 선택한다면, 인지 인코더(3)는 잔차를 이용하는 종래의 PS 코딩을 이용하여 종래의 인지 인코더 시스템에서도 행해질 것이기 때문에 이 주파수 대역(아마도 다른 이득율에 대해선 제외하고)에 대해 다운믹스 신호(DMX) 및 잔차 신호(RES)를 기본적으로 인코딩한다. 인지 인코더(3)의 PS 파라미터들(5) 및 출력 비트스트림(4)은 멀티플렉서(7)에 의해 단일 비트스트림으로 멀티플렉스된다.

스테레오 신호의 PS 인코딩 외에도, 도 1에 인코더 시스템은 다음에 설명되는 바와 같이 스테레오 신호를 L/R 코딩할 수 있게 하는데, 위에서 논한 바와 같이, 인코더의 다운믹스 행렬 H^-l의 원소들은(디코더에서 이용되는 업믹스 행렬 H의원소들도) 시간-가변 및 주파수-가변적 PS 파라미터들(IID(채널간 세기차; CLD-채널 레벨차라고도 함) 및 ICC(채널간 교차상관))에 따른다. 업믹스 행렬 H의 행렬 원소들을 계산하는 예는 위에 기술되었다. 잔차 코딩을 이용하는 경우에, 2ㆍ2 업믹스 행렬 H의 우측 열은 다음으로서 주어진다.

그러나, 바람직하게, 2ㆍ2 업믹스 행렬 H의 우측 열은 이 대신에 다음으로 수정되어야 한다.

좌측 열은 바람직하게는 MPEG 서라운드 명세에 주어진 바와 같이 계산된다.

업믹스 행렬 H 의 우측 열을 수정함으로써, IID = 0 dB 및 ICC = 0(즉, 각각의 대역에 대해 스테레오 채널 L 및 채널 R이 독립적이고 동일 레벨을 갖는 경우)에 있어서, 대역에 대해 다음의 업믹스 행렬 H이 얻어질 수 있게 된다.

업믹스 행렬 H 및 다운믹스 행렬 H^-1도 전형적으로 시간-가변 및 주파수-가변적인 것에 유의한다. 따라서, 행렬들의 값들은 시간/주파수 타일들(tile)마다 다르다(타일은 특정 주파수 대역과 특정 시간 기간의 교차부분에 대응한다). 위에 경우에 다운믹스 행렬 H^-1은 업믹스 행렬 H과 같다. 따라서, 대역에 대해서 의사 스테레오 신호(L_p, R_p)은 다음 식에 의해 계산될 수 있다.

그러므로, 이 경우에 다운믹스 행렬 H^-1을 이용하여 잔차를 이용한 PS 인코딩 및 이에 이어 변환 스테이지(2)에서 의사 L/R 신호의 생성은 단위 행렬에 대응하고 각각의 주파수 대역에 대한 스테레오 신호를 전혀 변경하지 않는다. 즉,

L_p = L

R_p = R

즉, 변환 스테이지(2)는 의사 스테레오 신호(L_p, R_p)가 입력 스테레오 신호(L, R)에 대응하게 다운믹스 행렬 H^-1을 보상한다.

이것은 원 입력 스테레오 신호(L, R)를 특정 대역에 대해 인지 인코더(3)에 의해 인코딩할 수 있게 한다. L/R 인코딩이 특정 대역을 인코딩하기 위해 인지 인코더(3)에 의해 선택될 때, 인코더 시스템은 스테레오 입력 신호(L, R)의 대역을 인코딩하기 위한 L/R 인지 인코더처럼 행동한다.

도 1에서 인코더 시스템은 주파수-가변 및 시간-가변 방식으로 L/R 코딩과 잔차를 이용한 PS 코딩 간을 끊어짐이 없이 적응형으로 전환할 수 있게 한다. 인코더 시스템은 코딩 수법을 전환할 때 파형에서 불연속들이 없게 한다. 이것은 아티팩트들을 방지한다. 원할하게 이어질 수 있게 하기 위해서, 2개의 스테레오 파라미터 업데이트들 간에 샘플들에 대해서 인코더에선 행렬 H^-1의 원소들에 및 디코더에선 행렬 H의 원소들에 선형 보간이 적용될 수 있다.

도 2는 PS 인코더(1)의 실시예를 도시한 것이다. PS 인코더(1)는 스테레오 신호(L, R)에 기초하여 다운믹스 신호(DMX) 및 잔차 신호(RES)를 생성하는 다운믹스 스테이지(8)를 포함한다. 또한, PS 인코더(1)는 스테레오 신호(L, R)에 기초하여 PS 파라미터들(5)을 추정하기 위한 파라미터 추정 스테이지(9)를 포함한다.

도 3은 도 1의 인코더 시스템에 의해 생성되는 비트스트림(6)을 디코딩하도록 구성된 대응하는 디코더 시스템의 실시예를 도시한 것이다. 이 실시예는 본 발명의 원리를 단지 예시하는 것이다. 실시예의 수정예들 및 변형들이 당업자들에게 명백할 것임을 알 것이다. 디코더 시스템은 PS 파라미터들(5)과 인지 인코더(3)에 의해 생성되는 오디오 비트스트림(4)을 분리하기 위한 디멀티플렉서(10)를 포함한다. 오디오 비트스트림(4)은 인지 스테레오 디코더(11)에 공급되고, 이것은 L/R 인코딩된 비트스트림 또는 M/S 인코딩된 오디오 비트스트림을 선택적으로 디코딩할 수 있다. 디코더(11)의 동작은 인코더(3)의 동작과는 반대이다. 인지 인코더(3)와 유사하게, 인지 디코더(11)는 바람직하게 주파수-가변 및 시간-가변 디코딩 수법을 할 수 있게 한다. 일부 주파수 대역들은 인코더(3)에 의해 L/R 인코딩되고 디코더(11)에 의해 L/R 디코딩되고, 반면 그외 다른 주파수 대역들은 인코더(3)에 의해 M/S 인코딩되고, 디코더(11)에 의해 M/S 디코딩된다. 디코더(11)는 전에 인지 인코더(3)에 입력되었던 의사 스테레오 신호(L_p, R_p)를 출력한다. 인지 디코더(11)로부터 얻어지는 의사 스테레오 신호(L_p, R_p)는 L/R 대 M/S 변환 스테이지(12)에 의해서 다시 다운믹스 신호(DMX) 및 잔차 신호(RES)로 변환된다. 디코더측에 L/R 대 M/S 변환 스테이지(12)의 동작은 인코더측에 변환 스테이지(2)의 동작과는 반대이다. 바람직하게, 변환 스테이지(12)는 다음 식들에 따라 다운믹스 신호(DMX) 및 잔차 신호(RES)를 결정한다.

위에 식들에서, 이득 정규화율(g)은 인코더측에서 이득 정규화율(g)과 동일하고 예를 들면, g =

의 값을 갖는다.

이어서 다운믹스 신호(DMX) 및 잔차 신호(RES)는 최종 L 및 R 출력 신호들을 얻기 위해 PS 디코더(13)에 의해 처리된다. 잔차 이용 PS 코딩을 위한 디코딩 프로세스에서 업믹스 단계는 다운믹스 신호(DMX) 및 잔차 신호(RES)를 다시 L 채널 및 R 채널로 변환하는 2ㆍ2 업믹스 행렬 H에 의해 기술될 수 있다.

업믹스 행렬 H의 원소들의 계산은 이미 위에서 논의되었다.

PS 인코더(1) 및 PS 디코더(13)에서 PS 인코딩 및 PS 디코딩 프로세스는 바람직하게는 오버샘플 주파수 영역에서 실행된다. 시간을 주파수로 변환을 위해서, 예를 들면, MPEG 서라운드 표준(문서 ISO/IEC 23003-1 참조)에 기술된 필터 뱅크와 같은, QMF(quadrature mirror fiter) 및 나이키스트 필터를 구비한 복소수값 하이브리드 필터 뱅크가 PS 인코더의 상류측에서 이용될 수 있다. 신호의 복소수 QMF 표현은 복소수값이고 실수값이 아니기 때문에 2배로 오버샘플된다. 이것은 가청 에일리어싱 아티팩트 없이 시간 및 주파수 적응형 신호 처리를 할 수 있게 한다. 이러한 하이브리드 필터 뱅크는 전형적으로 저 주파수들에선 높은 주파수 분해능(협대역)을 제공하고, 반면 고 주파수에서는 몇개의 QMF 대역들이 더 넓은 대역으로 그룹화된다. 논문 "Low Complexity Parameter Stereo Coding in MPEG-4", H. Purnhagen, Proc. of the 7th Int. Conference on Digital Audio Effects (DAFx'04), Naples, Italy, October 5-8, 2004, pages 163 ~ 168은 하이브리드 필터 뱅크(단락 3.2 및 도 4 참조)의 실시예를 기술한다. 이 개시된 바를 참조로서 여기에 포함시킨다. 이 문서에서 48 kHz 샘플링 레이트가 취해지며, 64 대역 QMF 뱅크로부터 한 대역의 (공칭) 대역폭은 375 Hz이다. 그러나, 인지 바크(Bark) 주파수 스케일은 500 Hz 미만의 주파수들에 대해서 대략 100 Hz의 대역폭을 요구한다. 그러므로, 첫번째 3개의 QMF 대역들은 나이키스트 필터 뱅크에 의해 더 좁은 서브-대역들로 분할될 수 있다. 첫 번째 QMF 대역은 4 대역들(음의 주파수들을 위해 2개가 더 추가된다)로 분할될 수 있고, 두 번째 및 세 번째 QMF 대역들은 각각 2개의 대역들로 분할될 수 있다.

한편으로, 바람직하게, 적응형 L/R 또는 M/S 인코딩은 효율적인 양자화된 신호 표현이 될 수 있게 하기 위해서, 크리티컬 샘플링 MDCT 영역(예를 들면, AAC에 기술된 바와 같이)에서 실행된다. 변환 스테이지(2)에서 다운믹스 신호(DMX) 및 잔차 신호(RES)를 의사 스테레오 신호(L_p, R_p)로 변환은 PS 인코더(1)와 인지 인코더(3)가 시간 영역에서도 연결될 수 있기 때문에 시간 영역에서 실행될 수 있다. 또한, 디코딩 시스템에서, 인지 스테레오 디코더(11) 및 PS 디코더(13)는 바람직하게는 시간 영역에서 연결된다. 이에 따라, 변환 스테이지(12)에서 의사 스테레오 신호(L_p, R_p)를 다운믹스 신호(DMX) 및 잔차 신호(RES)로 변환도 시간 영역에서 실행될 수 있다.

도 1에 인코더(3)로서 보인 바와 같은 적응형 L/R 또는 M/S 스테레오 코더는 전형적으로 저 비트레이트에서 고 코딩 효율을 가능하게 하기 위해서 음향심리 모델을 이용하는 인지 오디오 코더이다. 이러한 인코더에 대한 예가 AAC 인코더이고, 이것은 음향심리 모델을 이용함으로써 시간-가변 및 주파수-가변 양자화를 제어함과 아울러 크리티컬 샘플링 MDCT 영역에서의 변환 코딩을 채용한다. 또한, L/R 및 M/S 코딩 간에 시간-가변 및 주파수-가변 결정은 전형적으로 음향심리 모델을 이용하여 계산되는 인지 엔트로피 측정값들의 도움을 받아 제어된다.

인지 스테레오 인코더(도 1에 인코더(3)와 같은)는 의사 L/R 스테레오 신호 (도 1에 L_p, R_p 참조)에 대해 동작한다. 스테레오 인코더의 코딩 효율을 최적화하기 위해(특히 L/R 인코딩과 M/S 인코딩 간에 올바른 결정을 하기 위해서), 최종 스테레오 출력 신호(L, R)를 생성할 때 디코더에서 적용되는 신호 수정(의사 L/R를 DMX 및 RES 변환하고 이어서 PS 디코딩하는 것)을 고려하기 위해서 인지 스테레오 인코더에서 음향심리 제어 메커니즘(L/R과 M/S 스테레오 인코딩 간에 결정하는 제어 메커니즘 및 시간-가변 및 주파수-가변 양자화를 제어하는 제어 메커니즘을 포함한다)을 수정하는 것이 잇점이 있다. 이들 신호 수정은 음향심리 제어 메커니즘들에서 활용되는 양이 마스킹(binaural masking) 현상에 영향을 미칠 수 있다. 그러므로, 이들 음향심리 제어 메커니즘들은 바람직하게는 이에 따라 적응되어야 한다. 이를 위해서, 음향심리 제어 메커니즘들이 의사 L/R 신호 (도 1에 L_p, R_p 참조)에 액세스할 수 있을 뿐만 아니라 PS 파라미터들(도 1에 5를 참조) 및/또는 원 스테레오 신호(L, R)에도 액세스할 수 있다면 이익될 수 있다. PS 파라미터들 및 스테레오 신호(L, R)에 음향심리 제어 메커니즘들의 액세스가 도 1에서 점선들로 표시되었다. 이 정보에 기초하여, 예를 들면, 마스킹 임계값(들)가 적응될 수 있다.

음향심리 제어를 최적화하기 위한 대안적 수법은 적합할 때, 바람직하게는 시간-가변 및 주파수-가변 방식으로, PS 인코딩을 효과적으로 비활성화시킬 수 있는 비활성화 스테이지를 형성하는 검출기를 인코더 시스템에 추가하는 것이다. PS 인코딩을 비활성화하는 것은 예를 들면, L/R 스테레오 코딩이 잇점이 있을 것으로 예상될 때 또는 의사 L/R 신호를 효율적으로 인코딩하는데 있어 음향심리 제어가 문제가 될 것으로 보일 때 적합하다. PS 인코딩은 다운믹스 행렬 H^-1 및 이에 이은 변환(도 1에서 스테이지(2) 참조)이 단위 행렬에(즉, 항등 연산에) 또는 1배의 단위 행렬에 대응하게 다운믹스 행렬 H^-1을 설정함으로써 효과적으로 비활성화될 수 있다. 예를 들면, PS 인코딩은 PS 파라미터들 IID 및/또는 ICC를 강제로 IID = 0 dB 및 ICC = 0로 함으로써 효과적으로 비활성화될 수 있다. 이 경우, 의사 스테레오 신호(L_p, R_p)는 위에서 논한 바와 같이 스테레오 신호(L, R)에 대응한다.

PS 파라미터 수정을 제어하는 이러한 검출기를 도 4에 도시하였다. 여기에서, 검출기(20)는 파라미터 추정 스테이지(9)에 의해 결정된 PS 파라미터들(5)을 수신한다. 검출기가 PS 인코딩을 비활성화하지 않을 때, 검출기(20)는 PS 파라미터들을 다운믹스 스테이지(8)를 거쳐 멀티플렉서(7)에 보내는데, 즉 이 경우 PS 파라미터들(5)은 다운믹스 스테이지(8)에 공급된 PS 파라미터들(5')에 대응한다. PS 인코딩이 잇점이 없어 PS 인코딩이 비활성화되어야 함을(하나 이상의 주파수 대역들에 대해서) 검출기가 검출한 경우에, 검출기는 영향받은 PS 파라미터들(5)을 수정하고(예를 들면, PS 파라미터들 IID 및/또는 ICC를 IID = 0 dB 및 ICC = 0로 설정) 수정된 PS 파라미터들(5')를 다운믹스 스테이지(8)에 공급한다. 검출기는 선택적으로 PS 파라미터 수정에 대해 판단하기 위해 좌 및 우 신호들(L, R)을 고려할 수도 있다(도 4에 점선 참조).

다음에서, 용어 QMF(quadrature mirror fiter 또는 필터 뱅크)는 나이키스트 필터 뱅크, 즉, 하이브리드 필터 뱅크 구조와 결합하여 QMF 서브-대역 필터 뱅크를 포함한다. 또한, 이하 설명에서 모든 값들은 주파수 종속적일 수 있는데, 예를 들면, 상이한 주파수 범위들에 대해 상이한 다운믹스 및 업믹스 행렬들이 추출될 수 있다. 또한, 잔차 코딩은 이용된 오디오 주파수 범위의 부분만을 포함할 수도 있다(즉, 잔차 신호는 이용된 오디오 주파수 범위의 부분에 대해서만 코딩된다). 이하 개괄되는 다운믹스의 특징들은 일부 주파수 범위들에 대해서 QMF 영역 (예를 들면, 종래기술에 따라)에서 행해지고, 그외 주파수 범위들에 대해서는 예를 들면, 위상 면들만이 복소수 QMF 영역에서 처리될 것이고 진폭 변환은 실수값 MDCT 영역에서 처리된다.

도 5에 통상적인 PS 인코더 시스템가 도시되었다. 스테레오 채널들(L, R) 각각은 먼저 M 서브-대역들을 가진 복소수 QMF(30), 예를 들면, M = 64 서브-대역들을 가진 QMF에 의해 분석된다. 서브-대역 신호들은 PS 인코더(31)에서 PS 파라미터들(5) 및 다운믹스 신호(DMX)를 추정하기 위해 이용된다. 다운믹스 신호(DMX)는 SBR 인코더(32)에서 SBR(스펙트럼 대역폭 복제) 파라미터들(33)을 추정하기 위해 이용된다. SBR 인코더(32)는 아마도 잡음 및 토낼러티(tonality) 측정치들과 조합하여, 원 고 대역 신호의 스펙트럼 엔벨로프를 나타내는 SBR 파라미터들(33)을 추출한다. PS 인코더(31)와는 반대로, SBR 인코더(32)는 코어 코더(34)에 전달되는 신호에 영향을 미치지 않는다. PS 인코더(31)의 다운믹스 신호(DMX)는 N 서브-대역들을 가진 역 QMF(35)을 이용하여 합성된다. 예를 들면, N = 32을 가진 복소수 QMF가 이용될 수 있는데, 이 경우 PS 인코더(31) 및 SBR 인코더(32)에 의해 이용되는(64) 서브-대역들 중 32개의 가장 낮은 서브-대역들만이 합성된다. 이에 따라, 동일 프레임 크기에 대해서 서브-대역들의 수의 반을 이용함으로써, 입력에 비해 대역폭 반의 시간 영역 신호가 얻어져 코어 코더(34)에 보내진다. 감소된 대역폭에 기인하여, 샘플링 레이트는 반으로 감소될 수 있다(도시되지 않음). 코어 인코더(34)는 비트스트림(36)을 생성하기 위해 모노 입력 신호의 인지 인코딩을 실행한다. PS 파라미터들(5)은 멀티플렉서(도시되지 않음)에 의해 비트스트림(36)에 삽입된다.

도 6은 잔차를 이용하는 PS 코딩을 적응형 L/R 또는 M/S 인지 스테레오 코딩을 할 수 있는 스테레오 코어 코더(48)와 결합한 인코더 시스템의 다른 실시예를 도시한 것이다. 이 실시예는 단지 본 발명의 원리를 예시하기 위한 것이다. 실시예의 수정예들 및 변형들이 당업자들에게 명백할 것임을 알 것이다. 좌측 및 우측 원 채널들을 나타내는 입력 채널들(L, R)은 도 5에 관련하여 논한 바와 유사한 방식으로, 복소수 QMF(30)에 의해 분석된다. 도 5에 PS 인코더(31)와는 반대로, 도 6에 PS 인코더(41)는 다운믹스 신호(DMX) 뿐만 아니라 잔차 신호(RES)도 출력한다. 의사 L/R로 고정된 DMX/RES 변환(즉, M/S를 L/R로의 변환)은 변환 스테이지(2)에서 다운믹스(DMX) 및 잔차(RES) 신호들에 적용된다. 도 6에서 변환 스테이지(2)는 도 1에서 변환 스테이지(2)에 대응한다. 변환 스테이지(2)는 코어 인코더(48)가 동작할 "의사" 좌 우 채널 신호(L_p, R_p)를 생성한다. 이 실시예에서, 필터 뱅크들(35)에 의한 서브-대역 합성에 앞서, L/R을 M/S로의 역 변환이 QMF 영역에서 적용된다. 바람직하게, 합성을 위한 서브-대역들의 수 N(예를 들면, N = 32)은 분석을 위해 이용되는 서브-대역들의 수 M(예를 들면, M =(64))의 반에 대응하고, 코어 코더(48)는 샘플링 레이트의 반으로 동작한다. 인코더에서 QMF 분석을 위해(64) 서브-대역 채널들과, 합성을 위해 32 서브-대역들을 이용하는 제약은 없으며, 코어 코더(48)에 의해 수신되는 신호에 대해 어떤 샘플링 레이트가 요망되는가에 따라 다른 값들도 가능함에 유의한다. 코어 스테레오 인코더(48)는 필터 뱅크들(35)의 신호의 인지 인코딩을 실행하여 비트스트림 신호(46)를 발생한다. PS 파라미터들(5)은 멀티플렉서(도시되지 않음)에 의해 비트스트림 신호(46)에 삽입된다. 선택적으로, PS 파라미터들 및/또는 원 L/R 입력 신호는 코어 인코더(48)에 의해 이용될 수 있다. 이러한 정보는 PS 인코더(41)가 스테레오 공간을 어떻게 회전되었는가를 코어 인코더(48)에 알린다. 정보는 인지적으로 최적이 되게 양자화를 어떻게 제어할 것인지 코어 인코더(48)를 안내할 수 있다. 이것이 도 6에 점선으로 표시되었다.

도 7은 도 6에 실시예와 유사한 인코더 시스템의 다른 실시예를 도시한 것이다. 도 5에 실시예와 비교하여, 도 7에서 SBR 인코더(42)는 PS 인코더(41) 상류측에 연결된다. 도 7에서 SBR 인코더(42)는 PS 인코더(41) 앞쪽으로 옮겨졌으며, 이에 따라 도 6에서와 같이 다운믹스 신호(DMX)에 동작하는 것이 아니라, 좌 우 채널들(여기에서는, QMF 영역에서)에 동작한다.

SBR 인코더(42)의 재배열에 기인하여, PS 인코더(41)는 입력 신호의 전체 대역폭뿐만 아니라 SBR 크로스오버 주파수 미만의 주파수 범위에도 동작하도록 구성될 수도 있다. 도 7에서, SBR 파라미터들(43)은 SBR 범위에 대해선 스테레오에 있으며, 도 15에 관련하여 나중에 논하는 바와 같이 대응 PS 디코더로부터의 출력은 SBR 디코더가 동작할 스테레오 소스 주파수 범위를 생성할 것이다. 이러한 수정, 즉, 인코더 시스템에서 PS 인코더 모듈(41) 상류측에 SBR 인코더 모듈(42)을 연결하고 대응하여 디코더 시스템에서(도 15 참조), PS 디코더 모듈 다음에 SBR 디코더 모듈을 배치하는 것은 스테레오 출력을 생성하기 위해 역상관된 신호를 이용하는 것이 감소될 수 있는 잇점이 있다. 모든 또는 특정 주파수 대역에서 잔차 신호가 전혀 존재하지 않는 경우에, 대신에 다운믹스 신호(DMX)의 역상관된 버전이 PS 디코더에서 이용되는 것에 유의한다. 그러나, 역상관된 신호에 기초한 재구성은 오디오 품질을 감소시킨다. 따라서, 역상관된 신호를 이용하지 않는 것이 오디오 품질을 증가시킨다.

도 6에 실시예와 비교해서 도 7에 실시예의 이러한 잇점은 도 8a 내지 도 8d에 관련하여 이제 더 상세히 설명될 것이다.

도 8a에서, 2개의 출력 채널들(L, R)(디코더측에서) 중 하나의 시간 주파수를 시각화하여 나타내었다. 도 8a의 경우에, 도 5 또는 도 6에서 인코더와 같은 SBR 인코딩 모듈 앞에 PS 인코딩 모듈이 배치된 인코더가 이용된다(PS 디코더가 SBR 디코더 다음에 배치되는 디코더에서, 도 14 참조). 또한, 잔차는 코어 코더의 주파수 범위(51)보다는 작은 저 대역폭 주파수 범위(50)에서만 코딩된다. 도 8a에서 스펙토그램 시각화로부터 명백한 바와 같이, 역상관된 신호가 PS 디코더에 의해 이용하게 되는 주파수 범위(52)는 잔차 신호의 이용에 의해 포함되는 더 낮은 주파수 범위(50)를 제외하고 모든 주파수 범위를 포함한다. 또한, SBR은 역상관된 신호보다 현저히 높은 범위에서 시작하는 주파수 범위(53)를 포함한다. 이에 따라, 전체 주파수 범위는 다음 주파수 범위들로 나뉘어진다: 저 주파수 범위(도 8a에서 범위(50) 참조)에서, 파형 코딩이 이용되고; 중간 주파수 범위(주파수 범위(51)와 주파수 범위(52)의 교차범위 참조)에서, 역상관된 신호와 조합하여 파형 코딩이 이용되고; 고 주파수 범위(주파수 범위(53) 참조)에서, 저 주파수들로부터 재생되는 SBR 재생 신호가 PS 디코더에 의해 생성된 역상관된 신호와 조합하여 이용된다.

도 8b에서, SBR 인코더가 인코더 시스템에서 PS 인코더의 상류측에 연결된 경우(아울러 SBR 디코더가 디코더 시스템에서 PS 디코더 다음에 위치된다)에 대해 2개의 출력 채널들(L, R)(디코더측에서) 중 하나의 시간 주파수를 시각적으로 나타내었다. 도 8b에서, 잔차 신호 대역폭(60)(이에 잔차 코딩이 실행된다)이 코어 코더(61)의 대역폭보다 낮은 저 비트레이트 시나리오가 도시되었다. SBR 디코딩 프로세스가 PS 디코더 다음에 디코더에 작동되기 때문에(도 15 참조), 저 주파수들에 대해 이용되는 잔차 신호는 SBR 범위(63)에서 더 높은 주파수들의 적어도 일부(주파수 범위(64) 참조)의 재구성에도 이용된다.

잇점은 잔차 신호 대역폭이 코어 코더 대역폭에 근접하거나 동일한 중간 비트레이트들에 작동할 때 훨씬 더 명백해진다. 이 경우, 도 8a의 시간 주파수 표현(도 6에 도시된 바와 같이 PS 인코딩 및 SBR 인코딩의 순서가 이용되는)은 도 8c에 도시된 시간 주파수 표현이 된다. 도 8c에서, 잔차 신호는 근본적으로 코어 코더의 전체 저 대역 범위(51)을 포함하는데, SBR 주파수 범위(53)에서는 역상관된 신호가 PS 디코더에 의해 이용된다. 도 8d에서, 인코딩/디코딩 모듈들의 바람직한 순서의 경우에(즉, 도 7에 도시된 바와 같이, PS 인코딩 전에 스테레오 신호에 작동하는 SBR 인코딩) 시간 주파수 표현이 시각화되었다. 여기에서, PS 디코딩 모듈은 도 15에 도시된 바와 같이, 디코더 내 SBR 디코딩 모듈 전에 동작한다. 따라서, 잔차 신호는 고 주파수 재구성을 위해 이용되는 저 대역의 부분이다. 잔차 신호 대역폭이 모노 다운믹스 신호 대역폭과 같을 때, 출력 신호를 디코딩하기 위해 어떠한 역상관된 신호 정보도 필요로 하지 않을 될 것이다(도 8d에 해칭된 전체 주파수 범위를 참조).

도 9a에서, MDCT 변환 영역에서 적응형으로 선택가능한 L/R 또는 M/S 스테레오 인코딩하는 스테레오 코어 인코더(48)의 실시예가 도시되었다. 이러한 스테레오 인코더(48)는 도 6 및 도 7에서 이용될 수 있다. 도 5에 도시된 바와 같은 모노 코어 인코더(34)는 도 9a에서 스테레오 코어 인코더(48)의 특별한 경우로서 간주될 수 있고, 이 경우 단일의 모노 입력 채널만이 처리된다(즉, 도 9a에서 점선으로 나타낸 제 2 입력 채널은 없다).

도 9b에서, 더 일반화된 인코더의 실시예가 도시되었다. 모노 신호들에 대해서, 인코딩은 선형 예측 영역에서 코딩(블록(71) 참조)과 변환 영역에서 코딩(블록(48) 참조) 간을 전환할 수 있다. 이러한 유형의 코어 코더는 입력 신호의 특징들에 따라 적응형으로 이용될 수 있는 몇가지 코딩 방법들을 도입한다. 여기에서, 코더는 AAC 스타일 변환 코더(48)(모노 및 스테레오 신호들에 이용될 수 있는 것으로, 스테레오 신호들의 경우엔 L/R 또는 M/S 코딩이 적응형으로 선택될 수 있다) 또는 AMR-WB+(적응형 멀티레이트-광대역 플러스) 스타일 코어 코더(71)(모노 신호들에 대해서만 이용될 수 있다)을 이용하여 신호를 코딩하기로 선택할 수 있다. AMR-WB+ 코어 코더(71)는 선형 예측기(72)의 잔차를 평가하고, 이어서 선형 예측 잔차의 변환 코딩 수법 또는 선형 예측 잔차를 코딩하기 위한 고전적 스피치 코더 ACELP(Algebraic Code Excited Linear Prediction) 수법 간에 선택한다. AAC 스타일 변환 코더(48)와 AMR-WB+ 스타일 코어 코더(71) 간에 결정하기 위해서, 두 코더(48)와 코더(71) 간에 입력 신호에 기초하여 판단하는 모드 판단 스테이지(73)가 이용된다.

인코더(48)는 스테레오 AAC 스타일 MDCT 기반의 코더이다. 모드 판단(73)이 MDCT 기반 코딩을 이용하기 위해 입력 신호를 조정할 때, 모노 입력 신호 또는 스테레오 입력 신호들은 AAC 기반 MDCT 코더(48)에 의해 코딩된다. MDCT 코더(48)는 MDCT 스테이지들(74)에서 하나 또는 2개의 신호들의 MDCT 분석을 행한다. 스테레오 신호의 경우에, 주파수 대역에 기초하여 M/S 또는 L/R 판단은 양자화 및 코딩에 앞서 스테이지(75)에서 실행된다. L/R 스테레오 인코딩 또는 M/S 스테레오 인코딩을 주파수-가변 방식으로 선택될 수 있다. 스테이지(75)는 L/R 대 M/S 변환을 실행한다. 특정 주파수 대역에 대해 M/S 인코딩이 결정된다면, 스테이지(75)는 이 주파수 대역에 대해 M/S 신호를 출력한다. 그렇지 않다면, 스테이지(75)는 이 주파수 대역에 대해 L/R 신호를 출력한다.

따라서, 변환 코딩 모드가 이용될 때, 기본 코어 코더의 스테레오 코딩 기능의 전체 효율은 스테레오에 대해 이용될 수 있다.

모드 판단(73)이 선형 예측 영역 코더(71)에 모노 신호를 조정할 때, 이어서 블록(72)에서 선형 예측 분석에 의해 모노 신호가 분석된다. 이어서, LP 잔차를 시간-영역 ACELP 스타일 코더(76)에 의해 코딩할지 아니면 MDCT 영역에서 동작하는 TCX 스타일 코더(77)(Transform Coded eXcitation)에 의해 코딩할지 판단이 행해진다. 선형 예측 영역 코더(71)는 어떠한 내재하는 스테레오 코딩 능력도 갖고 있지 않다. 그러므로, 선형 예측 영역 코더(71)로 스테레오 신호를 코딩할 수 있게 위해서, 도 5에 도시된 것과 유사한 인코더 구성이 이용될 수 있다. 이 구성에서, PS 인코더는 PS 파라미터들(5) 및 모노 다운믹스 신호(DMX)를 생성하고, 이것은 선형 예측 영역 코더에 의해 인코딩된다.

도 10은 인코더 시스템의 다른 실시예를 도시한 것으로, 도 7 및 도 9의 부분들이 새로운 방식으로 결합된다. 도 7에 개괄된 바와 같이, DMX/RES 대 의사 L/R 블록(2)는 스테레오 MDCT 분석(74) 앞에 AAC 스타일 다운믹스 코더(70) 내에 배치된다. 이 실시예는 스테레오 MDCT 코어 코더가 이용될 때만 DMX/RES 대 의사 L/R 변환(2)이 적용된다는 잇점이 있다. 따라서, 변환 코딩 모드가 이용될 때, 기본 코어 코더의 스테레오 코딩 기능의 전체 효율이 잔차 신호에 의해 포함된 주파수 범위의 스테레오 코딩을 위해 이용될 수 있다.

도 9b에서 모드 판단(73)이 모노 입력 신호 또는 입력 스테레오 신호에 작동할 때, 도 10에 모드 판단(73')은 다운믹스 신호(DMX) 및 잔차 신호(RES)에 작동한다. 모노 입력 신호의 경우에, 모노 신호는 DMX 신호로서 직접 이용될 수 있고, RES 신호는 제로로 설정되고, PS 파라미터들은 IID = 0 dB 및 ICC = 1로 디폴트될 수 있다.

모드 판단(73')이 선형 예측 영역 코더(71)에 다운믹스 신호(DMX)를 조정할 때, 이어서 블록(72)에서 선형 예측 분석에 의해 다운믹스 신호(DMX)가 분석된다. 이이서, LP 잔차를 시간-영역 ACELP 스타일 코더(76)에 의해 코딩할지 아니면 MDCT 영역에서 동작하는 TCX 스타일 코더(77)(Transform Coded eXcitation)에 의해 코딩할지 판단이 행해진다. 선형 예측 영역 코더(71)는 다운믹스 신호(DMX) 외에 잔차 신호를 코딩하기 위해 이용될 수 있는 어떠한 내재된 스테레오 코딩 능력도 갖고 있지 않다. 그러므로, 다운믹스 신호(DMX)가 예측 영역 코더(71)에 의해 인코딩될 때 잔차 신호(RES)를 인코딩하기 위해 전용 잔차 코더(78)가 채용된다. 예를 들면, 이러하는 코더(78)는 모노 AAC 코더일 수 있다.

도 10에서는 코더(71, 78)가 생략될 수 있는 것에 유의한다(이 경우 모드 판단 스테이지(73')는 더 이상 필요하지 않다).

도 11a는 도 10에 도시된 바와 동일한 잇점을 달성하는 인코더 시스템의 또 따른 대안적 실시예의 상세를 도시한 것이다. 도 10의 실시예와는 반대로, 도 11a에서 DMX/RES 대 의사 L/R 변환(2)은 코어 코더(70)의 MDCT 분석(74) 다음에 배치되는데, 즉, 변환은 MDCT 영역에서 동작한다. 블록(2)에서 변환은 선형 및 시간-불변이고 따라서, MDCT 분석(74) 다음에 놓여질 수 있다. 도 11에 도시되지 않은 도 10의 나머지 블록들은 선택적으로 도 11a에서 동일한 방식으로 추가될 수 있다. 대안적으로, MDCT 분석 블록들(74)은 변환 블록(2) 다음에 배치될 수도 있다.

도 11b는 도 11a에 실시예의 구현을 도시한 것이다. 도 11b에서, M/S 또는 L/R 인코딩 간에 선택하기 위한 스테이지(75)의 구현예가 도시되었다. 스테이지(75)는 의사 스테레오 신호(L_p, R_p)를 수신하는 합 및 차 변환 스테이지(98)(더 정확하게는 M/S으로 L/R의 변환 스테이지)를 포함한다. 변환 스테이지(98)는 M/S으로 L/R의 변환을 실행함으로써 의사 미드/사이드 신호(M_p, S_p)를 발생한다. 있을 수 있는 이득율을 제외하고, 다음이 적용된다: M_p = DMX 및 S_p = RES.

스테이지(75)는 L/R 또는 M/S 인코딩 중 하나를 판단한다. 판단에 기초하여, 의사 스테레오 신호(L_p, R_p) 또는 의사 미드/사이드 신호(M_p, S_p)가 선택되어 AAC 블록(97)에서 인코딩된다. 제 1 AAC 블록(97)이 의사 스테레오 신호(L_p, R_p)에 할당되고 제 2 AAC 블록(97)이 의사 미드/사이드 신호(M_p, S_p)에 할당되어 2개의 AAC 블록들(97)이 이용될 수 있음에(도 11b엔 도시되지 않음) 유의한다. 이 경우에, L/R 또는 M/S 선택은 제 1 AAC 블록(97)의 출력 또는 제 2 AAC 블록(97)의 출력을 선택함으로써 실행된다.

도 11c는 도 11a의 실시예에 대한 대안을 도시한 것이다. 여기에서, 어떠한 분명한 변환 스테이지(2)도 이용되지 않는다. 그보다는, 변환 스테이지(2) 및 스테이지(75)이 단일 스테이지(75')에서 결합되어 있다. 다운믹스 신호(DMX) 및 잔차 신호(RES)는 스테이지(75')의 부분으로서 합 및 차 변환 스테이지(99)(더 정확하게는 의사 L/R로의 DMX/RES의 변환 스테이지)에 공급된다. 변환 스테이지(99)는 의사 스테레오 신호(L_p, R_p)를 발생한다. 도 11c에서 DMX/RES 대 의사 L/R 변환 스테이지(99)은 도 11b에 L/R 대 M/S 변환 스테이지(98)와 유사하다(아마도 다른 이득율은 제외하고). 그럼에도불구하고, 도 11c에서 M/S와 L/R 디코딩 간에 선택은 도 11b과 비교해서 반대로 될 필요가 있다. 도 11b 및 도 11c 양쪽 모두에서, L/R 또는 M/S 선택을 위한 스위치의 위치가 도 11b에선 위쪽 위치에 있고 도 11c에선 아래쪽 위치에 있는 L_p/R_p 위치로 도시된 것에 유의한다. 이것은 L/R 또는 M/S 선택이 반전된 의미를 시각적으로 나타낸 것이다.

도 11b 및 도 11c에서 스위치는 바람직하게는 L/R과 M/S 간에 선택이 시간-가변 및 주파수-가변적일 수 있게 MDCT 영역에서 각각의 주파수 대역마다 개별적으로 존재하는 것에 유의한다. 즉, 스위치의 위치는 바람직하게는 주파수-가변적이다. 변환 스테이지들(98, 99)은 이용된 전체 주파수 범위를 변환하거나 단일 주파수 대역만을 변환할 수 있다.

또한, 모든 블록들(2, 98, 99)은 모든 블록들이 다음의 형태의 변환 행렬을 구현하기 때문에 "합차 변환 블록들"이라 할 수 있는 것에 유의한다.

단지, 이득율(c)이 블록들(2, 98, 99)에서 서로 다를 수 있다.

도 12에서 인코더 시스템의 또 다른 실시예가 개괄되었다. 이것은 IID 외에도 ICC(위에 기술된)가 2개의 추가의 파라미터들로서 IPD(채널간 위상차, 이하 φ_ipd 참조)와 스테레오 신호의 2개의 채널(L)과 채널(R) 간에 위상 관계를 특징짓게 할 수 있는 OPD(전체 위상차, 이하 φ_opd 참조)를 포함하는 확장된 한 세트의 PS 파라미터들을 이용한다. 이들 위상 파라미터들의 예는 참조로서 여기에 포함시키는 ISO/IEC 14496-3 8.6.4.6.3 부단락에 주어져 있다. 위상 파라미터들이 이용될 때, 결과적인 업믹스 행렬(H_C0MPLEX)(및 이의 역 H^-1 _C0MPLEX)은 다음 식에 따라 복소수값이 된다.

H_COMPLEX = H_φㆍH

여기에서,

이고, 여기에서,

이다.

복소수 QMF 영역에서 동작하는 PS 인코더의 스테이지(80)는 채널들(L, R) 간에 위상 의존도만을 처리한다. 다운믹스 회전(즉, 위에서 행렬 H^-1에 의해 기술되었던 L/R 영역에서 DMX/RES 영역으로의 변환)은 스테레오 코어 코더(81)의 부분으로서 MDCT 영역에서 처리된다. 그러므로, 두 채널들 간에 위상 의존도는 복소수 QMF 영역에서 추출되고, 이외 실수값인 파형 의존도는 이용된 코어 코더의 스테레오 코딩 메커니즘의 부분으로서 실수값인 크리티컬 샘플링 MDCT 영역에서 추출된다. 이것은 채널들 간에 선형 의존도의 추출이 코어 코더의 스테레오 코딩에 확실히 통합될 수 있다(그러나, 임계 샘플링 MDCT 영역에서 에일리어싱을 방지하기 위해서, 잔차 코등에 의해 포함되는 주파수 범위에서 아마도 주파수 축 상에 "가드(guard) 대역"을 감한 범위에 대해서만)는 잇점이 있다.

도 12에서 PS 인코더의 위상 조절 스테이지(80)는 위상에 관계된 PS 파라미터들, 예를 들면, 파라미터들 IPD(채널간 위상차) 및 OPD(전체 위상차)을 추출한다. 그러므로, 이것이 생성하는 위상 조절 행렬 H^-1은 다음에 따를 수 있다.

전에 논의한 바와 같이, PS 모듈의 다운믹스 회전 부분은 도 12에서 코어 코더의 스테레오 코딩 모듈(81)에서 처리된다. 스테레오 코딩 모듈(81)은 MDCT 영역에서 동작하고 도 13에 도시되었다. 스테레오 코딩 모듈(81)은 MDCT 영역에서 위상 조절된 스테레오 신호(L_φ, R_φ)를 수신한다. 이 신호는 위에서 논한 바와 같이 복소수 다운믹스 행렬(H^-1 _COMPLEX)의 실수값 부분인 다운믹스 회전 행렬(H^-1)에 의해 다운믹스 스테이지(82)에서 다운믹스되고, 그럼으로써 다운믹스 신호(DMX) 및 잔차 신호(RES)를 발생한다. 다운믹스 동작에 이어 본원에 따라 역 L/R 대 M/S 변환이 행해지고(변환 스테이지(2) 참조), 그럼으로써 의사 스테레오 신호(L_p, R_p)를 발생한다. 의사 스테레오 신호(L_p, R_p)는 스테레오 코딩 알고리즘(적응형 M/S 또는 L/R 스테레오 인코더(83) 참조), 이 특정 실시예에서는 인지 엔트로피 기준에 따라 신호의 L/R 표현 또는 M/S 표현을 코딩하기로 결정하는 스테레오 코딩 메커니즘에 의해 처리된다. 이 결정은 바람직하게는 시간-가변 및 주파수-가변적이다.

도 14에서 도 6에 도시된 인코더 시스템에 의해 발생된 비트스트림(46)을 디코딩하는데 적합한 디코더 시스템의 실시예가 도시되었다. 이 실시예는 단지 본 발명의 원리를 예시하기 위한 것이다. 실시예의 수정예들 및 변형들이 당업자들에게 명백할 것임을 알 것이다. 코어 디코더(90)는 비트스트림(46)을 의사 좌 채널 및 우 채널로 디코딩하고, 이들은 필터 뱅크들(91)에 의해 QMF 영역에서 변환된다. 이어서, 결과적인 의사 스테레오 신호(L_p, R_p)의 고정된 의사 L/R 대 DMX/RES 변환은 변환 스테이지(12)에서 실행되고, 이에 따라 다운믹스 신호(DMX) 및 잔차 신호(RES)를 생성한다. SBR 코딩을 이용할 때, 이들 신호들은 저 대역 신호들인데, 예를 들면, 다운믹스 신호(DMX) 및 잔차 신호(RES)는 대략 8 kHz까지의 저 주파수 대역에 대한 오디오 정보만을 내포할 수 있다. 다운믹스 신호(DMX)는 수신된 SBR 파라미터들(도시되지 않음)에 기초하여 고 주파수 대역을 재구성하기 위해 SBR 디코더(93)에 의해 이용된다. SBR 디코더(93)로부터 출력 신호(다운믹스 신호(DMX)의 저 및 재구성된 고 주파수 대역들을 포함한) 및 잔차 신호(RES) 양쪽 모두는 QMF 영역(특히 하이브리드 QMF + 나이키스트 필터 영역에서)에서 동작하는 PS 디코더(94)에 입력된다. PS 디코더(94)의 입력에서 다운믹스 신호(DMX)는 고 주파수 대역(예를 들면, 20 kHz까지) 내 오디오 정보도 내포하나, PS 디코더(94)의 입력에서 잔차 신호(RES)는 저 대역 신호(예를 들면, 8 kHz까지로 제한된)이다. 이에 따라, 고 주파수 대역(예를 들면, 8 kHz 내지 20 kHz 대역에 대해서)에 대해서, PS 디코더(94)는 대역 제한된 잔차 신호(RES)를 이용하는 대신에 다운믹스 신호(DMX)의 역상관된 버전을 이용한다. 그러므로 PS 디코더(94)의 출력에 디코딩된 신호들은 8 kHz까지만의 잔차 신호에 기초한다. PS 디코딩 후에, PS 디코더(94)의 2개의 출력 채널들은 필터 뱅크들(95)에 의해 시간 영역에서 변환되고, 그럼으로써 출력 스테레오 신호(L, R)을 발생한다.

도 7에 도시된 인코더 시스템에 의해 생성되는 비트스트림(46)을 디코딩하는데 적합한 디코더 시스템의 실시예가 도 15에 도시되었다. 이 실시예는 단지 본 발명의 원리를 예시하기 위한 것이다. 실시예의 수정예들 및 변형들이 당업자들에게 명백할 것임을 알 것이다. 도 15에 실시예의 주요 동작은 도 14에 개괄된 디코더 시스템의 주요 동작과 유사하다. 도 14와는 반대로, 도 15에 SBR 디코더(96)는 PS 디코더(94)의 출력에 위치된다. 또한, SBR 디코더는 도 14에 모노 SBR 파라미터들과는 반대로 스테레오 엔벨로프 데이터를 형성하는 SBR 파라미터들(도시되지 않음)을 이용한다. PS 디코더(94)의 입력에서 다운믹스 및 잔차 신호는 전형적으로 저 대역 신호들인데, 예를 들면, 다운믹스 신호(DMX) 및 잔차 신호(RES)는 예를 들면, 대략 8 kHz까지의 저 주파수 대역에 대한 오디오 정보만을 내포할 수 있다. 저 대역 다운믹스 신호(DMX) 및 잔차 신호(RES)에 기초하여, PS 인코더(94)는 예를 들면, 대략 8 kHz까지의 저 대역 스테레오 신호를 결정한다. 저 대역 스테레오 신호 및 스테레오 SBR 파라미터들에 기초하여 SBR 디코더(96)는 스테레오 신호의 고 주파수 부분을 재구성한다. 도 14에 실시예와 비교해서, 도 15에 실시예는 어떠한 역상관된 신호 도 필요하지 않고(도 8d 참조) 따라서 증강된 오디오 품질이 달성되는 잇점을 제공하나 도 14에서 고 주파수 부분에 대해선 역상관된 신호가 필요하여(도 8c 참조), 오디오 품질이 감소된다.

도 16a는 도 11a에 도시된 인코딩 시스템과는 반대인 디코딩 시스템의 실시예를 도시한 것이다. 입력 비트스트림 신호는 디코더 블록(100)에 공급되고 디코더 블록(100)은 제 1 디코딩된 신호(102) 및 제 2 디코딩된 신호(103)를 발생한다. 인코더에서, M/S 코딩 또는 L/R 코딩이 선택되었다. 이것은 수신된 비트스트림에 지정되어 있다. 이 정보에 기초하여, 선택 스테이지(101)에서 M/S 또는 L/R이 선택된다. 인코더에서 M/S가 선택된 경우에, 제 1의 102 및 제 2의 103 신호들은 (의사) L/R 신호로 변환된다. 인코더에서 L/R이 선택된 경우에, 제 1의 102 및 제 2의 103 신호들은 변환없이 스테이지(101)를 통과할 수 있다. 스테이지(101)의 출력에서 의사 L/R 신호(L_p, R_p)는 변환 스테이지(12)(이 스테이지는 외견상 L/R 대 M/S 변환를 실행한다)에 의해 DMX/RES 신호로 변환된다. 바람직하게, 도 16a에 스테이지들(100, 101, 12)는 MDCT 영역에서 동작한다. 다운믹스 신호(DMX) 및 잔차 신호들(RES)를 시간 영역으로 변환하기 위해서, 변환 블록들(104)이 이용될 수 있다. 그후, 결과적인 신호는 도 14 및 도 15에 도시된 바와 같이 PS 디코더(도시되지 않음)에 및 선택적으로 SBR 디코더에 공급된다. 대안적으로, 블록들(104)은 블록(12) 앞에 배치될 수도 있다.

도 16b는 도 16a에 실시예의 구현예를 도시한 것이다. 도 16b에서, M/S 또는 L/R 디코딩 간에 선택하기 위한 스테이지(101)의 구현예가 도시되었다. 스테이지(101)는 제 1의 102 및 제 2의 103 신호들을 수신하는 합차 변환 스테이지(105)(M/S 대 L/R 변환)을 포함한다.

비트스트림에 주어진 인코딩 정보에 기초하여, 스테이지(101)는 L/R 또는 M/S 디코딩을 선택한다. L/R 디코딩이 선택되었을 때, 디코딩 블록(100)의 출력 신호는 변환 스테이지(12)에 공급된다.

도 16c는 도 16a에 실시예에 대한 대안을 도시한 것이다. 여기에서는 어떠한 분백한 변환 스테이지(12)도 이용되지 않는다. 그보다는, 변환 스테이지(12) 및 스테이지(101)은 단일 스테이지(101')로 합체된다. 제 1의 102 및 제 2의 103 신호들은 스테이지(101')의 부분으로서 합차 변환 스테이지(105')(더 정확하게는 의사 L/R 대 DMX/RES 변환 스테이지)에 공급된다. 변환 스테이지(105')은 DMX/RES 신호를 발생한다. 도 16c에서 변환 스테이지(105')은 도 16b(아마도 다른 이득율에 대해선 제외하고)에서 변환 스테이지(105)와 유사하거나 동등하다. 도 16c에서 M/S와 L/R 디코딩 간에 선택은 도 16b와 비교해서 반대로 할 필요가 있다. 도 16c에서 스위치는 아래쪽 위치에 있고, 도 16b에서 스위치는 위쪽 위치에 있다. 이것은 반대로 L/R 또는 M/S 선택하는 것을 시각화한 것이다(선택 신호는 간단히 인버터에 의해 반전될 수도 있다).

도 16b 및 도 16c에서 스위치는 바람직하게 L/R과 M/S 간에 선택이 시간-가변 및 주파수-가변적일 수 있게 MDCT 영역에서 각각의 주파수 대역에 대해 개별적으로 존재하는 것에 유의한다. 변환 스테이지들(105, 105')은 전체 이용된 주파수 범위를 변환할 수도 있고 또는 단일 주파수 대역만을 변환할 수도 있다.

도 17는 스테레오 신호(L, R)를 비트스트림 신호로 코딩하기 위한 인코딩 시스템의 또 다른 실시예를 도시한 것이다. 인코딩 시스템은 스테레오 신호에 기초하여 다운믹스 신호(DMX) 및 잔차 신호(RES)를 생성하기 위한 다운믹스 스테이지(8)를 포함한다. 또한, 인코딩 시스템은 하나 이상의 파라메트릭 스테레오 파라미터들(5)을 결정하기 위한 파라미터 결정 스테이지(9)를 포함한다.

인코딩은 다음의 선택이 가능하다:

- 다운믹스 신호(DMX) 및 잔차 신호(RES)의 합 신호에 기초하고 다운믹스 신호(DMX) 및 잔차 신호(RES)의 차신호에 기초한 인코딩, 또는

- 다운믹스 신호(DMX) 및 잔차 신호(RES)에 기초한 인코딩.

바람직하게, 선택은 시간-가변 및 주파수-가변적이다.

인코딩 수단(110)은 합차 신호들을 발생하는 합차 변환 스테이지(111)를 포함한다. 또한, 인코딩 수단(110)은 합차 신호들에 기초하여 또는 다운믹스 신호(DMX) 및 잔차 신호(RES)에 기초하여 인코딩을 선택하기 위한 선택 블록(112)을 포함한다. 또한, 인코딩 블록(113)이 제공된다. 대안적으로, 2개의 인코딩 블록들(113)이 이용될 수 있는데, 제 1 인코딩 블록(113)은 DMX 및 RES 신호들을 인코딩하고 제 2 인코딩 블록(113)은 합차 신호들을 인코딩한다. 이 경우에 선택(112)은 2개의 인코딩 블록들(113)의 하류측에 있다.

블록(111)에서 합차 변환은 다음 형태이다.

변환 블록(111)은 도 11c에 변환 블록(99)에 대응할 수 있다.

인지 인코더(110)의 출력은 멀티플렉서(7) 내 파라메트릭 스테레오 파라미터들(5)과 결합되어 결과적인 비트스트림(6)을 형성한다.

도 17에 구조와는 반대로, 다운믹스 신호(DMX) 및 잔차 신호(RES)에 기초한 인코딩은 다운믹스 신호(DMX) 및 잔차 신호(RES)를 도 l1b에 도시된 바와 같이 2개의 일련의 합차 변환들에 의해 변환함으로써 발생되는 결과적인 신호를 인코딩할 때 실현될 수 있다(2개의 변환 블록들(2, 98)을 참조). 2개의 합차 변환 후에 결과적인 신호는 다운믹스 신호(DMX) 및 잔차 신호(RES)(아마도 있을 수 있는 다른 이득율에 대해선 제외하고)에 대응한다.

도 18은 도 17에 인코더 시스템과는 반대인 디코더 시스템의 실시예를 도시한 것이다. 디코더 시스템은 비트스트림 신호에 기초하여 인지 디코딩을 위한 수단(120)을 포함한다. 디코딩 전에, PS 파라미터들은 디멀티플렉서(10)에서 비트스트림 신호(6)로부터 분리된다. 디코딩 수단(120)은 제 1 신호(122) 및 제 2 신호(123)(디코딩에 의한)을 발생하는 코어 디코더(121)를 포함한다. 디코딩 수단은 다운믹스 신호(DMX) 및 잔차 신호(RES)를 출력한다.

다운믹스 신호(DMX) 및 잔차 신호(RES)는 선택적으로,

- 제 1 신호(122) 및 제 2 신호(123)의 합과 제 1 신호(122) 및 제 2 신호(123)의 차에 기초하거나,

- 제 1 신호(122) 및 제 2 신호(123)에 기초한다.

바람직하게, 선택은 시간-가변 및 주파수-가변적이다. 선택은 선택 스테이지(125)에서 실행된다.

디코딩 수단(120)은 합차 신호들을 발생하는 합차 변환 스테이지(124)를 포함한다.

블록(124)에서 합차 변환은 다음 형태이다.

변환 블록(124)은 도 16c에서 변환 블록(105')에 대응할 수 있다.

선택 후에, DMX 및 RES 신호들은 다운믹스 신호(DMX) 및 잔차 신호(RES)에 기초하여 스테레오 신호(L, R)를 생성하기 위한 업믹스 스테이지(126)에 공급된다. 업믹스 동작은 PS 파라미터들(5)에 종속적이다.

바람직하게, 도 17 및 도 18에서 선택은 주파수-가변적이다. 도 17에서, 예를 들면, 시간 대 주파수 변환(예를 들면, MDCT 또는 분석 필터 뱅크에 의해)은 인지 인코딩 수단(110)에서 제 1 단계로서 실행될 수 있다. 도 18에서, 예를 들면, 주파수 대 시간 변환(예를 들면, 역 MDCT 또는 합성 필터 뱅크에 의한)은 인지 디코딩 수단(120)에서 마지막 단계로서 실행될 수 있다.

위에 기술된 실시예들에서, 신호들, 파라미터들 및 행렬들은 주파수-가변 또는 주파수-불변 및/또는 시간-가변 또는 시간-불변일 수 있는 것에 유의한다. 기술된 계산단계들은 주파수별로 또는 오디오 대역 전체에 대해 실행될 수 있다.

또한, 여러 합차 변환들, 즉, DMX)/RES 대 의사 L/R 변환, 의사 L/R 대 DMX/RES 변환, L/R 대 M/S 변환 및 M/S 대 L/R 변환이 모두가 다음의 형태를 갖는 것에 유의한다.

단지, 이득율 c은 서로 다를 수도 있다. 그러므로, 원리적으로, 이들 변환들 각각은 이들 변환들의 다른 변환로 교환될 수 있다. 이득이 인코딩 처리 동안 정확하지 않다면, 이것은 디코딩 프로세스에서 보상될 수 있다. 또한, 2개의 서로 동일한 또는 2개의 상이한 합차 변환들이 일련으로 행해질 때, 결과적인 변환은 항등행렬(아마도, 이득율로 곱해진)에 대응한다.

PS 인코더 및 SBR 인코더 양쪽 모두를 포함하는 인코더 시스템에서, 상이한 PS/SBR 구성들이 가능하다. 도 6에 도시된 제 1 구성에서, SBR 인코더(32)는 PS 인코더(41)의 하류측에 연결된다. 도 7에 도시된 제 2 구성에서, SBR 인코더(42)는 PS 인코더(41)의 상류측에 연결된다. 예를 들면, 요망되는 타겟 비트레이트, 코어 인코더의 특성들, 및/또는 하나 이상의 각종의 다른 요인들에 따라, 구성들 중 하나는 최상의 성능을 제공하기 위해서 다른 구성보다 바람직할 수 있다. 전형적으로, 저 비트레이트에 대해선, 제 1 구성이 바람직할 수 있고, 고 비트레이트들에 대해선 제 2 구성이 바람직할 수 있다. 따라서, 예를 들면, 요망되는 타겟 비트레이트 및/또는 하나 이상의 다른 기준에 따라 바람직한 구성을 선택할 수 있기 위해서 인코더 시스템이 상이한 구성들 모두를 지원한다면 바람직하다.

또한, PS 디코더 및 SBR 디코더 양쪽 모두를 포함하는 디코더 시스템에서, 상이한 PS/SBR 구성들이 가능하다. 도 14에 도시된 제 1 구성에서, SBR 디코더(93)는 PS 디코더(94)의 상류측에 연결된다. 도 15에 도시된 제 2 구성에서, SBR 디코더(96)는 PS 디코더(94)의 하류측에 연결된다. 정확한 동작을 달성하기 위해서, 디코더 시스템의 구성은 인코더 시스템의 구성과 일치해야 한다. 인코더가 도 6에 따라 구성된다면, 디코더는 대응하여 도 14에 따라 구성된다. 인코더가 도 7에 따라 구성된다면, 디코더는 대응하여 도 15에 따라 구성된다. 정확한 동작을 보장하기 위해서, 인코더는 바람직하게 어느 PS/SBR 구성이 인코딩을 위해 선택되었는지를(따라서 어느 PS/SBR 구성이 디코딩을 위해 선택될 것인지) 디코더에 알린다. 이 정보에 기초하여, 디코더는 적합한 디코더 구성을 선택한다.

위에서 논한 바와 같이, 정확한 디코더 동작을 보장하기 위해서, 여기에서는 바람직하게 디코더에서 어느 구성이 이용될 것인지를 인코더에서 디코더에 알리는 메커니즘이 있다. 이것은 분명하게(예를 들면, 이하 논하는 바와 같이 비트스트림의 구성 헤더 내 전용 비트 또는 필드에 의해서) 또는 암묵적으로(예를 들면, PS 데이터가 존재하는 경우에 SBR 데이터가 모노인지 아니면 스테레오인지를 체크함으로써) 행해질 수 있다.

위에서 논한 바와 같이, 선택된 PS/SBR 구성을 시그널링하는서, 인코더에서 디코더로 전달되는 비트스트림의 비트스트림 헤더에 전용 요소가 이용될 수도 있다. 이러한 비트스트림 헤더는 디코더가 비트스트림에 데이터를 정확하게 디코딩할 수 있기 위해서 필요한 구성 정보를 전달한다. 비트스트림 헤더 내 전용 요소는 예를 들면, 1 비트 플래그, 필드일 수 있고, 상이한 디코더 구성들을 명시하는 테이블 내 특정 엔트리를 가리키는 인덱스일 수도 있다.

PS/SBR 구성을 알리기 위한 추가의 전용 요소를 비트스트림 헤더에 포함하는 대신에, 비트스트림에 이미 있는 정보가 정확한 PS/SBR 구성을 선택하기 위해 디코딩 시스템에서 평가될 수 있다. 예를 들면, 선택된 PS/SBR 구성은 PS 디코더 및 SBR 디코더를 위해 비트스트림 헤더 구성 정보로부터 도출될 수 있다. 이 구성 정보는 전형적으로 SBR 디코더가 모노 동작 또는 스테레오 동작을 위해 구성되어야 할지를 나타낸다. 예를 들면, PS 디코더가 활성화되고 SBR 디코더가 모노 동작(구성 정보에 지시된 바와 같은)을 위해 구성된다면, 도 14에 따른 PS/SBR 구성이 선택될 수 있다. PS 디코더가 활성화되고 SBR 디코더가 스테레오 동작을 위해 구성된다면, 도 15에 따른 PS/SBR 구성이 선택될 수 있다.

위에 기술된 실시예들은 단지 본 발명의 원리를 예시하는 것이다. 여기에 기술된 구성들 및 상세들의 수정들 및 변형들이 당업자들에게 명백할 것임을 알 것이다. 그러므로, 본 발명의 범위는 여기에 실시예들의 설명에 의해 제시된 구체적 상세로 제한되지 않는다.

본원에 개시된 시스템들 및 방법들은 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합으로서 구현될 수 있다. 어떤 성분들 또는 모든 성분들은 디지털 신호 프로세서 또는 마이크로프로세서에서 실행되는 소프트웨어로서 구현될 수도 있고, 또는 하드웨어로서 및/또는 응용특정의 집적회로로서 구현될 수도 있다.

개시된 시스템들 및 방법들을 이용하는 전용적인 장치들은 휴대 오디오 플레이어들, 모바일 통신 장치, 셋탑박스들, TV, AVR(오디오-비디오 수신기), 개인용 컴퓨터들이다.

1, 31: PS 인코더 3: 인지 스테레오 인코더
7: 멀티플렉서
11: 인지 스테레오 디코더 13: PS 디코더
20: 검출기 32, 42: SBR 인코더
34: 코어 코더 41: PS 인코더 모듈
48: 스테레오 코어 코더 71: 선형 예측 영역 코더
78: 전용 잔차 코더

Claims

스테레오 신호를 비트스트림 신호(6)로 인코딩하기 위해 구성된 인코더 시스템에 있어서:
- 상기 스테레오 신호에 기초하여 다운믹스 신호 및 잔차 신호를 생성하기 위해 구성된 다운믹싱 수단(8);
- 하나 이상의 파라메트릭 스테레오 파라미터들을 결정하기 위해 구성된 파라미터 결정 수단(9); 및
- 상기 다운믹싱 수단(8)의 하류측에 있는 인지 인코딩 수단(2, 3)을 포함하고, 상기 인지 인코딩 수단(2, 3)은 상기 다운믹스 신호와 상기 잔차 신호를 인코딩하도록 구성되고, 상기 인지 인코딩 수단(2, 3)은 좌/우 인지 인코딩 또는 미드/사이드 인지 인코딩을 선택하도록 구성되는, 인코더 시스템.
제 1 항에 있어서,
상기 인지 인코딩 수단(2, 3)은:
- 상기 다운믹스 신호 및 상기 잔차 신호에 기초하여 변환을 실행하고 그럼으로써 의사 좌/우 스테레오 신호를 생성하기 위해 구성된 변환 수단(2); 및
- 상기 의사 좌/우 스테레오 신호를 인코딩하기 위해 구성된 인지 인코더(3, 48)를 포함하고, 상기 인지 인코더(3, 48)는,
- 좌/우 인지 인코딩, 또는
- 미드(mid)/사이드 인지 인코딩을 선택하도록 구성되는, 인코더 시스템.
제 2 항에 있어서,
상기 인지 인코더(3)는 상기 의사 좌/우 스테레오 신호에 기초하여 주파수-가변 또는 주파수-불변적으로,
- 좌/우 인코딩, 또는
- 미드/사이드 인코딩 중 하나를 결정하도록 구성되는, 인코더 시스템.
제 2 항 또는 제 3 항에 있어서,
상기 인지 인코더(3, 48)는 상기 의사 좌/우 스테레오 신호에 기초하여 좌/우 대 미드/사이드 변환(left/right to mid/side transform)(98)을 실행하도록 구성되는, 인코더 시스템.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
상기 파라메트릭 스테레오 파라미터들(5)은,
- 채널간 세기차를 나타내는 주파수-가변 또는 주파수-불변 파라미터; 및
- 채널간 교차상관을 나타내는 주파수-가변 또는 주파수-불변 파라미터를 포함하는, 인코더 시스템.
제 2 항 또는 제 3 항에 있어서,
- 상기 의사 좌/우 스테레오 신호의 제 1 채널은 상기 다운믹스 및 잔차 신호들의 합에 비례하고;
- 상기 의사 좌/우 스테레오 신호의 제 2 채널은 상기 다운믹스 및 잔차 신호들의 차에 비례하는, 인코더 시스템.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
상기 인지 인코딩 수단(3)은 AAC 기반 스테레오 인코더(48)를 포함하는, 인코더 시스템.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
상기 인지 인코딩 수단(3)은 음향심리 제어 메커니즘을 포함하고, 상기 음향심리 제어 메커니즘은,
- 상기 파라메트릭 스테레오 파라미터들 중 하나 이상에, 및/또는
- 상기 스테레오 신호에 액세스할 수 있는, 인코더 시스템.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
상기 인코더 시스템은 SBR 인코더(32)를 추가로 포함하는, 인코더 시스템.
제 9 항에 있어서,
상기 SBR 인코더(32)는 상기 다운믹싱 수단(8)의 상류측에 연결되는, 인코더 시스템.
하나 이상의 파라메트릭 스테레오 파라미터들(5)을 포함하는 비트스트림 신호를 스테레오 신호로 디코딩하기 위해 구성된 디코더 시스템에 있어서:
- 상기 비트스트림 신호(6)에 기초하여 디코딩하는 인지 디코딩 수단(11, 12)으로서, 상기 인지 디코딩 수단(11, 12)은 다운믹스 신호 및 잔차 신호를 생성하도록 구성되고, 상기 인지 디코딩 수단(11, 12)은
- 좌/우 인지 디코딩 또는
- 미드/사이드 인지 디코딩을 선택적으로 수행하도록 구성되는, 상기 인지 디코딩 수단(11, 12); 및
- 상기 다운믹스 신호 및 상기 잔차 신호에 기초하여 상기 스테레오 신호를 생성하기 위해 업믹스 동작을 수행하도록 구성된 업믹싱 수단(13)으로서, 상기 업믹싱 수단의 업믹스 동작은 상기 하나 이상의 파라메트릭 스테레오 파라미터들(5)에 종속적인, 상기 업믹싱 수단(13)을 포함하는, 디코더 시스템.
제 11 항에 있어서,
상기 인지 디코딩 수단(11, 12)은:
- 상기 비트스트림 신호(6)에 기초하여 디코딩하고, 의사 스테레오 신호를 생성하기 위해 구성된 인지 스테레오 디코더(11)로서, 상기 디코더는,
- 좌/우 인지 디코딩, 또는
- 미드/사이드 인지 디코딩을 선택적으로 실행하도록 구성되는, 상기 인지 스테레오 디코더; 및
- 상기 의사 스테레오 신호에 기초하여 변환을 실행하고 그럼으로써 상기 다운믹스 신호 및 상기 잔차 신호를 생성하기 위해 구성된 변환 수단(12)을 포함하는, 디코더 시스템.
제 12 항에 있어서,
상기 인지 스테레오 디코더(11)는 디코딩된 의사 미드/사이드 신호에 기초하여 미드/사이드 대 좌/우 변환(mid/side to left/right transform)(105)을 실행하도록 구성되는, 디코더 시스템.
제 11 항 내지 제 13 항 중 어느 한 항에 있어서,
상기 파라메트릭 스테레오 파라미터들은,
- 채널간 세기차를 나타내는 주파수-가변 또는 주파수-불변 파라미터, 및
- 채널간 교차상관을 나타내는 주파수-가변 또는 주파수-불변 파라미터를 포함하는, 디코더 시스템.
제 12 항에 있어서,
- 상기 다운믹스 신호는 상기 의사 스테레오 신호의 2개의 채널들의 합에 비례하고,
- 상기 잔차 신호는 상기 의사 스테레오 신호의 2개의 채널들의 차에 비례하는, 디코더 시스템.
제 11 항 내지 제 13 항 중 어느 한 항에 있어서,
상기 인지 디코딩 수단은 AAC 기반 디코더를 포함하는, 디코더 시스템.
제 11 항 내지 제 13 항 중 어느 한 항에 있어서,
상기 스테레오 신호의 좌 채널 및 상기 스테레오 신호의 우 채널이 독립적이고 주파수 대역에 대해서 동일 레벨을 갖는 경우에, 상기 업믹스 동작은 다음 식:

에 따라 기술될 수 있고,
여기서, L은 상기 스테레오 신호의 상기 좌 채널의 주파수 대역 성분을 나타내고, R은 상기 스테레오 신호의 상기 우 채널의 주파수 대역 성분을 나타내고, DMX는 상기 다운믹스 신호의 주파수 대역 성분을 나타내고, RES는 상기 잔차 신호의 주파수 대역 성분을 나타내고, c은 배율인, 디코더 시스템.
제 11 항 내지 제 13 항 중 어느 한 항에 있어서,
상기 디코더 시스템은 SBR 디코더를 추가로 포함하고, 상기 SBR 디코더는 상기 업믹싱 수단(13)의 하류측에 위치하는, 디코더 시스템.
스테레오 신호를 비트스트림 신호(6)로 인코딩하기 위한 방법에 있어서:
- 상기 스테레오 신호에 기초하여 다운믹스 신호 및 잔차 신호를 생성하는 단계;
- 하나 이상의 파라메트릭 스테레오 파라미터들(5)을 결정하는 단계;
- 상기 다운믹스 신호 및 상기 잔차 신호 생성 이후에 인지 인코딩하는 단계를 포함하고,
- 좌/우 인지 인코딩, 또는
- 미드/사이드 인코딩이 선택가능한, 스테레오 신호를 비트스트림 신호로 인코딩하기 위한 방법.
파라메트릭 스테레오 파라미터들(5)을 포함하는 비트스트림 신호(6)를 스테레오 신호로 디코딩하기 위한 방법에 있어서:
- 상기 비트스트림 신호(6)에 기초하여 인지 디코딩하는 단계로서, 상기 인지 디코딩은,
- 좌/우 인지 디코딩, 또는
- 미드/사이드 인지 디코딩을 선택적으로 수행함으로써 다운믹스 신호와 잔차 신호를 생성하는 것을 포함하는, 상기 인지 디코딩 단계; 및
- 업믹스 동작에 의해 상기 다운믹스 신호 및 상기 잔차 신호에 기초하여 상기 스테레오 신호를 생성하는 단계로서, 상기 업믹스 동작은 상기 파라메트릭 스테레오 파라미터들(5)에 종속적인, 상기 스테레오 신호를 생성하는 단계를 포함하는, 파라메트릭 스테레오 파라미터들을 포함하는 비트스트림 신호를 스테레오 신호로 디코딩하기 위한 방법.