KR20070094752A

KR20070094752A - 송신되는 채널들에 기초한 큐들을 갖는 공간 오디오의파라메트릭 코딩

Info

Publication number: KR20070094752A
Application number: KR1020077015057A
Authority: KR
Inventors: 크리스토프 폴러
Original assignee: 에이저 시스템즈 인크
Priority date: 2004-11-30
Filing date: 2005-11-22
Publication date: 2007-09-21
Also published as: HK1106860A1; EP1817768B1; US20060115100A1; KR101215872B1; WO2006060280A3; JP4856653B2; TWI423250B; JP2008522551A; US7787631B2; WO2006060280A8; WO2006060280A2; TW200641795A; EP1817768A2

Abstract

큐 코드들이 송신되는 오디오 신호로부터 도출되는 바이노럴 큐 코딩 방식이 게시되어 있다. 일 실시예에서, 인코더는 C개의 입력 채널들을 다운믹싱하여 E개의 송신되는 채널들을 생성하는데, 여기서 C>E>1이다. 디코더는 송신되는 채널들로부터 큐 코드들을 도출하고, 이러한 큐 코드들을 사용하여 재생 채널들을 합성한다. 예를 들어, 하나의 5-대-2 BCC 실시예에서, 인코더는 5-채널 서라운드 신호를 다운믹싱하여 스테레오 신호의 좌측 및 우측 채널들을 생성한다. 디코더는 송신되는 스테레오 신호로부터 스테레오 큐들을 도출하고, 이러한 스테레오 큐들을 서라운드 큐들로 맵핑하며, 서라운드 큐들을 송신되는 스테레오 채널들로 적용하여, 5-채널 합성되는 서라운드 신호의 재생 채널들을 생성한다.

큐 코드, 오디오 신호, 인코더, 디코더, 스테레오 신호, 서라운드 신호

Description

송신되는 채널들에 기초한 큐들을 갖는 공간 오디오의 파라메트릭 코딩{Parametric coding of spatial audio with cues based on transmitted channels}

관련 출원들과의 상호-참조

본 출원은 본원에 참조되어 있는 대리인 문서 번호 Faller 20으로서 2004년 11월 30일자로 출원된 미국 가출원 번호 제60/631,917호의 출원일의 권익을 청구한다.

본 출원의 주제는 그 내용이 본원에 참조되어 있는 다음 미국 출원의 주제와 관련된다.

o 대리인 문서 번호 Faller 5로서 2001년 5월 4일자로 출원된 미국 출원 일련 번호 제09/848,877호;

o 2001년 8월 10일자로 출원된 미국 가출원 번호 60/311,565의 출원일의 권익을 청구한 대리인 문서 번호 Baumgarte 1-6-8로서 2001년 7월 11일자로 출원된 미국 출원 일련 번호 제10/045,458호;

o 대리인 문서 번호 Baumgarte 2-10으로서 2002년 5월 24일자로 출원된 미국 출원 일련 번호 제10/155,437호;

o 대리인 문서 번호 Baumgarte 3-11으로서 2002년 9월 18일자로 출원된 미국 출원 일련 번호 제10/246,570호;

o 대리인 문서 번호 Baumgarte 7-12으로서 2004년 4월 1일자로 출원된 미국 출원 일련 번호 제10/815,591호;

o 대리인 문서 번호 Baumgarte 8-7-15로서 2004년 9월 8일자로 출원된 미국 출원 일련 번호 제10/936,464호;

o 2004년 1월 20일자로 출원된 미국 출원 일련 번호 제10/762,100호(Faller 13-1);

o 대리인 문서 번호 Allamanche 1-2-17-3으로서 2004년 12월 7일자로 출원된 미국 출원 일련 번호 제11/006,492호;

o 대리인 문서 번호 Allamanche 2-3-18-4로서 2004년 12월 7일자로 출원된 미국 출원 일련 번호 제11/006,482호; 및

o 대리인 문서 번호 Faller 22-5로서 2005년 1월 10일자로 출원된 미국 출원 일련 번호 제11/032,689호.

본 출원의 주제는 또한 그 내용이 본원에 참조되어 있는 다음 논문에 설명된 주제와 관련된다.

o F. Baumgarte 및 C. Faller의 "Binaural Cue Coding - Part I: Psychoacoustic Fundamentals and design principles, " IEEE trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003;

o C. Faller 및 F. Baumgarte의 "Binaural Cue Coding - Part II: Schemes and applications," IEEE trans. on Speech and Audio Proc., vol. 11, no.6, Nov. 2003; 및

o C. Faller의 "Coding of spatial audio compatible with different playback formats" Preprint 117^th Conv, Aud. Eng. Soc., October 2004.

본 발명은 오디오 신호들의 인코딩 및 인코딩된 오디오 데이터로부터의 청각 장면을 나중에 합성하는 것에 관한 것이다.

사람이 특정 오디오 소스에 의해 생성된 오디오 신호(예를 들어, 사운드들)를 들을 때, 오디오 신호는 전형적으로 2개의 상이한 시간에, 그리고 2개의 상이한 오디오(예를 들어, 데시벨) 레벨들로 사람의 좌측 및 우측 귀들에 도달하는데, 여기서 이러한 상이한 시간 및 레벨들은 오디오 신호가 좌측 및 우측 귀들에 각각 도달하도록 이동하는 경로들의 차이의 함수들이다. 사람은 뇌는 시간 및 레벨에서의 이러한 차이들을 해석하여, 수신된 오디오 신호가 사람에 대하여 특정 위치(예를 들어, 방향 및 거리)에 위치된 오디오 소스에 의해 생성되고 있다는 지각을 사람에게 제공한다. 청각 장면은 사람에 대하여 하나 이상의 상이한 위치들에 위치되는 하나 이상의 상이한 오디오 소스들에 의해 생성되는 오디오 신호들을 동시적으로 청취하는 넷 이펙트(net effect)이다.

뇌에 의한 이 처리의 존재는 청각 장면들을 합성하는데 사용될 수 있고, 여기서 하나 이상의 상이한 오디오 소스들로부터의 오디오 신호들은 상이한 오디오 소스들이 청취자에 대하여 상이한 위치들에 위치된다는 지각을 제공하는 좌측 및 우측 오디오 신호들을 생성하기 위해 의도적으로 변경된다.

도 1은 단일 오디오 소스 신호(예를 들어, 모노 신호)를 바이노럴 신호(binaural signal)의 좌측 및 우측 오디오 신호들로 변환하는 종래의 바이노럴 신호 합성기(100)의 고-레벨 블록도이며, 여기서 바이노럴 신호는 청취자의 고막에서 수신되는 2개의 신호인 것으로 규정된다. 오디오 소스 신호 이외에, 합성기(100)는 청취자에 대한 오디오 소스 신호의 원하는 위치에 대응하는 공간 큐들의 세트를 수신한다. 전형적인 구현예들에서, 공간 큐들의 세트는 (좌측 및 우측 귀들에서 각각 수신된 바와 같은 좌측 및 우측 오디오 신호들 간의 오디오 레벨의 차이를 식별하는) 채널간 레벨 차이(ICLD) 값 및 (좌측 및 우측 귀들에서 각각 수신된 바와 같은 좌측 및 우측 오디오 신호들 사이의 시간의 차이를 식별하는) 채널간 시간 차이(ICTD) 값을 포함한다. 부가적으로, 또는 대안으로서, 일부 합성 기술들은 머리-관련 전달 함수(HRTF)라고 또한 칭해지는 신호 소스로부터 고막까지의 사운드에 대한 방향-의존 전달 함수의 모델링을 포함한다. 예를 들어, 그 내용이 본원에 참조되어 있는 J. Blauert의 ThePsychophysics of Human Sound Localization, MIT Press, 1983를 참조하라.

도 1의 바이노럴 신호 합성기(100)를 사용하면, 단일 사운드 소스에 의해 생성된 모노 오디오 신호는 헤드폰들을 통하여 청취될 때, 사운드 소스가 각각의 귀에 대한 오디오 신호를 발생시키기 위하여 공간 큐들의 적절한 세트(ICLD, ICTD, 및/또는 HRTF)를 적용함으로써 공간적으로 위치되도록 처리될 수 있다. 예를 들어, D. R. Begault의 3-D Sound for Virtual Reality and Multimedia, Academic Press, Cambridge, MA. 1994를 참조하라.

도 1의 바이노럴 신호 합성기(100)는 가장 간단한 유형의 청각 장면들을 생성한다; 이들은 청취자에 대하여 위치된 단일 오디오 소스를 갖는다. 청취자에 대하여 상이한 위치에 위치되는 2개 이상의 오디오 소스들을 포함하는 더 복잡한 청각 장면들은 특히 바이노럴 신호 합성기의 다수의 인스턴스(instance)들을 사용하여 구현되는 청각 장면 합성기를 사용하여 생성될 수 있고, 여기서 각각의 바이노럴 신호 합성기 인스턴스는 상이한 오디오 소스에 대응하는 바이노럴 신호를 생성한다. 각각의 상이한 오디오 소스가 청취자에 대한 상이한 위치를 갖기 때문에, 각각의 상이한 오디오 소스에 대한 바이노럴 오디오 신호를 생성하는데 공간 큐들의 상이한 세트가 사용된다.

일 실시예에 따르면, 본 발명은 E개의 송신되는 오디오 채널들로부터 C개의 재생 오디오 채널들을 합성하는 방법, 장치, 및 기계-판독 가능 매체이며, 여기서 C>E>1이다. 하나 이상의 큐들은 E개의 송신되는 채널로부터 도출되고, E개의 송신되는 채널들 중 하나 이상은 업믹싱되어 하나 이상의 업믹싱된 채널들을 생성하고, C개의 재생 채널들 중 하나 이상은 하나 이상의 도출된 큐들에 기초한 하나 이상의 업믹싱된 채널들로부터 합성된다.

다른 실시예에 따르면, 본 발명은 C개의 입력된 오디오 채널들로부터 E개의 송신되는 오디오 채널들을 생성하는 합성하는 방법, 장치, 및 기계-판독 가능 매체이며, 여기서 C>E>1이다. C개의 입력 채널들에서 청각 이벤트(auditory event)에 대해 방향이 추정되고, E개의 송신되는 채널을 생성하기 위해 다운믹싱 알고리즘이 C개의 입력된 채널들에 적용되며, 여기서 상기 다운믹싱 알고리즘은 청각 이벤트 방향에 기초한다.

또 다른 실시예에 따르면, 본 발명은 입력-채널 영역으로부터 송신되는-채널 영역으로의 맵핑에 기초하여 다운믹싱 알고리즘을 생성하기 위하여 패닝 법칙(panning law)을 적용하고, E개의 송신되는 채널들을 생성하기 위하여 C개의 입력 채널들에 다운믹싱 알고리즘을 적용함으로써 생성된 비트스트림이다.

본 발명의 다른 양상들, 특징들, 및 장점들은 다음의 상세한 설명, 첨부된 청구항들, 및 유사하거나 동일한 요소들에는 동일한 참조 번호가 병기되어 있는 첨부 도면들로부터 충분히 분명해질 것이다.

도 1은 종래의 바이노럴 신호 합성기의 고-레벨 블록도.

도 2는 일반적인 바이노럴 큐 코딩(BCC) 오디오 처리 시스템의 블록도.

도 3은 도 2의 다운믹서의 블록도.

도 4는 도 2의 디코터에 사용될 수 있는 BCC 합성기의 블록도.

도 5는 본 발명의 일 실시예에 따른, 도 2의 BCC 추정기의 블록도.

도 6은 5-채널 오디오에 대한 ICTD 및 ICLD의 생성을 도시한 도면.

도 7은 5-채널 오디오에 대한 ICC 데이터의 생성을 도시한 도면.

도 8은 공간 큐들 더하기 소정의 단일 송신되는 합 신호(s(n))를 제공받는 스테레오 또는 다-채널 오디오 신호를 생성하기 위하여 BCC 디코더에서 사용될 수 있는 도 4의 BCC 합성기의 구현예의 블록도.

도 9는 ICTD 및 ILCD가 주파수의 함수로서 서브대역 내에서 변화되는 방법을 도시한 도면.

도 10은 본 발명의 일 실시예에 따른 5-대-2 BCC 오디오 처리 시스템의 블록도.

도 11a는 하나의 가능한 5-채널 서라운드 구성을 도시한 도면.

도 11b는 도 11a의 5개의 확성기들의 방향을 도식적으로 나타낸 도면.

도 11c는 도 11a의 5-채널 서라운드 사운드가 도 10의 인코더에 의해 맵핑되는 하나의 가능한 스테레오 구성을 도시한 도면.

도 12는 도 11a의 5개의 서라운드 채널들을 도 11c의 2개의 스테레오 채널들로 다운믹싱하는데 사용될 수 있는 하나의 가능한 맵핑을 도식적으로 나타낸 도면.

도 13은 본 발명의 하나의 가능한 적응형 다운믹싱 동작에 따른 처리의 흐름도.

도 14는 도 10의 디코더에 사용되는 각도들 및 스케일 팩터들을 도시한 도면.

도 15는 사인들의 스테레오 법칙에 따른 ICLD 및 스테레오 이벤트 각도 사이의 관계를 도시한 도면.

도 16은 본 발명의 하나의 가능한 디코딩 동작에 따른 처리의 흐름도.

바이노럴 큐 코딩(BCC)에서, 인코더는 E개의 송신되는 오디오 채널들을 생성 하기 위하여 C개의 오디오 채널들을 인코딩하며, 여기서 C>E≥1이다. 특히, C개의 입력 채널들 중 2개 이상은 주파수 영역에서 제공되고, 주파수 영역의 2개 이상의 입력 채널들에서의 하나 이상의 상이한 주파수 대역들 각각에 대해 하나 이상의 큐 코드들이 생성된다. 게다가, C개의 입력 채널들은 다운믹싱되어, E개의 송신되는 채널들을 생성한다. 일부 다운믹싱 구현예들에서, E개의 송신되는 채널들 중 하나 이상은 C개의 입력 채널들 중 2개 이상에 기초하며, E개의 송신되는 채널들 중 적어도 하나는 C개의 입력 채널들 중 단지 하나에 기초한다.

일 실시예에서, BCC 코더는 2개 이상의 필터 뱅크들, 코드 추정기, 및 다운믹서를 갖는다. 2개 이상의 필터 뱅크들은 C개의 입력 채널들 중 2개 이상을 시간 영역으로부터 주파수 영역으로 변환한다. 코드 추정기는 2개 이상의 변환된 입력 채널들에서의 하나 이상의 상이한 주파수 대역들 각각에 대한 하나 이상의 큐 코드들을 생성한다. 다운믹서는 C개의 입력 채널들을 다운믹싱하여, E개의 송신되는 채널들을 발생시키며, 여기서 C>E≥1이다.

BCC 디코딩에서, E개의 송신되는 오디오 채널들이 디코딩되어 C개의 재생 (즉, 합성된) 오디오 채널들을 생성한다. 특히, 하나 이상의 상이한 주파수 대역들 각각에 대하여, E개의 송신되는 채널들 중 하나 이상이 주파수 영역에서 업믹싱되어, 주파수 영역에서 C개의 재생 채널 중 2개 이상을 생성하며, 여기서 C>E≥1이다. 하나 이상의 큐 코드들이 주파수 영역에서 2개 이상의 재생 채널들에서의 하나 이상의 상이한 주파수 대역들 각각에 적용되어, 2개 이상의 변경된 채널들을 생성하고, 상기 2개 이상의 변경된 채널들은 주파수 영역으로부터 시간 영역으로 변환 된다. 일부 업링크 구현예들에서, C개의 재생 채널들 중 적어도 하나는 E개의 송신되는 채널 중 적어도 하나 및 적어도 하나의 큐 코드에 기초하여, C개의 재생 채널들 중 적어도 하나는 E개의 송신되는 채널들 중 단지 하나의 채널에 기초하며, 임의의 큐 코드들과 독립적이다.

일 실시예에서, BCC 디코더는 업믹서, 합성기, 및 하나 이상의 역 필터 뱅크들을 갖는다. 하나 이상의 상이한 주파수 대역들 각각에 대하여, 업믹서는 주파수 영역에서 E개의 송신되는 채널을 업믹싱하여 주파수 영역에서 C개의 재생 채널들 중 2개 이상을 생성하며, 여기서 C>E≥1이다. 합성기는 주파수 영역에서 2개 이상의 재생 채널들에서의 하나 이상의 상이한 주파수 대역들 각각에 하나 이상의 큐 코드들을 적용하여, 2개 이상의 변경된 채널들을 생성한다. 하나 이상의 역 필터 뱅크들은 2개 이상의 변경된 채널들을 주파수 영역으로부터 시간 영역으로 변환한다.

특정 구현예에 따르면, 소정의 재생 채널은 2개 이상의 송신되는 채널의 조합보다는 오히려, 단일의 송신되는 채널에 기초할 수 있다. 예를 들어, 단지 하나의 송신되는 채널만이 존재할 때, C개의 재생 채널 각각은 상기 하나의 송신되는 채널에 기초한다. 이러한 상황들에서, 업믹싱은 대응하는 송신되는 채널의 복제에 대응한다. 이와 같이, 단지 하나의 송신되는 채널만이 존재하는 애플리케이션들의 경우에, 업믹서는 각각의 재생 채널에 대해 송신되는 채널을 복제하는 리플리케이터(replicator)를 사용하여 구현될 수 있다.

BCC 인코더들 및/또는 디코더들은 예를 들어, 디지털 비디오 레코더들/플레 이어들, 디지털 오디오 레코더들/플레이어들, 컴퓨터들, 위성 송신기들/수신기들, 케이블 송신기들/수신기들, 지상 방송 송신기들/수신기들, 가정용 엔터테인먼트 시스템, 및 영화관 시스템들을 포함하는 다수의 시스템들 또는 애플리케이션에 통합될 수 있다.

일반적인 BCC 처리

도 2는 인코더(202) 및 디코더(204)를 포함하는 일반적인 바이노럴 큐 코딩(BCC) 오디오 처리 시스템(200)의 블록도이다. 인코더(202)는 다운믹서(206) 및 BCC 추정기(208)를 포함한다.

다운믹서(206)는 입력 오디오 채널들 x_i(n)을 E개의 송신되는 오디오 채널들 y_i(n)으로 변환하고, 여기서 C>E≥1이다. 본 명세서에서, 변수 n을 사용하여 표현되는 신호들은 시간-영역 신호들인 반면, 변수 k를 사용하여 표현되는 신호들은 주파수-영역 신호들이다. 특정 구현예에 따르면, 다운믹싱은 시간 영역 도는 주파수 영역 중 하나에서 구현될 수 있다. BCC 추정기(208)는 C개의 입력 오디오 채널들로부터 BCC 코드들을 생성하고 이러한 VCC 코드들을 E개의 송신되는 오디오 채널들에 대한 대역내(in-band) 또는 대역외(out-of-band) 사이드 정보 중 하나로서 송신한다. 전형적인 BCC 코드들은 주파수 및 시간의 함수로서 입력 채널들의 어떤 쌍들 사이에서 추정되는 채널간 시간 차이(ICTD), 채널간 레벨 차이(ICLD), 및 채널간 상관(ICC) 데이터를 포함한다. 특정 구현예는 입력 채널들의 어떤 특정 쌍들 사이 에서 BCC 코드들이 추정되는지를 설명한다.

ICC 데이터는 오디오 신호의 감지된 폭과 관련되는 바이노럴 신호의 코히러런스(coherence)에 대응한다. 오디오 소스가 넓어지면 넓어질수록, 결과적인 바이노럴 신호의 좌측 및 우측 채널들 사이의 코히어런스는 더 낮아진다. 예를 들어, 방청석 스테이지(auditorium stage)를 통하여 확산되는 오케스트라에 대응하는 바이노럴 신호의 코히어런스는 전형적으로 단일 바이올린 독주에 대응하는 바이노럴 신호의 코히어런스보다 더 낮다. 일반적으로, 더 낮은 코히어런스를 갖는 오디오 신호는 통상적으로 청각 공간에서 더 많이 확산되는 것으로 인식된다. 이와 같이, ICC 데이터는 전형적으로 청취자 환경의 정도 및 분명한 소스 폭과 관련된다. 예를 들어, J. Blauert의 "The Psychophysics of Human Sound Localization, MIT Press, 1983을 참조하라.

특정 애플리케이션에 따르면, E개의 송신되는 오디오 채널 및 대응하는 BCC 코드들은 디코더(204)로 직접 송신되거나, 디코더(204)에 의한 나중의 액세스를 위해 어떤 적절한 유형의 저장 장치에 저장될 수 있다. 상황에 따라서, 용어 "송신하는"은 디코더로의 직접적인 송신 또는 나중에 디코더에 제공하기 위한 저장 중 하나와 관련될 수 있다. 어느 경우든, 디코더(204)는 송신되는 오디오 채널들 및 사이드 정보를 수신하고 BCC 코드들을 사용하여 업믹싱 및 BCC 합성을 수행하여, E개의 송신되는 오디오 채널들을 오디오 재생을 위한 E개 이상(전형적으로 C개 이지만, 반드시 그렇지는 않음)의 재생 오디오 채널들(

)로 변환한다. 특정 구현예 에 따르면, 업믹싱은 시간 영역 또는 주파수 영역 중 하나에서 수행될 수 있다.

도 2에 도시된 BCC 처리 이외에, 일반적인 BCC 오디오 처리 시스템은 각각, 인코더에서 오디오 신호들을 더 압축하고 나서, 디코더에서 상기 오디오 신호들을 압축해제하기 위하여 부가적인 인코딩 및 디코딩 단들을 포함할 수 있다. 이들 오디오 코덱들은 펄스 코드 변조(PCM), 차분 PCM(DPCM), 또는 적응형 DPCM(ADPCM)에 기초한 것과 같은 종래의 오디오 압축/압축해제 기술들에 기초할 수있다.

다운믹서(206)가 단일 합 신호(즉, E=1)를 생성할 때, BCC 코딩은 모노 오디오 신호를 표현하기 위해 필요로 되는 것보다 단지 조금 더 높은 비트레이트로 다-채널 오디오 신호를 표현할 수 있다. 이것은 채널 쌍 사이의 추정된 ICTD, ICLD, 및 ICC 데이터가 오디오 파형보다 더 적은 대략 2차의 크기 정보를 포함하기 때문에 그러하다.

BCC 코딩의 낮은 비트레이트뿐만 아니라, 이의 역방향 호환성 양상이 중요하다. 단일의 송신되는 합 신호는 원래 스테레오 또는 다-채널 신호의 모노 다운믹스에 대응한다. 스테레오 또는 다-채널 사운드 재생을 지원하지 않는 수신기들의 경우에, 송신되는 합 신호를 청취하는 것이 저-프로파일 모노 재생 장비 상에 오디오 자료를 제공하는 유효한 방법이다. 따라서, 다-채널 오디오 쪽으로의 모노 오디오 자료의 전달과 관련된 기존 서비스들을 강화하기 위하여 BCC 코딩이 사용될 수 있다. 예를 들어, 기존 모노 오디오 무선 브로드캐스팅 시스템은 BCC 사이드 정보가 기존의 송신 채널 내로 내장될 수 있는 경우에, 스테레오 또는 다-채널 재생을 위해 강화될 수 있다. 다-채널 오디오를 스테레오 오디오에 대응하는 2개의 합 신호 들로 다운믹싱할 때 유사한 케이퍼빌리티(capability)들이 존재한다.

BCC는 일정한 시간 및 주파수 레졸루션(resolution)으로 오디오 신호들을 처리한다. 사용되는 주파수 레졸루션은 주로 인간의 청각 시스템의 주파수 레졸루션에 의해 모티베이트(motivate)된다. 음향심리학은 공간 지각이 주로 음향 입력 신호의 임계 대역 표현에 기초하는 것을 제안한다. 이 주파수 레졸루션은 (예를 들어, 인간의 청각 시스템의 임계 대역폭과 동일하거나 이에 비례하는 대역폭을 가진 서브대역들을 갖는 고속 퓨리에 변환(FFT) 또는 직교 미러 필터(QMF)에 기초하는) 반전 가능한 필터뱅크를 사용함으로써 고려된다.

일반적인 다운믹싱

바람직한 구현예들에서, 송신되는 합 신호(들)는 입력 오디오 신호의 모든 신호 성분들을 포함한다. 각각의 신호 성분이 완전히 유지되는 것이 목적이다. 오디오 입력 채널들을 단순히 합하는 것은 종종 신호 성분들의 증폭 또는 감쇠를 초래한다. 즉, "간단한" 합에서의 신호 성분들의 거듭제곱은 종종 각각의 채널의 대응하는 신호 성분의 거듭제곱의 합보다 더 크거나 더 작다. 합 신호를 등화시키는 다운믹싱 기술이 사용되어, 합 신호에서의 신호 성분들의 거듭제곱이 모든 입력 채널들에서의 대응하는 거듭제곱과 거의 동일하도록 할 수 있다.

도 3은 BCC 시스템(200)의 어떤 구현예들에 따른 도 2의 다운믹서(206)에 사용될 수 있는 다운믹서(300)의 블록도를 도시한다. 다운믹서(300)는 각각의 입력 채널(x_i(n))에 대한 필터 뱅크(FB)(302), 다운믹싱 블록(304), 선택적인 스케일링/지연 블록(306), 및 각각의 인코딩된 채널(y_i(n))에 대한 역 FB(IFB)(308)를 갖는다.

각각의 필터 뱅크(302)는 시간 영역의 대응하는 디지털 입력 채널(x_i(n))의 각 프레임(예를 들어, 20 msec)을 주파수 영역의 입력 계수들의 세트(

)로 변환한다. 다운믹싱 블록(304)은 C개의 대응하는 입력 계수들의 각각의 서브-대역을 E개의 다운믹싱된 주파수-영역 계수들의 대응하는 서브-밴드로 다운믹싱한다. 식(1)은 다음과 같이 다운믹싱된 계수

를 생성하는 입력 계수

의 k-번째 서브-대역의 다운믹싱을 나타내며,

여기서, D _CE는 실수-값의 C x E 다운믹싱 매트릭스이다.

선택적인 스케일링/지연 블록(306)은 각각 대응하는 다운믹싱된 계수(

)를 스케일링 팩터(e_i(k))만큼 승산하여 대응하는 스케일링된 계수(

)를 생성하는 승산기들(310)의 세트를 포함한다. 스케일링 동작에 대한 모티베이션(motivation)은 각각의 채널에 대한 임의의 가중 팩터들을 갖는 다운믹싱을 위해 일반화된 등화(equalization)와 등가이다. 입력 채널들이 독립적인 경우, 각각의 서브-대역에서의 다운믹싱된 신호의 거듭제곱(

)은 다음과 같이 식(2)에 의해 제공되며,

여기서,

는 C x E 다운믹싱 매트릭스(D_CE)에서 각각의 매트릭스 요소를 제곱함으로써 도출되고,

는 입력 채널(i)의 서브-대역(k)의 거듭제곱이다.

서브-대역들이 독립적이지 않은 경우에, 다운믹싱된 신호의 거듭제곱된 값(

)은 신호 성분들이 각각 동-위상이거나 이-위상일 때의 신호 증폭들 또는 소거들로 인해, 식(2)를 사용하여 계산되는 것보다 더 크거나 더 작을 것이다. 이를 방지하기 위하여, 식(1)의 다운믹싱 동작이 승산기들(310)의 스케일링 동작보다 앞서 서브-대역들에서 적용된다. 스케일링 팩터들(e_i(k))(1≤i≤E)는 다음과 같이 식(3)을 사용하여 도출될 수 있고,

여기서,

는 식(2)에 의해 계산된 바와 같은 서브-대역 거듭제곱이며,

는 대응하는 다운믹싱된 서브-대역 신호(

)의 거듭제곱이다.

선택적인 스케일링을 제공하는 것 이외에, 또는 그것 대신에, 스케일링/지연 블록(306)은 신호들을 선택적으로 지연시킬 수 있다.

각각의 역 필터 뱅크(308)는 주파수 대역의 대응하는 스케일링된 계수(

)의 세트를 대응하는 디지털의 송신되는 채널(y_i(n))로 변환한다.

도 3이 후속 다운믹싱을 위해 주파수 영역으로 변환되는 C개의 입력 채널들 모두를 도시할지라도, 대안적인 구현예들에서, C개의 입력 채널들 중 하나 이상(C-1개보다 적음)은 도 3에 도시된 처리 중 일부 또는 모두를 바이패스하고 변경되지 않은 오디오 채널들의 등가의 수로서 송신될 수 있다. 특정 구현예에 따르면, 이러한 변경되지 않은 오디오 채널들은 송신되는 BCC 코드들을 생성할 시에 도 2의 BCC 추정기(208)에 의해 사용되거나 사용되지 않을 수 있다.

단일 합 신호(y(n))를 생성하는 다운믹서(300)의 구현예에서, E=1이고 각각의 입력 채널(c)의 각각의 서브대역의 신호들(

)이 부가되고 나서, 다음과 같이 식(4)에 따라 팩터(e(k))와 승산되고,

상기 팩터(e(k))는 다음과 같이 식(5)에 의해 제공되며,

여기서,

는 시간 인덱스(k)에서의

의 거듭제곱의 단시간 추정치이고,

는

의 거듭제곱의 단-시간 추정치이다. 등화된 서브대역들은 다시 시간 영역으로 변환되어 BCC 디코더에 송신되는 합 신호(y(n))를 발생시킨다.

일반적인 BCC 합성

도 4는 BCC 시스템(200)의 어떤 구현예들에 따른 도 2의 디코더(204)에 사용될 수 있는 BCC 합성기(400)의 블록도를 도시한다. BCC 합성기(400)는 각각의 송신되는 채널(y_i(n))에 대한 필터 뱅크(402), 업믹싱 블록(404), 지연기들(406), 승산기들(408), 상관해제 블록(410), 및 각각의 재생 채널(

)에 대한 역 필터 뱅크(412)를 갖는다.

각각의 필터 뱅크(402)는 시간 영역의 대응하는 디지털의 송신되는 채널(y_i(n))의 각 프레임을 주파수 영역의 입력 계수(

)의 세트로 변환한다. 업링크 블록(404)은 E개의 대응하는 송신되는-채널 계수들의 각각의 서브-대역을 C개의 업믹싱된 주파수-영역 계수들의 대응하는 서브-대역으로 업믹싱한다. 식(6)은 다음과 같이 업믹싱된 계수들

의 k-번째 서브-대역을 생성하기 위한 송신되는 채널 계수들

의 k-번째 서브-대역의 업믹싱을 나타내며,

여기서 U _EC는 실수-값의 E x C 업링크 매트릭스이다. 주파수-영역에서 업믹싱을 수행하면 업믹싱이 각각의 상이한 서브-대역에서 개별적으로 수행될 수 있다.

각각의 지연기(406)는 재생 채널들의 어떤 쌍들 사이에서 원하는 ICDT 값들이 나타나도록 하기 위하여 ICTD 데이터에 대한 대응하는 BCC 코드에 기초하여 지연 값(d_i(k))을 인가한다. 각각의 승산기(408)는 재생 채널들의 어떤 쌍들 사이에서 원하는 ICLD 값들이 나타나도록 하기 위하여 ICLD 데이터에 대한 대응하는 BCC 코드에 기초하여 스케일링 팩터(a_i(k)를 인가한다. 상관해제 블록(410)은 재생 채널들의 어떤 쌍들 사이에서 원하는 ICC 값들이 나타나도록 하기 위하여 ICC 데이터에 대한 대응하는 BCC 코드들에 기초하여 상관해제 동작(A)을 수행한다. 상관해제 블록(410)의 동작들의 부가적인 설명은 Baumgarte 2-10으로서 2002년 5월 24일자로 출원된 미국 특허 출원 번호 10/155,437에서 찾아볼 수 있다.

ICLD 값들의 합성은 ICLD 합성이 단지 서브-대역 신호들의 스케일링과 관련 되기 때문에, ICTD 및 ICC 값들의 합성보다 덜 곤란할 수 있다. ICLD 큐들이 가장 통상적으로 사용되는 방향성 큐들이기 때문에, ICLD 값들이 원래 오디오 신호의 값들에 근사화되는 것이 통상적으로 더 중요하다. 이와 같이, ICLD 데이터는 모든 채널 쌍들 사이에서 추정될 수 있다. 각각의 서브-대역에 대한 스케일링 팩터(a_i(k))는 바람직하게는, 각각의 재생 채널의 서브-대역 거듭제곱이 원래 입력 오디오 채널의 대응하는 거듭제곱에 근사화되도록 선택된다.

하나의 목적은 ICTD 및 ICC 값들을 합성하기 위해 비교적 적은 신호 변경들을 적용하는 것일 수 있다. 이와 같이, BCC 데이터는 모든 채널 쌍들에 대한 ICTD 및 ICC 값들을 포함할 수는 없다. 그 경우에, BCC 합성기(400)는 어떤 채널 쌍들 사이에서만 ICTD 및 ICC 값들을 합성할 것이다.

각각의 역 필터 뱅크(412)는 주파수 영역의 대응하는 합성된 계수들의 세트(

)를 대응하는 디지털 재생 채널(

)의 프레임으로 변환한다.

도 4가 후속 업믹싱 및 BCC 처리를 위해 주파수 영역으로 변환되는 E개의 송신되는 채널들 모두를 도시할지라도, 대안적인 구현예들에서, E개의 송신되는 채널들 중 하나 이상(그러나, 모두는 아님)은 도 4에 도시된 처리 중 일부 또는 모두를 바이패스할 수 있다. 예를 들어, 송신되는 채널들 중 하나 이상은 임의의 업믹싱을 겪지 않은 변경되지 않은 채널들일 수 있다. C개의 재생 채널들 중 하나 이상 이외에, 이러한 변경되지 않은 채널들이 차례로, 다른 재생 채널들 중 하나 이상을 합성하기 위해 BCC 처리가 적용되는 기준 채널들로서 사용될 수 있지만, 그렇게 사용 되지 않아도 된다. 어느 경우든, 이와 같은 변경되지 않은 채널들은 재생 채널들의 나머지를 생성하는데 사용되는 업믹싱 및/또는 BCC 처리와 관련된 처리 시간을 보상하기 위하여 지연들을 겪게 될 수 있다.

도 4가 E개의 송신되는 채널들로부터 합성되는 C개의 재생 채널들을 도시할지라도, BCC 합성들이 그 수의 재생 채널들에 국한되지 않는다는 점에 주의하라. 일반적으로, 재생 채널들의 수는 C보다 더 크거나 더 적은 수들을 포함하는 임의의 채널들의 수일 수 있고 재생 채널들의 수가 송신되는 채널들의 수와 동일하거나 이보다 더 적은 상황들도 가능하다.

오디오 채널들 사이의 "지각적으로 관련된 차이들"

단일 합 신호를 가정하면, BCC는 스테레오 또는 다-채널 오디오 신호를 합성하여, ICTD, ICLD, 및 ICC가 원래 오디오 신호의 대응하는 큐들에 근사화되도록 한다. 다음에서, 청각 공산 이미지 속성들에 대한 ICTD, ICLD, 및 ICC의 역할이 논의된다.

공간 청취에 관한 인식은 하나의 청각 이벤트의 경우에, ICTD 및 ICLD가 지각된 방향과 관련된다는 것을 나타낸다. 하나의 소스의 바이노럴 룸 임펄스 응답들(binaural room impulse response: BRIRs)을 고려할 때, BRIRs의 초기와 후기 파트들에 대한 추정된 ICC 데이터 및 청취자 포위감(listener envelopment)과 청각 이벤트의 폭 사이에 관계가 존재한다. 그러나, 일반적인 신호들에 대한 이러한 특성들(단지 BRIRs이 아님) 및 ICC 사이의 관계는 직접적이지는 않다.

스테레오 및 다-채널 오디오 신호들은 통상적으로 밀폐된 공간들에서의 레코딩으로 인하여 반사된 신호 성분들에 의해 중첩되고 공간적인 임프레션(impression)을 인공적으로 생성하기 위해 레코딩 엔지니어에 의해 부가되는 동시 활성적 소스 신호들의 복합적인 혼합을 포함한다. 상이한 소스 신호들 및 이들은 반사들은 시간-주파수 평면에서 상이한 영역들을 점유한다. 이것은 주파수 및 시간의 함수로서 변화하는 ICTD, ILCD, 및 ICC에 의해 반영된다. 이 경우에, 순시적인 ICTD, ICLD와 ICC 및 청각 이벤트 방향들과 공간적인 임프레션 사이의 관계는 명백하지 않다. BCC의 어떤 실시예들의 전략은 이러한 큐들이 원래 오디오 신호의 대응하는 큐들에 근사화되도록 상기 큐들을 맹목적으로 합성하는 것이다.

등가 직사각형 대역폭(equivalent rectangular bandwidth: ERB)의 2배와 동일한 대역폭들의 서브대역들을 갖는 필터뱅크들이 사용된다. 비공식 청취는 더 높은 주파수 레졸루션 선택할 때, BCC의 오디오 품질이 현저히 개선되지 않는다는 것을 의미한다. 디코더에 송신될 필요가 있는 ICTD, ICLD, 및 ICC 값들을 더 적게 하여, 비트레이트를 더 낮게 때문에, 더 낮은 주파수 레졸루션이 바람직할 수 있다.

이 레졸루션에 관하여, ICTD, ICLD, 및 ICC는 전형적으로 규칙적인 시간 간격으로 고려된다. ICTD, ICLD, 및 ICC가 약 4 내지 16ms마다 고려될 때, 고성능이 획득된다. 큐들이 매우 짧은 시간 간격들마다 고려되지 않는다면, 선착 효과(precedence effect)는 직접적으로 고려되지 않는다는 점에 주의하라. 사운드 자극들의 종래의 진상/지상 쌍을 가정하면, 진상 및 지상이 큐들 중 하나의 세트만이 합성되는 시간 간격이 되는 경우, 진상의 국소 우세(localization dominace)가 고 려되지 않다. 이에도 불구하고, BCC는 평균하여 약 87(즉, "우수한" 오디오 품질) 및 어떤 오디오 신호들에 대하여 거의 100까지의 평균 MUSHRA 스코어에서 반영된 오디오 품질을 획득한다.

기준 신호 및 합성된 신호 사이의 자주-획득되는 지각적으로 작은 차이는 청각 공간 이미지 속성들과 관련된 큐들이 규칙적인 시간 간격으로 ICTD, ICLD, 및 ICC를 합성함으로써 암시적으로 고려된다. 다음에서, ICTD, ICLD, 및 ICC가 청각 공간 이미지 속성의 범위와 관련될 수 있는 방법에 대한 어떤 논의가 제공된다.

공간 큐들의 추정

다음에서, ICTD, ICLD, 및 ICC가 추정되는 방법이 설명된다. 이러한 (양자화되고 코딩된) 공간 큐들의 송신을 위한 비트레이트는 단지 몇 kb/s일 수 있으므로, BCC에 의하여, 단일 오디오 채널에 필요로 되는 것에 가까운 비트레이트로 스테레오 및 다-채널 오디오 신호들을 송신할 수 있다.

도 5는 본 발명의 일 실시예에 따른, 도 2의 BCC 추정기(208)의 블록도를 도시한다. BCC 추정기(208)는 도 3의 필터뱅크들(302)과 동일할 수 있는 필터뱅크들(FB)(502), 및 필터뱅크들(502)에 의해 생성된 각각의 상이한 주파수 서브대역에 대한 ICTD, ICLD, 및 ICC 공간 큐들을 생성하는 추정 블록(504)을 포함한다.

스테레오 신호들에 대한 ICTD , ICLD , 및 ICC 의 추정

2개(예를 들어, 스테레오) 오디오 채널들의 대응하는 서브대역 신호 들(

및

)에 대한 ICTD, ICLD, 및 ICC에 대해 다음의 측정들이 사용된다.

o ICTD[샘플들]:

표준화된 교차-상관 함수의 단-시간 추정치는 다음과 같이 식(8)에 의해 제공되며,

여기서,

이고,

는

의 평균의 단-시간 추정치이다.

o ICLD[dB]:

o ICC

표준화된 교차-상관의 절대값이 고려되고, c₁₂(k)은 [0,1]의 범위를 갖는다.

다-채널 오디오 신호들에 대한 ICTD , ICLD , 및 ICC 의 추정

2개 이상의 입력 채널들이 존재할 때, 통상적으로 C=5개의 채널들의 경우에 대해 도 6에 도시된 바와 같이, 기준 채널(예를 들어, 채널 번호 1) 및 다른 채널들 사이에 ICTD 및 ICLD를 규정하기만 하면 된다. 여기서

및

는 기준 채널(1) 및 채널(c) 사이의 ICTD 및 ICLD를 각각 나타낸다.

ICTD 및 ICLD에 반대되는 바와 같이, ICC는 통상적으로 더 많은 자유도들(degrees of freedom)을 갖는다. 규정된 바와 같은 ICC는 모든 가능한 입력 채널 쌍들 사이에서 상이한 값들을 가질 수 있다. C개의 채널들의 경우에, C(C-1)/2개의 가능한 채널 쌍들이 존재한다; 예를 들어, 5개의 채널들의 경우에, 도 7(a)에 도시된 바와 같이 10개의 채널 쌍들이 존재한다. 그러나, 이와 같은 방식은 각각의 시간 인덱스에서 각각의 서브대역에 대해, C(C-1)/2개의 ICC 값들이 추정되고 계산되는 것을 필요로 하여, 계산적인 복잡성이 높아지고 비트레이트가 높아지게 된다.

대안적으로, 각각의 서브대역에 대하여, ICTD 및 ICLD는 서브대역 내의 대응하는 신호 성분의 청각 이벤트가 렌더링되는 방향을 결정한다. 그 후, 서브대역 당 하나의 단일 ICC 파라미터가 사용되어, 모든 오디오 채널들 전체 코히어런스를 규정한다. 각각의 시간 인덱스에서의 각각의 서브대역에서 가장 큰 에너지를 갖는 2개의 채널들 사이에서만 ICC 큐들을 추정하고 송신함으로써 양호한 결과들이 획득될 수 있다. 이것이 시간 인스턴트들(k-1 및 k) 동안, 채널 쌍들(3, 4) 및 (1, 2) 이 각각 가장 강한 도 7(b)에 도시되어 있다. 다른 채널 쌍들 사이에서 ICC를 결정하는데 휴리스틱 규칙(heuristic rule)이 사용될 수 있다.

공간 큐들의 합성

도 8은 공간적인 큐들 더하기 단일의 송신되는 합 신호(s(n))를 제공받는 스테레오 또는 다-채널 오디오 신호를 생성하기 위하여 BCC 디코더에서 사용될 수 있는 도 4의 BCC 합성기(400)의 구현예의 블록도를 도시한다. 합 신호(s(n))는 서브대역들로 분해되고, 여기서

는 하나의 이와 같은 서브대역을 나타낸다. 출력 채널들 각각의 대응하는 서브대역들을 생성하기 위하여, 지연(d_c), 스케일 팩터들(a_c), 및 필터들(h_c)이 합 신호의 대응하는 서브대역에 적용된다. (표시의 간소화를 위해, 지연들, 스케일 팩터들, 및 필터들에서 시간 인덱스(k)는 무시된다.) ICTD는 지연들을 부과함으로써 합성되고, ICLD는 스케일링에 의해 합성되며, ICC는 상관해제 필터들을 적용함으로써 합성된다. 도 8에 도시된 처리는 각각의 서브대역에 독립적으로 적용된다.

ICTD 합성

지연(d_c)은 다음과 같이 식(12)에 따라 ICTD들(

)로부터 결정된다.

기준 채널에 대한 지연(d₁)은 지연들(d_c)의 최대 크기가 최소화되도록 계산된다. 서브대역 신호들이 더 적게 변경될수록, 아티팩트들이 발생할 위험이 더 적게 존재한다. 서브대역 샘플링 레이트가 ICTD 합성에 충분한 높은 레졸루션을 제공하지 않는 경우, 적절한 전역 통과 필터들을 사용함으로써 지연들이 더 정확하게 부과될 수 있다.

ICLD 합성

출력 서브대역 신호들이 채널(c) 및 기준 채널(1) 사이에서 원하는 ICLD들(

)를 가지도록 하기 위하여, 이득 팩터들(a_c)은 다음과 같이 식(13)을 충족시켜야 한다.

부가적으로, 출력 서브대역들은 바람직하게는, 모든 출력 채널들의 거듭제곱의 합이 입력 합 신호의 거듭제곱의 합과 동일하도록 표준화된다. 각각의 서브대역에서의 총 원래 신호 거듭제곱이 합 신호에서 보존되기 때문에, 이 표준화는 원래 인코더 입력 오디오 신호의 대응하는 거듭제곱에 근사화되는 각각의 출력 채널에 대한 절대 서브대역 거듭제곱을 발생시킨다. 이러한 제약들을 제공하면, 스케일 팩터들(a_c)은 다음과 같이 식(14)에 의해 제공된다.

ICC 합성

어떤 실시예들에서, ICC 합성의 목적은 ICTD 및 ICLD에 영향을 줌이 없이, 지연들 및 스케일링이 적용된 후, 서브대역들 사이에 상관을 감소시키는 것이다. 이것은 각 서브대역(청각 임계 대역)에서 평균 편차가 제로가 되도록 ICTD 및 ICLD이 주파수의 함수로서 효율적으로 변화되도록 도 8에서 필터들(h_c)을 설계함으로써 달성될 수 있다.

도 9는 ICTD 및 ICLD가 주파수의 함수로서 서브대역 내에서 변화되는 방법을 도시한다. ICTD 및 ICLD 변화의 크기는 상관해제의 정도를 결정하고, ICC의함수로서 제어된다. ICTD는 (도 9(a)에서와 같이) 완만하게 변화되는 반면, ICLD는 (도 9(b)에서와 같이) 랜덤하게 변화된다. ICLD를 ICTD와 같이 완만하게 변화시킬 수 있지만, 이것은 결과적인 오디오 신호들의 더 많은 컬러레이션(coloratin)을 발생시킨다.

다-채널 ICC 합성에 특히 적합한 ICC를 합성하는 또 다른 방법은 그 내용이 본원에 참조되어 있는 C. Faller의 "Parametric multi-channel audio coding: Synthesis of coherence cues, "IEEE Trans. on Speech and Audio Proc., 2003에 보다 상세히 설명된다. 시간 및 주파수의 함수로서, 특정 량들의 인공적인 늦은 잔향(artificial late reverberation)이 원하는 ICC를 달성하기 위하여 출력 채널들 각각에 부가된다. 부가적으로, 결과적인 신호의 스펙트럼 인벨롭(envelop)이 원래 오디오 신호의 스펙트럼 인벨롭에 접근하도록 스펙트럼 변경이 적용될 수 있다.

스테레오 신호들(또는 오디오 채널 쌍들)에 대한 다른 관련되거나 독립적인 ICC 합성 기술은 둘 모두의 내용이 본원에 참조되어 있는 E. Schuijers, W. Oomen, B. den Brinker, 및 J. Breebaart의 "Advances in parametric coding for high-quality audio" in Preprint 114^th Conv. Aud. Eng. Soc., Mar. 2003, 및 J. Engdegard, H. Purnhagen, J. Roden, 및 L. Liljeryd의 "Synthetic ambience in parametric stereo coding," in Preprint 117^th Conv. Aud. Eng. Soc., May 2004에 제시되어 있다.

C-대-E BCC

상술된 바와 같이, BCC는 하나 이상의 송신 채널로 구현될 수 있다. C-대-E BCC를 나타내는, 하나의 단일 (송신되는) 채널이 아니라, E개의 채널로서 C개의 오디오 채널들을 표현하는 BCC의 변형이 설명되었다. C-대-E BCC에 대한 (적어도) 2개의 모티베이션들이 존재한다.

o 하나의 송신 채널에 의한 BCC는 스테레오 또는 다-채널 오디오 재생을 위 한 기존의 모노 시스템들을 업그레이드하기 위해 역방향 호환 가능한 경로를 제공한다. 업그레이드된 시스템은 BCC 사이드 정보를 부가적으로 송신하는 동안, BCC 다운믹싱된 합 신호를 기존의 모노 하부구조를 통해 송신한다. C-대-E BCC는 C-채널 오디오의 E-채널 역방향 호환 가능한 코딩에 적용 가능하다.

o C-대-E BCC는 송신되는 채널들의 수의 상이한 감소 정도들 면에서 스케일러빌리티(scalability)를 도입한다. 송신되는 오디오 채널들이 더 많을수록, 오디오 품질이 더 양호해질 것이 기대된다.

ICTD, ICLD, 및 ICC 큐들을 규정하는 방법과 같은 C-대-E BCC에 대한 신호 처리 세부사항들은 2004년 1월 20일자로 출원된 미국 출원 일련 번호 10/762,100(Faller 13-1)에 설명되어 있다.

송신되는 채널들에 기초한 큐들에 의한 BCC

상술된 바와 같이, 종래의 C-대-E BCC 방식에서, 인코더는 C개의 원래 채널들로부터 BCC 큐들(예를 들어, ICTD, ICLD, 및/또는 ICC 큐들)를 도출한다. 또한, 인코더는 C개의 원래 채널들을 다운믹싱하여, 도출된 BCC 큐들과 함께 디코더에 송신되는 E개의 다운믹싱된 채널들을 생성하며, 상기 디코더는 송신되는 (즉, 사이드 정보) BCC 큐들을 사용하여 E개의 송신되는 채널들로부터 C개의 합성된 채널들을 생성한다.

그러나, E개의 송신되는 채널들로부터 도출되는 큐들로 BCC 방식을 구현하는 것이 바람직할 수 있는 일부 애플리케이션들이 존재한다. 하나의 예시적인 애플리 케이션에서, 인코더는 C개의 원래 채널들을 다운믹싱하여, E개의 다운믹싱된 채널들을 생성하지만, 사이드 정보로서 임의의 BCC 큐들을 디코더에 송신하지 않는다. 대신에, 디코더(또는 아마도 디코더 상부의 사전-프로세서)는 송신되는 채널들로부터 BCC 큐들을 도출하고, 이러한 도출된 BCC 코드들을 사용하여, E개의 송신되는 채널들로부터 C개의 합성된 채널들을 생성한다. 유용하게도, 이 상황에서 송신되는 데이터의 량은 사이드 정보로서 BCC 큐들을 송신하는 종래의 BCC 방식의 데이터 량보다 더 적다.

또 다른 예시적인 애플리케이션에서, 인코더에서 E개의 다운믹싱된 채널들을 생성하기 위한 C개의 원래 채널들의 다운믹싱이 존재하지 않는다. 이 애플리케이션에서, 원래 채널들만이 E개의 송신되는 채널들일 수 있다. 이전 예에서와 같이, 디코더(또는 사전-프로세서)는 송신되는 채널들로부터 BCC 큐들을 도출하고, 이러한 도출된 BCC 코드들을 사용하여 E개의 송신되는 채널들로부터 C개의 합성된 채널들을 생성한다. 이론적으로, 이 애플리케이션은 기존의 스테레오 신호들을 다-채널 (예를 들어, 서라운드) 신호들로 변환하는데 사용될 수 있다.

본 발명의 어떤 실시예들에서, BCC 코드들은 인코더에서 도출되고 송신되는 채널들과 함께 사이드 정보로서 디코더에 송신될 수 있고, 여기서 이러한 BCC 코드들은 원래 (예를 들어, 사전-다운믹싱된) 채널들로부터 보다는 오히려, 송신되는 (예를 들어, 다운믹싱된) 채널들로부터 도출된다는 점에 주의하라.

도 10은 본 발명의 일 실시예에 따른 5-대-2 BCC 오디오 처리 시스템(1000)의 블록도를 도시하며, 여기서 BCC 코드들은 송신되는 채널들과 함께 사이드 정보 로서 인코더로부터 디코더에 송신되지 않는다. 5-대-2 BCC 시스템(1000)은 인코더(1002) 및 디코더(1004)를 포함한다. 인코더(1002)는 다운믹서(1006)를 포함하는 반면, 디코더(1004)는 큐 추정기(1008), 큐 맵퍼(1010), 및 합성기(1012)를 포함한다. 이 논의가 5-대-2 BCC 방식들과 관련될지라도, 본 발명은 C-대-E BCC 방식들에 일반적으로 적용될 수 있고, 여기서 C>E>1이다.

인코더(1002)에서, 다운믹서(1006)는 5개의 원래 서라운드 채널들(x_i(n))을 다운믹싱하여, 2개의 송신되는 스테레오 채널들(y_i(n))을 생성한다. 디코더(1004)에서, 큐 추정기(1008)는 송신되는 스테레오 신호로부터 추정된 채널간 큐들을 생성하고, 큐 맵퍼(1010)는 이러한 스테레오 큐들을 서라운드 큐들로 맵핑하고, 합성기(1012)는 이러한 서라운드 큐들을 2개의 송신되는 스테레오 채널에 적용하여, 5개의 합성된 서라운드 채널들(

)을 생성한다.

도 10에 도시된 바와 같이, 도 2에 도시된 바와 같은 종래의 BCC 방식과 달리, 시스템(1000)의 인코더(1002)는 원래 서라운드 채널들로부터 BCC 큐들을 생성하지 않는다. 오히려, 큐들은 합성된 서라운드 채널들을 생성하는데 사용하기 위하여 디코더(1004)에서 송신되는, 다운믹싱된 스테레오 채널들로부터 도출된다. 이와 같이, 시스템(1000)에서, BCC 큐들은 다운믹싱된 스테레오 채널들과 함께 사이드 정보로서 송신되지 않는다.

하나의 가능한 구현예에 따르면, 인코더(1002)는 5-채널 360°서라운드 사운드 이미지를 2-채널 60°스테레오 신호로 압축하는데, 여기서 스테레오 신호는 5- 채널 서라운드 사운드 이미지에서의 청각 이벤트들이 스테레오 사운드 이미지에서 상이한 위치들에 나타나도록 생성된다. 디코더(1004)에서, 스테레오 이미지에서의 각각의 청각 이벤트에 대한 BCC 큐들은 청각 이벤트가 다시 원래 서라운드 이미지에서의 자신의 근사 위치에 합성된 서라운드 이미지에서 맵핑될 수 있도록 선택된다.

인코더 처리

도 11a는 하나의 가능한 5-채널 서라운드 구성을 도시하며, 여기서 좌측 확성기(#1)은 중심 확성기(#3)의 30°좌측에 위치되고, 우측 확성기(#2)는 중심 확성기의 30°우측에 위치되며, 좌측 후방 확성기(#4)는 중심 확성기의 110°좌측에 위치되고, 우측 후방 확성기는 중심 확성기의 110°우측에 위치된다.

도 11b는 도 11a의 5개의 확성기의 방향을 단위 벡터(S _i)로서 도식적으로 나타내며, 여기서 X-축은 중심 확성기의 방위를 나타내며, Y-축은 중심 스피커의 90°좌측 방위를 나타낸다.

도 11c는 도 11a의 5-채널 서라운드 사운드가 도 10의 인코더(1002)에 의해 맵핑되는 하나의 가능한 스테레오 구성을 도시하며, 여기서 좌측 및 우측 확성기들은 60°만큼 분리된다.

도 12는 도 11a의 5개의 서라운드 채널들(x_i(n))을 도 11c의 2개의 스테레오 채널들(y_i(n))로 다운믹싱하는데 사용될 수 있는 하나의 가능한 맵핑을 도식적으로 나타낸다. 이 맵핑에 따르면, -180 및 -30도 사이에 위치되는 청각 이벤트들은 -30 내지 -20도의 범위로 맵핑된다(각도 압축된다). -30 및 0도 사이에 위치되는 청각 이벤트들은 -20 및 0으로 맵핑된다(각도 압축된다). 유사하게, 양의 각도의 경우에, 30 및 180도 사이에 위치되는 청각 이벤트들은 20 내지 30도의 범위로 맵핑된다(각도 압축된다). 0 및 30도 사이에 위치되는 청각 이벤트들은 0 및 20도로 맵핑된다(각도 압축된다). 효과적으로, 이것은 원래의 ±30도 정면 이미지를 ±20도로 압축하며, (-30 내지 -20 및 20 내지 30도 범위들로) 압축된 전방 이미지의 측면들 상에 서라운드 이미지의 측면 및 후방 부분들을 추가한다.

상이한 영역 수들을 갖는 것 및/또는 하나 이상의 비-선형 영역들을 갖는 것을 포함하는 다른 변형들이 가능하다.

도 12의 맵핑은 다음과 같이 식(15)의 매트릭스-기반 변환에 따라 표현될 수 있고,

여기서, 예를 들어, (2x5) 다운믹싱 메트릭스의 처음 2개의 컬럼들의 팩터들(0.9 및 0.44)은 ±30°로부터 ±20°로의 압축에 대응하는 반면, 최종 2개의 칼럼들의 팩터들(1.0 및 0.0)은 ±110°로부터 ±30°로의 압축에 대응한다. 다운믹싱 동안 전체 신호 거듭제곱 레벨을 보존하기 위하여, 다운믹싱 매트릭스의 각 컬럼의 엔트 리들의 제곱들의 합은 1이 된다는 점을 또한 주의하라.

이 변환에 따르면, 좌측 및 우측 채널들(#1 및 #2)은 크로스토크를 갖는 송신된 스테레오 신호와 혼합된다. 중심 채널(#3)은 동일한 강도로 좌측 및 우측과 혼합된다. 이와 같이, 서라운드 이미지의 전방 중심은 스테레오 이미지의 전방 중심에서 유지된다. 좌측 채널(#4)은 좌측 스테레오 채널에만 혼합되고, 우측 채널(#5)은 우측 스테레오 채널에만 혼합된다. 여기서 크로스토크가 사용되지 않기 때문에, 좌측 및 우측 후방 채널들은 스테레오 이미지의 먼 좌측 및 우측으로 맵핑된다.

식(15)에서 표현되는 다운믹싱 동작은 시간 영역에서 구현되고, 이는 동일한 다운믹싱 매트릭스가 전체 주파수 대역에 대해 사용된다는 것을 나타낸다. 대안적인 구현예들에서, 다운믹싱은 이론적으로, 각각의 상이한 주파수에 대해 상이한 다운믹싱 매트릭스가 사용될 수 있는 주파수 영역에서 구현될 수 있다.

대안적인 실시예에서, 식(15)에서와 같이 고정된 다운믹싱 매트릭스를 적용하기보다는 오히려, 도 10의 다운믹서(1006)가 적응형 다운믹싱을 구현할 수 있다. 도 13은 본 발명의 하나의 가능한 적응형 다운믹싱 동작에 따른, 각각의 시간 기간(예를 들어, 20msec)에서 구현되는 처리의 흐름도를 도시한다. 특정 구현예에 따르면, 도 13의 처리는 전체 스펙트럼에 또는 개별적인 BCC 서브대역들에 독립적으로 적용될 수 있다.

특히, 서라운드 이미지에서의 대응하는 청각 이벤트의 방향이 다음과 같이 식(16)에 따라 추정되고(도 13의 단계 1302),

여기서, α는 도 11b의 X-축에 대한 청각 이벤트의 추정된 각도이고, P_i(k)는 시간 인덱스(k)에서 서라운드 채널(i)의 거듭제곱이며, s _i는 서라운드 채널(i)에 대한 단위 벡터

이고, 여기서 θ_i는 도 11b의 X-축에 대한 서라운드 확성기 각도이다.

그 후, 서라운드 공간에서의 청각 이벤트의 각도(α)가 예를 들어, 도 12의 변환을 사용하여 스테레오 공간에서의 각도(φ)로 맵핑된다(단계 1304).

그 후, 스테레오 공간에서의 2개의 스테레오 채널들 사이에서 원하는 레벨 차를 도출하기 위하여 진폭-패닝 법칙(또는 다른 가능한 주파수-의존 관계)이 적용된다(단계 1306). 진폭 패닝이 적용될 때, 청각 이벤트의 지각된 방향은 다음과 같이 식(17)에 의해 제공된 스테레오의 사인 법칙으로부터 추정될 수 있고,

여기서 o°<φ₀≤90°는 도 11b의 X-축 및 각각의 스테레오 확성기 사이의 각도의 크기이고, φ는 청각 이벤트의 대응하는 각도이며, a₁, a₂는 다음과 같이 식(18)에 따른 레벨-차이 큐 ICLD와 관련되는 스케일 팩터들이다.

도 14는 각도들(φ₀ 및 φ) 및 스케일 팩터들(a₁ 및 a₂)을 도시하며, 여기서 s(n)은 진폭 패닝이 스케일 팩터들(a₁ 및 a₂)에 기초하여 적용될 때, 각도(φ)에서 나타나는 모노 신호를 나타낸다. 도 15는 φ₀=30°인 표준 스테레오 구성에 대하여 식(17)의 스테레오의 사인 법칙에 따른 ICLD 및 스테레오 이벤트 각도(φ) 사이의 관계를 도식적으로 나타낸다.

그 후, 5개의 서라운드 채널들이 다음과 같이 식(19)에 따라 종래의 다운믹싱을 사용하여 다운믹싱된다(단계 1308).

이 표준 다운믹싱에 따르면, (i) 좌측 및 좌측 후방 서라운드 채널들은 좌측 스테레오 채널로 맵핑되고, (ii) 우측 및 우측 후방 서라운드 채널들은 우측 스테레오 채널로 맵핑되며, (iii) 중심 서라운드 채널은 좌측 및 우측 스테레오 채널들 사이에 고르게 분할되며, 이들 모두는 서라운드 이미지의 좌측 및 우측 사이에 임의의 크로스토크가 없다.

그 후, 좌측 및 우측 스테레오 채널들은 식(20)이 다음과 같이 충족되도록 진폭 패닝으로부터 도출되는 레벨 차이에 대응하는 스케일 팩터들(a₁ 및 a₂)을 사용하여 각각 스케일링되며(단계 1310).

여기서, P₁ 및 P₂는 각각 스케일링 이후의 좌측 및 우측의 다운믹싱된 스테레오 채널들의 거듭제곱들이고, 스케일링 팩터들은 총 스테레오 거듭제곱이 스케일링 전후에 동일하도록 하기 위하여 표준화된다(즉,

).

또 다른 실시예에 따르면, 다운믹싱 변환은 둘 모두의 내용이 본원에 참조되어 있는 J. Hall의 "Surround sonud past, present, and future," Tech. Rep., Dolby Laboratories, 1999, www.dolby.com/tech/, 및 R. Dressler의 "Dolby Surround Prologic II Decoder - Principles of operation," Tech. Rep., Dolby Laboratories, 2000, www.dolby.com/tech/에 설명된 것과 같은 종래의 매트릭싱 알고리즘들의 원리들에 기초하여 발생된다. 매트릭싱 알고리즘은 채널들의 수, 예를 들어, 5개의 입력 채널들을 2개의 스테레오(즉, 좌측 및 우측) 출력 채널들로 감소시키기 위하여 다운믹싱 매트릭스를 적용한다. 통상적으로, 후방 입력 채널들은 좌측 및 우측 입력 채널들과 이-위상으로 혼합되어, (후방 채널들이 스테레오 신호에서 이-위상이라는 것을 가정함으로써) 매트릭싱 디코더에서 어느 정도까지 복구될 수 있다. 예를 들어, 하나의 가능한 시간-영역 다운믹싱 동작이 다음과 같이 식(21)에 의해 규정되고,

여기서, 다운믹싱 매트릭스에서의 음의 팩터는 이-위상으로 다운믹싱되는 채널들에 대응한다. 여기서 좌측 및 우측 채널들(#1 및 #2)에 대하여, 크로스토크가 도입되지 않는다는 점에 주의하라. 이와 같이, 전체 전방 서라운드 이미지 폭은 임의의 이미지 압축 없이 유지된다. 여기서, 또한, 다운믹싱은 대안적으로 상이한 주파수 서브대역들에 대해 사용되는 상이한 다운믹싱 매트릭스들에 의해 주파수 영역에서 구현될 수 있다. 더구나, 다운믹싱은 (식(15)에서와 같이) 고정되거나, (식(19) 및 도 13에서와 같이) 적응형 알고리즘의 부분으로서 적용될 수 있다.

일반적으로, 5개의 서라운드 채널들로부터 2개의 스테레오 채널들을 생성하는데 어떤 기술이 사용되든지 간에, 그 기술은 바람직하게는, 도 10의 디코더(1004)와 같은 디코더가 결과적인 송신된 스테레오 이미지를 예를 들어, 원래의 5-채널 서라운드 이미지에 근사화되는 합성된 서라운드 이미지로 맵핑할 수 있도록 설계된다.

디코더 처리

도 10을 다시 참조하면, 특정 구현예에 따르면, 송신되는 스테레오 신호에 대해 디코더(1004)의 큐 추정기(1008)에 의해 생성되는 추정된 채널간 큐들은 ICLD, ICTD, 및/또는 ICC 데이터를 포함할 수 있다. 추정된 ICLD, ICTD, 및/또는 ICC는 2개의 송신되는 스테레오 채널의 대응하는 서브대역 신호들(

및

)에 식(7) 내지 식(11)을 적용함으로써 생성될 수 있다.

도 16은 본 발명의 하나의 가능한 디코딩 동작에 따른, 각각의 시간 기간(예를 들어, 20msec)에서 구현되는 처리의 흐름도이다. 이 예시적인 절차는 ICTD 규들이 아니라, ICLD 및 ICC 큐들을 사용한다. 각각의 시간(k) 및 각각의 BCC 서브대역에서, 다음 처리가 독립적으로 수행된다.

도 10의 큐 추정기(1008)는 식(10) 및 식(11)을 사용하여 추정된 ICLD 및 ICC 값들 도출하고(도 16의 단계 1602) 나서, 식(17)의 진폭-패닝 법칙에 기초하여 식(18)을 사용하여 스테레오 이미지에서의 청각 이벤트의 각도(φ)를 추정한다(단계 1604).

도 10의 큐 맵퍼(1010)는 예를 들어, 도 12의 변환을 사용하여 스테레오 이벤트 각도(φ)를 서라운드 공간에서의 대응하는 청각 이벤트 각도(α)로 맵핑한다(단계 1606).

도 10의 합성기(1012)는 송신되는 스테레오 채널들로부터 5개의 업믹싱된 채널들을 생성한다(단계 1608). 도 4의 업믹서(404)와 유사한, 합성기(1012)의 업믹서에 의해 적용되는 업믹싱 매트릭스는 도 10의 다운믹서(1006)에 의해 적용되는 다운믹싱 매트릭스에 따를 것이다. 예를 들어, 식(19)의 다운믹싱 동작에 대응하는 업믹싱 동작은 다음과 같이 식(22)에 의해 제공되며,

여기서, 좌측 스테레오 채널은 좌측 및 좌측 후방 서라운드 채널들 둘 모두로 복제되고, 우측 스테레오 채널은 우측 및 우측 후방 서라운드 채널들 둘 모두로 복제되며, 좌측 및 우측 스테레오 채널들은 중심 서라운드 채널에 대해 평균화된다. 유사하게, 식(21)의 다운믹싱 동작에 대응하는 업믹싱 동작이 다음과 같이 식(23)에 의해 제공되며,

여기서, 식(22)에서와 같이, 좌측 스테레오 채널은 좌측 서라운드 채널로 복제되고, 우측 스테레오 채널은 우측 서라운드 채널로 복제되며, 좌측 및 우측 스테레오 채널들은 중심 서라운드 채널에 대해 평균화된다. 그러나, 이 경우에, 좌측 및 우측 스테레오 채널은 좌측 후방 및 우측 후방 서라운드 채널들에 대한 베이스 채널들을 형성하기 위하여 역 메트릭싱을 사용하여 혼합된다.

단계(1610)에서, 합성기(1012)는 단계(1602)에서 추정된 ICLD 및 ICC 큐들에 기초하여 업믹싱된 채널들을 스케일링한다. 특히, 합성기(1012)는 (ICTD 값들을 또한 사용하는 대안적인 구현예들에서, (d_i(k)) 값들 중 적어도 일부는 제로가 아닐지 라도) 모든 ICTD 값들(d_i(k))을 0으로 설정한 채로, 추정된 ICLD 및 ICC 값들을 적용하여, 도 4에 도시된 BCC 합성 처리와 유사한 방식으로 합성된 5-채널 서라운드 신호를 생성한다. 예를 들어, 하나의 가능한 구현예에서, 이 스케일링은 다음과 같이 구현된다.

(1) 서라운드 이벤트 각도(α)를 즉시 서라운딩하는 확성기 쌍(m, n)을 선택하라.

(2) 다음과 같이 식(23)에 따라 확성기들(m 및 n)에 제공되는 직접적인 (즉, 상관된) 사운드의 거듭제곱의 비를 계산하기 위하여 식(17)에 의해 제공된 것과 같은 패닝 법칙을 적용하라.

여기서 P_m은 확성기(m)에 제공된 직접적인 사운드의 거듭제곱이고, P_n은 확성기(n)에 제공된 직접적인 사운드의 거듭제곱이다.

(3) 송신되는 스테레오 신호로부터 추정된 ICC 큐(c₁₂(k))에 기초하여, 모든 확성기들에 거듭제곱(P_α)의 상관해제된(예를 들어, 늦은 잔향) 사운드를 인가하는데, 여기서, 상관해제된 신호 거듭제곱(P_α)은 다음과 같이 식(24)에 따른 ICC와 관련되며,

여기서, C는 사운드 신호에서의 채널들의 수이다.

도 4의 블록(410)과 유사한 합성기(1012)의 상관해제 블록은 식(23) 및 식(24)를 사용하여 계산되는 직접적이고 상관해제된 사운드의 량들을 거의 포함하는 출력 채널 서브대역들을 생성한다.

송신된 스테레오 신호가 식(21)에 따라 생성되었다면, 다음의 고려사항들이 적용될 수 있다.

o

인 경우, 아마도, (다운믹싱 매트릭스의 선택에 기인한) 좌측 후방 및/또는 우측 후방 서라운드 채널들에서의 비교적 큰 거듭제곱 레벨들로 인하여 이-위상 성분들의 존재한다.

o

이고 ICLD>0인 경우, BCC 서브대역은 우측 후방 서라운드 채널에 속하며, 에너지의 대부분은 우측 후방 확성기로 렌더링되어야 한다.

o

이고 ICLD<0인 경우, BCC 서브대역은 좌측 후방 서라운드 채널에 속하며, 에너지의 대부분은 좌측 후방 확성기로 렌더링되어야 한다.

부가적인 대안 실시예들

본 발명이 BCC 큐들이 임의의 서브대역들에 대해 송신되는 구현예들의 상황에서 설명되었을지라도, 대안적인 구현예들에서, 큐들은 일부 서브대역들에 대해서는 송신될 수 있는 반면, 다른 서브대역들은 송신된 큐를 갖지 않는다. 이러한 구현예들에서, 디코더는 큐들 없이 송신되는 서브대역들 중 하나 이상으로부터 큐들 을 도출할 것이다.

상술된 바와 같이, 본 발명이 5-대-2 BCC 방식의 상황에서 설명되었을지라도, 일반적으로, 본 발명은 상술된 5-대-2 BCC 방식에서와 동일한 원리들을 적용함으로써 임의의 C-대-E BCC 방식에 대해서 구현될 수 있으며, 여기서 C>E>1이다. 본 발명의 어떤 실시예들에 따른 BCC 방식은 BCC와 같은 합성을 사용하여 다-채널 신호를 생성하기 위해 다-채널 큐들을 계산할 시에 사용하기 위한 송신된 채널들 사이의 채널간 큐들의 추정을 포함한다. 상술된 예들에서, 추정된 큐들이 송신되는 채널들로부터 디코더에서 도출될지라도, 이론적으로, 추정된 큐들 또는 다-채널 큐들조차도 인코더 또는 디코더 상부의 다른 프로세서에서 생성되고 나서, 합성된 다-채널 신호를 생성하는데 사용하기 위하여 디코더로 송신될 수 있다.

본 발명이 ICTD, ICLD, 및/또는 ICC를 포함한 BCC 코딩 방식들의 상황에서 설명되었을지라도, 본 발명은 또한 하나 이상의 부가적인거나 대안적인 유형의 코드들을 포함하는 다른 BCC 코딩 방식들의 상황에서 구현될 수 있다.

본 발명이 BCC 코딩 방식의 상황에서 설명되었을지라도, 본 발명은 또한 오디오 신호들이 상관해제되는 다른 오디오 처리 시스템들 또는 신호들을 상관해제시킬 필요가 있는 다른 오디오 처리의 상황에서 구현될 수 있다.

본 발명이 인코더가 시간 영역에서 입력 오디오 신호를 수신하고 시간 영역에서 송신되는 오디오 신호들을 생성하며 디코더가 시간 영역에서 송신된 오디오 신호들을 수신하고 시간 영역에서 재생 오디오 신호들을 생성하는 구현예들의 상황에서 설명되었을지라도, 본 발명은 이에 국한되지 않는다. 예를 들어, 다른 구현예 들에서, 송신되는 입력, 및 재생 오디오 신호들 중 어느 하나 또는 그 이상은 주파수 영역에서 표현될 수 있다.

BCC 인코더들 및/또는 디코더들은 텔레비전 또는 전자 음악 배포, 영화관들, 방송, 스트리밍, 및/또는 수신을 위한 시스템들을 포함하는 다양한 애플리케이션들 또는 시스템들과 함께 사용되거나 상기 다양한 애플리케이션들 또는 시스템들 내로 통합될 수 있다. 이들은 예를 들어, 지상, 위성, 케이블, 인터넷, 인트라넷, 또는 물리적 매체(예를 들어, 콤팩트 디스크들, 디지털 다기능 디스크들, 반도체 칩들, 하드 드라이브들, 메모리 카드들 등)를 통한 인코딩/디코딩 송신용 시스템들을 포함한다. BCC 인코더들 및/또는 디코더들은 또한 예를 들어, 다수의 기계들, 플랫폼들, 또는 매체에 대해 발행될 수 있는 교육 및/또는 엔터테인먼트(동작, 롤 플레이, 전략, 모험, 시뮬레이션들, 레이싱, 스포츠, 아케이드, 카드, 및 보드 게임들)용으로 사용자와 대화하도록 의도된 대화식 소프트웨어 제품들을 포함하는 게임들 및 게임 시스템들에서 사용될 수 있다. 또한, BCC 인코더들 및/또는 디코더들은 오디오 레코더들/플레이어들 또는 CD-ROM/DVD 시스템들에 통합될 수 있다. BCC 인코더들 및/또는 디코더들은 또한 디지털 디코딩(예를 들어, 플레이어, 디코더)을 통합하는 PC 소프트웨어 애플리케이션 및 디지털 인코딩 케이퍼빌리티들(예를 들어, 인코더, 립퍼(ripper), 레코더, 또는 주크박스)을 통합하는 소프트웨어 애플리케이션들 내로 통합될 수 있다.

본 발명은 (ASIC 또는 FPGA와 같은) 단일 집적 회로, 다중-칩 모듈, 단일 카드, 다중-카드 회로 팩으로서의 가능한 구현예를 포함하는 회로-기반 처리들로서 구현될 수 있다. 당업자들에게 명백한 바와 같이, 회로 소자들의 다양한 기능들은 또한 소프트웨어 프로그램에서의 처리 단계들로서 구현될 수 있다. 이와 같은 소프트웨어는 예를 들어, 디지털 신호 프로세서, 마이크로-제어기, 또는 범용 컴퓨터에서 사용될 수 있다.

본 발명은 방법들 및 이들 방법들을 실행하는 장치들의 형태로 구현될 수 있다. 본 발명은 또한 플로피 디스켓들, CD-ROM들, 하드 드라이브들, 또는 임의의 다른 기계-판독 가능 저장 매체와 같은 유형 매체에서 구현되는 프로그램 코드의 형태로 구현될 수 있고, 상기 프로그램 코드가 컴퓨터와 같은 기계 내로 로딩되어 상기 기계에 의해 실행될 때, 상기 기계는 본 발명을 실행하는 장치가 된다. 본 발명은 또한 예를 들어, 저장 매체에 저장되든지, 기계 내로 로딩되어 상기 기계에 의해 실행되든지, 또는 전기 와이어링 또는 케이블링, 광섬유들, 또는 전자기 방사와 같은 어떤 송신 매체 또는 캐리어를 통하여 송신되든지 간에, 프로그램 코드의 형태로 구현될 수 있고, 상기 프로그램 코드가 컴퓨터와 같은 기계 내로 로딩되어 상기 기계에 의해 실행될 때, 상기 기계는 본 발명을 실행하는 장치가 된다. 범용 프로세서 상에서 구현될 때, 프로그램 코드 세그먼트들은 특정 논리 회로들과 유사하게 동작하는 특정한 디바이스를 제공하기 위하여 프로세서와 결합한다.

본 발명은 또한 상기 본 발명의 방법 및/또는 장치를 사용하여 생성되는 자기 기록 매체 등에 저장된 자기-필드 변화들을 매체를 통해 전기적으로 또는 선택적으로 송신되는 신호 값들의 비트스트림 또는 다른 시퀀스의 형태로 구현할 수 있다.

본 발명의 특성을 설명하기 위하여 서술되고 설명되는 부분들의 세부사항들, 재료들, 및 배열들의 다양한 변경들이 다음의 청구항들에 표현된 바와 같은 본 발명의 범위를 벗어남이 없이 당업자에 의해 행해질 수 있다는 것이 또한 이해될 것이다.

다음의 청구항들에서의 단계들이 만약 있다면, 대응하는 라벨링을 갖는 특정 시퀀스에서 열거될지라도, 청구항 열거들이 이들 단계들 중 일부 또는 모두를 구현하기 위한 특정 시퀀스를 나타내지 않는 경우, 이들 단계들은 반드시 그 특정 시퀀스로 구현되는 것으로 국한되도록 의도되는 것은 아니다.

Claims

E개의 송신되는 오디오 채널들로부터 C개의 재생 오디오 채널들을 합성하는 방법으로서, C>E>1인, 상기 합성 방법에 있어서,

상기 E개의 송신되는 채널들로부터 하나 이상의 큐들을 도출하는 단계;

상기 E개의 송신되는 채널들 중 하나 이상을 업믹싱하여 하나 이상의 업믹싱된 채널들을 생성하는 단계; 및

상기 하나 이상의 도출된 큐들에 기초하여 상기 하나 이상의 업믹싱된 채널들로부터 상기 C개의 재생 채널들 중 하나 이상을 합성하는 단계를 포함하는, 합성 방법.
제 1 항에 있어서, 상기 방법은 상이한 서브대역들에 대해 독립적으로 구현되는, 합성 방법.
제 1 항에 있어서,

송신되는-채널 영역에서의 상기 하나 이상의 도출된 큐들은 재생-채널 영역에서의 하나 이상의 맵핑된 큐들로 맵핑되며,

상기 하나 이상의 재생 채널들은 상기 하나 이상의 맵핑된 큐들을 상기 하나 이상의 업믹싱된 채널들에 인가함으로써 합성되는, 합성 방법.
제 1 항에 있어서, 상기 하나 이상의 도출된 큐들은 ICLD 큐를 포함하는, 합성 방법.
제 4 항에 있어서, 상기 하나 이상의 도출된 큐들은 ICC 큐를 더 포함하는, 합성 방법.
제 1 항에 있어서, 상기 도출 단계는 큐를 도출하기 위하여 한 쌍의 송신되는 채널들에 패닝 법칙(panning law)을 적용하는 단계를 포함하는, 합성 방법.
제 1 항에 있어서,

송신되는-채널 영역에서의 청각 이벤트에 대응하는 정보를 결정하기 위하여 패닝 법칙을 적용하는 단계;

상기 송신되는-채널 영역에서의 청각 이벤트에 대응하는 정보를 재생-채널 영역에서의 청각 이벤트에 대응하는 정보로 맵핑하는 단계;

적어도 2개의 재생 채널들에 대한 상대적인 거듭제곱 레벨들을 결정하기 위하여 상기 재생-채널 영역에 패닝 법칙을 적용하는 단계; 및

상기 결정된 상대적인 거듭제곱 레벨들에 기초하여 적어도 2개의 재생 채널들을 스케일링하는 단계를 포함하는, 합성 방법.
제 7 항에 있어서,

상기 송신되는 채널로부터 ICC 큐를 추정하는 단계; 및

상기 ICC 큐에 기초하여 하나 이상의 재생 채널들에 대한 상관해제 거듭제곱 레벨을 생성하는 단계를 더 포함하는, 합성 방법.
제 1 항에 있어서,

상기 E개의 송신되는 채널들은 C개의 입력 오디오 채널들에 다운믹싱 동작을 적용함으로써 생성되고,

상기 업믹싱 단계는 E개의 송신되는 채널들에 업믹싱 동작을 적용하여 C개의 업믹싱된 채널들을 생성하는 단계를 포함하며,

상기 업믹싱 동작은 다운믹싱 동작에 기초하여 선택되는, 합성 방법.
제 9 항에 있어서, 상기 업믹싱 동작 중 적어도 일부는 매트릭싱에 기초하는, 합성 방법.
제 9 항에 있어서, 상기 업믹싱 동작은 하나 이상의 비-중심(non-center) 업믹싱된 채널들을 생성하기 위하여 적어도 한 쌍의 송신되는 채널들 사이의 크로스토크(crosstalk)를 포함하는, 합성 방법.
E개의 송신되는 오디오 채널들로부터 C개의 재생 오디오 채널들을 합성하는 장치로서, C>E>1인, 상기 합성 장치에 있어서,

상기 E개의 송신되는 채널들로부터 하나 이상의 큐들을 도출하는 수단; 및

상기 E개의 송신되는 채널들 중 하나 이상을 업믹싱하여 하나 이상의 업믹싱된 채널들을 생성하는 수단; 및

상기 하나 이상의 도출된 큐들에 기초하여 상기 하나 이상의 업믹싱된 채널들로부터 상기 C개의 재생 채널들 중 하나 이상을 합성하는 수단을 포함하는, 합성 장치.
E개의 송신되는 오디오 채널들로부터 C개의 재생 오디오 채널들을 합성하는 장치로서, C>E>1인, 상기 합성 장치에 있어서,

상기 E개의 송신되는 채널들로부터 하나 이상의 큐들을 도출하도록 적응된 큐 추정기; 및

상기 E개의 송신되는 채널들 중 하나 이상을 업믹싱하여 하나 이상의 업믹싱된 채널들을 생성하고,

상기 하나 이상의 도출된 큐들에 기초하여 상기 하나 이상의 업믹싱된 채널들로부터 상기 C개의 재생 채널들 중 하나 이상을 합성하도록 적응된 합성기를 포함하는, 합성 장치.
제 13 항에 있어서,

송신되는-채널 영역에서의 상기 하나 이상의 도출된 큐들을 재생-채널 영역에서의 하나 이상의 맵핑된 큐들로 맵핑하도록 적응된 큐 맵퍼를 더 포함하며,

상기 합성기는 상기 하나 이상의 맵핑된 큐들을 상기 하나 이상의 업믹싱된 채널들에 인가함으로써 상기 하나 이상의 재생 채널들을 합성하도록 적응된, 합성 장치.
제 13 항에 있어서,

큐 맵퍼를 더 포함하며,

상기 큐 추정기는 송신되는 채널-영역에서의 청각 이벤트 방향에 대응하는 정보를 결정하기 위하여 패닝 법칙을 적용하도록 적응되고,

상기 큐 맵퍼는 상기 송신되는-채널 영역에서의 청각 이벤트 방향에 대응하는 정보를 재생-채널 영역에서의 청각 이벤트 방향에 대응하는 정보로 맵핑하도록 적응되며,

상기 합성기는:

상기 재생 채널들의 쌍에 대한 상대적인 거듭제곱 레벨들을 결정하기 위하여 상기 재생 채널들의 쌍에 상기 재생-채널 영역에서의 패닝 법칙을 적용하고,

상기 결정된 상대적인 거듭제곱 레벨들에 기초하여 상기 재생 채널들의 쌍을 스케일링하도록 적응되는, 합성 장치.
제 15 항에 있어서,

상기 큐 추정기는 상기 송신되는 채널들로부터 ICC 큐를 추정하도록 더 적응 되며,

상기 합성기는 상기 ICC 큐에 기초하여 각각의 재생 채널에 대한 상관해제된 거듭제곱 레벨을 생성하도록 더 적응되는, 합성 장치.
제 13 항에 있어서,

상기 E개의 송신되는 채널들은 C개의 입력 오디오 채널들에 다운믹싱 동작을 적용함으로써 생성되고,

상기 합성기는 E개의 송신된 채널들에 업믹싱 동작을 적용하여 C개의 업믹싱된 채널들을 생성하도록 적응되며,

상기 업믹싱 동작은 상기 다운믹싱 동작에 기초하여 선택되는, 합성 장치.
인코딩된 프로그램 코드를 갖는 기계-판독 가능 매체로서, 상기 프로그램 코드가 기계에 의해 실행될 때, 상기 기계가 E개의 송신되는 오디오 채널들로부터 C개의 재생 오디오 채널들을 합성하는 방법을 구현하며, C>E>1인, 상기 기계-판독 가능 매체에 있어서,

상기 방법은:

상기 E개의 송신되는 채널들로부터 하나 이상의 큐들을 도출하는 단계;

상기 E개의 송신되는 채널들 중 하나 이상을 업믹싱하여 하나 이상의 업믹싱된 채널들을 생성하는 단계; 및

상기 하나 이상의 도출된 큐들에 기초하여 상기 하나 이상의 업믹싱된 채널 들로부터 상기 C개의 재생 채널들 중 하나 이상을 합성하는 단계를 포함하는, 기계-판독 가능 매체.
C개의 입력 오디오 채널들로부터 E개의 송신되는 오디오 채널들을 생성하는 방법으로서, C>E>1인, 상기 생성 방법에 있어서,

입력-채널 영역으로부터 송신되는-채널 영역으로의 맵핑에 기초하여 다운믹싱 알고리즘을 생성하기 위해 패닝 법칙을 적용하는 단계; 및

상기 C개의 입력 채널들에 상기 다운믹싱 알고리즘을 적용하여 상기 E개의 송신되는 채널들을 생성하는 단계를 포함하는, 생성 방법.
제 19 항에 있어서,

상기 맵핑은 상기 입력-채널 영역에서의 각각의 입력 채널의 방향을 상기 송신되는-채널 영역에서의 송신되는 채널들의 하나 이상의 방향들로 맵핑하며,

상기 다운믹싱 알고리즘은 그 계수들이 상기 패닝 법칙에 기초하여 선택되는 고정된 다운믹싱 매트릭스의 적용을 포함하는, 생성 방법.
제 19 항에 있어서, 상기 다운믹싱 알고리즘은 상기 C개의 입력 채널들에서의 청각 이벤트에 대한 방향을 추정하는 것에 기초하여 생성되는, 생성 방법.
제 21 항에 있어서, 상기 청각 이벤트 방향은 독립적으로 추정되며, 상기 다 운믹싱 알고리즘은 상기 입력 채널들에서 다수의 서브대역들 각각에 대해 독립적으로 구현되는, 생성 방법.
제 21 항에 있어서, 상기 청각 이벤트 방향은 상기 입력 채널들에 대한 거듭제곱-가중된 방향 벡터들의 합에 기초하여 추정되는, 생성 방법.
제 21 항에 있어서,

상기 다운믹싱 알고리즘은:

상기 입력-채널 영역에서의 청각 이벤트 방향을 상기 송신되는-채널 영역에서의 청각 이벤트 방향으로 맵핑하는 단계;

상기 C개의 입력 채널들에 다운믹싱 매트릭스를 적용하여 E개의 다운믹싱된 채널들을 생성하는 단계;

적어도 2개의 다운믹싱된 채널들에 대한 상대적인 거듭제곱 레벨들을 결정하기 위하여 상기 송신되는-채널 영역에서 상기 패닝 법칙을 적용하는 단계; 및

상기 결정된 상대적인 거듭제곱 레벨들에 기초하여 적어도 2개의 다운믹싱된 채널들을 스케일링하여 적어도 2개의 송신되는 채널들을 생성하는 단계를 포함하는, 생성 방법.
제 24 항에 있어서, 상기 다운믹싱 알고리즘 중 적어도 일부는 매트릭싱에 기초하는, 생성 방법.
제 24 항에 있어서, 상기 다운믹싱 알고리즘은 적어도 2개의 입력 채널들 사이의 크로스토크를 포함하는, 생성 방법.
제 19 항에 있어서, 사이드 정보로서 임의의 큐들 없이 상기 E개의 송신되는 채널들을 송신하는 단계를 더 포함하는, 생성 방법.
C개의 입력 오디오 채널들로부터 E개의 송신되는 오디오 채널들을 생성하는 장치로서, C>E>1인, 상기 생성 장치에 있어서,

입력-채널 영역으로부터 송신되는-채널 영역으로의 맵핑에 기초하여 다운믹싱 알고리즘을 생성하기 위하여 패닝 법칙을 적용하는 수단; 및

상기 C개의 입력 채널들에 상기 다운믹싱 알고리즘을 적용하여 상기 E개의 송신되는 채널들을 생성하는 수단을 포함하는, 생성 장치.
인코딩된 프로그램 코드를 갖는 기계-판독 가능 매체로서, 상기 프로그램 코드가 기계에 의해 실행될 때, 상기 기계가 C개의 입력 오디오 채널들로부터 E개의 송신되는 오디오 채널들을 생성하는 방법을 구현하며, C>E>1인, 상기 기계-판독 가능 매체에 있어서,

상기 방법은:

입력-채널 영역으로부터 송신되는-채널 영역으로의 맵핑에 기초하여 다운믹 싱 알고리즘을 생성하기 위하여 패닝 법칙을 적용하는 단계; 및

상기 C개의 입력 채널들에 상기 다운믹싱 알고리즘을 적용하여 상기 E개의 송신되는 채널들을 생성하는 단계를 포함하는, 기계-판독 가능 매체.
C개의 입력 오디오 채널들로부터 생성되는 E개의 송신되는 오디오 채널들을 포함하는 비트스트림으로서, C>E>1인, 상기 비트스트림에 있어서,

입력-채널 영역으로부터 송신되는-채널 영역으로의 맵핑에 기초하여 다운믹싱 알고리즘을 생성하기 위하여 패닝 법칙을 적용하고,

상기 C개의 입력 채널들에 상기 다운믹싱 알고리즘을 적용하여 상기 E개의 송신되는 채널들을 생성하는, 비트스트림.