KR101215868B1

KR101215868B1 - 오디오 채널들을 인코딩 및 디코딩하는 방법, 및 오디오 채널들을 인코딩 및 디코딩하는 장치

Info

Publication number: KR101215868B1
Application number: KR1020077015056A
Authority: KR
Inventors: 크리스토프 폴러
Original assignee: 에이저 시스템즈 엘엘시
Priority date: 2004-11-30
Filing date: 2005-11-22
Publication date: 2012-12-31
Also published as: US20080130904A1; JP5106115B2; TWI427621B; KR20070086851A; JP2008522244A; EP1817767B1; TW200636677A; US8340306B2; EP1817767A1; WO2006060279A1

Abstract

하나 이상의 오브젝트-기반 큐 코드들을 포함하는 바이노럴 큐 코딩이 게시되어 있고, 오브젝트-기반 큐 코드는 오디오 채널들에 대응하는 청각 장면의 특성을 직접적으로 나타내고, 상기 특성은 청각 장면을 생성하는데 사용되는 확성기들의 수 및 위치들에 독립적이다. 오브젝트-기반 코드들의 예들로는 청각 이벤트의 각도, 청각 이벤트의 폭, 청각 장면의 포위도, 및 청각 장면의 방향성이 있다.

큐 코드, 오디오 채널, 청각 장면, 확성기, 청각 이벤트

Description

오디오 채널들을 인코딩 및 디코딩하는 방법, 및 오디오 채널들을 인코딩 및 디코딩하는 장치{A method for encoding and decoding audio channels, and an apparatus for encoding and decoding audio channels}

관련 출원들과의 상호-참조

본 출원은 본원에 참조되어 있는 대리인 문서 번호 Faller 19로서 2004년 11월 30일자로 출원된 미국 가출원 번호 제60/631,798호의 출원일의 권익을 청구한다.

본 출원의 주제는 그 내용이 본원에 참조되어 있는 다음 미국 출원의 주제와 관련된다.

o 대리인 문서 번호 Faller 5로서 2001년 5월 4일자로 출원된 미국 출원 일련 번호 제09/848,877호;

o 2001년 8월 10일자로 출원된 미국 가출원 번호 60/311,565의 출원일의 권익을 청구한 대리인 문서 번호 Baumgarte 1-6-8로서 2001년 11월 7일자로 출원된 미국 출원 일련 번호 제10/045,458호;

o 대리인 문서 번호 Baumgarte 2-10으로서 2002년 5월 24일자로 출원된 미국 출원 일련 번호 제10/155,437호;

o 대리인 문서 번호 Baumgarte 3-11로서 2002년 9월 18일자로 출원된 미국 출원 일련 번호 제10/246,570호;

o 대리인 문서 번호 Baumgarte 7-12로서 2004년 4월 1일자로 출원된 미국 출원 일련 번호 제10/815,591호;

o 대리인 문서 번호 Baumgarte 8-7-15로서 2004년 9월 8일자로 출원된 미국 출원 일련 번호 제10/936,464호;

o 2004년 1월 20일자로 출원된 미국 출원 일련 번호 제10/762,100호(Faller 13-1);

o 대리인 문서 번호 Allamanche 1-2-17-3으로서 2004년 12월 7일자로 출원된 미국 출원 일련 번호 제11/006,492호;

o 대리인 문서 번호 Allamanche 2-3-18-4로서 2004년 12월 7일자로 출원된 미국 출원 일련 번호 제11/006,482호;

o 대리인 문서 번호 Faller 22-5로서 2005년 1월 10일자로 출원된 미국 출원 일련 번호 제11/032,689호; 및

o 2004년 11월 30일자로 출원된 미국 가출원 번호 제60/631,917호의 출원일의 권익을 청구하는 대리인 문서 번호 Faller 20으로서 2005년 2월 15일자로 출원된 미국 출원 일련 번호 제11/058,747호.

본 출원의 주제는 또한 그 내용이 본원에 참조되어 있는 다음 논문에 설명된 주제와 관련된다.

o F. Baumgarte 및 C. Faller의 "Binaural Cue Coding - Part I: Psychoacoustic Fundamentals and design principles, " IEEE trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003;

o C. Faller 및 F. Baumgarte의 "Binaural Cue Coding - Part II: Schemes and applications," IEEE trans. on Speech and Audio Proc., vol. 11, no.6, Nov. 2003; 및

o C. Faller의 "Coding of spatial audio compatible with different playback formats" Preprint 117^th Conv, Aud. Eng. Soc., October 2004.

본 발명은 오디오 신호들의 인코딩 및 인코딩된 오디오 데이터로부터의 청각 장면을 나중에 합성하는 것에 관한 것이다.

사람이 특정 오디오 소스에 의해 생성된 오디오 신호(예를 들어, 사운드들)를 들을 때, 오디오 신호는 전형적으로 2개의 상이한 시간에, 그리고 2개의 상이한 오디오(예를 들어, 데시벨) 레벨들로 사람의 좌측 및 우측 귀들에 도달하는데, 여기서 이러한 상이한 시간 및 레벨들은 오디오 신호가 좌측 및 우측 귀들에 각각 도달하도록 이동하는 경로들의 차이의 함수들이다. 사람의 뇌는 시간 및 레벨에서의 이러한 차이들을 해석하여, 수신된 오디오 신호가 사람에 대하여 특정 위치(예를 들어, 방향 및 거리)에 위치된 오디오 소스에 의해 생성되고 있다는 지각을 사람에게 제공한다. 청각 장면은 사람에 대하여 하나 이상의 상이한 위치들에 위치되는 하나 이상의 상이한 오디오 소스들에 의해 생성되는 오디오 신호들을 동시적으로 청취하는 넷 이펙트(net effect)이다.

뇌에 의한 이 처리의 존재는 청각 장면들을 합성하는데 사용될 수 있고, 여기서 하나 이상의 상이한 오디오 소스들로부터의 오디오 신호들은 상이한 오디오 소스들이 청취자에 대하여 상이한 위치들에 위치된다는 지각을 제공하는 좌측 및 우측 오디오 신호들을 생성하기 위해 의도적으로 변경된다.

도 1은 단일 오디오 소스 신호(예를 들어, 모노 신호)를 바이노럴 신호(binaural signal)의 좌측 및 우측 오디오 신호들로 변환하는 종래의 바이노럴 신호 합성기(100)의 고-레벨 블록도이며, 여기서 바이노럴 신호는 청취자의 고막에서 수신되는 2개의 신호인 것으로 규정된다. 오디오 소스 신호 이외에, 합성기(100)는 청취자에 대한 오디오 소스 신호의 원하는 위치에 대응하는 공간 큐들의 세트를 수신한다. 전형적인 구현예들에서, 공간 큐들의 세트는 (좌측 및 우측 귀들에서 각각 수신된 바와 같은 좌측 및 우측 오디오 신호들 간의 오디오 레벨의 차이를 식별하는) 채널간 레벨 차이(ICLD; inter-channel level difference) 값 및 (좌측 및 우측 귀들에서 각각 수신된 바와 같은 좌측 및 우측 오디오 신호들 사이의 시간의 차이를 식별하는) 채널간 시간 차이(ICTD; inter-channel time difference) 값을 포함한다. 부가적으로, 또는 대안으로서, 일부 합성 기술들은 머리-관련 전달 함수(HRTF; head-related transfer function)라고 또한 칭해지는 신호 소스로부터 고막까지의 사운드에 대한 방향-의존 전달 함수의 모델링을 포함한다. 예를 들어, 그 내용이 본원에 참조되어 있는 J. Blauert의 The Psychophysics of Human Sound Localization, MIT Press, 1983을 참조하라.

도 1의 바이노럴 신호 합성기(100)를 사용하면, 단일 사운드 소스에 의해 생성된 모노 오디오 신호는 헤드폰들을 통하여 청취될 때, 사운드 소스가 각각의 귀 에 대한 오디오 신호를 발생시키기 위하여 공간 큐들의 적절한 세트(ICLD, ICTD, 및/또는 HRTF)를 적용함으로써 공간적으로 위치되도록 처리될 수 있다. 예를 들어, D. R. Begault의 3-D Sound for Virtual Reality and Multimedia, Academic Press, Cambridge, MA. 1994를 참조하라.

도 1의 바이노럴 신호 합성기(100)는 가장 간단한 유형의 청각 장면들을 생성한다; 이들은 청취자에 대하여 위치된 단일 오디오 소스를 갖는다. 청취자에 대하여 상이한 위치에 위치되는 2개 이상의 오디오 소스들을 포함하는 더 복잡한 청각 장면들은 특히 바이노럴 신호 합성기의 다수의 인스턴스(instance)들을 사용하여 구현되는 청각 장면 합성기를 사용하여 생성될 수 있고, 여기서 각각의 바이노럴 신호 합성기 인스턴스는 상이한 오디오 소스에 대응하는 바이노럴 신호를 생성한다. 각각의 상이한 오디오 소스가 청취자에 대한 상이한 위치를 갖기 때문에, 각각의 상이한 오디오 소스에 대한 바이노럴 오디오 신호를 생성하는데 공간 큐들의 상이한 세트가 사용된다.

일 실시예에 따르면, 본 발명은 오디오 채널들을 인코딩하는 방법, 장치, 및 기계-판독 가능 매체이다. 하나 이상의 큐 코드들이 2개 이상의 오디오 채널들에 대해 생성되며, 여기서 상기 적어도 하나의 큐 코드는 오디오 채널들에 대응하는 청각 장면의 특성을 직접적으로 나타내는 오브젝트-기반 큐 코드이며, 상기 특성은 상기 청각 장면을 생성하는데 사용되는 확성기들의 수 및 위치들에 독립적이며, 하나 이상의 큐 코드들이 송신된다.

다른 실시예에 따르면, 본 발명은 C개의 입력 오디오 채널들을 인코딩하는 E개의 송신되는 오디오 채널(들)을 생성하는 장치이다. 상기 장치는 코드 추정기 및 다운믹서를 포함한다. 코드 추정기는 2개 이상의 오디오 채널들에 대한 하나 이상의 큐 코드들을 생성하며, 여기서 적어도 하나의 큐 코드는 오디오 채널들에 대응하는 청각 장면의 특성을 직접적으로 나타내는 오브젝트-기반 큐 코드이며, 여기서 상기 특성은 상기 청각 장면을 생성하는데 사용되는 확성기들의 수 및 위치들에 독립적이다. 다운믹서는 C개의 입력 채널들을 다운믹싱하여 E개의 송신되는 채널(들)을 생성하는데, 여기서 C>E≥1이고, 상기 장치는 상기 큐 코드들에 관한 정보를 송신하여, 디코더가 E개의 송신되는 채널(들)의 디코딩 동안 합성 처리를 수행할 수 있도록 한다.

또 다른 실시예에 따르면, 본 발명은 오디오 채널들을 인코딩함으로써 생성되는 비트스트림이다. 하나 이상의 큐 코드들이 2개 이상의 오디오 채널들에 대해 생성되고, 여기서 적어도 하나의 큐 코드는 오디오 채널들에 대응하는 청각 장면의 특성을 직접적으로 나타내는 오브젝트-기반 큐 코드이며, 상기 특성은 오디오 장면을 생성하는데 사용되는 확성기들의 수 및 위치들에 독립적이다. 2개 이상의 오디오 채널들에 대응하는 E개의 송신되는 오디오 채널(들) 및 하나 이상의 큐 코드들은 인코딩된 오디오 비트스트림으로 인코딩되며, 여기서 E≥1이다.

또 다른 실시예에 따르면, 본 발명은 E개의 송신되는 오디오 채널(들)을 디코딩하여 C개의 재생 오디오 채널들을 생성하는 방법, 장치, 및 기계-판독 가능 매체이며, 여기서, C>E≥1이다. E개의 송신되는 채널(들)에 대응하는 큐 코드가 수신되며, 여기서 적어도 하나의 큐 코드는 오디오 채널들에 대응하는 청각 장면의 특성을 직접적으로 나타내는 오브젝트-기반 큐 코드이며, 상기 특성은 상기 청각 장면을 생성하는데 사용되는 확성기들의 수 및 위치들에 독립적이다. E개의 송신되는 채널(들) 중 하나 이상이 업믹싱되어 하나 이상의 업믹싱된 채널들을 생성한다. 상기 하나 이상의 업믹싱된 채널들에 큐 코드들을 적용함으로써 C개의 재생 채널들 중 하나 이상이 합성된다.

본 발명의 다른 양상들, 특징들, 및 장점들은 다음의 상세한 설명, 첨부된 청구항들, 및 유사하거나 동일한 요소들에는 동일한 참조 번호가 병기되어 있는 첨부 도면들로부터 충분히 분명해질 것이다.

도 1은 종래의 바이노럴 신호 합성기의 고-레벨 블록도.

도 2는 일반적인 바이노럴 큐 코딩(BCC) 오디오 처리 시스템의 블록도.

도 3은 도 2의 다운믹서의 블록도.

도 4는 도 2의 디코터에 사용될 수 있는 BCC 합성기의 블록도.

도 5는 본 발명의 일 실시예에 따른, 도 2의 BCC 추정기의 블록도.

도 6은 5-채널 오디오에 대한 ICTD 및 ICLD의 생성을 도시한 도면.

도 7은 5-채널 오디오에 대한 ICC 데이터의 생성을 도시한 도면.

도 8은 공간 큐들 더하기 소정의 단일 송신되는 합 신호(s(n))를 제공받는 스테레오 또는 다-채널 오디오 신호를 생성하기 위하여 BCC 디코더에서 사용될 수 있는 도 4의 BCC 합성기의 구현예의 블록도.

도 9는 ICTD 및 ILCD가 주파수의 함수로서 서브대역 내에서 변화되는 방법을 도시한 도면.

도 10(a)는 어떤 각도에서 (어두운 원으로 나타낸) 단일의 비교적 집중된 청각 이벤트를 지각하는 청취자를 도시한 도면.

도 10(b)는 (어두운 타원으로 나타낸) 단일의 더 흩어진 청각 이벤트를 지각하는 청취자를 도시한 도면.

도 11(a)는 독립적인 오디오 신호들이 청취자 주의의 모든 확성기들에 인가되어, 청취자는 사운드 필드에 "포위되는(enveloped)" 것을 느끼는, 청취자 포위감(listener envelopment)이라고 종종 칭해지는 다른 종류의 지각을 도시한 도면.

도 11(b)는 어떤 각도에서 어떤 폭의 청각 이벤트를 지각하면서 사운드 필드에서 포위되는 청취자를 도시한 도면.

도 12(a) 내지 (c)는 여러 청각 장면들 및 이들의 관련된 오브젝트-기반 BCC 큐들의 값들을 도시한 도면.

도 13은 도 10 내지 도 12의 5개의 확성기의 방위들을 도식적으로 나타내는 도면.

도 14는 진폭 패닝에 대한 각도들 및 스케일 팩터들을 도시한 도면.

도 15는 스테레오의 사인 법칙에 따라, ICLD와 스테레오 이벤트 각도 사이의 관계를 도식적으로 나타내는 도면.

바이노럴 큐 코딩(BCC; binaural cue coding)에서, 인코더는 E개의 송신되는 오디오 채널들을 생성하기 위하여 C개의 오디오 채널들을 인코딩하며, 여기서 C>E≥1이다. 특히, C개의 입력 채널들 중 2개 이상은 주파수 영역에서 제공되고, 주파수 영역의 2개 이상의 입력 채널들에서의 하나 이상의 상이한 주파수 대역들 각각에 대해 하나 이상의 큐 코드들이 생성된다. 게다가, C개의 입력 채널들은 다운믹싱되어, E개의 송신되는 채널들을 생성한다. 일부 다운믹싱 구현예들에서, E개의 송신되는 채널들 중 하나 이상은 C개의 입력 채널들 중 2개 이상에 기초하며, E개의 송신되는 채널들 중 적어도 하나는 C개의 입력 채널들 중 단지 하나에 기초한다.

일 실시예에서, BCC 코더는 2개 이상의 필터 뱅크들, 코드 추정기, 및 다운믹서를 갖는다. 2개 이상의 필터 뱅크들은 C개의 입력 채널들 중 2개 이상을 시간 영역으로부터 주파수 영역으로 변환한다. 코드 추정기는 2개 이상의 변환된 입력 채널들에서의 하나 이상의 상이한 주파수 대역들 각각에 대한 하나 이상의 큐 코드들을 생성한다. 다운믹서는 C개의 입력 채널들을 다운믹싱하여, E개의 송신되는 채널들을 발생시키며, 여기서 C>E≥1이다.

BCC 디코딩에서, E개의 송신되는 오디오 채널들이 디코딩되어 C개의 재생 (즉, 합성된) 오디오 채널들을 생성한다. 특히, 하나 이상의 상이한 주파수 대역들 각각에 대하여, E개의 송신되는 채널들 중 하나 이상이 주파수 영역에서 업믹싱되어, 주파수 영역에서 C개의 재생 채널 중 2개 이상을 생성하며, 여기서 C>E≥1이다. 하나 이상의 큐 코드들이 주파수 영역에서 2개 이상의 재생 채널들에서의 하나 이상의 상이한 주파수 대역들 각각에 적용되어, 2개 이상의 변경된 채널들을 생성하고, 상기 2개 이상의 변경된 채널들은 주파수 영역으로부터 시간 영역으로 변환된다. 일부 업믹싱 구현예들에서, C개의 재생 채널들 중 적어도 하나는 E개의 송신되는 채널 중 적어도 하나 및 적어도 하나의 큐 코드에 기초하여, C개의 재생 채널들 중 적어도 하나는 E개의 송신되는 채널들 중 단지 하나의 채널에 기초하며, 임의의 큐 코드들과 독립적이다.

일 실시예에서, BCC 디코더는 업믹서, 합성기, 및 하나 이상의 역 필터 뱅크들을 갖는다. 하나 이상의 상이한 주파수 대역들 각각에 대하여, 업믹서는 주파수 영역에서 E개의 송신되는 채널을 업믹싱하여 주파수 영역에서 C개의 재생 채널들 중 2개 이상을 생성하며, 여기서 C>E≥1이다. 합성기는 주파수 영역에서 2개 이상의 재생 채널들에서의 하나 이상의 상이한 주파수 대역들 각각에 하나 이상의 큐 코드들을 적용하여, 2개 이상의 변경된 채널들을 생성한다. 하나 이상의 역 필터 뱅크들은 2개 이상의 변경된 채널들을 주파수 영역으로부터 시간 영역으로 변환한다.

특정 구현예에 따르면, 소정의 재생 채널은 2개 이상의 송신되는 채널의 조합보다는 오히려, 단일의 송신되는 채널에 기초할 수 있다. 예를 들어, 단지 하나의 송신되는 채널만이 존재할 때, C개의 재생 채널 각각은 상기 하나의 송신되는 채널에 기초한다. 이러한 상황들에서, 업믹싱은 대응하는 송신되는 채널의 복제에 대응한다. 이와 같이, 단지 하나의 송신되는 채널만이 존재하는 애플리케이션들의 경우에, 업믹서는 각각의 재생 채널에 대해 송신되는 채널을 복제하는 리플리케이터(replicator)를 사용하여 구현될 수 있다.

BCC 인코더들 및/또는 디코더들은 예를 들어, 디지털 비디오 레코더들/플레 이어들, 디지털 오디오 레코더들/플레이어들, 컴퓨터들, 위성 송신기들/수신기들, 케이블 송신기들/수신기들, 지상 방송 송신기들/수신기들, 가정용 엔터테인먼트 시스템, 및 영화관 시스템들을 포함하는 다수의 시스템들 또는 애플리케이션에 통합될 수 있다.

일반적인 BCC 처리

도 2는 인코더(202) 및 디코더(204)를 포함하는 일반적인 바이노럴 큐 코딩(BCC) 오디오 처리 시스템(200)의 블록도이다. 인코더(202)는 다운믹서(206) 및 BCC 추정기(208)를 포함한다.

다운믹서(206)는 입력 오디오 채널들 x_i(n)을 E개의 송신되는 오디오 채널들 y_i(n)으로 변환하고, 여기서 C>E≥1이다. 본 명세서에서, 변수 n을 사용하여 표현되는 신호들은 시간-영역 신호들인 반면, 변수 k를 사용하여 표현되는 신호들은 주파수-영역 신호들이다. 특정 구현예에 따르면, 다운믹싱은 시간 영역 도는 주파수 영역 중 하나에서 구현될 수 있다. BCC 추정기(208)는 C개의 입력 오디오 채널들로부터 BCC 코드들을 생성하고 이러한 VCC 코드들을 E개의 송신되는 오디오 채널들에 대한 대역내(in-band) 또는 대역외(out-of-band) 사이드 정보 중 하나로서 송신한다. 전형적인 BCC 코드들은 주파수 및 시간의 함수로서 입력 채널들의 어떤 쌍들 사이에서 추정되는 채널간 시간 차이(ICTD), 채널간 레벨 차이(ICLD), 및 채널간 상관(ICC; inter-channel correlation) 데이터를 포함한다. 특정 구현예는 입력 채널들의 어떤 특정 쌍들 사이에서 BCC 코드들이 추정되는지를 설명한다.

ICC 데이터는 오디오 신호의 감지된 폭과 관련되는 바이노럴 신호의 코히어런스(coherence)에 대응한다. 오디오 소스가 넓어지면 넓어질수록, 결과적인 바이노럴 신호의 좌측 및 우측 채널들 사이의 코히어런스는 더 낮아진다. 예를 들어, 방청석 스테이지(auditorium stage)를 통하여 확산되는 오케스트라에 대응하는 바이노럴 신호의 코히어런스는 전형적으로 단일 바이올린 독주에 대응하는 바이노럴 신호의 코히어런스보다 더 낮다. 일반적으로, 더 낮은 코히어런스를 갖는 오디오 신호는 통상적으로 청각 공간에서 더 많이 확산되는 것으로 인식된다. 이와 같이, ICC 데이터는 전형적으로 청취자 환경의 정도 및 분명한 소스 폭과 관련된다. 예를 들어, J. Blauert의 "The Psychophysics of Human Sound Localization, MIT Press, 1983을 참조하라.

특정 애플리케이션에 따르면, E개의 송신되는 오디오 채널 및 대응하는 BCC 코드들은 디코더(204)로 직접 송신되거나, 디코더(204)에 의한 나중의 액세스를 위해 어떤 적절한 유형의 저장 장치에 저장될 수 있다. 상황에 따라서, 용어 "송신하는"은 디코더로의 직접적인 송신 또는 나중에 디코더에 제공하기 위한 저장 중 하나와 관련될 수 있다. 어느 경우든, 디코더(204)는 송신되는 오디오 채널들 및 사이드 정보를 수신하고 BCC 코드들을 사용하여 업믹싱 및 BCC 합성을 수행하여, E개의 송신되는 오디오 채널들을 오디오 재생을 위한 E개 이상(전형적으로 C개 이지만, 반드시 그렇지는 않음)의 재생 오디오 채널들(

)로 변환한다. 특정 구현예 에 따르면, 업믹싱은 시간 영역 또는 주파수 영역 중 하나에서 수행될 수 있다.

도 2에 도시된 BCC 처리 이외에, 일반적인 BCC 오디오 처리 시스템은 각각, 인코더에서 오디오 신호들을 더 압축하고 나서, 디코더에서 상기 오디오 신호들을 압축해제하기 위하여 부가적인 인코딩 및 디코딩 단들을 포함할 수 있다. 이들 오디오 코덱들은 펄스 코드 변조(PCM; pulse code modulation), 차분 PCM(DPCM; differential PCM), 또는 적응형 DPCM(ADPCM; adaptive DPCM)에 기초한 것과 같은 종래의 오디오 압축/압축해제 기술들에 기초할 수 있다.

다운믹서(206)가 단일 합 신호(즉, E=1)를 생성할 때, BCC 코딩은 모노 오디오 신호를 표현하기 위해 필요로 되는 것보다 단지 조금 더 높은 비트레이트로 다-채널 오디오 신호를 표현할 수 있다. 이것은 채널 쌍 사이의 추정된 ICTD, ICLD, 및 ICC 데이터가 오디오 파형보다 더 적은 대략 2차의 크기 정보를 포함하기 때문에 그러하다.

BCC 코딩의 낮은 비트레이트뿐만 아니라, 이의 역방향 호환성 양상이 중요하다. 단일의 송신되는 합 신호는 원래 스테레오 또는 다-채널 신호의 모노 다운믹스에 대응한다. 스테레오 또는 다-채널 사운드 재생을 지원하지 않는 수신기들의 경우에, 송신되는 합 신호를 청취하는 것이 저-프로파일 모노 재생 장비 상에 오디오 자료를 제공하는 유효한 방법이다. 따라서, 다-채널 오디오 쪽으로의 모노 오디오 자료의 전달과 관련된 기존 서비스들을 강화하기 위하여 BCC 코딩이 사용될 수 있다. 예를 들어, 기존 모노 오디오 무선 브로드캐스팅 시스템은 BCC 사이드 정보가 기존의 송신 채널 내로 내장될 수 있는 경우에, 스테레오 또는 다-채널 재생을 위해 강화될 수 있다. 다-채널 오디오를 스테레오 오디오에 대응하는 2개의 합 신호 들로 다운믹싱할 때 유사한 케이퍼빌리티(capability)들이 존재한다.

BCC는 일정한 시간 및 주파수 레졸루션(resolution)으로 오디오 신호들을 처리한다. 사용되는 주파수 레졸루션은 주로 인간의 청각 시스템의 주파수 레졸루션에 의해 모티베이트(motivate)된다. 음향심리학은 공간 지각이 주로 음향 입력 신호의 임계 대역 표현에 기초하는 것을 제안한다. 이 주파수 레졸루션은 (예를 들어, 인간의 청각 시스템의 임계 대역폭과 동일하거나 이에 비례하는 대역폭을 가진 서브대역들을 갖는 고속 푸리에 변환(FFT; fast Fourier transform) 또는 직교 미러 필터(QMF; quadrature mirror filter)에 기초하는) 반전 가능한 필터뱅크를 사용함으로써 고려된다.

일반적인 다운믹싱

바람직한 구현예들에서, 송신되는 합 신호(들)는 입력 오디오 신호의 모든 신호 성분들을 포함한다. 각각의 신호 성분이 완전히 유지되는 것이 목적이다. 오디오 입력 채널들을 단순히 합하는 것은 종종 신호 성분들의 증폭 또는 감쇠를 초래한다. 즉, "간단한" 합에서의 신호 성분들의 전력은 종종 각각의 채널의 대응하는 신호 성분의 전력의 합보다 더 크거나 더 작다. 합 신호를 등화시키는 다운믹싱 기술이 사용되어, 합 신호에서의 신호 성분들의 전력이 모든 입력 채널들에서의 대응하는 전력과 거의 동일하도록 할 수 있다.

도 3은 BCC 시스템(200)의 어떤 구현예들에 따른 도 2의 다운믹서(206)에 사용될 수 있는 다운믹서(300)의 블록도를 도시한다. 다운믹서(300)는 각각의 입력 채널(x_i(n))에 대한 필터 뱅크(FB)(302), 다운믹싱 블록(304), 선택적인 스케일링/지연 블록(306), 및 각각의 인코딩된 채널(y_i(n))에 대한 역 FB(IFB)(308)를 갖는다.

각각의 필터 뱅크(302)는 시간 영역의 대응하는 디지털 입력 채널(x_i(n))의 각 프레임(예를 들어, 20 msec)을 주파수 영역의 입력 계수들의 세트(

)로 변환한다. 다운믹싱 블록(304)은 C개의 대응하는 입력 계수들의 각각의 서브-대역을 E개의 다운믹싱된 주파수-영역 계수들의 대응하는 서브-밴드로 다운믹싱한다. 식(1)은 다음과 같이 다운믹싱된 계수들

의 k-번째 서브-대역을 생성하는 입력 계수들

의 k-번째 서브-대역의 다운믹싱을 나타내며,

여기서, D _CE는 실수-값의 C x E 다운믹싱 매트릭스이다.

선택적인 스케일링/지연 블록(306)은 각각 대응하는 다운믹싱된 계수(

)를 스케일링 팩터(e_i(k))만큼 승산하여 대응하는 스케일링된 계수(

)를 생성하는 승산기들(310)의 세트를 포함한다. 스케일링 동작에 대한 모티베이션(motivation)은 각각의 채널에 대한 임의의 가중 팩터들을 갖는 다운믹싱을 위해 일반화된 등화(equalization)와 등가이다. 입력 채널들이 독립적인 경우, 각각의 서브-대역에서의 다운믹싱된 신호의 전력(

)은 다음과 같이 식(2)에 의해 제공되며,

여기서,

는 C x E 다운믹싱 매트릭스(D_CE)에서 각각의 매트릭스 요소를 제곱함으로써 도출되고,

는 입력 채널(i)의 서브-대역(k)의 전력이다.

서브-대역들이 독립적이지 않은 경우에, 다운믹싱된 신호의 전력값들 (

)은 신호 성분들이 각각 동-위상이거나 이-위상일 때의 신호 증폭들 또는 소거들로 인해, 식(2)를 사용하여 계산되는 것보다 더 크거나 더 작을 것이다. 이를 방지하기 위하여, 식(1)의 다운믹싱 동작이 승산기들(310)의 스케일링 동작보다 앞서 서브-대역들에서 적용된다. 스케일링 팩터들(e_i(k))(1≤i≤E)는 다음과 같이 식(3)을 사용하여 도출될 수 있고,

여기서,

는 식(2)에 의해 계산된 바와 같은 서브-대역 전력이며,

는 대응하는 다운믹싱된 서브-대역 신호(

)의 전력이다.

선택적인 스케일링을 제공하는 것 이외에, 또는 그것 대신에, 스케일링/지연 블록(306)은 신호들을 선택적으로 지연시킬 수 있다.

각각의 역 필터 뱅크(308)는 주파수 대역의 대응하는 스케일링된 계수(

)의 세트를 대응하는 디지털의 송신되는 채널(y_i(n))로 변환한다.

도 3이 후속 다운믹싱을 위해 주파수 영역으로 변환되는 C개의 입력 채널들 모두를 도시할지라도, 대안적인 구현예들에서, C개의 입력 채널들 중 하나 이상(C-1개보다 적음)은 도 3에 도시된 처리 중 일부 또는 모두를 바이패스하고 변경되지 않은 오디오 채널들의 등가의 수로서 송신될 수 있다. 특정 구현예에 따르면, 이러한 변경되지 않은 오디오 채널들은 송신되는 BCC 코드들을 생성할 시에 도 2의 BCC 추정기(208)에 의해 사용되거나 사용되지 않을 수 있다.

단일 합 신호(y(n))를 생성하는 다운믹서(300)의 구현예에서, E=1이고 각각의 입력 채널(c)의 각각의 서브대역의 신호들(

)이 부가되고 나서, 다음과 같이 식(4)에 따라 팩터(e(k))와 승산되고,

상기 팩터(e(k))는 다음과 같이 식(5)에 의해 제공되며,

여기서,

는 시간 인덱스(k)에서의

의 전력의 단-시간 추정치(short-time estimate)이고,

는

의 전력의 단-시간 추정치이다. 등화된 서브대역들은 다시 시간 영역으로 변환되어 BCC 디코더에 송신되는 합 신호(y(n))를 발생시킨다.

일반적인 BCC 합성

도 4는 BCC 시스템(200)의 어떤 구현예들에 따른 도 2의 디코더(204)에 사용될 수 있는 BCC 합성기(400)의 블록도를 도시한다. BCC 합성기(400)는 각각의 송신되는 채널(y_i(n))에 대한 필터 뱅크(402), 업믹싱 블록(404), 지연기들(406), 승산기들(408), 상관해제 블록(de-correlation block; 410), 및 각각의 재생 채널(

)에 대한 역 필터 뱅크(412)를 갖는다.

각각의 필터 뱅크(402)는 시간 영역의 대응하는 디지털의 송신되는 채널(y_i(n))의 각 프레임을 주파수 영역의 입력 계수(

)의 세트로 변환한다. 업믹싱 블록(404)은 E개의 대응하는 송신되는-채널 계수들의 각각의 서브-대역을 C개의 업믹싱된 주파수-영역 계수들의 대응하는 서브-대역으로 업믹싱한다. 식(6)은 다음과 같이 업믹싱된 계수들

의 k-번째 서브-대역을 생성하기 위한 송신되는 채널 계수들

의 k-번째 서브-대역의 업믹싱을 나타내며,

여기서 U _EC는 실수-값의 E x C 업믹싱 매트릭스이다. 주파수-영역에서 업믹싱을 수행하면 업믹싱이 각각의 상이한 서브-대역에서 개별적으로 수행될 수 있다.

각각의 지연기(406)는 재생 채널들의 어떤 쌍들 사이에서 원하는 ICDT 값들이 나타나도록 하기 위하여 ICTD 데이터에 대한 대응하는 BCC 코드에 기초하여 지연 값(d_i(k))을 인가한다. 각각의 승산기(408)는 재생 채널들의 어떤 쌍들 사이에서 원하는 ICLD 값들이 나타나도록 하기 위하여 ICLD 데이터에 대한 대응하는 BCC 코드에 기초하여 스케일링 팩터(a_i(k)를 인가한다. 상관해제 블록(410)은 재생 채널들의 어떤 쌍들 사이에서 원하는 ICC 값들이 나타나도록 하기 위하여 ICC 데이터에 대한 대응하는 BCC 코드들에 기초하여 상관해제 동작(A)을 수행한다. 상관해제 블록(410)의 동작들의 부가적인 설명은 Baumgarte 2-10으로서 2002년 5월 24일자로 출원된 미국 특허 출원 번호 10/155,437에서 찾아볼 수 있다.

ICLD 값들의 합성은 ICLD 합성이 단지 서브-대역 신호들의 스케일링과 관련되기 때문에, ICTD 및 ICC 값들의 합성보다 덜 곤란할 수 있다. ICLD 큐들이 가장 통상적으로 사용되는 방향성 큐들이기 때문에, ICLD 값들이 원래 오디오 신호의 값들에 근사화되는 것이 통상적으로 더 중요하다. 이와 같이, ICLD 데이터는 모든 채널 쌍들 사이에서 추정될 수 있다. 각각의 서브-대역에 대한 스케일링 팩터들(a_i(k))(1≤i≤C)은 바람직하게는, 각각의 재생 채널의 서브-대역 전력이 원래 입력 오디오 채널의 대응하는 전력에 근사화되도록 선택된다.

하나의 목적은 ICTD 및 ICC 값들을 합성하기 위해 비교적 적은 신호 변경들을 적용하는 것일 수 있다. 이와 같이, BCC 데이터는 모든 채널 쌍들에 대한 ICTD 및 ICC 값들을 포함할 수는 없다. 그 경우에, BCC 합성기(400)는 어떤 채널 쌍들 사이에서만 ICTD 및 ICC 값들을 합성할 것이다.

각각의 역 필터 뱅크(412)는 주파수 영역의 대응하는 합성된 계수들의 세트(

)를 대응하는 디지털 재생 채널(

)의 프레임으로 변환한다.

도 4가 후속 업믹싱 및 BCC 처리를 위해 주파수 영역으로 변환되는 E개의 송신되는 채널들 모두를 도시할지라도, 대안적인 구현예들에서, E개의 송신되는 채널들 중 하나 이상(그러나, 모두는 아님)은 도 4에 도시된 처리 중 일부 또는 모두를 바이패스할 수 있다. 예를 들어, 송신되는 채널들 중 하나 이상은 임의의 업믹싱을 겪지 않은 변경되지 않은 채널들일 수 있다. C개의 재생 채널들 중 하나 이상 이외에, 이러한 변경되지 않은 채널들이 차례로, 다른 재생 채널들 중 하나 이상을 합성하기 위해 BCC 처리가 적용되는 기준 채널들로서 사용될 수 있지만, 그렇게 사용 되지 않아도 된다. 어느 경우든, 이와 같은 변경되지 않은 채널들은 재생 채널들의 나머지를 생성하는데 사용되는 업믹싱 및/또는 BCC 처리와 관련된 처리 시간을 보상하기 위하여 지연들을 겪게 될 수 있다.

도 4가 E개의 송신되는 채널들로부터 합성되는 C개의 재생 채널들을 도시할지라도, BCC 합성들이 그 수의 재생 채널들에 국한되지 않는다는 점에 주의하라. 일반적으로, 재생 채널들의 수는 C보다 더 크거나 더 적은 수들을 포함하는 임의의 채널들의 수일 수 있고 재생 채널들의 수가 송신되는 채널들의 수와 동일하거나 이보다 더 적은 상황들도 가능하다.

오디오 채널들 사이의 "지각적으로 관련된 차이들"

단일 합 신호를 가정하면, BCC는 스테레오 또는 다-채널 오디오 신호를 합성하여, ICTD, ICLD, 및 ICC가 원래 오디오 신호의 대응하는 큐들에 근사화되도록 한다. 다음에서, 청각 공산 이미지 속성들에 대한 ICTD, ICLD, 및 ICC의 역할이 논의된다.

공간 청취에 관한 인식은 하나의 청각 이벤트의 경우에, ICTD 및 ICLD가 지각된 방향과 관련된다는 것을 나타낸다. 하나의 소스의 바이노럴 룸 임펄스 응답들(BRIR들; binaural room impulse responses)을 고려할 때, BRIR들의 초기와 후기 파트들에 대한 추정된 ICC 데이터 및 청취자 포위감(listener envelopment)과 청각 이벤트의 폭 사이에 관계가 존재한다. 그러나, 일반적인 신호들에 대한 이러한 특성들(단지 BRIR들이 아님) 및 ICC 사이의 관계는 직접적이지는 않다.

스테레오 및 다-채널 오디오 신호들은 통상적으로 밀폐된 공간들에서의 레코딩으로 인하여 반사된 신호 성분들에 의해 중첩되고 공간적인 임프레션(impression)을 인공적으로 생성하기 위해 레코딩 엔지니어에 의해 부가되는 동시 활성적 소스 신호들의 복합적인 혼합을 포함한다. 상이한 소스 신호들 및 이들은 반사들은 시간-주파수 평면에서 상이한 영역들을 점유한다. 이것은 주파수 및 시간의 함수로서 변화하는 ICTD, ILCD, 및 ICC에 의해 반영된다. 이 경우에, 순시적인 ICTD, ICLD와 ICC 및 청각 이벤트 방향들과 공간적인 임프레션 사이의 관계는 명백하지 않다. BCC의 어떤 실시예들의 전략은 이러한 큐들이 원래 오디오 신호의 대응하는 큐들에 근사화되도록 상기 큐들을 맹목적으로 합성하는 것이다.

등가 직사각형 대역폭(equivalent rectangular bandwidth: ERB)의 2배와 동일한 대역폭들의 서브대역들을 갖는 필터뱅크들이 사용된다. 비공식 청취는 더 높은 주파수 레졸루션 선택할 때, BCC의 오디오 품질이 현저히 개선되지 않는다는 것을 의미한다. 디코더에 송신될 필요가 있는 ICTD, ICLD, 및 ICC 값들을 더 적게 하여, 비트레이트를 더 낮게 때문에, 더 낮은 주파수 레졸루션이 바람직할 수 있다.

이 레졸루션에 관하여, ICTD, ICLD, 및 ICC는 전형적으로 규칙적인 시간 간격으로 고려된다. ICTD, ICLD, 및 ICC가 약 4 내지 16ms마다 고려될 때, 고성능이 획득된다. 큐들이 매우 짧은 시간 간격들마다 고려되지 않는다면, 선착 효과(precedence effect)는 직접적으로 고려되지 않는다는 점에 주의하라. 사운드 자극들(sound stimuli)의 종래의 리드-래그 쌍(lead-lag pair)을 가정하면, 리드 및 래그가 큐들 중 하나의 세트만이 합성되는 시간 간격이 되는 경우, 리드의 국소 우세(localization dominance)가 고려되지 않는다. 그럼에도 불구하고, BCC는 평균하여 약 87(즉, "우수한" 오디오 품질) 및 어떤 오디오 신호들에 대하여 거의 100까지의 평균 MUSHRA 스코어에서 반영된 오디오 품질을 획득한다.

기준 신호 및 합성된 신호 사이의 자주-획득되는 지각적으로 작은 차이는 청각 공간 이미지 속성들과 관련된 큐들이 규칙적인 시간 간격으로 ICTD, ICLD, 및 ICC를 합성함으로써 암시적으로 고려된다. 다음에서, ICTD, ICLD, 및 ICC가 청각 공간 이미지 속성의 범위와 관련될 수 있는 방법에 대한 어떤 논의가 제공된다.

공간 큐들의 추정

다음에서, ICTD, ICLD, 및 ICC가 추정되는 방법이 설명된다. 이러한 (양자화되고 코딩된) 공간 큐들의 송신을 위한 비트레이트는 단지 몇 kb/s일 수 있으므로, BCC에 의하여, 단일 오디오 채널에 필요로 되는 것에 가까운 비트레이트로 스테레오 및 다-채널 오디오 신호들을 송신할 수 있다.

도 5는 본 발명의 일 실시예에 따른, 도 2의 BCC 추정기(208)의 블록도를 도시한다. BCC 추정기(208)는 도 3의 필터뱅크들(302)과 동일할 수 있는 필터뱅크들(FB)(502), 및 필터뱅크들(502)에 의해 생성된 각각의 상이한 주파수 서브대역에 대한 ICTD, ICLD, 및 ICC 공간 큐들을 생성하는 추정 블록(504)을 포함한다.

스테레오 신호들에 대한 ICTD, ICLD, 및 ICC의 추정

2개(예를 들어, 스테레오) 오디오 채널들의 대응하는 서브대역 신호 들(

및

)에 대한 ICTD, ICLD, 및 ICC에 대해 다음의 측정들이 사용된다.

o ICTD[샘플들]:

표준화된 교차-상관 함수의 단-시간 추정치는 다음과 같이 식(8)에 의해 제공되며,

여기서,

이고,

는

의 평균의 단-시간 추정치이다.

o ICLD[dB]:

o ICC

표준화된 교차-상관의 절대값이 고려되고, c₁₂(k)은 [0,1]의 범위를 갖는다.

다-채널 오디오 신호들에 대한 ICTD, ICLD, 및 ICC의 추정

2개 이상의 입력 채널들이 존재할 때, 통상적으로 C=5개의 채널들의 경우에 대해 도 6에 도시된 바와 같이, 기준 채널(예를 들어, 채널 번호 1) 및 다른 채널들 사이에 ICTD 및 ICLD를 규정하기만 하면 된다. 여기서

및

는 기준 채널(1) 및 채널(c) 사이의 ICTD 및 ICLD를 각각 나타낸다.

ICTD 및 ICLD에 반대되는 바와 같이, ICC는 통상적으로 더 많은 자유도들(degrees of freedom)을 갖는다. 규정된 바와 같은 ICC는 모든 가능한 입력 채널 쌍들 사이에서 상이한 값들을 가질 수 있다. C개의 채널들의 경우에, C(C-1)/2개의 가능한 채널 쌍들이 존재한다; 예를 들어, 5개의 채널들의 경우에, 도 7(a)에 도시된 바와 같이 10개의 채널 쌍들이 존재한다. 그러나, 이와 같은 방식은 각각의 시간 인덱스에서 각각의 서브대역에 대해, C(C-1)/2개의 ICC 값들이 추정되고 계산되는 것을 필요로 하여, 계산적인 복잡성이 높아지고 비트레이트가 높아지게 된다.

대안적으로, 각각의 서브대역에 대하여, ICTD 및 ICLD는 서브대역 내의 대응하는 신호 성분의 청각 이벤트가 렌더링되는 방향을 결정한다. 그 후, 서브대역 당 하나의 단일 ICC 파라미터가 사용되어, 모든 오디오 채널들 전체 코히어런스를 규정한다. 각각의 시간 인덱스에서의 각각의 서브대역에서 가장 큰 에너지를 갖는 2개의 채널들 사이에서만 ICC 큐들을 추정하고 송신함으로써 양호한 결과들이 획득될 수 있다. 이것이 시간 인스턴트들(k-1 및 k) 동안, 채널 쌍들(3, 4) 및 (1, 2) 이 각각 가장 강한 도 7(b)에 도시되어 있다. 다른 채널 쌍들 사이에서 ICC를 결정하는데 휴리스틱 규칙(heuristic rule)이 사용될 수 있다.

공간 큐들의 합성

도 8은 공간적인 큐들 더하기 단일의 송신되는 합 신호(s(n))를 제공받는 스테레오 또는 다-채널 오디오 신호를 생성하기 위하여 BCC 디코더에서 사용될 수 있는 도 4의 BCC 합성기(400)의 구현예의 블록도를 도시한다. 합 신호(s(n))는 서브대역들로 분해되고, 여기서

는 하나의 이와 같은 서브대역을 나타낸다. 출력 채널들 각각의 대응하는 서브대역들을 생성하기 위하여, 지연들(d_c), 스케일 팩터들(a_c), 및 필터들(h_c)이 합 신호의 대응하는 서브대역에 적용된다. (표시의 간소화를 위해, 지연들, 스케일 팩터들, 및 필터들에서 시간 인덱스(k)는 무시된다.) ICTD는 지연들을 부과함으로써 합성되고, ICLD는 스케일링에 의해 합성되며, ICC는 상관해제 필터들을 적용함으로써 합성된다. 도 8에 도시된 처리는 각각의 서브대역에 독립적으로 적용된다.

ICTD 합성

지연들(d_c)은 다음과 같이 식(12)에 따라 ICTD들(

)로부터 결정된다.

기준 채널에 대한 지연(d₁)은 지연들(d_c)의 최대 크기가 최소화되도록 계산된다. 서브대역 신호들이 더 적게 변경될수록, 아티팩트들이 발생할 위험이 더 적게 존재한다. 서브대역 샘플링 레이트가 ICTD 합성에 충분한 높은 레졸루션을 제공하지 않는 경우, 적절한 전역 통과 필터들을 사용함으로써 지연들이 더 정확하게 부과될 수 있다.

ICLD 합성

출력 서브대역 신호들이 채널(c) 및 기준 채널(1) 사이에서 원하는 ICLD들(

)을 가지도록 하기 위하여, 이득 팩터들(a_c)은 다음과 같이 식(13)을 충족시켜야 한다.

부가적으로, 출력 서브대역들은 바람직하게는, 모든 출력 채널들의 전력의 합이 입력 합 신호의 전력의 합과 동일하도록 표준화된다. 각각의 서브대역에서의 총 원래 신호 전력이 합 신호에서 보존되기 때문에, 이 표준화는 원래 인코더 입력 오디오 신호의 대응하는 전력에 근사화되는 각각의 출력 채널에 대한 절대 서브대역 전력을 발생시킨다. 이러한 제약들을 제공하면, 스케일 팩터들(a_c)은 다음과 같이 식(14)에 의해 제공된다.

ICC 합성

어떤 실시예들에서, ICC 합성의 목적은 ICTD 및 ICLD에 영향을 줌이 없이, 지연들 및 스케일링이 적용된 후, 서브대역들 사이에 상관을 감소시키는 것이다. 이것은 각 서브대역(청각 임계 대역)에서 평균 편차가 제로가 되도록 ICTD 및 ICLD이 주파수의 함수로서 효율적으로 변화되도록 도 8에서 필터들(h_c)을 설계함으로써 달성될 수 있다.

도 9는 ICTD 및 ICLD가 주파수의 함수로서 서브대역 내에서 변화되는 방법을 도시한다. ICTD 및 ICLD 변화의 진폭은 상관해제의 정도를 결정하고, ICC의 함수로서 제어된다. ICTD는 (도 9(a)에서와 같이) 완만하게 변화되는 반면, ICLD는 (도 9(b)에서와 같이) 랜덤하게 변화된다. ICLD를 ICTD와 같이 완만하게 변화시킬 수 있지만, 이것은 결과적인 오디오 신호들의 더 많은 컬러레이션(coloration)을 발생시킨다.

다-채널 ICC 합성에 특히 적합한 ICC를 합성하는 또 다른 방법은 그 내용이 본원에 참조되어 있는 C. Faller의 "Parametric multi-channel audio coding: Synthesis of coherence cues, "IEEE Trans. on Speech and Audio Proc., 2003에 보다 상세히 설명된다. 시간 및 주파수의 함수로서, 특정 량들의 인공적인 늦은 잔향(artificial late reverberation)이 원하는 ICC를 달성하기 위하여 출력 채널들 각각에 부가된다. 부가적으로, 결과적인 신호의 스펙트럼 인벨롭(envelop)이 원래 오디오 신호의 스펙트럼 인벨롭에 접근하도록 스펙트럼 변경이 적용될 수 있다.

스테레오 신호들(또는 오디오 채널 쌍들)에 대한 다른 관련되거나 독립적인 ICC 합성 기술은 둘 모두의 내용이 본원에 참조되어 있는 E. Schuijers, W. Oomen, B. den Brinker, 및 J. Breebaart의 "Advances in parametric coding for high-quality audio" in Preprint 114^th Conv. Aud. Eng. Soc., Mar. 2003, 및 J. Engdegard, H. Purnhagen, J. Roden, 및 L. Liljeryd의 "Synthetic ambience in parametric stereo coding," in Preprint 117^th Conv. Aud. Eng. Soc., May 2004에 제시되어 있다.

C-대-E BCC

상술된 바와 같이, BCC는 하나 이상의 송신 채널로 구현될 수 있다. C-대-E BCC를 나타내는, 하나의 단일 (송신되는) 채널이 아니라, E개의 채널로서 C개의 오디오 채널들을 표현하는 BCC의 변형이 설명되었다. C-대-E BCC에 대한 (적어도) 2개의 모티베이션들이 존재한다.

o 하나의 송신 채널에 의한 BCC는 스테레오 또는 다-채널 오디오 재생을 위 한 기존의 모노 시스템들을 업그레이드하기 위해 역방향 호환 가능한 경로를 제공한다. 업그레이드된 시스템은 BCC 사이드 정보를 부가적으로 송신하는 동안, BCC 다운믹싱된 합 신호를 기존의 모노 하부구조를 통해 송신한다. C-대-E BCC는 C-채널 오디오의 E-채널 역방향 호환 가능한 코딩에 적용 가능하다.

o C-대-E BCC는 송신되는 채널들의 수의 상이한 감소 정도들 면에서 스케일러빌리티(scalability)를 도입한다. 송신되는 오디오 채널들이 더 많을수록, 오디오 품질이 더 양호해질 것이 기대된다.

ICTD, ICLD, 및 ICC 큐들을 규정하는 방법과 같은 C-대-E BCC에 대한 신호 처리 세부사항들은 2004년 1월 20일자로 출원된 미국 출원 일련 번호 10/762,100(Faller 13-1)에 설명되어 있다.

오브젝트-기반 BCC 큐들

상술된 바와 같이, 종래의 C-대-E BCC 방식에서, 인코더는 C개의 원래 채널들로부터 통계적인 채널간 차이 파라미터들(예를 들어, ICTD, ICLD, 및/또는 ICC 큐들)을 도출한다. 도 6 및 도 7a-b에 표현된 바와 같이, 이러한 특정 BCC 큐들은 청각 공간 이미지를 생성하는데 사용되는 확성기들의 수 및 위치들의 함수들이다. 이들 BCC 큐들은 청각 공간 이미지의 지각 속성들을 직접적으로 나타내지 않기 때문에, "비-오브젝트-기반(non-object-based)" BCC 큐들이라고 칭해진다.

이와 같은 비-오브젝트-기반 BCC 큐들 중 하나 이상 이외에, 또는 이들 대신에, BCC 방식은 다-채널 서라운드 오디오 신호들에서 고유한 청각 공간 이미지의 속성들을 직접적으로 나타내는 하나 이상의 "오브젝트-기반" BCC 큐들을 포함할 수 있다. 본 명세서에 사용되는 바와 같이, 오브젝트-기반 큐는 청각 장면의 특성을 직접적으로 나타내는 큐이며, 여기서 상기 특성은 그 장면을 생성하는데 사용되는 확성기들의 수 및 위치들에 독립적이다. 청각 장면 자체는 오브젝트-기반 BCC 큐들 자체들이 아니라, 청각 장면 자신을 생성하는데 사용되는 스피커들의 수 및 위치에 따른다.

예를 들어, (1) 제 1 오디오 장면이 스피커들의 제 1 구성을 사용하여 생성되고, (2) 제 2 오디오 장면이 (예를 들어, 제 1 구성과 상이한 스피커들의 수 및/또는 위치들을 갖는) 스피커들의 제 2 구성을 사용하여 생성된다고 가정하자. 제 1 오디오 장면이 (적어도, 특정 청취자의 관점에서) 제 2 오디오 장면과 동일하다고 더 가정하자. 그 경우에, 제 1 오디오 장면에 대한 비-오브젝트-기반 BCC 큐들(예를 들어, ICTD들, ICLD들, ICC들)은 제 2 오디오 장면에 대한 비-오브젝트-기반 BCC 큐들과 상이하지만, 장면들 둘 모두에 대한 오브젝트-기반 BCC 큐들은 이들 큐들이 오디오 장면들에 직접적으로 (즉, 스피커들의 수 및 위치들에 독립적으로) 특징을 부여하기 때문에, 동일할 것이다.

BCC 방식들은 종종 특정 신호 포맷들의 상황(예를 들어, 5-채널 서라운드)에서 적용되며, 여기서 확성기들의 수 및 위치들은 신호 포맷에 의해 규정된다. 이와 같은 애플리케이션들에서, 임의의 비-오브젝트-기반 BCC 큐들은 신호 포맷에 따르지만, 임의의 오브젝트-기반 BCC 큐들은 이들이 그 신호 포맷과 관련된 확성기의 수 및 위치들에 독립적이라는 점에서, 신호 포맷과 독립적이다라고 할 수 있다.

도 10(a)는 어떤 각도에서 (어두운 원으로 나타낸) 단일의 비교적 집중된 청각 이벤트를 지각하는 청취자를 도시한다. 이와 같은 청각 이벤트는 상기 청각 이벤트를 둘러싸는 확성기들의 쌍(도 10(a)의 확성기들(1 및 3))에 "진폭 패닝(amplitude panning)"을 적용함으로써 생성될 수 있고, 여기서 동일한 신호가 2개의 확성기들에 송신되지만, 아마도 상이한 강도들로 송신된다. 레벨 차이(예를 들어, ICLD)를 청각 이벤트가 확성기 쌍 사이에서 나타내는지를 결정한다. 이 기술에 의하여, 청각 이벤트는 확성기 쌍 및 ICLD 값의 적절한 선택에 의해 임의의 방향에서 렌더링될 수 있다.

도 10(b)는 (어두운 타원으로 나타낸) 단일의 더 흩어진 청각 이벤트를 지각하는 청취자를 도시한다. 이와 같은 청각 이벤트는 도 10(a)에 대해 설명된 바와 동일한 진폭 패닝을 사용하여 임의의 방향으로 렌더링될 수 있다. 게다가, 신호 쌍 사이에 유사성이 (예를 들어, ICC 코히어런스 파라미터를 사용하여) 감소된다. ICC=1인 경우에, 청각 이벤트는 도 10(a)에서와 같이 포커싱되며, ICC가 감소함에 따라, 청각 이벤트의 폭이 도 10(b)에서와 같이 증가한다.

도 11(a)는 청취자 포위감(listener envelopment)이라고 종종 칭해지는 다른 종류의 지각을 도시하며, 여기서 독립적인 오디오 신호들이 청취자 주의의 모든 확성기들에 인가되어, 청취자는 사운드 필드에 "포위되는(enveloped)" 것을 느낀다. 이 느낌은 상이하게 상관해제된 버전들의 오디오 신호를 상이한 확성기들에 인가함으로써 생성될 수 있다.

도 11(b)는 어떤 각도에서 어떤 폭의 청각 이벤트를 지각하면서 사운드 필드 에서 포위되는 청취자를 도시한다. 이 청각 장면은 모든 확성기들에 동일한 량의 독립적인(즉, 상관해제된) 신호들을 인가하면서, 청각 이벤트를 둘러싸는 확성기 쌍(즉, 도 11(b)의 확성기들(1 및 3))에 신호를 인가함으로써 생성된다.

본 발명의 일 실시예에 따르면, 오디오 신호의 공간적인 양상은 도 11(b)의 도시된 것과 같은 시나리오들에 대해, 주파수(예를 들어, 서브대역들에서) 및 시간의 함수로서 파라미터화된다. ICTD, ICLD, 및 ICC 큐들과 같은 비-오브젝트-기반 BCC 큐를 추정하고 송신하는 것보다 오히려, 이 특정 실시예는 BCC 큐들로서, 청각 장면의 공간적인 양상들을 더 직접적으로 나타내는 오브젝트-기반 파라미터들을 사용한다. 특히, 매 시간(k)마다 매 서브대역(b)에서, 청각 이벤트의 각도(α(b,k)), 청각 이벤트의 폭(w(b,k)), 및 청각 장면의 포위도(degree of envelopment) (e(b,k))가 BCC 큐들로서 추정되고 송신된다.

도 12(a) 내지 (c)는 여러 청각 장면들 및 이들의 관련된 오브젝트-기반 BCC 큐들의 값들을 도시한다. 도 12(c)의 청각 장면에서, 국소화된 청각 이벤트는 존재하지 않는다. 이와 같이, 폭(w(b,k))은 제로이며, 각도(α(b,k))는 임의적이다.

인코더 처리

도 10 내지 도 12는 하나의 가능한 5-채널 서라운드 구성을 도시하는데, 여기서 좌측 확성기(#1)는 중심 확성기(#3)의 30°좌측에 위치되고, 우측 확성기(#2)는 중심 확성기의 30°우측에 위치되며, 좌측 후방 확성기(#4)는 중심 확성기의 110°좌측에 위치되고, 우측 후방 확성기(#5)는 중심 확성기의 110°우측에 위치된 다.

도 13은 도 10 내지 도 12의 5개의 확성기의 방위들을 단위 벡터(S _i=

)로서 도식적으로 나타내며, 여기서 X-축은 중심 확성기의 방위를 나타내고, Y-축은 중심 스피커의 90°좌측 방위를 나타내며, φ_i는 X-축에 대한 확성기 각도들이다.

매 시간(k)마다, 매 BCC 서브대역(b)에서, 서라운드 이미지의 청각 이벤트의 방향은 다음과 같이 식(15)에 따라 추정될 수 있고,

여기서, α(b,k)는 도 13의 X-축에 대한 청각 이벤트의 추정된 각도이고, P_i(b,k)는 시간 인덱스(k)에서 서브대역(b)에서의 서라운드 채널(i)의 전력 또는 크기이다. 크기가 사용되는 경우, 식(15)은 스위트 스폿(sweet spot)에서 사운드 필드의 입자 속도 벡터에 대응한다. 특히, 사운드 강도들 및 헤드 쉐도잉(head shadowing)이 더 중요한 역할을 하는 고 주파수들에 대하여 전력이 또한 사용되었다.

청각 이벤트의 폭(w(b,k))은 다음과 같이 식(16)에 따라 추정될 수 있고,

여기서, ICC(b,k)는 각도(α(b,k))에 의해 규정되는 방향을 둘러싸는 2개의 확성기들에 대한 신호들 사이의 코히어런스 추정치이다.

청각 장면의 포위도(e(b,k))는 모든 확성기들로부터 나오는 상관해제된 사운드의 총 량을 추정한다. 이 측정치는 전력(P_i(b,k))의 함수로서 어떤 고려사항들과 결합되는 다수의 채널 쌍들 사이의 코히어런스 추정치로서 계산될 수 있다. 예를 들어, e(b,k)는 상이한 오디오 채널 쌍들 사이에서 획득된 코히어런스 추정의 가중화된 평균일 수 있고, 여기서 가중은 상이한 오디오 채널 쌍들의 상대 전력들의 함수이다.

청각 이벤트의 방향을 추정하는 또 다른 가능한 방식은 매 시간(k)마다, 그리고 매 서브대역(b)에서, 2개의 가장 강한 채널들을 선택하고 이러한 2개의 채널들 사이의 레벨 차이를 계산하는 것이다. 그 후, 2개의 선택된 확성기들 사이의 청각 이벤트의 상대 각도를 계산하기 위하여 진폭 패닝 법칙이 사용될 수 있다. 그 후, 2개의 확성기들 사이의 상대 각도는 절대 각도(α(b,k))로 변환될 수 있다.

이 대안적인 기술에서, 청각 이벤트의 폭(w(b,k))은 식(16)을 사용하여 추정될 수 있고, 여기서 ICC(b,k)는 2개의 가장 강한 채널들 사이의 코히어런스 추정치이고, 청각 장면의 포위도(e(b,k))는 다음과 같이 식(17)을 사용하여 추정될 수 있으며,

여기서, C는 채널들의 수이고, i₁ 및 i₂는 2개의 선택된 가장 강한 채널들의 인덱스들이다.

BCC 방식이 3개의 모든 오브젝트-기반 파라미터들(즉, α(b,k), w(b,k), 및 e(b,k))을 송신할 수 있을지라도, 대안적인 BCC 방식은 예를 들어, 매우 낮은 비트레이트가 필요로 될 때, 더 적은 파라미터들을 송신할 수 있다. 예를 들어, 단지 2개의 파라미터들: 방향(α(b,k)) 및 "방향성"(d(b,k))만을 사용하여 상당히 양호한 결과들을 달성할 수 있고, 여기서 방향성 파라미터는 w(b,k) 및 e(b,k))를 w(b,k)와 e(b,k) 사이의 가중된 평균에 기초한 하나의 파라미터로 결합한다.

w(b,k) 및 e(b,k)의 결합은 청각 이벤트의 폭 및 포위도가 다소 관련된 지각들이라는 사실에 의해 동기부여를 받는다. 따라서, 이들 둘 모두는 측방향 독립적인 사운드에 의해 이보킹(evoking)된다. 따라서, w(b,k) 및 e(b,k)의 결합에 의하여 청각 공간 이미지의 속성들을 결정하는 면에서 유연성이 단지 조금 더 적어진다. 하나의 가능한 구현예에서, w(b,k) 및 e(b,k)의 가중은 w(b,k) 및 e(b,k)가 계산되었던 신호들의 총 신호 전력을 반영한다. 예를 들어, w(b,k)에 대한 가중치는 w(b,k)의 계산을 위해 선택되는 2개의 채널들의 전력에 비례하여 선택될 수 있고, w(b,k)에 대한 가중치는 모든 채널들의 전력에 비례할 수 있다. 대안적으로, α(b,k) 및 w(b,k)가 송신될 수 있는데, 여기서 e(b,k)는 디코더에서 휴리스틱하게 결정된다.

디코더 처리

디코더 처리는 오브젝트-기반 BCC 큐들을 레벨 차이(ICLD) 및 코히어런스 값들(ICC)과 같은 비-오브젝트-기반 BCC 큐들로 변환하고 나서, 종래의 BCC 디코더에서 이러한 비-오브젝트-기반 BCC 큐들을 사용함으로써 구현될 수 있다.

예를 들어, 청각 이벤트의 각도(α(b,k))는 진폭-패닝 법칙(또는 다른 가능한 주파수-의존 관계)을 적용함으로써 청각 이벤트를 2개의 둘러싸는 확성기 채널들 사이의 ICLD를 결정하는데 사용될 수 있다. 진폭 패닝이 적용될 때, 스케일 팩터들(a₁ 및 a₂)은 다음과 같이 식(18)에 의해 제공되는 스테레오의 사인 법칙으로부터 추정될 수 있고,

여기서, φ₀는 2개의 확성기 사이의 각도의 절반의 크기이고, φ는 시계 방향에서 가장 가까운 확성기의 각도에 대한 청각 이벤트의 대응하는 각도이며(상기 각도들이 반시계 방향에서 증가하는 것으로 규정되는 경우에), 스케일 팩터들(a₁ 및 a₂)은 다음과 같이 식(19)에 따른 레벨-차이 큐 ICLD와 관련된다.

도 14는 각도들(φ₀ 및 φ) 및 스케일 팩터들(a₁ 및 a₂)을 도시하며, 여기서 s(n)은 진폭 패닝이 스케일 팩터들(a₁ 및 a₂)에 기초하여 적용될 때, 각도(φ)에서 나타나는 모노 신호를 나타낸다. 도 15는 φ₀=30°인 표준 스테레오 구성에 대하여 식(18)의 스테레오의 사인 법칙에 따른 ICLD 및 스테레오 이벤트 각도(φ) 사이의 관계를 도식적으로 나타낸다.

상술된 바와 같이, 스케일 팩터들(a₁ 및 a₂)은 오디오 이벤트의 방향의 함수로서 결정된다. 식(18)이 비율(a₂/a₁)만을 결정하기 때문에, a₁ 및 a₂의 전체 스케일링에 대해 1의 자유도가 존재한다. 이 스케일링은 또한 다른 큐들, 예를 들어, w(b,k) 및 e(b,k)에 따른다.

청각 이벤트를 둘러싸는 2개의 확성기 채널들 사이의 코히어런스 큐(ICC)는 ICC(b,k)=1-w(b,k)로서 폭 파라미터(w(b,k))로부터 결정될 수 있다. 각각의 나머지 채널(i)의 전력은 포위도 파라미터(e(b,k))의 함수로서 계산되고, 여기서 e(b,k)의 보다 큰 값들은 나머지 채널들에 제공된 더 큰 전력을 나타낸다. 총 전력이 상수이기 때문에(즉, 총 전력은 송신된 채널들의 총 전력과 동일하거나 이에 비례함), 청각 이벤트 방향을 둘러싸는 2개의 채널들에 제공된 전력의 합 더하기 (e(b,k)에 의해 결정되는) 모든 나머지 채널들의 전력의 합은 상수이다. 따라서, 포위도(e(b,k))가 높을수록, 점점 더 적은 전력이 국소화된 사운드에 제공되는데, 즉, 점점 더 작은 a₁ 및 a₂가 선택된다(반면, 비율(a₂/a₁)은 청각 이벤트의 방향으로부터 결정되는 바와 같다).

하나의 극단적인 경우는 최대 포위도가 존재하는 경우이다. 이 경우에, a₁ 및 a₂는 작고, 심지어 a₁=a₂=0이다. 다른 극단은 최소 포위도이다. 이 경우에, a₁ 및 a₂는 모든 신호 전력이 이러한 2개의 채널들에 대해 진행되는 반면, 나머지 채널들의 전력은 제로가 되도록 선택된다. 나머지 채널들에 제공되는 신호는 청취자 포위감의 최대 효과를 얻기 위하여 바람직하게는 독립적인(상관해제된) 신호이다. α(b,k), w(b,k), 및 e(b,k)와 같은 오브젝트-기반 BCC 큐들의 하나의 특성은 확성기들의 수 및 위치들에 독립적이다는 것이다. 이와 같이, 이러한 오브젝트-기반 BCC 큐들은 임의의 위치에서 확성기들의 임의의 수에 대해 청각 장면을 렌더링하는데 효율적으로 사용될 수 있다.

부가적인 대안 실시예

본 발명이 큐 코드들이 하나 이상의 오디오 채널들(즉, E개의 송신된 채널들)과 함께 송신되는 BCC 코딩 방식들의 상황에서 설명되었을지라도, 대안적인 실시예들에서, 큐 코드들은 채널들 및 아마도 다른 BCC 코드들을 이미 송신한 장소(예를 들어, 디코더 또는 저장 디바이스)에 송신될 수 있다.

본 발명이 BCC 코딩 방식들의 상황에서 설명되었을지라도, 본 발명은 또한 오디오 신호들이 상관해제되는 다른 오디오 처리 시스템들 또는 신호들을 상관해제시킬 필요가 있는 다른 오디오 처리의 상황에서 구현될 수 있다.

본 발명이 인코더가 시간 영역에서 입력 오디오 신호를 수신하고 시간 영역에서 송신되는 오디오 신호들을 생성하며 디코더가 시간 영역에서 송신된 오디오 신호들을 수신하고 시간 영역에서 재생 오디오 신호들을 생성하는 구현예들의 상황에서 설명되었을지라도, 본 발명은 이에 국한되지 않는다. 예를 들어, 다른 구현예들에서, 송신되는 입력, 및 재생 오디오 신호들 중 어느 하나 또는 그 이상은 주파수 영역에서 표현될 수 있다.

BCC 인코더들 및/또는 디코더들은 텔레비전 또는 전자 음악 배포, 영화관들, 방송, 스트리밍, 및/또는 수신을 위한 시스템들을 포함하는 다양한 애플리케이션들 또는 시스템들과 함께 사용되거나 상기 다양한 애플리케이션들 또는 시스템들 내로 통합될 수 있다. 이들은 예를 들어, 지상, 위성, 케이블, 인터넷, 인트라넷, 또는 물리적 매체(예를 들어, 콤팩트 디스크들, 디지털 다기능 디스크들, 반도체 칩들, 하드 드라이브들, 메모리 카드들 등)를 통한 인코딩/디코딩 송신용 시스템들을 포함한다. BCC 인코더들 및/또는 디코더들은 또한 예를 들어, 다수의 기계들, 플랫폼들, 또는 매체에 대해 발행될 수 있는 교육 및/또는 엔터테인먼트(동작, 롤 플레이, 전략, 모험, 시뮬레이션들, 레이싱, 스포츠, 아케이드, 카드, 및 보드 게임들)용으로 사용자와 대화하도록 의도된 대화식 소프트웨어 제품들을 포함하는 게임들 및 게임 시스템들에서 사용될 수 있다. 또한, BCC 인코더들 및/또는 디코더들은 오디오 레코더들/플레이어들 또는 CD-ROM/DVD 시스템들에 통합될 수 있다. BCC 인코더들 및/또는 디코더들은 또한 디지털 디코딩(예를 들어, 플레이어, 디코더)을 통합하는 PC 소프트웨어 애플리케이션 및 디지털 인코딩 케이퍼빌리티들(예를 들어, 인코더, 립퍼(ripper), 레코더, 또는 주크박스)을 통합하는 소프트웨어 애플리케이션들 내로 통합될 수 있다.

본 발명은 (ASIC 또는 FPGA와 같은) 단일 집적 회로, 다중-칩 모듈, 단일 카드, 다중-카드 회로 팩으로서의 가능한 구현예를 포함하는 회로-기반 처리들로서 구현될 수 있다. 당업자들에게 명백한 바와 같이, 회로 소자들의 다양한 기능들은 또한 소프트웨어 프로그램에서의 처리 단계들로서 구현될 수 있다. 이와 같은 소프 트웨어는 예를 들어, 디지털 신호 프로세서, 마이크로-제어기, 또는 범용 컴퓨터에서 사용될 수 있다.

본 발명은 방법들 및 이들 방법들을 실행하는 장치들의 형태로 구현될 수 있다. 본 발명은 또한 플로피 디스켓들, CD-ROM들, 하드 드라이브들, 또는 임의의 다른 기계-판독 가능한 저장 매체와 같은 유형 매체에서 구현되는 프로그램 코드의 형태로 구현될 수 있고, 상기 프로그램 코드가 컴퓨터와 같은 기계 내로 로딩되어 상기 기계에 의해 실행될 때, 상기 기계는 본 발명을 실행하는 장치가 된다. 본 발명은 또한 예를 들어, 저장 매체에 저장되든지, 기계 내로 로딩되어 상기 기계에 의해 실행되든지, 또는 전기 와이어링 또는 케이블링, 광섬유들, 또는 전자기 방사와 같은 어떤 송신 매체 또는 캐리어를 통하여 송신되든지 간에, 프로그램 코드의 형태로 구현될 수 있고, 상기 프로그램 코드가 컴퓨터와 같은 기계 내로 로딩되어 상기 기계에 의해 실행될 때, 상기 기계는 본 발명을 실행하는 장치가 된다. 범용 프로세서 상에서 구현될 때, 프로그램 코드 세그먼트들은 특정 논리 회로들과 유사하게 동작하는 특정한 디바이스를 제공하기 위하여 프로세서와 결합한다.

본 발명은 또한 상기 본 발명의 방법 및/또는 장치를 사용하여 생성되는 자기 기록 매체 등에 저장된 자기-필드 변화들을 매체를 통해 전기적으로 또는 광학적으로 송신되는 신호 값들의 비트스트림 또는 다른 시퀀스의 형태로 구현할 수 있다.

본 발명의 특성을 설명하기 위하여 서술되고 설명되는 부분들의 세부사항들, 재료들, 및 배열들의 다양한 변경들이 다음의 청구항들에 표현된 바와 같은 본 발 명의 범위를 벗어남이 없이 당업자에 의해 행해질 수 있다는 것이 또한 이해될 것이다.

다음의 청구항들에서의 단계들이 만약 있다면, 대응하는 라벨링을 갖는 특정 시퀀스에서 열거될지라도, 청구항 열거들이 이들 단계들 중 일부 또는 모두를 실행하기 위한 특정 시퀀스를 나타내지 않는 경우, 이들 단계들은 반드시 그 특정 시퀀스로 구현되는 것으로 국한되도록 의도되는 것은 아니다.

Claims

오디오 채널들을 인코딩하는 방법에 있어서:

2개 이상의 오디오 채널들에 대한 하나 이상의 큐 코드들을 생성하는 단계로서, 적어도 하나의 큐 코드는 상기 오디오 채널들에 대응하는 청각 장면(auditory scene)의 특성을 직접적으로 나타내는 오브젝트-기반 큐 코드이고, 상기 특성은 상기 청각 장면을 생성하기 위해 이용되는 확성기들의 수 및 위치들에 독립적인, 상기 큐 코드 생성 단계; 및

상기 하나 이상의 큐 코드들을 송신하는 단계를 포함하고,

상기 적어도 하나의 오브젝트-기반 큐 코드는 아래의 (1) 내지 (7) 중 하나 이상을 포함하고, 상기 (1) 내지 (7)은,

(1) 기준 방향에 대한 상기 청각 장면에서의 청각 이벤트의 절대 각도의 제 1 측정으로서,

(i) 상기 오디오 채널들에 대한 상대 전력 벡터들의 벡터 합을 생성하고,

(ii) 상기 기준 방향에 대한 상기 벡터 합의 각도에 기초하여 상기 청각 이벤트의 절대 각도의 제 1 측정을 결정함으로써 추정되는, 상기 청각 이벤트의 절대 각도의 제 1 측정;

(2) 상기 기준 방향에 대한 상기 청각 장면에서의 상기 청각 이벤트의 절대 각도의 제 2 측정으로서,

(i) 상기 오디오 채널들에서 2개의 가장 강한 채널들을 식별하고,

(ii) 상기 2개의 가장 강한 채널들 사이의 레벨 차이를 계산하고,

(iii) 상기 2개의 가장 강한 채널들 사이의 상대 각도를 계산하기 위해 진폭 패닝 법칙(amplitude panning law)을 적용하고,

(iv) 상기 상대 각도를 상기 청각 이벤트의 절대 각도의 제 2 측정으로 변환함으로써 추정되는, 상기 청각 이벤트의 절대 각도의 제 2 측정;

(3) 상기 청각 장면에서의 상기 청각 이벤트의 폭의 제 1 측정으로서,

(i) 상기 청각 이벤트의 절대 각도를 추정하고,

(ii) 상기 절대 각도를 둘러싸는 2개의 오디오 채널들을 식별하고,

(iii) 상기 2개의 식별된 채널들 사이의 코히어런스를 추정하고,

(iv) 상기 추정된 코히어런스에 기초하여 상기 청각 이벤트의 폭의 제 1 측정을 계산함으로써 추정되는, 상기 청각 이벤트의 폭의 제 1 측정;

(4) 상기 청각 장면에서의 청각 이벤트의 폭의 제 2 측정으로서,

(i) 상기 오디오 채널들에서 2개의 가장 강한 채널들을 식별하고,

(ii) 상기 2개의 가장 강한 채널들 사이의 코히어런스를 추정하고,

(iii) 상기 추정된 코히어런스에 기초하여 상기 청각 이벤트의 폭의 제 2 측정을 계산함으로써 추정되는, 상기 청각 이벤트의 폭의 제 2 측정;

(5) 상기 청각 장면의 제 1 포위도(degree of envelopment)로서, 상기 제 1 포위도는 상이한 오디오 채널 쌍들 사이에서 얻어진 코히어런스 추정들의 가중된 평균으로 추정되고, 상기 가중은 상기 상이한 오디오 채널 쌍들의 관련된 전력들의 함수인, 상기 청각 장면의 제 1 포위도;

(6) 상기 청각 장면의 제 2 포위도로서, 상기 제 2 포위도는 (i) 2개의 가장 강한 오디오 채널들을 제외한 모든 전력들의 합 및 (ii) 상기 오디오 채널들 모두의 전력들의 합의 비로서 추정되는, 상기 청각 장면의 제 2 포위도; 및

(7) 상기 청각 장면의 방향성(directionality)으로서, 상기 방향성은:

(i) 상기 청각 장면에서의 상기 청각 이벤트의 폭을 추정하고,

(ii) 상기 청각 장면의 포위도를 추정하고,

(iii) 상기 폭 및 상기 포위도의 가중된 합으로서 상기 방향성을 계산함으로써 추정되는, 상기 청각 장면의 방향성인,

오디오 채널 인코딩 방법.
제 1 항에 있어서,

상기 2개 이상의 오디오 채널들에 대응하는 E개의 송신되는 오디오 채널(들)을 송신하는 단계로서, E≥1인, 상기 송신 단계를 더 포함하고,

상기 2개 이상의 오디오 채널들은 C개의 입력 오디오 채널들을 포함하고, C>E이고,

상기 E개의 송신되는 채널(들)을 생성하기 위해 상기 C개의 입력 채널들이 다운믹싱되고,

디코더가 적어도 하나의 오브젝트-기반 큐 코드에 기초하여 상기 E개의 송신되는 채널(들)의 디코딩 동안 합성 처리를 수행할 수 있도록 하기 위해, 상기 하나 이상의 큐 코드들이 송신되고,

상기 적어도 하나의 오브젝트-기반 큐 코드는 상이한 시간들에서, 그리고 상이한 서브대역들에서 추정되는, 오디오 채널 인코딩 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
E개의 송신되는 오디오 채널(들)을 생성하기 위해 C개의 입력 오디오 채널들을 인코딩하는 장치에 있어서:

2개 이상의 오디오 채널들에 대한 하나 이상의 큐 코드들을 생성하도록 구성된 코드 추정기로서, 적어도 하나의 큐 코드는 상기 오디오 채널들에 대응하는 청각 장면의 특성을 직접적으로 나타내는 오브젝트-기반 큐 코드이고, 상기 특성은 상기 청각 장면을 생성하기 위해 이용되는 확성기들의 수 및 위치들에 독립적인, 상기 코드 추정기; 및

상기 E개의 송신되는 채널(들)을 생성하기 위해 상기 C개의 입력 채널들을 다운믹싱하도록 구성된 다운믹서로서, C>E≥1인, 상기 다운믹서를 포함하고,

상기 장치는, 디코더가 상기 E개의 송신되는 채널(들)의 디코딩 동안 합성 처리를 수행할 수 있도록 하기 위해, 상기 큐 코드들에 관한 정보를 송신하도록 구성되고,

상기 적어도 하나의 오브젝트-기반 큐 코드는 아래의 (1) 내지 (7) 중 하나 이상을 포함하고, 상기 (1) 내지 (7)은,

(1) 기준 방향에 대한 상기 청각 장면에서의 청각 이벤트의 절대 각도의 제 1 측정으로서,

(i) 상기 오디오 채널들에 대한 상대 전력 벡터들의 벡터 합을 생성하고,

(ii) 상기 기준 방향에 대한 상기 벡터 합의 각도에 기초하여 상기 청각 이벤트의 절대 각도의 제 1 측정을 결정함으로써 추정되는, 상기 청각 이벤트의 절대 각도의 제 1 측정;

(2) 상기 기준 방향에 대한 상기 청각 장면에서의 상기 청각 이벤트의 절대 각도의 제 2 측정으로서,

(i) 상기 오디오 채널들에서 2개의 가장 강한 채널들을 식별하고,

(ii) 상기 2개의 가장 강한 채널들 사이의 레벨 차이를 계산하고,

(iii) 상기 2개의 가장 강한 채널들 사이의 상대 각도를 계산하기 위해 진폭 패닝 법칙을 적용하고,

(iv) 상기 상대 각도를 상기 청각 이벤트의 절대 각도의 제 2 측정으로 변환함으로써 추정되는, 상기 청각 이벤트의 절대 각도의 제 2 측정;

(3) 상기 청각 장면에서의 상기 청각 이벤트의 폭의 제 1 측정으로서,

(i) 상기 청각 이벤트의 절대 각도를 추정하고,

(ii) 상기 절대 각도를 둘러싸는 2개의 오디오 채널들을 식별하고,

(iii) 상기 2개의 식별된 채널들 사이의 코히어런스를 추정하고,

(iv) 상기 추정된 코히어런스에 기초하여 상기 청각 이벤트의 폭의 제 1 측정을 계산함으로써 추정되는, 상기 청각 이벤트의 폭의 제 1 측정;

(4) 상기 청각 장면에서의 청각 이벤트의 폭의 제 2 측정으로서,

(i) 상기 오디오 채널들에서 2개의 가장 강한 채널들을 식별하고,

(ii) 상기 2개의 가장 강한 채널들 사이의 코히어런스를 추정하고,

(iii) 상기 추정된 코히어런스에 기초하여 상기 청각 이벤트의 폭의 제 2 측정을 계산함으로써 추정되는, 상기 청각 이벤트의 폭의 제 2 측정;

(5) 상기 청각 장면의 제 1 포위도로서, 상기 제 1 포위도는 상이한 오디오 채널 쌍들 사이에서 얻어진 코히어런스 추정들의 가중된 평균으로 추정되고, 상기 가중은 상기 상이한 오디오 채널 쌍들의 관련된 전력들의 함수인, 상기 청각 장면의 제 1 포위도;

(6) 상기 청각 장면의 제 2 포위도로서, 상기 제 2 포위도는 (i) 2개의 가장 강한 오디오 채널들을 제외한 모든 전력들의 합 및 (ii) 상기 오디오 채널들 모두의 전력들의 합의 비로서 추정되는, 상기 청각 장면의 제 2 포위도; 및

(7) 상기 청각 장면의 방향성으로서, 상기 방향성은:

(i) 상기 청각 장면에서의 상기 청각 이벤트의 폭을 추정하고,

(ii) 상기 청각 장면의 포위도를 추정하고,

(iii) 상기 폭 및 상기 포위도의 가중된 합으로서 상기 방향성을 계산함으로써 추정되는, 상기 청각 장면의 방향성인,

인코딩 장치.
삭제
삭제
삭제
C개의 재생 오디오 채널들을 생성하기 위해 E개의 송신되는 오디오 채널(들)을 디코딩하는 방법으로서, C>E≥1인, 상기 디코딩 방법에 있어서:

상기 E개의 송신되는 채널(들)에 대응하는 큐 코드들을 수신하는 단계로서, 적어도 하나의 큐 코드는 상기 오디오 채널들에 대응하는 청각 장면의 특성을 직접적으로 나타내는 오브젝트-기반 큐 코드이고, 상기 특성은 상기 청각 장면을 생성하기 위해 이용되는 확성기들의 수 및 위치들에 독립적인, 상기 수신 단계;

하나 이상의 업믹싱된 채널들을 생성하기 위해 상기 E개의 송신되는 채널(들) 중 하나 이상을 업믹싱하는 단계; 및

상기 큐 코드들을 상기 하나 이상의 업믹싱된 채널들에 적용함으로써 상기 C개의 재생 채널들 중 하나 이상을 합성하는 단계를 포함하고,

상기 적어도 하나의 오브젝트-기반 큐 코드는 아래의 (1) 내지 (7) 중 하나 이상을 포함하고, 상기 (1) 내지 (7)은,

(1) 기준 방향에 대한 상기 청각 장면에서의 청각 이벤트의 절대 각도의 제 1 측정으로서,

(i) 상기 오디오 채널들에 대한 상대 전력 벡터들의 벡터 합을 생성하고,

(ii) 상기 기준 방향에 대한 상기 벡터 합의 각도에 기초하여 상기 청각 이벤트의 절대 각도의 제 1 측정을 결정함으로써 추정되는, 상기 청각 이벤트의 절대 각도의 제 1 측정;

(2) 상기 기준 방향에 대한 상기 청각 장면에서의 상기 청각 이벤트의 절대 각도의 제 2 측정으로서,

(i) 상기 오디오 채널들에서 2개의 가장 강한 채널들을 식별하고,

(ii) 상기 2개의 가장 강한 채널들 사이의 레벨 차이를 계산하고,

(iii) 상기 2개의 가장 강한 채널들 사이의 상대 각도를 계산하기 위해 진폭 패닝 법칙을 적용하고,

(iv) 상기 상대 각도를 상기 청각 이벤트의 절대 각도의 제 2 측정으로 변환함으로써 추정되는, 상기 청각 이벤트의 절대 각도의 제 2 측정;

(3) 상기 청각 장면에서의 상기 청각 이벤트의 폭의 제 1 측정으로서,

(i) 상기 청각 이벤트의 절대 각도를 추정하고,

(ii) 상기 절대 각도를 둘러싸는 2개의 오디오 채널들을 식별하고,

(iii) 상기 2개의 식별된 채널들 사이의 코히어런스를 추정하고,

(iv) 상기 추정된 코히어런스에 기초하여 상기 청각 이벤트의 폭의 제 1 측정을 계산함으로써 추정되는, 상기 청각 이벤트의 폭의 제 1 측정;

(4) 상기 청각 장면에서의 청각 이벤트의 폭의 제 2 측정으로서,

(i) 상기 오디오 채널들에서 2개의 가장 강한 채널들을 식별하고,

(ii) 상기 2개의 가장 강한 채널들 사이의 코히어런스를 추정하고,

(iii) 상기 추정된 코히어런스에 기초하여 상기 청각 이벤트의 폭의 제 2 측정을 계산함으로써 추정되는, 상기 청각 이벤트의 폭의 제 2 측정;

(5) 상기 청각 장면의 제 1 포위도로서, 상기 제 1 포위도는 상이한 오디오 채널 쌍들 사이에서 얻어진 코히어런스 추정들의 가중된 평균으로 추정되고, 상기 가중은 상기 상이한 오디오 채널 쌍들의 관련된 전력들의 함수인, 상기 청각 장면의 제 1 포위도;

(6) 상기 청각 장면의 제 2 포위도로서, 상기 제 2 포위도는 (i) 2개의 가장 강한 오디오 채널들을 제외한 모든 전력들의 합 및 (ii) 상기 오디오 채널들 모두의 전력들의 합의 비로서 추정되는, 상기 청각 장면의 제 2 포위도; 및

(7) 상기 청각 장면의 방향성으로서, 상기 방향성은:

(i) 상기 청각 장면에서의 상기 청각 이벤트의 폭을 추정하고,

(ii) 상기 청각 장면의 포위도를 추정하고,

(iii) 상기 폭 및 상기 포위도의 가중된 합으로서 상기 방향성을 계산함으로써 추정되는, 상기 청각 장면의 방향성인,

디코딩 방법.
제 23 항에 있어서,

적어도 2개의 재생 채널들은:

(i) 상기 재생 오디오 채널을 렌더링하기 위해 이용되는 2개 이상의 확성기들의 위치에 기초하여 적어도 하나의 오브젝트-기반 큐 코드를 적어도 하나의 비-오브젝트-기반 큐 코드로 변환하고,

(ii) 상기 적어도 2개의 재생 채널들을 생성하기 위해 상기 적어도 하나의 비-오브젝트-기반 큐 코드를 적어도 하나의 업믹싱된 채널에 적용함으로써 합성되는, 디코딩 방법.
제 24 항에 있어서,

상기 적어도 하나의 오브젝트-기반 큐 코드는, (1) 기준 방향에 대한 상기 청각 장면에서의 청각 이벤트의 절대 각도; (2) 상기 청각 이벤트의 폭; (3) 상기 청각 장면의 포위도; 및 (4) 상기 청각 장면의 방향성 중 하나 이상을 포함하고,

상기 적어도 하나의 비-오브젝트-기반 큐 코드는, (1) 채널간 상관(ICC; inter-channel correlation) 코드, 채널간 레벨 차이(ICLD; inter-channel level difference) 코드, 및 채널간 시간 차이(ICTD; inter-channel time difference) 코드 중 하나 이상을 포함하는, 디코딩 방법.
삭제
삭제
삭제
삭제
삭제
C개의 재생 오디오 채널들을 생성하기 위해 E개의 송신되는 오디오 채널(들)을 디코딩하는 장치로서, C>E≥1인, 상기 디코딩 장치에 있어서:

상기 E개의 송신되는 채널(들)에 대응하는 큐 코드들을 수신하도록 구성된 수신기로서, 적어도 하나의 큐 코드는 상기 오디오 채널들에 대응하는 청각 장면의 특성을 직접적으로 나타내는 오브젝트-기반 큐 코드이고, 상기 특성은 상기 청각 장면을 생성하기 위해 이용되는 확성기들의 수 및 위치들에 독립적인, 상기 수신기;

하나 이상의 업믹싱된 채널들을 생성하기 위해 상기 E개의 송신되는 채널(들) 중 하나 이상을 업믹싱하도록 구성된 업믹서; 및

상기 큐 코드들을 상기 하나 이상의 업믹싱된 채널들에 적용함으로써 상기 C개의 재생 채널들 중 하나 이상을 합성하도록 구성된 합성기를 포함하고,

상기 적어도 하나의 오브젝트-기반 큐 코드는 아래의 (1) 내지 (7) 중 하나 이상을 포함하고, 상기 (1) 내지 (7)은,

(1) 기준 방향에 대한 상기 청각 장면에서의 청각 이벤트의 절대 각도의 제 1 측정으로서,

(i) 상기 오디오 채널들에 대한 상대 전력 벡터들의 벡터 합을 생성하고,

(ii) 상기 기준 방향에 대한 상기 벡터 합의 각도에 기초하여 상기 청각 이벤트의 절대 각도의 제 1 측정을 결정함으로써 추정되는, 상기 청각 이벤트의 절대 각도의 제 1 측정;

(2) 상기 기준 방향에 대한 상기 청각 장면에서의 상기 청각 이벤트의 절대 각도의 제 2 측정으로서,

(i) 상기 오디오 채널들에서 2개의 가장 강한 채널들을 식별하고,

(ii) 상기 2개의 가장 강한 채널들 사이의 레벨 차이를 계산하고,

(iii) 상기 2개의 가장 강한 채널들 사이의 상대 각도를 계산하기 위해 진폭 패닝 법칙을 적용하고,

(iv) 상기 상대 각도를 상기 청각 이벤트의 절대 각도의 제 2 측정으로 변환함으로써 추정되는, 상기 청각 이벤트의 절대 각도의 제 2 측정;

(3) 상기 청각 장면에서의 상기 청각 이벤트의 폭의 제 1 측정으로서,

(i) 상기 청각 이벤트의 절대 각도를 추정하고,

(ii) 상기 절대 각도를 둘러싸는 2개의 오디오 채널들을 식별하고,

(iii) 상기 2개의 식별된 채널들 사이의 코히어런스를 추정하고,

(iv) 상기 추정된 코히어런스에 기초하여 상기 청각 이벤트의 폭의 제 1 측정을 계산함으로써 추정되는, 상기 청각 이벤트의 폭의 제 1 측정;

(4) 상기 청각 장면에서의 청각 이벤트의 폭의 제 2 측정으로서,

(i) 상기 오디오 채널들에서 2개의 가장 강한 채널들을 식별하고,

(ii) 상기 2개의 가장 강한 채널들 사이의 코히어런스를 추정하고,

(iii) 상기 추정된 코히어런스에 기초하여 상기 청각 이벤트의 폭의 제 2 측정을 계산함으로써 추정되는, 상기 청각 이벤트의 폭의 제 2 측정;

(5) 상기 청각 장면의 제 1 포위도로서, 상기 제 1 포위도는 상이한 오디오 채널 쌍들 사이에서 얻어진 코히어런스 추정들의 가중된 평균으로 추정되고, 상기 가중은 상기 상이한 오디오 채널 쌍들의 관련된 전력들의 함수인, 상기 청각 장면의 제 1 포위도;

(6) 상기 청각 장면의 제 2 포위도로서, 상기 제 2 포위도는 (i) 2개의 가장 강한 오디오 채널들을 제외한 모든 전력들의 합 및 (ii) 상기 오디오 채널들 모두의 전력들의 합의 비로서 추정되는, 상기 청각 장면의 제 2 포위도; 및

(7) 상기 청각 장면의 방향성으로서, 상기 방향성은:

(i) 상기 청각 장면에서의 상기 청각 이벤트의 폭을 추정하고,

(ii) 상기 청각 장면의 포위도를 추정하고,

(iii) 상기 폭 및 상기 포위도의 가중된 합으로서 상기 방향성을 계산함으로써 추정되는, 상기 청각 장면의 방향성인,

디코딩 장치.
제 1 항에 있어서,

상기 적어도 하나의 오브젝트-기반 큐 코드는 상기 기준 방향에 대한 상기 청각 장면에서의 청각 이벤트의 절대 각도의 제 1 측정을 포함하는, 오디오 채널 인코딩 방법.
제 1 항에 있어서,

상기 적어도 하나의 오브젝트-기반 큐 코드는 상기 기준 방향에 대한 상기 청각 장면에서의 상기 청각 이벤트의 절대 각도의 제 2 측정을 포함하는, 오디오 채널 인코딩 방법.
제 1 항에 있어서,

상기 적어도 하나의 오브젝트-기반 큐 코드는 상기 청각 장면에서의 상기 청각 이벤트의 폭의 제 1 측정을 포함하는, 오디오 채널 인코딩 방법.
제 1 항에 있어서,

상기 적어도 하나의 오브젝트-기반 큐 코드는 상기 청각 장면에서의 상기 청각 이벤트의 폭의 제 2 측정을 포함하는, 오디오 채널 인코딩 방법.
제 1 항에 있어서,

상기 적어도 하나의 오브젝트-기반 큐 코드는 상기 청각 장면의 제 1 포위도를 포함하는, 오디오 채널 인코딩 방법.
제 1 항에 있어서,

상기 적어도 하나의 오브젝트-기반 큐 코드는 상기 청각 장면의 제 2 포위도를 포함하는, 오디오 채널 인코딩 방법.
제 1 항에 있어서,

상기 적어도 하나의 오브젝트-기반 큐 코드는 상기 청각 장면의 방향성을 포함하는, 오디오 채널 인코딩 방법.