KR101759005B1

KR101759005B1 - 3d 오디오 계층적 코딩을 이용한 라우드스피커 포지션 보상

Info

Publication number: KR101759005B1
Application number: KR1020157003636A
Authority: KR
Inventors: 디판잔 센
Original assignee: 퀄컴 인코포레이티드
Priority date: 2012-07-16
Filing date: 2013-07-16
Publication date: 2017-07-17
Also published as: CN104429102A; EP2873254A1; CN104429102B; US20140016802A1; BR112015001001A2; JP6092387B2; US9473870B2; JP2015527821A; KR20150038048A; IN2014MN02630A; WO2014014891A1; EP2873254B1

Abstract

일반적으로, 기법들은 계층적 3 차원 (3D) 오디오 코딩을 이용하여 라우드스피커 포지션들을 보상하는 것에 대해 설명된다. 하나 이상의 프로세서들을 포함하는 장치는 기법들을 수행할 수도 있다. 프로세서들은 음장을 기술하는 엘리먼트들의 제 1 계층적 세트를 발생시키기 위해 스피커들의 제 1 기하학적 구조에 대한 오디오 채널 정보의 제 1 세트에 대해 구면파 모델에 기초하는 제 1 변환을 수행하도록 구성될 수도 있다. 프로세서들은 스피커들의 제 2 기하학적 구조에 대한 오디오 채널 정보의 제 2 세트를 발생시키기 위해 엘리먼트들의 제 1 계층적 세트에, 주파수 도메인에서 제 2 변환을 수행하도록 더 구성될 수도 있다.

Description

3D 오디오 계층적 코딩을 이용한 라우드스피커 포지션 보상{LOUDSPEAKER POSITION COMPENSATION WITH 3D-AUDIO HIERARCHICAL CODING}

본 출원은 2012 년 7 월 16 일에 출원된 미국 가출원 제 61/672,280 호, 및 2013 년 1 월 18 일에 출원된 미국 가출원 제 61/754,416 호의 우선권을 주장한다.

기술분야

본 개시물은 공간적 오디오 코딩에 관한 것이다.

예를 들어, 5.1 홈 시어터 시스템에서 NHK (Nippon Hoso Kyokai 또는 일본 방송 기업) 에 의해 개발된 22.2 시스템에 이르기까지 다양한 '서라운드 사운드' 포맷들이 있다. 종종, 이러한 이른바 서라운드 사운드 포맷들은 스피커들이 오디오 재생 시스템에서 음장을 가장 잘 재생성할 수도 있도록 스피커들이 포지셔닝될 위치들을 명시한다. 그러나, 서라운드 사운드 포맷들 중 하나 이상의 서라운드 사운드 포맷을 지원하는 오디오 재생 시스템들을 갖는 것들은 종종 포맷에 명시된 위치들에 스피커들을 정확하게 배치하지 않는데, 종종 오디오 재생 시스템이 위치된 방이 스피커들이 배치될 수도 있는 장소의 면에서 제한들을 가지기 때문이다. 소정의 포맷들은 스피커들이 포지셔닝될 수도 있는 장소의 면에서 다른 포맷들보다 더 융통성 있을 수도 있으나, 일부 포맷들은 보다 널리 쓰일 수 있으며, 보다 융통성 있는 포맷들로의 업그레이드 또는 전환과 연관된 높은 비용들로 인해 소비자들이 이러한 보다 융통성 있는 포맷들로의 업그레이드 또는 전환를 망설이는 것을 초래한다.

본 개시물은 이러한 역방향 호환성의 결점을 다루는데 이용될 수도 있고, 한편으로는 또한 보다 융통성 있는 서라운드 사운드 포맷들 (다시, 이러한 포맷들은 스피커들이 위치될 수도 있는 장소의 면에서 "보다 융통성 있다" 는 것이다) 에 대한 전환을 가능하게 하는 방법들, 시스템들, 및 장치를 설명한다. 본 개시물에 설명된 기법들은 음장 (sound field) 의 2 차원 또는 3 차원 표현을 제공할 수도 있는 구면 조화 계수 (spherical harmonic coefficient; SHC) 들로의 변환을 수용할 수도 있는 역방향 호환가능한 오디오 신호들을 전송하고 수신하는 것 양자 모두의 다양한 방식들을 제공할 수도 있다. 5.1 서라운드 사운드 포맷에 따르는 것들과 같이, SHC 로의, 역방향 호환가능한 오디오 신호들의 변환을 가능하게 함으로써, 기법들은 거의 어떠한 스피커 기하학적 구조에도 맵핑될 수도 있는 음장의 3 차원 표현을 복원할 수도 있다.

일 양상에서, 오디오 신호 프로세싱의 방법은, 구면파 모델에 기초하는 제 1 변환으로, 스피커들의 제 1 기하학적 구조에 대한 오디오 채널 정보의 제 1 세트를 음장을 기술하는 엘리먼트들의 제 1 계층적 세트로 변환시키는 단계, 및 제 2 변환으로, 엘리먼트들의 제 1 계층적 세트를 스피커들의 제 2 기하학적 구조에 대한 오디오 채널 정보의 제 2 세트로, 주파수 도메인에서 변환시키는 단계를 포함한다.

다른 양상에서, 장치는 음장을 기술하는 엘리먼트들의 제 1 계층적 세트를 발생시키기 위해 스피커들의 제 1 기하학적 구조에 대한 오디오 채널 정보의 제 1 세트에 대해 구면파 모델에 기초하는 제 1 변환을 수행하고, 스피커들의 제 2 기하학적 구조에 대한 오디오 채널 정보의 제 2 세트를 발생시키기 위해 엘리먼트들의 제 1 계층적 세트에 대해 주파수 도메인에서 제 2 변환을 수행하도록 구성된 하나 이상의 프로세서들을 포함한다.

다른 양상에서, 장치는, 구면파 모델에 기초하는 제 1 변환으로, 스피커들의 제 1 기하학적 구조에 대한 오디오 채널 정보의 제 1 세트를 음장을 기술하는 엘리먼트들의 제 1 계층적 세트로 변환시키는 수단, 및 제 2 변환으로, 엘리먼트들의 제 1 계층적 세트를 스피커들의 제 2 기하학적 구조에 대한 오디오 채널 정보의 제 2 세트로, 주파수 도메인에서 변환시키는 수단을 포함한다.

다른 양상에서, 비일시적 컴퓨터 판독가능 저장 매체는, 실행되는 경우, 하나 이상의 프로세서들로 하여금, 구면파 모델에 기초하는 제 1 변환으로, 스피커들의 제 1 기하학적 구조에 대한 오디오 채널 정보의 제 1 세트를 음장을 기술하는 엘리먼트들의 제 1 계층적 세트로 변환시키고, 제 2 변환으로, 엘리먼트들의 제 1 세트를 스피커들의 제 2 기하학적 구조에 대한 오디오 채널 정보의 제 2 세트로, 주파수 도메인에서 변환시키게 하는 명령들을 저장하고 있다.

다른 양상에서, 방법은 스피커들의 제 1 기하학적 구조의 좌표와 함께 라우드스피커 채널들을 수신하는 단계를 포함하며, 여기서 라우드스피커 채널들은 엘리먼트들의 계층적 세트로 변환되었다.

다른 양상에서, 장치는 스피커들의 제 1 기하학적 구조의 좌표와 함께 라우드스피커 채널들을 수신하도록 구성된 하나 이상의 프로세서들을 포함하며, 여기서 라우드스피커 채널들은 엘리먼트들의 계층적 세트로 변환되었다.

다른 양상에서, 장치는 스피커들의 제 1 기하학적 구조의 좌표와 함께 라우드스피커 채널들을 수신하는 수단을 포함하며, 여기서 라우드스피커 채널들은 엘리먼트들의 계층적 세트로 변환되었다.

다른 양상에서, 비일시적 컴퓨터 판독가능 저장 매체는, 실행되는 경우, 하나 이상의 프로세서들로 하여금, 스피커들의 제 1 기하학적 구조의 좌표와 함께 라우드스피커 채널들을 수신하게 하는 명령들을 포함하며, 여기서 라우드스피커 채널들은 엘리먼트들의 계층적 세트로 변환되었다.

다른 양상에서, 방법은 스피커들의 제 1 기하학적 구조의 좌표와 함께 라우드스피커 채널들을 송신하는 단계를 포함하며, 여기서 제 1 기하학적 구조는 채널들의 위치들에 대응한다.

다른 양상에서, 장치는 스피커들의 제 1 기하학적 구조의 좌표와 함께 라우드스피커 채널들을 송신하도록 구성된 하나 이상의 프로세서들을 포함하며, 여기서 기하학적 구조는 채널들의 위치들에 대응한다.

다른 양상에서, 장치는 스피커들의 제 1 기하학적 구조의 좌표와 함께 라우드스피커 채널들을 송신하는 수단을 포함하며, 여기서 기하학적 구조는 채널들의 위치들에 대응한다.

다른 양상에서, 비일시적 컴퓨터 판독가능 저장 매체는, 실행되는 경우, 하나 이상의 프로세서들로 하여금, 스피커들의 제 1 기하학적 구조의 좌표와 함께 라우드스피커 채널들을 송신하게 하는 명령들을 저장하고 있으며, 여기서 기하학적 구조는 채널들의 위치들에 대응한다.

본 기법들의 하나 이상의 양상들의 세부사항들이 첨부 도면들 및 하기 설명에서 제시된다. 이러한 기법들의 다른 특징들, 목적들, 및 이점들은 하기의 설명 및 도면들로부터, 그리고 청구항들로부터 자명할 것이다.

도 1 은 코덱을 이용하는 표준화에 대한 일반적인 구조를 도시하는 도면이다.
도 2 는 모노/스테레오에 있어서 역방향 호환가능한 예를 도시하는 도면이다.
도 3 은 역방향 호환성의 고려 없는 장면 기반 코딩의 예를 도시하는 도면이다.
도 4 는 역방향 호환가능한 설계를 갖는 인코딩 프로세스의 예를 도시하는 도면이다.
도 5 는 장면 기반 데이터를 디코딩할 수 없는 종래의 디코더에 대한 디코딩 프로세스의 예를 도시하는 도면이다.
도 6 은 장면 기반 데이터를 처리할 수 있는 디바이스를 갖는 디코딩 프로세스의 예를 도시하는 도면이다.
도 7a 는 본 개시물에 설명된 기법들의 다양한 양상들에 따른 오디오 신호 프로세싱의 방법을 도시하는 흐름도이다.
도 7b 는 본 개시물에 설명된 기법들의 다양한 양상들을 수행하는 장치를 도시하는 블록도이다.
도 7c 는 다른 일반적인 구성에 따른 오디오 신호 프로세싱을 위한 장치를 도시하는 블록도이다.
도 8a 는 본 개시물에 설명된 기법들의 다양한 양상들에 따른 오디오 신호 프로세싱의 방법을 도시하는 흐름도이다.
도 8b 는 본 개시물에 설명된 기법들의 다양한 양상들에 따른 방법의 구현을 도시하는 흐름도이다.
도 9a 는 SHC 에서 다중 채널 신호들로의 컨버전을 도시하는 도면이다.
도 9b 는 다중 채널 신호들에서 SHC 로의 컨버전을 도시하는 도면이다.
도 9c 는 기하학적 구조 A 와 호환가능한 다중 채널 신호들에서 SHC 로의 제 1 컨버전, 및 SHC 에서 기하학적 구조 B 와 호환가능한 다중채널 신호들로의 제 2 컨버전을 도시하는 도면이다.
도 10a 는 일반적인 구성에 따른 오디오 신호 프로세싱의 방법 (M400) 을 도시하는 흐름도이다.
도 10b 는 일반적인 구성에 따른 오디오 신호 프로세싱을 위한 장치 (MF400) 를 도시하는 블록도이다.
도 10c 는 다른 일반적인 구성에 따른 오디오 신호 프로세싱을 위한 장치 (A400) 를 도시하는 블록도이다.
도 10d 는 본 개시물에 설명된 기법들의 다양한 양상들을 수행하는 시스템의 예를 도시하는 도면이다.
도 11a 는 본 개시물에 설명된 기법들의 다양한 양상들을 수행하는 다른 시스템의 예를 도시하는 도면이다.
도 11b 는 디코더에 의해 수행될 수도 있는 동작들의 시퀀스를 도시하는 도면이다.
도 12a 는 일반적인 구성에 따른 오디오 신호 프로세싱의 방법을 도시하는 흐름도이다.
도 12b 는 일반적인 구성에 따른 장치를 도시하는 블록도이다.
도 12c 는 일반적인 구성에 따른 오디오 신호 프로세싱의 방법을 도시하는 흐름도이다.
도 12d 는 일반적인 구성에 따른 오디오 신호 프로세싱의 방법을 도시하는 흐름도이다.
도 13a 내지 도 13c 는 본 개시물에 설명된 기법들의 다양한 양상들을 수행할 수도 있는 예시적인 오디오 재생 시스템들을 도시하는 블록도들이다.
도 14 는 본 개시물에 설명된 기법들의 다양한 양상들을 수행할 수도 있는 자동차의 사운드 시스템을 도시하는 도면이다.

문맥에 의해 명시적으로 제한되지 않는 한, 용어 "신호" 는, 와이어, 버스, 또는 다른 송신 매체로 나타내어지는 메모리 위치의 상태 (또는 메모리 위치들의 세트) 를 포함하여, 그것의 원래의 의미들 중 임의의 것을 나타내기 위해 본원에서 이용된다. 문맥에 의해 명시적으로 제한되지 않는 한, 용어 "발생시키는 것" 은 컴퓨팅하는 것 또는 그렇지 않으면 생성하는 것과 같이 그것의 원래의 의미들 중 임의의 의미를 나타내도록 본원에서 이용된다. 문맥에 의해 명시적으로 제한되지 않는 한, 용어 "산출하는 것" 은 컴퓨팅하는 것, 평가하는 것, 추정하는 것, 및/또는 복수의 값들로부터 선택하는 것과 같은, 그것의 원래의 의미들 중 임의의 의미를 나타내기 위해 본원에서 이용된다. 문맥에 의해 명시적으로 제한되지 않는 한, 용어 "획득하는 것" 은 산출하는 것, 도출하는 것, (예를 들어, 외부 디바이스로부터) 수신하는 것, 및/또는 (예를 들어, 저장 엘리먼트들의 어레이로부터) 취출하는 것과 같은, 그것의 원래의 의미들 중 임의의 의미를 나타내기 위해 이용된다. 문맥에 의해 명시적으로 제한되지 않는 한, 용어 "선택하는 것" 은 2 개 이상의 세트 중 적어도 하나, 그리고 전부보다 적게 식별하는 것, 나타내는 것, 적용하는 것, 및/또는 이용하는 것과 같은, 그것의 원래의 의미들 중 임의의 의미를 나타내기 위해 이용된다. 용어 "포함하는" 이 본 설명 및 청구항들에서 이용되는 경우, 이는 다른 엘리먼트들 또는 동작들을 제외하는 것은 아니다. ("A 는 B 에 기초한다" 에서와 같이) 용어 "에 기초하는" 은, 경우 (i) "로부터 도출되는" (예를 들어, "B 는 A 의 선행자이다"), 경우 (ii) "적어도 기초하는" (예를 들어, "A 는 적어도 B 에 기초한다"), 및 특정 문맥에서 적절한 경우, 경우 (iii) "와 동일한" (예를 들어, "A 는 B 와 동일하다") 을 포함하여, 그것의 원래의 의미들 중 임의의 의미를 나타내기 위해 이용된다. 유사하게, 용어 "에 응답하여" 는, "적어도 응답하여" 를 포함하여, 그것의 원래의 의미들 중 임의의 의미를 나타내기 위해 이용된다.

다중 마이크로폰 오디오 감지 디바이스의 마이크로폰의 "위치" 에 대한 언급들은, 문맥에 의해 달리 나타내어지지 않는 한, 마이크로폰의 음향적으로 민감한 면의 중심의 위치를 나타낸다. 용어 "채널" 은, 특정 문맥에 따라, 때로는 신호 경로를 나타내기 위해, 그리고 때로는 그러한 경로에 의해 전달되는 신호를 나타내기 위해 이용된다. 달리 나타내어지지 않는 한, 용어 "시리즈들" 은 2 개 이상의 아이템들의 시퀀스를 나타내기 위해 이용된다. 용어 "주파수 컴포넌트" 는 신호의 주파수들 또는 주파수 대역들의 세트, 예컨대, (예를 들어, 고속 푸리에 변환에 의해 생성되는 바와 같은) 신호의 주파수 도메인 표현의 샘플, 또는 신호의 하위대역 (예를 들어, 바크 스케일 (Bark scale) 또는 멜 스케일 (mel scale) 하위대역) 중 하나를 나타내는데 이용된다.

달리 나타내어지지 않는 한, 특정 특징을 갖는 장치의 동작의 임의의 개시물은 또한 유사한 특징을 갖는 방법을 개시하는 것을 명시적으로 의도하고 (그 반대도 그렇다), 특정 구성에 따른 장치의 동작의 임의의 개시물은 또한 유사한 구성에 따른 방법을 개시하는 것을 명시적으로 의도한다 (그 반대도 그렇다). 용어 "구성" 은 특정 문맥에 의해 나타내어지는 바와 같이 방법, 장치, 및/또는 시스템을 참조하여 이용될 수도 있다. 용어들 "방법", "프로세스", "절차", 및 "기법" 은 특정 문맥에 의해 달리 나타내어지지 않는 한 일반적으로 그리고 상호교환가능하게 이용된다. 용어들 "장치" 및 "디바이스" 는 또한 특정 문맥에 의해 달리 나타내어지지 않는 한 일반적으로 그리고 상호교환가능하게 이용된다. 용어들 "엘리먼트" 및 "모듈" 은 통상적으로 보다 큰 구성의 일부분을 나타내는데 이용된다. 문맥에 의해 명시적으로 제한되지 않는 한, 용어 "시스템" 은 본원에서, 공통의 목적을 제공하기 위해 상호작용하는 엘리먼트들의 그룹" 을 포함하여, 그것의 원래의 의미들 중 임의의 의미를 나타내는데 이용된다.

서라운드 사운드의 진화는 오늘날 엔터네인먼트에 있어서 많은 출력 포맷들을 이용가능하게 했다. 그러한 서라운드 사운드 포맷들의 예들은 (다음의 6 개의 채널들: 전면 좌측 (FL), 전면 우측 (FR), 중앙 또는 전면 중앙, 후면 좌측 또는 서라운드 좌측, 후면 우측 또는 서라운드 우측, 및 저주파 효과 (Low Frequency Effect; LFT) 들을 포함하는) 대중적인 5.1 포맷, 증가하고 있는 7.1 포맷, 및 (예를 들어, 울트라 고화질 텔레비전 표준으로 이용하기 위한) 미래의 22.2 포맷을 포함한다. 추가적인 예들은 구면 조화 어레이에 대한 포맷들을 포함한다. 서라운드 사운드 포맷이 2 차원으로 및/또는 3 차원으로 오디오를 인코딩하는 것이 바람직할 수도 있다.

'생성은 한번만 하고, 많이 이용한다' 는 이념에 따르는 것이 바람직할 수도 있으며, 여기서 오디오 재료는 (예를 들어, 컨텐츠 창조자에 의해) 한 번만 생성되고, 상이한 출력들 및 스피커 설정들로 후속하여 디코딩되고 렌더링될 수 있는 포맷들로 인코딩된다.

미래의 MPEG 인코더에 대한 입력은 선택적으로, 3 개의 가능한 포맷들: (i) 미리 명시된 포지션들에서 라우드스피커들을 통해 재생되기로 되어 있는 종래의 채널 기반 오디오; (ii) (다른 정보 중에서) 위치 좌표를 포함하여 연관된 메타데이터와 함께 단일 오디오 오브젝트들에 이산 펄스 코드 변조 (pulse-code-modulation; PCM) 데이터를 수반하는 오브젝트 기반 오디오; 및 (iii) ("구면 조화 계수들" 또는 SHC 라고도 불리는) 구면 조화 기본 함수들의 계수들을 이용하여 음장을 나타내는 것을 수반하는 장면 기반 오디오 중 하나이다.

세 번째의, 장면 기반 포맷을 이용하는 것에는 다수의 이점들이 있다. 그러나, 이러한 포맷을 이용하는 것의 한 가지 있을 수 있는 단점은 기존의 소비자 오디오 시스템들에 대한 역방향 호환성의 부재이다. 예를 들어, 대부분의 기존의 시스템들은 5.1 채널 입력을 받아들인다. 종래의 채널 기반 행렬화된 오디오는 확장된 채널 포맷의 하위세트로서 5.1 샘플들을 가짐으로써 이러한 문제를 우회할 수 있다. 비트 스트림에서, 5.1 샘플들은 기존의 (또는 "레거시") 시스템들에 의해 인식되는 위치에 있고, 추가의 채널들은 모든 채널 샘플들이 들어 있는 프레임 패킷의 확장된 부분에 위치될 수 있다. 대안으로, 5.1 채널 데이터는 보다 큰 수의 채널들에 대한 행렬화 동작으로부터 결정될 수 있다.

SHC 를 이용하는 경우에 역방향 호환성의 부재는 SHC 가 PCM 데이터가 아니라는 사실 때문이다. 본 개시물은 음장을 나타내기 위해 ("구면 조화 계수들" 또는 SHC 라고도 불리는) 구면 조화 기본 함수들의 계수들을 이용하는 경우에 이러한 역방향 호환성의 부재를 다루는데 이용될 수도 있는 방법들, 시스템들, 및 장치를 설명한다.

시장에는 다양한 '서라운드 사운드' 포맷들이 있다. 그것들은 범위가, 예를 들어, (스테레오를 넘어 거실로의 진출이라는 면에서 가장 성공적인) 5.1 홈 시어터 시스템에서 NHK (Nippon Hoso Kyokai 또는 일본 방송 회사) 에 의해 개발된 22.2 시스템까지 이른다. 컨텐츠 창조자들 (예를 들어, 할리우드 스튜디오들) 은 영화에 대한 사운드트랙을 한번만 생성하고, 각각의 스피커 구성에 대해 사운드트랙을 리믹스하기 위해 노력을 들이길 원하지 않을 것이다. 표준화된 비트 스트림으로의 인코딩, 및 스피커 기하학적 구조 및 렌더링기의 위치에서의 음향적 조건들에 적응가능하고 그 모두에 쓰일 수 있는 후속하는 디코딩을 제공하는 것이 바람직할 수도 있다.

도 1 은, 재생을 위해 최종적으로 이용되는 특정 설정에 관계없이 균일한 청취 경험의 목표를 제공하기 위해, MPEG (Moving Picture Experts Group) 코덱을 이용하는, 그러한 표준에 대한 일반적인 구조를 도시한다. 도 1 에 도시된 바와 같이, MPEG 인코더 (10) 는 오디오 소스들 (12) 의 인코딩된 버전을 발생시키도록 오디오 소스들 (12) 을 인코딩하며, 여기서 오디오 소스들 (12) 의 인코딩된 버전은 송신 채널 (14) 을 통해 MPEG 디코더 (16) 로 전송된다. MPEG 디코더 (16) 는, 적어도 부분적으로, 오디오 소스들 (12) 을 복원하기 위해 오디오 소스들 (12) 의 인코딩된 버전을 디코딩한다. 오디오 소스들 (12) 의 복원된 버전은 도 1 의 예에서 출력 (18) 으로서 도시된다.

입체음향 포맷이 도입되었을지라도 역방향 호환성이 쟁점인데, 호환성을 유지하기 위해 레거시 단선율 재생 시스템들에 필요하기 때문이다. 모노-스테레오 역방향 호환성은 행렬화를 이용하여 유지되었다. 스테레오 'M-중간' 및 'S-사이드' 포맷은 단지 M 채널만을 이용함으로써 모노 가능 시스템들과의 호환성을 유지하는 것이 가능하다.

도 2 는 'L-좌측' 및 'R-우측' 채널들을 디코딩하기 위해 간단한 2×2 행렬 연산을 수행할 수도 있는 스테레오 가능 시스템 (19) 을 도시하는 도면이다. (동일하게 되는) 위의 행렬의 역을 이용함으로써 L-R 신호로부터 M-S 신호가 컴퓨팅될 수 있다. 이러한 방식으로, 레거시 모노 재생기 (20) 는 기능성을 유지하는 반면, 스테레오 재생기 (22) 는 정확하게 좌측 및 우측 채널들을 디코딩할 수 있다. 유사한 방식으로, 역방향 호환성을 유지하는 제 3 채널이 추가될 수 있어, 모노 재생기 (20) 및 스테레오 재생기 (22) 의 기능성을 지키고 3 개의 채널 재생기의 기능성을 추가한다.

오브젝트 기반 포맷에서 역방향 호환성의 쟁점을 다루기 위한 하나의 제안된 접근법은 오브젝트들과 함께 다운믹싱된 5.1 채널 신호를 전송하는 것이다. 그러한 시나리오에서, 음장을 렌더링하기 위해, 레거시 5.1 시스템들은 다운믹싱된 채널 기반 오디오를 재생할 것이며, 반면 보다 진보된 렌더링기 (renderer) 들은 5.1 오디오와 개별적인 오디오 오브젝트들의 조합, 또는 단지 개별적인 오브젝트들만을 이용할 것이다.

음장을 나타내기 위해 엘리먼트들의 계층적 세트만을 이용하는 것이 바람직할 수도 있다. 엘리먼트들의 계층적 세트는 낮은 순위의 엘리먼트들의 기본 세트가 모델링된 음장의 전체 표현을 제공하도록 엘리먼트들이 순위화되는 세트이다. 세트가 보다 높은 순위의 엘리먼트들을 포함하도록 확장됨에 따라, 표현은 보다 상세하게 된다.

엘리먼트들의 계층적 세트의 일 예는 SHC 의 세트이다. 다음의 수식은 SHC 를 이용하는 음장의 기술 또는 표현을 입증한다:

이러한 수식은 음장의 임의의 지점 (

) 에서의 압력 (

) 이 SHC

에 의해 고유하게 나타내어질 수 있다는 것을 보여준다. 여기서,

,

는 사운드의 속도 (~343 m/s) 이며,

은 참조 지점 (또는 관측 지점) 이며,

은 차수 n 의 구면 베셀 (Bessel) 함수이고,

는 차수 n 및 하위차수 m 의 구면 조화 기본 함수들이다. 꺽쇠 괄호들에서의 용어는 다양한 시간-주파수 변환들, 예컨대, 이산 푸리에 변환 (DFT), 이산 코사인 변환 (DCT), 또는 웨이브렛 변환에 의해 근사치가 계산될 수 있는 신호 (즉,

) 의 주파수-도메인 표현인 것으로 인지될 수 있다. 계층적 세트들의 다른 예들은 웨이브렛 변환 계수들의 세트들 및 다중해상도 기본 함수들의 계수들의 다른 세트들을 포함한다.

위의 등식은, 주파수 도메인에 있는 것에 더해, 상이한 반경방향 거리들 (또는, "반경들") 에 대한 SHC 의 도출을 가능하게 하는 구면파 모델을 또한 나타낸다. 즉, SHC 는 상이한 반경들, r 에 대해 도출될 수도 있으며, 이는 SHC 가 이른바 "스위트 스팟 (sweet spot)" 또는 청취자가 청취하고자 하는 장소로부터 다양한 그리고 상이한 거리들에 포지셔닝된 소스들을 수용한다는 것을 의미한다. SHC 는 그 다음에 상이한 구면 표면들 상에 있는 스피커들을 갖는 불규칙한 스피커 기하학적 구조들에 대한 스피커 피드들을 결정하는데 이용될 수도 있고, 그렇게 함으로써 불규칙한 스피커 기하학적 구조의 스피커들을 이용하여 잠재적으로 음장을 보다 좋게 재생한다. 이 점에 있어서, 다른 스피커들과 동일한 구면 표면 상에 있지 않은 그러한 스피커들의 반경 정보 (예를 들어, 예컨대, 스위트 스팟에서부터 스피커까지 측정된 반경들) 를 수신하고, 그 다음에 파면 확산을 보상하기 위해 지연을 도입하기 보다는, SHC 는 상이한 반경 거리들에서 음장을 보다 정확하게 재생하기 위해 위의 등식을 이용하여 도출될 수 있다.

SHC

는 다양한 마이크로폰 어레이 구성들에 의해 물리적으로 획득되거나 (예를 들어, 기록되거나), 대안으로, 그것들은 음장의 채널 기반 또는 오브젝트 기반 설명들로부터 도출될 수 있다. 전자는 제안된 인코더에 대한 장면 기반 오디오 입력을 나타낸다. 예를 들어, 25 개의 계수들을 수반하는 4 차 표현이 이용될 수도 있다.

개별적인 오디오 오브젝트에 대응하는 음장에 대한 계수들 (

) 은

,

와 같이 나타내어질 수 있으며,

여기서 i 는

이며,

은 n 차의 (제 2 유형의) 구면 헨켈 (Hankel) 함수이고,

는 오브젝트의 위치이다. 주파수의 함수로써 소스 에너지 (

) 를 아는 것은 (예를 들어, 시간-주파수 분석 기법들을 이용하는 것은, 예컨대, PCM 스트림에 대해 고속 푸리에 변환을 수행하는 것은) 우리가 각각의 PCM 오브젝트 및 그것의 위치를 SHC

로 컨버팅하는 것을 허용한다. 또한, (위의 것이 선형이고 직교 분해이기 때문에) 각각의 오브젝트에 대해

계수들이 추가되는 것으로 볼 수 있다. 이러한 방식으로, 다수의 PCM 오브젝트들은 (예를 들어, 개별적인 오브젝트들에 대한 계수 벡터들의 합으로써)

계수들에 의해 나타내어질 수 있다. 근본적으로, 이러한 계수들에는 음장에 대한 정보 (3D 좌표의 함수로서 압력) 가 들어 있고, 위의 것은, 관측 지점 (

) 의 인근에서, 개별적인 오브젝트에서 전체 음장의 표현으로의 변환을 나타낸다. 위의 수식들은 약간 상이한 형태로 문헌에서 보일 수도 있다는 것을 당업자는 인지할 것이다.

본 개시물은, 음장을 나타내는 엘리먼트들의 완전한 계층적 세트 (예를 들어, 그렇지 않으면 역방향 호환성이 쟁점이 아닌 경우에 이용될 수도 있는 SHC 의 세트) 의 하위세트 (예를 들어, 기본 세트) 를 (예를 들어, 종래의 다중채널 오디오 포맷을 나타내는) 오디오의 다수의 채널들로 컨버팅하는데 이용될 수도 있는 시스템들, 방법들, 및 장치의 설명들을 포함한다. 그러한 접근법은 역방향 호환성을 유지할 것이 요구되는 임의의 개수의 채널들에 적용될 수도 있다. 그러한 접근법은 적어도 종래의 5.1 서라운드/홈 시어터 능력과의 호환성을 유지하도록 구현될 것임이 예상될 수도 있다. 5.1 포맷에 있어서, 다중채널 오디오 채널들은 전면 좌측, 중앙, 전면 우측, 좌측 서라운드, 우측 서라운드, 및 저주파 효과 (LFE) 들이다. SHC 의 전체 개수는 다양한 요인들에 의존할 수도 있다. 장면 기반 오디오에 있어서, 예를 들어, SHC 의 전체 개수는 레코딩 어레이에 있는 마이크로폰 트랜스듀서들의 개수에 의해 제약을 받을 수도 있다. 채널 및 오브젝트 기반 오디오에 있어서, SHC 의 전체 개수는 이용가능한 대역폭에 의해 결정될 수도 있다.

인코딩된 채널들은 요구되는 대응 채널 기반 포맷에 부합하는 패킷의 대응하는 부분에 채워 넣어질 수도 있다. 계층적 세트의 나머지 (예를 들어, 하위세트의 부분이 아닌 SHC) 는 컨버팅되지 않을 것이고, 대신에 역방향 호환가능한 다중채널 오디오와 함께 송신 (및/또는 저장) 을 위해 인코딩될 수도 있다. 예를 들어, 이러한 인코딩된 비트들은 프레임에 대한 패킷의 확장된 부분 (예를 들어, 사용자 정의 부분) 안에 채워 넣어질 수도 있다.

다른 실시형태에서, 인코딩 또는 트랜스코딩 동작이 다중채널 신호들에 대해 이행될 수 있다. 예를 들어, 5.1 채널들은 많은 소비자 디바이스들 및 셋 톱 박스들에 있는 AC3 디코더들과의 역방향 호환성을 계속 지니기 위해 (ATSC A/52 또는 Dolby Digital 이라고도 불리는) AC3 포맷으로 코딩될 수 있다. 이러한 시나리오일지라도, 계층적 세트의 나머지 (예를 들어, 하위세트의 부분이 아닌 SHC) 는 별도로 인코딩되어 AC3 패킷의 하나 이상의 확장된 부분들 (예를 들어, 보조데이터 (auxdata)) 로 송신 (및/또는 저장) 될 것이다. 이용될 수도 있는 타겟 포맷들의 다른 예들은 Dolby TrueHD, DTS-HD Master Audio, 및 MPEG Surround 를 포함할 수도 있다.

디코더에서, 레거시 시스템들은 프레임-패킷의 확장된 부분들은 무시하며, 오직 다중채널 오디오 컨텐츠만을 이용하고 따라서 기능성을 계속 지니고 있을 것이다.

고급 렌더링기들은 다중채널 오디오를 계층적 세트의 원래의 하위세트 (예를 들어, SHC 의 기본 세트) 로 컨버팅하기 위해 역 변환을 수행하도록 구현될 수도 있다. 채널들이 다시 인코딩되거나 트랜스코딩되는 경우, 디코딩의 중간 단계가 수행될 수도 있다. 패킷의 확장된 부분들에서의 비트들은 계층적 세트의 나머지 (예를 들어, SHC 의 확장된 세트) 를 추출하도록 디코딩될 것이다. 이러한 방식으로, 완전한 계층적 세트 (예를 들어, SHC 의 세트) 가 복원되어 다양한 유형의 음장 렌더링이 일어나는 것을 허용할 수 있다.

그러한 역방향 호환가능한 시스템의 예들은, 인코더 구조 및 디코더 구조 양자 모두에 대한 설명들과 함께, 다음의 시스템 도면들에서 요약된다.

도 3 은 본 개시물에 설명된 기법들의 양상들에 따른 장면 기반 구면 조화 접근법으로 인코딩 및 디코딩 프로세스를 수행하는 시스템 (30) 을 도시하는 블록도이다. 이러한 예에서, 인코더 (32) 는 렌더링을 위해 SHC (34) 를 수신하도록 송신 (및/또는 저장) 되고 ("장면 기반 디코더 (40)" 로서 도시된) 디코더 (40) 에서 디코딩되는 소스 구면 조화 계수들 (34) ("SHC 34") 의 기술을 생성한다. 그러한 인코딩은 하나 이상의 손실 또는 무손실 코딩 프로세스들, 예컨대, (예를 들어, 하나 이상의 코드북 인덱스들로의) 양자화, 오류 정정 코딩, 리던던시 코딩 등을 포함할 수도 있다. 또한 또는 대안으로, 그러한 인코딩은 앰비소닉 포맷, 예컨대, B 포맷, G 포맷, 또는 고차 앰비소닉 (Higher-order Ambisonics; HOA) 으로의 인코딩을 포함할 수도 있다. 일반적으로, 인코더 (32) 는 인코딩된 SHC (38) 를 발생시키기 위해 (손실 또는 무손실 코딩 어느 일방에 있어서) 리던던시들 및 무관성들의 이점을 취하는 공지의 기법들을 이용하여 SHC (34) 를 인코딩할 수도 있다. 인코더 (32) 는 종종 (인코딩된 SHC (38) 를 디코딩할 시에 유용할 수도 있는 다른 데이터와 함께 인코딩된 SHC (38) 를 포함할 수도 있는) 비트스트림의 형태로 송신 채널 (36) 을 통해 이러한 인코딩된 SHC (38) 를 송신할 수도 있다. 디코더 (40) 는 SHC (34) 또는 그것의 약간 수정된 버전을 복원하기 위해 인코딩된 SHC (38) 를 수신하여 디코딩할 수도 있다. 디코더 (40) 는 구면 조화 렌더링기 (42) 에 복원된 SHC (34) 를 출력할 수도 있으며, 구면 조화 렌더링기는 하나 이상의 출력 오디오 신호들 (44) 로서 복원된 SHC (34) 를 렌더링할 수도 있다. 장면 기반 디코더 (40) 가 없는 구형 수신기들은 그러한 신호들을 디코딩하는 것이 불가능할 수도 있고, 따라서, 프로그램을 재생하는 것이 가능하지 않을 수도 있다.

도 4 는 본 개시물에 설명된 기법들의 다양한 양상들을 수행할 수도 있는 인코더 (50) 를 도시하는 도면이다. 소스 SHC (34) (예를 들어, 도 3 에 도시된 것과 동일한 것) 는 장면 기반 가능 레코딩 스튜디오에서 믹싱 엔지니어들에 의해 믹싱된 소스 신호들일 수도 있다. SHC (34) 는 또한 마이크로폰 어레이에 의해 캡쳐되거나, 서라운드 스피커들에 의한 소리 프레젠테이션의 레코딩일 수도 있다.

인코더 (50) 는 SHC (34) 의 세트의 두 부분들을 상이하게 프로세싱할 수도 있다. 인코더 (50) 는 호환가능한 다중채널 신호들 (55) 을 발생시키기 위해 SHC (34) 의 기본 세트 ("기본 세트 (34A)") 에 변환 행렬 (52) 을 적용할 수도 있다. 재-인코더/트랜스코더 (56) 는 그 다음에 (FFT 도메인과 같은 주파수 도메인 또는 시간 도메인에 있을 수도 있는) 이러한 신호들 (55) 을 다중채널 신호들을 기술하는 역방향 호환가능한 코딩된 신호들 (59) 로 인코딩할 수도 있다. 호환가능한 코더들은, 예를 들어, 예컨대, (ATSC A/52 또는 Dolby Digital 이라고도 불리는) AC3, Dolby TrueHD, DTS-HD Master Audio, MPEG Surround 를 포함할 수 있다. 그러한 구현이 2 개 이상의 상이한 트랜스코더들을 포함하는 것이 또한 가능하며, 각각은 다중채널 신호를 상이한 각각의 포맷으로 코딩하여 (예를 들어, AC3 트랜스코더 및 Dolby TrueHD 트랜스코더), 송신 및/또는 저장을 위한 2 개의 상이한 역방향 호환가능한 비트스트림들을 생성한다. 대안으로, 코딩은, 예를 들어, (HDMI 표준들에 의해 지원되는) 선형 PCM 스트림들의 세트로서 다중채널 오디오 신호들을 단지 출력하기 위해 완전히 무시될 수 있다.

SHC (34) 의 남은 것은 SHC (34) 의 확장된 세트 ("확장된 세트 (34B)") 를 나타낼 수도 있다. 인코더 (50) 는 장면 기반 인코더 (54) 를 불러와 기본 세트 (34B) 를 인코딩할 수도 있으며, 장면 기반 인코더는 비트스트림 (57) 을 발생시킨다. 인코더 (50) 는 그 다음에 비트 다중화기 (58) ("비트 다중화기 (58)") 를 불러와 역방향 호환가능한 비트스트림 (59) 및 비트스트림 (57) 을 다중화할 수도 있다. 인코더 (50) 는 그 다음에 송신 채널 (예를 들어, 유선 및/또는 무선 채널) 을 통해 이러한 다중화된 비트스트림 (61) 을 전송할 수도 있다.

도 5 는 오직 표준 비장면 기반 디코딩만을 지원하나, 본 개시물에 설명된 기법들에 따라 형성된 역방향 호환가능한 비트스트림 (59) 을 복원할 수 있는 표준 디코더 (70) 를 도시하는 도면이다. 다시 말해, 디코더 (70) 에서, 수신기가 구형이고 오직 종래의 디코더들만을 지원하는 경우, 디코더는, 도 5 에 도시된 바와 같이, 오직 역방향 호환가능한 비트스트림 (59) 만을 취하고 확장된 비트스트림 (57) 은 폐기할 것이다. 동작 시에, 디코더 (70) 는 다중화된 비트스트림 (61) 을 수신하고 비트 역다중화기 ("비트 역다중화기 (72)") 를 불러온다. 비트 역다중화기 (72) 는 다중화된 비트스트림 (61) 을 역다중화하여 역방향 호환가능한 비트스트림 (59) 및 확장된 비트스트림 (57) 을 복원한다. 디코더 (70) 는 그 다음에 역방향 호환가능한 디코더 (74) 를 불러와 역방향 호환가능한 비트스트림 (59) 을 디코딩하고, 그렇게 함으로써 출력 오디오 신호들 (75) 을 발생시킨다.

도 6 은 본 개시물에 설명된 기법들의 다양한 양상들을 수행할 수도 있는 다른 디코더 (80) 를 도시하는 도면이다. 수신기가 신형이고 장면 기반 디코딩을 지원하는 경우, 도 4 의 인코더에 대한 상응하는 프로세스인 디코딩 프로세스가 도 6 에 도시된다. 디코더 (70) 와 유사하게, 디코더 (80) 는 다중화된 비트스트림 (61) 을 역다중화하여 역방향 호환가능한 비트스트림 (59) 및 확장된 비트스트림 (57) 을 복원하는 비트 역다중화기 (72) 를 포함한다. 디코더 (80) 는, 그러나, 그 다음에 트랜스코더 (82) 를 불러와 역방향 호환가능한 비트스트림 (59) 을 트랜스코딩하여 다중 채널 호환가능한 신호들 (55) 을 복원할 수도 있다. 디코더 (80) 는 그 다음에 다중 채널 호환가능한 신호들 (55) 에 역 변환 행렬 (84) 을 적용하여 기본 세트 (34A') (여기서 프라임 (') 은 이러한 기본 세트 (34A') 가 기본 세트 (34A) 와 비교하여 약간 수정될 수도 있음을 표시한다) 를 복원할 수도 있다. 디코더 (80) 는 또한 장면 기반 디코더 (86) 를 불러올 수도 있으며, 장면 기반 디코더는 확장된 비트스트림 (57) 을 디코딩하여 확장된 세트 (34B') (여기서, 다시, 프라임 (') 은 이러한 확장된 세트 (34B') 가 확장된 세트 (34B) 와 비교하여 약간 수정될 수도 있음을 표시한다) 를 복원할 수도 있다. 임의의 경우, 디코더 (80) 는 구면 조화 렌더링기 (88) 를 불러와 기본 세트 (34A') 와 확장된 세트 (34B') 의 조합을 렌더링하여 출력 오디오 신호들 (90) 을 발생시킬 수도 있다.

다시 말해, 적용가능한 경우, 트랜스코더 (82) 는 역방향 호환가능한 비트스트림 (59) 을 다중채널 신호들 (55) 로 컨버팅한다. 후속하여, 이러한 다중채널 신호들 (55) 은 역 행렬 (84) 에 의해 프로세싱되어 기본 세트 (34A') 를 복원한다. 확장된 세트 (34B') 는 장면 기반 디코더 (86) 에 의해 복원된다. SHC 의 완전한 세트 (34') 는 SH 렌더링기 (88) 에 의해 조합되고 프로세싱된다.

그러한 구현의 설계는 다중채널 오디오로 (예를 들어, 종래의 포맷으로) 컨버팅될 원래의 계층적 세트의 하위세트를 선택하는 것을 포함할 수도 있다. 생길 수도 있는 다른 쟁점은 (예를 들어, SHC 의) 기본 세트에서 다중채널 오디오로 그리고 다시 기본 세트로의 순방향 및 역방향 컨버전에서 얼마나 많은 오류가 생성되는지이다.

위의 것들에 대해 다양한 해결책들이 가능하다. 하기의 논의들에서, 5.1 포맷이 전형적인 타겟 다중채널 오디오 포맷으로서 이용될 것이고, 예시적인 접근법이 자세히 설명될 것이다. 방법론은 다른 다중채널 오디오 포맷들에 대해 일반화될 수 있다.

(명시된 위치들로부터 전 대역 오디오에 대응하는) 5 개의 신호들이 5.1 포맷에서 이용가능하기 때문에 (더불어, LTF 신호 - 이는 표준화된 위치를 갖지 않고 5 개의 채널들을 저역통과 필터링함으로써 결정될 수 있다), 일 접근법은 5.1 포맷으로 컨버팅하기 위해 5 개의 SHC 를 이용하는 것이다. 또한, 5.1 포맷은 오직 2D 렌더링만이 가능하기 때문에, 일부 수평 정보를 전달하는 SHC 만을 이용하는 것이 바람직할 수도 있다. 예를 들어, 계수

는 수평 방향성에 대한 매우 적은 정보를 전달하고, 따라서 이러한 하위세트로부터 제외될 수 있다.

의 실수부 또는 허수부 중 어느 일방에서도 마찬가지다. 이것들 중 일부는 구현에서 택해진 구형 조화 기본 함수들의 정의에 의존하여 달라진다 (문헌에는 다양한 정의들이 있다 - 실수, 허수, 복소수, 또는 조합들). 이러한 방식으로, 5 개의

계수들이 컨버전을 위해 선발될 수 있다. 계수

가 전방향 정보를 전달할 때, 이러한 계수를 항상 이용하는 것이 바람직할 수도 있다. 유사하게,

의 실수부 및

의 허수부를 포함시키는 것이 바람직할 수도 있는데, 그것들이 상당한 수평 방향성 정보를 전달하기 때문이다. 마지막 2 개의 계수들을 위해, 가능한 후보들은

의 실수부 및 허수부를 포함한다. 다양한 다른 조합들이 또한 가능하다. 예를 들어, 기본 세트는 오직 3 개의 계수들,

,

의 실수부, 및

의 허수부를 포함시키도록 선택될 수도 있다.

다음 단계는 SHC 의 기본 세트 (예를 들어, 위에서 선택된 5 개의 계수들) 과 5.1 포맷에서의 5 개의 전 대역 오디오 신호들 사이에서 컨버팅할 수 있는 가역 행렬을 결정하는 것이다. 가역성에 대한 요구는 해상도의 손실이 거의 없거나 아예 없이 5 개의 전 대역 오디오 신호들의 다시 SHC 의 기본 세트로의 컨버전을 허용하는 것이다.

이러한 행렬을 결정하기 위한 하나의 가능한 방법은 '모드 매칭' 이라고 알려진 동작이다. 여기서, 라우드스피커 피드들은 각각의 라우드스피커가 구면파를 생성한다고 가정하여 컴퓨팅된다. 그러한 시나리오에서, ℓ 번째 라우드스피커로 인한, 소정의 포지션 (

) 에서 (주파수의 함수로서의) 압력은,

으로 주어지며, 여기서,

은 ℓ 번째 라우드스피커의 포지션을 나타내고,

은 (주파수 도메인에서) ℓ 번째 스피커의 라우드스피커 피드이다. 5 개 스피커들 모두로 인한 전체 압력 (

) 은 따라서

으로 주어진다.

5 개의 SHC 의 면에서의 전체 압력은 등식

으로 주어진다는 것을 우리는 또한 알고 있다.

위의 2 개의 등식들을 동일시하는 것은 우리가 변환 행렬을 이용하여 다음과 같이 SHC 의 면에서 라우드스피커 피드들을 나타내는 것을 허용한다.

이러한 수식은 5 개의 라우드스피커 피드들과 택해진 SHC 사이에 직접적인 관계가 있다는 것을 보여준다. 변환 행렬은, 예를 들어, 어느 SHC 가 하위세트에서 이용되었는지 (예를 들어, 기본 세트), 그리고 SH 기본 함수의 어느 정의가 이용되었는지에 의존하여 달라질 수도 있다. 유사한 방식으로, 선택된 기본 세트에서 상이한 채널 포맷 (예를 들어, 7.1, 22.2) 으로의 컨버팅을 위한 변환 행렬이 구성될 수도 있다.

위의 수식에서의 변환 행렬이 스피커 피드들에서 SHC 로의 컨버전을 허용하기는 하나, 우리는 행렬이 가역적이라서, SHC 에서 시작해, 우리가 5 개의 채널 피드들을 작업할 수 있고, 그 다음에, 디코더에서, (고급 (즉, 비레거시) 렌더링기가 존재하는 경우) 우리가 옵션으로 SHC 로 다시 컨버팅할 수 있길 원한다.

행렬의 가역성을 보장하기 위해 위의 프레임워크를 조작하는 다양한 방식들이 활용될 수 있다. 이는 라우드스피커들의 포지션을 변화시키는 것 (예를 들어, ITU-R BS.775-1 표준에 의해 명시된 각도 허용오차를 여전히 고수하도록 5.1 시스템의 5 개의 라우드스피커들 중 하나 이상의 포지션들을 조정하는 것; T-설계를 고수하는 것들과 같은 트랜스듀서들의 규칙적인 각견화들은 통상적으로 잘 작용된다), 조절 기법들 (예를 들어, 주파수 의존적인 조절), 및 전 등급 및 잘 정의된 고유값들을 보장하기 위해 종종 작동하는 다양한 다른 행렬 조작 기법들을 포함하나, 이로 제한되지는 않는다. 마지막으로, 모드 조작 이후에, 수정된 행렬이 실로 정확하고/하거나 받아들일 수 있는 라우드스피커 피드들을 생성하는 것을 보장하도록 심리 음향적으로 5.1 연주를 테스트하는 것이 바람직할 수도 있다. 가역성이 보존되는 한, SHC 로의 정확한 디코딩을 보장하는 역 (inverse) 의 문제는 쟁점이 아니다.

(디코더에서의 스피커 기하학적 구조를 지칭할 수도 있는) 일부 로컬 스피커 기하학적 구조들에 있어서, 가역성을 보장하기 위해 위의 프레임워크를 조작하기 위한 위에서 개요가 기술된 방식은 덜 바람직한 오디오-이미지 품질을 초래할 수도 있다. 즉, 캡쳐되는 오디오와 비교할 경우 사운드 재생은 항상 사운드들의 정확한 로컬화를 초래하는 것이 아닐 수도 있다. 이러한 덜 바람직한 이미지 품질을 정확하게 하기 위해, "가상 스피커들" 이라고 지칭될 수도 있는 개념을 도입하도록 기법들이 더 증대될 수도 있다. 하나 이상의 라우드스피커들이 다시 포지셔닝되거나 위에서 언급된 ITU-R BS.775-1 과 같은 표준에 의해 명시된 소정의 각도 허용오차들을 갖는 공간의 특정 또는 정의된 영역들에 포지셔닝되는 것을 요구하기 보다는, 위의 프레임워크는 패닝 (panning), 예컨대, 벡터 기반 진폭 패닝 (vector base amplitude panning; VBAP), 거리 기반 진폭 패닝, 또는 다른 형태의 패닝 중 일부 형태를 포함하도록 수정될 수도 있다. 설명의 목적으로 VBAP 에 초점을 맞추면, VBAP 는 "가상 스피커들" 이라고 특징지어질 수도 있는 것을 효과적으로 도입할 수도 있다. VBAP 는 일반적으로 하나 이상의 라우드스피커들에 대한 피드를 수정하여 이러한 하나 이상의 라우드스피커들이 가상 스피커를 지원하는 하나 이상의 라우드스피커들의 위치 및/또는 각도 중 적어도 하나와 상이한 위치 및 각도 중 적어도 하나 이상에 있는 가상 스피커로부터 비롯되는 것으로 보이는 사운드를 효과적으로 출력할 수도 있다.

설명하기 위해, SHC 의 면에서 라우드스피커 피드들을 결정하기 위한 위의 등식은 다음과 같이 수정될 수도 있다:

위의 등식에서, VBAP 행렬은 사이즈가 M 개의 행들 곱하기 N 개의 컬럼들이며, 여기서 M 은 스피커들의 개수를 표시하고 (그리고 위의 등식에서 5 와 같을 것이다), N 은 가상 스피커들의 개수를 표시한다. VBAP 행렬은 스피커들의 포지션들의 각각에 대한 청취자의 정의된 위치로부터의 벡터들, 및 가상 스피커들의 포지션들의 각각에 대한 청취자의 정의된 위치로부터의 벡터들의 함수로서 컴퓨팅될 수도 있다. 위의 등식에서 D 행렬은 사이즈가 N 행들 곱하기 (차수+1)² 열들일 수도 있으며, 여기서 차수는 SH 함수들의 차수를 지칭할 수도 있다. D 행렬은 다음의 행렬을 나타낼 수도 있다:

행렬:

사실상, VBAP 행렬은 스피커들의 위치 및 가상 스피커들의 포지션에서의 요인인 "이득 조절" 이라고 지칭될 수도 있는 것을 제공하는 M×N 행렬이다. 이러한 방식으로 패닝을 도입하는 것은 로컬 스피커 기하학적 구조에 의해 재생되는 경우 보다 좋은 품질 이미지를 초래하는 다중 채널 오디오의 보다 좋은 재생을 초래할 수도 있다. 또한, 이러한 등식에 VBAP 를 포함함으로써, 기법들은 다양한 표준들에서 명시된 것들에 맞추어 조정하지 않는 열악한 스피커 기하학적 구조들을 극복할 수도 있다.

실제로, 등식은 SHC 를 라우드스피커들의 특정 기하학적 구조 또는 구성에 대한 다중 채널 피드로 다시 변환시키기 위해 도치되어 사용될 수도 있으며, 이는 하기에서 기하학적 구조 B 라고 지칭될 수도 있다. 즉, 등식은 g 행렬을 풀기 위해 도치될 수도 있다. 도치된 등식은 다음과 같을 수도 있다:

.

g 행렬은, 이 예에서, 5.1 스피커 구성에서 5 개의 라우드스피커들의 각각에 대한 스피커 이득을 나타낼 수도 있다. 이러한 구성에서 이용되는 가상 스피커들 위치들은 5.1 다중채널 포맷 사양 또는 표준에 정의된 위치들에 대응할 수도 있다. 이러한 가상 스피커들의 각각을 지원할 수도 있는 라우드스피커들의 위치는 임의의 개수의 알려진 오디오 로컬화 기법들을 이용하여 결정될 수도 있으며, 이들 중 많은 것들은 헤드엔드 (headend) 유닛 (예컨대, 오디오/비디오 수신기 (A/V 수신기), 텔레비전, 게임 시스템, 디지털 비디오 디스크 시스템, 또는 다른 유형의 헤드엔드 시스템들) 에 대한 각각의 라우드스피커의 위치를 결정하기 위해 특정 주파수를 갖는 톤을 재생하는 것을 수반한다. 대안으로, 헤드엔드 유닛의 사용자는 라우드스피커들의 각각의 위치를 수동으로 명시할 수도 있다. 임의의 경우, 이러한 알려진 위치들 및 가능한 각도들을 고려하여, 헤드엔드 유닛은, VBAP 에 의한 가상 라우드스피커들의 이상적인 구성을 가정하여, 이득들을 구할 수도 있다.

이 점에 있어서, 기법들은 디바이스 또는 장치가 제 1 복수의 라우드스피커 채널 신호들에 대해 벡터 기반 진폭 패닝 또는 다른 유형의 패닝을 수행하여 제 1 복수의 가상 라우드스피커 채널 신호들을 생성하는 것을 가능하게 할 수도 있다. 이러한 가상 라우드스피커 채널 신호들은 이러한 라우드스피커들이 가상 라우드스피커들로부터 비롯되는 것으로 보이는 사운드들을 생성하는 것을 가능하게 하는, 라우드스피커들에 제공되는 신호들을 나타낼 수도 있다. 그 결과, 제 1 복수의 라우드스피커 채널 신호들에 대해 제 1 변환을 수행하는 경우, 기법들은 디바이스 또는 장치가 제 1 복수의 가상 라우드스피커 채널 신호들에 대해 제 1 변환을 수행하여 음장을 기술하는 엘리먼트들의 계층적 세트를 생성하는 것을 가능하게 할 수도 있다.

또한, 기법들은 장치가 엘리먼트들의 계층적 세트에 대해 제 2 변환을 수행하여 제 2 복수의 라우드스피커 채널 신호들을 생성하는 것을 가능하게 할 수도 있으며, 여기서 제 2 복수의 라우드스피커 채널 신호들의 각각은 공간의 대응하는 상이한 영역과 연관되며, 여기서 제 2 복수의 라우드스피커 채널 신호들은 제 2 복수의 가상 라우드스피커 채널들을 포함하고, 여기서 제 2 복수의 가상 라우드스피커 채널 신호들은 공간의 대응하는 상이한 영역과 연관된다. 기법들은, 일부 사례들에서, 디바이스가 제 2 복수의 가상 라우드스피커 채널 신호들에 대해 벡터 기반 진폭 패닝을 수행하여 제 2 복수의 라우드스피커 채널 신호들을 생성하는 것을 가능하게 할 수도 있다.

위의 변환 행렬이 '모드 매칭' 기준으로부터 도출되었으나, 또한, 압력 매칭, 에너지 매칭 등과 같은 다른 기준으로부터 대안적인 변환 행렬들이 도출될 수 있다. 기본 세트 (예를 들어, SHC 하위세트) 와 종래의 다중채널 오디오 사이의 변환을 허용하고, 또한 (다중채널 오디오의 충실도를 감소시키지 않는) 조작 후에 행렬이 도출될 수 있는 것이 충분하며, 역시 가역적인 약간 수정된 행렬이 또한 만들어질 수 있다.

위의 섹션은 5.1 호환가능한 시스템들에 대한 설계를 논의했다. 세부사항들은 상이한 타겟 포맷들에 대해 그에 맞춰 조정될 수도 있다. 예로서, 7.1 시스템들에 대한 호환성을 가능하게 하기 위해, 2 개의 추가의 오디오 컨텐츠 채널들이 호환성 요구사항에 추가되고, 2 개 이상의 SHC 가 기본 세트에 추가될 수도 있어, 행렬은 가역적이다. 7.1 시스템들 (예를 들어, Dolby TrueHD) 에 대한 다수의 라우드스피커 배열이 여전히 수평 평면 상에 있으므로, SHC 의 선택은 여전히 높이 정보를 갖는 것들을 제외할 수 있다. 이러한 방식으로, 수평 평면 신호 렌더링은 렌더링 시스템에 추가된 라우드스피커 채널들로부터 혜택을 받을 것이다. 높이 다양성을 갖는 라우드스피커들을 포함하는 시스템 (예를 들어, 9.1, 11.1, 및 22.2 시스템들) 에서, 기본 세트에 높이 정보를 갖는 SHC 를 포함시키는 것이 바람직할 수도 있다.

스테레오 및 모노와 같이 보다 낮은 개수의 채널들에 대해, 많은 선행 기술들에서 기존의 5.1 해결책들은 컨텐츠 정보를 유지하기 위해 다운믹스를 커버하기에 충분해야 한다. 이러한 경우들은 사소한 것으로 여겨지고 본 개시물에서 더 논의되지 않는다.

위의 것은 따라서 엘리먼트들의 계층적 세트 (예를 들어, SHC 의 세트) 와 다수의 오디오 채널들 사이에서 컨버팅하기 위한 무손실 메커니즘을 나타낸다. 다중채널 오디오 신호들이 추가적인 코딩 노이즈를 겪게 되지 않는 한 어떠한 오류들도 초래되지 않는다. 그것들이 코딩 노이즈를 겪게 되는 경우, SHC 로의 컨버전은 오류들을 초래할 수도 있다. 그러나, 계수들의 값들을 모니터링하고 그것들의 효과를 감소시키도록 적절한 액션을 취함으로써 이러한 오류들을 설명하는 것이 가능하다. 이러한 방법들은, SHC 표현에 내재하는 리던던시를 포함하여, SHC 의 특징들을 고려할 수도 있다.

우리가 다중채널들로 일반화하긴 했지만, 현재 시장에서의 주 역점은 5.1 채널들에 대한 것인데, 그것이 셋 탑 박스들과 같은 레거시 소비자 오디오 시스템들의 기능성을 보장하기 위한 '최소 공통 분모' 이기 때문이다.

본원에서 설명된 접근법은 음장들의 SHC 기반 표현의 이용 시의 잠재적인 결점에 대한 해결책을 제공한다. 이러한 해결책 없이는, 수백 개의 레거시 재생 시스템들에서의 기능성을 가질 수 없음에 따라 부과되는 상당한 결점으로 인해, SHC 기반 표현은 결코 효율적으로 사용될 수 없을 수도 있다.

도 7a 는 본 개시물에서 설명된 기법들의 다양한 양상들과 일관되는 태스크들 (T100, T200, 및 T300) 을 포함하는 일반적인 구성에 따른 오디오 신호 프로세싱의 방법 (M100) 을 도시하는 흐름도이다. 태스크 (T100) 는 음장의 기술 (예를 들어, SHC 의 세트) 을 엘리먼트들의 기본 세트, 예를 들어, 도 4 의 예에 도시된 기본 세트 (34A) 와, 엘리먼트들의 확장된 세트, 예를 들어, 확장된 세트 (34B) 로 나눈다. 태스크 (T200) 는 기본 세트 (34A) 에 대해 변환 행렬 (52) 과 같은 가역 변환을 수행하여 복수의 채널 신호들 (55) 을 생성하며, 여기서 복수의 채널 신호들 (55) 의 각각은 공간의 대응하는 상이한 영역과 연관된다. 태스크 (T300) 는 복수의 채널 신호들 (55) 을 기술하는 제 1 부분, 및 확장된 세트 (34B) 를 기술하는 제 2 부분 (예를 들어, 보조 데이터 부분) 을 포함하는 패킷을 생성한다.

도 7b 는 본 개시물에 설명된 기법들의 다양한 양상들과 일관되는 일반적인 구성에 따른 장치 (MF100) 를 도시하는 블록도이다. 장치 (MF100) 는 (예를 들어, 태스크 (T100) 를 참조하여, 본원에서 설명된 바와 같이) 엘리먼트들의 기본 세트, 예를 들어, 도 4 의 예에 도시된 기본 세트 (34A), 및 엘리먼트들의 확장된 세트 (34B) 를 포함하는 음장의 기술을 포함하는 음장의 기술을 생성하는 수단 (F100) 을 포함한다. 장치 (MF100) 는 또한 (예를 들어, 태스크 (T200) 를 참조하여 본원에서 설명된 바와 같이) 기본 세트 (34A) 에 대해 변환 행렬 (52) 과 같은 가역 변환을 수행하여 복수의 채널 신호들 (55) 을 생성하는 수단 (F200) 을 포함하며, 여기서 복수의 채널 신호들 (55) 의 각각은 공간의 대응하는 상이한 영역과 연관된다. 장치 (MF100) 는 또한 (예를 들어, 태스크 (T300) 를 참조하여 본원에서 설명된 바와 같이) 복수의 채널 신호들 (55) 을 기술하는 제 1 부분 및 엘리먼트들 (34B) 의 확장된 세트를 기술하는 제 2 부분을 포함하는 패킷을 생성하는 수단 (F300) 을 포함한다.

도 7c 는 본 개시물에 설명된 기법들의 다양한 양상들과 일관되는 다른 일반적인 구성에 따른 오디오 신호 프로세싱을 위한 장치 (A100) 의 블록도이다. 장치 (A100) 는 (예를 들어, 태스크 (T100) 를 참조하여, 본원에서 설명된 바와 같이) 엘리먼트들의 기본 세트, 예를 들어, 도 4 의 예에 도시된 기본 세트 (34A), 및 엘리먼트들의 확장된 세트 (34B) 를 포함하는 음장의 기술을 포함하는 음장의 기술을 생성하도록 구성된 인코더 (100) 를 포함한다. 장치 (A100) 는 또한 (예를 들어, 태스크 (T200) 를 참조하여 본원에서 설명된 바와 같이) 기본 세트 (34A) 에 대해 변환 행렬 (52) 과 같은 가역 변환을 수행하여 복수의 채널 신호들 (55) 을 생성하도록 구성된 변환 모듈 (200) 을 포함하며, 여기서 복수의 채널 신호들 (55) 의 각각은 공간의 대응하는 상이한 영역과 연관된다. 장치 (A100) 는 또한 (예를 들어, 태스크 (T300) 를 참조하여 본원에서 설명된 바와 같이) 복수의 채널 신호들 (55) 을 기술하는 제 1 부분 및 엘리먼트들 (34B) 의 확장된 세트를 기술하는 제 2 부분을 포함하는 패킷을 생성하도록 구성된 패킷화기 (300) 를 포함한다.

도 8a 는 본 개시물에 설명된 기법들의 일 예를 나타내는 태스크들 (T400 및 T500) 을 포함하는 일반적인 구성에 따른 오디오 신호 프로세싱의 방법 (M100) 을 도시하는 흐름도이다. 태스크 (T400) 는, 패킷을, 도 5 및 도 6 의 예에서 도시된 신호들 (55) 과 같이, 공간의 대응하는 상이한 영역과 각각 연관되는, 복수의 채널 신호들을 기술하는 제 1 부분과, 엘리먼트들의 확장된 세트, 예를 들어, 도 5 의 예에 도시된 기본 세트 (34A) 를 기술하는 제 2 부분으로 나눈다. 태스크 (T500) 는 복수의 채널 신호들 (55) 에 대해 역 변환 행렬 (84) 과 같은 역 변환을 수행하여 엘리먼트들의 기본 세트 (34A') 를 복원한다. 이러한 방법에서, 기본 세트 (34A') 는 음장을 기술하는 엘리먼트들의 계층적 세트의 낮은 순위 부분을 포함하고 (예를 들어, SHC 의 세트), 엘리먼트들 (34B') 의 확장된 세트는 계층적 세트의 높은 순위 부분을 포함한다.

도 8b 는 태스크들 (T505 및 T605) 을 포함하는 방법 (M100) 의 구현 (M300) 을 도시하는 흐름도이다. 복수의 오디오 신호들 (예를 들어, 오디오 오브젝트들) 의 각각에 대해, 태스크 (T505) 는 신호 및 신호에 대한 공간 정보를 음장을 기술하는 엘리먼트들의 대응하는 계층적 세트로 인코딩한다. 태스크 (T605) 는 복수의 계층적 세트들을 조합하여 태스크 (T100) 에서 프로세싱될 음장의 기술을 생성한다. 예를 들어, 태스크 (T605) 는 (예를 들어, 계수 벡터 추가를 수행하기 위해) 복수의 계층적 세트들을 추가하여 조합된 음장의 기술을 생성하도록 구현될 수도 있다. 하나의 오브젝트에 대한 엘리먼트들의 계층적 세트 (예를 들어, SHC 벡터) 는 오브젝트들의 다른 것에 대한 엘리먼트들의 계층적 세트보다 높은 순위 (예를 들어, 보다 긴 길이) 를 가질 수도 있다. 예를 들어, 전경에 있는 오브젝트 (예를 들어, 주연 배우의 음성) 는 배경에 있는 오브젝트 (예를 들어, 사운드 효과) 보다 높은 순위 세트로 나타내어질 수도 있다.

본원에 개시된 원리들은 또한 채널 기반 오디오 기법에서 라우드스피커 기하학적 구조에서의 차이들을 보상하기 위한 시스템들, 방법들, 및 장치를 구현하는데 이용될 수도 있다. 예를 들어, 보통 전문 오디오 엔지니어/아티스트는 소정의 기하학적 구조 ("기하학적 구조 A") 에서 라우드스피커들을 이용하여 오디오를 믹싱한다. 소정의 대안적인 라우드스피커 기하학적 구조 ("기하학적 구조 B") 에 대한 라우드스피커 피드들을 생성하는 것이 바람직할 수도 있다. (예를 들어, 라우드스피커 피드들과 SHC 사이의 변환 행렬을 참조하여) 본원에 개시된 기법들은 라우드스피커 피드들을 기하학적 구조 A 에서 SHC 로 컨버팅하고, 그 다음에 그것들을 라우드스피커 기하학적 구조 B 로 다시 렌더링하는데 이용될 수도 있다. 일 예에서, 기하학적 구조 B 는 임의적 요구되는 기하학적 구조이다. 다른 예에서, 기하학적 구조 B 는 (예를 들어, ITU-R BS.775-1 표준과 같은 표준 문서들에서 명시된 바와 같은) 표준화된 기하학적 구조이다. 즉, 이러한 표준화된 기하학적 구조는 각각의 스피커가 위치될 공간의 위치 또는 영역을 정의할 수도 있다. 표준에 의해 정의된 공간의 이러한 영역들은 공간의 정의된 영역들이라고 지칭될 수도 있다. 그러한 접근법은 청취자에 대한 라우드스피커들 중 하나 이상의 라우드스피커의 거리들 (반경들) 에서의 기하학적 구조 A 와 B 사이의 차이들 뿐만 아니라, 청취자에 대한 하나 이상의 라우드스피커들의 방위각 및/또는 앙각 (elevation angle) 에서의 차이들을 보상하는데 이용될 수도 있다. 그러한 컨버전은 인코더에서 및/또는 디코더에서 수행될 수도 있다.

도 9a 는 본 개시물에서 설명된 기법들의 다양한 양상들에 따른 변환 행렬 (102) 의 적용을 통해 특정 기하학적 구조와 호환가능한 SHC (100) 에서 다중 채널 신호들 (104) 로의 상술된 컨버전을 도시하는 도면이다.

도 9b 는 본 개시물에 설명된 기법들의 다양한 양상들에 따른 (변환 행렬 (102) 의 도치된 형태일 수도 있는) 변환 행렬 (106) 의 적용을 통해 SHC (100') 를 복원하기 위해 특정 기하학적 구조와 호환가능한 다중채널 신호들 (104) 로부터의 상술된 컨버전을 도시하는 도면이다.

도 9c 는, 본 개시물에 설명된 기법들의 다양한 양상들에 따른, 상술된 변환 행렬 A (108) 의 적용을 통한, SHC (100') 를 복원하기 위해 기하학적 구조 A 와 호환가능한 다중 채널 신호들 (104) 로부터의 제 1 컨버전, 및 변환 행렬 (110) 의 적용을 통한, SHC (100') 에서 기하학적 구조 B 와 호환가능한 다중 채널 신호들 (112) 로의 제 2 컨버전을 도시하는 도면이다. 도 9c 에 도시된 바와 같은 구현은 SHC 에서 다른 기하학적 구조들과 호환가능한 다중 채널 신호들로의 하나 이상의 추가적인 컨버전들을 포함하도록 확장될 수도 있다는 것이 유의된다.

기본적인 경우, 기하학적 구조들 A 및 B 에서의 채널들의 수는 동일하다. 그러한 기하학적 구조 컨버전 애플리케이션들에 있어서, 변환 행렬의 도치가능성을 보장하기 위해 상술된 제약들을 완화하는 것이 가능할 수도 있다는 것이 유의된다. 다른 구현들은 기하학적 구조 A 에서의 채널들의 개수가 기하학적 구조 B 에서의 채널들의 개수보다 많거나 적은 시스템들, 방법들, 및 장치를 포함한다.

도 10a 는 본 개시물에서 설명된 기법들의 다양한 양상들과 일관되는 태스크들 (T600 및 T700) 을 포함하는 일반적인 구성에 따른 오디오 신호 프로세싱의 방법 (M400) 을 도시하는 흐름도이다. 태스크 (T600) 는, (예를 들어, 도 9b 및 도 9c 를 참조하여 설명된 바와 같은) 음장을 기술하는 엘리먼트들의 계층적 세트, 예를 들어, 복원된 SHC (100') 를 생성하기 위해, 제 1 복수의 채널 신호들, 예를 들어, 신호들 (104) 에 대해, 제 1 변환, 예를 들어, 도 9c 에 도시된 변환 행렬 A (108) 를 수행하며, 여기서 제 1 복수의 채널 신호들 (104) 의 각각은 공간의 대응하는 상이한 영역과 연관된다. 태스크 (T700) 는 제 2 복수의 채널 신호들 (112) 을 생성하기 위해 엘리먼트들의 계층적 세트 (100') 에 대해 제 2 변환, 예를 들어, 변환 행렬 (110) 을 수행하며, 여기서 제 2 복수의 채널 신호들 (112) 의 각각은 (예를 들어, 태스크 (T200) 와 도 4, 도 9a, 및 도 9c 를 참조하여 본원에서 설명된 바와 같은) 공간의 대응하는 상이한 영역과 연관된다.

도 10b 는 일반적인 구성에 따른 오디오 신호 프로세싱을 위한 장치 (MF400) 를 도시하는 블록도이다. 장치 (MF400) 는, (예를 들어, 태스크 (T600) 를 참조하여, 본원에 설명된 바와 같은) 음장을 기술하는 엘리먼트들의 계층적 세트, 예를 들어, 복원된 SHC (100') 를 생성하기 위해, 제 1 복수의 채널 신호들, 예를 들어, 신호들 (104) 에 대해, 제 1 변환, 예를 들어, 도 9c 의 예에 도시된 변환 행렬 A (108) 를 수행하는 수단 (F600) 을 포함하며, 여기서 제 1 복수의 채널 신호들 (104) 의 각각은 공간의 대응하는 상이한 영역과 연관된다. 장치 (MF100) 는 또한 제 2 복수의 채널 신호들 (112) 을 생성하기 위해 엘리먼트들의 계층적 세트 (100') 에 대해 제 2 변환, 예를 들어, 변환 행렬 B (110) 를 수행하는 수단 (F700) 을 포함하며, 여기서 제 2 복수의 채널 신호들 (112) 의 각각은 (예를 들어, 태스크 (T200) 및 태스크 (T700) 를 참조하여 본원에 설명된 바와 같은) 공간의 대응하는 상이한 영역과 연관된다.

도 10c 는 본 개시물에서 설명된 기법들과 일관되는 다른 일반적인 구성에 따른 오디오 신호 프로세싱을 위한 장치 (A400) 를 도시하는 블록도이다. 장치 (A400) 는, (예를 들어, 태스크 (T600) 를 참조하여, 본원에 설명된 바와 같은) 음장을 기술하는 엘리먼트들의 계층적 세트, 예를 들어, 복원된 SHC (100') 를 생성하기 위해, 제 1 복수의 채널 신호들, 예를 들어, 신호들 (104) 에 대해, 제 1 변환, 예를 들어, 변환 행렬 A (108) 를 수행하도록 구성된 제 1 변환 모듈 (600) 을 포함하며, 여기서 제 1 복수의 채널 신호들 (104) 의 각각은 공간의 대응하는 상이한 영역과 연관된다. 장치 (A100) 는 제 2 복수의 채널 신호들 (112) 을 생성하기 위해 엘리먼트들의 계층적 세트 (100') 에 대해 제 2 변환, 예를 들어, 변환 행렬 B (110) 를 수행하도록 구성된 제 2 변환 모듈 (250) 을 또한 포함하며, 여기서 제 2 복수의 채널 신호들 (112) 의 각각은 (예를 들어, 태스크 (T200) 및 태스크 (T600) 를 참조하여 본원에 설명된 바와 같은) 공간의 대응하는 상이한 영역과 연관된다. 제 2 변환 모듈 (250) 은, 예를 들어, 변환 모듈 (200) 의 구현으로서 실현될 수도 있다.

도 10d 는 입력 채널들 (123) (예를 들어, 상이한 채널들에 각각 대응하는, PCM 스트림들의 세트) 을 수신하고, 송신 채널 (126) 을 통한 송신 (및/또는, 설명을 용이하게 하기 위해 도시되지는 않았으나, DVD 디스크와 같은 저장 매체에 저장) 하기 위한 대응하는 인코딩된 신호 (125) 를 생성하는 인코더 (122) 를 포함하는 시스템 (200) 의 예를 도시하는 도면이다. 이러한 시스템 (120) 은 또한 인코딩된 신호 (125) 를 수신하고 특정 라우드스피커 기하학적 구조에 따른 라우드스피커 피드들 (127) 의 대응하는 세트를 생성하는 디코더 (124) 를 포함한다. 일 예에서, 인코더 (122) 는 도 9c 에 도시된 바와 같은 절차를 수행하도록 구현되는데, 여기서 입력 채널들은 기하학적 구조 A 에 대응하고, 인코딩된 신호 (125) 는 기하학적 구조 B 에 대응하는 다중채널 신호를 기술한다. 다른 예에서, 디코더 (124) 는 기하학적 구조 A 에 관한 지식을 가지고 도 9c 에 도시된 바와 같은 절차를 수행하도록 구현된다.

도 11a 는 기하학적 구조 A 에 대응하는 입력 채널들 (133) 의 세트를 수신하고, (예를 들어, 공간에서의 라우드스피커들의 좌표의) 대응하는 기하학적 구조 A 의 기술과 함께, 송신 채널 (136) 을 통한 송신을 위한 (및/또는 DVD 디스크와 같은 저장 매체에 저장을 위한) 대응하는 인코딩된 신호 (135) 를 생성하는 인코더 (132) 를 포함하는 다른 시스템 (130) 의 예를 도시하는 도면이다. 이러한 시스템 (130) 은 또한 인코딩된 신호 (135) 및 기하학적 구조 A 기술을 수신하고, 상이한 라우드스피커 기하학적 구조 B 에 따른 라우드스피커 피드들 (137) 의 대응하는 세트를 생성하는 디코더 (134) 를 포함한다.

도 11b 는, 다중 채널 신호들 (140) 에서 SHC (142) 로의 (상술된 바와 같은 변환 행렬 A (114) 의 적용을 통한) 제 1 변환 (컨버전은 기하학적 구조 A 의 기술 (141) 에 따른 (예를 들어, 제 1 변환 모듈 (600) 의 대응하는 구현에 의해) 적응된다), 및 SHC (142) 에서 기하학적 구조 B 와 호환가능한 다중 채널 신호들 (148) 로의 (변환 행렬 B (146) 의 적용을 통한) 제 2 변환을 갖는, 디코더 (134) 에 의해 수행될 수도 있는 동작들의 시퀀스를 도시하는 도면이다. 제 2 변환은 특정 기하학적 구조 B 에 고정될 수도 있거나, 또한 (예를 들어, 제 2 변환 모듈 (250) 의 대응하는 구현에서 제공되는 바와 같이) 요구되는 기하학적 구조 B 의 기술 (설명의 용이함을 위해 도 11b 의 예에서는 미도시) 에 따라 적응될 수도 있다.

도 12a 는 태스크들 (T800 및 T900) 을 포함하는 일반적인 구성에 따른 오디오 신호 프로세싱의 방법 (M500) 을 도시하는 흐름도이다. 태스크 (T800) 는, (도 11b 의 예에서 도시된 변환 행렬 A (144) 와 같은) 제 1 변환으로, 오디오 채널 정보의 제 1 세트, 예를 들어, 신호들 (140) 을, 스피커들의 제 1 기하학적 구조에서, 음장을 기술하는 엘리먼트들의 제 1 계층적 세트, 예를 들어, SHC (142) 로 변환시킨다. 태스크 (T900) 는, (변환 행렬 B (146) 와 같은) 제 2 변환으로, 엘리먼트들의 제 1 계층적 세트 (144) 를 스피커들의 제 2 기하학적 구조에 대한 오디오 채널 정보 (148) 의 제 2 세트로 변환시킨다. 제 1 및 제 2 기하학적 구조는, 예를 들어, 상이한 반경들, 방위각, 및/또는 앙각을 가질 수도 있다.

도 12b 는 일반적인 구성에 따른 장치 (A500) 를 도시하는 블록도이다. 장치 (A500) 는, 오디오 채널 정보의 제 1 세트, 예를 들어, 신호들 (140) 을, 스피커들의 제 1 기하학적 구조에서, 음장을 기술하는 엘리먼트들의 제 1 계층적 세트, 예를 들어, SHC (144) 로의, 도 11b 의 예에서 도시된 변환 행렬 A (144) 와 같은 제 1 변환을 수행하도록 구성된 프로세서 (150) 를 포함한다. 장치 (A500) 는 또한 오디오 채널 정보의 제 1 세트를 저장하도록 구성된 메모리 (152) 를 포함한다.

도 12c 는, 스피커들의 제 1 기하학적 구조의 좌표, 예를 들어, 기술 (141) 과 함께, 라우드스피커 채널들, 예를 들어, 도 11b 의 예에 도시된 신호들 (140) 을 수신하는 일반적인 구성에 따른 오디오 신호 프로세싱의 방법 (M600) 을 도시하는 흐름도로서, 여기서 라우드스피커 채널들은 엘리먼트들의 계층적 세트, 예를 들어, SHC (144) 로 변환되었다.

도 12d 는, 스피커들의 제 1 기하학적 구조의 좌표, 예를 들어, 기술 (141) 과 함께, 라우드스피커 채널들, 예를 들어, 도 11b 의 예에 도시된 신호들 (140) 을 송신하는 일반적인 구성에 따른 오디오 신호 프로세싱의 방법 (M700) 을 도시하는 흐름도로서, 여기서 제 1 기하학적 구조는 채널들의 위치들에 대응한다.

도 13a 내지 도 13c 는 본 개시물에 설명된 기법들의 다양한 양상들을 수행할 수도 있는 예시적인 오디오 재생 시스템들 (200A 내지 200C) 을 도시하는 블록도들이다. 도 13a 의 예에서, 오디오 재생 시스템 (200A) 은 오디오 소스 디바이스 (212), 헤드엔드 디바이스 (214), 전면 좌측 스피커 (216A), 전면 우측 스피커 (216B), 중앙 스피커 (216C), 좌측 서라운드 사운드 스피커 (216D), 및 우측 서라운드 사운드 스피커 (216E) 를 포함한다. 전용 스피커들 (216A 내지 216E) ("스피커 (216)") 를 포함하는 것으로 도시되나, 기법들은 스피커들을 포함하는 다른 디바이스들이 전용 스피커들 (216) 대신에 이용되는 경우들에서 수행될 수도 있다.

오디오 소스 디바이스 (212) 는 소스 오디오 데이터를 발생시킬 수 있는 임의의 유형의 디바이스를 나타낼 수도 있다. 예를 들어, 오디오 소스 디바이스 (212) 는 (인터넷 액세스를 특징으로 하고/하거나 애플리케이션들의 실행을 지원할 수 있는 운영 체제를 실행하는 이른바 "스마트 텔레비전들" 또는 "스마트 TV 들" 을 포함하는) 텔레비전 세트, 디지털 셋 탑 박스 (set top box; STB), 디지털 비디오 디스크 (digital video disc; DVD) 재생기, 고화질 디스크 재생기, 게임 시스템, 멀티미디어 재생기, 스트리밍 멀티미디어 재생기, 레코드 재생기, 데스크탑 컴퓨터, 랩탑 컴퓨터, 태블릿 또는 슬레이트 컴퓨터, (이른바 "스마트 폰들" 을 포함하는) 셀룰러 폰, 또는 소스 오디오 데이터를 발생시키거나 그렇지 않으면 제공할 수 있는 임의의 다른 유형의 디바이스 또는 컴포넌트를 나타낼 수도 있다. 일부 사례들에서, 오디오 소스 디바이스 (212) 는, 예컨대, 오디오 소스 디바이스 (212) 가 텔레비전, 데스크탑 컴퓨터, 랩탑 컴퓨터, 태블릿 혹은 슬레이트 컴퓨터, 또는 셀룰러 폰을 나타내는 경우들에서, 디스플레이를 포함할 수도 있다.

헤드엔드 디바이스 (214) 는 오디오 소스 디바이스 (212) 에 의해 발생되거나 그렇지 않으면 제공되는 소스 오디오 데이터를 프로세싱 (또는, 다시 말해, 렌더링) 할 수 있는 임의의 디바이스를 나타낸다. 일부 사례들에서, 헤드엔드 디바이스 (214) 는, 예를 들어, 오디오 소스 디바이스 (212) 가 헤드엔드 디바이스 (214) 내에 있거나 헤드엔드 디바이스의 일부분이도록, 단일 디바이스를 형성하기 위해 오디오 소스 디바이스 (212) 와 통합될 수도 있다. 설명을 위해, 몇 가지 예들을 제공하기 위해, 오디오 소스 디바이스 (211) 가 텔레비전, 데스크탑 컴퓨터, 랩탑 컴퓨터, 슬레이트 혹은 태블릿 컴퓨터, 게임 시스템, 모바일 폰, 또는 고화질 디스크 재생기를 나타내는 경우, 오디오 소스 디바이스 (212) 는 헤드엔드 디바이스 (214) 와 통합될 수도 있다. 즉, 헤드엔드 디바이스 (214) 는 텔레비전, 데스크탑 컴퓨터, 랩탑 컴퓨터, 슬레이트 혹은 태블릿 컴퓨터, 게임 시스템, 셀룰러 폰, 또는 고화질 디스크 재생기 등과 같은 다양한 디바이스들 중 임의의 디바이스일 수도 있다. 헤드엔드 디바이스 (214) 는, 오디오 소스 디바이스 (212) 와 통합되지 않는 경우, 오디오 소스 디바이스 (212) 및 스피커들 (216) 과 유선 또는 무선 접속 중 어느 일방을 통해 통신하는 다수의 인터페이스들을 제공하는 (통상적으로 "A/V 수신기" 라고 지칭되는) 오디오/비디오 수신기를 나타낼 수도 있다.

스피커들 (216) 의 각각은 하나 이상의 트랜스듀서들을 갖는 라우드스피커들을 나타낼 수도 있다. 통상적으로, 전면 좌측 스피커 (216A) 는 전면 우측 스피커 (216B) 와 유사하거나 거의 동일한 한편, 서라운드 좌측 스피커들 (216D) 는 서라운드 우측 스피커 (216E) 와 유사하거나 거의 동일하다. 스피커들 (216) 은 헤드엔드 디바이스 (214) 와 통신하기 위한, 유선 및/또는 일부 사례들에서 무선 인터페이스들을 제공할 수도 있다. 스피커들 (216) 은 능동적으로 전력이 공급되거나 수동적으로 전력이 공급될 수도 있으며, 여기서 수동적으로 전력이 공급되는 경우, 헤드엔드 디바이스 (214) 는 스피커들 (216) 의 각각을 구동할 수도 있다.

("다중 채널 서라운드 사운드 시스템" 또는 "서라운드 사운드 시스템" 이라고도 지칭될 수도 있는) 통상적인 다중 채널 사운드 시스템에서, 헤드엔드 디바이스 (214) 의 일 예를 나타낼 수도 있는 A/V 수신기는 전용 전면 좌측, 전면 중앙, 전면 우측, ("서라운드 좌측" 이라고도 지칭될 수도 있는) 후면 좌측, 및 ("서라운드 우측" 이라고도 지칭될 수도 있는) 후면 우측 스피커들 (216) 의 배치에 맞추도록 소스 오디오 데이터를 프로세싱한다. A/V 수신기는 보다 좋은 오디오 품질을 제공하고, 스피커들에 전력을 공급하고, 간섭을 감소시키기 위해 이러한 스피커들의 각각에 전용 유선 접속을 종종 제공한다. A/V 수신기는 스피커들 (216) 중 적절한 스피커에 적절한 채널을 제공하도록 구성될 수도 있다.

다수의 상이한 서라운드 사운드 포맷들이 사운드의 스테이지 또는 구역을 복제하기 위해 존재하고, 그렇게 함으로써 보다 실감적인 사운드 경험을 보다 잘 제시한다. 5.1 서라운드 사운드 시스템에서, A/V 수신기는 중앙 채널, 좌측 채널, 우측 채널, 뒤쪽 우측 채널, 및 뒤쪽 좌측 채널을 포함하는 오디오의 5 개의 채널들을 렌더링한다. 5.1 의 ".1" 을 형성하는 추가적인 채널은 서브우퍼 (subwoofer) 또는 베이스 채널에 전용된다. 다른 서라운드 사운드 포맷들은 (추가적인 뒤쪽 좌측 및 우측 채널들을 추가하는) 7.1 서라운드 사운드 포맷, 및 (추가적인 전면 및 뒤쪽 채널들과 다른 서브우퍼 또는 베이스 채널에 더해 높이가 달라지는 추가적인 채널들을 추가하는) 22.2 서라운드 사운드 포맷을 포함한다.

5.1 서라운드 사운드 포맷의 문맥에서, A/V 수신기는 5 개의 라우드스피커들 (216) 을 위해 이러한 5 개의 채널들을, 그리고 서브우퍼 (도 13a 또는 도 13b 의 예에서 미도시) 를 위해 베이스 채널을 렌더링할 수도 있다. A/V 수신기는 신호의 볼륨 레벨들 및 다른 특성들을 변환시키도록 신호들을 렌더링하여 서라운드 사운드 시스템이 동작하는 특정 방에서 음장을 적절히 복제할 수도 있다. 즉, 원래의 서라운드 사운드 오디오 신호는 주어진 방, 예컨대, 15×15 피트 방에 맞추도록 캡쳐되어 프로세싱되었을 수도 있다. A/V 수신기는 서라운드 사운드 시스템이 동작하는 방에 맞추도록 이러한 신호를 프로세싱할 수도 있다. A/V 수신기는 보다 좋은 사운드 스테이지를 생성하도록 이러한 렌더링을 수행하고, 그렇게 함으로써 보다 좋은 또는 보다 더 실감나는 청취 경험을 제공할 수도 있다.

도 13b 의 예에서, 스피커들 (216) 은, 파선 직사각형에 의해 표시되는, 직사각형 스피커 기하학적 구조 (218) 로 배열된다. 이러한 스피커 기하학적 구조는 위에서 언급된 다양한 오디오 표준들 중 하나 이상의 오디오 표준에 의해 명시된 스피커 기하학적 구조와 유사하거나 거의 동일할 수도 있다. 표준화된 스피커 기하학적 구조들에 대한 유사성들을 고려하여, 헤드엔드 디바이스 (214) 는 오디오 신호들 (220) 을 상술된 방식으로 SHC 로 변환시키거나 그렇지 않으면 컨버팅하지 않을 수도 있고, 단지 스피커들 (216) 을 통해 이러한 오디오 신호들 (220) 을 재생만할 수도 있다.

헤드엔드 디바이스 (214) 는, 그러나, 잠재적으로 의도하는 음장을 보다 잘 재생하는 스피커 피드들을 발생시키기 위해, 스피커 기하학적 구조 (218) 가 위에서 언급된 표준들 중 하나에서 언급된 명시된 것과 유사하긴 하나 동일하지는 않은 경우일지라도 이러한 변환을 수행하도록 구성가능할 수도 있다. 이 점에 있어서, 그러한 스피커 기하학적 구조들과 유사한 동안에, 헤드엔드 디바이스 (214) 는 음장을 보다 잘 재생하기 위해 본 개시물에서 상술된 기법들을 여전히 수행할 수도 있다.

도 13b 의 예에서, 시스템 (200B) 이 오디오 소스 디바이스 (212), 헤드엔드 디바이스 (214), 및 스피커들 (216) 을 또한 포함한다는 점에서 시스템 (200B) 은 시스템 (200A) 과 유사하다. 그러나, 직사각형 스피커 기하학적 구조 (218) 로 배열된 스피커들 (216) 을 갖기 보다는, 시스템 (200B) 은 불규칙적인 스피커 기하학적 구조 (222) 로 배열된 스피커들 (216) 을 갖는다. 불규칙적인 스피커 기하학적 구조 (222) 는 비대칭 스피커 기하학적 구조의 일 예를 나타낸다.

이러한 불규칙적인 스피커 기하학적 구조 (222) 의 결과, 사용자는 헤드엔드 디바이스 (214) 가 불규칙적인 스피커 기하학적 구조 (222) 를 명시하는 것을 가능하게 하도록 스피커들 (216) 의 각각의 위치들을 입력하기 위해 헤드엔드 디바이스 (214) 와 인터페이싱할 수도 있다. 헤드엔드 디바이스 (214) 는 그 다음에 상술된 기법들을 수행하여 입력 오디오 신호들 (220) 을 SHC 로 변환시키고, 그 다음에 SHC 를 스피커들 (216) 의 불규칙적인 스피커 기하학적 구조 (222) 를 고려하여 음장을 가장 잘 재생할 수도 있는 스피커 피드들로 변환시킬 수도 있다.

도 13c 의 예에서, 시스템 (200C) 이 오디오 소스 디바이스 (212), 헤드엔드 디바이스 (214), 및 스피커들 (216) 을 또한 포함한다는 점에서 시스템 (200C) 은 시스템 (200A 및 200B) 과 유사하다. 그러나, 직사각형 스피커 기하학적 구조 (218) 로 배열된 스피커들 (216) 을 갖기 보다, 시스템 (200C) 은 다중 평면 기하학적 구조 (226) 로 배열된 스피커들 (216) 을 갖는다. 다중 평면 스피커 기하학적 구조 (226) 는, 다른 스피커들 (216) 중 2 개 이상의 스피커로서, 적어도 하나의 스피커가 동일한 평면, 예를 들어, 도 13c 의 예에서 평면 (228) 상에 있는 않는 경우에 비대칭 다중 평면 스피커 기하학적 구조의 일 예를 나타낸다. 도 13c 의 예에 도시된 바와 같이, 우측 서라운드 스피커 (216E) 는 평면 (228) 에서 스피커 (216E) 의 위치로 수직 변위 (230) 를 갖는다. 남은 스피커들 (216A 내지 216D) 은 평면 (228) 상에 각각 위치되며, 평면 (228) 은 스피커들 (216A 내지 216D) 의 각각에 공통일 수도 있다. 스피커 (216E) 는, 그러나, 스피커들 (216A 내지 216D) 과 상이한 평면에 있을 수도 있고, 따라서 스피커들 (216) 은 2 개 이상의 또는 다시 말해 다중 평면들에 있을 수도 있다.

이러한 다중 평면 스피커 기하학적 구조 (222) 의 결과, 사용자는 헤드엔드 디바이스 (214) 가 다중 평면 스피커 기하학적 구조 (222) 를 명시하는 것을 가능하게 하도록 스피커들 (216) 의 각각의 위치들을 입력하기 위해 헤드엔드 디바이스 (214) 와 인터페이싱할 수도 있다. 헤드엔드 디바이스 (214) 는 그 다음에 상술된 기법들을 수행하여 입력 오디오 신호들 (220) 을 SHC 로 변환시키고, 그 다음에 SHC 를 스피커들 (216) 의 다중 평면 스피커 기하학적 구조 (226) 를 고려하여 음장을 가장 잘 재생할 수도 있는 스피커 피드들로 변환시킬 수도 있다.

도 14 는 본 개시물에 설명된 기법들의 다양한 양상들을 수행할 수도 있는 자동차의 사운드 시스템 (250) 을 도시하는 도면이다. 도 14 의 예에 도시된 바와 같이, 자동차의 사운드 시스템 (250) 은 도 13a 내지 도 13c 의 예에 도시된 상술된 오디오 소스 디바이스 (212) 와 실질적으로 유사할 수도 있는 오디오 소스 디바이스 (252) 를 포함한다. 자동차의 사운드 시스템 (250) 은 또한 헤드엔드 디바이스 (254) ("H/E 디바이스 (254)") 를 포함할 수도 있으며, 헤드엔드 디바이스는 상술된 헤드엔드 디바이스 (214) 와 실질적으로 유사할 수도 있다. 자동차 (251) 의 전면 대시에 위치되는 것으로 도시되었으나, 오디오 소스 디바이스 (252) 및 헤드엔드 디바이스 (254) 중 하나 또는 양자 모두는, 예들로서, 자동차의 바닥, 천장, 또는 후면 구획을 포함하여, 자동차 (251) 내의 어느 곳에도 위치될 수도 있다.

자동차의 사운드 시스템 (250) 은 전면 스피커들 (256A), 운전자 측면 스피커들 (256B), 승객 측면 스피커들 (256C), 뒤쪽 스피커들 (256D), 주변 스피커들 (256E), 및 서브우퍼 (258) 를 더 포함한다. 개별적으로 표시되지는 않았으나, 도 14 의 예에서의 각각의 원 및/또는 스피커 형상의 오브젝트는 별개의 또는 개별적인 스피커를 나타낸다. 그러나, 스피커들 자체의 스피커 피드를 각각 수신하는 별개의 스피커들로서 동작하지만, 스피커들 중 하나 이상의 스피커는 다른 스피커와 연계하여 동작하여 스피커들 중 2 개의 협력하는 것들 사이의 어딘가에 위치된 가상 스피커라고 지칭될 수도 있는 것을 제공할 수도 있다.

이 점에 있어서, 전면 스피커들 (256A) 중 하나 이상의 전면 스피커는 도 13a 내지 도 13c 의 예들에서 도시된 중앙 스피커 (216C) 와 유사한 중앙 스피커를 나타낼 수도 있다. 전면 스피커들 (256A) 중 하나 이상의 전면 스피커는 또한 전면 좌측 스피커 (216A) 와 유사한 전면 좌측 스피커를 나타내고, 한편 전면 스피커들 (256A) 중 하나 이상의 전면 스피커는, 일부 사례들에서, 전면 우측 스피커 (216B) 와 유사한 전면 우측 스피커를 나타낼 수도 있다. 일부 사례들에서, 운전자 측면 스피커들 (256B) 중 하나 이상의 운전자 측면 스피커는 전면 우측 스피커 (216B) 와 유사한 전면 우측 스피커를 나타낼 수도 있다. 일부 사례들에서, 전면 스피커들 (256A) 및 운전자 측면 스피커들 (256B) 의 양자 모두 중 하나 이상은 전면 좌측 스피커 (216A) 와 유사한 전면 좌측 스피커를 나타낼 수도 있다. 마찬가지로, 일부 사례들에서, 승객 측면 스피커들 (256C) 중 하나 이상의 승객 측면 스피커는 전면 우측 스피커 (216B) 와 유사한 전면 우측 스피커를 나타낼 수도 있다. 일부 사례들에서, 전면 스피커들 (256A) 및 승객 측면 스피커들 (256C) 의 양자 모두 중 하나 이상은 전면 우측 스피커 (216B) 와 유사한 전면 우측 스피커를 나타낼 수도 있다.

또한, 운전자 측면 스피커들 (256B) 중 하나 이상의 운전자 측면 스피커는, 일부 사례들에서, 서라운드 좌측 스피커 (216D) 와 유사한 서라운드 좌측 스피커를 나타낼 수도 있다. 일부 사례들에서, 뒤쪽 스피커들 (256D) 중 하나 이상의 뒤쪽 스피커는 서라운드 좌측 스피커 (216D) 와 유사한 서라운드 좌측 스피커를 나타낼 수도 있다. 일부 사례들에서, 운전자 측면 스피커들 (256B) 및 뒤쪽 스피커들 (256D) 양자 모두 중 하나 이상은 서라운드 좌측 스피커 (216D) 와 유사한 서라운드 좌측 스피커를 나타낼 수도 있다. 마찬가지로, 승객 측면 스피커들 (256C) 중 하나 이상의 승객 측면 스피커는, 일부 사례들에서, 서라운드 우측 스피커 (216E) 와 유사한 서라운드 우측 스피커를 나타낼 수도 있다. 일부 사례들에서, 뒤쪽 스피커들 (256D) 의 하나 이상의 뒤쪽 스피커는 서라운드 우측 스피커 (216E) 와 유사한 서라운드 우측 스피커를 나타낼 수도 있다. 일부 사례들에서, 승객 측면 스피커들 (256C) 및 뒤쪽 스피커들 (256D) 양자 모두 중 하나 이상은 서라운드 우측 스피커 (216E) 와 유사한 서라운드 우측 스피커를 나타낼 수도 있다.

주변 스피커들 (256E) 은 자동차 (251) 내의 좌석들, 임의의 콘솔들, 또는 다른 구획들을 포함하여, 자동차 (251) 의 바닥에, 자동차 (251) 의 천장에, 또는 자동차 (251) 의 임의의 다른 가능한 인테리어 공간에 설치된 스피커들을 나타낼 수도 있다. 서브우퍼 (258) 는 저주파 효과들을 재생하도록 설계된 스피커를 나타낸다.

헤드엔드 디바이스 (254) 는 (위에서 언급된 바와 같이, 종종 음장의 3 차원 표현을 나타내는) 음장을 나타내는 SHC 들을 복원하기 위해, 확장된 세트로 증대될 수도 있는 오디오 소스 디바이스 (252) 로부터 역방향 호환가능한 신호들을 변환시키도록, 상술된 기법들의 다양한 양상들을 수행할 수도 있다. 음장의 종합적인 표현이라고 특징지어질 수도 있는 것의 결과로서, 헤드엔드 디바이스 (254) 는 그 다음에 스피커들 (256A 내지 256E) 의 각각에 대한 개별적인 피드들을 발생시키기 위해 SHC 를 변환시킬 수도 있다. 헤드엔드 디바이스 (254) 는, 스피커들 (256A 내지 256E) 을 통해 재생되는 경우, 일 예로서, 표준을 따르는 표준화된 스피커 피드들을 이용하는 음장의 재생과 비교하여 (특히, 통상적으로 기껏해야 10 내지 16 개의 스피커들을 특징으로 하는 보통의 자동차의 사운드 시스템들과 비교하여 상대적으로 많은 개수의 스피커들 (256A 내지 256E) 을 고려하여) 음장이 보다 잘 재생될 수도 있는 방식으로 스피커 피드들을 발생시킬 수도 있다.

본원에 개시된 방법들 및 장치는, 원거리 소스들로부터의 신호 컴포넌트들의 그러한 애플리케이션들 및/또는 감지의 모바일 또는 그렇지 않으면 휴대용 사례들을 포함하여, 임의의 송수신 및/또는 오디오 감지 애플리케이션들에 일반적으로 적용될 수도 있다. 예를 들어, 본원에 개시된 구성들의 범위는 OTA (over-the-air) 인터페이스로 코드 분할 다중 액세스 (code-division multiple-access; CDMA) 를 사용하도록 구성된 무선 전화 통신 시스템에 있는 통신 디바이스들을 포함한다. 그럼에도 불구하고, 본원에 설명된 특징들을 갖는 방법 및 장치는 유선 및/또는 무선 (예를 들어, CDMA, TDMA, FDMA, 및/또는 TD-SCDMA) 송신 채널들을 통한 VoIP (Voice over IP) 를 사용하는 시스템과 같이, 당업자들에게 공지된 광범위한 기술들을 사용하는 다양한 통신 시스템들 중 임의의 시스템에 있을 수도 있는 것으로 당업자들에게 이해될 것이다.

본원에 개시된 통신 디바이스들 (예를 들어, 스마트폰들, 태블릿 컴퓨터들) 은 패킷 교환되는 (예를 들어, VoIP 와 같은 프로토콜들에 따라 오디오 송신들을 전달하도록 배열되는 유선 및/또는 무선 네트워크들) 및/또는 회로 교환되는 네트워크들에서 이용하도록 적응될 수도 있는 것으로 명확히 고려되고 본원에 개시된다. 본원에 개시된 통신 디바이스들은, 협대역 코딩 시스템들 (예를 들어, 약 4 또는 5 킬로헤르츠의 오디오 주파수 범위를 인코딩하는 시스템들) 에서 이용하도록, 및/또는 전 대역 광대역 코딩 시스템들 및 분할 대역 광대역 코딩 시스템들을 포함하여, 광대역 코딩 시스템들 (예를 들어, 5 킬로헤르츠보다 큰 오디오 주파수들을 인코딩하는 시스템들) 에서 이용하도록 적응될 수도 있는 것으로 또한 명확히 고려되고 본원에 개시된다.

앞서 언급된 설명된 구성들의 제시는 당업자가 본원에 개시된 방법들 및 다른 구조들을 제작하거나 사용하는 것을 가능하게 하기 위해 제공된다. 본원에 도시되고 설명된 흐름도들, 블록도들, 및 다른 구조들은 단지 예들일 뿐이고, 이러한 구조들의 다른 변형들도 본 개시물의 범위 내에 있다. 이러한 구성들에 대한 다양한 수정들이 가능하고, 본원에 제시된 일반적인 원리들은 다른 구성들에도 적용될 수도 있다. 따라서, 본 개시물은 위에서 보여진 구성들로 제한되고자 하지 않고, 오히려 원 개시물의 일부분을 형성하는 제출된 첨부 청구항들을 포함하여, 본원에서 임의의 방식으로 개시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에 부합되고자 한다.

당업자라면, 정보 및 신호들이 임의의 다양한 상이한 기술들 및 기법들을 이용하여 나타내어질 수도 있음을 이해할 것이다. 예를 들어, 상기 설명을 통해 참조될 수도 있는 데이터, 명령들, 커맨드들, 정보, 신호들, 비트들, 및 심볼들은 전압들, 전류들, 전자기파들, 자기장들 혹은 자기 입자들, 광학 필드들 또는 입자들, 또는 이들의 임의의 조합에 의해 나타내어질 수도 있다.

본원에 개시된 바와 같은 구성의 구현에 대한 중요한 설계 요구사항들은, 특히, 계산 집중적 애플리케이션들, 예컨대 압축된 오디오 또는 시청각 정보 (예를 들어, 본원에서 식별되는 예들 중 하나의 예와 같은 압축 포맷에 따라 인코딩된 파일 또는 스트림) 의 재생, 또는 광대역 통신들 (예를 들어, 12, 16, 44.1, 48, 또는 192 kHz 와 같이 8 킬로헤르츠보다 높은 샘플링 레이트들에서의 음성 통신들) 의 애플리케이션들을 위해, (통상적으로 초당 백만 명령어 (millions of instructions per second) 또는 MIPS 로 측정되는) 프로세싱 지연 및/또는 계산상의 복잡도를 최소화하는 것을 포함할 수도 있다.

다중 마이크로폰 프로세싱 시스템의 목표들은 전체 노이즈에서 10 내지 12 dB 감소를 달성하는 것, 요구되는 스피커의 이동 동안에 음성 레벨 및 색상을 유지하는 것, 공격적인 노이즈 제거 대신에 배경으로 노이즈가 이동했다는 지각을 획득하는 것, 발화의 탈반향, 및/또는 보다 공격적인 노이즈 감소를 위한 포스트 프로세싱의 옵션을 가능하게 하는 것을 포함할 수도 있다.

본원에 개시된 바와 같은 장치 (예를 들어, 장치 (A100, MF100)) 는, 의도하는 애플리케이션을 위해 적합한 것으로 여겨지는, 소프트웨어 및/또는 펌웨어와 하드웨어의 임의의 조합으로 구현될 수도 있다. 예를 들어, 그러한 장치의 엘리먼트들은, 예를 들어, 동일한 칩 상에, 또는 칩셋에서 2 개 이상의 칩들 사이에 있는 전자 및/또는 광학 디바이스들로서 제작될 수도 있다. 그러한 디바이스의 일 예는 트랜지스터들 또는 로직 게이트들과 같은 로직 엘리먼트들의 고정된 또는 프로그램가능한 어레이이고, 이러한 엘리먼트들 중 임의의 엘리먼트는 하나 이상의 그러한 어레이들로서 구현될 수도 있다. 장치의 엘리먼트들 중 임의의 2 개 이상의 또는 심지어 전부는 동일한 어레이 또는 어레이들 내에 구현될 수도 있다. 그러한 어레이 또는 어레이들은 하나 이상의 칩들 내에 (예를 들어, 2 개 이상의 칩들을 포함하는 칩셋 내에) 구현될 수도 있다.

본원에 개시된 장치의 다양한 구현들의 하나 이상의 엘리먼트들은 또한 마이크로프로세서들, 내장된 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA (field-programmable gate array) 들, ASSP (pplication-specific standard product) 들, 및 ASIC (application-specific integrated circuit) 들과 같은 로직 엘리먼트들의 하나 이상의 고정된 또는 프로그램가능한 어레이들을 실행하도록 배열된 명령들의 하나 이상의 세트들로서 전체적으로 또는 부분적으로 구현될 수도 있다. 본원에 개시된 바와 같은 장치의 구현의 다양한 엘리먼트들 중 임의의 엘리먼트는 또한 하나 이상의 컴퓨터들 (예를 들어, "프로세서들" 이라고도 불리는, 명령들의 하나 이상의 세트들 또는 시퀀스들을 실행하도록 프로그래밍된 하나 이상의 어레이들을 포함하는 머신들) 로서 구현될 수도 있고, 이러한 엘리먼트들 중 임의의 2 개 이상의 또는 심지어 전부는 동일한 그러한 컴퓨터 또는 컴퓨터들 내에 구현될 수도 있다.

본원에 개시된 바와 같은 프로세싱을 위한 프로세서 또는 다른 수단은, 예를 들어, 동일한 칩 상에 또는 칩셋에서 2 개 이상의 칩들 사이에 있는, 하나 이상의 전자 및/또는 광학 디바이스들로서 제작될 수도 있다. 그러한 디바이스의 일 예는 트랜지스터들 또는 로직 게이트들과 같은 로직 엘리먼트들의 고정된 또는 프로그램가능한 어레이이고, 이러한 엘리먼트들 중 임의의 엘리먼트는 하나 이상의 그러한 어레이들로서 구현될 수도 있다. 그러한 어레이 또는 어레이들은 하나 이상의 칩들 내에 (예를 들어, 2 개 이상의 칩들을 포함하는 칩셋 내에) 구현될 수도 있다. 그러한 어레이들의 예들은 마이크로프로세서들, 내장된 프로세서들, IP 코어들, DSP 들, FPGA 들, ASSP 들, 및 ASIC 들과 같은 로직 엘리먼트들의 고정된 또는 프로그램가능한 어레이들을 포함한다. 본원에 개시된 바와 같은 프로세싱하기 위한 프로세서 또는 다른 수단은 또한 하나 이상의 컴퓨터들 (예를 들어, 명령들의 하나 이상의 세트들 또는 시퀀스들을 실행하도록 프로그래밍된 하나 이상의 어레이들을 포함하는 머신들) 또는 다른 프로세서들로서 구현될 수도 있다. 본원에 설명된 바와 같은 프로세서가 본원에서 설명된 바와 같은 오디오 코딩 절차와 직접적으로 관련되지 않은 태스크들, 예컨대, 프로세서가 내장되는 디바이스 또는 시스템 (예를 들어, 오디오 감지 디바이스) 의 다른 동작과 관련되는 태스크를 수행하거나 다른 명령들의 세트들을 실행하는데 이용되는 것이 가능하다. 본원에 개시된 바와 같은 방법의 일부는 오디오 감지 디바이스의 프로세서에 의해 수행되고, 방법의 다른 일부는 하나 이상의 다른 프로세서들의 제어 하에 수행되는 것이 또한 가능하다.

본원에 개시된 구성들과 연계하여 설명된 다양한 예시적인 모듈들, 로직 블록들, 회로들, 및 테스트들과 다른 동작들은 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자 모두의 조합들로 구현될 수도 있다는 것을 당업자들은 이해할 것이다. 그러한 모듈들, 로직 블록들, 회로들, 및 동작들은 범용 프로세서, 디지털 신호 프로세서 (DSP), ASIC 혹은 ASSP, FPGA 혹은 다른 프로그램가능한 로직 디바이스, 이산 게이트 혹은 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 본원에 개시된 바와 같은 구성을 생성하도록 설계된 것의 임의의 조합으로 구현되거나 수행될 수도 있다. 예를 들어, 그러한 구성은 적어도 부분적으로 고정 배선 회로로서, 주문형 반도체 내에 제작되는 회로 구성으로서, 또는 비휘발성 저장부에 로딩된 펌웨어 프로그램이나 머신 판독가능 코드로서 데이터 저장 매체로부터 로딩되거나 그 안에 있는 소프트웨어 프로그램으로서 구현될 수도 있으며, 그러한 코드는 범용 프로세서 또는 다른 디지털 신호 프로세싱 유닛과 같은 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들이다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 다르게는, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 프로세서는 또한 컴퓨팅 디바이스들의 조합, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 연계한 하나 이상의 마이크로프로세서들, 또는 임의의 다른 그러한 구성으로 구현될 수도 있다. 소프트웨어 모듈은 비일시적 저장 매체, 예컨대, RAM (random-access memory), ROM (read-only memory), 플래시 RAM, EPROM (erasable programmable ROM), EEPROM (electrically erasable programmable ROM), 레지스터들, 하드 디스크, 제거가능 디스크, 혹은 CD-ROM 과 같은 비휘발성 RAM (NVRAM); 또는 공지된 저장 매체의 임의의 다른 형태에 있을 수도 있다. 예시적인 저장 매체는, 프로세서가 저장 매체로부터 정보를 판독하고, 저장 매체에 정보를 기록할 수 있도록 프로세서에 커플링된다. 대안에서, 저장 매체는 프로세서에 통합될 수도 있다. 프로세서와 저장 매체는 ASIC 내에 있을 수도 있다. ASIC 는 사용자 단말기 내에 있을 수도 있다. 대안에서, 프로세서 및 저장 매체는 사용자 단말기에서 이산 컴포넌트들로 있을 수도 있다.

본원에 개시된 다양한 방법들 (예를 들어, 방법들 (Ml00, M200, M300)) 은 프로세서와 같은 로직 엘리먼트들의 어레이에 의해 수행될 수도 있고, 본원에 설명된 바와 같은 장치의 다양한 엘리먼트들은 그러한 어레이 상에서 실행하도록 설계된 모듈들로서 구현될 수도 있다는 것이 유의된다. 본원에서 이용되는 바와 같이, 용어 "모듈" 또는 "하위 모듈" 은 임의의 방법, 장치, 디바이스, 유닛, 또는 소프트웨어, 하드웨어, 또는 펌웨어 형태로 컴퓨터 명령들 (예를 들어, 로직 표현들) 을 포함하는 컴퓨터 판독가능 데이터 저장 매체를 지칭할 수 있다. 다수의 모듈들 또는 시스템들은 하나의 모듈 또는 시스템으로 조합될 수 있고, 하나의 모듈 또는 시스템은 동일한 기능들을 수행하도록 다수의 모듈들 또는 시스템들로 분리될 수 있다는 것이 이해될 것이다. 소프트웨어 또는 다른 컴퓨터 실행가능 명령들로 구현되는 경우, 프로세스의 엘리먼트들은 기본적으로, 관련된 태스크들, 예컨대, 루틴들, 프로그램들, 오브젝트들, 컴포넌트들, 데이터 구조들 등으로 수행하기 위한 코드 세그먼트들이다. 용어 "소프트웨어" 는 소스 코드, 어셈블리 언어 코드, 머신 코드, 이진 코드, 펌웨어, 매크로코드, 마이크로코드, 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들의 임의의 하나 이상의 세트들 혹은 시퀀스들, 및 그러한 예들의 임의의 조합을 포함하는 것으로 이해되어야 한다. 프로그램 또는 코드 세그먼트들은 프로세서 실행가능 저장 매체에 저장되거나, 송신 매체 또는 통신 링크를 통해 반송파로 구현되는 컴퓨터 데이터 신호에 의해 송신될 수 있다.

본원에 개시된 방법들, 기법들, 및 기술들의 구현들은 또한 로직 엘리먼트들의 어레이를 포함하는 머신 (예를 들어, 프로세서, 마이크로프로세서, 마이크로제어기, 또는 다른 유한 상태 머신) 에 의해 판독가능하고/하거나 실행가능한 명령들의 하나 이상의 세트들로서 (예를 들어, 본원에 열거된 바와 같은 하나 이상의 컴퓨터 판독가능 매체들에) 유형으로 구현될 수도 있다. 용어 "컴퓨터 판독가능 매체" 는 휘발성, 비휘발성, 제거가능, 및 제거불가능 매체들을 포함하여, 정보를 저장하거나 전송할 수 있는 임의의 매체를 포함할 수도 있다. 컴퓨터 판독가능 매체의 예들은 전자 회로, 반도체 메모리 디바이스, ROM, 플래시 메모리, 삭제가능한 ROM (EROM), 플로피 디스켓 혹은 다른 자기 저장부, CD-ROM/DVD 혹은 다른 광학 저장부, 하드 디스크, 광학 매체, 무선 주파수 (RF) 링크, 또는 원하는 정보를 저장하는데 이용될 수 있고 액세스될 수 있는 임의의 다른 매체를 포함한다. 컴퓨터 데이터 신호는 전자 네트워크 채널들, 광섬유들, 공기, 전자기, RF 링크들 등과 같은 송신 매체를 통해 전파할 수 있는 임의의 신호를 포함할 수도 있다. 코드 세그먼트들은 인터넷 또는 인트라넷과 같은 컴퓨터 네트워크들을 통해 다운로드될 수도 있다. 임의의 경우, 본 개시물의 범위는 그러한 실시형태들에 의해 제한되는 것으로 해석되어서는 안된다.

본원에 설명된 방법들의 태스크들의 각각은 직접적으로 하드웨어로, 프로세서에 의해 실행되는 소프트웨어 모듈로, 또는 그 둘의 조합으로 구현될 수도 있다. 본원에 개시된 바와 같은 방법의 구현의 통상적인 애플리케이션에서, 로직 엘리먼트들 (예를 들어, 로직 게이트들) 의 어레이는 방법의 다양한 태스크들 중 하나, 하나 초과, 또는 심지어 전부를 수행하도록 구성된다. 태스크들 중 하나 이상의 태스크는 (가능하게는 전부는) 또한, 로직 엘리먼트들 (예를 들어, 프로세서, 마이크로프로세서, 마이크로제어기, 또는 다른 유한 상태 머신) 의 어레이를 포함하는 머신 (예를 들어, 컴퓨터) 에 의해 판독가능하고/하거나 실행가능한, 컴퓨터 프로그램 제품 (예를 들어, 디스크들, 플래시 혹은 다른 비휘발성 메모리 카드들, 반도체 메모리 칩들 등과 같은 하나 이상의 데이터 저장 매체들) 으로 구현되는, 코드 (예를 들어, 명령들의 하나 이상의 세트들) 로서 구현될 수도 있다. 본원에 개시된 바와 같은 방법의 구현의 태스크들은 또한 하나를 초과하는 그러한 어레이 또는 머신에 의해 수행될 수도 있다. 이러한 또는 다른 구현들에서, 태스크들은 셀룰러 전화기 또는 그러한 통신 능력을 갖는 다른 디바이스와 같은 무선 통신들을 위한 디바이스 내에서 수행될 수도 있다. 그러한 디바이스는 (예를 들어, VoIP 와 같은 하나 이상의 프로토콜들을 이용하여) 회로 교환 및/또는 패킷 교환 네트워크들과 통신하도록 구성될 수도 있다. 예를 들어, 그러한 디바이스는 인코딩된 프레임들을 수신하고/하거나 송신하도록 구성된 RF 회로부를 포함할 수도 있다.

본원에 개시된 다양한 방법들은 핸드셋, 헤드셋, 또는 휴대용 디지털 어시스턴트 (PDA) 와 같은 휴대용 통신 디바이스에 의해 수행될 수 있고, 본원에 개시된 다양한 장치는 그러한 디바이스 내에 포함될 수도 있다는 것이 명확히 개시된다. 통상적인 실시간 (예를 들어, 온라인) 애플리케이션은 그러한 모바일 디바이스를 이용하여 이행되는 전화 대화이다.

하나 이상의 예시적인 실시형태들에서, 본원에 설명된 동작들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현되는 경우, 그러한 동작들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독가능 매체 상에 저장되거나 컴퓨터 판독가능 매체를 통해 송신될 수도 있다. 용어 "컴퓨터 판독가능 매체들" 은 컴퓨터 판독가능 저장 매체들 및 통신 (예를 들어, 송신) 매체들 양자 모두를 포함한다. 제한하지 않는 예로서, 컴퓨터 판독가능 저장 매체들은 저장 엘리먼트들의 어레이, 예컨대, (제한 없이 동적 또는 정적 RAM, ROM, EEPROM, 및/또는 플래시 RAM 을 포함할 수도 있는) 반도체 메모리, 또는 강유전체, 자기저항, 오보닉 (ovonic), 중합의, 또는 위상 변화 메모리; CD-ROM 또는 다른 광 디스크 저장부; 및/또는 자기 디스크 저장부 또는 다른 자기 저장 디바이스들을 포함할 수 있다. 그러한 저장 매체들은 컴퓨터에 의해 액세스될 수 있는 명령들 또는 데이터 구조들의 형태로 정보를 저장할 수도 있다. 통신 매체들은, 한 장소에서 다른 장소로 컴퓨터 프로그램의 전송을 가능하게 하는 임의의 매체를 포함하여, 명령들 또는 데이터 구조들의 형태로 원하는 프로그램 코드를 전송하는데 이용될 수 있고, 컴퓨터에 의해 액세스될 수 있는 임의의 매체를 포함할 수 있다. 또한, 임의의 접속은 컴퓨터 판독가능 매체라고 적절히 칭해진다. 예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선 (DSL), 또는 적외선, 무선, 및/또는 마이크로파와 같은 무선 기술을 이용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 송신되는 경우, 동축 케이블, 광섬유 케이블, 연선, DSL, 또는 적외선, 무선, 및/또는 마이크로파와 같은 무선 기술은 매체의 정의 내에 포함된다. 본원에서 이용된 디스크 (disk) 와 디스크 (disc) 는, 컴팩트 디스크 (CD), 레이저 디스크, 광학 디스크, 디지털 다기능 디스크 (DVD), 플로피 디스크, 및 Blu-ray Disc^TM (Blu-Ray Disc 연합회, Universal City, 캘리포니아) 를 포함하며, 여기서 디스크 (disk) 들은 통상 자기적으로 데이터를 재생하는 반면, 디스크 (disc) 들은 레이저들을 이용하여 광학적으로 데이터를 재생한다. 위의 조합들도 컴퓨터 판독가능 매체들의 범위 내에 포함되어야 한다.

본원에 설명된 바와 같은 음향 신호 프로세싱 장치 (예를 들어, 장치 (A100 또는 MF100)) 는, 통신 디바이스들과 같은, 소정의 동작들을 제어하기 위해 발화 입력을 받아들이는 전자 디바이스에 통합될 수도 있거나, 그렇지 않으면 배경 노이즈들로부터 원하는 노이즈들의 분리로부터 혜택을 받을 수도 있다. 많은 애플리케이션들은 다수의 방향들로부터 비롯되는 배경 사운드들로부터 원하는 사운드를 명확하게 강화시키거나 분리함으로써 혜택을 받을 수도 있다. 그러한 애플리케이션들은 음성 인식 및 감지, 발화 향상 및 분리, 음성 활성 제어 등과 같은 능력들을 포함하는 전자 또는 컴퓨팅 디바이스들에 인간-기계 인터페이스들을 포함할 수도 있다. 그러한 음향 신호 프로세싱 장치가 오직 제한된 프로세싱 능력들만을 제공하는 디바이스들에 적합하도록 구현하는 것이 바람직할 수도 있다.

본원에 설명된 모듈들, 엘리먼트들, 및 디바이스들의 다양한 구현들의 엘리먼트들은, 예를 들어, 동일한 칩 또는 칩셋에서 2 개 이상의 칩들 사이에 있는, 전자 및/또는 광학 디바이스들로서 제작될 수도 있다. 그러한 디바이스의 일 예는 트랜지스터들 또는 게이트들과 같은 로직 엘리먼트들의 고정된 또는 프로그램가능한 어레이이다. 본원에 개시된 장치의 다양한 구현들의 하나 이상의 엘리먼트들은 또한, 마이크로프로세서들, 내장된 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA 들, ASSP 들, 및 ASIC 들과 같은 로직 엘리먼트들의 하나 이상의 고정된 또는 프로그램가능한 어레이들을 실행하도록 배열된 명령들의 하나 이상의 세트들로서 전체적으로 또는 부분적으로 구현될 수도 있다.

본원에 설명된 바와 같은 장치의 구현의 하나 이상의 엘리먼트들이, 장치가 내장되는 디바이스 또는 시스템의 다른 동작과 관련되는 태스크와 같은, 장치의 동작과 직접적으로 관련되지 않는 태스크들을 수행하거나 명령들의 다른 세트를 실행하는데 이용되는 것이 가능한다. 그러한 장치의 구현의 하나 이상의 엘리먼트들이 공통되는 구조 (예를 들어, 상이한 시간들에서 상이한 엘리먼트들에 대응하는 코드의 일부분들을 실행하는데 이용되는 프로세서, 상이한 시간들에서 상이한 엘리먼트들에 대응하는 태스크들을 수행하도록 실행되는 명령들의 세트, 또는 상이한 시간들에서 상이한 엘리먼트들에 대한 동작들을 수행하는 전자 및/또는 광학 디바이스들의 배열) 를 갖는 것이 또한 가능하다.

Claims

가상 오디오 채널 정보의 제 1 세트를 생성하기 위해 스피커들의 제 1 기하학적 구조에 대한 오디오 채널 정보의 제 1 세트에 대해 패닝을 수행하는 단계;
구면파 모델에 기초하는 제 1 변환으로, 상기 가상 오디오 채널 정보의 제 1 세트를 음장 (sound field) 을 기술하는 엘리먼트들의 제 1 계층적 세트로 변환시키는 단계; 및
제 2 변환으로, 상기 엘리먼트들의 제 1 계층적 세트를 스피커들의 제 2 기하학적 구조에 대한 오디오 채널 정보의 제 2 세트로, 주파수 도메인에서 변환시키는 단계를 포함하는, 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 스피커들의 제 1 기하학적 구조 및 상기 스피커들의 제 2 기하학적 구조는 상이한 반경들을 갖는, 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 스피커들의 제 1 기하학적 구조 및 상기 스피커들의 제 2 기하학적 구조는 상이한 방위각을 갖는, 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 스피커들의 제 1 기하학적 구조 및 상기 스피커들의 제 2 기하학적 구조는 상이한 앙각을 갖는, 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 엘리먼트들의 제 1 계층적 세트는 구면 조화 계수들을 포함하는, 오디오 신호 프로세싱 방법.
제 5 항에 있어서,
상기 제 2 변환으로 변환시키는 단계는, 상기 제 2 변환으로, 상기 스피커들의 제 1 기하학적 구조에서의 엘리먼트들과 상기 스피커들의 제 2 기하학적 구조에서의 엘리먼트들 사이의 포지션의 차이를 보상하기 위해 상기 엘리먼트들의 제 1 계층적 세트를 상기 스피커들의 제 2 기하학적 구조에 대한 상기 오디오 채널 정보의 제 2 세트로 변환시키는 단계를 포함하는, 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 오디오 채널 정보의 제 1 세트에 대해 패닝을 수행하는 단계는, 상기 가상 오디오 채널 정보의 제 1 세트를 생성하기 위해 상기 오디오 채널 정보의 제 1 세트에 대해 벡터 기반 진폭 패닝을 수행하는 단계를 포함하는, 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 오디오 채널 정보의 제 1 세트의 각각은 공간의 대응하는 상이한 정의된 영역과 연관되는, 오디오 신호 프로세싱 방법.
제 8 항에 있어서,
상기 공간의 대응하는 상이한 정의된 영역들은 오디오 포맷 사양 및 오디오 포맷 표준 중 하나 이상에서 정의되는, 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 오디오 채널 정보의 제 2 세트는 가상 오디오 채널 정보의 제 2 세트를 포함하고,
상기 오디오 채널 정보의 제 2 세트의 각각은 공간의 대응하는 상이한 영역과 연관되며,
상기 방법은, 상기 오디오 채널 정보의 제 2 세트를 생성하기 위해 상기 가상 오디오 채널 정보의 제 2 세트에 대해 패닝을 수행하는 단계를 더 포함하는, 오디오 신호 프로세싱 방법.
제 10 항에 있어서,
상기 가상 오디오 채널 정보의 제 2 세트에 대해 패닝을 수행하는 단계는, 상기 오디오 채널 정보의 제 2 세트를 생성하기 위해 상기 가상 오디오 채널 정보의 제 2 세트에 대해 벡터 기반 진폭 패닝을 수행하는 단계를 포함하는, 오디오 신호 프로세싱 방법.
제 10 항에 있어서,
상기 가상 오디오 채널 정보의 제 2 세트의 각각은 공간의 대응하는 상이한 정의된 영역과 연관되는, 오디오 신호 프로세싱 방법.
제 12 항에 있어서,
상기 공간의 대응하는 상이한 정의된 영역들은 오디오 포맷 사양 및 오디오 포맷 표준 중 하나 이상에서 정의되는, 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 오디오 채널 정보의 제 1 세트는 제 1 공간 기하학적 구조와 연관되고, 상기 오디오 채널 정보의 제 2 세트는 상기 제 1 공간 기하학적 구조와 상이한 제 2 공간 기하학적 구조와 연관되는, 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 스피커들의 제 1 기하학적 구조는 정사각형 기하학적 구조인, 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 스피커들의 제 1 기하학적 구조는 직사각형 기하학적 구조인, 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 스피커들의 제 1 기하학적 구조는 구형 기하학적 구조인, 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 스피커들의 제 2 기하학적 구조는 정사각형 기하학적 구조인, 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 스피커들의 제 2 기하학적 구조는 직사각형 기하학적 구조인, 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 스피커들의 제 2 기하학적 구조는 구형 기하학적 구조인, 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 제 1 변환으로 변환시키는 단계는, 상기 구면파 모델에 기초하는 상기 제 1 변환으로, 상기 스피커들의 제 1 기하학적 구조에 대한 상기 오디오 채널 정보의 제 1 세트를 상기 음장을 기술하는 상기 엘리먼트들의 제 1 계층적 세트로, 주파수 도메인에서 변환시키는 단계를 포함하는, 오디오 신호 프로세싱 방법.
장치로서,
오디오 데이터를 저장하도록 구성된 메모리; 및
상기 오디오 데이터의 적어도 일부분을 프로세싱하기 위한 하나 이상의 프로세서들
을 포함하고,
상기 하나 이상의 프로세서들은,
가상 오디오 채널 정보의 제 1 세트를 생성하기 위해 스피커들의 제 1 기하학적 구조에 대한 오디오 채널 정보의 제 1 세트에 대해 패닝을 수행하고;
음장을 기술하는 엘리먼트들의 제 1 계층적 세트를 발생시키기 위해 상기 가상 오디오 채널 정보의 제 1 세트에 대해 구면파 모델에 기초하는 제 1 변환을 수행하고;
스피커들의 제 2 기하학적 구조에 대한 오디오 채널 정보의 제 2 세트를 발생시키기 위해 상기 엘리먼트들의 제 1 계층적 세트에 대해 주파수 도메인에서 제 2 변환을 수행하도록
구성되는, 장치.
제 22 항에 있어서,
상기 스피커들의 제 1 기하학적 구조 및 제 2 기하학적 구조는 상이한 반경들을 갖는, 장치.
제 22 항에 있어서,
상기 스피커들의 제 1 기하학적 구조 및 제 2 기하학적 구조는 상이한 방위각을 갖는, 장치.
제 22 항에 있어서,
상기 스피커들의 제 1 기하학적 구조 및 제 2 기하학적 구조는 상이한 앙각을 갖는, 장치.
제 22 항에 있어서,
상기 엘리먼트들의 제 1 계층적 세트는 구면 조화 계수들을 포함하는, 장치.
제 22 항에 있어서,
상기 하나 이상의 프로세서들은 상기 제 1 변환 및 상기 제 2 변환을 수행하도록 구성되는 인코더를 포함하는, 장치.
제 27 항에 있어서,
상기 하나 이상의 프로세서들은, 상기 제 2 변환을 수행하는 경우, 상기 스피커들의 제 1 기하학적 구조에서의 엘리먼트들과 상기 스피커들의 제 2 기하학적 구조에서의 엘리먼트들 사이의 포지션의 차이를 보상하기 위하여 상기 스피커들의 제 2 기하학적 구조에 대한 상기 오디오 채널 정보의 제 2 세트를 발생시키기 위해 상기 엘리먼트들의 제 1 계층적 세트에 대해 상기 제 2 변환을 수행하도록 더 구성되는, 장치.
제 22 항에 있어서,
상기 하나 이상의 프로세서들은, 상기 오디오 채널 정보의 제 1 세트에 대해 패닝을 수행하는 경우, 상기 가상 오디오 채널 정보의 제 1 세트를 생성하기 위해 상기 오디오 채널 정보의 제 1 세트에 대해 벡터 기반 진폭 패닝을 수행하도록 더 구성되는, 장치.
제 22 항에 있어서,
상기 오디오 채널 정보의 제 1 세트의 각각은 공간의 대응하는 상이한 정의된 영역과 연관되는, 장치.
제 30 항에 있어서,
상기 공간의 대응하는 상이한 정의된 영역들은 오디오 포맷 사양 및 오디오 포맷 표준 중 하나 이상에서 정의되는, 장치.
제 22 항에 있어서,
상기 오디오 채널 정보의 제 2 세트는 가상 오디오 채널 정보의 제 2 세트를 포함하고,
상기 오디오 채널 정보의 제 2 세트의 각각은 공간의 대응하는 상이한 영역과 연관되며,
상기 하나 이상의 프로세서들은, 상기 오디오 채널 정보의 제 2 세트를 생성하기 위해 상기 가상 오디오 채널 정보의 제 2 세트에 대해 패닝을 수행하도록 더 구성되는, 장치.
제 32 항에 있어서,
상기 하나 이상의 프로세서들은, 상기 가상 오디오 채널 정보의 제 2 세트에 대해 패닝을 수행하는 경우, 상기 오디오 채널 정보의 제 2 세트를 생성하기 위해 상기 가상 오디오 채널 정보의 제 2 세트에 대해 벡터 기반 진폭 패닝을 수행하도록 더 구성되는, 장치.
제 32 항에 있어서,
상기 가상 오디오 채널 정보의 제 2 세트의 각각은 공간의 대응하는 상이한 정의된 영역과 연관되는, 장치.
제 34 항에 있어서,
상기 공간의 대응하는 상이한 정의된 영역들은 오디오 포맷 사양 및 오디오 포맷 표준 중 하나 이상에서 정의되는, 장치.
제 22 항에 있어서,
상기 오디오 채널 정보의 제 1 세트는 제 1 공간 기하학적 구조와 연관되고, 상기 오디오 채널 정보의 제 2 세트는 상기 제 1 공간 기하학적 구조와 상이한 제 2 공간 기하학적 구조와 연관되는, 장치.
제 22 항에 있어서,
상기 스피커들의 제 1 기하학적 구조는 정사각형 기하학적 구조인, 장치.
제 22 항에 있어서,
상기 스피커들의 제 1 기하학적 구조는 직사각형 기하학적 구조인, 장치.
제 22 항에 있어서,
상기 스피커들의 제 1 기하학적 구조는 구형 기하학적 구조인, 장치.
제 22 항에 있어서,
상기 스피커들의 제 2 기하학적 구조는 정사각형 기하학적 구조인, 장치.
제 22 항에 있어서,
상기 스피커들의 제 2 기하학적 구조는 직사각형 기하학적 구조인, 장치.
제 22 항에 있어서,
상기 스피커들의 제 2 기하학적 구조는 구형 기하학적 구조인, 장치.
제 22 항에 있어서,
상기 하나 이상의 프로세서들은, 상기 제 1 변환을 수행하는 경우, 상기 음장을 기술하는 상기 엘리먼트들의 제 1 계층적 세트를 발생시키기 위해 상기 스피커들의 제 1 기하학적 구조에 대한 상기 오디오 채널 정보의 제 1 세트에 대해 주파수 도메인에서 상기 제 1 변환을 수행하도록 구성되는, 장치.
가상 오디오 채널 정보의 제 1 세트를 생성하기 위해 스피커들의 제 1 기하학적 구조에 대한 오디오 채널 정보의 제 1 세트에 대해 패닝을 수행하는 수단;
구면파 모델에 기초하는 제 1 변환으로, 상기 가상 오디오 채널 정보의 제 1 세트를 음장을 기술하는 엘리먼트들의 제 1 계층적 세트로 변환시키는 수단; 및
제 2 변환으로, 상기 엘리먼트들의 제 1 계층적 세트를 스피커들의 제 2 기하학적 구조에 대한 오디오 채널 정보의 제 2 세트로, 주파수 도메인에서 변환시키는 수단을 포함하는, 장치.
제 44 항에 있어서,
상기 스피커들의 제 1 기하학적 구조 및 제 2 기하학적 구조는 상이한 반경들을 갖는, 장치.
제 44 항에 있어서,
상기 스피커들의 제 1 기하학적 구조 및 제 2 기하학적 구조는 상이한 방위각을 갖는, 장치.
제 44 항에 있어서,
상기 스피커들의 제 1 기하학적 구조 및 제 2 기하학적 구조는 상이한 앙각을 갖는, 장치.
제 44 항에 있어서,
상기 엘리먼트들의 제 1 계층적 세트는 구면 조화 계수들을 포함하는, 장치.
제 44 항에 있어서,
상기 제 2 변환으로 변환시키는 수단은, 상기 제 2 변환으로, 상기 스피커들의 제 1 기하학적 구조에서의 엘리먼트들과 상기 스피커들의 제 2 기하학적 구조에서의 엘리먼트들 사이의 포지션의 차이를 보상하기 위해 상기 엘리먼트들의 제 1 계층적 세트를 상기 스피커들의 제 2 기하학적 구조에 대한 상기 오디오 채널 정보의 제 2 세트로 변환시키는 수단을 포함하는, 장치.
제 44 항에 있어서,
상기 오디오 채널 정보의 제 1 세트에 대해 패닝을 수행하는 수단은, 상기 가상 오디오 채널 정보의 제 1 세트를 생성하기 위해 상기 오디오 채널 정보의 제 1 세트에 대해 벡터 기반 진폭 패닝을 수행하는 수단을 포함하는, 장치.
제 44 항에 있어서,
상기 오디오 채널 정보의 제 1 세트의 각각은 공간의 대응하는 상이한 정의된 영역과 연관되는, 장치.
제 51 항에 있어서,
상기 공간의 대응하는 상이한 정의된 영역들은 오디오 포맷 사양 및 오디오 포맷 표준 중 하나 이상에서 정의되는, 장치.
제 44 항에 있어서,
상기 오디오 채널 정보의 제 2 세트는 가상 오디오 채널 정보의 제 2 세트를 포함하고,
상기 오디오 채널 정보의 제 2 세트의 각각은 공간의 대응하는 상이한 영역과 연관되며,
상기 장치는,
상기 오디오 채널 정보의 제 2 세트를 생성하기 위해 상기 가상 오디오 채널 정보의 제 2 세트에 대해 패닝을 수행하는 수단을 더 포함하는, 장치.
제 53 항에 있어서,
상기 가상 오디오 채널 정보의 제 2 세트에 대해 패닝을 수행하는 것은, 상기 오디오 채널 정보의 제 2 세트를 생성하기 위해 상기 가상 오디오 채널 정보의 제 2 세트에 대해 벡터 기반 진폭 패닝을 수행하는 것을 포함하는, 장치.
제 44 항에 있어서,
상기 가상 오디오 채널 정보의 제 2 세트의 각각은 공간의 대응하는 상이한 정의된 영역과 연관되는, 장치.
제 55 항에 있어서,
상기 공간의 대응하는 상이한 정의된 영역들은 오디오 포맷 사양 및 오디오 포맷 표준 중 하나 이상에서 정의되는, 장치.
제 44 항에 있어서,
상기 오디오 채널 정보의 제 1 세트는 제 1 공간 기하학적 구조와 연관되고, 상기 오디오 채널 정보의 제 2 세트는 상기 제 1 공간 기하학적 구조와 상이한 제 2 공간 기하학적 구조와 연관되는, 장치.
제 44 항에 있어서,
상기 스피커들의 제 1 기하학적 구조는 정사각형 기하학적 구조인, 장치.
제 44 항에 있어서,
상기 스피커들의 제 1 기하학적 구조는 직사각형 기하학적 구조인, 장치.
제 44 항에 있어서,
상기 스피커들의 제 1 기하학적 구조는 구형 기하학적 구조인, 장치.
제 44 항에 있어서,
상기 스피커들의 제 2 기하학적 구조는 정사각형 기하학적 구조인, 장치.
제 44 항에 있어서,
상기 스피커들의 제 2 기하학적 구조는 직사각형 기하학적 구조인, 장치.
제 44 항에 있어서,
상기 스피커들의 제 2 기하학적 구조는 구형 기하학적 구조인, 장치.
제 44 항에 있어서,
상기 제 1 변환으로 변환시키는 수단은, 상기 구면파 모델에 기초하는 상기 제 1 변환으로, 상기 스피커들의 제 1 기하학적 구조에 대한 상기 오디오 채널 정보의 제 1 세트를 상기 음장을 기술하는 상기 엘리먼트들의 제 1 계층적 세트로, 주파수 도메인에서 변환시키는 수단을 포함하는, 장치.
명령들이 저장된 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 명령들은, 실행되는 경우, 하나 이상의 프로세서들로 하여금,
가상 오디오 채널 정보의 제 1 세트를 생성하기 위해 스피커들의 제 1 기하학적 구조에 대한 오디오 채널 정보의 제 1 세트에 대해 패닝을 수행하게 하고;
구면파 모델에 기초하는 제 1 변환으로, 상기 가상 오디오 채널 정보의 제 1 세트를 음장을 기술하는 엘리먼트들의 제 1 계층적 세트로 변환시키게 하며;
제 2 변환으로, 상기 엘리먼트들의 제 1 계층적 세트를 스피커들의 제 2 기하학적 구조에 대한 오디오 채널 정보의 제 2 세트로, 주파수 도메인에서 변환시키게 하는, 비일시적 컴퓨터 판독가능 저장 매체.
스피커들의 제 1 기하학적 구조의 좌표와 함께 라우드스피커 채널들을 수신하는 단계;
가상 라우드스피커 채널들을 생성하기 위해 상기 스피커들의 제 1 기하학적 구조의 좌표에 기초하여 상기 라우드스피커 채널들에 대해 패닝을 수행하는 단계; 및
구면파 모델에 기초하는 제 1 변환으로, 음장을 기술하는 엘리먼트들의 계층적 세트를 생성하기 위해 상기 가상 라우드스피커 채널들을 변환시키는 단계를 포함하는, 방법.
제 66 항에 있어서,
상기 라우드스피커 채널들 및 상기 제 1 기하학적 구조의 좌표는 스피커들의 제 2 기하학적 구조에 맵핑되는, 방법.
제 67 항에 있어서,
상기 스피커들의 제 1 기하학적 구조 및 제 2 기하학적 구조는 상이한 반경들을 갖는, 방법.
제 67 항에 있어서,
상기 스피커들의 제 1 기하학적 구조 및 제 2 기하학적 구조는 상이한 방위각을 갖는, 방법.
제 67 항에 있어서,
상기 스피커들의 제 1 기하학적 구조 및 제 2 기하학적 구조는 상이한 앙각을 갖는, 방법.
제 67 항에 있어서,
상기 엘리먼트들의 계층적 세트는 구면 조화 계수들을 포함하는, 방법.
제 67 항에 있어서,
상기 라우드스피커 채널들 및 상기 제 1 기하학적 구조의 좌표는 상기 스피커들의 제 1 기하학적 구조에서의 엘리먼트들과 상기 스피커들의 제 2 기하학적 구조에서의 엘리먼트들 사이의 포지션의 차이를 보상하기 위해 상기 스피커들의 제 2 기하학적 구조에 맵핑되는, 방법.
제 66 항에 있어서,
상기 라우드스피커 채널들에 대해 패닝을 수행하는 단계는 상기 가상 라우드스피커 채널들을 생성하기 위해 상기 라우드스피커 채널들에 대해 벡터 기반 진폭 패닝을 수행하는 단계를 포함하는, 방법.
제 66 항에 있어서,
상기 라우드스피커 채널들의 각각은 공간의 대응하는 상이한 정의된 영역과 연관되는, 방법.
제 74 항에 있어서,
상기 공간의 대응하는 상이한 정의된 영역들은 오디오 포맷 사양 및 오디오 포맷 표준 중 하나 이상에서 정의되는, 방법.
제 66 항에 있어서,
구면파 모델에 기초하는 제 2 변환으로, 상기 엘리먼트들의 계층적 세트를 가상 라우드스피커 채널들로, 주파수 도메인에서 변환시키는 단계; 및
상이한 라우드스피커 채널들을 생성하기 위해 상기 가상 라우드스피커 채널들에 대해 패닝을 수행하는 단계를 더 포함하고,
상기 상이한 라우드스피커 채널들의 각각은 공간의 대응하는 상이한 영역과 연관되는, 방법.
제 76 항에 있어서,
상기 가상 라우드스피커 채널들에 대해 패닝을 수행하는 단계는, 상기 상이한 라우드스피커 채널들을 생성하기 위해 상기 가상 라우드스피커 채널들에 대해 벡터 기반 진폭 패닝을 수행하는 단계를 포함하는, 방법.
제 76 항에 있어서,
상기 가상 라우드스피커 채널들의 각각은 공간의 대응하는 상이한 정의된 영역과 연관되는, 방법.
제 78 항에 있어서,
상기 공간의 대응하는 상이한 정의된 영역들은 오디오 포맷 사양 및 오디오 포맷 표준 중 하나 이상에서 정의되는, 방법.
제 76 항에 있어서,
상기 라우드스피커 채널들은 제 1 공간 기하학적 구조와 연관되고, 상기 상이한 라우드스피커 채널들은 상기 제 1 공간 기하학적 구조와 상이한 제 2 공간 기하학적 구조와 연관되는, 방법.
장치로서,
오디오 데이터를 저장하도록 구성된 메모리; 및
상기 오디오 데이터의 적어도 일부분을 프로세싱하기 위한 하나 이상의 프로세서들
을 포함하고,
상기 하나 이상의 프로세서들은,
스피커들의 제 1 기하학적 구조의 좌표와 함께 라우드스피커 채널들을 수신하고;
가상 라우드스피커 채널들을 생성하기 위해 상기 스피커들의 제 1 기하학적 구조의 좌표에 기초하여 상기 라우드스피커 채널들에 대해 패닝을 수행하고;
구면파 모델에 기초하는 제 1 변환으로, 음장을 기술하는 엘리먼트들의 계층적 세트를 생성하기 위해 상기 가상 라우드스피커 채널들을 변환시키도록
구성되는, 장치.
제 81 항에 있어서,
상기 라우드스피커 채널들 및 상기 제 1 기하학적 구조의 좌표는 스피커들의 제 2 기하학적 구조에 맵핑되는, 장치.
제 82 항에 있어서,
상기 스피커들의 제 1 기하학적 구조 및 제 2 기하학적 구조는 상이한 반경들을 갖는, 장치.
제 82 항에 있어서,
상기 스피커들의 제 1 기하학적 구조 및 제 2 기하학적 구조는 상이한 방위각을 갖는, 장치.
제 82 항에 있어서,
상기 스피커들의 제 1 기하학적 구조 및 제 2 기하학적 구조는 상이한 앙각을 갖는, 장치.
제 82 항에 있어서,
상기 엘리먼트들의 계층적 세트는 구면 조화 계수들을 포함하는, 장치.
제 82 항에 있어서,
상기 프로세서는 디코더를 포함하는, 장치.
제 87 항에 있어서,
상기 라우드스피커 채널들 및 상기 제 1 기하학적 구조의 좌표는 상기 스피커들의 제 1 기하학적 구조에서의 엘리먼트들과 상기 스피커들의 제 2 기하학적 구조에서의 엘리먼트들 사이의 포지션의 차이를 보상하기 위해 상기 스피커들의 제 2 기하학적 구조에 맵핑되는, 장치.
제 81 항에 있어서,
상기 하나 이상의 프로세서들은, 상기 라우드스피커 채널들에 대해 패닝을 수행하는 경우, 상기 가상 라우드스피커 채널들을 생성하기 위해 상기 스피커들의 제 1 기하학적 구조의 좌표에 기초하여 상기 라우드스피커 채널들에 대해 벡터 기반 진폭 패닝을 수행하도록 더 구성되는, 장치.
제 81 항에 있어서,
상기 라우드스피커 채널들의 각각은 공간의 대응하는 상이한 정의된 영역과 연관되는, 장치.
제 90 항에 있어서,
상기 공간의 대응하는 상이한 정의된 영역들은 오디오 포맷 사양 및 오디오 포맷 표준 중 하나 이상에서 정의되는, 장치.
제 81 항에 있어서,
상기 하나 이상의 프로세서들은, 구면파 모델에 기초하는 제 2 변환으로, 상기 엘리먼트들의 계층적 세트를 상기 가상 라우드스피커 채널들로, 주파수 도메인에서 변환시키고, 상이한 라우드스피커 채널들을 생성하기 위해 상기 가상 라우드스피커 채널들에 대해 패닝을 수행하도록 더 구성되고,
상기 상이한 라우드스피커 채널들의 각각은 공간의 대응하는 상이한 영역과 연관되는, 장치.
제 92 항에 있어서,
상기 하나 이상의 프로세서들은, 가상 오디오 채널 정보의 제 2 세트에 대해 패닝을 수행하는 경우, 상기 상이한 라우드스피커 채널들을 생성하기 위해 상기 가상 라우드스피커 채널들에 대해 벡터 기반 진폭 패닝을 수행하도록 더 구성되는, 장치.
제 92 항에 있어서,
상기 가상 라우드스피커 채널들의 각각은 공간의 대응하는 상이한 정의된 영역과 연관되는, 장치.
제 94 항에 있어서,
상기 공간의 대응하는 상이한 정의된 영역들은 오디오 포맷 사양 및 오디오 포맷 표준 중 하나 이상에서 정의되는, 장치.
제 92 항에 있어서,
상기 라우드스피커 채널들은 제 1 공간 기하학적 구조와 연관되고, 상기 상이한 라우드스피커 채널들은 상기 제 1 공간 기하학적 구조와 상이한 제 2 공간 기하학적 구조와 연관되는, 장치.
스피커들의 제 1 기하학적 구조의 좌표와 함께 라우드스피커 채널들을 수신하는 수단;
가상 라우드스피커 채널들을 생성하기 위해 상기 스피커들의 제 1 기하학적 구조의 상기 좌표에 기초하여 상기 라우드스피커 채널들에 대해 패닝을 수행하는 수단; 및
구면파 모델에 기초하는 제 1 변환으로, 음장을 기술하는 엘리먼트들의 계층적 세트를 생성하기 위해 상기 가상 라우드스피커 채널들을 변환시키는 수단을 포함하는, 장치.
제 97 항에 있어서,
상기 라우드스피커 채널들, 상기 제 1 기하학적 구조의 상기 좌표는 스피커들의 제 2 기하학적 구조에 맵핑되는, 장치.
제 98 항에 있어서,
상기 스피커들의 제 1 기하학적 구조 및 제 2 기하학적 구조는 상이한 반경들을 갖는, 장치.
제 98 항에 있어서,
상기 스피커들의 제 1 기하학적 구조 및 제 2 기하학적 구조는 상이한 방위각을 갖는, 장치.
제 98 항에 있어서,
상기 스피커들의 제 1 기하학적 구조 및 제 2 기하학적 구조는 상이한 앙각을 갖는, 장치.
제 98 항에 있어서,
상기 엘리먼트들의 계층적 세트는 구면 조화 계수들을 포함하는, 장치.
제 98 항에 있어서,
상기 라우드스피커 채널들 및 상기 제 1 기하학적 구조의 좌표는 상기 스피커들의 제 1 기하학적 구조에서의 엘리먼트들과 상기 스피커들의 제 2 기하학적 구조에서의 엘리먼트들 사이의 포지션의 차이를 보상하기 위해 상기 스피커들의 제 2 기하학적 구조에 맵핑되는, 장치.
제 98 항에 있어서,
상기 라우드스피커 채널들에 대해 패닝을 수행하는 수단은, 상기 가상 라우드스피커 채널들을 생성하기 위해 상기 라우드스피커 채널들에 대해 벡터 기반 진폭 패닝을 수행하는 수단을 포함하는, 장치.
제 98 항에 있어서,
상기 라우드스피커 채널들의 각각은 공간의 대응하는 상이한 정의된 영역과 연관되는, 장치.
제 105 항에 있어서,
상기 공간의 대응하는 상이한 정의된 영역들은 오디오 포맷 사양 및 오디오 포맷 표준 중 하나 이상에서 정의되는, 장치.
제 98 항에 있어서,
구면파 모델에 기초하는 제 2 변환으로, 상기 엘리먼트들의 계층적 세트를 가상 라우드스피커 채널들로, 주파수 도메인에서 변환시키는 수단; 및
상이한 라우드스피커 채널들을 생성하기 위해 상기 가상 라우드스피커 채널들에 대해 패닝을 수행하는 수단을 더 포함하고,
상이한 라우드스피커 채널들의 각각은 공간의 대응하는 상이한 영역과 연관되는, 장치.
제 107 항에 있어서,
상기 가상 라우드스피커 채널들에 대해 패닝을 수행하는 수단은, 상기 상이한 라우드스피커 채널들을 생성하기 위해 상기 가상 라우드스피커 채널들에 대해 벡터 기반 진폭 패닝을 수행하는 수단을 포함하는, 장치.
제 107 항에 있어서,
상기 가상 라우드스피커 채널들의 각각은 공간의 대응하는 상이한 정의된 영역과 연관되는, 장치.
제 109 항에 있어서,
상기 공간의 대응하는 상이한 정의된 영역들은 오디오 포맷 사양 및 오디오 포맷 표준 중 하나 이상에서 정의되는, 장치.
제 107 항에 있어서,
상기 라우드스피커 채널들은 제 1 공간 기하학적 구조와 연관되고, 상기 상이한 라우드스피커 채널들은 상기 제 1 공간 기하학적 구조와 상이한 제 2 공간 기하학적 구조와 연관되는, 장치.
명령들을 포함하는 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 명령들은, 실행되는 경우, 하나 이상의 프로세서들로 하여금,
스피커들의 제 1 기하학적 구조의 좌표와 함께 라우드스피커 채널들을 수신하게 하고;
가상 라우드스피커 채널들을 생성하기 위해 상기 스피커들의 제 1 기하학적 구조의 좌표에 기초하여 상기 라우드스피커 채널들에 대해 패닝을 수행하게 하며;
구면파 모델에 기초하는 제 1 변환으로, 음장을 기술하는 엘리먼트들의 계층적 세트를 생성하기 위해 상기 가상 라우드스피커 채널들을 변환시키게 하는, 비일시적 컴퓨터 판독가능 저장 매체.
가상 라우드스피커 채널들을 생성하기 위해 스피커들의 제 1 기하학적 구조의 좌표에 기초하여 라우드스피커 채널들에 대해 패닝을 수행하는 단계로서, 상기 제 1 기하학적 구조는 상기 가상 라우드스피커 채널들의 위치들에 대응하는, 상기 라우드스피커 채널들에 대해 패닝을 수행하는 단계;
상기 스피커들의 제 1 기하학적 구조의 상기 좌표와 함께 상기 라우드스피커 채널들을 송신하는 단계; 및
구면파 모델에 기초하는 제 1 변환으로, 음장을 기술하는 엘리먼트들의 계층적 세트를 생성하기 위해 상기 가상 라우드스피커 채널들을 변환시키는 단계를 포함하는, 방법.
제 113 항에 있어서,
상기 음장을 기술하는 상기 엘리먼트들의 계층적 세트를 생성하는 것은, 상기 제 1 변환으로, 상기 스피커들의 제 1 기하학적 구조로부터의 오디오 채널 정보의 제 1 세트를 변환시키는 것을 포함하는, 방법.
제 114 항에 있어서,
제 2 변환으로, 상기 엘리먼트들의 계층적 세트를 스피커들의 제 2 기하학적 구조에 대한 오디오 채널 정보의 제 2 세트로 변환시키는 단계를 더 포함하는, 방법.
제 115 항에 있어서,
상기 제 2 변환으로, 상기 엘리먼트들의 계층적 세트를 스피커들의 제 2 기하학적 구조에 대한 오디오 채널 정보의 제 2 세트로 변환시키는 단계는, 상기 스피커들의 제 1 기하학적 구조에서의 하나 이상의 엘리먼트들과 상기 스피커들의 제 2 기하학적 구조에서의 하나 이상의 엘리먼트들 사이의 포지션의 차이를 보상하는 단계를 포함하는, 방법.
제 113 항에 있어서,
상기 라우드스피커 채널들에 대해 패닝을 수행하는 단계는, 상기 가상 라우드스피커 채널들을 생성하기 위해 상기 라우드스피커 채널들에 대해 벡터 기반 진폭 패닝을 수행하는 단계를 포함하는, 방법.
제 113 항에 있어서,
상기 라우드스피커 채널들의 각각은 공간의 대응하는 상이한 정의된 영역과 연관되는, 방법.
제 118 항에 있어서,
상기 공간의 대응하는 상이한 정의된 영역들은 오디오 포맷 사양 및 오디오 포맷 표준 중 하나 이상에서 정의되는, 방법.
제 113 항에 있어서,
구면파 모델에 기초하는 제 2 변환으로, 상기 엘리먼트들의 계층적 세트를 상기 가상 라우드스피커 채널들로, 주파수 도메인에서 변환시키는 단계; 및
상이한 라우드스피커 채널들을 생성하기 위해 상기 가상 라우드스피커 채널들에 대해 패닝을 수행하는 단계를 더 포함하고,
상이한 라우드스피커 채널들의 각각은 공간의 대응하는 상이한 영역과 연관되는, 방법.
제 120 항에 있어서,
하나의 가상 라우드스피커 채널들에 패닝을 수행하는 것은, 상기 상이한 라우드스피커 채널들을 생성하기 위해 상기 가상 라우드스피커 채널들에 대해 벡터 기반 진폭 패닝을 수행하는 것을 포함하는, 방법.
제 121 항에 있어서,
상기 가상 라우드스피커 채널들의 각각은 공간의 대응하는 상이한 정의된 영역과 연관되는, 방법.
제 122 항에 있어서,
상기 공간의 대응하는 상이한 정의된 영역들은 오디오 포맷 사양 및 오디오 포맷 표준 중 하나 이상에서 정의되는, 방법.
제 120 항에 있어서,
상기 라우드스피커 채널들은 제 1 공간 기하학적 구조와 연관되고, 상기 상이한 라우드스피커 채널들은 상기 제 1 공간 기하학적 구조와 상이한 제 2 공간 기하학적 구조와 연관되는, 방법.
장치로서,
오디오 데이터를 저장하도록 구성된 메모리; 및
상기 오디오 데이터의 적어도 일부분을 프로세싱하기 위한 하나 이상의 프로세서들
을 포함하고,
상기 하나 이상의 프로세서들은,
가상 라우드스피커 채널들을 생성하기 위해 스피커들의 제 1 기하학적 구조의 좌표에 기초하여 라우드스피커 채널들에 대해 패닝을 수행하는 것으로서, 상기 스피커들의 제 1 기하학적 구조는 상기 가상 라우드스피커 채널들의 위치들에 대응하는, 상기 라우드스피커 채널들에 대해 패닝을 수행하고;
상기 스피커들의 제 1 기하학적 구조의 좌표와 함께 라우드스피커 채널들을 송신하고;
구면파 모델에 기초하는 제 1 변환으로, 음장을 기술하는 엘리먼트들의 계층적 세트를 생성하기 위해 상기 가상 라우드스피커 채널들을 변환시키도록
구성되는, 장치.
제 125 항에 있어서,
상기 음장을 기술하는 상기 엘리먼트들의 계층적 세트를 생성하기 위해, 상기 하나 이상의 프로세서들은, 상기 제 1 변환으로, 상기 스피커들의 제 1 기하학적 구조에 대한 오디오 채널 정보의 제 1 세트를 변환시키도록 구성되는, 장치.
제 126 항에 있어서,
상기 하나 이상의 프로세서들은, 제 2 변환으로, 주파수 도메인에서 상기 엘리먼트들의 계층적 세트를 스피커들의 제 2 기하학적 구조에 대한 오디오 채널 정보의 제 2 세트로 변환시키도록 더 구성되는, 장치.
제 127 항에 있어서,
상기 제 2 변환으로 상기 엘리먼트들의 계층적 세트를 상기 스피커들의 제 2 기하학적 구조에 대한 상기 오디오 채널 정보의 제 2 세트로 변환시키기 위해, 상기 하나 이상의 프로세서들은 상기 스피커들의 제 1 기하학적 구조에서의 엘리먼트들과 상기 스피커들의 제 2 기하학적 구조에서의 엘리먼트들 사이의 포지션의 차이를 보상하도록 구성되는, 장치.
제 125 항에 있어서,
상기 하나 이상의 프로세서들은, 상기 라우드스피커 채널들에 대해 패닝을 수행하는 경우, 상기 가상 라우드스피커 채널들을 생성하기 위해 상기 라우드스피커 채널들에 대해 벡터 기반 진폭 패닝을 수행하도록 더 구성되는, 장치.
제 125 항에 있어서,
상기 라우드스피커 채널들의 각각은 공간의 대응하는 상이한 정의된 영역과 연관되는, 장치.
제 130 항에 있어서,
상기 공간의 대응하는 상이한 정의된 영역들은 오디오 포맷 사양 및 오디오 포맷 표준 중 하나 이상에서 정의되는, 장치.
제 125 항에 있어서,
상기 하나 이상의 프로세서들은, 구면파 모델에 기초하는 제 2 변환으로, 상기 엘리먼트들의 계층적 세트를 가상 라우드스피커 채널들로, 주파수 도메인에서 변환시키고, 상이한 라우드스피커 채널들을 생성하기 위해 상기 가상 라우드스피커 채널들에 대해 패닝을 수행하도록 더 구성되고,
상이한 라우드스피커 채널들의 각각은 공간의 대응하는 상이한 영역과 연관되는, 장치.
제 132 항에 있어서,
상기 하나 이상의 프로세서들은, 하나의 가상 라우드스피커 채널들에 패닝을 수행하는 경우, 상기 상이한 라우드스피커 채널들을 생성하기 위해 상기 가상 라우드스피커 채널들에 대해 벡터 기반 진폭 패닝을 수행하도록 더 구성되는, 장치.
제 132 항에 있어서,
상기 가상 라우드스피커 채널들의 각각은 공간의 대응하는 상이한 정의된 영역과 연관되는, 장치.
제 134 항에 있어서,
상기 공간의 대응하는 상이한 정의된 영역들은 오디오 포맷 사양 및 오디오 포맷 표준 중 하나 이상에서 정의되는, 장치.
제 132 항에 있어서,
상기 라우드스피커 채널들은 제 1 공간 기하학적 구조와 연관되고, 상기 상이한 라우드스피커 채널들은 상기 제 1 공간 기하학적 구조와 상이한 제 2 공간 기하학적 구조와 연관되는, 장치.
가상 라우드스피커 채널들을 생성하기 위해 스피커들의 제 1 기하학적 구조의 좌표에 기초하여 라우드스피커 채널들에 대해 패닝을 수행하는 수단으로서, 상기 제 1 기하학적 구조는 상기 가상 라우드스피커 채널들의 위치들에 대응하는, 상기 라우드스피커 채널들에 대해 패닝을 수행하는 수단;
상기 스피커들의 제 1 기하학적 구조의 좌표와 함께 상기 라우드스피커 채널들을 송신하는 수단; 및
구면파 모델에 기초하는 제 1 변환으로, 음장을 기술하는 엘리먼트들의 계층적 세트를 생성하기 위해 상기 가상 라우드스피커 채널들을 변환시키는 수단을 포함하는, 장치.
제 137 항에 있어서,
상기 가상 라우드스피커 채널들을 변환시키는 수단은, 상기 제 1 변환으로, 상기 스피커들의 제 1 기하학적 구조에 대한 오디오 채널 정보의 제 1 세트를 변환시키는 수단을 포함하는, 장치.
제 138 항에 있어서,
제 2 변환으로, 상기 엘리먼트들의 계층적 세트를 스피커들의 제 2 기하학적 구조에 대한 오디오 채널 정보의 제 2 세트로 변환시키는 수단을 더 포함하는, 장치.
제 139 항에 있어서,
상기 제 2 변환으로, 상기 엘리먼트들의 계층적 세트를 스피커들의 제 2 기하학적 구조에 대한 오디오 채널 정보의 제 2 세트로 변환시키는 수단은, 상기 스피커들의 제 1 기하학적 구조에서의 엘리먼트들과 상기 스피커들의 제 2 기하학적 구조에서의 엘리먼트들 사이의 포지션의 차이를 보상하는 수단을 포함하는, 장치.
제 137 항에 있어서,
상기 라우드스피커 채널들에 대해 패닝을 수행하는 수단은, 상기 가상 라우드스피커 채널들을 생성하기 위해 상기 라우드스피커 채널들에 대해 벡터 기반 진폭 패닝을 수행하는 수단을 포함하는, 장치.
제 137 항에 있어서,
상기 라우드스피커 채널들의 각각은 공간의 대응하는 상이한 정의된 영역과 연관되는, 장치.
제 142 항에 있어서,
상기 공간의 대응하는 상이한 정의된 영역들은 오디오 포맷 사양 및 오디오 포맷 표준 중 하나 이상에서 정의되는, 장치.
제 137 항에 있어서,
구면파 모델에 기초하는 제 2 변환으로, 상기 엘리먼트들의 계층적 세트를 가상 라우드스피커 채널들로, 주파수 도메인에서 변환시키는 수단; 및
상이한 라우드스피커 채널들을 생성하기 위해 상기 가상 라우드스피커 채널들에 대해 패닝을 수행하는 수단을 더 포함하고,
상이한 라우드스피커 채널들의 각각은 공간의 대응하는 상이한 영역과 연관되는, 장치.
제 144 항에 있어서,
상기 가상 라우드스피커 채널들에 대해 패닝을 수행하는 수단은, 상기 상이한 라우드스피커 채널들을 생성하기 위해 상기 가상 라우드스피커 채널들에 대해 벡터 기반 진폭 패닝을 수행하는 수단을 포함하는, 장치.
제 144 항에 있어서,
상기 가상 라우드스피커 채널들의 각각은 공간의 대응하는 상이한 정의된 영역과 연관되는, 장치.
제 146 항에 있어서,
상기 공간의 대응하는 상이한 정의된 영역들은 오디오 포맷 사양 및 오디오 포맷 표준 중 하나 이상에서 정의되는, 장치.
제 144 항에 있어서,
상기 라우드스피커 채널들은 제 1 공간 기하학적 구조와 연관되고, 상기 상이한 라우드스피커 채널들은 상기 제 1 공간 기하학적 구조와 상이한 제 2 공간 기하학적 구조와 연관되는, 장치.
명령들이 저장된 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 명령들은, 실행되는 경우, 하나 이상의 프로세서들로 하여금,
가상 라우드스피커 채널들을 생성하기 위해 스피커들의 제 1 기하학적 구조의 좌표에 기초하여 라우드스피커 채널들에 대해 패닝을 수행하게 하는 것으로서, 상기 제 1 기하학적 구조는 상기 가상 라우드스피커 채널들의 위치들에 대응하는, 상기 라우드스피커 채널들에 대해 패닝을 수행하게 하고;
상기 스피커들의 제 1 기하학적 구조의 좌표와 함께 라우드스피커 채널들을 송신하게 하고;
구면파 모델에 기초하는 제 1 변환으로, 음장을 기술하는 엘리먼트들의 계층적 세트를 생성하기 위해 상기 가상 라우드스피커 채널들을 변환시키게 하는, 비일시적 컴퓨터 판독가능 저장 매체.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제