KR20160012215A

KR20160012215A - 구면 조화 계수들에 대한 공간 마스킹의 수행

Info

Publication number: KR20160012215A
Application number: KR1020157036513A
Authority: KR
Inventors: 디판잔 센; 마틴 제임스 모렐
Original assignee: 퀄컴 인코포레이티드
Priority date: 2013-05-28
Filing date: 2014-05-28
Publication date: 2016-02-02
Also published as: WO2014194001A1; US20140355768A1; CN105247612B; EP3005357A1; EP3005357B1; JP2016524726A; US9412385B2; CN105247612A

Abstract

일반적으로, 구면 조화 계수들에 대해 공간 마스킹을 수행할 기법들이 기술된다. 하나의 예로서, 프로세서를 포함하는 오디오 인코딩 디바이스는 여러 양태들의 기법들을 수행할 수도 있다. 그 프로세서는 공간 마스킹 임계값을 식별하기 위해 3차원 음장을 기술하는 구면 조화 계수들에 기초하여 공간 분석을 수행하도록 구성될 수도 있다. 프로세서는 또한 복수의 구면 조화 계수들로부터 다중 채널 오디오 데이터를 렌더링하고, 비트스트림을 생성하기 위해 식별된 공간 마스킹 임계값에 기초하여 다중 채널 오디오 데이터를 압축하도록 구성될 수도 있다.

Description

구면 조화 계수들에 대한 공간 마스킹의 수행{PERFORMING SPATIAL MASKING WITH RESPECT TO SPHERICAL HARMONIC COEFFICIENTS}

본 출원은 2013년 5월 28일자로 출원된 미국 가출원 제 61/828,132 호의 이익을 주장한다.

본 기법들은 오디오 데이터, 및 특히 오디오 데이터의 코딩에 관한 것이다.

(종종 복수의 구면 조화 계수들 (spherical harmonic coefficients: SHC) 또는 다른 계층적 엘리먼트들로 표현되는) 고차 앰비소닉스 (higher order ambisonics: HOA) 신호는 음장의 3차원 표현이다. 이러한 HOA 또는 SHC 표현은 이러한 SHC 신호로부터 렌더링된 다중 채널 오디오 신호를 플레이백하는 데 사용되는 로컬 스피커 지오메트리와 독립적인 방식으로 이러한 음장을 표현할 수도 있다. 이러한 SHC 신호는 또한 이러한 SHC 신호가 5.1 오디오 채널 포맷 또는 7.1 오디오 채널 포맷과 같은 잘 알려져 있고 고도로 채택된 다중 채널 포맷들로 렌더링될 수도 있기 때문에 백워드 호환성을 용이하게 할 수도 있다. SHC 표현은 따라서 백워드 호환성을 또한 수용하는 음장의 더 양호한 표현을 가능하게 할 수도 있다.

일반적으로, (고차 앰비소닉 (HOA) 계수들로서도 또한 지칭될 수도 있는) 구면 조화 계수들에 대한 공간 마스킹을 수행하는 기법들이 기술된다. 공간 마스킹은 상대적으로 더 큰 사운드가 더 조용한 사운드에 공간적으로 근접한 위치에서 발생할 때 더 조용한 사운드를 검출하는데 있어서 인간 청각 시스템의 불능을 레버리지할 수도 있다. 본 개시에 기술된 기법들은 오디오 코딩 디바이스가 상대적으로 더 큰 (또는 더 에너제틱한) 사운드들에 의해 마스킹될 수도 있는 이들 더 조용한 (또는 덜 에너제틱한) 사운드들을 식별하기 위해 구면 조화 계수들에 의해 표현된 음장을 평가하는 것을 가능하게 할 수도 있다. 오디오 코딩 디바이스는 그 후 더 큰 사운드들을 코딩하기 위해 더 많은 비트들을 할당 (또는 비트들의 수를 유지) 하면서 더 조용한 사운드들을 코딩하기 위해 더 많은 비트들을 할당할 수도 있다. 이러한 점에서, 본 개시에 기술된 기법들은 구면 조화 계수들의 코딩을 용이하게 할 수도 있다.

하나의 양태에서, 방법은 정의된 스피커 지오메트리로 배열된 스피커들에 대응하는 복수의 채널들을 갖는 제 1 다중 채널 오디오 데이터를 생성하기 위해 비트스트림을 디코딩하는 단계, 복수의 구면 조화 계수들을 생성하기 위해 생성된 다중 채널 오디오 데이터에 대해 역 렌더링 프로세스를 수행하는 단계, 및 복수의 구면 조화 계수들에 기초하여 로컬 스피커 지오메트리로 배열된 스피커들에 대응하는 복수의 채널들을 갖는 제 2 다중 채널 오디오 데이터를 렌더링하는 단계를 포함한다.

다른 양태에서, 오디오 디코딩 디바이스는 제 1 스피커 지오메트리로 배열된 스피커들에 대응하는 복수의 채널들을 갖는 제 1 다중 채널 오디오 데이터를 생성하기 위해 비트스트림을 디코딩하고, 복수의 구면 조화 계수들을 생성하기 위해 생성된 다중 채널 오디오 데이터에 대해 역 렌더링 프로세스를 수행하며, 및 복수의 구면 조화 계수들에 기초하여 로컬 스피커 지오메트리로 배열된 스피커들에 대응하는 복수의 채널들을 갖는 제 2 다중 채널 오디오 데이터를 렌더링하도록 구성된 하나 이상의 프로세서들을 포함한다.

다른 양태에서, 오디오 디코딩 디바이스는 제 1 스피커 지오메트리로 배열된 스피커들에 대응하는 복수의 채널들을 갖는 제 1 다중 채널 오디오 데이터를 생성하기 위해 비트스트림을 디코딩하는 수단, 복수의 구면 조화 계수들을 생성하기 위해 생성된 다중 채널 오디오 데이터에 대해 역 렌더링 프로세스를 수행하는 수단, 및 복수의 구면 조화 계수들에 기초하여 로컬 스피커 지오메트리로 배열된 스피커들에 대응하는 복수의 채널들을 갖는 제 2 다중 채널 오디오 데이터를 렌더링하는 수단을 포함한다.

다른 양태에서, 비일시적 컴퓨터 판독가능 저장 매체는 명령들을 저장하고 있으며, 그 명령들은 실행될 때 오디오 디코딩 디바이스의 하나 이상의 프로세서들로 하여금, 제 1 스피커 지오메트리로 배열된 스피커들에 대응하는 복수의 채널들을 갖는 제 1 다중 채널 오디오 데이터를 생성하기 위해 비트스트림을 디코딩하게 하고, 복수의 구면 조화 계수들을 생성하기 위해 생성된 다중 채널 오디오 데이터에 대해 역 렌더링 프로세스를 수행하게 하며, 및 복수의 구면 조화 계수들에 기초하여 로컬 스피커 지오메트리로 배열된 스피커들에 대응하는 복수의 채널들을 갖는 제 2 다중 채널 오디오 데이터를 렌더링하게 한다.

다른 양태에서, 오디오 데이터를 압축하는 방법은 공간 마스킹 임계값을 식별하기 위해 3차원 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하는 단계, 및 비트스트림을 생성하기 위해 식별된 공간 마스킹 임계값들에 기초하여 오디오 데이터를 압축하는 단계를 포함한다.

다른 양태에서, 디바이스는 공간 마스킹 임계값을 식별하기 위해 3차원 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하고, 및 비트스트림을 생성하기 위해 식별된 공간 마스킹 임계값들에 기초하여 오디오 데이터를 압축하도록 구성된 하나 이상의 프로세서들을 포함한다.

다른 양태에서, 디바이스는 공간 마스킹 임계값을 식별하기 위해 3차원 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하는 수단, 및 비트스트림을 생성하기 위해 식별된 공간 마스킹 임계값들에 기초하여 오디오 데이터를 압축하는 수단을 포함한다.

다른 양태에서, 비일시적 컴퓨터 판독가능 저장 매체는 명령들을 저장하고 있으며, 그 명령들은 실행될 때 하나 이상의 프로세서들로 하여금, 공간 마스킹 임계값을 식별하기 위해 3차원 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하게 하고, 비트스트림을 생성하기 위해 식별된 공간 마스킹 임계값들에 기초하여 오디오 데이터를 압축하게 한다.

다른 양태에서, 오디오를 압축하는 방법은 다중 채널 오디오 데이터를 생성하기 위해 3 개의 차원들로 오디오의 음장을 기술하는 복수의 구면 조화 계수들을 렌더링하는 단계, 공간 마스킹 임계값을 식별하기 위해 다중 채널 오디오 데이터에 대해 공간 분석을 수행하는 단계, 및 비트스트림을 생성하기 위해 식별된 공간 마스킹 임계값에 기초하여 다중 채널 오디오 데이터를 압축하는 단계를 포함한다.

다른 양태에서, 디바이스는 다중 채널 오디오 데이터를 생성하기 위해 3 개의 차원들로 오디오의 음장을 기술하는 복수의 구면 조화 계수들을 렌더링하고, 공간 마스킹 임계값을 식별하기 위해 다중 채널 오디오 데이터에 대해 공간 분석을 수행하며, 및 비트스트림을 생성하기 위해 식별된 공간 마스킹 임계값에 기초하여 다중 채널 오디오 데이터를 압축하도록 구성된 하나 이상의 프로세서들을 포함한다.

다른 양태에서, 디바이스는 다중 채널 오디오 데이터를 생성하기 위해 3 개의 차원들로 오디오의 음장을 기술하는 복수의 구면 조화 계수들을 렌더링하는 수단, 공간 마스킹 임계값을 식별하기 위해 다중 채널 오디오 데이터에 대해 공간 분석을 수행하는 수단, 및 비트스트림을 생성하기 위해 식별된 공간 마스킹 임계값에 기초하여 다중 채널 오디오 데이터를 압축하는 수단을 포함한다.

다른 양태에서, 비일시적 컴퓨터 판독가능 저장 매체는 명령들을 저장하고 있으며, 그 명령들은 실행될 때 하나 이상의 프로세서들로 하여금, 다중 채널 오디오 데이터를 생성하기 위해 3 개의 차원들로 오디오의 음장을 기술하는 복수의 구면 조화 계수들을 렌더링하게 하고, 공간 마스킹 임계값을 식별하기 위해 다중 채널 오디오 데이터에 대해 공간 분석을 수행하게 하며, 비트스트림을 생성하기 위해 식별된 공간 마스킹 임계값에 기초하여 다중 채널 오디오 데이터를 압축하게 한다.

다른 양태에서, 오디오 데이터를 압축하는 방법은 압축된 오디오 데이터를 나타내는 비트스트림에 대한 목표 비트레이트를 결정하는 단계, 공간 마스킹 임계값을 식별하기 위해 3 개의 차원들로 오디오 데이터의 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하는 단계, 및 목표 비트레이트에 기초하여, 압축된 오디오 데이터를 나타내는 비트스트림을 생성하기 위해 i) 파라메트릭 인터 채널 오디오 인코딩 및 공간 마스킹 임계값을 사용하는 공간 마스킹 또는 (ii) 파라메트릭 인터 채널 오디오 인코딩을 수행하지 않고 공간 마스킹 임계값을 사용한 공간 마스킹을 수행하는 단계를 포함한다.

다른 양태에서, 디바이스는 압축된 오디오 데이터를 나타내는 비트스트림에 대한 목표 비트레이트를 결정하고, 공간 마스킹 임계값을 식별하기 위해 3 개의 차원들로 오디오 데이터의 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하며, 및 목표 비트레이트에 기초하여, 압축된 오디오 데이터를 나타내는 비트스트림을 생성하기 위해 i) 파라메트릭 인터 채널 오디오 인코딩 및 공간 마스킹 임계값을 사용하는 공간 마스킹 또는 (ii) 파라메트릭 인터 채널 오디오 인코딩을 수행하지 않고 공간 마스킹 임계값을 사용한 공간 마스킹을 수행하도록 구성된 하나 이상의 프로세서들을 포함한다.

다른 양태에서, 디바이스는 압축된 오디오 데이터를 나타내는 비트스트림에 대한 목표 비트레이트를 결정하는 수단, 공간 마스킹 임계값을 식별하기 위해 3 개의 차원들로 오디오 데이터의 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하는 수단, 및 목표 비트레이트에 기초하여, 압축된 오디오 데이터를 나타내는 비트스트림을 생성하기 위해 i) 파라메트릭 인터 채널 오디오 인코딩 및 공간 마스킹 임계값을 사용하는 공간 마스킹 또는 (ii) 파라메트릭 인터 채널 오디오 인코딩을 수행하지 않고 공간 마스킹 임계값을 사용한 공간 마스킹을 수행하는 수단을 포함한다.

다른 양태에서, 비일시적 컴퓨터 판독가능 저장 매체는 명령들을 저장하고 있으며, 그 명령들은 실행될 때 하나 이상의 프로세서들로 하여금, 압축된 오디오 데이터를 나타내는 비트스트림에 대한 목표 비트레이트를 결정하게 하고, 공간 마스킹 임계값을 식별하기 위해 3 개의 차원들로 오디오 데이터의 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하게 하며, 목표 비트레이트에 기초하여, 압축된 오디오 데이터를 나타내는 비트스트림을 생성하기 위해 i) 파라메트릭 인터 채널 오디오 인코딩 및 공간 마스킹 임계값을 사용하는 공간 마스킹 또는 (ii) 파라메트릭 인터 채널 오디오 인코딩을 수행하지 않고 공간 마스킹 임계값을 사용한 공간 마스킹을 수행하게 한다.

다른 양태에서, 다중 채널 오디오 데이터를 압축하는 방법은 공간 마스킹 임계값을 식별하기 위해 3 개의 차원들로 다중 채널 오디오 데이터의 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하는 단계, 다중 채널 오디오 데이터를 생성하기 위해 구면 조화 계수들을 렌더링하는 단계, 공간 마스킹 임계값을 사용하여 다중 채널 오디오 데이터의 하나 이상의 베이스 채널들에 대해 공간 마스킹을 수행하는 단계, 및 비트스트림을 생성하기 위해 다중 채널 오디오 데이터의 공간적으로 마스킹된 하나 이상의 베이스 채널들을 포함하여, 다중 채널 오디오 데이터에 대해 파라메트릭 인터 채널 오디오 인코딩을 수행하는 단계를 포함한다.

다른 양태에서, 디바이스는 공간 마스킹 임계값을 식별하기 위해 3 개의 차원들로 다중 채널 오디오 데이터의 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하고, 다중 채널 오디오 데이터를 생성하기 위해 구면 조화 계수들을 렌더링하며, 공간 마스킹 임계값을 사용하여 다중 채널 오디오 데이터의 하나 이상의 베이스 채널들에 대해 공간 마스킹을 수행하고, 및 비트스트림을 생성하기 위해 다중 채널 오디오 데이터의 공간적으로 마스킹된 하나 이상의 베이스 채널들을 포함하여, 다중 채널 오디오 데이터에 대해 파라메트릭 인터 채널 오디오 인코딩을 수행하도록 구성된 하나 이상의 프로세서들을 포함한다.

다른 양태에서, 디바이스는 공간 마스킹 임계값을 식별하기 위해 3 개의 차원들로 다중 채널 오디오 데이터의 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하는 수단, 다중 채널 오디오 데이터를 생성하기 위해 구면 조화 계수들을 렌더링하는 수단, 공간 마스킹 임계값을 사용하여 다중 채널 오디오 데이터의 하나 이상의 베이스 채널들에 대해 공간 마스킹을 수행하는 수단, 및 비트스트림을 생성하기 위해 다중 채널 오디오 데이터의 공간적으로 마스킹된 하나 이상의 베이스 채널들을 포함하여, 다중 채널 오디오 데이터에 대해 파라메트릭 인터 채널 오디오 인코딩을 수행하는 수단을 포함한다.

다른 양태에서, 비일시적 컴퓨터 판독가능 저장 매체는 명령들을 저장하고 있으며, 그 명령들은 실행될 때 하나 이상의 프로세서들로 하여금, 공간 마스킹 임계값을 식별하기 위해 3 개의 차원들로 다중 채널 오디오 데이터의 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하게 하고, 다중 채널 오디오 데이터를 생성하기 위해 구면 조화 계수들을 렌더링하게 하며, 공간 마스킹 임계값을 사용하여 다중 채널 오디오 데이터의 하나 이상의 베이스 채널들에 대해 공간 마스킹을 수행하게 하고, 및 비트스트림을 생성하기 위해 다중 채널 오디오 데이터의 공간적으로 마스킹된 하나 이상의 베이스 채널들을 포함하여, 다중 채널 오디오 데이터에 대해 파라메트릭 인터 채널 오디오 인코딩을 수행하게 한다.

다른 양태에서, 오디오 데이터를 압축하는 방법은 공간 마스킹 임계값을 식별하기 위해 3 개의 차원들로 오디오 데이터의 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하는 단계, 공간 마스킹 임계값을 사용하여 복수의 구면 조화 계수들에 대해 공간 마스킹을 수행하는 단계, 및 복수의 공간적으로 마스킹된 구면 조화 계수들을 포함하는 비트스트림을 생성하는 단계를 포함한다.

다른 양태에서, 디바이스는 공간 마스킹 임계값을 식별하기 위해 3 개의 차원들로 오디오 데이터의 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하고, 공간 마스킹 임계값을 사용하여 복수의 구면 조화 계수들에 대해 공간 마스킹을 수행하며, 및 복수의 공간적으로 마스킹된 구면 조화 계수들을 포함하는 비트스트림을 생성하는 하나 이상의 프로세서들을 포함한다.

다른 양태에서, 디바이스는 공간 마스킹 임계값을 식별하기 위해 3 개의 차원들로 오디오 데이터의 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하는 수단, 공간 마스킹 임계값을 사용하여 복수의 구면 조화 계수들에 대해 공간 마스킹을 수행하는 수단, 및 복수의 공간적으로 마스킹된 구면 조화 계수들을 포함하는 비트스트림을 생성하는 수단을 포함한다.

다른 양태에서, 비일시적 컴퓨터 판독가능 저장 매체는 명령들을 저장하고 있으며, 그 명령들은 실행될 때 하나 이상의 프로세서들로 하여금, 공간 마스킹 임계값을 식별하기 위해 3 개의 차원들로 오디오 데이터의 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하게 하고, 공간 마스킹 임계값을 사용하여 복수의 구면 조화 계수들에 대해 공간 마스킹을 수행하게 하며, 및 복수의 공간적으로 마스킹된 구면 조화 계수들을 포함하는 비트스트림을 생성하게 한다.

그 기법들의 하나 이상의 양태들의 상세들이 첨부하는 도면들 및 이하의 설명에서 진술된다. 이들 기법들의 다른 특징들, 목적들, 및 이점들은 상세한 설명 및 도면들로부터, 그리고 청구범위로부터 분명해질 것이다.

도 1 내지 도 3 은 여러 차수들 및 서브 차수들의 구면 조화 기저 함수들을 도시한다.
도 4a 및 도 4b 는 각각 2 또는 3 차원 음장들을 기술하는 구면 조화 계수들을 코딩하기 위해 본 개시에서 기술된 기법들의 여러 양태들을 수행할 수도 있는 예시의 오디오 인코딩 디바이스를 도시하는 블록도이다.
도 5 는 2 또는 3 차원 음장들을 기술하는 구면 조화 계수들을 디코딩하기 위해 본 개시에서 기술된 기법들의 여러 양태들을 수행할 수도 있는 예시의 오디오 디코딩 디바이스를 도시하는 블록도이다.
도 6a 내지 도 6c 는 도 4a 의 예에 도시된 오디오 인코딩 유닛의 예시의 변형들 더욱 상세히 도시하는 블록도들이다.
도 7 은 도 2 의 오디오 디코딩 유닛의 예를 더욱 상세히 도시하는 블록도이다.
도 8 은 도 5 의 예에 도시된 오디오 렌더링 유닛을 더욱 상세히 도시하는 블록도이다.
도 9 는 본 개시에서 기술된 기법들의 여러 양태들을 수행하는데 있어서 오디오 인코딩 디바이스의 예시의 동작을 도시하는 플로우챠트이다.
도 10 은 본 개시에서 기술된 기법들의 여러 양태들을 수행하는데 있어서 오디오 디코딩 디바이스의 예시의 동작을 도시하는 플로우챠트이다.
도 11 은 본 개시에 기술된 공간 마스킹 기법들의 여러 양태들을 도시하는 다이어그램이다.
도 12 는 비트스트림 생성의 상이한 형태들이 본 개시에서 기술된 기법들의 여러 양태들에 따라 수행될 수도 있는 도 4a 의 예에서 도시된 오디오 인코딩 디바이스의 변형을 도시하는 블록도이다.
도 13 은 본 개시에 기술된 기법들의 여러 양태들을 수행할 수도 있는 예시적인 오디오 인코딩 디바이스를 도시하는 블록도이다.

서라운드 사운드의 진화는 요즘 엔터테인먼트를 위한 많은 출력 포맷들을 이용가능하게 만들었다. 그러한 서라운드 사운드 포맷들의 예들은 (다음의 6 개이 채널들: 전방 좌측 (FL), 전방 우측 (FR), 중앙 또는 전방 중앙, 후방 좌측 또는 서라운드 좌측, 후방 우측 또는 서라운드 우측, 및 저주파 효과들 (LFE) 을 포함하는) 대중적인 5.1 포맷, 성장하는 7.1 포맷, 및 (예를 들어, 초고선명 텔레비젼 표준과 함께 사용하기 위한) 업커밍 22.2 포맷을 포함한다. 다른 예들은 구면 조화 배열에 대한 포맷들을 포함한다.

미래의 MPEG 인코더에 대한 입력은 선택적으로 3 개의 가능한 포맷들: (i) 미리 특정된 위치들에 있는 라우드스피커들을 통해 플레이되도록 의도되는 전통적인 채널 기반 오디오; (ii) (다른 정보 중에서도) 그들의 로케이션 좌표들을 포함하는 연관된 메타데이터를 갖는 단일의 오디오 오브젝트들에 대한 이산 펄스 코드 변조 (PCM) 데이터를 수반하는 오브젝트 기반 오디오; 및 (iii) (또한 "구면 조화 계수들" 또는 SHC 로 불리는) 구면 조화 기저 함수들의 계수들을 사용하여 음장을 표현하는 것을 수반하는 장면 기반 오디오 중 하나이다.

시장에는 여러 '서라운드-사운드' 포맷들이 존재한다. 그들은 예를 들어 (스테레오를 너머 거실들로의 침투들을 행하는 면에서 가장 성공적이었던) 5.1 홈 시어터 시스템으로부터 NHK (니폰 호소 쿄카이 또는 일본 방송 협회) 에 의해 개발된 22.2 시스템까지의 범위이다. 컨텐츠 생성자들 (예를 들어, 헐리우드 스튜디오들) 은 영화를 위한 사운트트랙을 한번 생성하기를 원하고, 각각의 스피커 구성을 위해 그것을 리믹스할 노력들을 소비하는 것을 원하지 않을 것이다. 최근, 표준 위원회들은 표준화된 비트스트림으로의 인코딩 및 렌더러의 로케이션에서 스피커 지오메트리 및 음향 조건들에 적응가능하고 어그노스틱 (agnostic) 한 후속하는 디코딩을 제공할 방법들을 고려해왔다.

컨텐츠 생성자들에게 그러한 유연성을 제공하기 위해, 엘리먼트들의 계층적 세트가 음장을 표현하는데 사용될 수도 있다. 엘리먼트들의 계층적 세트는 엘리먼트들이 더 낮은 오더의 엘리먼트들의 기본 세트가 모델링된 음장의 완전한 표현을 제공하도록 순서화되는 엘리먼트들의 세트를 지칭할 수도 있다. 그 세트가 더 높은 오더의 엘리먼트들을 포함하도록 확장됨에 따라, 그 표현은 더욱 상세화된다.

엘리먼트들의 계층적 세트의 하나의 예는 SHC 의 세트이다. 다음의 식은 SHC 를 사용하는 음장의 기술 또는 표현을 나타낸다:

이러한 식은 음장의 임의의 포인트

에서의 압력 p_i 가 SHC

에 의해 고유하게 표현될 수 있다는 것을 보여준다. 여기서, k = ω/c, 이고, c 는 사운드의 속도 (~343 m/s) 이며,

은 참조의 포인트 (또는 관찰 포인트) 이고, j_n(·) 은 오더 n 의 구면 베셀 함수이고,

은 오더 n 및 서브오더 m 의 구면 조화 기저 함수들이다. 사각 괄호 내의 항은 이산 푸리에 변환 (DFT), 이산 코사인 변환 (DCT), 또는 웨이블릿 변환과 같은 여러 시간-주파수 변환들에 의해 근사화될 수 있는 신호 (즉,

) 의 주파수-도메인 표현이라는 것이 인식될 수 있다. 계층적 세트들의 다른 예들은 다중 해상도 기저 함수들의 계수들의 다른 세트들 및 웨이블릿 변환 계수들의 세트들을 포함한다.

도 1 은 제로 오더 구변 조화 기저 함수 (제 1 행), 제 1 오더 구면 조화 기저 함수들 (제 2 행) 및 제 2 오더 구면 조화 기저 함수 (제 3 행) 을 도시하는 다이어그램이다. 오더 (n) 는 제로 오더를 지칭하는 제 1 행, 제 1 오더를 지칭하는 제 2 행, 및 제 2 오더를 지칭하는 제 3 행으로 테이블의 행들에 의해 식별된다. 서브 오더 (m) 는 도 3 에서 더 상세히 도시되는 테이블의 열들에 의해 식별된다. 제로 오더 구면 조화 기저 함수에 대응하는 SHC 는 음장의 에너지를 특정하는 것으로서 고려될 수도 있는 반면, 나머지 더 높은 오더의 구면 조화 기저 함수들에 대응하는 SHC 들은 그 에너지의 방향을 특정할 수도 있다.

도 2 는 제로 오더 (n=0) 로부터 제 4 오더 (n=4) 까지의 구면 조화 기저 함수들을 도시하는 다이어그램이다. 알수 있는 바와 같이, 각각의 오더에 대해, 설명의 편의의 목적으로 도 2 의 예에서 도시되지만 명시적으로 표시되지는 않는 서브오더들 (m) 의 확장이 존재한다.

도 3 은 제로 오더 (n=0) 로부터 제 4 오더 (n=4) 까지의 구면 조화 기저 함수들을 도시하는 다른 다이어그램이다. 도 3 에서, 구면 조화 기저 함수들은 도시된 오더 및 서브오더 양자 모두를 갖는 3차원 좌표 공간에서 도시된다.

어느 경우든, SHC

는 여러 마이크로폰 어레이 구성들에 의해 물리적으로 획득 (예를 들오, 리코딩) 될 수 있거나, 대안적으로 그들은 음장의 채널 기반 또는 오브젝트 기반 기술 (description) 들로부터 도출될 수 있다. 전자는 인코더에 대한 장면 기반 오디오 입력을 표현한다. 예를 들어, 1+2⁴ (25, 및 이리하여 제 4 오더) 계수들을 수반하는 제 4 오더 표현이 사용될 수도 있다. 이들 SHC 들이 오브젝트 기반 기술로부터 도출될 수도 있는 방법을 설명하기 위해, 다음의 방정식을 고려하라. 개개의 오디오 오브젝트에 대응하는 음장에 대한 계수들

은,

로서 표현될 수도 있고, 여기서, i 는

이고,

는 오더 n 의 (사운드 종류의) 구면 행켈 함수이며,

는 오브젝트의 로케이션이다. (예를 들어, PCM 스트림에 대한 고속 푸리에 변환을 수행하는 것과 같은 시간-주파수 분석 기법들을 사용하여) 주파수의 함수로서 소스 에너지 g(ω) 를 아는 것은 우리가 각 PCM 오브젝트 및 그의 로케이션을 SHC

로 변환하는 것을 허용한다. 또한, (상기 한 것은 선형 및 직교 분해이기 때문에) 각 오브젝트에 대한

계수들은 가산적이라는 것이 도시될 수 있다. 이러한 방식으로, 다수의 PCM 오브젝트들은 (예를 들어, 개개의 오브젝트들에 대한 계수 벡터들의 합산으로서)

계수들에 의해 표현될 수 있다. 본질적으로, 이들 계수들은 음장 (3D 좌표들의 함수로서의 압력) 에 대한 정보를 포함하고, 상기한 것은 관찰 포인트

의 근처에서, 개개의 오브젝트들로부터 전체 음장의 표현으로의 변환을 표현한다. 나머지 도면들은 오브젝트 기반 및 SHC 기반 오디오 코딩의 콘텍스트에서 이하에 기술된다.

도 4a 및 도 4b 는 각각 2 또는 3차원 음장들을 기술하는 구면 조화 계수들을 코딩하기 위해 본 개시에 기술된 기법들의 여러 양태들을 수행할 수도 있는 예시의 오디오 인코딩 디바이스 (10) 을 도시하는 블록도이다. 도 4a 의 예에서, 오디오 인코딩 디바이스 (10) 는 일반적으로 데스크톱 컴퓨터, 랩톱 컴퓨터, 워크스테이션, 태블릿 또는 슬레이트 컴퓨터, 전용 오디오 리코딩 디바이스, (소위 "스마트 폰들" 을 포함하는) 셀룰러 폰, 개인용 미디어 플레이어 디바이스, 개인용 게이밍 디바이스, 또는 오디오 데이터를 인코딩할 수 있는 임의의 다른 타입의 디바이스와 같은 오디오 데이터를 인코딩할 수 있는 임의의 디바이스를 나타낸다.

단일의 디바이스, 즉 도 4a 의 예에서 디바이스 (10) 로서 도시되지만, 디바이스 (10) 내에 포함되는 것으로서 이하에 참조되는 여러 컴포넌트들 또는 유닛들은 실제로 디바이스 (10) 로부터 외부에 있는 별개의 디바이스들을 형성할 수도 있다. 즉, 단일의 디바이스, 즉 도 4a 의 예에서 디바이스 (10) 에 의해 수행되는 것으로서 본 개시에서 기술되지만, 그 기법들은 다수의 디바이스들을 포함하는 시스템에 의해 구현되거나, 다르게는 수행될 수도 있으며, 여기서 이들 디바이스들 각각은 각각 이하에 더욱 상세히 기술되는 여러 컴포넌트들 또는 유닛들의 하나 이상을 포함할 수도 있다. 이에 따라, 그 기법들은 도 4a 의 예에 제한되지 않아야 한다.

도 4a 의 예에서 도시된 바와 같이, 오디오 인코딩 디바이스 (10) 는 시간-주파수 분석 유닛 (12), 오디오 렌더링 유닛 (14), 오디오 인코딩 유닛 (16) 및 공간 분석 유닛 (18) 을 포함한다. 시간-주파수 분석 유닛 (12) 은 시간 도메인으로부터 주파수 도메인으로 구면 조화 계수들 (spherical harmonic coefficients: SHC)(20A) 을 변환하기 위해 SHC (20A) 의 시간-주파수 분석을 수행하도록 구성된 유닛을 표현할 수도 있다. 시간-주파수 분석 유닛 (12) 은 주파수 도메인에서 표현된 SHC (20A) 를 나타낼 수도 있는 SHC (20B) 를 출력할 수도 있다. 시간-주파수 분석 유닛 (12) 에 대해 기술되지만, 기법들은 주파수 도메인으로 변환된 SHC (20B) 에 대해 수행되기 보다는 오히려 시간 도메인에 남겨진 SHC (20A) 에 대해 수행될 수도 있다.

SHC (20A) 는 하나 이상의 구면 조화 함수들과 연관된 계수들을 지칭할 수도 있다. 이들 구면 조화 함수들은 푸리에 급수의 삼각 기저 함수들과 유사할 수도 있다. 즉, 구면 조화 함수들은 푸리에 급수의 삼각 함수들이 스트링의 진동의 기본 모드들을 표현할 수도 있는 방법과 유사한 마이크로폰 주위의 구면의 진동의 기본 모드들을 표현할 수도 있다. 이들 계수들은 이들 구면 조화 함수들의 사용을 수반하는 구면 좌표들에서의 파동 방정식을 풂으로써 도출될 수도 있다. 이러한 의미에서, SHC (20A) 는 대응하는 구면 조화 함수의 볼륨 멀티플라이어 (volume multiplier) 를 나타내는 계수들을 갖는 구면 조화 함수들의 시리즈로서 마이크로폰을 둘러싼 3D 음장을 표현할 수도 있다.

(제 1 오더 앰비소닉스로서 또한 지칭될 수도 있는) 낮은 오더 앰비소닉스는 W, X, Y 및 Z 로 표시되는 4 개의 채널들로 사운드 정보를 인코딩할 수도 있다. 이러한 인코딩 포맷은 종종 "B-포맷" 으로서 지칭된다. W 채널은 전방향 마이크로폰의 출력에 대응하는 캡쳐된 사운드 신호의 비방향성 모노 컴포넌트를 지칭한다. X, Y 및 Z 채널들은 3 개의 차원들에서의 방향성 컴포넌트들이다. X, Y 및 Z 채널들은 통상적으로 3 개의 8 자형 마이크로폰들의 출력들에 대응하며, 각각 이들 중 하나는 전방을 향하고, 이들 중 다른 하나는 좌측을 향하고, 이들 중 세번째는 상방을 향한다. 이들 B-포맷 신호들은 통상적으로 음장의 구면 조화 분해에 기초하고 공간 내의 포인트에서 3 개의 컴포넌트 압력 그래디언트들 (X, Y 및 Z) 및 압력 (W) 에 대응한다. 함께, 이들 4 개의 B 포맷 신호들 (즉, W, X, Y 및 Z) 은 마이크로폰 주위의 음장을 근사화한다. 공식적으로, 이들 B-포맷 신호들은 다중극 팽창의 제 1 오더 트렁케이션을 표현할 수도 있다.

높은 오더 앰비소닉스는 오리지날 제 1 오더 B-포맷보다 더 미세한 모드 컴포넌트들을 표현하는, 더 많은 채널들을 사용하는 음장을 표현하는 형태를 지칭한다. 결과적으로, 높은 오더 앰비소닉스는 상당히 더 많은 공간 정보를 캡쳐할 수도 있다. 용어 "높은 오더 앰비소닉스" 에서의 "높은 오더" 는 구면 조화 함수들의 면에서 구면에 대한 함수의 다중 모드 팽창의 추가의 항들을 지칭한다. 높은 오더 앰비소닉스에 의해 공간 정보를 증가시키는 것은 공간에 대한 압력으로서 캡쳐된 사운드의 더 양호한 표현을 야기할 수도 있다. SHC (20A) 를 생성하기 위해 높은 오더 앰비소닉스를 사용하는 것은 오디오 디코더에 존재하는 스피커들에 의한 캡쳐된 사운드의 더 양호한 재생을 가능하게 할 수도 있다.

오디오 렌더링 유닛 (14) 은 하나 이상의 채널들 (22A-22N) ("스피커 피드들 (22A-22N)" 으로서도 또한 지칭될 수도 있는 "채널들 (22)") 로 SHC (20B) 를 렌더링하도록 구성된 유닛을 표현한다. 대안적으로, SHC (20A) 를 SHC (20B) 로 변환하지 않는 경우, 오디오 렌더링 유닛 (14) 은 SHC (20A) 로부터 하나 이상의 채널들 (22A-22N) 을 렌더링하도록 구성된 유닛을 표현할 수도 있다. 일부 예들에서, 오디오 렌더링 유닛 (14) 은 밀집한 T-설계 지오메트리로 배열된 32 개의 스피커들에 대응하는 (도 4 의 예에서 채널들 (22) 로서 도시된) 32 채널들로 SHC (20B) 를 렌더링할 수도 있다. 오디오 렌더링 유닛 (14) 은 디코더에서 SHC (20B) 의 복원을 용이하게 하기 위해 밀집한 T-설계로 배열된 32 개의 스피커들에 대응하는 32 개의 채널들로 SHC (20B) 를 렌더링할 수도 있다. 즉, 이러한 밀집한 T-설계로 배열된 32 개의 스피커들에 대응하는 이들 32 개의 채널들로 SHC (20B) 를 렌더링하는데 수반되는 계산 (math) 은 가역적인 행렬을 포함하여, ( R ^- ¹ 로서 표시될 수도 있는) 인버팅된 행렬에 의해 승산된 (변수 R 에 의해 표시될 수도 있는) 이러한 행렬이 ( RR ^-1 = I 인 전체 수학적 표현을 갖는, I 로 표시되는) 단위 행렬과 동일하도록 한다. 상기 수학적 표현은 오디오 디코더에서 SHC (32B) 를 복구할 때 손실이 없는 (또는, 다르게 말해서 에러가 거의 도입되지 않거나 전혀 도입되지 않는) 것을 암시한다.

오디오 인코딩 유닛 (16) 은 비트스트림 (24) 으로 채널들 (22) 을 압축하기 위해 오디오 인코딩의 일부 형태를 수행하도록 구성된 유닛을 표현할 수도 있다. 일부 예들에서, 오디오 인코딩 유닛 (16) 은 ISO (International Organization for Standardization)/IEC (International Electrotechnical Commission) 23003-1에 정의된 동화상 전문가 그룹 (MPEG) 서라운드 또는 (ISO/IEC 13818-7:1997 로서 또한 알려져 있는) MPEG-2 표준의 파트 7 및 (ISO/IEC 14496-3:1999 로서 또한 알려져 있는) MPEG-4 의 파트 3 의 서브파트 4 양자 모두에 정의된 MPEG 어드밴스드 오디오 코딩 (AAC) 과 같은 기지의 공간 오디오 인코딩 표준들에 따르는 오디오 인코더들의 변경된 버전들을 포함할 수도 있다.

공간 분석 유닛 (18) 은 SHC (20A) 의 공간 분석을 수행하도록 구성된 유닛을 표현할 수도 있다. 공간 분석 유닛 (18) 은 음장에서의 (종종 방위각, 각도, 고도각 및 반경 (또는 등가의 직교 좌표들) 중 하나 이상의 함수로서 표현되는) 상대적인 높고 낮은 압력 밀도의 영역들을 식별하기 위해 이러한 공간 분석을 수행하여, 공간 특성들 (26) 을 식별하기 위해 SHC (20A) 를 분석할 수도 있다. 이들 공간 특성들 (26) 은 소정의 특징들을 갖는 SHC (20A) 의 여러 부분들의 방위각, 각도, 고도각 및 반경 중 하나 이상을 특정할 수도 있다. 공간 분석 유닛 (18) 은 오디오 인코딩 유닛 (16) 에 의한 오디오 인코딩을 용이하게 하기 위해 공간 특성들 (26) 을 식별할 수도 있다. 즉, 공간 분석 유닛 (18) 은 오디오 인코딩 유닛 (16) 에 공간 특성들 (26) 을 제공할 수도 있고 이것은 음향심리 공간 또는 위치 마스킹 및 SHC (20A) 에 의해 표현된 음장의 다른 공간 특징들을 이용하기 위해 변경될 수도 있다.

공간 마스킹은 높은 에너지 음향 에너지가 음장에 존재할 때 음장의 이웃하는 공간 부분들 (또는 3D 세그먼트들) 을 마스킹하기 위해 인간 청가 시스템의 경향들을 레버리지할 수도 있다. 즉, 음장의 높은 에너지 부분들은 에너지의 일부들 (종종, 낮은 에너지의 인접한 영역들)이 인간 청각 시스템에 의해 검출될 (또는 분별될) 수 없도록 인간 청각 시스템을 압도할 수도 있다. 결과적으로, 오디오 인코딩 유닛 (16) 은 비트들의 더 낮은 수 (또는 등가적으로 더 높은 양자화 노이즈) 가 공간의 이들 소위 "마스킹된" 세그먼트들에서 음장을 표현하는 것을 허용할 수도 있으며, 여기서 인간 청각 시스템들은 높은 에너지 부분들이 SHC (20A) 에 의해 정의된 음장의 이웃 영역들에서 검출될 때 사운드들을 검출 (또는 분별) 할 수 없을 수도 있다. 이것은 (가능하게는 더 높은 노이즈를 의미하는) 더 낮은 정밀도를 갖는 이들 "마스킹된" 공간 영역들에서의 음장을 표현하는 것과 유사하다,

동작에 있어서, 오디오 인코딩 디바이스 (10) 는 음장의 공간 특성들 (26) 을 식별하기 위해 3차원 음장을 기술하는 SHC (20A) 에 대해 공간 분석을 수행하는 것에 공간 분석 유닛 (18) 을 먼저 호출함으로써 본 개시에서 기술된 기법들의 여러 양태들을 구현할 수도 있다. 오디오 인코딩 디바이스 (10) 는 그 후 (상술된 바와 같이, 시간-주파수 분석이 수행되지 않을 때) SHC (20A) 또는 (시간-주파수 분석이 수행될 때) SHC (20B) 로부터 ("다중 채널 오디오 데이터 (22)" 로서 지칭될 수도 있는) 채널들 (22) 을 렌더링하기 위해 오디오 렌더링 유닛 (14) 을 호출할 수도 있다. 이러한 다중 채널 오디오 데이터 (22) 를 렌더링한 후에 또는 동시에 오디오 인코딩 디바이스 (10) 는 비트스트림 (24) 을 생성하기 위해 식별된 공간 특성들 (26) 에 기초하여 다중 채널 오디오 데이터 (22) 를 인코딩하기 위해 오디오 인코딩 유닛 (16) 을 호출할 수도 있다. 상술된 바와 같이, 오디오 인코딩 유닛 (16) 은 공간 특성들 (26) 을 레버리지하기 위해 (예를 들어, 상술된 공간 마스킹을 수행하기 위해) 여러가지 방식으로 변경된 오디오 인코딩의 표준 호환 형태를 수행할 수도 있다.

이러한 방식으로, 기법들은 이하에 더욱 상세히 기술되는 바와 같이, 도 5 의 예에서 도시된 오디오 디코딩 디바이스 (30) 와 같은 오디오 디코딩 디바이스가 SHC (20A) 를 복원할 수 있도록 SHC (20A) 를 효과적으로 인코딩할 수도 있다. 밀집한 T-설계로 배열된 32 개의 스피커들로 (시간-주파수 분석이 수행되는지 여부에 따라) SHC (20A) 또는 SHC (20B) 를 렌더링하기 위해 선택함으로써, 수학적 표현은 가역적이고, 이것은 렌더링에 기인한 정확성의 손실이 거의 없거나 전혀 없다는 것을 의미한다. 디코더에 통상적으로 존재하는 것보다 더 많은 스피커들을 포함하는 밀집한 스피커 지오메트리를 선택함으로써, 기법들은 음장의 양호한 재합성을 제공한다. 즉, 밀집한 스피커 지오메트리를 가정하는 다중 채널 오디오 데이터를 렌더링함으로써, 다중 채널 오디오 데이터는 음장을 기술하는 데이터의 충분한 양을 포함하여, 오디오 디코딩 디바이스 (30) 에서 SHC (20A) 를 재구성하자마자, 오디오 디코딩 디바이스 (30) 가 덜 최적의 (less-than-optimal) 스피커 지오메트리들로 구성된 디코더 로컬 스피커들을 사용하여 충분한 충실도를 갖는 음장을 재합성할 수도 있도록 한다. 어구 "최적의 스피커 지오메트리들" 은 여러 대중적인 서라운드 사운드 표준들에 의해 정의된 것들과 같은 표준들에 의해 특정된 것들, 및/또는 밀집한 T-설계 지오메트리 또는 플라톤 입체 지오메트리와 같은 소정의 지오메트리들에 고착된 스피커 지오메트리들을 지칭할 수도 있다.

일부 예들에서, 이러한 공간 마스킹은 동시 마스킹과 같은 마스킹의 다른 타입들과 함께 수행될 수도 있다. 공간 마스킹과 같은 동시 마스킹은 인간 청각 시스템의 현상을 수반하고, 여기서 다른 사운드들과 동시적으로 (및 종종 적어도 부분적으로 동시에) 생성되는 사운드들은 다른 사운드들을 마스킹한다. 통상적으로, 마스킹하는 사운드는 다른 사운드들보다 더 높은 볼륨으로 생성된다. 마스킹하는 사운드는 또한 마스킹되는 사운드에 주파수에 있어서 근접하도록 유사할 수도 있다. 따라서, 단독으로 수행되는 것으로서 본 개시에서 기술되지만, 공간 마스킹 기법들은 위에서 표시된 동시 마스킹과 같은 마스킹의 다른 형태들과 협동하여 또는 동시에 수행될 수도 있다.

도 4b 는 도 4a 의 예에서 도시된 오디오 인코딩 디바이스 (10) 의 변형을 도시하는 블록도이다. 도 4b 의 예에서, 오디오 인코딩 디바이스 (10) 의 변형은 "오디오 인코딩 디바이스 (11)" 로서 표시된다. 오디오 인코딩 디바이스 (11) 는 오디오 인코딩 디바이스 (11) 가 또한 시간-주파수 분석 유닛 (12), 오디오 렌더링 유닛 (14), 오디오 인코딩 유닛 (16) 및 공간 분석 유닛 (18) 을 포함한다는 점에서 오디오 인코딩 디바이스 (10) 와 유사할 수도 있다. 그러나, SHC (20A) 에 대해 동작한다기 보다 오히려, 오디오 인코딩 디바이스 (11) 의 공간 분석 유닛 (18) (공간 마스킹 임계값들을 포함할 수도 있는) 공간 파라미터들 (26) 을 식별하기 위해 채널들 (22) 을 프로세싱할 수도 있다. 이러한 점에서, 오디오 인코딩 디바이스 (11) 의 공간 분석 유닛 (18) 은 공간 도메인이라기 보다는 채널 도메인에서 공간 분석을 수행할 수도 있다.

이러한 방식으로, 기법들은 오디오 인코딩 디바이스 (11) 가 (도 4b 의 예에서 채널들 (22) 로서 도시되는) 다중 채널 오디오 데이터를 생성하기 위해 3개의 차원들에서 오디오의 음장을 기술하는 복수의 공간 고조파 계수들 (20B) 을 렌더링하는 것을 가능하게 할 수도 있다. 오디오 인코딩 디바이스 (11) 는 그 후 공간 마스킹 임계값을 식별하기 위해 다중 채널 오디오 데이터에 대해 공간 분석을 수행하고 비트스트림을 생성하기 위해 식별된 공간 마스킹 임계값에 기초하여 다중 채널 오디오 데이터를 압축할 수도 있다.

일부 경우들에서, 오디오 데이터를 압축할 때, 오디오 인코딩 디바이스 (11) 는 공간 마스킹 임계값에 기초하여 다중 채널 오디오 데이터의 시간 기반 표현 또는 다중 채널 오디오 데이터의 주파수 기반 표현을 위해 비트스트림에서 비트들을 할당할 수도 있다.

일부 예들에서, 오디오 데이터를 압축할 때, 오디오 인코딩 디바이스 (11) 는 공간 마스킹 임계값 및 시간 마스킹 임계값에 기초하여 다중 채널 오디오 데이터의 시간 기반 표현 또는 다중 채널 오디오 데이터의 주파수 기반 표현을 위해 비트스트림에서 비트들을 할당할 수도 있다.

일부 예들에서, 오디오 데이터를 압축할 때, 오디오 인코딩 디바이스 (11) 는 비트스트림을 생성하기 위해 다중 채널 오디오 데이터에 대해 (MPEG 서라운드 오디오 인코딩과 같은) 파라메트릭 인터 채널 오디오 인코딩을 수행할 수도 있다.

일부 예들에서, 오디오 데이터를 압축할 때, 오디오 인코딩 디바이스 (11) 는 비트스트림을 생성하기 위해 공간 마스킹 임계값에 기초하여 다중 채널 오디오 데이터를 표현하기 위해 비트들을 할당할 수도 있다.

일부 예들에서, 오디오 인코딩 디바이스 (11) 는 다중 채널 오디오 데이터를 공간 도메인으로부터 시간 도메인으로 변환할 수도 있다. 오디오 데이터를 압축할 때, 오디오 인코딩 디바이스 (11) 는 그 후 비트스트림을 생성하기 위해 공간 마스킹 임계값에 기초하여 그 변환된 다중 채널 오디오 데이터의 여러 주파수 빈들을 표현하기 위해 비트들을 할당할 수도 있다.

도 5 는 3차원 음장들을 기술하는 구면 조화 계수들을 디코딩하기 위해 본 개시에서 기술된 기법들의 여러 양태들을 수행할 수도 있는 예시의 오디오 디코딩 디바이스 (30) 을 도시하는 블록도이다. 오디오 디코딩 디바이스 (30) 는 일반적으로 데스크톱 컴퓨터, 랩톱 컴퓨터, 워크스테이션, 태블릿 또는 슬레이트 컴퓨터, 전용 오디오 리코딩 디바이스, (소위 "스마트 폰들" 을 포함하는) 셀룰러 폰, 개인용 미디어 플레이어 디바이스, 개인용 게이밍 디바이스, 또는 오디오 데이터를 디코딩할 수 있는 임의의 다른 타입의 디바이스와 같은 오디오 데이터를 디코딩할 수 있는 임의의 디바이스를 나타낸다.

일반적으로, 오디오 디코딩 디바이스 (30) 는 외인성의 사소한 데이터 (예를 들어, 인간 청각 시스템에 의해 감지될 수 없거나 마스킹될 데이터) 의 제거를 용이하게 하기 위해 오디오 인코딩 디바이스 (10) 에 의해 통상적으로 사용되는 공간 분석을 수행하는 것을 제외하고 오디오 인코딩 디바이스 (10) 에 의해 수행된 오디오 인코딩 프로세스에 대해 역인 오디오 디코딩 프로세스를 수행한다. 즉, 오디오 인코딩 디바이스 (10) 는 통상적인 인간 청각 시스템이 이들 영역들 (예를 들어, 시간에서 그리고, 상술된 바와 같이 공간에서 "마스킹된" 영역들) 에서 정밀도의 부족을 분별할 수 없을 수도 있기 때문에 오디오 데이터 표현의 정밀도를 낮출 수도 있다. 이러한 오디오 데이터가 사소하다면, 오디오 디코딩 디바이스 (30) 는 그러한 외인성 오디오 데이터를 재삽입하기 위해 공간 분석을 수행할 필요가 없다.

단일의 디바이스, 즉 도 5 의 예에서의 디바이스 (30) 로서 도시되지만, 디바이스 (30) 내에 포함되는 것으로서 이하에 참조되는 여러 컴포넌트들 또는 유닛들은 디바이스 (30) 로부터 외부에 있는 별개의 디바이스들을 형성할 수도 있다. 즉, 단일의 디바이스, 즉 도 5 의 예에서의 디바이스 (30) 에 의해 수행되는 것으로서 본 개시에서 기술되지만, 기법들은 다수의 디바이스들을 포함하는 시스템에 의해 구현되거나 다르게는 수행될 수도 있고, 여기서 이들 디바이스들 각각은 이하에 더욱 상세히 기술ㄹ되는 여러 컴포넌트들 또는 유닛들 중 하나 이상을 각각 포함할 수도 있다. 이에 따라, 기법들은 도 5 의 예에 제한되지 않아야 한다.

도 5 의 예에서 도시된 바와 같이, 오디오 디코딩 디바이스 (30) 는 오디오 디코딩 유닛 (32), 역 오디오 렌더링 유닛 (34), 역 시간-주파수 분석 유닛 (36), 및 오디오 렌더링 유닛 (38) 을 포함한다. 오디오 디코딩 유닛 (32) 은 채널들 (22) 을 복원하기 위해 비트스트림 (24) 을 압축해제하기 위해 오디오 디코딩의 일부 형태를 수행하도록 구성된 유닛을 표현할 수도 있다. 일부 예들에서, 오디오 디코딩 유닛 (32) 은 MPEG SAC 또는 MPEG ACC 와 같은 기지의 공간 오디오 인코딩 표준들에 따르는 오디오 디코드들의 변경된 버전들을 포함할 수도 있다.

역 오디오 렌더링 유닛 (34) 은 SHC (20B) 를 복원하기 위해 오디오 인코딩 디바이스 (10) 의 오디오 렌더링 유닛 (14) 에 의해 수행된 렌더링 프로세스에 대한 역인 렌더링 프로세스를 수행하도록 구성된 유닛을 표현할 수도 있다. 역 오디오 렌더링 유닛 (34) 은 상술된 역 변환 행렬, R ^- ¹ 을 적용할 수도 있다. 대안적으로, SHC (20A) 가 SHC (20B) 를 생성하기 위해 변환되지 않은 경우, 역 오디오 렌더링 유닛 (34) 은 역 행렬 ( R ^-1 ) 의 적용을 통해 채널들 (22) 로부터 SHC (20A) 를 렌더링하도록 구성된 유닛을 표현할 수도 있다. 일부 예들에서, 역 오디오 렌더링 유닛 (34) 은 상술된 이유들로 밀집한 T-설계로 배열된 32 개의 스피커들에 대응하는 32 개의 채널들로부터 SHC (20B) 를 렌더링할 수도 있다.

역 시간-주파수 분석 유닛 (36) 은 SHC (20B) 를 주파수 도메인으로부터 시간 도메인으로 변환하기 위해 구면 조화 계수들 (SHC) (20B) 의 역 시간-주파수 분석을 수행하도록 구성된 유닛을 표현할 수도 있다. 역 시간-주파수 분석 유닛 (36) 은 시간 도메인에서 표현된 바와 같은 SHC (20B) 를 표시할 수도 있는 SHC (20A) 를 출력할 수도 있다. 역 시간-주파수 분석 유닛 (36) 에 대해 기술되지만, 기법들은 주파수 도메인에서 SHC (20B) 에 대해 수행되기보다는 오히려 시간 도메인에서 SHC (20A) 에 대해 수행될 수도 있다.

오디오 렌더링 유닛 (38) 은 채널들 (40A-40N) (일반적으로 "다중 채널 오디오 데이터 (40)" 로서 또는 "라우드스피커 피드들 (40)" 로서도 또한 지칭될 수도 있는 "채널들 (40)") 을 렌더링하도록 구성된 유닛을 표현한다. 오디오 렌더링 유닛 (38) 은 SHC (20A) 에 (종종 행렬의 형태로 표현되는) 변환을 적용할 수도 있다. SHC (20A) 가 3 개의 차원들에서 음장을 기술하기 때문에, SHC (20A) 는 (다중 채널 오디오 데이터 (40) 를 플레이백할 스피커들의 지오메트리를 지칭할 수도 있는) 대부분의 디코더-로컬 스피커 지오메트리들을 수용할 수 있는 방식으로 다중 채널 오디오 데이터 (40) 의 렌더링을 용이하게 하는 오디오 포맷을 표현한다. 게다가, 오디오 인코딩 디바이스 (10) 에서 밀집한 T-설계로 배열된 32 개의 스피커들에 대한 채널들로 SHC (20A) 를 렌더링함으로써, 기법들은 오디오 렌더링 유닛 (38) 이 디코더-로컬 스피커 지오메트리를 사용하여 충분한 충실도 및 정확도로 캡쳐된 오디오 데이터를 재생하는 것을 가능하게 하기 위해 디코더에서 (SHC (20A) 의 형태로) 충분한 오디오 정보를 제공한다. 다중 채널 오디오 데이터 (40) 의 렌더링에 관한 더 많은 정보는 도 8 에 대해 이하에 기술된다.

동작에 있어서, 오디오 디코딩 디바이스 (30) 는 제 1 스피커 지오메트리로 배열된 스피커들에 대응하는 복수의 채널들을 갖는 제 1 다중 채널 오디오 데이터 (22) 를 생성하기 위해 비트스트림 (24) 을 디코딩하기 위해 오디오 디코딩 유닛 (32) 을 호출할 수도 있다. 이러한 제 1 스피커 지오메트리는 상술된 밀집한 T-설계를 포함할 수도 있고, 여기서 스피커들의 수는 하나의 예로서 32 일 수도 있다. 본 개시에서 32 개의 스피커들을 포함하는 것으로서 기술되지만, 밀집한 T-설계 스피커 지오메트리는 소수의 대안적인 예들을 제공하기 위해 64 또는 128 개의 스피커들을 포함할 수도 있다. 오디오 디코딩 디바이스 (30) 는 그 후 (시간-주파수 변환들이 수행될 때) SHC (20B) 또는 (시간-주파수 분석이 수행되지 않을 때) SHC (20A) 를 생성하기 위해 생성된 제 1 다중 채널 오디오 데이터 (22) 에 대해 역 렌더링 프로세스를 수행하기 위해 역 오디오 렌더링 유닛 (34) 을 호출할 수도 있다. 오디오 디코딩 디바이스 (30) 는 또한, 시간 주파수 분석이 오디오 인코딩 디바이스 (10) 에 의해 수행되었던 경우, SHC (20B) 를 주파수 도메인으로부터 다시 시간 도메인으로 변환하기 위해 역 시간-주파수 분석 유닛 (36) 을 호출하여, SHC (20A) 를 생성할 수도 있다. 임의의 이벤트에서, 오디오 디코딩 디바이스 (30) 는 그 후 로컬 스피커 지오메트리로 배열된 스피커들에 대응하는 복수의 채널들을 갖는 제 2 다중 채널 오디오 데이터 (40) 를 렌더링하기 위해 인코딩-디코딩된 SHC (20A) 에 기초하여 오디오 렌더링 유닛 (38) 을 호출할 수도 있다.

도 6a 내지 도 6c 는 각각 도 4a 의 예에서 도시된 오디오 인코딩 유닛 (16) 의 상이한 예시의 변형들을 더욱 상세히 도시하는 블록도들이다. 도 4a 의 예에서, 오디오 인코딩 유닛 (16) 은 서라운드 인코더들 (50A-50N) ("서라운드 인코더들 (50)") 및 오디오 인코더들 (52A-52N) ("오디오 인코더들 (52)") 을 포함한다. 서라운드 인코더들 (50) 각각은 (서라운드 사운드 오디오 인코딩된 다중 채널 오디오 데이터로서 지칭될 수도 있는) 다중 채널 오디오 데이터의 서라운드 사운드 인코딩된 버전을 생성하기 위해 다중 채널 오디오 데이터를 인코딩하기 위해 오디오 서라운드 인코딩의 형태를 수행하도록 구성된 유닛을 표현할 수도 있다. 오디오 인코더들 (52) 각각은 (도 4a 의 예에서 도시된 비트스트림 (24) 의 일부를 지칭할 수도 있는) 비트스트림 (24A) 를 생성하기 위해 서라운드 사운드 오디오 인코딩된 다중 채널 오디오 데이터를 오디오 인코딩하도록 구성된 유닛을 표현할 수도 있다.

서라운드 인코더들 (50) 각각은 다중 채널 오디오 데이터를 인코딩하기 위해 상기 참조된 MPEG 서라운드의 수정된 버전을 수행할 수도 있다. 이러한 수정된 버전은 (도 1 의 예에서 도시된) 공간 분석 모듈 (18) 에 의해 결정된 공간 특성들 (26) 에 기초하여 다중 채널 오디오 데이터 (22) 를 인코딩하는 MPEG 서라운드의 버전을 표현할 수도 있다. 서라운드 인코더들 (50) 각각은 (공간 파라미터 추정 유닛들 (54A-54N) ("공간 파라미터 추정 유닛들 (54)") 중 대응하는 하나를 포함할 수도 있다. 오디오 인코더들 (52) 의 대응하는 하나는 채널들 (22) 의 대응하는 서브세트 중 하나를 상세하게 인코딩할 수도 있다. 그러나, 채널들 (22) 의 대응하는 서브세트 중 이러한 하나를 상세하게 인코딩하기 전에, 각각의 공간 파라미터 추정 유닛들 (54) 각각은 채널들 (22) 의 대응하는 서브세트 중 하나에 대해 채널들 (22) 의 대응하는 서브세트들의 나머지 것들을 인코딩할 수도 있다. 즉, 공간 파라미터 추정 유닛들 (54) 각각은 채널들 (22) 의 대응하는 서브세트들 중 하나와 채널들 (22) 의 대응하는 서브세트들 중 나머지 것들 사이의 차이를 반영하는 공간 파라미터들을 결정하거나, 일부 예들에서 추정할 수도 있다. 이들 공간 파라미터들은, 몇가지 예들을 제공하기 위해, 인터 채널 레벨, 인터 채널 시간 및 인터 채널 상관을 포함할 수도 있다. 공간 파라미터 추정 유닛들 (54) 은 (도 4a 의 예에서 도시된 비트스트림 (24) 의 일부를 표시할 수도 있는) 비트스트림 (24B) 으로서 이들 공간 파라미터들을 각각 출력할 수도 있다.

일부 예들에서, 공간 파라미터 추정 유닛들 (54) 은 공간 분석 유닛 (18) 에 의해 결정된 공간 특성들 (26) 에 적어도 부분적으로 기초하여 이들 공간 파라미터들을 결정하도록 각각 변경될 수도 있다. 설명하자면, 공간 파라미터 추정 유닛들 (54) 각각은 채널들 사이의 델타 또는 차이를 계산하고 이것에 의해 공간 특성들 (26) 에 기초하여 (인터 채널 레벨, 인터 채널 시간 및 인터 채널 상관을 포함할 수도 있는) 공간 파라미터들을 결정할 수도 있다. 예를 들어, 공간 특성들 (26) 에 기초하여, 공간 파라미터 추정 유닛들 (54) 은 공간 파라미터들을 측정할 정확도 (또는, 즉, 많은 에너지가 존재하지 않는 경우 얼마나 코어스 (coarse) 하게 파라미터들을 양자화할지) 를 결정할 수도 있다.

어느 경우에나, 서라운드 인코더들 (50) 각각은 오디오 인코더들 (52) 중 대응하는 오디오 인코더로 채널들 (22) 의 대응하는 서브세트 중 하나를 출력하고, 이것은 채널들 (22) 의 대응하는 서브세트 중 이러한 하나를 모노 오디오 신호로서 인코딩한다. 즉, 오디오 인코더들 (52) 각각은 모노 청각 오디오 인코더 (52) 를 표현한다. 오디오 인코더들 (52) 은 엔트로피 인코더들 (56A-56N) ("엔트로피 인코더들 (56)") 중 대응하는 하나를 포함할 수도 있다. 엔트로피 인코더들 (56) 각각은 채널들 (22) 의 대응하는 서브세트의 그 하나를 인코딩하기 위해 허프만 코딩과 같은 (부적절한 명칭 "엔트로피 코딩" 에 의해 통상 지칭되는) 무손실 통계적 코딩의 형태를 수행할 수도 있다. 일부 예들에서, 엔트로피 인코더들 (56) 은 공간 특성들 (26) 에 기초하여 이러한 엔트로피 코딩을 각각 수행할 수도 있다. 엔트로피 인코더들 (56) 각각은 비트스트림 (24) 을 형성하기 위해 공간 파라미터들 (24B) 및 다중 채널 오디오 데이터의 다른 인코딩된 버전들과 멀티플렉싱될 수도 있는 다중 채널 오디오 데이터의 인코딩된 버전을 출력할 수도 있다.

도 6b 의 예에서, 별개의 엔트로피 인코더 (56) 를 포함하는 오디오 인코더들 (52) 각각이라기 보다, 오디오 인코딩 유닛 (16) 은 오디오 인코더들 (52) 의 출력들 각각을 ("통계적 무손실 코드" 로서 지칭될 수도 있는) 엔트로피 코딩하는 단일의 엔트로피 인코더 (56) 를 포함한다. 대부분의 모든 다른 방법들에서, 도 6b 의 예에서 도시된 오디오 인코딩 유닛 (16) 은 도 6c 의 예에서 도시된 오디오 인코딩 유닛 (16) 과 유사할 수도 있다. 도 6b 의 예에서 도시되지 않지만, 오디오 인코딩 유닛 (16) 은 이러한 비트스트림을 압축하고 비트스트림 (24A) 을 형성하기 위해 엔트로피 인코더 (56) 가 그에 대해 통계적 무손실 코딩을 수행할 수도 있는 단일의 비트스트림을 형성하기 위해 오디오 인코더들 (52) 각각의 출력을 병합 또는 다르게는 결합하는 믹서 또는 믹싱 유닛을 포함할 수도 있다.

도 6c 의 예에서, 오디오 인코딩 유닛 (16) 은 엔트로피 인코더들 (56) 을 포함하지 않는 오디오 인코더들 (52A-52N) 을 포함한다. 도 6c 의 예에서 도시된 오디오 인코딩 유닛 (16) 은 오디오 데이터를 인코딩하기 위한 임의의 형태의 엔트로피 인코딩을 포함하지 않는다. 대신에, 이러한 오디오 인코딩 유닛 (16) 은 본 개시에 기술된 공간 마스킹 기법들을 수행할 수도 있다. 일부 예들에서, 도 6c 의 오디오 인코딩 유닛 (16) 은 단지 임의의 형태의 엔트로피 인코딩을 수해하지 않고 (이하에 더욱 상세히 기술되는 바와 같이, 시간적으로 또는 공간적으로 또는 시간적으로 및 공간적으로) 마스킹만을 수행한다.

도 7 은 도 5 의 오디오 디코딩 유닛 (32) 의 예를 더욱 상세히 도시하는 블록도이다. 먼저 도 7 의 예를 참조하면, 오디오 디코딩 유닛 (32) 의 제 1 변형은 오디오 디코더들 (70A-70N) ("오디오 디코더들 (70)") 및 서라운드 디코더들 (72A-72N) ("서라운드 디코더들 (72)") 을 포함한다. 오디오 디코더들 (70) 각각은 도 6a 의 예에 대해 상술된 오디오 인코더들 (50) 에 의해 수행된 것에 대한 역인 모노 청각 오디오 디코딩 프로세스를 수행할 수도 있다. 설명의 편의상 도 7 의 예에서 도시되지 않지만, 오디오 디코더들 (70) 각각은 엔트로피 디코더를 포함하거나 엔트로피 인코딩 유닛 (16) 의 도 6a 내지 도 6c 에 대해 상술된 변형들과 유사하지 않을 수도 있다. 오디오 디코더들 (70) 각각은 도 7 의 예에서 부분들 (24A) 로서 표시된 비트스트림 (24) 의 각각의 부분을 수신하고, 채널들 (22) 의 대응하는 서브세트의 하나를 출력하기 위해 그 부분들 (24A) 의 각각의 부분을 디코딩할 수도 있다. 비트스트림 (24) 의 부분 (24A) 및 비트스트림 (24) 의 부분 (24B) 은 설명의 편의상 도 7 의 예에서 도시되지 않는 디멀티플렉서를 사용하여 디멀티플렉싱될 수도 있다.

서라운드 디코더 (72) 는 비트스트림 부분들 (24B) 로서 표시된 공간 파라미터들에 기초하여 채널들 (22) 의 대응하는 서브세트의 나머지 것들을 재합성하도록 구성된 유닛을 표혐할 수도 있다. 서라운드 디코더들 (72) 은 각각 이들 공간 파라미터들 및 채널들 (22) 의 대응하는 서브세트들의 디코딩된 하나를 수신하는 사운드 합성 유닛들 (76A-76N) ("사운드 합성 유닛들 (76)") 중 대응하는 하나를 포함할 수도 있다. 공간 파라미터들에 기초하여, 사운드 합성 유닛들 (76) 각각은 채널들 (22) 의 대응하는 서브세트들의 나머지 것들을 재합성할 수도 있다. 이러한 방식으로, 오디오 디코딩 유닛 (32) 은 다중 채널 오디오 데이터 (22) 를 생성하기 위해 비트스트림 (24) 을 디코딩할 수도 있다.

도 8 은 도 5 의 예에서 도시된 오디오 디코딩 유닛 (32) 의 오디오 렌더링 유닛 (38) 을 더욱 상세히 도시하는 블록도이다. 일반적으로, 도 8 은 SHC (20A) 로부터 디코더-로컬 스피커 지오메트리와 양립가능한 다중 채널 오디오 데이터 (40) 로의 변환을 도시한다. (다시, 디코더에서 스피커 지오메트리로 지칭될 수도 있는) 일부 로컬 스피커 지오메트리들의 경우, 가역성을 보장하는 일부 변환들은 덜 바람직한 오디오-이미지 품질을 야기할 수도 있다. 즉, 사운드 재생은 캡쳐되는 오디오와 비교할 때 사운드들의 올바른 국부화 (localization) 을 항상 야기하는 것은 아닐 수도 있다. 이러한 덜 바람직한 이미지 품질을 정정하기 위해, 기법들은 "가상 스피커들" 로서 지칭될 수도 있는 개념을 도입하기 위해 더욱 증대될 수도 있다. 하나 이상의 라우드스피커들이 상술된 ITU-R BS.775-1 과 같은 표준에 의해 특정된 소정의 각도 허용오차들을 갖는 공간의 특정의 또는 정의된 영역들에 재위치되거나 위치되는 것을 요구하기보다는 오히려, 상기의 프레임워크는 벡터 베이스 진폭 패닝 (VBAP), 거리 기반 진폭 패닝, 또는 다른 형태들의 패닝과 같은 패닝의 일부 형태를 포함하도록 변경될 수도 있다. 설명의 목적으로 VBAP 에 초점을 맞추면, VBAP 는 "가상 스피커들" 로서 특징지워질 수도 있는 것을 효과적으로 도입할 수도 있다. VBAP 는 일반적으로 하나 이상의 라우드스피커들로의 피드를 변경하여, 이들 하나 이상의 라우드스피커들이 가상 스피커를 지원하는 하나 이상의 라우드스피커들의 로케이션 및/또는 각도 중 적어도 하나와 상이한 로케이션 및 각도 중 하나 이상에서의 가상 스피커로부터 기원하는 것으로 보이는 사운드를 효과적으로 출력하도록 한다.

예시를 위해, SHC 의 면에서 라우드스피커 피드들을 결정하기 위한 상기 방정식은 다음과 같이 변경될 수도 있다:

상기 방정식에서, VBAP 행렬은 사이즈가 M 행 바이 N 열이며, 여기서 M 은 스피커들의 수를 표시하고 (그리고 상기 방정식에서 5 와 동일할 것이며) N 은 가상 스피커들의 수를 나타낸다. VBAP 행렬은 청취자의 정의된 로케이션으로부터 스피커들의 위치들 각각까지의 벡터들 및 청취자의 정의된 로케이션으로부터 가상 스피커들의 위치들 각각까지의 벡터들의 함수로써 컴퓨팅될 수도 있다. 상기 방정식에서의 D 행렬은 사이즈 N 행 바이 (오더+1)² 열일 수도 있고, 여기서 오더는 SH 함수들의 오더를 지칭할 수도 있다. D 행렬은 다음 행렬을 표현할 수도 있다:

g 행렬 (또는 단지 단일의 열만이 존재하는 경우, 벡터) 은 디코더-로컬 지오메트리로 배열된 스피커들에 대해 스피커 피드들에 대한 이득을 표현할 수도 있다. 그 방정식에서, g 행렬 은 사이즈 M 이다. A 행렬 (또는 단지 단일의 열만이 존재하는 경우, 벡터) 은 SHC (20A) 를 표시할 수도 있고, (오더+1)² 으로서 표시될 수도 있는 사이즈 (오더+1)(오더+1) 이다.

결국, VBAP 행렬은 스피커들의 로케이션 및 가상 스피커들의 위치를 하나의 요인으로 포함하는 "이득 조정" 으로서 지칭될 수도 있는 것을 제공하는 M x N 행렬이다. 이러한 방식으로 패닝 (panning) 을 도입하는 것은 로컬 스피커 지오메트리에 의해 재생될 때 더 양호한 품질 이미지를 야기하는 다중 채널 오디오의 더 양호한 재생을 야기할 수도 있다. 게다가, 이러한 방정식에 VBAP 를 포함시킴으로써, 그 기법들은 여러 표준들에서 특정된 것들과 정렬하지 않는 열악한 스피커 지오메트리들을 극복할 수도 있다.

실제로, 그 방정식은 SHC (20A) 를 다시 본 개시에서 디코더-로컬 지오메트리로서 지칭될 수도 있는 라우드스피커들의 특정의 지오메트리 또는 구성에 대해 다중 채널 피드들 (40) 로 변환하기 위해 인버팅되고 채용될 수도 있다. 즉, 그 방정식은 g 행렬에 대해 풀기 위해 인버팅될 수도 있다. 인버팅된 방정식은 다음과 같을 수도 있다:

g 행렬은 이러한 예에서 5.1 스피커 구성에서의 5 개의 라우드스피커들 각각에 대해 스피커 이득을 표현할 수도 있다. 이러한 구성에서 사용되는 가상 스피커들 로케이션들은 5.1 다중채널 포맷 사양 또는 표준에서 정의된 로케이션들에 대응할 수도 있다. 이들 가상 스피커들의 각각을 지원할 수도 있는 라우드스피커들의 로케이션은 임의의 수의 기지의 오디오 국부화 기법들을 사용하여 결정될 수도 있으며, 이들 중 다수는 (오디오/비디오 수신기 (A/V 수신기), 텔레비젼, 게이밍 시스템, 디지털 비디오 디스크 시스템 또는 다른 타입들의 헤드엔드 시스템들과 같은) 헤드엔드 유닛에 대해 각 라우드스피커의 로케이션을 결정하기 위해 특정의 주파수를 갖는 톤을 플레이하는 것을 수반한다. 대안적으로, 헤드엔드 유닛의 사용자는 라우드스피커들의 각각의 로케이션을 수동으로 특정할 수도 있다. 어느 경우에나, 이들 기지의 로케이션들 및 가능한 각도들이 주어지면, 헤드엔드 유닛은 VBAP 에 의해 가상의 라우드스피커들의 이상적인 구성을 가정하면, 이득들에 대해 풀수도 있다.

이러한 점에서, 그 기법들은 디바이스 또는 장치가 복수의 가상 채널들에 대해 벡터 베이스 진폭 패닝 또는 다른 형태의 패닝을 수행하는 것을 가능하게 하여, 디코더-로컬 지오메트리의 스피커들을 구동하는 복수의 채널들을 생성하여, 상이한 로컬 지오메트리로 구성된 가상 스피커들로부터 기원하는 것으로 보이는 사운드들을 방출할 수도 있다. 그 기법들은 따라서 오디오 디코딩 유닛 (32) 이 SHC (20A) 와 같은 복수의 구면 조화 계수들에 대해 변환을 수행하는 것을 가능하게 하여, 복수의 채널들을 생성할 수도 있다. 복수의 채널들 각각은 공간의 대응하는 상이한 영역과 연관될 수도 있다. 게다가, 복수의 채널들 각각은 복수의 가상 채널들을 포함할 수도 있고, 여기서 복수의 가상 채널들은 공간의 대응하는 상이한 영역들과 연관될 수도 있다. 그 기법들은, 일부 예들에서 디바이스가 가상 채널들에 대해 벡터 베이스 진폭 패닝을 수행하는 것을 가능하게 하여, 다중 채널 오디오 데이터 (40) 의 복수의 채널을 생성할 수도 있다.

도 9 는 본 개시에 기술된 기법들의 여러 양태들을 수행함에 있어서, 도 4 의 예에서 도시된 오디오 인코딩 디바이스 (10) 와 같은 오디오 인코딩 다바이스의 예시적인 동작을 도시하는 프로우챠트이다. 동작에 있어서, 오디오 인코딩 디바이스 (10) 는 먼저 음장의 공간 특성들 (26) 을 식별하기 위해 3차원 음장을 기술하는 SHC (20A) 에 대한 공간 분석을 수행하는 것으로 공간 분석 유닛 (18) 을 호출함으로써 본 개시에 기술된 기법들의 여러 양태들을 구현할 수도 있다 (90). 오디오 인코딩 디바이스 (10) 는 그 후 (상술된 바와 같이, 시간-주파수 분석이 수행되지 않을 때) SHC (20A) 또는 (시간-주파수 분석이 수행될 때) SHC (20B) 로부터 ("다중 채널 오디오 데이터 (22)" 로서 지칭될 수도 있는) 다중 채널 오디오 데이터 (22) 를 렌더링하기 위해 오디오 렌더링 유닛 (14) 을 호출할 수도 있다 (92). 이러한 다중 채널 오디오 데이터 (22) 를 렌더링하는 것 이후에 또는 동시에, 오디오 인코딩 디바이스 (10) 는 비트스트림 (24) 을 생성하기 위해 식별된 공간 특성들 (26) 에 기초하여 다중 채널 오디오 데이터 (22) 를 인코딩하기 위해 오디오 인코딩 유닛 (16) 을 호출할 수도 있다 (94). 상술된 바와 같이, 오디오 인코딩 유닛 (16) 은 공간 특성들 (26) 을 레버리지하기 위해 (예를 들어, 상술된 공간 마스킹을 수행하기 위해) 여러 방법들로 변경되었던 오디오 인코딩의 표준-호환 형태를 수행할 수도 있다.

도 10 은 본 개시에 기술된 기법들의 여러 양태들을 수행함에 있어서, 도 5 의 예에서 도시된 오디오 디코딩 디바이스 (30) 와 같은 오디오 디코딩 디바이스의 예시적인 동작을 도시하는 플로우챠트이다. 동작에 있어서, 오디오 디코딩 디바이스 (30) 는 제 1 스피커 지오메트리로 배열된 스피커들에 대응하는 복수의 채널들을 갖는 제 1 다중 채널 오디오 데이터 (22) 를 생성하기 위해 비트스트림 (24) 을 디코딩하기 위해 오디오 디코딩 유닛 (32) 을 호출할 수도 있다 (100). 이러한 제 1 스피커 지오메트리는 상술된 밀집한 T-설계를 포함할 수도 있으며, 여기서 스피커들의 수는 하나의 예로서 32 일 수도 있다. 일반적으로, 제 1 스피커 지오메트리에서의 스피커들의 수는 디코더 로컬 스피커 지오메트리에 의해 오디오 데이터의 플레이백 동안 높은 충실도를 제공하기 위해 디코더-로컬 스피커 지오메트리에서의 스피커들의 수를 초과해야 한다.

오디오 디코딩 디바이스 (30) 는 그 후 (시간-주파수 변환들이 수행될 때) SHC (20B) 또는 (시간-주파수 분석이 수행되지 않을 때) SHC (20A) 를 생성하기 위해 생성된 제 1 다중 채널 오디오 데이터 (22) 에 대해 역 렌더링 프로세스를 수행하기 위해 역 오디오 렌더링 유닛 (14) 을 호출할 수도 있다 (102). 오디오 디코딩 디바이스 (30) 는 또한 시간 주파수 분석이 오디오 인코딩 디바이스 (10) 에 의해 수행되었을 때 SHC (20B) 를 주파수 도메인으로부터 시간 도메인으로 변환하기 위해 역 시간-주파수 분석 유닛 (36) 을 호출하여, SHC (20A) 를 생성할 수도 있다. 어느 경우에나, 오디오 디코딩 디바이스 (30) 그 후 SHC (20A) 에 기초하여 로컬 스피커 지오메트리로 배열된 스피커들에 대응하는 복수의 채널들을 갖는 제 2 다중 채널 오디오 데이터 (40) 를 렌더링하기 위해 오디오 렌더링 유닛 (38) 을 호출할 수도 있다 (104).

이러한 방식으로, 그 기법들은 현존하는 오디오 코더들을 사용 (및 SHC 로부터의 공간 정보를 수용하기 위해 그것의 여러 양태들을 변경) 할 수도 있다. 그것을 행하기 위해, 그 기법들은 SH 계수들을 취하고 그들을 (렌더러 R1 을 사용하여) 라우드스피커들의 임의의-그러나 밀집한 세트로 렌더링할 수도 있다. 이들 라우드스피커들의 지오메트리는 역 레더러 (R1_inv) 가 SH 신호들을 재생성할 수 있도록 하는 것일 수도 있다. 일부 예들에서, 렌더러는 단지 단일의 행렬 (주파수 독립) 및 R1 x R1_inv = 단위 행렬이도록 역 카운터파트 행렬을 갖는 것일 수도 있다. 이들 렌더러들은 T-설계 또는 플라톤 입체들에 의해 기술된 지오메트리들을 위해 존재한다. 렌더러 (R1) 에 의해 생성된 라우드스피커 피드들은 SHC 로부터 획득된/분석된 공간 정보에 의해 변경될 '오프-더-쉐프 (off-the-shelf)' 오디오 코더들을 사용하여 코딩될 수도 있다. 일부 예들에서, 그 기법들은 통상의 오디오-코딩 접근법들을 취할 수도 있고, 이것에 의해 스피커 피드들 사이의 인터-채널 레벨/시간/정정의 하나 이상이 유지된다. 압축은 더 많은 채널들을 단일 채널 등에 대해 할당된 비트들로 팩킹하는데 사용된다.

디코더에서, 기법들은 디코더가 스피커 피드들을 복원하고 그들을 INVERSE-RENDERER (R1_inv) 를 통과시켜 오리지날 SHC 를 취출하는 것을 가능하게 한다. 이들 SHC 는 로컬 스피커 지오메트리에 부응하도록 의도된 다른 렌더러 (R2) 로 피딩될 수도 있다. 통상적으로, 기법들은 R1 의 출력에서 생성된 스피커 피드들의 수가 렌더러 (R2) 의 출력에 있을 것 같은 스피커들의 수에 대해 밀집하다는 것을 제공한다. 즉, R2 의 출력에 있을 것 같은 스피커들의 실제의 수보다 훨씬 더 높은 수의 스피커들이 제 1 다중 채널 오디오 데이터를 렌더링할 때 가정된다.

예에 따라서는, 여기에 기술된 임의의 기법들의 소정의 액션들 또는 이벤트들이 상이한 시퀀스로 수행될 수 있고, 추가, 병합 또는 삭제될 수도 있다 (예를 들어, 기법들의 실시에 모든 기술된 액션들 또는 이벤트들이 필요한 것은 아니다) 는 것이 인식되어야 한다. 게다가, 소정의 예들에서, 액션들 또는 이벤트들은 순차적이라기 보다는 예를 들어 다중 스레드 프로세싱, 인터럽트 프로세싱, 또는 다수의 프로세서들을 통해 동시적으로 수행될 수도 있다.

도 11 은 본 개시에서 기술된 공간 마스킹 기법들의 여러 양태들을 도시하는 다이어그램이다. 도 11 의 예에서, 그래프 (110) 는 SHC 로서 표현된 음장 내의 3차원 공간에서의 포인트들을 나타내는 x-축을 포함한다. 그래프 (110) 의 y-축은 데시벨 단위의 이득을 나타낸다. 그래프 (110) 는 소정의 주어진 주파수 (예를 들어, 주파수 f₁) 에서 포인트 2 (P₂) 에 대해 공간 마스킹 임계값이 컴퓨팅되는 방법을 묘사한다. 공간 마스킹 임계값은 (P₂ 의 관점으로부터) 모든 다른 포인트의 에너지의 합으로서 컴퓨팅될 수도 있다. 즉, 점선들은 P₂ 의 관점으로부터 포인트 1 (P₁) 및 포인트 3 (P₃) 의 마스킹 에너지를 표현한다. 에너지의 총량은 공간 마스킹 임계값을 표현할 수도 있다. P₂ 가 공간 마스킹 임계값보다 더 큰 에너지를 갖지 않는다면, P₂ 에 대한 SHC 는 전송될, 또는 다르게는 인코딩될 필요가 없다. 수학적으로, 공간 마스킹 임계값 (SM_th) 은 다음의 방정식에 따라 컴퓨팅될 수도 있다:

여기서

는 포인트 P_i 에서의 에너지를 나타낸다. 공간 마스킹 임계값은 해당 포인트의 관점으로부터 각 포인트에 대해 그리고 각각의 주파수 (또는 주파수들의 대역을 표현할 수도 있는 주파수 빈) 에 대해 컴퓨팅될 수도 있다.

도 4a 의 예에서 도시된 공간 분석 유닛 (18) 은 하나의 예로서 결과의 비트스트림의 사이즈를 잠재적으로 감소시키도록 상기 방정식에 따라 공간 마스킹 임계값을 컴퓨팅할 수도 있다. 일부 예들에서, 공간 마스킹 임계값들을 컴퓨팅하기 위해 수행된 이러한 공간 분석은 채널들 (22) 에 대해 별개의 마스킹 블록으로 수행되고 오디오 인코딩 유닛 (16) 으로 피드백될 수도 있다. 그래프 (110) 는 dB 도메인을 도시하지만, 기법들은 또한 공간 도메인에서 수행될 수도 있다.

일부 예들에서, 공간 마스킹 임계값은 시간 (또는, 달리 말해서 동시) 마스킹 임계값과 함께 사용될 수도 있다. 종종, 공간 마스킹 임계값은 전체 마스킹 임계값을 생성하기 위해 시간 마스킹 임계값에 가산될 수도 있다. 일부 예들에서, 가중치들이 전체 마스킹 임계값을 생성할 때 공간 및 시간 마스킹 임계값들에 적용된다. 이들 임계값은 (신호대 잡음비 (SNR) 와 같은) 비율들의 함수로서 표현될 수도 있다. 전체 임계값은 각각의 주파수 빈에 비트들을 할당할 때 비트 할당기에 의해 사용될 수도 있다. 도 4a 의 오디오 인코딩 유닛 (16) 은 하나의 형태로 공간 마스킹 임계값, 시간 마스킹 임계값 또는 전체 마스킹 임계값 중 하나 이상을 사용하여 주파수 빈들에 비트들을 할당하는 비트 할당기를 표현할 수도 있다.

도 12 는 비트스트림 (24) 을 생성하는 상이한 형태들이 본 개시에 기술된 기법들의 여러 양태들에 따라 수행될 수도 있는 도 4a 의 예에서 도시된 오디오 인코딩 디바이스의 변형을 도시하는 블록도이다. 도 12 의 예에서 도시된 바와 같이, 오디오 인코딩 디바이스 (10) 는 오디오 인코딩 디바이스 (10') 로서 표시된다. 오디오 인코딩 디바이스 (10') 는 오디오 인코딩 디바이스 (10') 가 유사한 유닛들, 즉 도 12 의 예에서 시간-주파수 분석 유닛 (12), 오디오 렌더링 유닛 (14), 오디오 인코딩 유닛 (16) 및 공간 분석 유닛 (18) 을 포함한다는 점에서 도 4a 의 오디오 인코딩 디바이스 (10) 와 유사하다.

오디오 인코딩 디바이스 (10') 는, 그러나, 또한 채널들 (22) 을 인코딩하기 전에 SHC (20B) 를 렌더링할지 또는 채널들 (22) 로 SHC (20B) 를 먼저 렌더링하지 않고 오디오 인코딩 유닛 (16) 으로 직접 SHC (20B) 를 송신할지 여부를 결정하는 유닛을 표현하는 모드 선택기 유닛 (150) 을 포함한다. 모드 선택기 유닛 (150) 은 사용자, 다른 디바이스로부터의 입력으로서 또는 목표 비트레이트 (152) 가 입력될 수도 있는 임의의 다른 방법을 통해 목표 비트레이트 (152) 를 수신할 수도 있다. 목표 비트레이트 (152) 는 비트스트림 (24) 에 대한 압축의 레벨 또는 비트레이트를 정의하는 데이터를 표현할 수도 있다.

일부 예에서, 목표 비트레이트 (152) 에 의해 특정된 더 높은 비트레이트들의 경우, 모드 선택기 유닛 (150) 은 SHC (20B) 가 본 개시에 기술된 기법들의 공간 마스킹 양태들을 사용하여 오디오 인코딩 유닛 (16) 에 의해 직접 오디오 인코딩되어야 한다고 결정할 수도 있다. 더 높은 비트레이트들의 하나의 예는 256 Kbps (Kilobits per second) 이상의 비트레이트들일 수도 있다. 따라서, 256 Kbps, 512 Kbps 및/또는 1.2 Mbps (megabits per second) 와 같은 비트레이트들의 경우 (여기서 256 Kbps 는, 이러한 예에서 더 낮은 비트레이트들로부터 더 높은 비트레이트들을 결정하는데 사용되는 임계 비트레이트를 표현할 수도 있다), 오디오 인코딩 유닛 (16) 은 SHC (20B) 에 대해 직접 동작할 수도 있고 SHC (20B) 는 오디오 렌더링 유닛 (14) 에 의해 채널들 (22) 로 렌더링되지 않는다.

비트레이트 (152) 에 의해 특정된 더 낮은 비트레이트들의 경우, 모드 선택기 유닛 (150) 은 SHC (20B) 가 채널들 (22) 을 생성하기 위해 오디오 렌더링 유닛 (14) 에 의해 먼저 렌더링되고 그 후 후속적으로 오디오 인코딩 유닛 (16) 에 의해 인코딩되어야 한다는 것을 결정할 수도 있다. 이러한 예에서, 오디오 인코딩 유닛 (16) 은 제 1 채널에 대해 공간 마스킹 기법들을 수행할 수도 있는 반면, 나머지 채널들은 MPEG 서라운드 및 다른 파라메트릭 인터-채널 인코딩 스킴들에 따라 수행되는 것과 같은 파라메트릭 인코딩을 겪는다.

디코딩 디바이스가 파라메트릭 인터-채널 인코딩이 비트스트림 (24) 을 생성할 때 수행되었는지 여부를 결정할 수 있도록 오디오 인코딩 유닛 (16) 은 비트스트림에서 모드 선택기 유닛 (150) 에 의해 선택된 모드를 (인코딩된 또는 인코딩되지 않은 형태로) 특정할 수도 있다. 상세히 도시되지 않지만, 오디오 디코딩 디바이스 (30) 는 오디오 인코딩 디바이스 (10') 의 그것과 유사한 방식으로 변경될 수도 있다 (여기서 그러한 오디오 디코딩 디바이스 (30) 는 오디오 디코딩 디바이스 (30') 로서 지칭될 수도 있다). 이러한 오디오 디코딩 디바이스 (30') 는 마찬가지로 역 오디오 렌더링 유닛 (34) 에 채널들 (22) 을, 또는 역 시간-주파수 분석 유닛 (36) 에 SHC (20B) 를 출력할지 여부를 결정하는 모드 선택기 유닛 (150) 과 유사한 모드 선택기 유닛을 포함할 수도 있다. 일부 예들에서, 이러한 모드는 비트스트림 (24) 이 대응하는 목표 비트레이트 (152) 로부터 추론될 수도 있다 (여기서, 이러한 목표 비트레이트 (152) 는 비트스트림 (24) 에서 특정될 수도 있고 오디오 디코딩 디바이스 (30') 가 목표 비트레이트 (152) 로부터 이러한 모드를 추론할 수도 있다면 모드를 효과적으로 표현한다).

이러한 점에서, 본 개시에 기술된 기법들은 오디오 인코딩 디바이스 (10') 가 오디오 데이터를 압축하는 방법을 수행하는 것을 가능하게 할 수도 있다. 이러한 방법을 수행함에 있어서, 오디오 인코딩 디바이스 (10') 는 그 압축된 오디오 데이터를 나타내는 비트스트림에 대해 목표 비트레이트를 결정하고 공간 마스킹 임계값을 식별하기 위해 3개의 차원들에서 오디오 데이터의 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행할 수도 있다. 목표 비트레이트에 기초하여, 오디오 인코딩 디바이스 (10') 는 압축된 오디오 데이터를 나타내는 비트스트림을 생성하기 위해, i) 파라메트릭 인터-채널 오디오 인코딩 및 공간 마스킹 임계값을 사용하는 공간 마스킹, 또는 ii) 파라메트릭 인터-채널 오디오 인코딩을 수행함 없이 공간 마스킹 임계값을 사용하는 공간 마스킹을 수행하할 수도 있다.

일부 예들에서, i) 파라메트릭 인터-채널 오디오 인코딩 및 공간 마스킹 임계값을 사용하는 공간 마스킹, 또는 ii) 파라메트릭 인터-채널 오디오 인코딩을 수행함 없이 공간 마스킹 임계값을 사용하는 공간 마스킹을 수행할 때, 오디오 인코딩 디바이스 (10') 는 목표 비트레이트가 임계 비트레이트 아래에 있다고 결정하고, 목표 비트레이트가 상기 임계 비트레이트 아래에 있다고 결정하는 것에 응답하여, 비트스트림을 생성하기 위해 파라메트릭 인터-채널 오디오 인코딩 및 공간 마스킹 임계값을 사용하는 공간 마스킹을 수행할 수도 있다. 임계 비트레이트는 256 Kbps (Kilobits per second) 와 동일할 수도 있다.

일부 예들에서, i) 파라메트릭 인터-채널 오디오 인코딩 및 공간 마스킹 임계값을 사용하는 공간 마스킹, 또는 ii) 파라메트릭 인터-채널 오디오 인코딩을 수행함 없이 공간 마스킹 임계값을 사용하는 공간 마스킹을 수행할 때, 오디오 인코딩 디바이스 (10') 는 목표 비트레이트가 임계 비트레이트와 동일하거나 초과한다고 결정하고, 목표 비트레이트가 임계 비트레이트와 동일하거나 초과한다고 결정하는 것에 응답하여, 비트스트림을 생성하기 위해 파라메트릭 인터-채널 오디오 인코딩을 수행함 없이 공간 마스킹 임계값을 사용하는 공간 마스킹을 수행할 수도 있다.

일부 예들에서, 오디오 인코딩 디바이스 (10') 는 또한 다중 채널 오디오 데이터로 복수의 구면 조화 계수들을 렌더링할 수도 있다. i) 파라메트릭 인터-채널 오디오 인코딩 및 공간 마스킹 임계값을 사용하는 공간 마스킹, 또는 ii) 파라메트릭 인터-채널 오디오 인코딩을 수행함 없이 공간 마스킹 임계값을 사용하는 공간 마스킹을 수행할 때, 오디오 인코딩 디바이스 (10') 는 목표 비트레이트가 임계 비트레이트 아래에 있다고 결정하고, 목표 비트레이트가 임계 비트레이트 아래에 있다고 결정하는 것에 응답하여, 비트스트림을 생성하기 위해 다중 채널 오디오 데이터의 하나 이상의 베이스 채널들에 대해 공간 마스킹 임계값을 사용하는 공간 마스킹을 수행하고, 다중 채널 오디오 데이터에 대해 파라메트릭 인터-채널 오디오 인코딩을 수행할 수도 있다. 다시, 임계 비트레이트는 256 Kbps (Kilobits per second) 와 동일할 수도 있다.

일부 예들에서, 오디오 인코딩 디바이스 (10') 는 또한 공간 마스킹 임계값에 기초하여 오디오 데이터의 시간 기반 표현 또는 오디오 데이터의 주파수 기반 표현에 대해 비트스트림에서 비트들을 할당할 수도 있다.

일부 예들에서, 파라메트릭 인터-채널 오디오 인코딩은 동화상 전문가 그룹 (MPEG) 서라운드를 포함한다.

게다가, 본 개시에 기술된 기법들은 오디오 인코딩 디바이스 (10') 가 다중 채널 오디오 데이터를 압축하는 방법을 수행하는 것을 가능하게 할 수도 있다. 이러한 방법을 수행함에 있어서, 오디오 인코딩 디바이스 (10') 는 공간 마스킹 임계값을 식별하기 위해 3 개의 차원들로 다중 채널 오디오 데이터의 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하고, 다중 채널 오디오 데이터를 생성하기 위해 구면 조화 계수들을 렌더링할 수도 있다. 오디오 인코딩 디바이스 (10') 는 또한, 비트스트림을 생성하기 위해, 공간 마스킹 임계값을 사용하여 다중 채널 오디오 데이터의 하나 이상의 베이스 채널들에 대해 공간 마스킹을 수행하고, 다중 채널 오디오 데이터의 공간적으로 마스킹된 하나 이상의 베이스 채널들을 포함하여, 다중 채널 오디오 데이터에 대해 파라메트릭 인터-채널 오디오 인코딩을 수행할 수도 있다.

일부 예들에서, 오디오 인코딩 디바이스 (10') 는 다중 채널 오디오 데이터를 비트스트림으로서 인코딩할 목표 비트레이트를 결정할 수도 있다. 이러한 콘텍스트에서, 공간 마스킹 및 파라메트릭 인터-채널 오디오 인코딩을 수행할 때, 오디오 인코딩 디바이스 (10') 는, 비트스트림을 생성하기 위해, 목표 비트레이트가 임계 비트레이트보다 작은 경우, 다중 채널 오디오 데이터의 하나 이상의 베이스 채널들에 대해 공간 마스킹을 수행하고, 다중 채널 오디오 데이터의 공간적으로 마스킹된 하나 이상의 베이스 채널들을 포함하여 다중 채널 오디오 데이터에 대해 파라메트릭 인터-채널 오디오 인코딩을 수행한다.

일부 예들에서, 임계 비트레이트는 256 Kbps (Kilobits per second) 와 동일하다. 일부 예들에서, 이러한 목표 비트레이트는 사용자 또는 애플리케이션에 의해 특정된다. 즉, 이러한 임계 비트레이트는 구성가능할 수도 있거나 정적으로 설정될 수도 있다. 일부 예들에서, 목표 비트레이트는 128 Kbps (Kilobits per second) 와 동일하다. 일부 예들에서, 파라메트릭 인터-채널 오디오 인코딩은 동화상 전문가 그룹 (MPEG) 서라운드를 포함한다.

일부 예들에서,오디오 인코딩 디바이스 (10') 는 또한 시간 마스킹 임계값을 사용하여 다중 채널 오디오 데이터에 대해 시간 마스킹을 수행한다.

추가적으로, 기법들의 여러 양태들은 또한 오디오 인코딩 디바이스 (10') 가 오디오 데이터를 압축하는 방법을 수행하는 것을 가능하게 할 수도 있다. 이러한 방법을 수행함에 있어서, 오디오 인코딩 디바이스 (10') 는 공간 마스킹 임계값을 식별하기 위해 3 개의 차원들에서 오디오 데이터의 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하고, 공간 마스킹 임계값을 사용하여 복수의 구면 조화 계수들에 대해 공간 마스킹을 수행하며, 복수의 공간적으로 마스킹된 구면 조화 계수들을 포함하는 비트스트림을 생성할 수도 있다.

오디오 인코딩 디바이스 (10') 는, 일부 예들에서, 비트스트림으로서 다중 채널 오디오 데이터를 인코딩할 목표 비트레이트를 결정할 수도 있다. 공간 마스킹을 수행할 때, 오디오 인코딩 디바이스 (10') 는, 목표 비트레이트가 임계 비트레이트와 같거나 더 큰 경우, 복수의 구면 조화 계수들에 대해 공간 마스킹을 수행할 수도 있다. 일부 예들에서, 임계 비트레이트는 256 Kbps (Kilobits per second) 와 동일하다. 목표 비트레이터는 이들 경우들에서 256 Kbps (Kilobits per second) 와 동일하거나 더 크다.

일부 예들에서, 오디오 인코딩 디바이스 (10') 는 또한 시간 마스킹 임계값을 사용하여 복수의 구면 조화 계수들에 대해 시간 마스킹을 수행할 수도 있다.

구면 조화 계수들에 대해 공간 마스킹 분석을 수행하는 것으로서 위에서 기술되지만, 도 12 의 예에 대해 상술된 기법들은 또한 공간 분석이 도 4b 의 오디오 인코딩 디바이스 (11) 에 의해 채널 도메인에서 수행되는 방법과 유사한 소위 "채널 도메인" 에서 수행될 수도 있다. 이에 따라, 그 기법들은 이러한 점에서 도 12 의 예에 제한되지 않아야 한다.

도 13 은 본 개시에 기술된 기법들의 여러 양태들을 수행할 수도 있는 예시의 오디오 인코딩 디바이스 (160) 를 도시하는 블록도이다. 도 13 의 예에서 도시된 바와 같이, 오디오 인코딩 디바이스 (160) 는 시간-주파수 분석 유닛 (162), 동시 마스킹 유닛 (164), 공간 마스킹 유닛 (166) 및 비트 할당 유닛 (168) 을 포함할 수도 있다. 시간-주파수 분석 유닛 (162) 은 도 4a 의 예에서 도시된 오디오 인코딩 디바이스 (10) 의 시간-주파수 분석 유닛 (12) 와 유사하거나 실질적으로 유사할 수도 있다. 시간-주파수 분석 유닛 (162) 은 SHC (170A) 를 수신하여, SHC (170A) 를 시간 도메인으로부터 주파수 도메인으로 변환할 수도 있다 (여기서, SHC (170A) 의 주파수 도메인 버전은 "SHC (170B)" 로서 표시된다).

동시 마스킹 유닛 (164) 은 하나 이상의 동시 마스킹 임계값들 (172) 을 결정하기 위해 SHC (170B) 의 ("시간 분석" 으로서도 지칭될 수도 있는) 동시 분석을 수행하는 유닛을 표현한다. 동시 마스킹 유닛 (164) 은 하나의 예로서 동시적인 그러나 별개의 사운드들을 식별하기 위해 SHC (170B) 에 의해 기술된 음장을 평가할 수도 있다. 2 개의 동시적인 사운드들 사이에 이득에 있어서 큰 차이가 존재하는 경우, 통상적으로 가장 큰 에너지를 갖는 사운드를 표현할 수도 있는) 가장 큰 사운드만이 정확하게 표현될 필요가 있는 반면, 비교적 더 조용한 사운드는 덜 정확하게 표현될 수도 있다 (이것은 통상적으로 비교적 조용한 사운드에 더 적은 비트들을 할당함으로써 행해진다). 어느 경우에나, 동시 마스킹 유닛 (164) 은 (종종 주파수 빈 기반으로 주파수 빈에 대해 특정되는) 하나 이상의 동시 마스킹 임계값들 (172) 을 출력할 수도 있다.

공간 마스킹 유닛 (166) 은 (마찬가지로 주파수 빈 기반으로 주파수 빈에 대해 특정될 수도 있는) 하나 이상의 공간 마스킹 임계값들 (174) 을 결정하기 위해 상술된 기법들의 여러 양태들에 따라 그리고 SHC (170B) 에 대해 공간 분석을 수행하는 유닛을 표현할 수도 있다. 공간 마스킹 유닛 (166) 은 전체 마스킹 임계값들 (178) 을 형성하기 위해 시간 마스킹 임계값들 (172) 과 함께 결합기 (176) 에 의해 결합되는 공간 마스킹 임계값들 (174) 을 출력할 수도 있다. 결합기 (176) 는 전체 마스킹 임계값들 (178) 을 생성하기 위해 공간 마스킹 임계값들 (174) 과 함께 시간 마스킹 임계값들 (172) 을 결합하기 위해 임의의 다른 형태의 수학적 동작을 추가하거나 수행할 수도 있다.

비트 할당 유닛 (168) 은 전체 마스킹 임계값들 (178) 과 같은 임계값에 기초하여 오디오 데이터를 나타내는 비트스트림 (180) 에서 비트들을 할당할 수 있는 임의의 유닛을 나타낸다. 비트 할당 유닛 (168) 은 다소의 비트들을 할당할 때를 식별하기 위해 여러 임계값들 (178) 을 사용하여 비트들을 할당할 수도 있다. 통상, 비트 할당 유닛 (168) 은 다수의 소위 "패스들 (passes)" 에서 동작하며, 여기서 비트 할당 유닛 (168) 은 제 1 초기 비트 할당 패스 동안 비트스트림 (180) 에서 SHC (170B) 를 표현하기 위해 비트들을 할당한다. 비트 할당 유닛 (168) 은 (목표 비트레이트에 대응할 수도 있는) 비트 버짓이 초과되지 않도록 이러한 제 1 패스 동안 비트들을 보존적으로 할당할 수도 있다. 제 2 및 가능하게는 후속하는 비트 할당 패스들 동안, 비트 할당 유닛 (168) 은 SHC (170B) 의 여러 주파수 빈들이 비트스트림 (180) 에서 표현되는 방법을 더욱 정제하기 위해 (목표 비트레이트에 대응할 수도 있는) 비트 버짓에 유지되는 임의의 비트들을 할당할 수도 있다. 전체 마스킹 임계값들 (178) 에 기초하여 비트들을 할당하는 것으로서 기술되지만, 비트 할당 유닛 (168) 은 공간 마스킹 임계값들 (174), 시간 마스킹 임계값들 (172) 및 전체 마스킹 임계값들 (178) 중 임의의 하나 이상에 기초하여 비트들을 할당할 수도 있다.

도 14 는 본 개시에서 기술된 기법들의 여러 양태들을 수행함에 있어서, 도 13 의 예에서 도시된 오디오 인코딩 디바이스 (160) 와 같은 오디오 인코딩 디바이스의 예시적인 동작을 도시하는 플로우챠트이다. 동작에 있어서, 오디오 디코딩의 시간-주파수 유닛 (162) 은 SHC (170A) 를 수신하여 (200), SHC (170A) 를 시간 도메인으로부터 주파수 도메인으로 변환할 수도 있다 (여기서, SHC (170A) 의 주파수 도메인 버전은 "SHC (170B)" 로서 표시된다) (202).

오디오 인코딩 디바이스 (160) 의 동시 마스킹 유닛 (164) 은 그 후 하나 이상의 동시 마스킹 임계값들 (172) 을 결정하기 위해 SHC (170B) 의 ("시간 분석" 으로서도 지칭될 수도 있는) 동시 분석을 수행할 수도 있다 (204). 동시 마스킹 유닛 (164) 은 (종종 주파수 빈 기반으로 주파수 빈에 대해 특정되는) 하나 이상의 동시 마스킹 임계값들 (172) 을 출력할 수도 있다.

오디오 인코딩 디바이스 (160) 의 공간 마스킹 유닛 (166) 은 (마찬가지로 주파수 빈 기반으로 주파수 빈에 대해 특정될 수도 있는) 하나 이상의 공간 마스킹 임계값들 (174) 을 결정하기 위해 상술된 기법들의 여러 양태들에 따라 그리고 SHC (170B) 에 대해 공간 분석을 수행할 수도 있다 (206). 공간 마스킹 유닛 (166) 은 전체 마스킹 임계값들 (178) 을 형성하기 위해 ("시간 마스킹 임계값들 (172)" 로서 지칭될 수도 있는) 동시 마스킹 임계값들 (172) 과 결합기 (176) 에 의해 결합되는 공간 마스킹 임계값들 (174) 을 출력할 수도 있다 (208). 결합기 (176) 는 전체 마스킹 임계값들 (178) 을 생성하기 위해 수학적 동작의 임의의 다른 형태를 추가 또는 수행할 수도 있다.

비트 할당 유닛 (168) 은 전체 마스킹 임계값들 (178) 과 같은 임계값에 기초하여 오디오 데이터를 나타내는 비트스트림 (180) 에서 비트들을 할당할 수 있는 임의의 유닛을 나타낸다. 비트 할당 유닛 (168) 은 상술된 방식으로 하나 이상의 비트들을 할당할 때를 식별하기 위해 여러 임계값들 (178) 을 사용하여 비트들을 할당할 수도 있다 (210). 또, 전체 마스킹 임계값들 (178) 에 기초하여 비트들을 할당하는 것으로서 기술되지만, 비트 할당 유닛 (168) 은 공간 마스킹 임계값들 (174), 시간 마스킹 임계값들 (172) 및 전체 마스킹 임계값들 (178) 중 임의의 하나 이상에 기초하여 비트들을 할당할 수도 있다.

하나 이상의 예들에서, 설명된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 그것들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현된다면, 그 기능들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독가능 매체 상에 저장되거나 또는 그것을 통해 송신될 수도 있고 하드웨어 기반 프로세싱 유닛에 의해 실행될 수도 있다. 컴퓨터 판독가능 매체들은, 데이터 저장 매체들과 같은 유형의 (tangible) 매체에 대응하는 컴퓨터 판독가능 저장 매체들, 또는 예컨대 통신 프로토콜에 따라 한 장소에서 다른 장소로 컴퓨터 프로그램의 전달을 용이하게 하는 임의의 매체를 포함하는 통신 매체들을 포함할 수도 있다. 이런 방식으로, 컴퓨터 판독가능 매체들은 일반적으로 (1) 비일시적 (non-transitory) 인 유형의 컴퓨터 판독가능 저장 매체들 또는 (2) 신호 또는 반송파와 같은 통신 매체에 해당할 수도 있다. 데이터 저장 매체들은 본 개시물에서 설명된 기법들의 구현을 위한 명령들, 코드 및/또는 데이터 구조들을 취출하기 위해 하나 이상의 컴퓨터들 또는 하나 이상의 프로세서들에 의해 액세스될 수 있는 임의의 이용가능 매체들일 수도 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독가능 매체를 포함할 수도 있다.

비제한적인 예로, 이러한 컴퓨터 판독가능 저장 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광 디스크 스토리지, 자기 디스크 스토리지, 또는 다른 자기 저장 디바이스들, 플래시 메모리, 또는 소망의 프로그램 코드를 컴퓨터에 의해 액세스될 수 있는 명령들 또는 데이터 구조들의 형태로 저장하는데 사용될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 접속이 컴퓨터 판독가능 매체로 적절히 칭해진다. 예를 들어, 명령들이 웹사이트, 서버, 또는 다른 원격 자원으로부터 동축 케이블, 광섬유 케이블, 연선 (twisted pair), 디지털 가입자 회선 (DSL), 또는 무선 기술들 이를테면 적외선, 라디오, 및/또는 마이크로파를 이용하여 송신된다면, 동축 케이블, 광섬유 케이블, 연선, DSL, 또는 적외선, 라디오, 및 마이크로파와 같은 무선 기술은 매체의 정의에 포함된다. 그러나, 컴퓨터 판독가능 저장 매체들 및 데이터 저장 매체들은 커넥션들, 반송파들, 신호들, 또는 다른 일시적인 매체들을 포함하지 않지만, 대신 비일시적, 유형의 저장 매체들을 지향하고 있음이 이해되어야 한다. 디스크 (disk 및 disc) 는 본원에서 사용되는 바와 같이, 콤팩트 디스크 (compact disc, CD), 레이저 디스크, 광 디스크, 디지털 다용도 디스크 (DVD), 플로피 디스크 (floppy disk) 및 블루레이 디스크를 포함하는데, disk들은 보통 데이터를 자기적으로 재생하지만, disc들은 레이저들로써 광적으로 데이터를 재생한다. 상기한 것들의 조합들은 또한 컴퓨터 판독가능 매체들의 범위 내에 포함되어야 한다.

명령들은 하나 이상의 프로세서들, 이를테면 하나 이상의 디지털 신호 프로세서들 (DSP들), 범용 마이크로프로세서들, 주문형 집적회로들 (ASIC들), 필드 프로그램가능 로직 어레이들 (FPGA들), 또는 다른 동등한 집적 또는 개별 로직 회로에 의해 실행될 수도 있다. 따라서, 본원에서 사용되는 바와 같은 용어 "프로세서"는 앞서의 구조 또는 본원에서 설명된 기법들의 구현에 적합한 임의의 다른 구조 중 임의의 것을 말할 수도 있다. 덧붙여서, 일부 양태들에서, 본원에서 설명된 기능성은 인코딩 및 디코딩을 위해 구성되는, 또는 결합형 코덱 (codec) 으로 통합되는 전용 하드웨어 및/또는 소프트웨어 모듈들 내에 제공될 수도 있다. 또한, 본 기법들은 하나 이상의 회로들 또는 로직 엘리먼트들 내에 완전히 구현될 수 있다.

본 개시물의 기법들은 무선 핸드셋, 집적회로 (IC) 또는 IC들의 세트 (예컨대, 칩 셋) 를 포함한 매우 다양한 디바이스들 또는 장치들로 구현될 수도 있다. 다양한 컴포넌트들, 모듈들, 또는 유닛들은 개시된 기법들을 수행하도록 구성된 디바이스들의 기능적 양태들을 강조하기 위해 본 개시물에서 설명되지만, 상이한 하드웨어 유닛들에 의한 실현을 반드시 요구하지는 않는다. 대신에, 위에서 설명된 바와 같이, 다양한 유닛들은 코덱 하드웨어 유닛에 결합되거나 또는 적합한 소프트웨어 및/또는 펌웨어와 함께, 위에서 설명된 바와 같은 하나 이상의 프로세서들을 포함하는, 상호 운용적 하드웨어 유닛들의 컬렉션에 의해 제공될 수도 있다.

기법들의 다양한 실시형태들이 기술되었다. 기법들의 이들 및 다른 양태들은 다음의 청구항들의 범위 내에 있다.

Claims

다중 채널 오디오 데이터를 압축하는 방법으로서,
공간 마스킹 임계값을 식별하기 위해 3차원 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하는 단계;
상기 복수의 구면 조화 계수들로부터 상기 다중 채널 오디오 데이터를 렌더링하는 단계; 및
비트스트림을 생성하기 위해 상기 식별된 공간 마스킹 임계값에 기초하여 상기 다중 채널 오디오 데이터를 압축하는 단계를 포함하는, 다중 채널 오디오 데이터를 압축하는 방법.
제 1 항에 있어서,
상기 비트스트림에 대해 목표 비트레이트를 결정하는 단계를 더 포함하고,
상기 다중 채널 오디오 데이터를 압축하는 단계는, 압축된 오디오 데이터를 나타내는 비트스트림을 생성하기 위해, 상기 목표 비트레이트에 기초하여, i) 파라메트릭 인터-채널 오디오 인코딩 및 상기 공간 마스킹 임계값을 사용하는 공간 마스킹, 또는 ii) 상기 파라메트릭 인터-채널 오디오 인코딩을 수행함 없이 상기 공간 마스킹 임계값을 사용하는 공간 마스킹을 수행하는 단계를 포함하는, 다중 채널 오디오 데이터를 압축하는 방법.
제 2 항에 있어서,
상기 i) 파라메트릭 인터-채널 오디오 인코딩 및 상기 공간 마스킹 임계값을 사용하는 공간 마스킹, 또는 ii) 상기 파라메트릭 인터-채널 오디오 인코딩을 수행함 없이 상기 공간 마스킹 임계값을 사용하는 공간 마스킹을 수행하는 단계는,
상기 목표 비트레이트가 임계 비트레이트 아래에 있다고 결정하는 단계; 및
상기 목표 비트레이트가 상기 임계 비트레이트 아래에 있다고 결정하는 것에 응답하여, 상기 비트스트림을 생성하기 위해 상기 파라메트릭 인터-채널 오디오 인코딩 및 상기 공간 마스킹 임계값을 사용하는 상기 공간 마스킹을 수행하는 단계를 포함하는, 다중 채널 오디오 데이터를 압축하는 방법.
제 2 항에 있어서,
상기 i) 파라메트릭 인터-채널 오디오 인코딩 및 상기 공간 마스킹 임계값을 사용하는 공간 마스킹, 또는 ii) 상기 파라메트릭 인터-채널 오디오 인코딩을 수행함 없이 상기 공간 마스킹 임계값을 사용하는 공간 마스킹을 수행하는 단계는,
상기 목표 비트레이트가 임계 비트레이트 아래에 있다고 결정하는 단계; 및
상기 목표 비트레이트가 상기 임계 비트레이트 아래에 있다고 결정하는 것에 응답하여, 상기 비트스트림을 생성하기 위해 상기 다중 채널 오디오 데이터의 하나 이상의 베이스 채널들에 대해 상기 공간 마스킹 임계값을 사용하는 상기 공간 마스킹을 수행하고, 상기 다중 채널 오디오 데이터에 대해 상기 파라메트릭 인터-채널 오디오 인코딩을 수행하는 단계를 포함하는, 다중 채널 오디오 데이터를 압축하는 방법.
제 1 항에 있어서,
상기 복수의 구면 조화 계수들로부터 상기 다중 채널 오디오 데이터를 렌더링하는 단계는 상기 구면 조화 계수들로부터 32 개의 스피커들에 대해 상기 다중 채널 오디오 데이터의 32 개의 채널들을 렌더링하는 단계를 포함하는, 다중 채널 오디오 데이터를 압축하는 방법.
제 1 항에 있어서,
상기 복수의 구면 조화 계수들로부터 상기 다중 채널 오디오 데이터를 렌더링하는 단계는 상기 구면 조화 계수들로부터 밀집한 T-설계로 배열된 32 개의 스피커들에 대응하는 상기 다중 채널 오디오 데이터의 32 개의 채널들을 렌더링하는 단계를 포함하는, 다중 채널 오디오 데이터를 압축하는 방법.
제 1 항에 있어서,
상기 다중 채널 오디오 데이터를 압축하는 단계는 상기 공간 마스킹 임계값에 기초하여 상기 다중 채널 오디오 데이터의 시간 기반 표현 또는 상기 다중 채널 오디오 데이터의 주파수 기반 표현에 대해 상기 비트스트림에서 비트들을 할당하는 단계를 포함하는, 다중 채널 오디오 데이터를 압축하는 방법.
제 1 항에 있어서,
상기 다중 채널 오디오 데이터를 압축하는 단계는 상기 공간 마스킹 임계값 및 시간 마스킹 임계값에 기초하여 상기 다중 채널 오디오 데이터의 시간 기반 표현 및 상기 다중 채널 오디오 데이터의 주파수 기반 표현에 대해 상기 비트스트림에서 비트들을 할당하는 단계를 포함하는, 다중 채널 오디오 데이터를 압축하는 방법.
제 1 항에 있어서,
상기 다중 채널 오디오 데이터를 압축하는 단계는 상기 식별된 공간 마스킹 임계값에 기초하여 엔트로피 인코딩을 수행하는 단계를 포함하는, 다중 채널 오디오 데이터를 압축하는 방법.
제 1 항에 있어서,
변환된 복수의 구면 조화 계수들을 생성하기 위해 상기 복수의 구면 조화 계수들을 시간 도메인으로부터 주파수 도메인으로 변환하는 단계를 더 포함하고,
상기 다중 채널 오디오 데이터를 렌더링하는 단계는 상기 변환된 복수의 구면 조화 계수들로부터 상기 다중 채널 오디오 데이터를 렌더링하는 단계를 포함하는, 다중 채널 오디오 데이터를 압축하는 방법.
오디오 인코딩 디바이스로서,
공간 마스킹 임계값들을 식별하기 위해 3차원 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하고;
상기 복수의 구면 조화 계수들로부터 상기 다중 채널 오디오 데이터를 렌더링하며;
비트스트림을 생성하기 위해 상기 식별된 공간 마스킹 임계값들에 기초하여 상기 다중 채널 오디오 데이터를 압축하도록
구성된 하나 이상의 프로세서들을 포함하는, 오디오 인코딩 디바이스.
제 11 항에 있어서,
상기 하나 이상의 프로세서들은 또한 상기 비트스트림에 대해 목표 비트레이트를 결정하도록 구성되고,
상기 하나 이상의 프로세서들은, 압축된 오디오 데이터를 나타내는 비트스트림을 생성하기 위해, 상기 목표 비트레이트에 기초하여, i) 파라메트릭 인터-채널 오디오 인코딩 및 상기 공간 마스킹 임계값을 사용하는 공간 마스킹, 또는 ii) 상기 파라메트릭 인터-채널 오디오 인코딩을 수행함 없이 상기 공간 마스킹 임계값을 사용하는 공간 마스킹을 수행하도록 구성되는, 오디오 인코딩 디바이스.
제 12 항에 있어서,
상기 하나 이상의 프로세서들은, 상기 목표 비트레이트가 임계 비트레이트 아래에 있다고 결정하고, 상기 목표 비트레이트가 상기 임계 비트레이트 아래에 있다고 결정하는 것에 응답하여, 상기 비트스트림을 생성하기 위해 상기 파라메트릭 인터-채널 오디오 인코딩 및 상기 공간 마스킹 임계값을 사용하는 상기 공간 마스킹을 수행하도록 구성되는, 오디오 인코딩 디바이스.
제 12 항에 있어서,
상기 하나 이상의 프로세서들은, 상기 목표 비트레이트가 임계 비트레이트 아래에 있다고 결정하고, 상기 목표 비트레이트가 상기 임계 비트레이트 아래에 있다고 결정하는 것에 응답하여, 상기 비트스트림을 생성하기 위해 상기 다중 채널 오디오 데이터의 하나 이상의 베이스 채널들에 대해 상기 공간 마스킹 임계값을 사용하는 상기 공간 마스킹을 수행하고, 상기 다중 채널 오디오 데이터에 대해 상기 파라메트릭 인터-채널 오디오 인코딩을 수행하도록 구성되는, 오디오 인코딩 디바이스.
제 11 항에 있어서,
상기 하나 이상의 프로세서들은 또한, 상기 구면 조화 계수들로부터 32 개의 스피커들에 대해 상기 다중 채널 오디오 데이터의 32 개의 채널들을 렌더링하도록 구성되는, 오디오 인코딩 디바이스.
제 11 항에 있어서,
상기 하나 이상의 프로세서들은 또한, 상기 구면 조화 계수들로부터 밀집한 T-설계로 배열된 32 개의 스피커들에 대응하는 상기 다중 채널 오디오 데이터의 32 개의 채널들을 렌더링하도록 구성되는, 오디오 인코딩 디바이스.
제 11 항에 있어서,
상기 하나 이상의 프로세서들은 또한, 상기 공간 마스킹 임계값에 기초하여 상기 다중 채널 오디오 데이터의 시간 기반 표현 또는 상기 다중 채널 오디오 데이터의 주파수 기반 표현에 대해 상기 비트스트림에서 비트들을 할당하도록 구성되는, 오디오 인코딩 디바이스.
제 11 항에 있어서,
상기 하나 이상의 프로세서들은 또한, 상기 공간 마스킹 임계값 및 시간 마스킹 임계값에 기초하여 상기 다중 채널 오디오 데이터의 시간 기반 표현 및 상기 다중 채널 오디오 데이터의 주파수 기반 표현에 대해 상기 비트스트림에서 비트들을 할당하도록 구성되는, 오디오 인코딩 디바이스.
제 11 항에 있어서,
상기 하나 이상의 프로세서들은 또한, 상기 식별된 공간 마스킹 임계값들에 기초하여 엔트로피 인코딩을 수행하도록 구성되는, 오디오 인코딩 디바이스.
제 11 항에 있어서,
상기 하나 이상의 프로세서들은 또한, 변환된 복수의 구면 조화 계수들을 생성하기 위해 상기 복수의 구면 조화 계수들을 시간 도메인으로부터 주파수 도메인으로 변환하고, 상기 다중 채널 오디오 데이터를 렌더링할 때, 상기 변환된 복수의 구면 조화 계수들로부터 상기 다중 채널 오디오 데이터를 렌더링하도록 구성되는, 오디오 인코딩 디바이스.
오디오 인코딩 디바이스로서,
공간 마스킹 임계값을 식별하기 위해 3차원 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하는 수단;
상기 복수의 구면 조화 계수들로부터 상기 다중 채널 오디오 데이터를 렌더링하는 수단; 및
비트스트림을 생성하기 위해 상기 식별된 공간 마스킹 임계값에 기초하여 상기 다중 채널 오디오 데이터를 압축하는 수단을 포함하는, 오디오 인코딩 디바이스.
명령들을 저장한 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 명령들은, 실행될 때, 오디오 인코딩 디바이스의 하나 이상의 프로세서들로 하여금,
공간 마스킹 임계값을 식별하기 위해 3차원 음장을 기술하는 복수의 구면 조화 계수들에 기초하여 공간 분석을 수행하게 하고;
상기 복수의 구면 조화 계수들로부터 상기 다중 채널 오디오 데이터를 렌더링하게 하며;
비트스트림을 생성하기 위해 상기 식별된 공간 마스킹 임계값에 기초하여 상기 다중 채널 오디오 데이터를 압축하게 하는, 비일시적 컴퓨터 판독가능 저장 매체.
정의된 스피커 지오메트리로 배열된 스피커들에 대응하는 복수의 채널들을 갖는 제 1 다중 채널 오디오 데이터를 생성하기 위해 비트스트림을 디코딩하는 단계;
복수의 구면 조화 계수들을 생성하기 위해 상기 생성된 다중 채널 오디오 데이터에 대해 역 렌더링 프로세스를 수행하는 단계; 및
상기 복수의 구면 조화 계수들에 기초하여 로컬 스피커 지오메트리로 배열된 스피커들에 대응하는 복수의 채널들을 갖는 제 2 다중 채널 오디오 데이터를 렌더링하는 단계를 포함하는, 방법.
제 23 항에 있어서,
상기 비트스트림에 대해 목표 비트레이트를 결정하는 단계를 더 포함하고,
상기 비트스트림을 디코딩하는 단계는, 상기 제 1 다중 채널 오디오 데이터를 생성하기 위해 상기 목표 비트레이트에 기초하여 상기 비트스트림에 대해 파라메트릭 인터-채널 오디오 디코딩을 수행하는 단계를 포함하는, 방법.
제 24 항에 있어서,
상기 파라메트릭 인터-채널 오디오 인코딩을 수행하는 단계는,
상기 목표 비트레이트가 임계 비트레이트 아래에 있다고 결정하는 단계; 및
상기 목표 비트레이트가 상기 임계 비트레이트 아래에 있다고 결정하는 것에 응답하여, 상기 제 1 다중 채널 오디오 데이터를 생성하기 위해 상기 비트스트림에 대해 상기 파라메트릭 인터-채널 오디오 디코딩을 수행하는 단계를 포함하는, 방법.
제 25 항에 있어서,
상기 임계 비트레이트는 24-2 Kbps (Kilobits per second) 와 동일한, 방법.
제 23 항에 있어서,
상기 역 렌더링 프로세스를 수행하는 단계는 상기 복수의 구면 조화 계수들을 생성하기 위해 23 개의 스피커들에 대응하는 상기 제 1 다중 채널 오디오 데이터의 23 개의 채널들에 대해 상기 역 렌더링 프로세스를 수행하는 단계를 포함하는, 방법.
제 23 항에 있어서,
상기 역 렌더링 프로세스를 수행하는 단계는 상기 복수의 구면 조화 계수들을 생성하기 위해 밀집한 T-설계로 배열된 23 개의 스피커들에 대응하는 상기 제 1 다중 채널 오디오 데이터의 23 개의 채널들에 대해 상기 역 렌더링 프로세스를 수행하는 단계를 포함하는, 방법.
제 23 항에 있어서,
변환된 복수의 구면 조화 계수들을 생성하기 위해 상기 복수의 구면 조화 계수들을 주파수 도메인으로부터 시간 도메인으로 변환하는 단계를 더 포함하고,
상기 제 2 다중 채널 오디오 데이터를 렌더링하는 단계는 상기 변환된 복수의 구면 조화 계수들에 기초하여 상기 로컬 스피커 지오메트리로 배열된 상기 스피커들에 대응하는 상기 복수의 채널들을 갖는 상기 제 2 다중 채널 오디오 데이터를 렌더링하는 단계를 포함하는, 방법.
제 23 항에 있어서,
상기 제 2 다중 채널 오디오 데이터를 렌더링하는 단계는 상기 복수의 구면 조화 계수들에 기초하여 상기 로컬 스피커 지오메트리로 배열된 상기 스피커들에 대응하는 상기 복수의 채널들을 갖는 상기 제 2 다중 채널 오디오 데이터를 생성하기 위해 상기 복수의 구면 조화 계수들에 대해 변환을 수행하는 단계를 포함하는, 방법.
제 30 항에 있어서,
상기 제 2 다중 채널 오디오 데이터의 상기 복수의 채널들은 상기 로컬 스피커 지오메트리와 상이한 지오메트리로 배열된 가상 스피커들에 대응하는 복수의 가상 채널들을 포함하고,
상기 제 2 다중 채널 오디오 데이터를 렌더링하는 단계는 상기 로컬 스피커 지오메트리로 배열된 상기 스피커들에 대응하는 상기 제 2 다중 채널 오디오 데이터의 상기 복수의 채널들을 생성하기 위해 복수의 가상 라우드스피커 채널들에 대해 패닝 (panning) 을 수행하는 단계를 더 포함하는, 방법.
제 31 항에 있어서,
상기 패닝을 수행하는 단계는 상기 제 2 다중 채널 오디오 데이터의 상기 복수의 채널들을 생성하기 위해 상기 복수의 가상 채널들에 대해 벡터 베이스 진폭 패닝을 수행하는 단계를 포함하는, 방법.
제 32 항에 있어서,
상기 복수의 가상 채널들 각각은 대응하는 상이한 정의된 공간 영역과 연관되는, 방법.
제 33 항에 있어서,
상기 상이한 정의된 공간 영역들은 오디오 포맷 사양 및 오디오 포맷 표준 중 하나 이상에서 정의되는, 방법.
오디오 디코딩 디바이스로서,
제 1 스피커 지오메트리로 배열된 스피커들에 대응하는 복수의 채널들을 갖는 제 1 다중 채널 오디오 데이터를 생성하기 위해 비트스트림을 디코딩하고,
복수의 구면 조화 계수들을 생성하기 위해 상기 생성된 다중 채널 오디오 데이터에 대해 역 렌더링 프로세스를 수행하며,
상기 복수의 구면 조화 계수들에 기초하여 로컬 스피커 지오메트리로 배열된 스피커들에 대응하는 복수의 채널들을 갖는 제 2 다중 채널 오디오 데이터를 렌더링하도록
구성된 하나 이상의 프로세서들을 포함하는, 오디오 디코딩 디바이스.
제 35 항에 있어서,
상기 하나 이상의 프로세서들은 또한, 상기 비트스트림에 대해 목표 비트레이트를 결정하도록 구성되고,
상기 하나 이상의 프로세서들은, 상기 제 1 다중 채널 오디오 데이터를 생성하기 위해, 상기 목표 비트레이트에 기초하여, 상기 비트스트림에 대해 파라메트릭 인터-채널 오디오 디코딩을 수행하도록 구성되는, 오디오 디코딩 디바이스.
제 36 항에 있어서,
상기 하나 이상의 프로세서들은,
상기 목표 비트레이트가 임계 비트레이트 아래에 있다고 결정하고,
상기 목표 비트레이트가 상기 임계 비트레이트 아래에 있다고 결정하는 것에 응답하여, 상기 제 1 다중 채널 오디오 데이터를 생성하기 위해 상기 비트스트림에 대해 상기 파라메트릭 인터-채널 오디오 디코딩을 수행하도로 구성되는, 오디오 디코딩 디바이스.
제 37 항에 있어서,
상기 임계 비트레이트는 24-2 Kbps (Kilobits per second) 와 동일한, 오디오 디코딩 디바이스.
제 35 항에 있어서,
상기하나 이상의 프로세서들은, 상기 역 렌더링 프로세스를 수행할 때, 상기 복수의 구면 조화 계수들을 생성하기 위해 23 개의 스피커들에 대응하는 상기 제 1 다중 채널 오디오 데이터의 23 개의 채널들에 대해 상기 역 렌더링 프로세스를 수행하도록 구성되는, 오디오 디코딩 디바이스.
제 35 항에 있어서,
상기 하나 이상의 프로세서들은, 상기 역 렌더링 프로세스를 수행할 때, 상기 복수의 구면 조화 계수들을 생성하기 위해 밀집한 T-설계로 배열된 23 개의 스피커들에 대응하는 상기 제 1 다중 채널 오디오 데이터의 23 개의 채널들에 대해 상기 역 렌더링 프로세스를 수행하도록 구성되는, 오디오 디코딩 디바이스.
제 35 항에 있어서,
상기 하나 이상의 프로세서들은 변환된 복수의 구면 조화 계수들을 생성하기 위해 상기 복수의 구면 조화 계수들을 주파수 도메인으로부터 시간 도메인으로 변환하도록 구성되고,
상기 하나 이상의 프로세서들은, 상기 제 2 다중 채널 오디오 데이터를 렌더링할 때, 상기 변환된 복수의 구면 조화 계수들에 기초하여 상기 로컬 스피커 지오메트리로 배열된 상기 스피커들에 대응하는 상기 복수의 채널들을 갖는 상기 제 2 다중 채널 오디오 데이터를 렌더링하도록 구성되는, 오디오 디코딩 디바이스.
제 35 항에 있어서,
상기 하나 이상의 프로세서들은, 상기 제 2 다중 채널 오디오 데이터를 렌더링할 때, 상기 복수의 구면 조화 계수들에 기초하여 상기 로컬 스피커 지오메트리로 배열된 상기 스피커들에 대응하는 상기 복수의 채널들을 갖는 상기 제 2 다중 채널 오디오 데이터를 생성하기 위해 상기 복수의 구면 조화 계수들에 대해 변환을 수행하도록 구성되는, 오디오 디코딩 디바이스.
제 42 항에 있어서,
상기 제 2 다중 채널 오디오 데이터의 상기 복수의 채널들은 상기 로컬 스피커 지오메트리와 상이한 지오메트리로 배열된 가상 스피커들에 대응하는 복수의 가상 채널들을 포함하고,
상기 하나 이상의 프로세서들은, 상기 제 2 다중 채널 오디오 데이터를 렌더링할 때, 상기 로컬 스피커 지오메트리로 배열된 상기 스피커들에 대응하는 상기 제 2 다중 채널 오디오 데이터의 상기 복수의 채널들을 생성하기 위해 복수의 가상 라우드스피커 채널들에 대해 패닝 (panning) 을 수행하도록 구성되는, 오디오 디코딩 디바이스.
제 43 항에 있어서,
상기 하나 이상의 프로세서들은, 상기 패닝을 수행하할 때, 상기 제 2 다중 채널 오디오 데이터의 상기 복수의 채널들을 생성하기 위해 상기 복수의 가상 채널들에 대해 벡터 베이스 진폭 패닝을 수행하도록 구성되는, 오디오 디코딩 디바이스.
제 44 항에 있어서,
상기 복수의 가상 채널들 각각은 대응하는 상이한 정의된 공간 영역과 연관되는, 오디오 디코딩 디바이스.
제 45 항에 있어서,
상기 상이한 정의된 공간 영역들은 오디오 포맷 사양 및 오디오 포맷 표준 중 하나 이상에서 정의되는, 오디오 디코딩 디바이스.
오디오 디코딩 디바이스로서,
제 1 스피커 지오메트리로 배열된 스피커들에 대응하는 복수의 채널들을 갖는 제 1 다중 채널 오디오 데이터를 생성하기 위해 비트스트림을 디코딩하는 수단;
복수의 구면 조화 계수들을 생성하기 위해 상기 생성된 다중 채널 오디오 데이터에 대해 역 렌더링 프로세스를 수행하는 수단; 및
상기 복수의 구면 조화 계수들에 기초하여 로컬 스피커 지오메트리로 배열된 스피커들에 대응하는 복수의 채널들을 갖는 제 2 다중 채널 오디오 데이터를 렌더링하는 수단을 포함하는, 오디오 디코딩 디바이스.
명령들을 저장한 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 명령들은, 실행될 때, 오디오 디코딩 디바이스의 하나 이상의 프로세서들로 하여금,
제 1 스피커 지오메트리로 배열된 스피커들에 대응하는 복수의 채널들을 갖는 제 1 다중 채널 오디오 데이터를 생성하기 위해 비트스트림을 디코딩하게 하고;
복수의 구면 조화 계수들을 생성하기 위해 상기 생성된 다중 채널 오디오 데이터에 대해 역 렌더링 프로세스를 수행하게 하며;
상기 복수의 구면 조화 계수들에 기초하여 로컬 스피커 지오메트리로 배열된 스피커들에 대응하는 복수의 채널들을 갖는 제 2 다중 채널 오디오 데이터를 렌더링하게 하는, 비일시적 컴퓨터 판독가능 저장 매체.