KR20160015284A

KR20160015284A - 회전된 고차 앰비소닉스의 바이노럴화

Info

Publication number: KR20160015284A
Application number: KR1020157036670A
Authority: KR
Inventors: 마틴 제임스 모렐; 디판잔 센; 닐스 귄터 페터스
Original assignee: 퀄컴 인코포레이티드
Priority date: 2013-05-29
Filing date: 2014-05-29
Publication date: 2016-02-12
Also published as: JP6067935B2; EP3005738A2; WO2014194088A3; CN105325015B; US20140355766A1; WO2014194088A2; EP3005738B1; US9384741B2; KR101723332B1; JP2016523467A; CN105325015A

Abstract

하나 이상의 프로세서들을 포함하는 디바이스는 변환 정보를 획득하고 (변환 정보는 감소된 복수의 계층적 엘리먼트들로 복수의 계층적 엘리먼트들의 수를 감소시키기 위해 음장이 어떻게 변환되었는지를 기술한다); 변환 정보에 기초하여 감소된 복수의 계층적 엘리먼트들에 대하여 바이노럴 오디오 렌더링을 수행하도록 구성된다.

Description

회전된 고차 앰비소닉스의 바이노럴화{BINAURALIZATION OF ROTATED HIGHER ORDER AMBISONICS}

우선권 주장

본 출원은 2013 년 5 월 29 일에 출원된 미국 가출원 제 61/828,313 호의 우선권을 주장한다.

기술분야

본 개시물은 오디오 렌더링에 관한 것으로, 좀더 구체적으로 오디오 데이터의 바이노럴 렌더링에 관한 것이다.

일반적으로 기법들은 회전된 고차 앰비소닉스 (higher order ambisonics; HOA) 의 바이노럴 오디오 렌더링에 대해 기술된다.

일 예로서, 바이노럴 오디오 렌더링의 방법은 변환 정보를 획득하는 단계 (변환 정보는 감소된 복수의 계층적 엘리먼트들로 복수의 계층적 엘리먼트들의 수를 감소시키기 위해 음장이 어떻게 변환되었는지를 기술한다); 및 변환 정보에 기초하여 감소된 복수의 계층적 엘리먼트들에 대하여 바이노럴 오디오 렌더링을 수행하는 단계를 포함한다.

다른 예로서, 디바이스는 변환 정보를 획득하고 (변환 정보는 감소된 복수의 계층적 엘리먼트들로 복수의 계층적 엘리먼트들의 수를 감소시키기 위해 음장이 어떻게 변환되었는지를 기술한다); 변환 정보에 기초하여 감소된 복수의 계층적 엘리먼트들에 대하여 바이노럴 오디오 렌더링을 수행하도록 구성된 하나 이상의 프로세서들을 포함한다.

다른 예에서, 장치는 변환 정보를 획득하는 수단 (변환 정보는 감소된 복수의 계층적 엘리먼트들로 복수의 계층적 엘리먼트들의 수를 감소시키기 위해 음장이 어떻게 변환되었는지를 기술한다); 및 변환 정보에 기초하여 감소된 복수의 계층적 엘리먼트들에 대하여 바이노럴 오디오 렌더링을 수행하는 수단을 포함한다.

다른 예에서, 비일시적 컴퓨터-판독가능 저장 매체는, 실행되는 경우, 하나 이상의 프로세서들로 하여금 변환 정보를 획득하고 (변환 정보는 감소된 복수의 계층적 엘리먼트들로 복수의 계층적 엘리먼트들의 수를 감소시키기 위해 음장이 어떻게 변환되었는지를 기술한다); 변환 정보에 기초하여 감소된 복수의 계층적 엘리먼트들에 대해 바이노럴 오디오 렌더링을 수행하도록 하나 이상의 프로세서들을 구성하는 저장된 명령들을 포함한다.

본 기법들의 하나 이상의 양상들의 세부사항들이 첨부 도면들 및 하기 설명에서 제시된다. 본 발명의 다른 특징들, 목적들 및 이점들은 하기의 설명 및 도면들, 및 청구항들로부터 자명할 것이다.

도 1 및 도 2 는 다양한 오더 (order) 들 및 하위-오더들의 구면 조화 기저 함수들을 도시하는 도면들이다.
도 3 은 본 개시물에 설명된 기법들의 다양한 양상들을 구현할 수도 있는 시스템을 도시하는 도면이다.
도 4 는 본 개시물에 설명된 기법들의 다양한 양상들을 구현할 수도 있는 시스템을 도시하는 도면이다.
도 5a 및 도 5b 는 본 개시물에 설명된 기법들의 다양한 양상들을 구현할 수도 있는 오디오 인코딩 디바이스들을 도시하는 블록도들이다.
도 6a 및 도 6b 는, 각각, 본 개시물에 설명된 바이노럴 오디오 렌더링 기법들의 다양한 양상들을 수행할 수도 있는 오디오 재생 디바이스의 일 예를 도시하는 블록도이다.
도 7 은 본 개시물에 설명된 기법들의 다양한 양상들에 따라 오디오 인코딩 디바이스에 의해 수행되는 동작의 일 예시적인 모드를 도시하는 플로차트이다.
도 8 은 본 개시물에 설명된 기법들의 다양한 양상들에 따라 오디오 재생 디바이스에 의해 수행되는 동작의 일 예시적인 모드를 도시하는 플로차트이다.
도 9 는 본 개시물에 설명된 기법들의 다양한 양상들을 수행할 수도 있는 오디오 인코딩 디바이스의 다른 예를 도시하는 블록도이다.
도 10 은, 보다 상세히, 도 9 의 예에 도시된 오디오 인코딩 디바이스의 일 예시적인 구현을 도시하는 블록도이다.
도 11a 및 도 11b 는 음장을 회전시키기 위해 본 개시물에 설명된 기법들의 다양한 양상들을 수행하는 일 예를 도시하는 도면들이다.
도 12 는 참조의 제 1 프레임에 따라 캡쳐된 일 예시적인 음장을 도시하는 도면으로, 음장은 그러면 참조의 제 2 프레임의 면에서 음장을 표현하기 위해 본 개시물에 설명된 기법들에 따라 회전된다.
도 13a 내지 도 13e 는, 각각, 본 개시물에서 설명된 기법들에 따라 형성된 비트스트림들을 도시하는 도면이다.
도 14 는 본 개시물에 설명된 기법들의 회전 양상들을 구현할 시에 도 9 의 예에 도시된 오디오 인코딩 디바이스의 예시적인 동작을 도시하는 플로차트이다.
도 15 는 본 개시물에 설명된 기법들의 변환 양상들을 수행할 시에 도 9 의 예에 도시된 오디오 인코딩 디바이스의 예시적인 동작을 도시하는 플로차트이다.
유사한 참조 문자들은 도면들 및 텍스트에 걸쳐 유사한 엘리먼트들을 지칭한다.

서라운드 사운드의 진화는 오늘날 엔터테인먼트에 있어서 많은 출력 포맷들을 이용가능하게 했다. 그러한 소비자 서라운드 사운드 포맷들의 예들은 소정의 기하학적 좌표로 라우드스피커들에 피드들을 암시적으로 명시한다는 점에서 주로 '채널' 기반이다. 이는 유명한 5.1 포맷 (이는 다음의 6 개의 채널들을 포함한다: 전면 왼쪽 (FL), 전면 오른쪽 (FR), 중앙 또는 전면 중앙, 후면 왼쪽 또는 서라운드 왼쪽, 후면 오른쪽 또는 서라운드 오른쪽, 및 저주파수 효과 (LFT) 들), 성장하고 있는 7.1 포맷, (예를 들어, 울트라 고화질 텔레비젼 표준으로의 이용을 위한) 7.1.4 포맷 및 22.2 포맷과 같은 높은음 (height) 스피커들을 포함한다. 비-소비자 포맷들은 보통 '서라운드 어레이들' 이라고 칭해지는 (대칭적 기하학적 구조 및 비-대칭적 기하학적 구조인) 임의의 개수의 스피커들을 포괄할 수 있다. 그러한 어레이의 일 예는 정점을 평면으로 자른 20 면체 (truncated icosahedron) 의 코너들에서의 좌표에 포지셔닝된 32 개의 라우드스피커들을 포함한다.

향후의 MPEG 인코더에 대한 입력은 선택적으로 3 개의 가능한 포맷들 중 하나의 포맷이다: (i) (위에서 논의된 바와 같은) 종래의 채널-기반 오디오, 이는 포지션들에서 라우드스피커들을 통해 재생될 것으로 여겨진다; (ii) 오브젝트-기반 오디오, 이는 (다른 정보 중에서) 그것들의 위치 좌표를 포함하는 연관된 메타데이터와 함께 단일 오디오 오브젝트들에 대한 이산 펄스-코드-변조 (pulse-code-modulation; PCM) 데이터를 수반한다; 및 (iii) 장면-기반 오디오, 이는 ("구면 조화 계수들" 또는 SHC, "고차 앰비소닉스" 또는 HOA, 및 "HOA 계수들" 이라고도 불리는) 구면 조화 기저 함수들의 계수들을 이용하여 음장을 표현하는 것을 수반한다. 이러한 향후의 MPEG 인코더는 스위스 제네바에서 2013 년 1 월에 발표된, ISO/IEC (International Organization for Standardization/ International Electrotechnical Commission) JTC1/SC29/WG11/N13411 에 의한, "Call for Proposals for 3D Audio" 라는 제목의 문서에 보다 상세히 설명되어 있고, http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip 에서 입수가능할 수도 있다.

시장에는 다양한 '서라운드-사운드' 채널-기반 포맷들이 있다. 그것들은 범위가, 예를 들어, (스테레오를 넘어 거실로의 진출이라는 면에서 가장 성공적인) 5.1 홈 시어터 시스템에서 NHK (Nippon Hoso Kyokai 또는 일본 방송 회사) 에 의해 개발된 22.2 시스템까지 이른다. 컨텐츠 창작자들 (예를 들어, 할리우드 스튜디오들) 은 영화에 대한 사운드트랙을 한번만 생성하고, 각각의 스피커 구성에 대해 사운드트랙을 리믹스하기 위해 노력을 들이길 원하지 않을 것이다. 최근에, 표준 개발 조직 (Standards Developing Organizations) 은 표준화된 비트 스트림으로의 인코딩, 및 스피커 기하학적 구조 (및 수) 및 (렌더러를 포함하여) 재생의 위치에서의 음향적 조건들에 적응가능하고 그 모두에 쓰일 수 있는 차후의 디코딩을 제공하는 방식을 고려하고 있다.

컨텐츠 창작자들에게 그러한 융통성을 제공하기 위해, 엘리먼트들의 계층적 세트가 음장을 표현하는데 이용될 수도 있다. 엘리먼트들의 계층적 세트는 하위-순서화된 엘리먼트들의 기본 세트가 모델링된 음장의 전체 표현을 제공하도록 엘리먼트들이 순서화되는 엘리먼트들의 세트를 지칭할 수도 있다. 세트가 고차 엘리먼트들을 포함하도록 확장됨에 따라, 표현은 보다 상세하게 되어 해상도를 증가시킨다.

엘리먼트들의 계층적 세트의 일 예는 구면 조화 계수 (spherical harmonic coefficient; SHC) 들의 세트이다. 다음의 수식은 SHC 를 이용하여 음장의 설명 또는 표현을 나타낸다:

이러한 수식은, 시간 (t) 에서, 음장의 임의의 지점 (

) 에서의 압력 (

) 이 SHC,

에 의해 특유의 형태로 표현될 수 있음을 보여준다. 여기서,

, c 는 사운드의 속도 (-343 m/s) 이며,

은 참조의 지점 (또는 관측 지점) 이며,

은 오더 n 의 구면 베셀 (Bessel) 함수이고,

는 오더 n 및 하위오더 m 의 구면 조화 기저 함수들이다. 꺽쇠 괄호들에서의 용어는 다양한 시간-주파수 변환들, 예컨대, 이산 푸리에 변환 (discrete Fourier transform; DFT), 이산 코사인 변환 (discrete cosine transform; DCT), 또는 웨이브렛 (wavelet) 변환에 의해 근사치가 계산될 수 있는 신호 (즉,

) 의 주파수-도메인 표현이라고 인식될 수 있다. 계층적 세트들의 다른 예들은 웨이브렛 변환 계수들의 세트들 및 다해상도 기저 함수들의 계수들의 다른 세트들을 포함한다.

도 1 은 제 0 오더 (n = 0) 에서 제 4 오더 (n = 4) 까지의 구면 조화 기저 함수들을 도시하는 도면이다. 알 수 있는 바와 같이, 각각의 오더에 있어서, 언급되지는 않는 하위오더들 (m) 의 확장이 있지만 이는 설명을 용이하게 할 목적으로 도 1 의 예에서 명시적으로 도시되지는 않는다.

도 2 는 제 0 오더 (n = 0) 에서 제 4 오더 (n = 4) 까지의 구면 조화 기저 함수들을 도시하는 다른 도면이다. 도 2 에서, 구면 조화 기저 함수들은 도시된 오더 및 하위오더들을 가지며 3-차원 좌표 공간에서 보여진다.

SHC

는 다양한 마이크로폰 어레이 구성들에 의해 물리적으로 획득되거나 (예를 들어, 레코딩되거나), 대안으로, 그것들은 음장의 채널-기반 또는 오브젝트-기반 기술들로부터 도출될 수 있다. SHC 는 장면-기반 오디오를 표현하며, 여기서 SHC 는 오디오 인코더에 입력되어 보다 효율적인 송신 또는 저장을 증진할 수도 있는 인코딩된 SHC 를 획득할 수도 있다. 예를 들어, (1+4)² (25, 그리고 따라서 제 4 오더) 을 수반하는 제 4 오더 표현 계수들이 이용될 수도 있다.

위에서 언급된 바와 같이, SHC 는 마이크로폰을 이용하여 마이크로폰 레코딩으로부터 도출될 수도 있다. SHC 가 마이크로폰 어레이들로부터 도출될 수도 있는 방법들의 다양한 예들이 <Poletti, M., "Three-Dimensional Surround Sound Systems Based on Spherical Harmonics," J. Audio Eng. Soc, Vol. 53, No. 11 , 2005 November, pp 1004-1025> 에서 설명된다.

이러한 SHC 들이 오브젝트-기반 기술로부터 도출될 수도 있는 방법을 예시하기 위해, 다음의 등식을 고려하자. 개개의 오디오 오브젝트에 대응하는 음장에 대한 계수들 (

) 은 다음과 같이 나타내어질 수도 있다:

여기서 i 는

이며,

은 오더 n (제 2 유형의) 구면 헨켈 (Hankel) 함수이고,

는 오브젝트의 위치이다. 주파수의 함수로써 오브젝트 소스 에너지 (

) 를 아는 것은 (예를 들어, 시간-주파수 분석 기법들을 이용하는 것은, 예컨대, PCM 스트림에 대해 고속 푸리에 변환을 수행하는 것은) 우리가 각각의 PCM 오브젝트 및 그것의 위치를 SHC

으로 컨버팅하는 것을 허용한다. 또한, (위의 것이 선형이고 직교 분해이기 때문에) 각각의 오브젝트에 대한

계수들은 더해지는 것으로 볼 수 있다. 이러한 방식으로, 다수의 PCM 오브젝트들이 (예를 들어, 개개의 오브젝트들에 대한 계수 벡터들의 합으로)

계수들에 의해 표현될 수 있다. 근본적으로, 이러한 계수들에는 음장에 대한 정보 (3D 좌표의 함수로서 압력) 가 들어 있고, 위의 것은, 관측 지점 (

) 의 근처의, 개개의 오브젝트들로부터 전체 음장의 표현으로의 변환을 표현한다. 나머지 도면들은 오브젝트-기반 및 SHC-기반 오디오 코딩의 맥락에서 하기에서 설명된다.

도 3 은 본 개시물에 설명된 기법들의 다양한 양상들을 수행할 수도 있는 시스템 (10) 을 도시하는 도면이다. 도 3 의 예에서 도시된 바와 같이, 시스템 (10) 은 컨텐츠 창작자 (12) 및 컨텐츠 소비자 (14) 를 포함한다. 컨텐츠 창작자 (12) 및 컨텐츠 소비자 (14) 의 맥락에서 설명되었으나, 기법들은 (HOA 계수들이라고도 지칭될 수도 있는) SHC 들 또는 음장의 임의의 다른 계층적 표현이 오디오 데이터를 표현하는 비트스트림을 형성하도록 인코딩되는 임의의 맥락에서 구현될 수도 있다. 또한, 컨텐츠 창작자 (12) 는, 몇몇 예들을 제공하기 위해, 핸드셋 (또는 셀룰러 폰), 태블릿 컴퓨터, 스마트 폰, 또는 데스크탑 컴퓨터를 포함하여, 본 개시물에서 설명된 기법들을 구현할 수 있는 임의의 형태의 컴퓨팅 디바이스를 표현할 수도 있다. 마찬가지로, 컨텐츠 소비자 (14) 는, 몇몇 예들을 제공하기 위해, 핸드셋 (또는 셀룰러 폰), 태블릿 컴퓨터, 스마트 폰, 셋-탑 박스, 또는 데스크탑 컴퓨터를 포함하여, 본 개시물에서 설명된 기법들을 구현할 수 있는 임의의 형태의 컴퓨팅 디바이스를 표현할 수도 있다.

컨텐츠 창작자 (12) 는 컨텐츠 소비자 (14) 와 같은 컨텐츠 소비자들에 의한 소비를 위한 다중-채널 오디오 컨텐츠를 생성할 수도 있는 영화 스튜디오 또는 다른 엔티티를 표현할 수도 있다. 일부 예들에서, 컨텐츠 창작자 (12) 는 HOA 계수들 (11) 을 압축하고 싶어하는 개개의 사용자를 표현할 수도 있다. 종종, 이러한 컨텐츠 창작자는 비디오 컨텐츠와 연계하여 오디오 컨텐츠를 생성한다. 컨텐츠 소비자 (14) 는 오디오 재생 시스템에 대한 액세스를 소유하고 있거나 가지고 있는 개인을 표현하며, 오디오 재생 시스템은 다중-채널 오디오 컨텐츠로서 재생하기 위해 SHC 를 렌더링할 수 있는 임의의 형태의 오디오 재생 시스템을 지칭할 수도 있다. 도 3 의 예에서, 컨텐츠 소비자 (14) 는 오디오 재생 시스템 (16) 을 포함한다.

컨텐츠 창작자 (12) 는 오디오 편집 시스템 (18) 을 포함한다. 컨텐츠 창작자 (12) 는 (직접적으로 HOA 계수들로서의 포맷들을 포함하여) 다양한 포맷들로 라이브 레코딩들 (7) 및 오디오 오브젝트들 (9) 을 획득하며, 컨텐츠 창작자 (12) 는 오디오 편집 시스템 (18) 을 이용하여 이를 편집할 수도 있다. 컨텐츠 창작자는, 편집 프로세스 중에, 추가적인 편집을 요구하는 음장의 다양한 양상들을 식별하기 위해 렌더링된 스피커 피드들을 청취하면서, 오디오 오브젝트들 (9) 로부터 HOA 계수들 (11) 을 렌더링할 수도 있다. 컨텐츠 창작자 (12) 는 그 다음에 (가능하게는, 간접적으로, 소스 HOA 계수들이 위에서 설명된 방식으로 도출될 수도 있는 오디오 오브젝트들 (9) 중 상이한 오디오 오브젝트의 조작을 통해) HOA 계수들 (11) 을 편집할 수도 있다. 컨텐츠 창작자 (12) 는 HOA 계수들 (11) 을 생성하기 위해 오디오 편집 시스템 (18) 을 사용할 수도 있다. 오디오 편집 시스템 (18) 은 오디오 데이터를 편집하고 하나 이상의 소스 구면 조화 계수들로서 이러한 오디오 데이터를 출력할 수 있는 임의의 시스템을 표현한다.

편집 프로세스가 완료되면, 컨텐츠 창작자 (12) 는 HOA 계수들 (11) 에 기초하여 비트스트림 (3) 을 생성할 수도 있다. 즉, 컨텐츠 창작자 (12) 는 비트스트림 (3) 을 생성하기 위해 본 개시물에서 설명된 기법들의 다양한 양상들에 따라 HOA 계수들 (11) 을 인코딩하거나 그렇지 않으면 압축하도록 구성된 디바이스를 표현하는 오디오 인코딩 디바이스 (2) 를 포함한다. 오디오 인코딩 디바이스 (2) 는, 일 예로서, 유선 또는 무선 채널일 수도 있는 송신 채널, 데이터 저장 디바이스 등을 걸쳐 송신을 위한 비트스트림 (3) 을 생성할 수도 있다. 비트스트림 (3) 은 HOA 계수들 (11) 의 인코딩된 버전을 표현할 수도 있고, 프라이머리 비트스트림 및 사이드 채널 정보라고 지칭될 수도 있는 다른 사이드 스트림을 포함할 수도 있다.

하기에서 보다 상세히 설명되기는 하나, 오디오 인코딩 디바이스 (2) 는 벡터-기반 합성 또는 방향성-기반 합성에 기초하여 HOA 계수들 (11) 을 인코딩하도록 구성될 수도 있다. 벡터-기반 합성 방법론 또는 방향성-기반 합성 방법론을 수행할지 여부를 결정하기 위해, 오디오 인코딩 디바이스 (2) 는, HOA 계수들 (11) 에 적어도 부분적으로 기초하여, HOA 계수들 (11) 이 음장의 자연적인 레코딩 (예를 들어, 라이브 레코딩 (7)) 을 통해, 또는 일 예로서, PCM 오브젝트와 같은 오디오 오브젝트들 (9) 로부터 인공적으로 (즉, 합성으로) 생산되었는지 여부를 결정할 수도 있다. HOA 계수들 (11) 이 오디오 오브젝트들 (9) 로부터 생성된 경우, 오디오 인코딩 디바이스 (2) 는 방향성-기반 합성 방법론을 이용하여 HOA 계수들 (11) 을 인코딩할 수도 있다. HOA 계수들 (11) 이, 예를 들어, 고유마이크 (eigenmike) 를 이용하여 라이브로 캡쳐된 경우, 오디오 인코딩 디바이스 (2) 는 벡터-기반 합성 방법론에 기초하여 HOA 계수들 (11) 을 인코딩할 수도 있다. 위의 구별은 벡터-기반 또는 방향성-기반 합성 방법론이 사용될 수도 있는 일 예를 표현한다. 자연적인 레코딩들, 인공적으로 생성된 컨텐츠, 또는 둘의 혼합 (하이브리드 컨텐츠) 에 대해 어느 일방 또는 양자 모두가 이용될 수도 있는 다른 경우들이 있을 수도 있다. 또한, HOA 계수들의 단일 시간-프레임을 코딩하기 위해 동시에 방법론들 양자 모두를 이용하는 것이 또한 가능하다.

예시의 목적을 위해, HOA 계수들 (11) 이 라이브로 캡처되었거나 또는 그렇지 않으면 라이브 레코딩 (7) 과 같은 라이브 레코딩들을 나타냄을 오디오 인코딩 디바이스 (2) 가 결정한다고 가정하면, 오디오 인코딩 디바이스 (2) 는 선형 가역 변환 (LIT) 의 애플리케이션을 수반하는 벡터 기반 합성 방법을 사용하여 HOA 계수들 (11) 을 인코딩하도록 구성될 수도 있다. 선형 가역 변환의 일 예는 "특이값 분해" (또는 "SVD") 로서 지칭된다. 이 예에 있어서, 오디오 인코딩 디바이스 (2) 는 SVD 를 HOA 계수들 (11) 에 적용하여 HOA 계수들 (11) 의 분해된 버전을 결정할 수도 있다. 그 후, 오디오 인코딩 디바이스 (2) 는 HOA 계수들 (11) 의 분해된 버전을 분석하여 다양한 파라미터들을 식별할 수도 있으며, 이 파라미터들은 HOA 계수들 (11) 의 분해된 버전의 리오더링을 용이하게 할 수도 있다. 그 후, 오디오 인코딩 디바이스 (2) 는 식별된 파라미터들에 기초하여 HOA 계수들 (11) 의 분해된 버전을 리오더링할 수도 있으며, 여기서, 하기에서 더 상세하게 설명되는 바와 같은 그러한 리오더링은, 변환이 HOA 계수들 (11) 의 프레임들에 걸쳐 HOA 계수들을 리오더링할 수도 있다면 코딩 효율을 개선시킬 수도 있다 (여기서, 프레임은 일반적으로 HOA 계수들 (11) 의 M개 샘플들을 포함하고 M 은 일부 예들에 있어서 1024 로 설정된다). HOA 계수들 (11) 의 분해된 버전을 리오더링한 이후, 오디오 인코딩 디바이스 (2) 는 HOA 계수들 (11) 의 분해된 버전 중, 음장의 전경 (즉, 구별되는, 우월한 또는 돌출하는) 성분들을 나타내는 HOA 계수들을 선택할 수도 있다. 오디오 인코딩 디바이스 (2) 는 전경 성분들을 나타내는 HOA 계수들 (11) 의 분해된 버전을 오디오 오브젝트 및 관련 방향 정보로서 명시할 수도 있다.

오디오 인코딩 디바이스 (2) 는 또한, HOA 계수들 (11) 의 분해된 버전 중, 음장의 하나 이상의 배경 (즉, 주변) 성분들을 나타내는 HOA 계수들을 적어도 부분적으로 식별하기 위해 HOA 계수들 (11) 에 관한 음장 분석을 수행할 수도 있다. 오디오 인코딩 디바이스 (2) 는, 일부 예들에 있어서, 배경 성분들이 오직 (예를 들어, 제 2 또는 상위 오더 구면 기저 함수들에 대응하는 HOA 계수들이 아닌 제로 및 제 1 오더 구면 기저 함수들에 대응하는 HOA 계수들과 같은) HOA 계수들 (11) 의 임의의 소정의 샘플의 서브세트만을 포함할 수도 있다고 주어지면 배경 성분들에 관한 에너지 보상을 수행할 수도 있다. 즉, 오더 감소가 수행될 경우, 오디오 인코딩 디바이스 (2) 는, 오더 감소를 수행하는 것으로부터 기인하는 전체 에너지에서의 변화를 보상하기 위해 HOA 계수들 (11) 의 나머지 배경 HOA 계수들을 증강 (예를 들어, 에너지를 나머지 배경 HOA 계수들에 가산/에너지를 나머지 배경 HOA 계수들로부터 감산) 할 수도 있다.

오디오 인코딩 디바이스 (2) 는, 다음으로, 전경 오디오 오브젝트들의 각각 및 배경 성분들을 나타내는 HOA 계수들 (11) 각각에 관한 (MPEG 서라운드, MPEG-AAC, MPEG-USAC, 또는 다른 공지된 형태들의 심리 음향 인코딩과 같은) 일 형태의 심리 음향 인코딩을 수행할 수도 있다. 오디오 인코딩 디바이스 (2) 는 전경 방향 정보에 관한 일 형태의 보간을 수행하고, 그 후, 보간된 전경 방향 정보에 관한 오더 감소를 수행하여 오더 감소된 전경 방향 정보를 생성할 수도 있다. 오디오 인코딩 디바이스 (2) 는 추가로, 일부 예들에 있어서, 오더 감소된 전경 방향 정보에 관한 양자화를 수행하여, 코딩된 전경 방향 정보를 출력할 수도 있다. 일부 예들에 있어서, 이러한 양자화는 스칼라/엔트로피 양자화를 포함할 수도 있다. 그 후, 오디오 인코딩 디바이스 (2) 는 인코딩된 배경 성분들, 인코딩된 전경 오디오 오브젝트들, 및 양자화된 방향 정보를 포함하도록 비트스트림 (3) 을 형성할 수도 있다. 그 후, 오디오 인코딩 디바이스 (2) 는 비트스트림 (3) 을 컨텐츠 소비자 (14) 에 송신하거나 그렇지 않으면 출력할 수도 있다.

컨텐츠 소비자 (14) 에 직접 송신되는 것으로서 도 3 에 도시되지만, 컨텐츠 창작자 (12) 는 컨텐츠 창작자 (12) 와 컨텐츠 소비자 (14) 사이에 위치된 중간 디바이스에 비트스트림 (3) 을 출력할 수도 있다. 이러한 중간 디바이스는, 이러한 비트스트림을 요청할 수도 있는 컨텐츠 소비자 (14) 로의 추후 전달을 위해 비트스트림 (3) 을 저장할 수도 있다. 중간 디바이스는 파일 서버, 웹 서버, 데스크탑 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 모바일 전화기, 스마트 폰, 또는 오디오 디코더에 의한 추후 취출을 위해 비트스트림 (3) 을 저장 가능한 임의의 다른 디바이스를 포함할 수도 있다. 이러한 중간 디바이스는 비트스트림 (3) 을, 비트스트림 (3) 을 요청하는 컨텐츠 소비자 (14) 와 같은 가입자들에게 스트리밍하는 것 (및 가능하게는, 대응하는 비디오 데이터 비트스트림을 송신하는 것과 함께) 이 가능한 컨텐츠 전달 네트워크에 상주할 수도 있다.

대안적으로, 컨텐츠 창작자 (12) 는 컴팩트 디스크, 디지털 비디오 디스크, 고선명 비디오 디스크 또는 다른 저장 매체와 같은 저장 매체에 비트스트림 (3) 을 저장할 수도 있으며, 이들 중 대부분은 컴퓨터에 의해 판독가능하고, 따라서, 컴퓨터 판독가능 저장 매체 또는 비-일시적인 컴퓨터 판독가능 저장 매체로서 지칭될 수도 있다. 이러한 컨텍스트에서, 송신 채널은 이들 매체들에 저장된 컨텐츠가 송신되는 그러한 채널들을 지칭할 수도 있다 (그리고, 소매 스토어들 및 다른 스토어 기반 전달 메커니즘을 포함할 수도 있음). 따라서, 어떤 경우든, 본 개시의 기술들은 이러한 점에서 도 3 의 예로 한정되지 않아야 한다.

도 3 의 예에서 추가로 도시된 바와 같이, 컨텐츠 소비자 (14) 는 오디오 재생 시스템 (16) 을 포함한다. 오디오 재생 시스템 (16) 은 다중 채널 오디오 데이터를 재생 가능한 임의의 오디오 재생 시스템을 나타낼 수도 있다. 오디오 재생 시스템 (16) 은 다수의 상이한 렌더러들 (5) 을 포함할 수도 있다. 렌더러들 (5) 은 각각 상이한 형태의 렌더링을 제공할 수도 있으며, 여기서, 상이한 형태들의 렌더링은 벡터 기반 진폭 플래닝 (VBAP) 을 수행하는 다양한 방식들 중 하나 이상, 및/또는 음장 합성을 수행하는 다양한 방식들 중 하나 이상을 포함할 수도 있다. 본 명세서에서 사용된 바와 같이, "A 및/또는 B"는 "A 또는 B" 또는 "A 및 B" 양자를 의미한다.

오디오 재생 시스템 (16) 은 오디오 디코딩 디바이스 (4) 를 더 포함할 수도 있다. 오디오 디코딩 디바이스 (4) 는 비트스트림 (3) 으로부터의 HOA 계수들 (11') 을 디코딩하도록 구성된 디바이스를 나타낼 수도 있으며, 여기서, HOA 계수들 (11') 은 HOA 계수들 (11) 과 유사하지만 손실성 동작들 (예를 들어, 양자화) 및/또는 송신 채널을 통한 송신으로 인해 상이할 수도 있다. 즉, 오디오 디코딩 디바이스 (4) 는 비트스트림 (3) 에 명시된 전경 방향 정보를 역양자화하면서 또한 비트스트림 (3) 에 명시된 전경 오디오 오브젝트들 및 배경 성분들을 나타내는 인코딩된 HOA 계수들에 관한 심리 음향 디코딩을 수행할 수도 있다. 오디오 디코딩 디바이스 (4) 는 추가로, 디코딩된 전경 방향 정보에 관한 보간을 수행하고, 그 후, 디코딩된 전경 오디오 오브젝트들 및 보간된 전경 방향 정보에 기초하여 전경 성분들을 나타내는 HOA 계수들을 결정할 수도 있다. 그 후, 오디오 디코딩 디바이스 (4) 는 전경 성분들을 나타내는 결정된 HOA 계수들 및 배경 성분들을 나타내는 디코딩된 HOA 계수들에 기초하여 HOA 계수들 (11') 을 결정할 수도 있다.

오디오 재생 시스템 (16) 은 비트스트림 (3) 을 디코딩한 이후 HOA 계수들 (11') 을 획득하고 HOA 계수들 (11') 을 렌더링하여 라우드스피커 피드들 (6) 을 출력할 수도 있다. 라우드스피커 피드들 (6) 은 (예시 목적들의 용이를 위해 도 3 의 예에 도시되지 않은) 하나 이상의 라우드스피커들을 구동할 수도 있다.

적절한 렌더러를 선택하기 위해 또는 일부 경우들에 있어서 적절한 렌더러를 생성하기 위해, 오디오 재생 시스템 (16) 은 라우드스피커들의 개수 및/또는 라우드스피커들의 공간 지오메트리를 나타내는 라우드스피커 정보 (13) 를 획득할 수도 있다. 일부 경우들에 있어서, 오디오 재생 시스템 (16) 은 라우드스피커 정보 (13) 를 동적으로 결정하도록 하는 그러한 방식으로 라우드스피커들을 구동하고 그리고 참조 마이크로폰을 이용하여 라우드스피커 정보 (13) 를 획득할 수도 있다. 다른 경우들에 있어서 또는 라우드스피커 정보 (13) 의 동적 결정과 함께, 오디오 재생 시스템 (16) 은 오디오 재생 시스템 (16) 과 상호작용하고 그리고 라우드스피커 정보 (16) 를 입력하게 하도록 사용자를 프롬프트할 수도 있다.

그 후, 오디오 재생 시스템 (16) 은 라우드스피커 정보 (13) 에 기초하여 오디오 렌더러들 (5) 중 하나를 선택할 수도 있다. 일부 경우들에 있어서, 오디오 재생 시스템 (16) 은, 어떠한 오디오 렌더러들 (5) 도 라우드스피커 정보 (13) 에 명시된 일부 임계 유사도 측정치 (라우드스피커 지오메트리별) 내에 있지 않을 경우, 오디오 재생 시스템 (16) 은 라우드스피커 정보 (13) 에 기초하여 오디오 렌더러들 (5) 중 하나를 생성할 수도 있다. 오디오 재생 시스템 (16) 은, 일부 경우들에 있어서, 오디오 렌더러들 (5) 중 기존의 하나를 선택하려는 처음 시도없이 라우드스피커 정보 (13) 에 기초하여 오디오 렌더러들 (5) 중 하나를 생성할 수도 있다.

도 4 는 가능하게는 오디오 데이터의 비트스트림에서의 오디오 신호 정보를 보다 효율적으로 표현하기 위해 본 개시물에서 설명된 기법을 수행할 수도 있는 시스템 (20) 을 도시하는 도면이다. 도 3 의 예에서 도시된 바와 같이, 시스템 (20) 은 컨텐츠 창작자 (22) 및 컨텐츠 소비자 (24) 를 포함한다. 컨텐츠 창작자 (22) 및 컨텐츠 소비자 (24) 의 맥락에서 설명되었으나, 기법들은 SHC 들 또는 음장의 임의의 다른 계층적 표현이 오디오 데이터를 표현하는 비트스트림을 형성하도록 인코딩되는 임의의 맥락에서 구현될 수도 있다. 성분들 (22, 24, 30, 28, 36, 31, 32, 38, 34, 및 35) 은 도 3 의 유사하게 명칭이 붙은 성분들의 예시적인 사례들을 표현할 수도 있다. 또한, SHC (27 및 27') 는 각각 HOA 계수들 (11 및 11') 의 예시적인 사례를 표현할 수도 있다.

컨텐츠 창작자 (22) 는 컨텐츠 소비자 (24) 와 같은 컨텐츠 소비자들에 의한 소비를 위한 다중-채널 오디오 컨텐츠를 생성할 수도 있는 영화 스튜디오 또는 다른 엔티티를 표현할 수도 있다. 종종, 이러한 컨텐츠 창작자는 비디오 컨텐츠와 연계하여 오디오 컨텐츠를 생성한다. 컨텐츠 소비자 (24) 는 오디오 재생 시스템을 소유하고 있거나 그에 대한 액세스를 가지고 있는 개인을 표현하며, 오디오 재생 시스템은 다중-채널 오디오 컨텐츠를 다시 재생할 수 있는 임의의 형태의 오디오 재생 시스템을 지칭할 수도 있다. 도 4 의 예에서, 컨텐츠 소비자 (24) 는 오디오 재생 시스템 (32) 을 포함한다.

컨텐츠 창작자 (22) 는 오디오 렌더러 (28) 및 오디오 편집 시스템 (30) 을 포함한다. 오디오 렌더러 (26) 는 ("라우드스피커 피드들", "스피커 신호들", 또는 "라우드 스피커 신호들" 이라고도 지칭될 수도 있는) 스피커 피드들을 렌더링하거나 그렇지 않으면 생성하는 오디오 프로세싱 유닛을 표현할 수도 있다. 각각의 스피커 피드는 다중-채널 오디오 시스템의 특정 채널에 대한 사운드를 재생하는 스피커 피드에 대응할 수도 있다. 도 4 의 예에서, 렌더러 (38) 는 종래의 5.1, 7.1, 또는 22.2 서라운드 사운드 포맷들에 대해 스피커 피드들을 렌더링하여, 5.1, 7.1, 또는 22.2 서라운드 사운드 스피커 시스템들에서의 5, 7, 또는 22 스피커들의 각각에 대한 스피커 피드를 생성할 수도 있다. 대안으로, 렌더러 (28) 는, 위에서 논의된 소스 구면 조화 계수들의 속성들을 고려하여, 임의의 개수의 스피커들을 갖는 임의의 스피커 구성에 대해 소스 구면 조화 계수들로부터 스피커 피드들을 렌더링하도록 구성될 수도 있다. 렌더러 (28) 는, 이러한 방식으로, 스피커 피드들 (29) 로 도 4 에서 지칭된 다수의 스피커 피드들을 생성할 수도 있다.

컨텐츠 창작자는 편집 프로세스 동안에, 구면 조화 계수들 (27) ("SHC 27") 을 렌더링하여, 고충실도를 갖지 않거나 확실한 서라운드 사운드 경험을 제공하지 않는 음장의 양상들을 식별하기 위하여 렌더링된 스피커 피드들을 청취할 수도 있다. 컨텐츠 창작자 (22) 는 그 다음에 (종종, 위에서 설명된 방식으로 소스 구면 조화 계수들이 도출될 수도 있는 상이한 오브젝트들의 조직을 통해 간접적으로) 소스 구면 조화 계수들을 편집할 수도 있다. 컨텐츠 창작자 (22) 는 구면 조화 계수들 (27) 을 편집하기 위해 오디오 편집 시스템 (30) 을 사용할 수도 있다. 오디오 편집 시스템 (30) 은 오디오 데이터를 편집하고 하나 이상의 소스 구면 조화 계수들로서 이러한 오디오 데이터를 출력할 수 있는 임의의 시스템을 표현한다.

편집 프로세스가 완료된 경우, 컨텐츠 창작자 (22) 는 구면 조화 계수들 (27) 에 기초하여 비트스트림 (31) 을 생성할 수도 있다. 즉, 컨텐츠 창작자 (22) 는 비트스트림 생성 디바이스 (36) 를 포함하며, 비트스트림 생성 디바이스 (36) 는 비트스트림 (31) 을 생성할 수 있는 임의의 디바이스를 표현할 수도 있다. 일부 사례들에서, 비트스트림 생성 디바이스 (36) 는 구면 조화 계수들 (27) 을 (일 예로서, 엔트로피 인코딩을 통해) 대역폭 압축하고, 비트스트림 (31) 을 형성하는데 용인된 포맷으로 구면 조화 계수들 (27) 의 엔트로피 인코딩된 버전을 배열하는 인코더를 표현할 수도 있다. 다른 사례들에서, 비트스트림 생성 디바이스 (36) 는, 일 예로서, 다중-채널 오디오 컨텐츠 또는 그의 파생물들을 압축하기 위해 종래의 오디오 서라운드 사운드 인코딩 프로세스들과 유사한 프로세스들을 이용하여 다중채널 오디오 컨텐츠 (29) 를 인코딩하는 오디오 인코더 (가능하게는, MPEG 서라운드, 또는 그것의 파생물과 같은 공지의 오디오 코딩 표준을 따르는 인코더) 를 표현할 수도 있다. 압축된 다중-채널 오디오 컨텐츠 (29) 는 그 다음에 컨텐츠 (29) 를 대역폭 압축하기 위해 어떤 다른 방식으로 엔트로피 인코딩되거나 코딩되고 비트스트림 (31) 을 형성하기 위해 합의된 포맷에 따라 배열될 수도 있다. 비트스트림 (31) 을 형성하기 위해 직접적으로 압축되든지 비트스트림 (31) 을 형성하기 위해 렌더링되고 그 다음에 압축되는지, 컨텐츠 창작자 (22) 는 컨텐츠 소비자 (24) 에 비트스트림 (31) 을 송신할 수도 있다.

도 4 에서는 컨텐츠 소비자 (24) 에게 직접적으로 송신되는 것으로 도시되었으나, 컨텐츠 창작자 (22) 는 컨텐츠 창작자 (22) 와 컨텐츠 소비자 (24) 사이에 포지셔닝된 중간 디바이스에 비트스트림 (31) 을 출력할 수도 있다. 이러한 중간 디바이스는 이러한 비트스트림을 요청할 수도 있는 컨텐츠 소비자 (24) 로의 추후의 전달을 위해 비트스트림 (31) 을 저장할 수도 있다. 중간 디바이스는 파일 서버, 웹 서버, 데스크탑 컴퓨터, 랩탑 컴퓨터, 태블릿 컴퓨터, 모바일 폰, 스마트 폰, 또는 오디오 디코디에 의한 추후의 취출을 위해 비트스트림 (31) 을 저장할 수 있는 임의의 다른 디바이스를 포함할 수도 있다. 이러한 중간 디바이스는 비트스트림 (31) 을 요청하는 컨텐츠 소비자 (24) 와 같은 가입자들에게 비트스트림 (31) 을 스트리밍할 수 있는 (그리고 가능하게는 대응하는 비디오 데이터 비트스트림과 연계한) 컨텐츠 전달 네트워크에 있을 수도 있다. 대안으로, 컨텐츠 창작자 (22) 는 컴팩트 디스크, 디지털 비디오 디스크, 고화질 비디오 디스크, 또는 다른 저장 매체들과 같은 저장 매체에 비트스트림 (31) 을 저장할 수도 있으며, 이들 대부분은 컴퓨터에 의해 판독가능하고, 따라서 컴퓨터-판독가능 저장 매체들 또는 비일시적 컴퓨터-판독가능 저장 매체들이라고 지칭될 수도 있다. 이러한 맥락에서, 송신 채널은 이러한 매체들에 저장된 컨텐츠가 송신되는 채널들을 지칭할 수도 있다 (그리고 리테일 스토어들 및 다른 스토어-기반 전달 매커니즘을 포함할 수도 있다). 어떠한 경우에도, 그러므로, 본 개시물의 기법들은 도 4 의 예에서의 관점으로 제한되어서는 안된다.

도 4 의 예에서 더 도시되는 바와 같이, 컨텐츠 소비자 (24) 는 오디오 재생 시스템 (32) 을 포함한다. 오디오 재생 시스템 (32) 은 다중-채널 오디오 데이터를 재생할 수 있는 임의의 오디오 재생 시스템을 표현할 수도 있다. 오디오 재생 시스템 (32) 은 다수의 상이한 렌더러들 (34) 을 포함할 수도 있다. 렌더러들 (34) 은 상이한 형태의 렌더링을 각각 제공할 수도 있으며, 여기서 상이한 형태의 렌더링은 벡터-기반 진폭 패닝 (vector-base amplitude panning; VBAP) 의 다양한 방식들 중 하나 이상의 방식, 및/또는 음장 합성을 수행하기 위한 다양한 방식들 중 하나 이상의 방식을 포함할 수도 있다.

오디오 재생 시스템 (32) 은 추출 디바이스 (38) 를 더 포함할 수도 있다. 추출 디바이스 (38) 는 일반적으로 비트스트림 생성 디바이스 (36) 의 프로세스와 상호적일 수도 있는 프로세스를 통해, 구면 조화 계수들 (27') ("SHC (27')", 이는 구면 조화 계수들 (27) 의 수정된 형태 또는 복제본을 표현할 수도 있다) 을 추출할 수 있는 임의의 디바이스를 표현할 수도 있다. 임의의 경우에, 오디오 재생 시스템 (32) 은 구면 조화 계수들 (27') 을 수신할 수도 있고, 렌더러들 (34) 중 하나의 렌더러를 선택할 수도 있으며, 렌더러들 (34) 은 그러면 구면 조화 계수들 (27') 을 렌더링하여 (설명의 간결함의 목적으로 도 4 의 예에 도시되지 않은, 오디오 재생 시스템 (32) 에 전기적으로 또는 가능하게는 무선으로 커플링된 다수의 라우드스피커들에 대응하는) 다수의 스피커 피드들 (35) 을 생성한다.

통상적으로, 비트스트림 생성 디바이스 (36) 가 SHC (27) 를 직접적으로 인코딩하는 경우, 비트스트림 생성 디바이스 (36) 는 SHC (27) 모두를 인코딩한다. 음장의 각각의 표현에 대해 전송된 SHC (27) 의 수는 오더 의존적이고, (l+n)²/sample 로 수학적으로 나타내어질 수도 있으며, 여기서 n 은 다시 오더를 표기한다. 음장의 4 오더 표현을 달성하기 위해, 25 개의 SHC 들이 도출될 수 있다. 통상적으로, SHC 들의 각각은 32 비트 부호화 부동 소수점 수로 나타내어진다. 따라서, 음장의 4 오더 표현을 나타내기 위해, 총 25x32 또는 800 bits/sample 이 본 예에서 요구된다. 48kHz 의 샘플링 레이트가 이용되는 경우, 이는 38,400,000 bits/second 를 표현한다. 일부 사례들에서, SHC (27) 중 하나 이상의 SHC 는 (컨텐츠 소비자 (24) 에서 재현되는 경우 음장을 기술할 시에 가청이거나 중요한 오디오 정보를 포함하는 정보라고 지칭할 수도 있는) 핵심 정보를 명시하지 않을 수도 있다. SHC (27) 중 이러한 비-핵심 SHC 를 인코딩하는 것은 (송신 매커니즘의 컨텐츠 전달 네트워크 유형을 가정하면) 송신 채널을 통한 대역폭의 비효율적인 이용을 초래할 수도 있다. 이러한 계수들의 저장을 수반하는 응용에서, 위의 것은 저장 공간의 비효율적인 이용을 표현할 수도 있다.

비트스트림 생성 디바이스 (36) 는, 비트스트림 (31) 에서, 비트스트림 (31) 에 포함되고, 비트스트림 (31) 에서, SHC (27) 중 식별된 SHC 들을 명시하는 SHC (27) 를 식별할 수도 있다. 다시 말해, 비트스트림 생성 디바이스 (36) 는, 비트스트림에 포함된다고 식별되지 않는 SHC (27) 중 어느 것도 비트스트림 (31) 에서 명시하지 않으면서, SHC (27) 중 식별된 SHC 들을 비트스트림 (31) 에 명시할 수도 있다.

일부 사례들에서, 비트스트림 (31) 에 포함된 SHC (27) 를 식별하는 경우, 비트스트림 생성 디바이스 (36) 는 SHC (27) 의 대응하는 SHC 가 비트스트림 (31) 에 포함되는지 여부를 식별하는 복수의 비트들의 상이한 비트와 함께 복수의 비트들을 갖는 필드를 명시할 수도 있다. 일부 사례들에서, 비트스트림 (31) 에 포함된 SHC (27) 를 식별하는 경우, 비트스트림 생성 디바이스 (36) 는 (n + l)² bits 와 동일한 복수의 비트들을 갖는 필드를 식별할 수도 있으며, 여기서 n 은 음장을 기술하는 엘리먼트들의 계층적 세트의 오더를 표기하고, 여기서 복수의 비트들의 각각은 SHC (27) 중 대응하는 SHC (27) 가 비트스트림 (31) 에 포함되는지 여부를 식별한다.

일부 사례들에서, 비트스트림 생성 디바이스 (36) 는, 비트스트림 (31) 에 포함된 SHC (27) 를 식별하는 경우, SHC (27) 중 대응하는 하나의 SHC (27) 가 비트스트림 (31) 에 포함되는지 여부를 식별하는 복수의 상이한 비트들의 상이한 비트와 함께 복수의 비트들을 갖는 비트스트림 (31) 에서의 필드를 명시한다. SHC (27) 중 식별된 SHC (27) 들을 명시하는 경우, 비트스트림 생성 디바이스 (36) 는, 비트스트림 (31) 에, 복수의 비트들을 갖는 필드 바로 다음에 SHC (27) 중 식별된 SHC (27) 들을 명시할 수도 있다.

일부 사례들에서, 비트스트림 생성 디바이스 (36) 는 SHC (27) 중 하나 이상의 SHC (27) 가 음장을 기술하는 것에 관계된 정보를 갖는 것을 추가적으로 결정할 수도 있다. 비트스트림 (31) 에 포함된 SHC (27) 를 식별하는 경우, 비트스트림 생성 디바이스 (36) 는 음장을 기술하는 것에 관계된 정보를 갖는 SHC (27) 중 결정된 하나 이상의 SHC (27) 가 비트스트림 (31) 에 포함된다고 식별할 수도 있다.

일부 사례들에서, 비트스트림 생성 디바이스 (36) 는 SHC (27) 중 하나 이상의 SHC (27) 가 음장을 기술하는 것에 관계된 정보를 갖는 것을 추가적으로 결정할 수도 있다. 비트스트림 (31) 에 포함된 SHC (27) 를 식별하는 경우, 비트스트림 생성 디바이스 (36) 는, 비트스트림 (31) 에서, 음장을 기술하는 것에 관계된 정보를 갖는 SHC (27) 중 결정된 하나 이상의 SHC (27) 가 비트스트림 (31) 에 포함된다고 식별하고, 비트스트림 (31) 에서, 음장을 기술하는 것에 관계되지 않은 정보를 갖는 SHC (27) 중 남은 SHC (27) 가 비트스트림 (31) 에 포함되지 않는다고 식별할 수도 있다.

일부 사례들에서, 비트스트림 생성 디바이스 (36) 는 SHC (27) 값들 중 하나 이상의 SHC (27) 값이 임계 값 아래라고 결정할 수도 있다. 비트스트림 (31) 에 포함된 SHC (27) 를 식별하는 경우, 비트스트림 생성 디바이스 (36) 는, 비트스트림 (31) 에서, 이러한 임계 값보다 위에 있는 SHC (27) 중 결정된 하나 이상의 SHC (27) 가 비트스트림 (31) 에 명시된다고 식별할 수도 있다. 임계치는 보통 제로의 값일 수도 있으나, 실제 구현들에 있어서, 임계치는 노이즈-플로어 (또는 주위 에너지) 를 표현하는 값 또는 (임계 신호 의존적이게 할 수도 있는) 전류 신호 에너지에 비례하는 일부 값일 수도 있다.

일부 사례들에서, 비트스트림 생성 디바이스 (36) 는 음장을 기술하는 것에 관계된 정보를 제공하는 SHC (27) 의 수를 감소키도록 음장을 조정하거나 변환할 수도 있다. 용어 "조정하는" 은 선형 가역 변환을 표현하는 임의의 행렬 또는 행렬들의 적용을 지칭할 수도 있다. 이러한 사례들에서, 비트스트림 생성 디바이스 (36) 는 음장이 어떻게 조정되었는지를 기술하는 조정 정보 (이는 "변환 정보" 라고 지칭될 수도 있다) 를 비트스트림 (31) 에 명시할 수도 있다. 비트스트림에 후속하여 명시된 SHC (27) 를 식별하는 정보에 더해 이러한 정보를 명시하는 것으로 설명되긴 했으나, 본 기법들의 이러한 양상은 비트스트림에 포함된 SHC (27) 를 식별하는 정보를 명시하는 것에 대한 대안으로 수행될 수도 있다. 기법들은 따라서 이러한 면으로 제한되어서는 안되고, 음장을 기술하는 복수의 계층적 엘리먼트들을 포함하는 비트스트림을 생성하는 방법을 제공할 수도 있으며, 여기서 방법은 음장을 기술하는 것에 관계된 정보를 제공하는 복수의 계층적 엘리먼트들의 수를 감소시키기 위해 음장을 조정하는 단계, 및 음장이 어떻게 조정되었는지를 기술하는 조정 정보를 비트스트림에 명시하는 단계를 포함한다.

일부 사례들에서, 비트스트림 생성 디바이스 (36) 는 음장을 기술하는 것에 관계된 정보를 제공하는 SHC (27) 의 수를 감소키도록 음장을 회전시킬 수도 있다. 이러한 사례들에서, 비트스트림 생성 디바이스 (36) 는 음장이 어떻게 회전되었는지를 기술하는 회전 정보를 비트스트림 (31) 에 명시할 수도 있다. 회전 정보는 (360 도를 시그널링할 수 있는) 방위각 값 및 (180 도를 시그널링할 수 있는) 고도각 값을 포함할 수도 있다. 일부 사례들에서, 회전 정보는 x-축 및 y-축, x-축 및 z-축, 및/또는 y-축 및 z-축에 대해 명시된 하나 이상의 각들을 포함할 수도 있다. 일부 사례들에서, 방위각 값은 하나 이상의 비트들을 포함할 수도 있고, 통상적으로 10 비트를 포함한다. 일부 사례들에서, 고도각 값은 하나 이상의 비트들을 포함하고, 통상적으로 적어도 9 비트를 포함한다. 이러한 비트들의 선택은, 가장 간단한 실시형태에서, (고도각 및 방위각 양자 모두에서) 180/512 도의 해상도를 허용한다. 일부 사례들에서, 조정은 회전을 포함할 수도 있고, 위에서 설명된 조정 정보는 회전 정보를 포함한다. 일부 사례들에서, 비트스트림 생성 디바이스 (36) 는 음장을 기술하는 것에 관계된 정보를 제공하는 SHC (27) 의 수를 감소키도록 음장을 변환할 수도 있다. 이러한 사례들에서, 비트스트림 생성 디바이스 (36) 는 음장이 어떻게 변환되었는지를 기술하는 변환 정보를 비트스트림 (31) 에 명시할 수도 있다. 일부 사례들에서, 조정은 변환을 포함할 수도 있고, 위에서 설명된 조정 정보는 변환 정보를 포함한다.

일부 사례들에서, 비트스트림 생성 디바이스 (36) 는 임계 값보다 높은 넌-제로 값들을 갖는 SHC (27) 의 수를 감소시키도록 음장을 조정하고, 음장이 어떻게 조정되었는지를 기술하는 조정 정보를 비트스트림 (31) 에 명시할 수도 있다.

일부 사례들에서, 비트스트림 생성 디바이스 (36) 는 임계 값보다 높은 넌-제로 값들을 갖는 SHC (27) 의 수를 감소시키도록 음장을 회전시키고, 음장이 어떻게 회전되었는지를 기술하는 회전 정보를 비트스트림 (31) 에 명시할 수도 있다.

일부 사례들에서, 비트스트림 생성 디바이스 (36) 는 임계 값보다 높은 넌-제로 값들을 갖는 SHC (27) 의 수를 감소시키도록 음장을 변환하고, 음장이 어떻게 변환되었는지를 기술하는 변환 정보를 비트스트림 (31) 에 명시할 수도 있다.

비트스트림 (31) 에 포함된 SHC (27) 를 비트스트림 (31) 에서 식별함으로써, 이러한 프로세스는 음장의 기술과 관계된 정보를 포함하지 않는 SHC (27) (예컨대, SHC (27) 중 제로 값의 SHC (27) 들) 가 비트스트림에 명시되지 않는다, 즉, 비트스트림에 포함되지 않는다는 점에서 보다 효율적인 대역폭의 사용을 증진시킬 수도 있다. 또한, 추가적으로 또는 대안으로, 음장의 기술에 관계된 정보를 명시하는 SHC (27) 의 수를 감소시키도록 SHC (27) 를 생성하는 경우에 음장을 조정함으로써, 이러한 프로세스는 다시 또는 추가적으로 잠재적으로 보다 효율적인 대역폭 사용을 가져올 수도 있다. 이러한 프로세스들의 양상들 양자 모두는 비트스트림 (31) 에 명시되도록 요구되는 SHC (27) 의 수를 감소시킬 수도 있으며, 그렇게 함으로써 대역폭 비-고정 레이트 시스템들 (이는 타겟 비트레이트를 갖지 않거나 몇몇 예들을 제공하기 위해 프레임 또는 샘플 당 비트-버짓 (bit-budget) 을 제공하는 오디오 코딩 기법들을 지칭할 수도 있다) 의 사용을 향상시키거나, 고정 레이트 시스템에서, 잠재적으로 음장을 기술하는 것에 더욱 관계된 정보에 비트들의 할당을 가져올 수도 있다.

컨텐츠 소비자 (24) 내에서, 추출 디바이스 (38) 는 그러면 일반적으로 비트스트림 생성 디바이스 (36) 에 대해 위에서 설명된 프로세스에 역인 위에서 설명된 프로세스의 양상들에 따라 오디오 컨텐츠를 표현하는 비트스트림 (31) 을 프로세싱할 수도 있다. 추출 디바이스 (38) 는, 비트스트림 (31) 으로부터, 비트스트림 (31) 에 포함된 음장을 기술하는 SHC (27') 를 결정하고, SHC (27') 중 식별된 SHC (27') 들을 결정하기 위해 비트스트림 (31) 을 파싱할 수도 있다.

일부 사례들에서, 추출 디바이스 (38) 는, 비트스트림 (31) 에 포함된 SHC (27') 를 결정하는 경우, 추출 디바이스 (38) 는 복수의 비트들을 갖는 필드를 결정하기 위해 비트스트림 (31) 을 파싱할 수도 있으며, 복수의 비트들의 각각의 비트는 SHC (27') 중 대응하는 하나의 SHC (27') 가 비트스트림 (31) 에 포함되는지 여부를 식별한다.

일부 사례들에서, 추출 디바이스 (38) 는, 비트스트림 (31) 에 포함된 SHC (27') 를 결정하는 경우, (n+l)² bits 와 동일한 복수의 비트들을 갖는 필드를 명시할 수도 있으며, 여기서 다시 n 은 음장을 기술하는 엘리먼트들의 계층적 세트의 오더를 표기한다. 다시, 복수의 비트들의 각각은 SHC (27') 의 대응하는 하나의 SHC (27') 가 비트스트림 (31) 에 포함되는지 여부를 식별한다.

일부 사례들에서, 추출 디바이스 (38) 는, 비트스트림 (31) 에 포함된 SHC (27') 를 결정하는 경우, 추출 디바이스 (38) 는 복수의 비트들을 갖는 필드를, SHC (27') 중 대응하는 하나의 SHC (27') 가 비트스트림 (31) 에 포함되는지 여부를 식별하는 복수의 비트들 중 상이한 비트와 함께 비트스트림 (31) 에서 식별하기 위해 비트스트림 (31) 을 파싱할 수도 있다. 추출 디바이스 (38) 는, SHC (27') 중 식별된 SHC (27') 들을 결정하기 위해 비트스트림 (31) 을 파싱하는 경우, 복수의 비트들을 갖는 필드 후의 비트스트림 (31) 으로부터 직접적으로 SHC (27') 중 식별된 SHC (27') 들을 결정하도록 비트스트림 (31) 을 파싱할 수도 있다.

일부 사례들에서, 추출 디바이스 (38) 는, 위에서 설명된 프로세스들에 대한 대안으로서 또는 그와 연계하여, 음장을 기술하는 것에 관계된 정보를 제공하는 SHC (27') 의 수를 감소시키도록 음장이 어떻게 조정되었는지를 기술하는 조정 정보를 결정하기 위해 비트스트림 (31) 을 파싱할 수도 있다. 추출 디바이스 (38) 는 이러한 정보를 오디오 재생 시스템 (32) 에 제공할 수도 있으며, 이는 음장을 기술하는 것에 관계된 정보를 제공하는 SHC (27') 에 기초하여 음장을 재현하는 경우, 조정 정보에 기초하여 음장을 조정하여 복수의 계층적 엘리먼트들의 수를 감소시키기 위해 수행된 조정을 역으로 한다.

일부 사례들에서, 추출 디바이스 (38) 는, 위에서 설명된 프로세스들에 대한 대안으로서 또는 그와 연계하여, 음장을 기술하는 것에 관계된 정보를 제공하는 SHC (27') 의 수를 감소시키도록 음장이 어떻게 회전되었는지를 기술하는 회전 정보를 결정하기 위해 비트스트림 (31) 을 파싱할 수도 있다. 추출 디바이스 (38) 는 이러한 정보를 오디오 재생 시스템 (32) 에 제공할 수도 있으며, 이는 음장을 기술하는 것에 관계된 정보를 제공하는 SHC (27') 에 기초하여 음장을 재현하는 경우, 복수의 계층적 엘리먼트들의 수를 감소시키기 위해 수행된 회전을 역으로 하도록 회전 정보에 기초하여 음장을 회전시킨다.

일부 사례들에서, 추출 디바이스 (38) 는, 위에서 설명된 프로세스들에 대한 대안으로서 또는 그와 연계하여, 음장을 기술하는 것에 관계된 정보를 제공하는 SHC (27') 의 수를 감소시키도록 음장이 어떻게 변환되었는지를 기술하는 변환 정보를 결정하기 위해 비트스트림 (31) 을 파싱할 수도 있다. 추출 디바이스 (38) 는 이러한 정보를 오디오 재생 시스템 (32) 에 제공할 수도 있으며, 이는 음장을 기술하는 것에 관계된 정보를 제공하는 SHC (27') 에 기초하여 음장을 재현하는 경우, 복수의 계층적 엘리먼트들의 수를 감소시키기 위해 수행된 변환을 역으로 하도록 조정 정보에 기초하여 음장을 변환시킨다.

일부 사례들에서, 추출 디바이스 (38) 는, 위에서 설명된 프로세스들에 대한 대안으로서 또는 그와 연계하여, 넌-제로 값들을 갖는 SHC (27') 의 수를 감소시키기 위해 음장이 어떻게 조정되었는지를 기술하는 조정 정보를 결정하기 위해 비트스트림 (31) 을 파싱할 수도 있다. 추출 디바이스 (38) 는 이러한 정보를 오디오 재생 시스템 (32) 에 제공할 수도 있으며, 이는 넌-제로 값들을 갖는 SHC (27') 에 기초하여 음장을 재현하는 경우, 복수의 계층적 엘리먼트들의 수를 감소시키도록 수행된 조정을 역으로 하기 위해 조정 정보에 기초하여 음장을 조정한다.

일부 사례들에서, 추출 디바이스 (38) 는, 위에서 설명된 프로세스들에 대한 대안으로서 또는 그와 연계하여, 넌-제로 값들을 갖는 SHC (27') 의 수를 감소시키도록 음장이 어떻게 회전되었는지를 기술하는 회전 정보를 결정하기 위해 비트스트림 (31) 을 파싱할 수도 있다. 추출 디바이스 (38) 는 이러한 정보를 오디오 재생 시스템 (32) 에 제공할 수도 있으며, 이는 넌-제로 값들을 갖는 SHC (27') 에 기초하여 음장을 재현하는 경우, 복수의 계층적 엘리먼트들의 수를 감소시키도록 수행된 회전을 역으로 하기 위해 회전 정보에 기초하여 음장을 회전시킨다.

일부 사례들에서, 추출 디바이스 (38) 는, 위에서 설명된 프로세스들에 대한 대안으로서 또는 그와 연계하여, 넌-제로 값들을 갖는 SHC (27') 의 수를 감소시키도록 음장이 어떻게 변환되었는지를 기술하는 변환 정보를 결정하기 위해 비트스트림 (31) 을 파싱할 수도 있다. 추출 디바이스 (38) 는 이러한 정보를 오디오 재생 시스템 (32) 에 제공할 수도 있으며, 이는 넌-제로 값들을 갖는 SHC (27') 에 기초하여 음장을 재현하는 경우, 복수의 계층적 엘리먼트들의 수를 감소시키도록 수행된 변환을 역으로 하기 위해 변환 정보에 기초하여 음장을 변환시킨다.

도 5a 는 본 개시물에 설명된 기법들의 다양한 양상들을 구현할 수도 있는 오디오 인코딩 디바이스 (120) 를 도시하는 블록도이다. 단일 디바이스, 즉, 도 9 의 예에서 오디오 인코딩 디바이스 (120) 로서 도시되나, 기법들은 하나 이상의 디바이스들에 의해 수행될 수도 있다. 이에 따라, 기법들은 이러한 측면으로 제한되어서는 안된다.

도 5a 의 예에서, 오디오 인코딩 디바이스 (120) 는 시간-주파수 분석 유닛 (122), 회전 유닛 (124), 공간 분석 유닛 (126), 오디오 인코딩 유닛 (128), 및 비트스트림 생성 유닛 (130) 을 포함한다. 시간-주파수 분석 유닛 (122) 은 시간 도메인으로부터 주파수 도메인으로 SHC (121) (이는 또한 SHC (121) 가 1 보다 큰 오더와 연관된 적어도 하나의 계수를 포함할 수도 있다는 점에서 고차 앰비소닉스 (higher order ambisonics; HOA) 라고 지칭될 수도 있다) 를 변환시키도록 구성된 유닛을 표현할 수도 있다. 시간-주파수 분석 유닛 (122) 은, 몇몇 예들을 제공하기 위해, 고속 푸리에 변환 (fast Fourier transform; FFT) 을 포함하는 임의의 형태의 푸리에-기반 변환, 이산 코사인 변환 (discrete cosine transform; DCT), 수정된 이산 코사인 변환 (modified discrete cosine transform; MDCT), 및 이산 사인 변환 (discrete sine transform; DST) 을 적용하여, 시간 도메인으로부터 주파수 도메인으로 SHC (121) 를 변환할 수도 있다. SHC (121) 의 변환된 버전은 SHC (121') 로 표시되며, 시간-주파수 분석 유닛 (122) 은 이를 회전 분석 유닛 (124) 및 공간 분석 유닛 (126) 으로 출력할 수도 있다. 일부 사례들에서, SHC (121) 는 주파수 도메인에서 이미 명시될 수도 있다. 이러한 사례들에서, 시간-주파수 분석 유닛 (122) 은 변환을 적용하지 않거나 그렇지 않으면 수신된 SHC (121) 를 변환하지 않고, 회전 분석 유닛 (124) 및 공간 분석 유닛 (126) 으로 SHC (121') 를 패스할 수도 있다.

회전 유닛 (124) 은 위에서 보다 상세히 설명된 기법들의 회전 양상들을 수행하는 유닛을 표현할 수도 있다. 회전 유닛 (124) 은 공간 분석 유닛 (126) 과 연계하여 작동하여 SHC (121') 중 하나 이상의 SHC (121') 를 제거하도록 음장을 회전시킬 수도 있다 (또는 좀더 일반적으로 변환할 수도 있다). 공간 분석 유닛 (126) 은 위에서 설명된 "공간 압축" 알고리즘과 유사한 방식으로 공간 분석을 수행하도록 구성된 유닛을 표현할 수도 있다. 공간 분석 유닛 (126) 은 회전 유닛 (124) 에 (고도각 및 방위각을 포함할 수도 있는) 변환 정보 (127) 를 출력할 수도 있다. 회전 유닛 (124) 은 그 다음에 ("회전 정보 (127)" 라고도 지칭될 수도 있는) 변환 정보 (127) 에 따라 음장을 회전시켜 SHC (121') 의 감소된 버전을 생성할 수도 있으며, 이는 도 5a 의 예에서 SHC (125') 라고 표시될 수도 있다. 회전 유닛 (124) 은 오디오 인코딩 유닛 (126) 에 SHC (125') 를 출력할 수도 있으며, 한편 비트스트림 생성 유닛 (128) 에 변환 정보 (127) 를 출력할 수도 있다.

오디오 인코딩 유닛 (126) 은 인코딩된 오디오 데이터 (129) 를 출력하기 위해 SHC (125') 를 오디오 인코딩하도록 구성된 유닛을 표현할 수도 있다. 오디오 인코딩 유닛 (126) 은 임의의 형태의 오디오 인코딩을 수행할 수도 있다. 일 예로서, 오디오 인코딩 유닛 (126) 은 MPEG (motion pictures experts group)-2 파트 7 표준 (다르게는, ISO/IEC 13818-7:1997 으로 표기됨) 및/또는 MPEG-4 파트 3-5 에 따라 고급 오디오 코딩 (advanced audio coding; AAC) 을 수행할 수도 있다. 오디오 인코딩 유닛 (126) 은 별도의 채널로 SHC (125') 의 각각의 오더/하위-오더 결합을 효과적으로 처리하여, AAC 인코더의 별도의 인스턴스를 이용해 이러한 별도의 채널들을 인코딩할 수도 있다. HOA 의 인코딩에 관한 보다 많은 정보는 <Audio Engineering Society Convention Paper 7366, "Encoding Higher Order Ambisonics with AAC", Eric Hellerud 외> 에서 찾을 수 있으며, 이는 <제 124 차 Audio Engineering Society Convention, 2008 년 5 월 17 일 - 20 일, 네덜란드 암스테르담> 에서 발표되었다. 오디오 인코딩 유닛 (126) 은 비트스트림 생성 유닛 (130) 에 인코딩된 오디오 데이터 (129) 를 출력할 수도 있다.

비트스트림 생성 유닛 (130) 은 사적으로, 자유롭게 이용가능한, 표준화된 일부 공지의 포맷 등에 따르는 비트스트림을 생성하도록 구성된 유닛을 표현할 수도 있다. 비트스트림 생성 유닛 (130) 은 비트스트림 (131) 을 생성하기 위해 회전 정보 (127) 를 인코딩된 오디오 데이터 (129) 와 다중화할 수도 있다. 비트스트림 (131) 은, SHC (27') 가 인코딩된 오디오 데이터 (129) 로 대체될 수도 있다는 점을 제외하고, 도 6a 내지 도 6e 중 임의의 것에서 제시된 예들에 일치할 수도 있다. 비트스트림들 (131, 131') 은 비트스트림들 (3, 31) 의 일 예를 각각 표현할 수도 있다.

도 5b 는 본 개시물에 설명된 기법들의 다양한 양상들을 구현할 수도 있는 오디오 인코딩 디바이스 (200) 의 다른 예를 도시하는 블록도이다. 단일 디바이스, 즉, 도 5b 의 예에서 오디오 인코딩 디바이스 (200) 로서 도시되나, 기법들은 하나 이상의 디바이스들에 의해 수행될 수도 있다. 이에 따라, 기법들은 이러한 면으로 제한되어서는 안된다.

도 5a 의 오디오 인코딩 디바이스 (120) 와 같은 오디오 인코딩 디바이스 (200) 는 시간-주파수 분석 유닛 (122), 오디오 인코딩 유닛 (128), 및 비트스트림 생성 유닛 (130) 을 포함한다. 오디오 인코딩 디바이스 (120) 는, 비트스트림 (131') 에 임베딩된 사이드 채널에서 음장에 대한 회전 정보를 획득하여 제공하는 대신에, SHC (121') 를 변환된 구면 조화 계수들 (202) 로 변환하기 위해 SHC (121') 에 벡터-기반 분해를 대신 적용하며, 변환된 구면 조화 계수들 (202) 은 오디오 인코딩 디바이스 (120) 가 음장 회전 및 후속하는 인코딩에 대한 회전 정보를 추출할 수도 있는 회전 행렬을 포함할 수도 있다. 그 결과, 이러한 예에서, 회전 정보가 비트스트림 (131') 에 임베딩될 필요가 없으며, 렌더링 디바이스에 있어서, 비트스트림 (131') 에 인코딩된 변환된 구면 조화 계수들로부터 회전 정보를 획득하고 SHC 들의 원래의 좌표 시스템을 재저장하기 위해 음장을 역-회전하는 유사한 동작이 수행될 수도 있다. 이러한 동작은 아래에서 보다 자세히 설명된다.

도 5b 의 예에서 도시된 바와 같이, 오디오 인코딩 디바이스 (200) 는 벡터-기반 분해 유닛 (202), 오디오 인코딩 유닛 (128), 및 비트스트림 생성 유닛 (130) 을 포함한다. 벡터-기반 분해 유닛 (202) 은 SHC (121') 를 압축하는 유닛을 표현할 수도 있다. 일부 사례들에서, 벡터-기반 분해 유닛 (202) 은 SHC (121') 를 무손실 압축할 수도 있는 유닛을 표현한다. SHC (121') 는 복수의 SHC 들을 표현할 수도 있으며, 여기서 복수의 SHC 중 적어도 하나의 SHC 는 1 보다 큰 오더를 갖는다 (여기서 이러한 다양한 SHC 는 저차 앰비소닉스와 구별되도록 고차 앰비소닉스 (HOA) 라고 지칭되며, 저차 앰비소닉스의 일 예는 이른바 "B-포맷" 이다). 벡터-기반 분해 유닛 (202) 이 SHC (121') 들을 무손실 압축할 수도 있으나, 통상적으로 벡터-기반 분해 유닛 (202) 은 (일부는 인간의 청각 시스템에 의해 들을 수 없다는 점에서) 재현할 경우 음장을 기술하는데 두드러지거나 관련되지 않은 SHC (121') 들을 제거한다. 이런 의미에서, 이러한 압축의 손실 속성은 SHC (121') 들의 압축된 버전으로부터 재현되는 경우 음장의 지각 품질에 너무 영향을 주지 않을 수도 있다.

도 5b 에서, 벡터-기반 분해 유닛 (202) 은 분해 유닛 (218) 및 음장 성분 추출 유닛 (220) 을 포함할 수도 있다. 분해 유닛 (218) 은 특이값 분해로 지칭되는 일 형태의 분석을 수행하도록 구성된 유닛을 표현할 수도 있다. SVD 에 관하여 설명되지만, 기법들은, 선형적으로 정정되지 않은 데이터의 세트들을 제공하는 임의의 유사한 변환 또는 분해에 관하여 수행될 수도 있다. 또한, 본 개시물에서의 "세트들" 의 참조는, 구체적으로 반하여 기술되지 않으면 비-제로 세트들을 지칭하도록 일반적으로 의도되고, 소위 "공집합" 을 포함하는 세트들의 고전적인 수학적 정의를 지칭하도록 의도되지 않는다.

대안적인 변환은 "PCA" 로서 종종 축약되는 주요 성분 분석을 포함할 수도 있다. PCA 는, 가능하게 상관된 변수들의 관측들의 세트를 주요 성분들로서 지칭된 선형적으로 미상관된 변수들의 세트로 변환하기 위해 직교 변환을 채용하는 수학적 절차를 지칭한다. 선형적으로 미상관된 변수들은 서로 선형 통계적 관계 (또는 의존성) 을 갖지 않는 변수를 나타낸다. 이들 주요 성분들은 서로 작은 통계적 상관도를 갖는 것으로서 설명될 수도 있다. 어떤 경우든, 소위 주요 성분들의 수는 원래의 변수들의 수보다 작거나 같다. 통상적으로, 변환은, 제 1 주요 성분이 최대 가능한 분산을 갖고 (즉, 가능한 많은 데이터의 가변성을 설명함) 그리고 차례로 각각의 다음 성분은 이러한 후속 성분이 이전 성분들에 직교해야 하는 (이전 성분들과 미상관됨으로써 재기술될 수도 있음) 제약 하에서 가능한 최고 분산을 갖는 그러한 방식으로 정의된다. PCA 는 일 형태의 오더 감소를 수행할 수도 있으며, 이는 SHC (11A) 이 관점에서 SHC (11A) 의 압축을 발생시킬 수도 있다. 컨텍스트에 의존하여, PCA 는, 몇몇 예들만 들자면, 이산 카루넨-루베 변환, 호텔링 변환, 적절한 직교 분해 (POD), 및 고유값 분해 (EVD) 와 같은 다수의 상이한 이름들에 의해 지칭될 수도 있다.

임의의 경우에, 분해 유닛 (218) 은 특이값 분해 (이는, 다시, 두문자어 "SVD" 로 표기될 수도 있다) 를 수행하여 구면 조화 계수들 (121') 을 변환된 구면 조화 계수들의 2 개 이상의 세트들로 변환활 수도 있다. 도 5b 의 예에서, 분해 유닛 (218) 은 SHC (121') 에 대해 SVD 를 수행하여 이른바 V 행렬, S 행렬, 및 U 행렬을 생성할 수도 있다. SVD 는, 선형 대수에서, 다음의 식으로 m-바이-n 실수 또는 복소수 행렬 X (X 는 SHC (121') 와 같은 다중-채널 오디오 데이터를 표현할 수도 있다) 의 인수분해를 표현할 수도 있다:

X = USV*

U 는 m-바이-m 실수 또는 복소수 단위 행렬을 표현할 수도 있으며, 여기서 U 의 m 열들은 보통 다중-채널 오디오 데이터의 왼쪽-특이 벡터들이라고 알려져 있다. S 는 대각선 상에 비-음수 실수들을 갖는 m-바이-n 직사각형 대각 행렬을 표현할 수도 있으며, 여기서 S 의 대각선 값들은 보통 다중-채널 오디오 데이터의 특이값들이라고 알려져 있다. V* (이는 V 의 켤레 전치를 표기할 수도 있다) 은 n-바이-n 실수 또는 복소수 단위 행렬을 표현할 수도 있으며, 여기서 V* 의 n 열들은 보통 다중-채널 오디오 데이터의 오른쪽-특이 벡터들이라고 알려져 있다.

구면 조화 계수들 계수들 (121') 을 포함하는 다중 채널 오디오 데이터에 적용되는 것으로서 본 개시물에서 설명되지만, 그 기술들은 임의의 형태의 다중 채널 오디오 데이터에 적용될 수도 있다. 이러한 방식으로, 오디오 인코딩 디바이스 (200) 는 음장의 적어도 일부분을 나타내는 다중 채널 오디오 데이터에 관하여 특이값 분해를 수행하여, 다중 채널 오디오 데이터의 좌-특이 벡터들을 나타내는 U 행렬, 다중 채널 오디오 데이터의 특이값들을 나타내는 S 행렬, 및 다중 채널 오디오 데이터의 우-특이 벡터들을 나타내는 V 행렬을 생성하고, U 행렬, S 행렬, 및 V 행렬 중 하나 이상의 적어도 일부분의 함수로서 다중 채널 오디오 데이터를 나타낼 수도 있다.

일반적으로, 위에서 참조된 SVD 수식에서 V* 행렬은 SVD 가 복소수들을 포함하는 행렬들에 적용될 수도 있다는 것을 반영하는 V 행렬의 켤레 전치로서 표기된다. 오직 실수들만을 포함하는 행렬들에 적용되는 경우, V 행렬의 켤레 복소 (또는 다시 말해, V* 행렬) 는 V 행렬과 동일한 것으로 고려될 수도 있다. 설명의 용이함을 위해, SHC (121') 는 V* 행렬 대신에 SVD 를 통해 V 행렬이 출력된다는 결과를 갖는 실수들을 포함하는 것으로 가정된다. V 행렬인 것으로 가정되긴 하나, 기법들은 복소 계수들을 갖는 SHC (121') 에 유사한 방식으로 적용될 수도 있으며, 여기서 SVD 의 출력은 V* 행렬이다. 이에 따라, 기법들은 V 행렬을 생성하기 위해 SVD 의 적용을 제공하는 측면으로만 제한되어서는 안되고, V* 행렬을 생성하기 위해 복소 성분들을 갖는 SHC (11A) 에 SVD 의 적용을 포함할 수도 있다.

임의의 경우에, 분해 유닛 (218) 은 고차 앰비소닉스 (HOA) 오디오 데이터 (여기서 이러한 앰비소닉스 오디오 데이터는 SHC (121') 의 블록들 또는 샘플들 또는 임의의 형태의 다중-채널 오디오 데이터를 포함한다) 의 각각의 블록 (이는 프레임을 지칭할 수도 있다) 에 대해 블록-단위 형태의 SVD 를 수행할 수도 있다. 변수 M 은 샘플들에서의 오디오 프레임의 길이를 표기하는데 이용될 수도 있다. 예를 들어, 오디오 프레임이 1024 개의 오디오 샘플들을 포함하는 경우, M 은 1024 와 같다. 분해 유닛 (218) 은 따라서 블록에 대해 블록-단위 SVD 를 수행할 수도 있으며, SHC (11A) 는 M-바이-(N+l)² SHC 를 가지며, 여기서 N 은, 다시, HOA 오디오 데이터의 오더를 표기한다. 분해 유닛 (218) 은, 이러한 SVD 를 수행하는 것을 통해, V 행렬, S 행렬 (19B), 및 U 행렬을 생성할 수도 있다. 분해 유닛 (218) 은 음장 성분 추출 유닛 (20) 으로 이러한 행렬들을 패스하거나 출력할 수도 있다. V 행렬 (19A) 는 사이즈가 (N+l)²-바이-(N+l)² 일 수도 있으며, S 행렬 (19B) 는 사이즈가 (N+l)²-바이-(N+l)² 일 수도 있고, U 행렬은 사이즈가 M-바이-(N+l)² 일 수도 있으며, 여기서 M 은 오디오 프레임에서 샘플들의 수를 지칭한다. M 에 대한 통상적인 값은 1024 이나, 본 개시물의 기법들은 이러한 통상적인 M 에 대한 값으로 제한되어서는 안된다.

음장 성분 추출 유닛 (220) 은 음장의 구별되는 성분들 및 음장의 배경 성분들을 결정하고 그 다음에 추출하여, 음장의 구별되는 성분들을 음장의 배경 성분들로부터 효과적으로 분리하도록 구성된 유닛을 표현할 수도 있다. 음장의 구별되는 속성들은 통상적으로 이러한 성분들의 구별되는 특성을 정확하게 표현하기 위해 (음장의 배경 성분들에 비해) 고차 기저 함수들 (그리고 따라서 보다 많은 SHC) 을 요구한다는 것을 고려하면, 배경 성분들로부터 구별되는 성분들을 분리하는 것은 보다 많은 비트들이 구별되는 성분들에 할당되고 (말하자면, 상대적으로) 보다 적은 비트들이 배경 성분들에 할당되는 것을 가능하게 할 수도 있다. 이에 따라, (PCA 를 포함하여, SVD 의 형태 또는 변환의 임의의 다른 형태로) 이러한 변환의 적용을 통해, 본 개시물에 설명된 기법들은 다양한 SHC 에 대한 비트들의 할당, 그리고 그렇게 함으로써 SHC (121') 의 압축을 가능하게 할 수도 있다.

나아가, 기법들은 또한, 이러한 성분들의 확산 또는 배경 특성을 고려하여, 음장의 이러한 배경 부분들을 표현하는데는 일반적으로 고차 기저 함수들이 요구되지 않는다는 것을 고려하면, 음장의 배경 성분들의 오더 감소를 가능하게 할 수도 있다. 기법들은 따라서 음장의 확산 또는 배경 측면들의 압축을 가능하게 할 수도 있는 한편 SHC (121') 에 대한 SVD 의 적용을 통해 음장의 두드러진 구별되는 성분들 또는 측면들을 보존할 수도 있다.

음장 성분 추출 유닛 (220) 은 S 행렬에 대하여 두드러진 특징 분석을 수행할 수도 있다. 음장 성분 추출 유닛 (220) 은 S 행렬의 대각선 값들은 분석하여, 가장 큰 값을 갖는 이러한 성분들의 변수 D 의 수를 선택할 수도 있다. 다시 말해, 음장 성분 추출 유닛 (220) 은 S 의 하강 대각선 값들에 의해 생성된 곡선의 기울기를 분석함으로써 2 개의 하위공간들과 분리되는 값 D 를 결정할 수도 있으며, 여기서 큰 특이값들은 전경 또는 구별되는 사운드를 표현하고, 낮은 특이값들은 음장의 배경 성분들을 표현한다. 일부 예들에서, 음장 성분 추출 유닛 (220) 은 특이값 곡선의 제 1 및 제 2 파생을 이용할 수도 있다. 음장 성분 추출 유닛 (220) 은 또한 수 D 가 1 과 5 사이이도록 제한할 수도 있다. 다른 예로서, 음장 성분 추출 유닛 (220) 은 수 D 가 1 과 (N+l)² 사이이도록 제한할 수도 있다. 대안으로, 음장 성분 추출 유닛 (220) 은, 값 4 와 같이, 수 D 를 미리 정의할 수도 있다. 임의의 경우에, 수 D 가 추정되면, 음장 성분 추출 유닛 (220) 은 행렬들 (U, V, 및 S) 로부터 전경 및 배경 하위공간을 추출한다.

일부 예들에서, 음장 성분 추출 유닛 (220) 은 매 M 샘플들마다 이러한 분석을 수행할 수도 있으며, M 샘플들은 프레임-바이-프레임 단위로 재표시될 수도 있다. 이런 면에서, D 는 프레임마다 달라질 수도 있다. 다른 예들에서, 음장 성분 추출 유닛 (220) 은 프레임 당 1 번을 초과하여 이러한 분석을 수행해, 프레임의 2 개 이상의 부분들을 분석할 수도 있다. 이에 따라, 기법들은 본 개시물에서 설명된 예들에 대한 이러한 면으로 제한되어서는 안된다.

사실, 음장 성분 추출 유닛 (220) 은 대각선 S 행렬의 특이값들을 분석하여, 대각선 S 행렬의 다른 값들보다 상대적으로 큰 값을 갖는 값들을 식별할 수도 있다. 음장 성분 추출 유닛 (220) 은 D 값들을 식별하여, 이러한 값들을 추출해, 구별되는 성분 또는 "전경" 행렬 및 확산 성분 또는 "배경" 행렬을 생성할 수도 있다. 전경 행렬은 원래의 S 행렬의 (N+1)² 를 갖는 D 열들을 포함하는 대각 행렬을 표현할 수도 있다. 일부 사례들에서, 배경 행렬은 (N+l)²-D 개의 열들을 갖는 행렬을 표현할 수도 있으며, 그 각각은 원래의 S 행렬의 (N+1)² 개의 변환된 구면 조화 계수들을 포함한다. 구별되는 행렬이 원래의 S 행렬의 (N+1)² 값들을 갖는 D 열들을 포함하는 행렬을 표현하는 것으로 설명되나, 음장 성분 추출 유닛 (220) 은, S 행렬이 대각 행렬이고 각각의 열에서 D 번째 값 이후의 D 열들의 (N+1)² 개의 값들이 종종 제로의 값이라는 것을 고려하여, 이러한 행렬을 절단하여 (truncate) 원래의 S 행렬의 D 값들을 갖는 D 열들을 갖는 전경 행렬을 생성할 수도 있다. 전체 전경 행렬 및 전체 배경 행렬에 대해 설명되긴 하나, 기법들은 구별되는 행렬의 절단된 버전들 및 배경 행렬의 절단된 버전에 대해 구현될 수도 있다. 이에 따라, 본 개시물의 기법들은 이런 면으로 제한되어서는 안된다.

다시 말해, 전경 행렬은 사이즈가 D-바이-(N+l)² 일 수도 있고, 한편 배경 행렬은 사이즈가 (N+l)²-D-바이-(N+l)² 일 수도 있다. 전경 행렬은 주요 성분들, 또는, 다시 말해, 음장의 구별되는 (DIST) 오디오 성분들의 면에서 두드러진다고 결정되는 특이값들을 포함할 수도 있으며, 한편 배경 행렬은 배경 (BG), 또는, 다시 말해, 음장의 주위, 확산, 또는 뚜렷하지 않은 오디오 성분들이라고 결정되는 특이값들을 포함할 수도 있다.

음장 성분 추출 유닛 (220) 은 또한 U 행렬을 분석하여 U 행렬에 대한 구별되는 행렬 및 배경 행렬을 생성할 수도 있다. 종종, 음장 성분 추출 유닛 (220) 은 S 행렬을 분석해 변수 D 를 식별하여, 변수 D 에 기초하여 U 행렬에 대한 구별되는 행렬 및 배경 행렬을 생성할 수도 있다.

음장 성분 추출 유닛 (220) 은 또한 V^T 행렬 (23) 을 분석하여 V^T 에 대한 구별되는 행렬 및 배경 행렬을 생성할 수도 있다. 종종, 음장 성분 추출 유닛 (220) 은 S 행렬을 분석해 변수 D 를 식별하여, 변수 D 에 기초하여 V^T 에 대한 구별되는 행렬 및 배경 행렬을 생성할 수도 있다.

벡터-기반 분해 유닛 (202) 은 구별되는 행렬과 전경 행렬의 행렬 곱셈들 (곱들) 로서 SHC (121') 들을 압축함으로써 획득된 다양한 행렬들을 결합하여 출력할 수도 있으며, 이는 SHC (202) 들을 포함하는 음장의 재구성된 부분을 생산할 수도 있다. 음장 성분 추출 유닛 (220) 은, 한편, V^T 의 구별되는 성분들을 포함할 수도 있는, 벡터-기반 분해의 방향성 성분들 (203) 을 출력할 수도 있다. 오디오 인코딩 유닛 (128) 은 SHC 들 (202) 내지 SHC 들 (204) 을 더 압축하기 위해 일 형태의 인코딩을 수행하는 유닛을 표현할 수도 있다. 일부 사례들에서, 오디오 인코딩 유닛 (128) 은 고급 오디오 코딩 (AAC) 인코딩 유닛 또는 통합 스피치 및 오디오 코딩 (unified speech and audio coding; USAC) 유닛의 하나 이상의 인스턴스들을 표현할 수도 있다. AAC 인코딩 유닛을 이용하여 구면 조화 계수들이 어떻게 인코딩될 수도 있는지에 대한 보다 많은 정보는 종래의 문헌 <Eric Hellerud 외, "Encoding Higher Order Ambisonics with AAC", 제 124 회 컨벤션에서 발표, 2008 년 5 월 17 일 - 20 일> 에서 찾을 수 있고, 이는 http://ro.uow.edu.au/cgi/viewcontent.cgi?article=8025&context=engpapers 에서 이용가능하다.

본원에 설명된 기법들에 따르면, 비트스트림 생성 유닛 (130) 은 음장을 조정하거나 변환시켜 음장을 기술하는 것에 관련된 정보를 제공하는 SHC 들 (204) 의 수를 감소시킬 수도 있다. 용어 "조정하는" 은 선형 가역 변환을 표현하는 임의의 행렬 또는 행렬들의 적용을 지칭할 수도 있다. 이러한 사례들에서, 비트스트림 생성 유닛 (130) 은 음장이 어떻게 조정되었는지를 기술하는 조정 정보 (이는 또한 "변환 정보" 라고 지칭될 수도 있다) 를 비트스트림에 명시할 수도 있다. 특히, 비트스트림 생성 유닛 (130) 은 방향성 성분들 (203) 을 포함하도록 비트스트림 (131') 을 생성할 수도 있다. 비트스트림 (131') 에 후속하여 명시되는 SHC 들 (204) 을 식별하는 정보에 더해 이러한 정보를 명시하는 것으로 설명되긴 했으나, 본 기법들의 이러한 양상은 비트스트림 (131') 에 포함된 SHC 들 (204) 을 식별하는 정보를 명시하는 것에 대한 대안으로 수행될 수도 있다. 기법들은 따라서 이러한 면으로 제한되어서는 안되고, 음장을 기술하는 복수의 계층적 엘리먼트들을 포함하는 비트스트림을 생성하는 방법을 제공할 수도 있으며, 여기서 방법은 음장을 기술하는 것에 관계된 정보를 제공하는 복수의 계층적 엘리먼트들의 수를 감소시키기 위해 음장을 조정하는 단계, 및 음장이 어떻게 조정되었는지를 기술하는 조정 정보를 비트스트림에 명시하는 단계를 포함한다.

일부 사례들에서, 비트스트림 생성 유닛 (130) 은 음장을 기술하는 것에 관계된 정보를 제공하는 SHC 들 (204) 의 수를 감소키도록 음장을 회전시킬 수도 있다. 이러한 사례들에서, 비트스트림 생성 유닛 (130) 은 우선 방향성 성분들 (203) 로부터 음장에 대한 회전 정보를 획득할 수도 있다. 회전 정보는 (360 도를 시그널링할 수 있는) 방위각 값 및 (180 도를 시그널링할 수 있는) 고도각 값을 포함할 수도 있다. 일부 예들에서, 비트스트림 생성 유닛 (130) 은 기준에 따라 방향성 성분들 (203) 에 표현된 복수의 방향성 성분들 (예를 들어, 구별되는 오디오 오브젝트들) 중 하나의 방향성 성분을 선택할 수도 있다. 기준은 가장 큰 사운드 진폭을 나타내는 가장 큰 벡터 크기일 수도 있으며; 비트스트림 생성 유닛 (130) 은, 일부 예들에서, U 행렬, S 행렬, 이들의 조합, 또는 이들의 구별되는 성분들로부터 기준을 획득할 수도 있다. 기준은 방향성 성분들의 조합 또는 평균일 수도 있다.

비트스트림 생성 유닛 (130) 은, 회전 정보를 이용하여, SHC 들 (204) 의 음장을 회전시켜 음장을 기술하는 것에 관계된 정보를 제공하는 SHC 들 (204) 의 수를 감소시킬 수도 있다. 비트스트림 생성 유닛 (130) 은 이러한 감소된 수의 SHC 들을 비트스트림 (131') 에 인코딩할 수도 있다.

비트스트림 생성 유닛 (130) 은 음장이 어떻게 회전되었는지를 기술하는 회전 정보를 비트스트림 (131') 에 명시할 수도 있다. 일부 사례들에서, 비트스트림 생성 유닛 (130) 은 방향성 성분들 (203) 을 인코딩함으로써 회전 정보를 명시하며, 방향성 성분들 (203) 로, 대응하는 렌더러는, 비트스트림 (131') 에 인코딩된 감소된 SCH 로 표현된, 음장에 대한 회전 정보를 획득하고 회전된 음장을 "역-회전시켜", 비트스트림 (131') 으로부터 음장을 SHC 들 (204) 로서 재구성할 수도 있다. 렌더러를 회전시키기 위해, 그리고 본 예에서 음장을 "역-회전" 시키기 위해 렌더러를 회전시키는 이러한 프로세스는 도 6a 및 도 6b 의 렌더러 회전 유닛 (150) 에 대해 하기에서 보다 상세히 설명되었다.

일부 사례들에서, 비트스트림 생성 유닛 (130) 은, 간접적으로 방향성 성분들 (203) 을 통해서 보다는, 직접적으로 회전 정보를 인코딩한다. 그러한 사례들에서, 방위각 값은 하나 이상의 비트들을 포함하고, 통상적으로 10 비트를 포함한다. 일부 사례들에서, 고도각 값은 하나 이상의 비트들을 포함하고, 통상적으로 적어도 9 비트를 포함한다. 이러한 비트들의 선택은, 가장 간단한 실시형태에서, (고도각 및 방위각 양자 모두에서) 180/512 도의 해상도를 허용한다.

일부 사례들에서, 조정은 회전을 포함할 수도 있고, 위에서 설명된 조정 정보는 회전 정보를 포함한다. 일부 사례들에서, 비트스트림 생성 유닛 (131') 은 음장을 기술하는 것에 관계된 정보를 제공하는 SHC 들 (204) 의 수를 감소키도록 음장을 변환할 수도 있다. 이러한 사례들에서, 비트스트림 생성 디바이스 (130) 는 음장이 어떻게 변환되었는지를 기술하는 변환 정보를 비트스트림 (131') 에 명시할 수도 있다. 일부 사례들에서, 조정은 변환을 포함할 수도 있고, 위에서 설명된 조정 정보는 변환 정보를 포함할 수도 있다.

도 6a 및 도 6b 는 각각 본 개시물에서 설명된 바이노럴 오디오 렌더링 기법들의 다양한 양상들을 수행할 수도 있는 오디오 재생 디바이스의 일 예를 도시하는 블록도이다. 단일 디바이스, 즉, 도 6a 의 예에서 오디오 재생 디바이스 (140A) 및 도 6b 의 예에서 오디오 재생 디바이스 (140B) 로 도시되나, 본 기법들은 하나 이상의 디바이스들에 의해 수행될 수도 있다. 이에 따라, 기법들은 이러한 면으로 제한되어서는 안된다.

도 6a 의 예에 도시된 바와 같이, 오디오 재생 디바이스 (140A) 는 추출 유닛 (142), 오디오 디코딩 유닛 (144), 및 바이노럴 렌더링 유닛 (146) 을 포함할 수도 있다. 추출 유닛 (142) 은, 비트스트림 (131) 으로부터, 인코딩된 오디오 데이터 (129) 및 변환 정보 (127) 를 추출하도록 구성된 유닛을 표현할 수도 있다. 추출 유닛 (142) 은 오디오 디코딩 유닛 (144) 에 추출된 인코딩된 오디오 데이터 (129) 를 포워딩할 수도 있으며, 한편 바이노럴 렌더링 유닛 (146) 에 변환 정보 (127) 를 패스할 수도 있다.

오디오 디코딩 유닛 (144) 은 SHC (125') 를 생성하기 위해 인코딩된 오디오 데이터 (129) 를 디코딩하도록 구성된 유닛을 표현할 수도 있다. 오디오 디코딩 유닛 (144) 은 SHC (125') 를 인코딩하는데 이용되는 오디오 인코딩 프로세스에 역인 오디오 디코딩 프로세스를 수행할 수도 있다. 도 6a 의 예에서 도시된 바와 같이, 오디오 디코딩 유닛 (144) 은 시간-주파수 분석 유닛 (148) 을 포함할 수도 있으며, 시간-주파수 분석 유닛 (148) 은 SHC (125) 를 시간 도메인에서 주파수 도메인으로 변환하며, 그렇게 함으로써 SHC (125') 를 생성하도록 구성된 유닛을 표현할 수도 있다. 즉, 인코딩된 오디오 데이터 (129) 가 시간 도메인으로부터 주파수 도메인으로 컨버팅되지 않은 압축된 형태의 SHC (125) 를 표현하는 경우, 오디오 디코딩 유닛 (144) 은 (주파수 도메인에 명시된) SHC (125') 를 생성하기 위해 시간-주파수 분석 유닛 (148) 을 불러와 SHC (125) 를 시간 도메인으로부터 주파수 도메인으로 컨버팅할 수도 있다. 일부 사례들에서, SHC (125) 는 주파수 도메인에서 이미 명시될 수도 있다. 이러한 사례들에서, 시간-주파수 분석 유닛 (148) 은 변환을 적용하지 않거나 그렇지 않으면 수신된 SHC (121) 를 변환하지 않으면서 바이노럴 렌더링 유닛 (146) 에 SHC (125') 를 패스할 수도 있다. 주파수 도메인에 명시된 SHC (125') 에 대해 설명되었으나, 본 기법들은 시간 도메인에 명시된 SHC (125) 에 대해 수행될 수도 있다.

바이노럴 렌더링 유닛 (146) 은 SHC (125') 를 바이노럴화하도록 구성된 유닛을 표현한다. 바이노럴 렌더링 유닛 (146) 은, 다시 말해, SHC (125') 가 레코딩된 방에서 왼쪽 및 오른쪽 채널이 청취자에 의해 어떻게 들릴 것인지를 모델링하기 위해 공간화하는 것을 특징으로 할 수도 있는, 왼쪽 및 오른쪽 채널에 대해 SHC (125') 를 렌더링하도록 구성된 유닛을 표현할 수도 있다. 바이노럴 렌더링 유닛 (146) 은 SHC (125') 를 렌더링하여 헤드폰들과 같은 헤드셋을 통해 재생하기에 적합한 왼쪽 채널 (163A) 및 오른쪽 채널 (163B) (이는 집합적으로 "채널들 (163)" 이라고 지칭될 수도 있다) 을 생성할 수도 있다. 도 6a 에 도시된 바와 같이, 바이노럴 렌더링 유닛 (146) 은 렌더러 회전 유닛 (150), 에너지 보존 유닛 (152), 복소 바이노럴 룸 임펄스 응답 (binaural room impulse response; BRIR) 유닛 (154), 시간 주파수 분석 유닛 (156), 복소 곱셈 유닛 (158), 합산 유닛 (160), 및 역 시간-주파수 분석 유닛 (162) 을 포함한다.

렌더러 회전 유닛 (150) 은 참조의 회전된 프레임을 갖는 렌더러 (151) 를 출력하도록 구성된 유닛을 표현할 수도 있다. 렌더러 회전 유닛 (150) 은 변환 정보 (127) 에 기초하여 참조의 표준 프레임 (보통, SHC (125') 로부터 22 개의 채널들을 렌더링하기 위해 명시된 참조의 프레임) 을 갖는 렌더러를 회전시키거나 그렇지 않으면 변환할 수도 있다. 다시 말해, 렌더러 회전 유닛 (150) 은 스피커들의 좌표 시스템들을 마이크로폰의 좌표 시스템과 정렬하기 위해 다시 SHC (125') 에 의해 표현된 음장을 회전시키는 스피커들을 효과적으로 재포지셔닝할 수도 있다. 렌더러 회전 유닛 (150) 은 사이즈 L 행들 x (N+l)²-U 열들의 행렬에 의해 정의될 수도 있는 회전된 렌더러 (151) 를 출력할 수도 있으며, 여기서 변수 L 은 (실제 또는 가상 중 어느 일방의) 라우드스피커들의 수를 표기하며, 변수 N 은 SHC (125') 중 하나의 SHC (125') 가 대응하는 기저 함수의 가장 높은 오더를 표기하고, 변수 U 는 인코딩 프로세스 중에 SHC (125') 를 생성하는 경우 제거된 SHC (121') 의 수를 표기한다. 종종, 수 U 는 위에서 설명된 SHC 존재 필드 (50) 로부터 도출되며, SHC 존재 필드는 또한 "비트 포함 맵" 이라고 이하에서 지칭될 수도 있다.

렌더러 회전 유닛 (150) 은 SHC (125') 를 렌더링하는 경우 계산 복잡도를 감소시키기 위해 렌더러를 회전시킬 수도 있다. 예시를 위해, 렌더러가 회전되지 않았다고 여기면, 바이노럴 렌더링 유닛 (146) 은 SHC (125') 를 회전시켜 SHC (125) 를 생성할 것이며, SHC (125) 는 SHC (125') 와 비교하여 보다 많은 SHC 를 포함할 수도 있다. SHC (125) 에 대하여 연산하는 경우 SHC 의 수를 증가시킴으로써, 바이노럴 렌더링 유닛 (146) 은 SHC 의 감소된 세트, 즉, 도 6b 의 예에서 SHC (125') 에 대해 연산하는 것과 비교하여 보다 많은 수학적 연산들을 수행할 수도 있다. 이에 따라, 참조의 프레임을 회전시키고 회전된 렌더러 (151) 를 출력함으로써, 렌더러 회전 유닛 (150) 은 (수학적으로) SHC (125') 를 바이노럴 렌더링하는 복잡도를 감소시킬 수도 있으며, 이는 (프로세싱 사이클들, 스토리지 소비 등의 면에서) 보다 효율적인 SHC (125') 의 렌더링을 가져올 수도 있다

렌더러 회전 유닛 (150) 은, 또한, 일부 사례들에서, 디스플레이를 통해 그래픽 사용자 인터페이스 (graphical user interface; GUI) 또는 다른 인터페이스를 제시하여, 사용자에게 렌더러가 어떻게 회전될지를 제어하는 방법을 제공할 수도 있다. 일부 사례들에서, 사용자는 이러한 GUI 또는 다른 인터페이스와 상호작용하여 세타 (theta) 제어를 명시함으로써 이러한 사용자 제어된 회전을 입력할 수도 있다. 렌더러 회전 유닛 (150) 은 그 다음에 사용자-특정 피드백에 대해 렌더링을 맞추기 위해 이러한 theta 제어에 의해 변환 정보를 조정할 수도 있다. 이러한 방식으로, 렌더러 회전 유닛 (150) 은 바이노럴화 프로세스의 사용자-특정 제어를 가능하게 하여 SHC (125') 의 바이노럴화를 증진하고/하거나 (주관적으로는) 향상시킬 수도 있다.

에너지 보존 유닛 (152) 은 얼마 간의 SHC 들이 임계 또는 다른 유사한 유형의 동작들의 적용으로 인해 손실되는 경우 가능하게는 일부 에너지 손실을 재도입하기 위해 에너지 보존 프로세스를 수행하도록 구성된 유닛을 표현한다. 에너지 보존에 관한 보다 많은 정보는 논문 <F. Zotter 외, "Energy-Preserving Ambisonic Decoding", ACTA ACUSTICA UNITED with ACUSTICA 에서 공개, Vol. 98, 2012, 페이지 37-47> 에서 확인할 수도 있다. 통상적으로, 에너지 보존 유닛 (152) 은 원래 레코딩된대로 오디오 데이터의 볼륨을 복구하거나 유지하기 위해 에너지를 증가시킨다. 에너지 보존 유닛 (152) 은 회전된 렌더러 (151) 의 행렬 계수들을 연산하여 에너지 보존된 회전된 렌더러를 생성할 수도 있으며, 에너지 보존된 회전된 렌더러는 렌더러 (151') 로 표기된다. 에너지 보존 유닛 (152) 은 사이즈 L 행들 x (N+l)²-U 열들의 행렬에 의해 정의될 수도 있는 렌더러 (151') 를 출력할 수도 있다.

복소 바이노럴 룸 임펄스 응답 (BRIR) 유닛 (154) 은 렌더러 (151') 및 하나 이상의 BRIR 행렬들에 대해 엘리먼트-바이-엘리먼트 복소 곱셈 및 합산을 수행하여 2 개의 BRIR 렌더링 벡터들 (155A 및 155B) 을 생성하도록 구성된 유닛을 표현한다. 수학적으로, 이는 다음의 등식들 (1)-(5) 에 따라 나타내어질 수 있다:

(1)

여기서 D' 는 x-축 및 y-축 (xy), x-축 및 z-축 (xz), 및/또는 y-축 및 z-축 (yz) 에 대해 명시된 각 중 하나의 각 또는 모든 각에 기초하여 회전 행렬 (R) 을 이용하는 렌더러 (D) 의 회전된 렌더러를 표기한다.

(2)

(3)

위의 식 (2) 및 식 (3) 에서, BRIR 및 D' 의 아랫첨자인 "spk" 는 BRIR 및 D' 양자 모두가 동일한 각 포지션을 갖는다는 것을 나타낸다. 다시 말해, BRIR 은 D 가 설계되는 가상 라우드스피커 레이아웃을 표현한다. BRIR' 및 D' 의 아래에 적힌 문자인 'H' 는 SH 엘리먼트 포지션들을 표현하고 SH 엘리먼트 포지션들을 고려한다. BRIR' 는 (구면 조화 역 (SH^-1) 유형의 표현으로서) 공간 도메인에서 HOA 도메인으로 변환된 형태의 BRIR 들을 표현한다. 위의 식 (2) 및 식 (3) 은 SH 차원들인 렌더링된 행렬 (D) 에서 모든 (N+1)² 개의 포지션들 (H) 에 대해 수행될 수도 있다. BRIR 은 시간 도메인 또는 주파수 도메인 중 어느 일방으로 나타내어질 수도 있으며, 여기서 곱셈은 유지한다. 아랫첨자 "왼쪽" 및 "오른쪽" 은 왼쪽 채널 또는 귀에 대한 BRIR/BRIR', 및 오른쪽 채널 또는 귀에 대한 BRIR/BRIR' 를 지칭한다.

위의 식 (4) 및 식 (5) 에서, BRIR" 는 주파수 도메인에서의 왼쪽/오른쪽 신호를 지칭한다. H 는, 다시, SH 계수들을 거치는 루프이며 (이는 또한 포지션들이라고 지칭될 수도 있다), 여기서 순차적 오더는 고차 앰비소닉스 (HOA) 및 BRIR' 에서와 동일하다. 통상적으로, 이러한 프로세스는 주파수 도메인에서 곱셈 또는 시간 도메인에서 콘볼루션 (convolution) 으로 수행된다. 이러한 방식으로, BRIR 행렬들은 왼쪽 채널 (163A) 을 바이노럴 렌더링하기 위한 왼쪽 BRIR 행렬 및 오른쪽 채널 (163B) 을 바이노럴 렌더링하기 위한 오른쪽 BRIR 행렬을 포함할 수도 있다. 복소 BRIR 유닛 (154) 은 시간 주파수 분석 유닛 (156) 에 벡터들 (155A 및 155B) ("벡터들 (155)") 을 출력한다.

시간 주파수 분석 유닛 (156) 은, 시간 주파수 분석 유닛 (156) 이 벡터들 (155) 을 연산하여 벡터들 (155) 을 시간 도메인으로부터 주파수 도메인으로 변환하고, 그렇게 함으로써 주파수 도메인에 명시된 2 개의 바이노럴 렌더링 행렬들 (157A 및 157B) ("바이노럴 렌더링 행렬들 (157)") 을 생성한다는 것을 제외하고, 위에서 설명된 시간 주파수 분석 유닛 (148) 과 유사할 수도 있다. 변환은 벡터들 (155) 의 각각에 대해 (N+1)²- U 개의 행 바이 1024 개 (또는 임의의 다른 개수의 지점) 를 효과적으로 생성하는 1024 개의 지점 변환을 포함할 수도 있다. 시간 주파수 분석 유닛 (156) 은 복소 곱셈 유닛 (158) 에 이러한 행렬들 (157) 을 출력할 수도 있다. 기법들이 시간 도메인에서 수행되는 사례들에서, 시간 주파수 분석 유닛 (156) 은 복소 곱셈 유닛 (158) 에 벡터들 (155) 을 패스할 수도 있다. 이전의 유닛들 (150, 152, 및 154) 이 주파수 도메인에서 연산하는 사례들에서, 시간 주파수 분석 유닛 (156) 은 복소 곱셈 유닛 (158) 에 행렬들 (157) (이는 이러한 사례들에서 복소 BRIR 유닛 (154) 에 의해 생성된다) 을 패스할 수도 있다.

복소 곱셈 유닛 (158) 은 행렬들 (157) 의 각각에 의해 SHC (125') 의 엘리먼트-바이-엘리먼트 곱셈을 수행하여 사이즈 (N+l)²- U 개 행들 바이 1024 개 (또는 임의의 다른 개수의 변환 지점들) 열들의 2 개의 행렬들 (159A 및 159B) ("행렬들 (159)") 을 생성하도록 구성된 유닛을 표현할 수도 있다. 복소 곱셈 유닛 (158) 은 합산 유닛 (160) 에 이러한 행렬들 (159) 을 출력할 수도 있다.

합산 유닛 (160) 은 행렬들 (159) 의 각각의 전체 (N+l)²- U 개의 행들을 합하도록 구성된 유닛을 표현할 수도 있다. 예시를 위해, 합산 유닛 (160) 은 행렬 (159A) 의 제 1 행에 따른 값들을 합하고, 그 다음에 제 2 행의 값들을 합하고, 제 3 행 등의 값들을 합하여, 단일 행 및 1024 개 (또는 다른 변환 지점 개수) 열들을 갖는 벡터 (161A) 를 생성한다. 마찬가지로, 합산 유닛 (160) 은 행렬 (159B) 의 행들의 각각에 따른 값들을 합하여 단일 행 및 1024 개 (또는 어떤 다른 변화 지점 개수) 열들을 갖는 벡터 (161B) 를 생성한다. 합산 유닛 (160) 은 역 시간-주파수 분석 유닛 (162) 에 이러한 벡터들 (161A 및 161B) ("벡터들 (161)") 을 출력한다.

역 시간-주파수 분석 유닛 (162) 은 역 변환을 수행하여 데이터를 주파수 도메인으로부터 시간 도메인으로 변환하도록 구성된 유닛을 표현한다. 역 시간-주파수 분석 유닛 (162) 은 벡터들 (161) 을 수신하고, 벡터들 (161) (또는 그것의 도출물) 을 시간 도메인으로부터 주파수 도메인으로 변환시키는데 이용된 변환에 대한 역인 변환의 적용을 통해 주파수 도메인으로부터 시간 도메인으로 벡터들 (161) 의 각각을 변환할 수도 있다. 역 시간-주파수 분석 유닛 (162) 은 벡터들 (161) 을 주파수 도메인으로부터 시간 도메인으로 변환시켜 바이노럴화된 왼쪽 및 오른쪽 채널들 (163) 을 생성할 수도 있다.

동작 시에, 바이노럴 렌더링 유닛 (146) 은 변환 정보를 결정할 수도 있다. 변환 정보는 음장을 기술하는 것에 관계된 정보를 제공하는 복수의 계층적 엘리먼트들 (즉, 도 6a 및 도 6b 의 예에서의 SHC (125')) 의 수를 감소시키기 위해 음장이 어떻게 변환되었는지를 기술할 수도 있다. 바이노럴 렌더링 유닛 (146) 은, 그 다음에, 위에서 설명된 바와 같이, 결정된 변환 정보 (127) 에 기초하여 감소된 복수의 계층적 엘리먼트들에 대해 바이노럴 오디오 렌더링을 수행할 수도 있다.

일부 사례들에서, 바이노럴 오디오 렌더링을 수행하는 경우, 바이노럴 렌더링 유닛 (146) 은 결정된 변환 정보 (127) 에 기초하여 복수의 채널들 (163) 에 대해 SHC (125') 를 렌더링하는 참조 프레임을 변환할 수도 있다.

일부 사례들에서, 변환 정보 (127) 는 적어도 음장이 회전된 고도각 및 방위각을 명시하는 회전 정보를 포함한다. 이러한 사례들에서, 바이노럴 렌더링 유닛 (146) 은, 바이노럴 오디오 렌더링을 수행하는 경우, 결정된 회전 정보에 기초하여 렌더링 함수가 SHC (125') 를 렌더링하는 참조의 프레임을 회전시킬 수도 있다.

일부 사례들에서, 바이노럴 렌더링 유닛 (146) 은, 바이노럴 오디오 렌더링을 수행하는 경우, 결정된 변환 정보 (127) 에 기초하여 렌더링 함수가 SHC (125') 를 렌더링하는 참조의 프레임을 변환하고, 변환된 렌더링 함수에 대해 에너지 보존 함수를 적용할 수도 있다.

일부 사례들에서, 바이노럴 렌더링 유닛 (146) 은, 바이노럴 오디오 렌더링을 수행하는 경우, 결정된 변환 정보 (127) 에 기초하여 렌더링 함수가 SHC (125') 를 렌더링하는 참조의 프레임을 변환하고, 곱셈 연산들을 이용하여 변환된 렌더링 함수를 복소 바이노럴 룸 임펄스 응답 함수와 결합할 수도 있다.

일부 사례들에서, 바이노럴 렌더링 유닛 (146) 은, 바이노럴 오디오 렌더링을 수행하는 경우, 결정된 변환 정보 (127) 에 기초하여 렌더링 함수가 SHC (125') 를 렌더링하는 참조의 프레임을 변환하고, 곱셈 연산들을 이용하여 그리고 콘볼루션 연산들을 요구하지 않으면서 변환된 렌더링 함수를 복소 바이노럴 룸 임펄스 응답 함수와 결합할 수도 있다.

일부 사례들에서, 바이노럴 렌더링 유닛 (146) 은, 바이노럴 오디오 렌더링을 수행하는 경우, 결정된 변환 정보 (127) 에 기초하여 렌더링 함수가 SHC (125') 를 렌더링하는 참조의 프레임을 변환하고, 회전된 바이노럴 오디오 렌더링 함수를 생성하기 위해 변환된 렌더링 함수를 복소 바이노럴 룸 임펄스 응답 함수와 결합하고, 왼쪽 및 오른쪽 채널들 (163) 을 생성하기 위해 회전된 바이노럴 오디오 렌더링 함수를 SHC (125') 에 적용할 수도 있다.

일부 사례들에서, 오디오 재생 디바이스 (140A) 는, 위에서 설명된 바이노럴화를 수행하기 위해 바이노럴 렌더링 유닛 (146) 을 불러오는 것에 더해, 인코딩된 오디오 데이터 (129) 및 변환 정보 (127) 를 포함하는 비트스트림 (131) 을 취출하고, 비트스트림 (131) 으로부터 인코딩된 오디오 데이터 (129) 를 파싱하고, 오디오 디코딩 유닛 (144) 을 불러와 파싱된 인코딩된 오디오 데이터 (129) 를 디코딩하여 SHC (125') 를 생성할 수도 있다. 이러한 사례들에서, 오디오 재생 디바이스 (140A) 는 비트스트림 (131) 으로부터 변환 정보 (127) 를 파싱하여 변환 정보 (127) 를 결정하기 위해 추출 유닛 (142) 을 불러올 수도 있다.

일부 사례들에서, 오디오 재생 디바이스 (140A) 는, 위에서 설명된 바이노럴화를 수행하기 위해 바이노럴 렌더링 유닛 (146) 을 불러오는 것에 더해, 인코딩된 오디오 데이터 (129) 및 변환 정보 (127) 를 포함하는 비트스트림 (131) 을 취출하고, 비트스트림 (131) 으로부터 인코딩된 오디오 데이터 (129) 를 파싱하고, 오디오 디코딩 유닛 (144) 을 불러와 고급 오디오 코딩 (AAC) 기법에 따라 파싱된 인코딩된 오디오 데이터 (129) 를 디코딩하여 SHC (125') 를 생성할 수도 있다. 이러한 사례들에서, 오디오 재생 디바이스 (140A) 는 비트스트림 (131) 으로부터 변환 정보 (127) 를 파싱하여 변환 정보 (127) 를 결정하기 위해 추출 유닛 (142) 을 불러올 수도 있다.

도 6b 는 본 개시물에 설명된 기법들의 다양한 양상들을 수행할 수도 있는 오디오 재생 디바이스 (140B) 의 다른 예를 도시하는 블록도이다. 오디오 재생 디바이스 (140) 는, 오디오 재생 디바이스 (140B) 가 오디오 재생 디바이스 (140A) 내에 포함된 것과 동일한 추출 유닛 (142) 및 오디오 디코딩 유닛 (144) 을 포함한다는 점에서 오디오 재생 디바이스 (140A) 와 실질적으로 유사할 수도 있다. 또한, 오디오 재생 디바이스 (140B) 는, 바이노럴 렌더링 유닛 (146') 이 바이노럴 렌더링 유닛 (146) 에 대해 위에서 상세히 설명된 헤드 추적 보상 유닛 (164) ("헤드 추적 보상 유닛 (164)"), 이에 더해 렌더링 회전 유닛 (150), 에너지 보존 유닛 (152), 복소 BRIR 유닛 (154), 시간 주파수 분석 유닛 (156), 복소 곱셈 유닛 (158), 합산 유닛 (160), 및 역 시간-주파수 분석 유닛 (162) 을 더 포함한다는 것을 제외하고, 오디오 재생 디바이스 (140A) 의 바이노럴 렌더링 유닛 (146) 과 실질적으로 유사할 수도 있다.

헤드 추적 보상 유닛 (164) 은 헤드 추적 정보 (165) 및 변환 정보 (127) 를 수신하고, 헤드 추적 정보 (165) 에 기초하여 변환 정보 (127) 를 프로세싱하고, 업데이트된 변환 정보 (127) 를 출력하도록 구성된 유닛을 표현할 수도 있다. 헤드 추적 정보 (165) 는 참조의 재생 프레임으로 지각되거나 구성된 것에 대한 방위각 및 고도각 (또는, 다시 말해, 하나 이상의 구면 좌표) 을 명시할 수도 있다.

즉, 사용자가 텔레비젼과 같은 디스플레이를 마주보고 앉아있게 될 수도 있으며, 헤드폰들은, 음향 위치확인 메커니즘들, 무선 삼각법 메커니즘들 등을 포함하여, 임의의 개수의 위치 식별 메커니즘들을 이용하여 위치를 확인할 수도 있다. 사용자의 헤드는 이러한 참조의 프레임에 대해 회전할 수도 있으며, 헤드폰들은 이를 헤드 추적 정보 (165) 로서 헤드 추적 보상 유닛 (164) 에 검출하여 제공할 수도 있다. 헤드 추적 보상 유닛 (164) 은 그 다음에 사용자 또는 청취자의 헤드의 움직임을 설명하기 위해 헤드 추적 정보 (165) 에 기초하여 변환 정보 (127) 를 조정함으로써, 업데이트된 변환 정보 (167) 를 생성할 수도 있다. 렌더러 회전 유닛 (150) 및 에너지 보존 유닛 (152) 양자 모두는 그 다음에 이러한 업데이트된 변환 정보 유닛의 정보 (167) 에 대해 동작할 수도 있다.

이러한 방식으로, 헤드 추적 보상 유닛 (164) 은, 예를 들어, 헤드 추적 정보 (165) 를 결정함으로써, SHC (125') 에 의해 표현되는 음장에 대한 청취자의 헤드의 포지션을 결정할 수도 있다. 헤드 추적 보상 유닛 (164) 은 결정된 변환 정보 (127) 및 청취자의 헤드의 결정된 포지션, 예를 들어, 헤드 추적 정보 (165) 에 기초하여 업데이트된 변환 정보 (167) 를 결정할 수도 있다. 바이노럴 렌더링 유닛 (146') 의 나머지 유닛들은, 바이노럴 오디오 렌더링을 수행하는 경우, 오디오 재생 디바이스 (140A) 에 대해 위에서 설명된 것과 유사한 방식으로 업데이트된 변환 정보 (167) 에 기초하여 SHC (125') 에 대해 바이노럴 오디오 렌더링을 수행할 수도 있다.

도 7 은 본 개시물에 설명된 기법들의 다양한 양상들에 따라 오디오 인코딩 디바이스에 의해 수행되는 동작의 일 예시적인 모드를 도시하는 플로차트이다. 통상적으로 L 라우드스피커들을 통해 재현되는 공간적 음장을 바이노럴 헤드폰 표현 (Lx2) 으로 컨버팅하기 위해, 오디오 프레임 단위당 콘볼루션이 요구될 수도 있다. 그 결과, 이러한 콘볼루션 바이노럴화 방법론은, 오디오의 프레임이 중단되지 않고 실시간으로 프로세싱되고 출력되어야 하는 스트리밍 시나리오에서 계산 비용이 비싼 것으로 여겨질 수도 있다. 이러한 콘볼루션 바이노럴화 프로세스에 이용되는 하드웨어에 따라 이용가능한 것보다 많은 계산상의 비용을 요구할 수도 있다. 이러한 콘볼루션 바이노럴화 프로세스는 시간-도메인 콘볼루션 대신에 주파수-도메인 곱셈을 수행함으로써, 또한 계산 복잡도를 감소시키기 위해 블록 단위 콘볼루션을 이용함으로써 향상될 수도 있다. 일반적으로 HOA 에 이러한 바이노럴화 모델을 적용하는 것은 잠재적으로 원하는 음장을 정확하게 재현하기 위해 HOA 계수들 (N+l)² 보다 많은 라우드스피커의 필요로 인해 복잡도를 더 증가시킬 수도 있다.

그에 반해서, 도 7 의 예에서, 오디오 인코딩 디바이스는 SHC 들의 수를 감소시키도록 음장을 회전시키는 동작 (300) 의 예시적인 모드를 적용할 수도 있다. 동작 (300) 의 모드는 도 5a 의 오디오 인코딩 디바이스 (120) 에 대해 설명된다. 오디오 인코딩 디바이스 (120) 는 구면 조화 계수들을 획득하고 (302), SHC 를 분석하여 SHC 에 대한 변환 정보를 획득한다 (304). 오디오 인코딩 디바이스 (120) 는 변환 정보에 따라 SHC 에 의해 표현되는 음장을 회전시킨다 (306). 오디오 인코딩 디바이스 (120) 는 회전된 음장을 표현한 감소된 구면 조화 계수들 ("감소된 SHC") 을 생성한다 (308). 오디오 인코딩 디바이스 (120) 는 또한 비트스트림에 감소된 SHC 뿐만 아니라 변환 정보를 인코딩하고 (310) 비트스트림을 출력하거나 저장한다 (312).

도 8 은 본 개시물에 설명된 기법들의 다양한 양상들에 따라 오디오 재생 디바이스 (또는 "오디오 디코딩 디바이스") 에 의해 수행되는 동작의 일 예시적인 모드를 도시하는 플로차트이다. 기법들은 임계치 아래인 SHC 의 개수를 증가시키도록 선택적으로 회전되고, 그렇게 함으로써 증가된 SHC 의 제거를 가져올 수도 있는 HOA 신호 모두에 대해 제공할 수도 있다. 제거되는 경우, 결과적인 SHC 는 (이러한 SHC 가 음장을 기술할 시에 두드러지지 않는다고 하면) SHC 의 제거가 인지될 수 없도록 재생될 수도 있다. 이러한 변환 정보 (세타 (theta) 및 파이 (phi), 또는 (θ, φ)) 는 디코딩 엔진 그리고 그 다음에 바이노럴 재현 방법론 (이는 위에서 보다 상세히 설명된다) 으로 송신된다. 본 개시물의 기법들은 우선 좌표 시스템들이 동일하게 회전되도록 인코딩 엔진의 공간 분석 블록으로부터 송신된 변환 (또는 이 사례에서는 회전) 정보로부터 원하는 HOA 렌더러를 회전시킬 수도 있다. 그 결과 폐기된 HOA 계수들이 또한 관련 행렬로부터 폐기된다. 선택적으로, 수정된 렌더러는 송신된 회전 좌표에서 사운드 소스를 이용하여 에너지 보존될 수 있다. 렌더링 행렬은 왼쪽 귀 및 오른쪽 귀에 대해 의도된 라우드스피커 포지션들의 BRIR 들과 곱해지고, 그 다음에 L 라우드스피커 차원에 걸쳐 합산될 수도 있다. 이 시점에, 신호가 주파수 도메인에 있지 않는 경우, 신호는 주파수 도메인으로 변환될 수도 있다. 그 후에, HOA 신호 계수들을 바이노럴화하기 위해 복소 곱셈이 수행될 수도 있다. 그 다음에, HOA 계수 차원에 걸쳐 합산함으로써, 렌더러가 신호에 적용될 수도 있고, 2 개의 채널 주파수-도메인 신호가 획득될 수도 있다. 신호는 최종적으로 신호를 오디션하기 위해 시간-도메인으로 변환될 수도 있다.

도 8 의 예에서, 오디오 재생 디바이스는 동작 (320) 의 예시적인 모드를 적용할 수도 있다. 동작 (320) 의 모드는 이후부터는 도 6a 의 오디오 재생 디바이스 (140A) 에 대해 설명된다. 오디오 재생 디바이스 (140A) 는 비트스트림을 획득하여 (322), 비트스트림으로부터 감소된 구면 조화 계수들 (SHC) 및 변환 정보를 추출한다 (324). 오디오 재생 디바이스 (140A) 는 변환 정보에 따라 렌더러를 더 회전시키고 (326), 감소된 SHC 에 회전된 렌더러를 적용하여 바이노럴 오디오 신호를 생성한다 (328). 오디오 재생 디바이스 (140A) 는 바이노럴 오디오 신호를 출력한다 (330).

본 개시물에서 설명된 기법들의 이점은 콘볼루션들 보다는 곱셈들을 수행함으로써 계산 비용이 절약된다는 것일 수도 있다. 보다 적은 수의 곱셈들이 필요할 수도 있는데, 첫째, HOA 의 총 수가 라우드스피커들의 수보다 적어야하기 때문이고, 둘째, 최적 회전을 통한 HOA 계수들의 감소 때문이다. 대부분의 오디오 코덱들이 주파수 도메인에 기초하고 있기 때문에, 시간-도메인 신호들보다는 주파수-도메인 신호들이 출력될 수 있다고 가정될 수도 있다. 또한, BRIR 들은 가능하게는 즉각적인 (on-the-fly) 푸리에 기반 변환들의 계산을 절약하여 시간-도메인보다는 주파수 도메인에서 절약될 수도 있다.

도 9 는 본 개시물에 설명된 기술들의 다양한 양상들을 수행할 수도 있는 오디오 인코딩 디바이스 (570) 의 다른 예를 예시하는 블록 도면이다. 도 9 의 예에서, 오더 감소 유닛은 음장 성분 추출 유닛 (520) 에 포함되는 것으로 가정되나 설명의 용이함을 위해 도시되지는 않는다). 그러나, 오디오 인코딩 디바이스 (570) 는 일부 예들에서 분해 유닛을 포함할 수도 있는 보다 일반적인 변환 유닛 (572) 을 포함할 수도 있다.

도 10 는, 더 상세하게, 도 9 의 예에 도시된 오디오 인코딩 디바이스 (570) 의 일 예시적인 구현을 예시하는 블록 도면이다. 도 10 의 예에 도시된 바와 같이, 오디오 인코딩 디바이스 (570) 의 변환 유닛 (572) 은 회전 유닛 (654) 을 포함한다. 오디오 인코딩 디바이스 (570) 의 음장 성분 추출 유닛 (520) 은 공간 분석 유닛 (650), 컨텐츠-특성들 분석 유닛 (652), 코히어런트 성분들 추출 유닛 (656), 및 확산 성분들 추출 유닛 (658) 을 포함한다. 오디오 인코딩 디바이스 (570) 의 오디오 인코딩 유닛 (514) 은 AAC 코딩 엔진 (660), 및 AAC 코딩 엔진 (162) 을 포함한다. 오디오 인코딩 디바이스 (570) 의 비트스트림 생성 유닛 (516) 은 멀티플렉서 (MUX) (164) 를 포함한다.

SHC 의 형태로 3D 오디오 데이터를 표현하기 위해 요구되는 - bits/second 의 면에서 - 대역폭은 소비자 이용의 면에서는 엄두도 못 낼 정도로 높은 비용이 들게 할 수도 있다. 예를 들어, 48 kHz 의 샘플링 레이트를 이용하고, 32 비트/동일한 해상도를 갖는 경우, 제 4 오더 SHC 표현은 36 Mbits/second (25x48000x32 bps) 의 대역폭을 표현한다. 통상적으로 약 100 kbits/second 인, 스테레오 신호들에 대한 최신 오디오 코딩과 비교하는 경우, 이는 큰 수치이다. 도 10 의 예에서 구현된 기술들은 3D 오디오 표현들의 대역폭을 감소시킬 수도 있다.

공간 분석 유닛 (650), 컨텐츠-특성들 분석 유닛 (652), 및 회전 유닛 (654) 은 SHC (511A) 를 수신할 수도 있다. 본 개시물의 다른 곳에서 설명된 바와 같이, SHC (511A) 는 음장을 표현할 수도 있다. SHC (511A) 는 SHC (27) 또는 HOA 계수들 (11) 의 예를 표현할 수도 있다. 도 10 의 예에서, 공간 분석 유닛 (650), 컨텐츠-특성들 분석 유닛 (652), 및 회전 유닛 (654) 은 음장의 4 차원 (n=4) 표현을 위해 25 개의 SHC 를 수신할 수도 있다.

공간 분석 유닛 (650) 은 음장의 구별되는 성분들은 식별하고 음장의 성분들을 확산시키기 위해 SHC (511A) 의 의해 표현되는 음장을 분석할 수도 있다. 음장의 구별되는 성분들은 식별가능한 방향으로부터 나오는 것으로 지각되거나 그렇지 않으면 배경으로부터 구별되거나 음장의 확산 성분들인 사운드들이다. 예를 들어, 개개의 음악 기기에 의해 생성된 사운드는 식별가능한 방향으로부터 나오는 것으로 지각될 수도 있다. 그에 반해서, 사운드의 확산 또는 배경 성분들은 식별가능한 방향으로부터 나오는 것으로 지각되지 않는다. 예를 들어, 숲을 통과하는 바람의 사운드는 음장의 확산 성분일 수도 있다.

공간 분석 유닛 (650) 은 (이러한 음장을 레코딩한 것으로 여겨지는 마이크로폰에 대해) 수직 및/또는 수평 축으로 가장 높은 에너지를 갖는 구별되는 성분들의 음장을 정렬하도록 음장을 회전시키는 최적의 각을 식별하기 위해 하나 이상의 구별되는 성분들을 식별할 수도 있다. 공간 분석 유닛 (650) 은 이러한 구별되는 성분들이 도 1 및 도 2 의 예들에서 도시된 근본적인 구면 기저 함수들과 보다 잘 맞춰지도록 음장이 회전될 수도 있도록 이러한 최적의 각을 식별할 수도 있다.

일부 예들에서, 공간 분석 유닛 (650) 은 확산 사운드들 (이는 낮은 레벨의 방향 또는 하위 오더의 SHC 를 갖는 사운드들을 지칭할 수도 있으며, 1 이하의 오더를 갖는 SHC (511A) 를 의미한다) 을 포함하는 SHC (511A) 에 의해 표현되는 음장의 비율을 식별하기 위해 일 형태의 확산 분석을 수행하도록 구성된 유닛을 표현할 수도 있다. 일 예로서, 공간 분석 유닛 (650) 은 2007 년 6 월에 J. Audio EnG. Soc, Vol. 55, No. 6 에서 공개된 "Spatial Sound Reproduction with Directional Audio Coding" 이라는 제목의 Ville Pulkki 의 논문에서 설명된 것과 유사한 방식으로 확산 분석을 수행할 수도 있다. 일부 경우들에서, 공간 분석 유닛 (650) 은, 확산 비율을 결정하기 위해 확산 분석을 수행하는 경우, 오직 HOA 계수들의 비-제로 서브세트, 예컨대 SHC (511A) 의 제로 및 제 1 차의 것들만을 분석할 수도 있다.

컨텐츠-특성들 분석 유닛 (652) 은 SHC (511A) 에 적어도 부분적으로 기초하여, SHC (511A) 가 음장의 자연적 레코딩에 의해 생성되었는지, 일 예로서, PCM 오브젝트와 같은 오디오 오브젝트로부터 인공적으로 (즉, 합성적으로) 생산되었는지 여부를 결정할 수도 있다. 또한, 컨텐츠-특성들 분석 유닛 (652) 은 그 다음에, SHC (511A) 가 음장의 실제 레코딩에 의해 생성되었는지 인공적 오디오 오브젝트로부터 생성되었는지 여부에 적어도 부분적으로 기초하여, 비트스트림 (517) 에 포함시킬 전체 채널들의 수를 결정할 수도 있다. 예를 들어, 컨텐츠-특성들 분석 유닛 (652) 은, SHC (511A) 가 실제 음장의 레코딩에 의해 생성되었는지 인공적 오디오 오브젝트로부터 생성되었는지 여부에 적어도 부분적으로 기초하여, 비트스트림 (517) 이 16 개의 채널들을 포함할지를 결정할 수도 있다. 채널들의 각각은 모노 채널일 수도 있다. 컨텐츠-특성들 분석 유닛 (652) 은 비트스트림 (517) 의 출력 비트레이트, 예를 들어, 1.2 Mbps 에 기초하여 비트스트림 (517) 에 포함시킬 전체 채널들의 수의 결정을 더 수행할 수도 있다.

또한, 컨텐츠-특성들 분석 유닛 (652) 은, SHC (511A) 가 실제 음장의 레코딩에 의해 생성되었는지 인공적 오디오 오브젝트로부터 생성되었는지 여부에 적어도 부분적으로 기초하여, 얼마나 많은 채널들을 음장의 코히어런트 또는 다시 말해 구별되는 성분들에 할당할지, 그리고 얼마나 많은 채널들을 음장의 확산 또는 다시 말해 배경 성분들에 할당할지를 결정할 수도 있다. 예를 들어, SHC (511A) 가 일 예로서 고유마이크를 이용하여 실제 음장의 레코딩으로부터 생성된 경우, 컨텐츠-특성들 분석 유닛 (652) 은 음장의 코히어런트 성분들에 채널들 중 3 개의 채널들을 할당할 수도 있고, 음장의 확산 성분들에 남은 채널들을 할당할 수도 있다. 이러한 예에서, SHC (511A) 가 인공적 오디오 오브젝트로부터 생성된 경우, 컨텐츠-특성들 분석 유닛 (652) 은 음장의 코히어런트 성분들에 채널들 중 5 개의 채널들을 할당할 수도 있고, 음장의 확산 성분들에 남은 채널들을 할당할 수도 있다. 이러한 방식으로, 컨텐츠 분석 블록 (즉, 컨텐츠-특성들 분석 유닛 (652)) 은 음장의 유형 (예를 들어, 확산/방향성 등) 을 결정하고, 차례로 추출할 코히어런트/확산 성분들의 수를 결정할 수도 있다.

타겟 비트 레이트는 개개의 AAC 코딩 엔진들 (예를 들어, AAC 코딩 엔진들 (660, 662)) 의 성분들의 수 및 비트레이트에 영향을 줄 수도 있다. 다시 말해, 컨텐츠-특성들 분석 유닛 (652) 은 비트스트림 (517) 의 출력 비트레이트, 예를 들어, 1.2 Mbps 에 기초하여, 얼마나 많은 채널들을 코히어런트 성분들에 할당할지 및 얼마나 많은 채널들을 확산 성분들에 할당할지의 결정을 더 수행할 수도 있다.

일부 예들에서, 음장의 코히어런트 성분들에 할당된 채널들은 음장의 확산 성분들에 할당된 채널들보다 큰 비트 레이트들을 가질 수도 있다. 예를 들어, 비트스트림 (517) 의 최대 비트레이트는 1.2 Mb/sec 일 수도 있다. 이러한 예에서, 코히어런트 성분들에 할당된 4 개의 채널들 및 확산 성분들에 할당된 16 개의 채널들이 있을 수도 있다. 또한, 이러한 예에서, 코히어런트 성분들에 할당된 채널들의 각각은 64 kb/sec 의 최대 비트레이트를 가질 수도 있다. 이러한 예에서, 확산 성분들에 할당된 채널들의 각각은 48 kb/sec 의 최대 비트레이트를 가질 수도 있다.

위에서 나타내어진 바와 같이, 컨텐츠-특성들 분석 유닛 (652) 은 SHC (511A) 가 실제 음장의 레코딩으로부터 생성되었는지 인공적 오디오 오브젝트로부터 생성되었는지 여부를 결정할 수도 있다. 컨텐츠-특성들 분석 유닛 (652) 은 다양한 방식들로 이러한 결정을 할 수도 있다. 예를 들어, 오디오 인코딩 디바이스 (570) 는 제 4 오더 SHC 를 이용할 수도 있다. 이러한 예에서, 컨텐츠-특성들 분석 유닛 (652) 은 24 개의 채널들을 코딩하고 25 번째 채널 (이는 벡터로 표현될 수도 있다) 을 예측할 수도 있다. 컨텐츠-특성들 분석 유닛 (652) 은 25 번째 벡터를 결정하기 위해 24 개의 채널들 중 적어도 일부의 채널들에 스칼라들을 적용하고 결과적인 값들을 가산할 수도 있다. 또한, 이러한 예에서, 컨텐츠-특성들 분석 유닛 (652) 은 예측된 25 번째 채널의 정확도를 결정할 수도 있다. 이러한 예에서, 예측된 25 번째 채널의 정확도가 상대적으로 높은 경우 (예를 들어, 정확도가 특정 임계치를 초과한다), SHC (511A) 는 합성 오디오 오브젝트로부터 생성될 가능성이 있다. 그에 반해서, 예측된 25 번째 채널들의 정확도가 상대적으로 낮은 경우 (예를 들어, 정확도가 특정 임계치 아래인 경우), SHC (511A) 는 레코딩된 음장을 표현할 가능성이 더 높다. 예를 들어, 이러한 예에서, 25 번째 채널의 신호-대-잡음 비 (SNR) 가 100 데시벨 (dbs) 을 넘는 경우, SHC (511A) 는 합성 오디오 오브젝트로부터 생성된 음장을 표현할 가능성이 더 높다. 그에 반해서, 고유 마이크로폰을 이용하여 레코딩된 음장의 SNR 은 5 dbs 내지 20 dbs 일 수도 있다. 따라서, 실제 직접적인 레코딩으로부터 생성된 SHC (511) 에 의해 표현된 음장과 합성 오디오 오브젝트로부터 생성된 SHC (511A) 에 의해 표현된 음장 사이에 구별되는 SNR 비율들에서의 구분이 있을 수도 있다.

또한, 컨텐츠-특성들 분석 유닛 (652) 은, SHC (511A) 가 실제 음장의 레코딩으로부터 생성되었는지 또는 인공적 오디오 오브젝트로부터 생성되었는지 여부에 적어도 부분적으로 기초하여, V 벡터를 양자화하기 위한 코드북들을 선택할 수도 있다. 다시 말해, 컨텐츠-특성들 분석 유닛 (652) 은, HOA 계수들에 의해 표현되는 음장이 레코딩되었는지 합성인지 여부에 따라, V 벡터를 양자화할 시에 이용하기 위해 상이한 코드북들을 선택할 수도 있다.

일부 예들에서, 컨텐츠-특성들 분석 유닛 (652) 은, 정기적으로, SHC (511A) 가 실제 음장의 레코딩으로부터 생성되었는지 또는 인공적 오디오 오브젝트로부터 생성되었는지 여부를 결정할 수도 있다. 일부 그러한 예들에서, 정기적 기준은 매 프레임일 수도 있다. 다른 예들에서, 컨텐츠-특성들 분석 유닛 (652) 은 이러한 결정을 한번만 수행할 수도 있다. 또한, 컨텐츠-특성들 분석 유닛 (652) 은, 정기적으로, 전체 채널들의 수 및 코히어런트 성분 채널들과 확산 성분 채널들의 할당을 결정할 수도 있다. 일부 그러한 예들에서, 정기적 기준은 매 프레임일 수도 있다. 다른 예들에서, 컨텐츠-특성들 분석 유닛 (652) 은 이러한 결정을 한번만 수행할 수도 있다. 일부 예들에서, 컨텐츠-특성들 분석 유닛 (652) 은, 정기적으로, V 벡터를 양자화할 시에 이용하기 위한 코드북들을 선택할 수도 있다. 일부 그러한 예들에서, 정기적인 기준은 매 프레임일 수도 있다. 다른 예들에서, 컨텐츠-특성들 분석 유닛 (652) 은 이러한 결정을 한번만 수행할 수도 있다.

회전 유닛 (654) 은 HOA 계수들의 회전 동작을 수행할 수도 있다. (예를 들어, 도 11A 및 도 11B 에 대하여) 본 개시물의 다른 곳에서 논의된 바와 같이, 회전 동작을 수행하는 것은 SHC (511A) 를 나타내는데 요구되는 비트들의 수를 감소시킬 수도 있다. 일부 예들에서, 회전 유닛 (652) 에 의해 수행되는 회전 분석은 특이값 분해 ("SVD") 분석의 일 예이다. 주요 성분 분석 ("PCA"), 독립적인 성분 분석 ("ICA"), 및 카루넨-루베 변환 ("KLT") 이 적용가능할 수도 있는 관련된 기술들이다.

도 10 의 예에서, 추출 코히어런트 성분들 유닛 (656) 은 회전 유닛 (654) 으로부터 회전된 SHC (511A) 를 수신한다. 또한, 추출 코히어런트 성분들 유닛 (656) 은, 회전된 SHC (511A) 로부터, 음장의 코히어런트 성분들과 연관된 SHC (511A) 를 추출한다.

또한, 추출 코히어런트 성분들 유닛 (656) 은 하나 이상의 코히어런트 성분 채널들을 생성한다. 코히어런트 성분 채널들의 각각은 음장의 코히어런트 계수들과 연관된 회전된 SHC (511A) 의 상이한 서브세트를 포함할 수도 있다. 도 10 의 예에서, 추출 코히어런트 성분들 유닛 (656) 은 1 개에서 16 개의 코히어런트 성분 채널들을 생성할 수도 있다. 추출 코히어런트 성분들 유닛 (656) 에 의해 생성된 코히어런트 성분 채널들의 개수는 컨텐츠-특성들 분석 유닛 (652) 에 의해 음장의 코히어런트 성분들에 대해 할당된 채널들의 개수에 의해 결정될 수도 있다. 추출 코히어런트 성분들 유닛 (656) 에 의해 생성된 코히어런트 성분 채널들의 비트레이트들은 컨텐츠-특성들 분석 유닛 (652) 에 의해 결정될 수도 있다.

유사하게, 도 10 의 예에서, 추출 확산 성분들 유닛 (658) 은 회전 유닛 (654) 으로부터 회전된 SHC (511A) 를 수신한다. 또한, 추출 확산 성분들 유닛 (658) 은, 회전된 SHC (511A) 로부터, 음장의 확산 성분들과 연관된 회전된 SHC (511A) 를 추출한다.

또한, 추출 확산 성분들 유닛 (658) 은 하나 이상의 확산 성분 채널들을 생성한다. 확산 성분 채널들의 각각은 음장의 확산 계수들과 연관된 회전된 SHC (511A) 의 상이한 서브세트를 포함할 수도 있다. 도 10 의 예에서, 추출 확산 성분들 유닛 (658) 은 1 개에서 9 개의 확산 성분 채널들을 생성할 수도 있다. 추출 확산 성분들 유닛 (658) 에 의해 생성된 확산 성분 채널들의 개수는 컨텐츠-특성들 분석 유닛 (652) 에 의해 음장의 확산 성분들에 대해 할당된 채널들의 개수에 의해 결정될 수도 있다. 추출 확산 성분들 유닛 (658) 에 의해 생성된 확산 성분 채널들의 비트레이트들은 컨텐츠-특성들 분석 유닛 (652) 에 의해 결정될 수도 있다.

도 10 의 예에서, AAC 코딩 유닛 (660) 은 추출 코히어런트 성분들 유닛 (656) 에 의해 생성된 코히어런트 성분 채널들을 인코딩하기 위해 AAC 코덱을 이용할 수도 있다. 유사하게, AAC 코딩 유닛 (662) 은 추출 확산 성분들 유닛 (658) 에 의해 생성된 확산 성분 채널들을 인코딩하기 위해 AAC 코덱을 이용할 수도 있다. 멀티플렉서 (664) ("MUX 664") 는 인코딩된 코히어런트 성분 채널들 및 인코딩된 확산 성분 채널들을, 사이드 데이터 (예를 들어, 공간 분석 유닛 (650) 에 의해 결정된 최적 각) 와 함께 멀티플렉싱하여, 비트스트림 (517) 을 생성할 수도 있다.

이러한 방식으로, 기술들은 오디오 인코딩 디바이스 (570) 가 음장을 나타내는 구면 조화 계수들이 합성 오디오 오브젝트로부터 생성되는지 여부를 결정하는 것을 가능하게 할 수도 있다.

일부 예들에서, 오디오 인코딩 디바이스 (570) 는, 구면 조화 계수들이 합성 오디오 오브젝트로부터 생성되는지 여부에 기초하여, 음장의 구별되는 성분들을 나타내는 구면 조화 계수들의 서브세트를 결정할 수도 있다. 이러한 예들 및 다른 예들에서, 오디오 인코딩 디바이스 (570) 는 구면 조화 계수들의 서브세트를 포함하도록 비트스트림을 생성할 수도 있다. 오디오 인코딩 디바이스 (570) 는, 일부 경우들에서, 구면 조화 계수들의 서브세트를 오디오 인코딩하고, 구면 조화 계수들의 오디오 인코딩된 서브세트를 포함하도록 비트스트림을 생성할 수도 있다.

일부 예들에서, 오디오 인코딩 디바이스 (570) 는, 구면 조화 계수들이 합성 오디오 오브젝트로부터 생성되는지 여부에 기초하여, 음장의 배경 성분들을 나타내는 구면 조화 계수들의 서브세트를 결정할 수도 있다. 이러한 예들 및 다른 예들에서, 오디오 인코딩 디바이스 (570) 는 구면 조화 계수들의 서브세트를 포함하도록 비트스트림을 생성할 수도 있다. 이러한 예들 및 다른 예들에서, 오디오 인코딩 디바이스 (570) 는 구면 조화 계수들의 서브세트를 오디오 인코딩하고, 구면 조화 계수들의 오디오 인코딩된 서브세트를 포함하도록 비트스트림을 생성할 수도 있다.

일부 예들에서, 오디오 인코딩 디바이스 (570) 는 구면 조화 계수들에 의해 표현되는 음장을 회전시킬 각을 식별하기 위해 구면 조화 계수들에 대해 공간 분석을 수행하고, 회전된 구면 조화 계수들을 생성하기 위해 식별된 각으로 음장을 회전시키는 회전 동작을 수행할 수도 있다.

일부 예들에서, 오디오 인코딩 디바이스 (570) 는, 구면 조화 계수들이 합성 오디오 오브젝트로부터 생성되었는지 여부에 기초하여, 음장의 구별되는 성분들을 나타내는 구면 조화 계수들의 제 1 서브세트를 결정하고, 구면 조화 계수들이 합성 오디오 오브젝트로부터 생성되는지 여부에 기초하여, 음장의 배경 성분들을 나타내는 구면 조화 계수들의 제 2 서브세트를 결정할 수도 있다. 이러한 예들 및 다른 예들에서, 오디오 인코딩 디바이스 (570) 는 구면 조화 계수들의 제 2 서브세트를 오디오 인코딩하는데 이용된 것보다 높은 타겟 비트레이트를 갖는 구면 조화 계수들의 제 1 서브세트를 오디오 인코딩할 수도 있다.

도 11a 및 도 11b 는 음장 (640) 을 회전시키기 위해 본 개시물에 설명된 기술들의 다양한 양상들을 수행하는 일 예를 예시하는 도면들이다. 도 11a 는 본 개시물에 설명된 기술들의 다양한 양상들에 따라 회전하기 전의 음장 (640) 을 예시하는 도면이다. 도 11a 의 예에서, 음장 (640) 은 위치 (642A 및 642B) 로 표기되는, 높은 압력의 2 개의 위치들을 포함한다. 이러한 위치 (642A 및 642B) ("위치들 (642)") 는 비-제로 슬로프 (이는 수평 라인들인 제로의 슬로프를 갖는 것과는 다른, 수평이 아닌 라인을 지칭하는 방식이다) 를 갖는 라인 (644) 을 따라 있다. 위치들 (642) 이 x 및 y 좌표들과 함께 z 좌표를 갖는다고 하면, 이러한 음장 (640) 을 정확하게 표현하기 위해 더 높은 차원의 구면 기저 함수들이 요구될 수도 있다 (이러한 더 높은 차원의 구면 기저 함수들이 음장의 상부 및 하부 또는 비-수평 부분들을 기술하기 때문이다). SHC 들 (511A) 에 대해 직접적으로 음장 (640) 을 감소시키기 보다는, 오디오 인코딩 디바이스 (570) 는 위치들 (642) 을 연결하는 라인 (644) 이 수평일 때까지 음장 (640) 을 회전시킬 수도 있다.

도 11b 는 위치들 (642) 을 연결하는 라인 (644) 이 수평일 때까지 회전된 후의 음장 (640) 을 예시하는 도면이다. 이러한 방식으로 음장 (640) 을 회전시킨 결과, 회전된 음장 (640) 이 z 좌표들을 갖는 압력 (또는 에너지) 의 임의의 위치들을 더 이상 갖지 않는다는 것을 고려하여 SHC (511A) 중 상위 오더의 SHC 가 제로들로 명시되도록 SHC (511A) 가 도출될 수도 있다. 이러한 방식으로, 오디오 인코딩 디바이스 (570) 는 비-제로 값들을 갖는 SHC (511A) 의 개수를 감소시키도록 음장 (640) 을 회전시키거나, 변환시키거나, 좀더 일반적으로 조정할 수도 있다. 본 기술들의 다양한 다른 양상들과 연계하여, 오디오 인코딩 디바이스 (570) 는, 그러면, SHC (511A) 중 이러한 상위 오더 SHC 들이 제로 값들을 갖는다는 것을 식별하는 32-비트 부호 수를 시그널링하기 보다는, SHC (511A) 중 이러한 상위 오더 SHC 들이 시그널링되지 않다는 것을 비트스트림 (517) 의 필드로 시그널링할 수도 있다. 오디오 인코딩 디바이스 (570) 는 또한, 종종 전술된 방식으로 방위각 및 높이를 표현함으로써, 음장 (640) 이 어떻게 회전되는지를 나타내는 회전 정보를 비트스트림 (517) 에 명시할 수도 있다. 오디오 인코딩 디바이스와 같은 추출 디바이스가, 그 다음에, SHC (511A) 에 기초하여 음장 (640) 을 재현하는 경우, SHC (511A) 중 시그널링되지 않은 SHC 가 제로 값을 갖는다고 암시하고, 음장 (640) 이 도 11a 의 예에서 도시된 음장 (640) 을 닮도록 음장 (640) 을 회전시키는 회전을 수행할 수도 있다. 이러한 방식으로, 오디오 인코딩 디바이스 (570) 는 본 개시물에 설명된 기술들에 따라 비트스트림 (517) 에 명시될 요구되는 SHC (511A) 의 개수를 감소시킬 수도 있다.

음장의 최적의 회전을 결정하기 위해 '공간 압축' 알고리즘이 이용될 수도 있다. 일 실시형태에서, 오디오 인코딩 디바이스 (570) 는 가능한 모든 방위각 및 높이의 조합들 (즉, 위의 예에서 1024x512 조합들) 을 통해 반복하는 알고리즘을 수행하여, 각각의 조합에 대한 음장을 회전시키고 임계 값보다 더 높은 SHC (511A) 의 수를 산출할 수도 있다. 임계 값보다 위의 최소 개의 SHC (511A) 를 생성하는 방위각/높이 후보 조합은 "최적 회전" 으로 지칭될 수도 있는 것으로 고려될 수도 있다. 이러한 회전된 형태에서, 음장은 음장을 표현하기 위해 최소 개수의 SHC (511A) 를 요구할 수도 있고 그러면 컴팩트화된 (compacted) 것으로 여겨질 수도 있다. 일부 경우들에서, 조정은 이러한 최적 회전을 포함할 수도 있고, 전술된 조정 정보는 (방위각 및 고도각들의 면에서) ("최적 회전" 이라고 칭해질 수도 있는) 이러한 회전 정보를 포함할 수도 있다.

일부 경우들에서, 오직 방위각 및 고도각만을 명시하는 대신에, 오디오 인코딩 디바이스 (570) 는 일 예로서 오일러 (Euler) 각들의 형태로 추가적인 각들을 명시할 수도 있다. 오일러 각들은 z-축, 이전 x-축, 및 이전 z-축에 대한 회전의 각을 명시한다. 방위각 및 고도각의 조합들에 대해 본 개시물에서 설명되었으나, 본 개시물의 기술들은 오직 방위각 및 고도각만을 명시하는 것으로 제한되어서는 안되고, 위에서 언급된 3 개의 오일러 각들을 포함하여 임의의 개수의 각들을 명시하는 것을 포함할 수도 있다. 이러한 면에서, 오디오 인코딩 디바이스 (570) 는 음장을 기술할 시에 관련있는 정보를 제공하고 비트스트림에 회전 정보로서 오일러 각들을 명시하는 복수의 계층적 엘리먼트들의 개수를 감소시키도록 음장을 회전시킬 수도 있다. 오일러 각들은, 위에서 언급된 바와 같이, 음장이 어떻게 회전되었는지를 기술할 수도 있다. 오일러 각들을 이용하는 경우, 비트스트림 추출 디바이스는, 오일러 각들을 포함하는 회전 정보를 결정하기 위해 비트스트림을 파싱할 수도 있고, 음장을 기술하는 것에 관련있는 정보를 제공하는 복수의 계층적 엘리먼트들의 기초하여 음장을 재현하는 경우, 오일러 각들에 기초하여 음장을 회전시킬 수도 있다.

또한, 일부 경우들에서, 비트스트림 (517) 에 이러한 각들을 명시적으로 명시하기 보다는, 오디오 인코딩 디바이스 (570) 는 회전을 명시하는 각들의 미리-정의된 조합들과 연관된 ("회전 인덱스" 라고 지칭될 수도 있는) 인덱스를 명시할 수도 있다. 다시 말해, 회전 정보는, 일부 경우들에서, 회전 인덱스를 포함할 수도 있다. 이러한 경우들에서, 회전 인덱스의 주어진 값, 예컨대 제로의 값은 회전이 수행되지 않았음을 나타낼 수도 있다. 이러한 회전 인덱스는 회전 테이블과 관련하여 이용될 수 있다. 즉, 오디오 인코딩 디바이스 (570) 는 방위각과 고도각의 조합들의 각각에 대한 엔트리를 포함하는 회전 테이블을 포함할 수도 있다.

대안으로, 회전 테이블은 방위각과 고도각의 각각의 조합을 나타내는 각각의 행렬 변환들에 대한 엔트리를 포함할 수도 있다. 즉, 오디오 인코딩 디바이스 (570) 는 방위각 및 고도각의 조합들의 각각에 의해 음장을 회전시키기 위한 각각의 행렬 변환에 대한 엔트리를 갖는 회전 테이블을 저장할 수도 있다. 통상적으로, 오디오 인코딩 디바이스 (570) 는, 다음의 등식에 따라, 회전이 수행되는 경우, SHC (511A) 를 수신하고 SHC (511A') 를 도출한다:

위의 등식에서, SHC (511A') 는 참조의 제 2 프레임 (EncMat ₂) 의 면에서 음장을 인코딩하기 위한 인코딩 행렬, 참조의 제 2 프레임 (InvMat ₁ ) 의 면에서 SHC (511A) 를 다시 음장으로 되돌리기 위한 역 행렬, 및 SHC (511A) 의 함수로 계산된다. EncMat ₂ 은 사이즈가 25x32 인 반면, InvMat ₂ 은 사이즈가 32x25 이다. SHC (511A') 및 SHC (511A) 양자 모두는 사이즈가 25 인데, 여기서 SHC (511A') 는 핵심적인 오디오 정보를 명시하지 않는 것들의 제거로 인해 더 감소될 수도 있다. EncMat ₂ 는 각각의 방위각 및 고도각 조합에 대해 달라지는데 반해, InvMat ₁ 는 각각의 방위각 및 고도각에 대해 고정적으로 있을 수도 있다. 회전 테이블은 각각의 상이한 EncMat ₂ 를 InvMat ₁ 에 곱한 결과를 저장하는 엔트리를 포함할 수도 있다.

도 12 는 참조의 제 1 프레임에 따라 캡쳐된 일 예시적인 음장을 예시하는 도면으로, 참조의 제 1 프레임은 참조의 제 2 프레임의 면에서 음장을 표현하기 위해 본 개시물에 설명된 기술들에 따라 회전된다. 도 12 의 예에서, 고유 마이크로폰 (646) 을 둘러싸는 음장은 참조의 제 1 프레임을 가정하여 캡쳐되며, 참조의 제 1 프레임은 도 12 의 예에서, X₁, Y₁, 및 Z₁ 축들에 의해 표기된다. SHC (511A) 는 이러한 참조의 제 1 프레임의 면에서 음장을 기술한다. InvMat ₁ 는 SHC (511A) 를 다시 음장으로 변환시켜, 도 12 의 예에서 X₂, Y₂, 및 Z₂ 축들에 의해 표기되는 참조의 제 2 프레임에 대해 음장이 회전되는 것을 가능하게 한다. 전술된 EncMat ₂ 는 음장을 회전시켜 참조의 제 2 프레임의 면에서 이러한 회전된 음장을 기술하는 SHC (511A') 를 생성할 수도 있다.

임의의 경우에, 위의 등식은 다음과 같이 도출될 수도 있다. 전면이 x-축의 방향인 것으로 여겨지도록, 음장이 소정의 좌표 시스템으로 레코딩된다고 하면, 고유 마이크로폰 (또는 다른 마이크로폰 구성들) 의 32 개의 마이크로폰 포지션들은 이러한 참조 좌표 시스템으로부터 정의된다. 음장의 회전은 그러면 이러한 참조 프레임의 회전으로 여겨질 수도 있다. 가정된 참조 프레임에 있어서, SHC (511A) 는 다음과 같이 계산될 수도 있다:

위의 등식에서,

은 i 번째 마이크로폰 (여기서, i 는 이 예에서 1-32 이다) 의 포지션 (PoS _i ) 에서의 구면 기저 함수들을 표현한다. mic _i 벡터는 시간 (t) 동안에 i 번째 마이크로폰에 대한 마이크로폰 신호를 표기한다. 포지션들 (PoS _i ) 은 참조의 제 1 프레임 (즉, 이 예에서 회전 이전의 참조의 프레임) 에서의 마이크로폰의 포지션을 지칭한다.

위의 등식은 다르게는 위에서

으로 표기된 수학식들의 면에서 표현될 수도 있다.

음장을 회전시키기 위해 (또는 참조의 제 2 프레임에서), 포지션 (Pos _i ) 은 참조의 제 2 프레임에서 계산될 것이다. 원래의 마이크로폰 신호들이 존재하는 한, 음장은 임의대로 회전될 수도 있다. 그러나, 원래의 마이크로폰 신호들 (mic _i (t)) 은 종종 이용가능하지 않다. 문제는, 그러면, 어떻게 SHC (511A) 로부터 마이크로폰 신호들 (mic _i (t)) 을 취출하는가일 수도 있다. (32 개의 마이크로폰 고유 마이크로폰에서와 같이) T-설계가 이용되는 경우, 이러한 문제에 대한 해법은 다음의 등식을 해결함으로써 달성될 수도 있다:

이러한 InvMat ₁ 는 참조의 제 1 프레임에 대해 명시된 바와 같은 마이크로폰들의 포지션에 따라 계산된 구면 조화 기저 함수들을 명시할 수도 있다. 이러한 등식은 또한, 위에서 언급된 바와 같이,

으로 표현될 수도 있다.

위의 등식에 따라 마이크로폰 신호들 (mic _i (t)) 이 취출되면, 음장을 기술하는 마이크로폰 신호들 (mic _i (t)) 은 참조의 제 2 프레임에 대응하는 SHC (511A') 를 계산하도록 회전되어, 다음의 등식을 초래할 수도 있다:

EncMat ₂ 는 회전된 위치 (Pos _i ') 로부터의 구면 조화 기저 함수들을 명시한다. 이러한 방식으로, EncMat ₂ 는 방위각과 고도각의 조합을 효과적으로 명시할 수도 있다. 따라서, 회전 테이블이 방위각과 고도각의 각각의 조합에 대한

의 결과를 저장하는 경우, 회전 테이블은 방위각과 고도각의 각각의 조합을 효과적으로 명시한다. 위의 등식은 또한:

과 같이 표현될 수도 있으며, 여기서

은

으로 표현되는 제 1 방위각 및 고도각과 상이한 제 2 방위각 및 제 2 고도각을 표현한다.

은 참조의 제 1 프레임에 대응하며, 한편

는 참조의 제 2 프레임에 대응한다. InvMat ₁ 는 따라서

에 대응할 수도 있으며, 한편 EncMat ₂ 는

에 대응할 수도 있다.

위의 것은 (n 차의 구면 베셀 함수를 지칭하는)

함수 에 의해 주파수 도메인에서 SHC (511A) 의 도출을 표기하는 다양한 등식들로 위에서 표현되는, 필터링 동작을 고려하지 않은 보다 간소화된 버전의 계산을 표현할 수도 있다. 시간 도메인에서, 이러한

함수는 특정 오더 n 에 특정한 필터링 동작들을 표현한다. 필터링으로, 회전은 오더마다 수행될 수도 있다. 예시를 위해, 다음의 등식들을 고려한다:

이러한 등식들로부터, 오더들에 대한 회전된 SHC (511A') 가 별도로 행해지는데, b_n(t) 가 각각의 오더에 대해 상이하기 때문이다. 그 결과, 위의 등식은 회전된 SHC (511A') 의 제 1 오더를 계산하기 위해 다음과 같이 변경될 수도 있다:

SHC (511A) 중 3 개의 1 차 SHC (511A) 가 있다고 하면, SHC (511A' 및 511A) 벡터들의 각각은 위의 등식에서 사이즈가 3 이다. 마찬가지로, 2 차에 대해, 다음의 등식이 적용될 수도 있다:

다시, SHC (511A) 중 5 개의 제 1 오더 SHC (511A) 가 있다고 하면, SHC (511A' 및 511A) 벡터들의 각각은 위의 등식에서 사이즈가 5 이다. 다른 오더들에 대한 남은 등식들, 즉 제 3 오더 및 제 4 오더는 전술된 것과 유사할 수도 있으며, EncMat ₂ 의 행들의 수, InvMat ₁ 의 열들의 수, 및 제 3 오더 및 제 4 오더 SHC (511A) 및 SHC (511A') 벡터들의 사이즈들이 제 3 오더 및 제 4 오더 구면 조화 기저 함수들의 각각의 하위-오더들 (m 곱하기 2 더하기 1) 의 수와 동일하다는 점에서) 행렬들의 사이즈들에 대한 동일한 패턴을 따른다.

오디오 인코딩 디바이스 (570) 는 따라서 이른바 최적 회전을 식별하기 위해 방위각 및 고도각의 모든 조합에 대해 이러한 회전 동작을 수행할 수도 있다. 오디오 인코딩 디바이스 (570) 는, 이러한 회전 동작을 수행한 후에, 임계 값을 넘는 SHC (511A') 의 수를 계산할 수도 있다. 일부 경우들에서, 오디오 인코딩 디바이스 (570) 는 오디오 프레임과 같은 시간의 지속기간 동안의 음장을 나타내는 일련의 SHC (511A') 를 도출하기 위해 이러한 회전을 수행할 수도 있다. 이러한 시간의 지속기간 동안의 음장을 나타내는 일련의 SHC (511A') 를 도출하기 위해 이러한 회전을 수행함으로써, 오디오 인코딩 디바이스 (570) 는 프레임 또는 다른 길이보다 짧은 시간 지속기간들 동안의 음장을 기술하는 SHC (511A) 의 각각의 세트에 대해 이를 수행하는 것과 비교하여 수행해야 할 회전 동작들의 수를 감소시킬 수도 있다. 임의의 경우에, 오디오 인코딩 디바이스 (570) 는, 이러한 프로세스에 걸쳐, 임계 값보다 큰 최소 수의 SHC (511A') 를 갖는 SHC (511A') 를 저장할 수도 있다.

그러나, 방위각 및 고도각의 모든 조합에 대해 이러한 회전 동작을 수행하는 것은 프로세서 집약적이거나 시간 소모적일 수도 있다. 그 결과, 오디오 인코딩 디바이스 (570) 는 회전 알고리즘의 "무차별 (brute force)" 구현이라고 특징지어질 수도 있는 것을 수행하지 않을 수도 있다. 대신에, 오디오 인코딩 디바이스 (570) 는 일반적으로 압축을 제공하는 방위각과 고도각의 가능하게는 (통계적 측면에서) 알려진 조합의 서브세트에 대해 회전들을 수행하여, 이러한 서브세트에 맞춘 조합들에 대해 회전들을 더 수행해 서브세트에서의 다른 조합들과 비교하여 보다 좋은 압축을 제공할 수도 있다.

다른 대안으로서, 오디오 인코딩 디바이스 (570) 는 오직 알려진 조합들의 서브세트에 대해서만 이러한 회전을 수행할 수도 있다. 다른 대안으로서, 오디오 인코딩 디바이스 (570) 는 조합들의 (공간적) 궤적을 따라, 이러한 조합들의 궤적에 대해 회전들을 수행할 수도 있다. 다른 대안으로서, 오디오 인코딩 디바이스 (570) 는 임계 값을 넘는 비-제로 값들을 갖는 SHC (511A') 의 최대 수를 정의하는 압축 임계치를 명시할 수도 있다. 이러한 압축 임계는 검색에 대한 중지 지점을 효과적으로 설정할 수도 있어, 오디오 인코딩 디바이스 (570) 가 회전을 수행하고, 임계치를 넘는 값을 갖는 SHC (511A') 의 수가 압축 임계치 이하 (또는 일부 경우들에서 미만) 라고 결정하는 경우, 오디오 인코딩 디바이스 (570) 는 남은 조합들에 대해 임의의 추가적인 회전 동작들을 수행하는 것을 중지한다. 또 다른 대안으로서, 오디오 인코딩 디바이스 (570) 는 계층적으로 배열된 조합들의 트리 (또는 다른 데이터 구조) 를 트래버싱하여, 임계 값보다 큰 비-제로 값을 갖는 SHC (511A') 의 수에 따라 현재 조합에 대해 회전 동작들을 수행하고 (예를 들어, 이진 트리들에 있어서) 오른쪽 또는 왼쪽으로 트리를 트래버싱할 수도 있다.

이러한 경우에, 이러한 대안들의 각각은 제 1 및 제 2 회전 동작을 수행하고 제 1 및 제 2 회전 동작을 수행한 결과를 비교하여 임계 값보다 큰 비-제로 값을 갖는 SHC (511A') 의 최소 수를 초래하는 제 1 및 제 2 회전 동작들 중 하나의 동작을 식별하는 것을 수반한다. 이에 따라, 오디오 인코딩 디바이스 (570) 는 제 1 방위각 및 제 1 고도각에 따라 음장을 회전시키도록 음장에 대해 제 1 회전 동작을 수행하고, 음장을 기술하는 것과 관련되는 정보를 제공하는 제 1 방위각 및 제 1 고도각에 따라 회전된 음장을 나타내는 복수의 계층적 엘리먼트들의 제 1 수를 결정할 수도 있다. 오디오 인코딩 디바이스 (570) 는 또한 제 2 방위각 및 제 2 고도각에 따라 음장을 회전시키도록 음장에 대해 제 2 회전 동작을 수행하고, 음장을 기술하는 것과 관련되는 정보를 제공하는 제 2 방위각 및 제 2 고도각에 따라 회전된 음장을 나타내는 복수의 계층적 엘리먼트들의 제 2 수를 결정할 수도 있다. 또한, 오디오 인코딩 디바이스 (570) 는 복수의 계층적 엘리먼트들의 제 1 수 및 복수의 계층적 엘리먼트들의 제 2 수의 비교에 기초하여 제 1 회전 동작 또는 제 2 회전 동작을 선택할 수도 있다.

일부 경우들에서, 회전 알고리즘은 시간의 지속기간에 대해 수행될 수도 있으며, 여기서 후속하는 회전 알고리즘의 실시들은 회전 알고리즘의 과거 실시들에 기초하여 회전 동작들을 수행할 수도 있다. 다시 말해, 회전 알고리즘은 이전의 시간의 지속기간에 대해 음장을 회전시키는 경우 결정된 과거 회전 정보에 기초하여 적응될 수도 있다. 예를 들어, 오디오 인코딩 디바이스 (570) 는 시간의 제 1 지속기간, 예를 들어, 오디오 프레임에 대해 음장을 회전시켜, 이러한 시간의 제 1 지속기간에 대한 SHC (511A') 를 식별할 수도 있다. 오디오 인코딩 디바이스 (570) 는 전술된 방식들 중 임의의 방식으로 비트스트림 (517) 에 회전 정보 및 SHC (511A') 를 명시할 수도 있다. 이러한 회전 정보는 시간의 제 1 지속기간 동안의 음장의 회전을 기술한다는 점에서 제 1 회전 정보라고 지칭될 수도 있다. 오디오 인코딩 디바이스 (570) 는, 그 다음에, 제 1 회전 정보에 기초하여, 시간의 제 2 지속기간, 예를 들어, 제 2 오디오 프레임 동안에 음장을 회전시켜, 이러한 시간의 제 1 지속기간에 대한 SHC (511A') 를 식별할 수도 있다. 오디오 인코딩 디바이스 (570) 는, 일 예로서, 방위각 및 고도각의 "최적" 조합에 대한 검색을 초기화하기 위해 제 2 시간의 지속기간 동안에 제 2 회전 동작을 수행하는 경우 이러한 제 1 회전 정보를 사용할 수도 있다. 오디오 인코딩 디바이스 (570) 는 그러면 비트스트림 (517) 에 시간의 제 2 지속기간에 대한 SHC (511A') 및 대응하는 회전 정보 (이는 "제 2 회전 정보" 라고 지칭될 수도 있다) 를 명시할 수도 있다.

프로세싱 시간 및/또는 소비를 감소시키기 위해 회전 알고리즘을 구현하는 다수의 상이한 방식들에 대해 전술되었으나, 기술들은 "최적 회전" 이라고 지칭될 수도 있는 식별을 감소시키거나 그렇지 않으면 속도를 높이는 임의의 알고리즘에 대해 수행될 수도 있다. 또한, 기술들은 비-최적 회전들을 식별하나, 종종 속도, 또는 프로세서, 또는 다른 자원 활용의 면에서 측정되는 다른 양상들에서의 성능을 향상시킬 수도 있는 임의의 알고리즘에 대해 수행될 수도 있다.

도 13a 내지 도 13e 는 각각 본 개시물에 설명된 기술들에 따라 형성된 비트스트림들 (517A-517E) 을 예시하는 도면이다. 도 13a 의 예에서, 비트스트림 (517A) 은 위의 도 9 에 도시된 비트스트림 (517) 의 일 예를 표현할 수도 있다. 비트스트림 (517A) 은 SHC 존재 필드 (670) 및 SHC (511A') 를 저장하는 필드 (여기서 필드는 "SHC (511A')" 로 표기된다) 를 포함한다. SHC 존재 필드 (670) 는 SHC (511A) 의 각각에 대응하는 비트를 포함할 수도 있다. SHC (511A') 는, SHC (511A) 의 수보다 적을 수도 있는, 비트스트림에 명시된 SHC (511A) 를 표현할 수도 있다. 통상적으로, SHC (511A') 의 각각은 비-제로 값들을 갖는 SHC (511A) 이다. 위에서 언급된 바와 같이, 임의의 주어진 음장의 4 차 표현을 위해서는, (1+4)² 또는 25 개의 SHC 가 요구된다. 이러한 SHC 중 하나 이상의 SHC 를 제거하고 이를 단일 비트를 갖는 제로 값의 SHC 로 대체하는 것은 31 비트를 절약할 수도 있으며, 31 비트는 음장의 다른 부분들을 더 상세하게 나타내는데 할당될 수도 있거나, 그렇지 않으면 효율적인 대역폭 활용을 가능하게 하기 위해 제거될 수도 있다.

도 13b 의 예에서, 비트스트림 (517B) 은 위의 도 9 에 도시된 비트스트림 (517) 의 일 예를 표현할 수도 있다. 비트스트림 (517B) 은 변환 정보 필드 (672) ("변환 정보 (672)") 및 SHC (511A') 를 저장하는 필드 (여기서 필드는 "SHC (511A')" 로 표기된다) 를 포함한다. 변환 정보 (672) 는, 위에서 언급된 바와 같이, 변환 정보, 회전 정보, 및/또는 음장에 대한 조정을 표기하는 임의의 다른 형태의 정보를 포함할 수도 있다. 일부 경우들에서, 변환 정보 (672) 는 또한 SHC (511A') 로 비트스트림 (517B) 에 명시되는 가장 상위 오더의 SHC (511A) 를 명시할 수도 있다. 즉, 변환 정보 (672) 는 3 의 오더를 나타낼 수도 있으며, 추출 디바이스는 SHC (511A') 가 최대 SHC (511A) 를 포함하는 것으로 나타내고 3 의 오더를 갖는 SHC (511A) 를 포함하는 것으로 이해할 수도 있다. 추출 디바이스는 그 다음에 4 이상의 오더를 갖는 SHC (511A) 를 제로로 설정하도록 구성될 수도 있으며, 그렇게 함으로써 잠재적으로 비트스트림에서 4 이상의 오더의 SHC (511A) 의 명시적 시그널링을 제거한다.

도 13c 의 예에서, 비트스트림 (517C) 은 위의 도 9 에 도시된 비트스트림 (517) 의 일 예를 표현할 수도 있다. 비트스트림 (517C) 은 변환 정보 필드 (672) ("변환 정보 (672)"), SHC 존재 필드 (670), 및 SHC (511A') 를 저장하는 필드 (여기서 필드는 "SHC (511A')" 로 표기된다) 를 포함한다. 도 13b 에 대해 전술된 바와 같이 어떤 오더의 SHC (511A) 가 시그널링되지 않을 것인지를 이해하도록 구성되기 보다는, SHC 존재 필드 (670) 는 SHC (511A) 중 어느 것이 비트스트림 (517C) 에 SHC (511A') 로서 명시되는지를 명시적으로 시그널링할 수도 있다.

도 13d 의 예에서, 비트스트림 (517D) 은 위의 도 9 에 도시된 비트스트림 (517) 의 일 예를 표현할 수도 있다. 비트스트림 (517D) 은 오더 필드 (674) ("오더 (60)"), SHC 존재 필드 (670), 방위각 플래그 (676) ("AZF (676)"), 고도각 플래그 (678) ("ELF (678)"), 방위각 필드 (680) ("방위각 (680)"), 고도각 필드 (682) ("고도각 (682)"), 및 SHC (511A') 를 저장하는 필드 (여기서, 다시, 필드는 "SHC (511A')" 이라고 표기된다) 를 포함한다. 오더 필드 (674) 는 SHC (511A') 의 오더, 즉 음장을 나타내는데 이용되는 구면 기저 함수의 가장 상위 오더에 대해 위에서 n 으로 표기된 오더를 명시한다. 오더 필드 (674) 는 8 비트 필드인 것으로 도시되나, 3 과 같은 다른 다양한 비트 사이즈들일 수도 있다 (이는 4 개의 오더를 명시하는데 요구되는 비트들의 수이다). SHC 존재 필드 (670) 는 25 비트 필드로 도시된다. 다시, 그러나, SHC 존재 필드 (670) 는 다른 다양한 비트 사이즈들일 수도 있다. SHC 존재 필드 (670) 는 SHC 존재 필드 (670) 가 음장의 4 개의 오더 표현에 대응하는 구면 조화 계수들의 각각에 대해 1 비트를 포함할 수도 있다는 것을 나타내기 위해 25 비트로 도시된다.

방위각 플래그 (676) 는 방위각 필드 (680) 가 비트스트림 (517D) 에 존재하는지 여부를 명시하는 1-비트 플래그를 표현한다. 방위각 플래그 (676) 가 1 로 설정된 경우, SHC (511A') 에 대한 방위각 필드 (680) 가 비트스트림 (517D) 에 존재한다. 방위각 플래그 (676) 가 제로로 설정된 경우, SHC (511A') 의 방위각 필드 (680) 가 비트스트림 (517D) 에 존재하지 않거나 그렇지 않으면 명시되지 않는다. 마찬가지로, 고도각 플래그 (678) 는 고도각 필드 (682) 가 비트스트림 (517D) 에 존재하는지 여부를 명시하는 1-비트 플래그를 표현한다. 고도각 플래그 (678) 가 1 로 설정된 경우, SHC (511A') 에 대한 고도각 필드 (682) 가 비트스트림 (517D) 에 존재한다. 고도각 플래그 (678) 가 제로로 설정된 경우, SHC (511A') 에 대한 고도각 필드 (682) 가 비트스트림 (517D) 에 존재하지 않거나 그렇지 않으면 명시되지 않는다. 대응하는 필드가 존재하는 경우 1 을 시그널링하고 대응하는 필드가 존재하지 않는 경우 제로를 시그널링하는 것으로 설명되었으나, 제로가 대응하는 필드가 비트스트림 (517D) 에 명시되는 것을 명시하고 1 이 대응하는 필드가 비트스트림 (517D) 에 명시되지 않음을 명시하도록 종래기술이 반전될 수도 있다. 본 개시물에 설명된 기술들은 따라서 이러한 면으로 제한되지 않아야 한다.

방위각 필드 (680) 는, 비트스트림 (517D) 에 존재하는 경우, 방위각을 명시하는 10-비트 필드를 표현한다. 10-비트 필드로 도시되었으나, 방위각 필드 (680) 는 다른 비트 사이즈들일 수도 있다. 고도각 필드 (682) 는, 비트스트림 (517D) 에 존재하는 경우, 고도각을 명시하는 9-비트 필드를 표현한다. 필드들 (680 및 682) 에 명시된 방위각 및 고도각은, 각각, 전술된 회전 정보를 나타내는 플래그들 (676 및 678) 과 연계될 수도 있다. 이러한 회전 정보는 SHC (511A) 를 원래의 참조의 프레임으로 복원하도록 음장을 회전시키는데 이용될 수도 있다.

SHC (511A') 필드는 사이즈 (X) 가변 필드로 도시된다. SHC (511A') 필드는 SHC 존재 필드 (670) 에 의해 표기되는 바와 같이 비트스트림에 명시되는 SHC (511A') 의 수로 인해 달라질 수도 있다. 사이즈 (X) 는 SHC 존재 필드 (670) 곱하기 32-비트에서의 수의 함수로서 도출될 수도 있다 (이는 각각의 SHC (511A') 의 사이즈이다).

도 13e 의 예에서, 비트스트림 (517E) 은 위의 도 9 에 도시된 비트스트림 (517) 의 다른 예를 표현할 수도 있다. 비트스트림 (517E) 은 오더 필드 (674) ("오더 (60)"), SHC 존재 필드 (670), 및 회전 인덱스 필드 (684), 및 SHC (511A') 를 저장하는 필드 (여기서, 다시, 필드는 "SHC (511A')" 로 표기된다) 를 포함한다. 오더 필드 (674), SHC 존재 필드 (670), 및 SHC (511A') 필드는 전술된 것들과 실질적으로 유사할 수도 있다. 회전 인덱스 필드 (684) 는 고도각 및 방위각의 1024x512 (또는, 다시 말해, 524288) 개의 조합들 중 하나를 명시하는데 이용되는 20-비트 필드를 표현할 수도 있다. 일부 경우들에서, 오직 19-비트만이 이러한 회전 인덱스 필드 (684) 를 명시하는데 이용될 수도 있고, 오디오 인코딩 디바이스 (570) 는 회전 동작이 수행되었는지 여부 (및, 따라서, 회전 인덱스 필드 (684) 가 비트스트림에 존재하는지 여부) 를 나타내기 위해 비트스트림에 추가적인 플래그를 명시할 수도 있다. 이러한 회전 인덱스 필드 (684) 는 위에서 언급된 회전 인덱스를 명시하며, 이는 오디오 인코딩 디바이스 (570) 및 비트스트림 추출 디바이스 양자 모두에 공통인 회전 테이블에서의 엔트리를 지칭할 수도 있다. 이러한 회전 테이블은, 일부 경우들에서, 방위각 및 고도각의 상이한 조합들을 저장할 수도 있다. 대안으로, 회전 테이블은 전술된 행렬을 저장할 수도 있으며, 이는 행렬 형태로 방위각 및 고도각의 상이한 조합들을 효과적으로 저장한다.

도 14 은 본 개시물에 설명된 기술들의 회전 양상들을 구현할 시에 도 9 의 예에 도시된 오디오 인코딩 디바이스 (570) 의 예시적인 동작을 예시하는 플행차트이다. 최초에, 오디오 인코딩 디바이스 (570) 는 전술된 다양한 회전 알고리즘들 하나 이상의 회전 알고리즘에 따라 방위각 및 고도각 조합을 선택할 수도 있다 (800). 오디오 인코딩 디바이스 (570) 는 그 다음에 선택된 방위각 및 고도각에 따라 음장을 회전시킬 수도 있다 (802). 전술된 바와 같이, 오디오 인코딩 디바이스 (570) 는 우선 위에서 언급된 InvMat ₁ 를 이용하여 SHC (511A) 로부터 음장을 도출할 수도 있다. 오디오 인코딩 디바이스 (570) 는 또한 회전된 음장을 나타내는 SHC (511A') 를 결정할 수도 있다 (804). 별도의 단계들 또는 동작들로 설명되긴 했으나, 오디오 인코딩 디바이스 (570) 는 방위각 및 고도각 조합의 선택을 나타내는 변환 (이는 [EncMat ₂][InvMat ₁] 의 결과를 표현할 수도 있다) 을 적용하여, SHC (511A) 로부터 음장을 도출하고, 음장을 회전시키고, 회전된 음장을 나타내는 SHC (511A') 를 결정할 수도 있다.

임의의 경우에, 오디오 인코딩 디바이스 (570) 는 그 다음에 임계 값보다 큰 결정된 SHC (511A') 의 수를 컴퓨팅하여, 이러한 수를 이전 방위각 및 고도각에 대한 이전의 반복에 대해 컴퓨팅된 수와 비교할 수도 있다 (806, 808). 제 1 방위각 및 고도각 조합에 대한 제 1 반복에서, 이러한 비교는 미리 정의된 이전의 수 (이는 제로로 설정될 수도 있다) 일 수도 있다. 임의의 경우에, SHC (511A') 의 결정된 수가 이전의 수보다 작은 경우 ("예" (808)), 오디오 인코딩 디바이스 (570) 는 SHC (511A'), 방위각, 및 고도각을 저장하고, 종종 회전 알고리즘의 이전의 반복으로부터 저장된 이전의 SHC (511A'), 방위각, 및 고도각을 대체한다 (810).

SHC (511A') 의 결정된 수가 이전 수보다 적지 않은 경우 ("아니오" (808)), 또는 저장된 SHC (511A'), 방위각, 및 고도각 대신에 SHC (511A'), 방위각, 및 고도각을 저장한 후에, 오디오 인코딩 디바이스 (570) 는 회전 알고리즘이 완료되었는지 여부를 결정할 수도 있다 (812). 즉, 오디오 인코딩 디바이스 (570) 는, 일 예로서, 방위각 및 고도각의 모든 이용가능한 조합이 평가되었는지 여부를 결정할 수도 있다. 다른 예들에서, 오디오 인코딩 디바이스 (570) 는 오디오 인코딩 디바이스 (570) 가 회전 알고리즘을 수행하는 것을 완료하도록 다른 기준이 충족되었는지 여부 (예컨대, 조합의 정의된 서브세트 모두가 수행되었는지, 주어진 궤적이 트래버싱되었는지 여부, 계층 트리가 리프 노드까지 트래버싱되었는지 여부 등) 를 결정할 수도 있다. 완료되지 않은 경우 ("아니오" (812)), 오디오 인코딩 디바이스 (570) 는 다른 선택된 조합에 대해 위의 프로세스를 수행할 수도 있다 (800-812). 완료된 경우 ("예" (812)), 오디오 인코딩 디바이스 (570) 는 전술된 다양한 방식들 중 하나의 방식으로 저장된 SHC (511A'), 방위각, 및 고도각을 비트스트림 (517) 에 명시할 수도 있다 (814).

도 15 는 본 개시물에 설명된 기술들의 변환 양상들을 수행할 시에 도 9 의 예에 도시된 오디오 인코딩 디바이스 (570) 의 예시적인 동작을 예시하는 플행차트이다. 최초에, 오디오 인코딩 디바이스 (570) 는 선형 가역 변환을 나타내는 행렬을 선택할 수도 있다 (820). 선형 가역 변환을 나타내는 행렬의 일 예는 [EncMat ₂ ][IncMat ₁] 의 결과인, 위에서 보여진 행렬일 수도 있다. 오디오 인코딩 디바이스 (570) 는 그 다음에 행렬을 음장에 적용하여 음장을 변환시킬 수도 있다 (822). 오디오 인코딩 디바이스 (570) 는 또한 회전된 음장을 나타내는 SHC (511A') 를 결정할 수도 있다 (824). 별도의 단계들 및 동작들인 것으로 설명되었으나, 오디오 인코딩 디바이스 (570) 는 변환 (이는 [EncMat ₂][InvMat ₁] 의 결과를 표현할 수도 있다) 을 적용하여, SHC (511A) 로부터 음장을 도출하고, 음장을 변환시키고, 변환 음장을 나타내는 SHC (511A') 를 결정할 수도 있다.

임의의 경우에, 오디오 인코딩 디바이스 (570) 는 그 다음에 임계 값보다 큰 결정된 SHC (511A') 의 수를 컴퓨팅하여, 이러한 수를 변환 행렬의 이전 적용에 대한 이전의 반복에 대해 컴퓨팅된 수와 비교할 수도 있다 (826, 828). SHC (511A') 의 결정된 수가 이전의 수보다 작은 경우 ("예" (828)), 오디오 인코딩 디바이스 (570) 는 SHC (511A') 및 행렬 (또는 행렬과 연관된 인덱스와 같은 일부 도출물) 을 저장하여, 종종 회전 알고리즘의 이전의 반복으로부터 저장된 이전 SHC (511A') 및 행렬 (또는 그것의 도출물) 을 대체한다 (830).

SHC (511A') 의 결정된 수가 이전 수보다 작지 않은 경우 ("아니오" (828)), 또는 이전에 저장된 SHC (511A') 및 행렬 대신에 SHC (511A') 및 행렬을 저장한 후에, 오디오 인코딩 디바이스 (570) 는 변환 알고리즘이 완료되었는지 여부를 결정할 수도 있다 (832). 즉, 오디오 인코딩 디바이스 (570) 는, 일 예로서, 모든 이용가능한 변환 행렬들이 평가되었는지 여부를 결정할 수도 있다. 다른 예들에서, 오디오 인코딩 디바이스 (570) 는 오디오 인코딩 디바이스 (570) 가 변환 알고리즘을 수행하는 것을 완료하도록 다른 기준이 충족되었는지 여부 (예컨대, 이용가능한 변환 행렬들의 정의된 서브세트 모두가 수행되었는지, 주어진 궤적이 트래버싱되었는지 여부, 계층 트리가 리프 노드까지 트래버싱되었는지 여부 등) 를 결정할 수도 있다. 완료되지 않은 경우 ("아니오" (832)), 오디오 인코딩 디바이스 (570) 는 다른 선택된 변환 행렬에 대해 위의 프로세스를 수행할 수도 있다 (820-832). 완료된 경우 ("예" (832), 오디오 인코딩 디바이스 (570) 는 전술된 다양한 방식들 중 하나의 방식으로 저장된 SHC (511A') 및 행렬을 비트스트림 (517) 에 명시할 수도 있다 (834).

일부 예들에서, 변환 알고리즘은 단일 반복을 수행하여, 단일 변환 행렬을 평가할 수도 있다. 즉, 변환 행렬은 선형 가역 변환을 나타내는 임의의 행렬을 포함할 수도 있다. 일부 경우들에서, 선형 가역 변환은 음장을 공간 도메인으로부터 시간 도메인으로 변환시킬 수도 있다. 그러한 선형 가역 변환들의 예들은 이산 푸리에 변환 (discrete Fourier transform; DFT) 을 포함할 수도 있다. DFT 의 적용은 오직 단일 반복만을 수반할 수도 있고, 따라서 변환 알고리즘이 완료되었는지 여부를 결정하기 위한 단계들을 반드시 포함하지는 않는다. 이에 따라, 기술들은 도 15 의 예로 제한되어서는 안된다.

다시 말해, 선형 가역 변환의 일 예는 이산 푸리에 변환 (DFT) 이다. 25 개의 SHC (511A') 이 DFT 에 의해 동작되어 25 개의 복소 계수들의 세트를 형성할 수 있다. 오디오 인코딩 디바이스 (570) 는 2 의 정수 배수일 25 개의 SHC (511A') 들이, 예를 들어, 고속 푸리에 변환 (fast Fourier transform; FFT) 을 적용하여, 잠재적으로 DFT 의 빈 사이즈의 분해능을 증가시키고, 잠재적으로 DFT 의 보다 효율적을 구현을 가질 수 있도록, 제로-패딩할 수도 있다. 일부 경우들에서, DFT 의 분해능을 25 지점들보다 넘게 증가시키는 것이 반드시 요구되는 것은 아니다. 변환 도메인에서, 오디오 인코딩 디바이스 (570) 는 특정 빈에 임의의 스펙트럼 에너지가 있는지 여부를 결정하기 위해 임계치를 적용할 수도 있다. 오디오 인코딩 디바이스 (570) 는, 이러한 맥락에서, 이러한 임계치 아래인 스펙트럼 계수 에너지를 폐기하거나 제로로 할 수도 있고, 오디오 인코딩 디바이스 (570) 는 폐기되거나 제로로 된 SHC (511A') 중 하나 이상을 갖는 SHC (511A') 를 복원하기 위해 역변환을 적용할 수도 있다. 즉, 역변환이 적용된 후에, 임계치 아래의 계수들은 존재하지 않고, 그 결과, 음장을 인코딩하는데 보다 적은 비트들이 이용될 수도 있다.

예들에 따라, 본원에서 설명된 방법들 중 임의의 방법의 소정의 행위들 또는 이벤트들은 상이한 시퀀스로 수행될 수 있으며, 추가되거나, 병합되거나 모두 버려질 수도 있다 (예를 들어, 모든 설명된 행위들 또는 이벤트들이 방법의 실시를 위해 필요한 것은 아니다.). 나아가, 소정의 예들에서, 행위들 또는 이벤트들은, 순차적이기 보다는, 예를 들어, 멀티-스레디드 프로세싱, 인터럽트 프로세싱, 또는 다수의 프로세서들을 통해, 동시에 수행될 수도 있다. 또한, 본 개시물의 소정의 양상들은 명확함의 목적으로 단일 디바이스, 모듈, 또는 유닛에 의해 수행되는 것으로 설명되었으나, 본 개시물의 기법들은 디바이스들, 유닛들, 또는 모듈들의 조합으로 수행될 수도 있다는 것이 이해되어야 한다.

하나 이상의 예들에서, 설명된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현되는 경우, 기능들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독가능 매체 상에 저장되거나 송신되거나 하드웨어-기반 프로세싱 유닛에 의해 실행될 수도 있다. 컴퓨터 판독가능 매체들은, 데이터 저장 매체들과 같은 유형의 매체, 또는 예를 들어, 통신 프로토콜에 따라, 한 곳에서 다른 곳으로 컴퓨터 프로그램의 전송을 가능하게 하는 임의의 매체를 포함하는 통신 매체들에 대응하는 컴퓨터 판독가능 저장 매체들일 포함할 수도 있다.

이러한 방식으로, 컴퓨터 판독가능 매체들은 일반적으로 (1) 비-일시적인 유형의 컴퓨터 판독가능 저장 매체들, 또는 (2) 신호 또는 반송파와 같은 통신 매체에 대응할 수도 있다. 데이터 저장 매체들은 본 개시물에 설명된 기술들의 구현을 위한 명령들, 코드, 및/또는 데이터 구조들을 취출하기 위해 하나 이상의 컴퓨터들 또는 하나 이상의 프로세서들에 의해 액세스될 수 있는 임의의 이용가능한 매체들일 수도 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독가능 매체를 포함할 수도 있다.

비제한적인 예로서, 그러한 컴퓨터 판독가능 저장 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 저장 디바이스들, 플래시 메모리, 또는 원하는 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 이송 또는 저장하기 위해 이용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 접속은 컴퓨터 판독가능 매체라고 적절히 칭해진다. 예를 들어, 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선 (digital subscriber line; DSL), 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들을 이용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 명령들이 송신되는 경우, 동축 케이블, 광섬유 케이블, 연선, DSL, 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들은 매체의 정의 내에 포함된다.

그러나, 컴퓨터 판독가능 저장 매체들 및 데이터 저장 매체들은 접속부들, 반송파들, 신호들, 또는 다른 일시적 매체들을 포함하지 않고, 대신에 비-일시적, 유형의 저장 매체들에 대한 것임이 이해되어야 한다. 본원에서 이용된 디스크 (disk) 와 디스크 (disc) 는, 컴팩트 디스크(compact disc; CD), 레이저 디스크, 광학 디스크, 디지털 다기능 디스크 (digital versatile disc; DVD), 플로피 디스크, 및 블루레이 디스크를 포함하며, 여기서 디스크 (disk) 들은 통상 자기적으로 데이터를 재생하는 반면, 디스크 (disc) 들은 레이저들을 이용하여 광학적으로 데이터를 재생한다. 위의 조합들도 컴퓨터 판독가능 매체들의 범위 내에 포함되어야 한다.

명령들은, 하나 이상의 디지털 신호 프로세서 (digital signal processor; DSP) 들, 범용 마이크로프로세서들, 주문형 반도체 (application specific integrated circuit; ASIC) 들, 필드 프로그래머블 로직 어레이 (field programmable logic array; FPGA) 들, 또는 다른 등가의 집적 또는 이산 로직 회로와 같은, 하나 이상의 프로세서들에 의해 실행될 수도 있다. 이에 따라, 본원에서 이용되는 바와 같은 용어 "프로세서" 는 앞서 언급한 구조, 또는 본원에서 설명된 기술들을 구현하기에 적합한 임의의 다른 구조 중 임의의 것을 지칭할 수도 있다. 또한, 일부 양상들에서, 본원에서 설명된 기능성은 인코딩 및 디코딩을 위해 구성된 전용 하드웨어 및/또는 소프트웨어 모듈 내에 제공되거나, 통합 코덱에 통합될 수도 있다. 또한, 기술들은 하나 이상의 회로들 또는 로직 엘리먼트들에서 완전히 구현될 수 있다.

본 개시물의 기술들은 무선 핸드셋, 집적 회로 (integrated circuit; IC), 또는 IC 들의 세트 (예를 들어, 칩셋) 를 포함하여, 매우 다양한 디바이스들 또는 장치들로 구현될 수도 있다. 개시된 기술들을 수행하도록 구성된 디바이스들의 기능적 양상들을 강조하기 위해 다양한 성분들, 모듈들, 또는 유닛들이 본 개시물에서 설명되었지만, 반드시 상이한 하드웨어 유닛들에 의한 실현을 요구하지는 않는다. 오히려, 전술된 바와 같이, 다양한 유닛들은, 적합한 소프트웨어 및/또는 펌웨어와 연계하여, 코덱 하드웨어 유닛에 통합되거나 전술한 하나 이상의 프로세서들을 포함하여 상호동작적인 하드웨어 유닛들의 집합에 의해 제공될 수도 있다.

이에 더해 또는 위의 대안으로, 다음의 예들이 설명된다. 다음의 예들 중 임의의 예에서 설명된 특징들은 본원에서 설명된 다른 예들의 임의의 예와 사용될 수도 있다.

일 예는 복수의 계층적 엘리먼트들의 수를 감소시키기 위해 음장이 어떻게 변환되었는지를 기술하는 변환 정보를 획득하는 단계; 및 결정된 변환 정보에 기초하여 감소된 수의 복수의 계층적 엘리먼트들에 대해 바이노럴 오디오 렌더링을 수행하는 단계를 포함하는 바이노럴 오디오 렌더링의 방법에 대한 것이다.

일부 예들에서, 바이노럴 오디오 렌더링을 수행하는 것은 결정된 변환 정보에 기초하여 복수의 채널들에 대해 감소된 복수의 계층적 엘리먼트들을 렌더링하는 참조의 프레임을 변환시키는 것을 포함한다.

일부 예들에서, 변환 정보는 적어도 음장이 회전된 고도각 및 방위각을 명시하는 회전 정보를 포함한다.

일부 예들에서, 변환 정보는 하나 이상의 각들을 명시하는 회전 정보를 포함하며, 각들의 각각은 음장이 회전된 x-축 및 y-축, x-축 및 z-축, 또는 y-축 및 z-축에 대해 명시되고, 바이노럴 오디오 렌더링을 수행하는 것은 결졍된 회전 정보에 기초하여 렌더링 함수가 감소된 복수의 계층적 엘리먼트들을 렌더링하는 참조의 프레임을 회전시키는 것을 포함한다.

일부 예들에서, 바이노럴 오디오 렌더링은 결정된 변환 정보에 기초하여 렌더링 함수가 감소된 복수의 계층적 엘리먼트들을 렌더링하는 참조의 프레임을 변환시키는 것; 및 변환된 렌더링 함수에 대해 에너지 보존 함수를 적용하는 것을 포함한다.

일부 예들에서, 바이노럴 오디오 렌더링을 수행하는 것은, 결정된 변환 정보에 기초하여 렌더링 함수가 감소된 복수의 계층적 엘리먼트들을 렌더링하는 참조의 프레임을 변환시키는 것; 및 곱셈 연산들을 이용하여 변환된 렌더링 함수를 복소 바이노럴 룸 임펄스 응답 함수와 결합하는 것을 포함한다.

일부 예들에서, 바이노럴 오디오 렌더링을 수행하는 것은, 결정된 변환 정보에 기초하여 렌더링 함수가 감소된 복수의 계층적 엘리먼트들을 렌더링하는 참조의 프레임을 변환시키는 것; 및 곱셈 연산들을 이용하여 그리고 콘볼루션 연산들을 요구하지 않으면서 변환된 렌더링 함수를 복소 바이노럴 룸 임펄스 응답 함수와 결합하는 것을 포함한다.

일부 예들에서, 바이노럴 오디오 렌더링을 수행하는 것은 결정된 변환 정보에 기초하여 렌더링 함수가 감소된 복수의 계층적 엘리먼트들을 렌더링하는 참조의 프레임을 변환시키는 것; 회전된 바이노럴 오디오 렌더링 함수를 생성하기 위해 변환된 렌더링 함수를 복소 바이노럴 룸 임펄스 응답 함수와 결합하는 것; 및 왼쪽 및 오른쪽 채널들을 생성하기 위해 회전된 바이노럴 오디오 렌더링 함수를 감소된 복수의 계층적 엘리먼트들에 적용하는 것을 포함한다.

일부 예들에서, 복수의 계층적 엘리먼트들은 복수의 구면 조화 계수들을 포함하며, 복수의 구면 조화 계수들 중 적어도 하나의 구면 조화 계수는 1 보다 큰 오더와 연관된다.

일부 예들에서, 방법은 또한 인코딩된 오디오 데이터 및 변환 정보를 포함하는 비트스트림을 취출하는 단계; 비트스트림으로부터 인코딩된 오디오 데이터를 파싱하는 단계; 및 감소된 복수의 구면 조화 계수들을 생성하기 위해 파싱된 인코딩된 오디오 데이터를 디코딩하는 단계를 포함하고, 변환 정보를 결정하는 것은 비트스트림으로부터 변환 정보를 파싱하는 것을 포함한다.

일부 예들에서, 방법은 또한 인코딩된 오디오 데이터 및 변환 정보를 포함하는 비트스트림을 취출하는 단계; 비트스트림으로부터 인코딩된 오디오 데이터를 파싱하는 단계; 및 감소된 복수의 구면 조화 계수들을 생성하기 위해 고급 오디오 코딩 (AAC) 기법에 따라 파싱된 인코딩된 오디오 데이터를 디코딩하는 단계를 포함하고, 변환 정보를 결정하는 것은 비트스트림으로부터 변환 정보를 파싱하는 것을 포함한다.

일부 예들에서, 방법은 또한 인코딩된 오디오 데이터 및 변환 정보를 포함하는 비트스트림을 취출하는 단계; 비트스트림으로부터 인코딩된 오디오 데이터를 파싱하는 단계; 및 감소된 복수의 구면 조화 계수들을 생성하기 위해 통합 스피치 및 오디오 코딩 (USAC) 기법에 따라 파싱된 인코딩된 오디오 데이터를 디코딩하는 단계를 포함하고, 변환 정보를 결정하는 것은 비트스트림으로부터 변환 정보를 파싱하는 것을 포함한다.

일부 예들에서, 방법은 또한 복수의 구면 조화 계수들에 의해 표현되는 음장에 대한 청취자의 헤드의 포지션을 결정하는 단계; 및 결정된 변환 정보 및 청취자의 헤드의 결정된 포지션에 기초하여 업데이트된 변환 정보를 결정하는 단계를 포함하고, 바이노럴 오디오 렌더링을 수행하는 것은 업데이트된 변환 정보에 기초하여 감소된 복수의 계층적 엘리먼트들에 대해 바이노럴 오디오 렌더링을 수행하는 것을 포함한다.

일 예는 음장을 기술하는 것에 관계된 정보를 제공하는 복수의 계층적 엘리먼트들의 수를 감소시키기 위해 음장이 어떻게 변환되었는지를 기술하는 변환 정보를 결정하고, 결정된 변환 정보에 기초하여 감소된 복수의 계층적 엘리먼트들에 대해 바이노럴 오디오 렌더링을 수행하도록 구성된 하나 이상의 프로세서들을 포함하는 디바이스에 대한 것이다.

일부 예들에서, 하나 이상의 프로세서들은, 바이노럴 오디오 렌더링을 수행하는 경우, 결정된 변환 정보에 기초하여 복수의 채널들에 대해 감소된 복수의 계층적 엘리먼트들을 렌더링하는 참조의 프레임을 변환하도록 더 구성된다.

일부 예들에서, 결정된 변환 정보는 적어도 음장이 회전된 고도각 및 방위각을 명시하는 회전 정보를 포함한다.

일부 예들에서, 변환 정보는 하나 이상의 각들을 명시하는 회전 정보를 포함하며, 각들의 각각은 음장이 회전된 x-축 및 y-축, x-축 및 z-축, 또는 y-축 및 z-축에 대해 명시되고, 하나 이상의 프로세서들은, 바이노럴 오디오 렌더링을 수행하는 경우, 결졍된 회전 정보에 기초하여 렌더링 함수가 감소된 복수의 계층적 엘리먼트들을 렌더링하는 참조의 프레임을 회전시키도록 더 구성된다.

일부 예들에서, 하나 이상의 프로세서들은, 바이노럴 오디오 렌더링을 수행하는 경우, 바이노럴 오디오 렌더링은 결정된 변환 정보에 기초하여 렌더링 함수가 감소된 복수의 계층적 엘리먼트들을 렌더링하는 참조의 프레임을 변환하고, 변환된 렌더링 함수에 대해 에너지 보존 함수를 적용하도록 더 구성된다.

일부 예들에서, 하나 이상의 프로세서들은, 바이노럴 오디오 렌더링을 수행하는 경우, 결정된 변환 정보에 기초하여 렌더링 함수가 감소된 복수의 계층적 엘리먼트들을 렌더링하는 참조의 프레임을 변환하고, 곱셈 연산들을 이용하여 변환된 렌더링 함수를 복소 바이노럴 룸 임펄스 응답 함수와 결합하도록 더 구성된다.

일부 예들에서, 하나 이상의 프로세서들은, 바이노럴 오디오 렌더링을 수행하는 경우, 결정된 변환 정보에 기초하여 렌더링 함수가 감소된 복수의 계층적 엘리먼트들을 렌더링하는 참조의 프레임을 변환하고, 곱셈 연산들을 이용하여 그리고 콘볼루션 연산들을 요구하지 않으면서 변환된 렌더링 함수를 복소 바이노럴 룸 임펄스 응답 함수와 결합하도록 더 구성된다.

일부 예들에서, 하나 이상의 프로세서들은, 바이노럴 오디오 렌더링을 수행하는 경우, 결정된 변환 정보에 기초하여 렌더링 함수가 감소된 복수의 계층적 엘리먼트들을 렌더링하는 참조의 프레임을 변환하고, 회전된 바이노럴 오디오 렌더링 함수를 생성하기 위해 변환된 렌더링 함수를 복소 바이노럴 룸 임펄스 응답 함수와 결합하고 왼쪽 및 오른쪽 채널들을 생성하기 위해 회전된 바이노럴 오디오 렌더링 함수를 감소된 복수의 계층적 엘리먼트들에 적용하도록 더 구성된다

일부 예들에서, 하나 이상의 프로세서들은 인코딩된 오디오 데이터 및 변환 정보를 포함하는 비트스트림을 취출하고, 비트스트림으로부터 인코딩된 오디오 데이터를 파싱하고, 감소된 복수의 구면 조화 계수들을 생성하기 위해 파싱된 인코딩된 오디오 데이터를 디코딩하도록 더 구성되고, 하나 이상의 프로세서들은, 변환 정보를 결정하는 경우, 비트스트림으로부터 변환 정보를 파싱하도록 더 구성된다.

일부 예들에서, 하나 이상의 프로세서들은 인코딩된 오디오 데이터 및 변환 정보를 포함하는 비트스트림을 취출하고, 비트스트림으로부터 인코딩된 오디오 데이터를 파싱하고, 감소된 복수의 구면 조화 계수들을 생성하기 위해 고급 오디오 코딩 (AAC) 기법에 따라 파싱된 인코딩된 오디오 데이터를 디코딩하도록 더 구성되고, 하나 이상의 프로세서들은, 변환 정보를 결정하는 경우, 비트스트림으로부터 변환 정보를 파싱하도록 더 구성된다.

일부 예들에서, 하나 이상의 프로세서들은 인코딩된 오디오 데이터 및 변환 정보를 포함하는 비트스트림을 취출하고, 비트스트림으로부터 인코딩된 오디오 데이터를 파싱하고, 감소된 복수의 구면 조화 계수들을 생성하기 위해 통합 스피치 및 오디오 코딩 (USAC) 기법에 따라 파싱된 인코딩된 오디오 데이터를 디코딩하도록 더 구성되고, 하나 이상의 프로세서들은, 변환 정보를 결정하는 경우, 비트스트림으로부터 변환 정보를 파싱하도록 더 구성된다.

일부 예들에서, 하나 이상의 프로세서들은 복수의 구면 조화 계수들에 의해 표현되는 음장에 대한 청취자의 헤드의 포지션을 결정하고, 결정된 변환 정보 및 청취자의 헤드의 결정된 포지션에 기초하여 업데이트된 변환 정보를 결정하도록 더 구성되고, 하나 이상의 프로세서들은, 바이노럴 오디오 렌더링을 수행하는 경우, 업데이트된 변환 정보에 기초하여 감소된 복수의 계층적 엘리먼트들에 대해 바이노럴 오디오 렌더링을 수행하도록 더 구성된다.

일 예는 음장을 기술하는 것에 관계된 정보를 제공하는 복수의 계층적 엘리먼트들의 수를 감소시키기 위해 음장이 어떻게 변환되었는지를 기술하는 변환 정보를 결정하는 수단; 및 결정된 변환 정보에 기초하여 감소된 복수의 계층적 엘리먼트들에 대해 바이노럴 오디오 렌더링을 수행하는 수단을 포함하는 디바이스에 대한 것이다.

일부 예들에서, 바이노럴 오디오 렌더링을 수행하는 수단은 결정된 변환 정보에 기초하여 복수의 채널들에 대해 감소된 복수의 계층적 엘리먼트들을 렌더링하는 참조의 프레임을 변환시키는 수단을 포함한다.

일부 예들에서, 변환 정보는 하나 이상의 각들을 명시하는 회전 정보를 포함하며, 각들의 각각은 음장이 회전된 x-축 및 y-축, x-축 및 z-축, 또는 y-축 및 z-축에 대해 명시되고, 바이노럴 오디오 렌더링을 수행하는 수단은 결졍된 회전 정보에 기초하여 렌더링 함수가 감소된 복수의 계층적 엘리먼트들을 렌더링하는 참조의 프레임을 회전시키는 수단을 포함한다.

일부 예들에서, 바이노럴 오디오 렌더링을 수행하는 수단은 결정된 변환 정보에 기초하여 렌더링 함수가 감소된 복수의 계층적 엘리먼트들을 렌더링하는 참조의 프레임을 변환시키는 수단; 및 변환된 렌더링 함수에 대해 에너지 보존 함수를 적용하는 수단을 포함한다.

일부 예들에서, 바이노럴 오디오 렌더링을 수행하는 수단은 결정된 변환 정보에 기초하여 렌더링 함수가 감소된 복수의 계층적 엘리먼트들을 렌더링하는 참조의 프레임을 변환시키는 수단; 및 곱셈 연산들을 이용하여 변환된 렌더링 함수를 복소 바이노럴 룸 임펄스 응답 함수와 결합하는 수단을 포함한다.

일부 예들에서, 바이노럴 오디오 렌더링을 수행하는 수단은 결정된 변환 정보에 기초하여 렌더링 함수가 감소된 복수의 계층적 엘리먼트들을 렌더링하는 참조의 프레임을 변환시키는 수단; 및 곱셈 연산들을 이용하여 그리고 콘볼루션 연산들을 요구하지 않으면서 변환된 렌더링 함수를 복소 바이노럴 룸 임펄스 응답 함수와 결합하는 수단을 포함한다.

일부 예들에서, 바이노럴 오디오 렌더링을 수행하는 수단은 결정된 변환 정보에 기초하여 렌더링 함수가 감소된 복수의 계층적 엘리먼트들을 렌더링하는 참조의 프레임을 변환시키는 수단; 회전된 바이노럴 오디오 렌더링 함수를 생성하기 위해 변환된 렌더링 함수를 복소 바이노럴 룸 임펄스 응답 함수와 결합하는 수단; 및 왼쪽 및 오른쪽 채널들을 생성하기 위해 회전된 바이노럴 오디오 렌더링 함수를 감소된 복수의 계층적 엘리먼트들에 적용하는 수단을 포함한다.

일부 예들에서, 디바이스는 인코딩된 오디오 데이터 및 변환 정보를 포함하는 비트스트림을 취출하는 수단; 비트스트림으로부터 인코딩된 오디오 데이터를 파싱하는 수단; 및 감소된 복수의 구면 조화 계수들을 생성하기 위해 파싱된 인코딩된 오디오 데이터를 디코딩하는 수단을 더 포함하고, 변환 정보를 결정하는 수단은 비트스트림으로부터 변환 정보를 파싱하는 것을 포함한다.

일부 예들에서, 디바이스는 인코딩된 오디오 데이터 및 변환 정보를 포함하는 비트스트림을 취출하는 수단; 비트스트림으로부터 인코딩된 오디오 데이터를 파싱하는 수단; 및 감소된 복수의 구면 조화 계수들을 생성하기 위해 고급 오디오 코딩 (AAC) 기법에 따라 파싱된 인코딩된 오디오 데이터를 디코딩하는 수단을 더 포함하고, 변환 정보를 결정하는 수단은 비트스트림으로부터 변환 정보를 파싱하는 수단을 포함한다.

일부 예들에서, 디바이스는 인코딩된 오디오 데이터 및 변환 정보를 포함하는 비트스트림을 취출하는 수단; 비트스트림으로부터 인코딩된 오디오 데이터를 파싱하는 수단; 및 감소된 복수의 구면 조화 계수들을 생성하기 위해 통합 스피치 및 오디오 코딩 (USAC) 기법에 따라 파싱된 인코딩된 오디오 데이터를 디코딩하는 수단을 더 포함하고, 변환 정보를 결정하는 수단은 비트스트림으로부터 변환 정보를 파싱하는 수단을 포함한다.

일부 예들에서, 디바이스는 복수의 구면 조화 계수들에 의해 표현되는 음장에 대한 청취자의 헤드의 포지션을 결정하는 수단; 및 결정된 변환 정보 및 청취자의 헤드의 결정된 포지션에 기초하여 업데이트된 변환 정보를 결정하는 수단을 더 포함하고, 바이노럴 오디오 렌더링을 수행하는 수단은 업데이트된 변환 정보에 기초하여 감소된 복수의 계층적 엘리먼트들에 대해 바이노럴 오디오 렌더링을 수행하는 수단을 포함한다.

일 예는, 실행되는 경우, 하나 이상의 프로세서들로 하여금 음장을 기술하는 것에 관계된 정보를 제공하는 복수의 계층적 엘리먼트들의 수를 감소시키기 위해 음장이 어떻게 변환되었는지를 기술하는 변환 정보를 결정하게 하고; 결정된 변환 정보에 기초하여 감소된 복수의 계층적 엘리먼트들에 대해 바이노럴 오디오 렌더링을 수행하게 하는 명령들을 저장한 비일시적 컴퓨터-판독가능 저장 매체에 대한 것이다.

또한, 위에서 설명된 예들 중 임의의 예에서 제시된 특정 특징들 중 임의의 특징은 설명된 기법들의 유리한 실시형태에 결합될 수도 있다. 즉, 특정 특징들 중 임의의 특징은 일반적으로 기법들의 모든 예들에 적용가능하다.

기법들이 다양한 실시형태들이 설명되었다. 이들 및 다른 실시형태들은 다음의 청구항들의 범위 내에 있다.

Claims

바이노럴 오디오 렌더링의 방법으로서,
변환 정보를 획득하는 단계로서, 상기 변환 정보는 복수의 계층적 엘리먼트들의 수를 감소된 복수의 계층적 엘리먼트들로 감소시키기 위해 음장이 어떻게 변환되었는지를 기술하는, 상기 변환 정보를 획득하는 단계; 및
상기 변환 정보에 기초하여 상기 감소된 복수의 계층적 엘리먼트들에 대하여 상기 바이노럴 오디오 렌더링을 수행하는 단계를 포함하는, 바이노럴 오디오 렌더링의 방법.
제 1 항에 있어서,
상기 바이노럴 오디오 렌더링을 수행하는 단계는 참조의 프레임을 변환시키는 단계를 포함하고, 상기 참조의 프레임에 의해 상기 변환 정보에 기초하여 복수의 채널들에 대해 상기 감소된 복수의 계층적 엘리먼트들을 렌더링하는, 바이노럴 오디오 렌더링의 방법.
제 1 항에 있어서,
상기 변환 정보는 적어도 고도각 및 방위각을 명시하는 회전 정보를 포함하고, 상기 고도각 및 상기 방위각에 의해 상기 음장이 변환된, 바이노럴 오디오 렌더링의 방법.
제 1 항에 있어서,
상기 바이노럴 오디오 렌더링을 수행하는 단계는,
참조의 프레임을 변환시키는 단계로서, 상기 참조의 프레임에 의해, 렌더링 함수가 상기 변환 정보에 기초하여 상기 감소된 복수의 계층적 엘리먼트들을 렌더링하는, 상기 참조의 프레임을 변환시키는 단계; 및
변환된 상기 렌더링 함수에 대하여 에너지 보존 함수를 적용하는 단계를 포함하는, 바이노럴 오디오 렌더링의 방법.
제 1 항에 있어서,
상기 바이노럴 오디오 렌더링을 수행하는 단계는,
참조의 프레임을 변환시키는 단계로서, 상기 참조의 프레임에 의해, 렌더링 함수가 상기 변환 정보에 기초하여 상기 감소된 복수의 계층적 엘리먼트들을 렌더링하는, 상기 참조의 프레임을 변환시키는 단계; 및
곱셈 연산들을 이용하여 변환된 상기 렌더링 함수를 복소 바이노럴 룸 임펄스 응답 함수와 결합하는 단계를 포함하는, 바이노럴 오디오 렌더링의 방법.
제 1 항에 있어서,
상기 바이노럴 오디오 렌더링을 수행하는 단계는,
참조의 프레임을 변환시키는 단계로서, 상기 참조의 프레임에 의해, 렌더링 함수가 상기 변환 정보에 기초하여 상기 감소된 복수의 계층적 엘리먼트들을 렌더링하는, 상기 참조의 프레임을 변환시키는 단계; 및
곱셈 연산들을 이용하고 콘볼루션 연산들은 요구하지 않으면서 변환된 상기 렌더링 함수를 복소 바이노럴 룸 임펄스 응답 함수와 결합하는 단계를 포함하는, 바이노럴 오디오 렌더링의 방법.
제 1 항에 있어서,
상기 바이노럴 오디오 렌더링을 수행하는 단계는,
참조의 프레임을 변환시키는 단계로서, 상기 참조의 프레임에 의해, 렌더링 함수가 상기 변환 정보에 기초하여 상기 감소된 복수의 계층적 엘리먼트들을 렌더링하는, 상기 참조의 프레임을 변환시키는 단계;
변환된 상기 렌더링 함수를 복소 바이노럴 룸 임펄스 응답 함수와 결합하여 회전된 바이노럴 오디오 렌더링 함수를 생성하는 단계; 및
상기 회전된 바이노럴 오디오 렌더링 함수를 상기 감소된 복수의 계층적 엘리먼트들에 적용하여 왼쪽 채널 및 오른쪽 채널을 생성하는 단계를 포함하는, 바이노럴 오디오 렌더링의 방법.
제 1 항에 있어서,
상기 복수의 계층적 엘리먼트들은 복수의 구면 조화 계수들을 포함하고, 상기 복수의 구면 조화 계수들 중 적어도 하나의 구면 조화 계수는 1 보다 큰 오더와 연관되는, 바이노럴 오디오 렌더링의 방법.
제 1 항에 있어서,
인코딩된 오디오 데이터 및 상기 변환 정보를 포함하는 비트스트림을 획득하는 단계;
상기 비트스트림으로부터 상기 인코딩된 오디오 데이터를 파싱하여 파싱된 인코딩된 오디오 데이터를 획득하는 단계; 및
상기 파싱된 인코딩된 오디오 데이터를 디코딩하여 감소된 복수의 구면 조화 계수들을 획득하는 단계를 더 포함하고,
상기 변환 정보를 획득하는 것은 상기 비트스트림으로부터 상기 변환 정보를 파싱하는 것을 포함하는, 바이노럴 오디오 렌더링의 방법.
제 1 항에 있어서,
복수의 구면 조화 계수들에 의해 표현된 상기 음장에 대한 청취자의 헤드의 포지션을 획득하는 단계; 및
상기 변환 정보 및 상기 청취자의 헤드의 포지션에 기초하여 업데이트된 변환 정보를 결정하는 단계를 더 포함하고,
상기 바이노럴 오디오 렌더링을 수행하는 단계는 상기 업데이트된 변환 정보에 기초하여 상기 감소된 복수의 계층적 엘리먼트들에 대하여 상기 바이노럴 오디오 렌더링을 수행하는 단계를 포함하는, 바이노럴 오디오 렌더링의 방법.
하나 이상의 프로세서들을 포함하는 디바이스로서,
상기 하나 이상의 프로세서들은,
변환 정보를 획득하는 것으로서, 상기 변환 정보는 복수의 계층적 엘리먼트들의 수를 감소된 복수의 계층적 엘리먼트들로 감소시키기 위해 음장이 어떻게 변환되었는지를 기술하는, 상기 변환 정보를 획득하고;
상기 변환 정보에 기초하여 상기 감소된 복수의 계층적 엘리먼트들에 대하여 바이노럴 오디오 렌더링을 수행하도록 구성되는, 하나 이상의 프로세서들을 포함하는 디바이스.
제 11 항에 있어서,
상기 바이노럴 오디오 렌더링을 수행하기 위해, 상기 하나 이상의 프로세서들은, 참조의 프레임을 변환시키도록 더 구성되고, 상기 참조의 프레임에 의해 상기 변환 정보에 기초하여 복수의 채널들에 대해 상기 감소된 복수의 계층적 엘리먼트들을 렌더링하는, 하나 이상의 프로세서들을 포함하는 디바이스.
제 11 항에 있어서,
상기 변환 정보는 적어도 고도각 및 방위각을 명시하는 회전 정보를 포함하고, 상기 고도각 및 상기 방위각에 의해 상기 음장이 변환된, 하나 이상의 프로세서들을 포함하는 디바이스.
제 11 항에 있어서,
상기 바이노럴 오디오 렌더링을 수행하기 위해, 상기 하나 이상의 프로세서들은,
참조의 프레임을 변환시키는 것으로서, 상기 참조의 프레임에 의해, 렌더링 함수가 상기 변환 정보에 기초하여 상기 감소된 복수의 계층적 엘리먼트들을 렌더링하는, 상기 참조의 프레임을 변환시키고,
변환된 상기 렌더링 함수에 대하여 에너지 보존 함수를 적용하도록 더 구성되는, 하나 이상의 프로세서들을 포함하는 디바이스.
제 11 항에 있어서,
상기 바이노럴 오디오 렌더링을 수행하기 위해, 상기 하나 이상의 프로세서들은,
참조의 프레임을 변환시키는 것으로서, 상기 참조의 프레임에 의해, 렌더링 함수가 상기 변환 정보에 기초하여 상기 감소된 복수의 계층적 엘리먼트들을 렌더링하는, 상기 참조의 프레임을 변환시키고,
곱셈 연산들을 이용하여 변환된 상기 렌더링 함수를 복소 바이노럴 룸 임펄스 응답 함수와 결합하도록 더 구성되는, 하나 이상의 프로세서들을 포함하는 디바이스.
제 11 항에 있어서,
상기 바이노럴 오디오 렌더링을 수행하기 위해, 상기 하나 이상의 프로세서들은,
참조의 프레임을 변환시키는 것으로서, 상기 참조의 프레임에 의해, 렌더링 함수가 상기 변환 정보에 기초하여 상기 감소된 복수의 계층적 엘리먼트들을 렌더링하는, 상기 참조의 프레임을 변환시키고,
곱셈 연산들을 이용하고 콘볼루션 연산들은 요구하지 않으면서 변환된 상기 렌더링 함수를 복소 바이노럴 룸 임펄스 응답 함수와 결합하도록 더 구성되는, 하나 이상의 프로세서들을 포함하는 디바이스.
제 11 항에 있어서,
상기 바이노럴 오디오 렌더링을 수행하기 위해, 상기 하나 이상의 프로세서들은,
참조의 프레임을 변환시키는 것으로서, 상기 참조의 프레임에 의해, 렌더링 함수가 상기 변환 정보에 기초하여 상기 감소된 복수의 계층적 엘리먼트들을 렌더링하는, 상기 참조의 프레임을 변환시키고,
변환된 상기 렌더링 함수를 복소 바이노럴 룸 임펄스 응답 함수와 결합하여 회전된 바이노럴 오디오 렌더링 함수를 생성하며,
상기 회전된 바이노럴 오디오 렌더링 함수를 상기 감소된 복수의 계층적 엘리먼트들에 적용하여 왼쪽 채널 및 오른쪽 채널을 생성하도록 더 구성되는, 하나 이상의 프로세서들을 포함하는 디바이스.
제 11 항에 있어서,
상기 복수의 계층적 엘리먼트들은 복수의 구면 조화 계수들을 포함하고, 상기 복수의 구면 조화 계수들 중 적어도 하나의 구면 조화 계수는 1 보다 큰 오더와 연관되는, 하나 이상의 프로세서들을 포함하는 디바이스.
제 11 항에 있어서,
상기 하나 이상의 프로세서들은,
인코딩된 오디오 데이터 및 상기 변환 정보를 포함하는 비트스트림을 획득하고;
상기 비트스트림으로부터 상기 인코딩된 오디오 데이터를 파싱하며;
파싱된 상기 코딩된 오디오 데이터를 디코딩하여 감소된 복수의 구면 조화 계수들을 획득하도록 더 구성되고,
상기 변환 정보를 획득하기 위해, 상기 하나 이상의 프로세서들은, 상기 비트스트림으로부터 상기 변환 정보를 파싱하도록 더 구성되는, 하나 이상의 프로세서들을 포함하는 디바이스.
제 11 항에 있어서,
상기 하나 이상의 프로세서들은,
감소된 복수의 계층적 엘리먼트들에 대한 복수의 구면 조화 계수들에 의해 표현된 상기 음장에 대한 청취자의 헤드의 포지션을 획득하고;
상기 변환 정보 및 상기 청취자의 헤드의 포지션에 기초하여 업데이트된 변환 정보를 결정하도록 더 구성되고,
상기 바이노럴 오디오 렌더링을 수행하기 위해, 상기 하나 이상의 프로세서들은 상기 업데이트된 변환 정보에 기초하여 상기 감소된 복수의 계층적 엘리먼트들에 대하여 상기 바이노럴 오디오 렌더링을 수행하도록 더 구성되는, 하나 이상의 프로세서들을 포함하는 디바이스.
변환 정보를 획득하는 수단으로서, 상기 변환 정보는 복수의 계층적 엘리먼트들의 수를 감소된 복수의 계층적 엘리먼트들로 감소시키기 위해 음장이 어떻게 변환되었는지를 기술하는, 상기 변환 정보를 획득하는 수단; 및
상기 변환 정보에 기초하여 상기 감소된 복수의 계층적 엘리먼트들에 대하여 상기 바이노럴 오디오 렌더링을 수행하는 수단을 포함하는, 장치.
제 21 항에 있어서,
상기 바이노럴 오디오 렌더링을 수행하는 수단은 참조의 프레임을 변환시키는 수단을 포함하고, 상기 참조의 프레임에 의해 상기 변환 정보에 기초하여 복수의 채널들에 대해 상기 감소된 복수의 계층적 엘리먼트들을 렌더링하는, 장치.
제 21 항에 있어서,
상기 변환 정보는 적어도 고도각 및 방위각을 명시하는 회전 정보를 포함하고, 상기 고도각 및 상기 방위각에 의해 상기 음장이 변환된, 장치.
제 21 항에 있어서,
상기 바이노럴 오디오 렌더링을 수행하는 수단은,
참조의 프레임을 변환시키는 수단으로서, 상기 참조의 프레임에 의해, 렌더링 함수가 상기 변환 정보에 기초하여 상기 감소된 복수의 계층적 엘리먼트들을 렌더링하는, 상기 참조의 프레임을 변환시키는 수단; 및
변환된 상기 렌더링 함수에 대하여 에너지 보존 함수를 적용하는 수단을 포함하는, 장치.
제 21 항에 있어서,
상기 바이노럴 오디오 렌더링을 수행하는 수단은,
참조의 프레임을 변환시키는 수단으로서, 상기 참조의 프레임에 의해, 렌더링 함수가 상기 변환 정보에 기초하여 상기 감소된 복수의 계층적 엘리먼트들을 렌더링하는, 상기 참조의 프레임을 변환시키는 수단; 및
곱셈 연산들을 이용하고 콘볼루션 연산들은 요구하지 않으면서 변환된 상기 렌더링 함수를 복소 바이노럴 룸 임펄스 응답 함수와 결합하는 수단을 포함하는, 장치.
제 21 항에 있어서,
상기 바이노럴 오디오 렌더링을 수행하는 수단은,
참조의 프레임을 변환시키는 수단으로서, 상기 참조의 프레임에 의해, 렌더링 함수가 상기 변환 정보에 기초하여 상기 감소된 복수의 계층적 엘리먼트들을 렌더링하는, 상기 참조의 프레임을 변환시키는 수단;
변환된 상기 렌더링 함수를 복소 바이노럴 룸 임펄스 응답 함수와 결합하여 회전된 바이노럴 오디오 렌더링 함수를 생성하는 수단; 및
상기 회전된 바이노럴 오디오 렌더링 함수를 상기 감소된 복수의 계층적 엘리먼트들에 적용하여 왼쪽 채널 및 오른쪽 채널을 생성하는 수단을 포함하는, 장치.
제 21 항에 있어서,
상기 복수의 계층적 엘리먼트들은 복수의 구면 조화 계수들을 포함하고, 상기 복수의 구면 조화 계수들 중 적어도 하나의 구면 조화 계수는 1 보다 큰 오더와 연관되는, 장치.
제 21 항에 있어서,
인코딩된 오디오 데이터 및 상기 변환 정보를 포함하는 비트스트림을 획득하는 수단;
상기 비트스트림으로부터 상기 인코딩된 오디오 데이터를 파싱하여 파싱된 인코딩된 오디오 데이터를 획득하는 수단; 및
상기 파싱된 인코딩된 오디오 데이터를 디코딩하여 감소된 복수의 구면 조화 계수들을 획득하는 수단을 더 포함하고,
상기 변환 정보를 획득하는 수단은 상기 비트스트림으로부터 상기 변환 정보를 파싱하는 수단을 포함하는, 장치.
제 21 항에 있어서,
복수의 구면 조화 계수들에 의해 표현된 상기 음장에 대한 청취자의 헤드의 포지션을 획득하는 수단; 및
상기 변환 정보 및 상기 청취자의 헤드의 포지션에 기초하여 업데이트된 변환 정보를 결정하는 수단을 더 포함하고,
상기 바이노럴 오디오 렌더링을 수행하는 수단은 상기 업데이트된 변환 정보에 기초하여 상기 감소된 복수의 계층적 엘리먼트들에 대하여 상기 바이노럴 오디오 렌더링을 수행하는 수단을 포함하는, 장치.
저장된 명령들을 포함하는 비일시적 컴퓨터-판독가능 저장 매체로서,
상기 명령들은, 실행되는 경우, 하나 이상의 프로세서들로 하여금,
변환 정보를 획득하는 것으로서, 상기 변환 정보는 복수의 계층적 엘리먼트들의 수를 감소된 복수의 계층적 엘리먼트들로 감소시키기 위해 음장이 어떻게 변환되었는지를 기술하는, 상기 변환 정보를 획득하고;
상기 변환 정보에 기초하여 상기 감소된 복수의 계층적 엘리먼트들에 대하여 상기 바이노럴 오디오 렌더링을 수행하게 하는, 비일시적 컴퓨터-판독가능 저장 매체.