KR20170015897A

KR20170015897A - 고차 앰비소닉 오디오 렌더러들에 대한 희소성 정보의 획득

Info

Publication number: KR20170015897A
Application number: KR1020167033117A
Authority: KR
Inventors: 닐스 귄터 페터스; 디판잔 센; 마틴 제임스 모렐
Original assignee: 퀄컴 인코포레이티드
Priority date: 2014-05-30
Filing date: 2015-05-29
Publication date: 2017-02-10
Also published as: BR112016028215B1; BR112016028215A2; CA2949108C; CN106415712B; EP3149971A1; JP6297721B2; CN110827839B; CA2949108A1; KR101818877B1; CN110827839A; HUE042058T2; CN106415712A; WO2015184307A1; JP2017520177A; ES2699657T3; EP3149971B1

Abstract

일반적으로, 비트스트림에서 오디오 렌더링 정보를 획득하기 위한 기법들이 설명된다. 프로세서 및 메모리를 포함하는, 고차 앰비소닉 계수들을 렌더링하도록 구성된 디바이스는 기법들을 수행할 수도 있다. 프로세서는 고차 앰비소닉 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되는 행렬의 희소성을 나타내는 희소성 정보를 획득하도록 구성될 수도 있다. 메모리는 희소성 정보를 저장하도록 구성될 수도 있다.

Description

고차 앰비소닉 오디오 렌더러들에 대한 희소성 정보의 획득{OBTAINING SPARSENESS INFORMATION FOR HIGHER ORDER AMBISONIC AUDIO RENDERERS}

본 출원은, 발명의 명칭이 "SIGNALING AUDIO RENDERING INFORMATION IN A BITSTREAM" 인, 2014년 7월 11일자로 출원된 미국 가출원 제62/023,662호, 및 발명의 명칭이 "SIGNALING AUDIO RENDERING INFORMATION IN A BITSTREAM" 인, 2014년 5월 30일자로 출원된 미국 가출원 제62/005,829호의 이익을 주장하고, 전술한 미국 가출원들 각각의 전체 내용은 이로써 본 명세서에 이들 각각의 전부가 제시된 것처럼 참조로 포함된다.

본 개시물은 정보를 렌더링 (rendering) 하는 것에 관한 것으로, 더 구체적으로는, 고차 앰비소닉 (higher-order ambisonic; HOA) 오디오 데이터에 대한 정보를 렌더링하는 것이다.

오디오 콘텐츠의 생성 동안, 사운드 엔지니어는 오디오 콘텐츠를 재생하는데 이용되는 스피커들의 타깃 구성들에 대해 오디오 콘텐츠를 맞추려는 시도시에 특정 렌더러 (renderer) 를 이용하여 오디오 콘텐츠를 렌더링할 수도 있다. 다시 말해, 사운드 엔지니어는 타깃화된 구성에 배열된 스피커들을 이용하여 오디오 콘텐츠를 렌더링하고 그 렌더링된 오디오 콘텐츠를 재생할 수도 있다. 사운드 엔지니어는 그 후에 타깃화된 구성에 배열된 스피커들을 이용하여 오디오 콘텐츠의 다양한 양태들을 리믹싱하고, 리믹싱된 오디오 콘텐츠를 렌더링하며, 렌더링된, 리믹싱된 오디오 콘텐츠를 다시 재생할 수도 있다. 사운드 엔지니어는 소정의 예술적 의도가 오디오 콘텐츠에 의해 제공될 때까지 이러한 방식으로 반복할 수도 있다. 이러한 방법으로, 사운드 엔지니어는 (예를 들어, 오디오 콘텐츠와 함께 재생된 비디오 콘텐츠를 수반하기 위해) 재생 동안 소정의 예술적 의도를 제공하거나 또는 소정의 음장 (sound field) 을 제공하는 오디오 콘텐츠를 생성할 수도 있다.

일반적으로, 오디오 데이터를 표현하는 비트스트림에서 오디오 렌더링 정보를 특정하기 위한 기법들이 설명된다. 다시 말해, 이 기법들은 오디오 콘텐츠 생성 동안 이용된 오디오 렌더링 정보를 재생 디바이스에 시그널링하게 하는 방법을 제공할 수도 있고, 이 재생 디바이스는 그 후에 오디오 렌더링 정보를 이용하여 오디오 콘텐츠를 렌더링할 수도 있다. 이러한 방식으로 렌더링 정보를 제공하는 것은 재생 디바이스로 하여금 사운드 엔지니어에 의해 의도된 방식으로 오디오 콘텐츠를 렌더링하는 것을 가능하게 하고, 그에 의해 예술적 의도가 청취자에 의해 잠재적으로 이해되도록 오디오 콘텐츠의 적절한 재생을 잠재적으로 보장한다. 다시 말해, 사운드 엔지니어에 의한 렌더링 동안 이용되는 렌더링 정보가 본 개시물에서 설명되는 기법들에 따라 제공되어, 오디오 재생 디바이스가 그 렌더링 정보를 활용하여 사운드 엔지니어에 의해 의도된 방식으로 오디오 콘텐츠를 렌더링할 수도 있어서, 그에 의해 이 오디오 렌더링 정보를 제공하지 않는 시스템들에 비해 오디오 콘텐츠의 생성 및 재생 양쪽 동안 더 일관성있는 경험을 보장한다.

하나의 양태에서, 고차 앰비소닉 계수들을 렌더링하도록 구성된 디바이스는, 고차 앰비소닉 계수들을 복수의 스피커 피드 (feed) 들로 렌더링하는데 이용되는 행렬의 희소성 (sparseness) 을 나타내는 희소성 정보를 획득하도록 구성된 하나 이상의 프로세서들, 및 희소성 정보를 저장하도록 구성된 메모리를 포함한다.

다른 양태에서, 고차 앰비소닉 계수들을 렌더링하는 방법은, 복수의 스피커 피드들을 생성하기 위해 고차 앰비소닉 계수들을 렌더링하는데 이용되는 행렬의 희소성을 나타내는 희소성 정보를 획득하는 단계를 포함한다.

다른 양태에서, 비트스트림을 생성하도록 구성된 디바이스는, 행렬을 저장하도록 구성된 메모리, 및 복수의 스피커 피드들을 생성하기 위해 고차 앰비소닉 계수들을 렌더링하는데 이용되는 행렬의 희소성을 나타내는 희소성 정보를 획득하도록 구성된 하나 이상의 프로세서들을 포함한다.

다른 양태에서, 비트스트림을 생성하는 방법은, 복수의 스피커 피드들을 생성하기 위해 고차 앰비소닉 계수들을 렌더링하는데 이용되는 행렬의 희소성을 나타내는 희소성 정보를 획득하는 단계를 포함한다.

다른 양태에서, 고차 앰비소닉 계수들을 렌더링하도록 구성된 디바이스는, 복수의 스피커 피드들을 생성하기 위해 고차 앰비소닉 계수들을 렌더링하는데 이용되는 행렬의 부호 대칭성을 나타내는 부호 대칭성 정보를 획득하도록 구성된 하나 이상의 프로세서들, 및 희소성 정보를 저장하도록 구성된 메모리를 포함한다.

다른 양태에서, 고차 앰비소닉 계수들을 렌더링하는 방법은, 복수의 스피커 피드들을 생성하기 위해 고차 앰비소닉 계수들을 렌더링하는데 이용되는 행렬의 부호 대칭성을 나타내는 부호 대칭성 정보를 획득하는 단계를 포함한다.

다른 양태에서, 비트스트림을 생성하도록 구성된 디바이스는, 복수의 스피커 피드들을 생성하기 위해 고차 앰비소닉 계수를 렌더링하는데 이용되는 행렬을 저장하도록 구성된 메모리, 및 행렬의 부호 대칭성을 나타내는 부호 대칭성 정보에 대해 구성된 하나 이상의 프로세서들을 포함한다.

기법들의 하나 이상의 양태들의 상세들이 아래의 설명 및 첨부 도면들에 제시된다. 기법들의 다른 피처들, 목적들, 및 이점들은 이 설명 및 도면들, 그리고 청구항들로부터 명백해질 것이다.

도 1 은 다양한 차수 (order) 들 및 하위차수 (sub-order) 들의 구면 조화 기저 함수 (spherical harmonic basis function) 들을 예시하는 다이어그램이다.
도 2 는 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 시스템을 예시하는 다이어그램이다.
도 3 은 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 도 2 의 예에 도시된 오디오 인코딩 디바이스의 하나의 예를 더 상세히 예시하는 블록 다이어그램이다.
도 4 는 도 2 의 오디오 디코딩 디바이스를 더 상세히 예시하는 블록 다이어그램이다.
도 5 는 본 개시물에서 설명되는 벡터-기반 합성 기법들의 다양한 양태들을 수행함에 있어서 오디오 인코딩 디바이스의 예시적인 동작을 예시하는 플로우차트이다.
도 6 은 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행함에 있어서 오디오 디코딩 디바이스의 예시적인 동작을 예시하는 플로우차트이다.
도 7 은 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행함에 있어서 도 2 의 예에 도시된 하나의 시스템과 같은 시스템의 예시적인 동작을 예시하는 플로우차트이다.
도 8a 내지 도 8d 는 본 개시물에서 설명되는 기법들에 따라 형성되는 비트스트림들을 예시하는 다이어그램이다.
도 8e 내지 도 8g 는 압축된 공간 성분들을 더 상세히 특정할 수도 있는 비트스트림 또는 사이드 채널 정보의 부분들을 예시하는 다이어그램들이다.
도 9 는 고차 앰비소닉 (HOA) 렌더링 행렬 내의 HOA 차수 의존 최소 및 최대 이득들의 일 예를 예시하는 다이어그램이다.
도 10 은 22 개의 라우드스피커 (loudspeaker) 들에 대한 부분적 희소 6 차 HOA 렌더링 행렬을 예시하는 다이어그램이다.
도 11 은 대칭성 속성들의 시그널링을 예시하는 플로우 다이어그램이다.

요즘에는 서라운드 사운드의 진화가 엔터테인먼트를 위한 많은 출력 포맷들을 이용가능하게 하였다. 이러한 소비자 서라운드 사운드 포맷들의 예들은, 이들이 소정의 기하학적 좌표들에서의 라우드스피커 (loudspeaker) 들로의 피드 (feed) 들을 암시적으로 특정한다는 점에서 대부분 '채널' 기반이다. 소비자 서라운드 사운드 포맷들은 대중적인 5.1 포맷 (다음 6 개의 채널들: 전방 좌측 (FL), 전방 우측 (FR), 중앙 또는 전방 중앙, 후방 좌측 또는 서라운드 좌측, 후방 우측 또는 서라운드 우측, 및 저주파 효과들 (low frequency effects; LFE) 을 포함함), 성장하는 7.1 포맷, (예를 들어, 울트라 고선명 텔레비전 표준으로 이용하기 위한) 22.2 포맷 및 7.1.4 포맷과 같은 하이트 스피커 (height speaker) 들을 포함하는 다양한 포맷들을 포함한다. 비-소비자 포맷들은, 종종 '서라운드 어레이들' 이라고 지칭되는 (대칭 및 비대칭 지오메트리들에 있어서) 임의의 개수의 스피커들에 걸쳐 있을 수 있다. 이러한 어레이의 하나의 예는 절단된 20면체의 코너들 상의 좌표들에 포지셔닝된 32 개의 라우드스피커들을 포함한다.

장래의 MPEG 인코더로의 입력은 옵션적으로 3 개의 가능한 포맷들 중 하나이다: (i) 미리 특정된 포지션들에서의 라우드스피커들을 통해 재생되도록 의도된 (위에서 논의된 바와 같은) 전통적인 채널-기반 오디오; (ii) (다른 정보 중에서도) 위치 좌표들을 포함하는 연관된 메타데이터를 갖는 단일 오디오 오브젝트들에 대한 이산 펄스-코드-변조 (pulse-code-modulation; PCM) 데이터를 수반하는 오브젝트-기반 오디오; 및 (iii) 구면 조화 기저 함수 (spherical harmonic basis function) 들의 계수들 (또한 "구면 조화 계수들 (spherical harmonic coefficients)" 또는 SHC, "고차 앰비소닉스 (Higher-order Ambisonics)" 또는 HOA, 및 "HOA 계수들" 이라고도 지칭됨) 을 이용하여 음장 (soundfield) 을 표현하는 것을 수반하는 장면-기반 오디오. 장래의 MPEG 인코더는, 스위스 제네바에서 2013년 1월에 공개되고 http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip 에서 입수가능한 국제 표준화 기구/국제 전자기술 위원회 (ISO)/(IEC) JTC1/SC29/WG11/N13411 에 의한 "Call for Proposals for 3D Audio" 라는 명칭의 문헌에 더 상세히 설명될 수도 있다.

마켓에는 다양한 '서라운드-사운드' 채널-기반 포맷들이 존재한다. 이들은, 예를 들어, 5.1 홈 시어터 시스템 (스테레오를 넘어 거실로 진출한다는 관점에서 가장 성공적이었음) 으로부터 NHK (Nippon Hoso Kyokai 또는 일본 방송사) 에 의해 개발된 22.2 시스템까지의 범위에 있다. 콘텐츠 크리에이터들 (예를 들어, 헐리우드 스튜디오들 (Hollywood studios)) 은 영화용 사운드트랙을 한 번 제작하고 싶어하고, 각각의 스피커 구성을 위해 그것을 리믹싱하려는 노력을 들이지 않는다. 최근, 표준 개발 기구들은 표준화된 비트스트림으로의 인코딩, 및 재생 (렌더러 (renderer) 를 수반함) 의 위치에서 스피커 지오메트리 (및 개수) 및 음향 조건들에 대해 적응가능하고 구속받지 않는 후속 디코딩을 제공하는 방법들을 고려하고 있었다.

콘텐츠 크리에이터들에 대해 이러한 유연성을 제공하기 위해, 엘리먼트들의 계층적 세트가 음장을 표현하기 위해 이용될 수도 있다. 엘리먼트들의 계층적 세트는, 저차 엘리먼트들의 기본 세트가 모델링된 음장의 전체 표현을 제공하도록 엘리먼트들이 오더링되는 (ordered) 엘리먼트들의 세트를 지칭할 수도 있다. 그 세트가 고차 엘리먼트들을 포함하도록 확장됨에 따라, 그 표현은 더 상세화되어, 해상도를 증가시킨다.

엘리먼트들의 계층적 세트의 하나의 예는 구면 조화 계수들 (SHC) 의 세트이다. 다음 식은 SHC 를 이용하여 음장의 디스크립션 (description) 또는 표현을 나타낸다:

이 식은 시간 t 에서 음장의 임의의 포인트

에서의 압력

가 SHC,

에 의해 고유하게 표현될 수 있음을 나타낸다. 여기서,

이고, c 는 사운드의 속도 (~343 m/s) 이고,

은 참조의 포인트 (또는 관측 포인트) 이고,

은 차수 (order) n 의 구면 베셀 함수이며,

은 차수 n 및 하위차수 (sub-order) m 의 구면 조화 기저 함수들이다. 대괄호들에서의 용어는 이산 푸리에 변환 (DFT), 이산 코사인 변환 (DCT), 또는 웨이블릿 변환과 같은 다양한 시간-주파수 변환들에 의해 근사화될 수 있는 신호의 주파수-도메인 표현 (즉,

) 인 것이 인지될 수 있다. 계층적 세트들의 다른 예들은 웨이블릿 변환 계수들의 세트들 및 다해상도 기저 함수들의 계수들의 다른 세트들을 포함한다.

도 1 은 제로 차수 (n = 0) 로부터 제 4 차수 (n = 4) 까지의 구면 조화 기저 함수들을 예시하는 다이어그램이다. 도시될 수 있는 바와 같이, 각각의 차수에 대해, 예시 목적들의 용이를 위해 도 1 의 예에 도시되지만 명시적으로 언급되지 않은 하위차수들 m 의 확장이 존재한다.

SHC

는 다양한 마이크로폰 어레이 구성들에 의해 물리적으로 포착 (예를 들어, 레코딩) 될 수 있거나 또는, 대안적으로, 음장의 채널-기반 또는 오브젝트-기반 디스크립션들로부터 도출될 수 있다. SHC 는 장면-기반 오디오를 표현하는데, 여기서 SHC 는 더 효율적인 송신 또는 저장을 촉진할 수도 있는 인코딩된 SHC 를 획득하기 위해 오디오 인코더에 입력될 수도 있다. 예를 들어, (1+4)² (25, 그리고 그에 따라 제 4 차수) 계수들을 수반하는 제 4 차수 표현이 이용될 수도 있다.

위에서 언급된 바와 같이, SHC 는 마이크로폰 어레이를 이용한 마이크로폰 레코딩으로부터 도출될 수도 있다. SHC 가 어떻게 마이크로폰 어레이들로부터 도출될 수도 있는지의 다양한 예들은 『Poletti, M., "Three-Dimensional Surround Sound Systems Based on Spherical Harmonics", J. Audio Eng. Soc., Vol. 53, No. 11, 2005년 11월, pp. 1004-1025』에 설명된다.

SHC들이 어떻게 오브젝트-기반 디스크립션으로부터 도출될 수도 있는지를 예시하기 위해, 다음 식을 고려한다. 개별 오디오 오브젝트에 대응하는 음장에 대한 계수들

는 다음과 같이 표현될 수도 있고:

여기서 i 는

이고,

은 차수 n 의 (제 2 종의) 구면 핸켈 함수이고,

는 오브젝트의 위치이다. (예를 들어, PCM 스트림에 대해 고속 푸리에 변환을 수행하는 것과 같은 시간-주파수 분석 기법들을 이용하여) 주파수의 함수로서 오브젝트 소스 에너지

를 아는 것은 각각의 PCM 오브젝트 및 대응하는 위치를 SHC,

로 컨버팅하게 한다. 추가로, 이것은 (상기가 선형 및 직교 분해이기 때문에) 각각의 오브젝트에 대한

계수들이 가산적임을 나타낼 수 있다. 이러한 방식으로, 다수의 PCM 오브젝트들은 (예를 들어, 개별 오브젝트들에 대한 계수 벡터들의 합으로서)

계수들에 의해 표현될 수 있다. 본질적으로, 계수들은 음장에 관한 정보 (3D 좌표들의 함수로서의 압력) 를 포함하고, 상기는, 관측 포인트

의 부근에서, 개별 오브젝트들로부터 전체 음장의 표현으로의 변환을 표현한다. 나머지 도면들은 오브젝트-기반 및 SHC-기반 오디오 코딩의 맥락에서 아래에 설명된다.

도 2 는 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 시스템 (10) 을 예시하는 다이어그램이다. 도 2 의 예에 도시된 바와 같이, 시스템 (10) 은 콘텐츠 크리에이터 디바이스 (12) 및 콘텐츠 소비자 디바이스 (14) 를 포함한다. 콘텐츠 크리에이터 디바이스 (12) 및 콘텐츠 소비자 디바이스 (14) 의 맥락에서 설명되지만, 그 기법들은 음장의 (HOA 계수들이라고도 또한 지칭될 수도 있는) SHC들 또는 임의의 다른 계층적 표현이 오디오 데이터를 표현하는 비트스트림을 형성하도록 인코딩되는 임의의 맥락에서 구현될 수도 있다. 더욱이, 콘텐츠 크리에이터 디바이스 (12) 는 몇몇 예들을 제공하자면 핸드셋 (또는 셀룰러 폰), 태블릿 컴퓨터, 스마트 폰, 또는 데스크톱 컴퓨터를 포함하여, 본 개시물에서 설명되는 기법들을 구현하는 것이 가능한 임의의 형태의 컴퓨팅 디바이스를 표현할 수도 있다. 이와 마찬가지로, 콘텐츠 소비자 디바이스 (14) 는 몇몇 예들을 제공하자면 핸드셋 (또는 셀룰러 폰), 태블릿 컴퓨터, 스마트 폰, 셋톱 박스, 또는 데스크톱 컴퓨터를 포함하여, 본 개시물에서 설명되는 기법들을 구현하는 것이 가능한 임의의 형태의 컴퓨팅 디바이스를 표현할 수도 있다.

콘텐츠 크리에이터 디바이스 (12) 는 콘텐츠 소비자 디바이스 (14) 와 같은 콘텐츠 소비자 디바이스들의 오퍼레이터들에 의한 소비를 위해 다중-채널 오디오 콘텐츠를 생성할 수도 있는 영화 스튜디오 또는 다른 엔터티에 의해 동작될 수도 있다. 일부 예들에서, 콘텐츠 크리에이터 디바이스 (12) 는 HOA 계수들 (11) 을 압축하고자 하는 개별 사용자에 의해 동작될 수도 있다. 종종, 콘텐츠 크리에이터는 비디오 콘텐츠와 함께 오디오 콘텐츠를 생성한다. 콘텐츠 소비자 디바이스 (14) 는 개인에 의해 동작될 수도 있다. 콘텐츠 소비자 디바이스 (14) 는, 다중-채널 오디오 콘텐츠로서의 재생을 위해 SHC 를 렌더링 (rendering) 하는 것이 가능한 임의의 형태의 오디오 재생 시스템을 지칭할 수도 있는 오디오 재생 시스템 (16) 을 포함할 수도 있다.

콘텐츠 크리에이터 디바이스 (12) 는 오디오 편집 시스템 (18) 을 포함한다. 콘텐츠 크리에이터 디바이스 (12) 는 콘텐츠 크리에이터 디바이스 (12) 가 오디오 편집 시스템 (18) 을 이용하여 편집할 수도 있는 오디오 오브젝트들 (9) 및 다양한 포맷들 (HOA 계수들로서 직접 포함함) 의 라이브 레코딩들 (7) 을 획득한다. 마이크로폰 (5) 은 라이브 레코딩들 (7) 을 캡처할 수도 있다. 콘텐츠 크리에이터는, 편집 프로세스 동안, 오디오 오브젝트들 (9) 로부터 HOA 계수들 (11) 을 렌더링하여, 추가로 편집할 것을 요구하는 음장의 다양한 양태들을 식별하기 위한 시도시에 렌더링된 스피커 피드들을 청취할 수도 있다. 그 후에, 콘텐츠 크리에이터 디바이스 (12) 는 (소스 HOA 계수들이 상술된 방식으로 도출되게 할 수도 있는 오디오 오브젝트들 (9) 중 상이한 오디오 오브젝트들의 조작을 통해 잠재적으로 간접적으로) HOA 계수들 (11) 을 편집할 수도 있다. 콘텐츠 크리에이터 디바이스 (12) 는 오디오 편집 시스템 (18) 을 채용하여 HOA 계수들 (11) 을 생성할 수도 있다. 오디오 편집 시스템 (18) 은 오디오 데이터를 편집하고 오디오 데이터를 하나 이상의 소스 구면 조화 계수들로서 출력하는 것이 가능한 임의의 시스템을 표현한다.

편집 프로세스가 완료될 때, 콘텐츠 크리에이터 디바이스 (12) 는 HOA 계수들 (11) 에 기초하여 비트스트림 (21) 을 생성할 수도 있다. 즉, 콘텐츠 크리에이터 디바이스 (12) 는 비트스트림 (21) 을 생성하기 위해 본 개시물에서 설명되는 기법들의 다양한 양태들에 따라 HOA 계수들 (11) 을 인코딩하거나 또는 그렇지 않으면 압축하도록 구성된 디바이스를 표현하는 오디오 인코딩 디바이스 (20) 를 포함한다. 오디오 인코딩 디바이스 (20) 는, 하나의 예로서, 데이터 저장 디바이스, 유선 또는 무선 채널일 수도 있는 송신 채널 등에 걸친 송신을 위해 비트스트림 (21) 을 생성할 수도 있다. 비트스트림 (21) 은 HOA 계수들 (11) 의 인코딩된 버전을 표현할 수도 있고, 프라이머리 비트스트림 또는 다른 사이드 비트스트림을 포함할 수도 있는데, 이 사이드 비트스트림은 사이드 채널 정보라고 지칭될 수도 있다.

콘텐츠 소비자 디바이스 (14) 에 직접 송신되는 것으로서 도 2 에 도시되지만, 콘텐츠 크리에이터 디바이스 (12) 는 콘텐츠 크리에이터 디바이스 (12) 와 콘텐츠 소비자 디바이스 (14) 사이에 포지셔닝된 중간 디바이스에 비트스트림 (21) 을 출력할 수도 있다. 중간 디바이스는 비트스트림을 요청할 수도 있는 콘텐츠 소비자 디바이스 (14) 로의 추후 전달을 위해 비트스트림 (21) 을 저장할 수도 있다. 중간 디바이스는 파일 서버, 웹 서버, 데스크톱 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 모바일 폰, 스마트 폰, 또는 오디오 디코더에 의한 추후 취출을 위해 비트스트림 (21) 을 저장하는 것이 가능한 임의의 다른 디바이스를 포함할 수도 있다. 중간 디바이스는, 비트스트림 (21) 을, 비트스트림 (21) 을 요청하는 콘텐츠 소비자 디바이스 (14) 와 같은 가입자들에게 스트리밍하는 것 (그리고 가능하게는, 대응하는 비디오 데이터 비트스트림을 송신하는 것과 함께) 이 가능한 콘텐츠 전달 네트워크에 상주할 수도 있다.

대안적으로, 콘텐츠 크리에이터 디바이스 (12) 는 콤팩트 디스크, 디지털 비디오 디스크, 고선명 비디오 디스크 또는 다른 저장 매체들과 같은 저장 매체에 비트스트림 (21) 을 저장할 수도 있고, 이들 중 대부분은 컴퓨터에 의해 판독되는 것이 가능하여 그에 따라 컴퓨터 판독가능 저장 매체들 또는 비일시적 컴퓨터 판독가능 저장 매체들이라고 지칭될 수도 있다. 이러한 맥락에서, 송신 채널은 이들 매체들에 저장된 콘텐츠가 송신되게 하는 채널들을 지칭할 수도 있다 (그리고, 리테일 스토어 (retail store) 들 및 다른 스토어-기반 전달 메커니즘을 포함할 수도 있다). 그에 따라, 어떤 경우든, 본 개시물의 기법들은 이와 관련하여 도 2 의 예로 제한되어서는 안된다.

도 2 의 예에 추가로 도시된 바와 같이, 콘텐츠 소비자 디바이스 (14) 는 오디오 재생 시스템 (16) 을 포함한다. 오디오 재생 시스템 (16) 은 다중-채널 오디오 데이터를 재생하는 것이 가능한 임의의 오디오 재생 시스템을 표현할 수도 있다. 오디오 재생 시스템 (16) 은 다수의 상이한 렌더러들 (22) 을 포함할 수도 있다. 렌더러들 (22) 은 각각 상이한 형태의 렌더링을 제공할 수도 있고, 여기서 상이한 형태들의 렌더링은 벡터-기반 진폭 패닝 (vector-base amplitude panning; VBAP) 을 수행하는 다양한 방법들 중 하나 이상, 및/또는 음장 합성을 수행하는 다양한 방법들 중 하나 이상을 포함할 수도 있다. 본 명세서에서 사용되는 바와 같이, "A 및/또는 B" 는 "A 또는 B", 또는 "A 와 B" 양쪽을 의미한다.

오디오 재생 시스템 (16) 은 오디오 디코딩 디바이스 (24) 를 더 포함할 수도 있다. 오디오 디코딩 디바이스 (24) 는 비트스트림 (21) 으로부터의 HOA 계수들 (11') 을 디코딩하도록 구성된 디바이스를 표현할 수도 있고, 여기서 HOA 계수들 (11') 은 HOA 계수들 (11) 과 유사하지만 손실성 동작들 (예를 들어, 양자화) 및/또는 송신 채널을 통한 송신으로 인해 상이할 수도 있다. 오디오 재생 시스템 (16) 은 비트스트림 (21) 을 디코딩한 후에 HOA 계수들 (11') 을 획득하고 HOA 계수들 (11') 을 렌더링하여 라우드스피커 피드들 (25) 을 출력할 수도 있다. 라우드스피커 피드들 (25) 은 (예시 목적들의 용이를 위해 도 2 의 예에 도시되지 않은) 하나 이상의 라우드스피커들을 구동할 수도 있다.

적절한 렌더러를 선택하거나 또는, 일부 경우들에서, 적절한 렌더러를 생성하기 위해, 오디오 재생 시스템 (16) 은 라우드스피커들의 개수 및/또는 라우드스피커들의 공간 지오메트리를 나타내는 라우드스피커 정보 (13) 를 획득할 수도 있다. 일부 경우들에서, 오디오 재생 시스템 (16) 은 라우드스피커 정보를 동적으로 결정하도록 하는 방식으로 라우드스피커들을 구동하고 참조 마이크로폰을 이용하여 라우드스피커 정보 (13) 를 획득할 수도 있다. 다른 경우들에서 또는 라우드스피커 정보 (13) 의 동적 결정과 함께, 오디오 재생 시스템 (16) 은 오디오 재생 시스템 (16) 과 상호작용하고 라우드스피커 정보 (13) 를 입력하도록 사용자를 프롬프트할 수도 있다.

그 후에, 오디오 재생 시스템 (16) 은 라우드스피커 정보 (13) 에 기초하여 오디오 렌더러들 (22) 중 하나를 선택할 수도 있다. 일부 경우들에서, 오디오 재생 시스템 (16) 은, 오디오 렌더러들 (22) 중 어떠한 것도 라우드스피커 정보 (13) 에 특정된 라우드스피커 지오메트리에 대한 (라우드스피커 지오메트리 관점에서의) 일부 임계 유사도 측정치 내에 있지 않을 때, 라우드스피커 정보 (13) 에 기초하여 오디오 렌더러들 (22) 중 하나를 생성할 수도 있다. 오디오 재생 시스템 (16) 은, 일부 경우들에서, 오디오 렌더러들 (22) 중 기존의 하나의 오디오 렌더러를 우선 선택하려고 시도하는 일 없이 라우드스피커 정보 (13) 에 기초하여 오디오 렌더러들 (22) 중 하나를 생성할 수도 있다. 하나 이상의 스피커들 (3) 은 그 후에 렌더링된 라우드스피커 피드들 (25) 을 재생할 수도 있다.

일부 경우들에서, 오디오 재생 시스템 (16) 은 오디오 렌더러들 (22) 중 임의의 하나의 오디오 렌더러를 선택할 수도 있고, 비트스트림 (21) 이 수신되는 소스 (예컨대 몇몇 예들을 제공하자면 DVD 플레이어, 블루레이 플레이어, 스마트폰, 태블릿 컴퓨터, 게이밍 시스템, 및 텔레비전) 에 따라 오디오 렌더러들 (22) 중 하나 이상을 선택하도록 구성될 수도 있다. 오디오 렌더러들 (22) 중 임의의 하나의 오디오 렌더러가 선택될 수도 있지만, 콘텐츠를 생성할 때 이용되는 오디오 렌더러는 종종, 오디오 렌더러들 중 하나, 즉, 도 3 의 예에서의 오디오 렌더러 (5) 를 이용하여 콘텐츠 크리에이터 (12) 에 의해 콘텐츠가 생성되었다는 사실로 인해 렌더링의 더 양호한 (그리고 가능하다면 최상의) 형태를 제공한다. (렌더링 형태의 관점에서) 동일하거나 또는 적어도 가까운 오디오 렌더러들 (22) 중 하나를 선택하는 것은, 음장의 더 양호한 표현을 제공할 수도 있고 콘텐츠 소비자 (14) 에 대한 더 양호한 서라운드 사운드 경험을 발생시킬 수도 있다.

본 개시물에서 설명되는 기법들에 따르면, 오디오 인코딩 디바이스 (20) 는 오디오 렌더링 정보 (2) ("렌더 정보 (2)") 를 포함하도록 비트스트림 (21) 을 생성할 수도 있다. 오디오 렌더링 정보 (2) 는 다중-채널 오디오 콘텐츠를 생성할 때 이용되는 오디오 렌더러, 즉, 도 3 의 예에서의 오디오 렌더러 (1) 를 식별하는 신호 값을 포함할 수도 있다. 일부 경우들에서, 신호 값은 구면 조화 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되는 행렬을 포함한다.

일부 경우들에서, 신호 값은 비트스트림이 구면 조화 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되는 행렬을 포함함을 나타내는 인덱스를 정의하는 2 개 이상의 비트들을 포함한다. 일부 경우들에서, 인덱스가 이용될 때, 신호 값은 비트스트림에 포함된 행렬의 로우 (row) 들의 개수를 정의하는 2 개 이상의 비트들 및 비트스트림에 포함된 행렬의 컬럼 (column) 들의 개수를 정의하는 2 개 이상의 비트들을 더 포함한다. 이 정보를 이용하고 2 차원 행렬의 각각의 계수가 32-비트 부동 소수점 수에 의해 통상적으로 정의된다고 주어진다면, 행렬의 비트들의 관점에서의 사이즈는 로우들의 개수, 컬럼들의 개수, 및 행렬의 각각의 계수를 정의하는 부동 소수점 수들의 사이즈, 즉, 이 예에서는 32-비트들의 함수로서 연산될 수도 있다.

일부 경우들에서, 신호 값은 구면 조화 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되는 렌더링 알고리즘을 특정한다. 렌더링 알고리즘은 오디오 인코딩 디바이스 (20) 및 디코딩 디바이스 (24) 양쪽에게 알려져 있는 행렬을 포함할 수도 있다. 즉, 렌더링 알고리즘은 패닝 (예를 들어, VBAP, DBAP 또는 단순한 패닝) 또는 NFC 필터링과 같은 다른 렌더링 단계들에 부가적으로 행렬의 적용을 포함할 수도 있다. 일부 경우들에서, 신호 값은 구면 조화 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되는 복수의 행렬들 중 하나와 연관된 인덱스를 정의하는 2 개 이상의 비트들을 포함한다. 다시, 오디오 인코딩 디바이스 (20) 및 디코딩 디바이스 (24) 양쪽은 인덱스가 복수의 행렬들 중 특정된 하나의 행렬을 고유하게 식별할 수도 있도록 복수의 행렬들의 차수 및 복수의 행렬들을 나타내는 정보로 구성될 수도 있다. 대안적으로, 오디오 인코딩 디바이스 (20) 는 인덱스가 복수의 행렬들 중 특정된 하나의 행렬을 고유하게 식별할 수도 있도록 복수의 행렬들의 차수 및/또는 복수의 행렬들을 정의하는 비트스트림 (21) 에서의 데이터를 특정할 수도 있다.

일부 경우들에서, 신호 값은 구면 조화 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되는 복수의 렌더링 알고리즘들 중 하나와 연관된 인덱스를 정의하는 2 개 이상의 비트들을 포함한다. 다시, 오디오 인코딩 디바이스 (20) 및 디코딩 디바이스 (24) 양쪽은 인덱스가 복수의 행렬들 중 특정된 하나의 행렬을 고유하게 식별할 수도 있도록 복수의 렌더링 알고리즘들의 차수 및 복수의 렌더링 알고리즘들을 나타내는 정보로 구성될 수도 있다. 대안적으로, 오디오 인코딩 디바이스 (20) 는 인덱스가 복수의 행렬들 중 특정된 하나의 행렬을 고유하게 식별할 수도 있도록 복수의 행렬들의 차수 및/또는 복수의 행렬들을 정의하는 비트스트림 (21) 에서의 데이터를 특정할 수도 있다.

일부 경우들에서, 오디오 인코딩 디바이스 (20) 는 비트스트림에서 오디오 렌더링 정보 (2) 를 오디오 프레임 기반으로 특정한다. 다른 경우들에서, 오디오 인코딩 디바이스 (20) 는 비트스트림에서 오디오 렌더링 정보 (2) 를 단일 회 특정한다.

디코딩 디바이스 (24) 는 그 후에 비트스트림에 특정된 오디오 렌더링 정보 (2) 를 결정할 수도 있다. 오디오 렌더링 정보 (2) 에 포함된 신호 값에 기초하여, 오디오 재생 시스템 (16) 은 오디오 렌더링 정보 (2) 에 기초하여 복수의 스피커 피드들 (25) 을 렌더링할 수도 있다. 위에서 언급된 바와 같이, 신호 값은 일부 경우들에서 구면 조화 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되는 행렬을 포함할 수도 있다. 이 경우, 오디오 재생 시스템 (16) 은 행렬로 오디오 렌더러들 (22) 중 하나를 구성하여, 행렬에 기초하여 스피커 피드들 (25) 을 렌더링하기 위해 오디오 렌더러들 (22) 중 이 하나의 오디오 렌더러를 이용할 수도 있다.

일부 경우들에서, 신호 값은 비트스트림이 HOA 계수들 (11') 을 스피커 피드들 (25) 로 렌더링하는데 이용되는 행렬을 포함함을 나타내는 인덱스를 정의하는 2 개 이상의 비트들을 포함한다. 디코딩 디바이스 (24) 는 인덱스에 응답하여 비트스트림으로부터의 행렬을 파싱할 수도 있고, 그 결과 오디오 재생 시스템 (16) 은 파싱된 행렬로 오디오 렌더러들 (22) 중 하나의 오디오 렌더러를 구성하고 오디오 렌더러들 (22) 중 이 하나의 오디오 렌더러를 호출하여 스피커 피드들 (25) 을 렌더링할 수도 있다. 신호 값이 비트스트림에 포함된 행렬의 로우들의 개수를 정의하는 2 개 이상의 비트들 및 비트스트림에 포함된 행렬의 컬럼들의 개수를 정의하는 2 개 이상의 비트들을 포함할 때, 디코딩 디바이스 (24) 는 상술된 방식으로 로우들의 개수를 정의하는 2 개 이상의 비트들 및 컬럼들의 개수를 정의하는 2 개 이상의 비트들에 기초하여 그리고 인덱스에 응답하여 비트스트림으로부터의 행렬을 파싱할 수도 있다.

일부 경우들에서, 신호 값은 HOA 계수들 (11') 을 스피커 피드들 (25) 로 렌더링하는데 이용되는 렌더링 알고리즘을 특정한다. 이들 경우들에서, 오디오 렌더러들 (22) 중 일부 또는 전부는 이들 렌더링 알고리즘들을 수행할 수도 있다. 오디오 재생 디바이스 (16) 는 그 후에, HOA 계수들 (11') 로부터 스피커 피드들 (25) 을 렌더링하기 위해, 특정된 렌더링 알고리즘, 예를 들어, 오디오 렌더러들 (22) 중 하나를 활용할 수도 있다.

신호 값이 HOA 계수들 (11') 을 스피커 피드들 (25) 로 렌더링하는데 이용되는 복수의 행렬들 중 하나와 연관된 인덱스를 정의하는 2 개 이상의 비트들을 포함할 때, 오디오 렌더러들 (22) 중 일부 또는 전부는 이 복수의 행렬들을 표현할 수도 있다. 따라서, 오디오 재생 시스템 (16) 은 인덱스와 연관된 오디오 렌더러들 (22) 중 하나를 이용하여 HOA 계수들 (11') 로부터 스피커 피드들 (25) 을 렌더링할 수도 있다.

신호 값이 HOA 계수들 (11') 을 스피커 피드들 (25) 로 렌더링하는데 이용되는 복수의 렌더링 알고리즘들 중 하나와 연관된 인덱스를 정의하는 2 개 이상의 비트들을 포함할 때, 오디오 렌더러들 (34) 중 일부 또는 전부는 이들 렌더링 알고리즘들을 표현할 수도 있다. 따라서, 오디오 재생 시스템 (16) 은 인덱스와 연관된 오디오 렌더러들 (22) 중 하나를 이용하여 구면 조화 계수들 (11') 로부터 스피커 피드들 (25) 을 렌더링할 수도 있다.

이 오디오 렌더링 정보가 비트스트림에 특정되는 빈도에 따라, 디코딩 디바이스 (24) 는 오디오 렌더링 정보 (2) 를 오디오-프레임-기반으로 또는 단일 회 결정할 수도 있다.

이러한 방식으로 오디오 렌더링 정보 (3) 를 특정하는 것에 의해, 기법들은 잠재적으로 다중-채널 오디오 콘텐츠의 더 양호한 재생을 발생시키고 콘텐츠 크리에이터 (12) 가 다중-채널 오디오 콘텐츠가 재생되도록 의도한 방식에 따라 발생시킬 수도 있다. 그 결과, 기법들은 더 몰입형의 서라운드 사운드 또는 다중-채널 오디오 경험을 제공할 수도 있다.

다시 말해 그리고 위에서 언급된 바와 같이, 고차 앰비소닉스 (HOA) 는 공간 푸리에 변환에 기초하여 음장의 방향성 (directional) 정보를 설명하게 하는 방법을 표현할 수도 있다. 통상적으로, 앰비소닉스 차수 N 이 높을수록, 공간 해상도가 높아지고, 구면 조화들 (SH) 계수들 (N+1)^2 의 개수가 커지며, 데이터를 송신 및 저장하기 위해 요구되는 대역폭이 커진다.

이 설명의 잠재적인 이점은 대부분의 임의의 라우드스피커 셋업 (예를 들어, 5.1, 7.1 22.2 등) 에서 이 음장을 재생할 가능성이다. 음장 디스크립션으로부터 M 개의 라우드스피커 신호들로의 컨버전은 (N+1)² 개의 입력들 및 M 개의 출력들을 갖는 정적 렌더링 행렬을 통해 행해질 수도 있다. 그 결과, 모든 라우드스피커 셋업은 전용 렌더링 행렬을 필요로 할 수도 있다. 소정의 객관적인 또는 주관적인 척도, 예컨대 Gerzon 기준들에 대해 최적화될 수도 있는 원하는 라우드스피커들에 대한 렌더링 행렬을 연산하기 위한 수 개의 알고리즘들이 존재할 수도 있다. 불규칙적인 라우드스피커 셋업들에 대해, 알고리즘들은 반복적인 수치 최적화 프로시저들, 예컨대 콘벡스 최적화로 인해 복잡해질 수도 있다. 대기 시간 없이, 불규칙한 라우드스피커 레이아웃들에 대해 렌더링 행렬을 연산하기 위해서는, 이용가능한 충분한 연산 리소스들을 갖는 것이 이로울 수도 있다. 불규칙한 라우드스피커 셋업들은 아키텍처 제약들 및 심미적 선호도들로 인해 집안 거실 환경들에서 일반적일 수도 있다. 그에 따라, 최상의 음장 재생을 위해, 이러한 시나리오에 대해 최적화된 렌더링 행렬은 더 정확히 음장의 재생을 가능하게 할 수도 있다는 점에서 선호될 수도 있다.

오디오 디코더가 보통 많은 연산 리소스들을 필요로 하지 않기 때문에, 디바이스는 소비자 친화적인 시간에 불규칙한 렌더링 행렬을 연산하는 것이 가능하지 않을 수도 있다. 본 개시물에서 설명되는 기법들의 다양한 양태들은 다음과 같이 클라우드-기반 연산 접근법을 이용을 위해 제공할 수도 있다:

1. 오디오 디코더는 인터넷 연결을 통해 라우드스피커 좌표들 (그리고, 일부 경우들에서, 또한 캘리브레이션 마이크로폰으로 획득된 SPL 측정치들) 을 서버에 전송할 수도 있다;

2. 클라우드-기반 서버는 렌더링 행렬 (그리고 가능하다면 몇몇 상이한 버전들, 고객이 추후에 이들 상이한 버전들로부터 선정할 수도 있도록 함) 을 연산할 수도 있다; 그리고

3. 그 후에, 서버는 인터넷 연결을 통해 렌더링 행렬 (또는 상이한 버전들) 을 오디오 디코더에 다시 전송할 수도 있다.

이 접근법은 (강력한 프로세서가 이들 불규칙한 렌더링 행렬들을 연산하는데 필요하지 않을 수도 있기 때문에) 제조자가 오디오 디코더의 제조 비용들을 낮게 유지시키면서도 또한, 규칙적인 스피커 구성들 또는 지오메트리들에 대해 보통 설계되는 렌더링 행렬들에 비해 더 최적의 오디오 재생을 용이하게 할 수도 있다. 렌더링 행렬을 연산하기 위한 알고리즘은 또한 오디오 디코더가 출하된 후에 최적화되어, 하드웨어 변경들 또는 심지어 리콜들에 대한 비용들을 잠재적으로 감소시킬 수도 있다. 기법들은 또한, 일부 경우들에서, 장래의 제품 개발들에 대해 이로울 수도 있는 소비자 제품들의 상이한 라우드스피커 셋업들에 관한 많은 정보를 수집할 수도 있다.

일부 경우들에서, 도 3 에 도시된 시스템은 상술된 바와 같이 비트스트림 (21) 에서 오디오 렌더링 정보 (2) 를 시그널링하지 않을 수도 있지만, 그 대신에 비트스트림 (21) 으로부터 분리된 메타데이터로서 이 오디오 렌더링 정보 (2) 를 시그널링할 수도 있다. 대안적으로 또는 상술된 것과 관련하여, 도 3 에 도시된 시스템은 상술된 바와 같이 비트스트림 (21) 에서 오디오 렌더링 정보 (2) 의 일부를 시그널링할 수도 있고 비트스트림 (21) 으로부터 분리된 메타데이터로서 이 오디오 렌더링 정보 (3) 의 일부를 시그널링할 수도 있다. 일부 예들에서, 오디오 인코딩 디바이스 (20) 는 이 메타데이터를 출력할 수도 있고, 이 메타데이터는 그 후에 서버 또는 다른 디바이스에 업로드될 수도 있다. 오디오 디코딩 디바이스 (24) 는 그 후에 이 메타데이터를 다운로드하거나 또는 그렇지 않으면 취출할 수도 있고, 이 메타데이터는 그 후에 오디오 디코딩 디바이스 (24) 에 의해 비트스트림 (21) 으로부터 추출된 오디오 렌더링 정보를 증강시키는데 이용된다. 기법들의 렌더링 정보 양태들에 따라 형성된 비트스트림 (21) 은 도 8a 내지 도 8d 의 예들에 관하여 아래에 설명된다.

도 3 은 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 도 2 의 예에 도시된 오디오 인코딩 디바이스 (20) 의 하나의 예를 더 상세히 예시하는 블록 다이어그램이다. 오디오 인코딩 디바이스 (20) 는 콘텐츠 분석 유닛 (26), 벡터-기반 분해 유닛 (27) 및 방향성-기반 분해 유닛 (28) 을 포함한다. 아래에 간략히 설명되지만, HOA 계수들을 압축하거나 또는 그렇지 않으면 인코딩하는 다양한 양태들 및 오디오 인코딩 디바이스 (20) 에 관한 더 많은 정보는 발명의 명칭이 "INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD" 이고 2014년 5월 29일자로 출원된 국제 특허 출원 공개 WO 2014/194099호에서 입수가능하다.

콘텐츠 분석 유닛 (26) 은 HOA 계수들 (11) 이 라이브 레코딩 또는 오디오 오브젝트로부터 생성된 콘텐츠를 표현하는지 여부를 식별하기 위해 HOA 계수들 (11) 의 콘텐츠를 분석하도록 구성된 유닛을 표현한다. 콘텐츠 분석 유닛 (26) 은 HOA 계수들 (11) 이 실제 음장의 레코딩으로부터 생성되었는지 또는 인공적인 오디오 오브젝트로부터 생성되었는지 여부를 결정할 수도 있다. 일부 경우들에서, 프레임화된 HOA 계수들 (11) 이 레코딩으로부터 생성되었을 때, 콘텐츠 분석 유닛 (26) 은 HOA 계수들 (11) 을 벡터-기반 분해 유닛 (27) 에 전달한다. 일부 경우들에서, 프레임화된 HOA 계수들 (11) 이 합성 오디오 오브젝트로부터 생성되었을 때, 콘텐츠 분석 유닛 (26) 은 HOA 계수들 (11) 을 방향성-기반 합성 유닛 (28) 에 전달한다. 방향성-기반 합성 유닛 (28) 은 방향성-기반 비트스트림 (21) 을 생성하기 위해 HOA 계수들 (11) 의 방향성-기반 합성을 수행하도록 구성된 유닛을 표현할 수도 있다.

도 3 의 예에 도시된 바와 같이, 벡터-기반 분해 유닛 (27) 은 선형 가역 변환 (LIT) 유닛 (30), 파라미터 계산 유닛 (32), 리오더 유닛 (34), 전경 선택 유닛 (36), 에너지 보상 유닛 (38), 심리음향 오디오 코더 유닛 (40), 비트스트림 생성 유닛 (42), 음장 분석 유닛 (44), 계수 감소 유닛 (46), 배경 (BG) 선택 유닛 (48), 공간-시간 보간 유닛 (50), 및 양자화 유닛 (52) 을 포함할 수도 있다.

선형 가역 변환 (LIT) 유닛 (30) 은 HOA 채널들의 형태로 HOA 계수들 (11) 을 수신하고, 각각의 채널은 구면 기저 함수들 (HOA[k] 로서 표시될 수도 있고, 여기서 k 는 샘플들의 현재 프레임 또는 블록을 표시할 수도 있음) 의 주어진 차수, 하위차수와 연관된 계수의 블록 또는 프레임을 표현한다. HOA 계수들 (11) 의 행렬은 차원들 D: M x (N+1)² 을 가질 수도 있다.

LIT 유닛 (30) 은 특이값 분해라고 지칭되는 분석의 형태를 수행하도록 구성된 유닛을 표현할 수도 있다. SVD 에 관하여 설명되지만, 본 개시물에서 설명되는 기법들은 선형적으로 미상관된 에너지 집중형 출력의 세트들에 대해 제공하는 임의의 유사한 변환 또는 분해에 관하여 수행될 수도 있다. 또한, 본 개시물에서의 "세트들" 이라는 언급은, 구체적으로 반대로 서술되지 않으면 비-제로 세트들을 지칭하도록 일반적으로 의도되고, 소위 "공집합 (empty set)" 을 포함하는 세트들의 고전적인 수학적 정의를 지칭하도록 의도되지 않는다. 대안적인 변환은 "PCA" 라고 종종 지칭되는 주요 성분 분석 (principal component analysis) 을 포함할 수도 있다. 이러한 맥락에 따라, PCA 는, 몇몇 예들을 들자면, 이산 카루넨-루베 변환 (Karhunen-Loeve transform), 호텔링 변환 (Hotelling transform), 적절한 직교 분해 (proper orthogonal decomposition; POD), 및 고유값 분해 (eigenvalue decomposition; EVD) 와 같은 다수의 상이한 이름들로 지칭될 수도 있다. 오디오 데이터를 압축하는 기본 목적에 도움이 되는 이러한 동작들의 속성들은 다중채널 오디오 데이터의 '에너지 집중' 및 '탈상관' 이다.

어떤 경우든, LIT 유닛 (30) 이 예의 목적들을 위해 특이값 분해 (다시, "SVD" 라고 지칭될 수도 있음) 를 수행한다고 가정하면, LIT 유닛 (30) 은 HOA 계수들 (11) 을 변환된 HOA 계수들의 2 개 이상의 세트들로 변환할 수도 있다. 변환된 HOA 계수들의 "세트들" 은 변환된 HOA 계수들의 벡터들을 포함할 수도 있다. 도 3 의 예에서, LIT 유닛 (30) 은 HOA 계수들 (11) 에 관하여 SVD 를 수행하여 소위 V 행렬, S 행렬, 및 U 행렬을 생성할 수도 있다. 선형 대수에서의 SVD 는 y-바이-z (y-by-z) 실수 또는 복소 행렬 (X) (여기서 X 는 HOA 계수들 (11) 과 같은 다중-채널 오디오 데이터를 표현할 수도 있음) 의 인수분해를 다음의 형태로 표현할 수도 있다:

X = USV^*

U 는 y-바이-y 실수 또는 복소 유니터리 행렬을 표현할 수도 있고, 여기서 U 의 y 컬럼들은 다중-채널 오디오 데이터의 좌-특이 벡터들로서 알려져 있다. S 는 대각선으로 비-네거티브 실수들을 갖는 y-바이-z 직사각형 대각 행렬을 표현할 수도 있고, 여기서 S 의 대각선 값들은 다중-채널 오디오 데이터의 특이값들로서 알려져 있다. V^* (V 의 공액 전치를 표시할 수도 있음) 는 z-바이-z 실수 또는 복소 유니터리 행렬을 표현할 수도 있고, 여기서 V^* 의 z 컬럼들은 다중-채널 오디오 데이터의 우-특이 벡터들로서 알려져 있다.

일부 예들에서, 위에서 참조된 SVD 수학식에서의 V^* 행렬은, SVD 가 복소수들을 포함하는 행렬들에 적용될 수도 있음을 반영하기 위해 V 행렬의 공액 전치로서 표시된다. 오직 실수들만을 포함하는 행렬들에 적용될 때, V 행렬의 복소 공액 (또는, 다시 말해, V^* 행렬) 은 V 행렬의 전치인 것으로 고려될 수도 있다. 아래에, 예시 목적들의 용이를 위해, HOA 계수들 (11) 은, V^* 행렬보다는 V 행렬이 SVD 를 통해 출력되는 결과로 실수들을 포함한다고 가정된다. 더욱이, 본 개시물에서 V 행렬로서 표시되지만, V 행렬에 대한 언급은 적절한 경우 V 행렬의 전치를 지칭하는 것으로 이해되어야 한다. V 행렬인 것으로 가정되지만, 기법들은 복소 계수들을 갖는 HOA 계수들 (11) 에 대해 유사한 방식으로 적용될 수도 있고, 여기서 SVD 의 출력은 V^* 행렬이다. 이에 따라, 기법들은 이와 관련하여 V 행렬을 생성하기 위해 오직 SVD 의 적용만을 제공하도록 제한되어서는 안되지만, V^* 행렬을 생성하기 위해 복소 성분들을 갖는 HOA 계수들 (11) 로의 SVD 의 적용을 포함할 수도 있다.

이러한 방법으로, LIT 유닛 (30) 은 HOA 계수들 (11) 에 관하여 SVD 를 수행하여, 차원들 D: M x (N+1)² 을 갖는 US[k] 벡터들 (33) (S 벡터들과 U 벡터들의 조합된 버전을 표현할 수도 있음), 및 차원들 D: (N+1)² x (N+1)² 을 갖는 V[k] 벡터들 (35) 을 출력할 수도 있다. US[k] 행렬에서의 개별 벡터 엘리먼트들은 또한 X _PS (k) 라고 지칭될 수도 있는 한편, V[k] 행렬에서의 개별 벡터들은 또한

라고 지칭될 수도 있다.

U, S 및 V 행렬들의 분석은 이들 행렬들이 X 에 의해 위에서 표현된 기본 음장의 공간 및 시간 특성들을 포함함 또는 표현함을 나타낼 수도 있다. (길이 M 샘플들의) U 에서의 N 벡터들 각각은, 서로 직교하고 임의의 공간 특성들 (또한 방향성 정보라고도 지칭될 수도 있음) 로부터 커플링해제되었던 정규화된 분리된 오디오 신호들을 (M 개의 샘플들에 의해 표현된 시간 주기에 대한) 시간의 함수로서 표현할 수도 있다. 공간 형상 및 포지션 (r, 세타, 파이) 을 표현하는 공간 특성들은 V 행렬 (각각의 길이 (N+1)²) 에서 개별 i 번째 벡터들

에 의해 대신 표현될 수도 있다. 벡터들

각각의 개별 엘리먼트들은 연관된 오디오 오브젝트에 대한 음장의 형상 (폭을 포함함) 및 포지션을 설명하는 HOA 계수를 표현할 수도 있다. U 행렬 및 V 행렬에서의 벡터들 양쪽은 이들의 제곱-평균-제곱근 (root-mean-square) 에너지들이 1 과 동일하도록 정규화된다. 따라서, U 에서의 오디오 신호들의 에너지는 S 에서의 대각선 엘리먼트들에 의해 표현된다. 따라서, U 와 S 를 곱하여 (개별 벡터 엘리먼트들 X _PS (k) 를 갖는) US[k] 를 형성하는 것은 에너지들을 갖는 오디오 신호를 표현한다. (U 에서의) 오디오 시간-신호들, (S 에서의) 이들의 에너지들, 및 (V 에서의) 이들의 공간 특성들을 커플링해제하기 위한 SVD 분해의 능력은 본 개시물에서 설명되는 기법들의 다양한 양태들을 지원할 수도 있다. 추가로, 기본 HOA[k] 계수들 (X) 을 US[k] 와 V[k] 의 벡터 곱셈에 의해 합성하는 모델은 본 문헌 전반에 걸쳐 사용되는 용어 "벡터-기반 분해" 를 발생시킨다.

HOA 계수들 (11) 에 관하여 직접 수행되는 것으로서 설명되지만, LIT 유닛 (30) 은 선형 가역 변환을 HOA 계수들 (11) 의 도함수들에 적용할 수도 있다. 예를 들어, LIT 유닛 (30) 은 HOA 계수들 (11) 로부터 도출된 전력 스펙트럼 밀도 행렬에 관하여 SVD 를 적용할 수도 있다. 계수들 자체보다는 HOA 계수들의 전력 스펙트럼 밀도 (PSD) 에 관하여 SVD 를 수행함으로써, LIT 유닛 (30) 은 프로세서 사이클들 및 저장 공간 중 하나 이상의 관점에서 SVD 를 수행하는 연산 복잡도를 잠재적으로 감소시키면서, SVD 가 HOA 계수들에 직접 적용되었던 것처럼 동일한 소스 오디오 인코딩 효율을 달성할 수도 있다.

파라미터 계산 유닛 (32) 은 상관 파라미터 (R), 방향 속성 파라미터들 (θ, φ, r) 및 에너지 속성 (e) 과 같은 다양한 파라미터들을 계산하도록 구성된 유닛을 표현한다. 현재 프레임에 대한 파라미터들 각각은 R[k], θ[k], φ[k], r[k] 및 e[k] 로서 표시될 수도 있다. 파라미터 계산 유닛 (32) 은 US[k] 벡터들 (33) 에 관하여 에너지 분석 및/또는 상관 (또는 소위 상호-상관) 을 수행하여 이들 파라미터들을 식별할 수도 있다. 파라미터 계산 유닛 (32) 은 또한 파라미터들을 이전 프레임에 대해 결정할 수도 있고, 여기서 이전 프레임 파라미터들은 US[k-1] 벡터 및 V[k-1] 벡터들의 이전 프레임에 기초하여 R[k-1], θ[k-1], φ[k-1], r[k-1] 및 e[k-1] 로 표시될 수도 있다. 파라미터 계산 유닛 (32) 은 현재 파라미터들 (37) 및 이전 파라미터들 (39) 을 리오더 유닛 (34) 에 출력할 수도 있다.

파라미터 계산 유닛 (32) 에 의해 계산된 파라미터들은, 오디오 오브젝트들을, 시간에 걸친 이들의 자연적 평가 또는 연속성을 표현하도록 리오더링하기 (re-order) 위해 리오더 유닛 (34) 에 의해 이용될 수도 있다. 리오더 유닛 (34) 은 제 1 US[k] 벡터들 (33) 로부터의 파라미터들 (37) 각각을, 순번별로, 제 2 US[k-1] 벡터들 (33) 에 대한 파라미터들 (39) 각각에 대해 비교할 수도 있다. 리오더 유닛 (34) 은 현재 파라미터들 (37) 및 이전 파라미터들 (39) 에 기초하여 US[k] 행렬 (33) 및 V[k] 행렬 (35) 내의 다양한 벡터들을 (하나의 예로서, 헝가리안 알고리즘 (Hungarian algorithm) 을 이용하여) 리오더링하여, 리오더링된 US[k] 행렬 (33') (수학적으로

로서 표시될 수도 있음) 및 리오더링된 V[k] 행렬 (35') (수학적으로

로서 표시될 수도 있음) 을 전경 사운드 (또는 우세 사운드 - PS) 선택 유닛 (36) ("전경 선택 유닛 (36)") 및 에너지 보상 유닛 (38) 에 출력할 수도 있다.

음장 분석 유닛 (44) 은 타깃 비트레이트 (41) 를 잠재적으로 달성하도록 HOA 계수들 (11) 에 관하여 음장 분석을 수행하도록 구성된 유닛을 표현할 수도 있다. 음장 분석 유닛 (44) 은, 분석 및/또는 수신된 타깃 비트레이트 (41) 에 기초하여, 심리음향 코더 인스턴스화들의 총 개수 (주변 또는 배경 채널들 (BG_TOT) 의 총 개수의 함수일 수도 있음) 및 전경 채널들 또는, 다시 말해, 우세 채널들의 개수를 결정할 수도 있다. 심리음향 코더 인스턴스화들의 총 개수는 numHOATransportChannels 로서 표시될 수 있다.

음장 분석 유닛 (44) 은 또한, 다시 타깃 비트레이트 (41) 를 잠재적으로 달성하기 위해, 전경 채널들의 총 개수 (nFG) (45), 배경 (또는, 다시 말해, 주변) 음장의 최소 차수 (N_BG 또는, 대안적으로, MinAmbHOAorder), 배경 음장의 최소 차수를 표현하는 실제 채널들의 대응하는 개수 (nBGa = (MinAmbHOAorder + 1)²), 및 전송할 부가적인 BG HOA 채널들의 인덱스들 (i) (도 3 의 예에서 배경 채널 정보 (43) 로서 일괄적으로 표시될 수도 있음) 을 결정할 수도 있다. 배경 채널 정보 (42) 는 또한 주변 채널 정보 (43) 라고도 지칭될 수도 있다. numHOATransportChannels - nBGa 로부터 남겨진 채널들 각각은 "부가적인 배경/주변 채널", "액티브 벡터-기반 우세 채널", "액티브 방향성-기반 우세 신호" 또는 "완전히 인액티브" 일 수도 있다. 하나의 양태에서, 채널 타입들은 2 비트들에 의해 ("ChannelType" 으로서) 신택스 엘리먼트로 나타낼 수도 있다 (예를 들어, 00: 방향성 기반 신호; 01: 벡터-기반 우세 신호; 10: 부가적인 주변 신호; 11: 인액티브 신호). 배경 또는 주변 신호들의 총 개수 (nBGa) 는 (MinAmbHOAorder + 1)² + (위의 예에서) 인덱스 00 이 그 프레임에 대한 비트스트림에서 채널 타입으로서 나타나는 횟수에 의해 주어질 수도 있다.

음장 분석 유닛 (44) 은 타깃 비트레이트 (41) 에 기초하여 배경 (또는, 다시 말해, 주변) 채널들의 개수 및 전경 (또는, 다시 말해, 우세) 채널들의 개수를 선택하여, 타깃 비트레이트 (41) 가 상대적으로 더 높을 때 (예를 들어, 타깃 비트레이트 (41) 가 512 Kbps 이상일 때) 더 많은 배경 및/또는 전경 채널들을 선택할 수도 있다. 하나의 양태에서, 비트스트림의 헤더 선택에 있어서 MinAmbHOAorder 는 1 로 설정될 수도 있는 한편 numHOATransportChannels 는 8 로 설정될 수도 있다. 이 시나리오에서, 모든 프레임에서, 4 개의 채널들이 음장의 배경 또는 주변 부분을 표현하기 위해 전용될 수도 있는 한편, 다른 4 개의 채널들은 프레임 기반으로 - 예를 들어, 부가적인 배경/주변 채널 또는 전경/우세 채널로서 이용되는 - 채널의 타입에 대해 변할 수 있다. 전경/우세 신호들은, 상술된 바와 같이, 벡터-기반 또는 방향성 기반 신호들 중 하나일 수 있다.

일부 경우들에서, 프레임에 대한 벡터-기반 우세 신호들의 총 개수는 그 프레임의 비트스트림에서 ChannelType 인덱스가 01 인 횟수에 의해 주어질 수도 있다. 위의 양태에서, 모든 부가적인 배경/주변 채널 (예를 들어, 10 의 ChannelType 에 대응함) 에 대해, (처음 4 개를 초과한) 가능한 HOA 계수들 중 어느 HOA 계수의 대응하는 정보가 그 채널에서 표현될 수도 있다. 그 정보는, 제 4 차수 HOA 콘텐츠에 대해, HOA 계수들 5 내지 25 를 나타내기 위한 인덱스일 수도 있다. 처음 4 개의 주변 HOA 계수들 1 내지 4 는 minAmbHOAorder 가 1 로 설정될 때의 모든 시간에 전송될 수도 있어서, 그에 따라 오디오 인코딩 디바이스는 단지 5 내지 25 의 인덱스를 갖는 부가적인 주변 HOA 계수들 중 하나만을 나타낼 필요가 있을 수도 있다. 따라서, 이 정보는 "CodedAmbCoeffIdx" 로서 표시될 수도 있는 (제 4 차수 콘텐츠에 대한) 5 비트 신택스 엘리먼트를 이용하여 전송될 수 있다. 어떤 경우든, 음장 분석 유닛 (44) 은 배경 채널 정보 (43) 및 HOA 계수들 (11) 을 배경 (BG) 선택 유닛 (36) 에 출력하고, 배경 채널 정보 (43) 를 계수 감소 유닛 (46) 및 비트스트림 생성 유닛 (42) 에 출력하며, nFG (45) 를 전경 선택 유닛 (36) 에 출력한다.

배경 선택 유닛 (48) 은 배경 채널 정보 (예를 들어, 전송할 부가적인 BG HOA 채널들의 인덱스들 (i) 및 개수 (nBGa) 그리고 배경 음장 (N_BG)) 에 기초하여 배경 또는 주변 HOA 계수들 (47) 을 결정하도록 구성된 유닛을 표현할 수도 있다. 예를 들어, N_BG 가 1 과 동일할 때, 배경 선택 유닛 (48) 은 1 보다 더 작거나 동일한 차수를 갖는 오디오 프레임의 각각의 샘플에 대한 HOA 계수들 (11) 을 선택할 수도 있다. 그 후에, 배경 선택 유닛 (48) 은, 이 예에서, 부가적인 BG HOA 계수들로서 인덱스들 (i) 중 하나에 의해 식별된 인덱스를 갖는 HOA 계수들 (11) 을 선택할 수도 있고, 여기서 nBGa 는, 도 2 및 도 4 의 예에 도시된 오디오 디코딩 디바이스 (24) 와 같은 오디오 디코딩 디바이스로 하여금 비트스트림 (21) 으로부터 배경 HOA 계수들 (47) 을 파싱할 수 있게 하도록 비트스트림 (21) 에 특정되도록 비트스트림 생성 유닛 (42) 에 제공된다. 그 후에, 배경 선택 유닛 (48) 은 주변 HOA 계수들 (47) 을 에너지 보상 유닛 (38) 에 출력할 수도 있다. 주변 HOA 계수들 (47) 은 차원들 D: M x [(N _BG +1)² ₊ nBGa] 를 가질 수도 있다. 주변 HOA 계수들 (47) 은 또한 "주변 HOA 계수들 (47)" 이라고 지칭될 수도 있고, 여기서 주변 HOA 계수들 (47) 각각은 심리음향 오디오 코더 유닛 (40) 에 의해 인코딩될 분리 주변 HOA 채널 (47) 에 대응한다.

전경 선택 유닛 (36) 은 (전경 벡터들을 식별하는 하나 이상의 인덱스들을 표현할 수도 있는) nFG (45) 에 기초하여 음장의 전경 또는 구별되는 성분들을 표현하는 리오더링된 V[k] 행렬 (35') 및 리오더링된 US[k] 행렬 (33') 을 선택하도록 구성된 유닛을 표현할 수도 있다. 전경 선택 유닛 (36) 은 nFG 신호들 (49) (리오더링된 US[k]_{1, …, nFG} (49), FG _{1, …, nfG}[k] (49), 또는

(49) 로서 표시될 수도 있음) 을 심리음향 오디오 코더 유닛 (40) 에 출력할 수도 있고, 여기서 nFG 신호들 (49) 은 차원들 D: M x nFG 를 가질 수도 있고 각각은 모노-오디오 오브젝트들을 표현한다. 전경 선택 유닛 (36) 은 또한, 음장의 전경 성분들에 대응하는 리오더링된 V[k] 행렬 (35') (또는

(35')) 을 공간-시간 보간 유닛 (50) 에 출력할 수도 있고, 여기서 전경 성분들에 대응하는 리오더링된 V[k] 행렬 (35') 의 서브세트는 차원들 D: (N+1)² x nFG 를 갖는 전경 V[k] 행렬 (51 _k ) (수학적으로

로서 표시될 수도 있음) 로서 표시될 수도 있다.

에너지 보상 유닛 (38) 은 배경 선택 유닛 (48) 에 의한 HOA 채널들 중 다양한 HOA 채널들의 제거로 인한 에너지 손실을 보상하기 위해 주변 HOA 계수들 (47) 에 관하여 에너지 보상을 수행하도록 구성된 유닛을 표현할 수도 있다. 에너지 보상 유닛 (38) 은 리오더링된 US[k] 행렬 (33'), 리오더링된 V[k] 행렬 (35'), nFG 신호들 (49), 전경 V[k] 벡터들 (51 _k ) 및 주변 HOA 계수들 (47) 중 하나 이상에 관하여 에너지 분석을 수행한 후에, 에너지 분석에 기초하여 에너지 보상을 수행하여 에너지 보상된 주변 HOA 계수들 (47') 을 생성할 수도 있다. 에너지 보상 유닛 (38) 은 에너지 보상된 주변 HOA 계수들 (47') 을 심리음향 오디오 코더 유닛 (40) 에 출력할 수도 있다.

공간-시간 보간 유닛 (50) 은 k 번째 프레임에 대한 전경 V[k] 벡터들 (51 _k ) 및 이전 프레임 (그에 따라 k-1 표시) 에 대한 전경 V[k-1] 벡터들 (51 _k _-1) 을 수신하고 공간-시간 보간을 수행하여 보간된 전경 V[k] 벡터들을 생성하도록 구성된 유닛을 표현할 수도 있다. 공간-시간 보간 유닛 (50) 은 nFG 신호들 (49) 을 전경 V[k] 벡터들 (51 _k ) 과 재조합하여 리오더링된 전경 HOA 계수들을 복원할 수도 있다. 그 후에, 공간-시간 보간 유닛 (50) 은 리오더링된 전경 HOA 계수들을 보간된 V[k] 벡터들에 의해 나누어서 보간된 nFG 신호들 (49') 을 생성할 수도 있다. 공간-시간 보간 유닛 (50) 은 또한, 보간된 전경 V[k] 벡터들을 생성하는데 이용되었던 전경 V[k] 벡터들 (51 _k ) 을 출력할 수도 있어서, 오디오 디코딩 디바이스 (24) 와 같은 오디오 디코딩 디바이스가 보간된 전경 V[k] 벡터들을 생성하고 그에 의해 전경 V[k] 벡터들 (51 _k ) 을 복원할 수도 있다. 보간된 전경 V[k] 벡터들을 생성하는데 이용된 전경 V[k] 벡터들 (51 _k ) 은 나머지 전경 V[k] 벡터들 (53) 로서 표시된다. 동일한 V[k] 및 V[k-1] 이 (보간된 벡터들 V[k] 를 생성하기 위해) 인코더 및 디코더에서 이용됨을 보장하기 위해, 벡터들의 양자화된/양자화해제된 버전들이 인코더 및 디코더에서 이용될 수도 있다. 공간-시간 보간 유닛 (50) 은 보간된 nFG 신호들 (49') 을 심리음향 오디오 코더 유닛 (46) 에 출력하고 보간된 전경 V[k] 벡터들 (51 _k ) 을 계수 감소 유닛 (46) 에 출력할 수도 있다.

계수 감소 유닛 (46) 은 감소된 전경 V[k] 벡터들 (55) 을 양자화 유닛 (52) 에 출력하기 위해 배경 채널 정보 (43) 에 기초하여 나머지 전경 V[k] 벡터들 (53) 에 관하여 계수 감소를 수행하도록 구성된 유닛을 표현할 수도 있다. 감소된 전경 V[k] 벡터들 (55) 은 차원들 D: [(N+1)² - (N _BG +1)²-BG_TOT] x nFG 를 가질 수도 있다. 계수 감소 유닛 (46) 은, 이와 관련하여, 나머지 전경 V[k] 벡터들 (53) 에서 계수들의 개수를 감소시키도록 구성된 유닛을 표현할 수도 있다. 다시 말해, 계수 감소 유닛 (46) 은 방향성 정보에 대해 거의 갖고 있지 않은 (나머지 전경 V[k] 벡터들 (53) 을 형성하는) 전경 V[k] 벡터들에서 계수들을 제거하도록 구성된 유닛을 표현할 수도 있다. 일부 예들에서, (N_BG 로서 표시될 수도 있는) 제 1 및 제로 차수 기저 함수들에 대응하는 구별되는 또는, 다시 말해, 전경 V[k] 벡터들의 계수들은 거의 방향성 정보를 제공하지 않아서 그에 따라 ("계수 감소" 라고 지칭될 수도 있는 프로세스를 통해) 전경 V-벡터들로부터 제거될 수 있다. 이 예에서, N_BG 에 대응하는 계수들을 식별할 뿐만 아니라 [(N_BG+1)²+1, (N+1)²] 의 세트로부터 (변수 TotalOfAddAmbHOAChan 에 의해 표시될 수도 있는) 부가적인 HOA 채널들을 식별하기 위해 가장 큰 유연성이 제공될 수도 있다.

양자화 유닛 (52) 은 임의의 형태의 양자화를 수행하여 감소된 전경 V[k] 벡터들 (55) 을 압축하여 코딩된 전경 V[k] 벡터들 (57) 을 생성하여, 코딩된 전경 V[k] 벡터들 (57) 을 비트스트림 생성 유닛 (42) 에 출력하도록 구성된 유닛을 표현할 수도 있다. 동작시, 양자화 유닛 (52) 은 음장의 공간 성분, 즉, 이 예에서 감소된 전경 V[k] 벡터들 (55) 중 하나 이상을 압축하도록 구성된 유닛을 표현할 수도 있다. 양자화 유닛 (52) 은, "NbitsQ" 로 표시된 양자화 모드 신택스 엘리먼트에 의해 나타낸 바와 같이, 다음 12 개의 양자화 모드들 중 임의의 것을 수행할 수도 있다:

NbitsQ 값 양자화 모드의 타입

0-3: 예비됨

4: 벡터 양자화

5: 허프만 코딩을 이용하지 않은 스칼라 양자화

6: 허프만 코딩을 이용한 6-비트 스칼라 양자화

7: 허프만 코딩을 이용한 7-비트 스칼라 양자화

8: 허프만 코딩을 이용한 8-비트 스칼라 양자화

… …

16: 허프만 코딩을 이용한 16-비트 스칼라 양자화

양자화 유닛 (52) 은 또한 전술한 타입들의 양자화 모드들 중 임의의 양자화 모드의 예측된 버전들을 수행할 수도 있고, 여기서 이전 프레임의 V-벡터의 엘리먼트 (또는 벡터 양자화가 수행될 때의 가중치) 와 현재 프레임의 V-벡터의 엘리먼트 (또는 벡터 양자화가 수행될 때의 가중치) 사이에서 결정되는 차이가 결정된다. 그 후에, 양자화 유닛 (52) 은 현재 프레임의 V-벡터의 엘리먼트의 값 그 자체보다는 현재 프레임과 이전 프레임의 엘리먼트들 또는 가중치들 사이의 차이를 양자화할 수도 있다.

양자화 유닛 (52) 은 감소된 전경 V[k] 벡터들 (55) 각각에 관하여 다수의 형태들의 양자화를 수행하여 감소된 전경 V[k] 벡터들 (55) 의 다수의 코딩된 버전들을 획득할 수도 있다. 양자화 유닛 (52) 은 코딩된 전경 V[k] 벡터 (57) 로서 감소된 전경 V[k] 벡터들 (55) 의 코딩된 버전들 중 하나를 선택할 수도 있다. 양자화 유닛 (52) 은, 다시 말해, 본 개시물에서 논의된 기준들의 임의의 조합에 기초하여 출력 스위칭된-양자화된 V-벡터로서 이용하기 위해 비-예측된 벡터-양자화된 V-벡터, 예측된 벡터-양자화된 V-벡터, 비-허프만-코딩된 스칼라-양자화된 V-벡터, 및 허프만-코딩된 스칼라-양자화된 V-벡터 중 하나를 선택할 수도 있다. 일부 예들에서, 양자화 유닛 (52) 은 벡터 양자화 모드 및 하나 이상의 스칼라 양자화 모드들을 포함하는 양자화 모드들의 세트로부터 양자화 모드를 선택하고, 선택된 모드에 기초하여 (또는 선택된 모드에 따라) 입력 V-벡터를 양자화할 수도 있다. 그 후에, 양자화 유닛 (52) 은 비-예측된 벡터-양자화된 V-벡터 (예를 들어, 그것을 나타내는 가중 값들 또는 비트들의 관점들에서), 예측된 벡터-양자화된 V-벡터 (예를 들어, 그것을 나타내는 에러 값들 또는 비트들의 관점들에서), 비-허프만-코딩된 스칼라-양자화된 V-벡터 및 허프만-코딩된 스칼라-양자화된 V-벡터 중 선택된 하나를 코딩된 전경 V[k] 벡터들 (57) 로서 비트스트림 생성 유닛 (52) 에 제공할 수도 있다. 양자화 유닛 (52) 은 또한, 양자화 모드를 나타내는 신택스 엘리먼트들 (예를 들어, NbitsQ 신택스 엘리먼트), 및 V-벡터를 양자화해제하거나 또는 그렇지 않으면 재구성하기 위해 이용되는 임의의 다른 신택스 엘리먼트들을 제공할 수도 있다.

오디오 인코딩 디바이스 (20) 내에 포함된 심리음향 오디오 코더 유닛 (40) 은 심리음향 오디오 코더의 다수의 인스턴스들을 표현할 수도 있고, 그 각각은 에너지 보상된 주변 HOA 계수들 (47') 및 보간된 nFG 신호들 (49') 각각의 상이한 오디오 오브젝트 또는 HOA 채널을 인코딩하여 인코딩된 주변 HOA 계수들 (59) 및 인코딩된 nFG 신호들 (61) 을 생성하는데 이용된다. 심리음향 오디오 코더 유닛 (40) 은 인코딩된 주변 HOA 계수들 (59) 및 인코딩된 nFG 신호들 (61) 을 비트스트림 생성 유닛 (42) 에 출력할 수도 있다.

오디오 인코딩 디바이스 (20) 내에 포함된 비트스트림 생성 유닛 (42) 은 (디코딩 디바이스에 의해 알려진 포맷으로 지칭할 수도 있는) 알려진 포맷을 준수하도록 데이터를 포맷팅하여, 그에 의해 벡터-기반 비트스트림 (21) 을 생성하는 유닛을 표현한다. 비트스트림 (21) 은, 다시 말해, 상술된 방식으로 인코딩되었던, 인코딩된 오디오 데이터를 표현할 수도 있다. 비트스트림 생성 유닛 (42) 은, 일부 예들에서, 코딩된 전경 V[k] 벡터들 (57), 인코딩된 주변 HOA 계수들 (59), 인코딩된 nFG 신호들 (61) 및 배경 채널 정보 (43) 를 수신할 수도 있는 멀티플렉서를 표현할 수도 있다. 비트스트림 생성 유닛 (42) 은 그 후에 코딩된 전경 V[k] 벡터들 (57), 인코딩된 주변 HOA 계수들 (59), 인코딩된 nFG 신호들 (61) 및 배경 채널 정보 (43) 에 기초하여 비트스트림 (21) 을 생성할 수도 있다. 이러한 방법으로, 비트스트림 생성 유닛 (42) 은 그에 의해 비트스트림 (21) 을 획득하기 위해 비트스트림 (21) 에서 벡터들 (57) 을 특정할 수도 있다. 비트스트림 (21) 은 프라이머리 또는 메인 비트스트림 및 하나 이상의 사이드 채널 비트스트림들을 포함할 수도 있다.

기법들의 다양한 양태들은 또한, 비트스트림 생성 유닛 (46) 으로 하여금, 상술된 바와 같이, 비트스트림 (21) 에서 오디오 렌더링 정보 (2) 를 특정하는 것을 가능하게 할 수도 있다. 다가오는 3D 비디오 압축 작업 초안의 현재 버전이 비트스트림 (21) 내의 특정 다운믹스 행렬들을 시그널링하는 것을 제공하지만, 이 작업 초안은 비트스트림 (21) 에서 HOA 계수들 (11) 을 렌더링함에 있어서 이용되는 렌더러들을 특정하는 것을 제공하지 않는다. HOA 콘텐츠에 대해, 이러한 다운믹스 행렬의 등가물은 HOA 표현을 원하는 라우드스피커 피드들로 컨버팅하는 렌더링 행렬이다. 본 개시물에서 설명되는 기법들의 다양한 양태들은 비트스트림 생성 유닛 (46) 으로 하여금 (예를 들어, 오디오 렌더링 정보 (2) 로서) 비트스트림 내의 HOA 렌더링 행렬들을 시그널링하게 하는 것에 의해 HOA 및 채널 콘텐츠의 피처 세트들을 추가로 조화시키는 것을 제안한다.

다운믹스 행렬들의 코딩 스킴에 기초하고 HOA 에 대해 최적화된 하나의 예시적인 시그널링 솔루션이 아래에 제시된다. 다운믹스 행렬들의 송신과 유사하게, HOA 렌더링 행렬들은 mpegh3daConfigExtension() 내에서 시그널링될 수도 있다. 기법들은 다음 테이블들 (이탤릭체 및 볼드체는 기존 테이블에 대한 변화들을 나타냄) 에 제시된 것과 같은 새로운 확장 타입 ID_CONFIG_EXT_HOA_MATRIX 를 제공할 수도 있다.

테이블 - mpegh3daConfigExtension() 의 신택스 (CD 에서의 테이블 13)

테이블 - usacConfigExtType 의 값 (CD 에서의 테이블 1)

비트필드 HOARenderingMatrixSet() 는 DownmixMatrixSet() 와 비교하면 구조 및 기능성이 동일할 수도 있다. inputCount(audioChannelLayout) 대신에, HOARenderingMatrixSet() 가 HOAConfig 에서 연산된 "등가의" NumOfHoaCoeffs 값을 이용할 수도 있다. 추가로, HOA 계수들의 오더링이 HOA 디코더 내에서 픽싱될 (fixed) 수도 있기 때문에 (예를 들어, CD 에서의 부록 G 참조), HOARenderingMatrixSet 는 inputConfig(audioChannelLayout) 에 대한 어떠한 등가물도 필요하지 않다.

테이블 2 - HOARenderingMatrixSet() 의 신택스 (CD 에서의 테이블 15 로부터 채택됨)

기법들의 다양한 양태들은 또한, 비트스트림 생성 유닛 (46) 으로 하여금, (벡터-기반 분해 유닛 (27) 에 의해 표현된 분해 압축 스킴과 같은) 제 1 압축 스킴을 이용하여 HOA 오디오 데이터 (예를 들어, 도 4 의 예에서의 HOA 계수들 (11)) 를 압축할 때, 제 2 압축 스킴 (예를 들어, 방향-기반 분해 유닛 (28) 에 의해 표현된 방향성-기반 압축 스킴 또는 방향성-기반 (directionality-based) 압축 스킴) 에 대응하는 비트들이 비트스트림 (21) 에 포함되지 않도록 비트스트림 (21) 을 특정하는 것을 가능하게 할 수도 있다. 예를 들어, 비트스트림 생성 유닛 (42) 은 방향성-기반 압축 스킴의 방향성 신호들 사이의 예측 정보를 특정하기 위한 용도로 예비될 수도 있는 HOAPredictionInfo 신택스 엘리먼트들 또는 필드를 포함하지 않도록 비트스트림 (21) 을 생성할 수도 있다. 본 개시물에서 설명되는 기법들의 다양한 양태들에 따라 생성되는 비트스트림 (21) 의 예들이 도 8e 및 도 8f 의 예들에 도시된다.

다시 말해, 방향성 신호들의 예측은 방향성-기반 분해 유닛 (28) 에 의해 채용된 우세 사운드 합성의 부분일 수도 있고 (방향-기반 신호를 나타낼 수도 있는) ChannelType 0 의 존재에 의존한다. 어떠한 방향-기반 신호도 프레임 내에 존재하지 않을 때, 방향성 신호들의 어떠한 예측도 수행되지 않을 수도 있다. 그러나, 연관된 측파대 정보 HOAPredictionInfo() 는, 이용되지 않더라도, 방향-기반 신호들의 존재와는 독립적으로 모든 프레임에 기입될 수도 있다. 어떠한 방향성 신호도 프레임 내에 존재하지 않을 때, 본 개시물에서 설명되는 기법들은 비트스트림 생성 유닛 (42) 으로 하여금 다음 테이블 (밑줄친 이탤릭체는 부가들을 표시함) 에 제시된 바와 같이 측파대에 HOAPredictionInfo 를 시그널링하지 않는 것에 의해 측파대의 사이즈를 감소시키는 것을 가능하게 할 수도 있다:

테이블: HOAFrame 의 신택스

이와 관련하여, 기법들은, 오디오 인코딩 디바이스 (20) 와 같은 디바이스로 하여금, 제 1 압축 스킴을 이용하여 고차 앰비소닉 오디오 데이터를 압축할 때, 고차 앰비소닉 오디오 데이터를 압축하는데 또한 이용되는 제 2 압축 스킴에 대응하는 비트들을 포함하지 않는 고차 앰비소닉 오디오 데이터의 압축된 버전을 표현하는 비트스트림을 특정하는 것을 가능하게 할 수도 있다.

일부 경우들에서, 제 1 압축 스킴은 벡터-기반 분해 압축 스킴을 포함한다. 이들 및 다른 경우들에서, 벡터 기반 분해 압축 스킴은 고차 앰비소닉 오디오 데이터에 대한 특이값 분해 (또는 본 개시물에서 더 상세히 설명되는 그의 등가물들) 의 적용을 수반하는 압축 스킴을 포함한다.

이들 및 다른 경우들에서, 오디오 인코딩 디바이스 (20) 는 압축 스킴의 제 2 타입을 수행하는데 이용되는 적어도 하나의 신택스 엘리먼트에 대응하는 비트들을 포함하지 않는 비트스트림을 특정하도록 구성될 수도 있다. 제 2 압축 스킴은, 위에서 언급된 바와 같이, 방향성-기반 압축 스킴을 포함할 수도 있다.

오디오 인코딩 디바이스 (20) 는 또한 비트스트림 (21) 이 제 2 압축 스킴의 HOAPredictionInfo 신택스 엘리먼트에 대응하는 비트들을 포함하지 않도록 비트스트림 (21) 을 특정하도록 구성될 수도 있다.

제 2 압축 스킴이 방향성-기반 압축 스킴을 포함할 때, 오디오 인코딩 디바이스 (20) 는 비트스트림 (21) 이 방향성-기반 압축 스킴의 HOAPredictionInfo 신택스 엘리먼트에 대응하는 비트들을 포함하지 않도록 비트스트림 (21) 을 특정하도록 구성될 수도 있다. 다시 말해, 오디오 인코딩 디바이스 (20) 는 비트스트림 (21) 이 압축 스킴들의 제 2 타입을 수행하는데 이용되는 적어도 하나의 신택스 엘리먼트에 대응하는 비트들을 포함하지 않도록 비트스트림 (21) 을 특정하도록 구성될 수도 있고, 그 적어도 하나의 신택스 엘리먼트는 2 개 이상의 방향성-기반 신호들 사이의 예측을 나타낸다. 또 다시 재언급하면, 제 2 압축 스킴이 방향성-기반 압축 스킴을 포함할 때, 오디오 인코딩 디바이스 (20) 는 비트스트림 (21) 이 방향성-기반 압축 스킴의 HOAPredictionInfo 신택스 엘리먼트에 대응하는 비트들을 포함하지 않도록 비트스트림 (21) 을 특정하도록 구성될 수도 있고, 여기서 HOAPredictionInfo 신택스 엘리먼트는 2 개 이상의 방향성-기반 신호들 사이의 예측을 나타낸다.

기법들의 다양한 양태들은 추가로, 비트스트림 생성 유닛 (46) 으로 하여금, 소정의 경우들에서 비트스트림 (21) 이 이득 정정 데이터를 포함하지 않도록 비트스트림 (21) 을 특정하는 것을 가능하게 할 수도 있다. 비트스트림 생성 유닛 (46) 은, 이득 정정이 억제될 때, 비트스트림 (21) 이 이득 정정 데이터를 포함하지 않도록 비트스트림 (21) 을 특정할 수도 있다. 기법들의 다양한 양태들에 따라 생성되는 비트스트림 (21) 의 예들이, 위에서 언급된 바와 같이, 도 8e 및 도 8f 의 예들에 도시된다.

일부 경우들에서, 심리음향 인코딩의 소정의 타입들이 수행될 때 이득 정정이 적용되어 심리음향 인코딩의 다른 타입들에 비해 이들 심리음향 인코딩의 소정의 타입들의 상대적으로 더 작은 동적 범위가 주어진다. 예를 들어, AAC 는 단일화된 음성 및 오디오 코딩 (unified speech and audio coding; USAC) 보다 상대적으로 더 작은 동적 범위를 갖는다. (벡터-기반 합성 압축 스킴 또는 방향성-기반 압축 스킴과 같은) 압축 스킴이 USAC 를 수반할 때, 비트스트림 생성 유닛 (46) 은 (예를 들어, 비트스트림 (21) 에 0 의 값으로 HOAConfig 에서의 신택스 엘리먼트 MaxGainCorrAmpExp 를 특정하는 것에 의해) 이득 정정이 억제되었다는 것을 비트스트림 (21) 에 시그널링한 후에 (HOAGainCorrectionData() 필드에) 이득 정정 데이터를 포함시키지 않도록 비트스트림 (21) 을 특정할 수도 있다.

다시 말해, HOAConfig 의 부분으로서의 비트필드 MaxGainCorrAmpExp (CD 에서의 테이블 71 참조) 는 USAC 코어 코딩에 앞서 자동 이득 제어 모듈이 전송 채널 신호들에 영향을 미치는 범위를 제어할 수도 있다. 일부 경우들에서, 이 모듈은 RM0 가 이용가능 AAC 인코더 구현의 비이상적인 동적 범위를 개선시키기 위해 개발되었다. 집적 페이즈 동안 AAC 로부터 USAC 코어 코더로의 변화로, 코어 인코더의 동적 범위는 개선되어 그에 따라, 이 이득 제어 모듈에 대한 필요성이 이전만큼 중요하지 않을 수도 있다.

일부 경우들에서, MaxGainCorrAmpExp 가 0 으로 설정되는 경우 이득 제어 기능성은 억제될 수 있다. 이들 경우들에서, 연관된 측파대 정보 HOAGainCorrectionData() 는 "HOAFrame 의 신택스" 를 예시하는 위의 테이블 당 모든 HOA 프레임에 기입되지 않을 수도 있다. MaxGainCorrAmpExp 가 0 으로 설정되는 구성에 대해, 본 개시물에서 설명되는 기법들은 HOAGainCorrectionData 를 시그널링하지 않을 수도 있다. 추가로, 이러한 시나리오에서 역 이득 제어 모듈이 심지어 바이패스되어, 어떠한 부정적인 부작용 없이 전송 채널 당 약 0.05 MOPS 까지 디코더 복잡도를 감소시킬 수도 있다.

이와 관련하여, 기법들은, 고차 앰비소닉 오디오 데이터의 압축 동안 이득 정정이 억제될 때, 비트스트림 (21) 이 이득 정정 데이터를 포함하지 않도록 고차 앰비소닉 오디오 데이터의 압축된 버전을 표현하는 비트스트림 (21) 을 특정하도록 오디오 인코딩 디바이스 (20) 를 구성할 수도 있다.

이들 및 다른 경우들에서, 오디오 인코딩 디바이스 (20) 는 벡터-기반 분해 압축 스킴에 따라 고차 앰비소닉 오디오 데이터를 압축하여 고차 앰비소닉 오디오 데이터의 압축된 버전을 생성하도록 구성될 수도 있다. 분해 압축 스킴의 예들로는 고차 앰비소닉 오디오 데이터의 압축된 버전을 생성하기 위해 고차 앰비소닉 오디오 데이터에 대한 특이값 분해 (또는 위에서 더 상세히 설명되는 그의 등가물들) 의 적용을 수반할 수도 있다.

이들 및 다른 경우들에서, 오디오 인코딩 디바이스 (20) 는 이득 정정이 억제됨을 나타내기 위해 비트스트림 (21) 에서의 MaxGainCorrAmbExp 신택스 엘리먼트를 0 으로서 특정하도록 구성될 수도 있다. 일부 경우들에서, 오디오 인코딩 디바이스 (20) 는, 이득 정정이 억제될 때, 비트스트림 (21) 이 이득 정정 데이터를 저장하는 HOAGainCorrection 데이터 필드를 포함하지 않도록 비트스트림 (21) 을 특정하도록 구성될 수도 있다. 다시 말해, 오디오 인코딩 디바이스 (20) 는 이득 정정이 억제되고 이득 정정 데이터를 저장하는 HOAGainCorrection 데이터 필드를 비트스트림에 포함시키지 않는 것으로 나타내기 위해 비트스트림 (21) 에서의 MaxGainCorrAmbExp 신택스 엘리먼트를 0 으로서 특정하도록 구성될 수도 있다.

이들 및 다른 경우들에서, 오디오 인코딩 디바이스 (20) 는 고차 앰비소닉 오디오 데이터의 압축이 고차 앰비소닉 오디오 데이터에 대한 단일화된 오디오 음성 및 음성 오디오 코딩 (USAC) 의 적용을 포함할 때 이득 정정을 억제하도록 구성될 수도 있다.

비트스트림 (21) 에서의 다양한 정보의 시그널링에 대한 전술한 잠재적인 최적화들이 아래에 더욱 상세히 설명되는 방식으로 적응 또는 그렇지 않으면 업데이트될 수도 있다. 이 업데이트들은 아래에 논의되는 다른 업데이트들과 함께 적용되거나 또는 위에서 논의된 최적화들의 다양한 양태들만을 업데이트하는데 이용될 수도 있다. 이와 같이, 상술된 최적화들에 대한 아래에 설명되는 단일 업데이트의 적용 또는 상술된 최적화들에 대한 아래에 설명되는 업데이트들의 임의의 특정 조합들을 포함하는, 상술된 최적화들에 대한 업데이트들의 각각의 잠재적인 조합이 고려된다.

비트스트림에서 행렬을 특정하기 위해, 비트스트림 생성 유닛 (42) 은, 예를 들어, 다음 테이블에서 볼드체로 되고 하이라이트된 것으로서 아래에 도시된 바와 같이, 비트스트림 (21) 의 mpegh3daConfigExtension() 에서 ID_CONFIG_EXT_HOA_MATRIX 를 특정할 수도 있다. 다음 테이블은 비트스트림 (21) 의 mpegh3daConfigExtension() 부분을 특정하기 위한 신택스를 표현한다:

테이블 - mpegh3daConfigExtension() 의 신택스

전술한 테이블에서의 ID_CONFIG_EXT_HOA_MATRIX 는 렌더링 행렬을 특정하기 위한 컨테이너를 제공하고, 그 컨테이너는 "HOARenderingMatrixSet()" 로서 표시된다.

HOARenderingMatrixSet() 컨테이너의 콘텐츠들은 다음 테이블에 제시된 신택스에 따라 정의될 수도 있다:

테이블 - HOARenderingMatrixSet() 의 신택스

바로 위의 테이블에 도시된 바와 같이, HOARenderingMatrixSet() 는, numHoaRenderingMatrices, HoaRendereringMatrixId, CICPspeakerLayoutIdx, HoaMatrixLenBits 및 HoARenderingMatrix 를 포함하는 다수의 상이한 신택스 엘리먼트들을 포함한다.

numHoaRenderingMatrices 신택스 엘리먼트는 비트스트림 엘리먼트에 존재하는 HoaRendereringMatrixId 정의들의 개수를 특정할 수도 있다. HoARenderingMatrixId 신택스 엘리먼트는 디코더 측 상에서 이용가능한 디폴트 HOA 렌더링 행렬 또는 송신된 HOA 렌더링 행렬에 대해 Id 를 고유하게 정의하는 필드를 표현할 수도 있다. 이와 관련하여, HoARenderingMatrixId 는 구면 조화 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되는 행렬을 비트스트림이 포함함을 나타내는 인덱스를 정의하는 2 개 이상의 비트들을 포함하는 신호 값 또는 구면 조화 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되는 복수의 행렬들 중 하나와 연관된 인덱스를 정의하는 2 개 이상의 비트들을 포함하는 신호 값의 예를 표현할 수도 있다. CICPspeakerLayoutIdx 신택스 엘리먼트는 주어진 HOA 렌더링 행렬에 대한 출력 라우드스피커 레이아웃을 설명하는 값을 표현할 수도 있고, ISO/IEC 23000 1-8 에 정의된 ChannelConfiguration 엘리먼트에 대응할 수도 있다. (또한 "HoARenderingMatrixLenBits" 로서 표시될 수도 있는) HoaMatrixLenBits 신택스 엘리먼트는 비트들에 있어서의 후속 비트 스트림 엘리먼트 (예를 들어, HoARenderingMatrix() 컨테이너) 의 길이를 특정할 수도 있다.

HoARenderingMatrix() 컨테이너는 NumOfHoaCoeffs 다음에 outputConfig() 컨테이너 및 outputCount() 컨테이너를 포함한다. outputConfig() 컨테이너는 각각의 라우드스피커에 관한 정보를 특정하는 채널 구성 벡터들을 포함할 수도 있다. 비트스트림 생성 유닛 (42) 은 이 라우드스피커 정보가 출력 레이아웃의 채널 구성들로부터 알려져 있는 것으로 가정할 수도 있다. 각각의 엔트리 outputConfig[i] 는 다음 멤버들을 갖는 데이터 구조를 표현할 수도 있다:

AzimuthAngle (스피커 방위각의 절대 값을 표시할 수도 있음);

AzimuthDirection (하나의 예로서, 좌측에 대해 0 그리고 우측에 대해 1 을 이용하는 방위 방향을 표시할 수도 있음);

Elevation Angle (스피커 고도각들의 절대 값을 표시할 수도 있음);

ElevationDirection (하나의 예로서, 상측에 대해 0 그리고 하측에 대해 1 을 이용하는 고도 방향을 표시할 수도 있음); 그리고

isLFE (스피커가 저주파 효과 (LFE) 스피커인지 여부를 나타낼 수도 있음).

비트스트림 생성 유닛 (42) 은, 일부 경우들에서, 다음을 추가로 특정할 수도 있는 "findSymmetricSpeakers" 로서 표시된 헬퍼 함수 (helper function) 를 호출할 수도 있다:

pairType (SYMMETRIC (이는 일부 예에서 2 개의 스피커들의 대칭 쌍을 의미함), CENTER, 또는 ASYMMETRIC 의 값을 저장할 수도 있음); 그리고

symmetricPair->originalPosition (SYMMETRIC 그룹들에 대해서만, 그룹에서의 제 2 (예를 들어, 우측) 스피커의 오리지널 채널 구성에서의 포지션을 표시할 수도 있음).

outputCount() 컨테이너는 HOA 렌더링 행렬이 정의되는 라우드스피커들의 개수를 특정할 수도 있다.

비트스트림 생성 유닛 (42) 은 다음 테이블에 제시된 신택스에 따라 HoARenderingMatrix() 컨테이너를 특정할 수도 있다:

테이블 - HoARenderingMatrix() 의 신택스

바로 위의 테이블에 도시된 바와 같이, numPairs 신택스 엘리먼트는 입력들로서 outputCount 및 outputConfig 그리고 hasLfeRendering 을 이용하여 findSymmetricSpeakers 헬퍼 함수를 호출하는 것으로부터 출력된 값으로 설정된다. numPairs 는 그에 따라 효율적인 대칭성 코딩을 위해 고려될 수도 있는 출력 라우드스피커 셋업에서 식별된 대칭 라우드스피커 쌍들의 개수를 표시할 수도 있다. 위의 테이블에서의 precisionLevel 신택스 엘리먼트는 다음 테이블에 따라 이득들의 균일한 양자화를 위해 이용되는 정밀도를 표시할 수도 있다:

테이블 - precisionLevel 의 함수로서 hoaGain 의 균일한 양자화 단계 사이즈

HoARenderingMatrix() 의 신택스를 제시한 위의 테이블에 도시된 gainLimitPerHoaOrder 신택스 엘리먼트는, maxGain 및 minGain 이 각각의 차수에 대해 또는 전체 HOA 렌더링 행렬에 대해 개별적으로 특정되는지를 나타내는 플래그를 표현할 수도 있다. maxGain[i] 신택스 엘리먼트들은, 하나의 예로서, 데시벨 (dB) 에 있어서, 표시된 HOA 차수 i 에 대한 계수들에 대한 행렬에서 최대 실제 이득을 특정할 수도 있다. minGain[i] 신택스 엘리먼트들은, 다시 하나의 예로서, dB 에 있어서, 표시된 HOA 차수 i 의 계수들에 대한 행렬에서 최소 실제 이득을 특정할 수도 있다. isFullMatrix 신택스 엘리먼트는 HOA 렌더링 행렬이 희소 (sparse) 한지 또는 충만 (full) 한지를 나타내는 플래그를 표현할 수도 있다. firstSparseOrder 신택스 엘리먼트는, HOA 렌더링 행렬이 isFullMatrix 신택스 엘리먼트에 대해 희소한 것으로 특정된 경우에, 희소하게 코딩되는 제 1 HOA 차수를 특정할 수도 있다. isHoaCoefSparse 신택스 엘리먼트는 firstSparseOrder 신택스 엘리먼트로부터 도출된 비트마스크 벡터를 표현할 수도 있다. lfeExists 신택스 엘리먼트는 하나 이상의 LFE들이 outputConfig 에 존재하는지 여부를 나타내는 플래그를 표현할 수도 있다. hasLfeRendering 신택스 엘리먼트는 렌더링 행렬이 하나 이상의 LFE 채널들에 대한 논-제로 엘리먼트들을 포함하는지 여부를 나타낸다. zerothOrderAlwaysPositive 신택스 엘리먼트는 0 번째 HOA 차수가 단지 포지티브 값들만을 갖는지 여부를 나타내는 플래그를 표현할 수도 있다.

isAllValueSymmetric 신택스 엘리먼트는 모든 대칭 라우드스피커 쌍들이 HOA 렌더링 행렬에서 동일한 절대 값들을 갖는지 여부를 나타내는 플래그를 표현할 수도 있다. isAnyValueSymmetric 신택스 엘리먼트는, 예를 들어 거짓일 때, 대칭 라우드스피커 쌍들 중 일부가 HOA 렌더링 행렬에서 동일한 절대 값들을 갖는지 여부를 나타내는 플래그를 표현한다. valueSymmetricPairs 신택스 엘리먼트는 값 대칭성으로 라우드스피커 쌍들을 나타내는 길이 numPairs 의 비트마스크를 표현할 수도 있다. isValueSymmetric 신택스 엘리먼트는 valueSymmetricPairs 신택스 엘리먼트로부터 테이블 3 에 도시된 방식으로 도출된 비트마스크를 표현할 수도 있다. isAllSignSymmetric 신택스 엘리먼트는, 행렬에 어떠한 값 대칭성들도 존재하지 않을 때, 모든 대칭 라우드스피커 쌍들이 적어도 숫자 부호 (number sign) 대칭성들을 갖는지 여부를 표시할 수도 있다. isAnySignSymmetric 신택스 엘리먼트는 숫자 부호 대칭성들을 갖는 적어도 일부의 대칭 라우드스피커 쌍들이 존재하는지 여부를 나타내는 플래그를 표현할 수도 있다. signSymmetricPairs 신택스 엘리먼트는 부호 대칭성으로 라우드스피커 쌍들을 나타내는 길이 numPairs 의 비트마스크를 표현할 수도 있다. isSignSymmetric 변수는 HoARenderingMatrix() 의 신택스를 제시하는 테이블에서 위에 도시된 방식으로 signSymmetricPairs 신택스 엘리먼트로부터 도출된 비트마스크를 표현할 수도 있다. hasVerticalCoef 신택스 엘리먼트는 행렬이 수평 전용 HOA 렌더링 행렬인지 여부를 나타내는 플래그를 표현할 수도 있다. bootVal 신택스 엘리먼트는 디코딩 루프에서 이용되는 변수를 표현할 수도 있다.

다시 말해, 비트스트림 생성 유닛 (42) 은 위의 값 대칭성 정보 (예를 들어, isAllValueSymmetric 신택스 엘리먼트, isAnyValueSymmetric 신택스 엘리먼트, valueSymmetricPairs 신택스 엘리먼트, isValueSymmetric 신택스 엘리먼트, 및 valueSymmetricPairs 신택스 엘리먼트 중 하나 이상의 신택스 엘리먼트의 임의의 조합) 중 임의의 하나 이상을 생성하거나 또는 그렇지 않으면 값 대칭성 정보를 획득하기 위해 오디오 렌더러 (1) 를 분석할 수도 있다. 비트스트림 생성 유닛 (42) 은 오디오 렌더러 정보 (2) 가 값 부호 대칭성 정보를 포함하도록 위에 도시된 방식으로 비트스트림 (21) 에서의 오디오 렌더러 정보 (2) 를 특정할 수도 있다.

더욱이, 비트스트림 생성 유닛 (42) 은 또한 위의 부호 대칭성 정보 (예를 들어, isAllSignSymmetric 신택스 엘리먼트, isAnySignSymmetric 신택스 엘리먼트, signSymmetricPairs 신택스 엘리먼트, isSignSymmetric 신택스 엘리먼트, 및 signSymmetricPairs 신택스 엘리먼트 중 하나 이상의 신택스 엘리먼트의 임의의 조합) 중 임의의 하나 이상을 생성하거나 또는 그렇지 않으면 부호 대칭성 정보를 획득하기 위해 오디오 렌더러 (1) 를 분석할 수도 있다. 비트스트림 생성 유닛 (42) 은 오디오 렌더러 정보 (2) 가 오디오 부호 대칭성 정보를 포함하도록 위에 도시된 방식으로 비트스트림 (21) 에서의 오디오 렌더러 정보 (2) 를 특정할 수도 있다.

값 대칭성 정보 및 부호 대칭성 정보를 결정할 때, 비트스트림 생성 유닛 (42) 은, 행렬로서 특정될 수도 있는, 오디오 렌더러 (1) 의 다양한 값들을 분석할 수도 있다. 렌더링 행렬은 행렬 R 의 의사-역 (pseudo-inverse) 으로서 공식화될 수도 있다. 다시 말해, (아래에 Z 로서 표시되는) (N+1)² HOA 채널들을 (L 개의 라우드스피커 신호들의 컬럼 벡터 p 로 표시되는) L 개의 라우드스피커 신호들로 렌더링하기 위해, 다음 식이 주어질 수도 있다:

Z = R * p.

L 개의 라우드스피커 신호들을 출력하는 렌더링 행렬에 도달하기 위해, R 행렬의 역이 다음 식에 나타낸 바와 같이 Z 개의 HOA 채널들로 곱해진다:

p = R^-1 * Z.

라우드스피커 채널들의 개수 L 이 Z 개의 HOA 채널들의 개수 (N+1)² 과 동일하지 않은 한, 행렬 R 은 제곱되지 않을 것이고 완전한 역이 결정되지 않을 수도 있다. 그 결과, 의사-역이 그 대신에 이용될 수도 있고, 이 의사-역은 다음과 같이 정의된다:

pinv(R) = R^T (R * R^T)^-1,

여기서 R^T 는 R 행렬의 전치를 표시한다. 위의 식에서 R^-1 을 대체시키면, 컬럼 벡터 p 로 표시된 L 개의 라우드스피커 신호들에 대한 풀이가 다음과 같이 수학적으로 표시될 수도 있다:

p = pinv(R) * Z = R^T (R * R^T)^-1 * Z.

R 행렬의 엔트리들은 상이한 구면 조화들에 대한 (N+1)² 개의 로우들 및 스피커들에 대한 L 개의 컬럼들을 갖는 라우드스피커 포지션들에 대한 구면 조화들의 값들이다. 비트스트림 생성 유닛 (42) 은 스피커들에 대한 값들에 기초하여 라우드스피커 쌍들을 결정할 수도 있다. 라우드스피커 포지션들에 대한 구면 조화들의 값들을 분석하면, 비트스트림 생성 유닛 (42) 은 그 값들에 기초하여 라우드스피커 포지션들 중 어떤 것이 쌍들인지를 (예를 들어, 쌍들이 유사한, 거의 동일한, 또는 동일한 값을 가질 수도 있지만 반대 부호들을 갖기 때문에) 결정할 수도 있다.

쌍들을 식별한 후에, 비트스트림 생성 유닛 (42) 은 각각의 쌍에 대해, 쌍들이 동일한 값 또는 거의 동일한 값을 갖는지 여부를 결정할 수도 있다. 쌍들 모두가 동일한 값을 가질 때, 비트스트림 생성 유닛 (42) 은 isAllValueSymmetric 신택스 엘리먼트를 1 로 설정할 수도 있다. 쌍들 모두가 동일한 값을 갖지 않을 때, 비트스트림 생성 유닛 (42) 은 isAllValueSymmetric 신택스 엘리먼트를 0 으로 설정할 수도 있다. 쌍들 모두가 아니라 하나 이상이 동일한 값을 가질 때, 비트스트림 생성 유닛 (42) 은 isAnyValueSymmetric 신택스 엘리먼트를 1 로 설정할 수도 있다. 쌍들 중 어느 것도 동일한 값을 갖지 않을 때, 비트스트림 생성 유닛 (42) 은 isAnyValueSymmetric 신택스 엘리먼트를 0 으로 설정할 수도 있다. 대칭 값들을 갖는 쌍들에 대해, 비트스트림 생성 유닛 (42) 은 스피커들의 쌍에 대해 2 개의 별개의 값들보다는 하나의 값만을 단지 특정하여, 그에 의해 비트스트림 (21) 에서 오디오 렌더링 정보 (2) (예를 들어, 이 예에서는 행렬) 를 표현하는데 이용되는 비트수를 감소시킬 수도 있다.

쌍들 중에서 어떠한 값 대칭성들도 존재하지 않을 때, 비트스트림 생성 유닛 (42) 은 또한 각각의 쌍에 대해, 스피커 쌍들이 부호 대칭성 (이는 하나의 스피커가 네거티브 값을 갖지만 다른 스피커가 포지티브 값을 갖는다는 것을 의미함) 을 갖는지 여부를 결정할 수도 있다. 쌍들 모두가 부호 대칭성을 가질 때, 비트스트림 생성 유닛 (42) 은 isAllSignSymmetric 신택스 엘리먼트를 1 로 설정할 수도 있다. 쌍들 모두가 부호 대칭성을 갖지 않을 때, 비트스트림 생성 유닛 (42) 은 isAllSignSymmetric 신택스 엘리먼트를 0 으로 설정할 수도 있다. 쌍들 모두가 아니라 하나 이상이 부호 대칭성을 가질 때, 비트스트림 생성 유닛 (42) 은 isAnySignSymmetric 신택스 엘리먼트를 1 로 설정할 수도 있다. 쌍들 중 어느 것도 부호 대칭성을 갖지 않을 때, 비트스트림 생성 유닛 (42) 은 isAnySignSymmetric 신택스 엘리먼트를 0 으로 설정할 수도 있다. 대칭 부호들을 갖는 쌍들에 대해, 비트스트림 생성 유닛 (42) 은 스피커 쌍에 대해 2 개의 별개의 부호들보다는 단지 하나의 부호만을 특정하거나 또는 어떠한 부호도 특정하지 않아서, 그에 의해 비트스트림 (21) 에서 오디오 렌더링 정보 (2) (예를 들어, 이 예에서는 행렬) 를 표현하는데 이용되는 비트수를 감소시킬 수도 있다.

비트스트림 생성 유닛 (42) 은 다음 테이블에 나타낸 신택스에 따라 HoARenderingMatrix() 의 신택스를 제시하는 테이블에 나타낸 DecodeHoaMatrixData() 컨테이너를 특정할 수도 있다:

테이블 - DecodeHoaMatrixData 의 신택스

DecodeHoaMatrixData 의 신택스를 제시하는 전술한 테이블에서의 hasValue 신택스 엘리먼트는 행렬 엘리먼트가 희소하게 코딩되는지 여부를 나타내는 플래그를 표현할 수도 있다. signMatrix 신택스 엘리먼트는, 하나의 예로서, 선형화된 벡터-형태로 HOA 렌더링 행렬의 부호 값들을 갖는 행렬을 표현할 수도 있다. hoaMatrix 신택스 엘리먼트는, 하나의 예로서, 선형화된 벡터-형태로 HOA 렌더링 행렬 값들을 표현할 수도 있다. 비트스트림 생성 유닛 (42) 은 다음 테이블에 나타낸 신택스에 따라 DecodeHoaMatrixData 의 신택스를 제시하는 테이블에 나타낸 DecodeHoaGainValue() 컨테이너를 특정할 수도 있다:

테이블 - DecodeHoaGainValue 의 신택스

비트스트림 생성 유닛 (42) 은 다음 테이블에 특정된 신택스에 따라 DecodeHoaGainValue 의 신택스를 제시하는 테이블에 나타낸 readRange() 컨테이너를 특정할 수도 있다:

테이블 7 - ReadRange 의 신택스

도 3 의 예에 도시되지 않지만, 오디오 인코딩 디바이스 (20) 는 또한 현재 프레임이 방향성-기반 합성 또는 벡터-기반 합성을 이용하여 인코딩되어야 하는지 여부에 기초하여 (예를 들어, 방향성-기반 비트스트림 (21) 과 벡터-기반 비트스트림 (21) 사이에서) 오디오 인코딩 디바이스 (20) 로부터 출력된 비트스트림을 스위칭하는 비트스트림 출력 유닛을 포함할 수도 있다. 비트스트림 출력 유닛은, (HOA 계수들 (11) 이 합성 오디오 오브젝트로부터 생성되었다는 검출 결과로서) 방향성-기반 합성이 수행되었는지 또는 (HOA 계수들이 레코딩되었다는 검출 결과로서) 벡터-기반 합성이 수행되었는지 여부를 나타내는, 콘텐츠 분석 유닛 (26) 에 의해 출력된 신택스 엘리먼트에 기초하여 스위치를 수행할 수도 있다. 비트스트림 출력 유닛은 비트스트림들 (21) 중 각각의 하나의 비트스트림과 함께 현재 프레임에 대해 이용된 현재 인코딩 또는 스위치를 나타내기 위한 올바른 헤더 신택스를 특정할 수도 있다.

더욱이, 위에서 언급된 바와 같이, 음장 분석 유닛 (44) 은 (때때로 BG_TOT 가 2 개 이상의 (시간적으로) 인접한 프레임들에 걸쳐 일정하게 또는 동일하게 남아있을 수도 있지만) 프레임 기반으로 변화할 수도 있는 BG_TOT 주변 HOA 계수들 (47) 을 식별할 수도 있다. BG_TOT 에서의 변화는 감소된 전경 V[k] 벡터들 (55) 에서 표현되는 계수들에 대한 변화들을 발생시킬 수도 있다. BG_TOT 에서의 변화는 (다시, 때때로 BG_TOT가 2 개 이상의 (시간적으로) 인접한 프레임들에 걸쳐 일정하게 또는 동일하게 남아있을 수도 있지만) 프레임 기반으로 변화하는 배경 HOA 계수들 (또한 "주변 HOA 계수들" 이라고도 지칭될 수도 있음) 을 발생시킬 수도 있다. 변화들은 종종, 부가적인 주변 HOA 계수들의 부가 또는 제거 및 감소된 전경 V[k] 벡터들 (55) 로부터의 계수들의 대응하는 제거 또는 그에 대한 계수들의 부가에 의해 표현되는 음장의 양태들에 대한 에너지의 변화를 발생시킨다.

그 결과, 음장 분석 유닛 (44) 은 추가로, 음장의 주변 성분들을 표현하는데 이용된다는 관점들에서 주변 HOA 계수들이 프레임 간에서 변화할 때를 결정하고 주변 HOA 계수에 대한 변화를 나타내는 플래그 또는 다른 신택스 엘리먼트를 생성할 수도 있다 (여기서 변화는 또한 주변 HOA 계수의 "천이" 라고 또는 주변 HOA 계수의 "천이" 로서 지칭될 수도 있다). 특히, 계수 감소 유닛 (46) 은 (AmbCoeffTransition 플래그 또는 AmbCoeffIdxTransition 플래그로서 표시될 수도 있는) 플래그를 생성하여, 플래그를 비트스트림 생성 유닛 (42) 에 제공하여 플래그가 (가능하다면 사이드 채널 정보의 부분으로서) 비트스트림 (21) 에 포함될 수도 있도록 할 수도 있다.

계수 감소 유닛 (46) 은, 주변 계수 천이 플래그를 특정하는 것에 부가적으로, 감소된 전경 V[k] 벡터들 (55) 이 생성되는 방법을 또한 변경할 수도 있다. 하나의 예에서, 현재 프레임 동안 주변 HOA 주변 계수들 중 하나가 천이 중이라는 결정시, 계수 감소 유닛 (46) 은, 천이시 주변 HOA 계수에 대응하는 감소된 전경 V[k] 벡터들 (55) 의 V-벡터들 각각에 대한 벡터 계수 (또한 "벡터 엘리먼트" 또는 "엘리먼트" 라고도 지칭될 수도 있음) 를 특정할 수도 있다. 다시, 천이시 주변 HOA 계수는 배경 계수들의 BG_TOT 총 개수로부터 부가 또는 제거할 수도 있다. 그에 따라, 배경 계수들의 총 개수에 있어서의 결과적인 변화는 주변 HOA 계수가 비트스트림에 포함되는지 또는 포함되지 않는지 여부, 그리고 상술된 제 2 및 제 3 구성 모드들에서 비트스트림에 특정된 V-벡터들에 대해 V-벡터들의 대응하는 엘리먼트가 포함되는지 여부에 영향을 미친다. 계수 감소 유닛 (46) 이 어떻게 감소된 전경 V[k] 벡터들 (55) 을 특정하여 에너지에서의 변화들을 극복할 수도 있는지에 관한 더 많은 정보는, 발명의 명칭이 "TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS" 이고 2015년 1월 12일자로 출원된 미국 출원 제14/594,533호에 제공된다.

도 4 는 도 2 의 오디오 디코딩 디바이스 (24) 를 더 상세히 예시하는 블록 다이어그램이다. 도 4 의 예에 도시된 바와 같이, 오디오 디코딩 디바이스 (24) 는 추출 유닛 (72), 렌더러 재구성 유닛 (81), 방향성-기반 재구성 유닛 (90) 및 벡터-기반 재구성 유닛 (92) 을 포함할 수도 있다. 아래에 설명되지만, HOA 계수들을 압축해제하거나 또는 그렇지 않으면 디코딩하는 다양한 양태들 및 오디오 디코딩 디바이스 (24) 에 관한 더 많은 정보는 발명의 명칭이 "INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD" 이고 2014년 5월 29일자로 출원된 국제 특허 출원 공개 WO 2014/194099호에서 입수가능하다.

추출 유닛 (72) 은 비트스트림 (21) 을 수신하고 오디오 렌더링 정보 (2) 및 HOA 계수들 (11) 의 다양한 인코딩된 버전들 (예를 들어, 방향성-기반 인코딩된 버전 또는 벡터-기반 인코딩된 버전) 을 추출하도록 구성된 유닛을 표현할 수도 있다. 다시 말해, 고차 앰비소닉스 (HOA) 렌더링 행렬들은 오디오 인코딩 디바이스 (20) 에 의해 송신되어 오디오 재생 시스템 (16) 에서 HOA 렌더링 프로세스를 통한 제어를 가능하게 할 수도 있다. 위에 도시된 타입 ID_CONFIG_EXT_HOA_MATRIX 의 mpegh3daConfigExtension 에 의해 송신이 용이하게 될 수도 있다. mpegh3daConfigExtension 은 상이한 라우드스피커 재생 구성들에 대한 수 개의 HOA 렌더링 행렬들을 포함할 수도 있다. HOA 렌더링 행렬들이 송신될 때, 오디오 인코딩 디바이스 (20) 는, 각각의 HOA 렌더링 행렬 신호에 대해, 렌더링 행렬의 차원들을 HoaOrder 와 함께 결정하는 연관된 타깃 라우드스피커 레이아웃을 시그널링한다.

고유한 HoARenderingMatrixId 의 송신은 오디오 재생 시스템 (16) 에서 이용가능한 디폴트 HOA 렌더링 행렬, 또는 오디오 비트스트림 (21) 의 외측으로부터 송신된 HOA 렌더링 행렬을 참조하는 것을 가능하게 한다. 일부 경우들에서, 모든 HOA 렌더링 행렬은 N3D 에서 정규화되는 것으로 가정되고 비트스트림 (21) 에 정의된 것과 같은 HOA 계수들의 오더링을 따른다.

함수 findSymmetricSpeakers 는, 위에서 언급된 바와 같이, 하나의 예로서, 소위 "스위트 스폿" 에서 청취자의 정중면에 대해 대칭인 제공된 라우드스피커 셋업 내의 모든 라우드스피커 쌍들의 포지션 및 개수를 나타낼 수도 있다. 이 헬퍼 함수는 다음과 같이 정의될 수도 있다:

추출 유닛 (72) 은 1.0 및 -1.0 값들의 벡터를 연산하기 위해 함수 createSymSigns 를 호출할 수도 있는데, 이 함수는 그 후에 대칭 라우드스피커들과 연관된 행렬 엘리먼트들을 생성하는데 이용될 수도 있다. 이 createSymSigns 함수는 다음과 같이 정의될 수도 있다:

추출 유닛 (72) 은 수평면에서만 단지 이용되는 HOA 계수들을 식별하기 위한 비트마스크를 생성하기 위해 함수 create2dBitmask 를 호출할 수도 있다. create2dBitmask 함수는 다음과 같이 정의될 수도 있다:

HOA 렌더링 행렬 계수들을 디코딩하기 위해, 추출 유닛 (72) 은 신택스 엘리먼트 HOARenderingMatrixSet() 를 우선 추출할 수도 있고, 이 신택스 엘리먼트는 위에서 언급된 바와 같이 원하는 라우드스피커 레이아웃에 대한 HOA 렌더링을 달성하기 위해 적용될 수도 있는 하나 이상의 HOA 렌더링 행렬들을 포함할 수도 있다. 일부 경우들에서, 주어진 비트 스트림은 HOARenderingMatrixSet() 의 하나보다 더 많은 인스턴스를 포함하지 않을 수도 있다. 신택스 엘리먼트 HoARenderingMatrix() 는 (도 4 의 예에서 렌더러 정보 (2) 로서 표시될 수도 있는) HOA 렌더링 행렬 정보를 포함한다. 추출 유닛 (72) 은 디코딩 프로세스를 가이딩할 수도 있는 config 정보를 우선 판독할 수도 있다. 그 후에, 추출 유닛 (72) 이 이에 따라 행렬 엘리먼트들을 판독한다.

일부 경우들에서, 추출 유닛 (72) 은, 시작점에서, 필드들 precisionLevel 및 gainLimitPerOrder 를 판독한다. 플래그 gainLimitPerOrder 가 설정될 때, 추출 유닛 (72) 은 각각의 HOA 차수에 대해 별도로 maxGain, 및 minGain 필드들을 판독하고 디코딩한다. 플래그 gainLimitPerOrder 가 설정되지 않을 때, 추출 유닛 (72) 은 필드들 maxGain 및 minGain 을 한 번 판독하고 디코딩하고, 디코딩 프로세스 동안 이들 필드들을 모든 HOA 차수들에 적용한다. 일부 경우들에서, minGain 값은 0db 와 -69dB 사이에 있어야 한다. 일부 경우들에서, maxGain 값은 minGain 값보다 더 낮은 1dB 와 111dB 사이에 있어야 한다. 도 9 는 HOA 렌더링 행렬 내의 HOA 차수 의존 최소 및 최대 이득들의 일 예를 예시하는 다이어그램이다.

추출 유닛 (72) 은 그 다음에, 행렬이 충만한 것으로서 또는 부분적으로 희소한 것으로서 정의되는지 여부를 시그널링할 수도 있는 플래그 isFullMatrix 를 판독할 수도 있다. 행렬이 부분적으로 희소한 것으로서 정의될 때, 추출 유닛 (72) 은 HOA 렌더링 행렬이 희소하게 코딩되게 하는 HOA 차수를 특정하는 다음 필드 (예를 들어, firstSparseOrder 신택스 엘리먼트) 를 판독한다. HOA 렌더링 행렬들은 종종, 라우드스피커 재생 셋업에 따라, 낮은 차수에 대해 조밀하고 보다 높은 차수들에서 희소하게 될 수도 있다. 도 10 은 22 개의 라우드스피커들에 대한 부분적 희소 6 차 HOA 렌더링 행렬을 예시하는 다이어그램이다. 도 10 에 도시된 행렬의 희소성 (sparseness) 은 26 번째 HOA 계수 (HOA 차수 5) 에서 시작한다.

(lfeExists 신택스 엘리먼트에 의해 나타내는) 하나 이상의 저주파 효과 (LFE) 채널들이 라우드스피커 재생 셋업 내에 존재하는지 여부에 따라, 추출 유닛 (72) 은 필드 hasLfeRendering 을 판독할 수도 있다. hasLfeRendering 이 설정되지 않을 때, 추출 유닛 (72) 은 LFE 채널들에 관련된 행렬 엘리먼트들이 디지털 제로들인 것으로 가정하도록 구성된다. 추출 유닛 (72) 에 의해 판독된 다음 필드는, 0 차의 계수와 연관된 행렬 엘리먼트들이 포지티브인지 여부를 시그널링하는 플래그 zerothOrderAlwaysPositive 이다. zerothOrderAlwaysPositive 가 0 차 HOA 계수들이 포지티브임을 나타내는 이 경우에서, 추출 유닛 (72) 은 0 차 HOA 계수들에 대응하는 렌더링 행렬 계수들에 대해 숫자 부호들이 코딩되지 않는다는 것을 결정한다.

다음에, HOA 렌더링 행렬의 속성들은 정중면과 관련하여 대칭인 라우드스피커 쌍들에 대해 시그널링될 수도 있다. 일부 경우들에서, a) 값 대칭성 및 b) 부호 대칭성에 관련된 2 개의 대칭성 속성들이 존재한다. 값 대칭성의 경우, 대칭 라우드스피커 쌍의 좌측 라우드스피커의 행렬 엘리먼트들은 코딩되지 않지만, 오히려 추출 유닛 (72) 은 다음을 수행하는 헬퍼 함수 createSymSigns 를 채용하는 것에 의해 우측 라우드스피커의 디코딩된 행렬 엘리먼트들을 형성하는 이들 엘리먼트들을 도출한다:

라우드스피커 쌍이 대칭인 값이 아니라면, 행렬 엘리먼트들은 이들의 숫자 부호들과 관련하여 대칭일 수도 있다. 라우드스피커 쌍이 부호 대칭일 때, 대칭 라우드스피커 쌍의 좌측 라우드스피커의 행렬 엘리먼트들의 숫자 부호들은 코딩되지 않고, 추출 유닛 (72) 은 다음을 수행하는 헬퍼 함수 createSymSigns 를 채용하는 것에 의해 우측 라우드스피커와 연관된 행렬 엘리먼트들의 숫자 부호들로부터 이들 숫자 부호들을 도출한다:

도 11 은 대칭성 속성들의 시그널링을 예시하는 다이어그램이다. 라우드스피커 쌍은 동시에 값 대칭 및 부호 대칭으로서 정의될 수 없다. 최종 디코딩 플래그 hasVerticalCoef 는 원형 (즉, 2D) HOA 계수들과 연관된 행렬 엘리먼트들만이 코딩되는지를 특정하였다. hasVerticalCoef 가 설정되지 않은 경우, 헬퍼 함수 create2dBitmask 로 정의된 HOA 계수들과 연관된 행렬 엘리먼트들은 디지털 제로로 설정된다.

즉, 추출 유닛 (72) 은 도 11 에서 제시된 프로세스에 따라 오디오 렌더링 정보 (2) 를 추출할 수도 있다. 추출 유닛 (72) 은 비트스트림 (21) 으로부터 isAllValueSymmetric 신택스 엘리먼트를 우선 판독할 수도 있다 (300). isAllValueSymmetric 신택스 엘리먼트가 1 (또는, 다시 말해, 불 참 (Boolean true)) 로 설정될 때, 추출 유닛 (72) 은 numPairs 신택스 엘리먼트의 값을 반복하여, valueSymmetricPairs 어레이 신택스 엘리먼트를 1 의 값으로 설정 (스피커 쌍들 모두가 값 대칭임을 효과적으로 나타냄) 할 수도 있다 (302).

isAllValueSymmetric 신택스 엘리먼트가 0 (또는, 다시 말해, 불 거짓 (Boolean false)) 으로 설정될 때, 추출 유닛 (72) 은 그 다음에 isAnyValueSymmetric 신택스 엘리먼트를 판독할 수도 있다 (304). isAnyValueSymmetric 신택스 엘리먼트가 1 (또는, 다시 말해, 불 참) 로 설정될 때, 추출 유닛 (72) 은 numPairs 신택스 엘리먼트의 값을 반복하여, valueSymmetricPairs 어레이 신택스 엘리먼트를 비트스트림 (21) 으로부터 순차적으로 판독되는 비트로 설정할 수도 있다 (306). 추출 유닛 (72) 은 또한 0 으로 설정된 valueSymmetricPairs 신택스 엘리먼트를 갖는 쌍들 중 임의의 것에 대한 isAnySignSymmetric 신택스 엘리먼트를 획득할 수도 있다 (308). 추출 유닛 (72) 은 그 후에, 다수의 쌍들을 다시 반복하고, valueSymmetricPairs 가 0 과 동일할 때, signSymmetricPairs 비트를 비트스트림 (21) 으로부터 판독된 값으로 설정할 수도 있다 (310).

isAnyValueSymmetric 신택스 엘리먼트가 0 (또는, 다시 말해, 불 거짓) 으로 설정될 때, 추출 유닛 (72) 은 isAllSignSymmetric 신택스 엘리먼트를 비트스트림 (21) 으로부터 판독할 수도 있다 (312). isAllSignSymmetric 신택스 엘리먼트가 1 (또는, 다시 말해, 불 참) 의 값으로 설정될 때, 추출 유닛 (72) 은 numPairs 신택스 엘리먼트의 값을 반복하여, valueSymmetricPairs 어레이 신택스 엘리먼트를 1 의 값으로 설정 (스피커 쌍들 모두가 값 대칭임을 효과적으로 나타냄) 할 수도 있다 (316).

isAllSignSymmetric 신택스 엘리먼트가 0 (또는, 다시 말해, 불 거짓) 으로 설정될 때, 추출 유닛 (72) 은 isAnySignSymmetric 신택스 엘리먼트를 비트스트림 (21) 으로부터 판독할 수도 있다 (316). 추출 유닛 (72) 은 numPairs 신택스 엘리먼트의 값을 반복하여, signSymmetricPairs 어레이 신택스 엘리먼트를 비트스트림 (21) 으로부터 순차적으로 판독되는 비트로 설정할 수도 있다 (318). 비트스트림 생성 유닛 (42) 은 값 대칭성 정보, 부호 대칭성 정보 또는 값 및 부호 대칭성 정보 양쪽의 조합을 특정하기 위해 추출 유닛 (72) 에 관하여 상술된 것과 상반되는 프로세스를 수행할 수도 있다.

렌더러 재구성 유닛 (81) 은 오디오 렌더링 정보 (2) 에 기초하여 렌더러를 재구성하도록 구성된 유닛을 표현할 수도 있다. 즉, 위에서 언급된 속성들을 이용하여, 렌더러 재구성 유닛 (81) 은 일련의 행렬 엘리먼트 이득 값들을 판독할 수도 있다. 절대 이득 값을 판독하기 위해, 렌더러 재구성 유닛 (81) 은 함수 DecodeGainValue() 를 호출할 수도 있다. 렌더러 재구성 유닛 (81) 은 이득 값을 균일하게 디코딩하기 위해 알파벳 인덱스의 함수 ReadRange() 를 호출할 수도 있다. 디코딩된 이득 값이 디지털 제로가 아닐 때, 렌더러 재구성 유닛 (81) 은 부가적으로 (아래의 테이블 당) 숫자 부호 값을 판독할 수도 있다. 행렬 엘리먼트가 (isHoaCoefSparse 를 통해) 희소한 것으로 시그널링된 HOA 계수와 연관될 때, hasValue 플래그는 gainValueIndex 에 선행한다 (테이블 b 참조). hasValue 플래그가 0 일 때, 이 엘리먼트는 디지털 제로로 설정되고 어떠한 gainValueIndex 및 부호도 시그널링되지 않는다.

테이블들 a 및 b - 행렬 엘리먼트를 디코딩하기 위한 비트 스트림 신택스에 대한 예들

라우드스피커 쌍들에 대해 특정된 대칭성 속성들에 따라, 렌더러 재구성 유닛 (81) 은 우측 라우드스피커로부터 좌측 라우드스피커와 연관된 행렬 엘리먼트들을 도출할 수도 있다. 이 경우, 좌측 라우드스피커에 대한 행렬 엘리먼트를 디코딩하기 위한 비트스트림 (21) 에서의 오디오 렌더링 정보 (2) 는 이에 따라 감소되거나 또는 잠재적으로 완전히 생략된다.

이러한 방법으로, 오디오 디코딩 디바이스 (24) 는 대칭성 정보를 결정하여 특정될 오디오 렌더링 정보의 사이즈를 감소시킬 수도 있다. 일부 경우들에서, 오디오 디코딩 디바이스 (24) 는 대칭성 정보를 결정하여 특정될 오디오 렌더링 정보의 사이즈를 감소시키고, 대칭성 정보에 기초하여 오디오 렌더러의 적어도 일부를 도출할 수도 있다.

이들 및 다른 경우들에서, 오디오 디코딩 디바이스 (24) 는 값 대칭성 정보를 결정하여 특정될 오디오 렌더링 정보의 사이즈를 감소시킬 수도 있다. 이들 및 다른 경우들에서, 오디오 디코딩 디바이스 (24) 는 값 대칭성 정보에 기초하여 오디오 렌더러의 적어도 일부를 도출할 수도 있다.

이들 및 다른 경우들에서, 오디오 디코딩 디바이스 (24) 는 부호 대칭성 정보를 결정하여 특정될 오디오 렌더링 정보의 사이즈를 감소시킬 수도 있다. 이들 및 다른 경우들에서, 오디오 디코딩 디바이스 (24) 는 부호 대칭성 정보에 기초하여 오디오 렌더러의 적어도 일부를 도출할 수도 있다.

이들 및 다른 경우들에서, 오디오 디코딩 디바이스 (24) 는 구면 조화 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되는 행렬의 희소성을 나타내는 희소성 정보를 결정할 수도 있다.

이들 및 다른 경우들에서, 오디오 디코딩 디바이스 (24) 는 행렬이 구면 조화 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되어야 하는 스피커 레이아웃을 결정할 수도 있다.

오디오 디코딩 디바이스 (24) 는, 이와 관련하여, 그 후에 비트스트림에 특정된 오디오 렌더링 정보 (2) 를 결정할 수도 있다. 오디오 렌더링 정보 (2) 에 포함된 신호 값에 기초하여, 오디오 재생 시스템 (16) 은 오디오 렌더러들 (22) 중 하나를 이용하여 복수의 스피커 피드들 (25) 을 렌더링할 수도 있다. 스피커 피드들은 스피커들 (3) 을 구동할 수도 있다. 위에서 언급된 바와 같이, 신호 값은 일부 경우들에서 구면 조화 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되는 (오디오 렌더러들 (22) 중 하나로서 디코딩 및 제공되는) 행렬을 포함할 수도 있다. 이 경우, 오디오 재생 시스템 (16) 은 행렬로 오디오 렌더러들 (22) 중 하나를 구성하여, 행렬에 기초하여 스피커 피드들 (25) 을 렌더링하기 위해 오디오 렌더러들 (22) 중 이 하나의 오디오 렌더러를 이용할 수도 있다.

획득된 오디오 렌더러 (22) 를 이용하여 HOA 계수들 (11) 이 렌더링되는 것이 가능하도록 HOA 계수들 (11) 의 다양한 인코딩된 버전들을 추출한 후에 디코딩하기 위해, 추출 유닛 (72) 은 HOA 계수들 (11) 이 다양한 방향-기반 또는 벡터-기반 버전들을 통해 인코딩되었는지 여부를 나타내는 위에서 언급된 신택스 엘리먼트로부터 결정할 수도 있다. 방향성-기반 인코딩이 수행되었을 때, 추출 유닛 (72) 은 (도 4 의 예에서 방향성-기반 정보 (91) 로서 표시되는) 이 인코딩된 버전과 연관된 신택스 엘리먼트들 및 HOA 계수들 (11) 의 방향성-기반 버전을 추출하여, 방향성-기반 정보 (91) 를 방향성-기반 재구성 유닛 (90) 에 전달할 수도 있다. 방향성-기반 재구성 유닛 (90) 은 방향성-기반 정보 (91) 에 기초하여 HOA 계수들 (11') 의 형태로 HOA 계수들을 재구성하도록 구성된 유닛을 표현할 수도 있다.

신택스 엘리먼트가 HOA 계수들 (11) 이 벡터-기반 분해를 이용하여 인코딩되었음을 나타낼 때, 추출 유닛 (72) 은 코딩된 전경 V[k] 벡터들 (57) (코딩된 가중치들 (57) 및/또는 인덱스들 (63) 또는 스칼라 양자화된 V-벡터들을 포함할 수도 있음), 인코딩된 주변 HOA 계수들 (59) 및 대응하는 오디오 오브젝트들 (61) (또한 인코딩된 nFG 신호들 (61) 이라고도 지칭될 수도 있음) 을 추출할 수도 있다. 오디오 오브젝트들 (61) 각각은 벡터들 (57) 중 하나에 대응한다. 추출 유닛 (72) 은 코딩된 전경 V[k] 벡터들 (57) 을 V-벡터 재구성 유닛 (74) 에 전달하고 인코딩된 nFG 신호들 (61) 과 함께 인코딩된 주변 HOA 계수들 (59) 을 심리음향 디코딩 유닛 (80) 에 전달할 수도 있다.

V-벡터 재구성 유닛 (74) 은 인코딩된 전경 V[k] 벡터들 (57) 로부터 V-벡터들을 재구성하도록 구성된 유닛을 표현할 수도 있다. V-벡터 재구성 유닛 (74) 은 양자화 유닛 (52) 의 것과 상반되는 방식으로 동작할 수도 있다.

심리음향 디코딩 유닛 (80) 은 인코딩된 주변 HOA 계수들 (59) 및 인코딩된 nFG 신호들 (61) 을 디코딩하고 그에 의해 에너지 보상된 주변 HOA 계수들 (47') 및 보간된 nFG 신호들 (49') (또한 보간된 nFG 오디오 오브젝트들 (49') 이라고도 지칭될 수도 있음) 을 생성하도록 도 3 의 예에 도시된 심리음향 오디오 코더 유닛 (40) 과 상반되는 방식으로 동작할 수도 있다. 심리음향 디코딩 유닛 (80) 은 에너지 보상된 주변 HOA 계수들 (47') 을 페이드 유닛 (770) 에 전달하고 nFG 신호들 (49') 을 전경 공식화 유닛 (78) 에 전달할 수도 있다.

공간-시간 보간 유닛 (76) 은 공간-시간 보간 유닛 (50) 에 관하여 상술된 것과 유사한 방식으로 동작할 수도 있다. 공간-시간 보간 유닛 (76) 은 감소된 전경 V[k] 벡터들 (55 _k ) 을 수신하고, 전경 V[k] 벡터들 (55 _k ) 및 감소된 전경 V[k-1] 벡터들 (55 _k _-1) 에 관하여 공간-시간 보간을 수행하여 보간된 전경 V[k] 벡터들 (55 _k '') 을 생성할 수도 있다. 공간-시간 보간 유닛 (76) 은 보간된 전경 V[k] 벡터들 (55 _k '') 을 페이드 유닛 (770) 에 포워딩할 수도 있다.

추출 유닛 (72) 은 또한 주변 HOA 계수들 중 하나가 천이 중일 때를 나타내는 신호 (757) 를 페이드 유닛 (770) 에 출력할 수도 있고, 이 페이드 유닛은 그 후에, 보간된 전경 V[k] 벡터들 (55 _k '') 의 엘리먼트들 및 SHC_BG (47') (여기서 SHC_BG (47') 는 또한 "주변 HOA 채널들 (47')" 또는 "주변 HOA 계수들 (47')" 로서 표시될 수도 있음) 중 어떤 것이 페이드-인 또는 페이드-아웃되어야 하는지를 결정할 수도 있다. 일부 예들에서, 페이드 유닛 (770) 은 보간된 전경 V[k] 벡터들 (55 _k '') 의 엘리먼트들 및 주변 HOA 계수들 (47') 각각에 관하여 역으로 동작할 수도 있다. 즉, 페이드 유닛 (770) 은 보간된 전경 V[k] 벡터들 (55 _k '') 의 엘리먼트들 중 대응하는 하나의 엘리먼트에 관하여 페이드-인 또는 페이드-아웃 또는 페이드-인 및 페이즈-아웃 양쪽을 수행하는 동안, 주변 HOA 계수들 (47') 중 대응하는 하나의 주변 HOA 계수에 관하여 페이드-인 또는 페이드-아웃, 또는 페이드-인 또는 페이즈-아웃 양쪽을 수행할 수도 있다. 페이드 유닛 (770) 은 조정된 주변 HOA 계수들 (47'') 을 HOA 계수 공식화 유닛 (82) 에 출력하고 조정된 전경 V[k] 벡터들 (55 _k ''') 을 전경 공식화 유닛 (78) 에 출력할 수도 있다. 이와 관련하여, 페이드 유닛 (770) 은, 예를 들어, 보간된 전경 V[k] 벡터들 (55 _k '') 의 엘리먼트들 및 주변 HOA 계수들 (47') 의 형태로, HOA 계수들 또는 그의 도함수들의 다양한 양태들에 관하여 페이드 동작을 수행하도록 구성된 유닛을 표현한다.

전경 공식화 유닛 (78) 은 조정된 전경 V[k] 벡터들 (55 _k ''') 및 보간된 nFG 신호들 (49') 에 관하여 행렬 곱셈을 수행하여 전경 HOA 계수들 (65) 을 생성하도록 구성된 유닛을 표현할 수도 있다. 이와 관련하여, 전경 공식화 유닛 (78) 은 오디오 오브젝트들 (49') (보간된 nFG 신호들 (49') 을 표시하게 하는 다른 방법임) 을 벡터들 (55 _k ''') 과 조합하여 HOA 계수들 (11') 의 전경 또는, 다시 말해, 우세 양태들을 재구성할 수도 있다. 전경 공식화 유닛 (78) 은 조정된 전경 V[k] 벡터들 (55 _k ''') 에 의한 보간된 nFG 신호들 (49') 의 행렬 곱셈을 수행할 수도 있다.

HOA 계수 공식화 유닛 (82) 은 조정된 주변 HOA 계수들 (47'') 에 대해 전경 HOA 계수들 (65) 을 조합하여 HOA 계수들 (11') 을 획득하도록 구성된 유닛을 표현할 수도 있다. 주된 표기법은 HOA 계수들 (11') 이 HOA 계수들 (11) 과 유사하지만 동일하지 않을 수도 있다는 것을 반영한다. HOA 계수들 (11 과 11') 사이의 차이들은 손실성 송신 매체, 양자화 또는 다른 손실성 동작들을 통한 송신으로 인한 손실로부터 발생할 수도 있다.

부가적으로, 추출 유닛 (72) 및 오디오 디코딩 디바이스 (24) 는 더 일반적으로, 소정의 경우들에서 다양한 신택스 엘리먼트들 또는 데이터 필드들을 포함하지 않는 것에 관하여 상술된 방법들로 잠재적으로 최적화된 비트스트림들 (21) 을 획득하기 위해 본 개시물에서 설명되는 기법들의 다양한 양태들에 따라 동작하도록 또한 구성될 수도 있다.

일부 경우들에서, 오디오 디코딩 디바이스 (24) 는, 제 1 압축 스킴을 이용하여 압축되는 고차 앰비소닉 오디오 데이터를 압축해제할 때, 고차 앰비소닉 오디오 데이터를 압축하는데 또한 이용되는 제 2 압축 스킴에 대응하는 비트들을 포함하지 않는 고차 앰비소닉 오디오 데이터의 압축된 버전을 표현하는 비트스트림 (21) 을 획득하도록 구성될 수도 있다. 제 1 압축 스킴은 벡터-기반 압축 스킴을 포함할 수도 있고, 결과적인 벡터는 구면 조화 도메인에서 정의되고 비트스트림 (21) 을 통해 전송된다. 벡터 기반 분해 압축 스킴은, 일부 예들에서, 고차 앰비소닉 오디오 데이터에 대한 특이값 분해 (또는 도 3 의 예에 관하여 더 상세히 설명된 것과 같은 그의 등가물들) 의 적용을 수반하는 압축 스킴을 포함할 수도 있다.

오디오 디코딩 디바이스 (24) 는 압축 스킴의 제 2 타입을 수행하는데 이용되는 적어도 하나의 신택스 엘리먼트에 대응하는 비트들을 포함하지 않는 비트스트림 (21) 을 획득하도록 구성될 수도 있다. 위에서 언급된 바와 같이, 제 2 압축 스킴은 방향성-기반 압축 스킴을 포함한다. 더 구체적으로는, 오디오 디코딩 디바이스 (24) 는 제 2 압축 스킴의 HOAPredictionInfo 신택스 엘리먼트들에 대응하는 비트들을 포함하지 않는 비트스트림 (21) 을 획득하도록 구성될 수도 있다. 다시 말해, 제 2 압축 스킴이 방향성-기반 압축 스킴을 포함할 때, 오디오 디코딩 디바이스 (24) 는 방향성-기반 압축 스킴의 HOAPredictionInfo 신택스 엘리먼트에 대응하는 비트들을 포함하지 않는 비트스트림 (21) 을 획득하도록 구성될 수도 있다. 위에서 언급된 바와 같이, HOAPredictionInfo 신택스 엘리먼트는 2 개 이상의 방향성-기반 신호들 사이의 예측을 나타낼 수도 있다.

일부 경우들에서, 대안으로서 또는 전술한 예들에 관련하여, 오디오 디코딩 디바이스 (24) 는, 고차 앰비소닉 오디오 데이터의 압축 동안 이득 정정이 억제될 때, 이득 정정 데이터를 포함하지 않는 고차 앰비소닉 오디오 데이터의 압축된 버전을 표현하는 비트스트림 (21) 을 획득하도록 구성될 수도 있다. 오디오 디코딩 디바이스 (24) 는, 이들 경우들에서, 벡터-기반 합성 압축해제 스킴에 따라 고차 앰비소닉 오디오 데이터를 압축해제하도록 구성될 수도 있다. 고차 앰비소닉 데이터의 압축된 버전은 고차 앰비소닉 오디오 데이터에 대한 특이값 분해 (또는 위의 도 3 의 예에 관하여 더 상세히 설명된 그의 등가물들) 의 적용을 통해 생성된다. SVD 또는 그의 등가물들이 HOA 오디오 데이터에 적용될 때, 오디오 인코딩 디바이스 (20) 는 결과적인 벡터들 또는 비트스트림 (21) 에서 그것을 나타내는 비트들 중 적어도 하나를 특정하고, 여기서 벡터들은 대응하는 전경 오디오 오브젝트들의 공간 특성들 (예컨대 대응하는 전경 오디오 오브젝트들의 폭, 위치 및 볼륨) 을 설명한다.

더 구체적으로는, 오디오 디코딩 디바이스 (24) 는, 이득 정정이 억제됨을 나타내기 위해 0 으로 설정된 값을 갖는 MaxGainCorrAmbExp 신택스 엘리먼트를 비트스트림 (21) 으로부터 획득하도록 구성될 수도 있다. 즉, 오디오 디코딩 디바이스 (24) 는, 이득 정정이 억제될 때, 비트스트림이 이득 정정 데이터를 저장하는 HOAGainCorrection 데이터 필드를 포함하지 않도록 하는 비트스트림을 획득하도록 구성될 수도 있다. 비트스트림 (21) 은 이득 정정이 억제되고 이득 정정 데이터를 저장하는 HOAGainCorrection 데이터 필드를 포함하지 않는 것으로 나타내기 위해 0 의 값을 갖는 MaxGainCorrAmbExp 신택스 엘리먼트를 포함할 수도 있다. 이득 정정의 억제는 고차 앰비소닉 오디오 데이터의 압축이 고차 앰비소닉 오디오 데이터에 대한 단일화된 음성 및 오디오 및 음성 코딩 (USAC) 의 적용을 포함할 때 발생할 수도 있다.

도 5 는 본 개시물에서 설명되는 벡터-기반 합성 기법들의 다양한 양태들을 수행함에 있어서, 도 3 의 예에 도시된 오디오 인코딩 디바이스 (20) 와 같은 오디오 인코딩 디바이스의 예시적인 동작을 예시하는 플로우차트이다. 초기에는, 오디오 인코딩 디바이스 (20) 가 HOA 계수들 (11) 을 수신한다 (106). 오디오 인코딩 디바이스 (20) 는 LIT 유닛 (30) 을 호출할 수도 있고, 이 LIT 유닛은 HOA 계수들에 관하여 LIT 를 적용하여 변환된 HOA 계수들을 출력할 수도 있다 (예를 들어, SVD 의 경우, 변환된 HOA 계수들은 US[k] 벡터들 (33) 및 V[k] 벡터들 (35) 을 포함할 수도 있다) (107).

오디오 인코딩 디바이스 (20) 는 그 다음에, 상술된 방식으로 다양한 파라미터들을 식별하기 위해 US[k] 벡터들 (33), US[k-1] 벡터들 (33), V[k] 및/또는 V[k-1] 벡터들 (35) 의 임의의 조합에 관하여 상술된 분석을 수행하도록 파라미터 계산 유닛 (32) 을 호출할 수도 있다. 즉, 파라미터 계산 유닛 (32) 은 변환된 HOA 계수들 (33/35) 의 분석에 기초하여 적어도 하나의 파라미터를 결정할 수도 있다 (108).

오디오 인코딩 디바이스 (20) 는 그 후에 리오더 유닛 (34) 을 호출할 수도 있고, 이 리오더 유닛은 그 파라미터에 기초하여 변환된 HOA 계수들 (다시 SVD 의 맥락에서, US[k] 벡터들 (33) 및 V[k] 벡터들 (35) 을 지칭할 수도 있음) 을 리오더링하여 상술된 바와 같이 리오더링된 변환된 HOA 계수들 (33'/35') (또는, 다시 말해, US[k] 벡터들 (33') 및 V[k] 벡터들 (35')) 을 생성할 수도 있다 (109). 오디오 인코딩 디바이스 (20) 는, 전술한 동작들 또는 후속 동작들 중 임의의 동작 동안, 음장 분석 유닛 (44) 을 또한 호출할 수도 있다. 음장 분석 유닛 (44) 은, 상술된 바와 같이, HOA 계수들 (11) 및/또는 변환된 HOA 계수들 (33/35) 에 관하여 음장 분석을 수행하여 전경 채널들 (nFG) (45) 의 총 개수, (도 3 의 예에서 배경 채널 정보 (43) 로서 일괄적으로 표시될 수도 있는) 전송할 부가적인 BG HOA 채널들의 인덱스들 (i) 및 개수 (nBGa) 그리고 배경 음장 (N_BG) 의 차수를 결정할 수도 있다 (109).

오디오 인코딩 디바이스 (20) 는 또한 배경 선택 유닛 (48) 을 호출할 수도 있다. 배경 선택 유닛 (48) 은 배경 채널 정보 (43) 에 기초하여 배경 또는 주변 HOA 계수들 (47) 을 결정할 수도 있다 (110). 오디오 인코딩 디바이스 (20) 는 전경 선택 유닛 (36) 을 추가로 호출할 수도 있고, 이 전경 선택 유닛은 (전경 벡터들을 식별하는 하나 이상의 인덱스들을 표현할 수도 있는) nFG (45) 에 기초하여 음장의 전경 또는 구별되는 성분들을 표현하는 리오더링된 V[k] 행렬 (35') 및 리오더링된 US[k] 행렬 (33') 을 선택할 수도 있다 (112).

오디오 인코딩 디바이스 (20) 는 에너지 보상 유닛 (38) 을 호출할 수도 있다. 에너지 보상 유닛 (38) 은 주변 HOA 계수들 (47) 에 관하여 에너지 보상을 수행하여 배경 선택 유닛 (48) 에 의한 HOA 계수들 중 다양한 HOA 계수들의 제거로 인한 에너지 손실을 보상하고 (114) 그에 의해 에너지 보상된 주변 HOA 계수들 (47') 을 생성할 수도 있다.

오디오 인코딩 디바이스 (20) 는 또한 공간-시간 보간 유닛 (50) 을 호출할 수도 있다. 공간-시간 보간 유닛 (50) 은 리오더링된 변환된 HOA 계수들 (33'/35') 에 관하여 공간-시간 보간을 수행하여 보간된 전경 신호들 (49') (또한 "보간된 nFG 신호들 (49')" 이라고도 지칭될 수도 있음) 및 나머지 전경 방향성 정보 (53) (또한 "V[k] 벡터들 (53)" 이라고도 지칭될 수도 있음) 를 획득할 수도 있다 (116). 오디오 인코딩 디바이스 (20) 는 그 후에 계수 감소 유닛 (46) 을 호출할 수도 있다. 계수 감소 유닛 (46) 은 배경 채널 정보 (43) 에 기초하여 나머지 전경 V[k] 벡터들 (53) 에 관하여 계수 감소를 수행하여 감소된 전경 방향성 정보 (55) (또한 감소된 전경 V[k] 벡터들 (55) 이라고도 지칭될 수도 있음) 를 획득할 수도 있다 (118).

오디오 인코딩 디바이스 (20) 는 그 후에 양자화 유닛 (52) 을 호출하여, 상술된 방식으로, 감소된 전경 V[k] 벡터들 (55) 을 압축하고 코딩된 전경 V[k] 벡터들 (57) 을 생성할 수도 있다 (120).

오디오 인코딩 디바이스 (20) 는 또한 심리음향 오디오 코더 유닛 (40) 을 호출할 수도 있다. 심리음향 오디오 코더 유닛 (40) 은 에너지 보상된 주변 HOA 계수들 (47') 및 보간된 nFG 신호들 (49') 의 각각의 벡터를 심리음향 코딩하여 인코딩된 주변 HOA 계수들 (59) 및 인코딩된 nFG 신호들 (61) 을 생성할 수도 있다. 오디오 인코딩 디바이스는 그 후에 비트스트림 생성 유닛 (42) 을 호출할 수도 있다. 비트스트림 생성 유닛 (42) 은 코딩된 전경 방향성 정보 (57), 코딩된 주변 HOA 계수들 (59), 코딩된 nFG 신호들 (61) 및 배경 채널 정보 (43) 에 기초하여 비트스트림 (21) 을 생성할 수도 있다.

도 6 은 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행함에 있어서, 도 4 에 도시된 오디오 디코딩 디바이스 (24) 와 같은 오디오 디코딩 디바이스의 예시적인 동작을 예시하는 플로우차트이다. 초기에는, 오디오 디코딩 디바이스 (40) 가 비트스트림 (21) 을 수신할 수도 있다 (130). 비트스트림의 수신시, 오디오 디코딩 디바이스 (24) 는 추출 유닛 (72) 을 호출할 수도 있다. 논의의 목적들을 위해 비트스트림 (21) 이 벡터-기반 재구성이 수행되어야 함을 나타낸다고 가정하면, 추출 유닛 (72) 은 비트스트림을 파싱하여 위에서 언급된 정보를 취출하여, 그 정보를 벡터-기반 재구성 유닛 (92) 에 전달할 수도 있다.

다시 말해, 추출 유닛 (72) 은 상술된 방식으로 비트스트림 (21) 으로부터 코딩된 전경 방향성 정보 (57) (다시, 또한 코딩된 전경 V[k] 벡터들 (57) 이라고도 지칭될 수도 있음), 코딩된 주변 HOA 계수들 (59) 및 코딩된 전경 신호들 (또한 코딩된 전경 nFG 신호들 (59) 또는 코딩된 전경 오디오 오브젝트들 (59) 이라고도 지칭될 수도 있음) 을 추출할 수도 있다 (132).

오디오 디코딩 디바이스 (24) 는 양자화해제 유닛 (74) 을 추가로 호출할 수도 있다. 양자화해제 유닛 (74) 은 코딩된 전경 방향성 정보 (57) 를 엔트로피 디코딩하고 양자화해제하여 감소된 전경 방향성 정보 (55 _k ) 를 획득할 수도 있다 (136). 오디오 디코딩 디바이스 (24) 는 또한 심리음향 디코딩 유닛 (80) 을 호출할 수도 있다. 심리음향 오디오 디코딩 유닛 (80) 은 인코딩된 주변 HOA 계수들 (59) 및 인코딩된 전경 신호들 (61) 을 디코딩하여 에너지 보상된 주변 HOA 계수들 (47') 및 보간된 전경 신호들 (49') 을 획득할 수도 있다 (138). 심리음향 디코딩 유닛 (80) 은 에너지 보상된 주변 HOA 계수들 (47') 을 페이드 유닛 (770) 에 전달하고 nFG 신호들 (49') 을 전경 공식화 유닛 (78) 에 전달할 수도 있다.

오디오 디코딩 디바이스 (24) 는 그 다음에 공간-시간 보간 유닛 (76) 을 호출할 수도 있다. 공간-시간 보간 유닛 (76) 은 리오더링된 전경 방향성 정보 (55 _k ') 를 수신하고 감소된 전경 방향성 정보 (55 _k /55 _k _-1) 에 관하여 공간-시간 보간을 수행하여 보간된 전경 방향성 정보 (55 _k '') 를 생성할 수도 있다 (140). 공간-시간 보간 유닛 (76) 은 보간된 전경 V[k] 벡터들 (55 _k '') 을 페이드 유닛 (770) 에 포워딩할 수도 있다.

오디오 디코딩 디바이스 (24) 는 페이드 유닛 (770) 을 호출할 수도 있다. 페이드 유닛 (770) 은 에너지 보상된 주변 HOA 계수들 (47') 이 천이 중일 때를 나타내는 신택스 엘리먼트들 (예를 들어, AmbCoeffTransition 신택스 엘리먼트) 을 (예를 들어, 추출 유닛 (72) 으로부터) 수신하거나 또는 그렇지 않으면 획득할 수도 있다. 페이드 유닛 (770) 은, 천이 신택스 엘리먼트들 및 유지된 천이 상태 정보에 기초하여, 에너지 보상된 주변 HOA 계수들 (47') 을 페이드-인 또는 페이드-아웃하여 조정된 주변 HOA 계수들 (47'') 을 HOA 계수 공식화 유닛 (82) 에 출력할 수도 있다. 페이드 유닛 (770) 은 또한, 신택스 엘리먼트들 및 유지된 천이 상태 정보에 기초하고, 보간된 전경 V[k] 벡터들 (55 _k '') 의 대응하는 하나 이상의 엘리먼트들을 페이드-아웃 또는 페이드-인하여 조정된 전경 V[k] 벡터들 (55 _k ''') 을 전경 공식화 유닛 (78) 에 출력할 수도 있다 (142).

오디오 디코딩 디바이스 (24) 는 전경 공식화 유닛 (78) 을 호출할 수도 있다. 전경 공식화 유닛 (78) 은 조정된 전경 방향성 정보 (55 _k ''') 에 의해 nFG 신호들 (49') 의 행렬 곱셈을 수행하여 전경 HOA 계수들 (65) 을 획득할 수도 있다 (144). 오디오 디코딩 디바이스 (24) 는 또한 HOA 계수 공식화 유닛 (82) 을 호출할 수도 있다. HOA 계수 공식화 유닛 (82) 은 조정된 주변 HOA 계수들 (47'') 에 대해 전경 HOA 계수들 (65) 을 가산하여 HOA 계수들 (11') 을 획득할 수도 있다 (146).

도 7 은 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행함에 있어서, 도 2 의 예에 도시된 시스템 (10) 과 같은 시스템의 예시적인 동작을 예시하는 플로우차트이다. 위에서 논의된 바와 같이, 콘텐츠 크리에이터 디바이스 (12) 는 (도 2 의 예에서 HOA 계수들 (11) 로서 도시되는) 캡처된 또는 생성된 오디오 콘텐츠를 생성 또는 편집하기 위해 오디오 편집 시스템 (18) 을 채용할 수도 있다. 콘텐츠 크리에이터 디바이스 (12) 는 그 후에, 위에서 더 상세히 논의된 바와 같이, 생성된 다중-채널 스피커 피드들에 대해 오디오 렌더러 (1) 를 이용하여 HOA 계수들 (11) 을 렌더링할 수도 있다 (200). 콘텐츠 크리에이터 디바이스 (12) 는 그 후에 오디오 재생 시스템을 이용하여 이들 스피커 피드들을 재생하고, 추가의 조정들 또는 편집이, 하나의 예로서, 원하는 예술적 의도를 캡처하도록 요구되는지 여부를 결정할 수도 있다 (202). 추가의 조정들을 원할 때 ("예" 202), 콘텐츠 크리에이터 디바이스 (12) 는 HOA 계수들 (11) 을 리믹싱하고 (204), HOA 계수들 (11) 을 렌더링하며 (200), 추가의 조정들이 필요한지 여부를 결정할 수도 있다 (202). 추가 조정들을 원하지 않을 때 ("아니오" 202), 오디오 인코딩 디바이스 (20) 는 도 5 의 예에 관하여 상술된 방식으로 비트스트림 (21) 을 생성하기 위해 오디오 콘텐츠를 인코딩할 수도 있다 (206). 오디오 인코딩 디바이스 (20) 는 또한, 위에서 더 상세히 설명된 바와 같이, 비트스트림 (21) 에서의 오디오 렌더링 정보 (2) 를 생성 및 특정할 수도 있다 (208).

콘텐츠 소비자 디바이스 (14) 는 그 후에 비트스트림 (21) 으로부터 오디오 렌더링 정보 (2) 를 획득할 수도 있다 (210). 디코딩 디바이스 (24) 는 그 후에 도 6 의 예에 관하여 상술된 방식으로 (도 2 의 예에서 HOA 계수들 (11') 로서 도시되는) 오디오 콘텐츠를 획득하기 위해 비트스트림 (21) 을 디코딩할 수도 있다 (211). 오디오 재생 시스템 (16) 은 그 후에 상술된 방식으로 오디오 렌더링 정보 (2) 에 기초하여 HOA 계수들 (11') 을 렌더링하고 (212) 그 렌더링된 오디오 콘텐츠를 라우드스피커들 (3) 을 통해 재생할 수도 있다 (214).

본 개시물에서 설명되는 기법들은 그에 따라, 제 1 예로서, 다중-채널 오디오 콘텐츠를 표현하는 비트스트림을 생성하는 디바이스로 하여금 오디오 렌더링 정보를 특정하는 것을 가능하게 할 수도 있다. 이 디바이스는, 이 제 1 예에서, 다중-채널 오디오 콘텐츠를 생성할 때 이용되는 오디오 렌더러를 식별하는 신호 값을 포함하는 오디오 렌더링 정보를 특정하는 수단을 포함할 수도 있다.

제 1 예의 디바이스에 있어서, 신호 값은 구면 조화 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되는 행렬을 포함한다.

제 2 예에서, 제 1 예의 디바이스에 있어서, 신호 값은 비트스트림이 구면 조화 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되는 행렬을 포함함을 나타내는 인덱스를 정의하는 2 개 이상의 비트들을 포함한다.

제 2 예의 디바이스에 있어서, 오디오 렌더링 정보는 비트스트림에 포함된 행렬의 로우들의 개수를 정의하는 2 개 이상의 비트들 및 비트스트림에 포함된 행렬의 컬럼들의 개수를 정의하는 2 개 이상의 비트들을 더 포함한다.

제 1 예의 디바이스에 있어서, 신호 값은 오디오 오브젝트들을 복수의 스피커 피드들로 렌더링하는데 이용되는 렌더링 알고리즘을 특정한다.

제 1 예의 디바이스에 있어서, 신호 값은 구면 조화 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되는 렌더링 알고리즘을 특정한다.

제 1 예의 디바이스에 있어서, 신호 값은 구면 조화 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되는 복수의 행렬들 중 하나와 연관된 인덱스를 정의하는 2 개 이상의 비트들을 포함한다.

제 1 예의 디바이스에 있어서, 신호 값은 오디오 오브젝트들을 복수의 스피커 피드들로 렌더링하는데 이용되는 복수의 렌더링 알고리즘들 중 하나와 연관된 인덱스를 정의하는 2 개 이상의 비트들을 포함한다.

제 1 예의 디바이스에 있어서, 신호 값은 구면 조화 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되는 복수의 렌더링 알고리즘들 중 하나와 연관된 인덱스를 정의하는 2 개 이상의 비트들을 포함한다.

제 1 예의 디바이스에 있어서, 오디오 렌더링 정보를 특정하는 수단은 비트스트림에서 오디오 렌더링 정보를 오디오 프레임 기반으로 특정하는 수단을 포함한다.

제 1 예의 디바이스에 있어서, 오디오 렌더링 정보를 특정하는 수단은 비트스트림에서 오디오 렌더링 정보를 단일 회 특정하는 수단을 포함한다.

제 3 예에서, 실행될 때, 하나 이상의 프로세서들로 하여금 비트스트림에서 오디오 렌더링 정보를 특정하게 하는 명령들을 저장한 비일시적 컴퓨터 판독가능 저장 매체에 있어서, 오디오 렌더링 정보는 다중-채널 오디오 콘텐츠를 생성할 때 이용되는 오디오 렌더러를 식별한다.

제 4 예에서, 비트스트림으로부터 다중-채널 오디오 콘텐츠를 렌더링하기 위한 디바이스는, 다중-채널 오디오 콘텐츠를 생성할 때 이용되는 오디오 렌더러를 식별하는 신호 값을 포함하는 오디오 렌더링 정보를 결정하는 수단, 및 비트스트림에 특정된 오디오 렌더링 정보에 기초하여 복수의 스피커 피드들을 렌더링하는 수단을 포함한다.

제 4 예의 디바이스에 있어서, 신호 값은 구면 조화 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되는 행렬을 포함하고, 복수의 스피커 피드들을 렌더링하는 수단은 행렬에 기초하여 복수의 스피커 피드들을 렌더링하는 수단을 포함한다.

제 5 예에서, 제 4 예의 디바이스에 있어서, 신호 값은 비트스트림이 구면 조화 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되는 행렬을 포함함을 나타내는 인덱스를 정의하는 2 개 이상의 비트들을 포함하고, 디바이스는 인덱스에 응답하여 비트스트림으로부터의 행렬을 파싱하는 수단을 더 포함하고, 복수의 스피커 피드들을 렌더링하는 수단은 파싱된 행렬에 기초하여 복수의 스피커 피드들을 렌더링하는 수단을 포함한다.

제 5 예의 디바이스에 있어서, 신호 값은 비트스트림에 포함된 행렬의 로우들의 개수를 정의하는 2 개 이상의 비트들 및 비트스트림에 포함된 행렬의 컬럼들의 개수를 정의하는 2 개 이상의 비트들을 더 포함하고, 비트스트림으로부터의 행렬을 파싱하는 수단은 로우들의 개수를 정의하는 2 개 이상의 비트들 및 컬럼들의 개수를 정의하는 2 개 이상의 비트들에 기초하여 그리고 인덱스에 응답하여 비트스트림으로부터의 행렬을 파싱하는 수단을 포함한다.

제 4 예의 디바이스에 있어서, 신호 값은 오디오 오브젝트들을 복수의 스피커 피드들로 렌더링하는데 이용되는 렌더링 알고리즘을 특정하고, 복수의 스피커 피드들을 렌더링하는 수단은 특정된 렌더링 알고리즘을 이용하여 오디오 오브젝트들로부터 복수의 스피커 피드들을 렌더링하는 수단을 포함한다.

제 4 예의 디바이스에 있어서, 신호 값은 구면 조화 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되는 렌더링 알고리즘을 특정하고, 복수의 스피커 피드들을 렌더링하는 수단은 특정된 렌더링 알고리즘을 이용하여 구면 조화 계수들로부터 복수의 스피커 피드들을 렌더링하는 수단을 포함한다.

제 4 예의 디바이스에 있어서, 신호 값은 구면 조화 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되는 복수의 행렬들 중 하나와 연관된 인덱스를 정의하는 2 개 이상의 비트들을 포함하고, 복수의 스피커 피드들을 렌더링하는 수단은 인덱스와 연관된 복수의 행렬들 중 하나를 이용하여 구면 조화 계수들로부터 복수의 스피커 피드들을 렌더링하는 수단을 포함한다.

제 4 예의 디바이스에 있어서, 신호 값은 오디오 오브젝트들을 복수의 스피커 피드들로 렌더링하는데 이용되는 복수의 렌더링 알고리즘들 중 하나와 연관된 인덱스를 정의하는 2 개 이상의 비트들을 포함하고, 복수의 스피커 피드들을 렌더링하는 수단은 인덱스와 연관된 복수의 렌더링 알고리즘들 중 하나를 이용하여 오디오 오브젝트들로부터 복수의 스피커 피드들을 렌더링하는 수단을 포함한다.

제 4 예의 디바이스에 있어서, 신호 값은 구면 조화 계수들을 복수의 스피커 피드들로 렌더링하는데 이용되는 복수의 렌더링 알고리즘들 중 하나와 연관된 인덱스를 정의하는 2 개 이상의 비트들을 포함하고, 복수의 스피커 피드들을 렌더링하는 수단은 인덱스와 연관된 복수의 렌더링 알고리즘들 중 하나를 이용하여 구면 조화 계수들로부터 복수의 스피커 피드들을 렌더링하는 수단을 포함한다.

제 4 예의 디바이스에 있어서, 오디오 렌더링 정보를 결정하는 수단은 비트스트림으로부터 오디오 렌더링 정보를 오디오 프레임 기반으로 결정하는 수단을 포함한다.

제 4 예의 디바이스에 있어서, 오디오 렌더링 정보를 결정하는 수단은 비트스트림으로부터 오디오 렌더링 정보를 단일 회 결정하는 수단을 포함한다.

제 6 예에서, 비일시적 컴퓨터 판독가능 저장 매체는, 실행될 때, 하나 이상의 프로세서들로 하여금, 다중-채널 오디오 콘텐츠를 생성할 때 이용되는 오디오 렌더러를 식별하는 신호 값을 포함하는 오디오 렌더링 정보를 결정하게 하고; 비트스트림에 특정된 오디오 렌더링 정보에 기초하여 복수의 스피커 피드들을 렌더링하게 하는 명령들을 저장하고 있다.

도 8a 내지 도 8d 는 본 개시물에서 설명되는 기법들에 따라 형성되는 비트스트림들 (21A 내지 21D) 을 예시하는 다이어그램이다. 도 8a 의 예에서, 비트스트림 (21A) 은 위의 도 2 내지 도 4 에 도시된 비트스트림 (21) 의 하나의 예를 표현할 수도 있다. 비트스트림 (21A) 은 신호 값 (554) 을 정의하는 하나 이상의 비트들을 포함하는 오디오 렌더링 정보 (2A) 를 포함한다. 이 신호 값 (554) 은 아래에 설명된 타입들의 정보의 임의의 조합을 표현할 수도 있다. 비트스트림 (21A) 은 또한, 오디오 콘텐츠 (7/9) 의 하나의 예를 표현할 수도 있는 오디오 콘텐츠 (558) 를 포함한다.

도 8b 의 예에서, 비트스트림 (21B) 은 비트스트림 (21A) 과 유사할 수도 있는데, 여기서 오디오 렌더링 정보 (2B) 의 신호 값 (554) 은 인덱스 (554A), 시그널링된 행렬의 로우 사이즈 (554B) 를 정의하는 하나 이상의 비트들, 시그널링된 행렬의 컬럼 사이즈 (554C) 를 정의하는 하나 이상의 비트들, 및 행렬 계수들 (554D) 을 포함한다. 인덱스 (554A) 는 5 개의 비트들 중 2 개를 이용하여 정의될 수도 있는 한편, 로우 사이즈 (554B) 및 컬럼 사이즈 (554C) 각각은 2 개 내지 16 개의 비트들을 이용하여 정의될 수도 있다.

추출 유닛 (72) 은 인덱스 (554A) 를 추출하고 그 인덱스가 행렬이 비트스트림 (21B) 에 포함된다는 것을 시그널링하는지 여부를 결정할 수도 있다 (여기서 소정의 인덱스 값들, 예컨대 0000 또는 1111 은 행렬이 비트스트림 (21B) 에 명시적으로 특정된다는 것을 시그널링할 수도 있다). 도 8b 의 예에서, 비트스트림 (21B) 은 행렬이 비트스트림 (21B) 에 명시적으로 특정된다는 것을 시그널링하는 인덱스 (554A) 를 포함한다. 그 결과, 추출 유닛 (72) 은 로우 사이즈 (554B) 및 컬럼 사이즈 (554C) 를 추출할 수도 있다. 추출 유닛 (72) 은 로우 사이즈 (554B), 컬럼 사이즈 (554C) 및 각각의 행렬 계수의 시그널링된 (도 8a 에 미도시) 또는 암시된 비트 사이즈의 함수로서 행렬 계수들을 표현하는 파싱할 비트수를 연산하도록 구성될 수도 있다. 비트들의 결정된 개수를 이용하여, 추출 유닛 (72) 은 행렬 계수들 (554D) 을 추출할 수도 있는 한편, 오디오 재생 시스템 (16) 은 상술된 바와 같이 오디오 렌더러들 (22) 중 하나를 구성하는데 이용할 수도 있다. 비트스트림 (21B) 에서 오디오 렌더링 정보 (2B) 를 단일 회 시그널링하는 것으로 도시되었지만, 오디오 렌더링 정보 (2B) 는 비트스트림 (21B) 에서 다수 회 또는 적어도 부분적으로 또는 완전히 별개의 대역외 채널에서 (일부 경우들에서 옵션적인 데이터로서) 시그널링될 수도 있다.

도 8c 의 예에서, 비트스트림 (21C) 은 위의 도 2 내지 도 4 에 도시된 비트스트림 (21) 의 하나의 예를 표현할 수도 있다. 비트스트림 (21C) 은 이 예에서 알고리즘 인덱스 (554E) 를 특정하는 신호 값 (554) 을 포함하는 오디오 렌더링 정보 (2C) 를 포함한다. 비트스트림 (21C) 은 또한 오디오 콘텐츠 (558) 를 포함한다. 알고리즘 인덱스 (554E) 는, 위에서 언급된 바와 같이, 2 개 내지 5 개의 비트들을 이용하여 정의될 수도 있고, 여기서 이 알고리즘 인덱스 (554E) 는 오디오 콘텐츠 (558) 를 렌더링할 때 이용될 렌더링 알고리즘을 식별할 수도 있다.

추출 유닛 (72) 은 알고리즘 인덱스 (550E) 를 추출하고 알고리즘 인덱스 (554E) 가 행렬이 비트스트림 (21C) 에 포함된다는 것을 시그널링하는지 여부를 결정할 수도 있다 (여기서 소정의 인덱스 값들, 예컨대 0000 또는 1111 은 행렬이 비트스트림 (21C) 에 명시적으로 특정된다는 것을 시그널링할 수도 있다). 도 8c 의 예에서, 비트스트림 (21C) 은 행렬이 비트스트림 (21C) 에 명시적으로 특정되지 않는다는 것을 시그널링하는 알고리즘 인덱스 (554E) 를 포함한다. 그 결과, 추출 유닛 (72) 은 알고리즘 인덱스 (554E) 를 오디오 재생 시스템 (16) 에 포워딩하고, 이 오디오 재생 시스템은 (이용가능하다면) (도 2 내지 도 4 의 예에서 렌더러들 (22) 로서 표시되는) 렌더링 알고리즘들 중 대응하는 하나의 렌더링 알고리즘을 선택한다. 비트스트림 (21C) 에서 오디오 렌더링 정보 (2C) 를 단일 회 시그널링하는 것으로 도시되었지만, 도 8c 의 예에서, 오디오 렌더링 정보 (2C) 는 비트스트림 (21C) 에서 다수 회 또는 적어도 부분적으로 또는 완전히 별개의 대역외 채널에서 (일부 경우들에서 옵션적인 데이터로서) 시그널링될 수도 있다.

도 8d 의 예에서, 비트스트림 (21D) 은 위의 도 2 내지 도 4 에 도시된 비트스트림 (21) 의 하나의 예를 표현할 수도 있다. 비트스트림 (21D) 은 이 예에서 행렬 인덱스 (554F) 를 특정하는 신호 값 (554) 을 포함하는 오디오 렌더링 정보 (2D) 를 포함한다. 비트스트림 (21D) 은 또한 오디오 콘텐츠 (558) 를 포함한다. 행렬 인덱스 (554F) 는, 위에서 언급된 바와 같이, 2 개 내지 5 개의 비트들을 이용하여 정의될 수도 있고, 여기서 이 행렬 인덱스 (554F) 는 오디오 콘텐츠 (558) 를 렌더링할 때 이용될 렌더링 알고리즘을 식별할 수도 있다.

추출 유닛 (72) 은 행렬 인덱스 (550F) 를 추출하고 행렬 인덱스 (554F) 가 행렬이 비트스트림 (21D) 에 포함된다는 것을 시그널링하는지 여부를 결정할 수도 있다 (여기서 소정의 인덱스 값들, 예컨대 0000 또는 1111 은 행렬이 비트스트림 (21C) 에 명시적으로 특정된다는 것을 시그널링할 수도 있다). 도 8d 의 예에서, 비트스트림 (21D) 은 행렬이 비트스트림 (21D) 에 명시적으로 특정되지 않는다는 것을 시그널링하는 행렬 인덱스 (554F) 를 포함한다. 그 결과, 추출 유닛 (72) 은 행렬 인덱스 (554F) 를 오디오 재생 디바이스에 포워딩하고, 이 오디오 재생 디바이스는 (이용가능하다면) 렌더러들 (22) 중 대응하는 하나의 렌더러를 선택한다. 비트스트림 (21D) 에서 오디오 렌더링 정보 (2D) 를 단일 회 시그널링하는 것으로 도시되었지만, 도 8d 의 예에서, 오디오 렌더링 정보 (2D) 는 비트스트림 (21D) 에서 다수 회 또는 적어도 부분적으로 또는 완전히 별개의 대역외 채널에서 (일부 경우들에서 옵션적인 데이터로서) 시그널링될 수도 있다.

도 8e 내지 도 8g 는 압축된 공간 성분들을 더 상세히 특정할 수도 있는 비트스트림 또는 사이드 채널 정보의 부분들을 예시하는 다이어그램들이다. 도 8e 는 비트스트림 (21) 의 프레임 (249A') 의 제 1 예를 예시한다. 도 8e 의 예에서, 프레임 (249A') 은 ChannelSideInfoData (CSID) 필드들 (154A 내지 154C), HOAGainCorrectionData (HOAGCD) 필드들, 및 VVectorData 필드들 (156A 및 156B) 을 포함한다. CSID 필드 (154A) 는 unitC (267), bb (266) 및 ba (265) 를 ChannelType (269) 과 함께 포함하고, 이들 각각은 도 8e 의 예에 도시된 대응하는 값들 01, 1, 0 및 01 로 전송된다. CSID 필드 (154B) 는 unitC (267), bb (266) 및 ba (265) 를 ChannelType (269) 과 함께 포함하고, 이들 각각은 도 8e 의 예에 도시된 대응하는 값들 01, 1, 0 및 01 로 전송된다. CSID 필드 (154C) 는 3 의 값을 갖는 ChannelType 필드 (269) 를 포함한다. CSID 필드들 (154A 내지 154C) 각각은 전송 채널들 1, 2 및 3 의 각각의 하나에 대응한다. 사실상, 각각의 CSID 필드 (154A 내지 154C) 는 대응하는 페이로드 (156A 및 156B) 가 방향-기반 신호들인지 (대응하는 ChannelType 이 0 과 동일할 때), 벡터-기반 신호들인지 (대응하는 ChannelType 이 1 과 동일할 때), 부가적인 주변 HOA 계수인지 (대응하는 ChannelType 이 2 와 동일할 때), 또는 엠프티 (empty) 인지 (ChannelType 이 3 과 동일할 때) 여부를 나타낸다.

도 8e 의 예에서, 프레임 (249A) 은 2 개의 벡터-기반 신호들 (CSID 필드들 (154A 및 154B) 에서 1 과 동일한 ChannelType (269) 이 주어짐) 및 엠프티 (ChannelType (269) 이 CSID 필드 (154C) 에서 3 과 동일하다는 것이 주어짐) 를 포함한다. 앞의 HOAconfig 부분 (예시 목적들의 용이를 위해 도시되지 않음) 에 기초하여, 오디오 디코딩 디바이스 (24) 는 16 개의 V 벡터 엘리먼트들 모두가 인코딩된 것을 결정할 수도 있다. 그에 따라, VVectorData (156A 및 156B) 각각은 16 개의 벡터 엘리먼트들 모두를 포함하고, 이들 각각은 8 비트들로 균일하게 양자화된다.

도 8e 의 예에 추가로 도시된 바와 같이, 프레임 (249A') 은 HOAPredictionInfo 필드를 포함하지 않는다. HOAPredictionInfo 필드는 벡터-기반 압축 스킴이 HOA 오디오 데이터를 압축하는데 이용될 때 본 개시물에서 설명되는 기법들에 따라 제거될 수도 있는 제 2 방향성-기반 압축 스킴에 대응하는 필드를 표현할 수도 있다.

도 8f 는 HOAGainCorrectionData 가 프레임 (249A'') 에 저장된 각각의 전송 채널로부터 제거되었다는 것을 제외하고는 프레임 (249A) 과 실질적으로 유사한 프레임 (249A'') 을 예시하는 다이어그램이다. HOAGainCorrectionData 필드는 상술된 기법들의 다양한 양태들에 따라 이득 정정이 억제될 때 프레임 (249A'') 으로부터 제거될 수도 있다.

도 8g 는 HOAPredictionInfo 필드가 제거된 것을 제외하고는 프레임 (249A'') 과 유사할 수도 있는 프레임 (249A''') 을 예시하는 다이어그램이다. 프레임 (249A''') 은 소정의 상황들에서 필요하지 않을 수도 있는 다양한 필드들을 제어하는 것에 관련하여 기법들의 양쪽 양태들이 적용될 수도 있는 하나의 예를 표현한다.

전술한 기법들은 임의의 개수의 상이한 맥락들 및 오디오 에코시스템들에 관하여 수행될 수도 있다. 다수의 예시적인 맥락들이 아래에 설명되지만, 기법들은 그 예시적인 맥락들로 제한되어야 한다. 하나의 예시적인 오디오 에코시스템은 오디오 콘텐츠, 영화 스튜디오들, 음악 스튜디오들, 게이밍 오디오 스튜디오들, 채널 기반 오디오 콘텐츠, 코딩 엔진들, 게임 오디오 스템들, 게임 오디오 코딩/렌더링 엔진들, 및 전달 시스템들을 포함할 수도 있다.

영화 스튜디오들, 음악 스튜디오들, 및 게이밍 오디오 스튜디오들은 오디오 콘텐츠를 수신할 수도 있다. 일부 예들에서, 오디오 콘텐츠는 포착의 출력을 표현할 수도 있다. 영화 스튜디오들은, 예컨대 디지털 오디오 워크스테이션 (digital audio workstation; DAW) 을 이용함으로써, (예를 들어, 2.0, 5.1, 및 7.1 에서) 채널 기반 오디오 콘텐츠를 출력할 수도 있다. 음악 스튜디오들은, 예컨대 DAW 을 이용함으로써, (예를 들어, 2.0, 및 5.1 에서) 채널 기반 오디오 콘텐츠를 출력할 수도 있다. 어떤 경우든, 코딩 엔진들은 전달 시스템들에 의한 출력을 위해 하나 이상의 코덱들 (예를 들어, AAC, AC3, 돌비 트루 HD (Dolby True HD), 돌비 디지털 플러스 (Dolby Digital Plus), 및 DTS 마스터 오디오 (DTS Master Audio)) 에 기초하여 채널 기반 오디오 콘텐츠를 수신 및 인코딩할 수도 있다. 게이밍 오디오 스튜디오들은, 예컨대 DAW 를 이용함으로써, 하나 이상의 게임 오디오 스템들을 출력할 수도 있다. 게임 오디오 코딩/렌더링 엔진들은 전달 시스템들에 의한 출력을 위해 채널 기반 오디오 콘텐츠로 오디오 스템들을 코딩 및 또는 렌더링할 수도 있다. 기법들이 수행될 수도 있는 다른 예시적인 맥락은, 브로드캐스트 레코딩 오디오 오브젝트들, 프로페셔널 오디오 시스템들, 소비자 온-디바이스 캡처, HOA 오디오 포맷, 온-디바이스 렌더링, 소비자 오디오, TV, 및 액세서리들, 및 카 오디오 시스템들을 포함할 수도 있는 오디오 에코시스템을 포함한다.

브로드캐스트 레코딩 오디오 오브젝트들, 프로페셔널 오디오 시스템들, 및 소비자 온-디바이스 캡처는 모두 이들의 출력을 HOA 오디오 포맷을 이용하여 코딩할 수도 있다. 이러한 방법으로, 오디오 콘텐츠는 온-디바이스 렌더링, 소비자 오디오, TV, 및 액세서리들, 및 카 오디오 시스템들을 이용하여 재생될 수도 있는 단일 표현으로 HOA 오디오 포맷을 이용하여 코딩될 수도 있다. 다시 말해, 오디오 콘텐츠의 단일 표현은 오디오 재생 시스템 (16) 과 같은 일반 오디오 재생 시스템에서 (즉, 5.1, 7.1 등과 같은 특정 구성을 필요로 하는 것과는 대조적으로) 재생될 수도 있다.

기법들이 수행될 수도 있는 맥락의 다른 예들은 포착 엘리먼트들, 및 재생 엘리먼트들을 포함할 수도 있는 오디오 에코시스템을 포함한다. 포착 엘리먼트들은 유선 및/또는 무선 포착 디바이스들 (예를 들어, 아이겐 마이크로폰들), 온-디바이스 서라운드 사운드 캡처, 및 모바일 디바이스들 (예를 들어, 스마트폰들 및 태블릿들) 을 포함할 수도 있다. 일부 예들에서, 유선 및/또는 무선 포착 디바이스들은 유선 및/또는 무선 통신 채널(들) 을 통해 모바일 디바이스에 커플링될 수도 있다.

본 개시물의 하나 이상의 기법들에 따르면, 모바일 디바이스는 음장을 포착하는데 이용될 수도 있다. 예를 들어, 모바일 디바이스는 유선 및/또는 무선 포착 디바이스들 및/또는 온-디바이스 서라운드 사운드 캡처 (예를 들어, 모바일 디바이스 내에 통합되는 복수의 마이크로폰들) 를 통해 음장을 포착할 수도 있다. 그 후에, 모바일 디바이스는 재생 엘리먼트들 중 하나 이상의 재생 엘리먼트에 의한 재생을 위해 포착된 음장을 HOA 계수들로 코딩할 수도 있다. 예를 들어, 모바일 디바이스의 사용자는 라이브 이벤트 (예를 들어, 회의, 컨퍼런스, 연극, 콘서트 등) 를 레코딩 (라이브 이벤트의 음장을 포착) 하고 그 레코딩을 HOA 계수들로 코딩할 수도 있다.

모바일 디바이스는 또한, HOA 코딩된 음장을 재생하기 위해 재생 엘리먼트들 중 하나 이상을 활용할 수도 있다. 예를 들어, 모바일 디바이스는 HOA 코딩된 음장을 디코딩하고, 재생 엘리먼트들 중 하나 이상으로 하여금 음장을 재생성하게 하는 신호를 재생 엘리먼트들 중 하나 이상에 출력할 수도 있다. 하나의 예로서, 모바일 디바이스는 신호를 하나 이상의 스피커들 (예를 들어, 스피커 어레이들, 사운드 바들 등) 에 출력하기 위해 무선 및/또는 유선 통신 채널들을 활용할 수도 있다. 다른 예로서, 모바일 디바이스는 하나 이상의 도킹 스테이션들 및/또는 하나 이상의 도킹된 스피커들 (예를 들어, 스마트 카들 및/또는 가정들에 있는 사운드 시스템들) 에 신호를 출력하기 위해 도킹 솔루션들을 활용할 수도 있다. 다른 예로서, 모바일 디바이스는, 예를 들어, 현실적인 바이노럴 사운드를 생성하기 위해, 헤드폰들의 세트에 신호를 출력하도록 헤드폰 렌더링을 활용할 수도 있다.

일부 예들에서, 특정 모바일 디바이스는 3D 음장을 포착하는 것 그리고 추후의 시간에 동일한 3D 음장을 재생하는 것 양쪽을 행할 수도 있다. 일부 예들에서, 모바일 디바이스는 3D 음장을 포착하고, 3D 음장을 HOA 로 인코딩하고, 재생을 위해 인코딩된 3D 음장을 하나 이상의 다른 디바이스들 (예를 들어, 다른 모바일 디바이스들 및/또는 다른 비-모바일 디바이스들) 로 송신할 수도 있다.

기법들이 수행될 수도 있는 또 다른 맥락은, 오디오 콘텐츠, 게임 스튜디오들, 코딩된 오디오 콘텐츠, 렌더링 엔진들, 및 전달 시스템들을 포함할 수도 있는 오디오 에코시스템을 포함한다. 일부 예들에서, 게임 스튜디오들은 HOA 신호들의 편집을 지원할 수도 있는 하나 이상의 DAW들을 포함할 수도 있다. 예를 들어, 하나 이상의 DAW들은 하나 이상의 게임 오디오 시스템들과 동작 (예를 들어, 작동) 하도록 구성될 수도 있는 HOA 플러그인들 및/또는 툴들을 포함할 수도 있다. 일부 예들에서, 게임 스튜디오들은 HOA 를 지원하는 새로운 스템 포맷들을 출력할 수도 있다. 어떤 경우든, 게임 스튜디오들은 전달 시스템들에 의한 재생을 위해 음장을 렌더링할 수도 있는 렌더링 엔진들로 코딩된 오디오 콘텐츠를 출력할 수도 있다.

기법들은 또한 예시적인 오디오 포착 디바이스들에 관하여 수행될 수도 있다. 예를 들어, 3D 음장을 레코딩하도록 일괄적으로 구성되는 복수의 마이크로폰들을 포함할 수도 있는 아이겐 마이크로폰에 관하여 기법들이 수행될 수도 있다. 일부 예들에서, 아이겐 마이크로폰의 복수의 마이크로폰들은, 대략 4cm 의 반경을 갖는 실질적으로 구형 볼의 표면 상에 위치될 수도 있다. 일부 예들에서, 오디오 인코딩 디바이스 (20) 는 마이크로폰으로부터 직접 비트스트림 (21) 을 출력하도록 아이겐 마이크로폰 내에 통합될 수도 있다.

다른 예시적인 오디오 포착 맥락은, 하나 이상의 아이겐 마이크로폰들과 같은 하나 이상의 마이크로폰들로부터 신호를 수신하도록 구성될 수도 있는 제조 트럭 (production truck) 을 포함할 수도 있다. 제조 트럭은 또한 도 3 의 오디오 인코더 (20) 와 같은 오디오 인코더를 포함할 수도 있다.

모바일 디바이스는 또한, 일부 경우들에서, 3D 음장을 레코딩하도록 일괄적으로 구성되는 복수의 마이크로폰들을 포함할 수도 있다. 다시 말해, 복수의 마이크로폰은 X, Y, Z 다이버시티 (diversity) 를 가질 수도 있다. 일부 예들에서, 모바일 디바이스는 마이크로폰을 포함할 수도 있고, 이 마이크로폰은 모바일 디바이스의 하나 이상의 다른 마이크로폰들에 관하여 X, Y, Z 다이버시티를 제공하기 위해 회전될 수도 있다. 모바일 디바이스는 또한 도 3 의 오디오 인코더 (20) 와 같은 오디오 인코더를 포함할 수도 있다.

러기다이즈드 (ruggedized) 비디오 캡처 디바이스는 또한 3D 음장을 레코딩하도록 구성될 수도 있다. 일부 예들에서, 러기다이즈드 비디오 캡처 디바이스는 활동에 관여된 사용자의 헬멧에 부착될 수도 있다. 예를 들어, 러기다이즈드 비디오 캡처 디바이스는 급류 래프팅 사용자의 헬멧에 부착될 수도 있다. 이러한 방법으로, 러기다이즈드 비디오 캡처 디바이스는 사용자 주위의 모든 액션 (예를 들어, 물이 사용자의 후방에서 부딪치는 것, 다른 래프터가 사용자의 전방에서 말하는 것 등...) 을 표현하는 3D 음장을 캡처할 수도 있다.

기법들은 또한 3D 음장을 레코딩하도록 구성될 수도 있는 액세서리 향상 모바일 디바이스에 관하여 수행될 수도 있다. 일부 예들에서, 모바일 디바이스는, 하나 이상의 액세서리들이 부가된, 상술된 모바일 디바이스들과 유사할 수도 있다. 예를 들어, 아이겐 마이크로폰은 위에서 언급된 모바일 디바이스에 부착되어 액세서리 향상 모바일 디바이스를 형성할 수도 있다. 이러한 방법으로, 액세서리 향상 모바일 디바이스는 액세서리 향상 모바일 디바이스에 일체화된 사운드 캡처 컴포넌트들만을 이용하는 것보다 더 높은 품질 버전의 3D 음장을 캡처할 수도 있다.

본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 예시적인 오디오 재생 디바이스들이 아래에 추가로 논의된다. 본 개시물의 하나 이상의 기법들에 따르면, 스피커들 및/또는 사운드 바들은 여전히 3D 음장을 재생하면서 어느 임의의 구성으로도 배열될 수도 있다. 더욱이, 일부 예들에서, 헤드폰 재생 디바이스들은 유선 또는 무선 연결 중 어느 하나를 통해 디코더 (24) 에 커플링될 수도 있다. 본 개시물의 하나 이상의 기법들에 따르면, 음장의 단일 일반 표현은 스피커들, 사운드 바들, 및 헤드폰 재생 디바이스들의 임의의 조합에서 음장을 렌더링하는데 활용될 수도 있다.

다수의 상이한 예시적인 오디오 재생 환경들은 또한 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행하기에 적합할 수도 있다. 예를 들어, 5.1 스피커 재생 환경, 2.0 (예를 들어, 스테레오) 스피커 재생 환경, 풀 하이트 전방 라우드스피커들을 갖는 9.1 스피커 재생 환경, 22.2 스피커 재생 환경, 16.0 스피커 재생 환경, 자동차 스피커 재생 환경, 및 이어 버드 (ear bud) 재생 환경을 갖는 모바일 디바이스는 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행하기 위한 적합한 환경들일 수도 있다.

본 개시물의 하나 이상의 기법들에 따르면, 음장의 단일 일반 표현은 전술한 재생 환경들 중 임의의 재생 환경에서 음장을 렌더링하는데 활용될 수도 있다. 부가적으로, 본 개시물의 기법들은, 렌더러로 하여금, 상술된 것 이외의 재생 환경들에서의 재생을 위해 일반 표현으로부터의 음장을 렌더링하는 것을 가능하게 한다. 예를 들어, 설계 고려사항들이 7.1 스피커 재생 환경에 따른 스피커들의 적절한 배치를 금지하는 경우 (예를 들어, 우측 서라운드 스피커를 배치하는 것이 가능하지 않은 경우), 본 개시물의 기법들은, 렌더로 하여금, 6.1 스피커 재생 환경에서 재생이 달성될 수도 있도록 다른 6 개의 스피커들로 보상하는 것을 가능하게 한다.

더욱이, 사용자는 헤드폰들을 착용한 동안 스포츠 게임을 시청할 수도 있다. 본 개시물의 하나 이상의 기법들에 따르면, 스포츠 게임의 3D 음장이 포착될 수도 있고 (예를 들어, 하나 이상의 아이겐 마이크로폰들이 야구 스타디움에 및/또는 그 주변에 배치될 수도 있음), 3D 음장에 대응하는 HOA 계수들이 획득되고 디코더로 송신될 수도 있고, 디코더는 HOA 계수들에 기초하여 3D 음장을 재구성하고 재구성된 3D 음장을 렌더러로 출력할 수도 있고, 렌더러는 재생 환경 (예를 들어, 헤드폰들) 의 타입에 대한 표시를 획득할 수도 있으며, 헤드폰들로 하여금 스포츠 게임의 3D 음장의 표현을 출력하게 하는 신호들로 재구성된 3D 음장을 렌더링할 수도 있다.

상술된 다양한 경우들 각각에서, 오디오 인코딩 디바이스 (20) 는 오디오 인코딩 디바이스 (20) 가 수행하도록 구성되는 방법을 수행하거나 또는 그렇지 않으면 그 방법의 각각의 단계를 수행하기 위한 수단을 포함할 수도 있다는 것을 이해해야 한다. 일부 경우들에서, 수단은 하나 이상의 프로세서들을 포함할 수도 있다. 일부 경우들에서, 하나 이상의 프로세서들은 비일시적 컴퓨터 판독가능 저장 매체에 저장된 명령들에 의해 구성된 특수 목적 프로세서를 표현할 수도 있다. 다시 말해, 인코딩 예들의 세트들 각각에서 기법들의 다양한 양태들은, 실행될 때, 하나 이상의 프로세서들로 하여금 오디오 인코딩 디바이스 (20) 가 수행하도록 구성된 방법을 수행하게 하는 명령들을 저장한 비일시적 컴퓨터 판독가능 저장 매체를 제공할 수도 있다.

하나 이상의 예들에서, 설명된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현된 경우, 그 기능들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독가능 매체 상에 저장되거나 그 컴퓨터 판독가능 매체를 통해 송신될 수도 있고 하드웨어 기반 프로세싱 유닛에 의해 실행될 수도 있다. 컴퓨터 판독가능 매체들은, 데이터 저장 매체들과 같은 유형 매체에 대응하는 컴퓨터 판독가능 저장 매체들을 포함할 수도 있다. 데이터 저장 매체들은, 본 개시물에서 설명되는 기법들의 구현을 위해 명령들, 코드 및/또는 데이터 구조들을 취출하기 위해 하나 이상의 컴퓨터들 또는 하나 이상의 프로세서들에 의해 액세스될 수 있는 임의의 가용 매체들일 수도 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독가능 매체를 포함할 수도 있다.

이와 마찬가지로, 상술된 다양한 경우들 각각에서, 오디오 디코딩 디바이스 (24) 는 오디오 디코딩 디바이스 (24) 가 수행하도록 구성되는 방법을 수행하거나 또는 그렇지 않으면 그 방법의 각각의 단계를 수행하기 위한 수단을 포함할 수도 있다는 것을 이해해야 한다. 일부 경우들에서, 수단은 하나 이상의 프로세서들을 포함할 수도 있다. 일부 경우들에서, 하나 이상의 프로세서들은 비일시적 컴퓨터 판독가능 저장 매체에 저장된 명령들에 의해 구성된 특수 목적 프로세서를 표현할 수도 있다. 다시 말해, 인코딩 예들의 세트들 각각에서 기법들의 다양한 양태들은, 실행될 때, 하나 이상의 프로세서들로 하여금 오디오 디코딩 디바이스 (24) 가 수행하도록 구성된 방법을 수행하게 하는 명령들을 저장한 비일시적 컴퓨터 판독가능 저장 매체를 제공할 수도 있다.

제한이 아닌 예로서, 이러한 컴퓨터 판독가능 저장 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들, 플래시 메모리, 또는 명령들 또는 데이터 구조들의 형태로 원하는 프로그램 코드를 저장하는데 이용될 수 있으며 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체들을 포함할 수 있다. 그러나, 컴퓨터 판독가능 저장 매체들 및 데이터 저장 매체들은 연결들, 캐리어 파들, 신호들, 또는 다른 일시적 매체들을 포함하는 것이 아니라, 그 대신에 비일시적, 유형의 저장 매체들에 관한 것이라는 것을 이해해야 한다. 디스크 (disk) 및 디스크 (disc) 는, 본 명세서에서 사용되는 바와 같이, 콤팩트 디스크 (CD), 레이저 디스크, 광 디스크, 디지털 다기능 디스크 (DVD), 플로피 디스크 및 블루레이 디스크를 포함하며, 여기서 디스크 (disk) 들은 데이터를 자기적으로 보통 재생하지만, 디스크 (disc) 들은 레이저로 데이터를 광학적으로 재생한다. 또한, 상기의 조합들도 컴퓨터 판독가능 매체들의 범위 내에 포함되어야 한다.

명령들은 하나 이상의 디지털 신호 프로세서 (DSP) 들, 범용 마이크로프로세서들, 주문형 집적 회로 (ASIC) 들, 필드 프로그래밍가능 로직 어레이 (FPGA) 들, 또는 다른 등가의 집적 또는 이산 로직 회로부와 같은 하나 이상의 프로세서들에 의해 실행될 수도 있다. 이에 따라, 본 명세서에서 사용되는 바와 같은 용어 "프로세서" 는 전술한 구조, 또는 본 명세서에서 설명되는 기법들의 구현에 적합한 임의의 다른 구조 중 임의의 것을 지칭할 수도 있다. 부가적으로, 일부 양태들에서, 본 명세서에서 설명되는 기능성은, 인코딩 및 디코딩을 위해 구성되거나 또는 조합된 코덱 내에 포함되는 전용 하드웨어 및/또는 소프트웨어 모듈들 내에 제공될 수도 있다. 또한, 기법들은 하나 이상의 회로들 또는 로직 엘리먼트들에서 완전히 구현될 수 있다.

본 개시물의 기법들은 무선 핸드셋, 집적 회로 (IC) 또는 IC들의 세트 (예를 들어, 칩셋) 를 포함하는 광범위한 디바이스들 또는 장치들에서 구현될 수도 있다. 다양한 컴포넌트들, 모듈들, 또는 유닛들은 개시된 기법들을 수행하도록 구성된 디바이스들의 기능적 양태들을 강조하기 위해 본 개시물에서 설명되지만, 상이한 하드웨어 유닛들에 의한 실현을 반드시 요구하지는 않는다. 오히려, 상술된 바와 같이, 다양한 유닛들은 코덱 하드웨어 유닛에 조합될 수도 있거나, 또는 적합한 소프트웨어 및/또는 펌웨어와 함께, 상술된 하나 이상의 프로세서들을 포함하여, 상호작용하는 하드웨어 유닛들의 콜렉션에 의해 제공될 수도 있다.

기법들의 다양한 양태들이 설명되었다. 이들 그리고 다른 실시형태들은 다음의 청구항들의 범위 내에 있다.

Claims

고차 앰비소닉 (higher order ambisonic) 계수들을 렌더링하도록 구성된 디바이스로서,
상기 고차 앰비소닉 계수들을 복수의 스피커 피드 (feed) 들로 렌더링하는데 이용되는 행렬의 희소성 (sparseness) 을 나타내는 희소성 정보를 획득하도록 구성된 하나 이상의 프로세서들; 및
상기 희소성 정보를 저장하도록 구성된 메모리
를 포함하는, 고차 앰비소닉 계수들을 렌더링하도록 구성된 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서들은 또한, 상기 행렬의 대칭성을 나타내는 대칭성 정보를 결정하고, 상기 대칭성 정보 및 상기 희소성 정보에 기초하여, 상기 행렬을 표현하는데 이용되는 감소된 비트수를 결정하도록 구성되는, 고차 앰비소닉 계수들을 렌더링하도록 구성된 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서들은 또한, 상기 행렬의 값 대칭성을 나타내는 값 대칭성 정보를 결정하고, 상기 값 대칭성 정보 및 상기 희소성 정보에 기초하여, 상기 행렬을 표현하는데 이용되는 감소된 비트수를 결정하도록 구성되는, 고차 앰비소닉 계수들을 렌더링하도록 구성된 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서들은 또한, 상기 행렬의 부호 대칭성을 나타내는 부호 대칭성 정보를 결정하고, 상기 부호 대칭성 정보 및 상기 희소성 정보에 기초하여, 상기 행렬을 표현하는데 이용되는 감소된 비트수를 결정하도록 구성되는, 고차 앰비소닉 계수들을 렌더링하도록 구성된 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서들은 또한, 상기 행렬이 상기 고차 앰비소닉 계수들로부터 상기 복수의 스피커 피드들을 렌더링하는데 이용되어야 하는 스피커 레이아웃을 결정하도록 구성되는, 고차 앰비소닉 계수들을 렌더링하도록 구성된 디바이스.
제 1 항에 있어서,
상기 복수의 스피커 피드들에 기초하여 상기 고차 앰비소닉 계수들에 의해 표현되는 음장 (soundfield) 을 재생하도록 구성된 스피커를 더 포함하는, 고차 앰비소닉 계수들을 렌더링하도록 구성된 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서들은 또한, 다중-채널 오디오 콘텐츠를 생성할 때 이용되는 오디오 렌더러 (renderer) 를 식별하는 신호 값을 나타내는 오디오 렌더링 정보를 획득하고, 상기 오디오 렌더링 정보에 기초하여 상기 복수의 스피커 피드들을 렌더링하도록 구성되는, 고차 앰비소닉 계수들을 렌더링하도록 구성된 디바이스.
제 7 항에 있어서,
상기 신호 값은, 상기 고차 앰비소닉 계수들을 다중-채널 오디오 데이터로 렌더링하는데 이용되는 상기 행렬을 포함하고,
상기 하나 이상의 프로세서들은 상기 신호 값에 포함된 상기 행렬에 기초하여 상기 복수의 스피커 피드들을 렌더링하도록 구성되는, 고차 앰비소닉 계수들을 렌더링하도록 구성된 디바이스.
고차 앰비소닉 계수들을 렌더링하는 방법으로서,
복수의 스피커 피드들을 생성하기 위해 상기 고차 앰비소닉 계수들을 렌더링하는데 이용되는 행렬의 희소성을 나타내는 희소성 정보를 획득하는 단계를 포함하는, 고차 앰비소닉 계수들을 렌더링하는 방법.
제 9 항에 있어서,
상기 행렬의 대칭성을 나타내는 대칭성 정보를 결정하는 단계; 및
상기 대칭성 정보 및 상기 희소성 정보에 기초하여, 상기 행렬을 표현하는데 이용되는 감소된 비트수를 결정하는 단계
를 더 포함하는, 고차 앰비소닉 계수들을 렌더링하는 방법.
제 9 항에 있어서,
상기 행렬의 값 대칭성을 나타내는 값 대칭성 정보를 결정하는 단계; 및
상기 값 대칭성 정보 및 상기 희소성 정보에 기초하여, 상기 행렬을 표현하는데 이용되는 감소된 비트수를 결정하는 단계
를 더 포함하는, 고차 앰비소닉 계수들을 렌더링하는 방법.
제 9 항에 있어서,
상기 행렬의 부호 대칭성을 나타내는 부호 대칭성 정보를 결정하는 단계; 및
상기 부호 대칭성 정보 및 상기 희소성 정보에 기초하여, 상기 행렬을 표현하는데 이용되는 감소된 비트수를 결정하는 단계
를 더 포함하는, 고차 앰비소닉 계수들을 렌더링하는 방법.
제 9 항에 있어서,
상기 행렬이 상기 고차 앰비소닉 계수들로부터 상기 복수의 스피커 피드들을 렌더링하는데 이용되어야 하는 스피커 레이아웃을 결정하는 단계를 더 포함하는, 고차 앰비소닉 계수들을 렌더링하는 방법.
제 9 항에 있어서,
상기 복수의 스피커 피드들에 기초하여 상기 고차 앰비소닉 계수들에 의해 표현되는 음장을 재생하는 단계를 더 포함하는, 고차 앰비소닉 계수들을 렌더링하는 방법.
제 9 항에 있어서,
상기 복수의 스피커 피드들을 생성할 때 이용되는 오디오 렌더러를 식별하는 신호 값을 나타내는 오디오 렌더링 정보를 획득하는 단계; 및
상기 오디오 렌더링 정보에 기초하여 상기 복수의 스피커 피드들을 렌더링하는 단계
를 더 포함하는, 고차 앰비소닉 계수들을 렌더링하는 방법.
제 15 항에 있어서,
상기 신호 값은, 상기 고차 앰비소닉 계수들을 상기 복수의 스피커 피드들로 렌더링하는데 이용되는 상기 행렬을 포함하고,
상기 방법은, 상기 신호 값에 포함된 상기 행렬에 기초하여 상기 복수의 스피커 피드들을 렌더링하는 단계를 더 포함하는, 고차 앰비소닉 계수들을 렌더링하는 방법.
비트스트림을 생성하도록 구성된 디바이스로서,
행렬을 저장하도록 구성된 메모리; 및
복수의 스피커 피드들을 생성하기 위해 고차 앰비소닉 계수들을 렌더링하는데 이용되는 상기 행렬의 희소성을 나타내는 희소성 정보를 획득하도록 구성된 하나 이상의 프로세서들을 포함하는, 비트스트림을 생성하도록 구성된 디바이스.
제 17 항에 있어서,
상기 하나 이상의 프로세서들은 또한, 상기 행렬의 대칭성을 나타내는 대칭성 정보를 결정하고, 상기 대칭성 정보 및 상기 희소성 정보에 기초하여, 상기 행렬을 나타내는 비트수를 감소시키도록 구성되는, 비트스트림을 생성하도록 구성된 디바이스.
제 17 항에 있어서,
상기 하나 이상의 프로세서들은 또한, 상기 행렬의 값 대칭성을 나타내는 값 대칭성 정보를 결정하고, 상기 값 대칭성 정보 및 상기 희소성 정보에 기초하여, 상기 행렬을 나타내는 비트수를 감소시키도록 구성되는, 비트스트림을 생성하도록 구성된 디바이스.
제 17 항에 있어서,
상기 하나 이상의 프로세서들은 또한, 상기 행렬의 부호 대칭성을 나타내는 부호 대칭성 정보를 결정하고, 상기 부호 대칭성 정보 및 상기 희소성 정보에 기초하여, 상기 행렬을 나타내는 비트수를 감소시키도록 구성되는, 비트스트림을 생성하도록 구성된 디바이스.
제 17 항에 있어서,
상기 하나 이상의 프로세서들은 또한, 상기 행렬이 상기 고차 앰비소닉 계수들로부터 상기 복수의 스피커 피드들을 렌더링하는데 이용되어야 하는 스피커 레이아웃을 결정하도록 구성되는, 비트스트림을 생성하도록 구성된 디바이스.
제 17 항에 있어서,
상기 고차 앰비소닉 계수들에 의해 표현되는 음장을 캡처하도록 구성된 마이크로폰을 더 포함하는, 비트스트림을 생성하도록 구성된 디바이스.
비트스트림을 생성하는 방법으로서,
복수의 스피커 피드들을 생성하기 위해 고차 앰비소닉 계수들을 렌더링하는데 이용되는 행렬의 희소성을 나타내는 희소성 정보를 획득하는 단계를 포함하는, 비트스트림을 생성하는 방법.
제 23 항에 있어서,
상기 행렬의 대칭성을 나타내는 대칭성 정보를 결정하는 단계; 및
상기 대칭성 정보 및 상기 희소성 정보에 기초하여, 상기 행렬을 나타내는 비트수를 감소시키는 단계
를 더 포함하는, 비트스트림을 생성하는 방법.
제 23 항에 있어서,
상기 행렬의 값 대칭성을 나타내는 값 대칭성 정보를 결정하는 단계; 및
상기 값 대칭성 정보 및 상기 희소성 정보에 기초하여, 상기 행렬을 나타내는 비트수를 감소시키는 단계
를 더 포함하는, 비트스트림을 생성하는 방법.
제 23 항에 있어서,
상기 행렬의 부호 대칭성을 나타내는 부호 대칭성 정보를 결정하는 단계; 및
상기 부호 대칭성 정보 및 상기 희소성 정보에 기초하여, 상기 행렬을 나타내는 비트수를 감소시키는 단계
를 더 포함하는, 비트스트림을 생성하는 방법.
제 23 항에 있어서,
상기 행렬이 상기 고차 앰비소닉 계수들로부터 상기 복수의 스피커 피드들을 렌더링하는데 이용되어야 하는 스피커 레이아웃을 결정하는 단계를 더 포함하는, 비트스트림을 생성하는 방법.
제 23 항에 있어서,
상기 고차 앰비소닉 계수들에 의해 표현되는 음장을 캡처하는 단계를 더 포함하는, 비트스트림을 생성하는 방법.