KR102640460B1

KR102640460B1 - 고차 앰비소닉 오디오 데이터에 대한 계층화된 중간 압축

Info

Publication number: KR102640460B1
Application number: KR1020197033400A
Authority: KR
Inventors: 무영 김; 닐스 귄터 페터스; 디판잔 센
Original assignee: 퀄컴 인코포레이티드
Priority date: 2017-05-18
Filing date: 2018-04-04
Publication date: 2024-02-23
Also published as: CN110603585A; US20180338212A1; EP3625795B1; WO2018212841A1; ES2906957T3; EP3625795A1; CN110603585B; KR20200010234A; TW201907391A

Abstract

일반적으로, 고차 앰비소닉 (HOA) 오디오 데이터에 대해 계층화된 중간 압축을 수행하기 위한 기법들이 설명된다. 메모리 및 프로세서를 포함하는 디바이스가 그 기법들을 수행하도록 구성될 수도 있다. 메모리는 HOA 오디오 데이터의 HOA 계수들을 저장할 수도 있다. 프로세서들은 HOA 계수들을 우세한 사운드 성분 및 대응하는 공간 성분으로 분해할 수도 있다. 공간 성분은 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타내고, 구면 조화 도메인에서 정의될 수도 있다. 프로세서는, 중간 압축 포맷에 따르는 비트스트림에서, 주변 성분을 표현하는 HOA 계수들의 서브세트를 특정할 수도 있다. 프로세서는 또한, 비트스트림에서 그리고 공간 성분을 위해 상기 비트스트림에서 특정할 엘리먼트들의 수 및 주변 채널들의 최소 수의 결정과 관계없이, 공간 성분의 모든 엘리먼트들을 특정할 수도 있다.

Description

고차 앰비소닉 오디오 데이터에 대한 계층화된 중간 압축

본 출원은 "LAYERED INTERMEDIATE COMPRESSION FOR HIGHER ORDER AMBISONIC AUDIO DATA" 를 발명의 명칭으로 하여 2017년 5월 18일자로 출원된 미국 가출원 제62/508,097호의 이익을 주장하고, 그 전체 내용은 본 명세서에 전부 제시된 것처럼 참조에 의해 통합된다.

기술분야

본 개시는 오디오 데이터에 관한 것으로, 보다 구체적으로는, 오디오 데이터의 압축에 관한 것이다.

고차 앰비소닉 (higher order ambisonic; HOA) 신호 (종종 복수의 구면 조화 계수들 (spherical harmonic coefficients; SHC) 또는 다른 계층적 엘리먼트들로 표현됨) 는 음장 (soundfield) 의 3-차원 (3D) 표현이다. HOA 또는 SHC 표현은 이 음장을, 이 SHC 신호로부터 렌더링된 멀티-채널 오디오 신호를 플레이백하는데 사용되는 로컬 스피커 지오메트리와는 독립적인 방식으로 표현할 수도 있다. SHC 신호는 또한, SHC 신호가 5.1 오디오 채널 포맷 또는 7.1 오디오 채널 포맷과 같은, 잘 알려지고 많이 채택된 멀티-채널 포맷들에 렌더링될 수도 있기 때문에 역방향 호환성 (backwards compatibility) 을 용이하게 할 수도 있다. SHC 표현은 따라서 역방향 호환성을 또한 수용하는 더 나은 음장의 표현을 인에이블할 수도 있다.

일반적으로, 고차 앰비소닉 오디오 데이터의 메자닌 (mezzanine) 압축을 위한 기법들이 설명된다. 고차 앰비소닉 오디오 데이터는 1 보다 큰 차수를 갖는 구면 조화 기저 함수에 대응하는 적어도 하나의 구면 조화 계수, 및 일부 예들에서, 1 보다 큰 차수를 갖는 다중 구면 조화 기저 함수들에 대응하는 복수의 구면 조화 계수들을 포함할 수도 있다.

하나의 예에서, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스는, 고차 앰비소닉 오디오 데이터의 고차 앰비소닉 계수들을 저장하도록 구성된 메모리; 및 하나 이상의 프로세서들을 포함하고, 그 하나 이상의 프로세서들은, 우세한 (predominant) 사운드 성분 및 대응하는 공간 성분으로 고차 앰비소닉 계수들을 분해하는 것으로서, 대응하는 공간 성분은 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타내고, 구면 조화 도메인에서 정의된, 상기 고차 앰비소닉 계수들을 분해하고, 중간 압축 포맷에 따르는 비트스트림에서 특정되기 전에, 음장의 주변 성분을 표현하는 고차 앰비소닉 계수들의 서브세트에 대한 역상관 (decorrelation) 의 적용을 디스에이블하고, 비트스트림에서, 고차 앰비소닉 계수들의 서브세트를 특정하고, 그리고 비트스트림에서, 공간 성분의 모든 엘리먼트들을 특정하는 것으로서, 공간 성분의 엘리먼트들 중 적어도 하나는 고차 앰비소닉 계수들의 서브세트에 의해 제공된 정보에 대하여 리던던트인 정보를 포함하는, 상기 공간 성분의 모든 엘리먼트들을 특정하도록 구성된다.

다른 예에서, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하기 위한 방법은, 우세한 사운드 성분 및 대응하는 공간 성분으로 음장을 나타내는 고차 앰비소닉 계수들을 분해하는 단계로서, 대응하는 공간 성분은 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타내고, 구면 조화 도메인에서 정의된, 상기 고차 앰비소닉 계수들을 분해하는 단계, 중간 압축 포맷에 따르는 비트스트림에서 특정되기 전에, 음장의 주변 성분을 표현하는 고차 앰비소닉 계수들의 서브세트에 대한 역상관의 적용을 디스에이블하는 단계, 비트스트림에서, 고차 앰비소닉 계수들의 서브세트를 특정하는 단계, 및 비트스트림에서, 공간 성분의 모든 엘리먼트들을 특정하는 단계로서, 공간 성분의 엘리먼트들 중 적어도 하나는 고차 앰비소닉 계수들의 서브세트에 의해 제공된 정보에 대하여 리던던트인 정보를 포함하는, 상기 공간 성분의 모든 엘리먼트들을 특정하는 단계를 포함한다.

다른 예에서, 비일시적 컴퓨터 판독가능 저장 매체는 명령들을 저장하고 있고, 그 명령들은, 실행될 때, 하나 이상의 프로세서들로 하여금, 우세한 사운드 성분 및 대응하는 공간 성분으로 음장을 나타내는 고차 앰비소닉 계수들을 분해하게 하는 것으로서, 대응하는 공간 성분은 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타내고, 구면 조화 도메인에서 정의된, 상기 고차 앰비소닉 계수들을 분해하게 하고, 중간 압축 포맷에 따르는 비트스트림에서 특정되기 전에, 음장의 주변 성분을 표현하는 고차 앰비소닉 계수들의 서브세트에 대한 역상관의 적용을 디스에이블하게 하고, 비트스트림에서, 고차 앰비소닉 계수들의 서브세트를 특정하게 하고, 그리고 비트스트림에서, 공간 성분의 모든 엘리먼트들을 특정하게 하는 것으로서, 공간 성분의 엘리먼트들 중 적어도 하나는 고차 앰비소닉 계수들의 서브세트에 의해 제공된 정보에 대하여 리던던트인 정보를 포함하는, 상기 공간 성분의 모든 엘리먼트들을 특정하게 한다.

다른 예에서, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스는, 우세한 사운드 성분 및 대응하는 공간 성분으로 음장을 나타내는 고차 앰비소닉 계수들을 분해하기 위한 수단으로서, 대응하는 공간 성분은 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타내고, 구면 조화 도메인에서 정의된, 상기 고차 앰비소닉 계수들을 분해하기 위한 수단, 중간 압축 포맷에 따르는 비트스트림에서 특정되기 전에, 음장의 주변 성분을 표현하는 고차 앰비소닉 계수들의 서브세트에 대한 역상관의 적용을 디스에이블하기 위한 수단, 비트스트림에서, 고차 앰비소닉 계수들의 서브세트를 특정하기 위한 수단, 및 비트스트림에서, 공간 성분의 모든 엘리먼트들을 특정하기 위한 수단으로서, 공간 성분의 엘리먼트들 중 적어도 하나는 고차 앰비소닉 계수들의 서브세트에 의해 제공된 정보에 대하여 리던던트인 정보를 포함하는, 상기 공간 성분의 모든 엘리먼트들을 특정하기 위한 수단을 포함한다.

다른 예에서, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스는, 고차 앰비소닉 오디오 데이터의 고차 앰비소닉 계수들을 저장하도록 구성된 메모리; 및 하나 이상의 프로세서들을 포함하고, 그 하나 이상의 프로세서들은, 우세한 사운드 성분 및 대응하는 공간 성분으로 고차 앰비소닉 계수들을 분해하는 것으로서, 대응하는 공간 성분은 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타내고, 구면 조화 도메인에서 정의된, 상기 고차 앰비소닉 계수들을 분해하고, 중간 압축 포맷에 따르는 비트스트림에서, 우세한 오디오 신호를 특정하고, 비트스트림에서 특정되기 전에, 음장의 주변 성분을 표현하는 고차 앰비소닉 계수들의 서브세트에 대한 역상관의 적용을 디스에이블하고, 그리고 비트스트림에서, 고차 앰비소닉 계수들의 서브세트를 특정하는 것으로서, 고차 앰비소닉 계수들의 서브세트 중 적어도 하나는 우세한 오디오 신호 및 대응하는 공간 성분에 의해 제공된 정보에 대하여 리던던트인 정보를 포함하는, 상기 고차 앰비소닉 계수들의 서브세트를 특정하도록 구성된다.

다른 예에서, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하기 위한 방법은, 우세한 사운드 성분 및 대응하는 공간 성분으로 음장을 나타내는 고차 앰비소닉 계수들을 분해하는 단계로서, 대응하는 공간 성분은 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타내고, 구면 조화 도메인에서 정의된, 상기 고차 앰비소닉 계수들을 분해하는 단계, 중간 압축 포맷에 따르는 비트스트림에서, 우세한 오디오 신호를 특정하는 단계, 비트스트림에서 특정되기 전에, 음장의 주변 성분을 표현하는 고차 앰비소닉 계수들의 서브세트에 대한 역상관의 적용을 디스에이블하는 단계, 및 비트스트림에서, 고차 앰비소닉 계수들의 서브세트를 특정하는 단계로서, 고차 앰비소닉 계수들의 서브세트 중 적어도 하나는 우세한 오디오 신호 및 대응하는 공간 성분에 의해 제공된 정보에 대하여 리던던트인 정보를 포함하는, 상기 고차 앰비소닉 계수들의 서브세트를 특정하는 단계를 포함한다.

다른 예에서, 비일시적 컴퓨터 판독가능 저장 매체는 명령들을 저장하고 있고, 그 명령들은, 실행될 때, 하나 이상의 프로세서들로 하여금, 우세한 사운드 성분 및 대응하는 공간 성분으로 음장을 나타내는 고차 앰비소닉 계수들을 분해하게 하는 것으로서, 대응하는 공간 성분은 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타내고, 구면 조화 도메인에서 정의된, 상기 고차 앰비소닉 계수들을 분해하게 하고, 중간 압축 포맷에 따르는 비트스트림에서, 우세한 오디오 신호를 특정하게 하고, 비트스트림에서 특정되기 전에, 음장의 주변 성분을 표현하는 고차 앰비소닉 계수들의 서브세트에 대한 역상관의 적용을 디스에이블하게 하고, 그리고 비트스트림에서, 고차 앰비소닉 계수들의 서브세트를 특정하게 하는 것으로서, 고차 앰비소닉 계수들의 서브세트 중 적어도 하나는 우세한 오디오 신호 및 대응하는 공간 성분에 의해 제공된 정보에 대하여 리던던트인 정보를 포함하는, 상기 고차 앰비소닉 계수들의 서브세트를 특정하게 한다.

다른 예에서, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스는, 우세한 사운드 성분 및 대응하는 공간 성분으로 음장을 나타내는 고차 앰비소닉 계수들을 분해하기 위한 수단으로서, 대응하는 공간 성분은 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타내고, 구면 조화 도메인에서 정의된, 상기 고차 앰비소닉 계수들을 분해하기 위한 수단, 중간 압축 포맷에 따르는 비트스트림에서, 우세한 오디오 신호를 특정하기 위한 수단, 비트스트림에서 특정되기 전에, 음장의 주변 성분을 표현하는 고차 앰비소닉 계수들의 서브세트에 대한 역상관의 적용을 디스에이블하기 위한 수단, 및 비트스트림에서, 고차 앰비소닉 계수들의 서브세트를 특정하기 위한 수단으로서, 고차 앰비소닉 계수들의 서브세트 중 적어도 하나는 우세한 오디오 신호 및 대응하는 공간 성분에 의해 제공된 정보에 대하여 리던던트인 정보를 포함하는, 상기 고차 앰비소닉 계수들의 서브세트를 특정하기 위한 수단을 포함한다.

다른 예에서, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스는, 고차 앰비소닉 오디오 데이터의 고차 앰비소닉 계수들을 저장하도록 구성된 메모리; 및 하나 이상의 프로세서들을 포함하고, 그 하나 이상의 프로세서들은, 우세한 사운드 성분 및 대응하는 공간 성분으로 고차 앰비소닉 계수들을 분해하는 것으로서, 대응하는 공간 성분은 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타내고, 구면 조화 도메인에서 정의된, 상기 고차 앰비소닉 계수들을 분해하고, 중간 압축 포맷에 따르는 비트스트림에서, 음장의 주변 성분을 표현하는 고차 앰비소닉 계수들의 서브세트를 특정하고, 그리고 비트스트림에서 그리고 공간 성분을 위해 비트스트림에서 특정할 엘리먼트들의 수 및 주변 채널들의 최소 수의 결정과 관계없이, 공간 성분의 모든 엘리먼트들을 특정하도록 구성된다.

다른 예에서, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하기 위한 방법은, 우세한 사운드 성분 및 대응하는 공간 성분으로 음장을 나타내는 고차 앰비소닉 계수들을 분해하는 단계로서, 대응하는 공간 성분은 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타내고, 구면 조화 도메인에서 정의된, 상기 고차 앰비소닉 계수들을 분해하는 단계, 중간 압축 포맷에 따르는 비트스트림에서, 음장의 주변 성분을 표현하는 고차 앰비소닉 계수들의 서브세트를 특정하는 단계, 및 비트스트림에서 그리고 공간 성분을 위해 비트스트림에서 특정할 엘리먼트들의 수 및 주변 채널들의 최소 수의 결정과 관계없이, 공간 성분의 모든 엘리먼트들을 특정하는 단계를 포함한다.

다른 예에서, 비일시적 컴퓨터 판독가능 저장 매체는 명령들을 저장하고 있고, 그 명령들은, 실행될 때, 하나 이상의 프로세서들로 하여금, 우세한 사운드 성분 및 대응하는 공간 성분으로 음장을 나타내는 고차 앰비소닉 계수들을 분해하게 하는 것으로서, 대응하는 공간 성분은 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타내고, 구면 조화 도메인에서 정의된, 상기 고차 앰비소닉 계수들을 분해하게 하고, 중간 압축 포맷에 따르는 비트스트림에서, 음장의 주변 성분을 표현하는 고차 앰비소닉 계수들의 서브세트를 특정하게 하고, 그리고 비트스트림에서 그리고 공간 성분을 위해 비트스트림에서 특정할 엘리먼트들의 수 및 주변 채널들의 최소 수의 결정과 관계없이, 공간 성분의 모든 엘리먼트들을 특정하게 한다.

다른 예에서, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스는, 우세한 사운드 성분 및 대응하는 공간 성분으로 음장을 나타내는 고차 앰비소닉 계수들을 분해하기 위한 수단으로서, 대응하는 공간 성분은 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타내고, 구면 조화 도메인에서 정의된, 상기 고차 앰비소닉 계수들을 분해하기 위한 수단, 중간 압축 포맷에 따르는 비트스트림에서, 음장의 주변 성분을 표현하는 고차 앰비소닉 계수들의 서브세트를 특정하기 위한 수단, 및 비트스트림에서 그리고 공간 성분을 위해 비트스트림에서 특정할 엘리먼트들의 수 및 주변 채널들의 최소 수의 결정과 관계없이, 공간 성분의 모든 엘리먼트들을 특정하기 위한 수단을 포함한다.

다른 예에서, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스는, 고차 앰비소닉 오디오 데이터의 고차 앰비소닉 계수들을 저장하도록 구성된 메모리; 및 하나 이상의 프로세서들을 포함하고, 그 하나 이상의 프로세서들은, 우세한 사운드 성분 및 대응하는 공간 성분으로 고차 앰비소닉 계수들을 분해하는 것으로서, 대응하는 공간 성분은 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타내고, 구면 조화 도메인에서 정의된, 상기 고차 앰비소닉 계수들을 분해하고, 중간 압축 포맷에 따르는 비트스트림에서, 우세한 오디오 신호 및 공간 성분을 특정하고, 그리고 비트스트림에서 그리고 공간 성분을 위해 비트스트림에서 특정할 엘리먼트들의 수 및 주변 채널들의 최소 수의 결정과 관계없이, 음장의 주변 성분을 표현하는 고차 앰비소닉 계수들의 고정된 서브세트를 특정하도록 구성된다.

다른 예에서, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하기 위한 방법은, 우세한 사운드 성분 및 대응하는 공간 성분으로 음장을 나타내는 고차 앰비소닉 계수들을 분해하는 단계로서, 대응하는 공간 성분은 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타내고, 구면 조화 도메인에서 정의된, 상기 고차 앰비소닉 계수들을 분해하는 단계, 중간 압축 포맷에 따르는 비트스트림에서, 우세한 오디오 신호를 특정하는 단계, 및 비트스트림에서 그리고 공간 성분을 위해 비트스트림에서 특정할 엘리먼트들의 수 및 주변 채널들의 최소 수의 결정과 관계없이, 음장의 주변 성분을 표현하는 고차 앰비소닉 계수들의 고정된 서브세트를 특정하는 단계를 포함한다.

다른 예에서, 비일시적 컴퓨터 판독가능 저장 매체는 명령들을 저장하고 있고, 그 명령들은, 실행될 때, 하나 이상의 프로세서들로 하여금, 우세한 사운드 성분 및 대응하는 공간 성분으로 음장을 나타내는 고차 앰비소닉 계수들을 분해하게 하는 것으로서, 대응하는 공간 성분은 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타내고, 구면 조화 도메인에서 정의된, 상기 고차 앰비소닉 계수들을 분해하게 하고, 중간 압축 포맷에 따르는 비트스트림에서, 우세한 오디오 신호를 특정하게 하고, 그리고 비트스트림에서 그리고 공간 성분을 위해 비트스트림에서 특정할 엘리먼트들의 수 및 주변 채널들의 최소 수의 결정과 관계없이, 음장의 주변 성분을 표현하는 고차 앰비소닉 계수들의 고정된 서브세트를 특정하게 한다.

다른 예에서, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스는, 우세한 사운드 성분 및 대응하는 공간 성분으로 음장을 나타내는 고차 앰비소닉 계수들을 분해하기 위한 수단으로서, 대응하는 공간 성분은 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타내고, 구면 조화 도메인에서 정의된, 상기 고차 앰비소닉 계수들을 분해하기 위한 수단, 중간 압축 포맷에 따르는 비트스트림에서, 우세한 오디오 신호를 특정하기 위한 수단, 및 비트스트림에서 그리고 공간 성분을 위해 비트스트림에서 특정할 엘리먼트들의 수 및 주변 채널들의 최소 수의 결정과 관계없이, 음장의 주변 성분을 표현하는 고차 앰비소닉 계수들의 고정된 서브세트를 특정하기 위한 수단을 포함한다.

기법들의 하나 이상의 양태들의 상세들이 첨부 도면들 및 이하의 설명에서 제시된다. 이들 기법들의 다른 피처들, 목적들, 및 이점들은 상세한 설명 및 도면들로부터, 그리고 청구항들로부터 명백할 것이다.

도 1 은 여러 차수 (order) 들 및 하위-차수 (sub-order) 들의 구면 조화 기저 함수들을 예시하는 다이어그램이다.
도 2 는 본 개시에서 설명된 기법들의 다양한 양태들을 수행할 수도 있는 시스템을 예시하는 다이어그램이다.
도 3a 내지 도 3d 는 도 2 의 예에 도시된 시스템의 상이한 예들을 예시하는 다이어그램들이다.
도 4 는 도 2 의 예에 도시된 시스템의 다른 예를 예시하는 블록 다이어그램이다.
도 5a 및 도 5b 는 도 2 의 시스템의 예들을 더 상세히 예시하는 블록 다이어그램들이다.
도 6 은 도 2 내지 도 5b 의 예들에 도시된 음향심리 오디오 인코딩 디바이스의 예를 예시하는 블록 다이어그램이다.
도 7a 내지 도 7c 는 도 2 에 도시된 메자닌 인코더 및 이미션 (emission) 인코더들에 대한 예의 동작을 예시하는 다이어그램들이다.
도 8 은 본 개시에서 설명된 기법들의 다양한 양태들에 따라 구성된 비트스트림 (15) 으로부터 비트스트림 (21) 을 포뮬레이팅하는데 있어서의 도 2 의 이미션 인코더를 예시하는 다이어그램이다.
도 9 는 본 개시에서 설명된 기법들의 다양한 양태들을 수행하도록 구성된 상이한 시스템을 예시하는 블록 다이어그램이다.
도 10 내지 도 12 는 도 2 내지 도 5b 의 예들에 도시된 메자닌 인코더의 예의 동작을 예시하는 플로우차트들이다.
도 13 은, 서로 상대적으로, 본 개시에서 제시된 기법들의 다양한 양태들을 수행하는 것을 포함한, 상이한 코딩 시스템들로부터의 결과들을 예시하는 다이어그램이다.

시장에는 다양한 '서라운드-사운드' 채널-기반 포맷들이 있다. 그것들은, 예를 들어, (스테레오를 넘어서 거실들로 잠식해 들어가는 관점에서 가장 성공적이었던) 5.1 홈 시어터 시스템으로부터, NHK (Nippon Hoso Kyokai 또는 일본 방송 협회) 에 의해 개발된 22.2 시스템에 이른다. 콘텐츠 생성자들 (예를 들어, 할리우드 스튜디오들) 은 영화용 사운드트랙을 한번 제작하고, 각각의 스피커 구성을 위해 그것을 리믹스하는데 노력을 들이지 않기를 원할 것이다. MPEG (Moving Pictures Expert Group) 는, 다양한 표준들에 의해 정의된 로케이션에 있든 또는 불균일한 로케이션들에 있든 5.1 및 22.2 구성을 포함한 대부분의 스피커 구성들을 위해 스피커 피드들에 렌더링될 수 있는 엘리먼트들 (예를 들어, 고차 앰비소닉 - HOA - 계수들) 의 계층적 세트를 사용하여 음장들이 표현되게 하는 표준을 발표하였다.

MPEG 는, 그 표준을, 2014년 7월 25일에 문서 식별자 ISO/IEC DIS 23008-3 을 가진, ISO/IEC JTC 1/SC 29 에 의해 제시된, 공식 명칭이 "Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio" 인, MPEG-H 3D 오디오 표준으로서 발표하였다. MPEG 는 또한, 2016년 10월 12일에 문서 식별자 ISO/IEC 23008-3:201x(E) 를 가진, ISO/IEC JTC 1/SC 29 에 의해 제시된 명칭이 "Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio" 인, 3D 오디오 표준의 제 2 에디션을 발표하였다. 본 개시에서 "3D 오디오 표준" 에 대한 언급은 상기 표준들 중 하나 또는 양자 모두를 지칭할 수도 있다.

상기 언급된 바와 같이, 엘리먼트들의 계층적 세트의 하나의 예는 구면 조화 계수들 (SHC) 의 세트이다. 다음의 수식은 SHC 를 사용하여 음장의 설명 또는 표현을 입증한다:

수식은 시간 t 에서 음장의 임의의 포인트 에서의 압력 이 에 의해 고유하게 표현될 수 있다는 것을 나타낸다. 여기서, 이고, c 는 사운드의 속도 (~343 m/s) 이고, 는 기준 포인트 (또는 관측 포인트) 이고, 는 차수 n 의 구면 베셀 함수 (spherical Bessel function) 이고, 그리고 는 차수 n 및 하위차수 m 의 구면 조화 기저 함수들 (이는 또한 구면 기저 함수로도 지칭될 수도 있다) 이다. 꺽쇠괄호들 내의 항은 이산 푸리에 변환 (discrete Fourier transform; DFT), 이산 코사인 변환 (discrete cosine transform; DCT), 또는 웨이블렛 변환 (wavelet transform) 과 같은 다양한 시간-주파수 변환들에 의해 근사화될 수 있는 신호의 주파수-도메인 표현 (즉, ) 인 것을 알 수 있다. 계층적 세트들의 다른 예들은 웨이블렛 변환 계수들의 세트들 및 멀티해상도 기저 함수들의 계수들의 다른 세트들을 포함한다.

도 1 은 제로 차수 (n = 0) 로부터 제 4 차수 (n = 4) 까지의 구면 조화 기저 함수들을 예시하는 다이어그램이다. 알 수 있는 바와 같이, 각각의 차수에 대해, 예시의 용이함을 목적으로 도 1 의 예에 도시되지만 명시적으로 언급되지 않는 하위차수들 m 의 확장이 존재한다.

는 다양한 마이크로폰 어레이 구성들에 의해 물리적으로 취득될 (예를 들어, 레코딩될) 수 있거나, 또는 대안적으로는, 그들은 음장의 채널-기반 또는 오브젝트-기반 설명들로부터 유도될 수 있다. SHC (이는 또한 고차 앰비소닉 - HOA - 계수들로도 지칭될 수도 있다) 는 장면-기반 오디오를 표현하고, 여기서 SHC 는 보다 효율적인 송신 또는 저장을 증진할 수도 있는 인코딩된 SHC 를 획득하기 위해 오디오 인코더에 입력될 수도 있다. 예를 들어, (1+4)² (25, 따라서, 제 4 차수) 계수들을 수반하는 제 4-차수 표현이 사용될 수도 있다.

위에서 언급된 바와 같이, SHC 는 마이크로폰 어레이를 사용한 마이크로폰 레코딩으로부터 유도될 수도 있다. SHC 가 마이크로폰 어레이들로부터 유도될 수도 있는 방법의 다양한 예들은 Poletti, M., "Three-Dimensional Surround Sound Systems Based on Spherical Harmonics", J. Audio Eng. Soc., Vol. 53, No. 11, 2005 November, pp. 1004-1025 에 설명되어 있다.

SHC들이 오브젝트-기반 설명으로부터 유도될 수도 있는 방법을 예시하기 위해, 다음의 등식을 고려한다. 개개의 오디오 오브젝트에 대응하는 음장에 대한 계수들 은 다음과 같이 표현될 수도 있으며:

여기서, i 는 이고, 는 차수 n 의 (제 2 종의) 구면 Hankel 함수이고, 는 오브젝트의 로케이션이다. (예를 들어, PCM 스트림에 대해 고속 푸리에 변환을 수행하는 것과 같은, 시간-주파수 분석 기법들을 사용하여) 오브젝트 소스 에너지 를 주파수의 함수로서 아는 것은 우리가 각각의 PCM 오브젝트 및 대응하는 로케이션을 로 컨버팅하게 한다. 게다가, (상기가 선형 및 직교 분해이므로) 각각의 오브젝트에 대한 계수들이 가산되는 것이 보여질 수 있다. 이러한 방식으로, 다수의 PCM 오브젝트들은 계수들에 의해 (예를 들어, 개개의 오브젝트들에 대한 계수 벡터들의 합으로서) 표현될 수 있다. 본질적으로, 계수들은 음장에 관한 정보 (3D 좌표들의 함수로서의 압력) 를 포함하고, 상기는 관측 포인트 부근에서, 개개의 오브젝트들로부터 전체 음장의 표현으로의 변환을 표현한다. 나머지 도면들은 SHC-기반 오디오 코딩의 콘텍스트에서 이하에 설명된다.

도 2 는 본 개시에서 설명된 기법들의 다양한 양태들을 수행할 수도 있는 시스템 (10) 을 예시하는 다이어그램이다. 도 2 의 예에 도시된 바와 같이, 시스템 (10) 은 브로드캐스팅 네트워크 (12) 및 콘텐츠 소비자 (14) 를 포함한다. 브로드캐스팅 네트워크 (12) 및 콘텐츠 소비자 (14) 의 콘텍스트에서 설명되지만, 기법들은 SHC들 (이는 또한 HOA 계수들로도 지칭될 수도 있다) 또는 음장의 임의의 다른 계층적 표현이 오디오 데이터를 나타내는 비트스트림을 형성하기 위해 인코딩되는 임의의 콘텍스트에서 구현될 수도 있다. 더욱이, 브로드캐스팅 네트워크 (12) 는, 몇가지 예를 들자면, 핸드셋 (또는 셀룰러 폰, 소위 "스마트 폰" 을 포함함), 태블릿 컴퓨터, 랩톱 컴퓨터, 데스크톱 컴퓨터, 또는 전용 하드웨어를 포함한, 본 개시에서 설명된 기법들을 구현 가능한 임의의 형태의 컴퓨팅 디바이스들 중 하나 이상을 포함하는 시스템을 표현할 수도 있다. 마찬가지로, 콘텐츠 소비자 (14) 는, 몇가지 예를 들자면, 핸드셋 (또는 셀룰러 폰, 소위 "스마트 폰" 을 포함함), 태블릿 컴퓨터, 텔레비전, 셋-톱 박스, 랩톱 컴퓨터, 게이밍 시스템 또는 콘솔, 또는 데스크톱 컴퓨터를 포함한, 본 개시에서 설명된 기법들을 구현 가능한 임의의 형태의 컴퓨팅 디바이스를 표현할 수도 있다.

브로드캐스팅 네트워크 (12) 는 콘텐츠 소비자 (14) 와 같은 콘텐츠 소비자들에 의한 소비를 위해 멀티-채널 오디오 콘텐츠 및 가능하게는 비디오 콘텐츠를 생성할 수도 있는 임의의 엔티티를 표현할 수도 있다. 브로드캐스팅 네트워크 (12) 는, 다양한 다른 타입들의 추가적인 오디오 데이터, 이를 테면 코멘터리 오디오 데이터, 커머셜 오디오 데이터, 인트로 또는 엑시트 오디오 데이터 등을 라이브 오디오 콘텐츠에 또한 삽입하면서, 스포츠 경기와 같은 이벤트들에서 라이브 오디오 데이터를 캡처할 수도 있다.

콘텐츠 소비자 (14) 는 멀티-채널 오디오 콘텐츠로서의 플레이백을 위해 고차 앰비소닉 오디오 데이터 (이는 고차 오디오 계수들 (이는 다시 또한 구면 조화 계수들로도 지칭될 수도 있음) 을 포함한다) 를 렌더링 가능한 임의의 형태의 오디오 플레이백 시스템을 지칭할 수도 있는 오디오 플레이백 시스템을 소유하거나 또는 그에 액세스할 수 있는 개인을 표현한다. 고차 앰비소닉 오디오 데이터는 구면 조화 도메인에서 정의되고 구면 조화 도메인으로부터 공간 도메인으로 렌더링 또는 다르게는 변환되어, 멀티-채널 오디오 콘텐츠를 초래할 수도 있다. 도 2 의 예에서, 콘텐츠 소비자 (14) 는 오디오 플레이백 시스템 (16) 을 포함한다.

브로드캐스팅 네트워크 (12) 는 오디오 오브젝트들 및 (HOA 계수들로서 직접 포함하는) 다양한 포맷들의 라이브 레코딩들을 레코딩 또는 다르게는 획득하는 마이크로폰들 (5) 을 포함한다. 마이크로폰 어레이 (5) (이는 또한 "마이크로폰들 (5)" 로도 지칭될 수도 있다) 가 HOA 계수들로서 직접 라이브 오디오를 획득할 때, 마이크로폰들 (5) 은 도 2 의 예에 도시된 HOA 트랜스코더 (400) 와 같은 HOA 트랜스코더를 포함할 수도 있다. 다시 말해서, 마이크로폰들 (5) 에서 분리된 것으로서 도시되지만, HOA 트랜스코더 (400) 의 별도의 인스턴스가 캡처된 피드들을 HOA 계수들 (11) 로 자연적으로 트랜스코딩하도록 마이크로폰들 (5) 의 각각 내에 포함될 수도 있다. 그러나, 마이크로폰들 (5) 내에 포함되지 않을 때, HOA 트랜스코더 (400) 는 마이크로폰들 (5) 로부터 출력된 라이브 피드들을 HOA 계수들 (11) 로 트랜스코딩할 수도 있다. 이 점에 있어서, HOA 트랜스코더 (400) 는 마이크로폰 피드들 및/또는 오디오 오브젝트들을 HOA 계수들 (11) 로 트랜스코딩하도록 구성된 유닛을 표현할 수도 있다. 브로드캐스팅 네트워크 (12) 는 따라서 마이크로폰들 (5) 과 통합된 것으로서, 마이크로폰들 (5) 에서 분리된 HOA 트랜스코더로서 또는 이들의 일부 조합으로 HOA 트랜스코더 (400) 를 포함한다.

브로드캐스팅 네트워크 (12) 는 또한 공간 오디오 인코딩 디바이스 (20), 브로드캐스팅 네트워크 센터 (402) (이는 또한 "네트워크 운용 센터 (network operations center) - NOC - 402" 로도 지칭될 수도 있다) 및 음향심리 오디오 인코딩 디바이스 (406) 를 포함할 수도 있다. 공간 오디오 인코딩 디바이스 (20) 는 중간 포매팅된 오디오 데이터 (15) (이는 또한 "메자닌 포매팅된 오디오 데이터 (15)" 로도 지칭될 수도 있다) 를 획득하기 위해 HOA 계수들 (11) 에 대하여 본 개시에서 설명된 메자닌 압축 기법들을 수행 가능한 디바이스를 표현할 수도 있다. 중간 포매팅된 오디오 데이터 (15) 는 중간 오디오 포맷 (이를 테면 메자닌 오디오 포맷) 을 따르는 오디오 데이터를 표현할 수도 있다. 이로써, 메자닌 압축 기법들은 또한 중간 압축 기법들로도 지칭될 수도 있다.

공간 오디오 인코딩 디바이스 (20) 는, 적어도 부분적으로, HOA 계수들 (11) 에 대하여 분해 (이를 테면, 특이값 분해, 고유값 분해, KLT 등을 포함한 선형 분해) 를 수행함으로써 HOA 계수들 (11) 에 대하여 이 중간 압축 (이는 또한 "메자닌 압축" 으로도 지칭될 수도 있다) 을 수행하도록 구성될 수도 있다. 더욱이, 공간 오디오 인코딩 디바이스 (20) 는 상기 언급된 MPEG-H 3D 오디오 코딩 표준에 따르는 비트스트림을 생성하기 위해 (음향심리 인코딩 양태들을 제외하고) 공간 인코딩 양태들을 수행할 수도 있다. 일부 예들에서, 공간 오디오 인코딩 디바이스 (20) 는 MPEG-H 3D 오디오 코딩 표준의 벡터-기반 양태들을 수행할 수도 있다.

공간 오디오 인코딩 디바이스 (20) 는 선형 가역 변환 (linear invertible transform; LIT) 의 적용을 수반한 분해를 사용하여 HOA 계수들 (11) 을 인코딩하도록 구성될 수도 있다. 선형 가역 변환의 하나의 예는 "특이값 분해" (또는 "SVD") 로 지칭되며, 이는 선형 분해의 하나의 형태를 표현할 수도 있다. 이 예에서, 공간 오디오 인코딩 디바이스 (20) 는 HOA 계수들 (11) 의 분해된 버전을 결정하기 위해 SVD 를 HOA 계수들 (11) 에 적용할 수도 있다. HOA 계수들 (11) 의 분해된 버전은 하나 이상의 우세한 오디오 신호들 및 연관된 우세한 오디오 신호들의 방향, 형상, 및 폭을 설명하는 하나 이상의 대응하는 공간 성분들 (이는 MPEG-H 3D 오디오 코딩 표준에서 "V-벡터" 로 지칭될 수도 있다) 을 포함할 수도 있다. 공간 오디오 인코딩 디바이스 (20) 는 그 후 HOA 계수들 (11) 의 분해된 버전의 레코딩을 용이하게 할 수도 있는 다양한 파라미터들을 식별하기 위해 HOA 계수들 (11) 의 분해된 버전을 분석할 수도 있다.

공간 오디오 인코딩 디바이스 (20) 는 식별된 파라미터들에 기초하여 HOA 계수들 (11) 의 분해된 버전을 재정렬할 수도 있고, 여기서, 이러한 재정렬은, 이하에 더 상세히 설명된 바와 같이, 변환이 HOA 계수들의 프레임들에 걸쳐서 HOA 계수들을 재정렬할 수도 있음을 고려하면 코딩 효율을 개선시킬 수도 있다 (여기서 프레임은 보통 HOA 계수들 (11) 의 M 개의 샘플들을 포함하고 M 은 일부 예들에서, 1024 로 설정된다). HOA 계수들 (11) 의 분해된 버전을 재정렬한 후, 공간 오디오 인코딩 디바이스 (20) 는 음장의 전경 (foreground) (또는 다시 말해서, 별개의, 우세한 또는 현저한) 성분들을 나타내는 HOA 계수들 (11) 의 분해된 버전의 것들을 선택할 수도 있다. 공간 오디오 인코딩 디바이스 (20) 는 전경 성분들을 나타내는 HOA 계수들 (11) 의 분해된 버전을 오디오 오브젝트 (이는 또한 "우세한 사운드 신호" 또는 "우세한 사운드 성분" 으로도 지칭될 수도 있다) 및 연관된 방향 정보 (이는 또한 공간 성분으로도 지칭될 수도 있다) 로서 특정할 수도 있다.

공간 오디오 인코딩 디바이스 (20) 는 다음에, 적어도 부분적으로, 음장의 하나 이상의 배경 (background) (또는, 다시 말해서, 주변) 성분들을 나타내는 HOA 계수들 (11) 을 식별하기 위하여 HOA 계수들 (11) 에 대하여 음장 분석을 수행할 수도 있다. 공간 오디오 인코딩 디바이스 (20) 는, 일부 예들에서, 배경 성분들이 (예를 들어, 제 2 또는 고차 구면 기저 함수들에 대응하는 것들이 아닌, 제로 및 제 1 차수 구면 기저 함수들에 대응하는 것들과 같은) HOA 계수들 (11) 의 임의의 주어진 샘플의 서브세트를 단지 포함할 수도 있음을 고려하면 배경 성분들에 대하여 에너지 보상을 수행할 수도 있다. 다시 말해서, 차수-감소 (order-reduction) 가 수행될 때, 공간 오디오 인코딩 디바이스 (20) 는 차수 감소를 수행하는 것으로부터 발생하는 전체 에너지의 변화를 보상하기 위해 HOA 계수들 (11) 중 나머지 배경 HOA 계수들을 증분 (예를 들어, 그에 에너지를 가산/그로부터 에너지를 감산) 시킬 수도 있다.

공간 오디오 인코딩 디바이스 (20) 는 전경 방향 정보에 대하여 일 형태의 보간을 수행한 후 차수 감소된 전경 방향 정보를 생성하기 위해 보간된 전경 방향 정보에 대하여 차수 감소를 수행할 수도 있다. 공간 오디오 인코딩 디바이스 (20) 는 또한 일부 예들에서, 차수 감소된 전경 방향 정보에 대하여 양자화를 수행하여, 코딩된 전경 방향 정보를 출력할 수도 있다. 일부 인스턴스들에서, 이 양자화는 스칼라/엔트로피 양자화를 포함할 수도 있다. 공간 오디오 인코딩 디바이스 (20) 는 그 후 메자닌 포매팅된 오디오 데이터 (15) 를 배경 성분들, 전경 오디오 오브젝트들, 및 양자화된 방향 정보로서 출력할 수도 있다. 배경 성분들 및 전경 오디오 오브젝트들은 일부 예들에서 펄스 코드 변조된 (PCM) 전송 채널들을 포함할 수도 있다.

공간 오디오 인코딩 디바이스 (20) 는 그 후 메자닌 포매팅된 오디오 데이터 (15) 를 브로드캐스팅 네트워크 센터 (402) 에 송신하거나 또는 다르게는 출력할 수도 있다. 도 2 의 예에 도시되지는 않았지만, (암호화, 위성 보상 스킴들, 파이버 압축 스킴들 등과 같은) 메자닌 포매팅된 오디오 데이터 (15) 의 추가의 프로세싱이 공간 오디오 인코딩 디바이스 (20) 로부터 브로드캐스팅 네트워크 센터 (402) 로의 송신을 수용하기 위해 수행될 수도 있다.

메자닌 포매팅된 오디오 데이터 (15) 는, 통상적으로 오디오 데이터의 (MPEG 서라운드, MPEG-AAC, MPEG-USAC 또는 다른 알려진 형태들의 음향심리 인코딩과 같은, 음향심리 오디오 인코딩의 오디오 데이터에의 적용을 통해 제공된 최종-사용자 압축에 비해) 약하게 압축된 버전인, 소위 메자닌 포맷에 따르는 오디오 데이터를 표현할 수도 있다. 브로드캐스터들이 저 레이턴시 혼합, 편집, 및 다른 오디오 및/또는 비디오 기능들을 제공하는 전용 장비를 선호함을 고려하면, 브로드캐스터들은 이러한 전용 장비의 비용을 고려해 볼 때 장비를 업그레이드하는 것을 주저한다.

비디오 및/또는 오디오의 증가하는 비트레이트들을 수용하고 고화질 비디오 콘텐츠 또는 3D 오디오 콘텐츠에 작용하도록 적응되지 않을 수도 있는 더 오래된 또는 다시 말해서 레거시 장비와의 상호운용성을 제공하기 위해, 브로드캐스터들은, 파일 사이즈들을 감소시키고 이로써 (이를 테면 네트워크에 걸친 또는 디바이스들 간의) 전송 시간들 및 (특히 더 오래된 레거시 장비를 위해) 개선된 프로세싱을 용이하게 하기 위해 일반적으로 "메자닌 압축" 으로 지칭되는 이 중간 압축 스킴을 채용하였다. 다시 말해서, 이 메자닌 압축은 편집 시간들을 촉진하고, 레이턴시를 감소시키고 잠재적으로는 전체 브로드캐스팅 프로세스를 개선시키는데 사용될 수도 있는 콘텐츠의 보다 경량의 버전을 제공할 수도 있다.

브로드캐스팅 네트워크 센터 (402) 는 따라서 레이턴시의 관점에서 작업 플로우를 개선시키기 위해 중간 압축 스킴을 사용하여 오디오 및/또는 비디오 콘텐츠를 편집 및 다르게는 프로세싱하는데 책임이 있는 시스템을 표현할 수도 있다. 브로드캐스팅 네트워크 센터 (402) 는 일부 예들에서, 모바일 디바이스들의 콜렉션을 포함할 수도 있다. 오디오 데이터를 프로세싱하는 콘텍스트에서, 브로드캐스팅 네트워크 센터 (402) 는, 일부 예들에서, 중간 포매팅된 추가적인 오디오 데이터를 메자닌 포매팅된 오디오 데이터 (15) 에 의해 표현된 라이브 오디오 콘텐츠에 삽입할 수도 있다. 이 추가적인 오디오 데이터는 커머셜 오디오 콘텐츠 (텔레비전 광고방송들에 대한 오디오 콘텐츠를 포함함) 를 나타내는 커머셜 오디오 데이터, 텔레비전 스튜디오 오디오 콘텐츠를 나타내는 텔레비전 스튜디오 쇼 오디오 데이터, 인트로 오디오 콘텐츠를 나타내는 인트로 오디오 데이터, 엑시트 오디오 콘텐츠를 나타내는 엑시트 오디오 데이터, 이머전시 오디오 콘텐츠 (예를 들어, 기상 경보들, 내셔널 이머전시들, 로컬 이머전시들 등) 를 나타내는 이머전시 오디오 데이터 또는 메자닌 포매팅된 오디오 데이터 (15) 에 삽입될 수도 있는 임의의 다른 타입의 오디오 데이터를 포함할 수도 있다.

일부 예들에서, 브로드캐스팅 네트워크 센터 (402) 는 16 개까지의 오디오 채널들을 프로세싱 가능한 레거시 오디오 장비를 포함한다. HOA 계수들 (11) 과 같은 HOA 계수들에 의존하는 3D 오디오 데이터의 콘텍스트에서, HOA 계수들 (11) 은 16 개보다 많은 오디오 채널들을 가질 수도 있다 (예를 들어, 3D 음장의 제 4 차수 표현은 25 개의 오디오 채널들과 등가인 샘플 당 (4+1)² 또는 25 개의 HOA 계수들을 요구할 것이다). 레거시 브로드캐스팅 장비의 이러한 제한은 (본 명세서에서 "3D 오디오 코딩 표준" 으로 지칭될 수도 있는) 2016년 10월 12일에, ISO/IEC JTC 1/SC 29/WG 11 에 의한, 명칭이 "Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio" 인 ISO/IEC DIS 23008-3:201x(E) 문서에 기재되어 있는 것과 같이, 3D HOA-기반 오디오 포맷들의 채택을 늦출 수도 있다.

이로써, 메자닌 압축은 레거시 오디오 장비의 채널-기반 제한들을 극복하는 방식으로 HOA 계수들 (11) 로부터 메자닌 포매팅된 오디오 데이터 (15) 를 획득하는 것을 허용한다. 즉, 공간 오디오 인코딩 디바이스 (20) 는 16 개 또는 더 적은 오디오 채널들 (및 레거시 오디오 장비가 일부 예들에서, 5.1 오디오 콘텐츠 (여기서 '.1' 은 제 6 오디오 채널을 표현한다) 를 프로세싱하는 것을 허용할 수도 있음을 고려하면 가능하게는 겨우 6 개뿐인 오디오 채널들) 을 갖는 메자닌 오디오 데이터 (15) 를 획득하도록 구성될 수도 있다.

브로드캐스팅 네트워크 센터 (402) 는 업데이트된 메자닌 포매팅된 오디오 데이터 (17) 를 출력할 수도 있다. 업데이트된 메자닌 포매팅된 오디오 데이터 (17) 는 메자닌 포매팅된 오디오 데이터 (15) 및 브로드캐스팅 네트워크 센터 (402) 에 의해 메자닌 포매팅된 오디오 데이터 (15) 에 삽입된 임의의 추가적인 오디오 데이터를 포함할 수도 있다. 분배 전에, 브로드캐스팅 네트워크 (12) 는 업데이트된 메자닌 포매팅된 오디오 데이터 (17) 를 추가로 압축할 수도 있다. 도 2 의 예에 도시된 바와 같이, 음향심리 오디오 인코딩 디바이스 (406) 는 비트스트림 (21) 을 생성하기 위해 업데이트된 메자닌 포매팅된 오디오 데이터 (17) 에 대하여 음향심리 오디오 인코딩 (예를 들어, 상기 설명된 예들 중 임의의 하나) 을 수행할 수도 있다. 브로드캐스팅 네트워크 (12) 는 그 후 비트스트림 (21) 을 송신 채널을 통해 콘텐츠 소비자 (14) 에 송신할 수도 있다.

일부 예들에서, 음향심리 오디오 인코딩 디바이스 (406) 는, 각각이 업데이트된 메자닌 포매팅된 오디오 데이터 (17) 의 각각의 상이한 오디오 오브젝트 또는 HOA 채널을 인코딩하는데 사용되는, 음향심리 오디오 코더의 다중 인스턴스들을 표현할 수도 있다. 일부 인스턴스들에서, 이 음향심리 오디오 인코딩 디바이스 (406) 는 어드밴스드 오디오 코딩 (advanced audio coding; AAC) 인코딩 유닛의 하나 이상의 인스턴스들을 표현할 수도 있다. 종종, 음향심리 오디오 코더 유닛 (40) 은 업데이트된 메자닌 포매팅된 오디오 데이터 (17) 의 채널의 각각에 대해 AAC 인코딩 유닛의 인스턴스를 인보크할 수도 있다.

배경 구면 조화 계수들이 AAC 인코딩 유닛을 사용하여 인코딩될 수도 있는 방법에 관한 더 많은 정보는 convention paper by Eric Hellerud, et al., entitled "Encoding Higher Order Ambisonics with AAC", presented at the 124^th Convention, 2008 May 17-20 에서 찾을 수 있고 이는: http://ro.uow.edu.au/cgi/viewcontent.cgi?article=8025&context=engpapers 에서 입수가능하다. 일부 인스턴스들에서, 음향심리 오디오 인코딩 디바이스 (406) 는 업데이트된 메자닌 포매팅된 오디오 데이터 (17) 의 다른 채널들 (예를 들어, 전경 채널들) 을 인코딩하는데 사용된 것보다 낮은 타겟 비트레이트를 사용하여 업데이트된 메자닌 포매팅된 오디오 데이터 (17) 의 다양한 채널들 (예를 들어, 배경 채널들) 을 오디오 인코딩할 수도 있다.

도 2 에서 콘텐츠 소비자 (14) 에 직접 송신되는 것으로서 도시되지만, 브로드캐스팅 네트워크 (12) 는 브로드캐스팅 네트워크 (12) 와 콘텐츠 소비자 (14) 사이에 포지셔닝된 중간 디바이스로 비트스트림 (21) 을 출력할 수도 있다. 중간 디바이스는 이 비트스트림을 요청할 수도 있는 콘텐츠 소비자 (14) 로의 추후 전달을 위해 비트스트림 (21) 을 저장할 수도 있다. 중간 디바이스는 파일 서버, 웹 서버, 데스크톱 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 모바일 폰, 스마트 폰, 또는 오디오 디코더에 의한 추후 취출을 위해 비트스트림 (21) 을 저장 가능한 임의의 다른 디바이스를 포함할 수도 있다. 중간 디바이스는 비트스트림 (21) 을 요청하는, 콘텐츠 소비자 (14) 와 같은 가입자들에게 비트스트림 (21) 을 (및 가능하게는 대응하는 비디오 데이터 비트스트림을 송신하는 것과 함께) 스트리밍 가능한 콘텐츠 전달 네트워크에 상주할 수도 있다.

대안적으로, 브로드캐스팅 네트워크 (12) 는, 대부분이 컴퓨터에 의해 판독 가능하고 따라서 컴퓨터 판독가능 저장 매체들 또는 비일시적 컴퓨터 판독가능 저장 매체들로 지칭될 수도 있는, 콤팩트 디스크, 디지털 비디오 디스크, 고화질 비디오 디스크 또는 다른 저장 매체들과 같은 저장 매체에 비트스트림 (21) 을 저장할 수도 있다. 이 콘텍스트에서, 송신 채널은 이들 매체들에 저장된 콘텐츠가 송신되는 그 채널들을 지칭할 수도 있다 (그리고 소매점들 및 다른 저장-기반 전달 메커니즘을 포함할 수도 있다). 어떤 경우에도, 본 개시의 기법들은 따라서 이 점에서 도 2 의 예에 제한되지 않아야 한다.

도 2 의 예에 추가로 도시된 바와 같이, 콘텐츠 소비자 (14) 는 오디오 플레이백 시스템 (16) 을 포함한다. 오디오 플레이백 시스템 (16) 은 멀티-채널 오디오 데이터를 플레이백 가능한 임의의 오디오 플레이백 시스템을 표현할 수도 있다. 오디오 플레이백 시스템 (16) 은 다수의 상이한 오디오 렌더러들 (22) 을 포함할 수도 있다. 오디오 렌더러들 (22) 은 각각 상이한 형태의 렌더링을 제공할 수도 있고, 여기서 상이한 형태들의 렌더링은 VBAP (vector-base amplitude panning) 를 수행하는 다양한 방식들 중 하나 이상, 및/또는 음장 합성을 수행하는 다양한 방식들 중 하나 이상을 포함할 수도 있다.

오디오 플레이백 시스템 (16) 은 오디오 디코딩 디바이스 (24) 를 더 포함할 수도 있다. 오디오 디코딩 디바이스 (24) 는 비트스트림 (21) 으로부터 HOA 계수들 (11') 을 디코딩하도록 구성된 디바이스를 표현할 수도 있고, 여기서 HOA 계수들 (11') 은 HOA 계수들 (11) 과 유사할 수도 있지만 손실 동작들 (lossy operations) (예를 들어, 양자화) 및/또는 송신 채널을 통한 송신으로 인해 상이할 수도 있다.

즉, 오디오 디코딩 디바이스 (24) 는, 또한 비트스트림 (21) 에서 특정된 전경 오디오 오브젝트들 및 배경 성분들을 나타내는 인코딩된 HOA 계수들에 대하여 음향심리 디코딩을 수행하면서, 비트스트림 (21) 에서 특정된 전경 방향 정보를 역양자화 (dequantize) 할 수도 있다. 오디오 디코딩 디바이스 (24) 는 또한, 디코딩된 전경 방향 정보에 대하여 보간을 수행한 후 디코딩된 전경 오디오 오브젝트들 및 보간된 전경 방향 정보에 기초하여 전경 성분들을 나타내는 HOA 계수들을 결정할 수도 있다. 오디오 디코딩 디바이스 (24) 는 그 후 전경 성분들을 나타내는 결정된 HOA 계수들 및 배경 성분들을 나타내는 디코딩된 HOA 계수들에 기초하여 HOA 계수들 (11') 을 결정할 수도 있다.

오디오 플레이백 시스템 (16) 은 HOA 계수들 (11') 을 획득하기 위해 비트스트림 (21) 을 디코딩한 후, 라우드스피커 피드들 (25) 을 출력하기 위해 HOA 계수들 (11') 을 렌더링할 수도 있다. 오디오 플레이백 시스템 (16) 은 라우드스피커 피드들 (25) 을 하나 이상의 라우드스피커들 (3) 로 출력할 수도 있다. 라우드스피커 피드들 (25) 은 하나 이상의 라우드스피커들 (3) 을 구동할 수도 있다.

적절한 렌더러를 선택하거나 또는 일부 인스턴스들에서, 적절한 렌더러를 생성하기 위해, 오디오 플레이백 시스템 (16) 은 라우드스피커들 (3) 의 수 및/또는 라우드스피커들 (3) 의 공간 지오메트리를 나타내는 라우드스피커 정보 (13) 를 획득할 수도 있다. 일부 인스턴스들에서, 오디오 플레이백 시스템 (16) 은 기준 마이크로폰을 사용하여 라우드스피커 정보 (13) 를 획득하고 그 라우드스피커 정보 (13) 를 동적으로 결정하는 것과 같은 방식으로 라우드스피커들 (3) 을 구동할 수도 있다. 다른 인스턴스들에서 또는 라우드스피커 정보 (13) 의 동적 결정과 함께, 오디오 플레이백 시스템 (16) 은 오디오 플레이백 시스템 (16) 과 인터페이스하고 라우드스피커 정보 (13) 를 입력할 것을 사용자에게 프롬프트할 수도 있다.

오디오 플레이백 시스템 (16) 은 라우드스피커 정보 (13) 에 기초하여 오디오 렌더러들 (22) 중 하나를 선택할 수도 있다. 일부 인스턴스들에서, 오디오 플레이백 시스템 (16) 은, 오디오 렌더러들 (22) 중 어느 것도 라우드스피커 정보 (13) 에서 특정된 것에 대한 (라우드스피커 지오메트리의 관점에서) 어떤 임계 유사성 척도 내에 있지 않을 때, 라우드스피커 정보 (13) 에 기초하여 오디오 렌더러들 (22) 중 하나를 생성할 수도 있다. 오디오 플레이백 시스템 (16) 은, 일부 인스턴스들에서, 오디오 렌더러들 (22) 중 기존의 오디오 렌더러를 선택하려고 먼저 시도함이 없이, 라우드스피커 정보 (13) 에 기초하여 오디오 렌더러들 (22) 중 하나를 생성할 수도 있다.

라우드스피커 피드들 (25) 에 대하여 설명되었지만, 오디오 플레이백 시스템 (16) 은 라우드스피커 피드들 (25) 로부터 또는 직접 HOA 계수들 (11') 로부터 헤드폰 피드들을 렌더링하여, 헤드폰 피드들을 헤드폰 스피커들로 출력할 수도 있다. 헤드폰 피드들은, 오디오 플레이백 시스템 (16) 이 바이노럴 오디오 렌더러를 사용하여 렌더링하는, 바이노럴 오디오 스피커 피드들을 표현할 수도 있다.

상기 언급된 바와 같이, 공간 오디오 인코딩 디바이스 (20) 는 음장의 주변 성분을 표현하기 위해 (1 이하의 차수를 갖는 구면 기저 함수들에 대응하는 것들과 같은) 다수의 HOA 계수들을 선택하기 위해 음장을 분석할 수도 있다. 공간 오디오 인코딩 디바이스 (20) 는 또한, 이것 또는 다른 분석에 기초하여, 음장의 전경 성분의 다양한 양태들을 표현하기 위해 다수의 우세한 오디오 신호들 및 대응하는 공간 성분들을 선택하여, 임의의 나머지 우세한 오디오 신호들 및 대응하는 공간 성분들을 폐기할 수도 있다.

대역폭 소비를 감소시키려는 시도로, 공간 오디오 인코딩 디바이스 (20) 는 음장의 배경 (또는 다시 말해서, 주변) 성분을 표현하는데 사용되는 HOA 계수들 (여기서 이러한 HOA 계수들은 또한 "주변 HOA 계수들" 로도 지칭될 수도 있다) 의 선택된 서브세트와 우세한 오디오 신호들과 대응하는 공간 성분들의 선택된 조합들 양자 모두에서 리던던트로 표현되는 정보를 제거할 수도 있다. 예를 들어, HOA 계수들의 선택된 서브세트는 제 1 및 제 0 차수를 갖는 구면 기저 함수들에 대응하는 HOA 계수들을 포함할 수도 있다. 구면 조화 도메인에서 또한 정의되는 선택된 공간 성분들은, 또한 제 1 및 제 0 차수를 갖는 구면 기저 함수들에 대응하는 엘리먼트들을 포함할 수도 있다. 이로써, 공간 오디오 인코딩 디바이스 (20) 는 제 1 및 제 0 차수를 갖는 구면 기저 함수들과 연관된 공간 성분의 엘리먼트들을 제거할 수도 있다. (또한 "우세한 벡터" 로도 지칭될 수도 있는) 공간 성분의 엘리먼트들의 제거에 관한 더 많은 정보는 MPEG-H 3D Audio Coding Standard, at section 12.4.1.11.2, entitled ("VVecLength and VVecCoeffId") on page 380 에서 찾을 수 있다.

다른 예로서, 공간 오디오 인코딩 디바이스 (20) 는 우세한 오디오 신호들 및 대응하는 공간 성분들의 조합의 중복인 (또는 다시 말해서 이들과 비교할 때 리던던트인) 정보를 제공하는 HOA 계수들의 선택된 서브세트의 것들을 제거할 수도 있다. 즉, 우세한 오디오 신호들 및 대응하는 공간 성분들은 음장의 배경 성분을 표현하는데 사용되는 HOA 계수들의 선택된 서브세트 중 하나 이상과 동일한 또는 유사한 정보를 포함할 수도 있다. 이로써, 공간 오디오 인코딩 디바이스 (20) 는 메자닌 포매팅된 오디오 데이터 (15) 로부터 HOA 계수들 (11) 의 선택된 세브세트 중 하나 이상을 제거할 수도 있다. HOA 계수들 (11) 의 선택된 서브세트로부터의 HOA 계수들의 제거에 관한 더 많은 정보는 3D Audio Coding Standard at section 12.4.2.4.4.2 (예를 들어, 마지막 단락), Table 196 on page 351 에서 찾을 수 있다.

리던던트 정보의 다양한 감소들은 전체 압축 효율을 개선시킬 수도 있지만, 소정의 정보에의 액세스 없이 이러한 감소들이 수행될 때 충실도의 손실을 초래할 수도 있다. 도 2 의 콘텍스트에서, 공간 오디오 인코딩 디바이스 (20) (이는 또한 "메자닌 인코더 (20)" 또는 "ME (20)" 로도 지칭될 수도 있다) 는 콘텐츠 소비자 (14) 로의 송신 (또는, 다시 말해서 이미션) 을 위해 HOA 계수들 (11) 을 적절히 인코딩하기 위해 음향심리 오디오 인코딩 디바이스 (406) (이는 또한 "이미션 인코더 (20)" 또는 "EE (20)" 로도 지칭될 수도 있다) 에 대해 소정의 콘텍스트들에서 필요할 리던던트 정보를 제거할 수도 있다.

예시하기 위해, 이미션 인코더 (406) 는 메자닌 인코더 (20) 가 액세스할 수 없는 타겟 비트레이트에 기초하여 업데이트된 메자닌 포매팅된 오디오 데이터 (17) 를 트랜스코딩할 수도 있음을 고려한다. 이미션 인코더 (406) 는, 타겟 비트레이트를 달성하기 위해, 업데이트된 메자닌 포매팅된 오디오 데이터 (17) 를 트랜스코딩하고 하나의 예로서, 4 개의 우세한 오디오 신호들로부터 2 개의 우세한 오디오 신호들로 우세한 오디오 신호들의 수를 감소시킬 수도 있다. 이미션 인코더 (406) 에 의해 제거된 우세한 오디오 신호들 중의 오디오 신호들이 하나 이상의 주변 HOA 계수들의 제거를 허용하는 정보를 제공할 때, 우세한 오디오 신호들의 이미션 인코더 (406) 에 의한 제거는 주변 HOA 계수들의 회복불가능한 손실을 초래할 수도 있고, 이는 기껏해야 음장의 주변 성분의 재생의 품질을 잠재적으로 저하시키고, 최악의 경우 (3D 오디오 코딩 표준에 따르지 않음으로 인해) 비트스트림 (21) 이 디코딩될 수 없기 때문에 음장의 재구성 및 플레이백을 방지한다.

더욱이, 이미션 인코더 (406) 는, 다시 타겟 비트레이트를 달성하기 위해, 하나의 예로서, 업데이트된 메자닌 포매팅된 오디오 데이터 (17) 에 의해 제공된 2, 1, 및 제로의 차수를 갖는 구면 기저 함수들에 대응하는 9 개의 주변 HOA 계수들로부터 1 및 제로의 차수를 갖는 구면 기저 함수들에 대응하는 4 개의 주변 HOA 계수들로 주변 HOA 계수들의 수를 감소시킬 수도 있다. 2, 1, 및 제로의 차수를 갖는 구면 기저 함수들에 대응하는 공간 성분의 9 개의 엘리먼트들의 메자닌 인코더 (20) 에 의한 제거와 커플링된 단 4 개의 주변 HOA 계수들을 갖는 비트스트림 (21) 을 생성하기 위한 업데이트된 메자닌 포매팅된 오디오 데이터 (17) 의 트랜스코딩은 대응하는 우세한 오디오 신호에 대한 공간 특성들의 회복불가능한 손실을 초래한다.

즉, 메자닌 인코더 (20) 는 음장의 우세한 성분들의 고차 표현을 제공하기 위한 우세한 오디오 신호들 및 대응하는 공간 성분을 사용하여, 음장의 우세한 성분들의 저차 (lower order) 표현을 제공하기 위한 9 개의 주변 HOA 계수들에 의존하였다. 이미션 인코더 (406) 가 주변 HOA 계수들 (즉, 상기 예에서 2 의 차수를 갖는 구면 기저 함수에 대응하는 5 개의 주변 HOA 계수들) 중 하나 이상을 제거할 때, 이미션 인코더 (406) 는 제거된 주변 HOA 계수들에 대한 정보를 채우기 위해 이전에 리던던트로 여겨졌지만 현재 필요한 공간 성분의 제거된 엘리먼트들을 다시 추가할 수 없다. 이로써, 하나 이상의 주변 HOA 계수들의 이미션 인코더 (406) 에 의한 제거는 공간 성분의 엘리먼트들의 회복불가능한 손실을 초래할 수도 있으며, 이는 기껏해야 음장의 전경 성분의 재생의 품질을 잠재적으로 저하시키고, 최악의 경우 (3D 오디오 코딩 표준에 따르지 않음으로 인해) 비트스트림 (21) 이 디코딩될 수 없기 때문에 음장에 대한 재구성 및 플레이백을 방지한다.

본 개시에서 설명된 기법들에 따르면, 메자닌 인코더 (20) 는, 리던던트 정보를 제거하기보다는, 이미션 인코더 (406) 가 상기 설명된 방식으로 업데이트된 메자닌 포매팅된 오디오 데이터 (17) 를 성공적으로 트랜스코딩하게 하기 위해 메자닌 포매팅된 오디오 데이터 (15) 에 리던던트 정보를 포함할 수도 있다. 메자닌 인코더 (20) 는 리던던트 정보의 제거에 관련된 다양한 코딩 모드들을 디스에이블하거나 또는 다르게는 구현하지 않고 이로써 모든 이러한 리던던트 정보를 포함할 수도 있다. 이로써, 메자닌 인코더 (20) 는 메자닌 포매팅된 오디오 데이터 (15) 의 스케일러블 버전 (이는 "스케일러블 메자닌 포매팅된 오디오 데이터 (15)" 로 지칭될 수도 있다) 으로 간주될 수도 있는 것을 형성할 수도 있다.

스케일러블 메자닌 포매팅된 오디오 데이터 (15) 는 임의의 계층이 추출되고 비트스트림 (21) 을 형성하기 위한 기초를 형성할 수도 있다는 점에서 "스케일러블" 일 수도 있다. 예를 들어, 하나의 계층은 주변 HOA 계수들 및/또는 우세한 오디오 신호들/대응하는 공간 성분들의 임의의 조합을 포함할 수도 있다. 스케일러블 메자닌 오디오 데이터 (15) 를 형성하는 결과로 리던던트 정보의 제거를 디스에이블함으로써, 이미션 인코더 (406) 는 계층들의 임의의 조합을 선택하고 3D 오디오 코딩 표준에 또한 따르면서 타겟 비트레이트를 달성할 수도 있는 비트스트림 (21) 을 형성할 수도 있다.

동작에서, 메자닌 인코더 (20) 는 음장을 나타내는 HOA 계수들 (11) 을 (예를 들어, 이에 상기 설명된 선형 가역 변환들 중 하나를 적용함으로써) 우세한 사운드 성분 (예를 들어, 이하에 설명된 오디오 오브젝트들 (33)) 및 대응하는 공간 성분 (예를 들어, 이하에 설명된 V 벡터들 (35)) 으로 분해할 수도 있다. 상기 언급된 바와 같이, 대응하는 공간 성분은, 또한 구면 조화 도메인에서 정의되면서, 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타낸다.

메자닌 인코더 (20) 는, 중간 압축 포맷에 따르는 비트스트림 (15) (이는 또한 "스케일러블 메자닌 포매팅된 오디오 데이터 (15)" 로도 지칭될 수도 있다) 에서, 음장의 주변 성분을 표현하는 고차 앰비소닉 계수들 (11) (이는 또한 상기 언급된 바와 같이 "주변 HOA 계수들" 로도 지칭될 수도 있다) 의 서브세트를 특정할 수도 있다. 메자닌 인코더 (20) 는 또한, 공간 성분의 엘리먼트들 중 적어도 하나가 주변 HOA 계수들에 의해 제공된 정보에 대하여 리던던트인 정보를 포함함에도 불구하고, 비트스트림 (15) 에서, 공간 성분의 모든 엘리먼트들을 특정할 수도 있다.

전술한 동작과 함께 또는 이에 대한 대안으로서, 메자닌 인코더 (20) 는 또한, 상기 언급된 분해를 수행한 후에, 중간 압축 포맷에 따르는 비트스트림 (15) 에서, 우세한 오디오 신호를 특정할 수도 있다. 메자닌 인코더 (20) 는 다음에, 주변 고차 앰비소닉 계수들 중 적어도 하나가 우세한 오디오 신호 및 대응하는 공간 성분에 의해 제공된 정보에 대하여 리던던트인 정보를 포함함에도 불구하고, 비트스트림 (15) 에서, 주변 고차 앰비소닉 계수들을 특정할 수도 있다.

메자닌 인코더 (20) 에 대한 변화들은 다음의 2 개의 표들을 비교함으로써 반영될 수도 있으며, 여기서 표 1 은 이전 동작을 나타내고 표 2 는 본 개시에서 설명된 기법들의 양태들과 일치하는 동작을 나타낸다.

표 1 에서, 열 (column) 들은 3D 오디오 코딩 표준에서 제시된 MinNumOfCoeffsForAmbHOA 신택스 엘리먼트에 대해 결정된 값을 반영하는 한편, 행 (row) 들은 3D 오디오 코딩 표준에서 제시된 CodedVVecLength 신택스 엘리먼트에 대해 결정된 값을 반영한다. MinNumOFCoeffsForAmbHOA 신택스 엘리먼트는 주변 HOA 계수들의 최소 수를 표시한다. CodedVVecLength 신택스 엘리먼트는 벡터-기반 신호들을 합성하는데 사용되는 송신된 데이터 벡터의 길이를 표시한다.

표 1 에 나타낸 바와 같이, 다양한 조합들로, 주변 HOA 계수들 (H_BG) 이 음장의 우세한 또는 전경 성분 (H_FG) 을 형성하기 위해 사용되는 HOA 계수들을 주어진 차수 (이는 표 1 에 "H" 로서 나타낸다) 까지 HOA 계수들 (11) 로부터 감산함으로써 결정되게 된다. 더욱이, 표 1 에 나타낸 바와 같이, 다양한 조합들은, 공간 성분 (표 1 에 "V" 로서 나타낸다) 에 대한 엘리먼트들 (예를 들어, 1-9 또는 1-4 로서 인덱싱되는 것들) 의 제거를 초래한다.

표 2 에서, 열들은 3D 오디오 코딩 표준에서 제시된 MinNumOfCoeffsForAmbHOA 신택스 엘리먼트에 대해 결정된 값을 반영하는 한편, 행들은 3D 오디오 코딩 표준에서 제시된 CodedVVecLength 신택스 엘리먼트에 대해 결정된 값을 반영한다. MinNumOfCoeffsForAmbHOA 및 CodedVVecLength 신택스 엘리먼트들에 대해 결정된 값들과 관계없이, 메자닌 인코더 (20) 는 최소 차수 이하를 갖는 구면 기저 함수와 연관된 HOA 계수들 (11) 의 서브세트가 비트스트림 (15) 에서 특정되어야 하기 때문에 주변 HOA 계수들을 결정할 수도 있다. 일부 예에서, 최소 차수는 2 이므로, 9 개의 주변 HOA 계수들의 고정된 수를 초래한다. 이들 및 다른 예들에서, 최소 차수는 1 이므로, 4 개의 주변 HOA 계수들의 고정된 수를 초래한다.

MinNumOfCoeffsForAmbHOA 및 CodedVVecLength 신택스 엘리먼트들에 대해 결정된 값들과 관계없이, 메자닌 인코더 (20) 는 또한, 공간 성분의 모든 엘리먼트들이 비트스트림 (15) 에서 특정되어야 한다고 결정할 수도 있다. 양자 모두의 인스턴스들에서, 메자닌 인코더 (20) 는 상기 설명된 바와 같이 리던던트 정보를 특정하여, 다운스트림 인코더, 즉 도 2 의 예의 이미션 인코더 (406) 가 3D 오디오 코딩 표준에 따르는 비트스트림 (21) 을 생성하게 하는 스케일러블 메자닌 포매팅된 오디오 데이터 (15) 를 초래할 수도 있다.

상기 표 1 및 표 2 에 추가로 나타낸 바와 같이, 메자닌 인코더 (20) 는 MinNumOfCoeffsForAmbHOA 및 CodedVVecLength 신택스 엘리먼트들에 대해 결정된 값들과 관계없이 ("decorrMethod 없음" 으로 나타낸 바와 같이) 역상관이 주변 HOA 계수들에 적용되는 것을 디스에이블할 수도 있다. 메자닌 인코더 (20) 는, 음향심리 오디오 인코딩 (여기서 상이한 계수들이 서로 시간 예측되고 이로써, 역상관됨으로써, 달성가능한 압축의 범위의 관점에서, 유익하다) 을 개선시키도록 주변 HOA 계수들의 상이한 계수들을 역상관시키려는 노력으로 주변 HOA 계수들에 역상관을 적용할 수도 있다. 주변 HOA 계수들의 역상관에 관한 더 많은 정보는 2015년 7월 1일자로 출원된 발명이 명칭이 "REDUCING CORRELATION BETWEEN HIGHER ORDER AMBISONIC (HOA) BACKGROUND CHANNELS" 인 미국 특허공보 제2016/007132호에서 찾을 수 있다. 이로써, 메자닌 인코더 (20) 는, 비트스트림 (15) 에서 그리고 주변 HOA 계수들에 역상관을 적용함 없이, 비트스트림 (15) 의 전용 주변 채널에서 주변 HOA 계수들의 각각을 특정할 수도 있다.

메자닌 인코더 (20) 는 중간 압축 포맷에 따르는 비트스트림 (15) 에서, 비트스트림 (15) 에서 상이한 채널로서 상이한 주변 HOA 계수들의 각각과 음장의 배경 성분을 표현하는 고차 앰비소닉 계수들 (11) (예를 들어, 주변 HOA 계수들 (47)) 의 서브세트를 특정할 수도 있다. 메자닌 인코더 (20) 는 주변 HOA 계수들이 될 HOA 계수들 (11) 의 고정된 수를 선택할 수도 있다. HOA 계수들 (11) 중 9 개가 주변 HOA 계수들인 것으로 선택될 때, 메자닌 인코더 (20) 는 (9 개의 주변 HOA 계수들을 특정하기 위해 총 9 개의 채널들을 초래하는) 비트스트림 (15) 의 별도의 채널에서 9 개의 주변 HOA 계수들의 각각을 특정할 수도 있다.

메자닌 인코더 (20) 는 또한, 비트스트림 (15) 에서, 비트스트림 (15) 의 단일 사이드 정보 채널에서 모든 공간 성분들 (57) 을 가진 코딩된 공간 성분들의 모든 엘리먼트들을 특정할 수도 있다. 메자닌 인코더 (20) 는 비트스트림 (15) 의 별도의 전경 채널에서, 우세한 오디오 신호들의 각각을 추가로 특정할 수도 있다.

메자닌 인코더 (20) 는 비트스트림의 각각의 액세스 유닛 (여기서 액세스 유닛은, 하나의 예로서, 1024 개의 오디오 샘플들을 포함할 수도 있는 오디오 데이터의 프레임을 표현할 수도 있다) 에서 추가적인 파라미터들을 특정할 수도 있다. 추가적인 파라미터들은 HOA 차수 (이는 하나의 예로서, 6 비트들을 사용하여 특정될 수도 있음), 오브젝트 포지션이 스크린-상대적인지 여부를 표시하는 isScreenRelative 신택스 엘리먼트, HOA 근거리장 보상 (NFC) 이 코딩된 신호에 적용되었는지 안되었는지를 표시하는 usesNFC 신택스 엘리먼트, (리틀-엔디안에 있어서 IEEE 754 포맷에서 플로트 (float) 로서 해석될 수도 있는) HOA NFC 에 대해 사용된 미터 (meter) 들에 있어서의 반경을 표시하는 NFCReferenceDistance 신택스 엘리먼트, HOA 계수들이 앰비소닉 채널 넘버링 (Ambisonic Channel Numbering; ACN) 차수로 정렬되는지 또는 신호 인덱스 지정 (Single Index Designation; SID) 차수로 정렬되는지를 표시하는 정렬 (ordering) 신택스 엘리먼트, 및 풀 3-차원 정규화 (normalization) (N3D) 가 적용되었는지 또는 세미-3-차원 정규화 (SN3D) 가 적용되었는지를 표시하는 정규화 신택스 엘리먼트를 포함할 수도 있다.

추가적인 파라미터들은 또한, 예를 들어, 제로의 값으로 설정된 minNumOfCoeffsForAmbHOA 신택스 엘리먼트 또는 예를 들어, 네거티브 1 로 설정된 MinAmbHoaOrder 신택스 엘리먼트, (HOA 신호가 단일 계층을 사용하여 제공됨을 표시하기 위해) 1 의 값으로 설정된 singleLayer 신택스 엘리먼트, (3D 오디오 코딩 표준의 표 209 에서 정의된 바와 같이 - 벡터-기반 방향 신호들 - 예를 들어, 상기 언급된 V 벡터들 - 의 공간-시간 보간의 시간을 표시하는) 512 의 값으로 설정된 CodedSpatialInterpolationTime 신택스 엘리먼트, (벡터-기반 방향 신호들에 적용된 공간 보간의 타입을 표시하는) 제로의 값으로 설정된 SpatialInterpolationMethod 신택스 엘리먼트, (공간 성분들의 모든 엘리먼트들이 특정되는 것을 표시하는) 1 의 값으로 설정된 codedVVecLength 신택스 엘리먼트를 포함할 수도 있다. 더욱이, 추가적인 파라미터들은 2 의 값으로 설정된 maxGainCorrAmpExp 신택스 엘리먼트, (outputFrameLength = 1024 이면 프레임 길이가 1024 개의 샘플들임을 표시하는) 0, 1, 또는 2 의 값으로 설정된 HOAFrameLengthIndicator 신택스 엘리먼트, 3 의 값으로 설정된 maxHOAOrderToBeTransmitted 신택스 엘리먼트 (여기서 이 신택스 엘리먼트는 송신될 추가적인 주변 HOA 계수들의 최대 HOA 차수를 표시한다), 8 의 값으로 설정된 NumVvecIndicies 신택스 엘리먼트, 및 (어떤 역상관도 적용되지 않았음을 표시하는) 1 의 값으로 설정된 decorrMethod 신택스 엘리먼트를 포함할 수도 있다.

메자닌 인코더 (20) 는 또한, 비트스트림 (15) 에서, (현재 프레임이 코딩 순서에서 이전 프레임에 액세스할 필요 없이 디코딩될 수 있는 독립 프레임임을 표시하는) 1 의 값으로 설정된 hoaIndependencyFlag 신택스 엘리먼트, (공간 성분들이 균일한 8-비트 스칼라 양자화됨을 표시하는) 5 의 값으로 설정된 nbitsQ 신택스 엘리먼트, (4 개의 우세한 사운드 성분들이 비트스트림 (15) 에서 특정됨을 표시하는) 4 의 값으로 설정된 우세한 사운드 성분들의 수 신택스 엘리먼트, 및 (비트스트림 (15) 에 포함된 주변 HOA 계수들의 수가 9 임을 표시하는) 9 의 값으로 설정된 주변 HOA 계수들의 수 신택스 엘리먼트를 특정할 수도 있다.

이렇게 하여, 메자닌 인코더 (20) 는 이미션 인코더 (406) 가 3D 오디오 코딩 표준을 따르는 비트스트림 (21) 을 생성하기 위해 스케일러블 메자닌 포매팅된 오디오 데이터 (15) 를 성공적으로 트랜스코딩할 수도 있는 그러한 방식으로 스케일러블 메자닌 포매팅된 오디오 데이터 (15) 를 특정할 수도 있다.

도 5a 및 도 5b 는 도 2 의 시스템 (10) 의 예들을 더 상세히 예시하는 블록 다이어그램들이다. 도 5a 의 예에 도시된 바와 같이, 시스템 (800A) 은 시스템 (10) 의 예이고, 여기서 시스템 (800A) 은 원격 트럭 (600), 네트워크 운용 센터 (402), 로컬 지점 (local affiliate) (602), 및 콘텐츠 소비자 (14) 를 포함한다. 원격 트럭 (600) 은 (도 5a 의 예에 "SAE 디바이스 (20)" 로서 도시된) 공간 오디오 인코딩 디바이스 (20) 및 (도 5a 의 예에 "CE 디바이스 (604)" 로서 도시된) 기여 (contribution) 인코더 디바이스 (604) 를 포함한다.

SAE 디바이스 (20) 는 도 2 의 예에 대하여 상기 설명된 공간 오디오 인코딩 디바이스 (20) 에 대하여 상기 설명된 방식으로 동작한다. SAE 디바이스 (20) 는, 도 5a 의 예에 도시된 바와 같이, HOA 계수들 (11) 을 수신하고 (64) 16 개의 채널들 - 우세한 오디오 채널들 및 주변 HOA 계수들의 15 개의 채널들, 및 우세한 오디오 신호들에 대응하는 공간 성분들을 정의하는 사이드대역 정보 및 다른 사이드대역 정보 중에서 적응적 이득 제어 (AGC) 정보의 1 개의 채널 - 을 포함하는 중간 포매팅된 비트스트림 (15) 을 생성한다.

CE 디바이스 (604) 는 혼합된-미디어 비트스트림 (605) 을 생성하도록 중간 포매팅된 비트스트림 (15) 및 비디오 데이터 (603) 에 대하여 동작한다. CE 디바이스 (604) 는 중간 포매팅된 오디오 데이터 (15) 및 비디오 데이터 (603) (HOA 계수들 (11) 의 캡처와 동시에 캡처됨) 에 대하여 경량 압축을 수행할 수도 있다. CE 디바이스 (604) 는 혼합된-미디어 비트스트림 (605) 을 생성하도록 압축된 중간 포매팅된 오디오 비트스트림 (15) 및 압축된 비디오 데이터 (603) 의 프레임들을 멀티플렉싱할 수도 있다. CE 디바이스 (604) 는 상기 설명된 바와 같이 추가의 프로세싱을 위해 혼합된-미디어 비트스트림 (605) 을 NOC (402) 에 송신할 수도 있다.

로컬 지점 (602) 은, 혼합된-미디어 비트스트림 (605) 에 의해 표현된 콘텐츠를 로컬로 브로드캐스팅하는, 로컬 브로드캐스팅 지점을 표현할 수도 있다. 로컬 지점 (602) 은 (도 5a 의 예에 "CD 디바이스 (606)" 로서 도시된) 기여 디코더 디바이스 (606) 및 (도 5a 의 예에 "PAE 디바이스 (406)" 로서 도시된) 음향심리 오디오 인코딩 디바이스 (406) 를 포함할 수도 있다. CD 디바이스 (606) 는 CE 디바이스 (604) 의 동작에 상반되는 방식으로 동작할 수도 있다. 이로써, CD 디바이스 (606) 는 중간 포매팅된 오디오 비트스트림 (15) 및 비디오 데이터 (603) 의 압축된 버전들을 디멀티플렉싱하고 중간 포매팅된 비트스트림 (15) 및 비디오 데이터 (603) 를 복구하기 위해 중간 포매팅된 오디오 비트스트림 (15) 및 비디오 데이터 (603) 의 압축된 버전들 양자 모두를 압축해제한다. PAE 디바이스 (406) 는 비트스트림 (21) 을 출력하기 위해 도 2 에 도시된 음향심리 오디오 인코더 디바이스 (406) 에 대하여 상기 설명된 방식으로 동작할 수도 있다. PAE 디바이스 (406) 는 브로드캐스팅 시스템들의 콘텍스트에서, "이미션 인코더 (406)" 로 지칭될 수도 있다.

이미션 인코더 (406) 는 비트스트림 (15) 을 트랜스코딩하여, 우세한 사운드 성분들의 수 신택스 엘리먼트의 값, 및 주변 HOA 계수들의 수 신택스 엘리먼트의 값을 또한 잠재적으로 변화시키면서, 이미션 인코더 (406) 가 오디오 프레임들 간의 예측을 활용하였는지 아닌지에 의존하여 hoaIndependencyFlag 신택스 엘리먼트를 업데이트할 수도 있다. 이미션 인코더 (406) 는 타겟 비트레이트를 달성하기 위해 hoaIndependentFlag 신택스 엘리먼트, 우세한 사운드 성분들의 수 신택스 엘리먼트 및 주변 HOA 계수들의 수 신택스 엘리먼트를 변화시킬 수도 있다.

도 5a 의 예에 도시되지 않았지만, 로컬 지점 (602) 은 비디오 데이터 (603) 를 압축하기 위한 추가의 디바이스들을 포함할 수도 있다. 더욱이, 별개의 디바이스들 (예를 들어, 이하에 더 상세히 설명된 SAE 디바이스 (20), CE 디바이스 (604), CD 디바이스 (606), PAE 디바이스 (406), APB 디바이스 (16), 및 VPB 디바이스 (608) 등) 인 것으로서 설명되지만, 다양한 디바이스들은 하나 이상의 디바이스들 내에 별개의 유닛들 또는 하드웨어로서 구현될 수도 있다.

도 5a 의 예에 도시된 콘텐츠 소비자 (14) 는 (도 5a 의 예에 "APB 디바이스 (16)" 로서 도시된) 도 2 의 예에 대하여 상기 설명된 오디오 플레이백 디바이스 (16) 및 비디오 플레이백 (VPB) 디바이스 (608) 를 포함한다. APB 디바이스 (16) 는 (헤드폰들, 이어버드들 등에 통합된 스피커들 또는 라우드스피커들을 지칭할 수도 있는) 스피커들 (3) 로 출력되는 멀티-채널 오디오 데이터 (25) 를 생성하기 위해 도 2 에 대하여 상기 설명된 바와 같이 동작할 수도 있다. VPB 디바이스 (608) 는 비디오 데이터 (603) 를 플레이백하도록 구성된 디바이스를 표현할 수도 있고, 비디오 디코더들, 프레임 버퍼들, 디스플레이들, 및 비디오 데이터 (603) 를 플레이백하도록 구성된 다른 컴포넌트들을 포함할 수도 있다.

도 5b 의 예에 도시된 시스템 (800B) 은, 원격 트럭 (600) 이 비트스트림 (15) 의 사이드대역 정보 (15B) 에 대하여 변조를 수행하도록 구성된 추가 디바이스 (610) 를 포함하는 것을 제외하고는 도 5a 의 시스템 (800A) 과 유사하다 (여기서 다른 (15) 채널들은 "채널들 (15A)" 또는 "전송 채널들 (15A)" 로서 표시된다). 추가적인 디바이스 (610) 는 도 5b 의 예에서 "mod 디바이스 (610)" 로서 도시된다. 변조 디바이스 (610) 는 사이드대역 정보의 클립핑을 잠재적으로 감소시키고 이로써 신호 손실을 감소시키기 위해 사이드대역 정보 (610) 의 변조를 수행할 수도 있다.

도 3a 내지 도 3d 는 본 개시에서 설명된 기법들의 다양한 양태들을 수행하도록 구성될 수도 있는 시스템의 상이한 예들을 예시하는 블록 다이어그램들이다. 도 3a 에 도시된 시스템 (410A) 은, 시스템 (10) 의 마이크로폰 어레이 (5) 가 마이크로폰 어레이 (408) 로 대체되는 것을 제외하고는, 도 2 의 시스템 (10) 과 유사하다. 도 3a 의 예에 도시된 마이크로폰 어레이 (408) 는 HOA 트랜스코더 (400) 및 공간 오디오 인코딩 디바이스 (20) 를 포함한다. 이로써, 마이크로폰 어레이 (408) 는 본 개시에서 제시된 기법들의 다양한 양태들에 따라 비트레이트 할당을 사용하여 후에 압축되는, 공간 압축된 HOA 오디오 데이터 (15) 를 생성한다.

도 3b 에 도시된 시스템 (410B) 은 자동차 (460) 가 마이크로폰 어레이 (408) 를 포함하는 것을 제외하고는 도 3a 에 도시된 시스템 (410A) 과 유사하다. 이로써, 본 개시에서 제시된 기법들은 자동차들의 콘텍스트에서 수행될 수도 있다.

도 3c 에 도시된 시스템 (410C) 은 원격-파일럿된 및/또는 자율 제어된 비행 디바이스 (462) 가 마이크로폰 어레이 (408) 를 포함하는 것을 제외하고는 도 3a 에 도시된 시스템 (410A) 과 유사하다. 비행 디바이스 (462) 는 예를 들어 쿼드콥터, 헬리콥터, 또는 임의의 다른 타입의 드론을 표현할 수도 있다. 이로써, 본 개시에서 제시된 기법들은 드론들의 콘텍스트에서 수행될 수도 있다.

도 3d 에 도시된 시스템 (410D) 은 로봇 디바이스 (464) 가 마이크로폰 어레이 (408) 를 포함하는 것을 제외하고는 도 3a 에 도시된 시스템 (410A) 과 유사하다. 로봇 디바이스 (464) 는 예를 들어 인공 지능, 또는 다른 타입들의 로봇들을 사용하여 동작하는 디바이스를 표현할 수도 있다. 일부 예들에서, 로봇 디바이스 (464) 는 드론과 같은 비행 디바이스를 표현할 수도 있다. 다른 예들에서, 로봇 디바이스 (464) 는 반드시 비행하는 것은 아닌 것들을 포함한, 다른 타입들의 디바이스들을 표현할 수도 있다. 이로써, 본 개시에서 제시된 기법들은 로봇들의 콘텍스트에서 수행될 수도 있다.

도 4 는 본 개시에서 설명된 기법들의 다양한 양태들을 수행하도록 구성될 수도 있는 시스템의 다른 예를 예시하는 블록 다이어그램이다. 도 4 에 도시된 시스템은, 브로드캐스팅 네트워크 (12) 가 추가적인 HOA 믹서 (450) 를 포함하는 것을 제외하고는 도 2 의 시스템 (10) 과 유사하다. 이로써, 도 4 에 도시된 시스템은 시스템 (10') 으로서 표시되고 도 4 의 브로드캐스트 네트워크는 브로드캐스트 네트워크 (12') 로서 표시된다. HOA 트랜스코더 (400) 는 라이브 피드 HOA 계수들을 HOA 계수들 (11A) 로서 HOA 믹서 (450) 로 출력할 수도 있다. HOA 믹서는 HOA 오디오 데이터를 혼합하도록 구성된 디바이스 또는 유닛을 표현한다. HOA 믹서 (450) 는 (스폿 마이크로폰들 또는 비-3D 마이크로폰들로 캡처되고 구면 조화 도메인으로 컨버팅된 오디오 데이터, HOA 도메인에서 특정된 특수 효과들 등을 포함하는, 임의의 다른 타입의 오디오 데이터를 나타낼 수도 있는) 다른 HOA 오디오 데이터 (11B) 를 수신하고 이 HOA 오디오 데이터 (11B) 를 HOA 오디오 데이터 (11A) 와 혼합하여 HOA 계수들 (11) 을 획득할 수도 있다.

도 6 은 도 2 내지 도 5b 의 예들에 도시된 음향심리 오디오 인코딩 디바이스 (406) 의 예를 예시하는 블록 다이어그램이다. 도 6 의 예에 도시된 바와 같이, 음향심리 오디오 인코딩 디바이스 (406) 는 공간 오디오 인코딩 유닛 (700), 음향심리 오디오 인코딩 유닛 (702), 및 패킷화기 유닛 (704) 을 포함할 수도 있다.

공간 오디오 인코딩 유닛 (700) 은 중간 포매팅된 오디오 데이터 (15) 에 대하여 추가의 공간 오디오 인코딩을 수행하도록 구성된 유닛을 표현할 수도 있다. 공간 오디오 인코딩 유닛 (700) 은 추출 유닛 (706), 복조 유닛 (708) 및 선택 유닛 (710) 을 포함할 수도 있다.

추출 유닛 (706) 은 중간 포매팅된 비트스트림 (15) 으로부터 전송 채널들 (15A) 및 변조된 사이드대역 정보 (15C) 를 추출하도록 구성된 유닛을 표현할 수도 있다. 추출 유닛 (706) 은 전송 채널들 (15A) 을 선택 유닛 (710) 으로, 그리고 변조된 사이드대역 정보 (15C) 를 복조 유닛 (708) 으로 출력할 수도 있다.

복조 유닛 (708) 은 원래의 사이드대역 정보 (15B) 를 복구하기 위해 변조된 사이드대역 정보 (15C) 를 복조하도록 구성된 유닛을 표현할 수도 있다. 복조 유닛 (708) 은 도 5b 의 예에 도시된 시스템 (800B) 에 대하여 상기 설명된 변조 디바이스 (610) 의 동작에 상반되는 방식으로 동작할 수도 있다. 변조가 사이드대역 정보 (15B) 에 대하여 수행되지 않을 때, 추출 유닛 (706) 은 중간 포매팅된 비트스트림 (15) 으로부터 직접 사이드대역 정보 (15B) 를 추출하고 선택 유닛 (710) 으로 직접 사이드대역 정보 (15B) 를 출력할 수도 있다 (또는 복조 유닛 (708) 은 복조를 수행하지 않고 선택 유닛 (710) 으로 사이드대역 정보 (15B) 를 통과시킬 수도 있다).

선택 유닛 (710) 은 구성 정보 (709) 에 기초하여, 전송 채널들 (15A) 및 사이드대역 정보 (15B) 의 서브세트들을 선택하도록 구성된 유닛을 표현할 수도 있다. 구성 정보 (709) 는 타겟 비트레이트, 및 상기 설명된 독립성 플래그 (이는 hoaIndependencyFlag 신택스 엘리먼트로 표시될 수도 있다) 를 포함할 수도 있다. 선택 유닛 (710) 은, 하나의 예로서, 9 개의 주변 HOA 계수들로부터 4 개의 주변 HOA 계수들, 6 개의 우세한 오디오 신호들로부터 4 개의 우세한 오디오 신호들, 그리고 6 개의 우세한 오디오 신호들에 대응하는 6 개의 총 공간 성분들로부터 4 개의 선택된 우세한 오디오 신호들에 대응하는 4 개의 공간 성분들을 선택할 수도 있다.

선택 유닛 (710) 은 선택된 주변 HOA 계수들 및 우세한 오디오 신호들을 전송 채널들 (701A) 로서 PAE 유닛 (702) 으로 출력할 수도 있다. 선택 유닛 (710) 은 선택된 공간 성분들을 공간 성분들 (703) 로서 패킷화기 유닛 (704) 으로 출력할 수도 있다. 기법들은, 공간 오디오 인코딩 디바이스 (20) 가 상기 설명된 계층화된 방식으로 전송 채널들 (15A) 및 사이드대역 정보 (15B) 를 제공하기 때문에, 하나의 예로서, 구성 정보 (709) 에 의해 제시된 타겟 비트레이트 및 독립성을 달성하기에 적합한 전송 채널들 (15A) 및 사이드대역 정보 (15B) 의 다양한 조합들을 선택 유닛 (710) 이 선택하는 것을 인에이블한다.

PAE 유닛 (702) 은 인코딩된 전송 채널들 (710B) 을 생성하기 위해 전송 채널들 (710A) 에 대하여 음향심리 오디오 인코딩을 수행하도록 구성된 유닛을 표현할 수도 있다. PAE 유닛 (702) 은 인코딩된 전송 채널들 (701B) 을 패킷화기 유닛 (704) 으로 출력할 수도 있다. 패킷화기 유닛 (704) 은, 인코딩된 전송 채널들 (701B) 및 사이드대역 정보 (703) 에 기초하여, 콘텐츠 소비자 (14) 로의 전달을 위한 일련의 패킷들로서 비트스트림 (21) 을 생성하도록 구성된 유닛을 표현할 수도 있다.

도 7a 내지 도 7c 는 도 2 에 도시된 메자닌 인코더 및 이미션 인코더들에 대한 예의 동작을 예시하는 다이어그램들이다. 도 7a 를 우선 참조하면, 메자닌 인코더 (20A) (여기서 메자닌 인코더 (20A) 는 도 2 내지 도 5b 에 도시된 메자닌 인코더 (20) 의 하나의 예이다) 는 4 개의 우세한 사운드 성분들 (810) (도 7a 의 예에 FG#1 내지 FG#4 로서 표시됨) 및 9 개의 주변 HOA 계수들 (812) (도 7a 의 예에 BG#1 내지 BG#9 로서 표시됨) 을 생성하기 위해 (도 7a 에 "AGC" 로서 도시된) 적응적 이득 제어를 FG들 및 H 에 적용한다. 20A 에서 codedVVecLength = 0 및 minNumberOfAmbiChannels (또는 MinNumOfCoeffsForAmbHOA) = 0 이다. codedVVecLength 및 minNumberOfAmbiChannels 에 관한 더 많은 정보는 상기 언급된 MPEG-H 3D 오디오 코딩 표준에서 찾을 수 있다.

그러나, 메자닌 인코더 (20A) 는 (도 7a 의 예에 "side info" 로서 도시된) 사이드 정보를 통해 전송된 4 개의 우세한 사운드 성분들 및 대응하는 공간 성분들 (814) 의 조합에 의해 제공된 정보에 리던던트인 정보를 제공하는 것들을 포함한, 주변 HOA 계수들 모두를 전송한다. 상기 설명된 바와 같이, 메자닌 인코더 (20A) 는 별도의 전용 우세한 채널에서 4 개의 우세한 사운드 성분들 (810) 의 각각을 그리고 별도의 전용 주변 채널에서 9 개의 주변 HOA 계수들 (812) 의 각각을 특정하면서, 단일 사이드 정보 채널에서 공간 성분들 (814) 모두를 특정한다.

이미션 인코더 (406A) (여기서 이미션 인코더 (406A) 는 도 2 의 예에 도시된 이미션 인코더 (406A) 의 하나의 예이다) 는 4 개의 우세한 사운드 성분들 (810), 9 개의 주변 HOA 계수들 (812), 및 공간 성분들 (814) 을 수신할 수도 있다. 406A 에서, codedVVecLength = 0 및 minNumberOfAmbiChannels = 4 이다. 이미션 인코더 (406A) 는 4 개의 우세한 사운드 성분들 (810) 및 9 개의 주변 HOA 계수들 (812) 에 역 적응적 이득 제어를 적용할 수도 있다. 이미션 인코더 (406A) 는 그 후 타겟 비트레이트 (816) 에 기초하여 4 개의 우세한 사운드 성분들 (810), 9 개의 주변 HOA 계수들 (812), 및 공간 성분들 (814) 을 포함하는 비트스트림 (15) 을 트랜스코딩하기 위한 파라미터들을 결정할 수도 있다.

비트스트림 (15) 을 트랜스코딩할 때, 이미션 인코더 (406A) 는 4 개의 우세한 사운드 성분들 (810) 중 단 2 개 (즉, 도 7a 의 예에서 FG#1 및 FG#2) 및 9 개의 주변 HOA 계수들 (812) 중 단 4 개 (즉, 도 7a 의 예에서 BG#1 내지 BG#4) 를 선택한다. 이미션 인코더 (406A) 는 따라서 비트스트림 (21) 에 포함된 주변 HOA 계수들 (812) 의 수를 가변시킬 수도 있고, 이로써 (단지 우세한 사운드 성분들 (810) 에 의해 특정되지 않은 것들보다는) 주변 HOA 계수들 (812) 전부에 대한 액세스를 필요로 한다.

이미션 인코더 (406A) 는 비트스트림 (21) 에서 나머지 주변 HOA 계수들 (812) 을 특정하기 전에 나머지 우세한 사운드 성분들 (810) (즉, 도 7a 의 예에서 FG#1 및 FG#2) 에 의해 특정된 정보에 리던던트인 정보를 제거한 후 남아 있는 주변 HOA 계수들 (812) 에 대하여 역상관 및 적응적 이득 제어를 수행할 수도 있다. 그러나, BG들의 이 재계산은 1-프레임 지연을 요구할 수도 있다. 이미션 인코더 (406A) 는 또한 3D 오디오 코딩 표준 준수 비트스트림을 형성하기 위해 비트스트림 (21) 에서 나머지 우세한 사운드 성분들 (810) 및 공간 성분들 (814) 을 특정할 수도 있다.

도 7b 의 예에서, 메자닌 인코더 (20B) 는 메자닌 인코더 (20B) 가 메자닌 인코더 (20A) 와, 동일하지 않은 경우, 유사하게 동작한다는 점에서 메자닌 인코더 (20A) 와 유사하다. 20B 에서, codedVVecLength = 0 및 minNumberOfAmbiChannels = 0 이다. 그러나, 비트스트림 (21) 을 송신하는데 있어서 레이턴시를 감소시키기 위해, 도 7b 의 이미션 인코더 (406B) 는 이미션 인코더 (406A) 에 대하여 상기 논의된 역 적응적 이득 제어를 수행하지 않고, 이로써 적응적 이득 제어의 적용을 통해 프로세싱 체인에 도입된 1-프레임 지연을 회피한다. 이 변화의 결과로서, 이미션 인코더 (406B) 는 나머지 우세한 사운드 성분들 (810) 및 대응하는 공간 성분들 (814) 의 조합에 의하여 제공된 것에 리던던트인 정보를 제거하기 위해 주변 HOA 계수들 (812) 을 수정하지 않을 수도 있다. 그러나, 이미션 인코더 (406B) 는 주변 HOA 계수들 (11) 과 연관된 엘리먼트들을 제거하기 위해 공간 성분들 (814) 을 수정할 수도 있다. 이미션 인코더 (406B) 는 모든 다른 방식들의 동작의 관점에서 이미션 인코더 (406A) 와 동일하지 않은 경우와 유사하다. 406B 에서, codedVVecLength = 1 및 minNumberOfAmbiChannels = 0 이다.

도 7c 의 예에서, 메자닌 인코더 (20C) 는 메자닌 인코더 (20C) 가 메자닌 인코더 (20A) 와, 동일하지 않은 경우, 유사하게 동작한다는 점에서 메자닌 인코더 (20A) 와 유사하다. 20C 에서, codedVVecLength = 1 및 minNumberOfAmbiChannels = 0 이다. 그러나, 메자닌 인코더 (20C) 는 공간 성분들 (814) 의 다양한 엘리먼트들이 주변 HOA 계수들 (812) 에 의해 제공된 정보에 리던던트인 정보를 제공할 수도 있음에도 불구하고, V 벡터들의 모든 엘리먼트들을 포함한, 공간 성분들 (814) 의 엘리먼트들 모두를 송신한다. 이미션 인코더 (406C) 는 이미션 인코더 (406C) 가 이미션 인코더 (406A) 와, 동일하지 않은 경우, 유사하게 동작한다는 점에서 이미션 인코더 (406A) 와 유사하다. 406C 에서, codedVVecLength = 1 및 minNumberOfAmbiChannels = 0 이다. 이미션 인코더 (406C) 는, 이 인스턴스에서, 이미션 인코더 (406C) 가 주변 HOA 계수들 (11) 의 수를 (즉, 도 7c 의 예에 도시된 바와 같이 9 개에서 4 로) 감소시키기로 결정하는 경우 공간 성분들 (814) 의 모든 엘리먼트들이 정보에서 갭들을 회피하도록 요구되는 것을 제외하고는, 타겟 비트레이트 (816) 에 기초하여 이미션 인코더 (406A) 의 것과 비트스트림 (15) 의 동일한 트랜스코딩을 수행할 수도 있다. 메자닌 인코더 (20C) 가 공간 성분들 V-벡터들 (BG#1 내지 BG#9 에 대응함) 에 대한 모든 엘리먼트들 1-9 를 전송하지 않기로 결정했다면, 이미션 인코더 (406C) 는 공간 성분들 (814) 의 엘리먼트들 5-9 를 복구할 수 없었을 것이다. 이로써, 이미션 인코더 (406C) 는 3D 오디오 코딩 표준을 따르는 방식으로 비트스트림 (21) 을 구성할 수 없었을 것이다.

도 8 은 본 개시에서 설명된 기법들의 다양한 양태들에 따라 구성된 비트스트림 (15) 으로부터 비트스트림 (21) 을 포뮬레이팅하는데 있어서의 도 2 의 이미션 인코더를 예시하는 다이어그램이다. 도 8 의 예에서, 이미션 인코더 (406) 는 이미션 인코더 (406) 가 3D 오디오 코딩 표준에 따르는 방식으로 비트스트림 (21) 을 구성할 수 있도록 비트스트림 (15) 으로부터 모든 정보에 액세스하였다.

도 9 는 본 개시에서 설명된 기법들의 다양한 양태들을 수행하도록 구성된 상이한 시스템을 예시하는 블록 다이어그램이다. 도 9 의 예에서, 시스템 (900) 은 마이크로폰 어레이 (902) 및 컴퓨팅 디바이스 (904 및 906) 를 포함한다. 마이크로폰 어레이 (902) 는 도 1 의 예에 대하여 상기 설명된 마이크로폰 어레이 (5) 와, 실질적으로 유사하지 않은 경우, 유사할 수도 있다. 마이크로폰 어레이 (902) 는 상기 더 상세히 논의된 HOA 트랜스코더 (400) 및 메자닌 인코더 (20) 를 포함한다.

컴퓨팅 디바이스들 (904 및 906) 은 각각 셀룰러 폰 (이는 "모바일 폰", 또는 "모바일 셀룰러 핸드셋" 으로 상호교환가능하게 지칭될 수도 있고 여기서 이러한 셀룰러 폰은 소위 "스마트 폰들" 을 포함할 수도 있음), 태블릿, 랩톱, 개인 디지털 보조기, 웨어러블 컴퓨팅 헤드셋, 시계 (소위 "스마트 시계" 를 포함함), 게이밍 콘솔, 휴대용 게이밍 콘솔, 데스크톱 컴퓨터, 워크스테이션, 서버, 또는 임의의 다른 타입의 컴퓨팅 디바이스 중 하나 이상을 표현할 수도 있다. 예시의 목적으로, 컴퓨팅 디바이스들 (904 및 906) 의 각각은 모바일 폰들 (904 및 906) 로 지칭된다. 어떤 경우에도, 모바일 폰 (904) 은 이미션 인코더 (406) 를 포함할 수도 있는 한편, 모바일 폰 (906) 은 오디오 디코딩 디바이스 (24) 를 포함할 수도 있다.

마이크로폰 어레이 (902) 는 마이크로폰 신호들 (908) 의 형태의 오디오 데이터를 캡처할 수도 있다. 마이크로폰 어레이 (902) 의 HOA 트랜스코더 (400) 는, 메자닌 인코더 (20) ("mezz 인코더 (20)" 로서 도시됨) 가 상기 설명된 방식으로 비트스트림 (15) 을 형성하기 위해 인코딩 (또는, 다시 말해서 압축) 할 수도 있는, HOA 계수들 (11) 로 마이크로폰 신호들 (908) 을 트랜스코딩할 수도 있다. 마이크로폰 어레이 (902) 는, 마이크로폰 어레이 (902) 가 송신기 및/또는 수신기 (또한 트랜시버로도 지칭되고, "TX" 로 약기될 수도 있음) (910A) 를 통해 모바일 폰 (904) 의 이미션 인코더 (406) 에 비트스트림 (15) 을 통신할 수도 있도록 모바일 폰 (904) 에 (무선으로 또는 유선 접속을 통해) 커플링될 수도 있다. 마이크로폰 어레이 (902) 는 트랜시버 (910A) 를 포함할 수도 있고, 그 트랜시버는 다른 트랜시버에 데이터를 송신하도록 구성된 (펌웨어와 같은) 소프트웨어와 하드웨어의 조합 또는 하드웨어를 표현할 수도 있다.

이미션 인코더 (406) 는 비트스트림 (15) 으로부터 3D 오디오 코딩 표준에 따르는 비트스트림 (21) 을 생성하기 위해 상기 설명된 방식으로 동작할 수도 있다. 이미션 인코더 (406) 는 비트스트림 (15) 을 수신하도록 구성된 (트랜시버 (910A) 와 실질적으로 유사하지 않은 경우와 유사한) 트랜시버 (910B) 를 포함할 수도 있다. 이미션 인코더 (406) 는 수신된 비트스트림 (15) 으로부터 비트스트림 (21) 을 생성할 때 타겟 비트레이트, hoaIndependencyFlag 신택스 엘리먼트, 및 전송 채널들의 수를 선택할 수도 있다. 이미션 인코더 (406) 는 (반드시 직접적으로, 이러한 통신이 서버들과 같은 개입 디바이스들을 가지거나, 또는 전용 비일시적 저장 매체들 등에 의한 것일 수도 있음을 의미하는 것은 아니지만) 비트스트림 (21) 을 트랜시버 (910B) 를 통해 모바일 폰 (906) 에 통신할 수도 있다.

모바일 폰 (906) 은 비트스트림 (21) 을 수신하도록 구성된 (트랜시버들 (910A 및 910B) 과 실질적으로 유사하지 않은 경우와 유사한) 트랜시버 (910C) 를 포함할 수도 있고, 그 때문에 모바일 폰 (906) 은 HOA 계수들 (11') 을 복구하기 위해 비트스트림 (21) 을 디코딩하도록 오디오 디코딩 디바이스 (24) 를 인보크할 수도 있다. 예시의 용이함을 목적으로 도 9 에 도시되지는 않았지만, 모바일 폰 (906) 은 HOA 계수들 (11') 을 스피커 피드들에 렌더링하고, 스피커 피드들에 기초하여 스피커 (예를 들어, 모바일 폰 (906) 에 통합된 라우드스피커, 모바일 폰 (906) 에 무선으로 커플링된 라우드스피커, 모바일 폰 (906) 에 유선으로 커플링된 라우드스피커, 또는 모바일 폰 (906) 에 무선으로 또는 유선 접속을 통해 커플링된 헤드폰 스피커) 를 통해 음장을 재생할 수도 있다. 헤드폰 스피커들에 의해 음장을 재생하기 위해, 모바일 폰 (906) 은 라우드스피커 피드들로부터 또는 직접 HOA 계수들 (11') 로부터 바이노럴 오디오 스피커 피드들을 렌더링할 수도 있다.

도 10 은 도 2 내지 도 5b 의 예들에 도시된 메자닌 인코더 (20) 의 예의 동작을 예시하는 플로우차트이다. 위에서 더 상세히 설명된 바와 같이, 메자닌 인코더 (20) 는 마이크로폰들 (5) 에 커플링될 수도 있고, 이는 고차 앰비소닉 (HOA) 계수들 (11) 을 나타내는 오디오 데이터를 캡처한다 (1000). 메자닌 인코더 (20) 는 HOA 계수들 (11) 을 우세한 사운드 성분 (이는 또한 "우세한 사운드 신호" 로도 지칭될 수도 있다) 및 대응하는 공간 성분으로 분해한다 (1002). 메자닌 인코더 (20) 는 중간 압축 포맷에 따르는 비트스트림 (15) 에서 특정되기 전에, 주변 성분을 표현하는 HOA 계수들 (11) 의 서브세트에 대한 역상관의 적용을 디스에이블한다 (1004).

메자닌 인코더 (20) 는, 중간 압축 포맷에 따르는 비트스트림 (15) (이는 또한 "스케일러블 메자닌 포매팅된 오디오 데이터 (15)" 로도 지칭될 수도 있다) 에서, 음장의 주변 성분을 표현하는 고차 앰비소닉 계수들 (11) (이는 또한 상기 언급된 바와 같이 "주변 HOA 계수들" 로도 지칭될 수도 있다) 의 서브세트를 특정할 수도 있다 (1006). 메자닌 인코더 (20) 는 또한, 공간 성분의 엘리먼트들 중 적어도 하나가 주변 HOA 계수들에 의해 제공된 정보에 대하여 리던던트인 정보를 포함함에도 불구하고, 비트스트림 (15) 에서, 공간 성분의 모든 엘리먼트들을 특정할 수도 있다 (1008). 메자닌 인코더 (20) 는 비트스트림 (15) 을 출력할 수도 있다 (1010).

도 11 은 도 2 내지 도 5b 의 예들에 도시된 메자닌 인코더 (20) 의 상이한 예의 동작을 예시하는 플로우차트이다. 위에서 더 상세히 설명된 바와 같이, 메자닌 인코더 (20) 는 마이크로폰들 (5) 에 커플링될 수도 있고, 이는 고차 앰비소닉 (HOA) 계수들 (11) 을 나타내는 오디오 데이터를 캡처한다 (1100). 메자닌 인코더 (20) 는 HOA 계수들 (11) 을 우세한 사운드 성분 (이는 또한 "우세한 사운드 신호" 로도 지칭될 수도 있다) 및 대응하는 공간 성분으로 분해한다 (1102). 메자닌 인코더 (20) 는 중간 압축 포맷에 따르는 비트스트림 (15) 에서, 우세한 사운드 성분을 특정한다 (1104).

메자닌 인코더 (20) 는 중간 압축 포맷에 따르는 비트스트림 (15) 에서 특정되기 전에, 주변 성분을 표현하는 HOA 계수들 (11) 의 서브세트에 대한 역상관의 적용을 디스에이블한다 (1106). 메자닌 인코더 (20) 는, 중간 압축 포맷에 따르는 비트스트림 (15) (이는 또한 "스케일러블 메자닌 포매팅된 오디오 데이터 (15)" 로도 지칭될 수도 있다) 에서, 음장의 주변 성분을 표현하는 고차 앰비소닉 계수들 (11) (이는 또한 상기 언급된 바와 같이 "주변 HOA 계수들" 로도 지칭될 수도 있다) 의 서브세트를 특정할 수도 있다 (1108). 메자닌 인코더 (20) 는 비트스트림 (15) 을 출력할 수도 있다 (1110).

도 12 는 도 2 내지 도 5b 의 예들에 도시된 메자닌 인코더 (20) 의 예의 동작을 예시하는 플로우차트이다. 위에서 더 상세히 설명된 바와 같이, 메자닌 인코더 (20) 는 마이크로폰들 (5) 에 커플링될 수도 있고, 이는 고차 앰비소닉 (HOA) 계수들 (11) 을 나타내는 오디오 데이터를 캡처한다 (1200). 메자닌 인코더 (20) 는 HOA 계수들 (11) 을 우세한 사운드 성분 (이는 또한 "우세한 사운드 신호" 로도 지칭될 수도 있다) 및 대응하는 공간 성분으로 분해한다 (1202).

메자닌 인코더 (20) 는, 중간 압축 포맷에 따르는 비트스트림 (15) (이는 또한 "스케일러블 메자닌 포매팅된 오디오 데이터 (15)" 로도 지칭될 수도 있다) 에서, 음장의 주변 성분을 표현하는 고차 앰비소닉 계수들 (11) (이는 또한 상기 언급된 바와 같이 "주변 HOA 계수들" 로도 지칭될 수도 있다) 의 서브세트를 특정할 수도 있다 (1204). 메자닌 인코더 (20) 는 비트 스트림 (15) 에서 그리고 공간 성분을 위해 비트스트림에서 특정할 엘리먼트들의 수 및 주변 채널들의 최소 수의 결정과 관계없이, 우세한 사운드 성분의 모든 엘리먼트들을 특정한다 (1206). 메자닌 인코더 (20) 는 비트스트림 (15) 을 출력할 수도 있다 (1208).

이 점에 있어서, 3 차원 (3D) (또는 HOA-기반) 오디오는 보다 생생한 사운드스케이프를 제공하기 위해 5.1 또는 심지어 7.1 채널-기반 서라운드 사운드를 넘어서도록 설계될 수도 있다. 다시 말해서, 3D 오디오는, 청취자와 동일한 룸에서 예를 들어 음악가가 라이브 공연을 하든 배우가 라이브 공연을 하든, 청취자가 사운드의 소스처럼 느끼도록 청취자를 엔벨로핑하도록 설계될 수도 있다. 3D 오디오는 콘텐츠 생성자들이 디지털 사운드스케이프들로의 더 깊은 깊이 및 리얼리즘을 정교하게 하기 위한 새로운 옵션들을 제시할 수도 있다.

도 13 은, 서로 상대적으로, 본 개시에서 제시된 기법들의 다양한 양태들을 수행하는 것을 포함한, 상이한 코딩 시스템들로부터의 결과들을 예시하는 다이어그램이다. 그래프의 왼쪽 (즉, y-축) 에는 그래프의 하단 (즉, x-축) 을 따라 리스팅된 테스트 청취 아이템들 (즉, 아이템들 1 내지 12 및 전체 아이템) 의 각각에 대한 질적 스코어 (더 높을수록 좋다) 가 있다. 4 개의 시스템들은 "HR" (압축되지 않은 원래 신호를 표현하는 숨겨진 참조 (hidden reference)), "앵커" (하나의 예로서, 3.5 kHz - HR 의 버전 - 에서 필터링된 로우패스를 나타냄), "SysA" (이는 MPEG-H 3D 오디오 코딩 표준을 수행하도록 구성되었음) 및 "SysB" (이는 도 7c 에 대하여 상기 설명된 것들과 같이, 본 개시에서 설명된 기법들의 다양한 양태들을 수행하도록 구성되었음) 로 표시된 4 개의 시스템들의 각각과 비교된다. 상기 4 개의 코딩 시스템들의 각각에 대해 구성된 비트레이트는 초 당 384 킬로비트 (kbps) 였다. 도 13 의 예에 도시된 바와 같이, SysB 는, SysB 가 메자닌 및 이미션 인코더들인 2 개의 별도의 인코더들을 갖지만 SysA 와 비교하여 유사한 오디오 품질을 생성하였다.

위에서 상세히 설명된, 3D 오디오 코딩은, 전통의 오디오 코딩의 일부 제한들을 극복하도록 설계될 수도 있는 신규 장면-기반 오디오 HOA 표현 포맷을 포함할 수도 있다. 장면 기반 오디오는 구면 조화 기저 함수들에 기초한 고차 앰비소닉 (HOA) 으로 알려진 매우 효율적이고 콤팩트한 세트의 신호들을 사용하여 3 차원 사운드 장면 (또는 등가적으로 압력 필드) 을 표현할 수도 있다.

일부 인스턴스들에서, 콘텐츠 생성은 콘텐츠가 플레이백될 방법에 밀접하게 결부될 수도 있다. 장면 기반 오디오 포맷 (상기 언급된 MPEG-H 3D 오디오 표준에서 정의된 것들과 같음) 은 콘텐츠를 플레이하는 시스템에 상관없이 사운드 장면의 하나의 단일 표현의 콘텐츠 생성을 지원할 수도 있다. 이렇게 하여, 단일 표현은 5.1, 7.1, 7.4.1, 11.1, 22.2 등의 플레이백 시스템 상에서 플레이백될 수도 있다. 음장의 표현은 콘텐츠가 (예를 들어, 스테레오 또는 5.1 또는 7.1 시스템들을 통해) 플레이백될 방법에 결부되지 않을 수도 있기 때문에, 장면-기반 오디오 (또는, 다시 말해서 HOA) 표현은 모든 플레이백 시나리오들에 걸쳐서 플레이백되도록 설계된다. 장면-기반 오디오 표현은 또한, 라이브 캡처 또는 레코딩된 콘텐츠 양자 모두에 적합할 수도 있고 상기 설명된 바와 같이 오디오 브로드캐스트 및 스트리밍을 위해 기존 인프라스트럭처에 꼭 맞도록 엔지니어링될 수도 있다.

음장의 계층적 표현으로서 설명되었지만, HOA 계수들은 또한 장면-기반 오디오 표현으로 특징지어질 수도 있다. 이로써, 메자닌 압축 또는 인코딩은 또한 장면-기반 압축 또는 인코딩으로 지칭될 수도 있다.

장면 기반 오디오 표현은 다음과 같이 브로드캐스트 산업에 여러 가치 제안 (value proposition) 들을 제공할 수도 있다:

라이브 오디오 장면의 잠재적으로 용이한 캡처: 마이크로폰 어레이들 및/또는 스폿 마이크로폰들로부터 캡처된 신호들은 실시간으로 HOA 계수들로 컨버팅될 수도 있다.

잠재적으로 유연한 렌더링: 유연한 렌더링은 플레이백 로케이션에서의 및 헤드폰들 상의 스피커 구성에 상관없이 몰입형 청각 장면의 재생을 허용할 수도 있다.

잠재적으로 최소 인프라스트럭처 업그레이드: 채널 기반 공간 오디오 (예를 들어, 5.1 등) 를 송신하기 위해 현재 채용되는 오디오 브로드캐스트에 대한 기존 인프라스트럭처는 사운드 장면의 HOA 표현의 송신을 인에이블하기 위해 어떤 상당한 변화들도 행하지 않고 레버리징될 수도 있다.

추가로, 전술한 기법들은 임의의 수의 상이한 콘텍스트들 및 오디오 에코시스템들에 대하여 수행될 수도 있고 상기 설명된 콘텍스트들 또는 오디오 에코시스템들 중 임의의 것에 제한되어서는 안된다. 다수의 예의 콘텍스트들이 이하에 설명되지만, 기법들은 예의 콘텍스트들에 제한되어야 한다. 하나의 예의 오디오 에코시스템은 오디오 콘텐츠, 무비 스튜디오들, 뮤직 스튜디오들, 게이밍 오디오 스튜디오들, 채널 기반 오디오 콘텐츠, 코딩 엔진들, 게임 오디오 스템들, 게임 오디오 코딩/렌더링 엔진들, 및 전달 시스템들을 포함할 수도 있다.

무비 스튜디오들, 뮤직 스튜디오들, 및 게이밍 오디오 스튜디오들은 오디오 콘텐츠를 수신할 수도 있다. 일부 예들에서, 오디오 콘텐츠는 취득의 출력을 표현할 수도 있다. 무비 스튜디오들은 이를 테면 디지털 오디오 워크스테이션 (DAW) 을 사용하는 것에 의해 채널 기반 오디오 콘텐츠를 (예를 들어, 2.0, 5.1, 및 7.1 에서) 출력할 수도 있다. 뮤직 스튜디오들은 이를 테면 DAW 를 사용하는 것에 의해 채널 기반 오디오 콘텐츠를 (예를 들어, 2.0, 및 5.1 에서) 출력할 수도 있다. 어떠한 경우에도, 코딩 엔진들은 전달 시스템들에 의한 출력을 위해 채널 기반 오디오 콘텐츠 기반 하나 이상의 코덱들 (예를 들어, AAC, AC3, Dolby True HD, Dolby 디지털 플러스, 및 DTS 마스터 오디오) 을 수신 및 인코딩할 수도 있다. 게이밍 오디오 스튜디오들은 이를 테면 DAW 를 사용하는 것에 의해, 하나 이상의 게임 오디오 스템들을 출력할 수도 있다. 게임 오디오 코딩/렌더링 엔진들은 전달 시스템들에 의한 출력을 위해 오디오 스템들을 채널 기반 오디오 콘텐츠로 코딩 및 또는 렌더링할 수도 있다. 기법들이 수행될 수도 있는 다른 예의 콘텍스트는 브로드캐스트 레코딩 오디오 오브젝트들, 전문 오디오 시스템들, 소비자 온-디바이스 캡처, HOA 오디오 포맷, 온-디바이스 렌더링, 소비자 오디오, TV, 및 액세서리들, 및 카 오디오 시스템들을 포함할 수도 있는 오디오 에코시스템을 포함한다.

브로드캐스트 레코딩 오디오 오브젝트들, 전문 오디오 시스템들, 및 소비자 온-디바이스 캡처는 HOA 오디오 포맷을 사용하여 그들의 출력을 모두 코딩할 수도 있다. 이렇게 하여, 오디오 콘텐츠는 HOA 오디오 포맷을 사용하여, 온-디바이스 렌더링, 소비자 오디오, TV, 및 액세서리들, 및 카 오디오 시스템들을 사용하여 플레이백될 수도 있는 단일 표현으로 코딩될 수도 있다. 다시 말해서, 오디오 콘텐츠의 단일 표현은 오디오 플레이백 시스템 (16) 과 같은, (즉, 5.1, 7.1 등과 같은 특정한 구성을 요구하는 것과는 대조적으로) 일반적 오디오 플레이백 시스템에서 플레이백될 수도 있다.

기법들이 수행될 수도 있는 콘텍스트의 다른 예들은 취득 엘리먼트들, 및 플레이백 엘리먼트들을 포함할 수도 있는 오디오 에코시스템을 포함한다. 취득 엘리먼트들은 유선 및/또는 무선 취득 디바이스들 (예를 들어, Eigen 마이크로폰들), 온-디바이스 서라운드 사운드 캡처, 및 모바일 디바이스들 (예를 들어, 스마트폰들 및 태블릿들) 을 포함할 수도 있다. 일부 예들에서, 유선 및/또는 무선 취득 디바이스들은 유선 및/또는 무선 통신 채널(들)을 통해 모바일 디바이스에 커플링될 수도 있다.

본 개시의 하나 이상의 기법들에 따르면, 모바일 디바이스 (이를 테면 모바일 통신 핸드셋) 는 음장을 취득하는데 사용될 수도 있다. 예를 들어, 모바일 디바이스는 유선 및/또는 무선 취득 디바이스들 및/또는 온-디바이스 서라운드 사운드 캡처 (예를 들어, 모바일 디바이스에 통합된 복수의 마이크로폰들) 를 통해 음장을 취득할 수도 있다. 모바일 디바이스는 그 후 플레이백 엘리먼트들 중 하나 이상에 의한 플레이백을 위해 HOA 계수들로 취득된 음장을 코딩할 수도 있다. 예를 들어, 모바일 디바이스의 사용자는 라이브 이벤트 (예를 들어, 미팅, 컨퍼런스, 연극, 콘서트 등) 를 레코딩하고 (그의 음장을 취득하고), 그 레코딩을 HOA 계수들로 코딩할 수도 있다.

모바일 디바이스는 또한 HOA 코딩된 음장을 플레이백하기 위해 플레이백 엘리먼트들 중 하나 이상을 활용할 수도 있다. 예를 들어, 모바일 디바이스는 HOA 코딩된 음장을 디코딩하고 플레이백 엘리먼트들 중 하나 이상이 음장을 재생성하게 하는 신호를 플레이백 엘리먼트들 중 하나 이상으로 출력할 수도 있다. 하나의 예로서, 모바일 디바이스는 하나 이상의 스피커들 (예를 들어, 스피커 어레이들, 사운드 바들 등) 로 신호를 출력하기 위해 무선 및/또는 무선 통신 채널들을 활용할 수도 있다. 다른 예로서, 모바일 디바이스는 하나 이상의 도킹 스테이션들 및/또는 하나 이상의 도킹된 스피커들 (예를 들어, 스마트 카들 및/또는 홈들에서의 사운드 시스템들) 로 신호를 출력하기 위해 도킹 솔루션들을 활용할 수도 있다. 다른 예로서, 모바일 디바이스는 예를 들어 실제적인 바이노럴 사운드를 생성하기 위해 헤드폰들의 세트로 신호를 출력하도록 헤드폰 렌더링을 활용할 수도 있다.

일부 예들에서, 특정한 모바일 디바이스는 3D 음장을 취득하고 그리고 또한 추후 시간에 동일한 3D 음장을 플레이백할 수도 있다. 일부 예들에서, 모바일 디바이스는 3D 음장을 취득하고, 3D 음장을 HOA 로 인코딩하고, 인코딩된 3D 음장을 플레이백을 위해 하나 이상의 다른 디바이스들 (예를 들어, 다른 모바일 디바이스들 및/또는 다른 비-모바일 디바이스들) 에 송신할 수도 있다.

기법들이 수행될 수도 있는 또 다른 콘텍스트는 오디오 콘텐츠, 게임 스튜디오들, 코딩된 오디오 콘텐츠, 렌더링 엔진들, 및 전달 시스템들을 포함할 수도 있는 오디오 에코시스템을 포함한다. 일부 예들에서, 게임 스튜디오들은 HOA 신호들의 편집을 지원할 수도 있는 하나 이상의 DAW들을 포함할 수도 있다. 예를 들어, 하나 이상의 DAW들은 하나 이상의 게임 오디오 시스템들과 동작하도록 (예를 들어, 그들과 작업하도록) 구성될 수도 있는 HOA 플러그인들 및/또는 툴들을 포함할 수도 있다. 일부 예들에서, 게임 스튜디오들은 HOA 를 지원하는 새로운 스템 포맷들을 출력할 수도 있다. 어떤 경우에도, 게임 스튜디오들은 전달 시스템들에 의한 플레이백을 위해 음장을 렌더링할 수도 있는 렌더링 엔진들로 코딩된 오디오 콘텐츠를 출력할 수도 있다.

기법들은 또한, 예시적인 오디오 취득 디바이스들에 대하여 수행될 수도 있다. 예를 들어, 기법들은 3D 음장을 레코딩하도록 집합적으로 구성되는 복수의 마이크로폰들을 포함할 수도 있는 Eigen 마이크로폰에 대하여 수행될 수도 있다. 일부 예들에서, Eigen 마이크로폰의 복수의 마이크로폰들은 대략 4 cm 의 반경을 가진 실질적으로 구형 볼의 표면에 로케이트될 수도 있다. 일부 예들에서, 오디오 인코딩 디바이스 (20) 는 마이크로폰으로부터 직접 비트스트림 (21) 을 출력하도록 Eigen 마이크로폰에 통합될 수도 있다.

다른 예시적인 오디오 취득 콘텍스트는 하나 이상의 Eigen 마이크로폰들과 같은, 하나 이상의 마이크로폰들로부터 신호를 수신하도록 구성될 수도 있는 프로덕션 트럭 (production truck) 을 포함할 수도 있다. 프로덕션 트럭은 또한, 도 5 의 오디오 인코더 (20) 와 같은 오디오 인코더를 포함할 수도 있다.

모바일 디바이스는 또한, 일부 인스턴스들에서, 3D 음장을 레코딩하도록 집합적으로 구성되는 복수의 마이크로폰들을 포함할 수도 있다. 다시 말해서, 복수의 마이크로폰은 X, Y, Z 다이버시티를 가질 수도 있다. 일부 예들에서, 모바일 디바이스는 모바일 디바이스의 하나 이상의 다른 마이크로폰들에 대하여 X, Y, Z 다이버시티를 제공하도록 회전될 수도 있는 마이크로폰을 포함할 수도 있다. 모바일 디바이스는 또한, 도 5 의 오디오 인코더 (20) 와 같은 오디오 인코더를 포함할 수도 있다.

러기다이즈드 (ruggedized) 비디오 캡처 디바이스는 3D 음장을 레코딩하도록 추가로 구성될 수도 있다. 일부 예들에서, 러기다이즈드 비디오 캡처 디바이스는 활동에 참여하는 사용자의 헬멧에 부착될 수도 있다. 예를 들어, 러기다이즈드 비디오 캡처 디바이스는 급류 래프팅을 하는 사용자의 헬멧에 부착될 수도 있다. 이렇게 하여, 러기다이즈드 비디오 캡처 디바이스는 사용자의 모든 주위의 액션 (예를 들어, 사용자 뒤쪽의 물 충돌 (water crashing), 사용자 앞쪽에서 말하고 있는 다른 래프터 (rafter) 등) 을 표현하는 3D 음장을 캡처할 수도 있다.

기법들은 또한, 3D 음장을 레코딩하도록 구성될 수도 있는 액세서리 인핸스드 모바일 디바이스에 대하여 수행될 수도 있다. 일부 예들에서, 모바일 디바이스는 위에서 논의된 모바일 디바이스들과 유사할 수도 있으며, 하나 이상의 액세서리들이 추가된다. 예를 들면, Eigen 마이크로폰은 액세서리 인핸스드 모바일 디바이스를 형성하기 위해 위에서 언급된 모바일 디바이스에 부착될 수도 있다. 이렇게 하여, 액세서리 인핸스드 모바일 디바이스는 액세서리 인핸스드 모바일 디바이스에 통합된 사운드 캡처 컴포넌트들만을 사용하는 것보다 더 높은 품질 버전의 3D 음장을 캡처할 수도 있다.

본 개시에서 설명된 기법들의 다양한 양태들을 수행할 수도 있는 예의 오디오 플레이백 디바이스들이 이하에 추가로 논의된다. 본 개시의 하나 이상의 기법들에 따르면, 스피커들 및/또는 사운드 바들은 3D 음장을 여전히 플레이백하면서 임의의 임의적 (arbitrary) 구성으로 배열될 수도 있다. 더욱이, 일부 예들에서, 헤드폰 플레이백 디바이스들은 유선 또는 무선 접속 중 어느 하나를 통해 디코더 (24) 에 커플링될 수도 있다. 본 개시의 하나 이상의 기법들에 따르면, 음장의 단일 일반적 표현이 스피커들, 사운드 바들, 및 헤드폰 플레이백 디바이스들의 임의의 조합 상에서 음장을 렌더링하는데 활용될 수도 있다.

다수의 상이한 예의 오디오 플레이백 환경들이 본 개시에서 설명된 기법들의 다양한 양태들을 수행하는데 또한 적합할 수도 있다. 예를 들어, 5.1 스피커 플레이백 환경, 2.0 (예를 들어, 스테레오) 스피커 플레이백 환경, 풀 높이 (full height) 프론트 라우드스피커들을 가진 9.1 스피커 플레이백 환경, 22.2 스피커 플레이백 환경, 16.0 스피커 플레이백 환경, 자동차 스피커 플레이백 환경, 및 이어 버드 (ear bud) 플레이백 환경을 가진 모바일 디바이스가 본 개시에서 설명된 기법들의 다양한 양태들을 수행하는데 적합한 환경들일 수도 있다.

본 개시의 하나 이상의 기법들에 따르면, 음장의 단일 일반적 표현이 전술한 플레이백 환경들 중 임의의 플레이백 환경 상에서 음장을 렌더링하는데 활용될 수도 있다. 추가적으로, 본 개시의 기법들은 위에서 설명된 것과는 다른 플레이백 환경들 상에서의 플레이백을 위해 렌더러가 일반적 표현으로부터 음장을 렌더링하는 것을 인에이블한다. 예를 들어, 설계 고려사항들이 7.1 스피커 플레이백 환경에 따른 스피커들의 적절한 배치를 금하면 (예를 들어, 우측 서라운드 스피커를 배치시키는 것이 가능하지 않다면), 본 개시의 기법들은 플레이백이 6.1 스피커 플레이백 환경 상에서 달성될 수도 있도록 렌더러가 다른 6 개의 스피커들로 보상하는 것을 인에이블한다.

더욱이, 사용자가 헤드폰들을 착용한 상태에서 스포츠 게임을 볼 수도 있다. 본 개시의 하나 이상의 기법들에 따르면, 스포츠 게임의 3D 음장이 취득될 수도 있고 (예를 들어, 하나 이상의 Eigen 마이크로폰들은 야구 경기장에 및/또는 주위에 배치될 수도 있다), 3D 음장에 대응하는 HOA 계수들이 획득되고 디코더에 송신될 수도 있고, 디코더는 HOA 계수들에 기초하여 3D 음장을 재구성하고 재구성된 3D 음장을 렌더러로 출력할 수도 있고, 렌더러는 플레이백 환경의 타입 (예컨대, 헤드폰들) 에 관한 표시를 획득하고, 재구성된 3D 음장을, 헤드폰들이 스포츠 게임의 3D 음장의 표현을 출력하게 하는 신호들로 렌더링할 수도 있다.

위에서 설명된 다양한 인스턴스들의 각각에서, 오디오 인코딩 디바이스 (20) 는 오디오 인코딩 디바이스 (20) 가 수행하도록 구성되는 방법을 수행하거나 또는 다르게는 그 방법의 각각의 단계를 수행하기 위한 수단을 포함할 수도 있는 것으로 이해되어야 한다. 일부 인스턴스들에서, 그 수단은 하나 이상의 프로세서들을 포함할 수도 있다. 일부 인스턴스들에서, 하나 이상의 프로세서들은 비일시적 컴퓨터 판독가능 저장 매체에 저장된 명령들에 의해 구성된 특수 목적 프로세서를 표현할 수도 있다. 다시 말해서, 인코딩 예들의 세트들의 각각에서의 기법들의 다양한 양태들은, 실행될 때, 하나 이상의 프로세서들로 하여금, 오디오 인코딩 디바이스 (20) 가 수행하도록 구성된 방법을 수행하게 하는 명령들을 저장하고 있는 비일시적 컴퓨터 판독가능 저장 매체를 제공할 수도 있다.

하나 이상의 예들에서, 설명된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현된다면, 그 기능들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독가능 매체 상에 저장되거나 또는 송신될 수도 있고 하드웨어-기반 프로세싱 유닛에 의해 실행될 수도 있다. 컴퓨터 판독가능 매체들은 데이터 저장 매체들과 같은 유형의 매체에 대응하는 컴퓨터 판독가능 저장 매체들을 포함할 수도 있다. 데이터 저장 매체들은 본 개시에서 설명된 기법들의 구현을 위한 명령들, 코드 및/또는 데이터 구조들을 취출하기 위해 하나 이상의 컴퓨터들 또는 하나 이상의 프로세서에 의해 액세스될 수 있는 임의의 이용가능 매체들일 수도 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독가능 매체를 포함할 수도 있다.

마찬가지로, 상기 설명된 다양한 인스턴스들의 각각에서, 오디오 디코딩 디바이스 (24) 는 오디오 디코딩 디바이스 (24) 가 수행하도록 구성되는 방법을 수행하거나 또는 다르게는 그 방법의 각각의 단계를 수행하기 위한 수단을 포함할 수도 있는 것으로 이해되어야 한다. 일부 인스턴스들에서, 그 수단은 하나 이상의 프로세서들을 포함할 수도 있다. 일부 인스턴스들에서, 하나 이상의 프로세서들은 비일시적 컴퓨터 판독가능 저장 매체에 저장된 명령들에 의해 구성된 특수 목적 프로세서를 표현할 수도 있다. 다시 말해서, 인코딩 예들의 세트들의 각각에서의 기법들의 다양한 양태들은, 실행될 때, 하나 이상의 프로세서들로 하여금, 오디오 디코딩 디바이스 (24) 가 수행하도록 구성된 방법을 수행하게 하는 명령들을 저장하고 있는 비일시적 컴퓨터 판독가능 저장 매체를 제공할 수도 있다.

비제한적인 예로서, 이러한 컴퓨터 판독가능 저장 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 스토리지, 자기 디스크 스토리지, 또는 다른 자기 저장 디바이스들, 플래시 메모리, 또는 원하는 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 저장하는데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 그러나, 컴퓨터 판독가능 저장 매체들 및 데이터 저장 매체들은 커넥션들, 반송 파들, 신호들, 또는 다른 일시적 매체들을 포함하지 않고, 그 대신 비일시적, 유형의 저장 매체들에 관련되는 것으로 이해되어야 한다. 디스크 (disk) 및 디스크 (disc) 는 본 명세서에서 사용된 바와 같이, 콤팩트 디스크 (CD), 레이저 디스크, 광학 디스크, 디지털 다기능 디스크 (DVD), 플로피 디스크 및 블루-레이 디스크를 포함하고, 여기서 디스크 (disk) 들은 보통 데이터를 자기적으로 재생하는 한편, 디스크 (disc) 들은 레이저들로 데이터를 광학적으로 재생한다. 상기의 조합들이 또한 컴퓨터 판독가능 매체들의 범위 내에 포함되어야 한다.

명령들은 하나 이상의 프로세서들, 이를 테면 하나 이상의 디지털 신호 프로세서들 (DSP들), 범용 마이크로프로세서들, 주문형 집적 회로들 (ASIC들), 필드 프로그래밍가능 로직 어레이들 (FPGA들), 또는 다른 등가의 집적 또는 개별의 로직 회로부에 의해 실행될 수도 있다. 이에 따라, 본 명세서에서 사용된 바와 같은 용어 "프로세서" 는, 전술한 구조 또는 본 명세서에서 설명된 기법들의 구현에 적합한 임의의 다른 구조 중 임의의 것을 지칭할 수도 있다. 추가로, 일부 양태들에서, 본 명세서에서 설명된 기능성은 인코딩 및 디코딩을 위해 구성되거나, 또는 결합된 코덱에 통합된 전용 하드웨어 및/또는 소프트웨어 모듈들 내에 제공될 수도 있다. 또한, 그 기법들은 하나 이상의 회로들 또는 로직 엘리먼트들에서 완전히 구현될 수 있다.

본 개시의 기법들은 무선 핸드셋, 집적 회로 (IC) 또는 IC 들의 세트 (예를 들면, 칩 세트) 를 포함한, 매우 다양한 디바이스들 또는 장치들에서 구현될 수도 있다. 다양한 컴포넌트들, 모듈들, 또는 유닛들은 개시된 기법들을 수행하도록 구성된 디바이스들의 기능적 양태들을 강조하기 위해 본 개시에 설명되지만, 상이한 하드웨어 유닛들에 의한 실현을 반드시 요구하는 것은 아니다. 오히려, 상기 설명된 바와 같이, 다양한 유닛들은 코덱 하드웨어 유닛에서 결합되거나 또는 적합한 소프트웨어 및/또는 펌웨어와 함께, 상기 설명된 바와 같은 하나 이상의 프로세서들을 포함하는, 상호운용가능한 하드웨어 유닛들의 콜렉션에 의해 제공될 수도 있다.

더욱이, 본 명세서에서 사용된 바와 같이, "A 및/또는 B" 는 "A 또는 B", 또는 "A 와 B" 양자 모두를 의미한다.

기법들의 다양한 양태들이 설명되었다. 기법들의 이들 및 다른 양태들은 다음의 청구항들의 범위 내에 있다.

Claims

음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스로서,
상기 고차 앰비소닉 오디오 데이터의 고차 앰비소닉 계수들을 저장하도록 구성된 메모리; 및
하나 이상의 프로세서들을 포함하고,
상기 하나 이상의 프로세서들은,
우세한 사운드 성분 및 대응하는 공간 성분으로 상기 고차 앰비소닉 계수들을 분해하는 것으로서, 상기 대응하는 공간 성분은 상기 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타내고, 구면 조화 도메인에서 정의되고, 상기 공간 성분은 엘리먼트들을 포함하며, 상기 고차 앰비소닉 계수들을 분해하고;
중간 압축 포맷에 따르는 비트스트림에서, 상기 음장의 주변 성분을 표현하는 상기 고차 앰비소닉 계수들의 서브세트를 특정하고;
상기 공간 성분의 상기 엘리먼트들의 적어도 하나는 상기 음장의 상기 주변 성분을 표현하는 상기 고차 앰비소닉 계수들의 상기 서브세트에 의해 제공된 정보에 대하여 리던던트인 것을 결정하고; 그리고
상기 비트스트림에서, 상기 공간 성분의 상기 엘리먼트들의 적어도 하나가 리던던트인 상기 결정과 관계없이, 상기 공간 성분의 모든 엘리먼트들을 특정하도록 구성되는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서들은, 상기 비트스트림에서, 제로부터 2 까지의 차수를 갖는 구면 기저 함수들과 연관된 상기 고차 앰비소닉 계수들의 상기 서브세트를 특정하도록 구성되는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스.
제 1 항에 있어서,
상기 우세한 사운드 성분은 제 1 우세한 사운드 성분을 포함하고,
상기 공간 성분은 제 1 공간 성분을 포함하고,
상기 하나 이상의 프로세서들은,
상기 제 1 우세한 사운드 성분을 포함하는 복수의 우세한 사운드 성분들 및 상기 제 1 공간 성분을 포함하는 대응하는 복수의 공간 성분들로 상기 고차 앰비소닉 계수들을 분해하고,
상기 비트스트림에서, 상기 복수의 공간 성분들 중 4 개의 공간 성분들의 각각의 모든 엘리먼트들을 특정하는 것으로서, 상기 복수의 공간 성분들 중 상기 4 개의 공간 성분들은 상기 제 1 공간 성분을 포함하는, 상기 복수의 공간 성분들 중 4 개의 공간 성분들의 각각의 모든 엘리먼트들을 특정하고; 그리고
상기 비트스트림에서, 상기 복수의 공간 성분들 중 상기 4 개의 공간 성분들에 대응하는 상기 복수의 우세한 사운드 성분들 중 4 개의 우세한 사운드 성분들을 특정하도록 구성되는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스.
제 3 항에 있어서,
상기 하나 이상의 프로세서들은,
상기 비트스트림의 단일 사이드 정보 채널에서 상기 복수의 공간 성분들 중 상기 4 개의 공간 성분들의 각각의 모든 엘리먼트들을 특정하고;
상기 비트스트림의 별도의 전경 채널에서 상기 복수의 우세한 사운드 성분들 중 상기 4 개의 우세한 사운드 성분들의 각각을 특정하고; 그리고
상기 비트스트림의 별도의 주변 채널에서 상기 고차 앰비소닉 계수들의 상기 서브세트의 각각을 특정하도록 구성되는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서들은, 상기 비트스트림에서 그리고 상기 고차 앰비소닉 계수들의 상기 서브세트에 역상관 (decorrelation) 을 적용하지 않고, 상기 고차 앰비소닉 계수들의 상기 서브세트를 특정하도록 추가로 구성되는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스.
제 1 항에 있어서,
상기 중간 압축 포맷은 메자닌 (mezzanine) 압축 포맷을 포함하는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스.
제 1 항에 있어서,
상기 중간 압축 포맷은 브로드캐스트 네트워크들을 위한 오디오 데이터의 통신에 사용되는 메자닌 압축 포맷을 포함하는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스.
제 1 항에 있어서,
상기 디바이스는 공간 오디오 데이터를 캡처하도록 구성된 마이크로폰 어레이를 포함하고, 그리고
상기 하나 이상의 프로세서들은 상기 공간 오디오 데이터를 상기 고차 앰비소닉 오디오 데이터로 컨버팅하도록 추가로 구성되는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서들은,
상기 고차 앰비소닉 오디오 데이터를 수신하고; 그리고
상기 비트스트림을 이미션 (emission) 인코더로 출력하는 것으로서, 상기 이미션 인코더는 타겟 비트레이트에 기초하여 상기 비트스트림을 트랜스코딩하도록 구성된, 상기 비트스트림을 이미션 인코더로 출력하도록 구성되는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스.
제 1 항에 있어서,
상기 고차 앰비소닉 오디오 데이터를 나타내는 공간 오디오 데이터를 캡처하고, 그리고 상기 공간 오디오 데이터를 상기 고차 앰비소닉 오디오 데이터로 컨버팅하도록 구성된 마이크로폰을 더 포함하는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스.
제 1 항에 있어서,
상기 디바이스는 로봇 디바이스 (robotic device) 를 포함하는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스.
제 1 항에 있어서,
상기 디바이스는 비행 디바이스 (flying device) 를 포함하는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스.
음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하기 위한 방법으로서,
우세한 사운드 성분 및 대응하는 공간 성분으로 음장을 나타내는 고차 앰비소닉 계수들을 분해하는 단계로서, 상기 대응하는 공간 성분은 상기 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타내고, 구면 조화 도메인에서 정의되고, 상기 공간 성분은 엘리먼트들을 포함하는, 상기 고차 앰비소닉 계수들을 분해하는 단계;
중간 압축 포맷에 따르는 비트스트림에서, 상기 음장의 주변 성분을 표현하는 상기 고차 앰비소닉 계수들의 서브세트를 특정하는 단계;
상기 공간 성분의 상기 엘리먼트들의 적어도 하나는 상기 음장의 상기 주변 성분을 표현하는 상기 고차 앰비소닉 계수들의 상기 서브세트에 의해 제공된 정보에 대하여 리던던트인 것을 결정하는 단계; 및
상기 비트스트림에서, 상기 공간 성분의 상기 엘리먼트들의 적어도 하나가 리던던트인 상기 결정과 관계없이, 상기 공간 성분의 모든 엘리먼트들을 특정하는 단계를 포함하는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하기 위한 방법.
제 13 항에 있어서,
상기 고차 앰비소닉 계수들의 서브세트를 특정하는 단계는, 상기 비트스트림에서, 제로부터 2 까지의 차수를 갖는 구면 기저 함수들과 연관된 상기 고차 앰비소닉 계수들의 상기 서브세트를 특정하는 단계를 포함하는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하기 위한 방법.
제 13 항에 있어서,
상기 우세한 사운드 성분은 제 1 우세한 사운드 성분을 포함하고,
상기 공간 성분은 제 1 공간 성분을 포함하고,
상기 고차 앰비소닉 계수들을 분해하는 단계는, 상기 제 1 우세한 사운드 성분을 포함하는 복수의 우세한 사운드 성분들 및 상기 제 1 공간 성분을 포함하는 대응하는 복수의 공간 성분들로 상기 고차 앰비소닉 계수들을 분해하는 단계를 포함하고,
상기 공간 성분의 모든 엘리먼트들을 특정하는 단계는, 상기 비트스트림에서, 상기 복수의 공간 성분들 중 4 개의 공간 성분들의 각각의 모든 엘리먼트들을 특정하는 단계를 포함하고, 상기 복수의 공간 성분들 중 상기 4 개의 공간 성분들은 상기 제 1 공간 성분을 포함하고, 그리고
상기 방법은, 상기 비트스트림에서, 상기 복수의 공간 성분들 중 상기 4 개의 공간 성분들에 대응하는 상기 복수의 우세한 사운드 성분들 중 4 개의 우세한 사운드 성분들을 특정하는 단계를 더 포함하는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하기 위한 방법.
제 15 항에 있어서,
상기 복수의 공간 성분들 중 4 개의 공간 성분들의 각각의 모든 엘리먼트들을 특정하는 단계는 상기 비트스트림의 단일 사이드 정보 채널에서 상기 복수의 공간 성분들 중 상기 4 개의 공간 성분들의 각각의 모든 엘리먼트들을 특정하는 단계를 포함하고,
상기 복수의 우세한 사운드 성분들 중 4 개의 우세한 사운드 성분들을 특정하는 단계는 상기 비트스트림의 별도의 전경 채널에서 상기 복수의 우세한 사운드 성분들 중 상기 4 개의 우세한 사운드 성분들의 각각을 특정하는 단계를 포함하고, 그리고
상기 고차 앰비소닉 계수들의 서브세트를 특정하는 단계는 상기 비트스트림의 별도의 주변 채널에서 상기 고차 앰비소닉 계수들의 상기 서브세트의 각각을 특정하는 단계를 포함하는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하기 위한 방법.
제 13 항에 있어서,
상기 비트스트림에서 그리고 상기 고차 앰비소닉 계수들의 상기 서브세트에 역상관을 적용하지 않고, 상기 고차 앰비소닉 계수들의 상기 서브세트를 특정하는 단계를 더 포함하는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하기 위한 방법.
제 13 항에 있어서,
상기 중간 압축 포맷은 메자닌 압축 포맷을 포함하는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하기 위한 방법.
제 13 항에 있어서,
상기 중간 압축 포맷은 브로드캐스트 네트워크를 위한 오디오 데이터의 통신에 사용되는 메자닌 압축 포맷을 포함하는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하기 위한 방법.
제 13 항에 있어서,
마이크로폰 어레이에 의해, 공간 오디오 데이터를 캡처하는 단계, 및
상기 공간 오디오 데이터를 상기 고차 앰비소닉 오디오 데이터로 컨버팅하는 단계를 더 포함하는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하기 위한 방법.
제 13 항에 있어서,
상기 고차 앰비소닉 오디오 데이터를 수신하는 단계; 및
상기 비트스트림을 이미션 인코더로 출력하는 단계로서, 상기 이미션 인코더는 타겟 비트레이트에 기초하여 상기 비트스트림을 트랜스코딩하도록 구성된, 상기 비트스트림을 이미션 인코더로 출력하는 단계를 더 포함하고,
디바이스는 모바일 통신 핸드셋을 포함하는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하기 위한 방법.
제 13 항에 있어서,
상기 고차 앰비소닉 오디오 데이터를 나타내는 공간 오디오 데이터를 캡처하는 단계; 및
상기 공간 오디오 데이터를 상기 고차 앰비소닉 오디오 데이터로 컨버팅하는 단계를 더 포함하고,
디바이스는 비행 디바이스를 포함하는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하기 위한 방법.
명령들을 저장하고 있는 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 명령들은, 실행될 때, 하나 이상의 프로세서들로 하여금,
우세한 사운드 성분 및 대응하는 공간 성분으로 음장을 나타내는 고차 앰비소닉 계수들을 분해하게 하는 것으로서, 상기 대응하는 공간 성분은 상기 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타내고, 구면 조화 도메인에서 정의되고, 상기 공간 성분은 엘리먼트들을 포함하며, 상기 고차 앰비소닉 계수들을 분해하게 하고;
중간 압축 포맷에 따르는 비트스트림에서, 상기 음장의 주변 성분을 표현하는 상기 고차 앰비소닉 계수들의 서브세트를 특정하게 하고;
상기 공간 성분의 상기 엘리먼트들의 적어도 하나는 상기 음장의 상기 주변 성분을 표현하는 상기 고차 앰비소닉 계수들의 상기 서브세트에 의해 제공된 정보에 대하여 리던던트인 것을 결정하게 하고; 그리고
상기 비트스트림에서, 상기 공간 성분의 상기 엘리먼트들의 적어도 하나가 리던던트인 상기 결정과 관계없이, 상기 공간 성분의 모든 엘리먼트들을 특정하게 하는, 비일시적 컴퓨터 판독가능 저장 매체.
제 23 항에 있어서,
실행될 때, 상기 하나 이상의 프로세서들로 하여금, 상기 비트스트림에서, 제로부터 2 까지의 차수를 갖는 구면 기저 함수들과 연관된 상기 고차 앰비소닉 계수들의 상기 서브세트를 특정하게 하는 명령들을 더 저장하는, 비일시적 컴퓨터 판독가능 저장 매체.
제 23 항에 있어서,
실행될 때, 상기 하나 이상의 프로세서들로 하여금, 상기 비트스트림에서 그리고 상기 고차 앰비소닉 계수들의 상기 서브세트에 역상관을 적용하지 않고, 상기 고차 앰비소닉 계수들의 상기 서브세트를 특정하게 하는 명령들을 더 저장하는, 비일시적 컴퓨터 판독가능 저장 매체.
음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스로서,
우세한 사운드 성분 및 대응하는 공간 성분으로 음장을 나타내는 고차 앰비소닉 계수들을 분해하기 위한 수단으로서, 상기 대응하는 공간 성분은 상기 우세한 사운드 성분의 방향들, 형상, 및 폭을 나타내고, 구면 조화 도메인에서 정의되고, 상기 공간 성분은 엘리먼트들을 포함하는, 상기 고차 앰비소닉 계수들을 분해하기 위한 수단;
중간 압축 포맷에 따르는 비트스트림에서, 상기 음장의 주변 성분을 표현하는 상기 고차 앰비소닉 계수들의 서브세트를 특정하기 위한 수단;
상기 공간 성분의 상기 엘리먼트들의 적어도 하나는 상기 음장의 상기 주변 성분을 표현하는 상기 고차 앰비소닉 계수들의 상기 서브세트에 의해 제공된 정보에 대하여 리던던트인 것을 결정하기 위한 수단; 및
상기 비트스트림에서, 상기 공간 성분의 상기 엘리먼트들의 적어도 하나가 리던던트인 상기 결정과 관계없이, 상기 공간 성분의 모든 엘리먼트들을 특정하기 위한 수단을 포함하는, 음장을 나타내는 고차 앰비소닉 오디오 데이터를 압축하도록 구성된 디바이스.