KR20180069804A

KR20180069804A - 고차 앰비소닉 (hoa) 콘텐츠의 스크린 관련 적응

Info

Publication number: KR20180069804A
Application number: KR1020187010041A
Authority: KR
Inventors: 닐스 귄터 페터스; 마틴 제임스 모렐; 디판잔 센
Original assignee: 퀄컴 인코포레이티드
Priority date: 2015-10-14
Filing date: 2016-10-12
Publication date: 2018-06-25
Also published as: US20170110139A1; EP3363214A2; CN108141695B; CA2999288A1; JP2018534853A; KR102077413B1; WO2017066300A3; JP6619091B2; JP2019208286A; JP6820386B2; BR112018007547B1; WO2017066300A2; CA2999288C; EP3363214B1; US10070094B2; CN108141695A; BR112018007547A2

Abstract

오디오 데이터를 렌더링하는 시스템들과 기법들이 대체로 개시된다. 고차 앰비소닉 (HOA) 오디오 신호를 렌더링하는 예시적인 디바이스가 HOA 오디오 신호를 저장하도록 구성되는 메모리와, 상기 메모리에 커플링되는 하나 이상의 프로세서를 포함한다. 하나 이상의 프로세서는 효과 매트릭스를 생성하는 부분으로서 소리크기 보상 프로세스를 수행하도록 구성된다. 하나 이상의 프로세서는 효과 매트릭스에 기초하여 HOA 오디오 신호를 렌더링하도록 구성된다.

Description

고차 앰비소닉 (HOA) 콘텐츠의 스크린 관련 적응

본 출원은:

2015년 10월 14일자로 출원된 미국 임시 출원 제62/241,709호;

2015년 10월 20일자로 출원된 미국 임시 출원 제62/244,149호; 및

2015년 11월 13일자로 출원된 미국 임시 출원 제62/255,353호를 우선권 주장하며, 그것들의 각각의 전체 내용들은 참조로 본 명세서에 포함된다.

본 개시물은 오디오 데이터에 관한 것이고, 더 구체적으로는, 고차 앰비소닉 오디오 데이터의 코딩에 관한 것이다.

고차 앰비소닉 (higher-order ambisonics, HOA) 신호 (종종 복수의 구면 조화 계수들 (spherical harmonic coefficients, SHC) 또는 다른 계층적 엘리먼트들에 의해 표현됨) 는 음장 (soundfield) 의 3차원 표현이다. HOA 또는 SHC 표현은 SHC 신호로부터 렌더링된 멀티-채널 오디오 신호를 플레이백하는데 사용되는 로컬 스피커 기하구조와는 독립적인 방식으로 음장을 표현할 수도 있다. SHC 신호가 잘 알려지고 고도로 채택된 멀티-채널 포맷들, 이를테면 5.1 오디오 채널 포맷 또는 7.1 오디오 채널 포맷으로 렌더링될 수 있어 SHC 신호는 하위 호환성을 또한 용이하게 할 수도 있다. SHC 표현은 그러므로 하위 호환성을 또한 수용하는 더 나은 음장 표현을 가능하게 할 수도 있다.

도 1은 다양한 차수들 및 하위-차수들의 구면 조화 기저 함수들 (spherical harmonic basis functions) 을 예시하는 도면이다.
도 2는 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 시스템을 예시하는 도면이다.
도 3은 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 도 2의 예에서 도시된 오디오 인코딩 디바이스의 하나의 예를 더 상세히 도시하는 블록도이다.
도 4는 도 2의 오디오 디코딩 디바이스를 더 상세히 예시하는 블록도이다.
도 5는 본 개시물에서 설명되는 벡터 기반 합성 기법들의 다양한 양태들을 수행함에 있어서 오디오 인코딩 디바이스의 예시적인 동작을 도시하는 흐름도이다.
도 6은 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행함에 있어서 오디오 디코딩 디바이스의 예시적인 동작을 도시하는 흐름도이다.
도 7a는 기준 스크린 사이즈 및 뷰잉 윈도우 사이즈에 기초하여 원래의 방위각들을 수정된 방위각들로 매핑하는데 사용될 수도 있는 예시적인 매핑 함수를 도시한다.
도 7b는 기준 스크린 사이즈 및 뷰잉 윈도우 사이즈에 기초하여 원래의 앙각 각도 (elevation angle) 들을 수정된 앙각 각도들로 매핑하는데 사용될 수도 있는 예시적인 매핑 함수를 도시한다.
도 8은 제 1 예를 위한 기준 스크린 및 뷰잉 윈도우의 효과로서 음장의 원하는 스크린 관련 확장 효과를 위한 벡터장을 도시한다.
도 9a와 도 9b는 컴퓨팅된 HOA 효과 매트릭스 (effect matrix) 들의 예들을 도시한다.
도 10은 효과 매트릭스가 라우드스피커 렌더링 매트릭스에 대해 미리 렌더링되고 적용될 수도 있는 방법의 일 예를 도시한다.
도 11은, 효과 매트릭스가 고차 콘텐츠 (예컨대, 6차) 를 초래할 수도 있다면, 이 차수의 렌더링 매트릭스가 최종 렌더링 매트릭스를 원래의 차수 (여기서 3차) 로 사전-컴퓨팅하기 위해 곱해질 수도 있는 방법의 일 예를 도시한다.
도 12a는 기준 스크린 사이즈 및 뷰잉 윈도우 사이즈에 기초하여 원래의 방위각들을 수정된 방위각들로 매핑하는데 사용될 수도 있는 예시적인 매핑 함수를 도시한다.
도 12b는 기준 스크린 사이즈 및 뷰잉 윈도우 사이즈에 기초하여 원래의 앙각 각도들을 수정된 앙각 각도들로 매핑하는데 사용될 수도 있는 예시적인 매핑 함수를 도시한다.
도 12c는 컴퓨팅된 HOA 효과 매트릭스를 도시한다.
도 13은 기준 스크린 및 뷰잉 윈도우의 효과로서 음장의 원하는 스크린 관련 확장 효과를 위한 벡터장을 도시한다.
도 14a는 기준 스크린 사이즈 및 뷰잉 윈도우 사이즈에 기초하여 원래의 방위각들을 수정된 방위각들로 매핑하는데 사용될 수도 있는 예시적인 매핑 함수를 도시한다.
도 14b는 기준 스크린 사이즈 및 뷰잉 윈도우 사이즈에 기초하여 원래의 앙각 각도들을 수정된 앙각 각도들로 매핑하는데 사용될 수도 있는 예시적인 매핑 함수를 도시한다.
도 14c는 컴퓨팅된 HOA 효과 매트릭스를 도시한다.
도 15는 기준 스크린 및 뷰잉 윈도우의 효과로서 음장의 원하는 스크린 관련 확장 효과를 위한 벡터장을 도시한다.
도 16a는 기준 스크린 사이즈 및 뷰잉 윈도우 사이즈에 기초하여 원래의 방위각들을 수정된 방위각들로 매핑하는데 사용될 수도 있는 예시적인 매핑 함수를 도시한다.
도 16b는 기준 스크린 사이즈 및 뷰잉 윈도우 사이즈에 기초하여 원래의 앙각 각도들을 수정된 앙각 각도들로 매핑하는데 사용될 수도 있는 예시적인 매핑 함수를 도시한다.
도 16c는 컴퓨팅된 HOA 효과 매트릭스를 도시한다.
도 17은 기준 스크린 및 뷰잉 윈도우의 효과로서 음장의 원하는 스크린 관련 확장 효과를 위한 벡터장을 도시한다.
도 18a는 기준 스크린 사이즈 및 뷰잉 윈도우 사이즈에 기초하여 원래의 방위각들을 수정된 방위각들로 매핑하는데 사용될 수도 있는 예시적인 매핑 함수를 도시한다.
도 18b는 기준 스크린 사이즈 및 뷰잉 윈도우 사이즈에 기초하여 원래의 앙각 각도들을 수정된 앙각 각도들로 매핑하는데 사용될 수도 있는 예시적인 매핑 함수를 도시한다.
도 18c는 컴퓨팅된 HOA 효과 매트릭스를 도시한다.
도 19는 기준 스크린 및 뷰잉 윈도우의 효과로서 음장의 원하는 스크린 관련 확장 효과를 위한 벡터장을 도시한다.
도 20a 내지 도 20f는 본 개시물의 기법들을 구현하도록 구성되는 오디오 렌더링 디바이스들의 예시적인 구현예들을 도시하는 블록도들이다.
도 21은 시스템이 본 개시물의 하나 이상의 기법들을 구현하기 위해 수행할 수도 있는 예시적인 프로세스를 도시하는 흐름도이다.
도 22는 시스템이 본 개시물의 하나 이상의 기법들을 구현하기 위해 수행할 수도 있는 예시적인 프로세스를 도시하는 흐름도이다.
도 23은 시스템이 본 개시물의 하나 이상의 기법들을 구현하기 위해 수행할 수도 있는 예시적인 프로세스를 도시하는 흐름도이다.

서라운드 사운드의 진화는 오늘날 엔트테인먼트에 대해 많은 출력 포맷들을 이용 가능하게 하였다. 이러한 소비자 서라운드 사운드 포맷들의 예들은 그것들이 라우드스피커들에의 피드 (feed) 들을 어떤 기하 좌표들로 암시적으로 특정한다는 점에서 주로 '채널' 기반이다. 소비자 서라운드 사운드 포맷들은, 대중적인 5.1 포맷 (이는 다음 6 개 채널들, 즉, 전방 좌측 (FL), 전방 우측 (FR), 중앙 또는 전방 중앙, 후방 좌측 또는 서라운드 좌측, 후방 우측 또는 서라운드 우측, 및 저 주파수 효과 (low frequency effects, LFE) 를 포함함), 성장하는 7.1 포맷, 그리고 7.1.4 포맷과 22.2 포맷 (예컨대, 초고선명 (Ultra High Definition) 텔레비전 표준과 함께 사용하기 위함) 과 같은 다양한 포맷들을 포함한다. 비-소비자 포맷들은 종종 '서라운드 어레이들'이라 지칭되는 (대칭 및 비-대칭 기하구조들의) 임의의 수의 스피커들에 걸쳐 있을 수 있다. 이러한 어레이의 하나의 예는 절단된 정이십면체 (truncated icosahedron) 의 모서리들의 좌표들 상에 위치된 32 개 라우드스피커들을 포함한다.

장래의 MPEG 인코더에의 입력은 옵션적으로는 다음 세 가지 가능한 포맷들 중 하나이다: (i) 미리 특정된 포지션들에서 라우드스피커들을 통해 플레이되어야 하는 전통적인 채널-기반 오디오 (위에서 논의된 바와 같음); (ii) (다른 정보 주에서) 단일 오디오 오브젝트들에 대한 이산 펄스-코드-변조 (discrete pulse-code-modulation, PCM) 데이터와 그들 오브젝트들의 로케이션 좌표들을 포함하는 연관된 메타데이터를 수반하는 오브젝트-기반 오디오; 및 (iii) 구면 조화 기저 함수들의 계수들 (또한 "구면 조화 계수들" 또는 SHC, "고차 앰비소닉" 또는 HOA, 및 "HOA 계수들"이라 지칭됨) 을 사용하여 음장을 표현하는 것을 수반하는 장면-기반 오디오. 장래의 MPEG 인코더는 국제 표준화 기구/국제 전기 표준 회의 (ISO) / (IEC) 에 의해 2013년 1월에 스위스 제네바에서 발표된 그리고 http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip에서 입수 가능한 "Call for Proposals for 3D Audio"라는 명칭의 문서에서 더 상세히 설명될 수도 있다.

시장에는 다양한 '서라운드-사운드' 채널-기반 포맷들이 있다. 그것들은, 예를 들어, 5.1 홈 시어터 시스템 (이는 스테레오를 훨씬 능가하여 거실들 속으로 잠식해 들어간다는 측면에서 가장 성공적이었음) 에서부터 NHK (Nippon Hoso Kyokai 또는 Japan Broadcasting Corporation) 에 의해 개발된 22.2 시스템까지의 범위에 있다. 콘텐츠 제작자들 (예컨대, 헐리우드 스튜디오들) 은 영화에 대한 사운드트랙을 한번 제작하는 것을 바랄 것이고 각각의 스피커 구성을 위해 사운드트랙을 리믹스하는 노력을 낭비하지 않는 것을 바랄 것이다. 최근, 표준 개발 기구들은 표준화된 비트스트림 속으로의 인코딩과 (렌더러 (renderer) 를 수반하는) 플레이백의 로케이션에서의 스피커 기하구조 및 음향적 조건들에 적응 가능하고 전천후인 (agnostic) 후속 디코딩을 제공하는 방도들을 고려하였다.

콘텐츠 제작자들에게 이러한 유연성을 제공하기 위해, 계층적 엘리먼트 세트가 음장을 표현하는데 사용될 수도 있다. 계층적 엘리먼트 세트는, 저차 (lower-ordered) 엘리먼트들의 기본 세트가 모델링된 음장의 전체 표현을 제공하도록 엘리먼트들이 오더링되는 엘리먼트들의 세트를 지칭할 수도 있다. 그 세트가 고차 엘리먼트들을 포함하도록 확장됨에 따라, 표현은 더 상세해져, 해상도를 증가시킨다.

계층적 엘리먼트 세트의 하나의 예가 구면 조화 계수들 (SHC) 의 세트이다. 다음의 수식은 SHC를 사용하여 음장의 디스크립션 또는 표현을 보여준다:

그 수식은 시긴 t에 음장의 임의의 지점

에서의 압력

가, SHC, 즉

에 의해 고유하게 표현될 수 있다는 것을 나타낸다. 여기서,

이며, c는 음속 (~343 m/s) 이며,

은 기준 지점 (또는 관찰 지점) 이며,

은 차수 n의 구면 베셀 (Bessel) 함수이고,

은 차수 n 및 하위차수 m의 구면 조화 기저 함수들이다. 꺽쇠 괄호들 내의 항은 다양한 시간-주파수 변환들, 이를테면 이산 푸리에 변환 (discrete Fourier transform, DFT), 이산 코사인 변환 (discrete cosine transform, DCT), 또는 웨이브릿 변환에 의해 근사될 수 있는 신호의 주파수-도메인 표현 (즉,

) 이라는 것이 인식될 수 있다. 계층적 세트들의 다른 예들은 웨이브릿 변환 계수들의 세트들과 다중해상도 (multiresolution) 기저 함수들의 계수들의 다른 세트들을 포함한다.

비디오 데이터는 대응하는, 동기화된 오디오 데이터와 함께 종종 디스플레이되는데, 그 오디오 데이터는 비디오 데이터의 관점 (perspective) 과 일치하도록 통상적으로 생성되고 있다. 예를 들어, 레스토랑에서 이야기하는 두 사람의 클로즈업 관점을 도시하는 비디오의 프레임들 동안, 그 두 사람의 대화는 다른 식사하는 사람들의 대화들, 부엌 소음, 배경 음악 등과 같은 레스토랑에서의 임의의 배경 잡음과 비교하여 크고 분명할 수도 있다. 이야기하는 두 사람의 더 먼 관점을 보여주는 비디오의 프레임들 동안, 그 두 사람의 대화는, 소스들이 이제 비디오의 프레임에 있을 수도 있는 배경 잡음들과 비교하여 덜 크고 덜 분명할 수도 있다.

전통적으로, 관점 (예컨대, 장면의 줌 인 및 아웃 또는 장면 주위의 패닝 (panning)) 에 관한 결정들은 콘텐츠 생산자에 의해 이루어지며 콘텐츠의 최종 소비자는 원래의 콘텐츠 생산자에 의해 선택된 관점을 변경할 능력이 적거나 또는 거의 없다. 그러나, 사용자들이 비디오를 시청하고 있을 때 그들이 보는 관점에 대한 일부 제어 레벨을 가지는 것이 더욱 보편화되고 있다. 하나의 예로서, 풋볼 방송 동안, 사용자가 필드의 큰 섹션을 보여주는 비디오 피드를 수신할 수도 있지만, 특정 플레이어 또는 플레이어들의 그룹에 대해 줌 인 하는 능력을 가질 수도 있다. 본 개시물은 오디오 재생의 인지를 대응하는 비디오의 인지에서의 변화와 일치하는 방식으로 적응시키는 기법들을 도입한다. 예를 들어, 풋볼 게임을 시청하는 동안 사용자가 쿼터백에 대해 줌 인하면, 오디오는 쿼터백에 대해 줌 인하는 오디오 효과를 생성하도록 또한 적응될 수도 있다.

사용자의 비디오 인지가 비디오를 플레이백하는데 사용되고 있는 디스플레이의 사이즈에 의존하여 또한 변화할 수도 있다. 예를 들어, 10-인치 태블릿 상에서 영화를 시청할 때, 전체 디스플레이는 뷰어의 중심 시각 (central vision) 내에 있을 수도 있는 한편, 동일한 영화를 100-인치 텔레비전 상에서 시청할 때, 디스플레이의 외측 부분들은 뷰어의 주변 시각 (peripheral vision) 내에서만 있을 수도 있다. 본 개시물은 오디오 재생의 인지를 대응하는 비디오 데이터를 위해 사용되고 있는 디스플레이의 사이즈에 기초하여 적응시키는 기법들을 도입한다.

MPEG-H 3D 오디오 비트스트림은 콘텐츠 생성 프로세스 동안 사용된 기준 스크린 사이즈의 정보를 시그널링하기 위해 새로운 비트필드들을 포함한다. 여러 예들이 본 개시물에서 설명될 MPEG-H 3D-준수 오디오 디코더가, 디코딩되고 있는 오디오에 대응하는 비디오와 함께 사용되고 있는 디스플레이 셋업의 실제 스크린 사이즈를 결정하도록 또한 구성될 수도 있다. 결과적으로, 본 개시물의 기법들에 따르면, 오디오 디코더가 기준 스크린 사이즈 및 실제 스크린 사이즈에 기초하여 HOA 음장을 적응시킬 수도 있어서, 스크린 관련 오디오 콘텐츠는 비디오에서 도시되고 있는 동일한 로케이션으로부터 인지되고 있다.

본 개시물은 혼합된 오디오/비디오 재생 시나리오에서 시각적 성분에 대한 음향 엘리먼트들의 공간적 정렬을 보장하기 위해 HOA 음장들이 조정될 수 있는 기법들을 설명한다. 본 개시물의 기법들은 HOA-전용 콘텐츠에 대해 또는 현재는 스크린 관련 오디오 오브젝트들만이 조정되는 HOA 및 오디오 오브젝트들의 조합을 갖는 콘텐츠에 대해 일관성 있는 오디오/비디오 경험을 생성하는 것을 돕는데 이용될 수도 있다.

도 1은 0차 (n = 0) 부터 4차 (n = 4) 까지의 구면 조화 기저 함수들을 예시하는 도면이다. 알 수 있는 바와 같이, 각각의 차수에 대해, 예시 목적의 편의를 위해 도 1의 예에서 도시되지만 명시적으로 언급되지 않은 하위차수들 (m) 의 확장이 있다.

SHC

는 다양한 마이크로폰 어레이 구성들에 의해 물리적으로 취득 (acquisition) 될 (예컨대, 기록될) 수 있거나 또는, 대안으로, 그것들은 음장의 채널 기반 또는 오브젝트 기반 디스크립션들로부터 유도될 수 있다. SHC는 장면 기반 오디오를 나타내며, 여기서 SHC는 더욱 효율적인 송신 또는 저장을 증진시킬 수도 있는 인코딩된 SHC를 획득하기 위한 오디오 인코더에의 입력일 수도 있다. 예를 들어, (1+4)² (25, 그렇기 때문에 4차) 계수들을 수반하는 4차 표현이 사용될 수도 있다.

위에서 언급된 바와 같이, SHC는 마이크로폰 어레이를 사용한 마이크로폰 레코딩으로부터 유도될 수도 있다. SHC가 마이크로폰 어레이들로부터 유도될 수도 있는 방법의 다양한 예들이 Poletti, M., "Three-Dimensional Surround Sound Systems Based on Spherical Harmonics," J. Audio Eng. Soc., Vol. 53, No. 11, 2005 November, pp. 1004-1025에서 설명된다.

SHC들이 오브젝트 기반 디스크립션으로부터 유도될 수도 있는 방법을 예시하기 위해, 다음의 수학식을 고려한다. 개개의 오디오 오브젝트에 대응하는 음장을 위한 계수들

는:

로서 표현될 수도 있으며, 여기서 i는

이며,

는 (제 2 종류의) 차수 n의 구면 한켈 (Hankel) 함수이고,

는 오브젝트의 로케이션이다. 오브젝트 소스 에너지

를 (예컨대, PCM 스트림에 대해 고속 푸리에 변환을 수행하는 것과 같은 시간-주파수 분석 기법들을 사용하여) 주파수의 함수로서 아는 것은 각각의 PCM 오브젝트 및 대응하는 로케이션을 SHC

로 변환하는 것을 허용한다. 게다가, (위의 것이 선형 및 직교 분해이므로) 각각의 오브젝트에 대한

계수들이 가법적 (additive) 임을 보여줄 수 있다. 이런 방식으로, 수많은 PCM 오브젝트들이

계수들에 의해 (예컨대, 개개의 오브젝트들에 대한 계수 벡터들의 합으로서) 표현될 수 있다. 본질적으로, 그 계수들은 음장에 대한 정보 (3D 좌표들의 함수로서의 압력) 를 포함하고, 위의 것은 관찰 지점

의 부근에서 개개의 오브젝트들로부터 전체 음장의 표현으로의 변환을 나타낸다. 나머지 도면들은 오브젝트 기반 및 SHC 기반 오디오 코딩의 맥락에서 아래에서 설명된다.

도 2는 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 시스템 (10) 을 예시하는 도면이다. 도 2의 예에서 도시된 바와 같이, 시스템 (10) 은 콘텐츠 제작자 디바이스 (12) 와 콘텐츠 소비자 디바이스 (14) 를 포함한다. 콘텐츠 제작자 디바이스 (12) 및 콘텐츠 소비자 디바이스 (14) 의 맥락에서 설명되지만, 그 기법들은 SHC들 (이는 HOA 계수들이라고 또한 지칭될 수도 있음) 또는 음장의 임의의 다른 계층적 표현이 오디오 데이터를 나타내는 비트스트림을 형성하기 위해 인코딩되는 임의의 맥락에서 구현될 수도 있다. 더구나, 콘텐츠 제작자 디바이스 (12) 는 예를 몇개만 들자면 핸드셋 (또는 셀룰러 폰), 태블릿 컴퓨터, 스마트 폰, 또는 데스크톱 컴퓨터를 포함하여, 본 개시물에서 설명되는 기법들을 구현할 수 있는 임의의 형태의 컴퓨팅 디바이스를 나타낼 수도 있다. 비슷하게, 콘텐츠 소비자 디바이스 (14) 는 예를 몇개만 들자면 핸드셋 (또는 셀룰러 폰), 태블릿 컴퓨터, 스마트 폰, 셋톱 박스, 자립형 수신기 (예컨대, 수신기 디바이스), 텔레비전 (예컨대, "스마트 TV") 또는 데스크톱 컴퓨터를 포함하여, 본 개시물에서 설명되는 기법들을 구현할 수 있는 임의의 형태의 컴퓨팅 디바이스를 나타낼 수도 있다.

콘텐츠 제작자 디바이스 (12) 는 콘텐츠 소비자 디바이스 (14) 와 같은 콘텐츠 소비자 디바이스들의 조작자들에 의한 소비를 위해 멀티-채널 오디오 콘텐츠를 생성할 수도 있는 영화 스튜디오 또는 다른 엔티티에 의해 조작될 수도 있다. 일부 예들에서, 콘텐츠 제작자 디바이스 (12) 는 압축 HOA 계수들 (11) 을 갖는 그리고 하나 이상의 시야 (field of view, FOV) 파라미터를 오디오 신호에 또한 포함하는 오디오 신호를 생성하고자 하는 개개의 사용자에 의해 조작될 수도 있다. 종종, 콘텐츠 제작자는 비디오 콘텐츠와 함께 오디오 콘텐츠를 생성한다. FOV 파라미터들은, 예를 들어, 비디오 콘텐츠에 대한 기준 스크린 사이즈를 설명할 수도 있다. 콘텐츠 소비자 디바이스 (14) 는 개인에 의해 조작될 수도 있다. 콘텐츠 소비자 디바이스 (14) 는, SHC를 멀티-채널 오디오 콘텐츠로서 플레이백하기 위해 렌더링할 수 있는 임의의 형태의 오디오 플레이백 시스템을 지칭할 수도 있는 오디오 플레이백 시스템 (16) 을 포함할 수도 있다.

콘텐츠 제작자 디바이스 (12) 는 오디오 편집 시스템 (18) 을 포함한다. 콘텐츠 제작자 디바이스 (12) 는 다양한 포맷들 (직접적으로 HOA 계수들로서 포함함) 의 라이브 레코딩들 (7) 과 오디오 오브젝트들 (9) 을 획득하며, 이들을 콘텐츠 제작자 디바이스 (12) 가 오디오 편집 시스템 (18) 을 사용하여 편집할 수도 있다. 마이크로폰 (5) 이 라이브 레코딩들 (7) 을 캡처할 수도 있다. 콘텐츠 제작자는, 편집 프로세스 동안, 오디오 오브젝트들 (9) 로부터의 HOA 계수들 (11) 을 렌더링하여, 추가의 편집을 요구하는 음장의 다양한 양태들을 식별하려는 시도로 렌더링된 스피커 피드들을 청취할 수도 있다. 콘텐츠 제작자 디바이스 (12) 는 그 다음에 (잠재적으로는 소스 HOA 계수들이 위에서 설명된 방식으로 유도될 수도 있는 오디오 오브젝트들 (9) 중 상이한 오디오 오브젝트들을 다루는 것을 통해 간접적으로) HOA 계수들 (11) 과, FOV 파라미터들 (13) 을 편집할 수도 있다. 콘텐츠 제작자 디바이스 (12) 는 HOA 계수들 (11) 과 FOV 파라미터들 (13) 을 생성하기 위해 오디오 편집 시스템 (18) 을 채용할 수도 있다. 오디오 편집 시스템 (18) 은 오디오 데이터를 편집하고 오디오 데이터를 하나 이상의 소스 구면 조화 계수들로서 출력할 수 있는 임의의 시스템을 나타낸다.

편집 프로세스가 완료될 때, 콘텐츠 제작자 디바이스 (12) 는 HOA 계수들 (11) 에 기초하여 오디오 비트스트림 (21) 을 생성할 수도 있다. 다시 말하면, 콘텐츠 제작자 디바이스 (12) 는 오디오 비트스트림 (21) 을 생성하기 위해 본 개시물에서 설명되는 기법들의 다양한 양태들에 따라서 HOA 계수들 (11) 을 인코딩하거나 또는 그렇지 않으면 압축하도록 구성되는 디바이스를 나타내는 오디오 인코딩 디바이스 (20) 를 포함한다. 오디오 인코딩 디바이스 (20) 는, 오디오 비트스트림 (21) 에, FOV 파라미터들 (13) 을 시그널링하기 위한 값들을 포함시킬 수도 있다. 오디오 인코딩 디바이스 (20) 는 오디오 비트스트림 (21) 을, 하나의 예로서, 유선 또는 무선 채널, 데이터 저장 디바이스 등일 수도 있는 송신 채널을 가로지르는 송신을 위해 생성할 수도 있다. 오디오 비트스트림 (21) 은 HOA 계수들 (11) 의 인코딩된 버전을 나타낼 수도 있고 기본 비트스트림과 사이드 채널 정보라고 지칭될 수도 있는 다른 사이드 비트스트림을 포함할 수도 있다. 일부 예들에서, 오디오 인코딩 디바이스 (20) 는 사이드 채널에 FOV 파라미터들 (13) 을 포함시킬 수도 있는 한편, 다른 예들에서, 오디오 인코딩 디바이스 (20) 는 FOV 파라미터들 (13) 을 다른 곳에 포함시킬 수도 있다. 또 다른 예들에서, 오디오 인코딩 디바이스 (20) 는 FOV 파라미터들 (13) 을 인코딩하지 않고, 대신, 오디오 플레이백 시스템 (16) 이 디폴트 값들을 FOV 파라미터들 (13') 에 배정할 수도 있다.

도 2에서는 콘텐츠 소비자 디바이스 (14) 에게 직접적으로 송신되고 있는 것으로 도시되지만, 콘텐츠 제작자 디바이스 (12) 는 오디오 비트스트림 (21) 을 콘텐츠 제작자 디바이스 (12) 와 콘텐츠 소비자 디바이스 (14) 사이에 위치된 중간 디바이스에게 출력할 수도 있다. 중간 디바이스는 오디오 비트스트림 (21) 을 그 비트스트림을 요청할 수도 있는 콘텐츠 소비자 디바이스 (14) 로의 나중의 전달을 위해 저장할 수도 있다. 중간 디바이스는 파일 서버, 웹 서버, 데스크톱 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 모바일 폰, 스마트 폰, 자립형 수신기 (이를테면 수신기 디바이스), 셋톱 박스, 텔레비전 (예컨대, 통합형 디스플레이 및 스피커 디바이스, 이는, 일부 예들에서, "스마트 TV"일 수도 있음) 또는 오디오 디코더에 의한 나중의 취출을 위해 오디오 비트스트림 (21) 을 저장할 수 있는 임의의 다른 디바이스를 포함할 수도 있다. 중간 디바이스는 오디오 비트스트림 (21) 을 요청하는 콘텐츠 소비자 디바이스 (14) 와 같은 가입자들에게 오디오 비트스트림 (21) 을 (아마도 대응하는 비디오 데이터 비트스트림을 송신하는 것과 함께) 스트리밍할 수 있는 콘텐츠 전달 네트워크에 존재할 수도 있다.

대안적으로, 콘텐츠 제작자 디바이스 (12) 는 오디오 비트스트림 (21) 을 저장 매체, 이를테면 콤팩트 디스크, 디지털 비디오 디스크, 고품위 비디오 디스크 또는 다른 저장 매체들에 저장할 수도 있는데, 그들 매체들의 대부분은 컴퓨터에 의해 판독될 수 있고 그러므로 컴퓨터 판독가능 저장 매체들 또는 비-일시적 컴퓨터 판독가능 저장 매체들이라고 지칭될 수도 있다. 이 맥락에서, 송신 채널은 매체들에 저장된 콘텐츠가 송신되 (고 소매점들 및 다른 스토어 기반 전달 메커니즘을 포함할 수 있) 는 채널들을 지칭할 수도 있다. 어느 경우에나, 본 개시물의 기법들은 그러므로 이런 점에서 도 2의 예로 제한되지 않아야 한다.

콘텐츠 제작자 디바이스 (12) 는 비디오 데이터 (23) 를 생성하고 인코딩하도록 추가로 구성될 수도 있고, 콘텐츠 소비자 디바이스 (14) 는 비디오 데이터 (23) 를 수신하고 디코딩하도록 구성될 수도 있다. 비디오 데이터 (23) 는 오디오 비트스트림 (21) 과 연관될 수도 있고 오디오 비트스트림과 함께 송신될 수도 있다. 이와 관련하여, 콘텐츠 제작자 디바이스 (12) 와 콘텐츠 소비자 디바이스 (14) 는 도 2에서 명시적으로 도시지 않은 추가적인 하드웨어 및 소프트웨어를 포함할 수도 있다. 콘텐츠 제작자 디바이스 (12) 는, 예를 들어, 비디오 데이터를 취득하기 위한 카메라들, 비디오 데이터를 편집하기 위한 비디오 편집 시스템, 및 비디오 데이터를 인코딩하기 위한 비디오 인코더를 포함할 수도 있고, 콘텐츠 소비자 디바이스 (14) 는 비디오 디코더와 비디오 렌더러를 또한 포함할 수도 있다.

도 2의 예에서 추가로 도시된 바와 같이, 콘텐츠 소비자 디바이스 (14) 는 오디오 플레이백 시스템 (16) 을 포함한다. 오디오 플레이백 시스템 (16) 은 멀티-채널 오디오 데이터를 플레이백할 수 있는 임의의 오디오 플레이백 시스템을 나타낼 수도 있다. 오디오 플레이백 시스템 (16) 은 다수의 상이한 렌더러들 (22) 을 포함할 수도 있다. 렌더러들 (22) 은 각각이 상이한 형태의 렌더링을 제공할 수도 있는데, 상이한 형태의 렌더링은 벡터 기반 진폭 패닝 (vector-base amplitude panning, VBAP) 을 수행하는 다양한 방도들 중 하나 이상, 및/또는 음장 합성을 수행하는 다양한 방도들 중 하나 이상을 포함할 수도 있다. 본 명세서에서 사용되는 바와 같이, "A 및/또는 B"는 "A 또는 B", 또는 "A 및 B" 둘 다를 의미한다.

오디오 플레이백 시스템 (16) 은 오디오 디코딩 디바이스 (24) 를 더 포함할 수도 있다. 오디오 디코딩 디바이스 (24) 는 오디오 비트스트림 (21) 으로부터 HOA 계수들 (11') 및 FOV 파라미터들 (13') 을 디코딩하도록 구성되는 디바이스를 나타낼 수도 있는데, HOA 계수들 (11') 은 HOA 계수들 (11) 과는 유사하지만 손실 동작들 (예컨대, 양자화) 및/또는 송신 채널을 통한 송신으로 인해 상이할 수도 있다. FOV 파라미터들 (13) 은, 대조적으로, 무손실 코딩될 수도 있다. 오디오 플레이백 시스템 (16) 은, 오디오 비트스트림 (21) 을 디코딩한 후 HOA 계수들 (11') 을 획득하고 HOA 계수들 (11') 을 렌더링하여 라우드스피커 피드들 (25) 을 출력할 수도 있다. 아래에서 더 상세히 설명될 바와 같이, 오디오 플레이백 시스템 (16) 이 HOA 계수들 (11') 을 렌더링하는 방식은, 일부 경우들에서, 디스플레이 (15) 의 FOV 파라미터들과 함께 FOV 파라미터들 (13') 에 기초하여 수정될 수도 있다. 라우드스피커 피드들 (25) 은 하나 이상의 라우드스피커 (이는 예시 목적의 편의를 위해 도 2의 예에서 도시되지 않음) 을 구동할 수도 있다. 라우드스피커들은 렌더링된 오디오 신호, 이를테면 라우드스피커 피드들 (25) 에 의해 표현되는 렌더링된 오디오 신호를 출력하도록 구성될 수도 있다.

적절한 렌더러를 선택하기 위해 또는, 일부 사례들에서, 적절한 렌더러를 생성하기 위해, 오디오 플레이백 시스템 (16) 은 라우드스피커들의 수 및/또는 라우드스피커들의 공간적 기하구조를 나타내는 라우드스피커 정보 (13) 를 획득할 수도 있다. 일부 사례들에서, 오디오 플레이백 시스템 (16) 은 기준 마이크로폰을 사용하여 그리고 라우드스피커 정보 (13) 를 동적으로 결정하는 것과 같은 방식으로 라우드스피커들을 구동하여 라우드스피커 정보 (13) 를 획득할 수도 있다. 다른 사례들에서 또는 라우드스피커 정보 (13) 의 동적 결정과 함께, 오디오 플레이백 시스템 (16) 은 오디오 플레이백 시스템 (16) 과 인터페이싱할 것과 라우드스피커 정보 (13) 를 입력할 것을 사용자에게 프롬프트할 수도 있다.

오디오 플레이백 시스템 (16) 은 그 다음에 라우드스피커 정보 (13) 에 기초하여 오디오 렌더러들 (22) 중 하나를 선택할 수도 있다. 일부 사례들에서, 오디오 플레이백 시스템 (16) 은, 오디오 렌더러들 (22) 중 어느 것도 (라우드스피커 기하구조의 측면에서) 라우드스피커 정보 (13) 에서 특정된 라우드스피커 기하구조에 대한 어떤 임계 유사도 측정값 내에 있지 않은 경우, 라우드스피커 정보 (13) 에 기초하여 오디오 렌더러들 (22) 중 하나의 오디오 렌더러를 생성할 수도 있다. 오디오 플레이백 시스템 (16) 은, 일부 사례들에서, 오디오 렌더러들 (22) 중 현존 오디오 렌더러를 선택하려는 처음의 시도 없이, 라우드스피커 정보 (13) 에 기초하여 오디오 렌더러들 (22) 중 하나의 오디오 렌더러를 생성할 수도 있다. 하나 이상의 스피커 (3) 는 그러면 렌더링된 라우드스피커 피드들 (25) 을 플레이백할 수도 있다.

도 2에 도시된 바와 같이, 콘텐츠 소비자 디바이스 (14) 는 연관된 디스플레이 디바이스, 즉, 디스플레이 (15) 를 또한 가진다. 도 2의 예에서, 디스플레이 (15) 는 콘텐츠 소비자 디바이스 (14) 에 통합되어 있는 것으로서 도시되지만, 다른 예들에서, 디스플레이 (15) 는 콘텐츠 소비자 디바이스 (14) 외부에 있을 수도 있다. 아래에서 더 상세히 설명될 바와 같이, 디스플레이 (15) 는 FOV 파라미터들 (13') 과는 별개인 하나 이상의 연관된 FOV 파라미터들을 가질 수도 있다. FOV 파라미터들 (13') 은 콘텐츠 생성 당시의 기준 스크린에 연관된 파라미터들을 나타내는 한편, 디스플레이 (15) 의 FOV 파라미터들은 플레이백을 위해 사용되는 뷰잉 윈도우의 FOV 파라미터들이다. 오디오 플레이백 시스템 (16) 은 FOV 파라미터들 (13') 및 디스플레이 (15) 에 연관된 FOV 파라미터들 양쪽 모두에 기초하여 하나의 오디오 렌더러 (22) 를 수정 또는 생성할 수도 있다.

도 3은 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 도 2의 예에서 도시된 오디오 인코딩 디바이스 (20) 의 하나의 예를 더 상세히 도시하는 블록도이다. 오디오 인코딩 디바이스 (20) 는 콘텐츠 분석 유닛 (26), 벡터 기반 분해 유닛 (27) 및 방향 기반 분해 유닛 (28) 을 포함한다. 비록 아래에서 간단히 설명되지만, 오디오 인코딩 디바이스 (20) 와 HOA 계수들을 압축하거나 또는 그렇지 않으면 인코딩하는 다양한 양태들에 관한 더 많은 정보가 2014년 5월 29일자로 출원된 "INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD"라는 명칭의 국제 특허 출원 공개 WO 2014/194099호에서 입수 가능하다.

콘텐츠 분석 유닛 (26) 은 HOA 계수들 (11) 이 라이브 레코딩 또는 오디오 오브젝트로부터 생성된 콘텐츠를 나타내는지의 여부를 식별하기 위해 HOA 계수들 (11) 의 콘텐츠를 분석하도록 구성되는 유닛을 나타낸다. 콘텐츠 분석 유닛 (26) 은 HOA 계수들 (11) 이 실제 음장의 레코딩으로부터 생성되었는지 또는 인공적 오디오 오브젝트로부터 생성되었는지를 결정할 수도 있다. 일부 사례들에서, 프레이밍된 HOA 계수들 (11) 이 레코딩으로부터 생성된 경우, 콘텐츠 분석 유닛 (26) 은 HOA 계수들 (11) 을 벡터 기반 분해 유닛 (27) 으로 전해준다. 일부 사례들에서, 프레이밍된 HOA 계수들 (11) 이 합성 오디오 오브젝트로부터 생성된 경우, 콘텐츠 분석 유닛 (26) 은 HOA 계수들 (11) 을 방향 기반 분해 유닛 (28) 으로 전해준다. 방향 기반 분해 유닛 (28) 은 방향 기반 비트스트림 (21) 을 생성하기 위해 HOA 계수들 (11) 의 방향 기반 합성을 수행하도록 구성되는 유닛을 나타낼 수도 있다.

도 3의 예에서 도시된 바와 같이, 벡터 기반 분해 유닛 (27) 은 선형 가역 변환 (linear invertible transform, LIT) 유닛 (30), 파라미터 계산 유닛 (32), 리오더 (reorder) 유닛 (34), 전경 선택 유닛 (36), 에너지 보상 유닛 (38), 심리음향 오디오 코더 유닛 (40), 비트스트림 생성 유닛 (42), 음장 분석 유닛 (44), 계수 감소 유닛 (46), 배경 (background, BG) 선택 유닛 (48), 시공간적 보간 유닛 (50), 및 양자화 유닛 (52) 을 포함할 수도 있다.

선형 가역 변환 (LIT) 유닛 (30) 은 HOA 계수들 (11) 을 HOA 채널들의 형태로 수신하는데, 각각의 채널은 구면 기저 함수들 (이는 HOA[k]로서 표시될 수도 있으며, 여기서 k는 샘플들의 현재 프레임 또는 블록을 표시할 수도 있음) 의 주어진 차수인 하위-차수에 연관된 계수의 블록 또는 프레임을 나타낸다. HOA 계수들 (11) 의 매트릭스는 다음의 크기 D를 가질 수도 있다: M x (N+1)².

LIT 유닛 (30) 은 특이값 분해 (singular value decomposition) 라고 지칭되는 분석의 형태를 수행하도록 구성되는 유닛을 나타낼 수도 있다. SVD에 관해 설명되었지만, 본 개시물에서 설명되는 기법들은 선형적으로 비상관된, 에너지 콤팩트된 출력의 세트들을 제공하는 임의의 유사한 변환 또는 분해에 대해 수행될 수도 있다. 또한, 본 개시물에서의 "세트들"에 대한 언급은 특히 다르게 언급되지 않는 한 영이 아닌 세트들을 지칭하도록 일반적으로 의도되고, 이른바 "공집합"을 포함하는 세트들의 고전적 수학적 정의를 지칭하도록 의도되지 않는다. 대안적 변환이 종종 "PCA"라고 지칭되는 주성분 분석을 포함할 수도 있다. 그 맥락에 의존하여, PCA는 몇몇 예들을 말하자면 이산 카루넨 뢰베 (Karhunen-Loeve) 변환, 호텔링 (Hotelling) 변환, 적절한 직교 분해 (proper orthogonal decomposition, POD), 및 고유값 분해 (eigenvalue decomposition, EVD) 와 같은 다수의 상이한 이름들에 의해 지칭될 수도 있다. 오디오 데이터를 압축하는 기본적인 목적에 도움이 되는 이러한 동작들의 속성들은 멀티채널 오디오 데이터의 '에너지 압축'과 '상관제거 (decorrelation)'이다.

여하튼, LIT 유닛 (30) 이 예를 목적으로 특이값 분해 (이는, 다시, "SVD"라고 지칭될 수도 있음) 를 수행한다고 가정하면, LIT 유닛 (30) 은 HOA 계수들 (11) 을 변환된 HOA 계수들의 둘 이상의 세트들로 변환시킬 수도 있다. 변환된 HOA 계수들의 "세트들"은 변환된 HOA 계수들의 벡터들을 포함할 수도 있다. 도 3의 예에서, LIT 유닛 (30) 은 이른바 V 매트릭스, S 매트릭스, 및 U 매트릭스를 생성하기 위해 HOA 계수들 (11) 에 대해 SVD를 수행할 수도 있다. SVD는, 선형 대수에서, y-바이-z 실수 또는 복소수 매트릭스 X (여기서 X는 멀티-채널 오디오 데이터, 이를테면 HOA 계수들 (11) 을 나타낼 수도 있음) 의 인수분해를 다음 형태로 나타낼 수도 있다:

X = USV*

U는 y-바이-y 실수 또는 복소수 유니타리 매트릭스 (unitary matrix) 를 나타낼 수도 있으며, 여기서 U의 y 열들은 멀티-채널 오디오 데이터의 좌측-특이 벡터들로서 알려져 있다. S는 대각선 상에 음이 아닌 실수들을 갖는 y-바이-z 직사각형 대각 매트릭스를 나타낼 수도 있는데, 여기서 S의 대각선 값들은 멀티-채널 오디오 데이터의 특이값들로서 알려져 있다. V* (이는 V의 켤레 전치 (conjugate transpose) 를 나타낼 수도 있음) 는, V*의 z 개 열들이 멀티-채널 오디오 데이터의 우측-특이 벡터들로서 알려진 z-바이-z 실수 또는 복소수 유니타리 매트릭스를 나타낼 수도 있다.

일부 예들에서, 위에서 참조되는 SVD 수식에서의 V* 매트릭스는 SVD가 복소수들을 포함하는 매트릭스들에 적용될 수도 있다는 것을 반영하기 위해 V 매트릭스의 켤레 전치로서 표시된다. 실수들만을 포함하는 매트릭스들에 적용되는 경우, V 매트릭스의 복소 켤레 (또는, 다르게 말하면, V* 매트릭스) 는 V 매트릭스의 전치인 것으로 고려될 수도 있다. 아래에서, 예시의 편의를 위해, HOA 계수들 (11) 은 실수들을 포함한 결과로 V 매트릭스는 V* 매트릭스보다는 SVD를 통해 출력된다고 가정된다. 더구나, 본 개시물에서 V 매트릭스로서 표시되지만, V 매트릭스에 대한 언급은 적절한 경우 V 매트릭스의 전치를 지칭하는 것으로 이해되어야 한다. V 매트릭스인 것으로 가정되고 있지만, 그 기법들은 SVD의 출력이 V* 매트릭스인 복소 계수들을 갖는 HOA 계수들 (11) 에 유사한 방식으로 적용될 수도 있다. 따라서, 그 기법들은 이런 점에서 V 매트릭스를 생성하기 위해 SVD의 적용을 제공하는 것만으로 제한되지 않아야 하고, V* 매트릭스를 생성하기 위해 복소 성분들을 갖는 HOA 계수들 (11) 에의 SVD의 적용을 포함할 수도 있다.

이런 식으로, LIT 유닛 (30) 은 차원 D: M x (N+1)² 을 갖는 US[k] 벡터들 (33) (이는 S 벡터들 및 U 벡터들의 조합된 버전을 나타낼 수도 있음) 과, 차원 D: (N+1)² x (N+1)² 을 갖는 V[k] 벡터들 (35) 을 출력하기 위해 HOA 계수들 (11) 에 관해 SVD를 수행할 수도 있다. US[k] 매트릭스에서의 개개의 벡터 엘리먼트들은 X _PS (k)로 또한 지칭될 수도 있는 한편 V[k] 매트릭스의 개개의 벡터들은 v(k)라고 또한 지칭될 수도 있다.

U, S 및 V 매트릭스들의 분석이, 매트릭스들은 X에 의해 위에서 나타낸 기본 음장의 공간적 및 시간적 특성들을 지니거나 또는 나타낸다는 것을 드러내 보일 수도 있다. (길이 M 샘플들의) U 에서의 N 개 벡터들의 각각은, 서로 직교하는 그리고 임의의 공간적 특성들 (이는 또한 방향성 정보라고 지칭될 수도 있음) 로부터 디커플링되어 있는 정규화된 분리된 오디오 신호들을 (M 개 샘플들에 의해 나타내어진 시구간에 대한) 시간의 함수로서 나타낼 수도 있다. 공간적 형상 및 포지션 (r, 세타, 파이) 를 표현하는 공간적 특성들은 대신에 (각각 길이 (N+1)²의) V 매트릭스에서의 개개의 i번째 벡터들, v ⁽ⁱ⁾ (k)에 의해 표현될 수도 있다. v ⁽ⁱ⁾ (k) 벡터들의 각각의 벡터의 개개의 엘리먼트들은 연관된 오디오 오브젝트에 대한 음장의 형상 (폭을 포함함) 및 포지션을 설명하는 HOA 계수를 표현할 수도 있다. U 매트릭스 및 V 매트릭스에서의 양쪽 모두의 벡터들은 그것들의 제곱평균제곱근 에너지들이 단위원 (unity) 과 동일하도록 정규화된다. U에서의 오디오 신호들의 에너지는 따라서 S에서의 대각선 엘리먼트들에 의해 표현된다. U와 S를 곱하여 US[k] (개개의 벡터 엘리먼트들 X _PS (k) 를 가짐) 를 형성하는 것은, 따라서 에너지들을 갖는 오디오 신호를 나타낸다. (U에서의) 오디오 시간-신호들, (S에서의) 그것들의 에너지들 및 (V에서의) 그것들의 공간적 특성들을 분리하는 SVD 분해의 능력은, 본 개시물에서 설명되는 기법들의 다양한 양태들을 지원할 수도 있다. 게다가, 기본 HOA[k] 계수들, 즉, X를, US[k]와 V[k]의 벡터 곱셈에 의해 합성하는 모델은, 이 문서 전체에 걸쳐 사용되는 "벡터 기반 분해"라는 용어를 낳는다.

비록 HOA 계수들 (11) 에 대해 직접적으로 수행되고 있는 것으로 설명되지만, LIT 유닛 (30) 은 선형 가역 변환을 HOA 계수들 (11) 의 도함수들에 적용할 수도 있다. 예를 들어, LIT 유닛 (30) 은 HOA 계수들 (11) 로부터 유도된 전력 스펙트럼 밀도 매트릭스에 대해 SVD를 적용할 수도 있다. 계수들 자체가 아니라 HOA 계수들의 전력 스펙트럼 밀도 (PSD) 에 대해 SVD를 수행함으로써, LIT 유닛 (30) 은 프로세서 사이클들 및 저장 공간의 하나 이상의 측면에서 SVD를 수행하는 계산 복잡도를 잠재적으로 감소시킬 수도 있는 한편, SVD가 HOA 계수들에 직접적으로 적용된 것처럼 소스 오디오 인코딩 효율을 성취할 수도 있다.

파라미터 계산 유닛 (32) 은 다양한 파라미터들, 이를테면 상관 파라미터 (R), 방향성 속성들 파라미터들 (θ, φ, r), 및 에너지 속성 (e) 을 계산하도록 구성되는 유닛을 나타낸다. 현재 프레임에 대한 파라미터들의 각각은 R[k], θ[k], φ[k], r[k] 및 e[k]로서 표시될 수도 있다. 파라미터 계산 유닛 (32) 은 파라미터들을 식별하기 위해 US[k] 벡터들 (33) 에 대해 에너지 분석 및/또는 상관 (또는 이른바 상호-상관 (cross-correlation)) 을 수행할 수도 있다. 파라미터 계산 유닛 (32) 은 이전 프레임에 대한 파라미터들을 또한 결정할 수도 있는데, 이전 프레임 파라미터들은 US[k-1] 벡터 및 V[k-1] 벡터들의 이전 프레임에 기초하여 R[k-1], θ[k-1], φ[k-1], r[k-1] 및 e[k-1]로 표시될 수도 있다. 파라미터 계산 유닛 (32) 은 현재 파라미터들 (37) 과 이전 파라미터들 (39) 을 리오더 유닛 (34) 으로 출력할 수도 있다.

파라미터 계산 유닛 (32) 에 의해 계산된 파라미터들은 오디오 오브젝트들을 리오더링하여 그들의 자연스러운 평가 또는 경시적 연속성을 나타내기 위해 리오더 유닛 (34) 에 의해 이용될 수도 있다. 리오더 유닛 (34) 은 제 1 US[k] 벡터들 (33) 로부터의 파라미터들 (37) 의 각각을 제 2 US[k-1] 벡터들 (33) 에 대한 파라미터들 (39) 의 각각에 대하여 턴 방식으로 (turn-wise) 비교할 수도 있다. 리오더 유닛 (34) 은 현재 파라미터들 (37) 및 이전 파라미터들 (39) 에 기초하여 V[k] 매트릭스 (35) 및 US[k] 매트릭스 (33) 내의 다양한 벡터들을 (하나의 예로서, 헝가리안 알고리즘을 사용하여) 리오더링하여, 리오더링된 US[k] 매트릭스 (33') (이는 수학적으로

로서 표시될 수도 있음) 과 리오더링된 V[k] 매트릭스 (35') (이는 수학적으로

로서 표시될 수도 있음) 을 전경 사운드 (또는 우세 사운드 (predominant 사운드) - PS) 선택 유닛 (36) ("전경 선택 유닛 (36")) 과 에너지 보상 유닛 (38) 으로 출력할 수도 있다.

음장 분석 유닛 (44) 은 타겟 비트레이트 (41) 를 잠재적으로 성취하기 위해서 HOA 계수들 (11) 에 대해 음장 분석을 수행하도록 구성되는 유닛을 나타낼 수도 있다. 음장 분석 유닛 (44) 은, 분석에 그리고/또는 수신된 타겟 비트레이트 (41) 에 기초하여, 심리음향 코더 인스턴스화물들의 총 수 (이는 주변 또는 배경 채널들의 총 수 (BG_TOT) 및 전경 채널들 또는, 다르게 말하면, 우세 채널들의 수의 함수일 수도 있음) 를 결정할 수도 있다. 심리음향 코더 인스턴스화의 총 수는 numHOATransportChannels로서 표시될 수 있다.

음장 분석 유닛 (44) 은, 타겟 비트레이트 (41) 를 다시 잠재적으로 성취하기 위해, 전경 채널들의 총 수 (nFG) (45), 배경 (또는, 다르게 말하면, 주변) 음장의 최소 차수 (N_BG 또는, 대안적으로, MinAmbHOAorder), 배경 음장의 최소 차수를 나타내는 대응하는 실제 채널들의 수 (nBGa = (MinAmbHOAorder + 1)²), 및 전송할 추가적인 BG HOA 채널들의 인덱스들 (i) (이것들은 도 3의 예에서 총칭하여 배경 채널 정보 (43) 라고 표시될 수도 있음) 을 결정할 수도 있다. 배경 채널 정보 (42) 는 주변 채널 정보 (43) 라고 또한 지칭될 수도 있다. numHOATransportChannels - nBGa에서 남아 있는 채널들의 각각은, "추가적인 배경/주변 채널", "활성 벡터 기반 우세 채널", "활성 방향 기반 우세 신호" 또는 "완전히 비활성" 중 어느 하나일 수도 있다. 하나의 양태에서, 채널 유형들은 두 개의 비트들에 의한 ("ChannelType") 신택스 엘리먼트 (예컨대, 00: 방향 기반 신호; 01: 벡터 기반 우세 신호; 10: 추가적인 주변 신호; 11: 비활성 신호) 로서 표시될 수도 있다. 배경 또는 주변 신호들의 총 수, 즉, nBGa는, (MinAmbHOAorder + 1)² + 인덱스 10 (위의 예에서임) 이 비트스트림에서 그 프레임에 대한 채널 유형으로서 나타날 횟수에 의해 주어질 수도 있다.

음장 분석 유닛 (44) 은 타겟 비트레이트 (41) 에 기초하여 배경 (또는, 다르게 말하면, 주변) 채널들의 수와 전경 (또는, 다르게 말하면, 우세) 채널들의 수를 선택하여, 타겟 비트레이트 (41) 가 상대적으로 더 높은 경우 (예컨대, 타겟 비트레이트 (41) 가 512 Kbps 이상인 경우) 더 많은 배경 및/또는 전경 채널들을 선택할 수도 있다. 하나의 양태에서는, 비트스트림의 헤더 섹션에서 numHOATransportChannels은 8로 설정될 수도 있으면서 동시에 MinAmbHOAorder는 1로 설정될 수도 있다. 이 시나리오에서, 모든 프레임에서, 네 개의 채널들이 음장의 배경 또는 주변 부분을 표현하기 위해 전용될 수도 있는 한편, 다른 4 개의 채널들이, 채널 유형에 대해 프레임 단위 기반으로 달라질 수 있다 - 예컨대, 추가적인 배경/주변 채널 또는 전경/우세 채널 중 어느 하나로서 사용될 수 있다. 전경/우세 신호들은, 위에서 설명된 바와 같이, 벡터 기반 신호 또는 방향 기반 신호 중 어느 하나일 수 있다.

일부 사례들에서, 프레임에 대한 벡터 기반 우세 신호들의 총 수는, 그 프레임의 비트스트림에서 ChannelType 인덱스가 01인 횟수에 의해 주어질 수도 있다. 위의 양태에서, 모든 추가적인 배경/주변 채널 (예컨대, 10의 ChannelType에 대응함) 에 대해, (처음 네 개 외의) 가능한 HOA 계수들 중 어느 계수의 대응 정보가 그 채널에서 표현될 수도 있다. 정보는, 4차 HOA 콘텐츠에 대해, HOA 계수들 (5~25) 을 표시하는 인덱스일 수도 있다. 처음 네 개의 주변 HOA 계수들 (1~4) 은 minAmbHOAorder가 1로 설정되는 경우 항시 전송될 수도 있고, 그런고로 오디오 인코딩 디바이스는 하나의 추가적인 주변 HOA 계수가 5~25의 인덱스를 갖는 것을 표시하기만 하면 될 수도 있다. 그 정보는 따라서 "CodedAmbCoeffIdx"로서 표시될 수도 있는 5 비트 신택스 엘리먼트 (4차 콘텐츠의 경우) 를 사용하여 전송될 수 있다. 여하튼, 음장 분석 유닛 (44) 은 배경 채널 정보 (43) 와 HOA 계수들 (11) 을 배경 (BG) 선택 유닛 (36) 으로, 배경 채널 정보 (43) 를 계수 감소 유닛 (46) 및 비트스트림 생성 유닛 (42) 으로, 그리고 nFG (45) 를 전경 선택 유닛 (36) 으로 출력한다.

배경 선택 유닛 (48) 은 배경 채널 정보 (예컨대, 배경 음장 (N_BG) 과 전송할 추가적인 BG HOA 채널들의 수 (nBGa) 및 인덱스들 (i)) 에 기초하여 배경 또는 주변 HOA 계수들 (47) 을 결정하도록 구성되는 유닛을 나타낼 수도 있다. 예를 들어, N_BG가 1과 동일한 경우, 배경 선택 유닛 (48) 은 1 이하의 차수를 갖는 오디오 프레임의 각각의 샘플에 대해 HOA 계수들 (11) 을 선택할 수도 있다. 배경 선택 유닛 (48) 은, 이 예에서, 그 다음에 추가적인 BG HOA 계수들로서 인덱스들 (i) 중 하나에 의해 식별된 인덱스를 갖는 HOA 계수들 (11) 을 선택할 수도 있는데, 오디오 디코딩 디바이스, 이를테면 도 2 및 도 4의 예에서 도시된 오디오 디코딩 디바이스 (24) 가 오디오 비트스트림 (21) 으로부터 배경 HOA 계수들 (47) 을 파싱하는 것을 가능하게 하기 위해서 오디오 비트스트림 (21) 에서 특정될 nBGa는 비트스트림 생성 유닛 (42) 으로 제공된다. 배경 선택 유닛 (48) 은 그 다음에 주변 HOA 계수들 (47) 을 에너지 보상 유닛 (38) 으로 출력할 수도 있다. 주변 HOA 계수들 (47) 은 다음의 차원 D를 가질 수도 있다: M x [ (N _BG +1)² ₊ nBGa]. 주변 HOA 계수들 (47) 은 "주변 HOA 계수들 (47)"이라고 또한 지칭될 수도 있는데, 주변 HOA 계수들 (47) 의 각각은 심리음향 오디오 코더 유닛 (40) 에 의해 인코딩될 별개의 주변 HOA 채널 (47) 에 대응한다.

전경 선택 유닛 (36) 은 nFG (45) (이는 전경 벡터들을 식별하는 하나 이상의 인덱스들을 표현할 수도 있음) 에 기초하여 음장의 전경 또는 별개의 성분들을 표현하는 리오더링된 US[k] 매트릭스 (33') 및 리오더링된 V[k] 매트릭스 (35') 를 선택하도록 구성되는 유닛을 나타낼 수도 있다. 전경 선택 유닛 (36) 은 nFG 신호들 (49) (이는 리오더링된 US[k]₁,..._nFG (49), FG₁,..._nfG[k] (49), 또는

(49)) 을 심리음향 오디오 코더 유닛 (40) 으로 출력할 수도 있는데, nFG 신호들 (49) 은 다음의 차원 D: M x nFG를 가질 수도 있고 각각은 모노-오디오 오브젝트들을 표현한다. 전경 선택 유닛 (36) 은 음장의 전경 성분들에 대응하는 리오더링된 V[k] 매트릭스 (35') (또는

(35')) 을 시공간적 보간 유닛 (50) 으로 또한 출력할 수도 있는데, 전경 성분들에 대응하는 리오더링된 V[k] 매트릭스 (35') 의 서브세트가 차원 D: (N+1)² x nFG를 갖는 전경 V[k] 매트릭스 (51_k) (이는 수학적으로는

로서 표시될 수도 있음) 로서 표시될 수도 있다.

에너지 보상 유닛 (38) 은 배경 선택 유닛 (48) 에 의한 HOA 채널들의 다양한 HOA 채널들의 제거로 인한 에너지 손실을 보상하기 위해 주변 HOA 계수들 (47) 에 대해 에너지 보상을 수행하도록 구성되는 유닛을 나타낼 수도 있다. 에너지 보상 유닛 (38) 은 리오더링된 US[k] 매트릭스 (33'), 리오더링된 V[k] 매트릭스 (35'), nFG 신호들 (49), 전경 V[k] 벡터들 (51 _k ) 및 주변 HOA 계수들 (47) 중 하나 이상에 대해 에너지 분석을 수행한 다음, 그 에너지 분석에 기초하여 에너지 보상을 수행하여 에너지 보상된 주변 HOA 계수들 (47') 을 생성할 수도 있다. 에너지 보상 유닛 (38) 은 에너지 보상된 주변 HOA 계수들 (47') 을 심리음향 오디오 코더 유닛 (40) 으로 출력할 수도 있다.

시공간적 보간 유닛 (50) 은 k번째 프레임에 대한 전경 V[k] 벡터들 (51 _k ) 과 이전 프레임에 대한 전경 V[k-1] 벡터들 (51 _k _-1) (그래서 k-1 표기임) 을 수신하고 시공간적 보간을 수행하여 보간된 전경 V[k] 벡터들을 생성하도록 구성되는 유닛을 나타낼 수도 있다. 시공간적 보간 유닛 (50) 은 nFG 신호들 (49) 과 전경 V[k] 벡터들 (51 _k ) 을 재결합하여 리오더링된 전경 HOA 계수들을 복원할 수도 있다. 시공간적 보간 유닛 (50) 은 그 다음에 리오더링된 전경 HOA 계수들을 보간된 V[k] 벡터들에 의해 나누어 보간된 nFG 신호들 (49') 을 생성할 수도 있다. 시공간적 보간 유닛 (50) 은, 오디오 디코딩 디바이스, 이를테면 오디오 디코딩 디바이스 (24) 가, 보간된 전경 V[k] 벡터들을 생성함으로써 전경 V[k] 벡터들 (51 _k ) 을 복원할 수도 있도록, 보간된 전경 V[k] 벡터들을 생성하는데 사용된 전경 V[k] 벡터들 (51 _k ) 을 또한 출력할 수도 있다. 보간된 전경 V[k] 벡터들을 생성하는데 사용되는 전경 V[k] 벡터들 (51 _k ) 은 나머지 전경 V[k] 벡터들 (53) 이라고 지칭된다. 동일한 V[k] 및 V[k-1]이 인코더 및 디코더에서 (보간된 벡터들 V[k]를 생성하기 위해) 사용되는 것을 보장하기 위하여 벡터들의 양자화된/역양자화된 버전들은 인코더 및 디코더에서 사용될 수도 있다. 시공간적 보간 유닛 (50) 은 보간된 nFG 신호들 (49') 을 심리음향 오디오 코더 유닛 (46) 으로 그리고 보간된 전경 V[k] 벡터들 (51 _k ) 을 계수 감소 유닛 (46) 으로 출력할 수도 있다.

계수 감소 유닛 (46) 은 배경 채널 정보 (43) 에 기초하여 나머지 전경 V[k] 벡터들 (53) 에 대해 계수 감소를 수행하여 감소된 전경 V[k] 벡터들 (55) 을 양자화 유닛 (52) 으로 출력하도록 구성되는 유닛을 나타낼 수도 있다. 감소된 전경 V[k] 벡터들 (55) 은 다음의 차원 D를 가질 수도 있다: [ (N+1)² - (N _BG +1)²-BG_TOT] x nFG. 계수 감소 유닛 (46) 은, 이런 점에서, 나머지 전경 V[k] 벡터들 (53) 에서 계수들의 수를 감소시키도록 구성되는 유닛을 나타낼 수도 있다. 다르게 말하면, 계수 감소 유닛 (46) 은 방향성 정보를 거의 갖지 않거나 또는 방향성 정보가 없는 전경 V[k] 벡터들 (이것들은 나머지 전경 V[k] 벡터들 (53) 을 형성함) 에서 계수들을 제거하도록 구성되는 유닛을 나타낼 수도 있다. 일부 예들에서, 1차 및 0차 기저 함수들 (이는 N_BG로서 표시될 수도 있음) 에 대응하는 별개의 또는, 다르게 말하면, 전경 V[k] 벡터들의 계수들은 방향성 정보를 거의 제공하지 않고 그러므로 전경 V-벡터들로부터 ("계수 감소"라고 지칭될 수도 있는 프로세스를 통해) 제거될 수 있다. 이 예에서, N_BG에 대응하는 계수들을 식별하기 위해서뿐만 아니라 [ (N_BG+1)²+1, (N+1)²]의 세트로부터 추가적인 HOA 채널들 (이는 변수 TotalOfAddAmbHOAChan에 의해 표시될 수도 있음) 을 식별하기 위해서도 더 큰 유연성이 제공될 수도 있다.

양자화 유닛 (52) 은 감소된 전경 V[k] 벡터들 (55) 을 압축하는 임의 형태의 양자화를 수행하여 코딩된 전경 V[k] 벡터들 (57) 을 생성하며, 코딩된 전경 V[k] 벡터들 (57) 을 비트스트림 생성 유닛 (42) 으로 출력하도록 구성되는 유닛을 나타낼 수도 있다. 동작 시, 양자화 유닛 (52) 은 음장의 공간적 성분, 즉, 이 예에서의 감소된 전경 V[k] 벡터들 (55) 중 하나 이상을 압축하도록 구성되는 유닛을 나타낼 수도 있다. 양자화 유닛 (52) 은, "NbitsQ"로 표시된 양자화 모드 신택스 엘리먼트에 의해 나타내어진 바와 같이, 다음 12 개 양자화 모드들 중 어느 하나의 모드를 수행할 수도 있다:

NbitsQ 값 양자화 모드의 유형

0~3: 예약됨

4: 벡터 양자화

5: 허프만 코딩이 없는 스칼라 양자화

6: 허프만 코딩에 의한 6-비트 스칼라 양자화

7: 허프만 코딩에 의한 7-비트 스칼라 양자화

8: 허프만 코딩에 의한 8-비트 스칼라 양자화

... ...

16: 허프만 코딩에 의한 16-비트 스칼라 양자화

양자화 유닛 (52) 은 전술한 양자화 모드들의 유형들 중 임의의 양자화 모드 유형의 예측된 버전들을 또한 수행할 수도 있는데, 이전 프레임의 V-벡터의 엘리먼트 (또는 벡터 양자화가 수행되는 경우의 가중치) 와 현재 프레임의 V-벡터의 엘리먼트 (또는 벡터 양자화가 수행되는 경우의 가중치) 간에 차이가 결정된다. 양자화 유닛 (52) 은 그 다음에 현재 프레임 자체의 V-벡터의 엘리먼트의 값이 아니라 현재 프레임 및 이전 프레임의 엘리먼트들 또는 가중치들 간의 차이를 양자화할 수도 있다.

양자화 유닛 (52) 은 감소된 전경 V[k] 벡터들 (55) 의 다수의 코딩된 버전들을 획득하기 위해 감소된 전경 V[k] 벡터들 (55) 의 각각에 대해 다수의 형태들의 양자화를 수행할 수도 있다. 양자화 유닛 (52) 은 감소된 전경 V[k] 벡터들 (55) 의 코딩된 버전들 중 하나를 코딩된 전경 V[k] 벡터 (57) 로서 선택할 수도 있다. 양자화 유닛 (52) 은, 다르게 말하면, 본 개시물에서 논의되는 기준들의 임의의 조합에 기초하여 출력 스위칭된-양자화된 V-벡터로서 사용하기 위해 비-예측된 벡터-양자화된 V-벡터, 예측된 벡터-양자화된 V-벡터, 비-허프만-코딩된 스칼라-양자화된 V-벡터, 및 허프만-코딩된 스칼라-양자화된 V-벡터 중 하나를 선택할 수도 있다. 일부 예들에서, 양자화 유닛 (52) 은 벡터 양자화 모드와 하나 이상의 스칼라 양자화 모드들을 포함하는 양자화 모드들의 세트로부터 양자화 모드를 선택하고, 선택된 모드에 기초하여 (또는 선택된 모드에 따라) 입력 V-벡터를 양자화할 수도 있다. 양자화 유닛 (52) 은 그 다음에 (예컨대, 가중치 값들 또는 그 가중치 값들을 나타내는 비트들의 측면에서의) 비-예측된 벡터-양자화된 V-벡터, (예컨대, 에러 값들 또는 그 에러 값들을 나타내는 비트들의 측면에서의) 예측된 벡터-양자화된 V-벡터, 비-허프만-코딩된 스칼라-양자화된 V-벡터 및 허프만-코딩된 스칼라-양자화된 V-벡터 중 선택된 하나의 V-벡터를 비트스트림 생성 유닛 (52) 에 코딩된 전경 V[k] 벡터들 (57) 로서 제공할 수도 있다. 양자화 유닛 (52) 은 양자화 모드를 나타내는 신택스 엘리먼트들 (예컨대, NbitsQ 신택스 엘리먼트) 과 V-벡터를 역양자화 또는 그렇지 않으면 복원하기 위해 사용되는 임의의 다른 신택스 엘리먼트들을 또한 제공할 수도 있다.

오디오 인코딩 디바이스 (20) 내에 포함되는 심리음향 오디오 코더 유닛 (40) 은 심리음향 오디오 코더의 다수의 인스턴스들을 나타낼 수도 있는데, 그들 인스턴스들의 각각은 인코딩된 주변 HOA 계수들 (59) 및 인코딩된 nFG 신호들 (61) 을 생성하기 위해 에너지 보상된 주변 HOA 계수들 (47') 및 보간된 nFG 신호들 (49') 중 각각의 에너지 보상된 주변 HOA 계수 또는 보간된 nFG 신호의 상이한 오디오 오브젝트 또는 HOA 채널을 인코딩하는데 사용된다. 심리음향 오디오 코더 유닛 (40) 은 인코딩된 주변 HOA 계수들 (59) 과 인코딩된 nFG 신호들 (61) 을 비트스트림 생성 유닛 (42) 으로 출력할 수도 있다.

오디오 인코딩 디바이스 (20) 내에 포함되는 비트스트림 생성 유닛 (42) 은 알려진 포맷 (이는 디코딩 디바이스에 의해 알려진 포맷을 지칭할 수도 있음) 을 준수하도록 데이터를 포맷팅함으로써, 벡터 기반 비트스트림 (21) 을 생성하는 유닛을 나타낸다. 오디오 비트스트림 (21) 은, 다르게 말하면, 위에서 설명된 방식으로 인코딩되었던 인코딩된 오디오 데이터를 나타낼 수도 있다. 비트스트림 생성 유닛 (42) 은 일부 예들에서 멀티플렉서를 나타낼 수도 있는데, 이 멀티플렉서는 코딩된 전경 V[k] 벡터들 (57), 인코딩된 주변 HOA 계수들 (59), 인코딩된 nFG 신호들 (61) 및 배경 채널 정보 (43) 를 수신할 수도 있다. 비트스트림 생성 유닛 (42) 은 그 다음에 코딩된 전경 V[k] 벡터들 (57), 인코딩된 주변 HOA 계수들 (59), 인코딩된 nFG 신호들 (61) 및 배경 채널 정보 (43) 에 기초하여 오디오 비트스트림 (21) 을 생성할 수도 있다. 이런 식으로, 비트스트림 생성 유닛 (42) 은 오디오 비트스트림 (21) 을 획득하기 위해 오디오 비트스트림 (21) 에서 벡터들 (57) 을 이에 의해 특정할 수도 있다. 오디오 비트스트림 (21) 은 기본 또는 메인 비트스트림과 하나 이상의 사이드 채널 비트스트림들을 포함할 수도 있다.

비록 도 3의 예에서 도시되지 않았지만, 오디오 인코딩 디바이스 (20) 는 현재 프레임이 방향 기반 합성 또는 벡터 기반 합성을 사용하여 인코딩되는 것인지의 여부에 기초하여, 오디오 인코딩 디바이스 (20) 로부터 출력되는 비트스트림을 (예컨대, 방향 기반 오디오 비트스트림 (21) 과 벡터 기반 비트스트림 (21) 간에) 스위칭하는 비트스트림 출력 유닛을 또한 포함할 수도 있다. 비트스트림 출력 유닛은, (HOA 계수들 (11) 이 합성 오디오 오브젝트로부터 생성되었음을 검출한 결과로서) 방향 기반 합성이 수행되었는지 또는 (HOA 계수들이 기록되었음을 검출한 결과로서) 벡터 기반 합성이 수행되었는지를 나타내는, 콘텐츠 분석 유닛 (26) 에 의해 출력되는 신택스 엘리먼트에 기초하여 스위칭을 수행할 수도 있다. 비트스트림 출력 유닛은 오디오 비트스트림들 (21) 중 각각의 오디오 비트스트림과 함께 현재 프레임에 대해 사용되는 스위칭 또는 현재 인코딩을 표시하기 위해 올바른 헤더 신택스를 특정할 수도 있다.

더구나, 위에서 언급된 바와 같이, 음장 분석 유닛 (44) 은 BG_TOT 주변 HOA 계수들 (47) 을 식별할 수도 있는데, 그 계수들은 (비록 가끔은 BG_TOT가 둘 이상의 (시간적으로) 인접한 프레임들에 걸쳐 일정하게 또는 동일한 것으로 유지될 수 있더라도) 프레임 단위 기반으로 변경될 수도 있다. BG_TOT에서의 변경은 감소된 전경 V[k] 벡터들 (55) 에서 표현되는 계수들에 대한 변경들을 초래할 수도 있다. BG_TOT에서의 변경은 (비록, 다시, 가끔은 BG_TOT가 둘 이상의 (시간적으로) 인접한 프레임들에 걸쳐 일정하게 또는 동일한 것으로 유지될 수 있더라도) 프레임 단위 기반으로 변경되는 배경 HOA 계수들 (이것들은 "주변 HOA 계수들"이라고 또한 지칭될 수도 있음) 을 초래할 수도 있다. 그 변경들은 추가적인 주변 HOA 계수들의 추가 또는 제거와 감소된 전경 V[k] 벡터들 (55) 에의 계수들의 대응하는 추가 또는 그 벡터들로부터의 계수들의 대응하는 제거에 의해 표현되는 음장의 양태들에 대한 에너지의 변경을 종종 초래한다.

그 결과, 음장 분석 유닛 (44) 은 추가로, 주변 HOA 계수들이 프레임마다 변경되는 경우를 결정하고 음장의 주변 성분들을 표현하는데 사용되고 있다는 측면에서 주변 HOA 계수에 대한 변경 (그 변경은 주변 HOA 계수의 "천이"라고 또는 주변 HOA 계수의 "천이"라고 또한 지칭될 수도 있음) 을 나타내는 플래그 또는 다른 신택스 엘리먼트를 생성할 수도 있다. 특히, 계수 감소 유닛 (46) 은 플래그 (이는 AmbCoeffTransition 플래그 또는 AmbCoeffIdxTransition 플래그로서 표시될 수도 있음) 를 생성하여, 그 플래그를 비트스트림 생성 유닛 (42) 으로 제공함으로써 그 플래그가 오디오 비트스트림 (21) 에 (아마도 사이드 채널 정보의 부분으로서) 포함될 수도 있다.

계수 감소 유닛 (46) 은, 주변 계수 천이 플래그를 특정하는 것 외에도, 감소된 전경 V[k] 벡터들 (55) 이 생성되는 방법을 또한 수정할 수도 있다. 하나의 예에서, 주변 HOA 주변 계수들 중 하나가 현재 프레임 동안 천이된다는 결정 시, 계수 감소 유닛 (46) 은, 감소된 전경 V[k] 벡터들 (55) 중 천이 시의 주변 HOA 계수에 대응하는 V-벡터들의 각각에 대해 벡터 계수 (이는 "벡터 엘리먼트" 또는 "엘리먼트"라고 또한 지칭될 수도 있음) 를 특정할 수도 있다. 다시, 천이 시의 주변 HOA 계수는 BG_TOT 즉, 배경 계수들의 총 수에 추가되거나 또는 그 총 수로부터 제거될 수도 있다. 그러므로, 배경 계수들의 총 수에서의 결과적인 변경은 주변 HOA 계수가 비트스트림 내에 포함되는지의 여부와, V-벡터들의 대응 엘리먼트가 위에서 설명된 제 2 및 제 3 구성 모드들에서 비트스트림에서 특정된 V-벡터들에 대해 포함되는지의 여부에 영향을 미친다. 계수 감소 유닛 (46) 이 에너지에서의 변경을 극복하기 위해 감소된 전경 V[k] 벡터들 (55) 을 특정할 수도 있는 방법에 관한 더 많은 정보가, 발명의 명칭 "TRANSITIONING OF AMBIENT HIGHER-ORDER AMBISONIC COEFFICIENTS"로 2015년 1월 12일자로 출원된 미국 출원 제14/594,533호에서 제공된다.

도 4는 도 2의 오디오 디코딩 디바이스 (24) 를 더 상세히 예시하는 블록도이다. 도 4의 예에서 도시된 바와 같이 오디오 디코딩 디바이스 (24) 는 추출 유닛 (72), 방향 기반 복원 유닛 (90) 및 벡터 기반 복원 유닛 (92) 을 포함할 수도 있다. 비록 아래에서 설명되지만, 오디오 디코딩 디바이스 (24) 와 HOA 계수들을 압축해제하거나 또는 그렇지 않으면 디코딩하는 다양한 양태들에 관한 더 많은 정보가 발명의 명칭 "INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD"로 2014년 5월 29일자로 출원된 국제 특허 출원 공개 WO 2014/194099호에서 입수 가능하다.

추출 유닛 (72) 은 오디오 비트스트림 (21) 을 수신하고 HOA 계수들 (11) 의 다양한 인코딩된 버전들 (예컨대, 방향 기반 인코딩된 버전 또는 벡터 기반 인코딩된 버전) 을 추출하도록 구성되는 유닛을 나타낼 수도 있다. 추출 유닛 (72) 은 위에서 언급된 바로부터 HOA 계수들 (11) 이 다양한 방향 기반 또는 벡터 기반 버전들을 통해 인코딩되었는지의 여부를 나타내는 신택스 엘리먼트를 결정할 수도 있다. 방향 기반 인코딩이 수행된 경우, 추출 유닛 (72) 은 HOA 계수들 (11) 의 방향 기반 버전과 인코딩된 버전에 연관된 신택스 엘리먼트들 (이는 도 4의 예에서 방향 기반 정보 (91) 로서 표시됨) 을 추출하여, 그 방향 기반 정보 (91) 를 방향 기반 복원 유닛 (90) 으로 전해줄 수도 있다. 방향 기반 복원 유닛 (90) 은 방향 기반 정보 (91) 에 기초하여 HOA 계수들 (11') 의 형태로 HOA 계수들을 복원하도록 구성되는 유닛을 나타낼 수도 있다. 비트스트림과 비트스트림 내의 신택스 엘리먼트들의 배열은 아래에서 도 7a 내지 도 7j의 예에 관해 더 상세히 설명된다.

HOA 계수들 (11) 이 벡터 기반 합성을 사용하여 인코딩되었다고 신택스 엘리먼트가 나타내는 경우, 추출 유닛 (72) 은 코딩된 전경 V[k] 벡터들 (57) (이는 코딩된 가중치들 (57) 및/또는 인덱스들 (63) 또는 스칼라 양자화된 V-벡터들을 포함할 수도 있음), 인코딩된 주변 HOA 계수들 (59) 및 대응하는 오디오 오브젝트들 (61) (이는 인코딩된 nFG 신호들 (61) 이라고 또한 지칭될 수도 있음) 을 추출할 수도 있다. 오디오 오브젝트들 (61) 각각은 벡터들 (57) 중 하나의 벡터에 대응한다. 추출 유닛 (72) 은 코딩된 전경 V[k] 벡터들 (57) 을 V-벡터 복원 유닛 (74) 으로 그리고 인코딩된 주변 HOA 계수들 (59) 을 인코딩된 nFG 신호들 (61) 과 함께 심리음향 디코딩 유닛 (80) 로 전해줄 수도 있다.

V-벡터 복원 유닛 (74) 은 인코딩된 전경 V[k] 벡터들 (57) 로부터 V-벡터들을 복원하도록 구성되는 유닛을 나타낼 수도 있다. V-벡터 복원 유닛 (74) 은 양자화 유닛 (52) 의 방식의 역인 방식으로 동작할 수도 있다.

심리음향 디코딩 유닛 (80) 은 인코딩된 주변 HOA 계수들 (59) 과 인코딩된 nFG 신호들 (61) 을 디코딩하기 위해서 도 3의 예에 도시된 심리음향 오디오 코더 유닛 (40) 에 역인 방식으로 동작함으로써, 에너지 보상된 주변 HOA 계수들 (47') 과 보간된 nFG 신호들 (49') (이는 보간된 nFG 오디오 오브젝트들 (49') 이라고 또한 지칭될 수도 있음) 을 생성할 수도 있다. 심리음향 디코딩 유닛 (80) 은 에너지 보상된 주변 HOA 계수들 (47') 을 페이드 유닛 (770) 으로 그리고 nFG 신호들 (49') 을 전경 공식화 유닛 (78) 으로 전해줄 수도 있다.

시공간적 보간 유닛 (76) 은 시공간적 보간 유닛 (50) 에 대해 위에서 설명된 방식과 유사한 방식으로 동작할 수도 있다. 시공간적 보간 유닛 (76) 은 감소된 전경 V[k] 벡터들 (55 _k ) 을 수신하고 전경 V[k] 벡터들 (55 _k ) 및 감소된 전경 V[k-1] 벡터들 (55 _k _-1) 에 대해 시공간적 보간을 수행하여 보간된 전경 V[k] 벡터들 (55 _k ") 을 생성할 수도 있다. 시공간적 보간 유닛 (76) 은 보간된 전경 V[k] 벡터들 (55 _k ") 을 페이드 유닛 (770) 으로 포워딩할 수도 있다.

추출 유닛 (72) 은 주변 HOA 계수들 중 하나가 천이하는 때를 나타내는 신호 (757) 를 페이드 유닛 (770) 으로 또한 출력할 수도 있으며, 페이드 유닛은 그러면 SHC_BG (47') (SHC_BG (47') 는 "주변 HOA 채널들 (47')" 또는 "주변 HOA 계수들 (47')"이라고 또한 표시될 수도 있음) 와 보간된 전경 V[k] 벡터들 (55 _k ") 의 엘리먼트들 중 어느 것이 페이드-인 또는 페이드-아웃 중 어느 하나가 될지를 결정할 수도 있다. 일부 예들에서, 페이드 유닛 (770) 은 주변 HOA 계수들 (47') 과 보간된 전경 V[k] 벡터들 (55 _k ") 의 엘리먼트들의 각각에 대해 반대로 동작할 수도 있다. 다시 말하면, 페이드 유닛 (770) 은 주변 HOA 계수들 (47') 중 대응하는 하나에 대해 페이드-인 또는 페이드-아웃, 또는 페이드-인 또는 페이드-아웃 둘 다를 수행할 수도 있는 한편, 보간된 전경 V[k] 벡터들 (55 _k ") 의 엘리먼트들 중 대응하는 하나에 대해 페이드-인 또는 페이드-아웃, 또는 페이드-인 및 페이드-아웃 둘 다를 수행할 수도 있다. 페이드 유닛 (770) 은 조정된 주변 HOA 계수들 (47") 을 HOA 계수 공식화 유닛 (82) 으로 그리고 조정된 전경 V[k] 벡터들 (55 _k "') 을 전경 공식화 유닛 (78) 으로 출력할 수도 있다. 이런 점에서, 페이드 유닛 (770) 은, 예컨대, 주변 HOA 계수들 (47') 과 보간된 전경 V[k] 벡터들 (55 _k ") 의 엘리먼트들의 형태로, HOA 계수들 또는 그 도함수들의 다양한 양태들에 대해 페이드 동작을 수행하도록 구성되는 유닛을 나타낸다.

전경 공식화 유닛 (78) 은 조정된 전경 V[k] 벡터들 (55 _k "') 및 보간된 nFG 신호들 (49') 에 대해 매트릭스 곱셈을 수행하여 전경 HOA 계수들 (65) 을 생성하도록 구성된 유닛을 나타낸다. 이런 점에서, 전경 공식화 유닛 (78) 은 오디오 오브젝트들 (49') (이는 보간된 nFG 신호들 (49') 을 표시하기 위한 다른 방도임) 과 벡터들 (55 _k "') 을 결합하여 HOA 계수들 (11') 의 전경 또는, 다르게 말하면, 우세 양태들을 복원할 수도 있다. 전경 공식화 유닛 (78) 은 보간된 nFG 신호들 (49') 과 조정된 전경 V[k] 벡터들 (55 _k "') 의 매트릭스 곱셈을 수행할 수도 있다.

HOA 계수 공식화 유닛 (82) 은 HOA 계수들 (11') 을 획득하기 위해서 전경 HOA 계수들 (65) 을 조정된 주변 HOA 계수들 (47") 에 결합하도록 구성되는 유닛을 나타낼 수도 있다. 프라임 표기는 HOA 계수들 (11') 이 HOA 계수들 (11) 과는 유사하지만 동일하지 않을 수도 있다는 것을 반영한다. HOA 계수들 (11 및 11') 간의 차이들은 손실 송신 매체를 통한 송신, 양자화 또는 다른 손실 동작들로 인한 손실로부터 초래될 수도 있다.

도 5는 본 개시물에서 설명되는 벡터 기반 합성 기법들의 다양한 양태들을 수행함에 있어서, 도 3의 예에 도시된 오디오 인코딩 디바이스 (20) 와 같은 오디오 인코딩 디바이스의 예시적인 동작을 도시하는 흐름도이다. 처음에, 오디오 인코딩 디바이스 (20) 는 HOA 계수들 (11) 을 수신한다 (106). 오디오 인코딩 디바이스 (20) 는 LIT 유닛 (30) 을 호출하며, LIT 유닛은 HOA 계수들에 대해 LIT를 적용하여 변환된 HOA 계수들을 출력할 수도 있다 (예컨대, SVD의 경우, 변환된 HOA 계수들은 US[k] 벡터들 (33) 과 V[k] 벡터들 (35) 을 포함할 수도 있다) (107).

오디오 인코딩 디바이스 (20) 는 다음으로, 다양한 파라미터들을 위에서 설명된 방식으로 식별하기 위해 파라미터 계산 유닛 (32) 을 호출하여 US[k] 벡터들 (33), US[k-1] 벡터들 (33), V[k] 및/또는 V[k-1] 벡터들 (35) 의 임의의 조합에 대해 위에서 설명된 분석을 수행할 수도 있다. 다시 말하면, 파라미터 계산 유닛 (32) 은 변환된 HOA 계수들 (33/35) 의 분석에 기초하여 적어도 하나의 파라미터를 결정할 수도 있다 (108).

오디오 인코딩 디바이스 (20) 는 그 다음에 리오더 유닛 (34) 을 호출할 수도 있으며, 리오더 유닛은, 위에서 설명된 바와 같이, 파라미터에 기초하여 변환된 HOA 계수들 (이는, 다시 SVD의 맥락에서, US[k] 벡터들 (33) 및 V[k] 벡터들 (35) 이라고 지칭될 수도 있음) 을 리오더링하여, 리오더링된 변환된 HOA 계수들 (33'/35') (또는, 다르게 말하면, US[k] 벡터들 (33') 및 V[k] 벡터들 (35')) 을 생성할 수도 있다 (109). 오디오 인코딩 디바이스 (20) 는, 전술한 동작들 또는 후속 동작들 중 임의의 동작 동안, 음장 분석 유닛 (44) 을 또한 호출할 수도 있다. 음장 분석 유닛 (44) 은, 위에서 설명된 바와 같이, HOA 계수들 (11) 및/또는 변환된 HOA 계수들 (33/35) 에 대해 음장 분석을 수행하여 전경 채널들의 총 수 (nFG) (45), 배경 음장의 차수 (N_BG) 및 전송할 추가적인 BG HOA 채널들의 수 (nBGa) 및 인덱스들 (i) (이것들은 도 3의 예에서 배경 채널 정보 (43) 로서 총칭하여 표시될 수도 있음) 를 결정할 수도 있다 (109).

오디오 인코딩 디바이스 (20) 는 배경 선택 유닛 (48) 을 또한 호출할 수도 있다. 배경 선택 유닛 (48) 은 배경 채널 정보 (43) 에 기초하여 배경 또는 주변 HOA 계수들 (47) 을 결정할 수도 있다 (110). 오디오 인코딩 디바이스 (20) 는 전경 선택 유닛 (36) 을 추가로 호출할 수도 있으며, 전경 선택 유닛은 (전경 벡터들을 식별하는 하나 이상의 인덱스들을 나타낼 수도 있는) nFG (45) 에 기초하여, 음장의 전경 또는 별개의 성분들을 표현하는 리오더링된 US[k] 벡터들 (33') 및 리오더링된 V[k] 벡터들 (35') 을 선택할 수도 있다 (112).

오디오 인코딩 디바이스 (20) 는 에너지 보상 유닛 (38) 을 호출할 수도 있다. 에너지 보상 유닛 (38) 은 배경 선택 유닛 (48) 에 의한 HOA 계수들 중 다양한 HOA 계수들의 제거로 인한 에너지 손실을 보상하기 위해 주변 HOA 계수들 (47) 에 대해 에너지 보상을 수행함으로써, 에너지 보상된 주변 HOA 계수들 (47') 을 생성할 수도 있다 (114).

오디오 인코딩 디바이스 (20) 는 시공간적 보간 유닛 (50) 을 또한 호출할 수도 있다. 시공간적 보간 유닛 (50) 은 리오더링된 변환된 HOA 계수들 (33'/35') 에 대해 시공간적 보간을 수행하여 보간된 전경 신호들 (49') (이는 "보간된 nFG 신호들 (49'") 이라고 또한 지칭될 수도 있음) 과 나머지 전경 방향성 정보 (53) (이는 "V[k] 벡터들 (53)"이라고 또한 지칭될 수도 있음) 를 획득할 수도 있다 (116). 오디오 인코딩 디바이스 (20) 는 그 다음에 계수 감소 유닛 (46) 을 호출할 수도 있다. 계수 감소 유닛 (46) 은 배경 채널 정보 (43) 에 기초하여 나머지 전경 V[k] 벡터들 (53) 에 대해 계수 감소를 수행하여 감소된 전경 방향성 정보 (55) (이는 감소된 전경 V[k] 벡터들 (55) 이라고 또한 지칭될 수도 있음) 를 획득할 수도 있다 (118).

오디오 인코딩 디바이스 (20) 는 그 다음에 양자화 유닛 (52) 을 호출하여, 위에서 설명된 방식으로, 감소된 전경 V[k] 벡터들 (55) 을 압축하고 코딩된 전경 V[k] 벡터들 (57) 을 생성할 수도 있다 (120).

오디오 인코딩 디바이스 (20) 는 심리음향 오디오 코더 유닛 (40) 를 또한 호출할 수도 있다. 심리음향 오디오 코더 유닛 (40) 은 에너지 보상된 주변 HOA 계수들 (47') 및 보간된 nFG 신호들 (49') 의 각각의 벡터를 심리음향 코딩하여 인코딩된 주변 HOA 계수들 (59) 및 인코딩된 nFG 신호들 (61) 을 생성할 수도 있다. 오디오 인코딩 디바이스는 그 다음에 비트스트림 생성 유닛 (42) 을 호출할 수도 있다. 비트스트림 생성 유닛 (42) 은 코딩된 전경 방향성 정보 (57), 코딩된 주변 HOA 계수들 (59), 코딩된 nFG 신호들 (61) 및 배경 채널 정보 (43) 에 기초하여 오디오 비트스트림 (21) 을 생성할 수도 있다.

도 6은 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행함에 있어서, 도 4에서 도시된 오디오 디코딩 디바이스 (24) 와 같은 오디오 디코딩 디바이스의 예시적인 동작을 도시하는 흐름도이다. 처음에, 오디오 디코딩 디바이스 (24) 오디오 비트스트림 (21) 을 수신할 수도 있다 (130). 그 비트스트림을 수신 시, 오디오 디코딩 디바이스 (24) 는 추출 유닛 (72) 을 호출할 수도 있다. 논의 목적을 위해 벡터 기반 복원이 수행될 것임을 오디오 비트스트림 (21) 이 나타낸다고 가정하면, 추출 유닛 (72) 은 그 비트스트림을 파싱하여 위에서 언급된 정보를 취출하며, 그 정보를 벡터 기반 복원 유닛 (92) 으로 전해줄 수도 있다.

다르게 말하면, 추출 유닛 (72) 은, 오디오 비트스트림 (21) 으로부터 코딩된 전경 방향성 정보 (57) (이는, 다시, 코딩된 전경 V[k] 벡터들 (57) 이라고 또한 지칭될 수도 있음), 코딩된 주변 HOA 계수들 (59) 및 코딩된 전경 신호들 (이는 코딩된 전경 nFG 신호들 (59) 또는 코딩된 전경 오디오 오브젝트들 (59) 이라고 또한 지칭될 수도 있음) 을 위에서 설명된 방식으로 추출할 수도 있다 (132).

오디오 디코딩 디바이스 (24) 는 역양자화 유닛 (74) 을 추가로 호출할 수도 있다. 역양자화 유닛 (74) 은 코딩된 전경 방향성 정보 (57) 를 엔트로피 디코딩하고 역양자화하여 감소된 전경 방향성 정보 (55_k) 를 획득할 수도 있다 (136). 오디오 디코딩 디바이스 (24) 는 심리음향 디코딩 유닛 (80) 을 또한 호출할 수도 있다. 심리음향 디코딩 유닛 (80) 은 인코딩된 주변 HOA 계수들 (59) 및 인코딩된 전경 신호들 (61) 을 디코딩하여 에너지 보상된 주변 HOA 계수들 (47') 및 보간된 전경 신호들 (49') 을 획득할 수도 있다 (138). 심리음향 디코딩 유닛 (80) 은 에너지 보상된 주변 HOA 계수들 (47') 을 페이드 유닛 (770) 으로 그리고 nFG 신호들 (49') 을 전경 공식화 유닛 (78) 으로 전해줄 수도 있다.

오디오 디코딩 디바이스 (24) 는 다음으로 시공간적 보간 유닛 (76) 을 호출할 수도 있다. 시공간적 보간 유닛 (76) 은 리오더링된 전경 방향성 정보 (55_k') 를 수신하고 감소된 전경 방향성 정보 (55 _k /55 _k _-1) 에 대해 시공간적 보간을 수행하여 보간된 전경 방향성 정보 (55 _k ") 를 생성할 수도 있다 (140). 시공간적 보간 유닛 (76) 은 보간된 전경 V[k] 벡터들 (55 _k ") 을 페이드 유닛 (770) 으로 포워딩할 수도 있다.

오디오 디코딩 디바이스 (24) 는 페이드 유닛 (770) 을 호출할 수도 있다. 페이드 유닛 (770) 은 에너지 보상된 주변 HOA 계수들 (47') 이 천이되고 있는 때를 나타내는 신택스 엘리먼트들 (예컨대, AmbCoeffTransition 신택스 엘리먼트) 을 (예컨대, 추출 유닛 (72) 으로부터) 수신하거나 또는 그렇지 않으면 획득할 수도 있다. 페이드 유닛 (770) 은, 천이 신택스 엘리먼트들 및 유지된 천이 상태 정보에 기초하여, 에너지 보상된 주변 HOA 계수들 (47') 을 페이드-인 또는 페이드-아웃하여 조정된 주변 HOA 계수들 (47") 을 HOA 계수 공식화 유닛 (82) 으로 출력할 수도 있다. 페이드 유닛 (770) 은, 신택스 엘리먼트들 및 유지된 천이 상태 정보에 기초하여, 보간된 전경 V[k] 벡터들 (55 _k ") 의 대응하는 하나 이상의 엘리먼트들을 페이드-인 또는 페이드-아웃하여 조정된 전경 V[k] 벡터들 (55 _k "') 을 전경 공식화 유닛 (78) 으로 출력할 수도 있다 (142).

오디오 디코딩 디바이스 (24) 는 전경 공식화 유닛 (78) 을 호출할 수도 있다. 전경 공식화 유닛 (78) 은 조정된 전경 방향성 정보 (55 _k "') 에 의한 nFG 신호들 (49') 의 매트릭스 곱셈을 수행하여 전경 HOA 계수들 (65) 을 획득할 수도 있다 (144). 오디오 디코딩 디바이스 (24) 는 HOA 계수 공식화 유닛 (82) 을 또한 호출할 수도 있다. HOA 계수 공식화 유닛 (82) 은 HOA 계수들 (11') 을 획득하기 위해서 전경 HOA 계수들 (65) 을 조정된 주변 HOA 계수들 (47") 에 가산할 수도 있다 (146).

본 개시물의 기법들에 따르면, 오디오 디코딩 디바이스 (24) 는 생성 스크린 (production screen) 사이즈 및 재생 윈도우 (reproduction window) 사이즈에 기초하여 HOA 효과 매트릭스를 컴퓨팅할 수도 있다. HOA 효과 매트릭스는 그러면 스크린 관련 HOA 렌더링 매트릭스를 생성하기 위해 주어진 HOA 렌더링 매트릭스 ( R ) 와 곱셈될 수도 있다. 일부 구현예들에서, HOA 렌더링 매트릭스의 적응은, 예를 들어, 오디오 디코딩 디바이스 (24) 의 초기화 페이즈 동안 오프라인으로 행해질 수도 있어서, 런-타임 복잡도가 증가하지 않는다.

본 개시물의 하나의 제안된 기법은, 샘플링 포인트들의 각각이 ISO/IEC DIS 23008-3, Information technology ― High efficiency coding and media delivery in heterogeneous environments ― Part 3: 3D audio (이하 "DIS 23008") 의 부록 F.9에서 설명된 바와 같은 방향 (θ,φ) 로 정의되는 구면 (

) 상의 구백 (900) 개의 동일하게 이격된 샘플링 포인트를 사용한다. 그들 방향들에 기초하여, 오디오 디코딩 디바이스 (24) 는 DIS 23008의 부록 F.1.5에서 요약되어 있는 바와 같은 모드 매트릭스 (

) 를 컴퓨팅할 수도 있다. 오디오 디코딩 디바이스 (24) 는 그들 900 개 샘플링 포인트들의 방향들을 매핑 함수를 통해 수정할 수도 있고, 오디오 디코딩 디바이스 (24) 는 수정된 모드 매트릭스 (

) 를 그에 따라 컴퓨팅할 수도 있다. 스크린 관련 오디오 오브젝트들과 스크린 관련 HOA 콘텐츠 사이의 불일치를 피하기 위해, 오디오 디코딩 디바이스 (24) 는 DIS 23008의 18.3 절에서 이미 설명된 동일한 매핑 함수들을 사용할 수도 있다. 오디오 디코딩 디바이스 (24) 는 그러면 다음과 같이 컴퓨팅되는 효과 매트릭스 ( F ) 를 컴퓨팅할 수도 있다:

(1)

오디오 디코딩 디바이스 (24) 는 그 다음에 다음과 같이 컴퓨팅되는 스크린 관련 렌더링 매트릭스를 컴퓨팅할 수도 있다:

(2)

일부 예들에서, 오디오 디코딩 디바이스 (24) 는 위에서 설명된 프로세싱 단계들 중 하나 이상의 프로세싱 단계의 반복을 피하기 위해 매트릭스

를 미리 컴퓨팅하고 저장할 수도 있다. D 를 생성하기 위한 수학식 (1) 및 (2) 에서의 나머지 동작들의 총 수는 (900+M)*(N+1)⁴ 이다. 차수 N=4 및 M=22 스피커들을 갖는 렌더링 매트릭스의 경우, 복잡도는 대략 0.58 가중된 MOPS이다. 본 개시물의 다른 제안된 기법에 따르면, 오디오 디코딩 디바이스 (24) 는 스크린 관련 렌더링 매트릭스를 생성하기 위해 예비 효과 매트릭스와 소리크기 (loudness) 보상을 사용할 수도 있다. 위에서 설명된 방식으로 900 개의 동일하게 이격된 샘플링 포인트들을 사용하는 것과 비교할 때, 예비 효과 매트릭스와 소리크기 보상을 사용하는 것은 소망하는 품질을 여전히 성취하면서도, 오디오 디코딩 디바이스 (24) 에서 프로세싱 복잡도를 감소시킬 수도 있다. 렌더링 매트릭스를 고려하지 않고 효과 매트릭스를 컴퓨팅함으로써, 오디오 디코딩 디바이스 (24) 는, 동일한 평면에 위치된 모든 스피커들을 갖는 경향이 있는 일부 스피커 구성들, 이를테면 5.1 또는 7.1 스피커 구성들에 대한 사운드 품질의 측면에서 이점을 거의 또는 전혀 제공하지 않으면서도, 계산 복잡도를 상당히 증가시킬 수도 있다. 덧붙여, 특정한 HOA 도메인 컴퓨테이션들을 라우드스피커 도메인 컴퓨테이션들로 대체함으로써, 오디오 디코딩 디바이스 (24) 는 전체 계산 복잡도를 감소시킬 수도 있는데, HOA 도메인 컴퓨테이션들이 라우드스피커 도메인 컴퓨테이션들과 비교하여 상대적으로 복잡한 경향이 있어서이다.

오디오 디코딩 디바이스 (24) 는

-M > (N+1)² 이며, N은 HOA 차수인

M 개의 등거리 공간적 방향들에 기초하여 매핑을 컴퓨팅할 수도 있다.

오디오 디코딩 디바이스 (24) 는 라우드스피커 피드 도메인에서의, 원래의 렌더링 매트릭스 ( R ) 로 렌더링된 이들 방향들에 연관된 HOA 계수들로부터인 예비 효과 매트릭스 (

) 를 다음:

과 같이 컴퓨팅할 수도 있다.

본 개시물의 양태들에 따르는 다른 예에서, 오디오 디코딩 디바이스 (24) 는 원래의 렌더링 매트릭스 ( R ) 로 렌더링되는 이들 방향들에 연관된 HOA 계수들로부터, 라우드스피커 피드 도메인에 있는 예비 효과 매트릭스 (

) 를 다음:

과 같이 컴퓨팅할 수도 있으며, 여기서

는 DIS, 부록 F.1.5에서 설명된 바와 같다.

본 개시물의 양태들에 따르는 다른 예들에서, 오디오 디코딩 디바이스 (24) 는 렌더링 매트릭스 ( R ) 를 사용하는 일 없이 예비 효과 매트릭스 (

) 를 컴퓨팅할 수도 있다. 이들 예들에 따르면, 오디오 디코딩 디바이스 (24) 는 원래의 렌더링 매트릭스 ( R ) 로 렌더링되는 이들 방향들에 연관된 HOA 계수들로부터, HOA 도메인에 있는 예비 효과 매트릭스 (

) 를 다음:

과 같이 컴퓨팅할 수도 있으며, 여기서

는 DIS, 부록 F.1.5에서 설명된 바와 같다.

본 개시물에 따르는 일부 예들에 따르면, 오디오 디코딩 디바이스 (24) 는 라우드스피커 피드 도메인에 있는 최종 매트릭스 ( F ) 에 대해 각각의 공간적 방향 (l ) 에 대한 소리크기 보상을 다음과 같이 적용할 수도 있다:

.

본 개시물의 양태들에 따르는 예들에서, 오디오 디코딩 디바이스 (24) 는 라우드스피커 피드 도메인에 있는 최종 매트릭스 ( F ) 에 대해 각각의 공간적 방향 (l ) 에 대한 소리크기 보상을 다음과 같이 적용할 수도 있다:

.

예비 효과 매트릭스 (

) (예컨대, HOA 도메인에 있음) 가 렌더링 매트릭스 ( R ) 를 사용하는 일 없이 컴퓨팅되는 본 개시물의 다른 예들에서, 오디오 디코딩 디바이스 (24) 는 최종 매트릭스 ( F ) (예컨대, HOA 도메인에 있음) 에 대해 각각의 공간적 방향 (l ) 에 대한 소리크기 보상을 다음과 같이 적용할 수도 있다:

.

일부 예들에서, 오디오 디코딩 디바이스 (24) 는 대응하는 비디오 데이터에 영향을 미치는 관점 변경들을 수용하는 모드 매트릭스

을 동적으로 생성하기 위해 본 개시물의 기법들을 구현할 수도 있다. 오디오 디코딩 디바이스 (24) 는 다양한 본 명세서에서 논의되는 관점 파라미터들 중 임의의 하나 이상의 관점 파라미터에 기초하여 모드 매트릭스

을 다루는 기법들을 구현할 수도 있다는 것이 이해될 것이다. 예로서, 모드 매트릭스

의 동적 관점 기반 업데이팅은 비디오 데이터의 줌잉 정보에 대해 아래에서 설명된다. 동적 줌잉 이벤트 동안, 오디오 디코딩 디바이스 (24) 는 동적으로 업데이트된 모드 매트릭스

를 사용하여 새로운 효과 매트릭스 (F ) 를 컴퓨팅할 수도 있다. 동적 줌잉 이벤트에 대한 종료를 검출 시 (예컨대, 줌잉 스테이터스가 이제 정적임을 검출 시), 오디오 디코딩 디바이스 (24) 는 사용되는 공간적 샘플링 포인트들의 수 ('M') 가 900인 모드 매트릭스

로 되돌아갈 수도 있다. 아래에서 추가로 더 상세히 설명되는 바와 같이, 오디오 디코딩 디바이스 (24) 는 컴퓨팅 리소스 사용량을 보존하면서도 동적 줌잉 이벤트들을 수용하기 위해 본 개시물의 스크린 기반 적응 기법들을 구현할 수도 있다.

오디오 디코딩 디바이스 (24) 가 동적 줌 이벤트들을 수용하기 위해 구현할 수도 있는 본 개시물의 스크린 기반 적응 기법들의 일 예가, 아래에서 요약된 단계들을 사용하여 (예컨대, 오디오 디코딩 디바이스 (24) 의 컴포넌트들의 다양한 조합들에 의해) 수행될 수도 있다. 첫째, 오디오 디코딩 디바이스 (24) 는 DIS 23008의 부록 F.1.5에서 요약된 바와 같이 모드 매트릭스

을 생성할 수도 있다. 오디오 디코딩 디바이스 (24) 가 대응하는 비디오 콘텐츠의 관점이 정적임을 (예컨대, 줌 이벤트가 현재 일어나지 않음을) 검출한다면, 오디오 디코딩 디바이스 (24) 는 'M'의 값을 900 (구백) 인 것으로 설정할 수도 있다. 다르게 말하면, 정적 관점의 경우, 오디오 디코딩 디바이스 (24) 는 총 900 개 샘플링 포인트들을 사용하여 모드 매트릭스

을 생성할 수도 있다. 그러나, 비디오 데이터가 줌잉 이벤트 (줌-인 또는 줌-아웃 중 어느 하나) 를 현재 받고 있다고 오디오 디코딩 디바이스 (24) 가 검출한다면, 오디오 디코딩 디바이스 (24) 는 그 수의 샘플 포인트들을 동적으로 생성할 수도 있다.

본 개시물의 일부 양태들에 따르면, 진행중인 줌잉 이벤트 동안, 오디오 디코딩 디바이스 (24) 는 오디오 데이터의 HOA 차수를 컴퓨테이션 파라미터로서 사용하여 모드 매트릭스

을 컴퓨팅할 수도 있다. 예를 들면, 오디오 디코딩 디바이스 (24) 는 다음의 공식:

에 따라 샘플링 포인트들의 수를 컴퓨팅할 수도 있다. 이 예에서, 'M'은 샘플링 포인트들의 수를 나타내고, 'N'은 앰비소닉 계수들을 나타낸다. 따라서, 스크린 기반 적응에서의 동적 줌 조절 (accommodation) 의 이들 예들에 따르면, 오디오 디코딩 디바이스 (24) 는 최고 차수 계수들이 제 4 (4차) 차수이면 모드 매트릭스를 생성하기 위해 36 개의 샘플링 포인트들을 사용할 것이다. 더 구체적으로는, 이 특정 예에서, 'N' = 4는, 위의 수학식을 풀 때 'M'에 대해 36의 값을 산출한다. 이 수학식을 다른 사용 사례 시나리오들에 적용하면, 오디오 디코딩 디바이스 (24) 는 최고 차수 계수들이 제 5 (5차) 차수이면 모드 매트릭스를 생성하기 위해 49 개 샘플링 포인트들을 사용할 것이거나, 또는 오디오 디코딩 디바이스 (24) 는 최고 차수 계수들이 제 6 (6차) 차수이면 모드 매트릭스를 생성하기 위해 64 개 샘플링 포인트들을 사용할 것이다. DIS 23008의 부록 F.9에서 정의된 바와 같이, 'M' 개 샘플링 포인트들의 방향들은 (θ,φ) 에 의해 주어진다.

둘째, 오디오 디코딩 디바이스 (24) 는 DIS 23008의 18.3 절에서 정의된 매핑 함수를 사용하여 M 개 샘플링 포인트들의 방향들을 수정할 수도 있다. 'M'의 컴퓨테이션 및 수정된 방향들에 기초하여, 오디오 디코딩 디바이스 (24) 는 모드 매트릭스

을 컴퓨팅할 수도 있다. 위에서 설명된 바와 같이, DIS 23008의 부록 F.1.5에 따르면 모드 매트릭스

이다.

셋째, 오디오 디코딩 디바이스 (24) 는 예비 효과 매트릭스

(예컨대, HOA 도메인에 있음) 를 다음과 같이 컴퓨팅하거나 또는 생성할 수도 있으며:

여기서

는 모드 매트릭스

의 의사-역 (pseudo-inverse) 을 나타낸다.

넷째, 오디오 디코딩 디바이스 (24) 는 각각의 공간적 방향에 대해 HOA 렌더링 매트릭스 (R) 를 사용함으로써 소리크기 값을 컴퓨팅할 수도 있다. 더 구체적으로는, 본 명세서에서 설명되는 예시적인 작업흐름에 따르면, 오디오 디코딩 디바이스 (24) 는 DIS의 12.4.3.2 절에 정의된 바와 같은 HOA 렌더링 매트릭스 (R) 를 사용할 수도 있다. 공간적 방향들은 본 명세서에서 l=1...M으로서 나타내어진다. 예를 들면, 오디오 디코딩 디바이스 (24) 는 소리크기 정정 값을 다음의 공식에 따라 컴퓨팅할 수도 있다:

다섯째, 오디오 디코딩 디바이스 (24) 는 위에서 설명된 바와 같이 컴퓨팅된 모드 매트릭스를 사용하여 최종 효과 매트릭스를 컴퓨팅할 수도 있다. 예를 들면, 오디오 디코딩 디바이스 (24) 는 HOA 도메인에 있는 최종 효과 매트릭스 (F) 를 다음의 공식:

에 따라 컴퓨팅할 수도 있으며, 여기서

는 벡터 A를 포함하는 대각 매트릭스를 나타낸다.

여섯째, 오디오 디코딩 디바이스 (24) 는 새로운 렌더링 매트릭스를, 공식 D = RF 에 따라 컴퓨팅할 수도 있다. 본 개시물의 줌 의존적 적응 기법들에 따르면, 로컬 줌 정보가 오디오 디코딩 디바이스 (24) 에 이용 가능하지 않다면, 오디오 디코딩 디바이스 (24) 는 어떠한 줌잉 기반 적응도 모드 매트릭스

의 생성 또는, 그 결과로서, 최종 효과 매트릭스 (

) 에 적용하지 않을 수도 있다. 따라서, 본 개시물의 동적 줌 조절 기법들에 따르면, 오디오 디코딩 디바이스 (24) 는 고차 앰비소닉들에 대한 스크린 관련 프로세싱에 대해 설명된 바와 같은 동일한 알고리즘 원리들을 적용할 수도 있지만, 오디오 디코딩 디바이스 (24) 는 LocalZoomAreaSize() 인터페이스에 의해 제공된 데이터에 따라 런타임으로 렌더링 매트릭스를 적응시킬 수도 있다. 동적 줌잉 이벤트가 종료되었음 (예컨대, 스크린 콘텐츠의 관점이 이제 정적임) 을 검출 시, 오디오 디코딩 디바이스 (24) 는 'M'에 대해 900의 값으로 되돌아갈 수도 있다. 다르게 말하면, 오디오 디코딩 디바이스 (24) 는 모드 매트릭스를 생성함에 있어서 900 개 샘플링 포인트들을 사용하여 되돌아갈 수도 있다.

동적 줌잉 이벤트 동안, 오디오 디코딩 디바이스 (24) 는 방향들이 DIS의 부록 F.2 내지 F.9에서 주어지는 M=(N+ 2) ² 개의 동일하게 이격된 샘플링 포인트들을 갖는 모드 매트릭스

에 기초하여 새로운 효과 매트릭스 ( F ) 를 컴퓨팅할 수도 있다. 일단 줌이 고정됨을 오디오 디코딩 디바이스 (24) 가 검출하면, 오디오 디코딩 디바이스 (24) 는 위에서 설명된 바와 같은 M=900 개의 공간적 샘플링 포인트들을 갖는 모드 매트릭스

에 기초하여 새로운 효과 매트릭스 ( F ) 를 컴퓨팅할 수도 있다. 줌 이벤트들이 본 명세서에서는 입력 디바이스 (예컨대, 마우스 및/또는 키보드) 또는 입력/출력 디바이스 (예컨대, 터치스크린 또는 용량성 스타일러스 작동 스크린) 를 통해 공급되는 핀치 또는 핀치-아웃 제스처들로 설명되지만, 줌 이벤트들은 다른 자극들 (예컨대, 다른 유형들의 사용자 입력) 에도 응답하여 트리거될 수도 있다는 것이 이해될 것이다.

본 개시물의 동적 줌 조정은 현존 기법들을 넘어서는 하나 이상의 잠재적 이점들 및 개선들을 제공할 수도 있다. 예를 들면, 동적 줌 이벤트 동안 모드 매트릭스를 컴퓨팅함에 있어서 사용되는 샘플링 포인트들의 수를 감소시킴으로써, 오디오 디코딩 디바이스 (24) 는 오디오 피드들의 렌더링 동안 스크린 기반 적응을 해결함에 있어서 계산 복잡도와 리소스 지출을 줄이기 위해 본 개시물의 기법들을 구현할 수도 있다. 위에서 설명된 바와 같이, 일부 시나리오들에서, 오디오 디코딩 디바이스 (24) 는 줌 이벤트 동안 900에서부터 36으로 샘플링 포인트들을 감소시킬 수도 있다. 모드 매트릭스 컴퓨테이션 동안 계산 복잡도를 감소시킴으로써, 오디오 디코딩 디바이스 (24) 는 줌 이벤트 동안에만 감소된 품질의 오디오 피드들을 전달하면서도, 스크린 기반 적응을 더 효율적으로 수행하기 위해 본 개시물의 기법들을 구현할 수도 있다. 결국, 오디오 디코딩 디바이스 (24) 는 일단 줌이 완료되면 오디오 피드 품질을 복원할 수도 있다.

일부 예들에서, 오디오 디코딩 디바이스 (24) 는 특정 신택스 엘리먼트가 가능하게 된 경우에만 본 개시물의 스크린 관련 적응 기법들을 수행할 수도 있다. 예를 들면, 이들 예들에서, 오디오 디코딩 디바이스 (24) 는 DIS의 표 119의 HOAConfig() 섹션에서의 isScreenRelative 플래그가 (예컨대, 1의 값으로 설정된) 인에이블된 상태로 시그널링되는 경우에만 모드 매트릭스의 스크린 관련 적응을 수행할 수도 있다. 다른 방식으로 말하면, 이들 예들에서, 오디오 디코딩 디바이스 (24) 는 오디오 디코딩 디바이스 (24) 가, 비트스트림에서, (예컨대, 1의 값으로 설정된) 인에이블된 상태에서 isScreenRelative 플래그를 수신하는 경우에만 모드 매트릭스의 스크린 관련 적응을 수행할 수도 있다.

덧붙여, 본 개시물의 하나 이상의 양태들에 따르면, 오디오 디코딩 디바이스 (24) 는 초기화 페이즈 동안 HOA 렌더링 매트릭스만을 컴퓨팅할 수도 있다. 예를 들면, 오디오 디코딩 디바이스 (24) 는, 본 개시물의 스크린 관련 적응 기법들이 음장을 위해 사용되는 HOA 렌더링 매트릭스를 수정하기 때문에, HOA 렌더링 매트릭스 컴퓨테이션을 초기화 페이즈로 제한할 수도 있다. 로컬 스크린 사이즈 정보가 오디오 디코딩 디바이스 (24) 에 이용 가능하지 않다면, 오디오 디코딩 디바이스 (24) 는 임의의 스크린 관련 적응을 적용하지 않을 수도 있다. 일부 예들에서, 오디오 디코딩 디바이스 (24) 가 방위각 스크린 사이즈 정보에만 액세스하는 경우들에서, 오디오 디코딩 디바이스 (24) 는 수직 차원에서 어떠한 스크린 관련 적응도 적용하지 않을 수도 있다.

소리크기 보상을 수행함으로써, 오디오 디코딩 디바이스 (24) 는, 예를 들어, 매핑의 효과들을 보상할 수도 있다. 위의 예에서, l은 1부터 대문자 M까지의 공간적 방향이고, A(l) 은 A1 내지 Am 엔트리들을 갖는 벡터이다. "diag(A)"는 A(l) 에 대응하는 대각 엔트리들을 갖는 매트릭스를 표현하고, 그 매트릭스에서의 다른 로케이션들은 0과 동일하다. 위에서 설명된 기법들은 효과 매트릭스의 공간적 스트레칭 및/또는 스퀴징에 의해 야기된 바람직하지 않은 방향 의존적 소리크기 차이들을 등화시키기 위해 오디오 디코딩 디바이스 (24) 가 사용할 수도 있는 소리크기 보상 단계를 포함한다. 예비 효과 매트릭스와 결과적인 효과 매트릭스 (F) 는 라우드스피커 신호 도메인에 있다.

오디오 디코딩 디바이스 (24) 는 그 다음에 다음과 같이 스크린 관련 렌더링 매트릭스를 컴퓨팅할 수도 있다:

D = FR .

본 개시물의 스크린 기반 적응 기법들의 제 1 예가 도 7 내지 도 11을 참조하여 이제 설명될 것이다. 도 7a는 기준 스크린에 대한 방위각을 뷰잉 윈도우에 대한 방위각에 매핑하는데 사용될 수도 있는 매핑 함수의 일 예를 도시한다. 도 7b는 기준 스크린에 대한 앙각 각도를 뷰잉 윈도우에 대한 앙각 각도로 매핑하는데 사용될 수도 있는 매핑 함수의 일 예를 도시한다. 도 7a 및 도 7b의 예에서, 기준 스크린의 각도들은 29 내지 -29 도 방위각과 16.3 내지 -16.3 도 앙각이고, 뷰잉 윈도우의 각도들은 58 내지 -58 도 방위각과 32.6 내지 -32.6 도 앙각이다. 따라서, 도 7a 및 도 7b의 예에서, 뷰잉 윈도우는 기준 스크린의 두 배이다.

본 개시물에서 사용된 바와 같이, 뷰잉 윈도우가 비디오를 재생하기 위해 사용되는 스크린의 전체 또는 부분을 지칭할 수도 있다. 본 개시물의 양태들에 따라서 사용될 수 있는 텔레비전이, 다양한 예들에서, 통합된 디바이스, 이를테면 하나 이상의 스피커 및/또는 디스플레이를 포함하는 디바이스를 나타낼 수도 있다. 다양한 예들에서, 텔레비전은 유선 및/또는 무선 (예컨대, 이더넷® 또는 WiFi®) 접속들을 통해 수신되는 시청각 비트스트림들을 텔레비전이 프로세싱할 수 있다는 점에서 이른바 "스마트" 텔레비전 또는 스마트 TV일 수도 있다. 스마트 텔레비전 또는 "스마트 TV"는 메모리 디바이스(들) 및 하나 이상의 프로세서와 함께, 통신 인터페이스 (예컨대, Ethernet® 카드 또는 WiFi® 카드) 를 포함할 수도 있다. 텔레비전, 태블릿, 폰 또는 다른 이러한 디바이스 상에서 풀 스크린 모드로 영화를 플레이백할 때, 뷰잉 윈도우는 디바이스의 전체 스크린에 해당할 수도 있다. 다른 예들에서, 그러나, 뷰잉 윈도우는 디바이스의 전체 스크린 미만에 해당할 수도 있다. 예를 들어, 네 개의 스포츠 경기들을 동시에 플레이백하는 디바이스가 하나의 스크린 상에 네 개의 별개의 뷰잉 윈도우들을 포함할 수도 있거나, 또는 디바이스가 비디오를 플레이백하기 위한 단일 뷰잉 윈도우를 가지고 다른 콘텐츠를 디스플레이하기 위해 나머지 스크린 영역을 사용할 수도 있다. 뷰잉 윈도우의 시야는 뷰잉 윈도우의 물리적 사이즈 및/또는 뷰잉 윈도우에서부터 관람 로케이션까지의 (측정되거나 또는 가정된 중 어느 하나인) 거리 같은 파라미터들에 기초하여 결정될 수도 있다. 시야는, 예를 들어, 방위각들 및 앙각 각도들에 의해 설명될 수도 있다.

본 개시물에서 사용되는 바와 같이, 기준 스크린이 HOA 오디오 데이터의 음장에 대응하는 시야를 지칭한다. 예를 들어, HOA 오디오 데이터는 특정한 시야 (즉, 기준 스크린) 에 대해 생성 또는 캡처될 수도 있지만 상이한 시야 (예컨대, 뷰잉 윈도우의 시야) 에 대해 재생될 수도 있다. 본 개시물에서 설명되는 바와 같이, 기준 스크린은 오디오 디코더가 기준 스크린과는 사이즈, 로케이션, 또는 기타 이러한 특성에서 상이한 스크린 상의 로컬 플레이백을 위해 HOA 오디오 데이터를 적응시킬 수도 있는 기준을 제공한다. 설명의 목적을 위해, 본 개시물에서의 특정한 기법들이 생성 스크린과 재생 스크린을 참조하여 설명될 수도 있다. 이들 동일한 기법들은 기준 스크린들 및 뷰잉 윈도우들에 적용 가능하다는 것이 이해되어야 한다.

도 8은 제 1 예를 위한 기준 스크린 및 뷰잉 윈도우의 효과로서 음장의 원하는 스크린 관련 확장 효과를 위한 벡터장을 도시한다. 도 8에서, 도트들은 매핑 목적지에 해당하는 한편, 도트들로 가는 라인들은 매핑 트레일들에 해당한다. 파선 직사각형은 기준 스크린 사이즈에 대응하고, 실선 직사각형은 뷰잉 윈도우 사이즈에 대응한다.

도 9는 스크린 관련 효과가 콘텐츠의 HOA 차수의 증가를 야기할 수도 있는 방법의 일 예를 도시한다. 도 9의 예에서, 효과 매트릭스는 3차 입력 재료로부터 49 개의 HOA 계수들 (6차) 을 생성하도록 컴퓨팅된다. 그러나, 만족스러운 결과들은 매트릭스가 (N+1)² x (N+1)² 개 엘리먼트들을 갖는 정방 매트릭스로서 컴퓨팅된다면 또한 성취될 수도 있다

도 10은 효과 매트릭스가 라우드스피커 렌더링 매트릭스에 대해 미리 렌더링되고 적용되며, 따라서 런타임에서 별도의 컴퓨테이션을 요구하지 않을 수도 있는 방법의 일 예를 도시한다.

도 11은, 효과 매트릭스가 고차 콘텐츠 (예컨대, 6차) 를 초래할 수도 있다면, 이 차수의 렌더링 매트릭스가 최종 렌더링 매트릭스를 원래의 차수 (여기서 3차) 로 미리 컴퓨팅하기 위해 곱해질 수도 있는 방법의 일 예를 도시한다.

본 개시물의 스크린 기반 적응 기법들의 제 2 예가 도 12 및 도 13을 참조하여 이제 설명될 것이다. 도 12a는 기준 스크린에 대한 방위각을 뷰잉 윈도우에 대한 방위각에 매핑하는데 사용될 수도 있는 매핑 함수의 일 예를 도시한다. 도 12b는 기준 스크린에 대한 앙각 각도를 뷰잉 윈도우에 대한 앙각 각도로 매핑하는데 사용될 수도 있는 매핑 함수의 일 예를 도시한다. 도 12a 및 도 12b의 예에서, 기준 스크린의 각도들은 29 내지 -29 도 방위각과 16.3 내지 -16.3 도 앙각이고, 뷰잉 윈도우의 각도들은 29 내지 -29 도 방위각과 32.6 내지 -32.6 도 앙각이다. 따라서, 도 12a 및 도 12b의 예에서, 뷰잉 윈도우는 기준 스크린의 2배의 키이지만 동일한 폭이다. 도 12c는 제 2 예를 위한 컴퓨팅된 HOA 효과 매트릭스를 도시한다.

도 13은 제 2 예를 위한 기준 스크린 및 뷰잉 윈도우의 효과로서 음장의 원하는 스크린 관련 확장 효과를 위한 벡터장을 도시한다. 도 13에서, 도트들은 매핑 목적지에 해당하는 한편, 도트들로 가는 라인들은 매핑 트레일들에 해당한다. 파선 직사각형은 기준 스크린 사이즈에 대응하고, 실선 직사각형은 뷰잉 윈도우 사이즈에 대응한다.

본 개시물의 스크린 기반 적응 기법들의 제 3 예가 도 14 및 도 15를 참조하여 이제 설명될 것이다. 도 14a는 기준 스크린에 대한 방위각을 뷰잉 윈도우에 대한 방위각에 매핑하는데 사용될 수도 있는 매핑 함수의 일 예를 도시한다. 도 14b는 기준 스크린에 대한 앙각 각도를 뷰잉 윈도우에 대한 앙각 각도로 매핑하는데 사용될 수도 있는 매핑 함수의 일 예를 도시한다. 도 14a 및 도 14b의 예에서, 기준 스크린의 각도들은 29 내지 -29 도 방위각과 16.3 내지 -16.3 도 앙각이고, 뷰잉 윈도우의 각도들은 58 내지 -58 도 방위각과 16.3 내지 -16.3 도 앙각이다. 따라서, 도 14a 및 도 14b의 예에서, 뷰잉 윈도우는 폭이 기준 스크린 두 배이지만 기준 스크린과는 동일한 높이이다. 도 14c는 제 3 예를 위한 컴퓨팅된 HOA 효과 매트릭스를 도시한다.

도 15는 제 3 예를 위한 기준 스크린 및 뷰잉 윈도우의 효과로서 음장의 원하는 스크린 관련 확장 효과를 위한 벡터장을 도시한다. 도 15에서, 도트들은 매핑 목적지에 해당하는 한편, 도트들로 가는 라인들은 매핑 트레일들에 해당한다. 파선 직사각형은 기준 스크린 사이즈에 대응하고, 실선 직사각형은 뷰잉 윈도우 사이즈에 대응한다.

본 개시물의 스크린 기반 적응 기법들의 제 4 예가 도 16 및 도 17을 참조하여 이제 설명될 것이다. 도 16a는 기준 스크린에 대한 방위각을 뷰잉 윈도우에 대한 방위각으로 매핑하는데 사용될 수도 있는 매핑 함수의 일 예를 도시한다. 도 16b는 기준 스크린에 대한 앙각 각도를 뷰잉 윈도우에 대한 앙각 각도로 매핑하는데 사용될 수도 있는 매핑 함수의 일 예를 도시한다. 도 16a 및 도 16b의 예에서, 기준 스크린의 각도들은 29 내지 -29 도 방위각과 16.3 내지 -16.3 도 앙각이고, 뷰잉 윈도우의 각도들은 49 내지 -9 도 방위각과 16.3 내지 -16.3 도 앙각이다. 따라서, 도 14a 및 도 14b의 예에서, 뷰잉 윈도우는 폭이 기준 스크린 두 배이지만 기준 스크린과는 동일한 높이이다. 도 16c는 제 3 예를 위한 컴퓨팅된 HOA 효과 매트릭스를 도시한다.

도 17은 제 4 예를 위한 기준 스크린 및 뷰잉 윈도우의 효과로서 음장의 원하는 스크린 관련 확장 효과를 위한 벡터장을 도시한다. 도 17에서, 도트들은 매핑 목적지에 해당하는 한편, 도트들로 가는 라인들은 매핑 트레일들에 해당한다. 파선 직사각형은 기준 스크린 사이즈에 대응하고, 실선 직사각형은 뷰잉 윈도우 사이즈에 대응한다.

본 개시물의 스크린 기반 적응 기법들의 제 5 예가 도 18 및 도 19를 참조하여 이제 설명될 것이다. 도 18a는 기준 스크린에 대한 방위각을 뷰잉 윈도우에 대한 방위각으로 매핑하는데 사용될 수도 있는 매핑 함수의 일 예를 도시한다. 도 18b는 기준 스크린에 대한 앙각 각도를 뷰잉 윈도우에 대한 앙각 각도로 매핑하는데 사용될 수도 있는 매핑 함수의 일 예를 도시한다. 도 18a 및 도 18b의 예에서, 기준 스크린의 각도들은 29 내지 -29 도 방위각과 16.3 내지 -16.3 도 앙각이고, 뷰잉 윈도우의 각도들은 49 내지 -9 도 방위각과 16.3 내지 -16.3 도 앙각이다. 따라서, 도 18a 및 18b의 예에서, 뷰잉 윈도우는 기준 스크린을 기준으로 방위각 로케이션에서 시프트된다. 도 18c는 제 5 예를 위한 컴퓨팅된 HOA 효과 매트릭스를 도시한다.

도 19는 제 4 예를 위한 기준 스크린 및 뷰잉 윈도우의 효과로서 음장의 원하는 스크린 관련 확장 효과를 위한 벡터장을 도시한다. 도 19에서, 도트들은 매핑 목적지에 해당하는 한편, 도트들로 가는 라인들은 매핑 트레일들에 해당한다. 파선 직사각형은 기준 스크린 사이즈에 대응하고, 실선 직사각형은 뷰잉 윈도우 사이즈에 대응한다.

도 20a 내지 20f는 본 개시물에서 설명되는 오디오의 스크린 기반 적응을 위한 기법들의 다양한 양태들을 구현할 수도 있는 오디오 디코딩 디바이스 (900) 의 다른 예를 도시하는 블록도들이다. 간소함을 위해, 오디오 디코딩 디바이스 (900) 의 모든 양태들이 도 20a 내지 도 20f에 도시되지는 않는다. 오디오 디코딩 디바이스 (900) 의 특징들 및 기능들은 본 개시물에서 설명되는 다른 오디오 디코딩 디바이스들, 이를테면 도 2 및 도 4에 관해 위에서 설명된 오디오 디코딩 디바이스 (24) 의 특징들 및 기능들과 함께 구현될 수도 있다고 생각된다.

오디오 디코딩 디바이스 (900) 는 USAC 디코더 (902), HOA 디코더 (904), 로컬 렌더링 매트릭스 생성기 (906), 시그널링된/로컬 렌더링 매트릭스 결정기 (908), 및 라우드스피커 렌더러 (910) 를 포함한다. 오디오 디코딩 디바이스 (900) 는 인코딩된 비트스트림 (예컨대, MPEG-H 3D 오디오 비트스트림) 을 수신한다. USAC 디코더 (902) 및 HOA 디코더 (904) 는 위에서 설명된 USAC 및 HOA 오디오 디코딩 기법들을 사용하여 비트스트림을 디코딩한다. 로컬 렌더링 매트릭스 생성기 (906) 는 디코딩된 오디오를 플레이백하고 있는 것일 시스템의 로컬 라우드스피커 구성에 적어도 부분적으로 기초하여 하나 이상의 렌더링 매트릭스를 생성한다. 그 비트스트림은 인코딩된 비트스트림으로부터 디코딩될 수도 있는 하나 이상의 렌더링 매트릭스를 또한 포함할 수도 있다. 로컬/시그널링된 렌더링 매트릭스 결정기 (908) 는 오디오 데이터를 플레이백할 때 국부적으로 생성된 또는 시그널링된 렌더링 매트릭스들 중 어느 것을 사용할지를 결정한다. 라우드스피커 렌더러 (910) 는 선택된 렌더링 매트릭스에 기초하여 오디오를 하나 이상의 스피커에 출력한다.

도 20b는 오디오 디코딩 디바이스 (900) 의 다른 예를 도시하는 블록도이다. 도 20b의 예에서, 오디오 디코딩 디바이스 (900) 는 효과 매트릭스 생성기 (912) 를 더 포함한다. 효과 매트릭스 생성기 (912) 는 비트스트림으로부터 기준 스크린 사이즈를 결정하고, 대응하는 비디오 데이터를 디스플레이하기 위해 사용되고 있는 시스템에 기초하여, 뷰잉 윈도우 사이즈를 결정할 수도 있다. 기준 스크린 사이즈 및 뷰잉 윈도우 사이즈에 기초하여, 효과 매트릭스 생성기 (912) 는 로컬/시그널링된 렌더링 매트릭스 결정기 (908) 에 의해 선택된 렌더링 매트릭스 (R') 를 수정하기 위한 효과 매트릭스 (F) 를 생성할 수도 있다. 도 20b의 예에서, 라우드스피커 렌더러 (910) 는 수정된 렌더링 매트릭스 (D) 에 기초하여 오디오를 하나 이상의 스피커에 출력할 수도 있다. 도 20c의 예에서, 오디오 디코딩 디바이스 (900) 는 HOADecoderConfig() 에서 플래그 isScreenRelative flage == 1이면 그 효과만을 렌더링하도록 구성될 수도 있다.

본 개시물의 기법들에 따르면 효과 매트릭스 생성기 (912) 는 스크린 회전에 응답하여 효과 매트릭스를 또한 생성할 수도 있다. 효과 매트릭스 생성기 (912) 는, 예를 들어, 다음의 알고리즘에 따라 효과 매트릭스를 생성할 수도 있다. 새로운 매핑 함수를 위한 예시적인 알고리즘이, 의사코드로는, 다음과 같다:

%1. 상대적 스크린 매핑 파라미터를 컴퓨팅

originalWidth = originalAngles.azi(1) - originalAngles.azi(2);

originalHeight = originalAngles.ele(1) - originalAngles.ele(2);

newWidth = newAngles.azi(1) - newAngles.azi(2);

newHeight = newAngles.ele(1) - newAngles.ele(2);

%2. 기준 스크린의 중앙과 뷰잉 윈도우의 중앙을 찾음.

originalCenter.azi = originalAngles.azi(1) - originalWidth * 0.5;

originalCenter.ele = originalAngles.ele(1) - originalHeight * 0.5;

newCenter.azi = newAngles.azi(1) - newWidth * 0.5;

newCenter.ele = newAngles.ele(1) - newHeight * 0.5;

%3. 상대적 스크린 관련 매핑을 수행

heightRatio = newHeight/originalHeight;

widthRatio = newWidth/originalWidth;

생성 및 뷰잉 윈도우의 절대 포지션들이 아니라, heightRatio 및 widthRatio를 사용하는 MPEG-H 스크린 관련 매핑 함수를 사용한 동일하게 분산된 공간적 포지션의 매핑.

%4. 음장을 회전

originalCenter에서부터 newCenter로 (3.) 에서 프로세싱된 공간적 포지션을 회전시킴.

%5. HOA 효과 매트릭스를 컴퓨팅

원래의 공간적 포지션들과 (4.로부터의) 프로세싱된 공간적 포지션들을 사용

본 개시물의 기법들에 따르면 효과 매트릭스 생성기 (912) 는 스크린 회전에 응답하여 효과 매트릭스를 또한 생성할 수도 있다. 효과 매트릭스 생성기 (912) 는, 예를 들어, 다음의 알고리즘에 따라 효과 매트릭스를 생성할 수도 있다.

1. 상대적 스크린 매핑 파라미터를 컴퓨팅:

widthRatio = localWidth / productionWidth;

heightRatio = localHeight /productionHeight;

여기서:

productionWidth = production_Azi_L - production_Azi_R;

productionHeight = production_Ele_Top - production_Ele_Down;

localWidth = local_Azi_L - local_Azi_R;

localHeight = local_Ele_Top - local_Ele_Down;

2. 표준 (normative) 생성 스크린의 중심 좌표와 로컬 재생 스크린의 중심을 컴퓨팅:

productionCenter_Azi = production_Azi_L - productionWidth/2;

productionCenter_Ele = production_Ele_Top - productionHeight/2;

localCenter_Azi = local_Azi_L - localWidth/2;

localCenter_Ele = local_Ele_Top - localHeight/2;

3. 스크린 관련 매핑:

heightRatio 및 widthRatio를 사용하는 스크린 관련 매핑 함수를 갖는

을

으로 매핑.

4. 포지션들을 회전:

회전 커널 (R) 을 사용하여, productionCenter 좌표에서부터 localCenter 좌표로 공간적 포지션

을 회전시키켜,

이 초래되게 함

(3)

y-축 회전 (피치) z-축 회전 (요)

5. HOA 효과 매트릭스를 컴퓨팅:

(4)

여기서

은

으로부터 생성된 모드 매트릭스임.

도 20c는 오디오 디코딩 디바이스 (900) 의 다른 예를 도시하는 블록도이다. 도 20c의 예에서, 오디오 디코딩 디바이스 (900) 는 도 20b의 예에 대해 위에서 설명된 동일한 방식으로 일반적으로 동작하지만, 도 20c의 예에서, 효과 매트릭스 생성기 (912) 는 또한, 줌 동작을 위한 스케일링 계수를 결정하도록, 그리고 스케일링 정보, 기준 스크린 사이즈, 및 뷰잉 윈도우 사이즈에 기초하여, 로컬/시그널링된 렌더링 매트릭스 결정기 (908) 에 의해 선택된 렌더링 매트릭스 (R') 를 수정하기 위한 효과 매트릭스 (F) 를 생성하도록 구성된다. 도 20c의 예에서, 라우드스피커 렌더러 (910) 는 수정된 렌더링 매트릭스 (D) 에 기초하여 오디오를 하나 이상의 스피커에 출력할 수도 있다. 도 20c의 예에서, 오디오 디코딩 디바이스 (900) 는 HOADecoderConfig() 에서 플래그 isScreenRelativeHOA flag == 1이면 그 효과만을 렌더링하도록 구성될 수도 있다.

HOADecoderConfig() 신택스 테이블 (아래의 표 1에서 도시됨) 에서의 플래그 isScreenRelativeHOA는 스크린 관련 HOA 콘텐츠의 재생 윈도우 사이즈 (이는 "재생 스크린 사이즈"라고 또한 지칭될 수도 있음) 에의 적응을 가능하게 하기에 충분하다. 공칭 생성 스크린에 대한 정보는 메타데이터 오디오 엘리먼트의 부분으로서 별도로 시그널링될 수도 있다.

표 1 ― HOADecoderConfig () 의 신택스 , DIS 23008에서의 테이블 120

도 20d는 오디오 디코딩 디바이스 (900) 의 다른 예를 도시하는 블록도이다. 도 20d의 예에서, 오디오 디코딩 디바이스 (900) 는 소리크기 보상기 (914), 최종 효과 매트릭스 생성기 (916), 및 최종 렌더러 생성기 (918) 를 추가로 포함한다. 소리크기 보상기 (914) 는 위에서 설명된 바와 같이 소리크기 보상을 수행한다. 소리크기 보상기 (914) 는, 예를 들어, 위에서 설명된 바와 같이, 최종 매트릭스 (F) 에 적용되는 각각의 공간적 방향 (l ) 에 대한 소리크기 보상을 수행한다. 최종 효과 매트릭스 생성기 (916) 는 위에서 설명된 바와 같은 최종 효과 매트릭스를 생성한다. 최종 렌더러 생성기 (918) 는, 예를 들어, 위에서 설명된 D=FR 컴퓨테이션을 수행함으로써 최종 렌더링 매트릭스를 생성한다.

도 20e는 오디오 디코딩 디바이스 (900) 의 다른 예를 도시하는 블록도이다. 도 20e의 예에서, 예비 효과 매트릭스 및 효과 매트릭스 생성기 (912) 는 예비 효과 매트릭스 (F) 를 생성함에 있어서 입력으로서 원래의 렌더링 매트릭스 ( R ) 를 사용하지 않을 수도 있다.

도 20f는 오디오 디코딩 디바이스 (900) 의 다른 예를 도시하는 블록도이다. 도 20f의 예에서, 예비 효과 매트릭스 및 효과 매트릭스 생성기 (912) 는 모드 매트릭스를 생성함에 있어서 추가적인 파라미터로서 로컬 줌 사이즈를 사용할 수도 있다. 일부 예들에서, 예비 효과 매트릭스 및 효과 매트릭스 생성기 (912) 는 모드 매트릭스를 생성함에 있어서 파라미터로서 줌잉된 윈도우 (예컨대, 기준 윈도우와 비교하여 줌-인 또는 줌-아웃되는 윈도우) 의 로컬 줌 사이즈를 사용한다. 예를 들면, 예비 효과 매트릭스 및 효과 매트릭스 생성기 (912) 는, 이를테면 오디오 디코딩 디바이스 (24) 의 다른 컴포넌트들로부터 수신된 데이터를 프로세싱함으로써, 사용자 개시 줌 커맨드를 검출할 수도 있다. 결국, 예비 효과 매트릭스 및 효과 매트릭스 생성기 (912) 는 사용자 개시 줌 커맨드를 통해 제공되는 줌잉 특성들을 나타내는 특정 줌잉 동작의 파라미터들에 기초하여 FOV 파라미터들 (예컨대, 수정된 방위각 및/또는 수정된 앙각 각도 정보 중 하나 이상) 를 획득할 수도 있다. 예비 효과 매트릭스 및 효과 매트릭스 생성기 (912) 는 모드 매트릭스를 생성함에 있어서 줌잉 동작에 대응하는 FOV 파라미터들을 포함할 수도 있다. 이와 같이, 도 20f는 위에서 설명된 동적 줌 적응 기법들을 수행하도록 구성되는 오디오 디코딩 디바이스 (900) 의 예시적인 구현예를 도시한다.

본 개시물의 오디오 플레이백 시스템, 이를테면 오디오 플레이백 시스템 (16) 은, 렌더링 매트릭스에 기초하여 예비 효과 매트릭스를 생성하고 그 예비 효과 매트릭스에 기초하여 HOA 오디오 신호를 렌더링하도록 구성될 수도 있다. 오디오 플레이백 시스템 (16) 은, 예를 들어, 스피커 구성에 기초하여 렌더링 매트릭스를 결정하도록 구성될 수도 있다. 오디오 플레이백 시스템 (16) 은 예비 효과 매트릭스에 기초하여 최종 렌더링 매트릭스를 생성하고 예비 효과 매트릭스에 기초하여 HOA 오디오 신호를 렌더링할 수도 있다. 오디오 플레이백 시스템 (16) 은, 예를 들어, 기준 스크린의 하나 이상의 시야 (FOV) 파라미터 및 뷰잉 윈도우의 하나 이상의 FOV 파라미터에 기초하여 예비 효과 매트릭스를 생성할 수도 있다. 예비 효과 매트릭스를 생성하기 위해, 오디오 플레이백 시스템 (16) 은 스크린 관련 적응에 응답하여 공간적 방향들의 매핑을 수행하고 공간적 방향들에 연관된 HOA 계수들에 기초하여 예비 효과 매트릭스를 컴퓨팅하도록 구성될 수도 있다. 이러한 예들에서, 예비 효과 매트릭스는 국부적으로 생성된 예비 효과 매트릭스일 수도 있다. 오디오 플레이백 시스템 (16) 은 또한, 렌더링 매트릭스에 기초하여 복수의 공간적 방향들에 대한 소리크기를 보상하도록 구성될 수도 있다.

본 개시물의 오디오 플레이백 시스템, 이를테면 오디오 플레이백 시스템 (16) 이, 효과 매트릭스를 생성하는 부분으로서 소리크기 보상 프로세스를 수행하고, 효과 매트릭스에 기초하여 HOA 오디오 신호를 렌더링하도록 부가적으로 또는 대안적으로 구성될 수도 있다. 소리크기 보상 프로세스를 수행하기 위해, 오디오 플레이백 시스템 (16) 은 렌더링 매트릭스에 기초하여 복수의 공간적 방향들에 대한 소리크기를 보상할 수도 있다. 소리크기 보상 프로세스를 수행하기 위해, 오디오 플레이백 시스템 (16) 은 렌더링 매트릭스에 기초하여 복수의 공간적 방향들에 대한 소리크기를 보상할 수도 있다. 소리크기 보상 프로세스를 수행하기 위해, 오디오 플레이백 시스템 (16) 은 매핑 함수에 기초하여 복수의 공간적 방향들에 대한 소리크기를 보상하도록 구성될 수도 있다. 소리크기 보상 프로세스를 수행하기 위해, 오디오 플레이백 시스템 (16) 은 복수의 원래의 사운드 로케이션들 및 복수의 대응하는 매핑된 목적지들 (예컨대, 도 15 내지 도 19에서의 매핑 목적지들) 사이의 최소 에러를 결정하도록 구성될 수도 있다. 소리크기 보상 프로세스를 수행하기 위해, 오디오 플레이백 시스템 (16) 은 복수의 원래의 사운드 로케이션들 및 복수의 대응하는 매핑된 목적지들 사이의 에너지 정규화를 수행하도록 구성될 수도 있다.

본 개시물의 오디오 플레이백 시스템, 이를테면 오디오 플레이백 시스템 (16) 이, 기준 스크린의 하나 이상의 FOV 파라미터 (예컨대, FOV 파라미터들 (13')) 및 뷰잉 윈도우의 하나 이상의 FOV 파라미터에 기초하여, 하나 이상의 스피커 (예컨대, 스피커들 (3)) 를 통해 HOA 오디오 신호를 렌더링함으로써 HOA 오디오 신호를 렌더링하도록 구성될 수도 있다. 렌더링은, 예를 들어, 사용자 개시 줌 동작에 응답하여 획득된 스케일링 계수에 추가로 기초할 수도 있다. 일부 예들에서, 기준 스크린에 대한 하나 이상의 FOV 파라미터는 기준 스크린의 중심의 로케이션과 뷰잉 윈도우의 중심의 로케이션을 포함할 수도 있다.

오디오 플레이백 시스템 (16) 은, 예를 들어, HOA 오디오 신호를 포함하는 인코딩된 오디오 데이터의 비트스트림을 수신할 수도 있다. 인코딩된 오디오 데이터는 대응하는 비디오 데이터와 연관될 수도 있다. 오디오 플레이백 시스템 (16) 은 비트스트림으로부터 대응하는 비디오 데이터에 대한 기준 스크린의 하나 이상의 FOV 파라미터 (예컨대, FOV 파라미터들 (13')) 을 획득할 수도 있다.

오디오 플레이백 시스템 (16) 은 대응하는 비디오 데이터를 디스플레이하기 위한 뷰잉 윈도우의 하나 이상의 FOV 파라미터를 또한 획득할 수도 있다. 뷰잉 윈도우의 FOV 파라미터들은 사용자 입력, 자동화된 측정값들, 디폴트 값들 등의 임의의 조합에 국부적으로 기초하여 결정될 수도 있다.

오디오 플레이백 시스템 (16) 은 뷰잉 윈도우의 하나 이상의 FOV 파라미터 및 기준 스크린의 하나 이상의 FOV 파라미터에 기초하여, 오디오 렌더러들 (22) 로부터, 인코딩된 오디오 데이터를 위한 렌더러를 결정하며, 오디오 렌더러들 (22) 중 하나의 오디오 렌더러를 수정하고, 수정된 렌더러 및 인코딩된 오디오 데이터에 기초하여, 하나 이상의 스피커를 통해 HOA 오디오 신호를 렌더링할 수도 있다. 오디오 플레이백 시스템 (16) 은 줌 동작이 수행될 때 추가로 스케일링 계수에 기초하여 오디오 렌더러들 (22) 중 하나의 오디오 렌더러를 수정할 수도 있다.

오디오 플레이백 시스템 (16) 은, 예를 들어, 하나 이상의 스피커의 공간적 기하구조 및/또는 플레이백을 위해 이용 가능한 스피커들의 수를 포함하지만 이에 제한될 필요 없는 스피커 구성에 기초하여, 인코딩된 오디오 데이터를 위한 렌더러를 결정할 수도 있다.

오디오 렌더러들 (22) 은, 예를 들어, 인코딩된 오디오 데이터를 재생 포맷으로 변환하는 알고리즘을 포함하며 그리고/또는 렌더링 포맷을 이용할 수도 있다. 렌더링 포맷은, 예를 들어, 매트릭스, 레이 (ray), 라인, 또는 벡터 중 임의의 것을 포함할 수도 있다. 오디오 렌더러들 (22) 은 비트스트림으로 시그널링되거나 또는 플레이백 환경에 기초하여 결정될 수도 있다.

기준 스크린에 대한 하나 이상의 FOV 파라미터는 기준 스크린에 대한 하나 이상의 방위각을 포함할 수도 있다. 기준 스크린에 대한 하나 이상의 방위각은 기준 스크린에 대한 좌측 방위각과 기준 스크린에 대한 우측 방위각을 포함할 수도 있다. 기준 스크린에 대한 하나 이상의 FOV 파라미터는 기준 스크린에 대한 하나 이상의 앙각 각도를 대안적으로 또는 부가적으로 포함할 수도 있다. 기준 스크린에 대한 하나 이상의 앙각 각도는 기준 스크린에 대한 상부 앙각 각도와 기준 스크린에 대한 하부 앙각 각도를 포함할 수도 있다.

뷰잉 윈도우에 대한 하나 이상의 FOV 파라미터는 뷰잉 윈도우에 대한 하나 이상의 방위각을 포함할 수도 있다. 뷰잉 윈도우에 대한 하나 이상의 방위각은 뷰잉 윈도우에 대한 좌측 방위각과 뷰잉 윈도우에 대한 우측 방위각을 포함할 수도 있다. 뷰잉 윈도우에 대한 하나 이상의 FOV 파라미터는 뷰잉 윈도우에 대한 하나 이상의 방위각을 포함할 수도 있다. 뷰잉 윈도우에 대한 하나 이상의 앙각 각도는 뷰잉 윈도우에 대한 상부 앙각 각도와 뷰잉 윈도우에 대한 하부 앙각 각도를 포함할 수도 있다.

오디오 플레이백 시스템 (16) 은 기준 스크린의 하나 이상의 FOV 파라미터 및 뷰잉 윈도우의 하나 이상의 FOV 파라미터에 기초하여 스피커의 방위각을 수정하기 위한 방위각 매핑 함수를 결정하고, 방위각 매핑 함수에 기초하여 하나 이상의 스피커 중 제 1 스피커에 대한 방위각을 수정하여 제 1 스피커에 대한 수정된 방위각을 생성함으로써, 오디오 렌더러들 (22) 중 하나 이상의 오디오 렌더러를 수정할 수도 있다.

방위각 매핑 함수는 하기를 포함하며:

여기서 φ'은 제 1 스피커에 대한 수정된 방위각을 나타내며;

φ 는 제 1 스피커에 대한 방위각을 나타내며;

은 기준 스크린의 좌측 방위각을 나타내며;

은 기준 스크린의 우측 방위각을 나타내며;

은 뷰잉 윈도우의 좌측 방위각을 나타내며; 그리고,

는 뷰잉 윈도우의 우측 방위각을 나타낸다.

오디오 플레이백 시스템 (16) 은 기준 스크린의 하나 이상의 FOV 파라미터 및 뷰잉 윈도우의 하나 이상의 FOV 파라미터에 기초하여 스피커의 앙각 각도를 수정하기 위한 앙각 각도 매핑 함수를 결정하고 앙각 각도 매핑 함수에 기초하여 하나 이상의 스피커 중 제 1 스피커에 대한 앙각을 수정함으로써 렌더러를 수정할 수도 있다.

앙각 각도 매핑 함수는 하기를 포함하며:

식중 θ' 은 제 1 스피커에 대한 수정된 앙각 각도를 나타내며;

θ 는 제 1 스피커에 대한 앙각 각도를 나타내며;

은 기준 스크린의 상단 앙각 각도를 나타내며;

은 기준 스크린의 하단 앙각 각도를 나타내며;

는 뷰잉 윈도우의 상단 앙각 각도를 나타내며; 그리고,

는 뷰잉 윈도우의 하단 앙각 각도를 나타낸다.

오디오 플레이백 시스템 (16) 은 뷰잉 윈도우에서 사용자 개시 줌 기능에 응답하여 렌더러를 수정할 수도 있다. 예를 들어, 사용자 개시 줌 기능에 응답하여, 오디오 플레이백 시스템 (16) 은 줌잉된 뷰잉 윈도우의 하나 이상의 FOV 파라미터를 결정하고, 기준 스크린의 하나 이상의 FOV 파라미터 및 줌잉된 뷰잉 윈도우의 하나 이상의 FOV 파라미터에 기초하여, 렌더러를 수정할 수도 있다. 오디오 플레이백 시스템 (16) 은 또한, 스케일링 계수 및 뷰잉 윈도우의 하나 이상의 FOV 파라미터에 기초하여 줌잉된 뷰잉 윈도우의 하나 이상의 FOV 파라미터를 결정하며, 줌잉된 뷰잉 윈도우의 하나 이상의 FOV 파라미터 및 기준 스크린의 하나 이상의 FOV 파라미터에 기초하여 스피커의 방위각과 같은 각도를 수정하기 위한 방위각 매핑 함수를 결정하고, 방위각 매핑 함수에 기초하여 하나 이상의 스피커 중 제 1 스피커에 대한 각도 (예컨대, 방위각) 를 수정하여 제 1 스피커에 대한 수정된 각도 (예컨대, 수정된 방위각) 를 생성함으로써, 렌더러를 수정할 수도 있다.

방위각 매핑 함수는 하기를 포함하며:

여기서 φ'은 제 1 스피커에 대한 수정된 방위각을 나타내며;

φ 는 제 1 스피커에 대한 방위각을 나타내며;

은 기준 스크린의 좌측 방위각을 나타내며;

은 기준 스크린의 우측 방위각을 나타내며;

는 줌잉된 뷰잉 윈도우의 좌측 방위각을 나타내며; 그리고,

는 줌잉된 뷰잉 윈도우의 우측 방위각을 나타낸다.

오디오 플레이백 시스템 (16) 은 스케일링 계수 및 뷰잉 윈도우의 하나 이상의 FOV 파라미터에 기초하여 줌잉된 뷰잉 윈도우의 하나 이상의 FOV 파라미터를 결정하며, 줌잉된 뷰잉 윈도우의 하나 이상의 FOV 파라미터 및 기준 스크린의 하나 이상의 FOV 파라미터에 기초하여 스피커의 앙각 각도를 수정하기 위한 앙각 각도 매핑 함수를 결정하고, 앙각 각도 매핑 함수에 기초하여 하나 이상의 스피커 중 제 1 스피커에 대한 앙각 각도를 수정하여 제 1 스피커에 대한 수정된 앙각 각도를 생성함으로써, 렌더러를 수정할 수도 있다.

앙각 각도 매핑 함수는 하기를 포함하며:

여기서 θ' 은 제 1 스피커에 대한 수정된 앙각 각도를 나타내며;

θ 는 제 1 스피커에 대한 앙각 각도를 나타내며;

은 기준 스크린의 상단 앙각 각도를 나타내며;

은 기준 스크린의 하단 앙각 각도를 나타내며;

는 줌잉된 뷰잉 윈도우의 상단 앙각 각도를 나타내며; 그리고,

는 줌잉된 뷰잉 윈도우의 하단 앙각 각도를 나타낸다.

오디오 플레이백 시스템 (16) 은 뷰잉 윈도우에 대한 하나 이상의 방위각과 스케일링 계수에 기초하여 줌잉된 뷰잉 윈도우에 대한 하나 이상의 방위각을 결정함으로써 줌잉된 뷰잉 윈도우의 하나 이상의 FOV 파라미터를 결정할 수도 있다. 오디오 플레이백 시스템 (16) 은 뷰잉 윈도우에 대한 하나 이상의 앙각 각도와 스케일링 계수에 기초하여 줌잉된 뷰잉 윈도우에 대한 하나 이상의 앙각 각도를 결정함으로써 줌잉된 뷰잉 윈도우의 하나 이상의 FOV 파라미터를 결정할 수도 있다. 오디오 플레이백 시스템 (16) 은 기준 스크린의 하나 이상의 FOV 파라미터에 기초하여 기준 스크린의 중심을 결정하고 뷰잉 윈도우의 하나 이상의 FOV 파라미터에 기초하여 뷰잉 윈도우의 중심을 결정할 수도 있다.

오디오 플레이백 시스템 (16) 은 인코딩된 오디오 데이터를 위한 렌더러를 결정하며, 뷰잉 윈도우의 중심 및 기준 스크린의 중심에 기초하여 렌더러를 수정하고, 수정된 렌더러 및 인코딩된 오디오 데이터에 기초하여 하나 이상의 스피커를 통해 HOA 오디오 신호를 렌더링하도록 구성될 수도 있다.

오디오 플레이백 시스템 (16) 은 다음의 알고리즘에 따라 뷰잉 윈도우의 중심을 결정할 수도 있으며:

originalWidth = originalAngles.azi(1) - originalAngles.azi(2);

originalHeight = originalAngles.ele(1) - originalAngles.ele(2);

newWidth = newAngles.azi(1) - newAngles.azi(2);

newHeight = newAngles.ele(1) - newAngles.ele(2);

originalCenter.azi = originalAngles.azi(1) - originalWidth * 0.5;

originalCenter.ele = originalAngles.ele(1) - originalHeight * 0.5;

newCenter.azi = newAngles.azi(1) - newWidth * 0.5;

newCenter.ele = newAngles.ele(1) - newHeight * 0.5,

여기서 "originalWidth"는 기준 스크린의 폭을 나타내며; "originalHeight"는 기준 스크린의 높이를 나타내며; "originalAngles.azi(1)"은 기준 스크린의 제 1 방위각을 나타내며; "originalAngles.azi(2)"는 기준 스크린의 제 2 방위각을 나타내며; "originalAngles.ele(1)"은 기준 스크린의 제 1 앙각 각도를 나타내며; "originalAngles.ele(2)"는 기준 스크린의 제 2 앙각 각도를 나타내며; "newWidth"는 뷰잉 윈도우의 폭을 나타내며; "newHeight"는 뷰잉 윈도우의 높이를 나타내며; "newAngles.azi(1)"은 뷰잉 윈도우의 제 1 방위각을 나타내며; "newAngles.azi(2)"는 뷰잉 윈도우의 제 2 방위각을 나타내며; "newAngles.ele(1)"은 뷰잉 윈도우의 제 1 앙각 각도를 나타내며; "newAngles.ele(2)"는 뷰잉 윈도우의 제 2 앙각 각도를 나타내며; "originalCenter.azi"은 기준 스크린의 중심의 방위각을 나타내며; "originalCenter.ele"는 기준 스크린의 중심의 앙각 각도를 나타내며; "newCenter.azi"는 뷰잉 윈도우의 중심의 방위각을 나타내며; "newCenter.ele"는 뷰잉 윈도우의 중심의 앙각 각도를 나타낸다.

오디오 플레이백 시스템 (16) 은 기준 스크린의 중심으로부터 뷰잉 윈도우의 중심으로 음장을 회전시킬 수도 있다.

HOA 오디오 신호는 MPEG-H 3D 준수 비트스트림의 일부일 수도 있다. 뷰잉 윈도우는, 예를 들어, 재생 스크린 또는 재생 스크린의 부분일 수도 있다. 뷰잉 윈도우는 로컬 스크린에 또한 대응할 수도 있다. 기준 스크린은, 예를 들어, 생성 스크린일 수도 있다.

오디오 플레이백 시스템 (16) 은 디폴트 값들에 대응하는 기준 스크린의 하나 이상의 FOV 파라미터에 대한 값들을 나타내는 신택스 엘리먼트를 수신하며 그리고/또는 HOA 오디오 신호를 포함하는 비트스트림에 포함된 시그널링된 값들에 대응하는 기준 스크린의 하나 이상의 FOV 파라미터에 대한 값들을 나타내는 신택스 엘리먼트를 수신하도록 구성될 수도 있다.

예비 효과 매트릭스, 효과 매트릭스, 렌더링 매트릭스, 최종 렌더링 매트릭스, 또는 본 개시물에서 설명되는 다른 유형의 매트릭스를 포함하는 매트릭스가, 다양한 방도들로 프로세싱될 수도 있다. 예를 들어, 매트릭스가 행들, 열들, 벡터들, 또는 다른 방식들로 프로세싱 (예컨대, 저장, 가산, 곱셈, 취출 등) 될 수도 있다. 본 개시물에서 사용되는 바와 같이, 매트릭스라는 용어는 매트릭스 데이터에 연관된 데이터 구조를 지칭할 수도 있다는 것이 이해되어야 한다.

도 21은 시스템이 본 개시물의 하나 이상의 기법들을 구현하기 위해 수행할 수도 있는 예시적인 프로세스 (940) 를 도시하는 흐름도이다. 프로세스 (940) 는 본 개시물의 다양한 양태들에 따라서, 다양한 시스템들 및/또는 디바이스들에 의해 수행될 수도 있다는 것이 이해될 것이다. 논의의 편의를 위해, 그러나, 프로세스 (940) 는 오디오 플레이백 시스템 및/또는 그것의 다양한 컴포넌트들에 의해 수행되고 있는 것으로서 본 명세서에서 설명된다. 프로세스 (940) 는 오디오 플레이백 시스템 (16) 이 HOA 오디오 신호의 HOA 계수들을 획득 (941) 할 때 시작할 수도 있다. 예를 들면, 오디오 플레이백 시스템 (16) 의 오디오 디코딩 디바이스 (24) 는 오디오 비트스트림 (21) 으로부터 HOA 계수들 (11') 을 획득할 수도 있다. 결국, 오디오 플레이백 시스템 (16) 은 HOA 계수들 (11') 의 공간적 방향들 (942) 에 기초하여 효과 매트릭스를 생성할 수도 있다. 예를 들면, 오디오 플레이백 시스템 (16) 은 HOA 계수들 (11') 의 공간적 방향들에 기초하여 예비 효과 매트릭스 (

) 를 생성하고, 효과 매트릭스 (또는 "최종" 효과 매트릭스) (F) 를 생성하기 위해 예비 효과 매트릭스 (

) 를 사용할 수도 있다.

오디오 플레이백 시스템 (16) 은 효과 매트릭스 (F) 를 사용하여 새로운 렌더링 매트릭스를 컴퓨팅할 수도 있다 (944). 예를 들면, 오디오 플레이백 시스템 (16) 은 공식 D = FR에 따라, 새로운 렌더링 매트릭스 (심볼 'D'로 표시됨) 를 컴퓨팅할 수도 있으며, 식중 'R'은 원래의 렌더링 매트릭스를 나타낸다. 오디오 플레이백 시스템 (16) 은 HOA 신호를 라우드스피커 피드들에 렌더링하기 위해 새로운 렌더링 매트릭스 (D) 를 사용할 수도 있다 (946). 예를 들면, 오디오 플레이백 시스템 (16) 은 HOA 계수들 (11') 을, 스피커들 (3) 중 하나 이상의 스피커를 통해 플레이백될, 라우드스피커 피드들 (25) 중 하나 이상의 라우드스피커 피드로 렌더링하기 위해 새로운 렌더링 매트릭스 (D) 를 사용할 수도 있다. 결국, 오디오 플레이백 시스템 (16) 은 스피커들 (3) 중 하나 이상의 스피커와 같은 하나 이상의 라우드스피커를 구동하기 위해 라우드스피커 피드들 (25) 을 출력할 수도 있다 (948).

도 22는 시스템이 본 개시물의 하나 이상의 기법들을 구현하기 위해 수행할 수도 있는 예시적인 프로세스 (960) 를 도시하는 흐름도이다. 프로세스 (960) 는 본 개시물의 다양한 양태들에 따라서, 다양한 시스템들 및/또는 디바이스들에 의해 수행될 수도 있다는 것이 이해될 것이다. 논의의 편의를 위해, 그러나, 프로세스 (960) 는 오디오 플레이백 시스템 및/또는 그것의 다양한 컴포넌트들에 의해 수행되고 있는 것으로서 본 명세서에서 설명된다. 프로세스 (960) 는 오디오 플레이백 시스템 (16) 이 HOA 오디오 신호의 HOA 계수들을 획득 (961) 할 때 시작할 수도 있다. 예를 들면, 오디오 플레이백 시스템 (16) 의 오디오 디코딩 디바이스 (24) 는 오디오 비트스트림 (21) 으로부터 HOA 계수들 (11') 을 획득할 수도 있다.

결국, 오디오 플레이백 시스템 (16) 은 효과 매트릭스를 생성하기 위해 소리크기 보상을 수행할 수도 있다 (962). 예를 들면, 오디오 플레이백 시스템 (16) 은 매핑의 하나 이상의 효과를 보상하기 위해 소리크기 보상을 수행할 수도 있다. 오디오 플레이백 시스템 (16) 은, 매핑에 의해 야기될 수도 있는 바와 같은, 효과 매트릭스의 공간적 스트레칭 및/또는 스퀴징에 의해 야기되는 하나 이상의 바람직하지 않은 방향 의존적 소리크기 차이들을 등화시키도록 소리크기 보상을 수행할 수도 있다. 오디오 플레이백 시스템 (16) 은 효과 매트릭스를 사용하여 새로운 렌더링 매트릭스를 컴퓨팅할 수도 있다 (964). 예를 들면, 오디오 플레이백 시스템 (16) 은 공식 D = FR에 따라, 새로운 렌더링 매트릭스 (심볼 'D'로 표시됨) 를 컴퓨팅할 수도 있으며, 'R'은 원래의 렌더링 매트릭스를 나타내고, 'F'는 소리크기 보상을 사용하여 생성된 효과 매트릭스를 나타낸다.

오디오 플레이백 시스템 (16) 은 HOA 신호를 라우드스피커 피드들에 렌더링하기 위해 새로운 렌더링 매트릭스 (D) 를 사용할 수도 있다 (966). 예를 들면, 오디오 플레이백 시스템 (16) 은 HOA 계수들 (11') 을, 스피커들 (3) 중 하나 이상의 스피커를 통해 플레이백될, 라우드스피커 피드들 (25) 중 하나 이상의 라우드스피커 피드로 렌더링하기 위해 새로운 렌더링 매트릭스 (D) 를 사용할 수도 있다. 결국, 오디오 플레이백 시스템 (16) 은 스피커들 (3) 중 하나 이상의 스피커와 같은 하나 이상의 라우드스피커를 구동하기 위해 라우드스피커 피드들 (25) 을 출력할 수도 있다 (968).

도 23은 시스템이 본 개시물의 하나 이상의 기법들을 구현하기 위해 수행할 수도 있는 예시적인 프로세스 (980) 를 도시하는 흐름도이다. 프로세스 (980) 는 본 개시물의 다양한 양태들에 따라서, 다양한 시스템들 및/또는 디바이스들에 의해 수행될 수도 있다는 것이 이해될 것이다. 논의의 편의를 위해, 그러나, 프로세스 (980) 는 오디오 플레이백 시스템 및/또는 그것의 다양한 컴포넌트들에 의해 수행되고 있는 것으로서 본 명세서에서 설명된다. 프로세스 (980) 는 오디오 플레이백 시스템 (16) 이 HOA 오디오 신호의 HOA 계수들을 획득 (981) 할 때 시작할 수도 있다. 예를 들면, 오디오 플레이백 시스템 (16) 의 오디오 디코딩 디바이스 (24) 는 오디오 비트스트림 (21) 으로부터 HOA 계수들 (11') 을 획득할 수도 있다.

결국, 오디오 플레이백 시스템 (16) 은 소리크기 보상을 사용하여 그리고 HOA 계수들 (11') 의 공간적 방향들을 사용하여 효과 매트릭스를 생성할 수도 있다 (982). 예를 들면, 오디오 플레이백 시스템 (16) 은 위에서 설명된 공식들 중 하나 이상의 공식에 따라 예비 효과 매트릭스 (

) 를 컴퓨팅 또는 생성할 수도 있다. 덧붙여, 오디오 플레이백 시스템 (16) 은 HOA 계수들 (11') 의 각각의 공간적 방향에 대해 HOA 렌더링 매트릭스 (R) 를 사용함으로써 소리크기 값을 컴퓨팅할 수도 있다. 결국, 오디오 플레이백 시스템 (16) 은 위에서 설명된 바와 같이 컴퓨팅된 모드 매트릭스를 사용하여 최종 효과 매트릭스를 컴퓨팅할 수도 있다.

오디오 플레이백 시스템 (16) 은 효과 매트릭스를 사용하여 새로운 렌더링 매트릭스를 컴퓨팅할 수도 있다 (984). 예를 들면, 오디오 플레이백 시스템 (16) 은 공식 D = FR에 따라, 새로운 렌더링 매트릭스 (심볼 'D'로 표시됨) 를 컴퓨팅할 수도 있으며, 식중, 'R'은 원래의 렌더링 매트릭스를 나타내고, 'F'는 소리크기 보상 및 HOA 계수들 (11') 의 공간적 방향들을 사용하여 생성된 효과 매트릭스를 나타낸다.

오디오 플레이백 시스템 (16) 은 HOA 신호를 라우드스피커 피드들에 렌더링하기 위해 새로운 렌더링 매트릭스 (D) 를 사용할 수도 있다 (986). 예를 들면, 오디오 플레이백 시스템 (16) 은 HOA 계수들 (11') 을, 스피커들 (3) 중 하나 이상의 스피커를 통해 플레이백될, 라우드스피커 피드들 (25) 중 하나 이상의 라우드스피커 피드로 렌더링하기 위해 새로운 렌더링 매트릭스 (D) 를 사용할 수도 있다. 결국, 오디오 플레이백 시스템 (16) 은 스피커들 (3) 중 하나 이상의 스피커와 같은 하나 이상의 라우드스피커를 구동하기 위해 라우드스피커 피드들 (25) 을 출력할 수도 있다 (988).

전술한 기법들은 임의의 수의 상이한 콘텍스트들 및 오디오 에코시스템들에 대해 수행될 수도 있다. 다수의 예의 콘텍스트들이 아래에서 설명되지만, 그 기법들은 예의 콘텍스트들로 제한되어야 한다. 하나의 예의 오디오 에코시스템이 오디오 콘텐츠, 영화 스튜디오들, 음악 스튜디오들, 게이밍 오디오 스튜디오들, 채널 기반 오디오 콘텐츠, 코딩 엔진들, 게임 오디오 스템들, 게임 오디오 코딩/렌더링 엔진들, 및 전달 시스템들을 포함할 수도 있다.

영화 스튜디오들, 음악 스튜디오들, 및 게이밍 오디오 스튜디오들은 오디오 콘텐츠를 수신할 수도 있다. 일부 예들에서, 오디오 콘텐츠는 취득의 출력을 나타낼 수도 있다. 영화 스튜디오들은 이를테면 디지털 오디오 워크스테이션 (digital audio workstation, DAW) 을 사용함으로써 채널 기반 오디오 콘텐츠를 (예컨대, 2.0, 5.1, 및 7.1로) 출력할 수도 있다. 음악 스튜디오들은 이를테면 DAW를 사용함으로써 채널 기반 오디오 콘텐츠를 (예컨대, 2.0, 및 5.1로) 출력할 수도 있다. 어느 경우에나, 코딩 엔진들은 전달 시스템들에 의한 출력을 위해 하나 이상의 코덱들 (예컨대, AAC, AC3, 돌비 트루 (Dolby True) HD, 돌비 디지털 플러스, 및 DTS 마스터 오디오) 에 기초하여 채널 기반 오디오 콘텐츠를 수신하고 인코딩할 수도 있다. 게이밍 오디오 스튜디오들은 이를테면 DAW를 사용함으로써 하나 이상의 게임 오디오 스템들을 출력할 수도 있다. 게임 오디오 코딩/렌더링 엔진들은 전달 시스템들에 의한 출력을 위해 오디오 스템들을 채널 기반 오디오 콘텐츠로 코딩하거나 또는 렌더링할 수도 있다. 기법들이 수행될 수도 있는 다른 예의 콘텍스트는, 브로드캐스트 레코딩 오디오 오브젝트들, 전문가 오디오 시스템들, 소비자 온-디바이스 캡처, HOA 오디오 포맷, 온-디바이스 렌더링, 소비자 오디오, TV, 및 액세서리를 포함할 수도 있는 오디오 에코시스템과, 차량 오디오 시스템들을 포함한다.

브로드캐스트 레코딩 오디오 오브젝트들, 전문가 오디오 시스템들, 및 소비자 온-디바이스 캡처는 HOA 오디오 포맷을 사용하여 자신들의 출력을 모두 코딩할 수도 있다. 이런 식으로, 오디오 콘텐츠는 온-디바이스 렌더링, 소비자 오디오, TV, 및 액세서리들을 사용하여 플레이백될 수도 있는 HOA 오디오 포맷과, 차량 오디오 시스템들을 사용하여 단일 표현으로 코딩될 수도 있다. 다르게 말하면, 오디오 콘텐츠의 단일 표현은 오디오 플레이백 시스템 (16) 과 같은 일반 오디오 플레이백 시스템에서 (즉, 5.1, 7.1 등과 같은 특정 구성을 요구하는 것과는 반대되게) 플레이백될 수도 있다.

기법들이 수행될 수도 있는 콘텍스트의 다른 예들은 취득 엘리먼트들과 플레이백 엘리먼트들을 포함할 수도 있는 오디오 에코시스템을 포함한다. 취득 엘리먼트들은 유선 및/또는 무선 취득 디바이스들 (예컨대, 아이겐 (Eigen) 마이크로폰들), 온-디바이스 서라운드 사운드 캡처, 및 모바일 디바이스들 (예컨대, 스마트폰들과 테블릿들) 을 포함할 수도 있다. 일부 예들에서, 유선 및/또는 무선 취득 디바이스들은 유선 및/또는 무선 통신 채널(들)을 통해 모바일 디바이스에 커플링될 수도 있다. 본 명세서에서 사용되는 바와 같이, "커플링되는"이란 용어는 다양한 유형들의 접속들을 포함할 수도 있다. 예를 들면, 디바이스의 메모리 디바이스 컴포넌트들은, 메모리 디바이스들이 이를테면 버스를 통해 통신적으로 접속되면, 하나 이상의 프로세서 (예컨대, 프로세싱 회로부) 에 "커플링"될 수도 있다.

본 개시물의 하나 이상의 기법들에 따라, 모바일 디바이스는 음장을 취득하는데 사용될 수도 있다. 예를 들면, 모바일 디바이스는 유선 및/또는 무선 취득 디바이스들 및/또는 온-디바이스 서라운드 사운드 캡처 (예컨대, 모바일 디바이스에 통합된 복수의 마이크로폰들) 를 통해 음장을 취득할 수도 있다. 모바일 디바이스는 그 다음에 플레이백 엘리먼트들의 하나 이상에 의한 플레이백을 위해 취득된 음장을 HOA 계수들로 코딩할 수도 있다. 예를 들면, 모바일 디바이스의 사용자가 라이브 이벤트 (예컨대, 미팅, 회의, 연극, 콘서트 등) 를 레코딩하고 (이의 음장을 취득하고), 그 레코딩을 HOA 계수들로 코딩할 수도 있다.

모바일 디바이스는 HOA 코딩된 음장을 플레이백하기 위해 플레이백 엘리먼트들 중 하나 이상을 또한 이용할 수도 있다. 예를 들면, 모바일 디바이스는 HOA 코딩된 음장을 디코딩하고 플레이백 엘리먼트들 중 하나 이상의 플레이백 엘리먼트가 음장을 재생하게 하는 신호를 상기 하나 이상의 플레이백 엘리먼트들에 출력할 수도 있다. 하나의 예로서, 모바일 디바이스는 무선 및/또는 무선 통신 채널들을 이용하여 그 신호를 하나 이상의 스피커 (예컨대, 스피커 어레이들, 사운드 바들 등) 로 출력할 수도 있다. 다른 예로서, 모바일 디바이스는 도킹 솔루션들을 이용하여 그 신호를 하나 이상의 도킹 스테이션들 및/또는 하나 이상의 도킹된 스피커들 (예컨대, 스마트 차량들 및/또는 가정들에서의 사운드 시스템들) 로 출력할 수도 있다. 다른 예로서, 모바일 디바이스는, 예컨대, 사실적 입체 음향 (realistic binaural) 사운드를 생성하기 위해, 헤드폰 렌더링을 이용하여 그 신호를 헤드폰들의 세트로 출력할 수도 있다.

일부 예들에서, 특정 모바일 디바이스가 3D 음장을 취득하는 것과 동일한 3D 음장을 나중에 플레이백하는 것 둘 다를 할 수도 있다. 일부 예들에서, 모바일 디바이스는 3D 음장을 취득하며, 그 3D 음장을 HOA로 인코딩하고, 인코딩된 3D 음장을 하나 이상의 다른 디바이스들 (예컨대, 다른 모바일 디바이스들 및/또는 다른 비-모바일 디바이스들) 에게 플레이백을 위해 송신할 수도 있다.

[0211] 기법들이 수행될 수도 있는 또 다른 콘텍스트는 오디오 콘텐츠, 게임 스튜디오들, 코딩된 오디오 콘텐츠, 렌더링 엔진들, 및 전달 시스템들을 포함할 수도 있는 오디오 에코시스템을 포함한다. 일부 예들에서, 게임 스튜디오들은 HOA 신호들의 편집을 지원할 수도 있는 하나 이상의 DAW들을 포함할 수도 있다. 예를 들면, 하나 이상의 DAW들은 하나 이상의 게임 오디오 시스템들과 함께 동작 (예컨대, 함께 작동) 하도록 구성될 수도 있는 HOA 플러그인들 및/또는 도구들을 포함할 수도 있다. 일부 예들에서, 게임 스튜디오들은 HOA를 지원하는 새로운 스템 포맷들을 출력할 수도 있다. 어느 경우에나, 게임 스튜디오들은 전달 시스템들에 의한 플레이백을 위해 음장을 렌더링할 수도 있는 렌더링 엔진들에게 코딩된 오디오 콘텐츠를 출력할 수도 있다.

그 기법들은 예시적 오디오 획득 디바이스들에 대해 또한 수행될 수도 있다. 예를 들어, 그 기법들은 3D 음장을 레코딩하도록 집단적으로 구성되는 복수의 마이크로폰들을 포함할 수도 있는 아이겐 마이크로폰에 대해 수행될 수도 있다. 일부 예들에서, 아이겐 마이크로폰의 복수의 마이크로폰들은 대략 4cm의 반경을 갖는 실질적으로 구형 볼의 표면 상에 위치될 수도 있다. 일부 예들에서, 오디오 인코딩 디바이스 (20) 는 오디오 비트스트림 (21) 을 마이크로폰으로부터 직접적으로 출력하기 위해서 아이겐 마이크로폰에 통합될 수도 있다.

다른 예시적인 오디오 취득 콘텍스트가 하나 이상의 마이크로폰들, 이를테면 하나 이상의 아이겐 마이크로폰들로부터 신호를 수신하도록 구성될 수도 있는 제작 트럭 (production truck) 을 포함할 수도 있다. 제작 트럭은 오디오 인코더, 이를테면 도 3의 오디오 인코딩 디바이스 (20) 를 또한 포함할 수도 있다.

모바일 디바이스는 또한, 일부 사례들에서, 3D 음장을 레코딩하도록 집단적으로 구성되는 복수의 마이크로폰들을 포함할 수도 있다. 다르게 말하면, 복수의 마이크로폰은 X, Y, Z 다이버시티를 가질 수도 있다. 일부 예들에서, 모바일 디바이스는 모바일 디바이스의 하나 이상의 다른 마이크로폰들에 대해 X, Y, Z 다이버시티를 제공하기 위해 회전될 수도 있는 마이크로폰을 포함할 수도 있다. 모바일 디바이스는 오디오 인코더, 이를테면 도 3의 오디오 인코딩 디바이스 (20) 를 또한 포함할 수도 있다.

러기다이즈드 (ruggedized) 비디오 캡처 디바이스가 3D 음장을 레코딩하기 위해 더 구성될 수도 있다. 일부 예들에서, 러기다이즈드 비디오 캡처 디바이스는 활동에 관여하는 사용자의 헬멧에 부착될 수도 있다. 예를 들면, 러기다이즈드 비디오 캡처 디바이스는 급류 레프팅 (whitewater rafting) 하는 사용자의 헬멧에 부착될 수도 있다. 이런 식으로, 러기다이즈드 비디오 캡처 디바이스는 사용자 주변의 모든 액션 (예컨대, 사용자 뒤의 물보라 (water crashing), 사용자 앞쪽에서 말하는 다른 래프터 (rafter) 등등) 을 표현하는 3D 음장을 캡처할 수도 있다.

그 기법들은, 3D 음장을 레코딩하도록 구성될 수도 있는 액세서리 향상된 모바일 디바이스에 대해 또한 수행될 수도 있다. 일부 예들에서, 그 모바일 디바이스는, 위에서 논의된 모바일 디바이스들과 유사할 수도 있으며, 하나 이상의 액세서리들이 추가된다. 예를 들면, 액세서리 향상된 모바일 디바이스를 형성하기 위해 아이겐 마이크로폰이 위에서 언급된 모바일 디바이스에 부착될 수도 있다. 이런 식으로, 액세서리 향상된 모바일 디바이스는 액세서리 향상된 모바일 디바이스에 통합된 사운드 캡처 컴포넌트들을 그대로 사용하는 것보다 더 높은 품질 버전의 3D 음장을 캡처할 수도 있다.

본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 예시적인 오디오 플레이백 디바이스들이 아래에서 더 논의된다. 본 개시물의 하나 이상의 기법들에 따라서, 스피커들 및/또는 사운드 바들은 어느 임의적 (arbitrary) 구성으로도 배열되는 한편, 3D 음장을 여전히 플레이백할 수도 있다. 더구나, 일부 예들에서, 헤드폰 플레이백 디바이스들은 유선 접속 또는 무선 접속 중 어느 하나를 통해 오디오 디코딩 디바이스 (24) 에 커플링될 수도 있다. 본 개시물의 하나 이상의 기법들에 따라, 음장의 단일 일반 표현이 스피커들, 사운드 바들, 및 헤드폰 플레이백 디바이스들의 임의의 조합에 대해 음장을 렌더링하는데 이용될 수도 있다.

다수의 상이한 예시적인 오디오 플레이백 환경들이 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행하기에 또한 적합할 수도 있다. 예를 들면, 5.1 스피커 플레이백 환경, 2.0 (예컨대, 스테레오) 스피커 플레이백 환경, 전체 높이 (full height) 프론트 라우드스피커들을 갖는 9.1 스피커 플레이백 환경, 22.2 스피커 플레이백 환경, 16.0 스피커 플레이백 환경, 자동차 스피커 플레이백 환경, 및 이어 버드 (ear bud) 플레이백 환경을 갖는 모바일 디바이스가 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행하기 위한 적합한 환경들일 수도 있다.

본 개시물의 하나 이상의 기법들에 따라, 음장의 단일 일반 표현이 전술한 플레이백 환경들 중 임의의 플레이백 환경에 대해 음장을 렌더링하는데 이용될 수도 있다. 덧붙여, 본 개시물의 기법들은 렌더러가 위에서 설명된 것과는 다른 플레이백 환경들에 대한 플레이백을 위해 일반 표현으로부터 음장을 렌더링하는 것을 가능하게 한다. 예를 들면, 설계 고려사항들이 7.1 스피커 플레이백 환경에 따른 스피커들의 적절한 배치를 금지시킨다면 (예컨대, 우측 서라운드 스피커를 배치시키는 것이 가능하지 않다면), 본 개시물의 기법들은 플레이백이 6.1 스피커 플레이백 환경 상에서 성취될 수도 있도록 렌더러가 다른 6 개 스피커들로 보상하도록 렌더링하는 것을 가능하게 한다.

더구나, 사용자가 헤드폰들을 착용하면서 스포츠 게임을 관람할 수도 있다. 본 개시물의 하나 이상의 기법들에 따라, 스포츠 게임의 3D 음장은 취득될 수도 있으며 (예컨대, 하나 이상의 아이겐 마이크로폰들은 야구 경기장에 그리고/또는 야구 경기장 주변에 배치될 수도 있으며), 3D 음장에 대응하는 HOA 계수들은 획득되고 디코더로 송신될 수도 있으며, 디코더는 HOA 계수들에 기초하여 3D 음장을 복원하고 복원된 3D 음장을 렌더러로 출력하며, 렌더러는 플레이백 환경의 유형 (예컨대, 헤드폰들) 에 관한 표시를 획득할 수도 있고, 복원된 3D 음장을 헤드폰들이 스포츠 게임의 3D 음장의 표현을 출력하게 하는 신호들로 렌더링할 수도 있다.

위에서 설명된 다양한 사례들의 각각에서, 오디오 인코딩 디바이스 (20) 는 오디오 인코딩 디바이스 (20) 가 수행하도록 구성되는 방법을 수행하거나 또는 그렇지 않으면 그 방법의 각각의 단계를 수행하는 수단을 포함할 수도 있다는 것이 이해되어야 한다. 일부 사례들에서, 수단은 하나 이상의 프로세서를 포함할 수도 있다. 일부 사례들에서, 하나 이상의 프로세서는 비일시적 컴퓨터 판독가능 저장 매체에 저장된 명령들을 통해 구성되는 특수 목적 프로세서를 나타낼 수도 있다. 다르게 말하면, 인코딩 예들의 세트들의 각각에서의 기법들의 다양한 양태들이, 실행되는 경우, 오디오 인코딩 디바이스 (20) 가 수행하도록 구성된 방법을 하나 이상의 프로세서가 수행하게 하는 명령들을 저장하고 있는 비일시적 컴퓨터 판독가능 저장 매체를 제공할 수도 있다.

하나 이상의 예들에서, 설명된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 그것들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현된다면, 그 기능들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독가능 매체 상에 저장되거나 또는 그것을 통해 송신될 수도 있고 하드웨어 기반 프로세싱 유닛에 의해 실행될 수도 있다. 컴퓨터 판독가능 매체들은 데이터 저장 매체들과 같은 유형의 매체에 대응하는 컴퓨터 판독가능 저장 매체들을 저장할 수도 있다. 데이터 저장 매체들은 본 개시물에서 설명된 기법들의 구현을 위한 명령들, 코드 및/또는 데이터 구조들을 취출하기 위해 하나 이상의 컴퓨터들 또는 하나 이상의 프로세서에 의해 액세스될 수 있는 임의의 이용가능 매체들일 수도 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독가능 매체를 포함할 수도 있다.

비슷하게, 위에서 설명된 다양한 사례들의 각각에서, 오디오 디코딩 디바이스 (24) 는 오디오 디코딩 디바이스 (24) 가 수행하도록 구성되는 방법을 수행하거나 또는 그렇지 않으면 그 방법의 각각의 단계를 수행하는 수단을 포함할 수도 있다는 것이 이해되어야 한다. 일부 사례들에서, 수단은 하나 이상의 프로세서를 포함할 수도 있다. 일부 사례들에서, 하나 이상의 프로세서는 비일시적 컴퓨터 판독가능 저장 매체에 저장된 명령들을 통해 구성되는 특수 목적 프로세서를 나타낼 수도 있다. 다르게 말하면, 인코딩 예들의 세트들의 각각에서의 기법들의 다양한 양태들이, 실행되는 경우, 오디오 디코딩 디바이스 (24) 가 수행하도록 구성된 방법을 하나 이상의 프로세가 수행하게 하는 명령들을 저장하고 있는 비일시적 컴퓨터 판독가능 저장 매체를 제공할 수도 있다.

비제한적인 예로, 이러한 컴퓨터 판독가능 저장 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광 디스크 스토리지, 자기 디스크 스토리지, 또는 다른 자기 저장 디바이스들, 플래시 메모리, 또는 소망의 프로그램 코드를 컴퓨터에 의해 액세스될 수 있는 명령들 또는 데이터 구조들의 형태로 저장하는데 사용될 수 있는 임의의 다른 매체를 포함할 수 있다. 그러나, 컴퓨터 판독가능 저장 매체들 및 데이터 저장 매체들은 커넥션들, 반송파들, 신호들, 또는 다른 일시적 매체들을 포함하지 않지만, 대신 비일시적, 유형의 저장 매체들을 지향하고 있음이 이해되어야 한다. 디스크 (disk 및 disc) 는 본원에서 사용되는 바와 같이, 콤팩트 디스크 (compact disc, CD), 레이저 디스크, 광 디스크, 디지털 다용도 디스크 (DVD), 플로피 디스크 (floppy disk) 및 블루레이 디스크를 포함하는데, disk들은 보통 데이터를 자기적으로 플레이백하지만, disc들은 레이저들로써 광적으로 데이터를 플레이백한다. 상기한 것들의 조합들은 컴퓨터 판독가능 매체들의 범위 내에 또한 포함되어야 한다.

명령들은 하나 이상의 프로세서, 이를테면 하나 이상의 디지털 신호 프로세서들 (DSP들), 프로세싱 회로부 (이를테면 프로그램가능 프로세싱 회로부, 고정 기능 회로부, 또는 프로그램가능 프로세싱 회로부 및 고정 기능 회로부의 조합), 범용 마이크로프로세서들, 주문형 집적회로들 (ASIC들), 필드 프로그램가능 로직 어레이들 (FPGA들), 또는 다른 동등한 집적 또는 개별 로직 회로에 의해 실행될 수도 있다. 따라서, 본 명세서에서 사용되는 바와 같은 "프로세서"라는 용어는 앞서의 구조 또는 본 명세서에서 설명된 기법들의 구현에 적합한 임의의 다른 구조 중 임의의 것을 나타낼 수도 있다. 덧붙여서, 일부 양태들에서, 본 명세서에서 설명된 기능은 인코딩 및 디코딩을 위해 구성되는, 또는 결합형 코덱으로 통합되는 전용 하드웨어 및/또는 소프트웨어 모듈들 내에 제공될 수도 있다. 또한, 본 기법들은 하나 이상의 회로들 또는 로직 엘리먼트들 내에 완전히 구현될 수 있다.

본 개시물의 기법들은 무선 핸드셋, 집적회로 (IC) 또는 IC들의 세트 (예컨대, 칩 셋) 를 포함하는 매우 다양한 디바이스들 또는 장치들로 구현될 수도 있다. 다양한 컴포넌트들, 모듈들, 또는 유닛들이 개시된 기법들을 수행하도록 구성되는 디바이스들의 기능적 양태들을 강조하기 위해 본 개시물에서 설명되지만, 상이한 하드웨어 유닛들에 의한 실현을 반드시 요구하지는 않는다. 대신에, 위에서 설명된 바와 같이, 다양한 유닛들은 코덱 하드웨어 유닛에 결합되거나 또는 적합한 소프트웨어 및/또는 펌웨어와 함께, 위에서 설명된 바와 같은 하나 이상의 프로세서들을 포함한 상호운용적 하드웨어 유닛들의 컬렉션에 의해 제공될 수도 있다.

본 기법들의 다양한 양태들이 설명되었다. 본 기법들의 이들 및 다른 양태들은 다음의 청구항들의 범위 내에 있다.

Claims

고차 앰비소닉 (HOA) 오디오 신호를 렌더링하는 디바이스로서,
상기 HOA 오디오 신호를 저장하도록 구성되는 메모리; 및
상기 메모리에 커플링되는 하나 이상의 프로세서를 포함하며,
상기 하나 이상의 프로세서는,
효과 매트릭스를 생성하는 부분으로서 소리크기 보상 프로세스를 수행하고; 그리고
상기 효과 매트릭스에 기초하여 상기 HOA 오디오 신호를 렌더링하도록
구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서는 렌더링 매트릭스에 기초하여 복수의 공간적 방향들에 대한 소리크기를 보상하도록 구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서는 매핑 함수에 기초하여 복수의 공간적 방향들에 대한 소리크기를 보상하도록 구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서는, 상기 HOA 오디오 신호에 연관된 비디오 데이터에 관한 생성 스크린 사이즈 및 재생 윈도우 사이즈에 기초하여, 상기 HOA 오디오 신호의 오브젝트들에 연관된 복수의 원래의 사운드 로케이션들과 상기 HOA 오디오 신호의 상기 오브젝트들에 연관된 복수의 대응하는 매핑된 목적지들 사이의 최소 에러를 결정하도록 구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서는, 상기 HOA 오디오 신호에 연관된 비디오 데이터에 관한 생성 스크린 사이즈 및 재생 윈도우 사이즈를 사용하여, 상기 HOA 오디오 신호의 오브젝트들에 연관된 복수의 원래의 사운드 로케이션들과 상기 HOA 오디오 신호의 상기 오브젝트들에 연관된 복수의 대응하는 매핑된 목적지들 사이의 에너지 정규화를 결정하도록 구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서는 또한,
인코딩된 오디오 데이터를 위한 렌더러를 결정하고;
뷰잉 윈도우의 하나 이상의 시야 (FOV) 파라미터 및 기준 스크린의 하나 이상의 FOV 파라미터에 기초하여 상기 렌더러를 수정하고; 그리고
상기 HOA 오디오 신호를 렌더링하기 위해 상기 효과 매트릭스 및 수정된 렌더러의 양쪽 모두를 사용하도록
구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 6 항에 있어서,
하나 이상의 스피커를 더 포함하며,
상기 하나 이상의 프로세서는 상기 디바이스의 상기 하나 이상의 스피커에 연관된 스피커 구성에 기초하여 상기 렌더러를 결정하도록 구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 6 항에 있어서,
상기 렌더러는 렌더링 포맷 또는 상기 인코딩된 오디오 데이터를 재생 포맷으로 변환하기 위한 알고리즘 중 하나 이상을 더 포함하는, HOA 오디오 신호를 렌더링하는 디바이스.
제 6 항에 있어서,
상기 하나 이상의 프로세서는 또한,
상기 기준 스크린의 상기 하나 이상의 FOV 파라미터 및 상기 뷰잉 윈도우의 상기 하나 이상의 FOV 파라미터에 기초하여, 스피커의 각도를 수정하기 위한 각도 매핑 함수를 결정하고;
상기 각도 매핑 함수에 기초하여, 하나 이상의 스피커 중 제 1 스피커에 대한 각도를 수정하여 상기 제 1 스피커에 대한 수정된 각도를 생성하고; 그리고
상기 렌더러를 수정하기 위해 상기 제 1 스피커에 대한 상기 수정된 각도를 사용하도록
구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 6 항에 있어서,
상기 뷰잉 윈도우 또는 상기 뷰잉 윈도우에 기초하는 줌잉된 뷰잉 윈도우 중 하나 또는 양쪽 모두를 출력하도록 구성되는 디스플레이를 더 포함하며,
상기 디스플레이는 상기 하나 이상의 프로세서에 커플링되며,
상기 하나 이상의 프로세서는 또한, 사용자 개시 줌 기능에 응답하여, 상기 줌잉된 뷰잉 윈도우의 하나 이상의 FOV 파라미터를 결정하도록 구성되고,
상기 하나 이상의 프로세서는 상기 기준 스크린의 상기 하나 이상의 FOV 파라미터 및 상기 줌잉된 뷰잉 윈도우의 상기 하나 이상의 FOV 파라미터에 기초하여 상기 렌더러를 수정하도록 구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 10 항에 있어서,
상기 하나 이상의 프로세서는,
사용자 개시 줌 동작에 응답하여 스케일링 계수를 획득하고;
상기 스케일링 계수와 상기 뷰잉 윈도우의 상기 하나 이상의 FOV 파라미터에 기초하여, 줌잉된 뷰잉 윈도우의 하나 이상의 FOV 파라미터를 결정하고;
상기 줌잉된 뷰잉 윈도우의 상기 하나 이상의 FOV 파라미터 및 상기 기준 스크린의 상기 하나 이상의 FOV 파라미터에 기초하여, 스피커의 각도를 수정하기 위한 각도 매핑 함수를 결정하고; 그리고
상기 각도 매핑 함수에 기초하여, 하나 이상의 스피커 중 제 1 스피커에 대한 각도를 수정하여 상기 제 1 스피커에 대한 수정된 각도를 생성하도록
구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 10 항에 있어서,
상기 하나 이상의 프로세서는,
스케일링 계수와 상기 디스플레이를 통해 출력되는 상기 뷰잉 윈도우에 대한 하나 이상의 방위각에 기초하여 상기 줌잉된 뷰잉 윈도우에 대한 하나 이상의 방위각을 결정하고; 그리고
상기 디스플레이를 통해 출력되는 상기 줌잉된 뷰잉 윈도우의 상기 하나 이상의 FOV 파라미터를 결정하도록
구성되며,
상기 하나 이상의 프로세서는 또한, 상기 뷰잉 윈도우에 대한 하나 이상의 앙각과 상기 스케일링 계수에 기초하여 상기 줌잉된 뷰잉 윈도우에 대한 하나 이상의 앙각을 결정하도록 구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 10 항에 있어서,
상기 기준 스크린에 대한 상기 하나 이상의 FOV 파라미터는 상기 기준 스크린에 대한 하나 이상의 방위각 또는 상기 기준 스크린에 대한 하나 이상의 앙각 중 적어도 하나를 포함하는, HOA 오디오 신호를 렌더링하는 디바이스.
제 10 항에 있어서,
상기 뷰잉 윈도우에 대한 상기 하나 이상의 FOV 파라미터는 상기 뷰잉 윈도우에 대한 하나 이상의 방위각 또는 상기 뷰잉 윈도우에 대한 하나 이상의 앙각 중 적어도 하나를 포함하는, HOA 오디오 신호를 렌더링하는 디바이스.
제 10 항에 있어서,
상기 하나 이상의 프로세서는 사용자 개시 줌 동작에 응답하여 획득된 스케일링 계수에 그리고 상기 효과 매트릭스에 기초하여 상기 HOA 오디오 신호를 렌더링하도록 구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 10 항에 있어서,
상기 기준 스크린에 대한 상기 하나 이상의 FOV 파라미터는 상기 기준 스크린의 중심의 로케이션과 상기 뷰잉 윈도우의 중심의 로케이션을 포함하는, HOA 오디오 신호를 렌더링하는 디바이스.
제 16 항에 있어서,
상기 하나 이상의 프로세서는 또한,
상기 기준 스크린의 상기 하나 이상의 FOV 파라미터에 기초하여 상기 기준 스크린의 상기 중심을 결정하고; 그리고
상기 뷰잉 윈도우의 상기 하나 이상의 FOV 파라미터에 기초하여 상기 뷰잉 윈도우의 상기 중심을 결정하도록
구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 16 항에 있어서,
상기 하나 이상의 프로세서에 커플링된 하나 이상의 라우드스피커를 더 포함하며,
상기 디스플레이는 상기 기준 스크린 또는 상기 뷰잉 윈도우 중 하나 또는 양쪽 모두를 출력하도록 구성되고,
상기 하나 이상의 프로세서는,
상기 인코딩된 오디오 데이터를 위한 렌더러를 결정하고;
상기 뷰잉 윈도우의 상기 중심 및 상기 기준 스크린의 상기 중심에 기초하여 상기 렌더러를 수정하고; 그리고
상기 하나 이상의 라우드스피커를 통한 플레이백을 위해, 상기 효과 매트릭스 및 수정된 렌더러에 기초하여 상기 HOA 오디오 신호를 렌더링하도록
구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 16 항에 있어서,
상기 하나 이상의 프로세서는 또한, 상기 기준 스크린의 상기 중심에서부터 상기 디스플레이를 통해 출력되는 상기 뷰잉 윈도우의 상기 중심으로 상기 HOA 오디오 신호의 음장을 회전시키도록 구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 10 항에 있어서,
상기 하나 이상의 프로세서는 또한, 상기 기준 스크린의 상기 하나 이상의 시야 (FOV) 파라미터 및 상기 뷰잉 윈도우의 상기 하나 이상의 FOV 파라미터에 기초한 상기 HOA 오디오 신호의 렌더링이 가능하게 되는지의 여부를 나타내는 신택스 엘리먼트를 수신하도록 구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 1 항에 있어서,
상기 디바이스는 또한, 상기 하나 이상의 프로세서에 커플링된 적어도 하나의 스피커를 포함하고, 상기 하나 이상의 프로세서는 상기 적어도 하나의 스피커를 구동하기 위해 라우드스피커 피드를 생성하도록 구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 1 항에 있어서,
상기 디바이스는 또한, 뷰잉 윈도우를 디스플레이하기 위한 디스플레이를 포함하며, 상기 하나 이상의 프로세서는 상기 디스플레이에 커플링되고, 상기 하나 이상의 프로세서는 상기 디스플레이를 통해 출력되는 뷰잉 윈도우의 하나 이상의 시야 (FOV) 파라미터를 결정하도록 구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서는 또한, 복수의 HOA 계수들을 결정하기 위해 상기 HOA 오디오 신호를 디코딩하도록 구성되고,
상기 하나 이상의 프로세서는 상기 HOA 오디오 신호를 렌더링하는 일부로서 상기 HOA 계수들을 렌더링하도록 구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 1 항에 있어서,
상기 하나 이상의 프로세서는 또한,
구면의 구백 개의 샘플링 포인트들에 대한 모드 매트릭스를 생성하고;
효과 매트릭스를 생성하기 위해 기준 스크린의 하나 이상의 FOV 파라미터 및 뷰잉 윈도우의 하나 이상의 FOV 파라미터에 기초하여 상기 모드 매트릭스를 수정하고; 그리고
상기 효과 매트릭스에 기초하여 상기 HOA 오디오 신호의 HOA 계수들을 렌더링하도록
구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 1 항에 있어서,
텔레비전을 더 포함하며,
상기 텔레비전은,
상기 메모리;
상기 하나 이상의 프로세서;
오디오 데이터와 비디오 데이터를 수신하도록 구성되는 통신 인터페이스;
렌더링된 오디오 신호를 출력하는 하나 이상의 스피커; 및
상기 비디오 데이터의 적어도 일부를 출력하도록 구성되는 디스플레이
를 포함하는, HOA 오디오 신호를 렌더링하는 디바이스.
제 1 항에 있어서,
상기 메모리와 상기 하나 이상의 프로세서를 구비하는 수신기 디바이스를 더 포함하며, 상기 수신기 디바이스는 하나 이상의 스피커에 통신적으로 커플링되는, HOA 오디오 신호를 렌더링하는 디바이스.
고차 앰비소닉 (HOA) 오디오 신호를 렌더링하는 방법으로서,
효과 매트릭스를 생성하는 부분으로서 소리크기 보상 프로세스를 수행하는 단계; 및
상기 효과 매트릭스에 기초하여 상기 HOA 오디오 신호를 렌더링하는 단계를 포함하는, HOA 오디오 신호를 렌더링하는 방법.
제 27 항에 있어서,
상기 소리크기 보상 프로세스를 수행하는 단계는, 렌더링 매트릭스에 기초하여 복수의 공간적 방향들에 대한 소리크기를 보상하는 단계를 포함하는, HOA 오디오 신호를 렌더링하는 방법.
제 27 항에 있어서,
상기 소리크기 보상 프로세스를 수행하는 단계는, 매핑 함수에 기초하여 복수의 공간적 방향들에 대한 소리크기를 보상하는 단계를 포함하는, HOA 오디오 신호를 렌더링하는 방법.
제 27 항에 있어서,
상기 소리크기 보상 프로세스를 수행하는 단계는, 상기 HOA 오디오 신호에 연관된 비디오 데이터에 관한 생성 스크린 사이즈 및 재생 윈도우 사이즈를 사용하여, 상기 HOA 오디오 신호의 오브젝트들에 연관된 복수의 원래의 사운드 로케이션들과 상기 HOA 오디오 신호의 상기 오브젝트들에 연관된 복수의 대응하는 매핑된 목적지들 사이의 최소 에러를 결정하는 단계를 포함하는, HOA 오디오 신호를 렌더링하는 방법.
제 27 항에 있어서,
상기 소리크기 보상 프로세스를 수행하는 단계는, 상기 HOA 오디오 신호에 연관된 비디오 데이터에 관한 생성 스크린 사이즈 및 재생 윈도우 사이즈를 사용하여, 상기 HOA 오디오 신호의 오브젝트들에 연관된 복수의 원래의 사운드 로케이션들과 상기 HOA 오디오 신호의 상기 오브젝트들에 연관된 복수의 대응하는 매핑된 목적지들 사이의 에너지 정규화를 결정하는 단계를 포함하는, HOA 오디오 신호를 렌더링하는 방법.
고차 앰비소닉 (HOA) 오디오 신호를 렌더링하는 장치로서,
효과 매트릭스를 생성하는 부분으로서 소리크기 보상 프로세스를 수행하는 수단; 및
상기 효과 매트릭스에 기초하여 상기 HOA 오디오 신호를 렌더링하는 수단을 포함하는, HOA 오디오 신호를 렌더링하는 장치.
고차 앰비소닉 (HOA) 오디오 신호를 렌더링하는 디바이스로서,
상기 HOA 오디오 신호에 연관된 오디오 데이터를 저장하도록 구성되는 메모리; 및
상기 메모리에 커플링되는 하나 이상의 프로세서를 포함하며,
상기 하나 이상의 프로세서는,
상기 HOA 오디오 신호에 연관된 비디오 데이터에 관한 줌잉 이벤트를 검출하고;
상기 줌잉 이벤트의 검출에 응답하여, 상기 HOA 신호의 차수에 기초하여 모드 매트릭스를 생성하고; 그리고
상기 모드 매트릭스에 기초하여 상기 HOA 오디오 신호를 렌더링하도록
구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 33 항에 있어서,
상기 하나 이상의 프로세서는 또한,
상기 모드 매트릭스와 상기 HOA 오디오 신호의 HOA 계수들의 공간적 방향들에 기초하여 예비 효과 매트릭스를 국부적으로 생성하고; 그리고
상기 국부적으로 생성된 예비 효과 매트릭스에 기초하여 상기 HOA 신호를 렌더링하도록 구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 34 항에 있어서,
상기 하나 이상의 프로세서는 또한,
상기 예비 효과 매트릭스를 사용하여 렌더링 매트릭스를 생성하고; 그리고
상기 렌더링 매트릭스에 기초하여 상기 HOA 신호를 렌더링하도록 구성되는, HOA 오디오 신호를 렌더링하는 디바이스.
제 33 항에 있어서,
텔레비전을 더 포함하며,
상기 텔레비전은,
상기 메모리;
상기 하나 이상의 프로세서;
렌더링된 오디오 신호를 출력하는 하나 이상의 스피커; 및
비디오 데이터를 출력하도록 구성되는 디스플레이
를 포함하는 하는, HOA 오디오 신호를 렌더링하는 디바이스.
제 33 항에 있어서,
상기 HOA 신호의 차수에 기초하여 상기 모드 매트릭스를 생성하기 위해, 상기 하나 이상의 프로세서는 공식 M = (N + 2)²을 적용하도록 구성되며, 식중 N은 상기 HOA 신호의 차수를 나타내고, M은 상기 모드 매트릭스를 생성함에 있어서 사용되는 샘플링 포인트들의 수를 나타내는, HOA 오디오 신호를 렌더링하는 디바이스.
제 33 항에 있어서,
상기 메모리와 상기 하나 이상의 프로세서를 구비하는 수신기 디바이스를 더 포함하며, 상기 수신기 디바이스는 하나 이상의 스피커에 통신적으로 커플링되는, HOA 오디오 신호를 렌더링하는 디바이스.