KR102077412B1 - 다중 트랜지션들 동안 고차 앰비소닉 계수들의 코딩 - Google Patents

다중 트랜지션들 동안 고차 앰비소닉 계수들의 코딩 Download PDF

Info

Publication number
KR102077412B1
KR102077412B1 KR1020187009995A KR20187009995A KR102077412B1 KR 102077412 B1 KR102077412 B1 KR 102077412B1 KR 1020187009995 A KR1020187009995 A KR 1020187009995A KR 20187009995 A KR20187009995 A KR 20187009995A KR 102077412 B1 KR102077412 B1 KR 102077412B1
Authority
KR
South Korea
Prior art keywords
indication
frame
vector
foreground
bitstream
Prior art date
Application number
KR1020187009995A
Other languages
English (en)
Other versions
KR20180068974A (ko
Inventor
닐스 귄터 페터스
디판잔 센
무영 김
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20180068974A publication Critical patent/KR20180068974A/ko
Application granted granted Critical
Publication of KR102077412B1 publication Critical patent/KR102077412B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

일반적으로, 다중 트랜지션들 동안 고차 앰비소닉 계수들을 코딩하기 위한 기법들이 설명된다. 프로세서 및 프로세서에 커플링된 메모리를 포함하는 디바이스가 이 기법들을 수행하도록 구성될 수도 있다. 프로세서는, 주변 HOA 계수가 포어그라운드 오디오 신호가 트랜지션 중일 때 비트스트림의 동일한 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하도록 구성될 수도 있다. 프로세서는 또한, 멀티-트랜지션 표시에 기초하여 대응하는 포어그라운드 오디오 신호의 공간적 특징을 기술하는 벡터를 획득하도록 구성될 수도 있고, 벡터 및 대응하는 HOA 오디오 신호 양자 모두는 HOA 오디오 데이터로부터 분해된다. 메모리는 벡터를 저장하도록 구성될 수도 있다.

Description

다중 트랜지션들 동안 고차 앰비소닉 계수들의 코딩
본 출원은 2015 년 10 월 14 일자로 출원되고, 발명의 명칭이 "CODING HIGHER-ORDER AMBISONIC COEFFICIENTS DURING MULTIPLE TRANSITIONS" 인, 미국 가출원 제 62/241,665 호의 이익을 주장하고, 이것의 전체 내용들은 참조로서 본원에 포함된다.
기술 분야
본 개시물은 오디오 데이터 및, 보다 구체적으로는 고차 앰비소닉 오디오 데이터의 압축에 관한 것이다.
고차 앰비소닉스 (higher-order ambisonics; HOA) 신호 (종종, 복수의 구면 고조파 계수들 (SHC) 또는 다른 계층 엘리먼트들로 표현됨) 는 사운드필드의 3 차원 표현이다. HOA 또는 SHC 표현은, SHC 신호로부터 렌더링되는 멀티-채널 오디오 신호를 재생하는데 사용된 로컬 스피커 지오메트리와 독립적인 방식으로 사운드필드를 표현할 수도 있다. SHC 신호는 또한, SHC 신호가 널리 공지되고 많이 채택된 멀티-채널 포맷들, 예컨대 5.1 오디오 채널 포맷 또는 7.1 오디오 채널 포맷으로 렌더링될 수도 있기 때문에, 이전 버전과의 호환성 (backwards compatibility) 을 용이하게 할 수도 있다. SHC 표현은 따라서, 이전 버전과의 호환성을 또한 수용하는 더 좋은 사운드필드의 표현을 가능하게 할 수도 있다.
일반적으로, 고차 앰비소닉스 오디오 데이터의 압축을 위한 기법들이 설명된다. 고차 앰비소닉스 오디오 데이터는 1 보다 큰 차수를 갖는 구면 고조파 기저 함수에 대응하는 적어도 하나의 구면 고조파 계수를 포함할 수도 있다.
일 양태에서, 고차 앰비소닉 (HOA) 오디오 데이터를 나타내는 비트스트림을 디코딩하도록 구성된 디바이스로서, 디바이스는, 주변 HOA 계수가, 포어그라운드 오디오 신호가 트랜지션 중일 때 비트스트림의 동일한 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하며, 멀티-트랜지션 표시에 기초하여 대응하는 포어그라운드 오디오 신호의 공간적 특징을 기술하는 벡터를 획득하는 것으로서, 벡터 및 대응하는 포어그라운드 오디오 신호 양자 모두는 HOA 오디오 데이터로부터 분해되어 있는, 상기 벡터를 획득하도록 구성된 하나 이상의 프로세서들을 포함한다. 디바이스는 또한, 하나 이상의 프로세서들에 커플링되고, 벡터를 저장하도록 구성된 메모리를 포함한다.
다른 양태에서, 고차 앰비소닉 (HOA) 오디오 데이터를 나타내는 비트스트림을 디코딩하는 방법으로서, 방법은, 주변 HOA 계수가, 포어그라운드 오디오 신호가 트랜지션 중일 때 비트스트림의 동일한 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하는 단계, 및 멀티-트랜지션 표시에 기초하여 대응하는 포어그라운드 오디오 신호의 공간적 특징을 기술하는 벡터를 획득하는 단계로서, 벡터 및 대응하는 포어그라운드 오디오 신호 양자 모두는 HOA 오디오 데이터로부터 분해되어 있는, 상기 벡터를 획득하는 단계를 포함한다
다른 양태에서, 명령들이 저장되어 있는 비일시적 컴퓨터 판독가능 저장 매체로서, 명령들은, 실행되는 경우, 하나 이상의 프로세서들로 하여금, 주변 HOA 계수가, 포어그라운드 오디오 신호가 트랜지션 중일 때 비트스트림의 동일한 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하게 하며, 멀티-트랜지션 표시에 기초하여 대응하는 포어그라운드 오디오 신호의 공간적 특징을 기술하는 벡터를 획득하는 것으로서, 벡터 및 대응하는 포어그라운드 오디오 신호 양자 모두는 HOA 오디오 데이터로부터 분해되어 있는, 상기 벡터를 획득하게 한다.
다른 양태에서, 고차 앰비소닉 (HOA) 오디오 데이터를 나타내는 비트스트림을 디코딩하기 위한 디바이스로서, 디바이스는, 주변 HOA 계수가, 포어그라운드 오디오 신호가 트랜지션 중일 때 비트스트림의 동일한 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하기 위한 수단, 및 멀티-트랜지션 표시에 기초하여 대응하는 포어그라운드 오디오 신호의 공간적 특징을 기술하는 벡터를 획득하기 위한 수단으로서, 벡터 및 대응하는 포어그라운드 오디오 신호 양자 모두는 HOA 오디오 데이터로부터 분해되어 있는, 상기 벡터를 획득하기 위한 수단을 포함한다.
본 기법들의 하나 이상의 양태들의 세부사항들은 첨부되는 도면들 및 하기의 설명들에서 기술된다. 이들 기법들의 다른 특성들, 목적들 및 이점들은 상세한 설명, 도면들, 및 청구항들로부터 명확해질 것이다.
도 1 은 다양한 차수들 및 서브-차수들의 구면 고조파 기저 함수들을 예시하는 도면이다.
도 2 는 본 개시물에 설명된 기법들의 다양한 양태들을 수행할 수도 있는 시스템을 예시하는 도면이다.
도 3 은 본 개시물에 설명된 기법들의 다양한 양태들을 수행할 수도 있는 도 2 의 예에 도시된 오디오 인코딩 디바이스의 일 예를, 보다 상세히 예시하는 블록도이다.
도 4 는 도 2 의 오디오 디코딩 디바이스를 더 상세히 예시하는 블록도이다.
도 5a 는 동일한 프레임 동안 다수의 트랜지션들이 발생하는 경우 비트스트림에서 프레임들의 시그널링을 예시하는 도면이다.
도 5b 는 본 개시물에 설명된 기법들의 다양한 양태들에 따른 동일한 프레임 동안 다수의 트랜지션들이 발생하는 경우 비트스트림에서 프레임들의 시그널링을 예시하는 도면이다.
도 6 내지 도 9 는 본 개시물에서 설명된 기법들의 다양한 양태들을 수행하는데 있어서 도 2 에 도시된 오디오 인코딩 디바이스의 예시의 동작을 예시하는 플로우차트이다.
도 10 내지 도 13 은 본 개시물에서 설명된 기법들의 다양한 양태들을 수행하는데 있어서 도 2 에 도시된 오디오 디코딩 디바이스의 예시의 동작을 예시하는 플로우차트이다.
오늘날 서라운드 사운드의 발전은 엔터테인먼트에 대한 많은 출력 포맷들을 이용가능 하게 만들었다. 이러한 소비자 서라운드 사운드 포맷들의 예들은 주로, 그들이 소정의 기하학적 좌표들에서 라우드스피커들로의 피드들을 암시적으로 지정한다는 점에서 '채널' 기반이다. 소비자 서라운드 사운드 포맷들은 대중적인 5.1 포맷 (이것은 다음의 6 개의 채널들을 포함한다: 전방 좌측 (FL), 전방 우측 (FR), 중앙 또는 전방 중앙, 후방 좌측 또는 서라운드 좌측, 후방 우측 또는 서라운드 우측, 및 저 주파수 효과들 (LFE)), 성장하는 7.1 포맷, (예를 들어, 초고화질 텔레비전 표준과 함께 사용하기 위한) 7.1.4 포맷 및 22.2 포맷과 같은 높이 스피커들을 포함하는 다양한 포맷들을 포함한다. 비-소비자 포맷들은 종종 '서라운드 어레이들' 로 칭해지는 (대칭 및 비-대칭적 지오메트리들의) 임의의 수의 스피커들을 포괄할 수 있다. 이러한 어레이의 일 예는 트렁케이트된 (truncated) 정십이면체의 코너들 상의 좌표들에 포지셔닝된 32 개의 라우드스피커들을 포함한다.
미래의 MPEG 인코더로의 입력은 선택적으로, 다음 3 개의 가능한 포맷들 중 하나이다: (i) 미리-지정된 포지션들에서 라우드스피커들을 통해 플레이되어야 하는 것을 의미하는, (위에서 논의된 바와 같은) 전통적인 채널-기반의 오디오; (ii) (다른 정보 중에서) 그들의 로케이션 좌표들을 포함하는 연관된 메타데이터를 갖는 단일 오디오 객체들에 대한 이산 펄스-코드-변조 (PCM) 데이터를 수반하는 객체-기반의 오디오; 및 (iii) 구면 고조파 기저 함수들의 계수들 (또한, "구면 고조파 계수들", 또는 SHC, "고차 앰비소닉스" 또는 HOA, 및 "HOA 계수들" 로 지칭됨) 을 사용하여 사운드필드를 표현하는 것을 수반하는 장면-기반의 오디오. 미래의 MPEG 인코더는 2013년 1월, 스위스, 제네바에서 배포되며, http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip 에서 입수가능한, ISO/IEC (International Organization for Standardization/International Electrotechnical Commission) JTC1/SC29/WG11/N13411 에 의한, "Call for Proposals for 3D Audio" 라는 제목의 문헌에서 더 상세히 설명될 수도 있다.
시장에서는 다양한 '서라운드-사운드' 채널-기반의 포맷들이 있다. 그들은 예를 들어, (스테레오를 넘어서 거실들로 잠식해 들어가는 관점에서 가장 성공적이었던) 5.1 홈 시어터 시스템으로부터, NHK (Nippon Hoso Kyokai 또는 일본 방송 협회 (Japan Broadcasting Corporation)) 에 의해 개발된 22.2 시스템에 이른다. 콘텐트 생성자들 (예를 들어, 할리우드 스튜디오들) 은 영화용 사운드트랙을 한 번 제작하고, 각각의 스피커 구성을 위해 그것을 재믹싱하는데 노력을 들이지 않기를 원할 것이다. 최근, 표준들 개발 조직들은 표준화된 비트스트림으로의 인코딩, 및 스피커 지오메트리 (및 개수) 및 (렌더러를 포함한) 플레이백의 로케이션에서의 음향 조건들에 적응가능하고 불가지론적인 후속의 디코딩을 제공할 방법들을 고려하고 있다.
콘텐트 생성자들에게 이러한 유연성을 제공하기 위해, 엘리먼트들의 계층적 세트가 사운드필드를 표현하는데 사용될 수도 있다. 엘리먼트들의 계층적 세트는 낮은-차수의 엘리먼트들의 기본적인 세트가 모델링된 사운드필드의 풀 표현을 제공하도록 엘리먼트들이 차수화된 엘리먼트들의 세트를 지칭할 수도 있다. 그 세트가 고-차수 엘리먼트들을 포함하도록 확장됨에 따라, 표현이 더 상세해지고, 해상도를 증가시킨다.
엘리먼트들의 계층적 세트의 일 예는 구면 고조파 계수들 (SHC) 의 세트이다. 다음 수식은 사운드필드의 설명 또는 표현을 SHC 를 사용하여 설명한다:
Figure 112018035074394-pct00001
수식은 시간 t 에서 사운드필드의 임의의 포인트
Figure 112018035074394-pct00002
에서의 압력
Figure 112018035074394-pct00003
가, SHC,
Figure 112018035074394-pct00004
에 의해 고유하게 표현될 수 있다는 것을 나타낸다. 여기서, k=ω/c, c 는 사운드의 속도 (~343 m/s) 이고,
Figure 112018035074394-pct00005
는 참조의 포인트 (또는, 관측 포인트) 이고,
Figure 112018035074394-pct00006
는 차수 n 의 구면 Bessel 함수이며,
Figure 112018035074394-pct00007
는 차수 n 및 하위차수 m 의 구면 고조파 기저 함수들이다. 꺽쇠 괄호들 내 항은 이산 푸리에 변환 (DFT), 이산 코사인 변환 (DCT), 또는 웨이블릿 변환과 같은, 다양한 시간-주파수 변환들에 의해 근사화될 수 있는 신호의 주파수-도메인 표현 (즉,
Figure 112018035074394-pct00008
) 인 것을 알 수 있다. 계층적 세트들의 다른 예들은 웨이블릿 변환 계수들의 세트들 및 다중해상도 기저 함수들의 계수들의 다른 세트들을 포함한다.
도 1 은 제로 차수 (n = 0) 로부터 제 4 차수 (n = 4) 까지의 구면 고조파 기저 함수들을 예시하는 도면이다. 알 수 있는 바와 같이, 각각의 차수에 대해, 예시의 용이 목적을 위해 도 1 의 예에 도시되지만 명시적으로 표시되지 않은 하위차수들 m 의 확장이 존재한다.
SHC
Figure 112018035074394-pct00009
는 다양한 마이크로폰 어레이 구성들에 의해 물리적으로 획득될 (예컨대, 기록될) 수 있거나, 또는 이의 대안으로, 그들은 사운드필드의 채널-기반의 또는 객체-기반의 설명들로부터 도출될 수 있다. SHC 는 장면-기반의 오디오를 나타내며, 여기서, SHC 는 더 효율적인 송신 또는 저장을 증진할 수도 있는 인코딩된 SHC 를 획득하기 위해 오디오 인코더에 입력될 수도 있다. 예를 들어, (1+4)2 (25, 따라서, 제 4 차수) 계수들을 수반하는 제 4-차수 표현이 사용될 수도 있다.
위에서 언급한 바와 같이, SHC 는 마이크로폰 어레이를 사용한 마이크로폰 레코딩으로부터 도출될 수도 있다. SHC 가 마이크로폰 어레이들로부터 도출될 수 있는 방법의 다양한 예들은 2005년 11월, J. Audio Eng. Soc., Vol. 53, No. 11, pp. 1004-1025, Poletti, M., "Three-Dimensional Surround Sound Systems Based on Spherical Harmonics" 에 설명되어 있다.
SHC들이 어떻게 객체-기반의 설명으로부터 도출될 수 있는지를 예시하기 위해, 다음 방정식을 고려한다. 개별의 오디오 객체에 대응하는 사운드필드에 대한 계수들
Figure 112018035074394-pct00010
은 다음과 같이 표현될 수도 있다:
Figure 112018035074394-pct00011
여기서, i 는
Figure 112018035074394-pct00012
이고,
Figure 112018035074394-pct00013
는 차수 n 의 (제 2 종의) 구면 Hankel 함수이고,
Figure 112018035074394-pct00014
는 객체의 로케이션이다. (예컨대, PCM 스트림에 관해 고속 푸리에 변환을 수행하는 것과 같은, 시간-주파수 분석 기법들을 사용하여) 객체 소스 에너지 g(ω) 를 주파수의 함수로서 알면, 우리는 각각의 PCM 객체 및 대응하는 로케이션을 SHC
Figure 112018035074394-pct00015
로 변환할 수 있다. 또한, (상기의 것이 선형 및 직교 분해이므로) 각각의 객체에 대한
Figure 112018035074394-pct00016
계수들이 누적되는 것으로 보여질 수 있다. 이 방식으로, 다수의 PCM 객체들은
Figure 112018035074394-pct00017
계수들에 의해 (예컨대, 개별의 객체들에 대한 계수 벡터들의 합계로서) 표현될 수 있다. 본질적으로, 계수들은 사운드필드에 관한 정보 (3D 좌표들의 함수로서의 압력) 을 포함하며, 상기는 관측 포인트
Figure 112018035074394-pct00018
근처에서, 개별의 객체들로부터 전체 사운드필드의 표현으로의 변환을 나타낸다. 나머지 도면들은 객체-기반 및 SHC-기반 오디오 코딩의 맥락에서 아래에서 설명된다.
도 2 는 본 개시물에 설명된 기법들의 다양한 양태들을 수행할 수도 있는 시스템 (10) 을 예시하는 도면이다. 도 2 의 예에 나타낸 바와 같이, 시스템 (10) 은 콘텐트 생성자 디바이스 (12) 및 콘텐트 소비자 디바이스 (14) 를 포함한다. 콘텐트 생성자 디바이스 (12) 및 콘텐트 소비자 디바이스 (14) 의 맥락에서 설명되지만, 이 기법들은 (HOA 계수들로서 또한 지칭될 수도 있는) SHC들 또는 사운드필드의 임의의 다른 계층적 표현이 오디오 데이터를 나타내는 비트스트림을 형성하기 위해 인코딩되는 임의의 맥락에서 구현될 수도 있다.
또한, 콘텐트 생성자 디바이스 (12) 는, 몇몇 예들을 제공하기 위해 핸드셋 (또는 셀룰러 폰), 태블릿 컴퓨터, 스마트 폰, 또는 데스크톱 컴퓨터를 포함하는, 본 개시물에서 설명된 기법들을 구현할 수 있는 컴퓨팅 디바이스의 임의의 형태를 나타낼 수도 있다. 마찬가지로, 콘텐트 소비자 디바이스 (14) 는, 몇몇 예들을 제공하기 위해 핸드셋 (또는 셀룰러 폰), 태블릿 컴퓨터, 스마트 폰, 셋-톱 박스, (소위 "스마트 텔레비전들" 을 포함하는) 텔레비전, 수신기 (예컨대, 오디오/비주얼 - AV - 수신기), 미디어 플레이어 (예컨대, 디지털 비디오 디스크 플레이어, 스트리밍 미디어 플레이어 등), 또는 데스크톱 컴퓨터를 포함하는, 본 개시물에 설명된 기법들을 구현할 수 있는 컴퓨팅 디바이스의 임의의 형태를 나타낼 수도 있다.
콘텐트 소비자 디바이스 (14) 가 텔레비전을 나타내는 경우, 콘텐트 소비자 디바이스 (14) 는 통합된 라우드스피커들을 포함할 수도 있다. 이 경우에서, 콘텐트 소비자 디바이스 (14) 는 복원된 HOA 계수들을 렌더링하여 라우드스피커 피드들을 생성하고, 라우드스피커 피드들을 출력하여 통합된 라우드스피커들을 구동할 수도 있다.
콘텐트 소비자 디바이스 (14) 가 수신기 또는 미디어 플레이어를 나타내는 경우, 콘텐트 소비자 디바이스 (14) 는 라우드스피커들에 (전기적으로나 무선으로) 커플링할 수도 있다. 콘텐트 소비자 디바이스 (14) 는, 이 경우에서, 복원된 HOA 계수들을 렌더링하여 라우드스피커 피드들을 생성하고, 라우드스피커 피드들을 출력하여 라우드스피커들을 구동할 수도 있다.
콘텐트 생성자 디바이스 (12) 는 콘텐트 소비자 디바이스 (14) 와 같은 콘텐트 소비자들의 오퍼레이터들에 의한 소비를 위해 멀티-채널 오디오 콘텐트를 생성할 수도 있는 무비 스튜디오 또는 다른 엔티티에 의해 동작될 수도 있다. 일부 예들에서, 콘텐트 생성자 디바이스 (12) 는 HOA 계수들 (11) 을 압축하기 쉬운 개별의 사용자에 의해 동작될 수도 있다. 종종, 콘텐트 생성자는 비디오 콘텐트와 함께 오디오 콘텐트를 생성한다. 콘텐트 소비자 디바이스 (14) 는 개인에 의해 동작될 수도 있다. 콘텐트 소비자 디바이스 (14) 는, 멀티-채널 오디오 콘텐트로서 재생시키기 위해 SHC 를 렌더링할 수 있는 오디오 재생 시스템의 임의의 형태를 지칭할 수도 있는, 오디오 재생 시스템 (16) 을 포함할 수도 있다.
콘텐트 생성자 디바이스 (12) 는 오디오 편집 시스템 (18) 을 포함한다. 콘텐트 생성자 디바이스 (12) 는 라이브 레코딩들 (7) 을 (HOA 계수들로서 직접 포함하는) 다양한 포맷들로, 그리고 콘텐트 생성자 디바이스 (12) 가 오디오 편집 시스템 (18) 을 이용하여 편집할 수도 있는 오디오 객체들 (9) 을 획득한다. 콘텐트 생성자는 편집 프로세스 동안, 추가로 편집할 필요가 있는 사운드필드의 다양한 양태들을 식별하려는 시도에서 렌더링된 스피커 피드들을 청취하는 오디오 객체들 (9) 로부터 HOA 계수들 (11) 을 렌더링할 수도 있다. 콘텐트 생성자 디바이스 (12) 는 그 후 (잠재적으로는, 소스 HOA 계수들이 위에서 설명된 방법으로 도출될 수도 있는 오디오 객체들 (9) 중 상이한 것들의 조작을 통해서 간접적으로) HOA 계수들 (11) 을 편집할 수도 있다. 콘텐트 생성자 디바이스 (12) 는 HOA 계수들 (11) 을 생성하기 위해 오디오 편집 시스템 (18) 을 이용할 수도 있다. 오디오 편집 시스템 (18) 은 오디오 데이터를 편집하여 오디오 데이터를 하나 이상의 소스 구면 고조파 계수들로서 출력할 수 있는 임의의 시스템을 나타낸다.
편집 프로세스가 완료될 때, 콘텐트 생성자 디바이스 (12) 는 HOA 계수들 (11) 에 기초하여 비트스트림 (21) 을 생성할 수도 있다. 즉, 콘텐트 생성자 디바이스 (12) 는 비트스트림 (21) 을 생성하도록 본 개시물에 설명된 기법들의 다양한 양태들에 따라 HOA 계수들 (11) 을 인코딩하거나 또는 다르게는 압축하도록 구성된 디바이스를 나타내는 오디오 인코딩 디바이스 (20) 를 포함한다. 오디오 인코딩 디바이스 (20) 는 일 예로서, 유선 또는 무선 채널, 데이터 저장 디바이스, 등일 수도 있는 송신 채널을 통한 송신을 위해 비트스트림 (21) 을 생성할 수도 있다. 비트스트림 (21) 은 HOA 계수들 (11) 의 인코딩된 버전을 나타낼 수도 있으며, 프라이머리 비트스트림 및 사이드 채널 정보로서 지칭될 수도 있는 다른 사이드 비트스트림 (side bitstream) 을 포함할 수도 있다.
도 2 에서 콘텐트 소비자 디바이스 (14) 로 직접 송신되는 것으로 도시되지만, 콘텐트 생성자 디바이스 (12) 는 비트스트림 (21) 을 콘텐트 생성자 디바이스 (12) 와 콘텐트 소비자 디바이스 (14) 사이에 위치된 중간 디바이스로 출력할 수도 있다. 중간 디바이스는 이 비트스트림을 요청할 수도 있는 콘텐트 소비자 디바이스 (14) 로의 추후 전달을 위해 비트스트림 (21) 을 저장할 수도 있다. 중간 디바이스는 파일 서버, 웹 서버, 데스크톱 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 모바일 폰, 스마트 폰, 또는 오디오 디코더에 의한 추후 취출을 위해 비트스트림 (21) 을 저장할 수 있는 임의의 다른 디바이스를 포함할 수도 있다. 중간 디바이스는 비트스트림 (21) 을 (그리고, 어쩌면, 대응하는 비디오 데이터 비트스트림을 송신하는 것과 함께) 비트스트림 (21) 을 요청하는 콘텐트 소비자 디바이스 (14) 와 같은, 가입자들에게 스트리밍할 수 있는 콘텐트 전달 네트워크에 상주할 수도 있다.
대안으로, 콘텐트 생성자 디바이스 (12) 는 비트스트림 (21) 을, 대부분이 컴퓨터에 의해 판독가능하고 따라서 컴퓨터-판독가능 저장 매체 또는 비일시적 컴퓨터-판독가능 저장 매체로서 지칭될 수도 있는, 컴팩트 디스크, 디지털 비디오 디스크, 고화질 비디오 디스크 또는 다른 저장 매체와 같은, 저장 매체에 저장할 수도 있다. 이 맥락에서, 송신 채널은 매체들에 저장된 콘텐트가 송신되는 채널들을 지칭할 수도 있다 (그리고, 소매점들 및 다른 저장-기반의 전달 메커니즘을 포함할 수도 있다). 임의의 경우에서, 본 개시물의 기법들은 따라서 이 점에서 도 2 의 예에 제한되지 않아야 한다.
도 2 의 예에서 추가로 도시된 바와 같이, 콘텐트 소비자 디바이스 (14) 는 오디오 재생 시스템 (16) 을 포함한다. 오디오 재생 시스템 (16) 은 멀티-채널 오디오 데이터를 재생시킬 수 있는 임의의 오디오 재생 시스템을 나타낼 수도 있다. 오디오 재생 시스템 (16) 은 다수의 상이한 렌더러들 (22) 을 포함할 수도 있다. 렌더러들 (22) 은 상이한 유형의 렌더링을 각각 제공할 수도 있으며, 여기서, 상이한 유형들의 렌더링은 벡터-기반 진폭 패닝 (VBAP) 을 수행하는 다양한 방법들 중 하나 이상, 및/또는 사운드필드 합성을 수행하는 다양한 방법들 중 하나 이상을 포함할 수도 있다. 본원에서 사용될 때, "A 및/또는 B" 는 "A 또는 B", 또는 "A 및 B" 양자 모두를 의미한다.
오디오 재생 시스템 (16) 은 오디오 디코딩 디바이스 (24) 를 더 포함할 수도 있다. 오디오 디코딩 디바이스 (24) 는 비트스트림 (21) 으로부터 HOA 계수들 (11') 을 디코딩하도록 구성된 디바이스를 나타낼 수도 있고, 여기서 HOA 계수들 (11') 은 HOA 계수들 (11) 과 유사할 수도 있지만 손실 동작들 (예를 들어, 양자화) 및/또는 송신 채널을 통한 송신으로 인해 다를 수도 있다.
오디오 재생 시스템 (16) 은 HOA 계수들 (11') 을 획득하기 위해 비트스트림 (21) 을 디코딩한 후, HOA 계수들 (11') 을 렌더링하여 라우드스피커 피드들 (25) 을 출력할 수도 있다. 라우드스피커 피드들 (25) 은 (용이한 예시의 목적을 위해 도 2 의 예에 도시되지 않은) 하나 이상의 라우드스피커들을 구동할 수도 있다.
적합한 렌더러를 선택하기 위해, 또는, 일부 경우에서, 적합한 렌더러를 생성하기 위해, 오디오 재생 시스템 (16) 은 다수의 라우드스피커들 및/또는 라우드스피커들의 공간 지오메트리를 나타내는 라우드스피커 정보 (13) 를 획득할 수도 있다. 일부 경우에서, 오디오 재생 시스템 (16) 은 레퍼런스 마이크로폰을 사용하여 라우드스피커 정보 (13) 를 획득하고 라우드스피커 정보 (13) 를 동적으로 결정하도록 이러한 방식으로 라우드스피커들을 구동할 수도 있다. 다른 경우들에서, 또는 라우드스피커 정보 (13) 의 동적 결정과 함께, 오디오 재생 시스템 (16) 은 오디오 재생 시스템 (16) 과 인터페이스하여 라우드스피커 정보 (13) 를 입력하도록 사용자를 프롬프트할 수도 있다.
오디오 재생 시스템 (16) 은 그 후 라우드스피커 정보 (13) 에 기초하여 오디오 렌더러들 (22) 중 하나를 선택할 수도 있다. 일부 경우에서, 오디오 재생 시스템 (16) 은, 어떤 오디오 렌더러들 (22) 도 라우드스피커 정보 (13) 에 지정된 것에 대한 어떤 임계 유사성 척도 (라우드스피커 지오메트리의 관점에서) 내에 있지 않을 때, 라우드스피커 정보 (13) 에 기초하여 오디오 렌더러들 (22) 중 하나를 생성할 수도 있다. 오디오 재생 시스템 (16) 은 일부 경우들에서, 오디오 렌더러들 (22) 중 기존의 것을 선택하려고 먼저 시도하지 않고, 라우드스피커 정보 (13) 에 기초하여 오디오 렌더러들 (22) 중 하나를 생성할 수도 있다. 하나 이상의 스피커들 (3) 은 그 후 렌더링된 라우드스피커 피드들 (25) 을 재생할 수도 있다.
도 3 은 본 개시물에 설명된 기법들의 다양한 양태들을 수행할 수도 있는 도 2 의 예에 도시된 오디오 인코딩 디바이스 (20) 의 일 예를 더 상세히 예시하는 블록도이다. 오디오 인코딩 디바이스 (20) 는 콘텐트 분석 유닛 (26), 벡터-기반 분해 유닛 (27) 및 방향-기반 분해 유닛 (28) 을 포함한다.
아래에서 간단히 설명되지만, 벡터-기반 분해 유닛 (27) 및 HOA 계수들을 압축하는 다양한 양태들에 관한 더 많은 정보는 2014 년 5 월 29 일자로 출원된, 발명의 명칭이 "INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD" 인 국제 특허 출원 공개 제 WO 2014/194099 호에서 입수가능하다. 또한, 이하에 요약된 벡터-기반 분해의 논의를 포함하여, MPEG-H 3D 오디오 표준에 따라 HOA 계수들의 압축의 다양한 양태들의 더 많은 상세들은 다음에서 발견될 수 있다:
2014 년 7 월 25 일자, ISO/IEC JTC 1/SC 29/WG 11 에 의한, "Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio" 라는 제목의 ISO/IEC DIS 23008-3 문헌 (http://mpeg.chiariglione.org/standards/mpeg-h/3d-audio/dis-mpeg-h-3d-audio 에서 입수 가능하고, 이하에서 "phase I of the MPEG-H 3D audio standard" 으로서 지칭됨);
2015 년 7 월 25 일자, ISO/IEC JTC 1/SC 29/WG 11 에 의한, "Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, AMENDMENT 3: MPEG-H 3D Audio Phase 2" 라는 제목의 ISO/IEC DIS 23008-3:2015/PDAM 3 문헌 (http://mpeg.chiariglione.org/standards/mpeg-h/3d-audio/text-isoiec-23008-3201xpdam-3-mpeg-h-3d-audio-phase-2 에서 입수 가능하고, 이하에서 "phase II of the MPEG-H 3D audio standard" 으로서 지칭됨); 및
2015 년 8월자이고 신호 처리에서 선택된 주제의 IEEE 저널의 Vol. 9, No. 5 에 공개된, J
Figure 112018035074394-pct00019
rgen Herre, 등의, "MPEG-H 3D Audio - The New Standard for Coding of Immersive Spatial Audio" 라는 제목.
콘텐트 분석 유닛 (26) 은 HOA 계수들 (11) 의 콘텐트를 분석하여 HOA 계수들 (11) 이 라이브 레코딩 또는 오디오 객체로부터 생성된 콘텐트를 나타내는지 여부를 식별하도록 구성된 유닛을 나타낸다. 콘텐트 분석 유닛 (26) 은 HOA 계수들 (11) 이 실제 사운드필드의 레코딩으로부터 또는 인공적인 오디오 객체로부터 생성되었는지 여부를 결정할 수도 있다. 일부 경우에서, 프레임으로 된 HOA 계수들 (11) 이 레코딩으로부터 생성된 경우, 콘텐트 분석 유닛 (26) 은 HOA 계수들 (11) 을 벡터-기반 분해 유닛 (27) 으로 패스한다. 일부 경우에서, 프레임으로 된 HOA 계수들 (11) 이 합성 오디오 객체로부터 생성된 경우, 콘텐트 분석 유닛 (26) 은 HOA 계수들 (11) 을 방향-기반 합성 유닛 (28) 으로 패스한다. 방향-기반 합성 유닛 (28) 은 HOA 계수들 (11) 의 방향-기반 합성을 수행하여 방향-기반 비트스트림 (21) 을 생성하도록 구성된 유닛을 나타낼 수도 있다.
도 3 의 예에 도시된 바와 같이, 벡터-기반 분해 유닛 (27) 은 선형 가역 변환 (LIT) 유닛 (30), 파라미터 계산 유닛 (32), 리오더 유닛 (34), 포어그라운드 선택 유닛 (36), 에너지 보상 유닛 (38), 음향심리 오디오 코더 유닛 (40), 비트스트림 생성 유닛 (42), 사운드필드 분석 유닛 (44), 계수 감축 유닛 (46), 백그라운드 (BG) 선택 유닛 (48), 시공간적 (spatio-temporal) 보간 유닛 (50), 및 양자화 유닛 (52) 을 포함할 수도 있다.
선형 가역 변환 (LIT) 유닛 (30) 은 HOA 계수들 (11) 을 HOA 채널들의 유형으로 수신하며, 각각의 채널은 (HOA[k] 로서 표기될 수도 있으며, 여기서 k 는 샘플들의 현재의 프레임 또는 블록을 표기할 수도 있는) 구면 기저 함수들의 주어진 차수, 서브-차수와 연관된 계수의 블록 또는 프레임을 나타낸다. HOA 계수들 (11) 의 매트릭스는 차원 (dimension) 들 D: M x (N+1)2 을 가질 수도 있다.
LIT 유닛 (30) 은 특이 값 분해로서 지칭된 분석의 유형을 수행하도록 구성된 유닛을 나타낼 수도 있다. SVD 에 대해 설명되지만, 본 개시물에 설명된 기법들은 선형으로 비상관된, 에너지 압축된 출력의 세트들을 제공하는 임의의 유사한 변환 또는 분해에 대하여 수행될 수도 있다. 또한, 본 개시물에서 "세트들" 에 대한 참조는 구체적으로 반대로 언급되지 않는 한 비-제로 세트들을 지칭하는 것으로 일반적으로 의도되며, 소위 "빈 (empty) 세트" 를 포함하는 세트들의 고전적 (classical) 수학적 정의를 지칭하는 것으로 의도되지 않는다. 대안적인 변환은 "PCA" 로서 종종 지칭되는 주요 컴포넌트 분석을 포함할 수도 있다. 맥락에 따라, PCA 는 다수의 상이한 명칭들, 예컨대 몇몇 예를 들자면 이산 카루넨-루베 변환, 호텔링 변환, 적합 직교 분해 (proper orthogonal decomposition; POD), 및 고유치 분해 (eigenvalue decomposition; EVD) 에 의해 지칭될 수도 있다. 오디오 데이터를 압축하는 기본적 목표에 도움이 되는 이러한 동작들의 특성들은 멀티채널 오디오 데이터의 '에너지 압축 (energy compaction)' 및 '역상관' 이다.
임의의 경우에서, 예시의 목적을 위해 LIT 유닛 (30) 이 ("SVD" 로서 또한 지칭될 수도 있는) 특이 값 분해를 수행한다고 가정하면, LIT 유닛 (30) 은 HOA 계수들 (11) 을 변환된 HOA 계수들의 2 개 이상의 세트들로 변환할 수도 있다. 변환된 HOA 계수들의 "세트들" 은 변환된 HOA 계수들의 벡터들을 포함할 수도 있다. 도 3 의 예에서, LIT 유닛 (30) 은 HOA 계수들 (11) 에 대하여 SVD 를 수행하여, 소위 V 매트릭스, S 매트릭스, 및 U 매트릭스를 생성할 수도 있다. SVD 는, 선형 대수학에서, y 곱하기 z (y-by-z) 실수 또는 복소수 매트릭스 X (여기서, X 는 HOA 계수들 (11) 과 같은, 멀티-채널 오디오 데이터를 나타낼 수도 있음) 의 인수분해를 다음 형태로 나타낼 수도 있다:
X = USV*
U 는 y 곱하기 y 실수 또는 복소수 유니터리 매트릭스 (unitary matrix) 를 나타낼 수도 있으며, 여기서, U 의 y 컬럼들은 멀티-채널 오디오 데이터의 좌측-특이 벡터들로서 알려져 있다. S 는 대각선 상에 비-음의 실수들을 갖는 y 곱하기 z (y-by-z) 직사각형의 대각선 매트릭스를 나타낼 수도 있으며, 여기서, S 의 대각선 값들은 멀티-채널 오디오 데이터의 특이 값들로서 알려져 있다. (V 의 켤레 트랜스포즈를 표기할 수도 있는) V* 는 z 곱하기 z 실수 또는 복소수 유니터리 매트릭스를 나타낼 수도 있으며, 여기서, V* 의 z 컬럼들은 멀티-채널 오디오 데이터의 우측-특이 벡터들로서 알려져 있다.
일부 예들에서, 위에서 참조된 SVD 수학적 수식에서 V* 매트릭스는 SVD 가 복소수들을 포함하는 매트릭스들에 적용될 수도 있다는 것을 반영하기 위해 V 매트릭스의 켤레 트랜스포즈로서 표기된다. 단지 실수들만을 포함하는 매트릭스들에 적용될 때, V 매트릭스의 켤레 복소수 (또는, 다시 말해 V* 매트릭스) 는 V 매트릭스의 트랜스포즈인 것으로 간주될 수도 있다. 아래에서는, 용이한 예시 목적을 위해, V* 매트릭스보다는, V 매트릭스가 SVD 를 통해서 출력되는 결과로 HOA 계수들 (11) 이 실수들을 포함한다고 가정된다. 더욱이, 본 개시물에서 V 매트릭스로서 표기되지만, V 매트릭스에 대한 참조는 적합한 경우 V 매트릭스의 트랜스포즈를 지칭하는 것으로 이해되어야 한다. V 매트릭스인 것으로 가정되지만, 이 기법들은 복소 계수들을 갖는 HOA 계수들 (11) 과 유사한 방식으로 적용될 수도 있으며, 여기서, SVD 의 출력은 V* 매트릭스이다. 따라서, 본 기법들은 이와 관련하여, 단지 V 매트릭스를 생성하기 위한 SVD 의 적용을 제공하는데만 제한되지 않아야 하며, V* 매트릭스를 생성하기 위한 복소수 컴포넌트들을 갖는 HOA 계수들 (11) 에의 SVD 의 적용을 포함할 수도 있다.
이 방식으로, LIT 유닛 (30) 은 HOA 계수들 (11) 에 대하여 SVD 를 수행하여, 차원들 D: M x (N+1)2 를 갖는 (S 벡터들과 U 벡터들의 결합된 버전을 나타낼 수도 있는) US[k] 벡터들 (33), 및 차원들 D: (N+1)2 x (N+1)2 를 갖는 V[k] 벡터들 (35) 을 출력할 수도 있다. US[k] 매트릭스에서의 개별의 벡터 엘리먼트들은 또한,
Figure 112018035074394-pct00020
로서 지칭될 수도 있는, 반면 V[k] 매트릭스의 개별의 벡터들은 또한 v(k) 로서 지칭될 수도 있다.
U, S 및 V 매트릭스들의 분석은 매트릭스들이 X 로 위에서 나타낸 기본적인 사운드필드의 공간적 및 시간적 특징들을 운반하거나 또는 나타낸다는 것을 보일 수도 있다. (길이 M 샘플들의) U 에서의 N 개의 벡터들 각각은, 서로에 직교하며 (방향 정보로서 또한 지칭될 수도 있는) 임의의 공간적 특징들로부터 디커플링되어 있는 정규화된 분리된 오디오 신호들을 (M 샘플들로 표현된 기간에 대한) 시간의 함수로서 나타낼 수도 있다. 공간 형태 및 포지션 (r, 쎄타 (theta), 파이 (phi)) 를 나타내는, 공간적 특징들은 V 매트릭스 (길이 (N+1)2 각각) 에서, 개별의 i 번째 벡터들,
Figure 112018035074394-pct00021
로 대신 표현될 수도 있다.
Figure 112018035074394-pct00022
벡터들 각각의 개별의 엘리먼트들은 연관된 오디오 객체에 대한 사운드필드의 (폭을 포함하는) 형태 및 포지션을 기술하는 HOA 계수를 나타낼 수도 있다. U 매트릭스 및 V 매트릭스의 벡터들 양자 모두는 그들의 제곱-평균-제곱근 에너지들이 1 과 동일하도록 정규화된다. U 에서의 오디오 신호들의 에너지는 따라서 S 에서 대각선 엘리먼트들로 표현된다. (개별의 벡터 엘리먼트들
Figure 112018035074394-pct00023
을 갖는) US[k] 를 형성하기 위해 U 와 S 를 곱하는 것은, 따라서 에너지들을 갖는 오디오 신호를 나타낸다. (U 에서) 오디오 시간-신호들, (S 에서) 그들의 에너지들 및 (V 에서) 그들의 공간적 특성들을 디커플링시키는 SVD 분해의 능력은 본 개시물에 설명된 기법들의 다양한 양태들을 지원할 수도 있다. 또한, US[k] 와 V[k] 의 벡터 곱셈에 의해 기본적인 HOA[k] 계수들, X 를 합성하는 모델은, 이 문헌 전반에 걸쳐서 사용되는 용어 "벡터-기반 분해" 를 야기시킨다.
HOA 계수들 (11) 에 대하여 직접 수행되는 것으로 설명되지만, LIT 유닛 (30) 은 HOA 계수들 (11) 의 유도체들에 선형 가역 변환을 적용할 수도 있다. 예를 들어, LIT 유닛 (30) 은 HOA 계수들 (11) 로부터 도출된 전력 스펙트럼 밀도 매트릭스에 대해 SVD 를 적용할 수도 있다. 계수들 그 자체들 보다는 HOA 계수들의 전력 스펙트럼 밀도 (PSD) 에 대하여 SVD 를 수행함으로써, LIT 유닛 (30) 은 프로세서 사이클들 및 저장 공간 중 하나 이상의 관점들에서 SVD 를 수행하는 것의 연산적 복잡성을 잠재적으로 감소시키면서, SVD 가 HOA 계수들에 직접적으로 적용되었던 것처럼 동일한 소스 오디오 인코딩 효율성을 달성할 수도 있다.
파라미터 계산 유닛 (32) 은 상관 파라미터 (R), 방향 특성들 파라미터들 (
Figure 112018035074394-pct00024
), 및 에너지 특성 (e) 과 같은, 다양한 파라미터들을 계산하도록 구성된 유닛을 나타낸다. 현재 프레임에 대한 파라미터들 각각은
Figure 112018035074394-pct00025
Figure 112018035074394-pct00026
로서 표기될 수도 있다. 파라미터 계산 유닛 (32) 은 US[k] 벡터들 (33) 에 대하여 에너지 분석 및/또는 상관 (또는, 소위 교차-상관) 을 수행하여, 파라미터들을 식별할 수도 있다. 파라미터 계산 유닛 (32) 은 또한 이전 프레임에 대한 파라미터들을 결정할 수도 있으며, 여기서 이전 프레임 파라미터들은 US[k-1] 벡터 및 V[k-1] 벡터들의 이전 프레임에 기초하여
Figure 112018035074394-pct00027
Figure 112018035074394-pct00028
로 표기될 수도 있다. 파라미터 계산 유닛 (32) 은 현재 파라미터들 (37) 및 이전 파라미터들 (39) 을 리오더 유닛 (34) 으로 출력할 수도 있다.
파라미터 계산 유닛 (32) 에 의해 계산된 파라미터들은 그들의 자연스러운 평가 또는 시간 경과에 따른 연속성을 나타내도록 오디오 객체들을 리오더링하기 위해 리오더 유닛 (34) 에 의해 사용될 수도 있다. 리오더 유닛 (34) 은 제 1 US[k] 벡터들 (33) 로부터의 파라미터들 (37) 의 각각을, 제 2 US[k-1] 벡터들 (33) 에 대한 파라미터들 (39) 의 각각에 대해 턴-와이즈로 (turn-wise) 비교할 수도 있다. 리오더 유닛 (34) 은 US[k] 매트릭스 (33) 및 V[k] 매트릭스 (35) 내의 다양한 벡터들을 현재 파라미터들 (37) 및 이전 파라미터들 (39) 에 기초하여 (일 예로서, Hungarian 알고리즘을 사용하여) 리오더링하여, (수학적으로
Figure 112018035074394-pct00029
로서 표기될 수도 있는) 리오더링된 US[k] 매트릭스 (33') 및 (수학적으로
Figure 112018035074394-pct00030
로서 표기될 수도 있는) 리오더링된 V[k] 매트릭스 (35') 를 포어그라운드 사운드 (또는, 우세한 사운드 - PS) 선택 유닛 (36) ("포어그라운드 선택 유닛 (36)") 및 에너지 보상 유닛 (38) 으로 출력할 수도 있다.
사운드필드 분석 유닛 (44) 은 목표 비트레이트 (41) 를 잠재적으로 달성하도록 HOA 계수들 (11) 에 대하여 사운드필드 분석을 수행하도록 구성된 유닛을 나타낼 수도 있다. 사운드필드 분석 유닛 (44) 은 그 분석에 및/또는 수신된 목표 비트레이트 (41) 에 기초하여, (주변 또는 백그라운드 채널들의 총 개수 (BGTOT) 및 포어그라운드 채널들 또는, 다시 말하면 우세한 채널들의 개수의 함수일 수도 있는) 음향심리 코더 인스턴스화들의 총 개수를 결정할 수도 있다. 음향심리 코더 인스턴스화들의 총 개수는 numHOATransportChannels 로서 표기될 수 있다.
사운드필드 분석 유닛 (44) 은 또한, 다시 목표 비트레이트 (41) 를 잠재적으로 달성하기 위해, 포어그라운드 채널들의 총 개수 (nFG)(45), 백그라운드 (또는, 다시 말해 주변) 사운드필드의 최소 차수 (NBG 또는 다르게는, MmAmbHOAorder), 백그라운드 사운드필드의 최소 차수를 나타내는 실제 채널들의 대응하는 수 (nBGa = (MinAmbHOAorder + 1)2), 및 (도 3 의 예에서 총괄하여 백그라운드 채널 정보 (43) 로서 표기될 수도 있는) 전송할 추가적인 BG HOA 채널들의 인덱스들 (i) 을 결정할 수도 있다. 백그라운드 채널 정보 (42) 는 또한 주변 채널 정보 (43) 로서 지칭될 수도 있다. numHOATransportChannels 로부터 남은 각각의 채널들 - nBGa 은, "추가적인 백그라운드/주변 채널", "활성 벡터-기반 우세한 채널", "활성 방향 기반 우세한 신호" 또는 "완전히 비활성적" 일 수도 있다. 일 양태에서, 채널 유형들은 2 비트 (예컨대, 00: 방향 기반 신호; 01: 벡터-기반 우세한 신호; 10: 추가적인 주변 신호; 11: 비활성 신호) 에 의해 신택스 엘리먼트로서 ("ChannelType" 으로서) 표기될 수도 있다. 백그라운드 또는 주변 신호들의 총 개수, nBGa 는, (MinAmbHOAorder +1)2 + (상기 예에서의) 인덱스 10 이 그 프레임에 대한 비트스트림에서 채널 유형으로서 나타나는 횟수로 주어질 수도 있다.
사운드필드 분석 유닛 (44) 은 목표 비트레이트 (41) 에 기초하여, 백그라운드 (또는, 다시 말해 주변) 채널들의 개수 및 포어그라운드 (또는, 다시 말해 우세한) 채널들의 개수를 선택하여, 목표 비트레이트 (41) 가 상대적으로 더 높은 경우 (예를 들어, 목표 비트레이트 (41) 가 512 Kbps 와 같거나 더 큰 경우) 더 많은 백그라운드 및/또는 포어그라운드 채널들을 선택할 수도 있다. 일 양태에서, numHOATransportChannels 은 8 로 설정될 수도 있는 한편, MinAmbHOAorder 는 비트스트림의 헤더 섹션에서 1 로 설정될 수도 있다. 이 시나리오에서, 모든 프레임에서, 사운드필드의 백그라운드 또는 주변 부분을 나타내는데 4 개의 채널들이 전용될 수도 있지만, 다른 4 개의 채널들은 프레임 단위로, 채널 유형에 따라 변할 수 있다 - 예를 들어 추가적인 백그라운드/주변 채널 또는 포어그라운드/우세 채널로서 사용된다. 포어그라운드/우세 신호들은 전술된 바와 같이, 벡터-기반 또는 방향성-기반 신호들 중 어느 하나일 수 있다.
일부 경우들에서, 프레임에 대한 벡터-기반의 우세 신호들의 총 개수는 그 프레임의 비트스트림에서 ChannelType 인덱스가 01 인 횟수로 주어질 수도 있다. 상기 양태에서, (예를 들어, 10 의 ChannelType 에 대응하는) 모든 추가적인 백그라운드/주변 채널에 대해, (처음 4 개를 넘어서는) 가능한 HOA 계수들 중 어느 HOA 계수의 대응하는 정보가 그 채널에 표현될 수도 있다. 제 4 차수 HOA 콘텐트에 대한, 정보는 HOA 계수들 5-25 을 표시하는 인덱스일 수도 있다. 처음 4 개의 주변 HOA 계수들 1-4 는, minAmbHOAorder 가 1 로 설정되는 경우에는 언제나 전송될 수도 있고, 따라서 오디오 인코딩 디바이스는 단지 5-25 의 인덱스를 갖는 추가적인 주변 HOA 계수 중 하나를 표시할 필요가 있을 수도 있다. 정보는 따라서 "CodedAmbCoeffIdx" 로서 표기될 수도 있는, (제 4 차수 콘텐트에 대해) 5 비트 신택스 엘리먼트를 사용하여 전송될 수 있다. 임의의 경우에서, 사운드필드 분석 유닛 (44) 은 백그라운드 채널 정보 (43) 및 HOA 계수들 (11) 을 백그라운드 (BG) 선택 유닛 (36) 으로, 백그라운드 채널 정보 (43) 를 계수 감축 유닛 (46) 및 비트스트림 생성 유닛 (42) 으로, 그리고 nFG (45) 를 포어그라운드 선택 유닛 (36) 으로 출력한다.
백그라운드 선택 유닛 (48) 은 백그라운드 채널 정보 (예를 들어, 백그라운드 사운드필드 (NBG) 및 개수 (nBGa) 및 전송할 추가적인 BG HOA 채널들의 인덱스들 (i)) 에 기초하여 백그라운드 또는 주변 HOA 계수들 (47) 을 결정하도록 구성된 유닛을 나타낼 수도 있다. 예를 들어, NBG 가 1 과 동일한 경우, 백그라운드 선택 유닛 (48) 은 1 이하의 차수를 갖는 오디오 프레임의 각각의 샘플에 대해 HOA 계수들 (11) 을 선택할 수도 있다. 백그라운드 선택 유닛 (48) 은 그 후, 이 예에서, 추가적인 BG HOA 계수들로서 인덱스들 (i) 중 하나에 의해 식별된 인덱스를 갖는 HOA 계수들 (11) 을 선택할 수도 있고, 여기서 nBGa 는 오디오 디코딩 디바이스, 예컨대 도 2 및 도 4 의 예에 도시된 오디오 디코딩 디바이스 (24) 로 하여금 비트스트림 (21) 으로부터 백그라운드 HOA 계수들 (47) 을 파싱하게 하기 위해 비트스트림 (21) 에 지정되도록 비트스트림 생성 유닛 (42) 에 제공된다. 백그라운드 선택 유닛 (48) 은 그 후, 주변 HOA 계수들 (47) 을 에너지 보상 유닛 (38) 으로 출력할 수도 있다. 주변 HOA 계수들 (47) 은 차원 D: M x [(NBG+1)2 + nBGa] 를 가질 수도 있다. 주변 HOA 계수들 (47) 은 또한, "주변 HOA 계수들 (47)" 로서 지칭될 수도 있고, 여기서 주변 HOA 계수들 (47) 각각은 음향심리 오디오 코더 유닛 (40) 에 의해 인코딩될 별개의 주변 HOA 채널 (47) 에 대응한다.
포어그라운드 선택 유닛 (36) 은 (포어그라운드 벡터들을 식별하는 하나 이상의 인덱스들을 나타낼 수도 있는) nFG (45) 에 기초하여 사운드필드의 포어그라운드 또는 특유한 컴포넌트들을 나타내는 리오더링된 US[k] 매트릭스 (33') 및 리오더링된 V[k] 매트릭스 (35') 를 선택하도록 구성된 유닛을 나타낼 수도 있다. 포어그라운드 선택 유닛 (36) 은 (리오더링된 US[k]1, …, nFG (49), FG1, …, nfG[k] (49), 또는
Figure 112018035074394-pct00031
(49) 로서 표기될 수도 있는) nFG 신호들 (49) 을 음향심리 오디오 코더 유닛 (40) 으로 출력할 수도 있고, 여기서 nFG 신호들 (49) 은 차원 D: M x nFG 을 갖고 각각은 모노-오디오 객체들을 나타낼 수도 있다. 포어그라운드 선택 유닛 (36) 은 또한, 사운드필드의 포어그라운드 컴포넌트들에 대응하는 리오더링된 V[k] 매트릭스 (35') (또는,
Figure 112018035074394-pct00032
(35')) 를 시공간적 보간 유닛 (50) 으로 출력할 수도 있으며, 여기서, 포어그라운드 컴포넌트들에 대응하는 리오더링된 V[k] 매트릭스 (35') 의 서브세트는 차원 D: (N+1)2 x nFG 를 갖는 (
Figure 112018035074394-pct00033
로서 수학적으로 표기될 수도 있는) 포어그라운드 V[k] 매트릭스 (51k) 로서 표기될 수도 있다.
에너지 보상 유닛 (38) 은 주변 HOA 계수들 (47) 에 대하여 에너지 보상을 수행하여 백그라운드 선택 유닛 (48) 에 의한 HOA 채널들의 다양한 채널들의 제거로 인한 에너지 손실을 보상하도록 구성된 유닛을 나타낼 수도 있다. 에너지 보상 유닛 (38) 은 리오더링된 US[k] 매트릭스 (33'), 리오더링된 V[k] 매트릭스 (35'), nFG 신호들 (49), 포어그라운드 V[k] 벡터들 (51k) 및 주변 HOA 계수들 (47) 중 하나 이상에 대하여 에너지 분석을 수행하고, 그 후 에너지 분석에 기초하여 에너지 보상을 수행하여 에너지 보상된 주변 HOA 계수들 (47') 을 생성할 수도 있다. 에너지 보상 유닛 (38) 은 에너지 보상된 주변 HOA 계수들 (47') 을 음향심리 오디오 코더 유닛 (40) 으로 출력할 수도 있다.
시공간적 보간 유닛 (50) 은 k 번째 프레임에 대한 포어그라운드 V[k] 벡터들 (51k) 및 이전 프레임 (따라서, k-1 표기) 에 대한 포어그라운드 V[k-1] 벡터들 (51k-1) 을 수신하고 시공간적 보간을 수행하여, 보간된 포어그라운드 V[k] 벡터들을 생성하도록 구성된 유닛을 나타낼 수도 있다. 시공간적 보간 유닛 (50) 은 nFG 신호들 (49) 을 포어그라운드 V[k] 벡터들 (51k) 과 재결합하여 리오더링된 포어그라운드 HOA 계수들을 복원할 수도 있다. 시공간적 보간 유닛 (50) 은 그 후, 리오더링된 포어그라운드 HOA 계수들을 보간된 V[k] 벡터들로 나누어, 보간된 nFG 신호들 (49') 을 생성할 수도 있다. 시공간적 보간 유닛 (50) 은, 또한 오디오 디코딩 디바이스 (24) 와 같은, 오디오 디코딩 디바이스가 보간된 포어그라운드 V[k] 벡터들을 생성하여 포어그라운드 V[k] 벡터들 (51k) 을 복원할 수도 있도록 보간된 포어그라운드 V[k] 벡터들을 생성하는데 사용된 포어그라운드 V[k] 벡터들 (51k) 을 출력할 수도 있다. 보간된 포어그라운드 V[k] 벡터들을 생성하는데 사용된 포어그라운드 V[k] 벡터들 (51k) 은 나머지 포어그라운드 V[k] 벡터들 (53) 로서 표기된다. 동일한 V[k] 및 V[k-1] 이 (보간된 벡터들 V[k] 을 생성하기 위해) 인코더 및 디코더에서 사용되는 것을 보장하기 위해, 벡터들의 양자화된/역양자화된 버전들이 인코더 및 디코더에서 사용될 수도 있다. 시공간적 보간 유닛 (50) 은 보간된 nFG 신호들 (49') 을 음향심리 오디오 코더 유닛 (46) 으로 그리고 보간된 포어그라운드 V[k] 벡터들 (51k) 을 계수 감축 유닛 (46) 으로 출력할 수도 있다.
계수 감축 유닛 (46) 은 백그라운드 채널 정보 (43) 에 기초하여 나머지 포어그라운드 V[k] 벡터들 (53) 에 대하여 계수 감축을 수행하여, 감소된 포어그라운드 V[k] 벡터들 (55) 을 양자화 유닛 (52) 으로 출력하도록 구성된 유닛을 나타낼 수도 있다. 감소된 포어그라운드 V[k] 벡터들 (55) 은 차원 D: [(N+1)2 - (NBG+1)2-BGTOT] x nFG 를 가질 수도 있다. 계수 감축 유닛 (46) 은, 이와 관련하여 나머지 포어그라운드 V[k] 벡터들 (53) 에서 계수들의 개수를 감소시키도록 구성된 유닛을 나타낼 수도 있다. 다시 말하면, 계수 감축 유닛 (46) 은 거의 없거나 전혀 없는 방향성 정보를 갖는 (나머지 포어그라운드 V[k] 벡터들 (53) 을 형성하는) 포어그라운드 V[k] 벡터들에서 계수들을 제거하도록 구성된 유닛을 나타낼 수도 있다. 일부 예들에서, 특유의, 또는 다시 말해 (NBG 로서 표기될 수도 있는) 제 1 및 제로 차수 기저 함수들에 대응하는 포어그라운드 V[k] 벡터들의 계수들은 적은 방향성 정보를 제공하고, 따라서 ("계수 감축" 으로서 지칭될 수도 있는 프로세스를 통해) 포어그라운드 V-벡터들로부터 제거될 수 있다. 이 예에서, [(NBG +1)2+1, (N+1)2] 의 세트로부터, NBG 에 대응하는 계수들을 식별할 뿐만 아니라 (변수 TotalOfAddAmbHOAChan 에 의해 표기될 수도 있는) 추가적인 HOA 채널들을 식별하도록 더 많은 유연성이 제공될 수도 있다.
양자화 유닛 (52) 은 감소된 포어그라운드 V[k] 벡터들 (55) 을 압축하기 위해 임의의 형태의 양자화를 수행하여 코딩된 포어그라운드 V[k] 벡터들 (57) 을 생성하여, 이 코딩된 포어그라운드 V[k] 벡터들 (57) 을 비트스트림 생성 유닛 (42) 으로 출력하도록 구성된 유닛을 나타낼 수도 있다. 동작 시에, 양자화 유닛 (52) 은 사운드필드의 공간 컴포넌트, 즉 이 예에서는 감소된 포어그라운드 V[k] 벡터들 (55) 중 하나 이상을 압축하도록 구성된 유닛을 나타낼 수도 있다. 양자화 유닛 (52) 은 감소된 포어그라운드 V[k] 벡터들 (55) 각각에 대하여 벡터 양자화, 스칼라 양자화, 또는 허프만 코딩을 이용한 스칼라 양자화를 수행할 수도 있다. 양자화 유닛 (52) 은 비트스트림 (21) 의 모든 프레임에 대하여 다른 형태들의 양자화를 수행할 수도 있다. 다시 말하면, 양자화 유닛 (52) 은 프레임별 단위로 상이한 형태들의 양자화 사이에서 스위칭할 수도 있다.
양자화 유닛 (52) 은 또한, 양자화 모드들의 상기 유형들 중 임의의 것의 예측된 버전들을 수행할 수도 있고, 여기서 이전 프레임의 V-벡터의 엘리먼트 (또는 벡터 양자화가 수행되는 경우 가중치) 와 현재 프레임의 V-벡터의 엘리먼트 (또는 벡터 양자화가 수행되는 경우 가중치) 간의 차이가 결정된다. 양자화 유닛 (52) 은 그 후, 현재 프레임 자체의 V-벡터의 엘리먼트의 값 보다는, 현재 프레임과 이전 프레임의 엘리먼트들 또는 가중치들 간의 차이를 양자화할 수도 있다.
양자화 유닛 (52) 은 감소된 포어그라운드 V[k] 벡터들 (55) 각각에 대하여 다중 형태들의 양자화를 수행하여, 감소된 포어그라운드 V[k] 벡터들 (55) 의 다중 코딩된 버전들을 획득할 수도 있다. 양자화 유닛 (52) 은 코딩된 포어그라운드 V[k] 벡터 (57) 로서 감소된 포어그라운드 V[k] 벡터들 (55) 의 코딩된 버전들 중 하나를 선택할 수도 있다. 양자화 유닛 (52) 은, 다시 말해 본 개시물에 논의된 기준의 임의의 조합에 기초하여 출력 스위칭된-양자화된 V-벡터로서 사용하도록 비-예측된 벡터-양자화된 V-벡터, 예측된 벡터-양자화된 V-벡터, 비-허프만-코딩된 스칼라-양자화된 V-벡터, 및 허프만-코딩된 스칼라-양자화된 V-벡터 중 하나를 선택할 수도 있다. 일부 예들에서, 양자화 유닛 (52) 은, 벡터 양자화 모드 및 하나 이상의 스칼라 양자화 모드들을 포함하는 양자화 모드들의 세트로부터 양자화 모드를 선택하고, 이 선택된 모드에 기초하여 (또는 이것에 따라) 입력 V-벡터를 양자화할 수도 있다. 양자화 유닛 (52) 은 그 후, (예를 들어, 가중치 값들 또는 그것을 나타내는 비트들의 관점에서) 비-예측된 벡터-양자화된 V-벡터, (예를 들어, 에러 값들 또는 그것을 나타내는 비트들의 관점에서) 예측된 벡터-양자화된 V-벡터, 비-허프만-코딩된 스칼라-양자화된 V-벡터 및 허프만-코딩된 스칼라-양자화된 V-벡터 중 선택된 것을 코딩된 포어그라운드 V[k] 벡터들 (57) 로서 비트스트림 생성 유닛 (42) 에 제공할 수도 있다. 양자화 유닛 (52) 은 또한, 양자화 모드를 나타내는 신택스 엘리먼트들 (예를 들어, NbitsQ 신택스 엘리먼트) 및 V-벡터를 역양자화 또는 다르게는 복원하는데 사용된 임의의 다른 신택스 엘리먼트들을 제공할 수도 있다.
오디오 인코딩 디바이스 (20) 내에 포함된 음향심리 오디오 코더 유닛 (40) 은 음향심리 오디오 코더의 다수의 경우들을 나타낼 수도 있고, 이들 각각은 에너지 보상된 주변 HOA 계수들 (47') 및 보간된 nFG 신호들 (49') 각각의 상이한 오디오 객체 또는 HOA 채널을 인코딩하여 인코딩된 주변 HOA 계수들 (59) 및 인코딩된 nFG 신호들 (61) 을 생성하도록 사용된다. 음향심리 오디오 코더 유닛 (40) 은 인코딩된 주변 HOA 계수들 (59) 및 인코딩된 nFG 신호들 (61) 을 비트스트림 생성 유닛 (42) 으로 출력할 수도 있다.
오디오 인코딩 디바이스 (20) 내에 포함된 비트스트림 생성 유닛 (42) 은 (디코딩 디바이스에 의해 알려진 포맷을 지칭할 수도 있는) 알려진 포맷에 따르는 데이터를 포맷하고, 이에 의해 벡터-기반 비트스트림 (21) 을 생성하는 유닛을 나타낸다. 비트스트림 (21) 은 다시 말해, 전술된 방식으로 인코딩되어 있는, 인코딩된 오디오 데이터를 나타낼 수도 있다. 비트스트림 생성 유닛 (42) 은 일부 예들에서 멀티플렉서를 나타낼 수도 있고, 이것은 코딩된 포어그라운드 V[k] 벡터들 (57), 인코딩된 주변 HOA 계수들 (59), 인코딩된 nFG 신호들 (61) 및 백그라운드 채널 정보 (43) 을 수신할 수도 있다. 비트스트림 생성 유닛 (42) 은 그 후, 코딩된 포어그라운드 V[k] 벡터들 (57), 인코딩된 주변 HOA 계수들 (59), 인코딩된 nFG 신호들 (61) 및 백그라운드 채널 정보 (43) 에 기초하여 비트스트림 (21)을 생성할 수도 있다. 이 방식으로, 비트스트림 생성 유닛 (42) 은 이에 의해, 도 7 의 예에 대하여 더 상세히 이하에서 설명되는 바와 같이 비트스트림 (21) 에서 벡터들 (57) 을 지정하여 비트스트림 (21) 을 획득할 수도 있다. 비트스트림 (21) 은 프라이머리 또는 메인 비트스트림 및 하나 이상의 사이드 채널 비트스트림들을 포함할 수도 있다.
도 3 의 예에는 도시되지 않았으나, 오디오 인코딩 디바이스 (20) 는 또한, 현재 프레임이 방향성-기반 합성 또는 벡터-기반 합성을 사용하여 인코딩될 것인지 여부에 기초하여 오디오 인코딩 디바이스 (20) 로부터 출력된 비트스트림을 (예를 들어, 방향성-기반 비트스트림 (21) 과 벡터-기반 비트스트림 (21) 사이에서) 스위칭하는 비트스트림 출력 유닛을 포함할 수도 있다. 비트스트림 출력 유닛은, 방향성-기반 합성이 (HOA 계수들 (11) 이 합성 오디오 객체로부터 생성되었다는 것을 검출한 결과로서) 수행되었는지 또는 벡터-기반 합성이 (HOA 계수들이 레코딩되었다는 것을 검출한 결과로서) 수행되었는지 여부를 나타내는 콘텐트 분석 유닛 (26) 에 의해 출력된 신택스 엘리먼트에 기초하여 스위칭을 수행할 수도 있다. 비트스트림 출력 유닛은 비트스트림들 (21) 의 각각의 비트스트림과 함께 현재 프레임에 대해 사용된 현재의 인코딩 또는 스위치를 나타내도록 정확한 헤더 신택스를 지정할 수도 있다.
더욱이, 상기에서 언급된 바와 같이, 사운드필드 분석 유닛 (44) 은 (가끔, BGTOT 가 2 개 이상의 (시간적으로) 인접한 프레임들에 걸쳐 여전히 일정하거나 동일할 수도 있지만) 프레임별 단위로 변할 수도 있는 BGTOT 주변 HOA 계수들 (47) 을 식별할 수도 있다. BGTOT 에서의 변화는 감소된 포어그라운드 V[k] 벡터들 (55) 로 표현된 계수들에 대한 변화들을 초래할 수도 있다. BGTOT 에서의 변화는 (다시 가끔, BGTOT 가 2 개 이상의 (시간적으로) 인접한 프레임들에 걸쳐 여전히 일정하거나 동일할 수도 있지만) 프레임 단위로 변하는 (또한, "주변 HOA 계수들" 로도 지칭될 수도 있는) 백그라운드 HOA 계수들을 초래할 수도 있다. 이 변화들은 종종, 추가적인 주변 HOA 계수들의 추가 또는 제거, 및 감소된 포어그라운드 V[k] 벡터들 (55) 로부터의 계수들의 대응하는 제거 또는 이에 대한 계수들의 추가에 의해 표현된 사운드필드의 양태들에 대한 에너지의 변화를 초래한다.
그 결과, 사운드필드 분석 유닛 (44) 은 또한, 주변 HOA 계수들이 프레임마다 각기 변하는 시점을 결정하고, (변화가 또한, 주변 HOA 계수의 "트랜지션" 으로서 또는 주변 HOA 계수의 "트랜지션" 으로서 지칭될 수도 있는) 사운드필드의 주변 컴포넌트들을 나타내는데 사용되고 있는 관점들에서 주변 HOA 계수에 대한 변화를 나타내는 플래그 또는 다른 신택스 엘리먼트를 생성할 수도 있다. 특히, 계수 감축 유닛 (46) 은 (AmbCoeffTransition 플래그 또는 AmbCoeffIdxTransition 플래그로서 표기될 수도 있는) 플래그를 생성하여, 그 플래그가 (가능하게는, 사이드 채널 정보의 부분으로서) 비트스트림 (21) 에 포함될 수 있도록 플래그를 비트스트림 생성 유닛 (42) 에 제공할 수도 있다.
계수 감축 유닛 (46) 은, 주변 계수 트랜지션 플래그를 지정하는 것에 추가하여, 또한 감소된 포어그라운드 V[k] 벡터들 (55) 이 생성되는 방법을 수정할 수도 있다. 일 예에서, 주변 HOA 주변 계수들 중 하나가 현재 프레임 동안 트랜지션 중이라고 결정 시에, 계수 감축 유닛 (46) 은 트랜지션 중인 주변 HOA 계수에 대응하는 감소된 포어그라운드 V[k] 벡터들 (55) 의 V-벡터들 각각에 대해 ("벡터 엘리먼트" 또는 "엘리먼트" 로서 또한 지칭될 수도 있는) 벡터 계수를 지정할 수도 있다. 다시, 트랜지션 중인 주변 HOA 계수는 백그라운드 계수들의 BGTOT 총 개수로부터 제거하거나 또는 그것에 추가할 수도 있다. 따라서, 백그라운드 계수들의 총 개수에서의 결과의 변화는, 주변 HOA 계수가 비트스트림에 포함되는지 또는 포함되지 않는지 여부, 및 V-벡터들의 대응하는 엘리먼트가 전술된 제 2 및 제 3 구성 모드들에서 비트스트림에 지정된 V-벡터들에 대해 포함되는지 여부에 영향을 준다. 계수 감축 유닛 (46) 이 에너지에서의 변화들을 극복하기 위해 감소된 포어그라운드 V[k] 벡터들 (55) 을 지정할 수 있는 방법에 관한 더 많은 정보는, 2015 년 1 월 12 일자로 출원된, 발명의 명칭이 "TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS" 인 미국 출원 번호 제 14/594,533 호에 제공된다.
일부 예들에서, 비트스트림 생성 유닛 (42) 은 예를 들어, 디코더 시동 지연을 보상하기 위해 IPF들 (Immediate Play-out Frames) 을 포함하도록 비트스트림들 (21) 을 생성한다. 일부 경우에서, 비트스트림 (21) 은 HTTP 를 통한 동적 적응 스트리밍 (DASH) 또는 FLUTE (File Delivery over Unidirectional Transport) 와 같은 인터넷 스트리밍 표준들과 함께 채용될 수도 있다. DASH 는 2012년 4월, ISO/IEC 23009-1, "Information Technology - Dynamic adaptive streaming over HTTP (DASH)" 에 설명되어 있다. FLUTE 은 2012 년 11 월, IETF RFC 6726, "FLUTE - File Delivery over Unidirectional Transport" 에 설명되어 있다. 전술된 FLUTE 및 DASH 와 같은 인터넷 스트리밍 표준들은 지정된 스트림 액세스 포인트들 (SAP들) 에서의 동시 플레이-아웃 뿐만 아니라, 비트레이트가 상이한 스트림의 표현들 및/또는 그 스트림의 임의의 SAP 에서의 인에이블된 툴들 사이의 스위칭 플레이-아웃을 가능하게 함으로써, 프레임 손실/열화를 보상하고 네트워크 전송 링크 대역폭에 적응시킨다. 다시 말하면, 오디오 인코딩 디바이스 (20) 는 (예컨대, 제 1 비트레이트에서 지정된) 콘텐트의 제 1 표현으로부터 (예를 들어, 제 2 의 더 높은 또는 더 낮은 비트레이트에서 지정된) 콘텐트의 제 2 상이한 표현으로 스위칭하기 위한 그러한 방식으로 프레임들을 인코딩할 수도 있다. 오디오 디코딩 디바이스 (24) 는 프레임을 수신하고 프레임을 독립적으로 디코딩하여 콘텐트의 제 1 표현으로부터 콘텐트의 제 2 표현으로 스위칭할 수도 있다. 오디오 디코딩 디바이스 (24) 는 후속 프레임을 계속 디코딩하여 콘텐트의 제 2 표현을 획득할 수도 있다.
동시 플레이-아웃/스위칭의 경우에서, 필수 내부 상태를 설정하여 프레임을 정확하게 디코딩하기 위해 스트림 프레임에 대한 사전-롤 (pre-roll) 이 디코딩되어 있지 않으며, 비트스트림 생성 유닛 (42) 은 즉시 플레이-아웃 프레임들 (IPF들) 을 포함시키기 위해 비트스트림 (21) 을 인코딩할 수도 있다. IPF들 및 IPF들을 지원하기 위해 오디오 데이터를 인코딩하는 것에 관한 더 많은 정보는, 2015년 1월 29일자로 출원된, 발명의 명칭이 "CODING INDEPENDENT FRAMES OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS" 인 미국출원 제 14/609,208 호에서 알 수 있다. 상기에서 참조된 미국출원 제 14/609,208 호에서, 비트스트림 생성 유닛 (42) 은 제 1 프레임이, (예를 들어, 제 1 프레임에 대한 비트스트림 (21) 의 ChannelSideInfoData 부분에서 hoaIndependencyFlag 신택스 엘리먼트를 지정함으로써) 비트스트림의 제 2 프레임을 참조하지 않고 제 1 프레임을 디코딩되게 할 수 있는 독립 프레임인지 여부의 표시를 지정할 수도 있다. hoaIndependencyFlag 가 1 로 설정되는 경우, 제 1 프레임은 일 예로서, 독립 프레임 (또는, 다시 말해 IPF) 으로서 시그널링된다. IPF 로서 시그널링되는 것의 결과로서, 비트스트림 생성 유닛 (42) 은 또한, 프레임이 IPF 인 것으로 표시되지 않는 경우 다르게는 시그널링되지 않을 추가의 레퍼런스 정보를 시그널링한다.
소정의 코딩 상황들에서, 상기에서 요약된 미국출원 제 14/594,533 호 및 미국출원 제 14/609,208 호에서 논의된 오디오 인코딩 디바이스들 (20) 은 리던던트 정보를 지정하지 않았다. 예를 들어, 주변 HOA 계수 (예를 들어, 상기에서 참조된 에너지 보상된 HOA 계수들 (47') 중 하나) 가 포어그라운드 오디오 신호 (예를 들어, 상기에서 참조된 보간된 nFG 오디오 신호들 (49')) 가 페이드-인되고 있을 때 동일한 제 1 프레임 동안 페이드-인되고 있는 경우, 계수 감축 유닛 (46) 은 주변 HOA 계수 (47') 에 대응하는 포어그라운드 V[k] 벡터들 (53) 에 대한 V-벡터 엘리먼트를 포함하고, V-벡터 엘리먼트를 2 번 (한 번은 실제 V-벡터 엘리먼트로서 그리고 다시 주변 HOA 계수 (47') 로서 결합된 형태로) 효율적으로 지정하였다.
본 개시물에 설명된 기법들은 리던던트 정보를 지정하는 것을 잠재적으로 방지하기 위한 방식을 제공한다. 리던던트 정보를 제거하는 것의 결과로서, 기법들은, 리던던트 정보가 V-벡터 엘리먼트에 대응하는 HOA 계수를 복원하는 경우 에너지의 2 배를 초래할 수도 있기 때문에, 코딩 효율성을 촉진하는 것에 추가하여, 사운드필드 재생성을 잠재적으로 개선시킬 수도 있다. 동일한 프레임 동안 주변 HOA 계수 (47') 중 하나 및 보간된 nFG 오디오 신호들 (49') 중 하나 양자 모두의 페이드-인에 대하여 이하에서 설명되었지만, 이 기법들은 또한, 주변 HOA 계수 (47') 중 하나 및 보간된 nFG 오디오 신호들 (49') 중 하나 양자 모두의 페이드-아웃에 대해 동일한 프레임 동안 수행될 수도 있다.
도 5a 는 동일한 프레임 동안 다중 트랜지션들이 발생하는 경우 비트스트림에서 프레임들의 시그널링을 예시하는 도면이다. 도 5a 의 예에서, 비트스트림 생성 유닛 (42) 은 4 의 인덱스를 갖는 주변 HOA 계수들 (47') 중 하나를 포함하는 제 1 백그라운드 채널 (800A) 을 지정할 수도 있다. 비트스트림 생성 유닛 (42) 은 또한, 보간된 nFG 오디오 신호들 (49') 중 하나를 포함하는 포어그라운드 채널 (800B) 을 지정할 수도 있다. 비트스트림 생성 유닛 (42) 은 또한, 2 의 인덱스를 갖는 주변 HOA 계수들 (47') 중 하나를 포함하는 다른 백그라운드 채널 (800C) 을 지정할 수도 있다. 비트스트림 생성 유닛 (42) 은, 대응하는 채널들 (800A-800C) 이 주변 HOA 계수 (47') 중 하나 또는 보간된 nFG 신호들 (49') 중 하나를 포함하는지 여부를 나타내는 채널들 (800A-800C) 각각에 대한 유형의 표시 (예를 들어, ChannelType 신택스 엘리먼트) 를 지정할 수도 있다.
도 5a 의 예에 도시된 프레임들 (10-12) 에서, 채널들 (800A-800C) 중 어느 것도 트랜지션을 받지 않는다. 다시 말하면, 오디오 인코딩 디바이스 (20) 는, 채널들 (800A 및 800C) 각각이 주변 HOA 계수들 (47') 중 동일한 것을 포함한다는 것 및 채널 (800B) 이 보간된 nFG 계수들 (49') 중 동일한 것을 포함한다고 결정한다. 그러나, 프레임 13 동안, 사운드필드 분석 유닛 (44) 은, 백그라운드 채널들 (800A 및 800C) 에 포함된 주변 HOA 계수들 (47') 양자 모두가 nFG 오디오 신호들 (49') 중 새로운 것 및 (이 예에서, 5 의 인덱스로 식별된) 주변 HOA 계수들 (47') 중 새로운 것으로 프레임 14 에서 대체될 것이라고 결정한다. 프레임 14 동안, 오디오 인코딩 디바이스 (20) 는, 백그라운드 채널 (800A) 이 포어그라운드 채널 (800D) 이 된다는 것 및 백그라운드 채널 (800C) 이 백그라운드 채널에 머물지만 주변 HOA 계수들 (47') 중 새로운 것을 포함한다는 것을 시그널링한다.
도 5a 의 예에서, (상기에서 언급된 미국출원 제 14/594,533 호 및 미국출원 제 14/609,208 호에서 논의된) 이전의 오디오 인코더는, 모든 25 개의 엘리먼트들이 포어그라운드 채널 (800D) 에 대해 시그널링되었다는 것을 나타내었다. 이에 대하여, 이전의 오디오 인코더는 모든 25 개의 v-벡터 엘리먼트들 (Vvec 엘리먼트들 = 25) 을 지정하는 것에 있어서 리던던트 정보를 지정하면서, 이러한 엘리먼트는 백그라운드 채널 (800E) 에서 추가의 주변 HOA 계수로서 풀 HOA 형태로 시그널링된다. 이전의 오디오 인코더는, 프레임 15 에서, 그 후, 단지 24 개의 Vvec 엘리먼트들을 초래하는, 백그라운드 채널 (800E) 에서 지정된 추가의 주변 HOA 계수들에 대응하는 v-벡터 엘리먼트들을 페이드-아웃한다.
(상기에서 언급된 미국출원 제 14/594,533 호 및 미국출원 제 14/609,208 호에서 논의된) 이전의 오디오 디코더는 백그라운드 채널 (800E) 로부터 추가의 주변 HOA 계수와 함께 포어그라운드 채널 (800D) 을 통해 모든 25 개의 v-벡터 엘리먼트들을 수신하였다. HOA 계수들을 복원하는데 있어서, 이전의 오디오 디코더는 모든 25 개의 v-벡터 엘리먼트들을 이용하여 포어그라운드 HOA 계수들을 획득하고, 다음으로 포어그라운드 HOA 계수들을 리던던트 추가의 주변 HOA 계수들과 결합하여, HOA 계수들을 복원하는 경우 리던던트 정보가 2 번 이용된다는 것을 고려하면 에너지 증폭을 초래한다.
도 5b 는 본 개시물에서 설명된 기법들의 다양한 양태들에 따라 동일한 프레임 동안 다중 트랜지션들이 발생하는 경우 비트스트림에서 프레임들의 시그널링을 예시하는 도면이다. 백그라운드 채널 (800E) 에 포함된 주변 HOA 계수들 (47') 중 하나와 연관된 V-벡터 엘리먼트를 지정하는 것을 회피하기 위해, 사운드필드 분석 유닛 (44) 은 다음의 HOAFrame() 신택스 테이블에서 도시된 바와 같이 (예를 들어, NumOfNewAddHoaChans 변수의 형태로) 새로운 추가의 주변 HOA 계수들의 수의 표시를 추적 또는 다르게는 획득할 수도 있다. HOAFrame() 신택스 테이블이 디코딩 관점으로부터 지정되지만, 사운드필드 분석 유닛 (44) 은, 오디오 디코딩 디바이스 (24) 가 비트스트림 (21) 을 파싱 및 디코딩할 수도 있는 것을 보장하는 적합한 신택스 엘리먼트들을 생성하도록 오디오 디코딩 디바이스 (24) 에 의해 설명된 것과 유사한 방식으로 동작할 수도 있다.
HOAFrame() 의 신택스:
Figure 112018035074394-pct00034
Figure 112018035074394-pct00035
Figure 112018035074394-pct00036
상기의 HOAFrame() 신택스 테이블에서의 이탤릭체 아이템들은 본 개시물에서 설명된 기법들의 다양한 양태들을 수용하기 위한 신택스에 대한 추가들을 가리킨다. 사운드필드 분석 유닛 (44) 은, 상기의 HOAFrame() 신택스 테이블에서 도시된 바와 같이, 주변 HOA 계수들 (47') 중 새로운 추가적인 것들의 수의 표시 (예를 들어, NumOfNewAddHoaChans 변수) 를 각 프레임의 코딩의 시작에서 0 으로 초기화할 수도 있다. 다시 말하면, 사운드필드 분석 유닛 (44) 은 비트스트림의 제 1 프레임 동안 트랜지션 중인 주변 HOA 계수들의 수의 표시를 획득할 수도 있고, 주변 HOA 계수는 HOA 오디오 데이터에 의해 표현된 사운드필드의 주변 컴포넌트를 설명한다. 주변 HOA 계수들 (47') 중 추가적인 것들은 최소 주변 HOA 계수들의 표시 (예를 들어, MPEG-H 3D 오디오 코딩 표준의 페이즈 I 의 HOADecoderConfig() 신택스 테이블에서 지정된 MinAmbHoaOrder 신택스 엘리먼트) 에 의해 식별되지 않은 주변 HOA 계수들 (47') 을 지칭할 수도 있다. 주변 HOA 계수들 (47') 의 추가적인 것들은 또한, MPEG-H 3D 오디오 코딩 표준의 페이즈 I 마다 2 의 유형을 나타내는 채널의 유형의 표시 (예를 들어, ChannelType 신택스 엘리먼트) 에 의해 식별된다.
이에 대하여, 채널의 유형이 2 인 경우, 사운드필드 분석 유닛 (44) 은 상기의 신택스 테이블에서 case 2 로 스위칭하고, (페이드-인 또는 페이드-아웃 중 어느 하나를 의미하는, 예에서 트랜지션을 나타내는) 트랜지션 상태가 0 과 동일한 시점을 결정할 수도 있다. 사운드필드 분석 유닛 (44) 이, 백그라운드 채널 (800A) 이 포어그라운드 채널 (800D) 로 트랜지션될 것이라고 결정하는 경우, 사운드필드 분석 유닛 (44) 은, 주변 HOA 계수들 중 어느 것이 (예를 들어, NewAddHoaCeff[NumOfNewAddHoaChans] 변수의 형태로) 비트스트림의 프레임 동안 트랜지션 중인지를 나타내는 표시를 획득할 수도 있다. 사운드필드 분석 유닛 (44) 은 또한, (즉, 상기 예시의 신택스 테이블에서 NumOfNewAddHoaChans++ 로서 도시된) NumOfNewAddHoaChans 을 1 만큼 증분시킬 수도 있다.
사운드필드 분석 유닛 (44) 은 백그라운드 채널 정보 (43) 의 부분으로서 계수 감축 유닛 (43) 에 상기의 언급된 표시들을 제공할 수도 있다. 일부 예들에서, 계수 감축 유닛 (46) 은 위에서 지정된 백그라운드 채널 정보 (43) 에 기초하여 (사운드필드 분석 유닛 (44) 보다는) 상기의 표시들을 획득할 수도 있다. 계수 감축 유닛 (46) 은, 포어그라운드 오디오 신호가 NumOfNewAddHoaChans 변수에 기초하여 트랜지션 중일 때 비트스트림의 동일한 제 1 프레임 동안 주변 HOA 계수가 트랜지션 중인지 여부의 표시를 획득할 수도 있다.
계수 감축 유닛 (46) 은 또한, 포어그라운드 오디오 신호 (49') 중 하나가 비트스트림의 제 1 프레임 (예를 들어, 도 5b 의 예에서 프레임 14) 동안 트랜지션 중인지 여부의 포어그라운드 표시를 결정할 수도 있고, 포어그라운드 오디오 신호들은 HOA 오디오 데이터 (11) 에 의해 표현된 그리고 HOA 오디오 데이터 (11) 로부터 분해된 사운드필드의 포어그라운드 컴포넌트를 설명한다. 계수 감축 유닛 (46) 은 ChannelSideInfoData() 신택스 테이블에서 도시된 것과 유사한 방식으로 포어그라운드 표시를 획득할 수도 있다. 다시, 다음의 신택스 테이블은 디코딩 관점에서 지정되지만, 계수 감축 유닛 (46) 은, 오디오 디코딩 디바이스 (24) 가 비트스트림 (21) 을 파싱 및 디코딩할 수도 있다는 것을 보장하는 적합한 신택스 엘리먼트들을 생성하도록 오디오 디코딩 디바이스 (24) 에 의해 설명된 것과 유사한 방식으로 동작할 수도 있다.
ChannelSideInfoData() 의 신택스:
Figure 112018035074394-pct00037
Figure 112018035074394-pct00038
Figure 112018035074394-pct00039
다시, 상기의 신택스 테이블에서 이탤릭체 아이템들은 본 개시물에서 설명된 기법들의 다양한 양태들을 수용하기 위한 신택스에 대한 추가들을 가리킨다. 포어그라운드 표시는 bNewChannelTypeOne(k)[i] 신택스 엘리먼트로서 ChannelSideInfo() 신택스 테이블에서 표기된다. bNewChannelTypeOne 신택스 엘리먼트는 또한, "NewChannelTypeOne" 항 전에 문자 'b' 를 제거하는, "NewChannelTypeOne" 로서 ChannelSideInfoData 신택스 테이블의 일부 경우들에서 표기될 수도 있다. 계수 감축 유닛 (46) 은 선행하는 프레임 13 의 이송 채널 (800A) 의 유형의 표시에 기초하여 (즉, 상기의 예시의 신택스 테이블에서 ChannelType 신택스 엘리먼트로서 도시된) 포어그라운드 표시를 획득할 수도 있다.
보다 구체적으로, 계수 감축 유닛 (46) 은 다음의 의사코드에 따라 포어그라운드 표시를 획득할 수도 있다:
Figure 112018035074394-pct00040
.
의사코드에서, 계수 감축 유닛 (46) 은 (제 2 프레임, 선행하는 프레임, 또는 바로 선행하는 프레임으로서 지칭될 수도 있는) 프레임 13 의 이송 채널 (800A) 에 대한 유형에 기초하여 (제 1 프레임으로서 지칭될 수도 있는) 프레임 14 에 대한 포어그라운드 표시를 획득할 수도 있다. 상기의 의사코드에 따라, 계수 감축 유닛 (46) 은, 제 2 프레임에 대한 ChannelType 신택스 엘리먼트가 0 과 동일하지 않은 경우 제 1 프레임에 대한 포어그라운드 표시를 1 과 동일한 것으로서 그리고 제 2 프레임에 대한 ChannelType 신택스 엘리먼트가 1 과 동일한 경우 0 과 동일한 것으로서 획득할 수도 있다.
이에 대하여, 포어그라운드 표시 (bNewChannelTypeOne[i]) 는, 이전의 프레임 (k-1) 에서, 이송 채널이 벡터-기반의 신호로서 초기화되지 않았는지 (또는, 다시 말해, 보간된 nFG 오디오 신호들 (49') 중 하나를 포함하지 않는지) 를 나타내는 플래그를 나타낸다. 도 5b 의 예에서, 계수 감축 유닛 (46) 은, 포어그라운드 채널 (800D) 에 대한 bNewChannelTypeOne 신택스 엘리먼트가 프레임 14 에 대한 것과 동일하다고 결정할 수도 있다. 포어그라운드 표시는 이에 대하여, 제 2 프레임의 동일한 이송 채널이 고차 앰비소닉 오디오 데이터로부터 분해된 포어그라운드 오디오 신호를 포함하는지 여부를 나타낼 수도 있다. 다르게 언급하면, 포어그라운드 표시는, 포어그라운드 오디오 신호가 비트스트림의 제 1 프레임 동안 트랜지션 중인지 여부를 나타낼 수도 있다.
상기의 ChannelSideInfo() 신택스 테이블에서 언급된 바와 같이, 계수 감축 유닛 (46) 은, 일부 예들에서, 단지 페이드-인인 보간된 nFG 오디오 신호들 (49') 중 하나에 대응하는 V-벡터에 대한 코딩 모드가 (표시 CodedVVecLength 신택스 엘리먼트가 1 로 설정된 것으로 표시된 바와 같이) 1 로 설정되는 경우에만 포어그라운드 표시를 획득할 수도 있다. 1 로 설정되는 CodedVVecLength 신택스 엘리먼트에 의해 식별된 코딩 모드는, 상기의 미국출원들에서 설명된 바와 같이, 최소 주변 HOA 계수들 및 추가의 주변 HOA 계수들에 대응하는 엘리먼트들이 제거되는 V-벡터를 지칭할 수도 있는 감소된 V-벡터를 계수 감축 유닛 (46) 이 전송하는 것을 초래한다.
계수 감축 유닛 (46) 은, 일부 예들에서, 주변 HOA 계수 (47') 중 하나가 포어그라운드 오디오 신호 (49') 가 (NumOfNewAddHoaChans 변수를 지칭하기 위한 다른 방식일 수도 있는) 백그라운드 표시에 기초하여 트랜지션 중일 때 비트스트림의 동일한 제 1 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시, (bNewChannelTypeOne[i] 신택스 엘리먼트를 지칭하기 위한 다른 방식일 수도 있는, 여기서 변수 i 는 이송 채널의 인덱스를 표기함) 포어그라운드 표시, 또는 백그라운드 표시 및 포어그라운드 표시 양자 모두를 획득할 수도 있다. 백그라운드 표시는 또한, 주변 표시로서 지칭될 수도 있다. 포어그라운드 표시는 또한, 우세 표시로서 지칭될 수도 있다. 계수 감축 유닛 (46) 은 (bNewChannelTypeOne[i] * NumOfNewAddHoaChans 로서 표기될 수도 있는) 포어그라운드 표시 곱하기 백그라운드 표시로서 멀티-트랜지션 표시를 결정할 수도 있다.
계수 감축 유닛 (46) 은 그 후, 새로운 추가의 주변 HOA 계수들 (47') 중 어느 것이, nFG 오디오 신호들 (49') 중 하나가 페이드-인될 때 동일한 제 1 프레임 동안 페이드-인되고 있는지를 결정하도록 이송 채널들을 통해 반복할 수도 있다. 계수 감축 유닛 (46) 은 그 후, 다른 포어그라운드 채널 (예를 들어, 포어그라운드 채널 (800D)) 이 동일한 프레임 (예를 들어, 도 5b 에서 프레임 14) 동안 페이드-인되고 있는 경우 (예를 들어, 도 5b 에서 백그라운드 채널 (800E) 로서 도시된) 페이드-인 되고 있는 주변 HOA 계수들 (47') 중 새로운 것에 대응하는 V-벡터 엘리먼트를 제거할 수도 있다.
도 5b 의 예에서, 계수 감축 유닛 (46) 은 (백그라운드 채널 (800E) 에서 도시된 바와 같이) 제 5 인덱스에 의해 식별된 주변 HOA 계수 (47') 중 하나와 연관된 V-벡터 엘리먼트를 제거할 수도 있다. 이와 같이, 포어그라운드 채널 (800D) 은 (도 5b 의 예에서 Vvec 엘리먼트들 = 24 로 표기되는) 총 25 개의 v-벡터 엘리먼트들을 갖는 제 4 차수 표현에 대해 단지 24 개의 벡터 엘리먼트들을 포함한다. 계수 감축 유닛 (46) 은, V-vec element[5] 가 이전의 프레임에서 지정되었기 때문에, 위에서 참조된 미국출원들에서 논의된 바와 같이, 5 의 인덱스에 의해 식별된 주변 HOA 계수들 (47') 중 하나에 대응하는 V-vec element[5] 를 페이드-아웃할 수도 있다. 도 5b 에 도시된 나머지 WasFadedIn, TransitionMode 및 Transition 아이템들은 또한, 위에서 참조된 미국출원들에서 더 상세히 설명된다.
이 방식에서, 계수 감축 유닛 (46) 은 멀티-트랜지션 표시에 기초하여 (보간된 nFG 오디오 신호들 (49') 중 대응하는 것의 공간적 특징을 기술하는 벡터를 나타낼 수도 있는) 감소된 V[k] 벡터들 (55) 중 하나를 획득할 수도 있고, 여기서 벡터 및 대응하는 HOA 오디오 신호 양자 모두는 전술된 바와 같이, HOA 오디오 데이터로부터 분해된다.
일부 실시형태들에서, 비트스트림 생성 유닛 (42) 은, 상기에서 언급된 바와 같이, 제 1 프레임이, 비트스트림의 제 2 프레임 (즉, hoaIndependencyFlag 신택스 엘리먼트) 을 참조하지 않고 제 1 프레임을 디코딩되게 할 수 있는 독립 프레임인지 여부의 표시를 지정할 수도 있다. 상기의 ChannelSideInfo() 신택스 테이블마다, 비트스트림 생성 유닛 (42) 은, hoaIndependencyFlag 가, 제 1 프레임이 독립 프레임이라는 것을 나타내는 경우 (즉, 상기의 예시의 신택스 테이블에서 "if(hoaIndpendencyFlag)", 이는 hoaIndependencyFlag 가 1 과 동일하다는 것을 의미한다) 포어그라운드 표시를 지정할 수도 있다. 비트스트림 생성 유닛 (42) 은, 프레임이 임의의 다른 프레임 또는 다른 프레임으로부터의 임의의 다른 신택스 엘리먼트들을 참조하지 않고 디코딩되어야 하기 때문에 제 1 프레임이 독립 프레임인 경우 포어그라운드 표시를 지정할 수도 있다. 포어그라운드 표시가 이전의 프레임 (k-1) 에 대한 ChannelType 에 기초하여 결정된다는 점에서, 비트스트림 생성 유닛 (42) 은, 제 1 프레임이 독립 프레임인 경우 포어그라운드 표시를 지정한다. 오디오 인코딩 디바이스 (20) 에 대하여 전술되지만, 오디오 디코딩 디바이스 (24) 는 오디오 인코딩 디바이스 (20) 의 것과 상반되는 동작들을 수행할 수도 있다. 오디오 디코딩 디바이스 (24) 에 의해 수행된 상반되는 동작들은 도 4 의 예에 대하여 이하에서 더 상세히 설명된다.
도 4 는 도 2 의 오디오 디코딩 디바이스 (24) 를 더 상세히 예시하는 블록도이다. 도 4 의 예에 도시된 바와 같이, 오디오 디코딩 디바이스 (24) 는 추출 유닛 (72), 방향성-기반 복원 유닛 (90) 및 벡터-기반 복원 유닛 (92) 을 포함할 수도 있다. 이하에서 설명되지만, 오디오 디코딩 디바이스 (24) 및 HOA 계수들을 압축해제 또는 다르게는 디코딩하는 다양한 양태들에 관한 더 많은 정보는 2014 년 5 월 29 일자로 출원된, 발명의 명칭이 "INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD" 인, 국제특허출원 공개 번호 제 2014/194099 호에서 이용 가능하다.
추출 유닛 (72) 은 비트스트림 (21) 을 수신하고 HOA 계수들 (11) 의 다양한 인코딩된 버전들 (예를 들어, 방향성-기반 인코딩된 버전 또는 벡터-기반 인코딩된 버전) 을 추출하도록 구성된 유닛을 나타낼 수도 있다. 추출 유닛 (72) 은, HOA 계수들 (11) 이 다양한 방향성-기반 버전 또는 벡터-기반 버전을 통해 인코딩되었는지 여부를 나타내는 상기에서 언급된 신택스 엘리먼트로부터 결정할 수도 있다. 방향성-기반 인코딩이 수행된 경우, 추출 유닛 (72) 은 HOA 계수들 (11) 의 방향성-기반 버전 및 (도 4 의 예에서 방향성-기반 정보 (91) 로서 표기되는) 인코딩된 버전과 연관된 신택스 엘리먼트들을 추출하여, 방향성 기반 정보 (91) 를 방향성-기반 복원 유닛 (90) 으로 패스할 수도 있다. 방향성-기반 복원 유닛 (90) 은 방향성-기반 정보 (91) 에 기초하여 HOA 계수들을 HOA 계수들 (11') 의 형태로 복원하도록 구성된 유닛을 나타낼 수도 있다.
신택스 엘리먼트가, HOA 계수들 (11) 이 벡터-기반 합성을 사용하여 인코딩되었다는 것을 나타내는 경우, 추출 유닛 (72) 은 (코딩된 가중치들 (57) 및/또는 인덱스들 (63) 또는 스칼라 양자화된 V-벡터들을 포함할 수도 있는) 코딩된 포어그라운드 V[k] 벡터들 (57), 인코딩된 주변 HOA 계수들 (59) 및 (또한, 인코딩된 nFG 신호들 (61) 로서 지칭될 수도 있는) 대응하는 오디오 객체들 (61) 을 추출할 수도 있다. 오디오 객체들 (61) 각각은 벡터들 (57) 중 하나에 대응한다. 추출 유닛 (72) 은 코딩된 포어그라운드 V[k] 벡터들 (57) 을 V-벡터 복원 유닛 (74) 으로, 그리고 인코딩된 주변 HOA 계수들 (59) 을 인코딩된 nFG 신호들 (61) 과 함께 음향심리 디코딩 유닛 (80) 으로 패스할 수도 있다.
추출 유닛 (72) 은 또한, HOAFrame 신택스 테이블 및 ChannelSideInfo() 신택스 테이블에 대하여 전술된 다양한 신택스 엘리먼트들 및 변수들 세트를 획득하도록 오디오 인코딩 디바이스 (20) 에 대하여 전술된 방식으로 동작할 수도 있다. 추출 유닛 (72) 은 백그라운드 표시, 포어그라운드 표시, (상기의 hoaIndependencyFlag 를 지칭할 수도 있는) 독립 프레임 표시, 및 멀티-트랜지션 표시의 임의의 조합을 획득할 수도 있다.
추출 유닛 (72) 은 백그라운드 표시, 포어그라운드 표시, (상기의 hoaIndependencyFlag 를 지칭할 수도 있는) 독립 프레임 표시, 및 멀티-트랜지션 표시의 임의의 하나에 기초하여 비트스트림 (21) 으로부터 코딩된 포어그라운드 V[k] 벡터들 (57) 을 획득할 수도 있다. 추출 유닛 (72) 은, CodedVVecLength 신택스 엘리먼트가 1 의 코딩 모드를 나타내는 경우, 코딩된 포어그라운드 V[k] 벡터들을 추출하도록 다음의 의사코드에 따라 동작할 수도 있다.
Figure 112018035074394-pct00041
Figure 112018035074394-pct00042
상기의 의사코드에서 상기의 굵은 이탤릭체 아이템들은 페이즈 I 또는 II 또는 3D 오디오 코딩 표준에 대한 업데이트들을 표기한다. 상기의 의사코드는, 추출 유닛 (72) 이 멀티-트랜지션 표시 (예를 들어, 포어그라운드 표시, 예를 들어 bNewChannelTypeOne[i] 곱하기 백그라운드 표시, 예를 들어 NumOfNewAddHoaChans) 에 기초하여 코딩된 포어그라운드 V[k] 벡터들 (57) 의 엘리먼트들의 수를 결정할 수도 있다는 것을 나타낼 수도 있다. 추출 유닛 (72) 은, 이에 대하여 오디오 인코딩 디바이스 (20) 가 도 3 및 도 5b 의 예들에 대하여 본 개시물에서 설명된 기법들을 수행하는 것으로서 설명되는 방식에 상반되는 방식으로 작용할 수도 있다.
도 5b 에 대하여, 추출 유닛 (72) 은 멀티-트랜지션 표시에 기초하여, 프레임들 14 및 15 에서 단지 24 개의 v-벡터 엘리먼트들이 존재한다는 것을 결정할 수도 있다. 이와 같이, 추출 유닛 (72) 은, 본 개시물에 설명된 기법들을 수행하지 않는 경우 이전의 오디오 디코더가 추출하는 25 개의 v-벡터 엘리먼트들 보다는 포어그라운드 채널 (800D) 로부터 단지 24 개의 v-벡터 엘리먼트들을 추출할 수도 있다. 이와 같이, 추출 유닛 (72) 은 리던던트 정보를 추출하지 않고, 이에 의해 HOA 계수들을 복원하는 경우 리던던트 정보를 포함하는 것에서 비롯되는 전술된 증폭을 잠재적으로 방지할 수도 있다.
이에 대하여, 오디오 디코딩 디바이스 (24) 는, 제 1 예에서 주변 HOA 계수가 포어그라운드 오디오 신호가 트랜지션 중일 때 비트스트림의 동일한 제 1 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하고, 멀티-트랜지션 표시에 기초하여 대응하는 포어그라운드 오디오 신호의 공간적 특징을 기술하는 벡터를 획득할 수도 있고, 벡터 및 대응하는 HOA 오디오 신호 양자 모두는 HOA 오디오 데이터로부터 분해된다.
제 1 예의 오디오 디코딩 디바이스 (24) 는, 제 2 예에서 비트스트림의 제 1 프레임 동안 트랜지션 중인 주변 HOA 계수들의 수의 백그라운드 표시를 획득할 수도 있고, 여기서 멀티-트랜지션 표시를 획득하는 것은 백그라운드 표시에 기초하여 멀티-트랜지션 표시를 획득하는 것을 포함한다.
제 1 및 제 2 예의 임의의 조합의 오디오 디코딩 디바이스 (24) 는, 제 3 예에서 포어그라운드 오디오 신호가 비트스트림의 프레임 동안 트랜지션 중인지 여부의 포어그라운드 표시를 획득할 수도 있고, 여기서 멀티-트랜지션 표시를 획득하는 것은 포어그라운드 표시에 기초하여 멀티-트랜지션 표시를 획득하는 것을 포함한다.
제 1 내지 제 3 예들의 임의의 조합의 오디오 디코딩 디바이스 (24) 는, 제 4 예에서 비트스트림의 프레임 동안 트랜지션 중인 주변 HOA 계수들의 수의 백그라운드 표시를 획득하고, 비트스트림의 프레임 동안 포어그라운드 오디오 신호가 트랜지션 중인지 여부의 포어그라운드 표시를 획득할 수도 있고, 여기서 멀티-트랜지션 표시를 획득하는 것은 포어그라운드 표시 및 백그라운드 표시에 기초하여 멀티-트랜지션 표시를 획득하는 것을 포함한다.
제 1 내지 제 4 예들의 임의의 조합의 오디오 디코딩 디바이스 (24) 는, 제 5 예에서 주변 HOA 계수들 중 하나에 대하여 트랜지션이 발생했다는 것을 나타내는 표시에 응답하여 백그라운드 표시를 획득할 수도 있다.
제 1 내지 제 5 예들의 임의의 조합의 오디오 디코딩 디바이스 (24) 는, 제 6 예에서 비트스트림의 프레임 동안 주변 HOA 계수들 중 어느 것이 트랜지션 중인지를 나타내는 표시를 획득할 수도 있다.
제 1 내지 제 6 예들의 임의의 조합의 오디오 디코딩 디바이스 (24) 는, 제 7 예에서 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가 벡터가 감소된 벡터라는 것을 나타내는 경우, 비트스트림의 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 포어그라운드 표시를 획득할 수도 있다.
제 1 내지 제 7 예들의 임의의 조합의 오디오 디코딩 디바이스 (24) 는, 제 8 예에서, 비트스트림의 제 1 프레임으로부터, 제 1 프레임이 비트스트림의 제 2 프레임 (또는 다시 말해, 상이한 프레임) 을 참조하지 않고 제 1 프레임을 디코딩되게 하는 독립 프레임인지 여부의 독립 프레임 표시를 획득할 수도 있다.
제 1 내지 제 8 예들의 임의의 조합의 오디오 디코딩 디바이스 (24) 는, 제 9 예에서, 비트스트림으로부터, 제 1 프레임이 독립 프레임이라는 것을 나타내는 독립 프레임 표시에 응답하여 포어그라운드 표시를 획득할 수도 있다.
제 1 내지 제 9 예들의 임의의 조합의 오디오 디코딩 디바이스 (24) 는, 제 10 예에서, 제 1 프레임이 독립 프레임이 아니라는 것을 나타내는 독립 프레임 표시에 응답하여 제 2 프레임의 이송 채널에 대한 유형의 표시를 획득할 수도 있다.
제 1 내지 제 10 예들의 임의의 조합의 오디오 디코딩 디바이스 (24) 는, 제 11 예에서, 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 포어그라운드 표시를 획득할 수도 있다.
제 1 내지 제 11 예들의 임의의 조합의 오디오 디코딩 디바이스 (24) 는, 제 12 예에서, 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가 벡터가 감소된 벡터라는 것을 나타내는 경우, 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 포어그라운드 표시를 획득할 수도 있다.
제 1 내지 제 12 예들의 임의의 조합의 오디오 디코딩 디바이스 (24) 는, 제 13 예에서, 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 코드가 벡터가 감소된 벡터라는 것을 나타내는 경우 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 독립 프레임 표시를 획득할 수도 있다.
상기의 제 1 내지 제 13 예들의 임의의 조합에서, 벡터는 제 14 예에서 HOA 오디오 데이터로부터 분해된다.
상기의 제 1 내지 제 14 예들의 임의의 조합에서, 멀티-트랜지션 표시는, 제 15 예에서 포어그라운드 오디오 신호가 페이드-인될 때 비트스트림의 동일한 제 1 프레임 동안 주변 HOA 계수가 페이드-인되는지 여부를 나타낸다.
상기의 제 1 내지 제 15 예들의 임의의 조합에서, 멀티-트랜지션 표시는, 제 16 예에서 포어그라운드 오디오 신호가 페이드-아웃될 때 주변 HOA 계수가 비트스트림의 동일한 제 1 프레임 동안 페이드-아웃되는지 여부를 나타낸다.
V-벡터 복원 유닛 (74) 은 인코딩된 포어그라운드 V[k] 벡터들 (57) 로부터 V-벡터들을 복원하도록 구성된 유닛을 나타낼 수도 있다. V-벡터 복원 유닛 (74) 은 양자화 유닛 (52) 의 방식과는 상반된 방식으로 동작할 수도 있다.
음향심리 디코딩 유닛 (80) 은 인코딩된 주변 HOA 계수들 (59) 및 인코딩된 nFG 신호들 (61) 을 디코딩하여, 이에 의해 에너지 보상된 주변 HOA 계수들 (47') 및 (보간된 nFG 오디오 객체들 (49') 로서 또한 지칭될 수도 있는) 보간된 nFG 신호들 (49') 을 생성하도록 도 3 의 예에 도시된 음향심리 오디오 코더 유닛 (40) 에 상반된 방식으로 동작할 수도 있다. 음향심리 디코딩 유닛 (80) 은 에너지 보상된 주변 HOA 계수들 (47') 을 페이드 유닛 (770) 으로 그리고 nFG 신호들 (49') 을 포어그라운드 포뮬레이션 유닛 (78) 으로 패스할 수도 있다.
시공간적 보간 유닛 (76) 은 시공간적 보간 유닛 (50) 에 대하여 위에서 설명한 방법과 유사한 방식으로 동작할 수도 있다. 시공간적 보간 유닛 (76) 은 감소된 포어그라운드 V[k] 벡터들 (55k) 을 수신하고 포어그라운드 V[k] 벡터들 (55k) 및 감소된 포어그라운드 V[k-1] 벡터들 (55k-1) 에 대하여 시공간적 보간을 수행하여 보간된 포어그라운드 V[k] 벡터들 (55k") 을 생성할 수도 있다. 시공간적 보간 유닛 (76) 은 보간된 포어그라운드 V[k] 벡터들 (55k") 을 페이드 유닛 (770) 으로 포워딩할 수도 있다.
추출 유닛 (72) 은 또한, 주변 HOA 계수들 중 하나가 트랜지션 중인 시점을 나타내는 신호 (757) 를 페이드 유닛 (770) 으로 출력할 수도 있으며, 페이드 유닛은 그 후 SHCBG (47') (여기서, SHCBG (47') 는 또한 "주변 HOA 채널들 (47')" 또는 "주변 HOA 계수들 (47')" 로서 표기될 수도 있음) 및 보간된 포어그라운드 V[k] 벡터들 (55k") 의 엘리먼트들 중 어느 것이 페이드-인되거나 또는 페이드-아웃되는지를 결정할 수도 있다. 일부 예들에서, 페이드 유닛 (770) 은 주변 HOA 계수들 (47') 및 보간된 포어그라운드 V[k] 벡터들 (55k") 의 엘리먼트들 각각에 대하여 반대로 동작할 수도 있다. 즉, 페이드 유닛 (770) 은 주변 HOA 계수들 (47') 의 대응하는 하나에 대하여 페이드-인 또는 페이드-아웃, 또는 페이드-인 또는 페이드-아웃 양자 모두를 수행하면서, 보간된 포어그라운드 V[k] 벡터들 (55k") 의 엘리먼트들의 대응하는 하나에 대하여 페이드-인 또는 페이드-아웃 또는 페이드-인 및 페이드-아웃 양자 모두를 수행할 수도 있다. 페이드 유닛 (770) 은 조정된 주변 HOA 계수들 (47") 을 HOA 계수 포뮬레이션 유닛 (82) 으로, 그리고 조정된 포어그라운드 V[k] 벡터들 (55k''') 을 포어그라운드 포뮬레이션 유닛 (78) 으로 출력할 수도 있다. 이와 관련하여, 페이드 유닛 (770) 은 예를 들어, 주변 HOA 계수들 (47') 및 보간된 포어그라운드 V[k] 벡터들 (55k'') 의 엘리먼트들의 형태로, HOA 계수들 또는 그 유도체들의 다양한 양태들에 대하여 페이드 동작을 수행하도록 구성된 유닛을 나타낸다.
포어그라운드 포뮬레이션 유닛 (78) 은 조정된 포어그라운드 V[k] 벡터들 (55k''') 및 보간된 nFG 신호들 (49') 에 대하여 매트릭스 곱셈을 수행하여 포어그라운드 HOA 계수들 (65) 을 생성하도록 구성된 유닛을 나타낼 수도 있다. 이와 관련하여, 포어그라운드 포뮬레이션 유닛 (78) 은 (보간된 nFG 신호들 (49') 을 표기하는 다른 방식인) 오디오 객체들 (49') 을 벡터들 (55k''') 과 결합하여, 포어그라운드, 또는 다시 말하면 HOA 계수들 (11') 의 우세한 양태들을 복원할 수도 있다. 포어그라운드 포뮬레이션 유닛 (78) 은 조정된 포어그라운드 V[k] 벡터들 (55k''') 에 의해 보간된 nFG 신호들 (49') 의 매트릭스 곱셈을 수행할 수도 있다.
HOA 계수 포뮬레이션 유닛 (82) 은 HOA 계수들 (11') 을 획득하기 위해 포어그라운드 HOA 계수들 (65) 을 조정된 주변 HOA 계수들 (47") 에 결합하도록 구성된 유닛을 나타낼 수도 있다. 프라임 표기는, HOA 계수들 (11') 이 HOA 계수들 (11) 과 유사하지만 동일하지는 않을 수 있다는 것을 반영한다. HOA 계수들 (11 과 11') 간의 차이들은 손실 있는 송신 매체, 양자화 또는 다른 손실 있는 동작들을 통한 송신으로 인한 손실에 기인할 수도 있다.
도 6 내지 도 9 는 본 개시물에 설명된 기법들의 다양한 양태들을 수행하는데 있어서 오디오 인코딩 디바이스 (20) 의 예시의 동작을 예시하는 플로우차트들이다. 도 6 의 예에서, 오디오 인코딩 디바이스 (20) 는 먼저, HOA 오디오 데이터를 획득할 수도 있다 (200). 오디오 인코딩 디바이스 (20) 는 HOA 오디오 데이터를 캡처 또는 다르게는 획득하도록 하나 이상의 마이크로폰들에 커플링할 수도 있다. 오디오 인코딩 디바이스 (20) 는 다음으로, 전술된 방식으로 HOA 오디오 데이터를 벡터들 및 대응하는 포어그라운드 오디오 객체들로 분해할 수도 있다 (202). 오디오 인코딩 디바이스 (20) 는 비트스트림의 제 1 프레임에서 대응하는 포어그라운드 오디오 객체들을 지정할 수도 있다.
오디오 인코딩 디바이스 (20) 는, 전술된 바와 같이, 비트스트림의 제 1 프레임에서, 제 1 프레임이, 비트스트림의 제 2 프레임을 참조하지 않고 제 1 프레임을 디코딩되게 하는 독립 프레임인지 여부의 독립 프레임 표시를 지정할 수도 있다 (204). 오디오 인코딩 디바이스 (20) 는 또한, 비트스트림의 제 1 프레임에서 그리고 제 1 프레임이 독립 프레임이라는 것을 나타내는 독립 프레임 표시에 응답하여, 제 1 프레임의 이송 채널에 대한 포어그라운드 표시를 지정할 수도 있다 (206). 전술된 바와 같이, 포어그라운드 표시는, 제 2 프레임의 동일한 이송 채널이 고차 앰비소닉 오디오 데이터로부터 분해된 포어그라운드 오디오 신호를 포함하는지 여부를 나타낼 수도 있다. 오디오 인코딩 디바이스 (20) 는, 비트스트림의 제 1 프레임에서, 적어도 하나의 주변 HOA 계수, 벡터들 중 적어도 하나, 및 대응하는 포어그라운드 오디오 객체들 중 적어도 하나 중 하나 이상을 지정할 수도 있다 (208).
기법들은, 도 6 에 도시된 조항 1A 의 양태들을 수행하도록 구성된 오디오 인코딩 디바이스 (20) 가 다음의 종속 조항들에 따라 동작하게 할 수도 있다.
조항 2A. 조항 1A 의 디바이스 (예를 들어, 도 6 의 예에 대하여 설명된 기법들의 다양한 양태들에 따라 동작하도록 구성된 오디오 코딩 디바이스 (20)) 는 또한, 제 1 프레임이 독립 프레임이 아니라는 것을 나타내는 독립 프레임 표시에 응답하여, 제 2 프레임의 이송 채널에 대한 유형의 표시를 지정하도록 구성된다.
조항 3A. 조항 2A 의 디바이스는, 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 포어그라운드 표시를 지정하도록 구성된다.
조항 4A. 조항 2A 의 디바이스는, 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가 벡터가 감소된 벡터라는 것을 나타내는 경우, 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 포어그라운드 표시를 지정하도록 구성된다.
조항 5A. 조항 1A 의 디바이스는 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가, 벡터가 감소된 벡터라는 것을 나타내는 경우, 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 독립 프레임 표시를 지정하도록 구성된다.
조항 6A. 조항들 4A 및 5A 의 임의의 조합의 디바이스로서, 벡터는 HOA 오디오 데이터로부터 분해된다.
조항 7A. 조항 1A 의 디바이스는 또한, 비트스트림의 제 1 프레임 동안 트랜지션 중인 주변 HOA 계수들의 수의 백그라운드 표시를 지정하고, 이 백그라운드 표시에 기초하여, 주변 HOA 계수가 포어그라운드 오디오 신호가 트랜지션 중일 때 비트스트림의 동일한 제 1 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 지정하도록 구성된다.
조항 8A. 조항 1A 또는 7A 의 디바이스는 또한, 포어그라운드 표시, 백그라운드 표시 또는 포어그라운드 표시 및 백그라운드 표시 양자 모두에 기초하여, 주변 HOA 계수가, 포어그라운드 오디오 신호가 트랜지션 중일 때 비트스트림의 동일한 제 1 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 지정하도록 구성된다.
조항 9A. 조항 7A 또는 8A 의 디바이스는, 트랜지션이 주변 HOA 계수들 중 하나에 대하여 발생했다는 것을 나타내는 표시에 응답하여 백그라운드 표시를 지정하도록 구성된다.
조항 10A. 조항 7A 또는 8A 의 디바이스는, 주변 HOA 계수들 중 어느 것이 비트스트림의 프레임 동안 트랜지션 중인지를 나타내는 표시를 지정하도록 구성된다.
조항 11A. 조항 8A 의 디바이스는, 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가, 벡터가 감소된 벡터라는 것을 나타내는 경우, 비트스트림의 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 포어그라운드 표시를 지정하도록 구성된다.
조항 12A. 조항들 7A-11A 중 어느 하나의 디바이스로서, 멀티-트랜지션 표시는, 주변 HOA 계수가, 포어그라운드 오디오 신호가 페이드-인될 때 비트스트림의 동일한 제 1 프레임 동안 페이드-아웃되는지 여부를 나타낸다.
조항 13A. 조항들 7A-11A 중 어느 하나의 디바이스로서, 멀티-트랜지션 표시는, 주변 HOA 계수가, 포어그라운드 오디오 신호가 페이드-아웃될 때 비트스트림의 동일한 제 1 프레임 동안 페이드-아웃되는지 여부를 나타낸다.
조항 14A. 청구항들 7A-13A 의 임의의 조합의 디바이스는 또한, 멀티-트랜지션 표시에 기초하여 대응하는 포어그라운드 오디오 신호의 공간적 특징을 기술하는 벡터를 지정하도록 구성되고, 벡터 및 대응하는 HOA 오디오 신호 양자 모두는 HOA 오디오 데이터로부터 분해된다.
도 7 의 예에서, 오디오 인코딩 디바이스 (20) 는 먼저, HOA 오디오 데이터를 획득할 수도 있다 (220). 오디오 인코딩 디바이스 (20) 는 HOA 오디오 데이터를 캡처 또는 다르게는 획득하도록 하나 이상의 마이크로폰들에 커플링할 수도 있다. 오디오 인코딩 디바이스 (20) 는 다음으로, 전술된 방식으로 HOA 오디오 데이터를 벡터들 및 대응하는 포어그라운드 오디오 객체들로 분해할 수도 있다 (222). 오디오 인코딩 디바이스 (20) 는 비트스트림의 제 1 프레임에서 대응하는 포어그라운드 오디오 객체들을 지정할 수도 있다.
오디오 인코딩 디바이스 (20) 는 또한, 전술된 바와 같이, 주변 HOA 계수가, 포어그라운드 오디오 객체가 트랜지션 중일 때 비트스트림의 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득할 수도 있다 (224). 오디오 인코딩 디바이스 (20) 는 또한, 멀티-트랜지션 표시에 기초하여 (전술된 바와 같이 대응하는 포어그라운드 오디오 신호의 공간적 특징을 나타내는) 벡터를 획득할 수도 있다 (226). 전술된 바와 같이, 벡터 및 대응하는 포어그라운드 오디오 신호 양자 모두는 HOA 오디오 데이터로부터 분해될 수도 있다. 오디오 인코딩 디바이스 (20) 는 비트스트림의 프레임에서 획득된 벡터를 지정할 수도 있다 (228).
기법들은, 도 7 에 도시된 조항 1B 의 양태들을 수행하도록 구성된 오디오 인코딩 디바이스 (20) 가 다음의 종속 조항들에 따라 동작하게 할 수도 있다.
조항 2B. 조항 1B 의 디바이스 (예를 들어, 도 7 의 예에 대하여 설명된 기법들의 다양한 양태들에 따라 동작하도록 구성된 오디오 코딩 디바이스 (20)) 는 또한, 비트스트림의 제 1 프레임 동안 트랜지션 중인 주변 HOA 계수들의 수의 백그라운드 표시를 획득하도록 구성되고, 백그라운드 표시에 기초하여 멀티-트랜지션 표시를 획득하도록 구성된다.
조항 3B. 조항 1B 의 디바이스는 또한, 포어그라운드 오디오 신호가 비트스트림의 프레임 동안 트랜지션 중인지 여부의 포어그라운드 표시를 획득하도록 구성되고, 포어그라운드 표시에 기초하여 멀티-트랜지션 표시를 획득하도록 구성된다.
조항 4B. 조항 1B 의 디바이스는 또한, 비트스트림의 프레임 동안 트랜지션 중인 주변 HOA 계수들의 수의 백그라운드 표시를 획득하고, 포어그라운드 오디오 신호가 비트스트림의 프레임 동안 트랜지션 중인지 여부의 포어그라운드 표시를 획득하도록 구성되고, 포어그라운드 표시 및 백그라운드 표시에 기초하여 멀티-트랜지션 표시를 획득하도록 구성된다.
조항 5B. 조항들 2B 또는 4B 의 디바이스는, 트랜지션이 주변 HOA 계수들 중 하나에 대하여 발생했다는 것을 나타내는 표시에 응답하여 백그라운드 표시를 획득하도록 구성된다.
조항 6B. 조항 2B 또는 4B 의 디바이스는, 주변 HOA 계수들 중 어느 것이 비트스트림의 프레임 동안 트랜지션 중인지를 나타내는 표시를 획득하도록 구성된다.
조항 7B. 조항 3B 또는 4B 의 디바이스는, 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가, 벡터가 감소된 벡터라는 것을 나타내는 경우, 비트스트림의 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 포어그라운드 표시를 획득하도록 구성된다.
조항 8B. 조항 3B 또는 4B 의 디바이스는 또한, 제 1 프레임이, 비트스트림의 제 2 프레임을 참조하지 않고 제 1 프레임을 디코딩되게 하는 독립 프레임인지 여부의 독립 프레임 표시를 획득하도록 구성된다.
조항 9B. 조항 8B 의 디바이스는, 제 1 프레임이 독립 프레임이라는 것을 나타내는 독립 프레임 표시에 응답하여 포어그라운드 표시를 획득하도록 구성된다.
조항 10B. 조항 8B 의 디바이스는 또한, 제 1 프레임이 독립 프레임이 아니라는 것을 나타내는 독립 프레임 표시에 응답하여 그리고 비트스트림에서, 제 2 프레임의 이송 채널에 대한 유형의 표시를 지정하도록 구성된다.
조항 11B. 조항 10B 의 디바이스는, 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 포어그라운드 표시를 획득하도록 구성된다.
조항 12B. 조항 10B 의 디바이스는, 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가 벡터가 감소된 벡터라는 것을 나타내는 경우, 비트스트림에서 제 1 프레임의 이송 채널에 대한 포어그라운드 표시를 지정하도록 구성되고, 포어그라운드 표시는 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타낸다.
조항 13B. 조항 10B 의 디바이스는 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가, 벡터가 감소된 벡터라는 것을 나타내는 경우, 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 독립 프레임 표시를 획득하도록 구성된다.
조항 14B. 조항 12B 또는 13B 의 디바이스로서, 벡터는 HOA 오디오 데이터로부터 분해된다.
조항 15B. 조항들 1B-14B 중 어느 하나의 디바이스로서, 멀티-트랜지션 표시는, 주변 HOA 계수가, 포어그라운드 오디오 신호가 페이드-인될 때 비트스트림의 동일한 제 1 프레임 동안 페이드-인되는지 여부를 나타낸다.
조항 16B. 조항들 1B-14B 중 어느 하나의 디바이스로서, 멀티-트랜지션 표시는, 주변 HOA 계수가, 포어그라운드 오디오 신호가 페이드-아웃될 때 비트스트림의 동일한 제 1 프레임 동안 페이드-아웃되는지 여부를 나타낸다.
도 8 의 예에서, 오디오 인코딩 디바이스 (20) 는 먼저, HOA 오디오 데이터를 획득할 수도 있다 (240). 오디오 인코딩 디바이스 (20) 는 HOA 오디오 데이터를 캡처 또는 다르게는 획득하도록 하나 이상의 마이크로폰들에 커플링할 수도 있다. 오디오 인코딩 디바이스 (20) 는 다음으로, 전술된 방식으로 HOA 오디오 데이터를 벡터들 및 대응하는 포어그라운드 오디오 객체들로 분해할 수도 있다 (242). 오디오 인코딩 디바이스 (20) 는 비트스트림의 제 1 프레임에서 대응하는 포어그라운드 오디오 객체들을 지정할 수도 있다.
오디오 인코딩 디바이스 (20) 는 또한, 비트스트림의 프레임 동안 트랜지션 중인 주변 HOA 계수들의 수의 백그라운드 표시를 획득할 수도 있다 (244). 오디오 인코딩 디바이스 (20) 는, 제 1 프레임에서, 백그라운드 표시에 기초하여 적어도 하나의 주변 HOA 계수, 벡터들 중 적어도 하나, 및 포어그라운드 오디오 객체들 중 적어도 하나 중 하나 이상을 지정할 수도 있다 (246).
기법들은, 도 8 에 도시된 조항 1C 의 양태들을 수행하도록 구성된 오디오 인코딩 디바이스 (20) 가 다음의 종속 조항들에 따라 동작하게 할 수도 있다.
조항 2C. 조항 1C 의 디바이스는, 트랜지션이 주변 HOA 계수들 중 하나에 대하여 발생했다는 것을 나타내는 표시에 응답하여 백그라운드 표시를 획득하도록 구성된다.
조항 3C. 조항 1C 의 디바이스는, 주변 HOA 계수들 중 어느 것이 비트스트림의 프레임 동안 트랜지션 중인지를 나타내는 표시를 획득하도록 구성된다.
조항 4C. 조항 1C 의 디바이스는 또한, 백그라운드 표시에 기초하여 주변 HOA 계수가, 포어그라운드 오디오 객체가 트랜지션 중일 때 비트스트림의 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하도록 구성된다.
조항 5C. 조항 1C 의 디바이스는 또한, 포어그라운드 오디오 신호가 비트스트림의 제 1 프레임 동안 트랜지션 중인지 여부의 포어그라운드 표시를 획득하도록 구성되고, 포어그라운드 오디오 신호들은 HOA 오디오 데이터에 의해 표현된 사운드필드의 포어그라운드 컴포넌트를 설명하고 HOA 오디오 데이터로부터 분해된다.
조항 6C. 조항 5C 의 디바이스는 비트스트림의 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 포어그라운드 표시를 획득하도록 구성된다.
조항 7C. 조항 5C 의 디바이스는, 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가, 벡터가 감소된 벡터라는 것을 나타내는 경우, 비트스트림의 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 포어그라운드 표시를 획득하도록 구성된다.
조항 8C. 조항 5C 의 디바이스는 또한, 비트스트림의 제 1 프레임에서, 제 1 프레임이, 비트스트림의 제 2 프레임을 참조하지 않고 제 1 프레임을 디코딩되게 하는 독립 프레임인지 여부의 독립 프레임 표시를 지정하도록 구성된다.
조항 9C. 조항 8C 의 디바이스는, 제 1 프레임이 독립 프레임이라는 것을 나타내는 독립 프레임 표시에 응답하여 포어그라운드 표시를 지정하도록 구성된다.
조항 10C. 조항 8C 의 디바이스는 또한, 제 1 프레임이 독립 프레임이 아니라는 것을 나타내는 독립 프레임 표시에 응답하여, 제 2 프레임의 이송 채널에 대한 유형의 표시를 획득하도록 구성된다.
조항 11C. 조항 10C 의 디바이스는, 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 포어그라운드 표시를 획득하도록 구성된다.
조항 12C. 조항 10C 의 디바이스는, 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가 벡터가 감소된 벡터라는 것을 나타내는 경우, 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 포어그라운드 표시를 획득하도록 구성된다.
조항 13C. 조항 10C 의 디바이스는 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가, 벡터가 감소된 벡터라는 것을 나타내는 경우, 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 독립 프레임 표시를 획득하도록 구성된다.
조항 14C. 조항 12C 또는 13C 의 디바이스로서, 벡터는 HOA 오디오 데이터로부터 분해된다.
조항 15C. 조항 1C 의 디바이스는 또한, 비트스트림의 제 1 프레임 동안 포어그라운드 오디오 신호가 트랜지션 중인지 여부의 포어그라운드 표시를 획득하는 것으로서, 포어그라운드 오디오 신호들은 HOA 오디오 데이터에 의해 표현된 사운드필드의 포어그라운드 컴포넌트를 설명하고 HOA 오디오 데이터로부터 분해되는, 상기 포어그라운드 표시를 획득하고, 포어그라운드 표시에 기초하여 주변 HOA 계수가 포어그라운드 오디오 신호가 트랜지션 중일 때 비트스트림의 동일한 제 1 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하도록 구성된다.
조항 16C. 조항 1C 또는 5C 의 디바이스는 또한, 포어그라운드 표시, 백그라운드 표시 또는 포어그라운드 표시 및 백그라운드 표시 양자 모두에 기초하여, 주변 HOA 계수가, 포어그라운드 오디오 신호가 트랜지션 중일 때 비트스트림의 동일한 제 1 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하도록 구성된다.
조항 17C. 조항들 15C 또는 16C 의 디바이스는, 트랜지션이 주변 HOA 계수들 중 하나에 대하여 발생했다는 것을 나타내는 표시에 응답하여 백그라운드 표시를 획득하도록 구성된다.
조항 18C. 조항 15C 또는 16C 의 디바이스는, 주변 HOA 계수들 중 어느 것이 비트스트림의 프레임 동안 트랜지션 중인지를 나타내는 표시를 획득하도록 구성된다.
조항 19C. 조항 16C 의 디바이스는, 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가, 벡터가 감소된 벡터라는 것을 나타내는 경우, 비트스트림의 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 포어그라운드 표시를 획득하도록 구성된다.
조항 20C. 조항들 4C-19C 중 어느 하나의 디바이스로서, 멀티-트랜지션 표시는, 주변 HOA 계수가, 포어그라운드 오디오 신호가 페이드-인될 때 비트스트림의 동일한 제 1 프레임 동안 페이드-인되는지 여부를 나타낸다.
조항 21C. 조항들 4C-19C 중 어느 하나의 디바이스로서, 멀티-트랜지션 표시는, 주변 HOA 계수가, 포어그라운드 오디오 신호가 페이드-아웃될 때 비트스트림의 동일한 제 1 프레임 동안 페이드-아웃되는지 여부를 나타낸다.
조항 22C. 청구항들 1C-21C 의 임의의 조합의 디바이스는 또한, 멀티-트랜지션 표시에 기초하여 대응하는 포어그라운드 오디오 신호의 공간적 특징을 기술하는 벡터를 획득하도록 구성되고, 벡터 및 대응하는 HOA 오디오 신호 양자 모두는 HOA 오디오 데이터로부터 분해된다.
도 9 의 예에서, 오디오 인코딩 디바이스 (20) 는 먼저, HOA 오디오 데이터를 획득할 수도 있다 (260). 오디오 인코딩 디바이스 (20) 는 HOA 오디오 데이터를 캡처 또는 다르게는 획득하도록 하나 이상의 마이크로폰들에 커플링할 수도 있다. 오디오 인코딩 디바이스 (20) 는 다음으로, 전술된 방식으로 HOA 오디오 데이터를 벡터들 및 대응하는 포어그라운드 오디오 객체들로 분해할 수도 있다 (262). 오디오 인코딩 디바이스 (20) 는 비트스트림의 제 1 프레임에서 대응하는 포어그라운드 오디오 객체들을 지정할 수도 있다.
오디오 인코딩 디바이스 (20) 는 또한, 비트스트림의 프레임 동안 포어그라운드 오디오 객체가 트랜지션 중인지 여부의 포어그라운드 표시를 획득할 수도 있다 (264). 오디오 인코딩 디바이스 (20) 는, 제 1 프레임에서, 포어그라운드 표시에 기초하여 적어도 하나의 주변 HOA 계수, 벡터들 중 적어도 하나, 및 포어그라운드 오디오 객체들 중 적어도 하나 중 하나 이상을 지정할 수도 있다 (266).
기법들은, 도 9 에 도시된 조항 1D 의 양태들을 수행하도록 구성된 오디오 인코딩 디바이스 (20) 가 다음의 종속 조항들에 따라 동작하게 할 수도 있다.
조항 2D. 조항 1D 의 디바이스는 비트스트림의 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 포어그라운드 표시를 획득하도록 구성된다.
조항 3D. 조항 1D 의 디바이스는, 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가, 벡터가 감소된 벡터라는 것을 나타내는 경우, 비트스트림의 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 포어그라운드 표시를 획득하도록 구성된다.
조항 4D. 조항 1D 의 디바이스는 또한, 비트스트림의 제 1 프레임에서, 제 1 프레임이, 비트스트림의 제 2 프레임을 참조하지 않고 제 1 프레임을 디코딩되게 하는 독립 프레임인지 여부의 독립 프레임 표시를 지정하도록 구성된다.
조항 5D. 조항 4D 의 디바이스는, 비트스트림에서, 제 1 프레임이 독립 프레임이라는 것을 나타내는 독립 프레임 표시에 응답하여 포어그라운드 표시를 지정하도록 구성된다.
조항 6D. 조항 4D 의 디바이스는 또한, 제 1 프레임이 독립 프레임이 아니라는 것을 나타내는 독립 프레임 표시에 응답하여, 제 2 프레임의 이송 채널에 대한 유형의 표시를 획득하도록 구성된다.
조항 7D. 조항 6D 의 디바이스는, 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 포어그라운드 표시를 획득하도록 구성된다.
조항 8D. 조항 6D 의 디바이스는, 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가 벡터가 감소된 벡터라는 것을 나타내는 경우, 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 포어그라운드 표시를 획득하도록 구성된다.
조항 9D. 조항 6D 의 디바이스는 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가, 벡터가 감소된 벡터라는 것을 나타내는 경우, 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 독립 프레임 표시를 획득하도록 구성된다.
조항 10D. 조항 8D 또는 9D 의 디바이스로서, 벡터는 HOA 오디오 데이터로부터 분해된다.
조항 11D. 조항 1D 의 디바이스는 또한, 비트스트림의 제 1 프레임 동안 트랜지션 중인 주변 HOA 계수들의 수의 백그라운드 표시를 획득하도록 구성되고, 주변 HOA 계수는 HOA 오디오 데이터에 의해 표현된 사운드필드의 주변 컴포넌트를 설명한다.
조항 12D. 조항 11D 의 디바이스는, 트랜지션이 주변 HOA 계수들 중 하나에 대하여 발생했다는 것을 나타내는 표시에 응답하여 백그라운드 표시를 획득하도록 구성된다.
조항 13D. 조항 11D 의 디바이스는, 주변 HOA 계수들 중 어느 것이 비트스트림의 프레임 동안 트랜지션 중인지를 나타내는 표시를 획득하도록 구성된다.
조항 14D. 조항 1D 또는 11D 의 디바이스는 또한, 백그라운드 표시, 포어그라운드 표시 또는 백그라운드 표시와 포어그라운드 표시 양자 모두에 기초하여, 주변 HOA 계수가, 포어그라운드 오디오 객체가 트랜지션 중일 때 비트스트림의 동일한 제 1 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하도록 구성된다.
조항 15D. 조항 14D 의 디바이스로서, 멀티-트랜지션 표시는, 주변 HOA 계수가, 포어그라운드 오디오 신호가 페이드-인될 때 비트스트림의 동일한 제 1 프레임 동안 페이드-인되는지 여부를 나타낸다.
조항 16D. 조항 14D 의 디바이스로서, 멀티-트랜지션 표시는, 주변 HOA 계수가, 포어그라운드 오디오 신호가 페이드-아웃될 때 비트스트림의 동일한 제 1 프레임 동안 페이드-아웃되는지 여부를 나타낸다.
조항 17D. 청구항들 14D-16D 의 임의의 조합의 디바이스는 또한, 멀티-트랜지션 표시에 기초하여 대응하는 포어그라운드 오디오 신호의 공간적 특징을 기술하는 벡터를 획득하도록 구성되고, 벡터 및 대응하는 HOA 오디오 신호 양자 모두는 HOA 오디오 데이터로부터 분해된다.
도 10 내지 도 13 은 본 개시물에 설명된 기법들의 다양한 양태들을 수행하는데 있어서 오디오 디코딩 디바이스 (24) 의 예시의 동작을 예시하는 플로우차트들이다. 도 10 의 예에서, 오디오 디코딩 디바이스 (24) 는, 비트스트림의 제 1 프레임으로부터, 제 1 프레임이, 비트스트림의 제 2 프레임을 참조하지 않고 제 1 프레임을 디코딩되게 하는 독립 프레임인지 여부의 독립 프레임 표시를 획득할 수도 있다 (300). 오디오 디코딩 디바이스 (24) 는 또한, 제 1 프레임이 독립 프레임이라는 것을 나타내는 독립 프레임 표시에 응답하여, 제 1 프레임의 이송 채널에 대한 포어그라운드 표시를 획득할 수도 있다 (302). 전술된 바와 같이, 포어그라운드 표시는, 제 2 프레임의 동일한 이송 채널이 고차 앰비소닉 오디오 데이터로부터 분해된 포어그라운드 오디오 신호를 포함하는지 여부를 나타낼 수도 있다.
오디오 디코딩 디바이스 (24) 는 다음으로, 제 1 프레임으로부터 (전술된 바와 같이, HOA 오디오 데이터로부터 분해될 수도 있는) 포어그라운드 표시에 기초하여 포어그라운드 오디오 신호를 획득할 수도 있다 (304). 오디오 디코딩 디바이스 (24) 는 포어그라운드 오디오 신호에 기초하여 HOA 오디오 데이터를 복원하고, HOA 오디오 데이터를 라우드스피커 피드들로 렌더링하며, 라우드스피커 피드들을 출력하여 하나 이상의 라우드스피커들을 구동할 수도 있다 (306-310). 오디오 디코딩 디바이스 (24) 는 라우드스피커들을 포함 또는 다르게는 이에 커플링할 수도 있다.
기법들은, 도 10 에 도시된 조항 1AA 의 양태들을 수행하도록 구성된 오디오 디코딩 디바이스 (24) 가 다음의 종속 조항들에 따라 동작하게 할 수도 있다.
조항 2AA. 조항 1AA 의 디바이스는 또한, 제 1 프레임이 독립 프레임이 아니라는 것을 나타내는 독립 프레임 표시에 응답하여, 제 2 프레임의 이송 채널에 대한 유형의 표시를 획득하도록 구성된다.
조항 3AA. 조항 2AA 의 디바이스는, 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 포어그라운드 표시를 획득하도록 구성된다.
조항 4AA. 조항 2AA 의 디바이스는, 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가 벡터가 감소된 벡터라는 것을 나타내는 경우, 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 포어그라운드 표시를 획득하도록 구성된다.
조항 5AA. 조항 1AA 는 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가, 벡터가 감소된 벡터라는 것을 나타내는 경우, 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 독립 프레임 표시를 획득하도록 구성된다.
조항 6AA. 조항 4AA 또는 5AA 의 디바이스로서, 벡터는 HOA 오디오 데이터로부터 분해된다.
조항 7AA. 조항 1AA 의 디바이스는 또한, 비트스트림의 제 1 프레임 동안 트랜지션 중인 주변 HOA 계수들의 수의 백그라운드 표시를 획득하고, 이 백그라운드 표시에 기초하여, 주변 HOA 계수가, 포어그라운드 오디오 신호가 트랜지션 중일 때 비트스트림의 동일한 제 1 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하도록 구성된다.
조항 8AA. 조항 1AA 또는 7AA 의 디바이스는 또한, 포어그라운드 표시, 백그라운드 표시 또는 포어그라운드 표시 및 백그라운드 표시 양자 모두에 기초하여, 주변 HOA 계수가, 포어그라운드 오디오 신호가 트랜지션 중일 때 비트스트림의 동일한 제 1 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하도록 구성된다.
조항 9AA. 조항 7AA 또는 8AA 의 디바이스는, 트랜지션이 주변 HOA 계수들 중 하나에 대하여 발생했다는 것을 나타내는 표시에 응답하여 백그라운드 표시를 획득하도록 구성된다.
조항 10AA. 조항 7AA 또는 8AA 의 디바이스는, 주변 HOA 계수들 중 어느 것이 비트스트림의 프레임 동안 트랜지션 중인지를 나타내는 표시를 획득하도록 구성된다.
조항 11AA. 조항 8AA 의 디바이스는, 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가, 벡터가 감소된 벡터라는 것을 나타내는 경우, 비트스트림의 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 포어그라운드 표시를 획득하도록 구성된다.
조항 12AA. 조항들 7AA-11AA 의 임의의 조합의 디바이스로서, 멀티-트랜지션 표시는, 주변 HOA 계수가, 포어그라운드 오디오 신호가 페이드-인될 때 비트스트림의 동일한 제 1 프레임 동안 페이드-아웃되는지 여부를 나타낸다.
조항 13AA. 조항들 7AA-11AA 의 임의의 조합의 디바이스로서, 멀티-트랜지션 표시는, 주변 HOA 계수가, 포어그라운드 오디오 신호가 페이드-아웃될 때 비트스트림의 동일한 제 1 프레임 동안 페이드-아웃되는지 여부를 나타낸다.
조항 14AA. 청구항들 7AA-13AA 의 임의의 조합의 디바이스는 또한, 멀티-트랜지션 표시에 기초하여 대응하는 포어그라운드 오디오 신호의 공간적 특징을 기술하는 벡터를 획득하도록 구성되고, 벡터 및 대응하는 HOA 오디오 신호 양자 모두는 HOA 오디오 데이터로부터 분해된다.
도 11 의 예에서, 오디오 디코딩 디바이스 (24) 는, 주변 HOA 계수가 포어그라운드 오디오 신호가 트랜지션 중일 때 비트스트림의 동일한 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득할 수도 있다 (320). 오디오 디코딩 디바이스 (24) 는 또한, 멀티-트랜지션 표시에 기초하여 대응하는 포어그라운드 오디오 신호의 공간적 특징을 기술하는 벡터를 획득할 수도 있다 (322). 전술된 바와 같이, 벡터 및 대응하는 HOA 오디오 신호 양자 모두는 HOA 오디오 데이터로부터 분해될 수도 있다.
오디오 디코딩 디바이스 (24) 는 벡터에 기초하여 HOA 오디오 데이터를 복원하고, HOA 오디오 데이터를 라우드스피커 피드들로 렌더링하며, 라우드스피커 피드들을 출력하여 하나 이상의 라우드스피커들을 구동할 수도 있다 (324-328). 오디오 디코딩 디바이스 (24) 는 라우드스피커들을 포함 또는 다르게는 이에 커플링할 수도 있다.
기법들은, 도 11 에 도시된 조항 1BB 의 양태들을 수행하도록 구성된 오디오 디코딩 디바이스 (24) 가 다음의 종속 조항들에 따라 동작하게 할 수도 있다.
조항 2BB. 조항 1BB 의 디바이스는 또한, 비트스림의 제 1 프레임 동안 트랜지션 중인 주변 HOA 계수들의 수의 백그라운드 표시를 획득하도록 구성되고, 백그라운드 표시에 기초하여 멀티-트랜지션 표시를 획득하도록 구성된다.
조항 3BB. 조항 1BB 의 디바이스는 또한, 포어그라운드 오디오 신호가 비트스트림의 프레임 동안 트랜지션 중인지 여부의 포어그라운드 표시를 획득하도록 구성되고, 포어그라운드 표시에 기초하여 멀티-트랜지션 표시를 획득하도록 구성된다.
조항 4BB. 조항 1BB 의 디바이스는 또한, 비트스트림의 프레임 동안 트랜지션 중인 주변 HOA 계수들의 수의 백그라운드 표시를 획득하고, 포어그라운드 오디오 신호가 비트스트림의 프레임 동안 트랜지션 중인지 여부의 포어그라운드 표시를 획득하도록 구성되고, 포어그라운드 표시 및 백그라운드 표시에 기초하여 멀티-트랜지션 표시를 획득하도록 구성된다.
조항 5BB. 조항 2BB 또는 4BB 의 디바이스는, 트랜지션이 주변 HOA 계수들 중 하나에 대하여 발생했다는 것을 나타내는 표시에 응답하여 백그라운드 표시를 획득하도록 구성된다.
조항 6BB. 조항 2BB 또는 4BB 의 디바이스는, 주변 HOA 계수들 중 어느 것이 비트스트림의 프레임 동안 트랜지션 중인지를 나타내는 표시를 획득하도록 구성된다.
조항 7BB. 조항 3BB 또는 4BB 의 디바이스는, 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가, 벡터가 감소된 벡터라는 것을 나타내는 경우, 비트스트림의 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 포어그라운드 표시를 획득하도록 구성된다.
조항 8BB. 조항 3BB 또는 4BB 의 디바이스는 또한, 비트스트림의 제 1 프레임으로부터, 제 1 프레임이, 비트스트림의 제 2 프레임을 참조하지 않고 제 1 프레임을 디코딩되게 하는 독립 프레임인지 여부의 독립 프레임 표시를 획득하도록 구성된다.
조항 9BB. 조항 8BB 의 디바이스는, 제 1 프레임이 독립 프레임이라는 것을 나타내는 독립 프레임 표시에 응답하여 포어그라운드 표시를 획득하도록 구성된다.
조항 10BB. 조항 8BB 의 디바이스는 또한, 제 1 프레임이 독립 프레임이 아니라는 것을 나타내는 독립 프레임 표시에 응답하여, 제 2 프레임의 이송 채널에 대한 유형의 표시를 획득하도록 구성된다.
조항 11BB. 조항 10BB 의 디바이스는, 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 포어그라운드 표시를 획득하도록 구성된다.
조항 12BB. 조항 10BB 의 디바이스는, 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가 벡터가 감소된 벡터라는 것을 나타내는 경우, 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 포어그라운드 표시를 획득하도록 구성된다.
조항 13BB. 조항 10BB 의 디바이스는 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가, 벡터가 감소된 벡터라는 것을 나타내는 경우, 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 독립 프레임 표시를 획득하도록 구성된다.
조항 14BB. 조항 12BB 또는 13BB 의 디바이스로서, 벡터는 HOA 오디오 데이터로부터 분해된다.
조항 15BB. 조항들 1BB-14BB 의 임의의 조합의 디바이스로서, 멀티-트랜지션 표시는, 주변 HOA 계수가, 포어그라운드 오디오 신호가 페이드-인될 때 비트스트림의 동일한 제 1 프레임 동안 페이드-인되는지 여부를 나타낸다.
조항 16BB. 조항들 1BB-14BB 의 임의의 조합의 디바이스로서, 멀티-트랜지션 표시는, 주변 HOA 계수가, 포어그라운드 오디오 신호가 페이드-아웃될 때 비트스트림의 동일한 제 1 프레임 동안 페이드-아웃되는지 여부를 나타낸다.
도 12 의 예에서, 오디오 디코딩 디바이스 (24) 는 비트스트림의 제 1 프레임 동안 트랜지션 중인 주변 HOA 계수들의 수의 백그라운드 표시를 획득할 수도 있다 (340). 전술된 바와 같이, 주변 HOA 계수는 HOA 오디오 데이터에 의해 표현된 사운드필드의 주변 컴포넌트를 설명할 수도 있다. 오디오 디코딩 디바이스 (24) 는, 제 1 프레임으로부터, 백그라운드 표시에 기초하여 적어도 하나의 HOA 계수, 적어도 하나의 벡터, 및 적어도 하나의 포어그라운드 오디오 신호 중 하나 이상을 획득할 수도 있다 (342).
적어도 하나의 HOA 계수, 적어도 하나의 벡터, 및 적어도 하나의 포어그라운드 오디오 신호 중 하나 이상에 기초하여, 오디오 디코딩 디바이스 (24) 는 HOA 오디오 데이터를 복원할 수도 있다 (344). 오디오 디코딩 디바이스 (24) 는 HOA 오디오 데이터를 라우드스피커 피드들로 렌더링하고, 라우드스피커 피드들을 출력하여 하나 이상의 라우드스피커들을 구동할 수도 있다 (346, 348). 다시, 오디오 디코딩 디바이스 (24) 는 라우드스피커들을 포함 또는 다르게는 이에 커플링할 수도 있다.
기법들은, 도 12 에 도시된 조항 1CC 의 양태들을 수행하도록 구성된 오디오 디코딩 디바이스 (24) 가 다음의 종속 조항들에 따라 동작하게 할 수도 있다.
조항 2CC. 조항 1CC 의 디바이스는, 트랜지션이 주변 HOA 계수들 중 하나에 대하여 발생했다는 것을 나타내는 표시에 응답하여 백그라운드 표시를 획득하도록 구성된다.
조항 3CC. 조항 1CC 의 디바이스는, 주변 HOA 계수들 중 어느 것이 비트스트림의 프레임 동안 트랜지션 중인지를 나타내는 표시를 획득하도록 구성된다.
조항 4CC. 조항 1CC 의 디바이스는 또한, 백그라운드 표시에 기초하여 주변 HOA 계수가, 포어그라운드 오디오 신호가 트랜지션 중일 때 비트스트림의 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하도록 구성된다.
조항 5CC. 조항 1CC 의 디바이스는 또한, 포어그라운드 오디오 신호가 비트스트림의 제 1 프레임 동안 트랜지션 중인지 여부의 포어그라운드 표시를 획득하도록 구성되고, 포어그라운드 오디오 신호들은 HOA 오디오 데이터에 의해 표현된 사운드필드의 포어그라운드 컴포넌트를 설명하고 HOA 오디오 데이터로부터 분해된다.
조항 6CC. 조항 5CC 의 디바이스는 비트스트림의 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 포어그라운드 표시를 획득하도록 구성된다.
조항 7CC. 조항 5CC 의 디바이스는, 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가, 벡터가 감소된 벡터라는 것을 나타내는 경우, 비트스트림의 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 포어그라운드 표시를 획득하도록 구성된다.
조항 8CC. 조항 5CC 의 디바이스는 또한, 비트스트림의 제 1 프레임으로부터, 제 1 프레임이, 비트스트림의 제 2 프레임을 참조하지 않고 제 1 프레임을 디코딩되게 하는 독립 프레임인지 여부의 독립 프레임 표시를 획득하도록 구성된다.
조항 9CC. 조항 8CC 의 디바이스는, 비트스트림으로부터 제 1 프레임이 독립 프레임이라는 것을 나타내는 독립 프레임 표시에 응답하여 포어그라운드 표시를 획득하도록 구성된다.
조항 10CC. 조항 8CC 의 디바이스는 또한, 제 1 프레임이 독립 프레임이 아니라는 것을 나타내는 독립 프레임 표시에 응답하여, 제 2 프레임의 이송 채널에 대한 유형의 표시를 획득하도록 구성된다.
조항 11CC. 조항 10CC 의 디바이스는, 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 포어그라운드 표시를 획득하도록 구성된다.
조항 12CC. 조항 10CC 의 디바이스는, 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가 벡터가 감소된 벡터라는 것을 나타내는 경우, 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 포어그라운드 표시를 획득한다.
조항 13CC. 조항 10CC 의 디바이스는 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가, 벡터가 감소된 벡터라는 것을 나타내는 경우, 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 독립 프레임 표시를 획득하도록 구성된다.
조항 14CC. 조항 12CC 또는 13CC 의 디바이스로서, 벡터는 HOA 오디오 데이터로부터 분해된다.
조항 15CC. 조항 1CC 의 디바이스는 또한, 비트스트림의 제 1 프레임 동안 포어그라운드 오디오 신호가 트랜지션 중인지 여부의 포어그라운드 표시를 획득하는 것으로서, 포어그라운드 오디오 신호들은 HOA 오디오 데이터에 의해 표현된 사운드필드의 포어그라운드 컴포넌트를 설명하고 HOA 오디오 데이터로부터 분해되는, 상기 포어그라운드 표시를 획득하고, 이 포어그라운드 표시에 기초하여 주변 HOA 계수가 포어그라운드 오디오 신호가 트랜지션 중일 때 비트스트림의 동일한 제 1 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하도록 구성된다.
조항 16CC. 조항 1CC 또는 15CC 의 디바이스는 또한, 포어그라운드 표시, 백그라운드 표시 또는 포어그라운드 표시 및 백그라운드 표시 양자 모두에 기초하여, 주변 HOA 계수가, 포어그라운드 오디오 신호가 트랜지션 중일 때 비트스트림의 동일한 제 1 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하도록 구성된다.
조항 17CC. 조항 15CC 또는 16CC 의 디바이스는, 트랜지션이 주변 HOA 계수들 중 하나에 대하여 발생했다는 것을 나타내는 표시에 응답하여 백그라운드 표시를 획득하도록 구성된다.
조항 18CC. 조항 15CC 또는 16CC 의 디바이스는, 주변 HOA 계수들 중 어느 것이 비트스트림의 프레임 동안 트랜지션 중인지를 나타내는 표시를 획득하도록 구성된다.
조항 19CC. 조항 16CC 의 디바이스는, 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가, 벡터가 감소된 벡터라는 것을 나타내는 경우, 비트스트림의 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 포어그라운드 표시를 획득하도록 구성된다.
조항 20CC. 조항들 4CC-19CC 의 임의의 조합의 디바이스로서, 멀티-트랜지션 표시는, 주변 HOA 계수가, 포어그라운드 오디오 신호가 페이드-인될 때 비트스트림의 동일한 제 1 프레임 동안 페이드-인되는지 여부를 나타낸다.
조항 21CC. 조항들 4CC-19CC 의 임의의 조합의 디바이스로서, 멀티-트랜지션 표시는, 주변 HOA 계수가, 포어그라운드 오디오 신호가 페이드-아웃될 때 비트스트림의 동일한 제 1 프레임 동안 페이드-아웃되는지 여부를 나타낸다.
조항 22CC. 조항들 1CC-21CC 의 임의의 조합의 디바이스는 또한, 멀티-트랜지션 표시에 기초하여 대응하는 포어그라운드 오디오 신호의 공간적 특징을 기술하는 벡터를 획득하도록 구성되고, 벡터 및 대응하는 HOA 오디오 신호 양자 모두는 HOA 오디오 데이터로부터 분해된다.
도 13 의 예에서, 오디오 디코딩 디바이스 (24) 는 또한, 포어그라운드 오디오 신호가 비트스트림의 프레임 동안 트랜지션 중인지 여부의 포어그라운드 표시를 획득할 수도 있다 (360). 오디오 디코딩 디바이스 (24) 는, 프레임으로부터, 포어그라운드 표시에 기초하여 적어도 하나의 주변 HOA 계수들, 벡터들 중 적어도 하나, 및 포어그라운드 오디오 객체들 중 적어도 하나 중 하나 이상을 획득할 수도 있다 (362).
적어도 하나의 HOA 계수, 적어도 하나의 벡터, 및 적어도 하나의 포어그라운드 오디오 신호 중 하나 이상에 기초하여, 오디오 디코딩 디바이스 (24) 는 HOA 오디오 데이터를 복원할 수도 있다 (364). 오디오 디코딩 디바이스 (24) 는 HOA 오디오 데이터를 라우드스피커 피드들로 렌더링하고, 라우드스피커 피드들을 출력하여 하나 이상의 라우드스피커들을 구동할 수도 있다 (366, 368). 다시, 오디오 디코딩 디바이스 (24) 는 라우드스피커들을 포함 또는 다르게는 이에 커플링할 수도 있다.
기법들은, 도 13 에 도시된 조항 1DD 의 양태들을 수행하도록 구성된 오디오 디코딩 디바이스 (24) 가 다음의 종속 조항들에 따라 동작하게 할 수도 있다.
조항 2DD. 조항 1DD 의 디바이스는 비트스트림의 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 포어그라운드 표시를 획득하도록 구성된다.
조항 3DD. 조항 1DD 의 디바이스는, 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가, 벡터가 감소된 벡터라는 것을 나타내는 경우, 비트스트림의 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 포어그라운드 표시를 획득하도록 구성된다.
조항 4DD. 조항 1DD 의 디바이스는 또한, 비트스트림의 제 1 프레임으로부터, 제 1 프레임이, 비트스트림의 제 2 프레임을 참조하지 않고 제 1 프레임을 디코딩되게 하는 독립 프레임인지 여부의 독립 프레임 표시를 획득하도록 구성된다.
조항 5DD. 조항 4DD 의 디바이스는, 비트스트림으로부터 제 1 프레임이 독립 프레임이라는 것을 나타내는 독립 프레임 표시에 응답하여 포어그라운드 표시를 획득하도록 구성된다.
조항 6DD. 조항 4DD 의 디바이스는 또한, 제 1 프레임이 독립 프레임이 아니라는 것을 나타내는 독립 프레임 표시에 응답하여, 제 2 프레임의 이송 채널에 대한 유형의 표시를 획득하도록 구성된다.
조항 7DD. 조항 6DD 의 디바이스는, 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 포어그라운드 표시를 획득하도록 구성된다.
조항 8DD. 조항 6DD 의 디바이스는, 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가 벡터가 감소된 벡터라는 것을 나타내는 경우, 제 2 프레임의 이송 채널에 대한 유형의 표시에 기초하여 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 포어그라운드 표시를 획득하도록 구성된다.
조항 9DD. 조항 6DD 의 디바이스는 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가, 벡터가 감소된 벡터라는 것을 나타내는 경우, 제 2 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 제 1 프레임의 이송 채널에 대한 독립 프레임 표시를 획득하도록 구성된다.
조항 10DD. 조항 8DD 또는 9DD 의 디바이스로서, 벡터는 HOA 오디오 데이터로부터 분해된다.
조항 11DD. 조항 1DD 의 디바이스는 또한, 비트스트림의 제 1 프레임 동안 트랜지션 중인 주변 HOA 계수들의 수의 백그라운드 표시를 획득하도록 구성되고, 주변 HOA 계수는 HOA 오디오 데이터에 의해 표현된 사운드필드의 주변 컴포넌트를 설명한다.
조항 12DD. 조항 11DD 의 디바이스는, 트랜지션이 주변 HOA 계수들 중 하나에 대하여 발생했다는 것을 나타내는 표시에 응답하여 백그라운드 표시를 획득하도록 구성된다.
조항 13DD. 조항 11D 의 디바이스는, 주변 HOA 계수들 중 어느 것이 비트스트림의 프레임 동안 트랜지션 중인지를 나타내는 표시를 획득하도록 구성된다.
조항 14DD. 조항 1DD 또는 11DD 의 디바이스는 또한, 백그라운드 표시, 포어그라운드 표시 또는 백그라운드 표시 및 포어그라운드 표시 양자 모두에 기초하여 주변 HOA 계수가, 포어그라운드 오디오 신호가 트랜지션 중일 때 비트스트림의 동일한 제 1 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하도록 구성된다.
조항 15DD. 조항 14DD 의 디바이스로서, 멀티-트랜지션 표시는, 주변 HOA 계수가, 포어그라운드 오디오 신호가 페이드-인될 때 비트스트림의 동일한 제 1 프레임 동안 페이드-인되는지 여부를 나타낸다.
조항 16DD. 조항 14DD 의 디바이스로서, 멀티-트랜지션 표시는, 주변 HOA 계수가, 포어그라운드 오디오 신호가 페이드-아웃될 때 비트스트림의 동일한 제 1 프레임 동안 페이드-아웃되는지 여부를 나타낸다.
조항 17DD. 조항들 14DD-16DD 의 임의의 조합의 디바이스는 또한, 멀티-트랜지션 표시에 기초하여 대응하는 포어그라운드 오디오 신호의 공간적 특징을 기술하는 벡터를 획득하도록 구성되고, 벡터 및 대응하는 HOA 오디오 신호 양자 모두는 HOA 오디오 데이터로부터 분해된다.
기법들의 추가의 양태들은 위에서 주목된 3D 오디오 코딩 표준의 페이즈 I 또는 Ⅱ 을 참조하여 다양한 테이블들 및 섹션 넘버들로 다음의 아이템들에 관한 것일 수도 있다. 이하에서 언더라인된 이탤릭체 아이템들은 위에서 주목된 3D 오디오 코딩 표준의 페이즈 I 또는 Ⅱ 에 대한 추가들을 나타낸다.
HOA 매트릭스 인코더/디코더
비트스트림에서 HOA 렌더링 매트릭스를 시그널링하기 위해, HOA 렌더링 매트릭스는 가중 값 당 최대 0.125dB 의 정확도로 양자화된다. 그러나, 원하는 렌더링 매트릭스가 에너지 표준화되도록 고의로 설계되었다면, 이 양자화 잡음은 디코딩된 HOA 렌더링 매트릭스로 하여금 더 이상 에너지 표준화되지 않게 한다. 따라서, 우리는 역양자화된 렌더링 매트릭스를 그 원래의 에너지-표준화된 상태로 표준화하는 옵션을 제안한다.
테이블 23 에서 - HOARenderingMatrix() 의 신택스는 다음을:
Figure 112018035074394-pct00043
다음으로 대체한다:
Figure 112018035074394-pct00044
서브조항 5.3.6 에서, HOA 렌더링 매트릭스 데이터 엘리먼트들은 precisionLevel 전에 다음을 추가한다:
Figure 112018035074394-pct00045
테이블 24 5.4.3.3 에서, HOA 렌더링 매트릭스 계수들의 디코딩은 다음 후에:
이 경우에서, 좌측 라우드스피커에 대한 개별의 매트릭스 엘리먼트들을 디코딩하기 위한 코드 워드들은 감소되거나 또는 이에 따라 완전히 생략된다.
다음을 추가한다:
bitfield isNormalized 가 1 로 설정되었다면, 최종 HOA 렌더링 매트릭스 D 는 비-LFE 라우드스피커들과 연관된 L 개의 로우들로부터 연산된 매트릭스의 Frobenius norm
Figure 112018035074394-pct00046
에 의해 비-LFE 라우드스피커들과 연관되는 HOA 렌더링 매트릭스의 L 개의 로우들에서 각각의 가중 값을 나눔으로써 생성된다.
서브조항 12.4.1.10.2 에서 다음을:
벡터 코드북의 사이즈는 값 NumVvecIndices 및 HOA 차수에 의존한다. 변수 NumVvecIndices 가 1 로 설정되면, 부록 F 로부터 도출된 HOA 확장 계수들을 포함하는 벡터 코드북이 사용된다. NumVvecIndices 가 1 보다 크면, 0 벡터를 갖는 벡터 코드북은 (부록 F.12 의 테이블) 256x8 가중 값들과 결합되어 사용된다. HOA 차수 (4) 에 대해, 부록 F.6 의 테이블로부터 도출된 바와 같이 32 개의 엔트리들을 갖는 벡터 코드북이 사용된다.
다음으로 대체한다:
벡터 코드북의 사이즈는 값 CodebkIdx(k)[i], 값 NumVvecIndices(k)[i] 및 값 HOA 차수에 의존한다. NumVvecIndices 가 1 보다 크면, 256x8 가중 값들 (부록 F.12 에서의 표) 이 사용된다. NumVvecIndices 가 8 보다 크면, 256x8 가중 값들 (부록 F.12 의 테이블) 중 최종 2 개의 컬럼들이 모듈형 연산자와 반복적으로 사용된다.
CodebkIdx(k)[i] 가 0 으로 설정되면, 부록 F 로부터 도출된 HOA 확장 계수들을 포함하는 코드북이 사용된다.
CodebkIdx(k)[i] 이 1 로 설정되면, V-벡터 코드북은 테이블 94 의 라우드스피커 포지션들 (제 2 및 제 3 컬럼) 에 기초하여 생성되고, 스케일링되어 사용된다. CodebkIdx(k)[i] 가 2 로 설정되면, 테이블 94 의 라우드스피커 포지션들 (제 2 및 제 3 컬럼) 에 기초한 V-벡터 코드북이 생성되고 추가의 스케일링 없이 사용된다.
CodebkIdx(k)[i] 이 7 로 설정되면, O 벡터들을 갖는 벡터가 사용된다. HOA 차수 (4) 에 대해, 부록 F.6 의 테이블로부터 도출된 바와 같이 32 개의 엔트리들을 갖는 벡터 코드북이 사용된다.
서브조항 12.4.1.10.2 에서 다음을:
Figure 112018035074394-pct00047
Figure 112018035074394-pct00048
다음으로 대체한다:
Figure 112018035074394-pct00049
서브조항 12.4.1.10.5 에서, VVec 엘리먼트들의 컨버전은 다음을:
Figure 112018035074394-pct00050
다음으로 대체한다:
Figure 112018035074394-pct00051
Figure 112018035074394-pct00052
서브조항 12.4.1.10.5 에서, Vvec 엘리먼트들의 컨버전은 다음을:
Figure 112018035074394-pct00053
다음으로 대체한다:
Figure 112018035074394-pct00054
서브조항 12.4.1.10.6 터플 세트
Figure 112018035074394-pct00055
전에 다음을 추가한다:
Figure 112018035074394-pct00056
Figure 112018035074394-pct00057
Figure 112018035074394-pct00058
구면 좌표들에서 분포된 포지션들을 부록 F. XXX 34 로서 추가
Figure 112018035074394-pct00059
Figure 112018035074394-pct00060
서브조항 12.4.2.4.4.2 에서, V-벡터들의 시공간적 보간은 다음을:
k 번째 프레임 동안 명시적으로 추가로 송신되고 페이드 인되는 주변 HOA 컴포넌트의 계수 시퀀스들이 존재하면 (이들의 인덱스들은 세트
Figure 112018035074394-pct00061
에 포함됨), HOA 표현
Figure 112018035074394-pct00062
의 각각의 계수 시퀀스들은 윈도우
Figure 112018035074394-pct00063
의 페이드-아웃 부분을 사용하여 페이드 아웃되어야 한다.
다음으로 대체한다:
k 번째 프레임 동안 명시적으로 추가로 송신되고 페이드 인되는 주변 HOA 컴포넌트의 계수 시퀀스들이 존재하면 (이들의 인덱스들은 세트
Figure 112018035074394-pct00064
에 포함됨), HOA 표현
Figure 112018035074394-pct00065
의 각각의 계수 시퀀스들은 윈도우
Figure 112018035074394-pct00066
의 페이드-아웃 부분을 사용하여 페이드 아웃되어야 한다.
Figure 112018035074394-pct00067
에서 각각의 v-벡터 엘리먼트들은 이들을 0 으로 설정함으로써 다음의 프레임 k+1 에서 시공간적 보간으로부터 폐기된다.
상기 기법들은 임의의 개수의 상이한 맥락들 및 오디오 에코시스템들에 대하여 수행될 수도 있다. 다수의 예시의 맥락들이 이하에서 설명되지만, 기법들은 이 예시의 맥락들에 제한되지 않아야 한다. 일 예의 오디오 에코시스템은 오디오 콘텐트, 영화 스튜디오들, 음악 스튜디오들, 게이밍 오디오 스튜디오들, 채널 기반 오디오 콘텐트, 코딩 엔진들, 게임 오디오 스템들, 게임 오디오 코딩/렌더링 엔진들, 및 전달 시스템들을 포함할 수도 있다.
영화 스튜디오들, 음악 스튜디오들, 및 게이밍 오디오 스튜디오들은 오디오 콘텐트를 수신할 수도 있다. 일부 예들에서, 오디오 콘텐트는 획득의 출력을 나타낼 수도 있다. 영화 스튜디오들은 채널 기반 오디오 콘텐트를 (예를 들어, 2.0, 5.1, 및 7.1 에서) 예컨대, 디지털 오디오 워크스테이션 (digital audio workstation; DAW) 을 사용함으로써 출력할 수도 있다. 음악 스튜디오들은 채널 기반 오디오 콘텐트를 (예를 들어, 2.0 및 5.1 에서) 예컨대, DAW 를 사용함으로써 출력할 수도 있다. 어느 경우에나, 코딩 엔진들은 전달 시스템들에 의한 출력을 위해 채널 기반 오디오 콘텐트 기반의 하나 이상의 코덱들 (예를 들어, AAC, AC3, 돌비 트루 HD, 돌비 디지털 플러스, 및 DTS 마스터 오디오) 을 수신 및 인코딩할 수도 있다. 게이밍 오디오 스튜디오들은 하나 이상의 게임 오디오 스템들을 예컨대 DAW 를 사용함으로써 출력할 수도 있다. 게임 오디오 코딩/렌더링 엔진들은 전달 시스템들에 의한 출력을 위해 오디오 스템들을 채널 기반 오디오 콘텐트로 코딩하고/하거나 렌더링할 수도 있다. 본 기법들이 수행될 수도 있는 다른 예시의 맥락은 브로드캐스트 레코딩 오디오 객체들, 전문 오디오 시스템들, 소비자 온-디바이스 캡처, HOA 오디오 포맷, 온-디바이스 렌더링, 소비자 오디오, TV 및 부속물들, 및 카 오디오 시스템들을 포함할 수도 있는 오디오 에코시스템을 포함한다.
브로드캐스트 레코딩 오디오 객체들, 전문 오디오 시스템들, 및 소비자 온-디바이스 캡처는 HOA 오디오 포맷을 사용하여 그 출력을 모두 코딩할 수도 있다. 이 방식으로, 오디오 콘텐트는 HOA 오디오 포맷을 사용하여, 온-디바이스 렌더링, 소비자 오디오, TV, 및 부속물들, 및 카 오디오 시스템들을 사용하여 재생될 수도 있는 단일 표현으로 코딩될 수도 있다. 다시 말하면, 오디오 콘텐트의 단일 표현은 오디오 재생 시스템 (16) 과 같은, (즉, 5.1, 7.1 과 같은 특정 구성을 요구하는 것과는 대조적으로) 일반적인 오디오 재생 시스템에서 재생될 수도 있다.
본 기법들이 수행될 수도 있는 맥락의 다른 예들은 획득 엘리먼트들, 및 재생 엘리먼트들을 포함할 수도 있는 오디오 에코시스템을 포함한다. 획득 엘리먼트들은 유선 및/또는 무선 획득 디바이스들 (예를 들어, 아이겐 (Eigen) 마이크로폰들), 온-디바이스 서라운드 사운드 캡처, 및 모바일 디바이스들 (예를 들어, 스마트폰들 및 태블릿들) 을 포함할 수도 있다. 일부 예들에서, 유선 및/또는 무선 획득 디바이스들은 유선 및/또는 무선 통신 채널(들)을 통해 모바일 디바이스에 커플링될 수도 있다.
본 개시물의 하나 이상의 기법들에 따르면, 모바일 디바이스는 사운드필드를 획득하는데 사용될 수도 있다. 예를 들어, 모바일 디바이스는 유선 및/또는 무선 획득 디바이스들 및/또는 온-디바이스 서라운드 사운드 캡처 (예를 들어, 모바일 디바이스에 통합된 복수의 마이크로폰들) 를 통해 사운드필드를 획득할 수도 있다. 모바일 디바이스는 그 후, 재생 엘리먼트들 중 하나 이상에 의한 재생을 위해 그 획득된 사운드필드를 HOA 계수들로 코딩할 수도 있다. 예를 들어, 모바일 디바이스의 사용자는 라이브 이벤트 (예를 들어, 미팅, 회의, 연극, 콘서트 등) 를 레코딩 (이것의 사운드필드를 획득) 하고, 그 레코딩을 HOA 계수들로 코딩할 수도 있다.
모바일 디바이스는 또한, 재생 엘리먼트들 중 하나 이상을 이용하여 HOA 코딩된 사운드필드를 재생할 수도 있다. 예를 들어, 모바일 디바이스는 HOA 코딩된 사운드필드를 디코딩하고, 재생 엘리먼트들 중 하나 이상으로 하여금 사운드필드를 재생성하게 하는 신호를 재생 엘리먼트들 중 하나 이상으로 출력할 수도 있다. 일 예로서, 모바일 디바이스는 유선 및/또는 무선 통신 채널을 이용하여 하나 이상의 스피커들 (예를 들어, 스피커 어레이들, 사운드 바들 등) 로 신호를 출력할 수도 있다. 다른 예로서, 모바일 디바이스는 도킹 솔루션들을 이용하여, 신호를 하나 이상의 도킹 스테이션들 및/또는 하나 이상의 도킹된 스피커들 (예를 들어, 스마트 카들 및/또는 홈들에서의 사운드 시스템들) 을 출력할 수도 있다. 다른 예로서, 모바일 디바이스는 헤드폰 렌더링을 이용하여, 예를 들어, 현실적인 바이노럴 사운드를 생성하기 위해 신호를 헤드폰들의 세트로 출력할 수도 있다.
일부 예들에서, 특정 모바일 디바이스는 3D 사운드필드를 획득할 뿐만 아니라 동일한 3D 사운드필드를 추후에 재생할 수도 있다. 일부 예들에서, 모바일 디바이스는 재생을 위해, 3D 사운드필드를 획득하고, 3D 사운드필드를 HOA 로 인코딩하며, 인코딩된 3D 사운드필드를 하나 이상의 다른 디바이스들 (예를 들어, 다른 모바일 디바이스들 및/또는 다른 비-모바일 디바이스들) 로 송신할 수도 있다.
본 기법들이 수행될 수도 있는 또 다른 맥락은 오디오 콘텐트, 게임 스튜디오들, 코딩된 오디오 콘텐트, 렌더링 엔진들, 및 전달 시스템들을 포함할 수도 있는 오디오 에코시스템을 포함한다. 일부 예들에서, 게임 스튜디오들은 HOA 신호들의 편집을 지원할 수도 있는 하나 이상의 DAW들을 포함할 수도 있다. 예를 들어, 하나 이상의 DAW들은, 하나 이상의 게임 오디오 시스템들과 동작 (예를 들어, 이들과 작업) 하도록 구성될 수도 있는 툴들 및/또는 HOA 플러그인들을 포함할 수도 있다. 일부 예들에서, 게임 스튜디오들은 HOA 를 지원하는 새로운 스템 포맷들을 출력할 수도 있다. 임의의 경우에서, 게임 스튜디오들은 전달 시스템들에 의한 재생을 위해, 코딩된 오디오 콘텐트를, 사운드필드를 렌더링할 수도 있는 렌더링 엔진들로 출력할 수도 있다.
본 기법들은 또한, 예시적인 오디오 획득 디바이스들에 대하여 수행될 수도 있다. 예를 들어, 이 기법들은, 3D 사운드필드를 레코딩하도록 집합적으로 구성되는 복수의 마이크로폰들을 포함할 수도 있는 아이겐 마이크로폰에 대하여 수행될 수도 있다. 일부 예들에서, 아이겐 마이크로폰의 복수의 마이크로폰들은 대략 4cm 의 반경을 갖는 실질적으로 구형인 볼의 표면에 위치될 수도 있다. 일부 예들에서, 오디오 인코딩 디바이스 (20) 는, 마이크로폰으로부터 직접 비트스트림 (21) 을 출력하도록 아이겐 마이크로폰에 통합될 수도 있다.
다른 예시적인 오디오 획득 맥락은 하나 이상의 마이크로폰들, 예컨대 하나 이상의 아이겐 마이크로폰들로부터 신호를 수신하도록 구성될 수도 있는 프로덕션 트럭을 포함할 수도 있다. 프로덕션 트럭은 또한, 오디오 인코더, 예컨대 도 3 의 오디오 인코더 (20) 를 포함할 수도 있다.
모바일 디바이스는 또한, 일부 경우들에서, 3D 사운드필드를 레코딩하도록 집합적으로 구성되는 복수의 마이크로폰들을 포함할 수도 있다. 다시 말하면, 복수의 마이크로폰은 X, Y, Z 다이버시티를 가질 수도 있다. 일부 예들에서, 모바일 디바이스는 모바일 디바이스의 하나 이상의 다른 마이크로폰들에 대하여 X, Y, Z 다이버시티를 제공하도록 회전될 수도 있는 마이크로폰을 포함할 수도 있다. 모바일 디바이스는 또한, 오디오 인코더, 예컨대 도 3 의 오디오 인코더 (20) 를 포함할 수도 있다.
러기다이즈드 (ruggedized) 비디오 캡처 디바이스는 또한, 3D 사운드필드를 레코딩하도록 구성될 수도 있다. 일부 예들에서, 러기다이즈드 비디오 캡처 디바이스는 활동에 참여된 사용자의 헬멧에 부착될 수도 있다. 예를 들어, 러기다이즈드 비디오 캡처 디바이스는 사용자 급류 래프팅의 헬멧에 부착될 수도 있다. 이 방식에서, 러기다이즈드 비디오 캡처 디바이스는 사용자 주변의 모든 액션 (예를 들어, 사용자 뒤에서 부서지는 물, 사용자의 전방에서 말하고 있는 다른 래프터, 등) 을 나타내는 3D 사운드필드를 캡처할 수도 있다.
본 기법들은 또한, 3D 사운드필드를 레코딩하도록 구성될 수도 있는 부속물 강화된 (accessory enhanced) 모바일 디바이스에 대하여 수행될 수도 있다. 일부 예들에서, 모바일 디바이스는 하나 이상의 부속물들의 추가로, 위에서 논의된 모바일 디바이스들과 유사할 수도 있다. 예를 들어, 아이겐 마이크로폰은 부속물 강화된 모바일 디바이스를 형성하기 위해 위에서 언급된 모바일 디바이스에 부착될 수도 있다. 이 방식에서, 부속물 강화된 모바일 디바이스는, 단지 부속물 강화된 모바일 디바이스에 통합된 사운드 캡처 컴포넌트들을 사용하는 것보다 더 높은 품질 버전의 3D 사운드필드를 캡처할 수도 있다.
본 개시물에 설명된 기법들의 다양한 양태들을 수행할 수도 있는 예시의 오디오 재생 디바이스들이 이하에서 추가로 논의된다. 본 개시물의 하나 이상의 기법들에 따르면, 스피커들 및/또는 사운드 바들은 어떤 임의의 구성으로 배열될 수도 있으면서 여전히 3D 사운드필드를 재생할 수도 있다. 더욱이, 일부 예들에서, 헤드폰 재생 디바이스들은 유선이나 무선 접속을 통해 디코더 (24) 에 커플링될 수도 있다. 본 개시물의 하나 이상의 기법들에 따르면, 사운드필드의 단일의 일반적인 표현은 스피커들, 사운드 바들, 및 헤드폰 재생 디바이스들의 임의의 조합 상에 사운드필드를 렌더링하도록 이용될 수도 있다.
다수의 상이한 예시의 오디오 재생 환경들은 또한, 본 개시물에 설명된 기법들의 다양한 양태들을 수행하기에 적합할 수도 있다. 예를 들어, 5.1 스피커 재생 환경, 2.0 (예를 들어, 스테레오) 스피커 재생 환경, 풀 높이 전방 라우드스피커들을 갖는 9.1 스피커 재생 환경, 22.2 스피커 재생 환경, 16.0 스피커 재생 환경, 자동차 스피커 재생 환경, 및 이어 버드 재생 환경을 갖는 모바일 디바이스 가 본 개시물에 설명된 기법들의 다양한 양태들을 수행하는데 적합한 환경들일 수도 있다.
본 개시물의 하나 이상의 기법들에 따르면, 사운드필드의 단일의 일반적인 표현이 상기의 재생 환경들 중 임의의 환경 상에서 사운드필드를 렌더링하도록 이용될 수도 있다. 부가적으로, 본 개시물의 기법들은 위에서 설명된 것과는 다른 재생 환경들 상에서의 재생을 위해 렌더러가 일반적인 표현으로부터 사운드필드를 렌더링할 수 있게 한다. 예를 들어, 설계 고려사항들이 7.1 스피커 재생 환경에 따른 스피커들의 적합한 배치를 방해하면 (예를 들어, 우측 서라운드 스피커를 배치하는 것이 가능하지 않으면), 본 개시물의 기법들은 재생이 6.1 스피커 재생 환경 상에서 달성될 수 있도록 렌더가 다른 6 개의 스피커들을 보상할 수 있게 한다.
더욱이, 사용자는 헤드폰들을 착용한 상태에서 스포츠 게임을 볼 수도 있다. 본 개시물의 하나 이상의 기법들에 따르면, 스포츠 게임의 3D 사운드필드가 획득될 수 있으며 (예를 들어, 하나 이상의 아이겐 마이크로폰들이 야구 경기장 내 및/또는 주변에 배치될 수도 있으며), 3D 사운드필드에 대응하는 HOA 계수들이 획득되어 디코더로 송신될 수도 있으며, 디코더가 HOA 계수들에 기초하여 3D 사운드필드를 복원하여 복원된 3D 사운드필드를 렌더러로 출력할 수도 있으며, 렌더러가 재생 환경의 유형 (예컨대, 헤드폰들) 에 관한 표시를 획득하여 복원된 3D 사운드필드를, 헤드폰들이 스포츠 게임의 3D 사운드필드의 표현을 출력할 수 있게 하는 신호들로 렌더링할 수도 있다.
전술된 다양한 경우들 각각에서, 오디오 인코딩 디바이스 (20) 는 오디오 인코딩 디바이스 (20) 가 수행하는 것으로서 설명되는 방법을 수행하거나 다르게는 이 방법의 각 단계를 수행하기 위한 수단을 포함할 수도 있다는 것이 이해되어야 한다. 일부 경우들에서, 이 수단은 하나 이상의 프로세서들을 포함할 수도 있다. 일부 경우들에서, 하나 이상의 프로세서들은 비일시적 컴퓨터 판독가능 저장 매체에 저장된 명령들의 방식에 의해 구성된 특수 목적의 프로세서를 나타낼 수도 있다. 다시 말하면, 인코딩 예들의 세트들 각각에서 본 기법들의 다양한 양태들은, 실행되는 경우, 하나 이상의 프로세서들로 하여금 오디오 인코딩 디바이스 (20) 가 수행하도록 구성된 방법을 수행하게 하는 명령들이 저장되어 있는 비일시적 컴퓨터 판독가능 저장 매체를 제공할 수 있다.
하나 이상의 예들에서, 설명된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 그 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현되는 경우, 이 기능들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독가능 매체 상에 저장되거나 이를 통해 송신될 수도 있고, 하드웨어 기반 프로세싱 유닛에 의해 실행될 수도 있다. 컴퓨터 판독가능 매체는, 데이터 저장 매체와 같은 유형의 매체에 대응하는, 컴퓨터 판독가능 저장 매체를 포함할 수도 있다. 데이터 저장 매체는 본 개시물에 설명된 기법들의 구현을 위한 명령들, 코드 및/또는 데이터 구조들을 취출하기 위해 하나 이상의 컴퓨터들 또는 하나 이상의 프로세서들에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수도 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독가능 매체를 포함할 수도 있다.
유사하게, 전술된 다양한 경우들 각각에서, 오디오 디코딩 디바이스 (24) 는, 오디오 디코딩 디바이스 (24) 가 수행하도록 구성되는 방법을 수행하거나 다르게는 이 방법의 각 단계를 수행하기 위한 수단을 포함할 수도 있다는 것이 이해되어야 한다. 일부 경우들에서, 수단은 하나 이상의 프로세서들을 포함할 수도 있다. 일부 경우들에서, 하나 이상의 프로세서들은 비일시적 컴퓨터 판독가능 저장 매체에 저장된 명령들의 방식으로 구성된 특수 목적의 프로세서를 나타낼 수도 있다. 다시 말하면, 인코딩 예들의 세트들 각각에서 본 기법들의 다양한 양태들은, 실행되는 경우, 하나 이상의 프로세서들로 하여금 오디오 디코딩 디바이스 (24) 가 수행하도록 구성된 방법을 수행하게 하는 명령들이 저장되어 있는 비일시적 컴퓨터 판독가능 저장 매체를 제공할 수도 있다.
비제한적인 예로서, 이러한 컴퓨터 판독가능 저장 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 저장 디바이스, 자기 디스크 저장 디바이스, 또는 다른 자기 저장 디바이스들, 플래시 메모리, 또는 원하는 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 저장하는데 사용될 수 있으며 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 그러나, 컴퓨터 판독가능 저장 매체 및 데이터 저장 매체는 접속들, 반송파들, 신호들, 또는 다른 일시적 매체들을 포함하지 않고, 대신에 비일시적인, 유형의 저장 매체에 관한 것으로 이해되어야 한다. 본원에서 사용된 디스크 (disk) 와 디스크 (disc) 는, 컴팩트 디스크 (CD), 레이저 디스크, 광학 디스크, 디지털 다기능 디스크 (DVD), 플로피 디스크, 및 블루레이 디스크를 포함하며, 여기서 디스크 (disk) 들은 통상 자기적으로 데이터를 재생하는 반면, 디스크 (disc) 들은 레이저들을 이용하여 광학적으로 데이터를 재생한다. 상기의 조합들이 또한, 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.
명령들은, 하나 이상의 디지털 신호 프로세서 (DSP)들, 범용 마이크로프로세서들, 주문형 집적 회로 (ASIC)들, 필드 프로그램가능 로직 어레이 (FPGA)들, 또는 다른 등가의 집적 또는 이산 로직 회로부와 같은, 하나 이상의 프로세서들에 의해 실행될 수도 있다. 따라서, 본원에서 사용되는 바와 같은 용어 "프로세서" 는 상기의 구조 또는 본원에 설명된 기법들의 구현에 적합한 임의의 다른 구조 중 임의의 것을 지칭할 수도 있다. 또한, 일부 양태들에서, 본원에 설명된 기능성은 인코딩 및 디코딩을 위해 구성된 전용 하드웨어 및/또는 소프트웨어 모듈들 내에 제공될 수도 있고, 또는 결합형 코덱에 통합될 수도 있다. 또한, 본 기법들은 하나 이상의 회로들 또는 로직 엘리먼트들에서 완전히 구현될 수 있다.
본 개시물의 기법들은 무선 핸드셋, 집적 회로 (IC), 또는 IC 들의 세트 (예를 들어, 칩 세트) 를 포함하는 광범위한 디바이스들 또는 장치들로 구현될 수도 있다. 개시된 기법들을 수행하도록 구성된 디바이스들의 기능적 양태를 강조하기 위해 다양한 컴포넌트들, 모듈들, 또는 유닛들이 본 개시물에서 설명되었지만, 반드시 상이한 하드웨어 유닛들에 의해 실현될 필요는 없다. 차라리, 전술된 바와 같이 다양한 유닛들은 적합한 소프트웨어 및/또는 펌웨어와 관련되어, 전술된 하나 이상의 프로세서들을 포함하는, 상호 동작적인 하드웨어 유닛들의 집합에 의해 제공되고 또는 코덱 하드웨어 유닛에 결합될 수도 있다.
본 기법들의 다양한 양태들이 설명되었다. 본 기법들의 이들 및 다른 양태들이 다음의 청구범위 내에 있다.

Claims (51)

  1. 고차 앰비소닉 (HOA) 오디오 데이터를 나타내는 비트스트림을 디코딩하도록 구성된 디바이스로서,
    주변 HOA 계수가, 포어그라운드 오디오 신호가 트랜지션 중일 때 상기 비트스트림의 동일한 제 1 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하며;
    상기 멀티-트랜지션 표시에 기초하여 대응하는 포어그라운드 오디오 신호의 공간적 특징을 기술하는 벡터를 획득하는 것으로서, 상기 벡터는 구면 고조파 도메인에서 정의된, 상기 벡터를 획득하고;
    상기 벡터에 기초하여, 하나 이상의 스피커 피드들을 렌더링하며;
    상기 하나 이상의 스피커 피드들을 하나 이상의 스피커들로 출력하도록 구성된
    하나 이상의 프로세서들; 및
    상기 하나 이상의 프로세서들에 커플링되고, 상기 벡터를 저장하도록 구성된 메모리를 포함하는, 비트스트림을 디코딩하도록 구성된 디바이스.
  2. 제 1 항에 있어서,
    상기 하나 이상의 프로세서들은 또한, 상기 비트스트림의 상기 제 1 프레임 동안 트랜지션 중인 주변 HOA 계수들의 수의 백그라운드 표시를 획득하도록 구성되고,
    상기 하나 이상의 프로세서들은 상기 백그라운드 표시에 기초하여 상기 멀티-트랜지션 표시를 획득하도록 구성되는, 비트스트림을 디코딩하도록 구성된 디바이스.
  3. 제 2 항에 있어서,
    상기 하나 이상의 프로세서들은, 상기 주변 HOA 계수들 중 하나에 대하여 트랜지션이 발생했다는 것을 나타내는 표시에 응답하여 상기 백그라운드 표시를 획득하도록 구성되는, 비트스트림을 디코딩하도록 구성된 디바이스.
  4. 제 2 항에 있어서,
    상기 하나 이상의 프로세서들은, 상기 주변 HOA 계수들 중 어느 것이 상기 비트스트림의 상기 제 1 프레임 동안 트랜지션 중인지를 나타내는 표시를 획득하도록 구성되는, 비트스트림을 디코딩하도록 구성된 디바이스.
  5. 제 1 항에 있어서,
    상기 하나 이상의 프로세서들은 또한, 포어그라운드 오디오 신호가 상기 비트스트림의 상기 제 1 프레임 동안 트랜지션 중인지 여부의 포어그라운드 표시를 획득하도록 구성되고,
    상기 하나 이상의 프로세서들은 상기 포어그라운드 표시에 기초하여 상기 멀티-트랜지션 표시를 획득하도록 구성되는, 비트스트림을 디코딩하도록 구성된 디바이스.
  6. 제 1 항에 있어서,
    상기 멀티-트랜지션 표시는, 상기 주변 HOA 계수가, 상기 포어그라운드 오디오 신호가 페이드-인될 때 상기 비트스트림의 상기 동일한 제 1 프레임 동안 페이드-인되는지 여부를 나타내는, 비트스트림을 디코딩하도록 구성된 디바이스.
  7. 제 1 항에 있어서,
    상기 멀티-트랜지션 표시는, 상기 주변 HOA 계수가, 상기 포어그라운드 오디오 신호가 페이드-아웃될 때 상기 비트스트림의 상기 동일한 제 1 프레임 동안 페이드-아웃되는지 여부를 나타내는, 비트스트림을 디코딩하도록 구성된 디바이스.
  8. 제 1 항에 있어서,
    상기 비트스트림을 디코딩하도록 구성된 디바이스는 하나 이상의 통합된 스피커들로서 상기 하나 이상의 스피커들을 포함하는 텔레비전을 포함하는, 비트스트림을 디코딩하도록 구성된 디바이스.
  9. 제 1 항에 있어서,
    상기 비트스트림을 디코딩하도록 구성된 디바이스는 상기 하나 이상의 스피커들에 커플링된 수신기를 포함하는, 비트스트림을 디코딩하도록 구성된 디바이스.
  10. 고차 앰비소닉 (HOA) 오디오 데이터를 나타내는 비트스트림을 디코딩하는 방법으로서,
    하나 이상의 프로세서들에 의해, 주변 HOA 계수가, 포어그라운드 오디오 신호가 트랜지션 중일 때 상기 비트스트림의 동일한 제 1 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하는 단계; 및
    상기 하나 이상의 프로세서들에 의해, 상기 멀티-트랜지션 표시에 기초하여 대응하는 포어그라운드 오디오 신호의 공간적 특징을 기술하는 벡터를 획득하는 단계로서, 상기 벡터는 구면 고조파 도메인에서 정의된, 상기 벡터를 획득하는 단계;
    상기 하나 이상의 프로세서들에 의해 그리고 상기 벡터에 기초하여, 하나 이상의 스피커 피드들을 렌더링하는 단계; 및
    상기 하나 이상의 프로세서들에 의해, 상기 하나 이상의 스피커 피드들을 하나 이상의 스피커들로 출력하는 단계를 포함하는, 비트스트림을 디코딩하는 방법.
  11. 제 10 항에 있어서,
    상기 비트스트림의 상기 제 1 프레임 동안 트랜지션 중인 주변 HOA 계수들의 수의 백그라운드 표시를 획득하는 단계; 및
    상기 비트스트림의 상기 제 1 프레임 동안 포어그라운드 오디오 신호가 트랜지션 중인지 여부의 포어그라운드 표시를 획득하는 단계를 더 포함하고,
    상기 멀티-트랜지션 표시를 획득하는 단계는, 상기 포어그라운드 표시 및 상기 백그라운드 표시에 기초하여 상기 멀티-트랜지션 표시를 획득하는 단계를 포함하는, 비트스트림을 디코딩하는 방법.
  12. 제 11 항에 있어서,
    상기 백그라운드 표시를 획득하는 단계는, 상기 주변 HOA 계수들 중 하나에 대하여 트랜지션이 발생했다는 것을 나타내는 표시에 응답하여 상기 백그라운드 표시를 획득하는 단계를 포함하는, 비트스트림을 디코딩하는 방법.
  13. 제 11 항에 있어서,
    상기 주변 HOA 계수들 중 어느 것이 상기 비트스트림의 상기 제 1 프레임 동안 트랜지션 중인지를 나타내는 표시를 획득하는 단계를 더 포함하는, 비트스트림을 디코딩하는 방법.
  14. 제 11 항에 있어서,
    상기 포어그라운드 표시를 획득하는 단계는, 상기 포어그라운드 오디오 신호에 대응하는 상기 벡터의 코딩 모드가 상기 벡터가 감소된 벡터라는 것을 나타내는 경우, 상기 비트스트림의 상이한 프레임의 이송 채널에 대한 유형의 표시에 기초하여 상기 포어그라운드 표시를 획득하는 단계를 포함하는, 비트스트림을 디코딩하는 방법.
  15. 제 11 항에 있어서,
    상기 비트스트림의 상기 제 1 프레임으로부터, 상기 제 1 프레임이 상기 비트스트림의 상이한 프레임을 참조하지 않고 상기 제 1 프레임을 디코딩되게 하는 독립 프레임인지 여부의 독립 프레임 표시를 획득하는 단계를 더 포함하는, 비트스트림을 디코딩하는 방법.
  16. 제 15 항에 있어서,
    상기 포어그라운드 표시를 획득하는 단계는, 상기 비트스트림으로부터, 상기 제 1 프레임이 독립 프레임이라는 것을 나타내는 상기 독립 프레임 표시에 응답하여 상기 포어그라운드 표시를 획득하는 단계를 포함하는, 비트스트림을 디코딩하는 방법.
  17. 제 15 항에 있어서,
    상기 제 1 프레임이 독립 프레임이 아니라는 것을 나타내는 상기 독립 프레임 표시에 응답하여, 상기 상이한 프레임의 이송 채널에 대한 유형의 표시를 획득하는 단계를 더 포함하는, 비트스트림을 디코딩하는 방법.
  18. 제 17 항에 있어서,
    상기 포어그라운드 표시를 획득하는 단계는, 상기 상이한 프레임의 이송 채널에 대한 유형의 상기 표시에 기초하여 상기 상이한 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 상기 제 1 프레임의 이송 채널에 대한 상기 포어그라운드 표시를 획득하는 단계를 포함하는, 비트스트림을 디코딩하는 방법.
  19. 제 17 항에 있어서,
    상기 포어그라운드 표시를 획득하는 단계는, 상기 포어그라운드 오디오 신호에 대응하는 벡터의 코딩 모드가 상기 벡터가 감소된 벡터라는 것을 나타내는 경우, 상기 상이한 프레임의 이송 채널에 대한 유형의 상기 표시에 기초하여 상기 상이한 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 상기 제 1 프레임의 이송 채널에 대한 상기 포어그라운드 표시를 획득하는 단계를 포함하는, 비트스트림을 디코딩하는 방법.
  20. 제 17 항에 있어서,
    상기 독립 프레임 표시를 획득하는 단계는, 상기 포어그라운드 오디오 신호에 대응하는 상기 벡터의 코딩 모드가 상기 벡터가 감소된 벡터라는 것을 나타내는 경우, 상기 상이한 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 상기 제 1 프레임의 이송 채널에 대한 상기 독립 프레임 표시를 획득하는 단계를 포함하는, 비트스트림을 디코딩하는 방법.
  21. 제 10 항에 있어서,
    상기 비트스트림을 디코딩하는 방법은 상기 하나 이상의 스피커들에 커플링된 디바이스에 의해 수행되는, 비트스트림을 디코딩하는 방법.
  22. 제 21 항에 있어서,
    상기 디바이스는 텔레비전을 포함하고,
    상기 하나 이상의 스피커들은 상기 텔레비전 내에 통합된 하나 이상의 스피커들을 포함하는, 비트스트림을 디코딩하는 방법.
  23. 제 21 항에 있어서,
    상기 디바이스는 수신기를 포함하는, 비트스트림을 디코딩하는 방법.
  24. 명령들이 저장되어 있는 비일시적 컴퓨터 판독가능 저장 매체로서,
    상기 명령들은, 실행되는 경우, 하나 이상의 프로세서들로 하여금,
    주변 HOA 계수가, 포어그라운드 오디오 신호가 트랜지션 중일 때 비트스트림의 동일한 제 1 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하게 하며;
    상기 멀티-트랜지션 표시에 기초하여 대응하는 포어그라운드 오디오 신호의 공간적 특징을 기술하는 벡터를 획득하게 하는 것으로서, 상기 벡터는 구면 고조파 도메인에서 정의된, 상기 벡터를 획득하게 하고;
    상기 벡터에 기초하여, 하나 이상의 스피커 피드들을 렌더링하게 하며;
    상기 하나 이상의 스피커 피드들을 하나 이상의 스피커들로 출력하게 하는, 비일시적 컴퓨터 판독가능 저장 매체.
  25. 고차 앰비소닉 (HOA) 오디오 데이터를 나타내는 비트스트림을 디코딩하기 위한 디바이스로서,
    주변 HOA 계수가, 포어그라운드 오디오 신호가 트랜지션 중일 때 상기 비트스트림의 동일한 제 1 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하기 위한 수단; 및
    상기 멀티-트랜지션 표시에 기초하여 대응하는 포어그라운드 오디오 신호의 공간적 특징을 기술하는 벡터를 획득하기 위한 수단으로서, 상기 벡터는 구면 고조파 도메인에서 정의된, 상기 벡터를 획득하기 위한 수단;
    상기 벡터에 기초하여, 하나 이상의 스피커 피드들을 렌더링하기 위한 수단; 및
    상기 하나 이상의 스피커 피드들을 하나 이상의 스피커들로 출력하기 위한 수단을 포함하는, 비트스트림을 디코딩하기 위한 디바이스.
  26. 고차 앰비소닉 (HOA) 오디오 데이터를 나타내는 비트스트림을 인코딩하도록 구성된 디바이스로서,
    마이크로폰에 의해 캡처된 오디오 신호들에 기초하여, 상기 HOA 오디오 데이터를 획득하고;
    상기 HOA 오디오 데이터의 적어도 부분을 분해하여 포어그라운드 오디오 신호 및 상기 포어그라운드 오디오 신호의 공간적 컴포넌트를 나타내는 벡터를 획득하는 것으로서, 상기 벡터는 구면 고조파 도메인에서 정의된, 상기 포어그라운드 오디오 신호 및 상기 포어그라운드 오디오 신호의 공간적 컴포넌트를 나타내는 벡터를 획득하고;
    주변 HOA 계수가, 상기 포어그라운드 오디오 신호가 트랜지션 중일 때 상기 비트스트림의 동일한 제 1 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하고;
    상기 멀티-트랜지션 표시에 기초하여 상기 벡터의 엘리먼트들을 획득하며;
    상기 비트스트림에서, 상기 벡터의 획득된 상기 엘리먼트들을 지정하도록 구성된
    하나 이상의 프로세서들; 및
    상기 하나 이상의 프로세서들에 커플링되고, 상기 벡터를 저장하도록 구성된 메모리를 포함하는, 비트스트림을 인코딩하도록 구성된 디바이스.
  27. 제 26 항에 있어서,
    상기 하나 이상의 프로세서들은 또한, 주변 HOA 계수들 중 하나에 대하여 트랜지션이 발생했다는 것을 나타내는 표시에 응답하여 상기 비트스트림의 상기 제 1 프레임 동안 트랜지션 중인 주변 HOA 계수들의 수의 백그라운드 표시를 획득하도록 구성되고,
    상기 하나 이상의 프로세서들은 상기 백그라운드 표시에 기초하여 상기 멀티-트랜지션 표시를 획득하도록 구성되는, 비트스트림을 인코딩하도록 구성된 디바이스.
  28. 제 26 항에 있어서,
    상기 하나 이상의 프로세서들은 또한, 상기 포어그라운드 오디오 신호에 대응하는 상기 벡터의 코딩 모드가 상기 벡터가 감소된 벡터라는 것을 나타내는 경우 및 상기 비트스트림의 상이한 프레임의 이송 채널에 대한 유형의 표시에 기초하여, 상기 비트스트림의 상기 제 1 프레임 동안 포어그라운드 오디오 신호가 트랜지션 중인지 여부의 포어그라운드 표시를 획득하도록 구성되고,
    상기 하나 이상의 프로세서들은 상기 포어그라운드 표시에 기초하여 상기 멀티-트랜지션 표시를 획득하도록 구성되는, 비트스트림을 인코딩하도록 구성된 디바이스.
  29. 제 26 항에 있어서,
    상기 멀티-트랜지션 표시는, 상기 주변 HOA 계수가, 상기 포어그라운드 오디오 신호가 페이드-인될 때 상기 비트스트림의 상기 동일한 제 1 프레임 동안 페이드-인되는지 여부를 나타내는, 비트스트림을 인코딩하도록 구성된 디바이스.
  30. 제 26 항에 있어서,
    상기 멀티-트랜지션 표시는, 상기 주변 HOA 계수가, 상기 포어그라운드 오디오 신호가 페이드-아웃될 때 상기 비트스트림의 상기 동일한 제 1 프레임 동안 페이드-아웃되는지 여부를 나타내는, 비트스트림을 인코딩하도록 구성된 디바이스.
  31. 제 26 항에 있어서,
    상기 오디오 신호들을 캡처하도록 구성된 상기 마이크로폰을 더 포함하는, 비트스트림을 인코딩하도록 구성된 디바이스.
  32. 고차 앰비소닉 (HOA) 오디오 데이터를 나타내는 비트스트림을 인코딩하는 방법으로서,
    하나 이상의 프로세서들에 의해 그리고 마이크로폰에 의해 캡처된 오디오 신호들에 기초하여, 상기 HOA 오디오 데이터를 획득하는 단계;
    상기 하나 이상의 프로세서들에 의해, 상기 HOA 오디오 데이터의 적어도 부분을 분해하여 포어그라운드 오디오 신호 및 상기 포어그라운드 오디오 신호의 공간적 컴포넌트를 나타내는 벡터를 획득하는 단계로서, 상기 벡터는 구면 고조파 도메인에서 정의된, 상기 포어그라운드 오디오 신호 및 상기 포어그라운드 오디오 신호의 공간적 컴포넌트를 나타내는 벡터를 획득하는 단계;
    상기 하나 이상의 프로세서들에 의해, 주변 HOA 계수가, 상기 포어그라운드 오디오 신호가 트랜지션 중일 때 상기 비트스트림의 동일한 제 1 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하는 단계;
    상기 하나 이상의 프로세서들에 의해, 상기 멀티-트랜지션 표시에 기초하여 상기 벡터의 엘리먼트들을 획득하는 단계; 및
    상기 하나 이상의 프로세서들에 의해 그리고 상기 비트스트림에서, 상기 벡터의 획득된 상기 엘리먼트들을 지정하는 단계를 포함하는, 비트스트림을 인코딩하는 방법.
  33. 제 32 항에 있어서,
    주변 HOA 계수들 중 하나에 대하여 트랜지션이 발생했다는 것을 나타내는 표시에 응답하여 상기 비트스트림의 상기 제 1 프레임 동안 트랜지션 중인 주변 HOA 계수들의 수의 백그라운드 표시를 획득하는 단계,
    상기 비트스트림에서, 상기 포어그라운드 오디오 신호에 대응하는 상기 벡터의 코딩 모드가 상기 벡터가 감소된 벡터라는 것을 나타내는 경우, 및 상기 비트스트림의 상이한 프레임의 이송 채널에 대한 유형의 표시에 기초하여, 상기 비트스트림의 상기 제 1 프레임 동안 포어그라운드 오디오 신호가 트랜지션 중인지 여부의 포어그라운드 표시를 획득하는 단계를 더 포함하고,
    상기 멀티-트랜지션 표시를 획득하는 단계는, 상기 포어그라운드 표시 및 상기 백그라운드 표시에 기초하여 상기 멀티-트랜지션 표시를 획득하는 단계를 포함하는, 비트스트림을 인코딩하는 방법.
  34. 제 33 항에 있어서,
    상기 포어그라운드 표시를 획득하는 단계는, 상기 비트스트림에서 그리고 상기 포어그라운드 오디오 신호에 대응하는 상기 벡터의 코딩 모드가 상기 벡터가 감소된 벡터라는 것을 나타내는 경우, 상기 포어그라운드 표시를 획득하는 단계를 포함하는, 비트스트림을 인코딩하는 방법.
  35. 제 33 항에 있어서,
    상기 비트스트림의 상기 제 1 프레임에서, 상기 제 1 프레임이 상기 비트스트림의 상이한 프레임을 참조하지 않고 상기 제 1 프레임을 디코딩되게 하는 독립 프레임인지 여부의 독립 프레임 표시를 획득하는 단계를 더 포함하는, 비트스트림을 인코딩하는 방법.
  36. 제 35 항에 있어서,
    상기 포어그라운드 표시를 획득하는 단계는, 상기 비트스트림으로부터, 상기 제 1 프레임이 독립 프레임이라는 것을 나타내는 상기 독립 프레임 표시에 응답하여 상기 포어그라운드 표시를 획득하는 단계를 포함하는, 비트스트림을 인코딩하는 방법.
  37. 제 35 항에 있어서,
    상기 제 1 프레임이 독립 프레임이 아니라는 것을 나타내는 상기 독립 프레임 표시에 응답하여, 상기 상이한 프레임의 이송 채널에 대한 유형의 표시를 획득하는 단계를 더 포함하는, 비트스트림을 인코딩하는 방법.
  38. 제 35 항에 있어서,
    상기 포어그라운드 표시를 획득하는 단계는, 상기 상이한 프레임의 이송 채널에 대한 유형의 상기 표시에 기초하여 상기 상이한 프레임의 동일한 이송 채널이 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 상기 제 1 프레임의 이송 채널에 대한 상기 포어그라운드 표시를 획득하는 단계를 포함하는, 비트스트림을 인코딩하는 방법.
  39. 제 38 항에 있어서,
    상기 포어그라운드 표시를 획득하는 단계는, 상기 포어그라운드 오디오 신호에 대응하는 상기 벡터의 코딩 모드가 상기 벡터가 감소된 벡터라는 것을 나타내는 경우, 상기 상이한 프레임의 이송 채널에 대한 유형의 상기 표시에 기초하여 상기 상이한 프레임의 동일한 이송 채널이 상기 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 상기 제 1 프레임의 이송 채널에 대한 상기 포어그라운드 표시를 획득하는 단계를 포함하는, 비트스트림을 인코딩하는 방법.
  40. 제 38 항에 있어서,
    상기 독립 프레임 표시를 획득하는 단계는, 상기 포어그라운드 오디오 신호에 대응하는 상기 벡터의 코딩 모드가 상기 벡터가 감소된 벡터라는 것을 나타내는 경우, 상기 상이한 프레임의 동일한 이송 채널이 상기 벡터-기반의 오디오 신호를 포함했는지 여부를 나타내는 상기 제 1 프레임의 이송 채널에 대한 상기 독립 프레임 표시를 획득하는 단계를 포함하는, 비트스트림을 인코딩하는 방법.
  41. 제 32 항에 있어서,
    상기 하나 이상의 프로세서들은 상기 마이크로폰에 커플링되고,
    상기 비트스트림을 인코딩하는 방법은, 상기 마이크로폰으로, 상기 오디오 신호들을 캡처하는 단계를 더 포함하는, 비트스트림을 인코딩하는 방법.
  42. 명령들이 저장되어 있는 비일시적 컴퓨터 판독가능 저장 매체로서,
    상기 명령들은, 실행되는 경우, 하나 이상의 프로세서들로 하여금,
    마이크로폰에 의해 캡처된 오디오 신호들에 기초하여, HOA 오디오 데이터를 획득하게 하고;
    상기 HOA 오디오 데이터의 적어도 부분을 분해하여 포어그라운드 오디오 신호 및 상기 포어그라운드 오디오 신호의 공간적 컴포넌트를 나타내는 벡터를 획득하게 하는 것으로서, 상기 벡터는 구면 고조파 도메인에서 정의된, 상기 포어그라운드 오디오 신호 및 상기 포어그라운드 오디오 신호의 공간적 컴포넌트를 나타내는 벡터를 획득하게 하고;
    주변 HOA 계수가, 상기 포어그라운드 오디오 신호가 트랜지션 중일 때 비트스트림의 동일한 제 1 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하게 하고;
    상기 멀티-트랜지션 표시에 기초하여 상기 벡터의 엘리먼트들을 획득하게 하며;
    상기 비트스트림에서, 상기 벡터의 획득된 상기 엘리먼트들을 지정하게 하는, 비일시적 컴퓨터 판독가능 저장 매체.
  43. 고차 앰비소닉 (HOA) 오디오 데이터를 나타내는 비트스트림을 인코딩하기 위한 디바이스로서,
    마이크로폰에 의해 캡처된 오디오 신호들에 기초하여, 상기 HOA 오디오 데이터를 획득하기 위한 수단;
    상기 HOA 오디오 데이터의 적어도 부분을 분해하여 포어그라운드 오디오 신호 및 상기 포어그라운드 오디오 신호의 공간적 컴포넌트를 나타내는 벡터를 획득하기 위한 수단으로서, 상기 벡터는 구면 고조파 도메인에서 정의된, 상기 포어그라운드 오디오 신호 및 상기 포어그라운드 오디오 신호의 공간적 컴포넌트를 나타내는 벡터를 획득하기 위한 수단;
    주변 HOA 계수가, 상기 포어그라운드 오디오 신호가 트랜지션 중일 때 상기 비트스트림의 동일한 제 1 프레임 동안 트랜지션 중인지 여부의 멀티-트랜지션 표시를 획득하기 위한 수단;
    상기 멀티-트랜지션 표시에 기초하여 상기 벡터의 엘리먼트들을 획득하기 위한 수단; 및
    상기 비트스트림에서, 상기 벡터의 획득된 상기 엘리먼트들을 지정하기 위한 수단을 포함하는, 비트스트림을 인코딩하기 위한 디바이스.
  44. 제 1 항에 있어서,
    상기 하나 이상의 프로세서들은, 상기 벡터에 기초하여, 상기 HOA 오디오 데이터를 복원하도록 구성되고,
    상기 하나 이상의 프로세서들은, 복원된 상기 HOA 오디오 데이터에 기초하여, 상기 하나 이상의 스피커 피드들을 렌더링하도록 구성되는, 비트스트림을 디코딩하도록 구성된 디바이스.
  45. 제 1 항에 있어서,
    상기 하나 이상의 프로세서들은, 상기 벡터에 기초하여, 하나 이상의 바이노럴 (binaural) 오디오 헤드폰 피드들을 렌더링하도록 구성되고,
    상기 하나 이상의 스피커들은 하나 이상의 헤드폰 스피커들을 포함하는, 비트스트림을 디코딩하도록 구성된 디바이스.
  46. 제 45 항에 있어서,
    상기 비트스트림을 디코딩하도록 구성된 디바이스는, 하나 이상의 통합된 헤드폰 스피커들로서 상기 하나 이상의 헤드폰 스피커들을 포함하는 헤드폰들을 포함하는, 비트스트림을 디코딩하도록 구성된 디바이스.
  47. 제 1 항에 있어서,
    상기 비트스트림을 디코딩하도록 구성된 디바이스는, 하나 이상의 통합된 스피커들로서 상기 하나 이상의 스피커들을 포함하는 자동차를 포함하는, 비트스트림을 디코딩하도록 구성된 디바이스.
  48. 제 1 항에 있어서,
    상기 하나 이상의 프로세서들은, 상기 벡터 및 상기 대응하는 포어그라운드 오디오 신호에 기초하여, 상기 하나 이상의 스피커 피드들을 렌더링하도록 구성되는, 비트스트림을 디코딩하도록 구성된 디바이스.
  49. 제 10 항에 있어서,
    상기 비트스트림을 디코딩하는 방법은, 상기 벡터에 기초하여, 상기 HOA 오디오 데이터를 복원하는 단계를 더 포함하고,
    상기 하나 이상의 스피커 피드들을 렌더링하는 단계는, 복원된 상기 HOA 오디오 데이터에 기초하여, 상기 하나 이상의 스피커 피드들을 렌더링하는 단계를 포함하는, 비트스트림을 디코딩하는 방법.
  50. 제 10 항에 있어서,
    상기 하나 이상의 스피커 피드들을 렌더링하는 단계는, 상기 벡터에 기초하여, 하나 이상의 바이노럴 오디오 헤드폰 피드들을 렌더링하는 단계를 포함하고,
    상기 하나 이상의 스피커들은 하나 이상의 헤드폰 스피커들을 포함하는, 비트스트림을 디코딩하는 방법.
  51. 제 10 항에 있어서,
    상기 하나 이상의 스피커 피드들을 렌더링하는 단계는, 상기 벡터 및 상기 대응하는 포어그라운드 오디오 신호에 기초하여, 상기 하나 이상의 스피커 피드들을 렌더링하는 단계를 포함하는, 비트스트림을 디코딩하는 방법.
KR1020187009995A 2015-10-14 2016-10-12 다중 트랜지션들 동안 고차 앰비소닉 계수들의 코딩 KR102077412B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562241665P 2015-10-14 2015-10-14
US62/241,665 2015-10-14
US15/290,229 2016-10-11
US15/290,229 US9959880B2 (en) 2015-10-14 2016-10-11 Coding higher-order ambisonic coefficients during multiple transitions
PCT/US2016/056625 WO2017066312A1 (en) 2015-10-14 2016-10-12 Coding higher-order ambisonic coefficients during multiple transitions

Publications (2)

Publication Number Publication Date
KR20180068974A KR20180068974A (ko) 2018-06-22
KR102077412B1 true KR102077412B1 (ko) 2020-02-13

Family

ID=57178550

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187009995A KR102077412B1 (ko) 2015-10-14 2016-10-12 다중 트랜지션들 동안 고차 앰비소닉 계수들의 코딩

Country Status (8)

Country Link
US (1) US9959880B2 (ko)
EP (1) EP3363213B1 (ko)
JP (1) JP6605725B2 (ko)
KR (1) KR102077412B1 (ko)
CN (1) CN108141690B (ko)
BR (1) BR112018007574A2 (ko)
CA (1) CA2999289C (ko)
WO (1) WO2017066312A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9959880B2 (en) * 2015-10-14 2018-05-01 Qualcomm Incorporated Coding higher-order ambisonic coefficients during multiple transitions
WO2019197404A1 (en) 2018-04-11 2019-10-17 Dolby International Ab Methods, apparatus and systems for 6dof audio rendering and data representations and bitstream structures for 6dof audio rendering
GB2582748A (en) * 2019-03-27 2020-10-07 Nokia Technologies Oy Sound field related rendering
US20200402522A1 (en) * 2019-06-24 2020-12-24 Qualcomm Incorporated Quantizing spatial components based on bit allocations determined for psychoacoustic audio coding

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150213803A1 (en) 2014-01-30 2015-07-30 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US20150213809A1 (en) 2014-01-30 2015-07-30 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2374123B1 (fr) 2008-12-15 2019-04-10 Orange Codage perfectionne de signaux audionumeriques multicanaux
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US9082198B2 (en) * 2012-10-19 2015-07-14 Qualcomm Technologies, Inc. Method for creating automatic cinemagraphs on an imagine device
US9502044B2 (en) 2013-05-29 2016-11-22 Qualcomm Incorporated Compression of decomposed representations of a sound field
US9959880B2 (en) * 2015-10-14 2018-05-01 Qualcomm Incorporated Coding higher-order ambisonic coefficients during multiple transitions

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150213803A1 (en) 2014-01-30 2015-07-30 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US20150213809A1 (en) 2014-01-30 2015-07-30 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients

Also Published As

Publication number Publication date
CA2999289A1 (en) 2017-04-20
BR112018007574A2 (pt) 2018-10-23
WO2017066312A1 (en) 2017-04-20
CA2999289C (en) 2021-10-19
KR20180068974A (ko) 2018-06-22
CN108141690B (zh) 2021-03-02
EP3363213A1 (en) 2018-08-22
JP6605725B2 (ja) 2019-11-13
CN108141690A (zh) 2018-06-08
US9959880B2 (en) 2018-05-01
EP3363213B1 (en) 2021-09-29
US20170110140A1 (en) 2017-04-20
JP2018534617A (ja) 2018-11-22

Similar Documents

Publication Publication Date Title
KR101756612B1 (ko) 벡터들을 코딩하기 위한 프레임 파라미터 재사용성의 표시
KR102032021B1 (ko) 고차 앰비소닉스 오디오 신호들로부터 분해된 벡터들의 코딩
JP6510541B2 (ja) 環境高次アンビソニックス係数の遷移
KR101962000B1 (ko) 고차 앰비소닉 (hoa) 백그라운드 채널들 간의 상관의 감소
CN106575506B (zh) 用于执行高阶立体混响音频数据的中间压缩的装置和方法
KR102329373B1 (ko) 고차 앰비소닉 오디오 신호들로부터 분해된 코딩 벡터들에 대한 코드북들 선택
KR101825317B1 (ko) 고차 앰비소닉 계수들에서 스칼라 및 벡터 양자화 사이의 결정
KR102077375B1 (ko) Hoa 콘텐츠의 스크린 관련된 적응
CN106471578B (zh) 用于较高阶立体混响信号之间的交叉淡化的方法和装置
EP3143618B1 (en) Closed loop quantization of higher order ambisonic coefficients
KR101818877B1 (ko) 고차 앰비소닉 오디오 렌더러들에 대한 희소성 정보의 획득
KR102077412B1 (ko) 다중 트랜지션들 동안 고차 앰비소닉 계수들의 코딩

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right