KR101921403B1 - 고차 앰비소닉 신호 압축 - Google Patents
고차 앰비소닉 신호 압축 Download PDFInfo
- Publication number
- KR101921403B1 KR101921403B1 KR1020167032090A KR20167032090A KR101921403B1 KR 101921403 B1 KR101921403 B1 KR 101921403B1 KR 1020167032090 A KR1020167032090 A KR 1020167032090A KR 20167032090 A KR20167032090 A KR 20167032090A KR 101921403 B1 KR101921403 B1 KR 101921403B1
- Authority
- KR
- South Korea
- Prior art keywords
- audio
- unit
- sound field
- foreground
- vectors
- Prior art date
Links
- 230000006835 compression Effects 0.000 title description 35
- 238000007906 compression Methods 0.000 title description 35
- 238000000034 method Methods 0.000 claims abstract description 153
- 238000003860 storage Methods 0.000 claims description 25
- 238000009877 rendering Methods 0.000 claims description 18
- 238000000354 decomposition reaction Methods 0.000 abstract description 52
- 230000002093 peripheral effect Effects 0.000 abstract description 26
- 239000013598 vector Substances 0.000 description 519
- 239000011159 matrix material Substances 0.000 description 196
- 238000004458 analytical method Methods 0.000 description 109
- 238000013139 quantization Methods 0.000 description 98
- 230000000875 corresponding effect Effects 0.000 description 68
- 230000006870 function Effects 0.000 description 40
- 230000002123 temporal effect Effects 0.000 description 36
- 230000009467 reduction Effects 0.000 description 27
- 230000015572 biosynthetic process Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 26
- 238000003786 synthesis reaction Methods 0.000 description 26
- 238000000605 extraction Methods 0.000 description 22
- 230000011664 signaling Effects 0.000 description 20
- 238000006243 chemical reaction Methods 0.000 description 19
- 239000000203 mixture Substances 0.000 description 18
- 230000005540 biological transmission Effects 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 17
- 238000009472 formulation Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 14
- 238000007562 laser obscuration time method Methods 0.000 description 12
- 230000002596 correlated effect Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 230000003190 augmentative effect Effects 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 9
- 230000009466 transformation Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 230000007704 transition Effects 0.000 description 8
- 239000002131 composite material Substances 0.000 description 7
- 238000003780 insertion Methods 0.000 description 6
- 230000037431 insertion Effects 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 238000003491 array Methods 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 5
- 230000006837 decompression Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000000844 transformation Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005562 fading Methods 0.000 description 3
- 238000012806 monitoring device Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 241000657949 Elderberry carlavirus D Species 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003032 molecular docking Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- AZUYLZMQTIKGSC-UHFFFAOYSA-N 1-[6-[4-(5-chloro-6-methyl-1H-indazol-4-yl)-5-methyl-3-(1-methylindazol-5-yl)pyrazol-1-yl]-2-azaspiro[3.3]heptan-2-yl]prop-2-en-1-one Chemical compound ClC=1C(=C2C=NNC2=CC=1C)C=1C(=NN(C=1C)C1CC2(CN(C2)C(C=C)=O)C1)C=1C=C2C=NN(C2=CC=1)C AZUYLZMQTIKGSC-UHFFFAOYSA-N 0.000 description 1
- VBRBNWWNRIMAII-WYMLVPIESA-N 3-[(e)-5-(4-ethylphenoxy)-3-methylpent-3-enyl]-2,2-dimethyloxirane Chemical compound C1=CC(CC)=CC=C1OC\C=C(/C)CCC1C(C)(C)O1 VBRBNWWNRIMAII-WYMLVPIESA-N 0.000 description 1
- 241000256837 Apidae Species 0.000 description 1
- 101100356682 Caenorhabditis elegans rho-1 gene Proteins 0.000 description 1
- ZAKOWWREFLAJOT-CEFNRUSXSA-N D-alpha-tocopherylacetate Chemical compound CC(=O)OC1=C(C)C(C)=C2O[C@@](CCC[C@H](C)CCC[C@H](C)CCCC(C)C)(C)CCC2=C1C ZAKOWWREFLAJOT-CEFNRUSXSA-N 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 101150111584 RHOA gene Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000007857 degradation product Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- -1 signal Substances 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
Abstract
오디오 데이터의 압축 및 디코딩을 위한 시스템들 및 기법들이 일반적으로 개시된다. 음장을 나타내는 고차 앰비소닉 (HOA) 계수들을 압축하기 위한 일 예의 디바이스가, 오디오 데이터를 저장하도록 구성되는 메모리와, HOA 계수들의 분해를 통해 또한 획득된 하나 이상의 특이값들에 기초하여, HOA 계수들의 분해를 통해 획득된 하나 이상의 전경 오디오 오브젝트들을 강화시키기 위해 HOA 계수들 중 주변 HOA 계수들을 사용할 경우를 결정하도록 구성되는 하나 이상의 프로세서들을 포함하며, 주변 HOA 계수들은 음장의 주변 성분을 나타낸다.
Description
본 출원은 2014년 5월 16일자로 출원된 미국 임시출원 제61/994,800호; 및 2014년 5월 28일자로 출원된 미국 임시 출원 제62/004,145호의 이점을 주장하며, 그것들의 각각의 전체 내용들은 참조로 본원에 통합된다.
본 개시물은 오디오 데이터에 관한 것으로, 더 상세하게는, 오디오 데이터의 압축에 관한 것이다.
고차 앰비소닉 (higher-order ambisonics, HOA) 신호 (종종 복수의 구면 조화 계수들 (spherical harmonic coefficients, SHC) 또는 다른 계층적 엘리먼트들에 의해 표현됨) 가 음장 (soundfield) 의 3차원 표현이다. HOA 또는 SHC 표현은 SHC 신호로부터 랜더링된 멀티-채널 오디오 신호를 플레이백하는데 사용되는 로컬 스피커 기하구조와는 독립적인 방식으로 음장을 표현할 수도 있다. SHC 신호가 잘 알려지고 고도로 채택된 멀티-채널 포맷들, 이를테면 5.1 오디오 채널 포맷 또는 7.1 오디오 채널 포맷으로 랜더링될 수 있어 SHC 신호는 하위 호환성을 또한 용이하게 할 수도 있다. SHC 표현은 그러므로 하위 호환성을 또한 수용하는 더 나은 음장 표현을 가능하게 할 수도 있다.
대체로, 기법들이 고차 앰비소닉 (HOA) 압축에 대해 설명된다. 다양한 예들에서, 그 기법들은 오디오 오브젝트들에 연관된 에너지들 (또는 에너지 값들) 중 하나 이상에, 그리고 비트 할당 메커니즘들에 기초한다.
하나의 양태에서, 음장을 나타내는 고차 앰비소닉 (HOA) 계수들을 압축하는 방법이, HOA 계수들의 분해를 통해 획득된 하나 이상의 전경 (foreground) 오디오 오브젝트들을 증강 (augmentation) 시키기 위해 HOA 계수들 중 주변 HOA 계수들을 사용할 경우를, HOA 계수들의 분해를 통해 또한 획득된 하나 이상의 특이값들에 기초하여 결정하는 단계를 포함하며, 주변 HOA 계수들은 음장의 주변 성분을 나타낸다.
다른 양태에서, 음장을 나타내는 인코딩된 고차 앰비소닉 (HOA) 계수들을 디코딩하는 방법이, 오디오 오브젝트에 연관된 에너지에 기초하여, 음장의 오디오 오브젝트에 비트들을 할당하는 단계를 포함하며, 오디오 오브젝트는 인코딩된 HOA 계수들의 분해를 통해 획득된다.
다른 양태에서, 음장을 나타내는 고차 앰비소닉 (HOA) 계수들을 압축하기 위한 일 예의 디바이스가, 오디오 데이터를 저장하도록 구성되는 메모리와, HOA 계수들의 분해를 통해 또한 획득된 하나 이상의 특이값들에 기초하여, HOA 계수들의 분해를 통해 획득된 하나 이상의 전경 오디오 오브젝트들을 강화시키기 위해 HOA 계수들 중 주변 HOA 계수들을 사용할 경우를 결정하도록 구성되는 하나 이상의 프로세서들을 포함하며, 주변 HOA 계수들은 음장의 주변 성분을 나타낸다.
다른 양태에서, 음장을 나타내는 고차 앰비소닉 (HOA) 계수들을 압축하는 디바이스가, HOA 계수들의 분해를 통해 획득된 하나 이상의 전경 오디오 오브젝트들을 증강시키기 위해 HOA 계수들 중 주변 HOA 계수들을 사용할 경우를, HOA 계수들의 분해를 통해 또한 획득된 하나 이상의 특이값들에 기초하여 결정하는 수단을 포함하며, 주변 HOA 계수들은 음장의 주변 성분을 나타낸다.
본 기법들의 하나 이상의 양태들의 세부사항들은 첨부 도면들 및 아래의 설명에서 언급된다. 본 기법들의 다른 특징들, 목적들, 및 이점들은 상세한 설명 및 도면들로부터, 그리고 청구항들로부터 명확하게 될 것이다.
도 1은 다양한 차수들 및 하위-차수들의 구면 조화 기저 함수들 (spherical harmonic basis functions) 을 예시하는 도면이다.
도 2는 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 시스템을 예시하는 도면이다.
도 3은 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 도 2의 예에서 도시된 오디오 인코딩 디바이스의 하나의 예를 더 상세히 도시하는 블록도이다.
도 4는 도 2의 오디오 디코딩 디바이스를 더 상세히 예시하는 블록도이다.
도 5a는 본 개시물에서 설명되는 분해 기법들의 다양한 양태들을 수행함에 있어서 오디오 인코딩 디바이스의 예시적인 동작을 도시하는 흐름도이다.
도 5b는 본 개시물에서 설명되는 코딩 기법들의 다양한 양태들을 수행함에 있어서 오디오 인코딩 디바이스의 예시적인 동작을 도시하는 흐름도이다.
도 6은 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행함에 있어서 오디오 디코딩 디바이스의 예시적인 동작을 도시하는 흐름도이다.
도 7은 다양한 오디오 오브젝트들에 대한 특이값들의 선 그래프들의 세트를 예시하는 개념도이다.
도 8은 본원에서 설명되는 기법들에 따른 오디오 오브젝트 시그널링 스킴들을 예시하는 개념도이다.
도 9a 내지 도 9d는 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 시스템과, 도 9a의 브로드캐스팅 네트워크 센터의 추가의 세부사항들을 예시하는 개념도들이다.
도 10은 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 도 9a의 예에서 도시된 공간적 오디오 인코딩 디바이스의 하나의 예를 더 상세히 도시하는 블록도이다.
도 11은 도 9a의 오디오 디코딩 디바이스를 더 상세히 예시하는 블록도이다.
도 2는 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 시스템을 예시하는 도면이다.
도 3은 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 도 2의 예에서 도시된 오디오 인코딩 디바이스의 하나의 예를 더 상세히 도시하는 블록도이다.
도 4는 도 2의 오디오 디코딩 디바이스를 더 상세히 예시하는 블록도이다.
도 5a는 본 개시물에서 설명되는 분해 기법들의 다양한 양태들을 수행함에 있어서 오디오 인코딩 디바이스의 예시적인 동작을 도시하는 흐름도이다.
도 5b는 본 개시물에서 설명되는 코딩 기법들의 다양한 양태들을 수행함에 있어서 오디오 인코딩 디바이스의 예시적인 동작을 도시하는 흐름도이다.
도 6은 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행함에 있어서 오디오 디코딩 디바이스의 예시적인 동작을 도시하는 흐름도이다.
도 7은 다양한 오디오 오브젝트들에 대한 특이값들의 선 그래프들의 세트를 예시하는 개념도이다.
도 8은 본원에서 설명되는 기법들에 따른 오디오 오브젝트 시그널링 스킴들을 예시하는 개념도이다.
도 9a 내지 도 9d는 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 시스템과, 도 9a의 브로드캐스팅 네트워크 센터의 추가의 세부사항들을 예시하는 개념도들이다.
도 10은 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 도 9a의 예에서 도시된 공간적 오디오 인코딩 디바이스의 하나의 예를 더 상세히 도시하는 블록도이다.
도 11은 도 9a의 오디오 디코딩 디바이스를 더 상세히 예시하는 블록도이다.
서라운드 사운드의 진화는 오늘날 엔터테인먼트에 대해 많은 출력 포맷들을 이용 가능하게 하였다. 이러한 소비자 서라운드 사운드 포맷들의 예들은 그것들이 라우드스피커들에의 피드 (feed) 들을 어떤 기하 좌표들로 암시적으로 특정한다는 점에서 주로 '채널' 기반이다. 소비자 서라운드 사운드 포맷들은, 인기 있는 5.1 포맷 (이는 다음 6 개 채널들, 즉, 전방 좌측 (FL), 전방 우측 (FR), 중앙 또는 전방 중앙, 후방 좌측 또는 서라운드 좌측, 후방 우측 또는 서라운드 우측, 및 저 주파수 효과 (low frequency effects, LFE) 를 포함함), 성장하는 7.1 포맷, 그리고 7.1.4 포맷과 22.2 포맷 (예컨대, 초고선명 (Ultra High Definition) 텔레비전 표준과 함께 사용하기 위함) 과 같은 다양한 포맷들을 포함한다. 비-소비자 포맷들은 종종 '서라운드 어레이들'이라 지칭되는 (대칭 및 비-대칭 기하구조들의) 임의의 수의 스피커들에 걸쳐 있을 수 있다. 이러한 어레이의 하나의 예는 절단된 정이십면체 (truncated icosahedron) 의 모서리들의 좌표들 상에 위치된 32 개 라우드스피커들을 포함한다.
장래의 MPEG 인코더에의 입력은 옵션적으로는 다음 세 개의 가능한 포맷들 중 하나이다: (I) 미리 특정된 포지션들에서 라우드스피커들을 통해 플레이되어야 하는 전통적인 채널-기반 오디오 (위에서 논의된 바와 같음); (ii) (다른 정보도 있지만) 단일 오디오 오브젝트들에 대한 이산 펄스-코드-변조 (discrete pulse-code-modulation, PCM) 데이터와 그들 오브젝트들의 로케이션 좌표들을 포함하는 연관된 메타데이터를 관련시키는 오브젝트-기반 오디오; 및 (iii) 구면 조화 기저 함수들의 계수들 (또한 "구면 조화 계수들" 또는 SHC, "고차 앰비소닉" 또는 HOA, 및 "HOA 계수들") 을 사용하여 음장을 표현하는 것을 수반하는 장면-기반 오디오. 장래의 MPEG 인코더는 국제 표준화 기구/국제 전기 표준 회의 (ISO) / (IEC) 에 의해 2013년 1월에 스위스 제네바에서 발표된 그리고 http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip에서 입수 가능한 "Call for Proposals for 3D Audio"라는 명칭의 문서에서 더 상세히 설명될 수도 있다.
시장에는 다양한 '서라운드-사운드' 채널-기반 포맷들이 있다. 그것들은, 예를 들어, 5.1 홈 시어터 시스템 (이는 스테레오를 훨씬 능가하여 거실들 속으로 잠식해 들어간다는 측면에서 가장 성공적이었음) 에서부터 NHK (Nippon Hoso Kyokai or Japan Broadcasting Corporation) 에 의해 개발된 22.2 시스템까지의 범위에 있다. 콘텐츠 제작자들 (예컨대, 헐리우드 스튜디오들) 은 영화에 대한 사운드트랙을 한번 제작하는 것을 바랄 것이고 각각의 스피커 구성을 위해 사운드트랙을 리믹스하는 노력을 낭비하지 않는 것을 바랄 것이다. 최근, 표준 개발 기구들은 표준화된 비트스트림 속으로의 인코딩과 플레이백의 로케이션에서의 스피커 기하구조 및 음향적 조건들에 적응 가능하고 전천후인 (agnostic) 후속 디코딩을 제공하는 방도들 (렌더러 (renderer) 를 수반함) 을 고려하였다.
콘텐츠 제작자들에게 이러한 유연성을 제공하기 위해, 계층적 엘리먼트 세트가 음장을 표현하는데 사용될 수도 있다. 계층적 엘리먼트 세트는, 더 낮은 차수의 엘리먼트들의 기본 세트가 모델링된 음장의 전체 표현을 제공하도록 엘리먼트들이 차수화되는 엘리먼트들의 세트를 지칭할 수도 있다. 그 세트가 고차 엘리먼트들을 포함하도록 확장됨에 따라, 표현은 더 상세해져, 해상도를 증가시킨다.
계층적 엘리먼트 세트의 하나의 예가 구면 조화 계수들 (SHC) 의 세트이다. 다음의 수식은 SHC를 사용하여 음장의 디스크립션 또는 표현을 설명한다:
그 수식은 시긴 t에 음장의 임의의 지점 에서의 압력 p i 가, SHC, 즉 에 의해 고유하게 표현될 수 있다는 것을 보여준다. 여기서, 이며, c는 사운드의 속력 (~343 m/s) 이며, 은 참조 지점 (또는 관찰 지점) 이며, 은 차수 n의 구면 베셀 (Bessel) 함수이고, 은 차수 n 및 하위차수 m의 구면 조화 기저 함수들이다. 꺽쇠 괄호들 내의 항은 다양한 시간-주파수 변환들, 이를테면 이산 푸리에 변환 (discrete Fourier transform, DFT), 이산 코사인 변환 (discrete cosine transform, DCT), 또는 웨이브릿 변환에 의해 근사화될 수 있는 신호의 주파수-도메인 표현 (즉, ) 이다. 계층적 세트들의 다른 예들은 웨이브릿 변환 계수들의 세트들과 다중해상도 (multiresolution) 기저 함수들의 계수들의 세트를 포함한다.
도 1은 0차 (n = 0) 부터 4 차 (n = 4) 까지의 구면 조화 기저 함수들을 예시하는 도면이다. 볼 수 있듯이, 각각의 차수에 대해, 예시 목적의 편의를 위해 도 1의 예에서 도시되지만 명시적으로 언급되지 않은 하위차수들 (m) 의 확장이 있다.
SHC 는 다양한 마이크로폰 어레이 구성들에 의해 물리적으로 취득 (acquisition) 될 (예컨대, 기록될) 수 있거나 또는, 대안으로, 그것들은 음장의 채널 기반 또는 오브젝트 기반 디스크립션들로부터 유도될 수 있다. SHC는 장면-기반 오디오를 나타내며, 여기서 SHC는 더욱 효율적인 송신 또는 저장을 증진시킬 수도 있는 인코딩된 SHC를 획득하기 위한 오디오 인코더에의 입력일 수도 있다. 예를 들어, (1+4)2 (25와, 그런고로 4차) 계수들을 4차 표현이 사용될 수도 있다.
위에서 언급했듯이, SHC는 마이크로폰 어레이를 사용한 마이크로폰 레코딩으로부터 유도될 수도 있다. SHC가 마이크로폰 어레이들로부터 유도될 수도 있는 방법의 다양한 예들이 Poletti, M., "Three-Dimensional Surround Sound Systems Based on Spherical Harmonics," J. Audio Eng. Soc., Vol. 53, No. 11, 2005 November, pp. 1004-1025에서 설명된다.
SHC들이 오브젝트-기반 디스크립션으로부터 유도될 수도 있는 방법을 예시하기 위해, 다음의 수학식을 고려한다. 개개의 오디오 오브젝트에 대응하는 음장에 대한 계수들 는 다음으로 표현될 수도 있으며:
여기서 i는 이며, 는 차수 n의 (제 2 종류의) 구면 한켈 (Hankel) 함수이고, {r s ,θ s ,φ s }는 오브젝트의 로케이션이다. 오브젝트 소스 에너지 g(ω)를 (예컨대, PCM 스트림에 대해 고속 푸리에 변환을 수행하는 것과 같은 시간-주파수 분석 기법들을 사용하여) 주파수의 함수로서 아는 것은 각각의 PCM 오브젝트 및 대응하는 로케이션을 SHC 로 변환하는 것을 허용한다. 게다가, (위의 것이 선형 및 직교 분해이므로) 각각의 오브젝트에 대한 계수들이 가법적 (additive) 임을 보여줄 수 있다. 이런 방식으로, 수많은 PCM 오브젝트들이 계수들에 의해 (예컨대, 개개의 오브젝트들에 대한 계수 벡터들의 합으로서) 표현될 수 있다. 본질적으로, 그 계수들은 음장에 대한 정보 (3D 좌표들의 함수로서의 압력) 를 포함하고, 위의 것은 관찰 지점 의 부근에서 개개의 오브젝트들로부터 전체 음장의 표현으로의 변환을 나타낸다. 나머지 도면들은 오브젝트-기반 및 SHC-기반 오디오 코딩의 맥락에서 아래에서 설명된다.
도 2는 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 시스템 (10) 을 예시하는 도면이다. 도 1의 예에서 도시된 바와 같이, 시스템 (10) 은 콘텐츠 제작자 디바이스 (12) 와 콘텐츠 소비자 디바이스 (14) 를 구비한다. 콘텐츠 제작자 디바이스 (12) 및 콘텐츠 소비자 디바이스 (14) 의 맥락에서 설명되지만, 그 기법들은 SHC들 (이는 HOA 계수들이라고 또한 지칭될 수도 있음) 또는 음장의 임의의 다른 계층적 표현이 오디오 데이터를 나타내는 비트스트림을 형성하기 위해 인코딩된다는 임의의 맥락에서 구현될 수도 있다. 더구나, 콘텐츠 제작자 디바이스 (12) 는 핸드셋 (또는 셀룰러 폰), 태블릿 컴퓨터, 스마트 폰, 또는 몇몇 예들을 제공하기 위한 데스크톱 컴퓨터를 포함하는 본 개시물에서 설명되는 기법들을 구현할 수 있는 컴퓨팅 디바이스의 임의의 형태를 나타낼 수도 있다. 비슷하게, 콘텐츠 소비자 디바이스 (14) 는 핸드셋 (또는 셀룰러 폰), 태블릿 컴퓨터, 스마트 폰, 셋톱 박스, 또는 몇몇 예들을 제공하기 위한 데스크톱 컴퓨터를 포함하는 본 개시물에서 설명되는 기법들을 구현할 수 있는 컴퓨팅 디바이스의 임의의 형태를 나타낼 수도 있다.
콘텐츠 제작자 디바이스 (12) 는 콘텐츠 소비자 디바이스 (14) 와 같은 콘텐츠 소비자 디바이스들의 오퍼레이터들에 의한 소비를 위해 멀티-채널 오디오 콘텐츠를 생성할 수도 있는 영화 스튜디오 또는 다른 엔티티에 의해 동작될 수도 있다. 일부 예들에서, 콘텐츠 제작자 디바이스 (12) 는 HOA 계수들 (11) 을 압축하고 싶어하는 개개의 사용자에 의해 동작될 수도 있다. 종종, 콘텐츠 제작자는 비디오 콘텐츠와 연계하여 오디오 콘텐츠를 생성한다. 콘텐츠 소비자 디바이스 (14) 는 개인에 의해 동작될 수도 있다. 콘텐츠 소비자 디바이스 (14) 는, SHC를 멀티-채널 오디오 콘텐츠로서 재생하기 위해 랜더링할 수 있는 오디오 플레이백 시스템의 임의의 형태를 지칭할 수도 있는 오디오 플레이백 시스템 (16) 을 포함할 수도 있다.
콘텐츠 제작자 디바이스 (12) 는 오디오 편집 시스템 (18) 을 포함한다. 콘텐츠 제작자 디바이스 (12) 는 다양한 포맷들 (직접적으로 HOA 계수들로서 포함함) 의 라이브 레코딩들 (7) 과, 콘텐츠 제작자 디바이스 (12) 가 오디오 편집 시스템 (18) 을 사용하여 편집할 수도 있는 오디오 오브젝트들 (9) 을 획득한다. 마이크로폰 (5) 이 라이브 레코딩들 (7) 을 캡처할 수도 있다. 콘텐츠 제작자는, 편집 프로세스 동안, 오디오 오브젝트들 (9) 로부터의 HOA 계수들 (11) 을 렌더링하여, 추가의 편집을 요구하는 음장의 다양한 양태들을 식별하려는 시도로 렌더링된 스피커 피드들을 청취할 수도 있다. 콘텐츠 제작자 디바이스 (12) 는 그 다음에 HOA 계수들 (11) 을 (잠재적으로는 소스 HOA 계수들이 위에서 설명된 방식으로 유도될 수도 있는 오디오 오브젝트들 (9) 중 상이한 오디오 오브젝트들의 조작을 통해 간접적으로) 편집할 수도 있다. 콘텐츠 제작자 디바이스 (12) 는 HOA 계수들 (11) 을 생성하기 위해 오디오 편집 시스템 (18) 을 채용할 수도 있다. 오디오 편집 시스템 (18) 은 오디오 데이터를 편집하고 오디오 데이터를 하나 이상의 소스 구면 조화 계수들로서 출력할 수 있는 임의의 시스템을 나타낸다. 일부 예들에서, 마이크로폰 (5) 은, 3차원 (3D) 마이크로폰을 포함하거나, 그런 마이크로폰일 수도 있거나 또는 그런 마이크로폰의 일부일 수도 있다.
편집 프로세스가 완료되는 경우, 콘텐츠 제작자 디바이스 (12) 는 HOA 계수들 (11) 에 기초하여 비트스트림 (21) 을 생성할 수도 있다. 다시 말하면, 콘텐츠 제작자 디바이스 (12) 는 비트스트림 (21) 을 생성하기 위해 본 개시물에서 설명되는 기법들의 다양한 양태들에 따라 HOA 계수들 (11) 을 인코딩하거나 또는 그렇지 않으면 압축하도록 구성되는 디바이스를 나타내는 오디오 인코딩 디바이스 (20) 를 포함한다. 오디오 인코딩 디바이스 (20) 는 비트스트림 (21) 을, 하나의 예로서, 유선 또는 무선 채널, 데이터 저장 디바이스 등일 수도 있는 송신 채널을 가로지르는 송신을 위해 생성할 수도 있다. 비트스트림 (21) 은 HOA 계수들 (11) 의 인코딩된 버전을 나타낼 수도 있고 기본 비트스트림과 사이드 채널 정보라고 지칭될 수도 있는 다른 사이드 비트스트림을 포함할 수도 있다.
도 2에서는 콘텐츠 소비자 디바이스 (14) 에게 직접적으로 송신되고 있는 것으로 도시되지만, 콘텐츠 제작자 디바이스 (12) 는 비트스트림 (21) 을 콘텐츠 제작자 디바이스 (12) 와 콘텐츠 소비자 디바이스 (14) 사이에 위치된 중간 디바이스에게 출력할 수도 있다. 중간 디바이스는 비트스트림 (21) 을 그 비트스트림을 요청할 수도 있는 콘텐츠 소비자 디바이스 (14) 로의 나중의 전달을 위해 저장할 수도 있다. 중간 디바이스는 비트스트림 (21) 을 오디오 디코더에 의한 나중의 취출을 위해 저장할 수 있는 파일 서버, 웹 서버, 데스크톱 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 모바일 폰, 스마트 폰, 또는 임의의 다른 디바이스를 포함할 수도 있다. 중간 디바이스는 비트스트림 (21) 을 요청하는 콘텐츠 소비자 디바이스 (14) 와 같은 가입자들에게 비트스트림 (21) 을 스트리밍할 수 있 (고 아마도 대응하는 비디오 데이터 비트스트림을 송신하는 것에 연계하) 는 콘텐츠 전달 네트워크에 존재할 수도 있다.
대안적으로, 콘텐츠 제작자 디바이스 (12) 는 비트스트림 (21) 을 저장 매체, 이를테면 콤팩트 디스크, 디지털 비디오 디스크, 고품위 비디오 디스크 또는 다른 저장 매체들에 저장할 수도 있는데, 그들 매체들의 대부분은 컴퓨터에 의해 읽힐 수 있고 그러므로 컴퓨터-판독가능 저장 매체들 또는 비-일시적 컴퓨터-판독가능 저장 매체들이라고 지칭될 수도 있다. 이 맥락에서, 송신 채널은 매체들에 저장된 콘텐츠가 송신되 (고 소매점들 및 다른 스토어-기반 전달 메커니즘을 포함할 수 있) 는 채널들을 지칭할 수도 있다. 어느 경우에나, 본 개시물의 기법들은 그러므로 이런 점에서 도 2의 예로 제한되지 않아야 한다.
도 2의 예에서 더 도시된 바와 같이, 콘텐츠 소비자 디바이스 (14) 는 오디오 플레이백 시스템 (16) 을 포함한다. 오디오 플레이백 시스템 (16) 은 멀티-채널 오디오 데이터를 재생할 수 있는 임의의 오디오 플레이백 시스템을 나타낼 수도 있다. 오디오 플레이백 시스템 (16) 은 다수의 상이한 렌더러들 (22) 을 포함할 수도 있다. 렌더러들 (22) 은 각각이 상이한 형태의 렌더링을 제공할 수도 있는데, 렌더링의 상이한 형태들은 벡터-기반 진폭 패닝 (vector-base amplitude panning, VBAP) 을 수행하는 다양한 방도들 중 하나 이상, 및/또는 음장 합성을 수행하는 다양한 방도들 중 하나 이상을 포함할 수도 있다. 본원에서 사용되는 바와 같이, "A 및/또는 B"는 "A 또는 B", 또는 "A 및 B" 둘 다를 의미한다.
오디오 플레이백 시스템 (16) 은 오디오 디코딩 디바이스 (24) 를 더 포함할 수도 있다. 오디오 디코딩 디바이스 (24) 는 비트스트림 (21) 으로부터 HOA 계수들 (11') 을 디코딩하도록 구성되는 디바이스를 나타낼 수도 있는데, HOA 계수들 (11') 은 HOA 계수들 (11) 과는 유사하지만 손실 동작들 (예컨대, 양자화) 및/또는 송신 채널을 통한 송신으로 인해 상이할 수도 있다. 오디오 플레이백 시스템 (16) 은, 비트스트림 (21) 을 디코딩한 후 HOA 계수들 (11') 을 획득하고 HOA 계수들 (11') 을 랜더링하여 라우드스피커 피드들 (25) 을 출력할 수도 있다. 라우드스피커 피드들 (25) 은 하나 이상의 라우드스피커들 (이는 예시 목적의 편의를 위해 도 2의 예에서 도시되지 않음) 을 구동할 수도 있다.
적절한 렌더러를 선택하기 위해 또는, 일부 사례들에서, 적절한 렌더러를 생성하기 위해, 오디오 플레이백 시스템 (16) 은 라우드스피커들의 수 및/또는 라우드스피커들의 공간적 기하구조를 나타내는 라우드스피커 정보 (13) 를 획득할 수도 있다. 일부 사례들에서는, 오디오 플레이백 시스템 (16) 은 라우드스피커 정보 (13) 를 동적으로 결정하는 것과 같은 방식으로 참조 마이크로폰을 사용하여 그리고 라우드스피커들을 구동하여 라우드스피커 정보 (13) 를 획득할 수도 있다. 다른 사례들에서 또는 라우드스피커 정보 (13) 의 동적 결정과 연계하여, 오디오 플레이백 시스템 (16) 은 오디오 플레이백 시스템 (16) 과 인터페이싱하고 라우드스피커 정보 (13) 를 입력할 것을 사용자에게 프롬프트할 수도 있다.
오디오 플레이백 시스템 (16) 은 그 다음에 라우드스피커 정보 (13) 에 기초하여 오디오 렌더러들 (22) 중 하나를 선택할 수도 있다. 일부 사례들에서, 오디오 플레이백 시스템 (16) 은, 오디오 렌더러들 (22) 중 어느 것도 (라우드스피커 기하구조의 측면에서) 라우드스피커 정보 (13) 에서 특정된 라우드스피커 기하구조에 대한 어떤 임계 유사도 측정값 내에 있지 않은 경우, 라우드스피커 정보 (13) 에 기초하여 오디오 렌더러들 (22) 중 하나의 오디오 렌더러를 생성할 수도 있다. 오디오 플레이백 시스템 (16) 은, 일부 사례들에서, 오디오 렌더러들 (22) 중 현존 오디오 렌더러를 선택하려는 첫 번째 시도 없이, 라우드스피커 정보 (13) 에 기초하여 오디오 렌더러들 (22) 중 하나의 오디오 렌더러를 생성할 수도 있다. 하나 이상의 스피커들 (3) 을 그러면 렌더링된 라우드스피커 피드들 (25) 을 재생할 수도 있다.
도 3은 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 도 2의 예에서 도시된 오디오 인코딩 디바이스 (20) 의 하나의 예를 더 상세히 도시하는 블록도이다. 오디오 인코딩 디바이스 (20) 는 콘텐츠 분석 유닛 (26), 벡터-기반 분해 유닛 (27) 및 방향-기반 분해 유닛 (28) 을 포함한다. 비록 아래에서 간단히 설명되지만, 오디오 인코딩 디바이스 (20) 와 HOA 계수들을 압축하거나 또는 그렇지 않으면 인코딩하는 다양한 양태들에 관한 더 많은 정보가 2014년 5월 29일자로 출원된 "INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD"라는 명칭의 국제 특허 출원 공개 WO 2014/194099호에서 입수 가능하다.
콘텐츠 분석 유닛 (26) 은 HOA 계수들 (11) 이 라이브 레코딩 또는 오디오 오브젝트로부터 생성된 콘텐츠를 나타내는지의 여부를 식별하기 위해 HOA 계수들 (11) 의 콘텐츠를 분석하도록 구성되는 유닛을 나타낸다. 콘텐츠 분석 유닛 (26) 은 HOA 계수들 (11) 이 실제 음장의 레코딩으로부터 생성되었는지 또는 인공적 오디오 오브젝트로부터 생성되었는지를 결정할 수도 있다. 일부 사례들에서, 프레임화된 HOA 계수들 (11) 이 레코딩으로부터 생성된 경우, 콘텐츠 분석 유닛 (26) 은 HOA 계수들 (11) 을 벡터-기반 분해 유닛 (27) 으로 전해준다. 일부 사례들에서, 프레임화된 HOA 계수들 (11) 이 합성 오디오 오브젝트로부터 생성된 경우, 콘텐츠 분석 유닛 (26) 은 HOA 계수들 (11) 을 방향-기반 합성 유닛 (28) 으로 전해준다. 방향-기반 합성 유닛 (28) 은 방향-기반 비트스트림 (21) 을 생성하기 위해 HOA 계수들 (11) 의 방향-기반 합성을 수행하도록 구성되는 유닛을 나타낼 수도 있다.
도 3의 예에서 도시된 바와 같이, 벡터-기반 분해 유닛 (27) 은 선형 가역 변환 (LIT) 유닛 (30), 파라미터 계산 유닛 (32), 재순서화 (reorder) 유닛 (34), 전경 선택 유닛 (36), 에너지 보상 유닛 (38), 음향심리 오디오 코더 유닛 (40) (옵션적임), 비트스트림 생성 유닛 (42), 음장 분석 유닛 (44), 계수 감소 유닛 (46), 배경 (background, BG) 선택 유닛 (48), 시공간적 보간 유닛 (50), 및 양자화 유닛 (52) 을 포함할 수도 있다. 음향심리 오디오 코더 유닛 (40) 은 오디오 인코딩 디바이스 (20) 의 상이한 구현예들에 대해 음향심리 오디오 코더 유닛 (40) 의 옵션적 성질을 예시하기 위해 도 3에서 파선 테두리들로 도시된다.
선형 가역 변환 (LIT) 유닛 (30) 은 HOA 계수들 (11) 을 HOA 채널들의 형태로 수신하는데, 각각의 채널은 구면 기저 함수들 (이는 HOA[k]로서 표시될 수도 있으며, 여기서 k는 샘플들의 현재 프레임 또는 블록을 표시할 수도 있음) 의 주어진 차수의 하위-차수에 연관된 계수의 블록 또는 프레임을 나타낸다. HOA 계수들 (11) 의 행렬은 다음의 크기 D를 가질 수도 있다: M x (N+1)2.
LIT 유닛 (30) 은 특이값 분해 (singular value decomposition) 라고 지칭되는 분석의 형태를 수행하도록 구성되는 유닛을 나타낼 수도 있다. SVD에 관해 설명되었지만, 본 개시물에서 설명되는 기법들은 선형적으로 비상관된, 에너지 콤팩트된 출력의 세트들을 제공하는 임의의 유사한 변환 또는 분해에 대해 수행될 수도 있다. 또한, 본 개시물에서의 "세트들"에 대한 참조는 반대하는 것으로 구체적으로는 언급되지 않는 한 영이 아닌 세트들을 지칭하도록 일반적으로 의도되고, 이른바 "공집합 (empty set)"을 포함하는 세트들의 고전적 수학적 정의를 지칭하도록 의도되지 않는다. 대안적 변환이 종종 "PCA"라고 지칭되는 주성분 분석을 포함할 수도 있다. 맥락에 의존하여, PCA는 몇몇 예들을 말하자면 이산 카루넨 뢰베 (Karhunen-Loeve) 변환, 호텔링 (Hotelling) 변환, 적절한 직교 분해 (proper orthogonal decomposition, POD), 및 고유값 분해 (eigenvalue decomposition, EVD) 와 같은 다수의 상이한 이름들에 의해 지칭될 수도 있다. 오디오 데이터를 압축하는 기본적인 목적에 도움이 되는 이러한 동작들의 속성들은 멀티채널 오디오 데이터의 '에너지 압축'과 '상관제거 (decorrelation) '이다.
여하튼, LIT 유닛 (30) 이 예를 목적으로 특이값 분해 (이는, 다시, "SVD"라고 지칭될 수도 있음) 를 수행한다고 가정하면, LIT 유닛 (30) 은 HOA 계수들 (11) 을 변환된 HOA 계수들의 둘 이상의 세트들로 변환시킬 수도 있다. 변환된 HOA 계수들의 "세트들"은 변환된 HOA 계수들의 벡터들을 포함할 수도 있다. 도 3의 예에서, LIT 유닛 (30) 은 이른바 V 행렬, S 행렬, 및 U 행렬을 생성하기 위해 HOA 계수들 (11) 에 대해 SVD를 수행할 수도 있다. SVD는, 선형 대수에서, y-바이-z 실수 또는 복소수 행렬 X (여기서 X는 멀티-채널 오디오 데이터, 이를테면 HOA 계수들 (11) 을 나타낼 수도 있음) 의 인수분해를 다음 형태로 나타낼 수도 있다:
X = USV*
U는 y-바이-y 실수 또는 복소수 단위 행렬 (unitary matrix) 을 나타낼 수도 있으며, 여기서 U의 y 열들은 멀티-채널 오디오 데이터의 좌측-특이 벡터들로서 알려져 있다. S는 대각선 상에 음이 아닌 실수들을 갖는 y-바이-z 직사각형 대각 행렬을 나타낼 수도 있는데, 여기서 S의 대각선 값들은 멀티-채널 오디오 데이터의 특이값들로서 알려져 있다. V* (이는 V의 켤레 전치 (conjugate transpose) 를 나타낼 수도 있음) 는, V*의 z 개 열들이 멀티-채널 오디오 데이터의 우측-특이 벡터들로서 알려진 z-바이-z 실수 또는 복소수 단위 행렬을 나타낼 수도 있다.
일부 예들에서, 위에서 참조되는 SVD 수식에서의 V* 행렬은 SVD가 복소수들을 포함하는 행렬들에 적용될 수도 있다는 것을 반영하도록 V 행렬의 켤레 전치로서 표시된다. 실수들만을 포함하는 행렬들에 적용되는 경우, V 행렬의 복소 켤레 (또는, 다르게 말하면, V* 행렬) 는 V 행렬의 전치인 것으로 고려될 수도 있다. 아래에서, 예시의 편의를 위해, HOA 계수들 (11) 은 실수들을 포함한 결과로 V 행렬은 V* 행렬보다는 SVD를 통해 출력된다고 가정된다. 더구나, 본 개시물에서 V 행렬로서 표시되지만, V 행렬에 대한 언급은 적절한 경우 V 행렬의 전치를 지칭하는 것으로 이해되어야 한다. V 행렬인 것으로 가정되고 있지만, 그 기법들은 SVD의 출력이 V* 행렬인 복소 계수들을 갖는 HOA 계수들 (11) 에 유사한 방식으로 적용될 수도 있다. 따라서, 그 기법들은 이런 점에서 V 행렬을 생성하기 위해 SVD의 적용을 제공하는 것만으로 제한되지 않아야 하고, V* 행렬을 생성하기 위해 복소 성분들을 갖는 HOA 계수들 (11) 에의 SVD의 적용을 포함할 수도 있다.
이런 식으로, LIT 유닛 (30) 은 크기 D: M x (N+1)2를 갖는 US[k] 벡터들 (33) (이는 S 벡터들 및 U 벡터들의 조합된 버전을 나타낼 수도 있음) 과, 크기 D: (N+1)2 x (N+1)2를 갖는 V[k] 벡터들 (35) 을 출력하기 위해 HOA 계수들 (11) 에 대해 SVD를 수행할 수도 있다. US[k] 행렬에서의 개개의 벡터 엘리먼트들은 X PS (k)로 또한 지칭될 수도 있는 한편 V[k] 행렬의 개개의 벡터들은 v(k)라고 또한 지칭될 수도 있다.
U, S 및 V 행렬들의 분석이, 행렬들은 X에 의해 위에서 나타낸 기본 음장의 공간적 및 시간적 특성들을 운반하거나 또는 나타낸다는 것을 드러내 보일 수도 있다. U (길이 M 샘플들로 됨) 에서의 N 개 벡터들의 각각은, 서로 직교하는 그리고 임의의 공간적 특성들 (이는 또한 방향 정보라고 지칭될 수도 있음) 로부터 분리되어 있는 정규화된 분리된 오디오 신호들을 (M 개 샘플들에 의해 나타내어진 시구간에 대한) 시간의 함수로서 나타낼 수도 있다. 공간적 형상 및 포지션 (r, 세타, 파이) 를 표현하는 공간적 특성들은 대신에 V 행렬 (길이 (N+1)2의 각각) 에서의 개개의 i번째 벡터들, 에 의해 표현될 수도 있다. 벡터들 중 각각의 벡터의 개개의 엘리먼트들은 연관된 오디오 오브젝트에 대한 음장의 형상 (폭을 포함함) 및 포지션을 설명하는 HOA 계수를 표현할 수도 있다. U 행렬 및 V 행렬에서의 양쪽 모두의 벡터들은 그것들의 제곱평균제곱근 에너지들이 단위원 (unity) 과 동일하도록 정규화된다. U에서의 오디오 신호들의 에너지는 따라서 S에서의 대각선 엘리먼트들에 의해 표현된다. U와 S를 곱하여 US[k] (개개의 벡터 엘리먼트들 X PS (k)를 가짐) 를 형성하는 것은, 따라서 에너지들을 갖는 오디오 신호를 나타낸다. SVD 분해의 (U에서의) 오디오 시간-신호들, (S에서의) 그것들의 에너지들 및 (V에서의) 그것들의 공간적 특성들을 분리하는 능력은, 본 개시물에서 설명되는 기법들의 다양한 양태들을 지원할 수도 있다. 게다가, 기본 HOA[k] 계수들, 즉, X를, US[k]와 V[k]의 벡터 곱셈에 의해 합성하는 모델은, "벡터-기반 분해"라는 용어가 이 문서 전체에 걸쳐 사용되게 한다.
비록 HOA 계수들 (11) 에 대해 직접적으로 수행되고 있는 것으로 설명되지만, LIT 유닛 (30) 은 선형 가역 변환을 HOA 계수들 (11) 의 미분계수들 (derivatives) 에 적용할 수도 있다. 예를 들어, LIT 유닛 (30) 은 HOA 계수들 (11) 로부터 유도된 전력 스펙트럼 밀도 (power spectral density) 행렬에 대해 SVD를 적용할 수도 있다. 계수들 자체가 아니라 HOA 계수들의 전력 스펙트럼 밀도 (PSD) 에 대해 SVD를 수행함으로써, LIT 유닛 (30) 은 프로세서 사이클들 및 저장 공간의 하나 이상의 측면에서 SVD를 수행하는 계산 복잡도를 잠재적으로 감소시킬 수도 있으면서도, SVD가 HOA 계수들에 직접적으로 적용된 것과 동일한 소스 오디오 인코딩 효율을 성취할 수도 있다.
파라미터 계산 유닛 (32) 은 다양한 파라미터들, 이를테면 상관 파라미터 (R), 방향 속성들 파라미터들 (θ, φ, r), 및 에너지 속성 (e) 을 계산하도록 구성되는 유닛을 나타낸다. 현재 프레임에 대한 파라미터들의 각각은 R[k], θ[k], φ[k], r[k] 및 e[k]로서 표시될 수도 있다. 파라미터 계산 유닛 (32) 은 파라미터들을 식별하기 위해 US[k] 벡터들 (33) 에 대해 에너지 분석 및/또는 상관 (또는 이른바 상호-상관 (cross-correlation)) 을 수행할 수도 있다. 파라미터 계산 유닛 (32) 은 이전 프레임에 대한 파라미터들을 또한 결정할 수도 있는데, 이전 프레임 파라미터들은 US[k-1] 벡터 및 V[k-1] 벡터들의 이전 프레임에 기초하여 R[k-1], θ[k-1], φ[k-1], r[k-1] 및 e[k-1]로 표시될 수도 있다. 파라미터 계산 유닛 (32) 은 현재 파라미터들 (37) 과 이전 파라미터들 (39) 을 재순서화 유닛 (34) 으로 출력할 수도 있다.
파라미터 계산 유닛 (32) 에 의해 계산된 파라미터들은 시간 경과에 따른 그것들의 자연스러운 평가 또는 연속성을 나타내도록 오디오 오브젝트들을 재순서화하기 위해 재순서화 유닛 (34) 에 의해 사용될 수도 있다. 재순서화 유닛 (34) 은 제 1 US[k] 벡터들 (33) 로부터의 파라미터들 (37) 의 각각을 제 2 US[k-1] 벡터들 (33) 에 대한 파라미터들 (39) 의 각각에 대하여 턴 방식으로 (turn-wise) 비교할 수도 있다. 재순서화 유닛 (34) 은 현재 파라미터들 (37) 및 이전 파라미터들 (39) 에 기초하여 V[k] 행렬 (35) 및 US[k] 행렬 (33) 내의 다양한 벡터들을 (하나의 예로서, 헝가리안 알고리즘을 사용하여) 재순서화하여, 재순서화된 US[k] 행렬 (33') (이는 수학적으로 로서 표시될 수도 있음) 과 재순서화된 V[k] 행렬 (35') (이는 수학적으로 로서 표시될 수도 있음) 을 전경 사운드 (또는 우세 사운드 (predominant sound) - PS) 선택 유닛 (36) ("전경 선택 유닛 (36")) 과 에너지 보상 유닛 (38) 으로 출력할 수도 있다.
음장 분석 유닛 (44) 은 타겟 비트레이트 (41) 를 잠재적으로 성취하기 위해서 HOA 계수들 (11) 에 대해 음장 분석을 수행하도록 구성되는 유닛을 나타낼 수도 있다. 음장 분석 유닛 (44) 은, 분석에 그리고/또는 수신된 타겟 비트레이트 (41) 에 기초하여, 음향심리 코더 인스턴스화물들의 총 수 (이는 주변 또는 배경 채널들의 총 수 (BGTOT) 및 전경 채널들 또는, 다르게 말하면, 우세 채널들의 수의 함수일 수도 있음) 를 결정할 수도 있다. 음향심리 코더 인스턴스화물들의 총 수는 numHOATransportChannels로서 표시될 수 있다.
음장 분석 유닛 (44) 은, 타겟 비트레이트 (41) 를 다시 잠재적으로 성취하기 위해, 전경 채널들의 총 수 (nFG) (45), 배경 (또는, 다르게 말하면, 주변) 음장의 최소 차수 (NBG 또는, 대안적으로, MinAmbHOAorder), 배경 음장의 최소 차수를 나타내는 대응하는 실제 채널들의 수 (nBGa = (MinAmbHOAorder + 1)2), 및 추가적인 BG HOA 채널들의 인덱스들 (i) (이것들은 도 3의 예에서 총칭하여 배경 채널 정보 (43) 라고 표시될 수도 있음) 를 전송하기 위해 결정할 수도 있다. 배경 채널 정보 (42) 는 주변 채널 정보 (43) 라고 또한 지칭될 수도 있다. numHOATransportChannels - nBGa에서 남아 있는 채널들의 각각은, "추가적인 배경/주변 채널", "활성 벡터-기반 우세 채널", "활성 방향 기반 우세 신호" 또는 "완전히 비활성" 중 어느 하나일 수도 있다. 하나의 양태에서, 채널 유형들은 두 개의 비트들에 의한 ("ChannelType") 신택스 엘리먼트 (예컨대, 00: 방향 기반 신호; 01: 벡터-기반 우세 신호; 10: 추가적인 주변 신호; 11: 비활성 신호) 로서 표시될 수도 있다. 배경 또는 주변 신호들의 총 수, 즉, nBGa는, (MinAmbHOAorder +1)2 + 인덱스 10 (위의 예에서임) 이 비트스트림에서 그 프레임에 대한 채널 유형으로서 나타날 횟수에 의해 주어질 수도 있다.
음장 분석 유닛 (44) 은 타겟 비트레이트 (41) 에 기초하여 배경 (또는, 다르게 말하면, 주변) 채널들의 수와 전경 (또는, 다르게 말하면, 우세) 채널들의 수를 선택하여, 타겟 비트레이트 (41) 가 상대적으로 더 높은 경우 (예컨대, 타겟 비트레이트 (41) 가 512 Kbps 이상인 경우) 더 많은 배경 및/또는 전경 채널들을 선택할 수도 있다. 하나의 양태에서는, 비트스트림의 헤더 섹션에서 numHOATransportChannels은 8로 설정될 수도 있으면서 동시에 MinAmbHOAorder는 1로 설정될 수도 있다. 이 시나리오에서, 모든 프레임에서, 네 개의 채널들이 음장의 배경 또는 주변 부분을 표현하기 위해 전용될 수도 있으면서 동시에 다른 4 개의 채널들이, 채널 유형 - 예컨대, 추가적인 배경/주변 채널 또는 전경/우세 채널 중 어느 하나로서 사용됨 - 에 대해 프레임 단위 기반으로 가변할 수 있다. 전경/우세 신호들은, 위에서 설명된 바와 같이, 벡터-기반 신호 또는 방향 기반 신호 중 어느 하나일 수 있다.
일부 사례들에서, 프레임에 대한 벡터-기반 우세 신호들의 총 수는, 그 프레임의 비트스트림에서 ChannelType 인덱스가 01인 횟수에 의해 주어질 수도 있다. 위의 양태에서, 모든 추가적인 배경/주변 채널 (예컨대, 10의 ChannelType에 대응함) 에 대해, (처음 네 개 외의) 가능한 HOA 계수들 중 어느 것인지의 대응 정보는 그 채널에서 표현될 수도 있다. 정보는, 4차 HOA 콘텐츠에 대해, HOA 계수들 (5~25) 을 표시하는 인덱스일 수도 있다. 처음 네 개의 주변 HOA 계수들 (1~4) 은 minAmbHOAorder가 1로 설정되는 경우 항시 전송될 수도 있고, 그런고로 오디오 인코딩 디바이스는 5~25의 인덱스를 갖는 추가적인 하나의 주변 HOA 계수를 표시하는 것만 필요할 수도 있다. 그 정보는 따라서 "CodedAmbCoeffIdx"로서 표시될 수도 있는 5 비트 신택스 엘리먼트 (4차 콘텐츠의 경우) 를 사용하여 전송될 수 있다. 여하튼, 음장 분석 유닛 (44) 은 배경 채널 정보 (43) 와 HOA 계수들 (11) 을 배경 (BG) 선택 유닛 (36) 으로, 배경 채널 정보 (43) 를 계수 감소 유닛 (46) 및 비트스트림 생성 유닛 (42) 으로, 그리고 nFG (45) 를 전경 선택 유닛 (36) 으로 출력한다.
본 개시물의 하나 이상의 양태들에 따르면, 음장 분석 유닛 (44) 은 오디오 데이터의 특이값-기반 압축을 수행하도록 구성될 수도 있다. 본원에서 설명되는 기법들의 일부에 따르면, 음장 분석 유닛 (44) 은 US[k] 벡터들 (33) 및 V[k] 벡터들 (35), 또는 그것들로부터 유도된 벡터들에 연관된 하나 이상의 특이값들을 분석함으로써 HOA 계수들 (11) 을 선택 (예컨대, "설명") 할 수도 있다. 일부 예들에서, 음장 분석 유닛은 S[k] 벡터들 (33") 에 연관된 특이값들을 분석할 수도 있다. 예를 들면, S[k] 벡터들 (33") 은 곱해지지 않은, 또는 아직 곱해지지 않은 'S' 행렬을, 대응하는 'U' 행렬로 표현할 수도 있다. 논의 목적의 편의를 위해, US[k] 벡터들 (33), S[k] 벡터들 (33"), V[k] 벡터들 (35), 그것들로부터 유도된 임의의 벡터들, 및 그것들의 임의의 조합은, 본원에서는 총칭하여 "수신된 벡터들", "수신된 HOA 신호들", 또는 "수신된 오디오 데이터"이라고 지칭된다.
본원에서 설명되는 하나 이상의 기법들에 따르면, 음장 분석 유닛 (44) 은 HOA 계수들 (11) 및/또는 배경 채널 정보 (43) 를 사용하여 수신된 오디오 데이터를 기술하는 방식을 결정하기 위해 수신된 오디오 데이터에 연관된 특이값들을 분석할 수도 있다. 본원에서 설명되는 기법들의 하나의 예에서, 음장 분석 유닛 (44) 은 수신된 오디오 데이터를 전경 오디오 오브젝트들만을 사용하여 표현할지, 또는 대안적으로, 전경 및 배경 오디오 오브젝트들 둘 다를 사용하여 표현할지를 결정할 수도 있다.
일부 사례들에서, 음장 분석 유닛 (44) 은, 수신된 오디오 데이터의 배경 오디오 오브젝트들에 연관된 특이값들에 기초하여, 그것들의 모두가 수신된 오디오 데이터의 전경 오디오 오브젝트들에 연관되는, 수신된 HOA 신호들이 몇몇 (예컨대, 4 개 또는 5 개) 특이값들을 사용하여 표현될 수 있는지를 결정할 수도 있다. 수신된 HOA 신호들은 전경 오디오 오브젝트들만을 사용하여 표현될 수 있다고 음장 분석 유닛 (44) 이 결정한다면, 음장 분석 유닛 (44) 은 수신된 오디오 오브젝트들에 대해 임의의 배경 오디오 오브젝트들을 시그널링하지 않을 수도 있다. 대신, 이 시나리오에서, 음장 분석 유닛 (44) 은, 수신된 HOA 신호들을 표현하기 위해, HOA 계수들 (11) 의 일부로서 전경 오디오 오브젝트들만을 시그널링할 수도 있다.
수신된 오디오 데이터에 대해 배경 오디오 오브젝트들 중 임의의 것을 시그널링할 것을 결정하기 위해, 음장 분석 유닛 (44) 은 수신된 오디오 데이터의 배경 오디오 오브젝트들에 연관된 특이값들, 이를테면 S[k] 벡터들 (33") 에 의해 특정되는 특이값들을 분석할 수도 있다. 예를 들어, 음장 분석 유닛 (44) 은 배경 오디오 오브젝트들에 연관된 S[k] 벡터들 (33") 에 의해 특정되는 특이값들 (또는 그것의 속성들, 이를테면 진폭) 이, 충분히 낮아서, 수신된 오디오 데이터가 전경 오디오 오브젝트들만을 사용하여 표현되거나 또는 그렇지 않으면 설명될 수 있는지의 여부를 결정할 수도 있다. 이 예에서, S[k] 벡터들 (33") 에 의해 특정된 바와 같은 배경 오디오 오브젝트들의 특이값들이 충분히 낮다 (예컨대, 0에 충분히 가깝다) 고 음장 분석 유닛 (44) 이 결정한다면, 음장 분석 유닛 (44) 은 수신된 오디오 데이터에 대한 임의의 배경 정보를 코딩하지 않을 수도 있다.
이러한 시나리오에서 배경 정보를 코딩하지 않는 것에 의해, 음장 분석 유닛 (44) 은 수신된 오디오 데이터의 민감한 항목들을 전경 정보만을 사용하여 코딩할 수도 있다. 다르게 말하면, 음장 분석 유닛 (44) 은 수신된 오디오 데이터에 연관된 특이값들에 기초하여 수신된 오디오 데이터의 민감한 항목들을 코딩할 수도 있다. 이런 방식으로, 음장 분석 유닛 (44) 은 배경 정보에 연관된 특이값들에 기초하여, 배경 정보의 코딩 및/또는 시그널링을 제거함으로써 컴퓨팅 리소스들 및 통신 대역폭을 보존하도록 본 개시물의 기법들을 구현할 수도 있다.
음장 분석 유닛 (44) 이 S[k] 벡터들 (33") 에 의해 특정된 특이값들에 기초하여 임의의 배경 오디오 오브젝트들을 코딩 및/또는 시그너링하지 않을 것을 결정하는 하나의 예에서, 음장 분석 유닛 (44) 은 수신된 오디오 데이터에 대해 총 여섯 개의 전경 오디오 오브젝트들을 코딩할 수도 있다. 반면, 기존의 기법들에 따르면, 음장 분석 유닛 (44) 은 HOA 계수들 (11) 과 배경 채널 정보 (43) 를 생성함에 있어서 두 개의 전경 오디오 오브젝트들과 네 개의 배경 오브젝트들을 코딩할 수도 있다. 이런 방식으로, 음장 분석 유닛 (44) 은 전경 오디오 오브젝트들이 잠재적으로 더 중요하고 그리고/또는 민감한 시나리오들에서 배경 오디오 오브젝트들을 무시하는 반면, 잠재적으로 더 많은 전경 오디오 오브젝트들을 코딩하고 시그널링하기 위해 이용가능 비트레이트 및 대역폭을 활용하도록 본 개시물의 기법들을 구현할 수도 있다. 예를 들면, 민감한 오디오 오브젝트가 비트스트림에서 특정될 전체 오디오 콘텐츠에 상당히 영향을 미치는 오디오 데이터를 표시하거나 또는 그렇지 않으면 그러한 오디오 데이터에 연관될 수도 있다.
음장 분석 유닛 (44) 에 대해 위에서 설명되었지만, 오디오 인코딩 디바이스 (20) 의 다양한 다른 컴포넌트들이 위에서 설명된 기법들을 구현할 수도 있다는 것이 이해될 것이다. 예를 들면, 비트스트림 생성 유닛 (42) 은 배경 오디오 오브젝트들이 충분히 낮은 특이값들과 연관되는 시나리오들에서 이용가능 비트들의 모두를 전경 오디오 오브젝트들에 할당할 수도 있다. 반대로, 배경 오디오 오브젝트들이 배경 오디오 오브젝트들의 시그널링을 보증하기에 충분히 중요한 특이값들에 연관된다면, 비트스트림 생성 유닛 (42) 은 이용가능 비트들의 일부를 (예컨대, 나머지 이용가능 비트들을 전경 오디오 오브젝트들의 시그널링에 할당하는 것에 더하여) 배경 오디오 오브젝트들의 비트스트림 사양에 할당 (하고, 예를 들어, 시그널링) 할 수도 있다. 이런 방식으로, 위에서 설명된 기법들은 비트 할당 메커니즘들, 이를테면 비트스트림 생성 유닛 (42) 에 의해 구현된 비트 할당 메커니즘들을 통해 또한 구현될 수도 있다.
위에서 설명된 바와 같이, 일부 사례들에서는, 음장 분석 유닛 (44) 은, 본 개시물의 특이값-기반 기법들을 사용하여, S[k] 벡터들 (33") 에 의해 특정된 특이값들에 기초하여 임의의 배경 오디오 오브젝트들을 코딩 및/또는 시그널링하지 않을 것을 결정할 수도 있다. 음장 분석 유닛 (44) 이 임의의 배경 오디오 오브젝트들을 코딩하지 않을 것을 결정하는 시나리오들은 본원에서 "전경-전용 모드 (foreground-only mode)"라고 지칭된다. 다음의 표 1은 전경-전용 모드에 따라 오디오 오브젝트들을 코딩하는 경우 음장 분석 유닛 (44) 이 사용할 수도 있는 신택스를 예시한다.
표 1
전경-전용 모드를 사용하기 위해, 음장 분석 유닛 (44) 은 배경 오디오 오브젝트들의 수를 0과 동일하게 설정할 수도 있다. 따라서, 위의 표 1에 예시된 신택스에 따르면, 음장 분석 유닛은 MinNumOfCoeffsForAmbHOA 신택스 엘리먼트를 0의 값으로 설정할 수도 있다.
다음의 표 2는 음장 분석 유닛 (44) 이 음장의 전경 및 배경 오디오 오브젝트들 양쪽 모두를 코딩할 것을 결정한 시나리오들에서 음장 분석 유닛 (44) 이 사용할 수도 있는 신택스를 예시한다. 더 구체적으로, 음장 분석 유닛 (44) 은 표 2에 예시된 신택스를 사용하여 전경 오디오 오브젝트들의 수와 배경 오디오 오브젝트들의 수를 설정할 수도 있는데, 다음의 표가 사용될 수 있다.
표 2
배경 선택 유닛 (48) 은 배경 채널 정보 (예컨대, 배경 음장 (NBG) 과 전송할 추가적인 BG HOA 채널들의 수 (nBGa) 및 인덱스들 (i)) 에 기초하여 배경 또는 주변 HOA 계수들 (47) 을 결정하도록 구성되는 유닛을 나타낼 수도 있다. 예를 들어, NBG가 1과 동일한 경우, 배경 선택 유닛 (48) 은 1 이하의 차수를 갖는 오디오 프레임의 각각의 샘플에 대해 HOA 계수들 (11) 을 선택할 수도 있다. 배경 선택 유닛 (48) 은, 이 예에서, 그 다음에 추가적인 BG HOA 계수들로서 인덱스들 (i) 중 하나에 의해 식별된 인덱스를 갖는 HOA 계수들 (11) 을 선택할 수도 있는데, 오디오 디코딩 디바이스, 이를테면 도 2 및 도 4의 예에서 도시된 오디오 디코딩 디바이스 (24) 가 비트스트림 (21) 으로부터 배경 HOA 계수들 (47) 을 파싱하는 것을 가능하게 하기 위해서 비트스트림 (21) 에서 특정될 nBGa는 비트스트림 생성 유닛 (42) 으로 제공된다. 배경 선택 유닛 (48) 은 그 다음에 주변 HOA 계수들 (47) 을 에너지 보상 유닛 (38) 으로 출력할 수도 있다. 주변 HOA 계수들 (47) 은 다음의 크기 D를 가질 수도 있다: M x [(N BG +1)2 + nBGa]. 주변 HOA 계수들 (47) 은 "주변 HOA 계수들 (47)"이라고 또한 지칭될 수도 있는데, 주변 HOA 계수들 (47) 의 각각은 음향심리 오디오 코더 유닛 (40) 에 의해 인코딩될 별개의 주변 HOA 채널 (47) 에 대응한다.
전경 선택 유닛 (36) 은 nFG (45) (이는 전경 벡터들을 식별하는 하나 이상의 인덱스들을 표현할 수도 있음) 에 기초하여 음장의 전경 또는 별개의 성분들을 표현하는 재순서화된 US[k] 행렬 (33') 및 재순서화된 V[k] 행렬 (35') 을 선택하도록 구성되는 유닛을 나타낼 수도 있다. 전경 선택 유닛 (36) 은 nFG 신호들 (49) (이는 재순서화된 US[k]1,..., nFG (49), FG1 ,..., nfG[k] (49), 또는 (49)) 을 음향심리 오디오 코더 유닛 (40) 으로 출력할 수도 있는데, nFG 신호들 (49) 은 다음의 크기 D: M x nFG를 가질 수도 있고 각각은 모노-오디오 오브젝트들을 표현한다. 전경 선택 유닛 (36) 은 음장의 전경 성분들에 대응하는 재순서화된 V[k] 행렬 (35') (또는 (35')) 을 시공간적 보간 유닛 (50) 으로 또한 출력할 수도 있는데, 전경 성분들에 대응하는 재순서화된 V[k] 행렬 (35') 의 서브세트가 크기 D: (N+1)2 x nFG를 갖는 전경 V[k] 행렬 (51k) (이는 수학적으로는 로서 표시될 수도 있음) 로서 표시될 수도 있다.
에너지 보상 유닛 (38) 은 배경 선택 유닛 (48) 에 의한 HOA 채널들의 다양한 HOA 채널들의 제거로 인한 에너지 손실을 보상하기 위해 주변 HOA 계수들 (47) 에 대해 에너지 보상을 수행하도록 구성되는 유닛을 나타낼 수도 있다. 에너지 보상 유닛 (38) 은 재순서화된 US[k] 행렬 (33'), 재순서화된 V[k] 행렬 (35'), nFG 신호들 (49), 전경 V[k] 벡터들 (51 k ) 및 주변 HOA 계수들 (47) 중 하나 이상에 대해 에너지 분석을 수행한 다음, 그 에너지 분석에 기초하여 에너지 보상을 수행하여 에너지 보상된 주변 HOA 계수들 (47') 을 생성할 수도 있다. 에너지 보상 유닛 (38) 은 에너지 보상된 주변 HOA 계수들 (47') 을 음향심리 오디오 코더 유닛 (40) 으로 출력할 수도 있다.
시공간적 보간 유닛 (50) 은 k번째 프레임에 대한 전경 V[k] 벡터들 (51 k ) 과 이전 프레임 (그래서 k-1 표기임) 에 대한 전경 V[k-1] 벡터들 (51 k -1) 을 수신하고 시공간적 보간을 수행하여 보간된 전경 V[k] 벡터들을 생성하도록 구성되는 유닛을 나타낼 수도 있다. 시공간적 보간 유닛 (50) 은 nFG 신호들 (49) 과 전경 V[k] 벡터들 (51 k ) 을 재결합하여 재순서화된 전경 HOA 계수들을 복원할 수도 있다. 시공간적 보간 유닛 (50) 은 그 다음에 재순서화된 전경 HOA 계수들을 보간된 V[k] 벡터들에 의해 나누어 보간된 nFG 신호들 (49') 을 생성할 수도 있다. 시공간적 보간 유닛 (50) 은, 오디오 디코딩 디바이스, 이를테면 오디오 디코딩 디바이스 (24) 가, 보간된 전경 V[k] 벡터들을 생성함으로써 전경 V[k] 벡터들 (51 k ) 을 복원할 수도 있도록, 보간된 전경 V[k] 벡터들을 생성하는데 사용된 전경 V[k] 벡터들 (51 k ) 을 또한 출력할 수도 있다. 보간된 전경 V[k] 벡터들을 생성하는데 사용되는 전경 V[k] 벡터들 (51 k ) 은 나머지 전경 V[k] 벡터들 (53) 이라고 지칭된다. 동일한 V[k] 및 V[k-1]이 인코더 및 디코더에서 (보간된 벡터들 V[k]를 생성하기 위해) 사용되는 것을 보장하기 위하여 벡터들의 양자화된/역양자화된 버전들은 인코더 및 디코더에서 사용될 수도 있다. 시공간적 보간 유닛 (50) 은 보간된 nFG 신호들 (49') 을 음향심리 오디오 코더 유닛 (46) 으로 그리고 보간된 전경 V[k] 벡터들 (51 k ) 을 계수 감소 유닛 (46) 으로 출력할 수도 있다.
계수 감소 유닛 (46) 은 배경 채널 정보 (43) 에 기초하여 나머지 전경 V[k] 벡터들 (53) 에 대해 계수 감소를 수행하여 감소된 전경 V[k] 벡터들 (55) 을 양자화 유닛 (52) 으로 출력하도록 구성되는 유닛을 나타낼 수도 있다. 감소된 전경 V[k] 벡터들 (55) 은 크기 D: [(N+1)2 - (NBG+1)2 - BGTOT] x nFG를 가질 수도 있다. 계수 감소 유닛 (46) 은, 이런 점에서, 나머지 전경 V[k] 벡터들 (53) 에서 계수들의 수를 감소시키도록 구성되는 유닛을 나타낼 수도 있다. 다르게 말하면, 계수 감소 유닛 (46) 은 방향 정보를 거의 갖지 않거나 또는 방향 정보가 없는 전경 V[k] 벡터들 (이것들은 나머지 전경 V[k] 벡터들 (53) 을 형성함) 에서 계수들을 제거하도록 구성되는 유닛을 나타낼 수도 있다. 일부 예들에서, 1차 및 0차 기저 함수들 (이는 NBG로서 표시될 수도 있음) 에 대응하는 별개의 또는, 다르게 말하면, 전경 V[k] 벡터들의 계수들은 적은 방향 정보를 제공하고 그러므로 전경 V-벡터들로부터 ("계수 감소"라고 지칭될 수도 있는 프로세스를 통해) 제거될 수 있다. 이 예에서, NBG에 대응하는 계수들을 식별하기 위해서 뿐만 아니라 [(NBG+1)2+1, (N+1)2]의 세트로부터 추가적인 HOA 채널들 (이는 변수 TotalOfAddAmbHOAChan) 에 의해 표시될 수도 있음) 을 식별하기 위해서도 더 큰 유연성이 제공될 수도 있다.
양자화 유닛 (52) 은 감소된 전경 V[k] 벡터들 (55) 을 압축하는 임의 형태의 양자화를 수행하여 코딩된 전경 V[k] 벡터들 (57) 을 생성하며, 코딩된 전경 V[k] 벡터들 (57) 을 비트스트림 생성 유닛 (42) 으로 출력하도록 구성되는 유닛을 나타낼 수도 있다. 동작 시, 양자화 유닛 (52) 은 음장의 공간적 성분, 즉, 이 예에서의 감소된 전경 V[k] 벡터들 (55) 중 하나 이상을 압축하도록 구성되는 유닛을 나타낼 수도 있다. 양자화 유닛 (52) 은, "NbitsQ"로 표시된 양자화 모드 신택스 엘리먼트에 의해 나타내어진 바와 같이, 다음 12 개 양자화 모드들 중 어느 하나의 모드를 수행할 수도 있다:
NbitsQ 값 양자화 모드의 유형
0~3: 유보됨
4: 벡터 양자화
5: 허프만 코딩이 없는 스칼라 양자화
6: 허프만 코딩과 함께 6-비트 스칼라 양자화
7: 허프만 코딩과 함께 7-비트 스칼라 양자화
8: 허프만 코딩과 함께 8-비트 스칼라 양자화
… …
16: 허프만 코딩과 함께 16-비트 스칼라 양자화
양자화 유닛 (52) 은 전술한 양자화 모드들의 유형들 중 임의의 양자화 모드 유형의 예측된 버전들을 또한 수행할 수도 있는데, 이전 프레임의 V-벡터의 엘리먼트 (또는 벡터 양자화가 수행되는 경우의 가중치) 와 현재 프레임의 V-벡터의 엘리먼트 (또는 벡터 양자화가 수행되는 경우의 가중치) 간에 차이가 결정된다. 양자화 유닛 (52) 은 그 다음에 현재 프레임 자체의 V-벡터의 엘리먼트의 값이 아니라 현재 프레임 및 이전 프레임의 엘리먼트들 또는 가중치들 간의 차이를 양자화할 수도 있다.
양자화 유닛 (52) 은 감소된 전경 V[k] 벡터들 (55) 의 다수의 코딩된 버전들을 획득하기 위해 감소된 전경 V[k] 벡터들 (55) 의 각각에 대해 다수의 형태들의 양자화를 수행할 수도 있다. 양자화 유닛 (52) 은 감소된 전경 V[k] 벡터들 (55) 의 코딩된 버전들 중 하나를 코딩된 전경 V[k] 벡터 (57) 로서 선택할 수도 있다. 양자화 유닛 (52) 은, 다르게 말하면, 본 개시물에서 논의되는 기준들의 임의의 조합에 기초하여 비-예측된 벡터-양자화된 V-벡터, 예측된 벡터-양자화된 V-벡터, 비-허프만-코딩된 스칼라-양자화된 V-벡터, 및 허프만-코딩된 스칼라-양자화된 V-벡터 중 하나를 출력 스위치된-양자화된 V-벡터로서 사용하기 위해 선택할 수도 있다. 일부 예들에서, 양자화 유닛 (52) 은 벡터 양자화 모드와 하나 이상의 스칼라 양자화 모드들을 포함하는 양자화 모드들의 세트로부터 양자화 모드를 선택하고, 선택된 모드에 기초하여 (또는 선택된 모드에 따라) 입력 V-벡터를 양자화할 수도 있다. 양자화 유닛 (52) 은 그 다음에 (예컨대, 가중치 값들 또는 그 가중치 값들을 나타내는 비트들의 측면에서의) 비-예측된 벡터-양자화된 V-벡터, (예컨대, 에러 값들 또는 그 에러 값들을 나타내는 비트들의 측면에서의) 예측된 벡터-양자화된 V-벡터, 비-허프만-코딩된 스칼라-양자화된 V-벡터 및 허프만-코딩된 스칼라-양자화된 V-벡터 중 선택된 하나의 V-벡터를 비트스트림 생성 유닛 (52) 에 코딩된 전경 V[k] 벡터들 (57) 로서 제공할 수도 있다. 양자화 유닛 (52) 은 양자화 모드를 나타내는 신택스 엘리먼트들 (예컨대, NbitsQ 신택스 엘리먼트) 과 V-벡터를 역양자화 또는 그렇지 않으면 복원하기 위해 사용되는 임의의 다른 신택스 엘리먼트들을 또한 제공할 수도 있다.
오디오 인코딩 디바이스 (20) 내에 포함되는 음향심리 오디오 코더 유닛 (40) 은 음향심리 오디오 코더의 다수의 인스턴스들을 나타낼 수도 있는데, 그들 인스턴스들의 각각은 인코딩된 주변 HOA 계수들 (59) 및 인코딩된 nFG 신호들 (61) 을 생성하기 위해 에너지 보상된 주변 HOA 계수들 (47') 및 보간된 nFG 신호들 (49') 중 각각의 에너지 보상된 주변 HOA 계수 또는 보간된 nFG 신호의 상이한 오디오 오브젝트 또는 HOA 채널을 인코딩하는데 사용된다. 음향심리 오디오 코더 유닛 (40) 은 인코딩된 주변 HOA 계수들 (59) 과 인코딩된 nFG 신호들 (61) 을 비트스트림 생성 유닛 (42) 으로 출력할 수도 있다.
오디오 인코딩 디바이스 (20) 내에 포함되는 비트스트림 생성 유닛 (42) 은 알려진 포맷 (이는 디코딩 디바이스에 의해 알려진 포맷을 지칭할 수도 있음) 을 준수하도록 데이터를 포맷팅함으로써, 벡터-기반 비트스트림 (21) 을 생성하는 유닛을 나타낸다. 비트스트림 (21) 은, 다르게 말하면, 위에서 설명된 방식으로 인코딩되었던 인코딩된 오디오 데이터를 나타낼 수도 있다. 비트스트림 생성 유닛 (42) 은 일부 예들에서 멀티플렉서를 나타낼 수도 있는데, 이 멀티플렉서는 코딩된 전경 V[k] 벡터들 (57), 인코딩된 주변 HOA 계수들 (59), 인코딩된 nFG 신호들 (61) 및 배경 채널 정보 (43) 를 수신할 수도 있다. 비트스트림 생성 유닛 (42) 은 그 다음에 코딩된 전경 V[k] 벡터들 (57), 인코딩된 주변 HOA 계수들 (59), 인코딩된 nFG 신호들 (61) 및 배경 채널 정보 (43) 에 기초하여 비트스트림 (21) 을 생성할 수도 있다. 이런 식으로, 비트스트림 생성 유닛 (42) 은, 아래에서 도 7의 예에 대해 더 상세히 설명되는 바와 같이, 이에 의해 비트스트림 (21) 을 획득하기 위해 비트스트림 (21) 에서의 벡터들 (57) 을 특정할 수도 있다. 비트스트림 (21) 은 기본 또는 메인 비트스트림과 하나 이상의 사이드 채널 비트스트림들을 포함할 수도 있다.
본 개시물의 하나 이상의 양태들에 따르면, 비트스트림 생성 유닛 (42) 은 오디오 오브젝트들에 연관된 하나 이상의 특이값들에 기초하여 오디오 오브젝트들에 비트들을 할당할 수도 있다. 예를 들면, 배경 오디오 오브젝트들에 대한 특이값들이 (예컨대, 진폭에서) 충분히 낮아서 코딩된 전경 V[k] 벡터들 (57) 과 인코딩된 nFG 신호들 (61) 이 시그널링된 오디오 데이터를 적절히 표현하거나 또는 그렇지 않으면 설명하는 경우들에서, 비트스트림 생성 유닛 (42) 은 이용가능 비트들의 모두를 코딩된 전경 V[k] 벡터들 (57) 에 할당할 수도 있다. 예를 들면, 오디오 오브젝트에 대한 특이값들은 (예컨대, 에너지의 제곱근을 표현함으로써) 오디오 오브젝트의 에너지에 대응한다. 배경 오디오 오브젝트들에 대한 V[k] 및/또는 US[k] 벡터들에서의 큰 값에 대한 작은 양자화 에러들의 경우들에서, 양자화 에러는 가청적일 수도 있다. 반대로, 배경 오디오 오브젝트들에 대한 V[k] 및/또는 US[k] 벡터들에서의 작은 값에 대한 작은 양자화 에러들의 경우들에서, 양자화 에러는 가청적이 아닐 수도 있다.
결국, 비트스트림 생성 유닛 (42) 은 오디오 오브젝트들에 연관된 특이값들의 강도 (예컨대, 진폭) 에 정비례 방식으로 오디오 오브젝트들에 비트들을 할당하기 위해 양자화 에러 가청도의 이들 양태들을 활용할 수도 있다. 예를 들면, 오디오 오브젝트가 더 작은 진폭 (예컨대, 임계 진폭 미만임) 의 특이값에 연관되는 경우, 비트스트림 생성 유닛 (42) 은 이러한 오디오 오브젝트의 시그널링에 더 적은 수의 이용가능 비트들을 할당할 (또는 심지어 비트들을 할당하지 않을) 수도 있다. 한편, 오디오 오브젝트가 더 큰 진폭 (예컨대, 임계 진폭에 부합하거나 또는 그 임계 진폭을 초과함) 의 특이값에 연관되는 경우, 비트스트림 생성 유닛 (42) 은 이러한 오디오 오브젝트의 시그널링에 더 많은 수의 이용가능 비트들을 할당할 수도 있다.
다양한 예들에서, 수신된 오디오 데이터 (예컨대, 코딩된 전경 V[k] 벡터들 (57), 인코딩된 주변 HOA 계수들 59, 및 인코딩된 nFG 신호들 (61)) 은 더 작은-진폭 특이값들을 갖는 배경 오디오 오브젝트들과 더 큰-진폭 특이값들을 갖는 전경 오디오 오브젝트들을 포함할 수도 있다. 하나의 그런 예에서, 비트스트림 생성 유닛 (42) 은 (예컨대, 벡터-기반 비트스트림 (21) 에서 특정된 바와 같이, 그리고/또는 시그널링을 위해) 전경 오디오 오브젝트들에 이용가능 비트들의 모두를 할당하고, (예컨대, 비트스트림 (21) 에서 특정된 바와 같이, 그리고/또는 시그널링을 위해) 배경 오디오 오브젝트들에 비트들을 할당하지 않을 수도 있다. 다른 그런 예에서, 비트스트림 생성 유닛 (42) 은 각각의 특이값의 특이값 진폭에 비례하는 방식으로 전경 및 배경 오디오 오브젝트들의 각각에 이용가능 비트들의 부분들을 할당할 수도 있다. 이런 방식으로, 비트스트림 생성 유닛 (42) 은 에너지 (예컨대, 중요도) 의 내림 차순으로 비트들을 할당할 수도 있다. 설명된 바와 같이, 특이값의 진폭은 연관된 오디오 오브젝트의 에너지 (및/또는 "고유값") 의 제곱근을 설명한다.
본원에서 설명되는 기법들의 일부에 따르면, 비트스트림 생성 유닛 (42) 은 비트스트림 (21) 에서 특정되어 있는 것에 대해, 단일 오디오 오브젝트에 할당될 수 있는 비트들의 수에 대한 상한 (또는 "캡" 또는 "최대") 을 설정할 수도 있다. 단일 오디오 오브젝트에 할당될 수 있는 비트들의 수를 캐핑 (capping) 함으로써, 비트스트림 생성 유닛 (42) 은 적은 수의 오디오 오브젝트들을 시그널링하는 것에 모든 비트들을 할당하는 것으로 발생하는 잠재적 부정확도들을 완화시키거나 또는 제거할 수도 있으며, 이는 결국 벡터-기반 비트스트림 (21) 으로부터 다른 (잠재적으로 중요한/의미 있는) 오디오 오브젝트들의 표현들의 부재를 야기할 수도 있다.
일부 예들에서, 비트스트림 생성 유닛 (42) 은 각각의 오디오 오브젝트에 대한 특이값의 진폭에 기초하는 공식을 적용함으로써 오디오 오브젝트들에 비트들을 할당할 수도 있다. 하나의 그런 예에서, 비트스트림 생성 유닛 (42) 은 오디오 오브젝트에 대한 특이값의 진폭에 기초하여 오디오 오브젝트에 따른 이용가능 비트들의 백분율을 할당할 수도 있다. 예를 들면, 제 1 전경 오브젝트가 0.6의 진폭을 갖는 특이값을 가진다면, 비트스트림 생성 유닛 (42) 은 이용가능 비트들의 60%를 제 1 전경 오브젝트에 할당할 수도 있다. 덧붙여, 제 2 전경 오브젝트가 0.3의 진폭을 갖는 특이값을 가진다면, 비트스트림 생성 유닛 (42) 은 이용가능 비트들의 30%를 제 2 전경 오브젝트에 할당할 수도 있다. 이 예에서, 나머지 10%가 다른 전경 오디오 오브젝트들에 또한 할당된다면, 비트스트림 생성 유닛은 임의의 배경 오디오 오브젝트들에 임의의 비트들을 할당하지 않을 수도 있다. 이 예에서, 비트스트림 생성 유닛 (42) 은 단일 오디오 오브젝트에 대한 비트들의 상한을 60% 또는 그 이상으로 설정함으로써, 제 1 전경 오브젝트에 대해 60% 비트 할당을 수용할 수도 있다.
일부 예들에서, 비트스트림 생성 유닛 (42) 은 음장에 대한 특정 비트 할당 스킴을 디코딩 디바이스로 시그널링할 수도 있다. 예를 들면, 비트스트림 생성 유닛 (42) 은 음장의 오디오 오브젝트들을 표현하는 비트스트림에서는 "대역외에서" 또는 따로따로, 비트 할당 스킴을 시그널링할 수도 있다. 비트스트림 생성 유닛 (42) 이 특정 음장에 대한 비트 할당 스킴을 시그널링하는 사례들에서, 비트 할당 스킴 데이터는 음장에 대해 설명적 정보 또는 이른바 "메타데이터"인 것으로 간주될 수도 있다. 일부 사례들에서, 비트스트림 생성 유닛 (42) 은 단일 오디오 오브젝트에 할당될 수 있는 비트들의 수에 대한 상한 ("캡" 또는 "최대") 을, 메타데이터의 일부로서 또한 시그널링할 수도 있다.
비록 도 3의 예에서 도시되지 않았지만, 오디오 인코딩 디바이스 (20) 는 현재 프레임이 방향-기반 합성 또는 벡터-기반 합성, 또는 분해를 사용하여 인코딩되는 것인지의 여부에 기초하여, 오디오 인코딩 디바이스 (20) 로부터 출력되는 비트스트림을 (예컨대, 방향-기반 비트스트림 (21) 과 벡터-기반 비트스트림 (21) 간에) 스위칭하는 비트스트림 출력 유닛을 또한 포함할 수도 있다. 비트스트림 출력 유닛은, (HOA 계수들 (11) 이 합성 오디오 오브젝트로부터 생성되었음을 검출한 결과로서) 방향-기반 합성이 수행되었는지 또는 (HOA 계수들이 기록되었음을 검출한 결과로서) 벡터-기반 합성 또는 분해가 수행되었는지를 나타내는, 콘텐츠 분석 유닛 (26) 에 의해 출력되는 신택스 엘리먼트에 기초하여 스위칭을 수행할 수도 있다. 비트스트림 출력 유닛은 비트스트림들 (21) 중 각각의 비트스트림과 함께 현재 프레임에 대해 사용되는 스위칭 또는 현재 인코딩을 표시하기 위해 올바른 헤더 신택스를 특정할 수도 있다.
더구나, 위에서 언급했듯이, 음장 분석 유닛 (44) 은 BGTOT 주변 HOA 계수들 (47) 을 식별할 수도 있는데, 그 계수들은 (비록 가끔은 BGTOT가 둘 이상의 (시간적으로) 인접한 프레임들에 걸쳐 일정하게 또는 동일한 것으로 유지될 수 있더라도) 프레임 단위 기반으로 변경될 수도 있다. BGTOT에서의 변경은 감소된 전경 V[k] 벡터들 (55) 에서 표현되는 계수들에 대한 변경들을 초래할 수도 있다. BGTOT에서의 변경은 (비록, 다시, 가끔은 BGTOT가 둘 이상의 (시간적으로) 인접한 프레임들에 걸쳐 일정하게 또는 동일한 것으로 유지될 수 있더라도) 프레임 단위 기반으로 변경되는 배경 HOA 계수들 (이것들은 "주변 HOA 계수들"이라고 또한 지칭될 수도 있음) 을 초래할 수도 있다. 그 변경들은 추가적인 주변 HOA 계수들의 추가 또는 제거와 감소된 전경 V[k] 벡터들 (55) 에의 계수들의 대응하는 추가 또는 그 벡터들로부터의 계수들의 대응하는 제거에 의해 표현되는 음장의 양태들에 대한 에너지의 변경을 종종 초래한다.
그 결과, 음장 분석 유닛 (44) 은 게다가, 주변 HOA 계수들이 프레임마다 변경되는 경우를 결정하고 음장의 주변 성분들을 표현하는데 사용된 것의 측면에서 주변 HOA 계수에 대한 변경을 나타내는 플래그 또는 다른 신택스 엘리먼트를 생성할 수도 있다 (그 변경은 주변 HOA 계수의 "전이"라고 또는 주변 HOA 계수의 "전이"라고 또한 지칭될 수도 있음). 특히, 계수 감소 유닛 (46) 은 플래그 (이는 AmbCoeffTransition 플래그 또는 AmbCoeffIdxTransition 플래그로서 표시될 수도 있음) 를 생성하여, 그 플래그를 비트스트림 생성 유닛 (42) 으로 제공할 수도 있어서 그 플래그는 비트스트림 (21) 에 (아마도 사이드 채널 정보의 일부로서) 포함될 수도 있다.
계수 감소 유닛 (46) 은, 주변 계수 전이 플래그를 특정하는 것 외에도, 감소된 전경 V[k] 벡터들 (55) 이 생성되는 방법을 또한 수정할 수도 있다. 하나의 예에서, 주변 HOA 주변 계수들 중 하나가 현재 프레임 동안 전이된다는 결정 시, 계수 감소 유닛 (46) 은, 감소된 전경 V[k] 벡터들 (55) 중 전이 시의 주변 HOA 계수에 대응하는 V-벡터들의 각각에 대해 벡터 계수 (이는 "벡터 엘리먼트" 또는 "엘리먼트"라고 또한 지칭될 수도 있음) 를 특정할 수도 있다. 다시, 전이 시의 주변 HOA 계수는 BGTOT 즉, 배경 계수들의 총 수에 추가되거나 또는 그 총 수로부터 제거될 수도 있다. 그러므로, 배경 계수들의 총 수에서의 결과적인 변경은 주변 HOA 계수가 비트스트림 내에 포함되는지의 여부와, V-벡터들 중 대응 엘리먼트가 위에서 설명된 제 2 및 제 3 구성 모드들에서 비트스트림에서 특정된 V-벡터들에 포함되는지의 여부에 영향을 미친다. 계수 감소 유닛 (46) 이 에너지에서의 변경을 극복하기 위해 감소된 전경 V[k] 벡터들 (55) 을 특정할 수도 있는 방법에 관한 더 많은 정보가, 발명의 명칭 "TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS"으로 2015년 1월 12일자로 출원된 미국 출원 제14/594,533호에서 제공된다.
도 4는 도 2의 오디오 디코딩 디바이스 (24) 를 더 상세히 예시하는 블록도이다. 도 4의 예에서 도시된 바와 같이 오디오 디코딩 디바이스 (24) 는 추출 유닛 (72), 방향성-기반 복원 유닛 (90) 및 벡터-기반 복원 유닛 (92) 을 포함할 수도 있다. 비록 아래에서 설명되지만, 오디오 디코딩 디바이스 (24) 와 HOA 계수들을 압축해제하거나 또는 그렇지 않으면 디코딩하는 다양한 양태들에 관한 더 많은 정보가 2014년 5월 29일자로 출원된 "INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD"라는 명칭의 국제 특허 출원 공개 WO 2014/194099호에서 입수 가능하다.
추출 유닛 (72) 은 비트스트림 (21) 을 수신하고 HOA 계수들 (11) 의 다양한 인코딩된 버전들 (예컨대, 방향-기반 인코딩된 버전 또는 벡터-기반 인코딩된 버전) 을 추출하도록 구성되는 유닛을 나타낼 수도 있다. 추출 유닛 (72) 은 위에서 언급된 신택스 엘리먼트로부터 HOA 계수들 (11) 이 다양한 방향-기반 또는 벡터-기반 버전들을 통해 인코딩되었는지의 여부를 나타내게 결정할 수도 있다. 방향-기반 인코딩이 수행된 경우, 추출 유닛 (72) 은 HOA 계수들 (11) 의 방향-기반 버전과 인코딩된 버전에 연관된 신택스 엘리먼트들 (이는 도 4의 예에서의 방향-기반 정보 (91) 로서 표시됨) 을 추출하여, 그 방향 기반 정보 (91) 를 방향-기반 복원 유닛 (90) 으로 전해줄 수도 있다. 방향-기반 복원 유닛 (90) 은 방향-기반 정보 (91) 에 기초하여 HOA 계수들 (11') 의 형태로 HOA 계수들을 복원하도록 구성되는 유닛을 나타낼 수도 있다. 비트스트림과 그 비트스트림 내의 신택스 엘리먼트들의 배열은 본 개시물의 다른 부분들에서 더 상세히 설명된다.
HOA 계수들 (11) 이 벡터-기반 합성 또는 분해를 사용하여 인코딩되었다고 신택스 엘리먼트가 나타내는 경우, 추출 유닛 (72) 은 코딩된 전경 V[k] 벡터들 (57) (이는 코딩된 가중치들 (57) 및/또는 인덱스들 (63) 또는 스칼라 양자화된 V-벡터들을 포함할 수도 있음), 인코딩된 주변 HOA 계수들 (59) 및 대응하는 오디오 오브젝트들 (61) (이는 인코딩된 nFG 신호들 (61) 이라고 또한 지칭될 수도 있음) 을 추출할 수도 있다. 오디오 오브젝트들 (61) 각각은 벡터들 (57) 중 하나의 벡터에 대응한다. 추출 유닛 (72) 은 코딩된 전경 V[k] 벡터들 (57) 을 V-벡터 복원 유닛 (74) 으로 그리고 인코딩된 주변 HOA 계수들 (59) 을 인코딩된 nFG 신호들 (61) 과 함께 (옵션적인) 음향심리 디코딩 유닛 (80) 로 전해줄 수도 있다. 음향심리 디코딩 유닛 (80) 은 오디오 디코딩 디바이스 (24) 의 상이한 구현예들에 대해 음향심리 디코딩 유닛 (80) 의 옵션적 성질을 예시하기 위해 도 4에서 파선 테두리들로 도시된다.
일부 예들에서, 추출 유닛 (72) 은 비트스트림 (21) 에 의해 표현되는 음장에 대한 특정 비트 할당 스킴을 수신할 수도 있다. 예를 들면, 추출 유닛 (72) 은 음장의 오디오 오브젝트들을 표현하는 비트스트림에서는 "대역외에서" 또는 따로따로, 비트 할당 스킴을 수신할 수도 있다. 추출 유닛 (72) 이 특정 음장에 대한 비트 할당 스킴을 수신하는 사례들에서, 오디오 디코딩 디바이스 (24) 는 음장에 대한 설명적 정보 또는 이른바 "메타데이터"로서 비트 할당 스킴 데이터를 사용할 수도 있다.
예를 들면, 오디오 디코딩 디바이스 (24) 의 하나 이상의 컴포넌트들은 각각의 시그널링된 오디오 오브젝트에 특정 수 (이는 비트들의 총 수의 비율로서 표현될 수도 있음) 의 비트들을 배정하기 위해 비트 할당 메타데이터를 사용할 수도 있다. 전경-전용 시나리오에서, 오디오 디코딩 디바이스 (24) 는 수신된 메타데이터를 적용하여 음장의 모든 비트들을 음장의 전경 오브젝트들에 배정할 수도 있다. 도 3에 대해 위에서 설명된 특정 전경에 따르면, 오디오 디코딩 디바이스 (24) 는 음장의 총 비트들의 60%를 음장의 제 1 전경 오디오 오브젝트에, 30%를 음장의 제 2 전경 오디오 오브젝트에 배정할 수도 있고 특정 전경 오디오 오브젝트들에 의해 디스플레이되는 개개의 에너지들에 기초하여, 비트들의 나머지 10%를 음장의 나머지 전경 오디오 오브젝트들에 분배할 수도 있다.
일부 예들에서, 수신된 메타데이터는 단일 오디오 오브젝트에 할당될 수 있는 비트들의 수에 대한 상한 ("캡" 또는 "최대") 을, 그 메타데이터의 일부로서 또한 포함할 수도 있다. 이들 사례들에서, 오디오 디코딩 디바이스 (24) 는 대응하는 음장의 개개의 오디오 오브젝트에 수신된 상한보다 더 많은 비트들이 할당될 수 없다고 결정할 수도 있다. 단일 오디오 오브젝트에 할당될 수 있는 비트들의 수를 캐핑함으로써, 오디오 디코딩 디바이스는 적은 수의 오디오 오브젝트들을 렌더링하는 것에 모든 비트들을 할당하는 것으로 발생하는 잠재적 부정확도들을 완화시키거나 또는 제거할 수도 있으며, 이는 결국 렌더링된 음장으로부터 다른 (잠재적으로 중요한/의미 있는) 오디오 오브젝트들의 표현들의 부재를 야기할 수도 있다.
V-벡터 복원 유닛 (74) 은 인코딩된 전경 V[k] 벡터들 (57) 로부터 V-벡터들을 복원하도록 구성되는 유닛을 나타낼 수도 있다. V-벡터 복원 유닛 (74) 은 양자화 유닛 (52) 의 방식의 역인 방식으로 동작할 수도 있다.
음향심리 디코딩 유닛 (80) 은 인코딩된 주변 HOA 계수들 (59) 과 인코딩된 nFG 신호들 (61) 을 디코딩하기 위해서 도 3의 예에 도시된 음향심리 오디오 코더 유닛 (40) 에 역인 방식으로 동작함으로써, 에너지 보상된 주변 HOA 계수들 (47') 과 보간된 nFG 신호들 (49') (이는 보간된 nFG 오디오 오브젝트들 (49') 이라고 또한 지칭될 수도 있음) 을 생성할 수도 있다. 음향심리 디코딩 유닛 (80) 은 에너지 보상된 주변 HOA 계수들 (47') 을 페이드 유닛 (770) 으로 그리고 nFG 신호들 (49') 을 전경 공식화 유닛 (78) 으로 전해줄 수도 있다.
시공간적 보간 유닛 (76) 은 시공간적 보간 유닛 (50) 에 대해 위에서 설명된 방식과 유사한 방식으로 동작할 수도 있다. 시공간적 보간 유닛 (76) 은 감소된 전경 V[k] 벡터들 (55 k ) 을 수신하고 전경 V[k] 벡터들 (55 k ) 및 감소된 전경 V[k-1] 벡터들 (55 k -1) 에 대해 시공간적 보간을 수행하여 보간된 전경 V[k] 벡터들 (55 k '') 을 생성할 수도 있다. 시공간적 보간 유닛 (76) 은 보간된 전경 V[k] 벡터들 (55k'') 을 페이드 유닛 (770) 으로 포워딩할 수도 있다.
추출 유닛 (72) 은 주변 HOA 계수들 중 하나가 전이하는 경우를 나타내는 신호 (757) 를 페이드 유닛 (770) 으로 또한 출력할 수도 있으며, 페이드 유닛은 그러면 SHCBG (47') (SHCBG (47') 는 "주변 HOA 채널들 (47')" 또는 "주변 HOA 계수들 (47'") 이라고 또한 표시될 수도 있음) 와 보간된 전경 V[k] 벡터들 (55 k '') 의 엘리먼트들 중 어느 것이 페이드-인 또는 페이드-아웃 중 어느 하나가 될지를 결정할 수도 있다. 일부 예들에서, 페이드 유닛 (770) 은 주변 HOA 계수들 (47') 과 보간된 전경 V[k] 벡터들 (55 k '') 의 엘리먼트들의 각각에 대해 반대로 동작할 수도 있다. 다시 말하면, 페이드 유닛 (770) 은 주변 HOA 계수들 (47') 중 대응하는 하나에 대해 페이드-인 또는 페이드-아웃, 또는 페이드-인 또는 페이드-아웃 둘 다를 수행할 수도 있는 한편, 보간된 전경 V[k] 벡터들 (55 k '') 의 엘리먼트들 중 대응하는 하나에 대해 페이드-인 또는 페이드-아웃, 또는 페이드-인 및 페이드-아웃 둘 다를 수행할 수도 있다. 페이드 유닛 (770) 은 조정된 주변 HOA 계수들 (47'') 을 HOA 계수 공식화 유닛 (82) 으로 그리고 조정된 전경 V[k] 벡터들 (55 k ''') 을 전경 공식화 유닛 (78) 으로 출력할 수도 있다. 이런 점에서, 페이드 유닛 (770) 은, 예컨대, 주변 HOA 계수들 (47') 과 보간된 전경 V[k] 벡터들 (55 k '') 의 엘리먼트들의 형태로, HOA 계수들 또는 그 미분계수들의 다양한 양태들에 대해 페이드 동작을 수행하도록 구성되는 유닛을 나타낸다.
전경 공식화 유닛 (78) 은 조정된 전경 V[k] 벡터들 (55 k ''') 및 보간된 nFG 신호들 (49') 에 대해 행렬 곱셈을 수행하여 전경 HOA 계수들 (65) 을 생성하는 유닛을 나타낸다. 이런 점에서, 전경 공식화 유닛 (78) 은 오디오 오브젝트들 (49') (이는 보간된 nFG 신호들 (49') 을 표시하기 위한 다른 방도임) 과 벡터들 (55 k ''') 을 결합하여 HOA 계수들 (11') 의 전경 또는, 다르게 말하면, 우세 양태들을 복원할 수도 있다. 전경 공식화 유닛 (78) 은 보간된 nFG 신호들 (49') 과 조정된 전경 V[k] 벡터들 (55 k ''') 의 행렬 곱셈을 수행할 수도 있다.
HOA 계수 공식화 유닛 (82) 은 HOA 계수들 (11') 을 획득하기 위해서 전경 HOA 계수들 (65) 을 조정된 주변 HOA 계수들 (47'') 에 결합하도록 구성되는 유닛을 나타낼 수도 있다. 프라임 표기법은 HOA 계수들 (11') 이 HOA 계수들 (11) 과는 유사하지만 동일하지 않을 수도 있다는 것을 반영한다. HOA 계수들 (11 및 11') 간의 차이들은 손실 송신 매체를 통한 송신, 양자화 또는 다른 손실 동작들로 인한 손실로부터 초래될 수도 있다.
도 5a는 본 개시물에서 설명되는 분해 기법들의 다양한 양태들을 수행함에 있어서, 도 3의 예에 도시된 오디오 인코딩 디바이스 (20) 와 같은 오디오 인코딩 디바이스의 예시적인 동작을 도시하는 흐름도이다. 처음에, 오디오 인코딩 디바이스 (20) 는 HOA 계수들 (11) 을 수신한다 (106). 오디오 인코딩 디바이스 (20) 는 LIT 유닛 (30) 을 호출하며, LIT 유닛은 HOA 계수들에 대해 LIT를 적용하여 변환된 HOA 계수들을 출력할 수도 있다 (예컨대, SVD의 경우, 변환된 HOA 계수들은 US[k] 벡터들 (33) 과 V[k] 벡터들 (35) 을 포함할 수도 있다) (107).
오디오 인코딩 디바이스 (20) 는 다양한 파라미터들을 위에서 설명된 방식으로 식별하기 위해 파라미터 계산 유닛 (32) 을 호출하여 US[k] 벡터들 (33), US[k-1] 벡터들 (33), V[k] 및/또는 V[k-1] 벡터들 (35) 의 임의의 조합에 대해 위에서 설명된 분석을 수행할 수도 있다. 다시 말하면, 파라미터 계산 유닛 (32) 은 변환된 HOA 계수들 (33/35) 의 분석에 기초하여 적어도 하나의 파라미터를 결정할 수도 있다 (108).
오디오 인코딩 디바이스 (20) 는 그 다음에 재순서화 유닛 (34) 을 호출할 수도 있으며, 재순서화 유닛은, 위에서 설명된 바와 같이, 파라미터에 기초하여 변환된 HOA 계수들 (이는, 다시 SVD의 맥락에서, US[k] 벡터들 (33) 및 V[k] 벡터들 (35) 이라고 지칭될 수도 있음) 을 재순서화하여, 재순서화된 변환된 HOA 계수들 (33'/35') (또는, 다르게 말하면, US[k] 벡터들 (33') 및 V[k] 벡터들 (35')) 을 생성할 수도 있다 (109). 오디오 인코딩 디바이스 (20) 는, 전술한 동작들 또는 후속 동작들 중 임의의 동작 동안, 음장 분석 유닛 (44) 을 또한 호출할 수도 있다. 음장 분석 유닛 (44) 은, 위에서 설명된 바와 같이, HOA 계수들 (11) 및/또는 변환된 HOA 계수들 (33/35) 에 대해 음장 분석을 수행하여 전경 채널들의 총 수 (nFG) (45), 배경 음장의 차수 (NBG) 및 전송할 추가적인 BG HOA 채널들의 수 (nBGa) 및 인덱스들 (i) (이것들은 도 3의 예에서 배경 채널 정보 (43) 로서 총칭하여 표시될 수도 있음) 를 결정할 수도 있다 (109).
오디오 인코딩 디바이스 (20) 는 배경 선택 유닛 (48) 을 또한 호출할 수도 있다. 배경 선택 유닛 (48) 은 배경 채널 정보 (43) 에 기초하여 배경 또는 주변 HOA 계수들 (47) 을 결정할 수도 있다 (110). 오디오 인코딩 디바이스 (20) 는 전경 선택 유닛 (36) 을 추가로 호출할 수도 있으며, 전경 선택 유닛은 nFG (45) (이는 전경 벡터들을 식별하는 하나 이상의 인덱스들을 나타낼 수도 있음) 에 기초하여, 음장의 전경 또는 별개의 성분들을 표현하는 재순서화된 US[k] 벡터들 (33') 및 재순서화된 V[k] 벡터들 (35') 을 선택할 수도 있다 (112).
오디오 인코딩 디바이스 (20) 는 에너지 보상 유닛 (38) 을 호출할 수도 있다. 에너지 보상 유닛 (38) 은 배경 선택 유닛 (48) 에 의한 HOA 계수들 중 다양한 HOA 계수들의 제거로 인한 에너지 손실을 보상하기 위해 주변 HOA 계수들 (47) 에 대해 에너지 보상을 수행함으로써, 에너지 보상된 주변 HOA 계수들 (47') 을 생성할 수도 있다 (114).
오디오 인코딩 디바이스 (20) 는 시공간적 보간 유닛 (50) 을 또한 호출할 수도 있다. 시공간적 보간 유닛 (50) 은 재순서화된 변환된 HOA 계수들 (33'/35') 에 대해 시공간적 보간을 수행하여 보간된 전경 신호들 (49') (이는 "보간된 nFG 신호들 (49'") 이라고 또한 지칭될 수도 있음) 과 나머지 전경 방향 정보 (53) (이는 "V[k] 벡터들 (53") 이라고 도한 지칭될 수도 있음) 를 획득할 수도 있다 (116). 오디오 인코딩 디바이스 (20) 는 그 다음에 계수 감소 유닛 (46) 을 호출할 수도 있다. 계수 감소 유닛 (46) 은 배경 채널 정보 (43) 에 기초하여 나머지 전경 V[k] 벡터들 (53) 에 대해 계수 감소를 수행하여 감소된 전경 방향 정보 (55) (이는 감소된 전경 V[k] 벡터들 (55) 이라고 또한 지칭될 수도 있음) 를 획득할 수도 있다 (118).
오디오 인코딩 디바이스 (20) 는 그 다음에 양자화 유닛 (52) 을 호출하여, 위에서 설명된 방식으로, 감소된 전경 V[k] 벡터들 (55) 을 압축하고 코딩된 전경 V[k] 벡터들 (57) 을 생성할 수도 있다 (120).
오디오 인코딩 디바이스 (20) 는 음향심리 오디오 코더 유닛 (40) 를 또한 호출할 수도 있다. 음향심리 오디오 코더 유닛 (40) 은 에너지 보상된 주변 HOA 계수들 (47') 및 보간된 nFG 신호들 (49') 의 각각의 벡터를 음향심리 코딩하여 인코딩된 주변 HOA 계수들 (59) 및 인코딩된 nFG 신호들 (61) 을 생성할 수도 있다. 오디오 인코딩 디바이스는 그 다음에 비트스트림 생성 유닛 (42) 을 호출할 수도 있다. 비트스트림 생성 유닛 (42) 은 코딩된 전경 방향 정보 (57), 코딩된 주변 HOA 계수들 (59), 코딩된 nFG 신호들 (61) 및 배경 채널 정보 (43) 에 기초하여 비트스트림 (21) 을 생성할 수도 있다.
도 5b는 본 개시물에서 설명되는 코딩 기법들을 수행함에 있어서 오디오 인코딩 디바이스의 예시적인 동작을 도시하는 흐름도이다. 도 5b의 예에서, 오디오 인코딩 디바이스 (예컨대, 도 1 및 도 2의 오디오 인코딩 디바이스 (20)) 는 음장의 오디오 오브젝트들에 연관된 하나 이상의 특이값들을 획득할 수도 있다 (150). 위에서 논의된 바와 같이, 음장의 오디오 오브젝트들은 전경 오디오 오브젝트들과 배경 오디오 오브젝트들을 포함할 수도 있다. 덧붙여, 오디오 인코딩 디바이스 (20) 는 음장의 HOA 계수들로부터 획득된 특이값들이 음장의 몇몇 오디오 오브젝트들 중에 집중되는지의 여부를 결정할 수도 있다 (152). 예를 들면, 오디오 인코딩 디바이스 (20) 는 각각의 배경 오디오 오브젝트에 대한 특이값을 대응하는 고유값의 제곱근을 계산함으로써 획득할 수도 있다. 덧붙여, 오디오 인코딩 디바이스 (20) 는 미리 결정된 최소 에너지 값에 대응하는 임계 진폭을 설정할 수도 있다.
오디오 오브젝트들의 특이값들이 음장의 몇몇 오디오 오브젝트들 중에만 집중된다고 오디오 인코딩 디바이스 (20) 가 결정한다면 (152의 '예' 분기), 오디오 인코딩 디바이스 (20) 는 음장의 전경 오디오 오브젝트(들)만을 코딩할 수도 있다 (154). 반대로, 특이값들이 음장의 오디오 오브젝트들 전체에 걸쳐 상대적으로 더 많이 분산된다고 오디오 인코딩 디바이스 (20) 가 결정한다면 (152의 '아니오' 분기), 오디오 인코딩 디바이스 (20) 는 음장의 전경 및 배경 오디오 오브젝트들 양쪽 모두를 코딩할 수도 있다 (156).
덧붙여, 단계 154 또는 154에서 각각의 오디오 오브젝트(들)를 경우에 따라 코딩할 시, 오디오 인코딩 디바이스 (20) 는 음장의 코딩된 오디오 오브젝트(들)에 대해 비트 할당을 결정할 수도 있다 (158). 오디오 인코딩 디바이스 (20) 가 전경 오디오 오브젝트들 (154) 만을 코딩했던 사례에서, 오디오 인코딩 디바이스는 전경 오디오 오브젝트들 중에만 (다양한 비율들로) 비트들을 할당할 수도 있다. 오디오 인코딩 디바이스 (20) 가 전경 및 배경 오디오 오브젝트들 양쪽 모두를 코딩했던 사례에서 (156), 오디오 인코딩 디바이스 (20) 는, 필수 비트들을 모든 전경 오디오 오브젝트들에 할당한 후, 나머지 비트들을 배경 오디오 오브젝트들 중에 할당할 수도 있다.
도 6은 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행함에 있어서, 도 4에서 도시된 오디오 디코딩 디바이스 (24) 와 같은 오디오 디코딩 디바이스의 예시적인 동작을 도시하는 흐름도이다. 처음에, 오디오 디코딩 디바이스 (24) 비트스트림 (21) 을 수신할 수도 있다 (130). 비트스트림을 수신 시, 오디오 디코딩 디바이스 (24) 는 추출 유닛 (72) 을 호출할 수도 있다. 논의 목적을 위해 벡터-기반 복원이 수행될 것임을 비트스트림 (21) 이 나타낸다고 가정하면, 추출 유닛 (72) 은 비트스트림을 파싱하여 위에서 언급된 정보를 취출하며, 그 정보를 벡터-기반 복원 유닛 (92) 으로 전해줄 수도 있다.
다르게 말하면, 추출 유닛 (72) 은, 비트스트림 (21) 으로부터 코딩된 전경 방향 정보 (57) (이는, 다시, 코딩된 전경 V[k] 벡터들 (57) 이라고 또한 지칭될 수도 있음), 코딩된 주변 HOA 계수들 (59) 및 코딩된 전경 신호들 (이는 코딩된 전경 nFG 신호들 (59) 또는 코딩된 전경 오디오 오브젝트들 (59) 이라고 또한 지칭될 수도 있음) 을 위에서 설명된 방식으로 추출할 수도 있다 (132).
오디오 디코딩 디바이스 (24) 는 역양자화 유닛 (74) 을 추가로 호출할 수도 있다. 역양자화 유닛 (74) 은 코딩된 전경 방향 정보 (57) 를 엔트로피 디코딩하고 역양자화하여 감소된 전경 방향 정보 (55k) 를 획득할 수도 있다 (136). 오디오 디코딩 디바이스 (24) 는 음향심리 디코딩 유닛 (80) 을 또한 호출할 수도 있다. 음향심리 오디오 디코딩 유닛 (80) 은 인코딩된 주변 HOA 계수들 (59) 및 인코딩된 전경 신호들 (61) 을 디코딩하여 에너지 보상된 주변 HOA 계수들 (47') 및 보간된 전경 신호들 (49') 을 획득할 수도 있다 (138). 음향심리 디코딩 유닛 (80) 은 에너지 보상된 주변 HOA 계수들 (47') 을 페이드 유닛 (770) 으로 그리고 nFG 신호들 (49') 을 전경 공식화 유닛 (78) 으로 전해줄 수도 있다.
오디오 디코딩 디바이스 (24) 은 다음으로 시공간적 보간 유닛 (76) 을 호출할 수도 있다. 시공간적 보간 유닛 (76) 은 재순서화된 전경 방향 정보 (55k') 를 수신하고 감소된 전경 방향 정보 (55 k /55 k -1) 에 대해 시공간적 보간을 수행하여 보간된 전경 방향 정보 (55 k '') 를 생성할 수도 있다 (140). 시공간적 보간 유닛 (76) 은 보간된 전경 V[k] 벡터들 (55 k '') 을 페이드 유닛 (770) 으로 포워딩할 수도 있다.
오디오 디코딩 디바이스 (24) 는 페이드 유닛 (770) 을 호출할 수도 있다. 페이드 유닛 (770) 은 에너지 보상된 주변 HOA 계수들 (47') 이 전이되고 있는 경우를 나타내는 신택스 엘리먼트들 (예컨대, AmbCoeffTransition 신택스 엘리먼트) 을 (예컨대, 추출 유닛 (72) 으로부터) 수신하거나 또는 그렇지 않으면 획득할 수도 있다. 페이드 유닛 (770) 은, 전이 신택스 엘리먼트들 및 유지된 전이 상태 정보에 기초하여, 에너지 보상된 주변 HOA 계수들 (47') 을 페이드-인 또는 페이드-아웃하여 조정된 주변 HOA 계수들 (47'') 을 HOA 계수 공식화 유닛 (82) 으로 출력할 수도 있다. 페이드 유닛 (770) 은, 신택스 엘리먼트들 및 유지된 전이 상태 정보에 기초하여, 보간된 전경 V[k] 벡터들 (55 k '') 의 대응하는 하나 이상의 엘리먼트들을 페이드-인 또는 페이드-아웃하여 조정된 전경 V[k] 벡터들 (55 k ''') 을 전경 공식화 유닛 (78) 으로 출력할 수도 있다 (142).
오디오 디코딩 디바이스 (24) 는 전경 공식화 유닛 (78) 을 호출할 수도 있다. 전경 공식화 유닛 (78) 은 조정된 전경 방향 정보 (55 k ''') 에 의해 행렬 곱셈 nFG 신호들 (49') 을 수행하여 전경 HOA 계수들 (65) 을 획득할 수도 있다 (144). 오디오 디코딩 디바이스 (24) 는 HOA 계수 공식화 유닛 (82) 을 또한 호출할 수도 있다. HOA 계수 공식화 유닛 (82) 은 HOA 계수들 (11') 을 획득하기 위해서 전경 HOA 계수들 (65) 을 조정된 주변 HOA 계수들 (47'') 에 추가할 수도 있다 (146).
전술한 기법들은 임의의 수의 상이한 콘텍스트들 및 오디오 생태계들에 대해 수행될 수도 있다. 다수의 예의 콘텍스트들이 아래에서 설명되지만, 그 기법들은 예의 콘텍스트들로 제한되어야 한다. 하나의 예의 오디오 생태계가 오디오 콘텐츠, 영화 스튜디오들, 음악 스튜디오들, 게이밍 오디오 스튜디오들, 채널 기반 오디오 콘텐츠, 코딩 엔진들, 게임 오디오 스템들, 게임 오디오 코딩/렌더링 엔진들, 및 전달 시스템들을 포함할 수도 있다.
영화 스튜디오들, 음악 스튜디오들, 및 게이밍 오디오 스튜디오들은 오디오 콘텐츠를 받을 수도 있다. 일부 예들에서, 오디오 콘텐츠는 취득의 출력을 나타낼 수도 있다. 영화 스튜디오들은 이를테면 디지털 오디오 워크스테이션 (digital audio workstation, DAW) 을 사용함으로써 채널 기반 오디오 콘텐츠를 (예컨대, 2.0, 5.1, 및 7.1로) 출력할 수도 있다. 음악 스튜디오들은 이를테면 DAW를 사용함으로써 채널 기반 오디오 콘텐츠를 (예컨대, 2.0, 및 5.1로) 출력할 수도 있다. 어느 경우에나, 코딩 엔진들은 전달 시스템들에 의한 출력을 위해 하나 이상의 코덱들 (예컨대, AAC, AC3, 돌비 트루 (Dolby True) HD, 돌비 디지털 플러스, 및 DTS 마스터 오디오) 에 기초하여 채널 기반 오디오 콘텐츠를 수신하고 인코딩할 수도 있다. 게이밍 오디오 스튜디오들은 이를테면 DAW를 사용함으로써 하나 이상의 게임 오디오 스템들을 출력할 수도 있다. 게임 오디오 코딩/렌더링 엔진들은 전달 시스템들에 의한 출력을 위해 오디오 스템들을 채널 기반 오디오 콘텐츠로 코딩하고 또는 렌더링할 수도 있다. 기법들이 수행될 수도 있는 다른 예의 콘텍스트는, 브로드캐스트 레코딩 오디오 오브젝트들, 전문가 오디오 시스템들, 소비자 온-디바이스 캡처, HOA 오디오 포맷, 온-디바이스 렌더링, 소비자 오디오, TV, 및 액세서리를 포함할 수도 있는 오디오 생태계와, 차량 오디오 시스템들을 포함한다.
브로드캐스트 레코딩 오디오 오브젝트들, 전문가 오디오 시스템들, 및 소비자 온-디바이스 캡처는 HOA 오디오 포맷을 사용하여 자신들의 출력을 모두 코딩할 수도 있다. 이런 식으로, 오디오 콘텐츠는 온-디바이스 렌더링, 소비자 오디오, TV, 및 액세서리들을 사용하여 재생될 수도 있는 HOA 오디오 포맷과, 차량 오디오 시스템들을 사용하여 단일 표현으로 코딩될 수도 있다. 다르게 말하면, 오디오 콘텐츠의 단일 표현은 오디오 플레이백 시스템 (16) 과 같은 일반 오디오 플레이백 시스템에서 (즉, 5.1, 7.1 등과 같은 특정 구성을 요구하는 것이 아님) 재생될 수도 있다.
기법들이 수행될 수도 있는 콘텍스트의 다른 예들은 취득 엘리먼트들과 플레이백 엘리먼트들을 포함할 수도 있는 오디오 생태계를 포함한다. 취득 엘리먼트들은 유선 및/또는 무선 취득 디바이스들 (예컨대, 아이겐 (Eigen) 마이크로폰들), 온-디바이스 서라운드 사운드 캡처, 및 모바일 디바이스들 (예컨대, 스마트폰들과 테블릿들) 을 포함할 수도 있다. 일부 예들에서, 유선 및/또는 무선 취득 디바이스들은 유선 및/또는 무선 통신 채널(들)을 통해 모바일 디바이스에 커플링될 수도 있다.
본 개시물의 하나 이상의 기법들에 따라, 모바일 디바이스는 음장을 취득하는데 사용될 수도 있다. 예를 들면, 모바일 디바이스는 유선 및/또는 무선 취득 디바이스들 및/또는 온-디바이스 서라운드 사운드 캡처 (예컨대, 모바일 디바이스에 통합된 복수의 마이크로폰들) 를 통해 음장을 취득할 수도 있다. 모바일 디바이스는 그 다음에 플레이백 엘리먼트들의 하나 이상에 의한 플레이백을 위해 취득된 음장을 HOA 계수들로 코딩할 수도 있다. 예를 들면, 모바일 디바이스의 사용자가 라이브 이벤트 (예컨대, 미팅, 회의, 연극, 콘서트 등) 를 레코딩하고 (라이브 이벤트의 음장을 취득하고), 그 레코딩을 rHOA 계수들로 코딩할 수도 있다.
모바일 디바이스는 HOA 코딩된 음장을 재생하기 위해 플레이백 엘리먼트들 중 하나 이상을 또한 이용할 수도 있다. 예를 들면, 모바일 디바이스는 HOA 코딩된 음장을 디코딩하고 플레이백 엘리먼트들 중 하나 이상의 플레이백 엘리먼트들이 음장을 재생성하게 하는 신호를 상기 하나 이상의 플레이백 엘리먼트들에 출력할 수도 있다. 하나의 예로서, 모바일 디바이스는 무선 및/또는 무선 통신 채널들을 이용하여 그 신호를 하나 이상의 스피커들 (예컨대, 스피커 어레이들, 사운드 바들 등) 로 출력할 수도 있다. 다른 예로서, 모바일 디바이스는 도킹 솔루션들을 이용하여 그 신호를 하나 이상의 도킹 스테이션들 및/또는 하나 이상의 도킹된 스피커들 (예컨대, 스마트 차량들 및/또는 가정들에서의 사운드 시스템들) 으로 출력할 수도 있다. 다른 예로서, 모바일 디바이스는, 예컨대, 사실적 양귀 (realistic binaural) 사운드를 생성하기 위해, 헤드폰 렌더링을 이용하여 그 신호를 헤드폰들의 세트로 출력할 수도 있다.
일부 예들에서, 특정 모바일 디바이스가 3D 음장을 취득하는 것과 동일한 3D 음장을 나중에 재생하는 것 둘 다를 할 수도 있다. 일부 예들에서, 모바일 디바이스는 3D 음장을 취득하며, 그 3D 음장을 HOA로 인코딩하고, 인코딩된 3D 음장을 하나 이상의 다른 디바이스들 (예컨대, 다른 모바일 디바이스들 및/또는 다른 비-모바일 디바이스들) 에게 재생을 위해 송신할 수도 있다.
기법들이 수행될 수도 있는 또 다른 콘텍스트는 오디오 콘텐츠, 게임 스튜디오들, 코딩된 오디오 콘텐츠, 렌더링 엔진들, 및 전달 시스템들을 포함할 수도 있는 오디오 생태계를 포함한다. 일부 예들에서, 게임 스튜디오들은 HOA 신호들의 편집을 지원할 수도 있는 하나 이상의 DAW들을 포함할 수도 있다. 예를 들면, 하나 이상의 DAW들은 하나 이상의 게임 오디오 시스템들과 함께 동작 (예컨대, 함께 작동) 하도록 구성될 수도 있는 HOA 플러그인들 및/또는 도구들을 포함할 수도 있다. 일부 예들에서, 게임 스튜디오들은 HOA를 지원하는 새로운 스템 포맷들을 출력할 수도 있다. 어느 경우에나, 게임 스튜디오들은 전달 시스템들에 의한 플레이백을 위해 음장을 렌더링할 수도 있는 랜더링 엔진들에게 코딩된 오디오 콘텐츠를 출력할 수도 있다.
그 기법들은 예시적 오디오 획득 디바이스들에 대해 또한 수행될 수도 있다. 예를 들어, 그 기법들은 3D 음장을 레코딩하도록 집단적으로 구성되는 복수의 마이크로폰들을 포함할 수도 있는 아이겐 마이크로폰에 대해 수행될 수도 있다. 일부 예들에서, 아이겐 마이크로폰의 복수의 마이크로폰들은 대략 4cm의 반경을 갖는 실질적으로 구형 볼의 표면 상에 위치될 수도 있다. 일부 예들에서, 오디오 인코딩 디바이스 (20) 는 비트스트림 (21) 을 마이크로폰으로부터 직접적으로 출력하기 위해서 아이겐 마이크로폰에 통합될 수도 있다.
다른 예시적인 오디오 취득 콘텍스트가 하나 이상의 마이크로폰들, 이를테면 하나 이상의 아이겐 마이크로폰들로부터 신호를 수신하도록 구성될 수도 있는 제작 트럭 (production truck) 을 포함할 수도 있다. 제작 트럭은 오디오 인코더, 이를테면 도 3의 오디오 인코더 (20) 를 또한 포함할 수도 있다.
모바일 디바이스는 또한, 일부 사례들에서, 3D 음장을 레코딩하도록 집단적으로 구성되는 복수의 마이크로폰들을 포함할 수도 있다. 다르게 말하면, 복수의 마이크로폰은 X, Y, Z 다이버시티를 가질 수도 있다. 일부 예들에서, 모바일 디바이스는 모바일 디바이스의 하나 이상의 다른 마이크로폰들에 대해 X, Y, Z 다이버시티를 제공하기 위해 회전될 수도 있는 마이크로폰을 포함할 수도 있다. 모바일 디바이스는 오디오 인코더, 이를테면 도 3의 오디오 인코더 (20) 를 또한 포함할 수도 있다.
러기다이즈드 (ruggedized) 비디오 캡처 디바이스가 3D 음장을 레코딩하기 위해 더 구성될 수도 있다. 일부 예들에서, 러기다이즈드 비디오 캡처 디바이스는 활동에 관여하는 사용자의 헬멧에 부착될 수도 있다. 예를 들면, 러기다이즈드 비디오 캡처 디바이스는 급류 레프팅 (whitewater rafting) 하는 사용자의 헬멧에 부착될 수도 있다. 이런 식으로, 러기다이즈드 비디오 캡처 디바이스는 사용자 주변의 모든 액션 (예컨대, 사용자 뒤의 물보라 (water crashing), 사용자 앞쪽에서 말하는 다른 래프터 (rafter) 등등) 을 표현하는 3D 음장을 캡처할 수도 있다.
그 기법들은, 3D 음장을 레코딩하도록 구성될 수도 있는 액세서리 향상된 모바일 디바이스에 대해 또한 수행될 수도 있다. 일부 예들에서, 그 모바일 디바이스는, 위에서 논의된 모바일 디바이스들과 유사할 수도 있으며, 하나 이상의 액세서리들이 추가된다. 예를 들면, 액세서리 향상된 모바일 디바이스를 형성하기 위해 아이겐 마이크로폰이 위에서 언급된 모바일 디바이스에 부착될 수도 있다. 이런 식으로, 액세서리 향상된 모바일 디바이스는 액세서리 향상된 모바일 디바이스에 통합된 사운드 캡처 컴포넌트들을 그대로 사용하는 것보다 더 높은 품질 버전의 3D 음장을 캡처할 수도 있다.
본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 예의 오디오 플레이백 디바이스들이 아래에서 더 논의된다. 본 개시물의 하나 이상의 기법들에 따라, 스피커들 및/또는 사운드 바들은 임의의 임의적 (arbitrary) 구성으로 배열되면서도 3D 음장을 여전히 재생할 수도 있다. 더구나, 일부 예들에서, 헤드폰 플레이백 디바이스들은 유선 접속 또는 무선 접속 중 어느 하나를 통해 디코더 (24) 에 커플링될 수도 있다. 본 개시물의 하나 이상의 기법들에 따라, 음장의 단일 일반 표현이 스피커들, 사운드 바들, 및 헤드폰 플레이백 디바이스들의 임의의 조합에 대한 음장을 렌더링하는데 이용될 수도 있다.
다수의 상이한 예의 오디오 플레이백 환경들이 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행하기에 또한 적합할 수도 있다. 예를 들면, 5.1 스피커 플레이백 환경, 2.0 (예컨대, 스테레오) 스피커 플레이백 환경, 전체 높이 (full height) 프론트 라우드스피커들을 갖는 9.1 스피커 플레이백 환경, 22.2 스피커 플레이백 환경, 16.0 스피커 플레이백 환경, 자동차 스피커 플레이백 환경, 및 이어 버드 (ear bud) 플레이백 환경을 갖는 모바일 디바이스가 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행하기 위한 적합한 환경들일 수도 있다.
본 개시물의 하나 이상의 기법들에 따라, 음장의 단일 일반 표현이 전술한 플레이백 환경들 중 임의의 플레이백 환경 상의 음장을 렌더링하는데 이용될 수도 있다. 덧붙여, 본 개시물의 기법들은 렌더러가 위에서 설명된 것과 다른 플레이백 환경들 상의 플레이백을 위해 일반 표현으로부터 음장을 렌더링하는 것을 가능하게 한다. 예를 들면, 설계 고려사항들이 7.1 스피커 플레이백 환경에 따른 스피커들의 적절한 배치를 금지시킨다면 (예컨대, 우측 서라운드 스피커를 배치시키는 것이 가능하지 않다면), 본 개시물의 기법들은 플레이백이 6.1 스피커 플레이백 환경 상에서 성취될 수도 있도록 렌더러가 다른 6 개 스피커들로 보상하도록 렌더링하는 것을 가능하게 한다.
더구나, 사용자가 헤드폰들을 착용하는 동안에 스포츠 게임을 관람할 수도 있다. 본 개시물의 하나 이상의 기법들에 따라, 스포츠 게임의 3D 음장은 취득될 수도 있으며 (예컨대, 하나 이상의 아이겐 마이크로폰들은 야구 경기장에 그리고/또는 야구 경기장 주변에 배치될 수도 있으며), 3D 음장에 대응하는 HOA 계수들은 획득되고 디코더로 송신될 수도 있으며, 디코더는 HOA 계수들에 기초하여 3D 음장을 복원하고 복원된 3D 음장을 렌더러로 출력하며, 렌더러는 플레이백 환경의 유형 (예컨대, 헤드폰들) 에 관한 표시를 획득할 수도 있고, 복원된 3D 음장을 헤드폰들이 스포츠 게임의 3D 음장의 표현을 출력하게 하는 신호들로 렌더링할 수도 있다.
위에서 설명된 다양한 사례들의 각각에서, 오디오 인코딩 디바이스 (20) 는 오디오 인코딩 디바이스 (20) 가 수행하도록 구성되는 방법을 수행하거나 또는 그렇지 않으면 그 방법의 각각의 단계를 수행하는 수단을 포함할 수도 있다는 것이 이해되어야 한다. 일부 사례들에서, 수단은 하나 이상의 프로세서들을 포함할 수도 있다. 일부 사례들에서, 하나 이상의 프로세서들은 비일시적 컴퓨터-판독가능 저장 매체에 저장된 명령들을 통해 구성되는 특수 목적 프로세서를 나타낼 수도 있다. 다르게 말하면, 인코딩 예들의 세트들의 각각에서의 기법들의 다양한 양태들이, 실행되는 경우, 하나 이상의 프로세서들이 오디오 인코딩 디바이스 (20) 가 수행하도록 구성된 방법을 수행하게 하는 명령들을 저장하고 있는 비일시적 컴퓨터-판독가능 저장 매체를 제공할 수도 있다.
도 7은 선 그래프들의 세트 (180) 를 예시하는 개념도이다. 선 그래프들의 세트 (180) 는 다양한 캡처된 음장들에 대한 특이값 분포들을 나타낸다. 선 그래프들의 세트 (180) 의 각각의 선 그래프는 다양한 음장들의 오디오 오브젝트들에 대한 특이값들을 선도로 그리고 있다. 특정 예들로서, 선 그래프 (182) 는 "호박벌 (bumblebee) 음장에 대한 특이값들을 선도로 그리며, 선 그래프 (184) 는 "드럼들" 음장에 대한 특이값들을 선도로 그리며, 선 그래프 (186) 는 "모뎀" 음장에 대한 특이값들을 선도로 그리고, 선 그래프 (188) 는 "현대 전자 음악" 음장에 대한 특이값들을 선도로 그린다. 도 7의 다른 선 그래프들은 "경기장", "물", "헬리콥터", "보컬", "콘서트의 시작", "오케스트라", "외치는 관중", 및 "라디오" 설정들을 표현하는 음장들에 연관된다. 도 7에서 도시된 바와 같이, 선 그래프들 (182 (호박벌), 186 (모뎀), 및 188 (현대 전자 음악)) 의 각각은 0과 동일하거나 또는 대략적으로 동일한 진폭들을 갖는 배경 오디오 오브젝트들에 대한 특이값들을 포함한다. 더 구체적으로는, 선 그래프들 (182, 184, 186, 및 188) 의 각각에서 각각의 수직선 우측에 위치된 선도 포인트들은 실질적으로 각각의 x-축 상에 놓인다.
일부 예들에서, 음장 분석 유닛 (44) 은, 낮은 진폭들을 갖는 이들 배경 오디오 오브젝트들의 특이값들에 기초하여, 선 그래프들 (182, 186, 및 188) 에서 선도로 그려진 사운드들에 연관된 배경 오디오 오브젝트들을 코딩하지 않을 수도 있다. 일부 예들에서, 비트스트림 생성 유닛 (42) 은, 낮은 진폭들을 갖는 이들 배경 오디오 오브젝트들의 특이값들에 기초하여, 선 그래프들 (182, 186, 및 188) 에서 선도로 그려진 사운드들에 연관된 배경 오디오 오브젝트들의 시그널링에 더 적은 비트들을 할당할 (또는 비트들을 할당하지 않을) 수도 있다. 이들 예들에서, 음장 분석 유닛 (44) 과 비트스트림 생성 유닛 (42) 중 하나 또는 양쪽 모두는 비트들을 각각 여전히 코딩할 그리고/또는 전경 오디오 오브젝트들에 할당할 수도 있다.
그 반면, 선 그래프 (184) (드럼들) 는 0보다 더 큰 (또는 심지어 상당히 더 큰) 진폭들을 갖는 특이값들에 연관되는 배경 오디오 오브젝트들을 예시한다. 이 예에서, 음장 분석 유닛 (44) 및/또는 비트스트림 생성 유닛 (42) 은 더 높은 진폭들을 갖는 이들 배경 오디오 오브젝트들의 특이값들에 기초하여, 각각 비트들을 코딩할 및/또는 드럼 사운드의 배경 오디오 오브젝트들에 할당할 수도 있다. 이런 방식으로, 오디오 인코딩 디바이스 (20) 는 오디오 오브젝트들의 특이값-기반 코딩 및/또는 시그널링을 구현하기 위해 본 개시물의 기법들을 구현할 수도 있다.
도 8은 본원에서 설명되는 기법들에 따른 오디오 오브젝트 시그널링 스킴들을 예시하는 개념도이다. 도 8의 우측에 묘사된 오디오 시그널링 스킴 (6014) 은, 배경 오디오 오브젝트들이 시그널링될 필요가 없게 하도록 배경 오디오 오브젝트들에 연관된 특이값들이 충분히 낮은 시나리오들에서, 오디오 인코딩 디바이스 (20) 가 본 개시물의 하나 이상의 양태들에 따라 구현할 수도 있는 시그널링 스킴을 예시한다. 오디오 오브젝트 시그널링 스킴 (6014) 의 예에서, 오디오 인코딩 디바이스 (20) 는 전경 오디오 오브젝트들 ("VL") 과 배경 오디오 오브젝트들 ("VH") 을 인접한 열들에 배열할 수도 있다. 하나의 예에서, 오디오 오브젝트 시그널링 스킴 (6014) 의 좌측 열은 총 여섯 개의 전경 오디오 오브젝트들을 포함할 수도 있다. 배경 오디오 오브젝트들에 대한 특이값들이 0에 가깝다 (예컨대, 임계값 미만이라) 고 오디오 인코딩 디바이스 (20) 가 결정한다면, 오디오 인코딩 디바이스 (20) 는 좌측 열에 배열된 여섯 개의 전경 오디오 오브젝트들만을 코딩 및/또는 시그널링할 수도 있다.
도 8의 좌측에 묘사된 전통적인 오디오 오브젝트 시그널링 스킴 (212) 은, 오디오 오브젝트 시그널링 스킴 (214) 의 특이값-기반 기법들과 대조되는 시그널링 스킴을 예시한다. 도 8에 도시된 바와 같이, 전통적인 오디오 오브젝트 시그널링 스킴 (212) 에 따르면, 오디오 인코딩 디바이스 (20) 는 두 개의 전경 오디오 오브젝트들 (열 형태로 배열됨) 과, 네 개의 배경 오디오 오브젝트들 (행 형태로 배열됨) 을 시그널링할 수도 있다.
에너지-집중된 프레임들에 대한 특이값 기반 코딩 스킴 (214) 에 따르면, 오디오 인코딩 디바이스 (20) 는 맨 위 6 개의 (가변) US 신호들과 맨 위 6 개의 가변 US 신호들에 대응하는 V 벡터들을 양자화할 수도 있다. 이런 방식으로, 오디오 인코딩 디바이스 (20) 는 더 많은 비트들을 더 높은 특이값 성분들을 위해 AAC에 할당할 수도 있다.
이런 방식으로, 오디오 인코딩 디바이스 (20) (와 그것의 하나 이상의 컴포넌트들, 이를테면 음장 분석 유닛 (44)) 는, 본 개시물의 기법들에 따라, 음장을 나타내는 고차 앰비소닉 (HOA) 계수들을 압축하는 방법을 수행할 수도 있는데, 그 방법은 HOA 계수들의 벡터-기반 합성 또는 분해를 통해 획득된 하나 이상의 전경 오디오 오브젝트들을 증강시키기 위해 HOA 계수들 중 주변 HOA 계수들을 사용할 경우를, HOA 계수들의 벡터-기반 합성 또는 분해를 통해 또한 획득된 하나 이상의 특이값들에 기초하여, 결정하는 단계를 포함하며, 주변 HOA 계수들은 음장의 주변 성분을 나타낸다. 일부 예들에서, HOA 계수들은 음장의 하나 이상의 전경 오디오 오브젝트들을 나타내는 하나 이상의 전경 HOA 계수들을 또한 포함할 수도 있다. 일부 예들에서, 하나 이상의 전경 오디오 오브젝트들을 증강시키기 위해 주변 HOA 계수들을 사용할 경우를 결정하는 단계는 HOA 계수들의 벡터-기반 합성 또는 분해를 통해 획득된 하나 이상의 특이값들을 (예컨대, 음장 분석 유닛 (44) 에 의해) 분석하는 단계를 포함한다.
일부 예들에서, 하나 이상의 전경 오디오 오브젝트들을 증강시키기 위해 주변 HOA 계수들을 사용할 경우를 결정하는 단계는, 하나 이상의 특이값들의 하나 이상의 주변 특이값들 - 주변 특이값들은 음장의 주변 성분과 연관됨 - 이 임계 값 미만인지의 여부를 (예컨대, 음장 분석 유닛 (44) 에 의해) 결정하는 단계와, 주변 성분에 연관된 하나 이상의 주변 특이값들이 임계 값 미만인 경우, 전경 오디오 오브젝트들을 증강시키기 위해 주변 HOA 계수들을 사용하지 않을 것을 (예컨대, 음장 분석 유닛 (44) 에 의해) 결정하는 단계를 포함한다. 일부 예들에서, 하나 이상의 전경 오디오 오브젝트들을 증강시키기 위해 주변 HOA 계수들을 사용할 경우를 결정하는 단계는, 하나 이상의 주변 특이값들이 임계 값 이상인 경우, 전경 오디오 오브젝트들을 증강시키기 위해 주변 HOA 계수들을 사용할 것을 (예컨대, 음장 분석 유닛 (44) 에 의해) 결정하는 단계를 포함한다.
일부 예들에서, 하나 이상의 특이값들의 각각은 대응하는 에너지 값의 제곱근을 나타낸다. 일부 예들에서, 하나 이상의 특이값들의 각각은 대응하는 고유값의 제곱근을 나타낸다. 일부 예들에서, 오디오 인코딩 디바이스 (20) 에 의해 수행되는 방법은 하나 이상의 특이값들을 포함하는 하나 이상의 S 행렬들을 코딩하는 단계를 더 포함할 수도 있다. 일부 예들에서, 오디오 인코딩 디바이스 (20) 에 의해 수행되는 방법은 (예컨대, 비트스트림 생성 유닛 (42) 에 의해) 하나 이상의 특이값들을 포함하는 하나 이상의 S 행렬들을 코딩하는 단계를 포함한다. 일부 예들에서, 하나 이상의 전경 오디오 오브젝트들을 증강시키기 위해 주변 HOA 계수들을 사용할 경우를 (예컨대, 음장 분석 유닛 (44) 에 의해) 결정하는 단계는 하나 이상의 특이값들의 하나 이상의 주변 특이값들에 대응하는 하나 이상의 진폭들에 기초하며, 주변 특이값들은 음장의 주변 성분과 연관된다. 일부 예들에서, 하나 이상의 전경 오디오 오브젝트들을 증강시키기 위해 주변 HOA 계수들을 사용할 경우를 결정하는 단계는 전경 오디오 오브젝트들을 증강시키기 위해 주변 HOA 계수들을 사용할 것을 (예컨대, 음장 분석 유닛 (44) 에 의해) 결정하는 단계와, 주변 성분에 배정할 비트들의 수를 (예컨대, 비트스트림 생성 유닛 (42) 에 의해) 결정하는 단계를 포함한다.
이런 방식으로, 오디오 디코딩 디바이스 (24) (및/또는 그것의 다양한 컴포넌트들, 이를테면 추출 유닛 (72)) 은, 본 개시물의 양태들에 따라, 음장을 나타내는 인코딩된 고차 앰비소닉 (HOA) 계수들을 디코딩하는 방법을 수행하도록 동작 가능할 수도 있으며, 그 방법은 비트스트림 (예컨대, 벡터-기반 비트스트림 (21)) 으로부터 하나 이상의 주변 HOA 계수들을 추출할 지의 여부를 결정하는 단계를 포함한다. 하나의 그런 예에서, 하나 이상의 주변 HOA 계수들은 음장의 주변 성분을 나타낸다.
이런 방식으로, 본 개시물의 기법들에 따라, 오디오 인코딩 디바이스 (20) (및 그것의 하나 이상의 컴포넌트들, 이를테면 비트스트림 생성 유닛 (42)) 는 음장을 나타내는 고차 앰비소닉 (HOA) 계수들을 압축하는 방법을 수행할 수도 있으며, 그 방법은 오디오 오브젝트에 연관된 에너지 (또는 에너지 값) 에 기초하여, 음장의 오디오 오브젝트에 비트들을 할당하는 단계를 포함하며, 오디오 오브젝트는 HOA 계수들의 벡터-기반 합성 또는 분해를 통해 획득된다. 일부 예들에서, 할당된 비트들의 수 (예컨대, 비트스트림 생성 유닛 (42) 에 의해 할당되는 바와 같음) 는 오디오 오브젝트에 연관된 에너지 (또는 에너지 값) 에 비례한다. 하나의 그런 예에서, 할당된 비트들의 수 (예컨대, 비트스트림 생성 유닛 (42) 에 의해 할당된 바와 같음) 는 오디오 오브젝트에 연관된 에너지 (또는 에너지 값) 에 정비례한다.
비트스트림 생성 유닛 (42) 에 의해 수행될 수도 있는 방법의 일부 예들에서, 오디오 오브젝트는 음장의 복수의 오디오 오브젝트들에 포함되며, 할당된 비트들은 비트들의 세트로부터 선택되고, 오디오 오브젝트에 비트들을 할당하는 단계는 복수의 오디오 오브젝트들에 비트들의 세트를 에너지의 내림 차순으로 할당하는 단계를 포함한다. 비트스트림 생성 유닛 (42) 이 수행할 수도 있는 방법의 하나의 이러한 예에서, 복수의 오디오 오브젝트들의 각각의 오디오 오브젝트는 대응하는 특이값에 연관되고, 각각의 대응하는 특이값은 대응하는 에너지 레벨의 제곱근을 나타낸다.
비트스트림 생성 유닛 (42) 이 수행할 수도 있는 방법의 일부 예들에서, 복수의 오디오 오브젝트들은 하나 이상의 전경 오디오 오브젝트들과 하나 이상의 배경 오디오 오브젝트들을 포함한다. 하나의 그런 예에서, 비트들의 세트를 할당하는 단계는 하나 이상의 전경 오디오 오브젝트들에 비트들의 세트의 모든 비트들을 (예컨대, 비트스트림 생성 유닛 (42) 에 의해) 할당하는 단계를 포함한다. 다른 그런 예에서, 비트들의 세트를 할당하는 단계는, 하나 이상의 전경 오디오 오브젝트들에 비트들의 세트의 제 1 부분을 그리고 하나 이상의 배경 오디오 오브젝트들 중 적어도 하나의 배경 오디오 오브젝트에 비트들의 세트의 제 2 부분을 (예컨대, 비트스트림 생성 유닛 (42) 에 의해) 할당하는 단계를 포함한다.
일부 예들에서, 비트스트림 생성 유닛 (42) 에 의해 수행되는 방법은 복수의 오디오 오브젝트들의 단일 오디오 오브젝트에 할당될 수 있는 비트들의 최대 수를 결정하는 단계를 더 포함한다. 하나의 이러한 예에서, 비트들의 세트를 할당하는 단계는, 복수의 오디오 오브젝트들의 오디오 오브젝트에는 그 최대 수를 초과하는 수의 비트들이 할당되지 않도록 (예컨대, 비트스트림 생성 유닛 (42) 에 의해) 비트들의 세트를 할당하는 단계를 포함한다. 일부 예들에서, 비트들의 세트를 할당하는 단계는, 복수의 오디오 오브젝트들 중 각각의 오디오 오브젝트에 대해 대응하는 특이값의 진폭에 따라 비트들의 세트를 (예컨대, 비트스트림 생성 유닛 (42) 에 의해) 할당하는 단계를 포함한다.
일부 이러한 예들에서, 각각의 대응하는 특이값의 진폭에 따라 비트들의 세트를 할당하는 단계는, 더 큰 진폭을 갖는 제 1 오디오 오브젝트에 비트들의 세트의 더 큰 비율을, 그리고 더 적은 진폭을 갖는 제 2 오디오 오브젝트에 비트들의 세트의 더 작은 비율을 (예컨대, 비트스트림 생성 유닛 (42) 에 의해) 할당하는 단계를 포함한다. 하나의 그런 예에서, 비트스트림 생성 유닛 (42) 이 수행할 수도 있는 방법은, 제 1 오디오 오브젝트의 더 큰 진폭 및 제 2 오디오 오브젝트의 더 작은 진폭에 기초하여 각각의 백분율 값들로서 더 큰 비율 및 더 작은 비율을 계산하는 단계를 더 포함한다.
본 개시물의 다양한 양태들에 따르면 오디오 인코딩 디바이스 (20) (및/또는 그것의 하나 이상의 컴포넌트들) 는, 음장을 나타내는 고차 앰비소닉 (HOA) 계수들을 압축하는 방법을 수행하도록 구성될 수도 있으며, 그 방법은 음장을 나타내는 복수의 오디오 오브젝트들 중의 단일 오디오 오브젝트에 할당될 수 있는 비트들의 수에 대한 상한을 (예컨대, 비트스트림 생성 유닛 (42) 에 의해) 설정하는 단계를 포함한다.
이런 방식으로, 오디오 디코딩 디바이스 (24) (및/또는 그것의 다양한 컴포넌트들, 이를테면 추출 유닛 (72)) 은, 본 개시물의 양태들에 따라, 음장을 나타내는 인코딩된 고차 앰비소닉 (HOA) 계수들을 디코딩하는 방법을 수행하도록 동작 가능할 수도 있으며, 그 방법은 음장을 나타내는 인코딩된 고차 앰비소닉 (HOA) 계수들을 디코딩하는 단계를 포함하며, 그 방법은 오디오 오브젝트에 연관된 에너지에 기초하여, 음장의 오디오 오브젝트에 비트들을 할당하는 단계를 포함하며, 오디오 오브젝트는 인코딩된 HOA 계수들의 벡터-기반 합성을 통해 획득된다. 일부 예들에서, 오디오 인코딩 디바이스 (24) 에 의해 수행되는 방법은 인코딩된 비트스트림 (예컨대, 비트스트림 (21)) 의 일부로서 음장에 대한 비트 할당 스킴을 수신하는 단계를 더 포함할 수도 있다.
일부 예들에서, 비트 할당 스킴은 음장에 연관된 메타데이터에 포함될 수도 있다. 일부 사례들에서, 음장에 연관된 메타데이터는 음장을 나타내는 복수의 오디오 오브젝트들 중 단일 오디오 오브젝트에 할당될 수 있는 비트들의 수에 대한 상한을 더 포함할 수도 있다. 오디오 디코딩 디바이스 (24) 에 의해 수행되는 방법의 일부 예들에서, 비트들을 할당하는 단계는 음장의 오디오 오브젝트에 그 최대 수를 초과하는 수의 비트들이 할당되지 않도록 비트들을 할당하는 단계를 포함할 수도 있다.
예 1. 다양한 예들에서, 행렬들 (US 및 V) 은 다음의 열 벡터들의 세트로 이루어진다: {US_i, V_i}. i번째 벡터인 (US_i, V_i) 와 j번째 벡터인 (US_j, V_j) 가, 상이한 중요도를 갖기 때문에, 각각의 벡터에 대한 동적 비트 할당이 개시된다. i번째 벡터인 (US_i, V_i) 가, 대응하는 특이값인 S_i_i를 가지며, 여기서 S_i_i >= 0 이다. 더 높은 특이값이 그 신호의 더 큰 에너지 농도에 대응한다. 따라서, 총 비트들은 다음과 같이 특이값의 비율에 따라 i번째 벡터인 (US_i, V_i) 에 할당된다: S_i_i: allocatedRate = TOTALRATE * S_i_i / sum (S_i_i) 여기서 sum (S_i_i) 은 전체 특이값들의 합이다.
예 1a. (US_i, V_i) 에 대한 할당된 레이트의 상한이다. 먼저, (US_i, V_i) 는 대응하는 특이값들에 따라 내림 차순으로 정렬된다. 계산된 allocatedRate가 미리-정의된 상한을 초과하는 경우, 상한 비트량이 할당된다. 나머지 비트들은 나머지 (US_i, V_i) 를 위해 사용된다.
예 1b. S_i_i^2가 에너지에 대응하기 때문에, S_i_i^2는 S_i_i 대신 사용될 수 있다.
예 2. 에너지의 대부분이 몇몇 특이값들에 집중된다면, 전경 신호들 (= US 및 V 행렬들의 몇몇 제 1 열들) 만이 코딩되고 송신될 수도 있다. 이 경우, 배경 신호들 (=US 및 V 행렬들의 몇몇 제 1 행들) 은 송신되지 않는다. 특정한 테스트 아이템에 대해, 에너지의 99%가 맨 위 6 개의 특이값들에 집중된다. 이 경우, 6 개의 전경 신호들만이 코딩되고 디코더로 송신된다. 그것은 2 개의 전경 신호들과 4 개의 배경 신호들이 코딩되고 송신되는 기존의 시스템보다 잠재적으로 더 나은 품질을 제공한다.
예 2a. 제안된 시스템 (전경 코딩만) 을 사용할지 또는 기존의 시스템 (전경+배경 코딩) 을 사용할지의 결정은 특이값들에 기초하여 이루어질 수 있다. 특이값들의 미리-정의된 수 (예를 들어 6) 가 에너지의 대부분 (예를 들어 99%) 을 포함한다면, 제안된 시스템은 기존의 시스템 대신 사용될 수 있다.
예 2b. 비트 할당은 위의 예 1에서 설명된 기법들에 기초하여 수행될 수 있다.
도 9a 내지 도 9d는 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 시스템과, 도 9a의 브로드캐스팅 네트워크 센터의 추가의 세부사항들을 예시하는 개념도들이다. 도 9a는 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 시스템 (10) 을 예시하는 도면이다. 도 9의 예에서 도시된 바와 같이, 시스템 (10) 은 브로드캐스팅 네트워크 (398) 와 콘텐츠 소비자 디바이스 (14) 를 포함한다. 브로드캐스팅 네트워크 (398) 와 콘텐츠 소비자 디바이스 (14) 의 맥락에서 설명되지만, 그 기법들은 SHC들 (이는 HOA 계수들이라고 또한 지칭될 수도 있음) 또는 음장의 임의의 다른 계층적 표현이 오디오 데이터를 나타내는 비트스트림을 형성하기 위해 인코딩된다는 임의의 맥락에서 구현될 수도 있다. 더구나, 브로드캐스팅 네트워크 (398) 는, 핸드셋 (또는 셀룰러 폰), 태블릿 컴퓨터, 스마트 폰, 데스크톱 컴퓨터, 또는 몇몇 예들을 제공하기 위한 전용 하드웨어를 포함하는, 본 개시물에서 설명되는 기법들을 수행할 수 있는 임의의 형태의 컴퓨팅 디바이스들 중 하나 이상을 포함하는 시스템을 나타낼 수도 있다 비슷하게, 콘텐츠 소비자 디바이스 (14) 는 핸드셋 (또는 셀룰러 폰), 태블릿 컴퓨터, 스마트 폰, 셋톱 박스, 또는 몇몇 예들을 제공하기 위한 데스크톱 컴퓨터를 포함하는 본 개시물에서 설명되는 기법들을 구현할 수 있는 컴퓨팅 디바이스의 임의의 형태를 나타낼 수도 있다.
브로드캐스팅 네트워크 (398) 는 멀티-채널 오디오 콘텐츠와 아마도 콘텐츠 소비자들, 이를테면 콘텐츠 소비자 디바이스 (14) 에 의한 소비를 위한 비디오 콘텐츠를 생성할 수도 있는 임의의 엔티티를 나타낼 수도 있다. 브로드캐스팅 네트워크 (398) 는 이벤트들, 이를테면 스포츠 경기들에서 라이브 오디오 데이터를 캡처하면서도, 다양한 다른 유형들의 추가적인 오디오 데이터, 이를테면 실황방송 (commentary) 오디오 데이터, 상업적 오디오 데이터, 인트로 (intro) 또는 엑시트 (exit) 오디오 데이터 등을 라이브 오디오 콘텐츠에 또한 삽입할 수도 있다. 콘텐츠 소비자 디바이스 (14) 는, 멀티-채널 오디오 콘텐츠로서의 플레이백을 위해 고차 앰비소닉 오디오 데이터 (이는 구면 조화 계수들이라고 또한 지칭될 수도 있는 더 높은 차수의 오디오 계수들) 를 렌더링할 수 있는 임의의 형태의 오디오 플레이백 시스템을 지칭할 수도 있는 오디오 플레이백 시스템을 소유하거나 또는 그런 오디오 플레이백 시스템에 액세스하는 개체 (individual) 를 나타낸다. 도 9a의 예에서, 콘텐츠 소비자 디바이스 (14) 는 오디오 플레이백 시스템 (16) 을 포함한다.
브로드캐스팅 네트워크 (398) 는 다양한 포맷들의 라이브 레코딩들 (HOA 계수들을 직접적으로 포함함) 과 오디오 오브젝트들을 레코딩하거나 또는 그렇지 않으면 획득하는 마이크로폰들 (5) 을 포함한다. 마이크로폰들 (5) 이 HOA 계수들로서 직접적으로 라이브 오디오를 획득하는 경우, 마이크로폰들 (5) 은 도 9a의 예에서 도시된 HOA 트랜스코더 (400) 와 같은 HOA 트랜스코더를 포함할 수도 있다. 다르게 말하면, 비록 마이크로폰들 (5) 과는 별개인 것으로 도시되지만, HOA 트랜스코더 (400) 의 별개의 인스턴스가 캡처된 피드들을 HOA 계수들 (11) 로 자연스럽게 트랜스코딩하기 위해서 마이크로폰들 (5) 의 각각 내에 포함될 수도 있다. 그러나, 마이크로폰들 (5) 내에 포함되지 않는 경우, HOA 트랜스코더 (400) 는 마이크로폰들 (5) 로부터 출력되는 라이브 피드들을 HOA 계수들 (11) 로 트랜스코딩할 수도 있다. 이런 점에서, HOA 트랜스코더 (400) 는 마이크로폰 피드들 및/또는 오디오 오브젝트들을 HOA 계수들 (11) 로 트랜스코딩하도록 구성되는 유닛을 나타낼 수도 있다. 브로드캐스팅 네트워크 (398) 는 그러므로 HOA 트랜스코더 (400) 를 마이크로폰들 (5) 과 통합된 것으로서, 마이크로폰들 (5) 과는 별개인 HOA 트랜스코더로서 또는 그것들의 일부 조합으로서 포함한다.
브로드캐스팅 네트워크 (398) 는 공간적 오디오 인코딩 디바이스 (20), 브로드캐스팅 네트워크 센터 (402) 및 음향심리 오디오 인코딩 디바이스 (406) 를 또한 포함할 수도 있다. 공간적 오디오 인코딩 디바이스 (20) 는 메자닌 (mezzanine) 포맷팅된 오디오 데이터 (15) 를 획득하기 위해 HOA 계수들 (11) 에 대해 본 개시물에서 설명되는 메자닌 압축 기법들을 수행할 수 있는 디바이스를 나타낼 수도 있다. 공간적 오디오 인코딩 디바이스 (20) 는 도 1 및 도 2의 오디오 인코딩 디바이스 (20) 의 하나의 구현예를 나타낼 수도 있고, 그러므로 본 개시물에서 유사하게 번호 부여된다. 비록 아래에서 더 상세히 설명되지만, 공간적 오디오 인코딩 디바이스 (20) 는 HOA 계수들 (11) 에의 벡터-기반 합성의 적용을 통해 HOA 계수들 (11) 에 대해 이 메자닌 압축을 수행하도록 구성될 수도 있다.
공간적 오디오 인코딩 디바이스 (20) 는 선형 가역 변환 (LIT) 의 적용을 수반하는 벡터-기반 합성 수법을 사용하여 HOA 계수들 (11) 을 인코딩하도록 구성될 수도 있다. 선형 가역 변환의 하나의 예는 "특이값 분해" (또는 "SVD") 라고 지칭된다. 이 예에서, 공간적 오디오 인코딩 디바이스 (20) 는 SVD를 HOA 계수들 (11) 에 적용하여 HOA 계수들 (11) 의 분해된 버전을 결정할 수도 있다. 공간적 오디오 인코딩 디바이스 (20) 는 그 다음에 HOA 계수들 (11) 의 분해된 버전을 분석하여 다양한 파라미터들을 식별할 수도 있는데, 이들 다양한 파라미터들은 HOA 계수들 (11) 의 분해된 버전의 재순서화를 용이하게 할 수도 있다. 공간적 오디오 인코딩 디바이스 (20) 는 그 다음에 식별된 파라미터들에 기초하여 HOA 계수들 (11) 의 분해된 버전을 재순서화할 수도 있는데, 이러한 재순서화는, 아래에서 더 상세히 설명되는 바와 같이, 변환이 HOA 계수들의 프레임들 전체에 걸쳐 HOA 계수들을 재순서화할 수도 있다 (여기서 프레임은 보통 HOA 계수들 (11) 의 M 개의 샘플들을 포함하고 M은, 일부 예들에서, 1024로 설정됨) 는 점에서 코딩 효율을 개선시킬 수도 있다. HOA 계수들 (11) 의 분해된 버전을 재순서화한 후, 공간적 오디오 인코딩 디바이스 (20) 는 HOA 계수들 (11) 의 분해된 버전 중 음장의 전경 (또는, 다르게 말하면, 별개의, 우세 또는 두드러진) 성분들을 나타내는 것들을 선택할 수도 있다. 공간적 오디오 인코딩 디바이스 (20) 는 전경 성분들을 나타내는 HOA 계수들 (11) 의 분해된 버전을 오디오 오브젝트 및 연관된 방향 정보로서 특정할 수도 있다.
공간적 오디오 인코딩 디바이스 (20) 는 적어도 부분적으로는, HOA 계수들 (11) 중 음장의 하나 이상의 배경 (또는, 다르게 말하면, 주변) 성분들을 나타내는 HOA 계수들을 식별하기 위해 HOA 계수들 (11) 에 대해 음장 분석을 순서대로 또한 수행할 수도 있다. 공간적 오디오 인코딩 디바이스 (20) 는, 일부 예들에서, 배경 성분들이 HOA 계수들 (11) 의 임의의 주어진 샘플의 서브세트 (예컨대, 이를테면 0차 및 1차 구면 기저 함수들에 대응하는 것들이고 2 차 또는 그 이상의 차수의 구면 기저 함수들에 대응하는 것들은 아님) 만을 포함할 수도 있다는 점에서 배경 성분들에 대해 에너지 보상을 수행할 수도 있다. 차수-감소가 수행되는 경우, 다르게 말하면, 공간적 오디오 인코딩 디바이스 (20) 가 차수 감소를 수행하는 것으로부터 초래되는 전체 에너지에서의 변경을 보상하기 위해 HOA 계수들 (11) 중 나머지 배경 HOA 계수들을 증강시킬 (예컨대, 그들 HOA 계수들에 에너지를 가산/그들 HOA 계수들로부터 에너지를 감산할) 수도 있다.
공간적 오디오 인코딩 디바이스 (20) 는 전경 방향 정보에 대해 한 형태의 보간을 수행한 다음 보간된 전경 방향 정보에 대해 차수 감소를 수행하여 차수 감소된 전경 방향 정보를 생성할 수도 있다. 공간적 오디오 인코딩 디바이스 (20) 는, 일부 예들에서, 차수 감소된 전경 방향 정보에 대해 양자화를 더 수행하여, 코딩된 전경 방향 정보를 출력할 수도 있다. 일부 사례들에서, 이 양자화는 스칼라/엔트로피 양자화를 포함할 수도 있다. 공간적 오디오 인코딩 디바이스 (20) 는 메자닌 포맷팅된 오디오 데이터 (15) 를 배경 성분들, 전경 오디오 오브젝트들, 및 양자화된 방향 정보를 출력할 수도 있다. 배경 성분들과 전경 오디오 오브젝트들은 일부 예들에서 펄스 코드 변조된 (PCM) 전송 채널들을 포함할 수도 있다. 공간적 오디오 인코딩 디바이스 (20) 는 그 다음에 메자닌 포맷팅된 오디오 데이터 (15) 를 브로드캐스팅 네트워크 센터 (402) 로 송신하거나 또는 그렇지 않으면 출력할 수도 있다. 비록 도 9a의 예에 도시되지 않지만, 메자닌 포맷팅된 오디오 데이터 (15) 의 추가의 프로세싱은 공간적 오디오 인코딩 디바이스 (20) 로부터 브로드캐스팅 네트워크 센터 (402) (이를테면 암호화, 위성 압축 스킴들, 파이브 압축 스킴들 등) 으로 송신을 수용하도록 수행될 수도 있다.
메자닌 포맷팅된 오디오 데이터 (15) 는, 통상적으로 오디오 데이터의 (MPEG 서라운드, MPEG-AAC, MPEG-USAC 또는 음향심리 인코딩의 다른 알려진 형태들과 같은 음향심리 오디오 인코딩의 오디오 데이터에의 적용을 통해 제공되는 최종-사용자 압축에 비하여) 가볍게 압축된 버전인 이른바 메자닌 포맷을 준수하는 오디오 데이터를 나타낼 수도 있다. 방송자들이 낮은 레이턴시 믹싱, 편집과, 다른 오디오 및/또는 비디오 기능들을 제공하는 전용 장비를 선호한다는 것을 감안하면, 방송자들은 이러한 전용 장비의 가격이 주어진다고 하면 장비를 업그레이드하기를 꺼려한다. 비디오 및/또는 오디오의 증가하는 비트레이트들 수용하고 고품위 비디오 콘텐츠 또는 3D 오디오 콘텐츠에 대해 작동하도록 적응되지 않을 수도 있는 더 오래된 또는, 다르게 말하면, 레거시 장비와의 상호운용성을 제공하기 위해, 방송자들은, 파일 사이즈들을 줄이기 위해 "메자닌 압축"이라고 일반적으로 지칭되는 중간 압축 스킴을 채용함으로써, (이를테면 네트워크를 통하는 또는 디바이스들 간의) 전송 시간들 및 개량된 프로세싱을 (특히 더 오래된 레거시 장비에 대해) 용이하게 하였다. 다르게 말하면, 이 메자닌 압축은 편집 시간들을 용이하게 하며, 레이턴시를 줄이고 전체 브로드캐스팅 프로세스를 개선하는데 사용될 수도 있는 콘텐츠의 더욱 경량의 버전을 제공할 수도 있다.
브로드캐스팅 네트워크 센터 (402) 는 그러므로 작업 흐름을 레이턴시의 측면에서 개선하기 위해 중간 압축 스킴을 사용하여 오디오 및/또는 비디오 콘텐츠를 편집하고 그렇지 않으면 프로세싱하는 것을 담당하는 시스템을 나타낼 수도 있다. 오디오 데이터를 프로세싱하는 맥락에서, 브로드캐스팅 네트워크 센터 (402) 는, 일부 예들에서, 추가적인 오디오 데이터를 메자닌 포맷팅된 오디오 데이터 (15) 에 의해 표현되는 라이브 오디오 콘텐츠에 삽입할 수도 있다. 이 추가적인 오디오 데이터는 상업적 오디오 콘텐츠를 나타내는 상업적 오디오 데이터, 텔레비전 스튜디오 오디오 콘텐츠를 나타내는 텔레비전 스튜디오 쇼 오디오 데이터, 인트로 오디오 콘텐츠를 나타내는 인트로 오디오 데이터, 엑시트 오디오 콘텐츠를 나타내는 엑시트 오디오 데이터, 긴급 오디오 콘텐츠 (예컨대, 기상 경보, 국가 비상사태, 지역 비상사태 등) 를 나타내는 긴급 오디오 데이터 또는 메자닌 포맷팅된 오디오 데이터 (15) 에 삽입될 수도 있는 임의의 다른 유형의 오디오 데이터를 포함한다.
일부 예들에서, 브로드캐스팅 네트워크 센터 (402) 는 16 개까지의 오디오 채널들을 프로세싱할 수 있는 레거시 오디오 장비를 포함한다. HOA 계수들, 이를테면 HOA 계수들 (11) 에 의존하는 3D 오디오 데이터의 맥락에서, HOA 계수들 (11) 은 16 개를 초과하는 오디오 채널들을 가질 수도 있다 (예컨대, 3D 음장의 4차 표현이 25 오디오 채널들과 동등한 샘플당 (4+1)2 또는 25 개 HOA 계수들을 요구할 것이다). 레거시 브로드캐스팅 장비에서의 이 제한은, 2014-07-25일자의 ISO/IEC JTC 1/SC 29/WG 11에 의한 "Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio"이란 명칭의 ISO/IEC DIS 23008-3 문서에서 언급된 바와 같이 3D HOA-기반 오디오 포맷들의 채택을 방지할 수도 있다. 이와 같이, 본 개시물에서 설명되는 기법들은 레거시 오디오 장비의 이 제한을 극복하는 방식으로 HOA 계수들 (11) 로부터 메자닌 포맷팅된 오디오 데이터 (15) 를 획득하는 것을 허용하는 한 형태의 메자닌 압축을 증진시킬 수도 있다. 다시 말하면, 공간적 오디오 인코딩 디바이스 (20) 는, 16 개 또는 그 이하의 오디오 채널들 (과 레거시 오디오 장비가, 일부 예들에서, '.1'이 제 6 오디오 채널을 나타내는 5.1 오디오 콘텐츠를 프로세싱하는 것을 허용하는 것을 고려하면 아마도 6 개뿐인 오디오 채널들) 을 메자닌 오디오 데이터 (15) 를 획득하기 위해 본 개시물에서 설명되는 기법들을 수행하도록 구성될 수도 있다.
여하튼, 브로드캐스팅 네트워크 센터 (402) 는 증강된 메자닌 포맷팅된 오디오 데이터 (17) 를 출력할 수도 있다. 증강된 메자닌 포맷팅된 오디오 데이터 (17) 는 메자닌 포맷팅된 오디오 데이터 (15) 와 브로드캐스팅 네트워크 센터 (404) 에 의해 메자닌 포맷팅된 오디오 데이터 (15) 속에 삽입된 임의의 추가적인 오디오 데이터를 포함할 수도 있다. 배포 전에, 브로드캐스팅 네트워크 (398) 는 증강된 메자닌 포맷팅된 오디오 데이터 (17) 를 더 압축할 수도 있다. 도 9a의 예에서 도시된 바와 같이, 음향심리 오디오 인코딩 디바이스 (406) 는 증강된 메자닌 포맷팅된 오디오 데이터 (17) 에 대해 음향심리 오디오 인코딩 (이를테면 위에서 설명된 예들 중 임의의 것) 을 수행하여 비트스트림 (21) 을 생성할 수도 있다. 브로드캐스팅 네트워크 (398) 는 그 다음에 비트스트림 (21) 을 송신 채널을 통해 콘텐츠 소비자 디바이스 (14) 로 송신할 수도 있다.
일부 예들에서, 음향심리 오디오 인코딩 디바이스 (406) 는 음향심리 오디오 코더의 다수의 인스턴스들을 나타낼 수도 있으며, 그것들의 각각은 증강된 메자닌 포맷팅된 오디오 데이터 (17) 의 각각의 상이한 오디오 오브젝트 또는 HOA 채널을 인코딩하는데 사용된다. 일부 사례들에서, 이 음향심리 오디오 인코딩 디바이스 (406) 는 고급 오디오 코딩 (AAC) 인코딩 유닛의 하나 이상의 인스턴스들을 나타낼 수도 있다. 종종, 음향심리 오디오 코더 유닛 (40) 은 증강된 메자닌 포맷팅된 오디오 데이터 (17) 의 채널의 각각에 대한 AAC 인코딩 유닛의 인스턴스를 호출할 수도 있다. 배경 구면 조화 계수들이 AAC 인코딩 유닛을 사용하여 인코딩될 수도 있는 방법에 관한 더 많은 정보는, 2008년 5월 17~20일자의 124차 회의에서 제시된 그리고 http://ro.uow.edu.au/cgi/viewcontent.cgi?article=8025&context=engpapers에서 입수 가능한 Eric Hellerud 등의 "Encoding Higher Order Ambisonics with AAC"라는 명칭의 회의 서류에서 발견될 수 있다. 일부 사례들에서, 음향심리 오디오 인코딩 디바이스 (406) 는 다른 채널들 (예컨대, 전경 채널들) 의 증강된 메자닌 포맷팅된 오디오 데이터 (17) 를 인코딩하기 위해 사용된 것보다 더 낮은 타겟 비트레이트를 사용하여 다양한 채널들 (예컨대, 배경 채널들) 의 증강된 메자닌 포맷팅된 오디오 데이터 (17) 를 오디오 인코딩할 수도 있다.
콘텐츠 소비자 디바이스 (14) 에게 직접적으로 송신되는 것으로서 도 9a에서 도시되지만, 브로드캐스팅 네트워크 (398) 는 비트스트림 (21) 을 브로드캐스팅 네트워크 (398) 과 콘텐츠 소비자 디바이스 (14) 간에 위치된 중간 디바이스로 출력할 수도 있다. 이 중간 디바이스는 비트스트림 (21) 을 이 비트스트림을 요청할 수도 있는 콘텐츠 소비자 디바이스 (14) 로의 나중의 전달을 위해 저장할 수도 있다. 중간 디바이스는 비트스트림 (21) 을 오디오 디코더에 의한 나중의 취출을 위해 저장할 수 있는 파일 서버, 웹 서버, 데스크톱 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 모바일 폰, 스마트 폰, 또는 임의의 다른 디바이스를 포함할 수도 있다. 이 중간 디바이스는 비트스트림 (21) 을 요청하는 콘텐츠 소비자 디바이스 (14) 와 같은 가입자들에게 비트스트림 (21) 을 스트리밍할 수 있 (고 아마도 대응하는 비디오 데이터 비트스트림을 송신하는 것에 연계하) 는 콘텐츠 전달 네트워크에 존재할 수도 있다.
대안적으로, 브로드캐스팅 네트워크 (398) 는 비트스트림 (21) 을 저장 매체, 이를테면 콤팩트 디스크, 디지털 비디오 디스크, 고품위 비디오 디스크 또는 다른 저장 매체들에 저장할 수도 있는데, 그들 매체들의 대부분은 컴퓨터에 의해 읽힐 수 있고 그러므로 컴퓨터-판독가능 저장 매체들 또는 비-일시적 컴퓨터-판독가능 저장 매체들이라고 지칭될 수도 있다. 이 맥락에서, 송신 채널은 이들 매체들에 저장된 콘텐츠가 송신되 (고 소매점들 및 다른 스토어-기반 전달 메커니즘을 포함할 수 있) 는 그들 채널들을 지칭할 수도 있다. 어느 경우에나, 본 개시물의 기법들은 그러므로 이런 점에서 도 9a의 예로 제한되지 않아야 한다.
도 9a의 예에서 더 도시된 바와 같이, 콘텐츠 소비자 디바이스 (14) 는 오디오 플레이백 시스템 (16) 을 포함한다. 오디오 플레이백 시스템 (16) 은 멀티-채널 오디오 데이터를 재생할 수 있는 임의의 오디오 플레이백 시스템을 나타낼 수도 있다. 오디오 플레이백 시스템 (16) 은 다수의 상이한 렌더러들 (22) 을 포함할 수도 있다. 렌더러들 (22) 은 각각이 상이한 형태의 렌더링을 제공할 수도 있는데, 렌더링의 상이한 형태들은 벡터-기반 진폭 패닝 (VBAP) 을 수행하는 다양한 방도들 중 하나 이상, 및/또는 음장 합성을 수행하는 다양한 방도들 중 하나 이상을 포함할 수도 있다. 본원에서 사용되는 바와 같이, "A 및/또는 B"는 "A 또는 B", 또는 "A 및 B" 둘 다를 의미한다.
오디오 플레이백 시스템 (16) 은 오디오 디코딩 디바이스 (24) 를 더 포함할 수도 있다. 오디오 디코딩 디바이스 (24) 는 비트스트림 (21) 으로부터 HOA 계수들 (11') 을 디코딩하도록 구성되는 디바이스를 나타낼 수도 있는데, HOA 계수들 (11') 은 HOA 계수들 (11) 과는 유사하지만 손실 동작들 (예컨대, 양자화) 및/또는 송신 채널을 통한 송신으로 인해 상이할 수도 있다. 다시 말하면, 오디오 디코딩 디바이스 (24) 는 비트스트림 (21) 에서 특정된 전경 방향 정보를 역양자화할 수도 있는 한편, 비트스트림 (21) 에서 특정된 전경 오디오 오브젝트들과 배경 성분들을 나타내는 인코딩된 HOA 계수들에 대해 음향심리 디코딩을 또한 수행할 수도 있다. 오디오 디코딩 디바이스 (24) 는 디코딩된 전경 방향 정보에 대해 보간을 더 수행한 다음 디코딩된 전경 오디오 오브젝트들 및 보간된 전경 방향 정보에 기초하여 전경 성분들을 나타내는 HOA 계수들을 결정할 수도 있다. 오디오 디코딩 디바이스 (24) 는 그 다음에 전경 성분들을 나타내는 결정된 HOA 계수들 및 배경 성분들을 나타내는 디코딩된 HOA 계수들에 기초하여 HOA 계수들 (11') 을 결정할 수도 있다.
오디오 플레이백 시스템 (16) 은, 비트스트림 (21) 을 디코딩한 후 HOA 계수들 (11') 을 획득하고 HOA 계수들 (11') 을 랜더링하여 라우드스피커 피드들 (25) 을 출력할 수도 있다. 라우드스피커 피드들 (25) 은 하나 이상의 라우드스피커들 (이는 예시 목적의 편의를 위해 도 9a의 예에서 도시되지 않음) 을 구동할 수도 있다.
적절한 렌더러를 선택하기 위해 또는, 일부 사례들에서, 적절한 렌더러를 생성하기 위해, 오디오 플레이백 시스템 (16) 은 라우드스피커들의 수 및/또는 라우드스피커들의 공간적 기하구조를 나타내는 라우드스피커 정보 (13) 를 획득할 수도 있다. 일부 사례들에서는, 오디오 플레이백 시스템 (16) 은 라우드스피커 정보 (13) 를 동적으로 결정하는 것과 같은 방식으로 참조 마이크로폰을 사용하여 그리고 라우드스피커들을 구동하여 라우드스피커 정보 (13) 를 획득할 수도 있다. 다른 사례들에서 또는 라우드스피커 정보 (13) 의 동적 결정과 연계하여, 오디오 플레이백 시스템 (16) 은 오디오 플레이백 시스템 (16) 과 인터페이싱하고 라우드스피커 정보 (16) 를 입력할 것을 사용자에게 프롬프트할 수도 있다.
오디오 플레이백 시스템 (16) 은 그 다음에 라우드스피커 정보 (13) 에 기초하여 오디오 렌더러들 (22) 중 하나를 선택할 수도 있다. 일부 사례들에서, 오디오 플레이백 시스템 (16) 은, 오디오 렌더러들 (22) 중 어느 것도 라우드스피커 정보 (13) 에서 특정된 것에 대한 (라우드스피커 기하구조 측면에서의) 일부 임계 유사도 측정값 내에 있지 않은 경우, 오디오 플레이백 시스템 (16) 은 라우드스피커 정보 (13) 에 기초하여 오디오 렌더러들 (22) 중 하나를 생성할 수도 있다. 오디오 플레이백 시스템 (16) 은, 일부 사례들에서, 오디오 렌더러들 (22) 중 현존 오디오 렌더러를 선택하려는 첫 번째 시도 없이, 라우드스피커 정보 (13) 에 기초하여 오디오 렌더러들 (22) 중 하나의 오디오 렌더러를 생성할 수도 있다.
도 9b 내지 도 9d는 도 9a의 브로드캐스팅 네트워크 센터 (402) 의 세 개의 상이한 예들을 더 상세히 예시하는 도면들이다. 도 9b의 예에서, 브로드캐스팅 네트워크 센터 (402A) 로 표시되는 브로드캐스팅 네트워크 센터 (402) 의 제 1 예는, 공간적 오디오 디코딩 디바이스 (410), HOA 변환 디바이스 (412), 스위칭 디바이스 (414), 모니터링 디바이스 (416), 역 HOA 변환 디바이스 (418), 공간적 오디오 인코딩 디바이스 (420) 및 삽입 디바이스 (422) 를 포함한다.
본 개시물의 다른 부분들에서 더 상세히 설명되는 공간적 오디오 디코딩 디바이스 (410) 는, 공간적 오디오 인코딩 디바이스 (20) 에 대해 설명된 것들의 일반적으로 역인 동작들을 수행하도록 구성되는 디바이스 또는 유닛을 나타낸다. 공간적 오디오 디코딩 디바이스 (410) 는, 다르게 말하면, 메자닌 포맷팅된 오디오 데이터 (15) 를 획득하고 메자닌 포맷팅된 오디오 데이터 (15) 에 대해 메자닌 압축해제를 수행하여 HOA 계수들 (11) 을 획득할 수도 있다. 공간적 오디오 디코딩 디바이스 (410) 는 HOA 계수들 (11) 을 HOA 변환 디바이스 (412) 로 출력할 수도 있다. HOA 변환 디바이스 (412) 는 구면 조화 도메인으로부터 공간적 도메인으로 HOA 계수들 (11) 을 (예컨대, HOA 계수들 (11) 을 특정 공간적 사운드 포맷, 이를테면 5.1 서라운드 사운드 포맷으로 렌더링함으로써) 변환하도록 구성되는 디바이스 또는 유닛을 나타낸다. HOA 변환 디바이스 (412) 는 레거시 오디오 장비, 이를테면 스위칭 디바이스 (414) 와 모니터링 디바이스 (416) 를 수용하도록 이 변환을 수행할 수도 있다 (그것들 둘 다 또는 그 중 하나는 특정한 수의 채널들, 이를테면 5.1 서라운드 사운드 포맷의 6 채널들에 대한 동작을 수행하도록 구성될 수도 있다). HOA 변환 디바이스 (412) 는 공간적 포맷팅된 오디오 데이터 (413) 를 스위칭 디바이스 (414) 로 출력할 수도 있다.
스위칭 디바이스 (414) 는, 공간적 포맷팅된 오디오 데이터 (413) 를 포함하는, 다양한 상이한 오디오 데이터 간에 스위칭하도록 구성되는 디바이스 또는 유닛을 나타낼 수도 있다. 스위칭 디바이스 (414) 는 추가적인 오디오 데이터 (415A~415N) (도 9b의 예에서 도시된 바와 같은 "오디오 데이터 (415") 로서 또한 지칭될 수도 있는 "추가적인 오디오 데이터 (415)") 와 공간적 포맷팅된 오디오 데이터 (413) 간에 스위칭할 수도 있다. 스위칭 디바이스 (414) 는 오퍼레이터, 오디오 편집자 또는 다른 방송사 직원에 의해 입력될 수도 있는 입력 (417) 에 의해 지시된 바와 같이 오디오 데이터 (415) 와 공간적 포맷팅된 오디오 데이터 (415) 간에 스위칭할 수도 있다. 입력 (417) 은 오디오 데이터 (415) 또는 공간적 포맷팅된 오디오 데이터 (413) 중 하나를 모니터링 디바이스 (416) 로 출력하도록 스위칭 디바이스 (414) 를 구성할 수도 있다. 오퍼레이터, 오디오 편집자 또는 다른 방송 인원은 오디오 데이터 (415) 또는 공간적 포맷팅된 오디오 데이터 (413) 중 선택된 하나를 청취하고 추가적인 오디오 데이터 (415) 중 하나가 메자닌 포맷팅된 오디오 데이터 (15) 에 삽입되어야 하는 경우를 특정하는 추가적인 입력 (417) 을 생성할 수도 있다.
이 추가적인 입력 (417) 의 수신 시, 스위칭 디바이스 (414) 는 추가적인 오디오 데이터 (415) 중 선택된 하나, 예컨대, 추가적인 오디오 데이터 (415A) 를, 역 HOA 변환 디바이스 (418) 에 연결되게 스위칭할 수도 있다. 이 추가적인 오디오 데이터 (415A) 는 위에서 논의된 유형들 중 임의의 것의 추가적인 오디오 콘텐츠, 이를테면 상업적 오디오 콘텐츠, 텔레비전 스튜디오 오디오 콘텐츠, 엑시트 오디오 콘텐츠, 인트로 오디오 콘텐츠 (여기서 인트로와 엑시트 오디오 콘텐츠는 "범퍼 오디오 콘텐츠"라고 지칭될 수도 있음), 긴급 오디오 콘텐츠 등을 나타낼 수도 있다. 여하튼, 이 추가적인 오디오 데이터 (415A) (와 일반적으로 추가적인 오디오 콘텐츠 (415)) 는 메자닌 포맷 또는 구면 조화 도메인 중 어느 하나에서 특정되지 않는다. 대신, 이 추가적인 오디오 데이터 (415) 는 공간적 도메인에서, 종종 5.1 서라운드 사운드 포맷으로 통상적으로 특정된다. 이 추가적인 오디오 데이터 (415A) 를 메자닌 포맷팅된 공간적 오디오 데이터 (15) 에 삽입하기 위해, 브로드캐스팅 네트워크 센터 (402A) 는 추가적인 오디오 데이터 (415A) 를 역 HOA 변환 디바이스 (418) 로 전해줄 수도 있다.
역 HOA 변환 디바이스 (418) 는 HOA 변환 디바이스 (412) 에 역으로 동작하여 추가적인 오디오 데이터 (415A) 를 공간적 도메인에서부터 구면 조화 도메인으로 변환시킬 수도 있다. 역 HOA 변환 디바이스 (418) 는 그 다음에 변환된 추가적인 오디오 데이터 (415A) 를 변환된 추가적인 오디오 데이터 (419) 로서 공간적 오디오 디코딩 디바이스 (420) 로 출력할 수도 있다. 공간적 오디오 인코딩 디바이스 (420) 는 공간적 오디오 인코딩 디바이스 (20) 에 대해 위에서 설명된 것과 실질적으로 유사한 그리고 아마도 동일한 방식으로 동작할 수도 있다. 공간적 오디오 인코딩 디바이스 (420) 는 메자닌 포맷팅된 추가적인 오디오 데이터 (421) 를 삽입 디바이스 (422) 로 출력할 수도 있다. 삽입 디바이스 (422) 는 메자닌 포맷팅된 추가적인 오디오 데이터 (421) 를 메자닌 포맷팅된 오디오 데이터 (15) 에 삽입하도록 구성되는 디바이스 또는 유닛을 나타낼 수도 있다. 일부 예들에서, 삽입 디바이스 (422) 는 메자닌 포맷팅된 추가적인 오디오 데이터 (421) 를 원래의 메자닌 포맷팅된 오디오 데이터 (15) 에 삽입하는데, 이 원래의 메자닌 포맷팅된 오디오 데이터 (15) 는, 증강된 메자닌 포맷팅된 오디오 데이터 (17) 속으로의 오디오 아티팩트들의 잠재적 주입을 피하기 위해서, 공간적 오디오 디코딩 (또는, 다르게 말하면, 메자닌 압축해제), HOA 변환, 공간적 오디오 재-인코딩 및 역 HOA 변환을 받지 않았다. 삽입 디바이스 (422) 는, 적어도 부분적으로는, 메자닌 포맷팅된 오디오 데이터 (421) 를 메자닌 포맷팅된 오디오 데이터 (15) 속으로 크로스패딩 (crossfading) 함으로써 이 메자닌 포맷팅된 오디오 데이터 (421) 를 메자닌 포맷팅된 오디오 데이터 (15) 에 삽입할 수도 있다.
도 9c는 도 9a의 브로드캐스팅 네트워크 센터 (402) 의 제 2 예를 더 상세히 예시하는 블록도이다. 도 9c의 예에서, 브로드캐스팅 네트워크 센터 (402B) 로 표시되는 브로드캐스팅 네트워크 센터 (402) 의 제 2 예는, 도 9c의 예에서 도시된 추가적인 오디오 데이터 (421A~421N) 가 메자닌 포맷 (MF) 으로 이미 특정된다는 것을 제외하면, 브로드캐스팅 네트워크 센터 (402A) 와 실질적으로 동일할 수도 있다. 이와 같이, 추가적인 오디오 데이터 (421A~421N) 는 도 9c의 예에서 메자닌 포맷팅된 (MF) 오디오 데이터 (421A~421N) ("MF 오디오 데이터 (425")) 로서 표시된다. MF 오디오 데이터 (421) 는 각각이 도 9b의 예에 대해 위에서 설명된 메자닌 포맷팅된 추가적인 오디오 데이터 (421) 에 실질적으로 유사할 수도 있다. 여하튼, MF 오디오 데이터 (425) 가 메자닌 포맷에 따라 특정된다는 것을 고려하면, 브로드캐스팅 네트워크 센터 (402B) 는 브로드캐스팅 네트워크 센터 (402A) 에 대해 위에서 설명된 역 HOA 변환 디바이스 (418) 및 공간적 오디오 인코딩 디바이스 (420) 을 포함하지 않을 수도 있다. 스위칭 디바이스 (414) 에 입력된 오디오 데이터 (421 및15) 의 모두가 동일한 포맷 (예컨대, 메자닌 포맷) 으로 특정되기 때문에 공간적 오디오 디코딩 및 변환은 스위칭 디바이스 (417) 에 의한 프로세싱 전에 요구되지 않을 수도 있다.
MF 추가적인 오디오 데이터 (421) 와 MV 오디오 데이터 (15) 를 모니터링하기 위해, 브로드캐스팅 네트워크 센터 (402B) 는 스위칭 디바이스 (414) 의 출력들에 대해 공간적 오디오 디코딩 및 HOA 변환을 수행하기 위해 공간적 오디오 디코딩 디바이스 (410) 와 HOA 변환 디바이스 (412) 를 포함할 수도 있다. 공간적 오디오 디코딩과 HOA 변환은 공간적 도메인에서 특정된 오디오 데이터 (예컨대, 5.1 오디오 데이터) 를 초래할 수도 있으며 그 데이터는 그러면 오퍼레이터, 편집자 또는 다른 방송 인원이 스위칭 디바이스 (414) 에 대한 입력들 중 (입력 데이터 (417) 에 의해 특정된 바와 같은) 선택된 입력을 모니터링하는 것을 허용하기 위해 모니터링 디바이스 (416) 에 입력된다.
도 9d는 도 9a의 브로드캐스팅 네트워크 센터 (402) 의 제 3 예를 더 상세히 예시하는 블록도이다. 도 9d의 예에서, 브로드캐스팅 네트워크 센터 (402C) 로 표시되는 브로드캐스팅 네트워크 센터 (402) 의 제 3 예는, 도 9d의 예에서 도시된 추가적인 오디오 데이터 (425A~425N) 가 HOA 포맷으로 (또는, 다르게 말하면, 구면 조화 도메인에서) 특정된다는 것을 제외하면, 브로드캐스팅 네트워크 센터 (402B) 와 실질적으로 동일할 수도 있다. 이와 같이, 추가적인 오디오 데이터 (425A~425N) 는 도 9d의 예에서 HOA 오디오 데이터 (425A~425N) ("HOA 오디오 데이터 (425")) 로서 표시된다. HOA 오디오 데이터 (425) 가 HOA 포맷에 따라 특정된다는 것을 고려하면, 브로드캐스팅 네트워크 센터 (402B) 는 역 HOA 변환 디바이스 (418) 를 포함하지 않을 수도 있다. 그러나, 브로드캐스팅 네트워크 센터 (402B) 는 HOA 오디오 데이터 (425) 에 대해 메자닌 압축을 수행하여 MF 추가적인 오디오 데이터 (421) 를 획득하기 위해서 브로드캐스팅 네트워크 센터 (402A) 에 대해 위에서 설명된 공간적 오디오 인코딩 디바이스 (420) 를 포함할 수도 있다. 오디오 데이터 (425) 가 HOA 도메인 (또는, 다르게 말하면, 구면 조화 도메인) 에서 특정되기 때문에, 공간적 오디오 디코딩 디바이스 (410) 는 HOA 계수들 (11) 를 획득하기 위해 메자닌 포맷팅된 오디오 데이터 (15) 에 대해 공간적 오디오 디코딩을 수행함으로써, 입력 포맷을 스위칭 디바이스 (414) 에 맞춘다.
HOA 오디오 데이터 (421 및 11) 를 모니터링하기 위해, 브로드캐스팅 네트워크 센터 (402B) 는 스위칭 디바이스 (414) 의 출력들에 대해 HOA 변환을 수행하는 HOA 변환 디바이스 (412) 를 포함할 수도 있다. HOA 변환은 공간적 도메인에서 특정된 오디오 데이터 (예컨대, 5.1 오디오 데이터) 를 초래할 수도 있으며 그 데이터는 그러면 오퍼레이터, 편집자 또는 다른 방송 인원이 스위칭 디바이스 (414) 에 대한 입력들 중 (입력 데이터 (417) 에 의해 특정된 바와 같은) 선택된 입력을 모니터링하는 것을 허용하기 위해 모니터링 디바이스 (416) 에 입력된다.
이런 식으로, 그 기법들은 고차 앰비소닉 오디오 데이터에 대해 메자닌 압축을 수행한 결과로서 생성된 메자닌 포맷팅된 오디오 데이터를 저장하고, 메자닌 포맷팅된 오디오 데이터를 프로세싱하도록 브로드캐스팅 네트워크 센터 (402) 가 구성되는 것을 가능하게 할 수도 있다.
이들 및 다른 사례들에서, 메자닌 포맷팅된 오디오 데이터는 고차 앰비소닉 오디오 데이터에의 음향심리 오디오 인코딩의 임의의 적용을 수반하지 않는 메자닌 압축을 수행한 결과로서 생성된다.
이들 및 다른 사례들에서, 메자닌 포맷팅된 오디오 데이터는 고차 앰비소닉 오디오 데이터에 대해 공간적 오디오 인코딩을 수행한 결과로서 생성된다.
이들 및 다른 사례들에서, 메자닌 포맷팅된 오디오 데이터는 고차 앰비소닉 오디오 데이터에 대해 벡터-기반 합성을 수행한 결과로서 생성된다.
이들 및 다른 사례들에서, 메자닌 포맷팅된 오디오 데이터는 고차 앰비소닉 오디오 데이터에 대해 특이값 분해를 수행한 결과로서 생성된다.
이들 및 다른 사례들에서, 메자닌 포맷팅된 오디오 데이터는 고차 앰비소닉 오디오 데이터에 의해 표현되는 음장의 하나 이상의 배경 성분들을 포함한다.
이들 및 다른 사례들에서, 배경 성분들은 2 미만의 차수를 갖는 구면 기저 함수에 대응하는 고차 앰비소닉 오디오 데이터의 고차 앰비소닉 계수들을 포함한다.
이들 및 다른 사례들에서, 배경 성분들은 2 미만의 차수를 갖는 구면 기저 함수에 대응하는 고차 앰비소닉 오디오 데이터의 고차 앰비소닉 계수들만을 포함한다.
이들 및 다른 사례들에서, 메자닌 포맷팅된 오디오 데이터는 고차 앰비소닉 오디오 데이터에 의해 표현되는 음장의 하나 이상의 전경 성분들을 포함한다.
이들 및 다른 사례들에서, 메자닌 포맷팅된 오디오 데이터는 고차 앰비소닉 오디오 데이터에 대해 벡터-기반 합성을 수행한 결과로서 생성된다. 이들 사례들에서, 전경 성분들은 고차 앰비소닉 오디오 데이터에 대해 벡터-기반 합성을 수행함으로써 더 높은 차수의 오디오 오브젝트들로부터 분해된 전경 오디오 오브젝트들을 포함한다.
이들 및 다른 사례들에서, 메자닌 포맷팅된 오디오 데이터는 고차 앰비소닉 오디오 데이터에 의해 표현되는 음장의 하나 이상의 전경 성분들과 하나 이상의 배경 성분들을 포함한다.
이들 및 다른 사례들에서, 메자닌 포맷팅된 오디오 데이터는 하나 이상의 펄스 코드 변조된 (PCM) 전송 채널들 및 측파대 (sideband) 정보를 포함한다.
이들 및 다른 사례들에서, 메자닌 포맷팅된 오디오 데이터는 메자닌 포맷팅된 오디오 데이터를 획득하기 위해 고차 앰비소닉 오디오 데이터에 대해 벡터-기반 합성을 수행한 결과로서 생성된다. 이들 사례들에서, 측파대 정보는 고차 앰비소닉 오디오 데이터에 대해 벡터-기반 합성을 수행한 결과로서 출력되는 방향 정보를 포함한다.
이들 및 다른 사례들에서, 메자닌 포맷팅된 오디오 데이터는 메자닌 포맷팅된 오디오 데이터를 획득하기 위해 고차 앰비소닉 오디오 데이터에 대해 특이값 분해를 수행한 결과로서 생성된다. 이들 사례들에서, 측파대 정보는 고차 앰비소닉 오디오 데이터에 대해 벡터-기반 합성을 수행한 결과로서 출력되는 하나 이상의 V 벡터들을 포함한다.
이들 및 다른 사례들에서, 브로드캐스팅 네트워크 센터 (402) 는 추가적인 오디오 데이터를 메자닌 포맷팅된 오디오 데이터에 삽입하도록 구성될 수도 있다.
이들 및 다른 사례들에서, 브로드캐스팅 네트워크 센터 (402) 는 상업적 오디오 데이터를 메자닌 포맷팅된 오디오 데이터에 삽입하도록 구성될 수도 있다.
이들 및 다른 사례들에서, 브로드캐스팅 네트워크 센터 (402) 는 텔레비전 스튜디오 쇼를 메자닌 포맷팅된 오디오 데이터에 삽입하도록 구성될 수도 있다.
이들 및 다른 사례들에서, 브로드캐스팅 네트워크 센터 (402) 는 추가적인 오디오 데이터를 메자닌 포맷팅된 오디오 데이터로 크로스페이딩하도록 구성될 수도 있다.
이들 및 다른 사례들에서, 브로드캐스팅 네트워크 센터 (402) 는 메자닌 포맷팅된 오디오 데이터에 대해 메자닌 압축해제 또는 고차 앰비소닉 변환 중 어느 하나를 수행하는 일 없이 메자닌 포맷팅된 오디오 데이터를 프로세싱하도록 구성될 수도 있다.
이들 및 다른 사례들에서, 브로드캐스팅 네트워크 센터 (402) 는 공간적 도메인에서 특정된 추가적인 오디오 데이터를 획득하며, 추가적인 오디오 데이터에 의해 설명되는 음장이 추가적인 고차 앰비소닉 오디오 데이터로서 표현되도록 추가적인 오디오 데이터를 공간적 도메인에서부터 구면 조화 도메인으로 변환하고, 추가적인 고차 앰비소닉 오디오 데이터에 대해 메자닌 압축을 수행하여 메자닌 포맷팅된 추가적인 오디오 데이터를 생성하도록 구성될 수도 있다. 이들 사례들에서, 브로드캐스팅 네트워크 센터 (402) 는 메자닌 포맷팅된 추가적인 오디오 데이터를 메자닌 포맷팅된 오디오 데이터에 삽입하도록 구성될 수도 있다.
이들 및 다른 사례들에서, 브로드캐스팅 네트워크 센터 (402) 는 구면 조화 도메인에서 특정되는 메자닌 포맷팅된 추가적인 오디오 데이터를 획득하도록 구성될 수도 있다. 이들 사례들에서, 브로드캐스팅 네트워크 센터 (402) 는 메자닌 포맷팅된 추가적인 오디오 데이터를 메자닌 포맷팅된 오디오 데이터 속에 삽입하도록 구성될 수도 있다.
이들 및 다른 사례들에서, 브로드캐스팅 네트워크 센터 (402) 는 구면 조화 도메인에서 특정된 추가적인 고차 앰비소닉 오디오 데이터를 획득하고, 추가적인 고차 앰비소닉 오디오 데이터에 대해 메자닌 압축을 수행하여 메자닌 포맷팅된 추가적인 오디오 데이터를 생성하도록 구성될 수도 있다. 이들 사례들에서, 브로드캐스팅 네트워크 센터 (402) 는 메자닌 포맷팅된 추가적인 오디오 데이터를 메자닌 포맷팅된 오디오 데이터 속에 삽입하도록 구성될 수도 있다.
이들 및 다른 사례들에서, 브로드캐스팅 네트워크 센터 (402) 는 메자닌 포맷팅된 오디오 데이터에 대해 음향심리 오디오 인코딩을 수행하여 압축된 오디오 데이터를 생성하도록 구성될 수도 있다.
도 10은 본 개시물에서 설명되는 기법들의 다양한 양태들을 수행할 수도 있는 도 9a의 예에서 도시된 공간적 오디오 인코딩 디바이스 (20) 의 하나의 예를 더 상세히 도시하는 블록도이다. 공간적 오디오 인코딩 디바이스 (20) 벡터-기반 합성 수법 유닛 (27) 을 포함한다.
도 10의 예에서 도시된 바와 같이, 벡터-기반 합성 유닛 (27) 은 선형 가역 변환 (LIT) 유닛 (30), 파라미터 계산 유닛 (32), 재순서화 유닛 (34), 전경 선택 유닛 (36), 에너지 보상 유닛 (38) 비트스트림 생성 유닛 (42), 음장 분석 유닛 (44), 계수 감소 유닛 (46), 배경 (BG) 선택 유닛 (48), 시공간적 보간 유닛 (50), 및 양자화 유닛 (52) 을 포함할 수도 있다.
선형 가역 변환 (LIT) 유닛 (30) 은 HOA 계수들 (11) 을 HOA 채널들의 형태로 수신하는데, 각각의 채널은 구면 기저 함수들 (이는 HOA[k]로서 표시될 수도 있으며, 여기서 k는 샘플들의 현재 프레임 또는 블록을 표시할 수도 있음) 의 주어진 차수의 하위-차수에 연관된 계수의 블록 또는 프레임을 나타낸다. HOA 계수들 (11) 의 행렬은 다음의 크기 D를 가질 수도 있다: M x (N+1)2.
다시 말하면, LIT 유닛 (30) 은 특이값 분해라고 지칭되는 분석의 형태를 수행하도록 구성되는 유닛을 나타낼 수도 있다. SVD에 관해 설명되었지만, 본 개시물에서 설명되는 기법들은 선형적으로 비상관된, 에너지 콤팩트된 출력의 세트들을 제공하는 임의의 유사한 변환 또는 분해에 대해 수행될 수도 있다. 또한, 본 개시물에서의 "세트들"에 대한 참조는 반대하는 것으로 구체적으로는 언급되지 않는 한 영이 아닌 세트들을 지칭하도록 일반적으로 의도되고, 이른바 "공집합"을 포함하는 세트들의 고전적 수학적 정의를 지칭하도록 의도되지 않는다.
대안적 변환이 종종 "PCA"라고 지칭되는 주성분 분석을 포함할 수도 있다. PCA는 아마도 상관된 변수들의 관찰들의 세트를 주성분들이라고 지칭되는 선형적으로 비상관된 변수들의 세트로 변환하는 직교 변환을 채용하는 수학적 절차를 지칭한다. 선형적으로 비상관된 변수들은 서로에게 선형 통계 관계 (또는 의존도) 를 갖지 않는 변수들을 나타낸다. 이들 주성분들 서로에 대해 작은 정도의 통계적 상관을 갖는 것으로서 설명될 수도 있다. 여하튼, 이른바 주성분들의 수는 원래의 변수들의 수 이하이다. 일부 예들에서, 변환은 제 1 주성분이 최대 가능 분산을 갖는 (또는, 다르게 말하면, 가능한 한 많은 데이터에서의 변동성을 책임지는) 식으로 정의되고, 각각의 다음의 성분은 결국, 이 다음의 성분이 선행하는 성분들에 직교한다는 (그 선행하는 성분들과는 비상관된 것으로 고쳐 말해질 수도 있는) 제약조건 하에서 가능한 최고 분산을 갖는다. PCA는 HOA 계수들 (11) 의 측면에서 HOA 계수들 (11) 의 압축을 초래할 수도 있는 한 형태의 차수-감소를 수행할 수도 있다. 그 맥락에 의존하여, PCA는 몇몇 예들을 말하자면 이산 카루넨 뢰베 변환, 호텔링 변환, 적절한 직교 분해 (POD), 및 고유값 분해 (EVD) 와 같은 다수의 상이한 이름들에 의해 지칭될 수도 있다. 오디오 데이터를 압축하는 기본적인 목적에 도움이 되는 이러한 동작들의 속성들은 멀티채널 오디오 데이터의 '에너지 압축'과 '상관제거'이다.
여하튼, LIT 유닛 (30) 은 특이값 분해 (이는, 다시, "SVD"라고 지칭될 수도 있음) 를 수행하여 HOA 계수들 (11) 을 변환된 HOA 계수들의 둘 이상의 세트들로 변환시킬 수도 있다. 변환된 HOA 계수들의 이들 "세트들"은 변환된 HOA 계수들의 벡터들을 포함할 수도 있다. 도 10의 예에서, LIT 유닛 (30) 은 이른바 V 행렬, S 행렬, 및 U 행렬을 생성하기 위해 HOA 계수들 (11) 에 대해 SVD를 수행할 수도 있다. SVD는, 선형 대수에서, y-바이-z 실수 또는 복소수 행렬 X (여기서 X는 멀티-채널 오디오 데이터, 이를테면 HOA 계수들 (11) 을 나타낼 수도 있음) 의 인수분해를 다음 형태로 나타낼 수도 있다:
X = USV*
U는 y-바이-y 실수 또는 복소수 단위 행렬을 나타낼 수도 있으며, 여기서 U의 y 열들은 보통 멀티-채널 오디오 데이터의 좌측-특이 벡터들로서 알려져 있다. S는 대각선 상에 음이 아닌 실수들을 갖는 y-바이-z 직사각형 대각 행렬을 나타낼 수도 있는데, 여기서 S의 대각선 값들은 보통 멀티-채널 오디오 데이터의 특이값들로서 알려져 있다. V* (이는 V의 켤레 전치를 나타낼 수도 있음) 는, V*의 z 개 열들이 멀티-채널 오디오 데이터의 우측-특이 벡터들로서 보통 알려진 z-바이-z 실수 또는 복소수 단위 행렬을 나타낼 수도 있다.
비록 HOA 계수들 (11) 을 포함하는 멀티-채널 오디오 데이터에 적용되는 것으로서 본 개시물에서 설명되지만, 그 기법들은 임의의 형태의 멀티-채널 오디오 데이터에 적용될 수도 있다. 이런 식으로, 공간적 오디오 인코딩 디바이스 (20) 는 음장의 적어도 부분을 나타내는 멀티-채널 오디오 데이터에 대해 특이값 분해를 수행하여, 멀티-채널 오디오 데이터의 좌측-특이 벡터들을 나타내는 U 행렬, 멀티-채널 오디오 데이터의 특이값들을 나타내는 S 행렬 및 멀티-채널 오디오 데이터의 우측-특이 벡터들을 나타내는 V 행렬을 생성하고, 멀티-채널 오디오 데이터를 U 행렬, S 행렬 및 V 행렬 중 하나 이상의 행렬들의 적어도 부분의 함수로서 표현할 수도 있다.
일부 예들에서, 위에서 참조되는 SVD 수식에서의 V* 행렬은 SVD가 복소수들을 포함하는 행렬들에 적용될 수도 있다는 것을 반영하도록 V 행렬의 켤레 전치로서 표시된다. 실수들만을 포함하는 행렬들에 적용되는 경우, V 행렬의 복소 켤레 (또는, 다르게 말하면, V* 행렬) 은 V 행렬의 전치인 것으로 고려될 수도 있다. 아래에서, 예시의 편의를 위해, HOA 계수들 (11) 은 실수들을 포함한 결과로 V 행렬은 V* 행렬보다는 SVD를 통해 출력된다고 가정된다. 더구나, 본 개시물에서 V 행렬로서 표시되지만, V 행렬에 대한 언급은 적절한 경우 V 행렬의 전치를 지칭하는 것으로 이해되어야 한다. V 행렬인 것으로 가정되고 있지만, 그 기법들은 SVD의 출력이 V* 행렬인 복소 계수들을 갖는 HOA 계수들 (11) 에 유사한 방식으로 적용될 수도 있다. 따라서, 그 기법들은 이런 점에서 V 행렬을 생성하기 위해 SVD의 적용을 제공하는 것만으로 제한되지 않아야 하고, V* 행렬을 생성하기 위해 복소 성분들을 갖는 HOA 계수들 (11) 에의 SVD의 적용을 포함할 수도 있다.
여하튼, LIT 유닛 (30) 은 더 고차 앰비소닉 (HOA) 오디오 데이터의 각각의 블록 (이는 프레임을 지칭할 수도 있음) 에 대해 블록-식 형태의 SVD를 수행할 수도 있다 (여기서 이 앰비소닉스 오디오 데이터는 HOA 계수들 (11) 의 블록들 또는 샘플들 또는 임의의 다른 형태의 멀티-채널 오디오 데이터를 포함한다). 위에서 언급했듯이, 변수 M이 샘플들에서의 오디오 프레임의 길이를 표시하는데 사용될 수도 있다. 예를 들어, 오디오 프레임이 1024 개의 오디오 샘플들을 포함하는 경우, M은 1024와 동일하다. 비록 M에 대한 이 유형 값에 대해 설명되지만, 본 개시물의 기법들은 M에 대한 이 유형 값으로 제한되지 않아야 한다. LIT 유닛 (30) 는 그러므로 M-바이- (N+1)2 개의 HOA 계수들을 갖는 블록 HOA 계수들 (11) 에 대해 블록-방식 SVD를 수행할 수도 있으며, 여기서 N은, 다시, HOA 오디오 데이터의 차수를 표시한다. LIT 유닛 (30) 은, 이 SVD를 통해, V 행렬, S 행렬, 및 U 행렬을 생성할 수도 있으며, 행렬들의 각각은 위에서 설명된 각각의 V, S 및 U 행렬들을 나타낼 수도 있다. 이런 식으로, 선형 가역 변환 유닛 (30) 은 크기 D: M x (N+1)2를 갖는 US[k] 벡터들 (33) (이는 S 벡터들 및 U 벡터들의 조합된 버전을 나타낼 수도 있음) 과, 크기 D: (N+1)2 x (N+1)2를 갖는 V[k] 벡터들 (35) 을 출력하기 위해 HOA 계수들 (11) 에 대해 SVD를 수행할 수도 있다. US[k] 행렬에서의 개개의 벡터 엘리먼트들은 X PS (k)로 또한 지칭될 수도 있는 한편 V[k] 행렬의 개개의 벡터들은 v(k)라고 또한 지칭될 수도 있다.
U, S 및 V 행렬들의 분석이, 이들 행렬들은 X에 의해 위에서 나타낸 기본 음장의 공간적 및 시간적 특성들을 운반하거나 또는 나타낸다는 것을 드러내 보일 수도 있다. U (길이 M 샘플들로 됨) 에서의 N 개 벡터들의 각각은, 서로 직교하는 그리고 임의의 공간적 특성들 (이는 또한 방향 정보라고 지칭될 수도 있음) 로부터 분리되어 있는 정규화된 분리된 오디오 신호들을 (M 개 샘플들에 의해 나타내어진 시구간에 대한) 시간의 함수로서 나타낼 수도 있다. 공간적 형상 및 포지션 (r, 세타, 파이) 폭을 표현하는 공간적 특성들은 대신에 V 행렬 (길이 (N+1)2의 각각) 에서의 개개의 i번째 벡터들, 에 의해 표현될 수도 있다. U 행렬 및 V 행렬에서의 양쪽 모두의 벡터들은 그것들의 제곱평균제곱근 에너지들이 단위원과 동일하도록 정규화된다. U에서의 오디오 신호들의 에너지는 따라서 S에서의 대각선 엘리먼트들에 의해 표현된다. U와 S를 곱하여 US[k] (개개의 벡터 엘리먼트들 X PS (k)를 가짐) 를 형성하는 것은, 따라서 진정한 에너지들을 갖는 오디오 신호를 나타낸다. SVD 분해의 (U에서의) 오디오 시간-신호들, (S에서의) 그것들의 에너지들 및 (V에서의) 그것들의 공간적 특성들을 분리하는 능력은, 본 개시물에서 설명되는 기법들의 다양한 양태들을 지원할 수도 있다. 게다가, 기본 HOA[k] 계수들, 즉, X를, US[k]와 V[k]의 벡터 곱셈에 의해 합성하는 이 모델은, "벡터-기반 합성 수법"이라는 용어가 이 문서 전체에 걸쳐 사용되게 한다.
비록 HOA 계수들 (11) 에 대해 직접적으로 수행되고 있는 것으로 설명되지만, LIT 유닛 (30) 은 선형 가역 변환을 HOA 계수들 (11) 의 미분계수들에 적용할 수도 있다. 예를 들어, LIT 유닛 (30) 은 HOA 계수들 (11) 로부터 유도된 전력 스펙트럼 밀도 행렬에 대해 SVD를 적용할 수도 있다. 전력 스펙트럼 밀도 행렬은 PSD로서 표시되고, 아래에서 뒤따르는 의사-코드에서 개요로서 설명되는 바와 같이, hoaFrame의 전치와 hoaFrame의 행렬 곱셈을 통해 획득될 수도 있다. hoaFrame 표기법은 HOA 계수들 (11) 의 프레임을 지칭한다.
LIT 유닛 (30) 은, SVD (svd) 를 PSD에 적용한 후, S[k]2 행렬 (S_squared) 과 V[k] 행렬을 획득할 수도 있다. S[k]2 행렬은 제곱된 S[k] 행렬을 표시할 수도 있으며, 그래서 LIT 유닛 (30) 은 제곱근 연산을 S[k]2 행렬에 적용하여 S[k] 행렬을 획득할 수도 있다. LIT 유닛 (30) 은, 일부 사례들에서, V[k] 행렬에 대해 양자화를 수행하여 양자화된 V[k] 행렬 (이는 V[k]' 행렬로서 표시될 수도 있음) 을 획득할 수도 있다. LIT 유닛 (30) 은 S[k] 행렬과 양자화된 V[k]' 행렬을 먼저 곱함으로써 U[k] 행렬을 획득하여 SV[k]' 행렬을 획득할 수도 있다. LIT 유닛 (30) 은 다음으로 SV[k]' 행렬의 의사-역 (pseudo-inverse) (pinv) 을 획득한 다음 HOA 계수들 (11) 과 SV[k]' 행렬의 의사-역을 곱하여 U[k] 행렬을 획득할 수도 있다. 전술한 바는 다음의 의사-코드에 의해 표현될 수도 있다:
PSD = hoaFrame'*hoaFrame;
[V, S_squared] = svd(PSD,'econ');
S = sqrt(S_squared);
U = hoaFrame * pinv(S*V');
계수들 자체가 아니라 HOA 계수들의 전력 스펙트럼 밀도 (PSD) 에 대해 SVD를 수행함으로써, LIT 유닛 (30) 은 프로세서 사이클들 및 저장 공간의 하나 이상의 측면에서 SVD를 수행하는 계산 복잡도를 잠재적으로 감소시킬 수도 있으면서도, SVD가 HOA 계수들에 직접적으로 적용된 것과 동일한 소스 오디오 인코딩 효율을 성취할 수도 있다. 다시 말하면, 위에서 설명된 PSD-유형 SVD는 SVD가 (HOA 계수들의 수인 F로) F*F 행렬에 대해 수행되기 때문에 계산 요구가 잠재적으로 적을 수도 있다. M을 갖는 M * F 행렬과 비교되는 것은 프레임길이, 즉, 1024 개 이상의 샘플들이다. SVD의 복잡도는 지금, HOA 계수들 (11) 이 아니라 PSD에의 적용을 통해, HOA 계수들 (11) 에 적용되는 경우 O(M*L^2) 에 비해 약 O(L^3) 이 될 수도 있다 (여기서 O(*) 는 컴퓨터-과학 기술에 공통인 빅-O 표기법의 계산 복잡도를 표시한다).
파라미터 계산 유닛 (32) 은 다양한 파라미터들, 이를테면 상관 파라미터 (R), 방향 속성들 파라미터들 (θ, φ, r), 및 에너지 속성 (e) 을 계산하도록 구성되는 유닛을 나타낸다. 현재 프레임에 대한 이들 파라미터들의 각각은 R[k], θ[k], φ[k], r[k] 및 e[k]로서 표시될 수도 있다. 파라미터 계산 유닛 (32) 은 이들 파라미터들을 식별하기 위해 US[k] 벡터들 (33) 에 대해 에너지 분석 및/또는 상관 (또는 이른바 상호-상관) 을 수행할 수도 있다. 파라미터 계산 유닛 (32) 은 이전 프레임에 대해 이들 파라미터들을 또한 결정할 수도 있는데, 이전 프레임 파라미터들은 US[k-1] 벡터 및 V[k-1] 벡터들의 이전 프레임에 기초하여 R[k-1], θ[k-1], φ[k-1], r[k-1] 및 e[k-1]로 표시될 수도 있다. 파라미터 계산 유닛 (32) 은 현재 파라미터들 (37) 과 이전 파라미터들 (39) 을 재순서화 유닛 (34) 으로 출력할 수도 있다.
다시 말하면, 파라미터 계산 유닛 (32) 은 제 1 시간에 대응하는 L 개의 제 1 US[k] 벡터들 (33) 의 각각과 제 2 시간에 제 2 US[k-1] 벡터들 (33) 의 각각에 대해 에너지 분석을 수행하며, 제 1 오디오 프레임의 (종종 전체가 아닌) 적어도 부분 및 제 2 오디오 프레임의 (종종 전체가 아닌) 적어도 부분에 대해 제곱 평균 제곱근 에너지를 컴퓨팅함으로써, 2L 개의 에너지들, 즉, 제 1 오디오 프레임의 L 개의 제 1 US[k] 벡터들 (33) 의 각각에 대한 에너지 및 제 2 오디오 프레임의 제 2 US[k-1] 벡터들 (33) 의 각각에 대한 에너지를 생성할 수도 있다.
다른 예들에서, 파라미터 계산 유닛 (32) 은 제 1 US[k] 벡터들 (33) 의 각각 및 제 2 US[k-1] 벡터들 (33) 의 각각에 대한 샘플들의 세트 중 (전체가 아니라면) 일부 부분의 샘플들 간에 상호-상관을 수행할 수도 있다. 상호-상관은 신호 프로세싱 분야에서 이해되는 바와 같은 상호-상관을 지칭할 수도 있다. 다르게 말하면, 상호 상관은 두 개의 파형들 (이는 이 경우에 M 개의 샘플들의 이산 세트로서 정의됨) 중 하나에 적용되는 시간-지체의 함수로서 그 파형들 간의 유사도의 측정값을 나타낼 수도 있다. 일부 예들에서, 상호 상관을 수행하기 위해, 파라미터 계산 유닛 (32) 은, 각각의 제 1 US[k] 벡터들 (27) 의 마지막 L 개 샘플들을 턴 방식으로, 제 2 US[k-1] 벡터들 (33) 중 나머지 벡터들의 각각의 나머지 벡터의 L 개의 제 1 샘플들과 비교하여, 상관 파라미터를 결정할 수도 있다. 본원에서 사용되는 바와 같이, "턴-방식" 동작은 엘리먼트들의 제 1 세트 및 엘리먼트들의 제 2 세트에 대해 이루어진 엘리먼트 단위 동작을 지칭하는데, 그 동작은 세트들의 순서에 따라 엘리먼트들의 제 1 및 제 2 세트들의 각각으로부터 하나의 엘리먼트를 "차례차례 (in-turn) 뽑는다.
파라미터 계산 유닛 (32) 은 V[k] 및/또는 V[k-1] 벡터들 (35) 을 또한 분석하여 방향 속성 파라미터들을 결정할 수도 있다. 이들 방향 속성 파라미터들은 대응하는 US[k] 및/또는 US[k-1] 벡터들 (33) 에 의해 표현되는 오디오 오브젝트의 이동 및 로케이션의 표시를 제공할 수도 있다. 파라미터 계산 유닛 (32) 은 (US[k] 벡터들 (33) 및/또는 V[k] 벡터들 (35) 에 대해 결정된) 전술한 현재 파라미터들 (37) 의 임의의 조합과 (US[k-1] 벡터들 (33) 및/또는 V[k-1] 벡터들 (35) 에 대해 결정된) 이전의 파라미터들 (39) 의 임의의 조합을 재순서화 유닛 (34) 에 제공할 수도 있다.
SVD 분해는, US[k-1][p] 벡터로서 (또는, 대안적으로, 로서) 표시될 수도 있는, US[k-1] 벡터들 (33) 에서의 p번째 벡터에 의해 표현되는 오디오 신호/오브젝트가, US[k][p] 벡터들 (33) 로서 (또는, 대안적으로 로서) 또한 표시될 수도 있는, US[k] 벡터들 (33) 에서의 p번째 벡터에 의해 표현되는 (시간적으로 진행된) 동일한 오디오 신호 /오브젝트일 것을 보장하지 않는다. 파라미터 계산 유닛 (32) 에 의해 계산된 파라미터들은 시간 경과에 따른 그것들의 자연스러운 평가 또는 연속성을 나타내도록 오디오 오브젝트들을 재순서화하기 위해 재순서화 유닛 (34) 에 의해 사용될 수도 있다.
다시 말하면, 재순서화 유닛 (34) 은 제 1 US[k] 벡터들 (33) 로부터의 파라미터들 (37) 의 각각을 제 2 US[k-1] 벡터들 (33) 에 대한 파라미터들 (39) 의 각각에 대하여 턴 방식으로 비교할 수도 있다. 재순서화 유닛 (34) 은 현재 파라미터들 (37) 및 이전 파라미터들 (39) 에 기초하여 V[k] 행렬 (35) 및 US[k] 행렬 (33) 내의 다양한 벡터들을 (하나의 예로서, 헝가리안 알고리즘을 사용하여) 재순서화하여, 재순서화된 US[k] 행렬 (33') (이는 수학적으로 로서 표시될 수도 있음) 과 재순서화된 V[k] 행렬 (35') (이는 수학적으로 로서 표시될 수도 있음) 을 전경 사운드 (또는 우세 사운드 - PS) 선택 유닛 (36) ("전경 선택 유닛 (36")) 과 에너지 보상 유닛 (38) 으로 출력할 수도 있다.
다르게 말하면, 재순서화 유닛 (34) 은 US[k] 행렬 (33) 내의 벡터들을 재순서화하여 재순서화된 US[k] 행렬 (33') 을 생성하도록 구성되는 유닛을 나타낼 수도 있다. 재순서화 유닛 (34) 은 US[k] 벡터들 (33) (다시, 로서 대안적으로 다시 표시될 수도 있는, US[k] 벡터들 (33) 중 각각의 벡터는, 음장에 존재하는 하나 이상의 별개의 (또는, 다르게 말하면, 우세한) 모노-오디오 오브젝트를 나타낼 수도 있음) 의 순서가 오디오 데이터의 부분들로부터 가변할 수도 있기 때문에 US[k] 행렬 (33) 을 재순서화할 수도 있다. 다시 말하면, 오디오 인코딩 디바이스 (12) 가, 일부 예들에서, 오디오 프레임들이라고 일반적으로 지칭되는 오디오 데이터의 이들 부분들에 대해 동작한다는 것을 감안하면, 유도된 것으로서 US[k] 행렬 (33) 에서 나타내어진 바와 같은 이들 별개의 모노-오디오 오브젝트들에 대응하는 벡터들의 포지션은, 프레임들에의 SVD의 적용과 프레임마다의 각각의 오디오 오브젝트의 가변하는 돌극성 (saliency) 으로 인해 오디오 프레임 단위로 가변할 수도 있다.
US[k] 행렬 (33) 내의 벡터들을 오디오 프레임 단위로 재순서화하는 일 없이 US[k] 행렬 (33) 내의 벡터들을 메자닌 포맷 유닛 (40) 에 직접적으로 전해주는 것은, 모노-오디오 오브젝트들이 오디오 프레임들 전체에 걸쳐 (이 예에서 US[k] 행렬 (33) 내의 벡터들의 서로에 대한 위치적 순서 (positional order) 에 의해 정의되는 채널-식으로) 연속적인 경우 더 잘 수행하는 레거시 압축 스킴들과 같은 일부 압축 스킴들에 대해 성취 가능한 압축의 정도를 감소시킬 수도 있다. 더구나, 재순서화되지 않는 경우, US[k] 행렬 (33) 내의 벡터들의 인코딩은 디코딩되는 경우 오디오 데이터의 품질을 감소시킬 수도 있다. 예를 들어, AAC 인코더들은 US[k] 행렬 (33) 내의 벡터들을 직접적으로 인코딩하는 경우 성취되는 압축과 비교하여 US[k] 행렬 (33') 내의 재순서화된 하나 이상의 벡터들을 프레임 단위로 더 효율적으로 압축할 수도 있다. AAC 인코더들에 대해 위에서 설명되었지만, 그 기법들은 모노-오디오 오브젝트들이 특정 순서 또는 포지션에서 프레임들 전체에 걸쳐 (채널-식으로) 특정되는 경우 더 나은 압축을 제공하는 임의의 인코더에 대해 수행될 수도 있다.
그 기법들의 다양한 양태들은, 이런 식으로, 오디오 인코딩 디바이스 (12) 가 하나 이상의 벡터들 (예컨대, 재순서화된 US[k] 행렬 (33') 내의 재순서화된 하나 이상의 벡터들을 생성함으로써 레거시 오디오 인코더, 이를테면 음향심리 오디오 코더에 의해 US[k] 행렬 (33) 내의 벡터들의 압축을 용이하게 하는 US[k] 행렬 (33) 내의 벡터들) 을 재순서화하는 것을 가능하게 할 수도 있다.
예를 들어, 재순서화 유닛 (34) 은 US[k] 행렬 (33) 내의 하나 이상의 벡터들을 현재 파라미터들 (37) 및 이전 파라미터들 (39) 에 기초하여 US[k-1] 행렬 (33) 내의 하나 이상의 제 2 벡터들이 대응하는 제 2 프레임에 시간적으로 후속하는 제 1 오디오 프레임으로부터 순서화할 수도 있다. 제 1 오디오 프레임이 제 2 오디오 프레임에 시간적으로 후속한다는 맥락으로 설명되었지만, 제 1 오디오 프레임이 제 2 오디오 프레임에 시간적으로 선행할 수도 있다. 따라서, 그 기법들은 본 개시물에서 설명되는 예로 제한되지 않아야 한다.
예시하기 위해 US[k] 행렬 (33) 내의 p 벡터들의 각각이 US[k][<ul>p</ul>]로서 표시되며, k는 대응하는 벡터가 k번째 프레임으로부터인지 또는 이전의 (k-1) 번째 프레임으로부터인지를 표시하고 p는 동일한 오디오 프레임의 벡터들에 대하여 벡터의 행을 표시하는 다음의 표 3을 고려한다 (여기서 US[k] 행렬은 (N+1)2 개의 이러한 벡터들을 가짐). 위에서 언급했듯이, N이 1인 것으로 가정하면, p는 벡터들 일 (1) 내지 (4) 를 표시한다.
표 3
위의 표 3에서, 재순서화 유닛 (34) 은 US[k-1][1]에 대해 컴퓨팅된 에너지를 US[k][1], US[k][2], US[k][3], US[k][4]의 각각에 대해 컴퓨팅된 에너지와, US[k-1][2]에 대해 컴퓨팅된 에너지를 US[k][1], US[k][2], US[k][3], US[k][4]의 각각에 대해 컴퓨팅된 에너지와 등등으로 비교한다. 재순서화 유닛 (34) 은 그 다음에 제 2 선행 오디오 프레임의 제 2 US[k-1] 벡터들 (33) 중 하나 이상을 (시간-방식으로) 버릴 수도 있다. 예시하기 위해, 나머지 제 2 US[k-1] 벡터들 (33) 을 도시하는 다음의 표 4를 고려한다:
표 4
위의 표 4에서, 재순서화 유닛 (34) 은 US[k-1][1]에 대해 컴퓨팅된 에너지가 US[k][1] 및 US[k][2]의 각각에 대해 컴퓨팅된 에너지와 유사하며, US[k-1][2]에 대해 컴퓨팅된 에너지가 US[k][1] 및 US[k][2]의 각각에 대해 컴퓨팅된 에너지와 유사하며, US[k-1][3]에 대해 컴퓨팅된 에너지가 US[k][3] 및 US[k][4]의 각각에 대해 컴퓨팅된 에너지와 유사하고, US[k-1][4]에 대해 컴퓨팅된 에너지가 US[k][3] 및 US[k][4]의 각각에 대해 컴퓨팅된 에너지와 유사하다는 것을 에너지 비교에 기초하여 결정할 수도 있다. 일부 예들에서, 재순서화 유닛 (34) 은 US[k] 행렬 (33) 의 제 1 벡터들의 각각과 US[k-1] 행렬 (33) 의 제 2 벡터들의 각각 간의 유사도를 식별하기 위해 에너지 분석을 더 수행할 수도 있다.
다른 예들에서, 재순서화 유닛 (32) 은 상호 상관에 관련되는 현재 파라미터들 (37) 및 이전 파라미터들 (39) 에 기초하여 벡터들을 재순서화할 수도 있다. 이들 예들에서, 위의 표 4를 다시 참조하면, 재순서화 유닛 (34) 은 이들 상호 상관 파라미터들에 기초하여 표 5에서 표현된 다음의 예시적 상관을 결정할 수도 있다:
표 5
위의 표 5로부터, 재순서화 유닛 (34) 은, 하나의 예로서, US[k-1][1] 벡터는 상이하게 위치된 US[k][2] 벡터에 상관되며, US[k-1][2] 벡터는 상이하게 위치된 US[k][1] 벡터에 상관되며, US[k-1][3] 벡터는 유사하게 위치된 US[k][3] 벡터에 상관되고, US[k-1][4] 벡터는 유사하게 위치된 US[k][4] 벡터에 상관된다고 결정한다. 다르게 말하면, 재순서화 유닛 (34) 은 US[k][2] 벡터가 US[k] 행렬 (33) 의 제 1 벡터들의 제 1 행에 재위치되고 US[k][1] 벡터가 제 1 US[k] 벡터들 (33) 의 제 2 행에 재위치되도록 US[k] 행렬 (33) 의 제 1 벡터들을 재순서화하는 방법을 설명하는 재순서화 정보라고 지칭될 수도 있는 것을 결정한다. 재순서화 유닛 (34) 은 그 다음에 이 재순서화 정보에 기초하여 US[k] 행렬 (33) 의 제 1 벡터들을 재순서화하여 재순서화된 US[k] 행렬 (33') 을 생성할 수도 있다.
덧붙여, 재순서화 유닛 (34) 은, 비록 도 10의 예에서 도시되지 않았지만, 이 재순서화 정보를 비트스트림 생성 디바이스 (42) 로 제공할 수도 있으며, 비트스트림 생성 디바이스는 이 재순서화 정보를 포함하는 비트스트림 (21) 을 생성할 수도 있어서 오디오 디코딩 디바이스, 이를테면 도 4 및 도 11의 예에서 도시된 오디오 디코딩 디바이스 (24) 는, US[k] 행렬 (33) 의 벡터들을 복원하기 위해서 US[k] 행렬 (33') 의 재순서화되는 벡터들을 재순서화하는 방법을 결정할 수도 있다.
제 1 에너지-특정 파라미터들 및 그 다음의 상호 상관 파라미터들에 기초한 분석을 수반하는 2-단계 프로세스를 수행하는 것으로서 위에서 설명되지만, 재순서화 유닛 (32) 은 재순서화 정보를 결정하기 위해 에너지 파라미터들에 대해서만 이 분석을 수행하거나, 재순서화 정보를 결정하기 위해 상호 상관 파라미터들에 대해서만 이 분석을 수행하거나, 또는 위에서 설명된 방식으로 에너지 파라미터들 및 상호 상관 파라미터들 양쪽 모두에 대해 분석을 수행할 수도 있다. 덧붙여, 그 기법들은 에너지 비교 및/또는 상호 상관 중 하나 또는 양쪽 모두를 수행하는 것을 수반하지 않는 상관을 결정하기 위한 다른 유형들의 프로세스들을 채용할 수도 있다. 따라서, 그 기법들은 이런 점에서 위에서 언급된 예들로 제한되지 않아야 한다. 더구나, 파라미터 계산 유닛 (32) 로부터 획득된 다른 파라미터들 (이를테면 V 벡터들 또는 V[k] 및 V[k-1]에서의 벡터들의 상관으로부터 유도된 공간적 포지션 파라미터들) 은 US에서의 벡터들의 올바른 순서를 결정하기 위해 US[k] 및 US[k-1]로부터 획득된 에너지 및 상호 상관 파라미터들과 함께 (동시에/공동으로 또는 순차적으로 중 어느 하나로) 또한 사용될 수 있다.
V 행렬에서의 벡터들의 상관을 사용하는 하나의 예로서, 파라미터 계산 유닛 (34) 은 V[k] 행렬 (35) 의 벡터들이 다음의 표 6에서 특정된 바와 같이 상관된다고 결정할 수도 있다:
표 6
위의 표 6으로부터, 재순서화 유닛 (34) 은, 하나의 예로서, V[k-1][1] 벡터는 상이하게 위치된 V[k][2] 벡터에 상관되며, V[k-1][2] 벡터는 상이하게 위치된 V[k][1] 벡터에 상관되며, V[k-1][3] 벡터는 유사하게 위치된 V[k][3] 벡터에 상관되고, V[k-1][4] 벡터는 유사하게 위치된 V[k][4] 벡터에 상관된다고 결정한다. 재순서화 유닛 (34) 은 V[k] 행렬 (35) 의 벡터들의 재순서화된 버전을 재순서화된 V[k] 행렬 (35') 로서 출력할 수도 있다.
일부 예들에서, US 행렬에서의 벡터들에 적용되는 동일한 재-순서화는 V 행렬에서의 벡터들에 또한 적용된다. 다르게 말하면, V 벡터들을 재순서화함에 있어서 사용되는 임의의 분석이 US 벡터들을 재순서화하는데 사용되는 임의의 분석과 연계하여 사용될 수도 있다. 재순서화 정보가 US[k] 벡터들 (35) 에 대한 에너지 파라미터들 및/또는 상호 상관 파라미터들에 대해 단독으로 결정되지 않는 일 예를 예시하기 위해, 재순서화 유닛 (34) 은 V[k] 벡터들 (35) 에 대해 위에서 설명된 것과 유사한 방식으로 상호 상관 파라미터들 및 에너지 파라미터들에 기초하여 V[k] 벡터들 (35) 에 대해 이 분석을 또한 수행할 수도 있다. 더구나, US[k] 벡터들 (33) 이 임의의 방향 속성들을 갖지 않지만, V[k] 벡터들 (35) 은 대응하는 US[k] 벡터들 (33) 의 방향성에 관련한 정보를 제공할 수도 있다. 이런 의미에서, 재순서화 유닛 (34) 은 대응하는 방향 속성 파라미터들의 분석에 기초하여 V[k] 벡터들 (35) 및 V[k-1] 벡터들 (35) 간의 상관들을 식별할 수도 있다. 다시 말하면, 일부 예들에서, 오디오 오브젝트는 움직이는 경우 음장 내에서 연속적인 방식으로 이동하거나 또는 그것은 상대적으로 안정한 로케이션에서 계속 유지된다. 이와 같이, 재순서화 유닛 (34) 은 일부 알려진 물리적으로 현실적인 모션을 나타내는 또는 음장 내에서 정적으로 머무르는 V[k] 행렬 (35) 및 V[k-1] 행렬 (35) 의 그들 벡터들을 식별하여, 이 방향 속성들의 상관에 기초하여 US[k] 벡터들 (33) 및 V[k] 벡터들 (35) 을 재순서화할 수도 있다. 여하튼, 재순서화 유닛 (34) 은 재순서화된 US[k] 벡터들 (33') 과 재순서화된 V[k] 벡터들 (35') 을 전경 선택 유닛 (36) 으로 출력할 수도 있다.
덧붙여, 그 기법들은 에너지 비교 및/또는 상호-상관 중 하나 또는 양쪽 모두를 수행하는 것을 수반하지 않는 올바른 순서를 결정하기 위한 다른 유형들의 프로세스들을 채용할 수도 있다. 따라서, 그 기법들은 이런 점에서 위에서 언급된 예들로 제한되지 않아야 한다.
비록 US 행렬의 벡터들의 재순서화를 반영하기 위해 V 행렬의 벡터들을 재순서화하는 것으로서 위에서 설명되었지만, 특정한 사례들에서, V 벡터들은 US 벡터들과는 상이하게 재순서화될 수도 있으며, 별개의 신택스 엘리먼트들은 US 벡터들의 재순서화 및 V 벡터들의 재순서화를 표시하기 위해 생성될 수도 있다. 일부 사례들에서, V 벡터들이 음향심리적으로 인코딩되지 않을 수도 있다는 것을 고려하면 V 벡터들은 재순서화되지 않을 수도 있고 US 벡터들만이 재순서화될 수도 있다.
V 행렬의 벡터들 및 US 행렬의 벡터들의 재순서화가 상이한 실시형태가, 오디오 오브젝트들을 공간에서 스왑하는 - 즉, (기본 음장이 자연스러운 레코딩인 경우) 원래의 레코딩된 포지션으로부터 또는 (기본 음장이 오브젝트들의 인공적 혼합체인 경우) 예술적으로 의도된 포지션으로부터 멀어지게 이동시키는 것을 의도하는 경우이다. 일 예로서, 두 개의 오디오 소스들 (A 및 B) 이 있다고 가정하여, A는 음장의 "좌측" 일부로부터 나오는 고양이의 사운드 "야옹 (meow)"일 수도 있고 B는 음장의 "우측" 일부로부터 나오는 개의 사운드 "컹 (woof)"일 수도 있다. V 및 US의 재순서화가 상이한 경우, 두 개의 사운드 소스들의 포지션은 스왑된다. A ("야옹") 를 스왑하는 것이 음장의 우측 일부로부터 나온 후, B ("컹") 가 음장의 좌측 일부로부터 나온다.
음장 분석 유닛 (44) 은 타겟 비트레이트 (41) 를 잠재적으로 성취하기 위해서 HOA 계수들 (11) 에 대해 음장 분석을 수행하도록 구성되는 유닛을 나타낼 수도 있다. 음장 분석 유닛 (44) 은, 이 분석에 그리고/또는 수신된 타겟 비트레이트 (41) 에 기초하여, 음향심리 코더 인스턴스화물들의 총 수 (이는 주변 또는 배경 채널들의 총 수 (BGTOT) 및 전경 채널들 또는, 다르게 말하면, 우세 채널들의 수의 함수일 수도 있음) 를 결정할 수도 있다. 음향심리 코더 인스턴스화물들의 총 수는 numHOATransportChannels로서 표시될 수 있다. 음장 분석 유닛 (44) 은, 타겟 비트레이트 (41) 를 다시 잠재적으로 성취하기 위해, 전경 채널들의 총 수 (nFG) (45), 배경 (또는, 다르게 말하면, 주변) 음장의 최소 차수 (NBG 또는, 대안적으로, MinAmbHoaOrder), 배경 음장의 최소 차수를 나타내는 대응하는 실제 채널들의 수 (nBGa = (MinAmbHoaOrder + 1)2), 및 추가적인 BG HOA 채널들의 인덱스들 (i) (이것들은 도 10의 예에서 총칭하여 배경 채널 정보 (43) 라고 표시될 수도 있음) 를 전송하기 위해 결정할 수도 있다. 배경 채널 정보 (42) 는 주변 채널 정보 (43) 라고 또한 지칭될 수도 있다. numHOATransportChannels - nBGa에서 남아 있는 채널들의 각각은, "추가적인 배경/주변 채널", "활성 벡터 기반 우세 채널", "활성 방향 기반 우세 신호" 또는 "완전히 비활성" 중 어느 하나일 수도 있다. 하나의 실시형태에서, 이들 채널 유형들은 ("ChannelType"으로서) 두 개의 비트들에 의한 신택스 엘리먼트 (예컨대, 00:추가적인 배경 채널; 01:벡터 기반 우세 신호; 10: 비활성 신호; 11: 방향 기반 신호) 로 표시될 수도 있다. 배경 또는 주변 신호들의 총 수, 즉, nBGa는, (MinAmbHoaOrder +1)2 + 인덱스 00 (위의 예에서임) 이 비트스트림에서 그 프레임에 대한 채널 유형으로서 나타날 횟수에 의해 주어질 수도 있다.
여하튼, 음장 분석 유닛 (44) 은 타겟 비트레이트 (41) 에 기초하여 배경 (또는, 다르게 말하면, 주변) 채널들의 수와 전경 (또는, 다르게 말하면, 우세) 채널들의 수를 선택하여, 타겟 비트레이트 (41) 가 상대적으로 더 높은 경우 (예컨대, 타겟 비트레이트 (41) 가 512 Kbps 이상인 경우) 더 많은 배경 및/또는 전경 채널들을 선택할 수도 있다. 하나의 실시형태에서는, 비트스트림의 헤더 섹션 (이는 도 10 내지 도 10O (ii) 에 대해 더 상세히 설명됨) 에서 numHOATransportChannels은 8로 설정될 수도 있는 동시에 MinAmbHoaOrder는 1로 설정될 수도 있다. 이 시나리오에서, 모든 프레임에서, 네 개의 채널들이 음장의 배경 또는 주변 부분을 표현하기 위해 전용될 수도 있으면서 동시에 다른 4 개의 채널들이, 채널 유형 - 예컨대, 추가적인 배경/주변 채널 또는 전경/우세 채널 중 어느 하나로서 사용됨 - 에 대해 프레임 단위 기반으로 가변할 수 있다. 전경/우세 신호들은, 위에서 설명된 바와 같이, 벡터 기반 신호 또는 방향 기반 신호 중 어느 하나일 수 있다.
일부 사례들에서, 프레임에 대한 벡터 기반 우세 신호들의 총 수는, 위의 예에서, 그 프레임의 비트스트림에서 ChannelType 인덱스가 01인 횟수에 의해 주어질 수도 있다. 위의 실시형태에서, 모든 추가적인 배경/주변 채널 (예컨대, 00의 ChannelType에 대응함) 에 대해, (처음 네 개 외의) 가능한 HOA 계수들 중 어느 것인지의 대응 정보는 그 채널에서 표현될 수도 있다. 이 정보는, 4차 HOA 콘텐츠에 대해, 5~25 사이를 표시하기 위한 인덱스일 수도 있다 (minAmbHoaOrder가 1로 설정되는 경우 처음 네 개의 1~4가 줄곧 전송될 수도 있고, 그래서 5~25 사이의 하나를 나타내는 것만 필요하다). 이 정보는 따라서 "CodedAmbCoeffIdx"로서 표시될 수도 있는 5 비트 신택스 엘리먼트 (4차 콘텐츠의 경우) 를 사용하여 전송될 수 있다.
제 2 실시형태에서, 전경/우세 신호들의 모두는 벡터 기반 신호들이다. 이 제 2 실시형태에서, 전경/우세 신호들의 총 수는 nFG = numHOATransportChannels - [(MinAmbHoaOrder +1)2 + 인덱스 00의 횟수]에 의해 주어질 수도 있다.
음장 분석 유닛 (44) 은 배경 채널 정보 (43) 와 HOA 계수들 (11) 을 배경 (BG) 선택 유닛 (46) 으로, 배경 채널 정보 (43) 를 계수 감소 유닛 (46) 및 비트스트림 생성 유닛 (42) 으로, 그리고 nFG (45) 를 전경 선택 유닛 (36) 으로 출력한다.
일부 예들에서, 음장 분석 유닛 (44) 은, US[k] 행렬 (33) 의 벡터들의 분석 및 타겟 비트레이트 (41) 에 기초하여, 최대 값을 갖는 이들 성분들의 수인 변수 nFG를 선택할 수도 있다. 다르게 말하면, 음장 분석 유닛 (44) 은 S[k] 행렬 (33) 의 벡터들의 하향 대각선 값들에 의해 생성된 곡선의 기울기를 분석함으로써 두 개의 서브공간들을 분리하는 변수 A에 대한 값 (이는 NBG와 유사하거나 또는 실질적으로 유사할 수도 있음) 을 결정할 수도 있는데, 큰 특이값들은 전경 또는 별개의 사운드들을 표현하고 낮은 특이값들은 음장의 배경 성분들을 표현한다. 다시 말하면, 변수 A는 전체 음장을 전경 서브공간과 배경 서브공간으로 세그먼트화할 수도 있다.
일부 예들에서, 음장 분석 유닛 (44) 은 특이값 곡선의 일차 및 이차 도함수들을 사용할 수도 있다. 음장 분석 유닛 (44) 은 변수 A에 대한 값을 1과 5 사이인 것으로 또한 제한할 수도 있다. 다른 예로서, 음장 분석 유닛 (44) 은 변수 A의 값을 1과 (N+1)2 사이인 것으로 제한할 수도 있다. 대안적으로, 음장 분석 유닛 (44) 은 변수 A에 대한 값을, 이를테면 4의 값으로 미리-정의할 수도 있다. 여하튼, A의 값에 기초하여, 음장 분석 유닛 (44) 은 전경 채널들의 총 수 (nFG) (45), 배경 음장의 차수 (NBG) 그리고 전송할 추가적인 BG HOA 채널들의 수 (nBGa) 및 인덱스들 (i) 을 결정한다.
더욱이, 음장 분석 유닛 (44) 은 V[k] 행렬 (35) 에서의 벡터들의 에너지를 벡터마다 단위로 결정할 수도 있다. 음장 분석 유닛 (44) 은 V[k] 행렬 (35) 에서의 벡터들의 각각에 대한 에너지를 결정하고 고 에너지를 갖는 것들을 전경 성분들로서 결정할 수도 있다.
더구나, 음장 분석 유닛 (44) 은 공간적 에너지 분석, 공간적 마스킹 분석, 확산 분석 또는 다른 형태들의 청각적 분석들을 포함하는, HOA 계수들 (11) 에 대해 다양한 다른 분석들을 수행할 수도 있다. 음장 분석 유닛 (44) 은 HOA 계수들 (11) 의 공간적 도메인으로의 변환을 통한 공간적 에너지 분석과 보존되어야 하는 음장의 방향 성분들을 나타내는 고 에너지의 영역들을 식별하는 것을 수행할 수도 있다. 음장 분석 유닛 (44) 은, 음장 분석 유닛 (44) 이 공간적으로 근접한 더 높은 에너지 사운드들에 의해 마스킹되는 공간적 영역들을 식별할 수도 있다는 것을 제외하면, 공간적 에너지 분석과 유사한 방식으로 지각의 공간적 마스킹 분석을 수행할 수도 있다. 음장 분석 유닛 (44) 은 그 다음에, 지각적으로 마스킹된 영역들에 기초하여, 일부 사례들에서 더 적은 전경 성분들을 식별할 수도 있다. 음장 분석 유닛 (44) 은 HOA 계수들 (11) 에 대해 확산 분석을 더 수행하여 음장의 배경 성분들을 표현할 수도 있는 확산 에너지의 영역들을 식별할 수도 있다.
음장 분석 유닛 (44) 은 오디오 데이터에 연관된 방향성-기반 정보를 사용하여, 음장을 표현하는 오디오 데이터의 돌극성, 구별성 (distinctness) 또는 우세성 (predominance) 을 결정하도록 구성되는 유닛을 또한 나타낼 수도 있다. 에너지-기반 결정들이 음장의 별개의 오디오 성분들을 식별하기 위해 SVD에 의해 분해된 음장의 렌더링을 개선시킬 수도 있지만, 에너지-기반 결정들은 또한, 배경 오디오 성분들이 고 에너지 레벨을 나타내는 경우들에서, 디바이스가 배경 오디오 성분들을 별개의 오디오 성분들로서 잘못 식별하게 할 수도 있다. 다시 말하면, 별개의 및 배경 오디오 성분들의 전적으로 에너지-기반한 분리가 강건 (robust) 하지 않을 수도 있는데, 활기찬 (예컨대, 라우드) 배경 오디오 성분들이 별개의 오디오 성분들인 것으로서 부정확하게 식별될 수도 있어서이다. 음장의 별개의 및 배경 오디오 성분들 간을 더욱 강건하게 구별하기 위해, 본 개시물에서 설명되는 기법들의 다양한 양태들은 HOA 계수들 (11) 의 분해된 버전들로부터 전경 및 주변 오디오 성분들을 분리하기 위해 음장 분석 유닛 (44) 이 HOA 계수들 (11) 의 방향성-기반 분석을 수행하는 것을 가능하게 할 수도 있다.
이런 점에서, 음장 분석 유닛 (44) 은 US[k] 행렬 (33) 에서의 벡터들 및 V[k] 행렬 (35) 에서의 벡터들 중 하나 이상의 벡터들에 포함된 배경 엘리먼트들로부터 별개의 (또는 전경) 엘리먼트들을 식별하도록 구성되는 또는 그렇지 않으면 동작 가능한 유닛을 나타낼 수도 있다. 일부 SVD-기반 기법들에 따르면 가장 활기찬 성분들 (예컨대, US[k] 행렬 (33) 및 V[k] 행렬 (35) 중 하나의 행렬의 처음의 하나 이상의 몇몇 벡터들 또는 그것들로부터 유도된 벡터들) 은 별개의 성분들로서 취급될 수도 있다. 그러나, US[k] 행렬 (33) 에서의 벡터들 및 V[k] 행렬 (35) 에서의 벡터들 중 하나 이상의 벡터들의 가장 활기찬 성분들 (이것들은 벡터들에 의해 표현될 수도 있음) 이, 모든 시나리오들에서, 가장 방향성인 성분들/신호들을 나타내지 않을 수도 있다.
음장 분석 유닛 (44) 은 US[k] 행렬 (33) 에서의 벡터들과 V[k] 행렬 (35) 에서의 벡터들 또는 그것들로부터 유도된 벡터들 중 하나 이상의 벡터들의 방향성에 기초하여 전경/직접/우세 엘리먼트들을 식별하기 위해 본원에서 설명되는 기법들의 하나 이상의 양태들을 구현할 수도 있다. 일부 예들에서, 음장 분석 유닛 (44) 은 별개의 오디오 성분들 (그 성분들은 "오브젝트들"이라고 또한 지칭될 수도 있음) 로서, 하나 이상의 벡터들을 그 벡터들의 에너지 및 방향성 둘 다에 기초하여 식별 또는 선택할 수도 있다. 예를 들면, 음장 분석 유닛 (44) 은 US[k] 행렬 (33) 에서의 벡터들 및 V[k] 행렬 (35) 에서의 벡터들 중 하나 이상의 벡터들 (또는 그것들로부터 유도된 벡터들) 중에서 (예컨대, 방향성 몫으로서 표현되는) 고 에너지 및 고 방향성 둘 다를 드러내는 그들 벡터들을 별개의 오디오 성분들로서 선택할 수도 있다. 그 결과, US[k] 행렬 (33) 에서의 벡터들 및 V[k] 행렬 (35) 에서의 벡터들 (또는 그것들로부터 유도된 벡터들) 중 하나 이상의 다른 벡터들과 비교되는 경우 특정 벡터가 상대적으로 덜 방향성이라고 음장 분석 유닛 (44) 이 결정한다면, 특정 벡터에 연관된 에너지 레벨에 상관없이, 음장 분석 유닛 (44) 은 특정 벡터가 HOA 계수들 (11) 에 의해 표현되는 음장의 배경 (또는 주변) 오디오 성분들을 나타낸다고 결정할 수도 있다.
일부 예들에서, 음장 분석 유닛 (44) 은 다음의 동작들을 수행함으로써, 방향성에 기초하여 별개의 오디오 오브젝트들 (이는, 위에서 언급했듯이, "성분들"이라고 또한 지칭될 수도 있음) 을 식별할 수도 있다. 음장 분석 유닛 (44) 은 (예컨대, 하나 이상의 행렬 곱셈 프로세스들을 사용하여) S[k] 행렬에서의 벡터들 (이는 US[k] 벡터들 (33) 로부터 유도될 수도 있거나 또는, 도 10의 예에서 도시되지 않았지만 LIT 유닛 (30) 에 의해 따로따로 출력됨) 과 V[k] 행렬 (35) 에서의 벡터들을 곱할 수도 있다. V[k] 행렬 (35) 과 S[k] 벡터들을 곱함으로써, 음장 분석 유닛 (44) 은 VS[k] 행렬을 획득할 수도 있다. 덧붙여, 음장 분석 유닛 (44) 은 VS[k] 행렬에서의 벡터들 중 각각의 벡터의 엔트리들 중 적어도 일부의 엔트리들을 제곱 (즉, 2의 거듭제곱으로 누승) 할 수도 있다. 일부 사례들에서, 음장 분석 유닛 (44) 은 1보다 큰 차수에 연관된 각각의 벡터의 그들 제곱된 엔트리들을 합산할 수도 있다.
하나의 예로서, VS[k] 행렬의 각각의 벡터가 25 개의 엔트리들을 포함한다면, 음장 분석 유닛 (44) 은, 각각의 벡터에 대해, 제 5 엔트리에서 시작하고 제 25 엔트리에서 종료하는 각각의 벡터의 엔트리들을 제곱하여, 제곱된 엔트리들을 합산하여 방향성 몫 (또는 방향성 표시자) 을 결정할 수도 있다. 각각의 합산 동작은 대응하는 벡터에 대한 방향성 몫을 초래할 수도 있다. 이 예에서, 1 이하의 차수에 연관되는 각각의 행의 그들 엔트리들, 즉, 제 1 내지 제 4 엔트리들이, 에너지의 양에 일반적으로 더 기울어지고 그들 엔트리들의 방향성에 덜 관련되는 것으로 음장 분석 유닛 (44) 은 결정할 수도 있다. 다시 말하면, 0 또는 1 차에 연관되는 하위 차수 앰비소닉스는, 도 1 및 도 2에 예시된 바와 같이, 압력 파의 방향의 측면에서 많은 것을 제공하지 않고 오히려 일부 볼륨 (이는 에너지를 나타냄) 을 제공하는 구면 기저 함수들에 대응한다.
위의 예에서 설명된 동작들은 다음의 의사-코드에 따라 또한 표현될 수도 있다. 아래의 의사-코드는, 문자열들 (character strings) 의 연속적인 인스턴스들 "/*" 및 "*/" 내에 (따옴표들 없이) 포함되는 주석문들의 형태로 주석들을 포함한다.
[U,S,V] = svd (audioframe,'ecom');
VS = V*S;
/* 다음 라인은 각각의 행을 독립적으로 분석하는 것과, 대응하는 벡터에 대한 방향성 몫 또는 방향성 메트릭을 결정하기 위해 제 1 (하나의 예로서임) 행에서 제 5 엔트리로부터 제 25 엔트리까지의 값들을 합산하는 것을 위한 것이다. 합산 전에 엔트리들을 제곱한다. 1보다 큰 차수에 연관되는 각각의 행에서의 엔트리들은 고차 앰비소닉에 연관되고, 따라서 방향성일 가능성이 더 높다 */
sumVS = sum (VS (5:end,:).^2,1);
/* 다음 라인은 생성된 VS 행렬에 대한 제곱들의 합을 소트하는 것과, 최대 값들의 세트 (예컨대, 3 개 또는 4 개의 최대 값들) 를 선택하는 것 */
[~,idxVS] = sort (sumVS,'descend');
U = U (:,idxVS);
V = V (:,idxVS);
S = S (idxVS,idxVS);
다르게 말하면, 위의 의사-코드에 따르면, 음장 분석 유닛 (44) 은 HOA 계수들 (11) 중 1보다 큰 차수를 갖는 구면 기저 함수에 대응하는 그들 HOA 계수들로부터 분해된 VS[k] 행렬의 각각의 벡터의 엔트리들을 선택할 수도 있다. 음장 분석 유닛 (44) 은 그 다음에 VS[k] 행렬의 각각의 벡터에 대해 이들 엔트리들을 제곱하며, VS[k] 행렬의 각각의 벡터에 대한 방향성 메트릭 또는 몫을 식별, 컴퓨팅 또는 그렇지 않으면 결정하기 위해 제곱된 엔트리들을 합산할 수도 있다. 다음으로, 음장 분석 유닛 (44) 은 벡터들 중 각각의 벡터의 각각의 방향성 메트릭들에 기초하여 VS[k] 행렬의 벡터들을 소트할 수도 있다. 음장 분석 유닛 (44) 은 이들 벡터들을 방향성 메트릭들의 내림 차순으로 소트하여서, 최고 대응 방향성을 갖는 그들 벡터들이 처음이고 최저 대응 방향성을 갖는 그들 벡터들이 마지막일 수도 있다. 음장 분석 유닛 (44) 은 그 다음에 최고 상대 방향성 메트릭을 갖는 벡터들의 영이 아닌 서브세트를 선택할 수도 있다.
음장 분석 유닛 (44) 은 전술한 분석들의 임의의 조합을 수행하여 음향심리 코더 인스턴스화물들의 총 수 (이는 주변 또는 배경 채널들의 총 수 (BGTOT) 와 전경 채널들의 수의 함수일 수도 있음) 를 결정할 수도 있다. 음장 분석 유닛 (44) 은, 전술한 분석들의 임의의 조합에 기초하여, 전경 채널들의 총 수 (nFG) (45), 배경 음장의 차수 (NBG) 그리고 전송할 추가적인 BG HOA 채널들의 수 (nBGa) 및 인덱스들 (i) (이는 도 10의 예에서의 배경 채널 정보 (43) 로서 총칭하여 표시될 수도 있음).
일부 예들에서, 음장 분석 유닛 (44) 은 M-샘플들마다 이 분석을 수행할 수도 있으며, 이는 프레임 단위 기반으로 재진술될 수도 있다. 이런 점에서, A에 대한 값은 프레임 단위로 가변할 수도 있다. 결정이 M-샘플들 마다 이루어지는 비트스트림의 인스턴스가 도 10 내지 도 10O (ii) 에 도시되어 있다. 다른 예들에서, 음장 분석 유닛 (44) 은 이 분석을 프레임당 두 번 이상 수행하여, 프레임의 둘 이상의 부분들을 분석할 수도 있다. 따라서, 그 기법들은 이런 점에서 본 개시물에서 설명되는 예들로 제한되지 않아야 한다.
배경 선택 유닛 (48) 은 배경 채널 정보 (예컨대, 배경 음장 (NBG) 과 전송할 추가적인 BG HOA 채널들의 수 (nBGa) 및 인덱스들 (i)) 에 기초하여 배경 또는 주변 HOA 계수들 (47) 을 결정하도록 구성되는 유닛을 나타낼 수도 있다. 예를 들어, NBG가 1과 동일한 경우, 배경 선택 유닛 (48) 은 1 이하의 차수를 갖는 오디오 프레임의 각각의 샘플에 대해 HOA 계수들 (11) 을 선택할 수도 있다. 배경 선택 유닛 (48) 은, 이 예에서, 그 다음에 추가적인 BG HOA 계수들로서 인덱스들 (i) 중 하나에 의해 식별된 인덱스를 갖는 HOA 계수들 (11) 을 선택할 수도 있는데, 오디오 디코딩 디바이스, 이를테면 도 9a의 예에서 도시된 오디오 디코딩 디바이스 (24) 가 비트스트림 (21) 으로부터 BG HOA 계수들 (47) 을 파싱하는 것을 가능하게 하기 위해서 비트스트림 (21) 에서 특정될 nBGa는 비트스트림 생성 유닛 (42) 으로 제공된다. 배경 선택 유닛 (48) 은 그 다음에 주변 HOA 계수들 (47) 을 에너지 보상 유닛 (38) 으로 출력할 수도 있다. 주변 HOA 계수들 (47) 은 다음의 크기 D를 가질 수도 있다: M x [(N BG +1)2 + nBGa].
전경 선택 유닛 (36) 은 nFG (45) (이는 이들 전경 벡터들을 식별하는 하나 이상의 인덱스들을 표현할 수도 있음) 에 기초하여 재순서화된 US[k] 행렬 (33') 및 재순서화된 V[k] 행렬 (35') 중 음장의 전경 또는 별개의 성분들을 표현하는 것들을 선택하도록 구성되는 유닛을 나타낼 수도 있다. 전경 선택 유닛 (36) 은 nFG 신호들 (49) (이는 재순서화된 US[k]1,..., nFG (49), FG1 ,..., nfG[k] (49), 또는 (49)) 을 메자닌 포맷 유닛 (40) 으로 출력할 수도 있는데, nFG 신호들 (49) 은 다음의 크기 D: M x nFG를 가질 수도 있고 각각은 모노-오디오 오브젝트들을 표현한다. 전경 선택 유닛 (36) 은 음장의 전경 성분들에 대응하는 재순서화된 V[k] 행렬 (35') (또는 (35')) 을 시공간적 보간 유닛 (50) 으로 또한 출력할 수도 있는데, 재순서화된 V[k] 행렬 (35') 중 전경 성분들에 대응하는 것들이 크기 D: (N+1)2 x nFG를 갖는 전경 V[k] 행렬 (51 k ) (이는 수학적으로는 로서 표시될 수도 있음) 로서 표시될 수도 있다.
에너지 보상 유닛 (38) 은 배경 선택 유닛 (48) 에 의한 HOA 채널들의 다양한 HOA 채널들의 제거로 인한 에너지 손실을 보상하기 위해 주변 HOA 계수들 (47) 에 대해 에너지 보상을 수행하도록 구성되는 유닛을 나타낼 수도 있다. 에너지 보상 유닛 (38) 은 재순서화된 US[k] 행렬 (33'), 재순서화된 V[k] 행렬 (35'), nFG 신호들 (49), 전경 V[k] 벡터들 (51 k ) 및 주변 HOA 계수들 (47) 중 하나 이상에 대해 에너지 분석을 수행한 다음, 이 에너지 분석에 기초하여 에너지 보상을 수행하여 에너지 보상된 주변 HOA 계수들 (47') 을 생성할 수도 있다. 에너지 보상 유닛 (38) 은 에너지 보상된 주변 HOA 계수들 (47') 을 메자닌 포맷 유닛 (40) 으로 출력할 수도 있다.
효과적으로, 에너지 보상 유닛 (38) 은 차수-감소된 주변 HOA 계수들 (47) (이는, 일부 예들에서, 다음의 차수들/서브-차수들을 갖는 구면 기저 함수들에 대응하는 포함된 계수들만의 측면에서 N 미만의 차수를 가짐: [(N BG +1)2 + nBGa]) 을 생성하기 위해 HOA 계수들 (11) 에 의해 설명되는 음장의 주변 성분들의 차수를 감소시킴으로써 야기되는 음장의 배경 사운드 성분들의 전체 에너지에서의 가능한 감소들을 보상하는데 사용될 수도 있다. 일부 예들에서, 에너지 보상 유닛 (38) 은, 주변 HOA 계수들 (47) 을 메자닌 포맷 유닛 (40) 으로 출력하기 전에, (재순서화된 US[k] 행렬 (33'), 재순서화된 V[k] 행렬 (35'), nFG 신호들 (49), 전경 V[k] 벡터들 (51 k ) 및 차수 감소된 주변 HOA 계수들 (47) 중 하나 이상의 행렬 또는 벡터의 종합적인 에너지 분석을 통해 결정된 바와 같이) HOA 계수들 (11) 의 RMS에 동일하거나 또는 적어도 더욱 거의 근사하게 주변 HOA 계수들 (47) 의 제곱 평균 제곱근된 (RMS) 에너지를 증가시키기 위하여 주변 HOA 계수들 (47) 의 [(N BG +1)2 + nBGa] 열들의 각각에 적용할 증폭 값들의 형태로 보상 이득을 결정함으로써 이 에너지 손실을 보상한다.
일부 사례들에서, 에너지 보상 유닛 (38) 은 재순서화된 US[k] 행렬 (33') 및 재순서화된 V[k] 행렬 (35') 중 하나 이상의 행렬들의 각각의 행 및/또는 열에 대해 RMS를 식별할 수도 있다. 에너지 보상 유닛 (38) 은 nFG 신호들 (49) 과 전경 V[k] 벡터들 (51 k ), 및 차수-감소된 주변 HOA 계수들 (47) 을 포함할 수도 있는 하나 이상의 선택된 전경 채널들의 각각의 행 및/또는 열에 대한 RMS를 또한 식별할 수도 있다. 재순서화된 US[k] 행렬 (33') 및 재순서화된 V[k] 행렬 (35') 중 하나 이상의 행렬들의 각각의 행 및/또는 열에 대한 RMS는 RMS FULL 로 표시된 벡터에 저장될 수도 있는 반면, nFG 신호들 (49), 전경 V[k] 벡터들 (51 k ), 및 차수 감소된 주변 HOA 계수들 (47) 중 하나 이상의 신호들 또는 벡터들의 각각의 행 및/또는 열에 대한 RMS는 RMS REDUCED 로 표시된 벡터에 저장될 수도 있다. 에너지 보상 유닛 (38) 은 그 다음에 다음의 수학식에 따라 증폭 값 벡터 Z를 컴퓨팅할 수도 있다: Z = RMSFULL / RMS REDUCED . 에너지 보상 유닛 (38) 은 그 다음에 이 증폭 값 벡터 (Z) 또는 그것의 다양한 부분들을 nFG 신호들 (49), 전경 V[k] 벡터들 (51 k ), 및 차수-감소된 주변 HOA 계수들 (47) 중 하나 이상에 적용할 수도 있다. 일부 사례들에서, 증폭 값 벡터 (Z) 는 다음의 수학식 HOA BG -RED " = HOA BG - RED Z T 당 차수-감소된 주변 HOA 계수들 (47) 에만 적용되며, 여기서 HOA BG -RED 는 차수-감소된 주변 HOA 계수들 (47) 를 표시하며, HOA BG -RED '는 에너지 보상된, 감소된 주변 HOA 계수들 (47') 을 나타내고 Z T 는 Z 벡터의 전치를 표시한다.
일부 예들에서, 재순서화된 US[k] 행렬 (33'), 재순서화된 V[k] 행렬 (35'), nFG 신호들 (49), 전경 V[k] 벡터들 (51 k ), 및 차수-감소된 주변 HOA 계수들 (47) 중 하나 이상의 행렬, 신호, 벡터, 계수의 각각의 행들 및/또는 열들의 각각의 RMS를 결정하기 위해, 에너지 보상 유닛 (38) 은 먼저 참조 구면 조화 계수들 (spherical harmonics coefficients, SHC) 렌더러를 열들에 적용할 수도 있다. 에너지 보상 유닛 (38) 에 의한 참조 SHC 렌더러의 적용은, 아래에서 더 상세히 설명되는 바와 같이, 재순서화된 US[k] 행렬 (33'), 재순서화된 V[k] 행렬 (35'), nFG 신호들 (49), 전경 V[k] 벡터들 (51 k ), 및 차수-감소된 주변 HOA 계수들 (47) 중 하나 이상의 행렬, 신호, 벡터 및 계수의 행들 및/또는 열들에 의해 표현되는 프레임의 각각의 행 및/또는 열에 의해 설명되는 전체 음장의 에너지를 결정하기 위해 SHC 도메인에서의 RMS의 결정을 허용한다.
시공간적 보간 유닛 (50) 은 k'번째 프레임에 대한 전경 V[k] 벡터들 (51 k ) 과 이전 프레임 (그래서 k-1 표기임) 에 대한 전경 V[k-1] 벡터들 (51 k -1) 을 수신하고 시공간적 보간을 수행하여 보간된 전경 V[k] 벡터들을 생성하도록 구성되는 유닛을 나타낼 수도 있다. 시공간적 보간 유닛 (50) 은 nFG 신호들 (49) 과 전경 V[k] 벡터들 (51 k ) 을 재결합하여 재순서화된 전경 HOA 계수들을 복원할 수도 있다. 시공간적 보간 유닛 (50) 은 그 다음에 재순서화된 전경 HOA 계수들을 보간된 V[k] 벡터들에 의해 나누어 보간된 nFG 신호들 (49') 을 생성할 수도 있다. 시공간적 보간 유닛 (50) 은, 오디오 디코딩 디바이스, 이를테면 오디오 디코딩 디바이스 (24) 가, 보간된 전경 V[k] 벡터들을 생성함으로써 전경 V[k] 벡터들 (51 k ) 을 복원할 수도 있도록, 전경 V[k] 벡터들 (51 k ) 중 보간된 전경 V[k] 벡터들을 생성하는데 사용된 것들을 또한 출력할 수도 있다. 전경 V[k] 벡터들 (51 k ) 중 보간된 전경 V[k] 벡터들을 생성하는데 사용되는 것들은 나머지 전경 V[k] 벡터들 (53) 이라고 지칭된다. 동일한 V[k] 및 V[k-1]이 인코더 및 디코더에서 (보간된 벡터들 V[k]를 생성하기 위해) 사용되는 것을 보장하기 위하여 그것들의 양자화된/역양자화된 버전들은 인코더 및 디코더에서 사용될 수도 있다.
이런 점에서, 시공간적 보간 유닛 (50) 은 제 1 오디오 프레임의 제 1 부분을 제 1 오디오 프레임의 일부 다른 부분들 및 제 2 시간적으로 후속하는 또는 선행하는 오디오 프레임으로부터 보간하는 유닛을 나타낼 수도 있다. 일부 예들에서, 그 부분들은 서브-프레임들로서 표시될 수도 있는데, 서브-프레임들에 대해 수행된 바와 같은 보간은 도 45 내지 도 46e에 대해 아래에서 더 상세히 설명된다. 다른 예들에서, 시공간적 보간 유닛 (50) 은 이전 프레임의 일부 마지막 수의 샘플들 및 후속 프레임의 일부 제 1 수의 샘플들에 대해 동작할 수도 있다. 시공간적 보간 유닛 (50) 은, 이 보간을 수행함에 있어서, 비트스트림 (21) 에서 특정될 것이 요구되는 전경 V[k] 벡터들 (51 k ) 중 다수의 샘플들을 감소시킬 수도 있는데, 전경 V[k] 벡터들 (51 k ) 중 보간된 V[k] 벡터들을 생성하는데 사용되는 그것들만이 전경 V[k] 벡터들 (51 k ) 의 서브세트를 나타내어서이다. 다시 말하면, (비트스트림 (21) 에서 특정되는 전경 V[k] 벡터들 (51 k ) 의 수를 감소시킴으로써) HOA 계수들 (11) 의 압축을 잠재적으로 더욱 효율적이게 하기 위하여, 본 개시물에서 설명되는 기법들의 다양한 양태들은 제 1 오디오 프레임의 하나 이상의 부분들의 보간을 제공할 수도 있는데, 그 부분들의 각각은 HOA 계수들 (11) 의 분해된 버전들을 나타낼 수도 있다.
시공간적 보간은 다수의 이점들을 초래할 수도 있다. 먼저, nFG 신호들 (49) 은 SVD 또는 다른 LIT가 수행되는 블록-방식 성질로 인해 프레임 단위로 계속되지 않을 수도 있다. 다르게 말하면, LIT 유닛 (30) 이 SVD 프레임 단위 기반으로 적용된다는 것을 고려하면, 특정한 불연속성들이 예를 들어 US[k] 행렬 (33) 및 V[k] 행렬 (35) 의 비순서화된 성질에 의한 증거로서 결과적인 변환된 HOA 계수들에 존재할 수도 있다. 이 보간을 수행함으로써, 프레임 경계들 (또는, 다르게 말하면, HOA 계수들 (11) 의 프레임들로의 세그먼트화) 로 인해 도입된 임의의 아티팩트들을 잠재적으로 감소시키는 보간이 평활화 효과를 가질 수도 있다는 것을 고려하면 불연속성은 감소될 수도 있다. 전경 V[k] 벡터들 (51 k ) 을 사용하여 이 보간을 수행한 다음 복원된 재순서화된 HOA 계수들로부터의 보간된 전경 V[k] 벡터들 (51 k ) 에 기초하여 보간된 nFG 신호들 (49') 을 생성하는 것이 프레임 단위 동작으로 인해서뿐만 아니라 nFG 신호들 (49) 의 재순서화로 인해 적어도 일부 효과들을 매끄럽게 할 수도 있다.
동작 시, 시공간적 보간 유닛 (50) 은 하나 이상의 서브-프레임들에 대해 분해된 보간된 구면 조화 계수들을 생성하기 위해, 제 1 프레임에 포함된 제 1 복수의 HOA 계수들 (11) 의 부분의 제 1 분해물, 예컨대, 전경 V[k] 벡터들 (51 k ) 과 제 2 프레임에 포함된 제 2 복수의 HOA 계수들 (11) 의 부분의 제 2 분해물, 예컨대, 전경 V[k] 벡터들 (51 k-1 ) 로부터 제 1 오디오 프레임의 하나 이상의 서브-프레임들을 보간할 수도 있다.
일부 예들에서, 제 1 분해물은 HOA 계수들 (11) 의 부분의 우측-특이 벡터들을 나타내는 제 1 전경 V[k] 벡터들 (51 k ) 을 포함한다. 비슷하게, 일부 예들에서, 제 2 분해물은 HOA 계수들 (11) 의 부분의 우측-특이 벡터들을 나타내는 제 2 전경 V[k] 벡터들 (51 k ) 를 포함한다.
다르게 말하면, 구면 조화-기반 3D 오디오는 구 상의 직교 기저 함수들의 측면에서 3D 압력 필드의 파라메트릭 표현일 수도 있다. 표현의 차수 N이 더 높을수록, 공간적 해상도는 잠재적으로 더 높고, (총 (N+1)2 개의 계수들에 대해) 종종 구면 조화 (SH) 계수들의 수가 더 크다. 많은 응용들에 대해, 계수들의 대역폭 압축이 계수들을 효율적으로 송신 및 저장할 수 있기 위해 요구될 수도 있다. 본 개시물에서 지시되는 이 기법들은 특이값 분해 (SVD) 를 사용하여 프레임-기반, 차원수 감소 프로세스를 제공할 수도 있다. SVD 분석은 계수들의 각각의 프레임을 세 개의 행렬들 (U, S 및 V) 로 분해할 수도 있다. 일부 예들에서, 그 기법들은 US[k] 행렬에서의 벡터들의 일부를 기본 음장의 전경 성분들로서 핸들링할 수도 있다. 그러나, 이 방식으로 핸들링되는 경우, (U S[k] 행렬에서의) 이들 벡터들은 - 심지어 그것들이 동일한 별개의 오디오 성분을 나타내더라도 - 프레임 단위로 불연속적이다. 이들 불연속성들은 성분들이 변환-오디오-코더들을 통해 피드되는 경우 상당한 아티팩트들로 이어질 수도 있다.
본 개시물에서 설명되는 기법들은 이 불연속성을 해결할 수도 있다. 다시 말하면, 그 기법들은 V 행렬이 구면 조화 도메인에서의 직교 공간 축들로서 해석될 수 있다는 관찰에 기초할 수도 있다. U[k] 행렬은 불연속성이 프레임마다 변경되는 직교 공간 축 (V[k]) 에 기인할 수 있고 - 그러므로 그것들을 불연속적이게 하는 그들 기저 함수들의 측면에서 구면 조화 (HOA) 데이터의 투영을 나타낼 수도 있다. 이는 기저 함수들이, 일부 예들에서, 프레임 단위로 일정한 유사한 분해, 이를테면 푸리에 변환과는 다르다. 이들 측면들에서, SVD는 매칭 추구 알고리즘이라고 간주될 수도 있다. 본 개시물에서 설명되는 기법들은 시공간적 보간 유닛 (50) 이 기저 함수들 (V[k]) 간에 - 그것들을 보간함으로써 - 프레임 단위로 연속성을 유지하는 것을 가능하게 하는 것을 가능하게 한다.
위에서 언급했듯이, 보간은 샘플들에 대해 수행될 수도 있다. 이 경우는 서브프레임들이 샘플들의 단일 세트와 비교되는 경우 위의 설명에서 일반화된다. 샘플들을 통한 보간 및 서브프레임들을 통한 보간 둘 다의 경우에서, 보간 동작은 다음의 수학식의 형태를 취할 수도 있다:
이 위의 수학식에서, 보간은 단일 V-벡터 v(k-1) 로부터 단일 V-벡터 v(k)에 대해 수행될 수도 있는데, 그 벡터들은 하나의 실시형태에서 인접한 프레임들 (k 및 k-1) 로부터의 V-벡터들을 나타낼 수 있다. 위의 수학식에서, l는 보간이 수행되고 있는 해상도를 나타내며, l은 정수 샘플을 나타내고 l = 1,..., T (여기서 T는 보간이 수행되고 있는 그리고 출력 보간된 벡터들, 이 요구되는 샘플들의 길이이고 또한 이 프로세스의 출력이 이들 벡터들의 l을 생성한다). 대안적으로, l은 다수의 프레임들로 이루어진 서브프레임들을 표시한다. 예를 들어, 프레임이 네 개의 서브프레임들로 분할되는 경우, l은 서브프레임들 중 각각의 서브프레임에 대해, 1, 2, 3 및 4의 값들을 포함할 수도 있다. l의 값은 "CodedSpatialInterpolationTime"이라고 지칭되는 필드로서 비트스트림을 통해 시그널링되어서 - 보간 동작은 디코더에서 복제될 수도 있다. w(l)은 보간 가중치들의 값들을 포함할 수도 있다. 보간이 선형적인 경우, w(l)은 l의 함수로서 0과 1 사이에서 선형적으로 그리고 단조적으로 가변할 수도 있다. 다른 경우들에서, w(l)은 l의 함수로서 0과 1 사이에서 비선형적이지만 단조적인 방식 (이를테면 상승 (raised) 코사인의 1/4 파장) 으로 가변할 수도 있다. 함수, w(l)은, 함수들의 몇몇 상이한 가능성들 사이에서 인덱싱되고 비트스트림에서 "SpatialInterpolationMethod"로 지칭된 필드로서 시그널링되어 동일한 보간 동작이 디코더에 의해 복제 가능할 수도 있다. w(l)이 0에 가까운 값인 경우, 출력, 은 v(k-1)에 의해 고도로 가중되거나 또는 영향을 받을 수도 있다. 반면 w(l)이 1에 가까운 값인 경우, 그것은 출력, 은 v(k-1)에 의해 고도로 가중되거나 또는 영향을 받는 것을 보장한다.
계수 감소 유닛 (46) 은 배경 채널 정보 (43) 에 기초하여 나머지 전경 V[k] 벡터들 (53) 에 대해 계수 감소를 수행하여 감소된 전경 V[k] 벡터들 (55) 을 양자화 유닛 (52) 으로 출력하도록 구성되는 유닛을 나타낼 수도 있다. 감소된 전경 V[k] 벡터들 (55) 은 다음의 크기 D를 가질 수도 있다: [(N+1)2 - (N BG +1)2-nBGa] x nFG.
계수 감소 유닛 (46) 은, 이런 점에서, 나머지 전경 V[k] 벡터들 (53) 의 계수들의 수를 감소시키도록 구성되는 유닛을 나타낼 수도 있다. 다르게 말하면, 계수 감소 유닛 (46) 은 방향 정보를 거의 갖지 않거나 또는 방향 정보가 없는 전경 V[k] 벡터들 (이것들은 나머지 전경 V[k] 벡터들 (53) 을 형성함) 의 그들 계수들을 제거하도록 구성되는 유닛을 나타낼 수도 있다. 위에서 설명된 바와 같이, 일부 예들에서, 1차 및 0차 기저 함수들 (이는 NBG로서 표시될 수도 있음) 에 대응하는 별개의 또는, 다르게 말하면, 전경 V[k] 벡터들의 그들 계수들은 적은 방향 정보를 제공하고 그러므로 전경 V-벡터들로부터 ("계수 감소"라고 지칭될 수도 있는 프로세스를 통해) 제거될 수 있다. 이 예에서, NBG에 대응하는 이들 계수들을 식별하기 위해서뿐만 아니라 [(NBG +1)2+1, (N+1)2]의 세트로부터 추가적인 HOA 채널들 (이는 변수 TotalOfAddAmbHOAChan) 에 의해 표시될 수도 있음) 을 식별하기 위해서도 더 큰 유연성이 제공될 수도 있다. 음장 분석 유닛 (44) 은 HOA 계수들 (11) 을 분석하여 총칭하여 배경 채널 정보 (43) 라고 지칭될 수도 있는 (NBG+1)2뿐만 아니라 TotalOfAddAmbHOAChan을 식별할 수도 있는 BGTOT를 결정할 수도 있다. 계수 감소 유닛 (46) 은 그 다음에 (NBG+1)2 및 TotalOfAddAmbHOAChan에 대응하는 그들 계수들을 나머지 전경 V[k] 벡터들 (53) 로부터 제거하여 사이즈 (N+1)2 - (BGTOT) x nFG의 더 작은 차원의 V[k] 행렬 (55) 을 생성할 수도 있는데 그 행렬은 감소된 전경 V[k] 벡터들 (55) 이라고 또한 지칭될 수도 있다.
양자화 유닛 (52) 은 감소된 전경 V[k] 벡터들 (55) 을 압축하는 임의 형태의 양자화를 수행하여 코딩된 전경 V[k] 벡터들 (57) 을 생성하며, 이들 코딩된 전경 V[k] 벡터들 (57) 을 비트스트림 생성 유닛 (42) 으로 출력하도록 구성되는 유닛을 나타낼 수도 있다. 동작 시, 양자화 유닛 (52) 은 음장의 공간적 성분, 즉, 이 예에서의 감소된 전경 V[k] 벡터들 (55) 중 하나 이상을 압축하도록 구성되는 유닛을 나타낼 수도 있다. 예를 목적으로, 감소된 전경 V[k] 벡터들 (55) 은, 계수 감소의 결과로서, 25 미만의 엘리먼트들 각각 (이는 음장의 4차 HOA 표현을 의미함) 을 갖는 두 개의 행 벡터들을 포함하는 것으로 가정된다. 비록 두 개의 행 벡터들에 대해 설명되었지만, 벡터들의 임의의 수는 감소된 전경 V[k] 벡터들 (55) 내에 (n+1)2 개까지 포함될 수도 있으며, n은 음장의 HOA 표현의 차수를 나타낸다. 더구나, 비록 스칼라 및/또는 엔트로피 양자화를 수행하는 것으로서 아래에서 설명되지만, 양자화 유닛 (52) 은 감소된 전경 V[k] 벡터들 (55) 의 압축을 초래하는 임의의 형태의 양자화를 수행할 수도 있다.
양자화 유닛 (52) 은 감소된 전경 V[k] 벡터들 (55) 을 수신하고 압축 스킴을 수행하여 코딩된 전경 V[k] 벡터들 (57) 을 생성할 수도 있다. 이 압축 스킴은 일반적으로 벡터 또는 데이터의 엘리먼트들을 압축하기 위한 임의의 상상가능 압축 스킴을 수반할 수도 있고, 아래에서 더 상세히 설명되는 예로 제한되지 않아야 한다. 양자화 유닛 (52) 은, 일 예로서, 감소된 전경 V[k] 벡터들 (55) 의 각각의 엘리먼트의 부동소수점 표현들을 감소된 전경 V[k] 벡터들 (55) 의 각각의 엘리먼트의 정수 표현들의 변환, 감소된 전경 V[k] 벡터들 (55) 의 정수 표현들의 균일 양자화 및 나머지 전경 V[k] 벡터들 (55) 의 양자화된 정수 표현들의 범주화 및 코딩 중 하나 이상을 포함하는 압축 스킴을 수행할 수도 있다.
일부 예들에서, 이 압축 스킴의 다양한 하나 이상의 프로세스들은, 하나의 예로서, 결과적인 비트스트림 (21) 에 대한 타겟 비트레이트를 성취하거나 또는 거의 성취하도록 파라미터들에 의해 동적으로 제어될 수도 있다. 감소된 전경 V[k] 벡터들 (55) 의 각각이 서로 직교함을 고려하면, 감소된 전경 V[k] 벡터들 (55) 의 각각은 독립적으로 코딩될 수도 있다. 일부 예들에서, 아래에서 더 상세히 설명되는 바와 같이, 각각의 감소된 전경 V[k] 벡터들 (55) 의 각각의 엘리먼트는 (다양한 서브-모드들에 의해 정의된) 동일한 코딩 모드를 사용하여 코딩될 수도 있다.
여하튼, 위에서 지적했듯이, 이 코딩 스킴은 감소된 전경 V[k] 벡터들 (55) 중 각각의 벡터의 각각의 엘리먼트의 부동소수점 표현들 (이는, 일부 예들에서, 32-비트 부동소수점 수임) 을 16-비트 정수 표현으로 변환하는 것을 우선 수반할 수도 있다. 양자화 유닛 (52) 은 감소된 전경 V[k] 벡터들 (55) 의 주어진 하나의 각각의 엘리먼트에 215를 곱함 - 이는, 일부 예들에서, 15만큼 우측 시프트에 의해 수행됨 - 으로써 이 부동소수점 대 정수 변환을 수행할 수도 있다.
양자화 유닛 (52) 은 그 다음에 감소된 전경 V[k] 벡터들 (55) 중 주어진 벡터의 엘리먼트들의 모두에 대해 균일 양자화를 수행할 수도 있다. 양자화 유닛 (52) 은 nbits 파라미터라고 지칭될 수도 있는 값에 기초하여 양자화 스텝 사이즈를 식별할 수도 있다. 양자화 유닛 (52) 은 타겟 비트레이트 (41) 에 기초하여 이 nbits 파라미터를 동적으로 결정할 수도 있다. 양자화 유닛 (52) 은 양자화 스텝 사이즈를 이 nbits 파라미터의 함수로서 결정할 수도 있다. 하나의 예로서, 양자화 유닛 (52) 은 양자화 스텝 사이즈 (본 개시물에서 "델타" 또는 "Δ"로서 표시됨) 216- nbits와 동일한 것으로서 결정할 수도 있다. 이 예에서, nbits가 6과 동일하다면, 델타는 210과 동일하고 26 개의 양자화 레벨들이 존재한다. 이런 점에서, 벡터 엘리먼트 v에 대해, 양자화된 벡터 엘리먼트 v q ) 는 [v/Δ]과 동일하고 -2 nbits -1 < v q < 2 nbits - 1 이다.
양자화 유닛 (52) 은 그러면 양자화된 벡터 엘리먼트들의 범주화 및 잔여 코딩을 수행할 수도 있다. 하나의 예로서, 양자화 유닛 (52) 은, 주어진 양자화된 벡터 엘리먼트 (v q ) 에 대해 이 엘리먼트에 대응하는 범주를 다음의 수학식을 사용하여 (범주 식별자 (cid) 를 결정함으로써) 식별할 수도 있다:
양자화 유닛 (52) 은 그 다음에 v q 가 양의 값인지 또는 음의 값인지를 나타내는 부호 비트를 또한 식별하면서 이 범주 인덱스 (cid) 를 허프만 코딩할 수도 있다. 양자화 유닛 (52) 은 다음으로 이 범주에서 잔차를 식별할 수도 있다. 하나의 예로서, 양자화 유닛 (52) 은 다음의 수학식에 따라 이 잔차(residual)를 결정할 수도 있다:
양자화 유닛 (52) 은 그 다음에 이 잔차를 cid-1 비트들로 블록 코딩할 수도 있다.
다음의 예는 이 범주화 및 잔차 코딩 프로세스의 단순화된 예를 예시한다. 먼저, v q ∈[-31,31]이도록 nbits는 6과 동일하다고 가정한다. 다음으로, 다음을 가정한다:
또한, 다음을 가정한다:
따라서, v q = [6, -17, 0, 0, 3]에 대해, 다음이 결정될 수도 있다:
>> cid = 3,5,0,0,2
>> 부호=1,0,x,x,1
>> 잔차 = 2,1,x,x,1
>> 6에 대한 비트들 = '0010' + '1' + '10'
>> -17에 대한 비트들 = '00111' + '0' + '0001'
>> 0에 대한 비트들 = '0'
>> 0에 대한 비트들 = '0'
>> 3에 대한 비트들 = '000' + '1' + '1'
>> 총 비트수 = 7+10+1+1+5 = 24
>> 평균 비트수 = 24/5 = 4.8
전술한 단순화된 예에서 도시되지 않았지만, 양자화 유닛 (52) 은 cid를 코딩하는 경우 nbits의 상이한 값들에 대해 상이한 허프만 코드 북들을 선택할 수도 있다. 일부 예들에서, 양자화 유닛 (52) 은 nbits 값들 (6,..., 15) 에 대해 상이한 허프만 코딩을 제공할 수도 있다. 더구나, 양자화 유닛 (52) 은 총 50 개의 허프만 코드 북들에 대해 6,..., 15의 범위의 상이한 nbits 값들의 각각에 대해 다섯 개 상이한 허프만 코드 북들을 포함할 수도 있다. 이런 점에서, 양자화 유닛 (52) 은 다수의 상이한 통계적 콘텍스트들에서 cid의 코딩에 맞도록 복수의 상이한 허프만 코드 북들을 포함할 수도 있다.
예시하기 위해, 양자화 유닛 (52) 은, nbits 값들의 각각에 대해, 벡터 엘리먼트들 (1 내지 4) 을 코딩하기 위한 제 1 허프만 코드 북, 벡터 엘리먼트들 (5 내지 9) 을 코딩하기 위한 제 2 허프만 코드 북, 벡터 엘리먼트들 (9 이상) 을 코딩하기 위한 제 3 허프만 코드 북을 포함할 수도 있다. 이들 처음 세 개의 허프만 코드 북들은 압축될 감소된 전경 V[k] 벡터들 (55) 중 하나가 감소된 전경 V[k] 벡터들 (55) 중 시간적으로 후속하는 대응하는 하나로부터 예측되지 않고 합성 오디오 오브젝트 (예를 들어, 펄스 코드 변조된 (PCM) 오디오 오브젝트에 의해 원래 정의되는 것) 의 공간적 정보를 나타내지 않는 경우 사용될 수도 있다. 양자화 유닛 (52) 은, nbits 값들의 각각에 대해, 감소된 전경 V[k] 벡터들 (55) 중 하나를 코딩하기 위한 제 4 허프만 코드 북을, 감소된 전경 V[k] 벡터들 (55) 중 이 하나가 감소된 전경 V[k] 벡터들 (55) 중 시간적으로 후속하는 대응하는 하나로부터 예측되는 경우, 추가적으로 포함할 수도 있다. 양자화 유닛 (52) 은, nbits 값들의 각각에 대해, 감소된 전경 V[k] 벡터들 (55) 중 하나를 코딩하기 위한 제 5 허프만 코드 북을, 감소된 전경 V[k] 벡터들 (55) 중 이 하나가 합성 오디오 오브젝트를 나타내는 경우, 또한 포함할 수도 있다. 다양한 허프만 코드 북들은 이 예에서 이들 상이한 통계적 콘텍스트들, 즉, 비-예측된 및 비-합성 콘텍스트, 예측된 콘텍스트 및 합성 콘텍스트의 각각에 대해 개발될 수도 있다.
다음 표는 허프만 테이블 선택과 압축해제 유닛이 적절한 허프만 테이블을 선택하는 것을 가능하게 하기 위해 비트스트림에서 특정될 비트들을 예시한다:
전술한 표에서, 예측 모드 ("Pred mode") 는 예측이 현재 벡터에 대해 수행되었음을 나타내는 반면, 허프만 테이블 ("HT info") 은 허프만 테이블들 (1 내지 5) 중 하나를 선택하는데 사용되는 추가적인 허프만 코드 북 (또는 테이블) 정보를 나타낸다.
다음의 표는 이 허프만 테이블 선택 프로세스에 다양한 통계적 콘텍스트들 또는 시나리오들이 주어짐을 추가로 예시한다.
전술한 표에서, "Recording" 열은 벡터가 레코딩된 오디오 오브젝트를 나타내는 경우의 코딩 콘텍스트를 표시하는 한편 "Synthetic" 열은 벡터가 합성 오디오 오브젝트를 나타내는 경우에 대한 코딩 콘텍스트를 표시한다. "W/O Pred" 행은 예측이 벡터 엘리먼트들에 대해 수행되지 않은 경우의 코딩 콘텍스트를 표시하는 한편, "With Pred" 행은 예측이 벡터 엘리먼트들에 대해 수행된 경우의 코딩 콘텍스트를 표시한다. 이 표에서 도시된 바와 같이, 양자화 유닛 (52) 은 벡터가 레코딩된 오디오 오브젝트를 나타내고 예측이 벡터 엘리먼트들에 대해 수행되지 않은 경우 HT{1, 2, 3}을 선택한다. 양자화 유닛 (52) 은 오디오 오브젝트가 합성 오디오 오브젝트를 나타내고 예측이 벡터 엘리먼트들에 대해 수행되지 않은 경우 HT5를 선택한다. 양자화 유닛 (52) 은 벡터가 레코딩된 오디오 오브젝트를 나타내고 예측이 벡터 엘리먼트들에 대해 수행된 경우 HT4를 선택한다. 양자화 유닛 (52) 은 오디오 오브젝트가 합성 오디오 오브젝트를 나타내고 예측이 벡터 엘리먼트들에 대해 수행된 경우 HT5를 선택한다.
이런 점에서, 양자화 유닛 (52) 은 위에서 언급된 스칼라 양자화 및/또는 허프만 코딩을 수행하여 감소된 전경 V[k] 벡터들 (55) 을 압축하며, 사이드 채널 정보 (57) 라고 지칭될 수도 있는 코딩된 전경 V[k] 벡터들 (57) 을 출력할 수도 있다. 이 사이드 채널 정보 (57) 는 나머지 전경 V[k] 벡터들 (55) 을 코딩하는데 사용된 신택스 엘리먼트들을 포함할 수도 있다.
위에서 언급했듯이, 양자화 유닛 (52) 은 사이드 채널 정보 (57) 에 대한 신택스 엘리먼트들을 생성할 수도 있다. 예를 들어, 양자화 유닛 (52) 은 복수의 구성 모드들 중 어느 것이 선택되었는지를 표시하는, (하나 이상의 프레임들을 포함할 수도 있는) 액세스 유닛의 헤더에서의 신택스 엘리먼트를 특정할 수도 있다. 비록 액세스 단위마다 기반으로 특정된 것으로 설명되지만, 양자화 유닛 (52) 은 이 신택스 엘리먼트를 프레임마다 기반으로 또는 임의의 다른 주기적 기반 또는 비-주기적 기반으로 (이를테면 전체 비트스트림에 대해 한 번) 특정할 수도 있다. 여하튼, 이 신택스 엘리먼트는 이 별개의 성분의 방향성 양태들을 나타내기 위해 네 개의 구성 모드들 중 어느 것이 감소된 전경 V[k] 벡터들 (55) 의 계수들의 영이 아닌 세트를 특정하기 위해 선택되었는지를 나타내는 두 개의 비트들을 포함할 수도 있다. 그 신택스 엘리먼트는 "codedVVecLength"로서 표시될 수도 있다. 이런 방식으로, 양자화 유닛 (52) 은 네 개의 구성 모드들 중 어느 것이 비트스트림에서의 코딩된 전경 V[k] 벡터들 (57) 을 특정하는데 사용되었는지를 비트스트림에서 시그널링하거나 또는 그렇지 않으면 특정할 수도 있다. 비록 네 개의 구성 모드들에 대해 설명되었지만, 그 기법들은 네 개의 구성 모드들로 제한되지 않아야 하고 단일 구성 모드 또는 복수의 구성 모드들을 포함하는 임의의 수의 구성 모드들이 되어야 한다. 스칼라/엔트로피 양자화 유닛 (53) 은 사이드 채널 정보 (57) 에서의 다른 신택스 엘리먼트로서 플래그 (63) 를 또한 특정할 수도 있다.
공간적 오디오 인코딩 디바이스 (20) 내에 포함되는 메자닌 포맷 유닛 (40) 은 알려진 포맷 (이는 디코딩 디바이스에 의해 알려진 포맷을 지칭할 수도 있음) 을 준수하도록 데이터를 포맷팅함으로써, 메자닌 포맷팅된 오디오 데이터 (15) 를 생성하는 유닛을 나타낼 수도 있다. 메자닌 포맷 유닛 (40) 은 일부 예들에서 멀티플렉서를 나타낼 수도 있는데, 이 멀티플렉서는 코딩된 전경 V[k] 벡터들 (57), 에너지 보상된 주변 HOA 계수들 (47'), 보간된 nFG 신호들 (49') 및 배경 채널 정보 (43) 를 수신할 수도 있다. 메자닌 포맷 유닛 (40) 은 그 다음에 코딩된 전경 V[k] 벡터들 (57), 에너지 보상된 주변 HOA 계수들 (47'), 보간된 nFG 신호들 (49') 및 배경 채널 정보 (43) 에 기초하여 메자닌 포맷팅된 오디오 데이터 (15) 를 생성할 수도 있다. 위에서 언급했듯이, 메자닌 포맷팅된 오디오 데이터 (15) 는 PCM 전송 채널들 및 측파대 (또는, 다르게 말하면, 사이드채널) 정보를 포함할 수도 있다.
이런 식으로, 그 기법들은 공간적 오디오 인코딩 디바이스 (20) 가 고차 앰비소닉 오디오 데이터를 저장하며, 고차 앰비소닉 오디오 데이터에 대해 메자닌 압축을 수행하여 메자닌 포맷팅된 오디오 데이터를 획득하도록 구성되는 것을 가능하게 할 수도 있다.
이들 및 다른 사례들에서, 공간적 오디오 인코딩 디바이스 (20) 는 고차 앰비소닉 오디오 데이터에 대해 음향심리 오디오 인코딩의 임의의 적용을 수반하지 않는 메자닌 압축을 수행하여 메자닌 포맷팅된 오디오 데이터를 획득하도록 구성될 수도 있다.
이들 및 다른 사례들에서, 공간적 오디오 인코딩 디바이스 (20) 는 고차 앰비소닉 오디오 데이터에 대해 공간적 오디오 인코딩을 수행하여 메자닌 포맷팅된 오디오 데이터를 획득하도록 구성될 수도 있다.
이들 및 다른 사례들에서, 공간적 오디오 인코딩 디바이스 (20) 는 고차 앰비소닉 오디오 데이터에 대해 벡터-기반 합성 또는 분해를 수행하여 메자닌 포맷팅된 오디오 데이터를 획득하도록 구성될 수도 있다.
이들 및 다른 사례들에서, 공간적 오디오 인코딩 디바이스 (20) 는 고차 앰비소닉 오디오 데이터에 대해 특이값 분해를 수행하여 메자닌 포맷팅된 오디오 데이터를 획득하도록 구성될 수도 있다.
이들 및 다른 사례들에서, 메자닌 포맷팅된 오디오 데이터는 고차 앰비소닉 오디오 데이터에 의해 표현되는 음장의 하나 이상의 배경 성분들을 포함한다.
이들 및 다른 사례들에서, 배경 성분들은 2 미만의 차수를 갖는 구면 기저 함수에 대응하는 고차 앰비소닉 오디오 데이터의 고차 앰비소닉 계수들을 포함한다.
이들 및 다른 사례들에서, 배경 성분들은 2 미만의 차수를 갖는 구면 기저 함수에 대응하는 고차 앰비소닉 오디오 데이터의 고차 앰비소닉 계수들만을 포함한다.
이들 및 다른 사례들에서, 메자닌 포맷팅된 오디오 데이터는 고차 앰비소닉 오디오 데이터에 의해 표현되는 음장의 하나 이상의 전경 성분들을 포함한다.
이들 및 다른 사례들에서, 공간적 오디오 인코딩 디바이스 (20) 는 고차 앰비소닉 오디오 데이터에 대해 벡터-기반 합성 또는 분해를 수행하여 메자닌 포맷팅된 오디오 데이터를 획득하도록 구성될 수도 있다. 이들 사례들에서, 전경 성분들은 고차 앰비소닉 오디오 데이터에 대해 벡터-기반 합성 또는 분해를 수행함으로써 더 높은 차수의 오디오 오브젝트들로부터 분해된 전경 오디오 오브젝트들을 포함한다.
이들 및 다른 사례들에서, 메자닌 포맷팅된 오디오 데이터는 고차 앰비소닉 오디오 데이터에 의해 표현되는 음장의 하나 이상의 전경 성분들과 하나 이상의 배경 성분들을 포함한다.
이들 및 다른 사례들에서, 메자닌 포맷팅된 오디오 데이터는 하나 이상의 펄스 코드 변조된 (PCM) 전송 채널들 및 측파대 (sideband) 정보를 포함한다.
이들 및 다른 사례들에서, 공간적 오디오 인코딩 디바이스 (20) 는 고차 앰비소닉 오디오 데이터에 대해 벡터-기반 합성 또는 분해를 수행하여 메자닌 포맷팅된 오디오 데이터를 획득하도록 구성될 수도 있다. 이들 사례들에서, 측파대 정보는 고차 앰비소닉 오디오 데이터에 대해 벡터-기반 합성 또는 분해를 수행한 결과로서 출력되는 방향 정보를 포함한다.
이들 및 다른 사례들에서, 공간적 오디오 인코딩 디바이스 (20) 는 고차 앰비소닉 오디오 데이터에 대해 특이값 분해를 수행하여 메자닌 포맷팅된 오디오 데이터를 획득하도록 구성될 수도 있다. 이들 사례들에서, 측파대 정보는 고차 앰비소닉 오디오 데이터에 대해 벡터-기반 합성 또는 분해를 수행한 결과로서 출력되는 하나 이상의 V 벡터들을 포함한다.
이들 및 다른 사례들에서, 공간적 오디오 인코딩 디바이스 (20) 는 브로드캐스팅 네트워크에 의한 프로세싱을 위해 메자닌 포맷팅된 오디오 데이터를 브로드캐스팅 네트워크로 송신하도록 구성될 수도 있다.
이들 및 다른 사례들에서, 공간적 오디오 인코딩 디바이스 (20) 는 메자닌 포맷팅된 오디오 데이터를 브로드캐스팅하기 전에 추가적인 오디오 데이터의 메자닌 포맷팅된 오디오 데이터 속으로의 삽입을 위해 메자닌 포맷팅된 오디오 데이터를 브로드캐스팅 네트워크로 송신하도록 구성될 수도 있다.
도 11은 도 11의 오디오 디코딩 디바이스 (24) 를 더 상세히 예시하는 블록도이다. 도 11의 예에서 도시된 바와 같이 오디오 디코딩 디바이스 (24) 는 추출 유닛 (72), 방향성-기반 복원 유닛 (90) 및 벡터-기반 복원 유닛 (92) 을 포함할 수도 있다. 비록 아래에서 설명되지만, 오디오 디코딩 디바이스 (24) 와 HOA 계수들을 압축해제하거나 또는 그렇지 않으면 디코딩하는 다양한 양태들에 관한 더 많은 정보가 2014년 5월 29일자로 출원된 "INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD"라는 명칭의 국제 특허 출원 공개 WO 2014/194099호에서 입수 가능하다.
추출 유닛 (72) 은 비트스트림 (15) 을 수신하고 HOA 계수들 (11) 의 벡터-기반 인코딩된 버전을 추출하도록 구성되는 유닛을 나타낼 수도 있다. 추출 유닛 (72) 은 위에서 언급된 신택스 엘리먼트로부터 HOA 계수들 (11) 이 다양한 방향-기반 또는 벡터-기반 버전들을 통해 인코딩되었는지의 여부를 나타내게 결정할 수도 있다. 추출 유닛 (72) 은 코딩된 전경 V[k] 벡터들 (57) (이는 코딩된 가중치들 (57) 및/또는 인덱스들 (63) 또는 스칼라 양자화된 V-벡터들을 포함할 수도 있음), 인코딩된 주변 HOA 계수들 (59) 및 대응하는 오디오 오브젝트들 (61) (이는 인코딩된 nFG 신호들 (61) 이라고 또한 지칭될 수도 있음) 을 추출할 수도 있다. 오디오 오브젝트들 (61) 각각은 벡터들 (57) 중 하나의 벡터에 대응한다. 추출 유닛 (72) 은 코딩된 전경 V[k] 벡터들 (57) 을 V-벡터 복원 유닛 (74) 으로 그리고 인코딩된 주변 HOA 계수들 (59) 을 인코딩된 nFG 신호들 (61) 과 함께 음향심리 디코딩 유닛 (80) 로 전해줄 수도 있다.
V-벡터 복원 유닛 (74) 은 인코딩된 전경 V[k] 벡터들 (57) 로부터 V-벡터들을 복원하도록 구성되는 유닛을 나타낼 수도 있다. V-벡터 복원 유닛 (74) 은 양자화 유닛 (52) 의 방식의 역인 방식으로 동작할 수도 있다.
음향심리 디코딩 유닛 (80) 은 인코딩된 주변 HOA 계수들 (59) 과 인코딩된 nFG 신호들 (61) 을 디코딩하기 위해서 도 11의 예에 도시된 음향심리 오디오 코더 유닛 (40) 에 역인 방식으로 동작함으로써, 에너지 보상된 주변 HOA 계수들 (47') 과 보간된 nFG 신호들 (49') (이는 보간된 nFG 오디오 오브젝트들 (49') 이라고 또한 지칭될 수도 있음) 을 생성할 수도 있다. 음향심리 디코딩 유닛 (80) 은 에너지 보상된 주변 HOA 계수들 (47') 을 페이드 유닛 (770) 으로 그리고 nFG 신호들 (49') 을 전경 공식화 유닛 (78) 으로 전해줄 수도 있다.
시공간적 보간 유닛 (76) 은 시공간적 보간 유닛 (50) 에 대해 위에서 설명된 방식과 유사한 방식으로 동작할 수도 있다. 시공간적 보간 유닛 (76) 은 감소된 전경 V[k] 벡터들 (55 k ) 을 수신하고 전경 V[k] 벡터들 (55 k ) 및 감소된 전경 V[k-1] 벡터들 (55 k -1) 에 대해 시공간적 보간을 수행하여 보간된 전경 V[k] 벡터들 (55 k '') 을 생성할 수도 있다. 시공간적 보간 유닛 (76) 은 보간된 전경 V[k] 벡터들 (55 k '') 을 페이드 유닛 (770) 으로 포워딩할 수도 있다.
추출 유닛 (72) 은 주변 HOA 계수들 중 하나가 전이하는 경우를 나타내는 신호 (757) 를 페이드 유닛 (770) 으로 또한 출력할 수도 있으며, 페이드 유닛은 그러면 SHCBG (47') (SHCBG (47') 는 "주변 HOA 채널들 (47')" 또는 "주변 HOA 계수들 (47'") 이라고 또한 표시될 수도 있음) 와 보간된 전경 V[k] 벡터들 (55 k '') 의 엘리먼트들 중 어느 것이 페이드-인 또는 페이드-아웃 중 어느 하나가 될지를 결정할 수도 있다. 일부 예들에서, 페이드 유닛 (770) 은 주변 HOA 계수들 (47') 과 보간된 전경 V[k] 벡터들 (55 k '') 의 엘리먼트들의 각각에 대해 반대로 동작할 수도 있다. 다시 말하면, 페이드 유닛 (770) 은 주변 HOA 계수들 (47') 중 대응하는 하나에 대해 페이드-인 또는 페이드-아웃, 또는 페이드-인 또는 페이드-아웃 둘 다를 수행할 수도 있는 한편, 보간된 전경 V[k] 벡터들 (55 k '') 의 엘리먼트들 중 대응하는 하나에 대해 페이드-인 또는 페이드-아웃, 또는 페이드-인 및 페이드-아웃 둘 다를 수행할 수도 있다. 페이드 유닛 (770) 은 조정된 주변 HOA 계수들 (47'') 을 HOA 계수 공식화 유닛 (82) 으로 그리고 조정된 전경 V[k] 벡터들 (55 k ''') 을 전경 공식화 유닛 (78) 으로 출력할 수도 있다. 이런 점에서, 페이드 유닛 (770) 은, 예컨대, 주변 HOA 계수들 (47') 과 보간된 전경 V[k] 벡터들 (55 k '') 의 엘리먼트들의 형태로, HOA 계수들 또는 그 미분계수들의 다양한 양태들에 대해 페이드 동작을 수행하도록 구성되는 유닛을 나타낸다.
전경 공식화 유닛 (78) 은 조정된 전경 V[k] 벡터들 (55 k ''') 및 보간된 nFG 신호들 (49') 에 대해 행렬 곱셈을 수행하여 전경 HOA 계수들 (65) 을 생성하는 유닛을 나타낸다. 이런 점에서, 전경 공식화 유닛 (78) 은 오디오 오브젝트들 (49') (이는 보간된 nFG 신호들 (49') 을 표시하기 위한 다른 방도임) 과 벡터들 (55 k ''') 을 결합하여 HOA 계수들 (11') 의 전경 또는, 다르게 말하면, 우세 양태들을 복원할 수도 있다. 전경 공식화 유닛 (78) 은 보간된 nFG 신호들 (49') 과 조정된 전경 V[k] 벡터들 (55 k ''') 의 행렬 곱셈을 수행할 수도 있다.
HOA 계수 공식화 유닛 (82) 은 HOA 계수들 (11') 을 획득하기 위해서 전경 HOA 계수들 (65) 을 조정된 주변 HOA 계수들 (47'') 에 결합하도록 구성되는 유닛을 나타낼 수도 있다. 프라임 표기법은 HOA 계수들 (11') 이 HOA 계수들 (11) 과는 유사하지만 동일하지 않을 수도 있다는 것을 반영한다. HOA 계수들 (11 및 11') 간의 차이들은 손실 송신 매체를 통한 송신, 양자화 또는 다른 손실 동작들로 인한 손실로부터 초래될 수도 있다. 이들 및 다른 사례들에서, 브로드캐스팅 네트워크 센터 (402) 는 메자닌 포맷팅된 오디오 데이터에 대해 메자닌 압축해제를 수행하여 고차 앰비소닉 오디오 데이터를 획득하며, 고차 앰비소닉 오디오 데이터에 대해 고차 앰비소닉 변환을 수행하여 공간적으로 포맷팅된 오디오 데이터를 획득하고, 공간적으로 포맷팅된 오디오 데이터를 모니터링하도록 구성될 수도 있다.
하나 이상의 예들에서, 설명된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 그것들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현된다면, 그 기능들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독가능 매체 상에 저장되거나 또는 그것을 통해 송신될 수도 있고 하드웨어 기반 프로세싱 유닛에 의해 실행될 수도 있다. 컴퓨터-판독가능 매체들은 데이터 저장 매체들과 같은 유형의 매체에 대응하는 컴퓨터-판독가능 저장 매체들을 저장할 수도 있다. 데이터 저장 매체들은 본 개시물에서 설명된 기법들의 구현을 위한 명령들, 코드 및/또는 데이터 구조들을 취출하기 위해 하나 이상의 컴퓨터들 또는 하나 이상의 프로세서들에 의해 액세스될 수 있는 임의의 이용가능 매체들일 수도 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독가능 매체를 포함할 수도 있다.
비슷하게, 위에서 설명된 다양한 사례들의 각각에서, 오디오 디코딩 디바이스 (24) 는 오디오 디코딩 디바이스 (24) 가 수행하도록 구성되는 방법을 수행하거나 또는 그렇지 않으면 그 방법의 각각의 단계를 수행하는 수단을 포함할 수도 있다는 것이 이해되어야 한다. 일부 사례들에서, 수단은 하나 이상의 프로세서들을 포함할 수도 있다. 일부 사례들에서, 하나 이상의 프로세서들은 비일시적 컴퓨터-판독가능 저장 매체에 저장된 명령들을 통해 구성되는 특수 목적 프로세서를 나타낼 수도 있다. 다르게 말하면, 인코딩 예들의 세트들의 각각에서의 기법들의 다양한 양태들이, 실행되는 경우, 하나 이상의 프로세서들이 오디오 디코딩 디바이스 (24) 가 수행하도록 구성된 방법을 수행하게 하는 명령들을 저장하고 있는 비일시적 컴퓨터-판독가능 저장 매체를 제공할 수도 있다.
비제한적인 예로, 이러한 컴퓨터 판독가능 저장 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광 디스크 스토리지, 자기 디스크 스토리지, 또는 다른 자기 저장 디바이스들, 플래시 메모리, 또는 소망의 프로그램 코드를 컴퓨터에 의해 액세스될 수 있는 명령들 또는 데이터 구조들의 형태로 저장하는데 사용될 수 있는 임의의 다른 매체를 포함할 수 있다. 그러나, 컴퓨터 판독가능 저장 매체들 및 데이터 저장 매체들은 커넥션들, 반송파들, 신호들, 또는 다른 일시적 매체들을 포함하지 않지만, 대신 비일시적, 유형의 저장 매체들을 지향하고 있음이 이해되어야 한다. 디스크 (disk 및 disc) 는 본원에서 사용되는 바와 같이, 콤팩트 디스크 (compact disc, CD), 레이저 디스크, 광 디스크, 디지털 다용도 디스크 (DVD), 플로피 디스크 (floppy disk) 및 블루레이 디스크를 포함하는데, disk들은 보통 데이터를 자기적으로 재생하지만, disc들은 레이저들로써 광적으로 데이터를 재생한다. 상기한 것들의 조합들은 또한 컴퓨터 판독가능 매체들의 범위 내에 포함되어야 한다.
명령들은 하나 이상의 프로세서들, 이를테면 하나 이상의 디지털 신호 프로세서들 (digital signal processors, DSP들), 범용 마이크로프로세서들, 주문형 집적회로들 (application specific integrated circuits, ASIC들), 필드 프로그램가능 로직 어레이들 (field programmable logic arrays, FPGA들), 또는 다른 동등한 집적 또는 개별 로직 회로에 의해 실행될 수도 있다. 따라서, 본원에서 사용되는 바와 같은 "프로세서"라는 용어는 앞서의 구조 또는 본원에서 설명된 기법들의 구현에 적합한 임의의 다른 구조 중 임의의 것을 나타낼 수도 있다. 덧붙여서, 일부 양태들에서, 본원에서 설명된 기능성은 인코딩 및 디코딩을 위해 구성되는, 또는 결합형 코덱 (codec) 으로 통합되는 전용 하드웨어 및/또는 소프트웨어 모듈들 내에 제공될 수도 있다. 또한, 본 기법들은 하나 이상의 회로들 또는 로직 엘리먼트들 내에 완전히 구현될 수 있다.
본 개시물의 기법들은 무선 핸드셋, 집적회로 (IC) 또는 IC들의 세트 (예컨대, 칩 셋) 를 포함하는 매우 다양한 디바이스들 또는 장치들로 구현될 수도 있다. 다양한 컴포넌트들, 모듈들, 또는 유닛들이 개시된 기법들을 수행하도록 구성된 디바이스들의 기능적 양태들을 강조하기 위해 본 개시물에서 설명되지만, 상이한 하드웨어 유닛들에 의한 실현을 반드시 요구하지는 않는다. 대신에, 위에서 설명된 바와 같이, 다양한 유닛들은 코덱 하드웨어 유닛에 결합되거나 또는 적합한 소프트웨어 및/또는 펌웨어와 함께, 위에서 설명된 바와 같은 하나 이상의 프로세서들을 포함하는, 상호운용적 하드웨어 유닛들의 컬렉션에 의해 제공될 수도 있다.
본 기법들의 다양한 양태들이 설명되었다. 본 기법들의 이들 및 다른 양태들은 다음의 청구항들의 범위 내에 있다.
Claims (30)
- 음장을 나타내는 인코딩된 고차 앰비소닉 (HOA) 계수들을 디코딩하는 디바이스로서,
상기 음장을 나타내는 상기 인코딩된 HOA 계수들을 저장하도록 구성되는 메모리; 및
하나 이상의 프로세서들을 포함하고,
상기 하나 이상의 프로세서들은, 상기 메모리에 저장된 상기 인코딩된 HOA 계수들을 디코딩하도록 구성되는 경우:
상기 인코딩된 HOA 계수들을 포함하는 인코딩된 비트스트림의 일부로서, 상기 인코딩된 HOA 계수들을 나타내는 오디오 오브젝트를 수신하고;
상기 음장의 상기 오디오 오브젝트에 대한 상기 인코딩된 비트스트림의 비트들의 수의 할당을 나타내는 비트-할당 메타데이터를 수신하고;
상기 비트-할당 메타데이터에 기초하여, 상기 인코딩된 비트스트림으로부터 상기 오디오 오브젝트를 파싱하기 위해 상기 인코딩된 비트스트림으로부터 상기 비트들의 수를 추출하고;
상기 오디오 오브젝트에 기초하여, 하나 이상의 스피커 피드들을 렌더링하고; 그리고
상기 하나 이상의 스피커 피드들을 하나 이상의 스피커들에 출력하도록 구성되는, 인코딩된 고차 앰비소닉 (HOA) 계수들을 디코딩하는 디바이스. - 제 1 항에 있어서,
상기 비트-할당 메타데이터는, 상기 음장을 나타내는 복수의 오디오 오브젝트들 중의 임의의 단일 오디오 오브젝트에 할당될 수 있는 비트들의 수에 대한 상한을 더 포함하는, 인코딩된 고차 앰비소닉 (HOA) 계수들을 디코딩하는 디바이스. - 제 1 항에 있어서,
상기 하나 이상의 프로세서들은 또한, 상기 음장의 오디오 오브젝트에는 비트들의 최대 수를 초과하는 비트들의 개개의 수가 할당되지 않도록 상기 비트들을 할당하도록 구성되는, 인코딩된 고차 앰비소닉 (HOA) 계수들을 디코딩하는 디바이스. - 음장을 나타내는 인코딩된 고차 앰비소닉 (HOA) 계수들을 디코딩하는 방법으로서,
상기 인코딩된 HOA 계수들을 포함하는 인코딩된 비트스트림의 일부로서, 상기 인코딩된 HOA 계수들을 나타내는 오디오 오브젝트를 수신하는 단계;
상기 음장의 상기 오디오 오브젝트에 대한 상기 인코딩된 비트스트림의 비트들의 수의 할당을 나타내는 비트-할당 메타데이터를 수신하는 단계;
상기 비트-할당 메타데이터에 기초하여, 상기 인코딩된 비트스트림으로부터 상기 오디오 오브젝트를 파싱하기 위해 상기 인코딩된 비트스트림으로부터 상기 비트들의 수를 추출하는 단계;
상기 오디오 오브젝트에 기초하여, 하나 이상의 스피커 피드들을 렌더링하는 단계; 및
상기 하나 이상의 스피커 피드들을 하나 이상의 스피커들에 출력하는 단계를 포함하는, 인코딩된 고차 앰비소닉 (HOA) 계수들을 디코딩하는 방법. - 제 4 항에 있어서,
상기 비트-할당 메타데이터는, 상기 음장을 나타내는 복수의 오디오 오브젝트들 중의 임의의 단일 오디오 오브젝트에 할당될 수 있는 비트들의 수에 대한 상한을 더 포함하는, 인코딩된 고차 앰비소닉 (HOA) 계수들을 디코딩하는 방법. - 제 4 항에 있어서,
상기 음장의 오디오 오브젝트에는 비트들의 최대 수를 초과하는 비트들의 개개의 수가 할당되지 않도록 상기 비트들을 할당하는 단계를 더 포함하는, 인코딩된 고차 앰비소닉 (HOA) 계수들을 디코딩하는 방법. - 음장을 나타내는 인코딩된 고차 앰비소닉 (HOA) 계수들을 디코딩하는 디바이스로서,
상기 인코딩된 HOA 계수들을 포함하는 인코딩된 비트스트림의 일부로서, 상기 인코딩된 HOA 계수들을 나타내는 오디오 오브젝트를 수신하기 위한 수단;
상기 음장의 상기 오디오 오브젝트에 대한 상기 인코딩된 비트스트림의 비트들의 수의 할당을 나타내는 비트-할당 메타데이터를 수신하기 위한 수단;
상기 비트-할당 메타데이터에 기초하여, 상기 인코딩된 비트스트림으로부터 상기 오디오 오브젝트를 파싱하기 위해 상기 인코딩된 비트스트림으로부터 상기 비트들의 수를 추출하기 위한 수단;
상기 오디오 오브젝트에 기초하여, 하나 이상의 스피커 피드들을 렌더링하기 위한 수단; 및
상기 하나 이상의 스피커 피드들을 하나 이상의 스피커들에 출력하기 위한 수단을 포함하는, 인코딩된 고차 앰비소닉 (HOA) 계수들을 디코딩하는 디바이스. - 제 7 항에 있어서,
상기 비트-할당 메타데이터는, 상기 음장을 나타내는 복수의 오디오 오브젝트들 중의 임의의 단일 오디오 오브젝트에 할당될 수 있는 비트들의 수에 대한 상한을 더 포함하는, 인코딩된 고차 앰비소닉 (HOA) 계수들을 디코딩하는 디바이스. - 제 7 항에 있어서,
상기 음장의 오디오 오브젝트에는 비트들의 최대 수를 초과하는 비트들의 개개의 수가 할당되지 않도록 상기 비트들을 할당하기 위한 수단을 더 포함하는, 인코딩된 고차 앰비소닉 (HOA) 계수들을 디코딩하는 디바이스. - 명령들로 인코딩된 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 명령들은 실행될 때, 음장을 나타내는 인코딩된 고차 앰비소닉 (HOA) 계수들을 디코딩하는 디바이스의 프로세서로 하여금:
상기 인코딩된 HOA 계수들을 포함하는 인코딩된 비트스트림의 일부로서, 상기 인코딩된 HOA 계수들을 나타내는 오디오 오브젝트를 수신하게 하고;
상기 음장의 상기 오디오 오브젝트에 대한 상기 인코딩된 비트스트림의 비트들의 수의 할당을 나타내는 비트-할당 메타데이터를 수신하게 하고;
상기 비트-할당 메타데이터에 기초하여, 상기 인코딩된 비트스트림으로부터 상기 오디오 오브젝트를 파싱하기 위해 상기 인코딩된 비트스트림으로부터 상기 비트들의 수를 추출하게 하고;
상기 오디오 오브젝트에 기초하여, 하나 이상의 스피커 피드들을 렌더링하게 하고; 그리고
상기 하나 이상의 스피커 피드들을 하나 이상의 스피커들에 출력하게 하는, 명령들로 인코딩된 비일시적 컴퓨터 판독가능 저장 매체. - 제 10 항에 있어서,
상기 비트-할당 메타데이터는, 상기 음장을 나타내는 복수의 오디오 오브젝트들 중의 임의의 단일 오디오 오브젝트에 할당될 수 있는 비트들의 수에 대한 상한을 더 포함하는, 명령들로 인코딩된 비일시적 컴퓨터 판독가능 저장 매체. - 제 10 항에 있어서,
실행될 때, 상기 프로세서로 하여금, 상기 음장의 오디오 오브젝트에는 비트들의 최대 수를 초과하는 비트들의 개개의 수가 할당되지 않도록 상기 비트들을 할당하게 하는 명령들로 또한 인코딩되는, 명령들로 인코딩된 비일시적 컴퓨터 판독가능 저장 매체. - 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201461994800P | 2014-05-16 | 2014-05-16 | |
US61/994,800 | 2014-05-16 | ||
US201462004145P | 2014-05-28 | 2014-05-28 | |
US62/004,145 | 2014-05-28 | ||
US14/712,661 US9847087B2 (en) | 2014-05-16 | 2015-05-14 | Higher order ambisonics signal compression |
US14/712,661 | 2015-05-14 | ||
PCT/US2015/031072 WO2015175933A1 (en) | 2014-05-16 | 2015-05-15 | Higher order ambisonics signal compression |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20170007749A KR20170007749A (ko) | 2017-01-20 |
KR101921403B1 true KR101921403B1 (ko) | 2018-11-22 |
Family
ID=53274836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167032090A KR101921403B1 (ko) | 2014-05-16 | 2015-05-15 | 고차 앰비소닉 신호 압축 |
Country Status (6)
Country | Link |
---|---|
US (2) | US9847087B2 (ko) |
EP (1) | EP3143613B1 (ko) |
JP (1) | JP6356832B2 (ko) |
KR (1) | KR101921403B1 (ko) |
CN (1) | CN106463121B (ko) |
WO (1) | WO2015175933A1 (ko) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2922057A1 (en) | 2014-03-21 | 2015-09-23 | Thomson Licensing | Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal |
US9847087B2 (en) | 2014-05-16 | 2017-12-19 | Qualcomm Incorporated | Higher order ambisonics signal compression |
US12087311B2 (en) | 2015-07-30 | 2024-09-10 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding an HOA representation |
EP3329486B1 (en) * | 2015-07-30 | 2020-07-29 | Dolby International AB | Method and apparatus for generating from an hoa signal representation a mezzanine hoa signal representation |
CN108496221B (zh) * | 2016-01-26 | 2020-01-21 | 杜比实验室特许公司 | 自适应量化 |
US9913061B1 (en) | 2016-08-29 | 2018-03-06 | The Directv Group, Inc. | Methods and systems for rendering binaural audio content |
EP3324406A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
US10332530B2 (en) * | 2017-01-27 | 2019-06-25 | Google Llc | Coding of a soundfield representation |
CN110800048B (zh) | 2017-05-09 | 2023-07-28 | 杜比实验室特许公司 | 多通道空间音频格式输入信号的处理 |
US10885921B2 (en) * | 2017-07-07 | 2021-01-05 | Qualcomm Incorporated | Multi-stream audio coding |
US10075802B1 (en) * | 2017-08-08 | 2018-09-11 | Qualcomm Incorporated | Bitrate allocation for higher order ambisonic audio data |
US11270711B2 (en) * | 2017-12-21 | 2022-03-08 | Qualcomm Incorproated | Higher order ambisonic audio data |
US10264386B1 (en) * | 2018-02-09 | 2019-04-16 | Google Llc | Directional emphasis in ambisonics |
US11432071B2 (en) | 2018-08-08 | 2022-08-30 | Qualcomm Incorporated | User interface for controlling audio zones |
US11240623B2 (en) * | 2018-08-08 | 2022-02-01 | Qualcomm Incorporated | Rendering audio data from independently controlled audio zones |
KR102599744B1 (ko) | 2018-12-07 | 2023-11-08 | 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 | 방향 컴포넌트 보상을 사용하는 DirAC 기반 공간 오디오 코딩과 관련된 인코딩, 디코딩, 장면 처리 및 기타 절차를 위한 장치, 방법 및 컴퓨터 프로그램 |
EP3751567B1 (en) * | 2019-06-10 | 2022-01-26 | Axis AB | A method, a computer program, an encoder and a monitoring device |
US11538489B2 (en) * | 2019-06-24 | 2022-12-27 | Qualcomm Incorporated | Correlating scene-based audio data for psychoacoustic audio coding |
US11361776B2 (en) * | 2019-06-24 | 2022-06-14 | Qualcomm Incorporated | Coding scaled spatial components |
CN110544484B (zh) * | 2019-09-23 | 2021-12-21 | 中科超影(北京)传媒科技有限公司 | 高阶Ambisonic音频编解码方法及装置 |
CN116391365A (zh) * | 2020-09-25 | 2023-07-04 | 苹果公司 | 高阶环境立体声编码和解码 |
CN115938388A (zh) * | 2021-05-31 | 2023-04-07 | 华为技术有限公司 | 一种三维音频信号的处理方法和装置 |
CN114171047B (zh) * | 2021-12-23 | 2024-08-23 | 思必驰科技股份有限公司 | 音频信号处理方法、电子设备和存储介质 |
GB2624890A (en) * | 2022-11-29 | 2024-06-05 | Nokia Technologies Oy | Parametric spatial audio encoding |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014046916A1 (en) * | 2012-09-21 | 2014-03-27 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2898725A1 (fr) * | 2006-03-15 | 2007-09-21 | France Telecom | Dispositif et procede de codage gradue d'un signal audio multi-canal selon une analyse en composante principale |
US8817991B2 (en) | 2008-12-15 | 2014-08-26 | Orange | Advanced encoding of multi-channel digital audio signals |
FR2947945A1 (fr) | 2009-07-07 | 2011-01-14 | France Telecom | Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques |
CN102081926B (zh) | 2009-11-27 | 2013-06-05 | 中兴通讯股份有限公司 | 格型矢量量化音频编解码方法和系统 |
WO2011117399A1 (en) * | 2010-03-26 | 2011-09-29 | Thomson Licensing | Method and device for decoding an audio soundfield representation for audio playback |
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
EP2637427A1 (en) * | 2012-03-06 | 2013-09-11 | Thomson Licensing | Method and apparatus for playback of a higher-order ambisonics audio signal |
EP2875511B1 (en) * | 2012-07-19 | 2018-02-21 | Dolby International AB | Audio coding for improving the rendering of multi-channel audio signals |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
US20140355769A1 (en) | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Energy preservation for decomposed representations of a sound field |
WO2014210284A1 (en) | 2013-06-27 | 2014-12-31 | Dolby Laboratories Licensing Corporation | Bitstream syntax for spatial voice coding |
CN104282309A (zh) | 2013-07-05 | 2015-01-14 | 杜比实验室特许公司 | 丢包掩蔽装置和方法以及音频处理系统 |
WO2015056383A1 (ja) * | 2013-10-17 | 2015-04-23 | パナソニック株式会社 | オーディオエンコード装置及びオーディオデコード装置 |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US9847087B2 (en) | 2014-05-16 | 2017-12-19 | Qualcomm Incorporated | Higher order ambisonics signal compression |
-
2015
- 2015-05-14 US US14/712,661 patent/US9847087B2/en active Active
- 2015-05-15 JP JP2016567649A patent/JP6356832B2/ja active Active
- 2015-05-15 KR KR1020167032090A patent/KR101921403B1/ko active IP Right Grant
- 2015-05-15 EP EP15725953.2A patent/EP3143613B1/en active Active
- 2015-05-15 WO PCT/US2015/031072 patent/WO2015175933A1/en active Application Filing
- 2015-05-15 CN CN201580025867.5A patent/CN106463121B/zh active Active
-
2017
- 2017-11-27 US US15/823,284 patent/US10176814B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014046916A1 (en) * | 2012-09-21 | 2014-03-27 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
Non-Patent Citations (1)
Title |
---|
WD1-HOA Text of MPEG-H 3D Audio. ISO/IEC JTC1/SC29/WG11 N14264. 2014.02.21.* |
Also Published As
Publication number | Publication date |
---|---|
US10176814B2 (en) | 2019-01-08 |
US20180082694A1 (en) | 2018-03-22 |
US20150340044A1 (en) | 2015-11-26 |
JP6356832B2 (ja) | 2018-07-11 |
EP3143613B1 (en) | 2019-08-07 |
KR20170007749A (ko) | 2017-01-20 |
EP3143613A1 (en) | 2017-03-22 |
CN106463121A (zh) | 2017-02-22 |
CN106463121B (zh) | 2019-07-05 |
US9847087B2 (en) | 2017-12-19 |
JP2017519239A (ja) | 2017-07-13 |
WO2015175933A1 (en) | 2015-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101921403B1 (ko) | 고차 앰비소닉 신호 압축 | |
US11962990B2 (en) | Reordering of foreground audio objects in the ambisonics domain | |
KR102032021B1 (ko) | 고차 앰비소닉스 오디오 신호들로부터 분해된 벡터들의 코딩 | |
KR101723332B1 (ko) | 회전된 고차 앰비소닉스의 바이노럴화 | |
KR101756612B1 (ko) | 벡터들을 코딩하기 위한 프레임 파라미터 재사용성의 표시 | |
US9847088B2 (en) | Intermediate compression for higher order ambisonic audio data | |
US9875745B2 (en) | Normalization of ambient higher order ambisonic audio data | |
JP6728065B2 (ja) | 音場のベクトル量子化された空間成分を含むオーディオデータを復号する方法 | |
EP3143615B1 (en) | Determining between scalar and vector quantization in higher order ambisonic coefficients | |
EP3143618B1 (en) | Closed loop quantization of higher order ambisonic coefficients | |
KR20170010367A (ko) | 고차 앰비소닉 신호들간의 크로스페이딩 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |