TW201509200A - 用於音場之分解表示之能量保留 - Google Patents
用於音場之分解表示之能量保留 Download PDFInfo
- Publication number
- TW201509200A TW201509200A TW103118931A TW103118931A TW201509200A TW 201509200 A TW201509200 A TW 201509200A TW 103118931 A TW103118931 A TW 103118931A TW 103118931 A TW103118931 A TW 103118931A TW 201509200 A TW201509200 A TW 201509200A
- Authority
- TW
- Taiwan
- Prior art keywords
- matrix
- vector
- spherical harmonic
- audio
- background
- Prior art date
Links
- 238000004321 preservation Methods 0.000 title 1
- 239000013598 vector Substances 0.000 claims abstract description 2338
- 238000000034 method Methods 0.000 claims abstract description 440
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 97
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 97
- 239000011159 matrix material Substances 0.000 claims description 1248
- 238000000354 decomposition reaction Methods 0.000 claims description 363
- 230000002829 reductive effect Effects 0.000 claims description 258
- 238000003860 storage Methods 0.000 claims description 59
- 230000003321 amplification Effects 0.000 claims description 16
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 description 357
- 238000013139 quantization Methods 0.000 description 176
- 238000007906 compression Methods 0.000 description 156
- 230000006835 compression Effects 0.000 description 155
- 230000006870 function Effects 0.000 description 153
- 238000010586 diagram Methods 0.000 description 152
- 230000009467 reduction Effects 0.000 description 132
- 238000000605 extraction Methods 0.000 description 104
- 239000000463 material Substances 0.000 description 91
- 230000005540 biological transmission Effects 0.000 description 55
- 238000009792 diffusion process Methods 0.000 description 46
- 230000008569 process Effects 0.000 description 37
- 230000006837 decompression Effects 0.000 description 33
- 230000009466 transformation Effects 0.000 description 32
- 239000000203 mixture Substances 0.000 description 28
- 230000001427 coherent effect Effects 0.000 description 27
- 238000012732 spatial analysis Methods 0.000 description 27
- 230000003287 optical effect Effects 0.000 description 26
- 238000004422 calculation algorithm Methods 0.000 description 25
- 238000004364 calculation method Methods 0.000 description 25
- 238000013519 translation Methods 0.000 description 24
- 230000007613 environmental effect Effects 0.000 description 23
- 238000000513 principal component analysis Methods 0.000 description 22
- 239000000284 extract Substances 0.000 description 21
- 238000009472 formulation Methods 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 16
- 230000014759 maintenance of location Effects 0.000 description 16
- 230000002441 reversible effect Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 230000017105 transposition Effects 0.000 description 12
- 230000003595 spectral effect Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 230000007704 transition Effects 0.000 description 10
- 238000001308 synthesis method Methods 0.000 description 9
- 230000002123 temporal effect Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 238000009499 grossing Methods 0.000 description 8
- 238000000926 separation method Methods 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 239000002131 composite material Substances 0.000 description 7
- 238000013461 design Methods 0.000 description 7
- 238000007667 floating Methods 0.000 description 7
- 230000033001 locomotion Effects 0.000 description 7
- 238000011002 quantification Methods 0.000 description 7
- 238000011946 reduction process Methods 0.000 description 7
- 230000011664 signaling Effects 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 7
- 230000001131 transforming effect Effects 0.000 description 7
- 230000001413 cellular effect Effects 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000000873 masking effect Effects 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 230000006798 recombination Effects 0.000 description 4
- 238000005215 recombination Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000000844 transformation Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000010076 replication Effects 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000010977 unit operation Methods 0.000 description 3
- ZAKOWWREFLAJOT-CEFNRUSXSA-N D-alpha-tocopherylacetate Chemical compound CC(=O)OC1=C(C)C(C)=C2O[C@@](CCC[C@H](C)CCC[C@H](C)CCCC(C)C)(C)CCC2=C1C ZAKOWWREFLAJOT-CEFNRUSXSA-N 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 108010074864 Factor XI Proteins 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000001747 exhibiting effect Effects 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000003334 potential effect Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241000257303 Hymenoptera Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000010454 slate Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
- H04S5/005—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation of the pseudo five- or more-channel type, e.g. virtual surround
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/40—Visual indication of stereophonic sound image
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
- G10L2019/0005—Multi-stage vector quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2205/00—Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
- H04R2205/021—Aspects relating to docking-station type assemblies to obtain an acoustical effect, e.g. the type of connection to external loudspeakers or housings, frequency improvement
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Complex Calculations (AREA)
Abstract
大體而言,本發明描述用於對於高階立體混響係數(或換言之,球諧係數)執行一基於向量之合成的技術。包含一處理器之一器件可經組態以執行該等技術。該處理器可對於球諧係數執行該基於向量之合成以產生該複數個球諧係數之分解表示,且自該方向資訊判定獨特方向資訊及背景方向資訊。該處理器可接著縮減與該等背景音訊物件相關聯之該方向資訊之一階數以產生經變換背景方向資訊,且應用補償以增加該經變換方向資訊之值以保留音場之一總體能量。
Description
本申請案主張以下美國臨時申請案之權利:2013年5月29日申請之美國臨時申請案第61/828,445號、2013年5月31日申請之美國臨時申請案第61/829,791號、2013年11月1日申請之美國臨時申請案第61/899,034號、2013年11月1日申請之美國臨時申請案第61/899,041號、2013年5月30日申請之美國臨時申請案第61/829,182號、2013年5月30日申請之美國臨時申請案第61/829,174號、2013年5月30日申請之美國臨時申請案第61/829,155號、2014年1月30日申請之美國臨時申請案第61/933,706號、2013年5月31日申請之美國臨時申請案第61/829,846號、2013年10月3日申請之美國臨時申請案第61/886,605號、2013年10月3日申請之美國臨時申請案第61/886,617號、2014年1月8日申請之美國臨時申請案第61/925,158號、2014年1月30日申請之美國臨時申請案第61/933,721號、2014年1月8日申請之美國臨時申請案第61/925,074號、2014年1月8日申請之美國臨時申請案第61/925,112號、2014年1月8日申請之美國臨時申請案第61/925,126號、2014年5月27日申請之美國臨時申請案第62/003,515號,及2013年5月29日申請之美國臨時申請案第61/828,615號,該等美國臨時申請案中的每一者的全部內容以引用之方式併入本文中。
本發明係關於音訊資料,且更特定言之,係關於音訊資料之壓
縮。
高階立體混響(HOA)信號(常由複數個球諧係數(SHC)或其他階層元素表示)為音場之三維表示。此HOA或SHC表示可以獨立於用以播放自此SHC信號轉譯之多通道音訊信號的局部揚聲器幾何佈置之方式來表示此音場。此SHC信號亦可促進回溯相容性,此係因為可將此SHC信號轉譯為熟知且被廣泛採用之多通道格式(諸如,5.1音訊通道格式或7.1音訊通道格式)。因此,SHC表示可允許實現音場之更好表示,其亦提供回溯相容性。
大體而言,描述了用於高階立體混響音訊資料之壓縮及解壓縮的技術。
在一態樣中,一種方法包含獲得描述音場之獨特分量的一或多個第一向量及描述該音場之背景分量的一或多個第二向量,該一或多個第一向量及該一或多個第二向量皆係至少藉由相對於複數個球諧係數執行變換而產生。
在另一態樣中,一種器件包含一或多個處理器,該一或多個處理器經組態以判定描述音場之獨特分量的一或多個第一向量及描述該音場之背景分量的一或多個第二向量,該一或多個第一向量及該一或多個第二向量皆係至少藉由相對於複數個球諧係數執行變換而產生。
在另一態樣中,一種器件包含:用於獲得描述音場之獨特分量的一或多個第一向量及描述該音場之背景分量的一或多個第二向量之構件,該一或多個第一向量及該一或多個第二向量皆係至少藉由相對於複數個球諧係數執行變換而產生;及用於儲存該一或多個第一向量之構件。
在另一態樣中,一種非暫時性電腦可讀儲存媒體上儲存有指
令,該等指令在執行時使得一或多個處理器獲得描述音場之獨特分量的一或多個第一向量及描述該音場之背景分量的一或多個第二向量,該一或多個第一向量及該一或多個第二向量皆係至少藉由相對於複數個球諧係數執行變換而產生。
在另一態樣中,一種方法包含:基於表示音場之球諧係數的經壓縮版本是否係自合成音訊物件產生之指示而選擇複數個解壓縮方案中之一者;及使用該複數個解壓縮方案中之該選定者解壓縮該等球諧係數之該經壓縮版本。
在另一態樣中,一種器件包含一或多個處理器,該一或多個處理器經組態以基於表示音場之球諧係數的經壓縮版本是否係自合成音訊物件產生之指示而選擇複數個解壓縮方案中之一者,及使用該複數個解壓縮方案中之該選定者解壓縮該等球諧係數之該經壓縮版本。
在另一態樣中,一種器件包含:用於基於表示音場之球諧係數的經壓縮版本是否係自合成音訊物件產生之指示而選擇複數個解壓縮方案中之一者之構件;及用於使用該複數個解壓縮方案中之該選定者解壓縮該等球諧係數之該經壓縮版本之構件。
在另一態樣中,一種非暫時性電腦可讀儲存媒體上儲存有指令,該等指令在執行時使得一整合式解碼器件之一或多個處理器基於表示音場之球諧係數的經壓縮版本是否係自合成音訊物件產生之指示而選擇複數個解壓縮方案中之一者,且使用該複數個解壓縮方案中之該選定者解壓縮該等球諧係數之該經壓縮版本。
在另一態樣中,一種方法包含獲得表示音場之球諧係數是否係自合成音訊物件產生之指示。
在另一態樣中,一種器件包含經組態以獲得表示音場之球諧係數是否係自合成音訊物件產生之指示的一或多個處理器。
在另一態樣中,一種器件包含:用於儲存表示音場之球諧係數
之構件;及用於獲得該等球諧係數是否係自合成音訊物件產生的指示之構件。
在另一態樣中,一種非暫時性電腦可讀儲存媒體上儲存有指令,該等指令在執行時使得一或多個處理器獲得表示音場之球諧係數是否係自合成音訊物件產生之指示。
在另一態樣中,一種方法包含:量化表示音場之一或多個分量的一或多個第一向量;及補償歸因於該一或多個第一向量之該量化而在亦表示該音場之相同的一或多個分量之一或多個第二向量中引入的錯誤。
在另一態樣中,一種器件包含一或多個處理器,該一或多個處理器經組態以量化表示音場之一或多個分量的一或多個第一向量,且補償歸因於該一或多個第一向量之該量化而在亦表示該音場之相同的一或多個分量之一或多個第二向量中引入的錯誤。
在另一態樣中,一種器件包含:用於量化表示音場之一或多個分量的一或多個第一向量之構件;及用於補償歸因於該一或多個第一向量之該量化而在亦表示該音場之相同的一或多個分量之一或多個第二向量中引入的錯誤之構件。
在另一態樣中,一種非暫時性電腦可讀儲存媒體上儲存有指令,該等指令在執行時使得一或多個處理器量化表示音場之一或多個分量的一或多個第一向量,且補償歸因於該一或多個第一向量之該量化而在亦表示該音場之相同的一或多個分量之一或多個第二向量中引入的錯誤。
在另一態樣中,一種方法包含基於目標位元率對於複數個球諧係數或其分解執行階數縮減以產生經縮減球諧係數或其經縮減分解,其中該複數個球諧係數表示一音場。
在另一態樣中,一種器件包含一或多個處理器,該一或多個處
理器經組態以基於目標位元率對於複數個球諧係數或其分解執行階數縮減以產生經縮減球諧係數或其經縮減分解,其中該複數個球諧係數表示一音場。
在另一態樣中,一種器件包含:用於儲存複數個球諧係數或其分解之構件;及用於基於目標位元率對於該複數個球諧係數或其分解執行階數縮減以產生經縮減球諧係數或其經縮減分解之構件,其中該複數個球諧係數表示一音場。
在另一態樣中,一種非暫時性電腦可讀儲存媒體上儲存有指令,該等指令在執行時使得一或多個處理器基於目標位元率對於複數個球諧係數或其分解執行階數縮減以產生經縮減球諧係數或其經縮減分解,其中該複數個球諧係數表示一音場。
在另一態樣中,一種方法包含獲得表示音場之一獨特分量的一向量之係數之一第一非零集合,該向量已自描述一音場之複數個球諧係數分解。
在另一態樣中,一種器件包含一或多個處理器,該一或多個處理器經組態以獲得表示一音場之一獨特分量的一向量之係數的一第一非零集合,該向量已自描述該音場之複數個球諧係數分解。
在另一態樣中,一種器件包含:用於獲得表示一音場之一獨特分量的一向量之係數的一第一非零集合之構件,該向量已自描述該音場之複數個球諧係數分解;及用於儲存係數之該第一非零集合之構件。
在另一態樣中,一種非暫時性電腦可讀儲存媒體上儲存有指令,該等指令在執行時使得一或多個處理器判定表示一音場之一獨特分量的一向量之係數的一第一非零集合,該向量已自描述該音場之複數個球諧係數分解。
在另一態樣中,一種方法包含自一位元串流獲得自與背景球諧
係數重組之球諧係數分解的一或多個向量中之至少一者,其中該等球諧係數描述一音場,且其中該等背景球諧係數描述相同音場之一或多個背景分量。
在另一態樣中,一種器件包含一或多個處理器,該一或多個處理器經組態以自一位元串流判定自與背景球諧係數重組之球諧係數分解的一或多個向量中之至少一者,其中該等球諧係數描述一音場,且其中該等背景球諧係數描述相同音場之一或多個背景分量。
在另一態樣中,一種器件包含用於自一位元串流獲得自與背景球諧係數重組之球諧係數分解的一或多個向量中之至少一者之構件,其中該等球諧係數描述一音場,且其中該等背景球諧係數描述相同音場之一或多個背景分量。
在另一態樣中,一種非暫時性電腦可讀儲存媒體上儲存有指令,該等指令在執行時使得一或多個處理器自一位元串流獲得自與背景球諧係數重組之球諧係數分解的一或多個向量中之至少一者,其中該等球諧係數描述一音場,且其中該等背景球諧係數描述相同音場之一或多個背景分量。
在另一態樣中,一種方法包含基於針對音訊物件中之一或多者判定之一方向性自與該等音訊物件相關聯之一或多個球諧係數(SHC)識別一或多個獨特音訊物件。
在另一態樣中,一種器件包含一或多個處理器,該一或多個處理器經組態以基於針對音訊物件中之一或多者判定之一方向性自與該等音訊物件相關聯之一或多個球諧係數(SHC)識別一或多個獨特音訊物件。
在另一態樣中,一種器件包含:用於儲存一或多個球諧係數(SHC)之構件;及用於基於針對音訊物件中之一或多者判定之一方向性自與該等音訊物件相關聯之該一或多個球諧係數(SHC)識別一或多
個獨特音訊物件之構件。
在另一態樣中,一種非暫時性電腦可讀儲存媒體上儲存有指令,該等指令在執行時使得一或多個處理器基於針對音訊物件中之一或多者判定之一方向性自與該等音訊物件相關聯之該一或多個球諧係數(SHC)識別一或多個獨特音訊物件。
在另一態樣中,一種方法包含:對於複數個球諧係數執行一基於向量之合成以產生表示一或多個音訊物件及對應方向資訊之該複數個球諧係數的分解表示,其中該等球諧係數與一階數相關聯且描述一音場;自該方向資訊判定獨特方向資訊及背景方向資訊;縮減與該等背景音訊物件相關聯之該方向資訊之一階數以產生經變換背景方向資訊;應用補償以增加該經變換方向資訊之值以保留該音場之一總體能量。
在另一態樣中,一種器件包含一或多個處理器,該一或多個處理器經組態以進行以下操作:對於複數個球諧係數執行一基於向量之合成以產生表示一或多個音訊物件及對應方向資訊之該複數個球諧係數的分解表示,其中該等球諧係數與一階數相關聯且描述一音場;自該方向資訊判定獨特方向資訊及背景方向資訊;縮減與該等背景音訊物件相關聯之該方向資訊之一階數以產生經變換背景方向資訊;應用補償以增加該經變換方向資訊之值以保留該音場之一總體能量。
在另一態樣中,一種器件包含:用於對於複數個球諧係數執行一基於向量之合成以產生表示一或多個音訊物件及對應方向資訊之該複數個球諧係數的分解表示之構件,其中該等球諧係數與一階數相關聯且描述一音場;用於自該方向資訊判定獨特方向資訊及背景方向資訊之構件;用於縮減與該等背景音訊物件相關聯之該方向資訊之一階數以產生經變換背景方向資訊之構件;及用於應用補償以增加該經變換方向資訊之值以保留該音場之一總體能量之構件。
在另一態樣中,一種非暫時性電腦可讀儲存媒體上儲存有指令,該等指令在執行時使得一或多個處理器進行以下操作:對於複數個球諧係數執行一基於向量之合成以產生表示一或多個音訊物件及對應方向資訊之該複數個球諧係數的分解表示,其中該等球諧係數與一階數相關聯且描述一音場;自該方向資訊判定獨特方向資訊及背景方向資訊;縮減與該等背景音訊物件相關聯之該方向資訊之一階數以產生經變換背景方向資訊;應用補償以增加該經變換方向資訊之值以保留該音場之一總體能量。
在另一態樣中,一種方法包含至少部分地藉由對於第一複數個球諧係數之一第一分解及第二複數個球諧係數之一第二分解執行一內插而獲得用於一時間區段之分解式經內插球諧係數。
在另一態樣中,一種器件包含一或多個處理器,該一或多個處理器經組態以至少部分地藉由對於第一複數個球諧係數之一第一分解及第二複數個球諧係數之一第二分解執行一內插而獲得用於一時間區段之分解式經內插球諧係數。
在另一態樣中,一種器件包含:用於儲存第一複數個球諧係數及第二複數個球諧係數之構件;及用於至少部分地藉由對於該第一複數個球諧係數之一第一分解及第二複數個球諧係數之第二分解執行一內插而獲得用於一時間區段之分解式經內插球諧係數之構件。
在另一態樣中,一種非暫時性電腦可讀儲存媒體上儲存有指令,該等指令在執行時使得一或多個處理器至少部分地藉由對於第一複數個球諧係數之一第一分解及第二複數個球諧係數之一第二分解執行一內插而獲得用於一時間區段之分解式經內插球諧係數。
在另一態樣中,一種方法包含獲得包含一音場之一空間分量之一經壓縮版本的一位元串流,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生。
在另一態樣中,一種器件包含一或多個處理器,該一或多個處理器經組態以獲得包含一音場之一空間分量之一經壓縮版本的一位元串流,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生。
在另一態樣中,一種器件包含:用於獲得包含一音場之一空間分量之一經壓縮版本的一位元串流之構件,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生;及用於儲存該位元串流之構件。
在另一態樣中,一種非暫時性電腦可讀儲存媒體上儲存有指令,該等指令在執行時使得一或多個處理器獲得包含一音場之一空間分量之一經壓縮版本的一位元串流,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生。
在另一態樣中,一種方法包含產生包含一音場之一空間分量之一經壓縮版本的一位元串流,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生。
在另一態樣中,一種器件包含一或多個處理器,該一或多個處理器經組態以產生包含一音場之一空間分量之一經壓縮版本的一位元串流,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生。
在另一態樣中,一種器件包含:用於產生包含一音場之一空間分量之一經壓縮版本的一位元串流之構件,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生;及用於儲存該位元串流之構件。
在另一態樣中,一種非暫時性電腦可讀儲存媒體上儲存有指令,該等指令在執行時使得一或多個處理器產生包含一音場之一空間分量之一經壓縮版本的一位元串流,該空間分量係藉由對於複數個球
諧係數執行一基於向量之合成而產生。
在另一態樣中,一種方法包含基於複數個經壓縮空間分量中之一空間分量的一經壓縮版本相對於該複數個經壓縮空間分量中之剩餘者的一階數識別一霍夫曼(Huffman)碼簿以在對該空間分量之該經壓縮版本進行解壓縮時使用,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生。
在另一態樣中,一種器件包含一或多個處理器,該一或多個處理器經組態以基於複數個經壓縮空間分量中之一空間分量的一經壓縮版本相對於該複數個經壓縮空間分量中之剩餘者的一階數識別一霍夫曼碼簿以在對該空間分量之該經壓縮版本進行解壓縮時使用,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生。
在另一態樣中,一種器件包含:用於基於複數個經壓縮空間分量中之一空間分量的一經壓縮版本相對於該複數個經壓縮空間分量中之剩餘者的一階數識別一霍夫曼碼簿以在對該空間分量之該經壓縮版本進行解壓縮時使用之構件,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生;及用於儲存該複數個經壓縮空間分量之構件。
在另一態樣中,一種非暫時性電腦可讀儲存媒體上儲存有指令,該等指令在執行時使得一或多個處理器基於複數個經壓縮空間分量中之一空間分量的一經壓縮版本相對於該複數個經壓縮空間分量中之剩餘者的一階數識別一霍夫曼碼簿以在對該空間分量之該經壓縮版本進行解壓縮時使用,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生。
在另一態樣中,一種方法包含基於複數個空間分量中之一空間分量相對於該複數個空間分量中之剩餘者的一階數識別一霍夫曼碼簿以在對該空間分量進行壓縮時使用,該空間分量係藉由對於複數個球
諧係數執行一基於向量之合成而產生。
在另一態樣中,一種器件包含一或多個處理器,該一或多個處理器經組態以基於複數個空間分量中之一空間分量相對於該複數個空間分量中之剩餘者的一階數識別一霍夫曼碼簿以在對該空間分量進行壓縮時使用,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生。
在另一態樣中,一種器件包含:用於儲存一霍夫曼碼簿之構件;及用於基於複數個空間分量中之一空間分量相對於該複數個空間分量中之剩餘者的一階數識別該霍夫曼碼簿以在對該空間分量進行壓縮時使用之構件,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生。
在另一態樣中,一種非暫時性電腦可讀儲存媒體上儲存有指令,該等指令在執行時使得一或多個處理器基於複數個空間分量中之一空間分量相對於該複數個空間分量中之剩餘者的一階數識別一霍夫曼碼簿以在對該空間分量進行壓縮時使用,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生。
在另一態樣中,一種方法包含判定在對一音場之一空間分量進行壓縮時將使用的一量化步長,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生。
在另一態樣中,一種器件包含一或多個處理器,該一或多個處理器經組態以判定在對一音場之一空間分量進行壓縮時將使用的一量化步長,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生。
在另一態樣中,一種器件包含:用於判定在對一音場之一空間分量進行壓縮時將使用的一量化步長之構件,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生;及用於儲存該量化步
長之構件。
在另一態樣中,一種非暫時性電腦可讀儲存媒體上儲存有指令,該等指令在執行時使得一或多個處理器判定在對一音場之一空間分量進行壓縮時將使用的一量化步長,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生。
在隨附圖式及以下描述中闡述技術之一或多個態樣的細節。此等技術之其他特徵、目標及優點將自該描述及該等圖式以及自申請專利範圍而顯而易見。
7‧‧‧實況記錄
9‧‧‧音訊物件
10‧‧‧系統
11‧‧‧HOA係數
11'‧‧‧HOA係數
12‧‧‧內容建立者
13‧‧‧擴音器資訊
14‧‧‧內容消費者
16‧‧‧音訊播放系統
18‧‧‧音訊編輯系統
20‧‧‧音訊編碼器件
21‧‧‧位元串流
21B‧‧‧位元串流
22‧‧‧轉譯器
24‧‧‧音訊解碼器件
25‧‧‧擴音器饋入
26‧‧‧內容分析單元
27‧‧‧基於向量之合成單元
28‧‧‧基於方向之合成單元
30‧‧‧線性可逆變換(LIT)單元
32‧‧‧參數計算單元
33‧‧‧US[k]向量/US[k]矩陣
33'‧‧‧US[k]矩陣/經重排序之US[k]向量
34‧‧‧重排序單元
35‧‧‧V[k]矩陣
35'‧‧‧V[k]矩陣/經重排序之V[k]向量
36‧‧‧前景選擇單元
37‧‧‧當前訊框參數
38‧‧‧能量補償單元
39‧‧‧前一訊框參數
40‧‧‧音質音訊寫碼器單元
40A‧‧‧音質音訊編碼器
40N‧‧‧音質音訊編碼器
41‧‧‧目標位元率
42‧‧‧位元串流產生單元
43‧‧‧背景通道資訊
44‧‧‧音場分析單元
45‧‧‧前景通道之總數/nFG
46‧‧‧係數縮減單元
47‧‧‧背景或環境HOA係數
47'‧‧‧能量經補償之背景HOA係數
48‧‧‧背景(BG)選擇單元
49‧‧‧nFG信號/前景US[k]向量
49'‧‧‧經內插nFG信號
49"‧‧‧經重排序之nFG信號
50‧‧‧空間-時間內插單元
51 k ‧‧‧前景V[k]向量
51 k-1‧‧‧前景V[k-1]向量
52‧‧‧量化單元
53‧‧‧前景V[k]向量
55‧‧‧經縮減前景V[k]向量/經縮減前景V[k-1]向量
55 k ‧‧‧經縮減前景V[k]向量
55 k '‧‧‧經重排序之前景V[k]向量
55 k "‧‧‧經內插前景V[k]向量
55 k-1'‧‧‧經重排序之前景V[k-1]向量
57‧‧‧經寫碼前景V[k]向量/經寫碼前景方向資訊
59‧‧‧經編碼背景HOA係數
61‧‧‧經編碼nFG信號
65‧‧‧前景HOA係數
72‧‧‧提取單元
74‧‧‧量化單元
76‧‧‧空間-時間內插單元
78‧‧‧前景制訂單元
80‧‧‧音質解碼單元
80N‧‧‧音訊解碼器
82‧‧‧HOA係數制訂單元
84‧‧‧重排序單元
90‧‧‧基於方向性之重建構單元
91‧‧‧基於方向之資訊
92‧‧‧基於向量之重建構單元
150‧‧‧MinAmbHoaOrder語法元素
152‧‧‧HoaOrder語法元素
154B‧‧‧CSID欄位
154C‧‧‧CSID欄位
156B‧‧‧VVectorData欄位
156C‧‧‧第三VVectorData欄位
200A‧‧‧奇異值分解(SVD)變換
200B‧‧‧主分量分析(PCA)變換
200C‧‧‧卡忽南-拉維變換
200D‧‧‧快速傅立葉變換(FFT)
200N‧‧‧離散餘弦變換(DCT)
202‧‧‧能量分析單元
204‧‧‧交叉相關單元
205‧‧‧重排序索引
206‧‧‧參數評估單元
208‧‧‧向量重排序單元
210A‧‧‧奇異值分析單元
210B‧‧‧能量分析單元
210C‧‧‧空間分析單元
210D‧‧‧空間掩蔽分析單元
210E‧‧‧擴散分析單元
210F‧‧‧方向分析單元
212‧‧‧背景/前景(BG/FG)識別(ID)單元
214‧‧‧向量剖析單元
218‧‧‧能量判定單元
220‧‧‧能量分析單元
222‧‧‧能量放大單元
224‧‧‧V內插單元
226‧‧‧nFG調適單元
228‧‧‧係數最小化單元
230‧‧‧均勻量化單元
232‧‧‧nbits單元
233‧‧‧nbits值
234‧‧‧預測單元
236‧‧‧預測模式單元
237‧‧‧預測模式
238‧‧‧類別及殘差寫碼單元
240‧‧‧霍夫曼表選擇單元
241‧‧‧霍夫曼表資訊
242‧‧‧主通道資訊產生單元
244‧‧‧旁側通道資訊產生單元
246‧‧‧CodedAmbCoeffIdx欄位
247‧‧‧AmbCoeffIdxTransition欄位
248A‧‧‧部分
248H‧‧‧部分
248I‧‧‧部分
248K‧‧‧部分
248L‧‧‧部分
248O‧‧‧部分
249‧‧‧訊框
249A‧‧‧HOA訊框
249B‧‧‧HOA訊框
249C‧‧‧HOA訊框
249D‧‧‧HOA訊框
249E‧‧‧HOA訊框
249F‧‧‧HOA訊框
249G‧‧‧HOA訊框
249H‧‧‧HOA訊框
249I‧‧‧HOA訊框
249J‧‧‧HOA訊框
249K‧‧‧HOA訊框
249M‧‧‧HOA訊框
249N‧‧‧HOA訊框
249O‧‧‧HOA訊框
249P‧‧‧HOA訊框
250‧‧‧部分
250H‧‧‧HOAconfig部分
250I‧‧‧HOAconfig部分
250L‧‧‧HOAconfig部分
250M‧‧‧HOAconfig部分
250N‧‧‧HOAconfig部分
250O‧‧‧HOAconfig部分
251‧‧‧轉譯器識別符欄位
252‧‧‧HOADecoderConfig欄位
253‧‧‧方向資訊欄位
254‧‧‧CodedSpatialInterpolationTime欄位
255‧‧‧SpatialInterpolationMethod欄位
256‧‧‧CodedVVecLength欄位
257‧‧‧增益資訊欄位
258A‧‧‧部分
258B‧‧‧部分
258B'‧‧‧部分
258C‧‧‧部分
258D‧‧‧部分
258D'‧‧‧部分
259‧‧‧訊框標頭
260‧‧‧位元組數目欄位
261‧‧‧Nbits欄位
262‧‧‧預測模式欄位
263‧‧‧霍夫曼表資訊欄位
264‧‧‧位元組對準欄位
265‧‧‧子欄位A
266‧‧‧子欄位B
267‧‧‧子欄位C
268‧‧‧AddAmbHoaInfoChannel欄位
269‧‧‧ChannelType欄位
270‧‧‧模式剖析單元
272‧‧‧模式組態單元
274‧‧‧可組態提取單元
276‧‧‧類別/殘差解碼單元
278‧‧‧預測單元
280‧‧‧均勻解量化單元
282‧‧‧向量重排序單元
284‧‧‧V內插單元
286‧‧‧乘法單元
288‧‧‧加法單元
300‧‧‧音訊生態系統
300B‧‧‧音訊生態系統
300C‧‧‧音訊生態系統
300D‧‧‧音訊生態系統
300E‧‧‧音訊生態系統
308‧‧‧音訊內容
310‧‧‧電影工作室
311‧‧‧音樂工作室
312‧‧‧遊戲音訊工作室
313‧‧‧基於通道之音訊內容
314‧‧‧寫碼引擎
315‧‧‧遊戲音訊原聲
316‧‧‧遊戲音訊寫碼/轉譯引擎
317‧‧‧遞送系統
319‧‧‧廣播記錄音訊物件
320‧‧‧專業音訊系統
322‧‧‧消費者器件上捕獲器
323‧‧‧HOA音訊格式
324‧‧‧器件上轉譯
325‧‧‧消費者音訊、電視及配件
326‧‧‧汽車音訊系統
331‧‧‧獲取元件
332‧‧‧有線及/或無線獲取器件
333‧‧‧有線及/或無線通信通道
334‧‧‧器件上環繞聲捕獲器
335‧‧‧行動器件
336‧‧‧播放元件
337‧‧‧高階立體混響
338‧‧‧通信通道
339‧‧‧銜接解決方案
340‧‧‧頭戴式耳機轉譯
343‧‧‧音訊內容
344‧‧‧遊戲工作室
345‧‧‧經寫碼音訊內容
346‧‧‧轉譯引擎
347‧‧‧遞送系統
351‧‧‧原始3D音訊內容
352‧‧‧編碼器
353‧‧‧位元串流
354‧‧‧解碼器
355‧‧‧轉譯器
356‧‧‧播放元件
357‧‧‧音場分析及分解
358‧‧‧背景提取
359‧‧‧背景突出性判定
360‧‧‧音訊寫碼
361‧‧‧前景/獨特音訊提取
362‧‧‧音訊寫碼
363‧‧‧音訊解碼器
364‧‧‧音訊解碼器
365‧‧‧前景重建構
366‧‧‧混音
388‧‧‧揚聲器
389‧‧‧頭戴式耳機
390‧‧‧視訊圖框
391A‧‧‧區域
391B‧‧‧區域
391C‧‧‧區域
400A‧‧‧曲線圖
400B‧‧‧曲線圖
400C‧‧‧曲線圖
400D‧‧‧曲線圖
400E‧‧‧曲線圖
400F‧‧‧曲線圖
400G‧‧‧曲線圖
400H‧‧‧曲線圖
400I‧‧‧曲線圖
400J‧‧‧曲線圖
400K‧‧‧曲線圖
400L‧‧‧曲線圖
400M‧‧‧曲線圖
410A‧‧‧曲線圖
410B‧‧‧曲線圖
412‧‧‧球面
414‧‧‧橫桿
510A‧‧‧音訊編碼器件
510B‧‧‧音訊編碼器件
510C‧‧‧音訊編碼器件
510D‧‧‧音訊編碼器件
510E‧‧‧音訊編碼器件
510F‧‧‧音訊編碼器件
510G‧‧‧音訊編碼器件
510H‧‧‧音訊編碼器件
510I‧‧‧音訊編碼器件
510J‧‧‧音訊編碼器件
511‧‧‧球諧係數
511'‧‧‧球諧係數
512‧‧‧音訊壓縮單元
514‧‧‧音訊編碼單元
515A‧‧‧經編碼UDIST*SDIST向量/音訊編碼單元
515B‧‧‧經編碼背景球諧係數
515B'‧‧‧經音訊編碼之經縮減背景球諧係數
516‧‧‧位元串流產生單元
517‧‧‧位元串流
517A‧‧‧位元串流
517B‧‧‧位元串流
517C‧‧‧位元串流
517D‧‧‧位元串流
517E‧‧‧位元串流
518‧‧‧分解單元
519A‧‧‧V矩陣
519B‧‧‧S矩陣
519C‧‧‧U矩陣
520‧‧‧音場分量提取單元
520B‧‧‧音場分量提取單元
520C‧‧‧音場分量提取單元
520D‧‧‧音場分量提取單元
520E‧‧‧音場分量提取單元
520F‧‧‧音場分量提取單元
520G‧‧‧音場分量提取單元
520I‧‧‧音場分量提取單元
520J‧‧‧音場分量提取單元
522‧‧‧轉置單元
523‧‧‧VT矩陣
524‧‧‧突出分量分析單元
524G‧‧‧突出分量分析單元
525A‧‧‧SDIST向量
525B‧‧‧SBG矩陣
525C‧‧‧UDIST向量
525C'‧‧‧經平滑化之UDIST矩陣
525D‧‧‧UBG矩陣
525E‧‧‧VT DIST向量
525F‧‧‧VT BG矩陣
525G‧‧‧VT Q_DIST向量
525H‧‧‧完整VBG矩陣
525I‧‧‧經縮減VBG'矩陣
525J‧‧‧經轉置經縮減VT BG'矩陣
526‧‧‧數學單元
527‧‧‧UDIST*SDIST向量
527'‧‧‧經補償之UDIST*SDIST向量
528‧‧‧階數縮減單元
528A‧‧‧階數縮減單元
528B‧‧‧階數縮減單元
528C‧‧‧階數縮減單元
528F‧‧‧階數縮減單元
529‧‧‧經縮減背景球諧係數
529'‧‧‧經縮減背景球諧係數
531‧‧‧背景球諧係數
531'‧‧‧經補償之經量化背景球諧係數
532‧‧‧向量重排序單元
533‧‧‧UDIST*SDIST向量
533'‧‧‧經重排序之UDIST*SDIST向量
535‧‧‧目標位元率
536‧‧‧僅空間分析單元
536A‧‧‧內容分析單元
536B‧‧‧擴散分析單元
537‧‧‧經修改背景球諧係數
539‧‧‧VT DIST向量
539'‧‧‧經壓縮之VT DIST向量表示
540A‧‧‧音訊解碼器件
540B‧‧‧音訊解碼器件
540C‧‧‧音訊解碼器件
540D‧‧‧音訊解碼器件
542‧‧‧提取單元
542'‧‧‧提取單元
544‧‧‧音訊解碼單元
546‧‧‧數學單元
547‧‧‧恢復之球諧係數
548‧‧‧音訊轉譯單元
549A‧‧‧通道
549N‧‧‧通道
550‧‧‧內插單元
552‧‧‧V壓縮單元
554‧‧‧平滑化單元
555‧‧‧V解壓縮單元
555'‧‧‧V解壓縮單元
560A‧‧‧音訊寫碼系統
560B‧‧‧音訊寫碼系統
560C‧‧‧音訊寫碼系統
562‧‧‧音訊編碼器件
564‧‧‧音訊解碼器件
566‧‧‧音訊編碼器件
567‧‧‧音訊編碼器件
567D‧‧‧音訊寫碼系統
568‧‧‧音訊解碼器件
569‧‧‧音訊解碼器件
569D‧‧‧音訊寫碼系統
570‧‧‧音訊編碼器件
571E‧‧‧音訊寫碼系統
572‧‧‧變換單元
573E‧‧‧音訊寫碼系統
600‧‧‧均勻量化單元
602‧‧‧nbits單元
604‧‧‧預測單元
606‧‧‧預測模式單元
608‧‧‧類別及殘差寫碼單元
610‧‧‧霍夫曼表選擇單元
620‧‧‧多工器
622A‧‧‧提取子單元
622B‧‧‧提取子單元
630‧‧‧HDIST向量
634‧‧‧USERR向量
636‧‧‧HERR向量
650‧‧‧空間分析單元
651A‧‧‧子訊框
651B‧‧‧子訊框
651C‧‧‧子訊框
651D‧‧‧子訊框
652‧‧‧內容特性分析單元
653A‧‧‧子訊框
653B‧‧‧子訊框
653C‧‧‧子訊框
653D‧‧‧子訊框
654‧‧‧旋轉單元
656‧‧‧提取相干分量單元
658‧‧‧提取擴散分量單元
660‧‧‧AAC寫碼引擎
662‧‧‧AAC寫碼引擎
664‧‧‧多工器
670‧‧‧SHC存在欄位
672‧‧‧變換資訊欄位
674‧‧‧階數欄位
676‧‧‧方位角旗標
678‧‧‧仰角旗標
680‧‧‧方位角欄位
682‧‧‧仰角欄位
684‧‧‧旋轉索引欄位
700A‧‧‧音訊編碼器件
701‧‧‧SHC
702‧‧‧分析單元
703‧‧‧獨特分量D
704‧‧‧基於向量之合成單元
705‧‧‧背景分量
706‧‧‧向量縮減單元
707‧‧‧[US]矩陣
708‧‧‧音質編碼單元
709‧‧‧[V]矩陣
710‧‧‧係數縮減單元
711‧‧‧經縮減[US]矩陣
712‧‧‧經縮減[V]矩陣
713‧‧‧經縮減[V]矩陣
715‧‧‧位元串流
715'‧‧‧位元串流
717‧‧‧[V]矩陣
719‧‧‧旁側通道資訊
750A‧‧‧訊解碼器件
752‧‧‧SHCBG
754‧‧‧語法元素
756‧‧‧模式組態單元
758‧‧‧剖析單元
760‧‧‧組態模式
圖1及圖2為說明具有各種階數及子階的球諧基底函數之圖。
圖3為說明可執行本發明中所描述之技術的各種態樣之系統的圖。
圖4為更詳細地說明可執行本發明中所描述之技術的各種態樣之圖3的實例中所展示的音訊編碼器件之一個實例的方塊圖。
圖5為更詳細地說明圖3之音訊解碼器件之方塊圖。
圖6為說明音訊編碼器件之內容分析單元執行本發明中所描述之技術的各種態樣之例示性操作的流程圖。
圖7為說明音訊編碼器件執行本發明中所描述之基於向量之合成技術的各種態樣之例示性操作的流程圖。
圖8為說明音訊解碼器件執行本發明中所描述之技術的各種態樣之例示性操作的流程圖。
圖9A至圖9L為更詳細地說明圖4之實例的音訊編碼器件之各種態樣的方塊圖。
圖10A至圖10O(ii)為更詳細地說明可指定經壓縮空間分量之位元串流或旁側通道資訊之一部分的圖。
圖11A至圖11G為更詳細地說明圖5之實例中所示的音訊解碼器件
之各種單元的方塊圖。
圖12為說明可執行本發明中所描述之技術的各種態樣之實例音訊生態系統的圖。
圖13為更詳細地說明圖12之音訊生態系統之一個實例的圖。
圖14為更詳細地說明圖12之音訊生態系統之一個實例的圖。
圖15A及圖15B為更詳細地說明圖12之音訊生態系統之其他實例的圖。
圖16為說明可執行本發明中所描述之技術的各種態樣之實例音訊編碼器件的圖。
圖17為更詳細地說明圖16之音訊編碼器件之一個實例的圖。
圖18為說明可執行本發明中所描述之技術的各種態樣之實例音訊解碼器件的圖。
圖19為更詳細地說明圖18之音訊解碼器件之一個實例的圖。
圖20A至圖20G為說明可執行本發明中所描述之技術的各種態樣之實例音訊獲取器件的圖。
圖21A至圖21E為說明可執行本發明中所描述之技術的各種態樣之實例音訊器件的圖。
圖22A至圖22H為說明根據本發明中所描述之一或多個技術的實例音訊播放環境的圖。
圖23為說明根據本發明中所描述之一或多個技術的實例使用情況之圖,在該情況中,使用者可在佩戴頭戴式耳機之同時體驗到體育賽事之3D音場。
圖24為說明在其處可根據本發明中所描述之一或多個技術記錄3D音場之體育場的圖。
圖25為說明根據本發明中所描述之一或多個技術的用於基於本端音訊地景(landscape)轉譯3D音場之技術的流程圖。
圖26為說明根據本發明中所描述之一或多個技術的實例賽事演播室之圖。
圖27為說明根據本發明中所描述之一或多個技術的包括轉譯引擎之複數個遊戲系統的圖。
圖28為說明根據本發明中所描述之一或多個技術的可由頭戴式耳機模擬之揚聲器組態的圖。
圖29為說明根據本發明中所描述之一或多個技術的可用以獲取及/或編輯3D音場之複數個行動器件之圖。
圖30為說明與可根據本發明中所描述之一或多個技術加以處理之3D音場相關聯的視訊圖框之圖。
圖31A至圖31M為說明展示根據本發明中所描述之技術的各種態樣之執行音場之合成或記錄分類之各種模擬結果的曲線之圖。
圖32為說明來自根據本發明中所描述之技術自高階立體混響係數分解之S矩陣的奇異值之曲線的圖。
圖33A及圖33B為說明展示在根據本發明中所描述之技術對描述音場之前景分量的向量進行編碼時重排序所具有的潛在影響的各別曲線之圖。
圖34及圖35為說明根據本發明之對獨特音訊物件的單獨基於能量之識別與基於方向性之識別之間的差異之概念圖。
圖36A至圖36G為說明根據本發明中所描述之技術的各種態樣之球諧係數的經分解版本之至少一部分向空間域中投影以便執行內插的圖。
圖37說明用於獲得如本文所描述的空間-時間內插之技術的表示。
圖38為說明根據本文所述的技術的用於多維信號之依序SVD區塊的人工US矩陣(US1及US2)之方塊圖。
圖39為說明根據本發明中所描述之技術使用奇異值分解及空間時間分量之平滑化來分解高階立體混響(HOA)信號之後續訊框的方塊圖。
圖40A至圖40J各自為說明可執行本發明中所描述之技術的各種態樣以壓縮描述二維或三維音場之球諧係數的實例音訊編碼器件之方塊圖。
圖41A至圖41D各自為說明可執行本發明中所描述之技術的各種態樣以對描述二維或三維音場之球諧係數進行解碼的實例音訊解碼器件之方塊圖。
圖42A至圖42C各自為更詳細地說明圖40B至圖40J之實例中所示的階數縮減單元之方塊圖。
圖43為更詳細地說明圖40I中所示的V壓縮單元之圖。
圖44為說明根據本發明中所描述之技術的各種態樣之由音訊編碼器件執行以補償量化錯誤的例示性操作之圖。
圖45A及45B為說明根據本發明中所描述之技術的各種態樣之自兩個訊框之若干部分內插子訊框之圖。
圖46A至圖46E為說明已根據本發明中所描述之技術內插之複數個球諧係數之經分解版本的一或多個向量之投影的橫截面之圖。
圖47為更詳細地說明圖41A至圖41D之實例中所示的音訊解碼器件之提取單元的方塊圖。
圖48為更詳細地說明圖41A至圖41D之實例中所示的音訊解碼器件之音訊轉譯單元的方塊圖。
圖49A至圖49E(ii)為說明可實施本發明中所描述之技術的各種態樣之各別音訊寫碼系統的圖。
圖50A及圖50B各自為說明根據本發明中所描述之技術潛在地縮減背景內容之階數的兩個不同方法中之一者的方塊圖。
圖51為說明可實施本發明中所描述之技術的各種態樣以壓縮球諧係數的音訊編碼器件之獨特分量壓縮路徑之實例的方塊圖。
圖52為說明可實施本發明中所描述之技術的各種態樣以重建構或近似地重建構球諧係數(SHC)之音訊解碼器件之另一實例的方塊圖。
圖53為說明可執行本發明中所描述之技術的各種態樣之音訊編碼器件之另一實例的方塊圖。
圖54為更詳細地說明圖53之實例中所示的音訊編碼器件之實例實施的方塊圖。
圖55A及圖55B為說明執行本發明中所描述之技術的各種態樣以旋轉音場之實例的圖。
圖56為說明根據第一參考座標捕獲之實例音場的圖,該第一參考座標接著根據本發明中所描述之技術旋轉以依據第二參考座標表達音場。
圖57A至圖57E各自為說明根據本發明中所描述之技術形成的位元串流之圖。
圖58為說明圖53之實例中所示的音訊編碼器件實施本發明中所描述之技術的旋轉態樣之實例操作的流程圖。
圖59為說明圖53之實例中所示的音訊編碼器件執行本發明中所描述之技術的變換態樣之實例操作的流程圖。
環繞聲之演化現今已使得許多輸出格式可用於娛樂。此種消費型環繞聲格式之實例大部分為基於「通道」的,此係因為其以某些幾何座標隱含地指定至擴音器之饋入。此等包括風行的5.1格式(其包含以下六個通道:左前(FL)、右前(FR)、中心或前中、左後或環繞左、右後或環繞右,及低頻效果(LFE))、成長中的7.1格式、包括高度揚聲
器之各種格式(7.1.4格式及22.2格式(例如,供配合超高清晰度電視標準使用))。非消費型格式可涵括任何數目的揚聲器(呈對稱及非對稱幾何佈置),其常常稱為「環繞陣列」。此類陣列之一個實例包括定位在截二十面體(truncated icosohedron)之拐角上的座標處之32個擴音器。
至未來MPEG編碼器之輸入視情況為三種可能格式中之一者:(i)傳統的基於通道之音訊(如上文所論述),其意欲由處於預先指定之位置處的擴音器播放;(ii)基於物件之音訊,其涉及用於單個音訊物件之離散脈碼調變(PCM)資料與含有其位置座標(以及其他資訊)之相關聯後設資料;及(iii)基於場景之音訊,其涉及使用球諧基底函數之係數(亦稱為「球諧係數」或SHC、「高階立體混響」或HOA及「HOA係數」)來表示音場。此未來MPEG編碼器更詳細地描述於國際標準化組織/國際電工委員會(ISO)/(IEC)JTC1/SC29/WG11/N13411之標題為「Call for Proposals for 3D Audio」的文件中,該文件於2013年1月在瑞士日內瓦發佈,且可在http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip獲得。
在市場中存在各種「環繞聲」基於通道之格式。舉例而言,其範圍自5.1家庭影院系統(除立體聲系統之外,其就進軍起居室而言已是最成功的)至NHK(日本廣播協會或日本廣播公司)所開發之22.2系統。內容建立者(例如,好萊塢工作室)將願意為一部電影製作原聲帶一次,而不願意花費精力來針對每一揚聲器組態對其重新混音(remix)。近來,標準開發組織(Standards Developing Organizations)一直在考慮如下方式:將編碼提供至標準化位元串流中且提供可適於且不限定(agnostic)於揚聲器幾何佈置(及數目)及播放位置(涉及轉譯器)處的聲學條件之後續解碼。
為向內容建立者提供此種靈活性,可使用階層元素集合表示音
場。該階層元素集合可係指其中元素經排序而使得基本低階元素集合提供模型化音場之完整表示的元素集合。在該集合擴展以包括高階元素時,表示變得更詳細,從而增加解析度。
階層元素集合之一個實例為球諧係數(SHC)之集合。以下表達式示範使用SHC對音場之描述或表示:
此表達式展示可藉由SHC((k))唯一地表示音場在時間t在任何點{r r ,θ r ,φ r }處的壓力p i 。此處,,c為聲速(約343m/s),{r r ,θ r ,φ r }為參考點(或觀測點),j n (.)為具有階數n之球面貝塞耳函數(spherical Bessel function),且(θ r ,φ r )為具有階數n及子階m之球諧基底函數。可認識到,方括弧中之項為信號之頻域表示(亦即,S(ω,r r ,θ r ,φ r )),其可藉由各種時間-頻率變換(諸如,離散傅里葉變換(DFT)、離散餘弦變換(DCT)或小波變換)來近似。階層集合之其他實例包括小波變換係數之集合及多解析度基底函數之係數的其他集合。
圖1為說明自零階(n=0)至四階(n=4)之球諧基底函數的圖。如可見,對於每一階而言,存在子階m之擴展,出於容易說明之目的,在圖1之實例中展示了該等子階但卻未顯式註釋。
圖2為說明自零階(n=0)至四階(n=4)之球諧基底函數的另一圖。在圖2中,在三維座標空間中展示了球諧基底函數,其中展示了階數與子階兩者。
可由各種麥克風陣列組態實體地獲取(例如,記錄)SHC (k),或替代地,SHC (k)可自音場之基於通道或基於物件之描述導出。SHC表示基於場景之音訊,其中SHC可輸入至音訊編碼器以獲得經編碼SHC,該經編碼SHC可促成更有效的傳輸或儲存。舉例而言,可使
用涉及(1+4)2個(25,且因此為四階)係數之四階表示。
如上文所指出,可使用麥克風自麥克風記錄導出SHC。可如何自麥克風陣列導出SHC之各種實例描述於Poletti,M之「Three-Dimensional Surround Sound Systems Based on Spherical Harmonics」(J.Audio Eng.Soc.,第53卷,第11期,2005年11月,第1004-1025頁)中。
為說明可如何自基於物件之描述導出此等SHC,考慮以下方程式。可將對應於個別音訊物件之音場之係數(k)表達為:
其中i為,(.)為具有階數n之球面漢克(Hankel)函數(第二種類),且{r s ,θ s ,φ s }為物件之位置。已知作為頻率之函數(例如,使用時間-頻率分析技術,諸如對PCM串流執行快速傅里葉變換)的物件源能量g(ω)允許吾人將每一PCM物件及其位置轉換成SHC (k)。另外,可展示(由於上式為線性及正交分解):每一物件之(k)係數為相加性的。以此方式,許多PCM物件可由(k)係數(例如,作為個別物件之係數向量的總和)來表示。基本上,此等係數含有關於音場之資訊(作為3D座標之函數的壓力),且上式表示在觀測點{r r ,θ r ,φ r }。附近自個別物件至總音場之表示的變換。下文在基於物件及基於SHC之音訊寫碼的內容脈絡中描述剩餘諸圖。
圖3為說明可執行本發明中所描述之技術的各種態樣之系統10的圖。如圖3之實例中所示,系統10包括內容建立者12及內容消費者14。儘管在內容建立者12及內容消費者14之內容脈絡中描述,但可在其中音場之SHC(其亦可被稱作HOA係數)或任何其他階層表示經編碼以形成表示音訊資料之位元串流的任何內容脈絡中實施該等技術。此外,內容建立者12可表示能夠實施本發明中所描述之技術的任何形式之計算器件,包括手機(或蜂巢式電話)、平板電腦、智慧型手機或桌
上型電腦(提供幾個實例)。同樣,內容消費者14可表示能夠實施本發明中所描述之技術的任何形式之計算器件,包括手機(或蜂巢式電話)、平板電腦、智慧型手機、機上盒,或桌上型電腦(提供幾個實例)。
內容建立者12可表示電影工作室或可產生供內容消費者(諸如,內容消費者14)消費之多通道音訊內容的其他實體。在一些實例中,內容建立者12可表示將願意壓縮HOA係數11之個別使用者。常常,此內容建立者結合視訊內容產生音訊內容。內容消費者14表示擁有或具有對音訊播放系統之存取權的個體,該音訊播放系統可指能夠轉譯SHC以作為多通道音訊內容播放的任何形式之音訊播放系統。在圖3之實例中,內容消費者14包括音訊播放系統16。
內容建立者12包括音訊編輯系統18。內容建立者12獲得呈各種格式(包括直接作為HOA係數)之實況記錄7及音訊物件9,內容建立者12可使用音訊編輯系統18對其進行編輯。內容建立者可在編輯過程期間自音訊物件9轉譯HOA係數11,傾聽所轉譯之揚聲器饋入以嘗試識別音場之需要進一步編輯之各種態樣。內容建立者12可接著編輯HOA係數11(可能經由操縱可供以上文所描述的方式導出源HOA係數的音訊物件9中之不同者而間接地編輯)。內容建立者12可使用音訊編輯系統18以產生HOA係數11。音訊編輯系統18表示能夠編輯音訊資料且輸出此音訊資料作為一或多個源球諧係數之任何系統。
當編輯過程完成時,內容建立者12可基於HOA係數11而產生位元串流21。亦即,內容建立者建立者包括音訊編碼器件20,該音訊編碼器件20表示經組態以根據本發明中所描述之技術的各種態樣編碼或以其他方式壓縮HOA係數11以產生位元串流21的器件。音訊編碼器件20可產生位元串流21以供傳輸,作為一個實例,跨越傳輸頻道(其可為有線或無線頻道、資料儲存器件,等等)。位元串流21可表示HOA
係數11之經編碼版本,且可包括主要位元串流及另一旁側位元串流(其可被稱作旁側通道資訊)。
儘管下文更詳細地描述,但音訊編碼器件20可經組態以基於基於向量之合成或基於方向之合成而對HOA係數11進行編碼。為判定是執行基於向量之合成方法還是基於方向之合成方法,音訊編碼器件20可至少部分基於HOA係數11判定HOA係數11係經由音場之自然記錄(例如,實況記錄7)還是自(作為一個實例)諸如PCM物件之音訊物件9人工地(亦即,合成地)產生。當HOA係數11係自音訊物件9產生時,音訊編碼器件20可使用基於方向之合成方法對HOA係數11進行編碼。當HOA係數11係使用(例如)球面麥克風陣列(eigenmike)實況地捕獲時,音訊編碼器件20可基於基於向量之合成方法對HOA係數11進行編碼。以上區別表示可部署基於向量或基於方向之合成方法的一個實例。可存在任一者或兩者可用於自然記錄、人工產生之內容或該兩者之混合(混合內容)的其他情況。此外,亦有可能同時使用兩種方法用於對HOA係數之單個時間框進行寫碼。
出於說明的目的,假定音訊編碼器件20判定HOA係數11係實況地捕獲或以其他方式表示諸如實況記錄7之實況記錄,則音訊編碼器件20可經組態以使用基於向量之合成方法(涉及應用線性可逆變換(LIT))對HOA係數11進行編碼。線性可逆變換之一個實例被稱作「奇異值分解」(或「SVD」)。在此實例中,音訊編碼器件20可將SVD應用於HOA係數11以判定HOA係數11之經分解版本。音訊編碼器件20可接著分析HOA係數11之經分解版本以識別各種參數,其可促進HOA係數11之經分解版本的重排序。音訊編碼器件20可接著基於所識別參數對HOA係數11之經分解版本重排序,其中如下文進一步詳細描述的此種重排序可改良寫碼效率(假定變換可跨越HOA係數之訊框對HOA係數重排序(其中一訊框通常包括HOA係數11之M個樣本,且在一些
實例中,M設定為1024))。在對HOA係數11之經分解版本重排序之後,音訊編碼器件20可選擇HOA係數11之經分解版本中表示音場之前景(或,換言之,獨特、佔優勢或突出)分量的彼等經分解版本。音訊編碼器件20可將HOA係數11之表示前景分量的經分解版本指定為音訊物件及相關聯方向資訊。
音訊編碼器件20亦可對於HOA係數11執行音場分析以便至少部分地識別HOA係數11中表示音場之一或多個背景(或,換言之,環境)分量之彼等HOA係數。假定在一些實例中,背景分量可僅包括HOA係數11之任何給定樣本之子集(例如,諸如對應於零階級一階球面基底函數之彼等樣本而非對應於二階或更高階球面基底函數之彼等樣本,則音訊編碼器件20可對於背景分量執行能量補償。換言之,當執行階數縮減時,音訊編碼器件20可加強(例如,添加能量/減去能量)HOA係數11中之剩餘背景HOA係數以補償由於執行階數縮減而導致的總體能量之改變。
音訊編碼器件20可接下來對於表示背景分量之HOA係數11中的每一者及前景音訊物件中的每一者執行某形式之音質編碼(諸如MPEG環繞、MPEG-AAC、MPEG-USAC或其他已知形式之音質編碼)。音訊編碼器件20可對於前景方向資訊執行某形式之內插,且接著對於經內插前景方向資訊執行階數縮減以產生階數經縮減之前景方向資訊。在一些實例中,音訊編碼器件20可進一步對於階數經縮減之前景方向資訊執行量化,從而輸出經寫碼前景方向資訊。在一些情況下,此量化可包含純量/熵量化。音訊編碼器件20可接著形成位元串流21以包括經編碼背景分量、經編碼前景音訊物件及經量化方向資訊。音訊編碼器件20可接著將位元串流21傳輸或以其他方式輸出至內容消費者14。
儘管在圖3中展示為直接傳輸至內容消費者14,但內容建立者12可將位元串流21輸出至定位於內容建立者12與內容消費者14之間的中
間器件。此中間器件可儲存位元串流21以供稍後遞送至可請求此位元串流之內容消費者14。該中間器件可包含檔案伺服器、網頁伺服器、桌上型電腦、膝上型電腦、平板電腦、行動電話、智慧型手機,或能夠儲存位元串流21以供音訊解碼器稍後擷取之任何其他器件。此中間器件可駐留在能夠將位元串流21(且可能與對應位元串流相結合)串流傳輸至請求位元串流21之訂戶(諸如內容消費者14)的內容傳送網路。
或者,內容建立者12可將位元串流21儲存至儲存媒體,諸如緊密光碟、數位視訊光碟、高清晰度視訊光碟或其他儲存媒體,其中之大多數能夠由電腦讀取且因此可被稱作電腦可讀儲存媒體或非暫時性電腦可讀儲存媒體。在此內容脈絡中,傳輸通道可涉及藉以傳輸儲存至此等媒體之內容的彼等通道(且可包括零售商店及其他基於商店之遞送機構)。在任何情況下,本發明之技術因此就此而言不應限於圖3之實例。
如圖3之實例中進一步所示,內容消費者14包括音訊播放系統16。音訊播放系統16可表示能夠播放多通道音訊資料之任何音訊播放系統。音訊播放系統16可包括數個不同轉譯器22。轉譯器22可各自提供不同形式之轉譯,其中不同形式之轉譯可包括執行向量基振幅移動(VBAP)之各種方式中的一或多者及/或執行音場合成之各種方式中的一或多者。如本文所使用,「A及/或B」意謂「A或B」,或「A及B」兩者。
音訊播放系統16可進一步包括音訊解碼器件24。音訊解碼器件24可表示經組態以對來自位元串流21之HOA係數11'進行解碼之器件,其中HOA係數11'可類似於HOA係數11,但歸因於經由傳輸通道之有損操作(例如,量化)及/或傳輸而與之不同。亦即,音訊解碼器件24可對位元串流21中指定之前景方向資訊進行解量化,同時亦對於位元串流21中指定之前景音訊物件及表示背景分量之經編碼HOA係數執
行音質解碼。音訊解碼器件24可進一步對於經解碼前景方向資訊執行內插,且接著基於經解碼前景音訊物件及經內插前景方向資訊判定表示前景分量之HOA係數。音訊解碼器件24可接著基於所判定的表示前景分量之HOA係數及表示背景分量之經解碼HOA係數判定HOA係數11'。
音訊播放系統16可在對位元串流21進行解碼之後獲得HOA係數11'且轉譯HOA係數11'以輸出擴音器饋入25。擴音器饋入25可驅動一或多個擴音器(其出於容易說明之目的而未在圖3之實例中予以展示)。
為選擇適當轉譯器或在一些情況下為產生適當轉譯器,音訊播放系統16可獲得指示擴音器之數目及/或擴音器之空間幾何佈置的擴音器資訊13。在一些情況下,音訊播放系統16可使用參考麥克風且以動態地判定擴音器資訊13之方式驅動擴音器而獲得擴音器資訊13。在其他情況下或擴音器資訊13之動態判定,音訊播放系統16可提示使用者與音訊播放系統16介接且輸入擴音器資訊16。
音訊播放系統16可接著基於擴音器資訊13選擇音訊轉譯器22中之一者。在一些情況下,音訊播放系統16可在音訊轉譯器22中無一者在與擴音器資訊13中所指定者處於某一臨限相似度量測(按照擴音器幾何佈置)內時,音訊播放系統16可基於擴音器資訊13產生音訊轉譯器22中之一者。在一些情況下,音訊播放系統16可基於擴音器資訊13產生音訊轉譯器22中之一者,而不首先試圖選擇音訊轉譯器22中之現有一者。
圖4為更詳細地說明可執行本發明中所描述之技術的各種態樣之圖3的實例中所展示的音訊編碼器件20之一個實例的方塊圖。音訊編碼器件20包括內容分析單元26、基於向量之合成方法單元27及基於方向之合成方法單元28。
內容分析單元26表示經組態以分析HOA係數11之內容以識別HOA係數11係表示自實況記錄還是音訊物件產生之內容的單元。內容分析單元26可判定HOA係數11係自實際音場之記錄還是自人工音訊物件產生。內容分析單元26可以各種方式進行此判定。舉例而言,內容分析單元26可對(N+1)2-1個通道進行寫碼且預測最後的剩餘通道(其可表示為向量)。內容分析單元26可將純量應用至該(N+1)2-1個通道中之至少一些,且對所得值相加以判定最後的剩餘通道。此外,在此實例中,內容分析單元26可判定所預測通道之準確度。在此實例中,若所預測通道之準確度相對較高(例如,準確度超過特定臨限值),則HOA係數11可能係自合成音訊物件產生。相比之下,若所預測通道之準確度相對較低(例如,準確度低於特定臨限值),則HOA係數11更可能表示所記錄之音場。舉例而言,在此實例中,若所預測通道之信雜比(SNR)高於100分貝(db),則HOA係數11更可能表示自合成音訊物件產生之音場。相比之下,使用eigen麥克風記錄之音場的SNR可為5db至20db。因而,在由自實際直接記錄產生與自合成音訊物件產生之HOA係數11表示之音場之間的SNR比率中可存在明顯分界。
更特定言之,在判定表示音場之HOA係數11是否係自合成音訊物件產生時,內容分析單元26可獲得HOA係數之訊框,其對於四階表示(亦即,N=4)可為大小25乘1024。在獲得框式HOA係數(其亦可在本文中表示為框式SHC矩陣11,且後續框式SHC矩陣可表示為框式SHC矩陣27B、27C,等)之後,內容分析單元26可接著排除框式HOA係數11之第一向量以產生縮減之框式HOA係數。在一些實例中,自框式HOA係數11排除之此第一向量可對應於HOA係數11中的與零階、零子階球諧基底函數相關聯之彼等HOA係數。
內容分析單元26可接著自縮減之框式HOA係數之剩餘向量預測縮減之框式HOA係數之第一非零向量。該第一非零向量可係指自一階
(且考慮階數相依性子階中的每一者)達到四階(且考慮階數相依性子階中的每一者)且值不同於零之第一向量。在一些實例中,縮減之框式HOA係數之第一非零向量係指HOA係數11中的與一階、零子階球諧基底函數相關聯之彼等HOA係數。儘管關於第一非零向量進行描述,但該等技術可自縮減之框式HOA係數之剩餘向量預測縮減之框式HOA係數的其他向量。舉例而言,內容分析單元26可預測縮減之框式HOA係數中的與一階、第一子階球諧基底函數或一階、負一階球諧基底函數相關聯之彼等HOA係數。作為其他實例,內容分析單元26可預測縮減之框式HOA係數中的與二階、零階球諧基底函數相關聯之彼等HOA係數。
為預測第一非零向量,內容分析單元26可根據以下方程式而操作:
其中i自1至(N+1)2-2,其對於四階表示為23,α i 表示用於第i向量之某一常數,且v i 係指第i向量。在預測第一非零向量之後,內容分析單元26可基於預測之第一非零向量及實際非零向量而獲得一錯誤。在一些實例中,內容分析單元26自實際第一非零向量減去預測之第一非零向量以導出該錯誤。內容分析單元26可將錯誤計算為所預測之第一非零向量與實際第一非零向量中的每一項之間的差異的絕對值之總和。
一旦獲得該錯誤,內容分析單元26即可基於實際第一非零向量及該錯誤之能量計算一比率。內容分析單元26可藉由對第一非零向量之每一項求平方並將經求平方之項彼此相加來判定此能量。內容分析單元26可接著比較此比率與一臨限值。當該比率不超出臨限值時,內容分析單元26可判定框式HOA係數11係自記錄產生,且在位元串流中指示HOA係數11之對應經寫碼表示係自記錄產生。當該比率超過臨限
值時,內容分析單元26可判定框式HOA係數11係自合成音訊物件產生,且在位元串流中指示框式HOA係數11之對應經寫碼表示係自合成音訊物件產生。
框式HOA係數11係自記錄還是合成音訊物件產生之指示對於每一訊框可包含單一位元。該單一位元可指示不同編碼用於每一訊框,從而有效地在藉以對對應訊框進行編碼之不同方式之間雙態觸發。在一些情況下,當框式HOA係數11係自記錄產生時,內容分析單元26將HOA係數11傳遞至基於向量之合成單元27。在一些情況下,當框式HOA係數11係自合成音訊物件產生時,內容分析單元26將HOA係數11傳遞至基於方向之合成單元28。基於方向之合成單元28可表示經組態以對HOA係數11執行基於方向之合成以產生基於方向之位元串流21的單元。
換言之,該等技術係基於使用前端分類器對HOA係數進行寫碼。分類器可如下工作:以框式SH矩陣(比如四階,訊框大小1024,其亦可被稱作框式HOA係數或HOA係數)開始--其中獲得大小為25×1024之矩陣。
排除第1向量(0階SH)--因此存在大小為24×1024之矩陣。
預測矩陣中的第一非零向量(1×1024大小的向量)--自矩陣中的其餘向量(大小為1×1024的23個向量)。
預測如下:所預測向量=所有i的總和[αi×向量I](其中所有I的總和在23個索引上完成,i=1…23)
接著檢查錯誤:實際向量-所預測向量=錯誤。
若向量/錯誤之能量比率大(亦即,錯誤小),則基礎音場(在彼訊框處)稀疏/為合成的。否則,基礎音場為所記錄(比如,使用麥克風陣列)之音場。
取決於所記錄對合成決策,以不同方式進行編碼/解碼(其可涉及
頻寬壓縮)。決策為針對每一訊框經由位元串流發送之1位元決策。
如圖4之實例中所示,基於向量之合成單元27可包括線性可逆變換(LIT)單元30、參數計算單元32、重排序單元34、前景選擇單元36、能量補償單元38、音質音訊寫碼器單元40、位元串流產生單元42、音場分析單元44、係數縮減單元46、背景(BG)選擇單元48、空間-時間內插單元50,及量化單元52。
線性可逆變換(LIT)單元30以HOA通道之形式接收HOA係數11,每一通道表示與球面基底函數之給定階數、子階(其可表示為HOA[k],其中k可表示樣本之當前訊框或區塊)相關聯的係數之區塊或訊框。HOA係數11之矩陣可具有維度D:M×(N+1)2。
亦即,LIT單元30可表示經組態以執行被稱作奇異值分解之形式的分析之單元。儘管關於SVD進行描述,但可對於提供線性不相關、能量緊密輸出之集合的任何類似變換或分解執行本發明中所描述之技術。又,在本發明中對「集合」之提及通常意欲指代非零集合(除非特定地相反陳述),且並不意欲指代包括所謂的「空集合」之集合之經典數學定義。
替代變換可包含主分量分析,其常常被稱作「PCA」。PCA係指使用正交變換將可能相關變數之觀測結果之集合轉換為被稱作主分量之線性不相關變數之集合的數學程序。線性不相關變數表示彼此不具有線性統計關係(或相依性)的變數。此等主分量可描述為彼此具有小的統計相關程度。在任何情況下,所謂的主分量之數目小於或等於原始變數之數目。在一些實例中,以如下方式定義變換:第一主分量具有最大可能變異數(或,換言之,儘可能多地解釋資料中之變化),且每一隨後分量又具有可能的最高變異數(在以下約束下:此連續分量正交於(可重新表述為不相關於)前述分量)。PCA可執行某形式之階數縮減,其就HOA係數11而言可導致HOA係數11之壓縮。取決於內容脈
絡,PCA可藉由數個不同名稱來提及,諸如離散卡忽南-拉維變換(discrete Karhunen-Loeve transform)、哈特林變換(Hotelling transform)、適當正交分解(POD)及本徵值分解(EVD)(僅舉幾個實例)。有利於壓縮音訊資料之基礎目標的此種操作之特性為多通道音訊資料之「能量壓縮」及「去相關」。
在任何情況下,LIT單元30執行奇異值分解(其再次可被稱作「SVD」)以將HOA係數變換為經變換HOA係數11之兩個或兩個以上集合。經變換HOA係數之此等「集合」可包括經變換HOA係數之向量。在圖4之實例中,LIT單元30可對於HOA係數11執行SVD以產生所謂的V矩陣、S矩陣及U矩陣。在線性代數中,SVD可以如下形式表示y乘z實數或複數矩陣X(其中X可表示多通道音訊資料,諸如HOA係數11)之因子分解:X=USV*
U可表示y乘y實數或複數單位矩陣,其中U之y行通常被稱為多通道音訊資料之左奇異向量。S可表示在對角線上具有非負實數之y乘z矩形對角線矩陣,其中S之對角線值通常被稱為多通道音訊資料之奇異值。V*(其可表示V之共軛轉置)可表示z乘z實數或複數單位矩陣,其中V*之z行通常被稱為多通道音訊資料之右奇異向量。
儘管本發明中描述為應用於包含HOA係數11之多通道音訊資料,但該等技術可應用於任何形式之多通道音訊資料。以此方式,音訊編碼器件20可對於表示音場之至少一部分的多通道音訊資料執行奇異值分解以產生表示多通道音訊資料之左奇異向量的U矩陣、表示多通道音訊資料之奇異值的S矩陣及表示多通道音訊資料之右奇異向量的V矩陣,且將多通道音訊資料表示為U矩陣、S矩陣及V矩陣中之一或多者之至少一部分的函數。
在一些實例中,以上提及之SVD數學表達式中的V*矩陣表示為V
矩陣之共軛轉置以反映SVD可應用於包含複數數字的矩陣。當應用於僅包含實數之矩陣時,V矩陣之複數共軛(或,換言之,V*矩陣)可認為係V矩陣之轉置。下文中為容易說明之目的,假定HOA係數11包含實數,結果經由SVD而非V*矩陣輸出V矩陣。此外,儘管在本發明中表示為V矩陣,但對V矩陣之提及應理解為在適當的情況下涉及V矩陣之轉置。儘管假定為V矩陣,但該等技術可以類似方式應用於具有複數係數之HOA係數11,其中SVD之輸出為V*矩陣。因此,就此而言,該等技術不應限於僅提供應用SVD以產生V矩陣,而可包括將SVD應用於具有複數分量之HOA係數11以產生V*矩陣。
在任何情況下,LIT單元30可對於高階立體混響(HOA)音訊資料(其中此立體混響音訊資料包括HOA係數11或任何其他形式之多通道音訊資料之區塊或樣本)之每一區塊(其可稱作訊框)執行逐區塊形式之SVD。如上文所指出,M可用以表示音訊訊框之長度(以樣本數計)。舉例而言,當音訊訊框包括1024個音訊樣本時,M等於1024。儘管關於M之此典型值進行描述,但本發明之技術不應限於M之此典型值。LIT單元30可因此對於具有M乘(N+1)2個HOA係數之HOA係數11的區塊執行逐區塊SVD,其中N再次表示HOA音訊資料之階數。LIT單元30可經由執行此SVD而產生V矩陣、S矩陣及U矩陣,其中矩陣中的每一者可表示上文所描述的各別V、S及U矩陣。以此方式,線性可逆變換單元30可對於HOA係數11執行SVD以輸出具有維度D(M×(N+1)2)之US[k]向量33(其可表示S向量與U向量之組合版本)及具有維度D((N+1)2×(N+1)2)之V[k]向量35。US[k]矩陣中之個別向量元素亦可稱為X PS (k),而V[k]矩陣之個別向量亦可稱為v(k)。
U、S及V矩陣之分析可顯示,此等矩陣帶有或表示上文由X表示的基礎音場之空間及時間特性。U(長度為M個樣本)中的N個向量中的每一者可表示隨時間(對於由M個樣本表示之時間段)而變的經正規化
之單獨音訊信號,其彼此正交且已與任何空間特性(其亦可被稱作方向資訊)解耦。表示空間形狀及位置(r、θ、φ)寬度之空間特性可改為由V矩陣中的個別第i向量v (i)(k)(每一者具有長度(N+1)2)表示。U矩陣及V矩陣兩者中的向量經正規化而使得其均方根能量等於單位。U中的音訊信號之能量因而由S中的對角線元素表示。將U與S相乘以形成US[k](具有個別向量元素X PS (k)),因而表示具有真正能量之音訊信號。SVD分解使音訊時間信號(U中)、其能量(S中)與其空間特性(V中)解耦之能力可支撐本發明中所描述之技術的各種態樣。另外,藉由US[k]與V[k]之向量乘法合成基礎HOA[k]係數X之此模型給出貫穿此文件使用之術語「基於向量之合成方法」。
儘管描述為直接對於HOA係數11執行,但LIT單元30可將線性可逆變換應用於HOA係數11之導出項(derivative)。舉例而言,LIT單元30可對於自HOA係數11導出之功率譜密度矩陣應用SVD。功率譜密度矩陣可表示為PSD且係經由hoaFrame至hoaFrame之轉置的矩陣乘法而獲得,如下文之偽碼中所概述。hoaFrame記法係指HOA係數11之訊框。
LIT單元30可在將SVD(svd)應用於PSD之後可獲得S[k]2矩陣(S_squared)及V[k]矩陣。S[k]2矩陣可表示求平方之S[k]矩陣,因此LIT單元30可將平方根運算應用於S[k]2矩陣以獲得S[k]矩陣。在一些情況下,LIT單元30可對於V[k]矩陣執行量化以獲得經量化V[k]矩陣(其可表示為V[k]'矩陣)。LIT單元30可藉由首先將S[k]矩陣乘以經量化V[k]'矩陣以獲得SV[k]'矩陣而獲得U[k]矩陣。LIT單元30接下來可獲得SV[k]'矩陣之偽逆(pinv)且接著將HOA係數11乘以SV[k]'矩陣之偽逆以獲得U[k]矩陣。可由以下偽碼表示前述情況:PSD=hpaFrame'*hoaFrame;[V,S_squared]=svd(PSD,'econ');
S=sqrt(S_squared);U=hoaFrame * pinv(S*V');藉由對於HOA係數之功率譜密度(PSD)而非係數自身執行SVD,LIT單元30可在處理器循環及儲存空間中之一或多者的方面潛在地降低執行SVD之計算複雜度,同時達成相同的源音訊編碼效率,如同SVD係直接應用於HOA係數。亦即,上述PSD型SVD可潛在地需求較少計算,此係因為SVD係在F*F矩陣(其中F為HOA係數之數目)上完成。與M*F矩陣相比,其中M為訊框長度,亦即1024或更多個樣本。藉由應用於PSD而非HOA係數11,與應用於HOA係數11時之O(M*L^2)相比,SVD之複雜度現可為約O(L^3)(其中O(*)表示電腦科學技術中常用的計算複雜度之大O記法)。
參數計算單元32表示經組態以計算各種參數之單元,該等參數諸如相關參數(R)、方向特性參數(θ、φ、r),及能量特性(e)。用於當前訊框之此等參數中的每一者可表示為R[k]、θ[k]、φ[k]、r[k]及e[k]。參數計算單元32可對於US[k]向量33執行能量分析及/或相關(或所謂的交叉相關)以識別此等參數。參數計算單元32亦可判定前一訊框之此等參數,其中前一訊框參數可基於具有US[k-1]向量及V[k-1]向量之前一訊框表示為R[k-1]、θ[k-1]、φ[k-1]、r[k-1]及e[k-1]。參數計算單元32可將參數37及先前參數39輸出至重排序單元34。
亦即,參數計算單元32可對於對應於第一時間之L個第一US[k]向量33中的每一者及對應於第二時間之第二US[k-1]向量33中的每一者執行能量分析,從而計算第一音訊訊框之至少一部分(但常常為全部)及第二音訊訊框之一部分(但常常為全部)的均方根能量且藉此產生2L能量,一者用於第一音訊訊框之L個第一US[k]向量33中的每一者,且一者用於第二音訊訊框之第二US[k-1]向量33中的每一者。
在其他實例中,參數計算單元32可在用於第一US[k]向量33中的
每一者與第二US[k-1]向量33中的每一者的樣本集合之某一部分(若非全部)之間執行交叉相關。交叉相關可係指如信號處理技術中所理解的交叉相關。換言之,交叉相關可涉及量測兩個波形(在此情況下,其被定義為M個樣本之離散集合)之間的相似度,其隨應用於其中之一者的時間滯後而變。在一些實例中,為執行交叉相關,參數計算單元32逐輪比較每一第一US[k]向量27之最後L個樣本與第二US[k-1]向量33中之剩餘者中的每一者之前L個樣本以判定相關參數。如本文所使用,「逐輪」運算係指對於第一元素集合及第二元素集合進行的逐元素運算,其中該運算根據集合之排序而「依次」自第一及第二元素集合中的每一者取出一個元素。
參數計算單元32亦可分析V[k]及/或V[k-1]向量35以判定方向特性參數。此等方向特性參數可提供由對應US[k]及/或US[k-1]向量33表示之音訊物件的移動及位置之指示。參數計算單元32可將前述當前參數37(對於US[k]向量33及/或V[k]向量35而判定)之任何組合及先前參數39(對於US[k-1]向量33及/或V[k-1]向量35而判定)之任何組合提供至重排序單元34。
SVD分解不保證由US[k-1]向量33中之第p向量(其可表示為US[k-1][p]向量(或替代地表示為X PS (p)(k-1))表示的音訊信號/物件將與由US[k]向量33中之第p向量(其亦可表示為US[k][p]向量33(或替代地表示為X PS (p)(k))表示之音訊信號/物件(隨時間而進展)相同。由參數計算單元32計算出之參數可由重排序單元34用以對音訊物件重排序以表示其自然評估或隨時間推移之連續性。
亦即,重排序單元34可接著逐輪地比較來自第一US[k]向量33之參數37中的每一者與用於第二US[k-1]向量33之參數39中的每一者。重排序單元34可基於當前參數37及先前參數39對US[k]矩陣33及V[k]矩陣35內之各種向量重排序(作為一個實例,使用匈牙利演算法
(Hungarian algorithm))以將經重排序之US[k]矩陣33'(其可在數學上表示為[k])及經重排序之V[k]矩陣35'(其可在數學上表示為[k])輸出至前景聲音(或優勢聲音--PS)選擇單元36(「前景選擇單元36」)及能量補償單元38。
換言之,重排序單元34可表示經組態以對US[k]矩陣33內之向量重排序以產生經重排序之US[k]矩陣33'的單元。重排序單元34可對US[k]矩陣33重排序,此係因為US[k]向量33(其中,再次,US[k]向量33中之每一向量,其可再次替代地表示為X PS (p)(k),可表示存在於音場中的一或多個獨特的(或換言之,佔優勢的)單聲道音訊物件)之階數可在音訊資料之各部分之間不同。亦即,在一些實例中,假定音訊編碼器件12對音訊資料之通常被稱作音訊訊框之此等部分操作,則對應於此等獨特的單聲道音訊物件的向量之位置(如在所導出之US[k]矩陣33中所表示)可歸因於將SVD應用於訊框及訊框間每一音訊物件形式之不同突出性而在音訊訊框間不同。
將US[k]矩陣33內之向量直接傳遞至音質音訊寫碼器單元40而不逐音訊訊框地對US[k]矩陣33內之向量重排序可能減小一些壓縮方案(諸如舊版壓縮方案,其在單聲道音訊物件跨越音訊訊框為連續(按照通道,其在此實例中藉由US[k]矩陣33內之向量相對於彼此之位置次序而定義)時效能更好)可達成之壓縮程度。此外,當不重排序時,US[k]矩陣33內的向量之編碼可能在解碼時降低音訊資料之品質。舉例而言,與逐訊框地直接編碼US[k]矩陣33內之向量時所達成的壓縮相比,在圖3之實例中可由音質音訊寫碼器單元40表示之AAC編碼器可更有效地逐訊框壓縮US[k]矩陣33'內之經重排序的一或多個向量。儘管上文關於AAC編碼器予以描述,但可關於跨越處於特定次序或位置的訊框指定單聲道音訊物件(按照通道)時提供更好壓縮之任何編碼器執行該等技術。
以此方式,該等技術之各種態樣可使得音訊編碼器件12能夠對一或多個向量重排序(例如,US[k]矩陣33內之向量,以產生經重排序US[k]矩陣33'內之經重排序之一或多個向量且藉此促進舊版音訊編碼器(諸如音質音訊寫碼器單元40)對US[k]矩陣33內之向量的壓縮)。
舉例而言,重排序單元34可基於當前參數37及先前參數39對來自在時間上在US[k-1]矩陣33內之一或多個第二向量所對應的第二訊框之後的第一音訊訊框之US[k]矩陣33內的一或多個向量重排序。儘管在第一音訊訊框在時間上在第二音訊訊框之後的內容脈絡中予以描述,但第一音訊訊框可在時間上先於第二音訊訊框。因此,該等技術不應限於本發明中描述之實例。
為進行說明,考慮下表1,其中US[k]矩陣33內之p個向量中的每一者表示為US[k][p],其中k表示對應向量係來自第k訊框還是前一第(k-1)訊框,且p表示該向量相對於相同音訊訊框(其中US[k]矩陣具有(N+1)2個此種向量)之向量的列。如上文所指出,假定N判定為1,則p可表示向量一(1)至(4)。
在以上表1中,重排序單元34比較針對US[k-1][1]計算之能量與針對US[k][1]、US[k][2]、US[k][3]、US[k][4]中的每一者計算之能量,比較針對US[k-1][2]計算之能量與針對US[k][1]、US[k][2]、US[k][3]、US[k][4]中的每一者計算之能量,以此類推。重排序單元34可接著捨棄第二之前音訊訊框(按照時間)之第二US[k-1]向量33中之一或多者。為進行說明,考慮展示剩餘第二US[k-1]向量33之下表2:
在以上表2中,重排序單元34可基於能量比對判定針對US[k-1][1]計算之能量類似於針對US[k][1]及US[k][2]中的每一者計算之能量,針對US[k-1][2]計算之能量類似於針對US[k][1]及US[k][2]中的每一者計算之能量,針對US[k-1][3]計算之能量類似於針對US[k][3]及US[k][4]中的每一者計算之能量,且針對US[k-1][4]計算之能量類似於針對US[k][3]及US[k][4]中的每一者計算之能量。在一些實例中,重排序單元34可執行進一步能量分析以識別US[k]矩陣33之第一向量中的每一者與US[k-1]矩陣33之第二向量中的每一者之間的相似度。
在其他實例中,重排序單元32可基於與交叉相關有關的當前參數37及先前參數39對向量重排序。在此等實例中,返回參考以上表2,重排序單元34可基於此等交叉相關參數判定表3中表達之以下例示性相關:
自以上表3,作為一個實例,重排序單元34判定US[k-1][1]向量與位置不同之US[k][2]向量相關,US[k-1][2]向量與位置不同之US[k][1]向量相關,US[k-1][3]向量與位置類似之US[k][3]向量相關,且US[k-1][4]向量與位置類似之US[k][4]向量相關。換言之,重排序單元34判定所謂的重排序資訊描述如何對US[k]矩陣33之第一向量重排序,使得US[k][2]向量重新定位於US[k]矩陣33之第一向量之第一列中,且
US[k][1]重新定位於第一US[k]向量33之第二列中。重排序單元34可接著基於此重排序資訊對US[k]矩陣33之第一向量重排序以產生經重排序之US[k]矩陣33'。
此外,儘管未在圖4之實例中展示,但重排序單元34可將此重排序資訊提供至位元串流產生器件42,位元串流產生器件42可產生位元串流21以包括此重排序資訊,以使得音訊解碼器件(諸如圖3及圖5之實例中所示的音訊解碼器件24)可判定如何對US[k]矩陣33'之經重排序向量重排序以便恢復US[k]矩陣33之向量。
儘管上文描述為執行兩步過程(涉及首先對能量特定參數之分析,且接著為交叉相關參數),但重排序單元32可僅對於能量參數執行此分析以判定重排序資訊、僅對於交叉相關參數執行此分析以判定重排序資訊,或以上文所描述的方式對於能量參數及交叉相關參數兩者執行該分析。此外,該等技術可使用並不涉及執行能量比較及/或交叉相關中之一或兩者的其他類型之過程用於判定相關。因此,就此而言,該等技術不應限於以上闡述之實例。此外,自參數計算單元32獲得之其他參數(諸如自V向量導出之空間位置參數或V[k]及V[k-1]中之向量的相關)亦可與自US[k]及US[k-1]獲得之能量及交叉相關參數一起使用(同時/聯合地或連續地)以判定US中之向量的正確排序。
作為使用V矩陣中之向量的相關之一個實例,參數計算單元34可判定V[k]矩陣35之向量為相關的,如在以下表4中所指定:
自以上表4,作為一個實例,重排序單元34判定V[k-1][1]向量與位置不同之V[k][2]向量相關,V[k-1][2]向量與位置不同之V[k][1]向量
相關,V[k-1][3]向量與位置類似之V[k][3]向量相關,且V[k-1][4]向量與位置類似之V[k][4]向量相關。重排序單元34可輸出V[k]矩陣35之向量的經重排序版本作為經重排序之V[k]矩陣35'。
在一些實例中,應用於US矩陣中之向量的相同的重排序亦適用於V矩陣中之向量。換言之,用於對V向量重排序之任何分析可與用以對US向量重排序之任何分析結合使用。為說明其中不對於US[k]向量35對於能量參數及/或交叉相關參數單獨地判定重排序資訊之實例,重排序單元34亦可以上文關於V[k]向量35所描述的方式類似的方式基於交叉相關參數及能量參數對於V[k]向量35執行此分析。此外,儘管US[k]向量33並不具有任何方向特性,但V[k]向量35可提供與對應US[k]向量33之方向性有關的資訊。在此意義上,重排序單元34可基於對應方向特性參數之分析而識別V[k]向量35與V[k-1]向量35之間的相關。亦即,在一些實例中,音訊物件在移動時以連續方式在音場內移動或保持處於相對穩定的位置。由此,重排序單元34可將V[k]矩陣35及V[k-1]矩陣35之展現一些已知實體實際運動或在音場內保持固定之彼等向量識別為相關的,從而基於此方向特性相關而對US[k]向量33及V[k]向量35重排序。在任何情況下,重排序單元34可將經重排序之US[k]向量33'及經重排序之V[k]向量35'輸出至前景選擇單元36。
此外,該等技術可使用並不涉及執行能量比較及/或交叉相關中之一或兩者的其他類型之過程用於判定正確次序。因此,就此而言,該等技術不應限於以上闡述之實例。
儘管上文描述為對V矩陣之向量重排序以鏡射US矩陣之向量的重排序,但在某些情況下,V向量可以不同於US向量之方式重排序,其中可產生單獨語法元素以指示US向量之重排序及V向量之重排序。在一些情況下,假定V向量可不進行音質編碼,則可不對V向量重排序而可僅對US向量重排序。
其中V矩陣之向量與US矩陣之向量的重排序不同之實施例為當意欲調換空間中之音訊物件時--亦即,將其移開原始記錄位置(當基礎音場為自然記錄時)或藝術所欲位置(當基礎音場為物件之人工混合時)。作為一實例,假設存在兩個音訊源A及B,A可為出自音場之「左」部之貓的聲音「喵喵」,且B可為出自音場之「右」部之狗的聲音「汪汪」。當V與US之重排序不同時,調換兩個聲源之位置。在調換之後,A(「喵喵」)出自於音場之右部,且B(「汪汪」)出自於音場之左部。
音場分析單元44可表示經組態以對於HOA係數11執行音場分析以便潛在地達成目標位元率41之單元。音場分析單元44可基於此分析及/或所接收之目標位元率41判定音質寫碼器執行個體之總數(其可為環境或背景通道之總數(BGTOT)及前景通道或換言之優勢通道之數目的函數。音質寫碼器執行個體之總數可表示為numHOATranspprtChanne;s。再次為了潛在地達成目標位元率41,音場分析單元44亦可判定前景通道之總數(nFG)45、背景(或換言之,環境)音場之最小階數(NBG或替代地,MinAmbHoaOrder)、表示背景音場之最小階數的實際通道之對應數目(nBGa=(MinAmbHoaOrder+1)2),及要發送之額外BG HOA通道之索引(i)(其在圖4之實例中可共同地表示為背景通道資訊43)。背景通道資訊42亦可被稱作環境通道資訊43。numHOATransportChannels-nBGa後剩餘的通道中的每一者可為「額外背景/環境通道」、「作用中的基於向量之優勢通道」、「作用中的基於方向之優勢信號」或「完全不活動」。在一個實施例中,此等通道類型可為由兩個位元指示(為「ChannelType」)之語法元素(例如,00:額外背景通道;01:基於向量之優勢信號;10:不活動信號;11:基於方向之信號)。可藉由(MinAmbHoaOrder+1)2+呈現為用於彼訊框之位元串流中的通道類型
之索引00(在以上實例中)的倍數給出背景或環境信號之總數nBGa。
在任何情況下,音場分析單元44可基於目標位元率41選擇背景(或換言之,環境)通道之數目及前景(或換言之優勢)通道之數目,從而在目標位元率41相對較高時(例如,在目標位元率41等於或大於512Kbps)時選擇更多背景及/或前景通道。在一個實施例中,在位元串流之標頭區段中,numHOATransportChannels可設定為8,且MinAmbHoaOrder可設定為1(其相對於圖10至圖10O(ii)予以更詳細地描述)。在此情境下,在每一訊框處,四個通道可專用於表示音場之背景或環境部分,而其他4個通道可逐訊框地在通道類型上不同--例如,用作額外背景/環境通道或前景/優勢通道。前景/優勢信號可為基於向量或基於方向之信號中之一者,如上文所描述。
在一些情況下,可藉由在一訊框之位元串流中的ChannelType索引01(在以上實例中)之倍數給出用於彼訊框之基於向量之優勢信號的總數。在以上實施例中,對於每一額外背景/環境通道(例如,對應於ChannelType 00),其可能HOA係數(超出前四個)之對應資訊可表示於彼通道中。用於四階HOA內容之此資訊可為指示於5至25之間的索引(在minAmbHoaOrder設定為1時,可始終發送前四個1至4,因此僅需要指示5至25之間的一者)。因而可使用5位元語法元素(對於四階內容)發送此資訊,其可表示為「CodedAmbCoeffIdx」。
在第二實施例中,所有前景/優勢信號為基於向量之信號。在此第二實施例中,可藉由nFG=numHOATransportChannels-[(MinAmbHoaOrder+1)2+索引00之倍數]給出前景/優勢信號之總數。
音場分析單元44將背景通道資訊43及HOA係數11輸出至背景(BG)選擇單元46,將背景通道資訊43輸出至係數縮減單元46及位元串流產生單元42,且將nFG 45輸出至前景選擇單元36。
在一些實例中,音場分析單元44可基於US[k]矩陣33及目標位元
率41之向量的分析選擇具有最大值之此等分量的變數nFG數目。換言之,音場分析單元44可藉由分析由S[k]矩陣33之向量的遞減對角線值產生的曲線之斜率而判定分隔兩個子空間之變數A(其可類似或實質上類似於NBG)之值,其中大奇異值表示前景或獨特聲音,且低奇異值表示音場之背景分量。亦即,變數A可將總體音場分段成前景子空間及背景子空間。
在一些實例中,音場分析單元44可使用奇異值曲線之第一及第二導數。音場分析單元44亦可將變數A之值限制在一與五之間。作為另一實例,音場分析單元44可將變數A之值限制在一與(N+1)2之間。或者,音場分析單元44可預定義變數A之值,以便為值四。在任何情況下,基於A之值,音場分析單元44判定前景通道之總數(nFG)45、背景音場之階數(NBG)及要發送的額外BG HOA通道之數目(nBGa)及索引(i)。
此外,音場分析單元44可每向量地判定V[k]矩陣35中的向量之能量。音場分析單元44可判定V[k]矩陣35中之向量中的每一者之能量,且將具有高能量之彼等向量識別為前景分量。
此外,音場分析單元44可對於HOA係數11執行各種其他分析,包括空間能量分析、空間掩蔽分析、擴散分析或其他形式之聽覺分析。音場分析單元44可藉由將HOA係數11變換為空間域來執行空間能量分析,且識別表示應保留之音場的方向分量之高能量區域。音場分析單元44可以類似於空間能量分析之方式執行感知空間掩蔽分析,惟音場分析單元44可識別藉由空間上接近的較高能量聲音掩蔽之空間區域除外。在一些情況下,音場分析單元44可接著基於感知掩蔽區域識別較少前景分量。音場分析單元44可進一步對於HOA係數11執行擴散分析以識別可表示音場之背景分量的擴散能量區域。
音場分析單元44亦可表示經組態以使用與音訊資料相關聯的基
於方向性之資訊判定表示音場的音訊資料之突出性、獨特性或優勢性之單元。雖然基於能量之判定可改良由SVD分解的音場之呈現以識別音場之獨特音訊分量,但在背景音訊分量展現高能量位準之情況下,基於能量之判定亦可使器件錯誤地將背景音訊分量識別為獨特音訊分量。亦即,獨特音訊分量與背景音訊分量之單獨基於能量之分離可能不穩健,此係因為高能(例如,較響的)背景音訊分量可能經不正確地識別為獨特音訊分量。為了更穩健地在音場之獨特音訊分量與背景音訊分量之間區分,本發明中所描述之技術之各種態樣可使音場分析單元44能夠執行HOA係數11的基於方向性之分析以將前景及環境音訊分量與HOA係數11之經分解版本分離。
就此而言,音場分析單元44可表示經組態或以其他方式可操作以自包括於US[k]矩陣33中之向量及V[k]矩陣35中之向量中之一或多者中的背景元素識別獨特(或前景)元素之單元。根據一些基於SVD之技術,能量最高的分量(例如,US[k]矩陣33及V[k]矩陣35中之一或多者的前幾個向量或自其導出之向量)可認為係獨特分量。然而,US[k]矩陣33中之向量及V[k]矩陣35中之向量中之一或多者的能量最高的分量(其由向量表示)並非在所有情形中皆可表示最具方向性的分量/信號。
音場分析單元44可實施本文中所描述的技術之一或多個態樣,以基於US[k]矩陣33中之向量及V[k]矩陣35中之向量或自其導出之向量中之一或多者的向量之方向性而識別前景/直接/優勢元素。在一些實例中,音場分析單元44可基於能量及向量之方向性兩者識別或選擇一或多個向量作為獨特音訊分量(其中該等分量亦可被稱作「物件」)。舉例而言,音場分析單元44可將US[k]矩陣33中之向量及V[k]矩陣35中之向量(或自其導出之向量)中之一或多者中的顯示高能量及高方向性(例如,表示為方向性商)兩者之彼等向量識別為獨特音訊分
量。結果,若音場分析單元44判定特定向量與US[k]矩陣33中之向量及V[k]矩陣35中之向量(或自其導出之向量)中之一或多者中的其他向量相比具有相對較少的方向性,則不管與該特定向量相關聯之能量位準如何,音場分析單元44可判定該特定向量表示由HOA係數11表示之音場的背景(或環境)音訊分量。
在一些實例中,音場分析單元44可藉由執行以下操作基於方向性識別獨特音訊物件(如上文所指出,其亦可被稱作「分量」)。音場分析單元44可將S[k]矩陣中之向量(其可自US[k]向量33導出,或儘管未在圖4之實例中展示,由LIT單元30單獨地輸出)乘以(例如,使用一或多個矩陣乘法過程)V[k]矩陣35中之向量。藉由使V[k]矩陣35與S[k]向量相乘,音場分析單元44可獲得VS[k]矩陣。此外,音場分析單元44可對VS[k]矩陣中之向量中的每一者之項中的至少一些求平方(亦即,冪次為二的取冪)。在一些情況下,音場分析單元44可對每一向量之與大於1之階數相關聯的彼等經求平方之項進行求和。
作為一個實例,若VS[k]矩陣的每一向量包括25個項,則音場分析單元44可對於每一向量對在第五項處開始且在第二十五項處結束的每一向量之項求平方,對經求平方之項求和以判定方向性商(或方向性指示符)。每一求和運算可導致對應的向量之方向性商。在此實例中,音場分析單元44可判定每一列之與小於或等於1之階數相關聯的彼等項(即,第一至第四項)更通常係針對能量之量,且較少係針對彼等項之方向性。亦即,與零或一之階數相關聯的較低階立體混響對應於球面基底函數,如在圖1及圖2中所說明,就壓力波之方向而言,球面基底函數並不提供許多,而是提供一些量(其表示能量)。
在以上實例中描述之操作亦可根據以下偽碼來表達。下面的偽碼包括註釋,其呈包括於字元串「/*」及「*/」(無引號)之連續例子內的註解語句之形式。
[U,S,V]=svd(audioframe,'ecom');VS=V*S;/*下一行係針對獨立地分析每一列,及自第五項至第二十五項對第一(作為一個實例)列中的值求和以判定對應向量的方向性商或方向性量度。在求和之前對該等項求平方。每一列中的與大於1的階數相關聯的項與高階立體混響相關聯,且因而更可能具有方向性。*/
sumVS=sum(VS(5:end,:).^2,1);/*下一行係針對將產生之VS矩陣的平方之總和排序,且選擇最大值之一集合(例如,最大值中之三個或四個)*/
[~,idxVS]=sort(sumVS,'descend');U=U(:,idxVS);V=V(:,idxVS);S=S(idxVS,idxVS);換言之,根據以上偽碼,音場分析單元44可選擇自HOA係數11中之對應於具有大於一之階數的球面基底函數之彼等HOA係數分解的VS[k]矩陣之每一向量之項。音場分析單元44可接著將VS[k]矩陣之每一向量之此等項求平方,對經求平方之項求和以識別、計算或以其他方式判定VS[k]矩陣之每一向量的方向性量度或商。接下來,音場分析單元44可基於向量中之每一者的各別方向性量度對VS[k]矩陣之向量排序。音場分析單元44可按方向性量度之降序對此等向量排序,使得具有最高對應方向性之彼等向量為第一,且具有最低對應方向性之彼等向量為最後。音場分析單元44可接著選擇向量的具有最高相對方向性量度之非零子集。
音場分析單元44可執行先前分析之任何組合以判定音質寫碼器執行個體之總數(其可為環境或背景通道之總數(BGTOT)及前景通道之數目的函數。音場分析單元44可基於先前分析之任何組合判定前景通
道之總數(nFG)45、背景音場之階數(NBG)及要發送之額外BG HOA通道之數目(nBGa)及索引(i)(其在圖4之實例中可共同地表示為背景通道資訊43)。
在一些實例中,音場分析單元44可每M個樣本(其可重新表述為逐訊框地)執行此分析。就此而言,A之值可在訊框間不同。其中每M個樣本進行決策之位元串流之例子展示於圖10至圖10O(ii)中。在其他實例中,音場分析單元44可每訊框執行此分析一次以上,從而分析訊框之兩個或兩個以上部分。因此,就此而言,該等技術不應限於本發明中描述之實例。
背景選擇單元48可表示經組態以基於背景通道資訊(例如,背景音場(NBG)以及要發送之額外BG HOA通道之數目(nBGa)及索引(i))判定背景或環境HOA係數47之單元。舉例而言,當NBG等於一時,背景選擇單元48可選擇具有等於或小於一之階數的音訊訊框之每一樣本的HOA係數11。在此實例中,背景選擇單元48可接著選擇具有由索引(i)中之一者識別的索引之HOA係數11作為額外BG HOA係數,其中將nBGa提供至待於位元串流21中指定之位元串流產生單元42以便使得音訊解碼器件(諸如圖3之實例中所示的音訊解碼器件24)能夠剖析來自位元串流21之BG HOA係數47。背景選擇單元48可接著將環境HOA係數47輸出至能量補償單元38。環境HOA係數47可具有維度D:M×[(N BG +1)2+nBGa]。
前景選擇單元36可表示經組態以基於nFG 45(其可表示識別此等前景向量之一或多個索引)選擇經重排序之US[k]矩陣33'及經重排序之V[k]矩陣35'中之表示音場之前景或獨特分量的彼等者之單元。前景選擇單元36可將nFG信號49(其可表示為經重排序之US[k]1,…,nFG 49、FG 1,…,nfG[k]49,或(k)49)輸出至音質音訊寫碼器單元40,其中nFG信號49可具有維度D:M×nFG,且每一者表示單聲道音訊物件。
前景選擇單元36亦可將對應於音場之前景分量的經重排序之V[k]矩陣35'(或v (1..nFG)(k)35')輸出至空間-時間內插單元50,其中經重排序之V[k]矩陣35'中的對應於前景分量之彼等者可表示為具有維度D((N+1)2×nFG)之前景V[k]矩陣51 k (其可在數學上表示為[k])。
能量補償單元38可表示經組態以對於環境HOA係數47執行能量補償以補償由於背景選擇單元48移除HOA通道中之多者而造成的能量損失之單元。能量補償單元38可對於經重排序之US[k]矩陣33'、經重排序之V[k]矩陣35'、nFG信號49、前景V[k]向量51 k 及環境HOA係數47中之一或多者執行能量分析,且接著基於此能量分析執行能量補償以產生能量經補償之環境HOA係數47'。能量補償單元38可將能量經補償之環境HOA係數47'輸出至音質音訊寫碼器單元40。
有效地,能量補償單元38可用以補償音場之背景聲音分量之總體能量的可能降低,該總體能量之可能降低係因縮減由HOA係數11描述之音場之環境分量之階數以產生階數經縮減之環境HOA係數47(其在一些實例中具有小於N之階數,依據僅包括對應於具有以下階數/子階之球面基底函數的係數:[(N BG +1)2+nBGa])而造成。在一些實例中,能量補償單元38在將環境HOA係數47輸出至音質音訊寫碼器單元40之前藉由以下操作補償此能量損失:判定呈適用於環境HOA係數47之[(N BG +1)2+nBGa]行中的每一者的放大值之形式的補償增益以便將環境HOA係數47之均方根(RMS)能量增加至等於或至少更近似於HOA係數11之RMS(如經由經重排序之US[k]矩陣33'、經重排序之V[k]矩陣35'、nFG信號49、前景V[k]向量51 k 及階數經縮減之環境HOA係數47中之一或多者的聚集能量分析而判定)。
在一些情況下,能量補償單元38可識別經重排序之US[k]矩陣33'及經重排序之V[k]矩陣35'中之一或多者之每一列及/或列的RMS。能量補償單元38亦可識別選定前景通道中之一或多者之每一列及/或列
的RMS,其可包括nFG信號49及前景V[k]向量51 k 以及階數經縮減之環境HOA係數47。經重排序之US[k]矩陣33'及經重排序之V[k]矩陣35'中之一或多者之每一列及/或列的RMS可儲存至表示為RMS FULL 之向量,而nFG信號49、前景V[k]向量51 k 及階數經縮減之環境HOA係數47中之一或多者之每一列及/或列的RMS可儲存至表示為RMS REDUCED 之向量。能量補償單元38可接著根據以下方程式計算放大值向量Z:Z=RMS FULL /RMS REDUCED 。能量補償單元38可接著將此放大值向量Z或其多個部分應用於nFG信號49、前景V[k]向量51 k 及階數經縮減之環境HOA係數47中之一或多者。在一些情況下,放大值向量Z依據以下方程式而僅應用於階數經縮減之環境HOA係數47:HOA BG-RED '=HOA BG-RED Z T ,其中HOA BG-RED 表示階數經縮減之環境HOA係數47,HOA BG-RED '表示能量經補償之縮減之環境HOA係數47',且Z T 表示Z向量之轉置。
在一些實例中,為判定經重排序之US[k]矩陣33'、經重排序之V[k]矩陣35'、nFG信號49、前景V[k]向量51 k 及階數縮經減之環境HOA係數47中之一或多者的各別列及/或行之每一RMS,能量補償單元38可首選將參考球諧係數(SHC)轉譯器應用於該等行。藉由能量補償單元38應用參考SHC轉譯器允許判定SHC域中之RMS以判定由訊框(由經重排序之US[k]矩陣33'、經重排序之V[k]矩陣35'、nFG信號49、前景V[k]向量51 k 及階數經縮減之環境HOA係數47中之一或多者的列及/或行表示)之每一列及/或列描述之總體音場的能量,如下文更詳細地描述。
空間-時間內插單元50可表示經組態以接收第k訊框之前景V[k]向量51 k 及前一訊框(因此為k-1記法)之前景V[k-1]向量51 k-1且執行空間-時間內插以產生經內插前景V[k]向量之單元。空間-時間內插單元50可重組nFG信號49與前景V[k]向量51 k 以恢復經重排序之前景HOA係
數。空間-時間內插單元50可接著將經重排序之前景HOA係數除以經內插V[k]向量以產生經內插nFG信號49'。空間-時間內插單元50亦可輸出前景V[k]向量51 k 中之用以產生經內插前景V[k]向量的彼等向量以使得諸如音訊解碼器件24之音訊解碼器件可產生經內插前景V[k]向量且藉此恢復前景V[k]向量51 k 。前景V[k]向量51 k 中之用以產生經內插前景V[k]向量之彼等向量表示為剩餘前景V[k]向量53。為了確保在編碼器與解碼器處使用相同V[k]及V[k-1](以產生經內插向量V[k]),可在編碼器及解碼器處使用其經量化/經解量化之版本。
就此而言,空間-時間內插單元50可表示自第一音訊訊框之一些其他部分及第二時間上在後或在前的音訊訊框內插第一音訊訊框之第一部分的單元。在一些實例中,該等部分可表示為子訊框,其中下文關於圖45至圖46E更詳細地描述如對於子訊框執行之內插。在其他實例中,空間-時間內插單元50可對於前一訊框之最後某數目個樣本及後續訊框之前某數目個樣本操作,如關於圖37至圖39更詳細地描述。空間-時間內插單元50可在執行此內插時縮減前景V[k]向量51 k 之需要在位元串流21中指定的樣本之數目,此係因為僅前景V[k]向量51 k 之用以產生經內插V[k]向量之彼等向量表示前景V[k]向量51 k 之子集。亦即,為了潛在地使HOA係數11之壓縮更有效(藉由縮減在位元串流21中指定的前景V[k]向量51 k 之數目),本發明中所描述之技術的各種態樣可提供第一音訊訊框之一或多個部分的內插,其中該等部分中的每一者可表示HOA係數11之經分解版本。
空間-時間內插可導致數個益處。首先,歸因於執行SVD或其他LIT之逐區塊性質,nFG信號49可不自訊框至訊框為連續的。換言之,假定LIT單元30逐訊框地應用SVD,則某些不連續性可存在於所得經變換HOA係數中,如例如由US[k]矩陣33及V[k]矩陣35之無序性質所表明。藉由執行此內插,假定內插可具有潛在地減小歸因於訊框
邊界(或,換言之,HOA係數11至訊框之分段)而引入之任何偽訊的平滑化效果,不連續性可得以縮減。使用前景V[k]向量51 k 執行此內插且接著基於經內插前景V[k]向量51 k 自所恢復之經重排序HOA係數產生經內插nFG信號49'可使歸因於逐訊框操作以及歸因於對nFG信號49重排序之至少一些效果平滑化。
在操作中,空間-時間內插單元50可內插來自包括於第一訊框中的第一複數個HOA係數11之一部分之第一分解(例如,前景V[k]向量51 k )及包括於第二訊框中的第二複數個HOA係數11之一部分之第二分解(例如,前景V[k]向量51 k-1 )的第一音訊訊框之一或多個子訊框以產生用於該一或多個子訊框的分解式經內插球諧係數。
在一些實例中,第一分解包含表示HOA係數11之該部分的右奇異向量的第一前景V[k]向量51 k 。同樣,在一些實例中,第二分解包含表示HOA係數11之該部分的右奇異向量之第二前景V[k]向量51 k 。
換言之,就球面上之正交基底函數而言,基於球諧之3D音訊可為3D壓力場之參數表示。該表示之階數N愈高,則空間解析度潛在地愈高,且常常球諧(SH)係數之數目愈大(對於一共(N+1)2個係數)。對於許多應用,可能需要係數之頻寬壓縮能夠有效地傳輸且儲存該等係數。在本發明中所針對之此技術可提供使用奇異值分解(SVD)的基於訊框之維度縮減過程。SVD分析可將係數之每一訊框分解成三個矩陣U、S及V。在一些實例中,該等技術可將US[k]矩陣中的向量中之一些作為基礎音場之前景分量來處置。然而,當以此方式處置時,此等向量(在US[k]矩陣中)在訊框間係不連續的--即使其表示同一獨特音訊分量。當經由變換音訊寫碼器饋入該等分量時,此等不連續性可導致顯著偽訊。
本發明中所描述之技術可解決此不連續性。亦即,該等技術可基於以下觀測結果:V矩陣可解譯為球諧域中的正交空間軸線。U[k]
矩陣可表示球諧(HOA)資料根據彼等基底函數之投影,其中不連續性可係歸因於正交的空間軸(V[k]),該等空間軸線每訊框皆改變且因此自身為不連續的。此不同於諸如傅立葉變換之類似分解,其中基底函數在一些實例中在訊框將為常數。在此等術語中,SVD可認為係匹配追求演算法。本發明中所描述之技術可使得空間-時間內插單元50能夠藉由在其間進行內插而自訊框至訊框維持基底函數(V[k])之間的連續性。
如上文所指出,可對於樣本執行內插。當子訊框包含樣本之單個集合時,此情況在以上描述中得以一般化。在經由樣本及經由子訊框之內插的情況兩者中,內插運算可呈以下方程式之形式:
在此以上方程式中,可自單一V向量v(k-1)對於單一V向量v(k)執行內插,其在一個實施例中可表示來自鄰近訊框k及k-1之V向量。在以上方程式中,l表示正進行內插之解析度,其中l可指示整數樣本且l=1,…,T(其中T為正進行內插且需要所輸出的經內插向量的樣本之長度,且亦指示此過程之輸出產生此等向量中之l者)。或者,l可指示由多個樣本組成之子訊框。舉例而言,當訊框劃分成四個子訊框時,l對於子訊框中之每一者可包含值1、2、3及4。l之值可經由位元串流用信號通知為稱為「CodedSpatialInterpolationTime」之欄位,以使得可在解碼器中重複內插運算。w(l)可包含內插權重之值。當內插為線性的時,w(l)可作為l的函數而線性地且單調地在0與1之間變化。在其他情況下,w(l)可作為l的函數以非線性但單調的方式(諸如升餘弦之四分之一循環)在0與1之間變化。函數w(l)可編索引於幾個不同函數可能性之間且在位元串流中用信號通知為稱為「SpatialInterpolationMethod」之欄位,使得可由解碼器重複相同的內插運算。當w(l)為接近於0之值時,輸出可能被高度加權或受
v(k-1)之影響。而當w(l)為接近於1之值時,其確保輸出被高度加權或受v(k-1)影響。
係數縮減單元46可表示經組態以基於背景通道資訊43對於剩餘前景V[k]向量53執行係數縮減以將經縮減前景V[k]向量55輸出至量化單元52之單元。縮減之前景V[k]向量55可具有維度D:[(N+1)2-(N BG +1)2-nBGa]×nFG。
就此而言,係數縮減單元46可表示經組態以縮減剩餘前景V[k]向量53之係數的數目之單元。換言之,係數縮減單元46可表示經組態以消除前景V[k]向量之具有極少方向資訊之彼等係數(形成剩餘前景V[k]向量53)之單元。如上文所描述,在一些實例中,獨特或(換言之)前景V[k]向量之對應於一階及零階基底函數之彼等係數(其可表示為NBG)提供極少方向資訊,且因此可自前景V向量移除(經由可被稱作「係數縮減」之過程)。在此實例中,可提供較大靈活性以不僅自集合[(NBG+1)2+1,(N+1)2]識別對應於NBG之此等係數而且識別額外HOA通道(其可由變數TotalOfAddAmbHOAChan表示)。音場分析單元44可分析HOA係數11以判定BGTOT,其不僅可識別(NBG+1)2而且可識別TotalOfAddAmbHOAChan,該兩者可共同地被稱作背景通道資訊43。係數縮減單元46可接著自剩餘前景V[k]向量53移除對應於(NBG+1)2及TotalOfAddAmbHOAChan之彼等係數以產生大小為(N+1)2-(BGTOT)×nFG之維度較小的V[k]矩陣55,其亦可被稱作經縮減前景V[k]向量55。
量化單元52可表示經組態以執行任何形式之量化以壓縮經縮減前景V[k]向量55以產生經寫碼前景V[k]向量57從而將此等經寫碼前景V[k]向量57輸出至位元串流產生單元42之單元。在操作中,量化單元52可表示經組態以壓縮音場之空間分量(亦即,在此實例中,經縮減前景V[k]向量55中之一或多者)之單元。出於實例之目的,假定經縮
減前景V[k]向量55包括兩列向量,由於係數縮減,每一列具有小於25個元素(其暗示音場之四階HOA表示)。儘管關於兩列向量予以描述,但任何數目的向量可包括於經縮減前景V[k]向量55中,至多為(n+1)2個,其中n表示音場之HOA表示的階數。此外,儘管下文描述為執行純量及/或熵量化,但量化單元52可執行導致經縮減前景V[k]向量55之壓縮的任何形式之量化。
量化單元52可接收經縮減前景V[k]向量55且執行壓縮方案以產生經寫碼前景V[k]向量57。此壓縮方案大體上可涉及用於壓縮向量或資料之元素的任何可設想壓縮方案,且不應限於下文更詳細地描述之實例。作為一實例,量化單元52可執行包括以下各者中之一或多者的壓縮方案:將經縮減前景V[k]向量55之每一元素的浮點表示變換為經縮減前景V[k]向量55之每一元素的整數表示、經縮減前景V[k]向量55之整數表示的均勻量化,以及剩餘前景V[k]向量55之經量化整數表示的分類及寫碼。
在一些實例中,可藉由參數動態地控制此壓縮方案之一或多個過程中之多者以達成或近似達成(作為一個實例)所得位元串流21之目標位元率。假定經縮減前景V[k]向量55中的每一者彼此正交,則可獨立地寫碼經縮減前景V[k]向量55中的每一者。在一些實例中,如下文更詳細地所描述,可使用相同寫碼模式(由各種子模式界定)寫碼每一經縮減前景V[k]向量55之每一元素。
在任何情況下,如上文所指出,此寫碼方案可首先涉及將經縮減前景V[k]向量55中的每一者之每一元素之浮點表示(其在一些實例中為32位元浮點數目)變換為16位元整數表示。量化單元52可藉由將經縮減前景V[k]向量55中之一給定者的每一元素乘以215(在一些實例中,其係藉由右移15而執行)而執行此浮點至整數變換。
量化單元52可接著對於經縮減前景V[k]向量55中之該給定者的所
有元素執行均勻量化。量化單元52可基於可表示為nbits參數之值而識別量化步長。量化單元52可基於目標位元率41動態地判定此nbits參數。量化單元52可將量化步長判定為此nbits參數之函數。作為一個實例,量化單元52可將量化步長(在本發明中表示為「差量」或「△」)判定為等於216-nbits 。在此實例中,若nbits等於六,則差量等於210,且存在26個量化層級。就此而言,對於向量元素v,經量化向量元素v q 等於[v/△],且-2 nbits-1<v q <2 nbits-1。
量化單元52可接著執行經量化向量元素之分類及殘餘寫碼。作為一個實例,量化單元52可使用以下方程式對於一給定經量化向量元素v q 識別此元素所對應的類別(藉由判定類別識別符cid):
量化單元52可接著對此類別索引cid進行霍夫曼(Huffman)寫碼,同時亦識別指示v q 為正值還是負值之正負號位元。量化單元52接下來可識別此類別中之殘差。作為一個實例,量化單元52可根據以下方程式判定此殘差:殘差=|v q |-2 cid-1
量化單元52可接著用cid-1個位元對此殘差進行區塊寫碼。
以下實例說明此分類及殘差寫碼過程之簡化實例。首先,假定nbits等於六以使得vq [-31,31]。接下來,假定以下:
又,假定以下:
因而,對於vq=[6,-17,0,0,3],可判定以下:
»cid=3,5,0,0,2
»正負號=1,0,x,x,1
»殘差=2,1,x,x,1
»用於6的位元數=「0010」+「1」+「10」
»用於-17的位元數=「00111」+「0」+「0001」
»用於0的位元數=「0」
»用於0的位元數=「0」
»用於3的位元數=「000」+「1」+「1」
»總位元數=7+10+1+1+5=24
»平均位元數=24/5=4.8
儘管未展示於先前簡化實例中,但量化單元52可在對cid進行寫碼時針對nbits之不同值選擇不同霍夫曼碼簿。在一些實例中,量化單元52可對於nbits值6,…,15提供不同霍夫曼寫碼表。此外,量化單元52可對於範圍在6,…,15的不同nbits值中的每一者包括五個不同霍夫曼碼簿,總共有50個霍夫曼碼簿。就此而言,量化單元52可包括複數個不同霍夫曼碼簿以適應數個不同統計內容脈絡中的cid之寫碼。
為進行說明,量化單元52可對於nbits值中的每一者包括用於對向量元素一至四進行寫碼之第一霍夫曼碼簿、用於對向量元素五至九
進行寫碼之第二霍夫曼碼簿、用於對向量元素九及九以上進行寫碼之第三霍夫曼碼簿。當經縮減前景V[k]向量55中之待壓縮的一者並非係自經縮減前景V[k]向量55中之時間上在後的一對應者預測且不表示合成音訊物件之空間資訊(例如,最初藉由經脈碼調變(PCM)之音訊物件界定之一者)時,可使用此等前三個霍夫曼碼簿。當經縮減前景V[k]向量55中之此者係自經縮減前景V[k]向量55中之一時間上在後的對應者預測時,量化單元52可對於nbits值中的每一者包括用於對經縮減前景V[k]向量55中之該者進行寫碼之第四霍夫曼碼簿。當經縮減前景V[k]向量55中之此者表示合成音訊物件時,量化單元52亦可對於nbits值中的每一者包括用於對經縮減前景V[k]向量55中之該者進行寫碼之第五霍夫曼碼簿。可針對此等不同統計內容脈絡(亦即,在此實例中,非預測且非合成內容脈絡、預測內容脈絡及合成內容脈絡)中的每一者開發各種霍夫曼碼簿。
下表說明霍夫曼表選擇及待在位元串流中指定以使得解壓縮單元能夠選擇適當霍夫曼表之位元:
在前表中,預測模式(「Pred模式」)指示是否對當前向量執行了預測,而霍夫曼表(「HT資訊」)指示用以選擇霍夫曼表一至五中之一者的額外霍夫曼碼簿(或表)資訊。
下表進一步說明此霍夫曼表選擇過程(假定各種統計內容脈絡或情形)。
在前表中,「記錄」行指示向量表示所記錄之音訊物件時的寫碼內容脈絡,而「合成」行指示向量表示合成音訊物件時的寫碼內容脈絡。「無預測」列指示不對於向量元素執行預測時的寫碼內容脈絡,而「有預測」列指示對於向量元素執行預測時的寫碼內容脈絡。如此表中所示,量化單元52在向量表示所記錄音訊物件且不對於向量元素執行預測時選擇HT{1,2,3}。量化單元52在音訊物件表示合成音訊物件且不對於向量元素執行預測時選擇HT5。量化單元52在向量表示所記錄音訊物件且對於向量元素執行預測時選擇HT4。量化單元52在音訊物件表示合成音訊物件且對於向量元素執行預測時選擇HT5。
就此而言,量化單元52可執行上文指出的純量量化及/或霍夫曼編碼以壓縮經縮減前景V[k]向量55,輸出可被稱作旁側通道資訊57之經寫碼前景V[k]向量57。此旁側通道資訊57可包括用以對剩餘前景V[k]向量55進行寫碼之語法元素。量化單元52可以類似於圖10B及圖10C中之一者之實例中所示的方式輸出旁側通道資訊57。
如上文所指出,量化單元52可產生用於旁側通道資訊57之語法元素。舉例而言,量化單元52可在存取單元(其可包括一或多個訊框)之標頭中指定表示選擇了複數個組態模式中之哪一者的語法元素。儘管描述為在每存取單元基礎上予以指定,但量化單元52可在每訊框基礎或任何其他週期性基礎或非週期性基礎(諸如整個位元串流指定一次)上指定此語法元素。在任何情況下,此語法元素可包含指示選擇了四個組態模式中之哪一者用於指定經縮減前景V[k]向量55之非零係數集合以表示此獨特分量之方向態樣的兩個位元。該語法元素可表示
為「codedVVecLength」。以此方式,量化單元52可在位元串流中用信號通知或以其他方式指定使用四個組態模式中之哪一者來在位元串流中指定經寫碼前景V[k]向量57。儘管關於四個組態模式予以描述,但該等技術不應限於四個組態模式,而應限於任何數目的組態模式,包括單個組態模式或複數個組態模式。純量/熵量化單元53亦可將旗標63指定為旁側通道資訊57中之另一語法元素。
包括於音訊編碼器件20內之音質音訊寫碼器單元40可表示音質音訊寫碼器之多個執行個體,其中的每一者用以對能量經補償之環境HOA係數47'及經內插nFG信號49'中的每一者之不同音訊物件或HOA通道進行編碼以產生經編碼環境HOA係數59及經編碼nFG信號61。音質音訊寫碼器單元40可將經編碼環境HOA係數59及經編碼nFG信號61輸出至位元串流產生單元42。
在一些情況下,此音質音訊寫碼器單元40可表示高級音訊寫碼(AAC)編碼單元之一或多個執行個體。音質音訊寫碼器單元40可對能量經補償之環境HOA係數47'及經內插nFG信號49'之每一行或列進行編碼。常常,音質音訊寫碼器單元40可針對能量經補償之環境HOA係數47'及經內插nFG信號49'中剩餘的階數/子階組合中的每一者調用AAC編碼單元之執行個體。關於可如何使用AAC編碼單元對背景球諧係數31進行編碼之更多資訊可見於Eric Hellerud等人的標題為「Encoding Higher Order Ambisonics with AAC」的大會論文中,其在第124次大會(2008年5月17日至20日)上提交且可在下處獲得:http://ro.uow.edu.au/cgi/viewcontent.cgi?article=8025&context=engpapers。在一些情況下,音訊編碼單元14可使用比用以對經內插nFG信號49'進行編碼之目標位元率低的目標位元率對能量經補償之環境HOA係數47'進行音訊編碼,藉此潛在地與經內插nFG信號49'相比更多地壓縮能量經補償之環境HOA係數47'。
包括於音訊編碼器件20內之位元串流產生單元42表示對資料進行格式化以符合已知格式(其可涉及解碼器件已知之格式),藉此產生基於向量之位元串流21的單元。位元串流產生單元42在一些實例中可表示多工器,其可接收經寫碼前景V[k]向量57、經編碼環境HOA係數59、經編碼nFG信號61及背景通道資訊43。位元串流產生單元42可接著基於經寫碼前景V[k]向量57、經編碼環境HOA係數59、經編碼nFG信號61及背景通道資訊43產生位元串流21。位元串流21可包括主要或主位元串流及一或多個旁側通道位元串流。
儘管未在圖4之實例中展示,但音訊編碼器件20亦可包括位元串流輸出單元,該位元串流輸出單元基於當前訊框將使用基於方向之合成還是基於向量之合成進行編碼而切換自音訊編碼器件20輸出之位元串流(例如,在基於方向之位元串流21與基於向量之位元串流21之間切換)。此位元串流輸出單元可基於由內容分析單元26輸出之語法元素(指示執行基於方向之合成(作為偵測到HOA係數11係自合成音訊物件產生之結果)還是執行基於向量之合成(作為偵測到HOA係數係經記錄之結果))執行此切換。位元串流輸出單元可指定正確標頭語法以連同位元串流21中之各別者指示用於當前訊框的此切換或當前編碼。
在一些情況下,該等技術之各種態樣亦可使得音訊編碼器件20能夠判定HOA係數11是否係自合成音訊物件產生。該等技術之此等態樣可使得音訊編碼器件20經組態以獲得表示音場之球諧係數是否係自合成音訊物件產生之指示。
在此等及其他情況下,音訊編碼器件20經進一步組態以判定球諧係數是否係自合成音訊物件產生。
在此等及其他情況下,音訊編碼器件20經組態以自儲存表示音場之球諧係數之至少一部分的框式球諧係數矩陣排除第一向量以獲得經縮減框式球諧係數矩陣。
在此等及其他情況下,音訊編碼器件20經組態以自儲存表示音場之球諧係數之至少一部分的框式球諧係數矩陣排除第一向量以獲得經縮減框式球諧係數矩陣,且基於該經縮減框式球諧係數矩陣之剩餘向量預測該經縮減框式球諧係數矩陣之向量。
在此等及其他情況下,音訊編碼器件20經組態以自儲存表示音場之球諧係數之至少一部分的框式球諧係數矩陣排除第一向量以獲得經縮減框式球諧係數矩陣,且至少部分地基於該經縮減框式球諧係數矩陣之剩餘向量的總和預測該經縮減框式球諧係數矩陣之向量。
在此等及其他情況下,音訊編碼器件20經組態以至少部分地基於框式球諧係數矩陣之剩餘向量的總和預測儲存球諧係數之至少一部分的框式球諧係數矩陣之向量。
在此等及其他情況下,音訊編碼器件20經組態以至少部分地基於框式球諧係數矩陣之剩餘向量的總和預測儲存球諧係數之至少一部分的框式球諧係數矩陣之向量,且基於所預測之向量計算一錯誤。
在此等及其他情況下,音訊編碼器件20經組態以至少部分地基於框式球諧係數矩陣之剩餘向量的總和預測儲存球諧係數之至少一部分的框式球諧係數矩陣之向量,且基於所預測之向量及框式球諧係數矩陣之對應向量計算一錯誤。
在此等及其他情況下,音訊編碼器件20經組態以至少部分地基於框式球諧係數矩陣之剩餘向量的總和預測儲存球諧係數之至少一部分的框式球諧係數矩陣之向量,且將錯誤計算為所預測向量與框式球諧係數矩陣之對應向量之差的絕對值之總和。
在此等及其他情況下,音訊編碼器件20經組態以至少部分地基於框式球諧係數矩陣之剩餘向量的總和預測儲存球諧係數之至少一部分的框式球諧係數矩陣之向量,基於所預測向量及框式球諧係數矩陣之對應向量計算一錯誤,基於框式球諧係數矩陣之對應向量與錯誤之
能量計算一比率,且比較該比率與一臨限值以判定表示音場之球諧係數是否係自合成音訊物件產生。
在此等及其他情況下,音訊編碼器件20經組態以在儲存球諧係數之經壓縮版本的位元串流21中指定該指示。
在一些情況下,各種技術可使得音訊編碼器件20能夠對於HOA係數11執行變換。在此等及其他情況下,音訊編碼器件20可經組態以獲得描述音場之獨特分量的一或多個第一向量及描述音場之背景分量的一或多個第二向量,該一或多個第一向量及該一或多個第二向量兩者皆係至少藉由對於複數個球諧係數11執行變換而產生。
在此等及其他情況下,音訊編碼器件20,其中變換包含奇異值分解,該奇異值分解產生表示複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數11之右奇異向量的V矩陣。
在此等及其他情況下,音訊編碼器件20,其中該一或多個第一向量包含一或多個音訊編碼之UDIST*SDIST向量,其係在音訊編碼之前藉由將U矩陣之一或多個音訊編碼之UDIST向量乘以S矩陣之一或多個SDIST向量而產生,且其中U矩陣及S矩陣係至少藉由對於複數個球諧係數執行奇異值分解而產生。
在此等及其他情況下,音訊編碼器件20,其中該一或多個第一向量包含一或多個音訊編碼之UDIST*SDIST向量及具有V矩陣之轉置的一或多個VT DIST向量,該一或多個UDIST*SDIST向量係在音訊編碼之前藉由將U矩陣之一或多個音訊編碼之UDIST向量乘以S矩陣之一或多個SDIST向量而產生,且其中U矩陣及S矩陣以及V矩陣係至少藉由對於複數個球諧係數11執行奇異值分解而產生。
在此等及其他情況下,音訊編碼器件20,其中該一或多個第一向量包含一或多個UDIST*SDIST向量及具有V矩陣之轉置的一或多個
VT DIST向量,該一或多個UDIST*SDIST向量係在音訊編碼之前藉由將U矩陣之一或多個音訊編碼之UDIST向量乘以S矩陣之一或多個SDIST向量而產生,其中U矩陣、S矩陣及V矩陣係至少藉由對於複數個球諧係數執行奇異值分解而產生,且其中音訊編碼器件20經進一步組態以獲得值D,該值D指示待自位元串流提取以形成該一或多個UDIST*SDIST向量及該一或多個VT DIST向量之向量的數目。
在此等及其他情況下,音訊編碼器件20,其中該一或多個第一向量包含一或多個UDIST*SDIST向量及具有V矩陣之轉置的一或多個VT DIST向量,該一或多個UDIST*SDIST向量係在音訊編碼之前藉由將U矩陣之一或多個音訊編碼之UDIST向量乘以S矩陣之一或多個SDIST向量而產生,其中U矩陣、S矩陣及V矩陣係至少藉由對於複數個球諧係數執行奇異值分解而產生,且其中音訊編碼器件20經進一步組態以逐音訊訊框地獲得值D,該值D指示待自位元串流提取以形成該一或多個UDIST*SDIST向量及該一或多個VT DIST向量之向量的數目。
在此等及其他情況下,音訊編碼器件20,其中該變換包含主分量分析以識別音場之獨特分量及音場之背景分量。
本發明中所描述之技術的各種態樣可提供經組態以補償量化錯誤之音訊編碼器件20。
在一些情況下,音訊編碼器件20可經組態以量化表示音場之一或多個分量的一或多個第一向量,且補償歸因於該一或多個第一向量之該量化而在亦表示該音場之相同的一或多個分量之一或多個第二向量中引入的錯誤。
在此等及其他情況下,音訊編碼器件經組態以量化來自至少部分地藉由對於描述音場之複數個球諧係數執行奇異值分解而產生的V矩陣之轉置的一或多個向量。
在此等及其他情況下,音訊編碼器件經進一步組態以對於表示
音場之複數個球諧係數執行奇異值分解以產生表示複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數之右奇異向量的V矩陣,且經組態以量化來自V矩陣之轉置的一或多個向量。
在此等及其他情況下,音訊編碼器件經進一步組態以對於表示音場之複數個球諧係數執行奇異值分解以產生表示複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數之右奇異向量的V矩陣,經組態以量化來自V矩陣之轉置的一或多個向量,且經組態以補償歸因於藉由將U矩陣之一或多個U向量乘以S矩陣之一或多個S向量而計算出的一或多個U*S向量之量化而引入的錯誤。
在此等及其他情況下,音訊編碼器件經進一步組態以對於表示音場之複數個球諧係數執行奇異值分解以產生表示複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數之右奇異向量的V矩陣,判定U矩陣之一或多個UDIST向量(其中的每一者對應於音場之獨特分量),判定S矩陣之一或多個SDIST向量(其中的每一者對應於音場之相同獨特分量),且判定具有V矩陣之轉置的一或多個VT DIST向量(其中的每一者對應於音場之相同獨特分量),經組態以量化該一或多個VT DIST向量以產生一或多個VT Q_DIST向量,且經組態以補償歸因於藉由將U矩陣之一或多個UDIST向量乘以S矩陣之一或多個SDIST向量而計算出的一或多個UDIST*SDIST向量之量化而引入的錯誤以便產生一或多個錯誤經補償的UDIST*向量。
在此等及其他情況下,音訊編碼器件經組態以基於該一或多個UDIST向量、該一或多個SDIST向量及該一或多個VT DIST向量判定獨特球諧係數,且對於該等VT Q_DIST向量執行偽逆以將該等獨特球諧係數除
以該一或多個VT Q_DIST向量且藉此產生至少部分地補償經由VT DIST向量之量化而引入的錯誤之錯誤經補償之一或多個UC_DIST*SC_DIST向量。
在此等及其他情況下,音訊編碼器件經進一步組態以對於表示音場之複數個球諧係數執行奇異值分解以產生表示複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數之右奇異向量的V矩陣,判定U矩陣之描述音場之一或多個背景分量的一或多個UBG向量及U矩陣之描述音場之一或多個獨特分量的一或多個UDIST向量,判定S矩陣之描述音場之一或多個背景分量的一或多個SBG向量及S矩陣之描述音場之一或多個獨特分量的一或多個SDIST向量,且判定具有V矩陣之轉置的一或多個VT DIST向量及一或多個VT BG向量,其中該等VT DIST向量描述音場之該一或多個獨特分量且該等VT BG描述音場之該一或多個背景分量,經組態以量化該一或多個VT DIST向量以產生一或多個VT Q_DIST向量,且經組態以補償歸因於藉由將該一或多個UBG向量乘以該一或多個SBG向量且接著乘以該一或多個VT BG向量而形成的背景球諧係數之量化而引入的錯誤以便產生錯誤經補償的背景球諧係數。
在此等及其他情況下,音訊編碼器件經組態以基於VT DIST向量及藉由將該等UDIST向量乘以SDIST向量而形成的一或多個UDIST*SDIST向量判定該錯誤,且將該所判定之錯誤相加至背景球諧係數以產生錯誤經補償之背景球諧係數。
在此等及其他情況下,音訊編碼器件經組態以補償歸因於該一或多個第一向量之量化而在亦表示音場之相同的一或多個分量之一或多個第二向量中引入的錯誤以產生一或多個錯誤經補償之第二向量,且經進一步組態以產生位元串流以包括該一或多個錯誤經補償之第二向量及該等經量化之一或多個第一向量。
在此等及其他情況下,音訊編碼器件經組態以補償歸因於該一
或多個第一向量之量化而在亦表示音場之相同的一或多個分量之一或多個第二向量中引入的錯誤以產生一或多個錯誤經補償之第二向量,且產生位元串流以包括經音訊編碼之一或多個錯誤經補償之第二向量及該等經量化之一或多個第一向量。
該等技術之各種態樣可進一步使得音訊編碼器件20能夠產生經縮減球諧係數或其分解。在一些情況下,音訊編碼器件20可經組態以基於目標位元率對於複數個球諧係數或其分解執行階數縮減以產生經縮減球諧係數或其經縮減分解,其中該複數個球諧係數表示一音場。
在此等及其他情況下,音訊編碼器件20經進一步組態以在執行階數經縮減之前對於複數個球諧係數執行奇異值分解以識別描述音場之獨特分量之一或多個第一向量及識別音場之背景分量的一或多個第二向量,且經組態以對於該一或多個第一向量、該一或多個第二向量或該一或多個第一向量及該一或多個第二向量兩者執行階數縮減。
在此等及其他情況下,音訊編碼器件20經進一步組態以對於複數個球諧係數或其分解執行內容分析,且經組態以基於目標位元率及該內容分析對於該複數個球諧係數或其分解執行階數縮減以產生經縮減球諧係數或其經縮減分解。
在此等及其他情況下,音訊編碼器件20經組態以對於該複數個球諧係數或其分解執行空間分析。
在此等及其他情況下,音訊編碼器件20經組態以對於該複數個球諧係數或其分解執行擴散分析。
在此等及其他情況下,音訊編碼器件20為經組態以對於該複數個球諧係數或其分解執行空間分析及擴散分析之一或多個處理器。
在此等及其他情況下,音訊編碼器件20經進一步組態以在包括經縮減球諧係數或其經縮減分解之位元串流中指定經縮減球諧係數或其經縮減分解所對應的球面基底函數之一或多個階數及/或一或多個
子階。
在此等及其他情況下,經縮減球諧係數或其經縮減分解比該複數個球諧係數或其分解具有較小的值。
在此等及其他情況下,音訊編碼器件20經組態以移除該複數個球諧係數或其分解之向量中的具有指定階數及/或子階之彼等球諧係數或向量以產生經縮減球諧係數或其經縮減分解。
在此等及其他情況下,音訊編碼器件20經組態以零化該複數個球諧係數或其分解之彼等向量中的具有指定階數及/或子階之彼等球諧係數或向量以產生經縮減球諧係數或其經縮減分解。
該等技術之各種態樣亦可允許音訊編碼器件20經組態以表示音場之獨特分量。在此等及其他情況下,音訊編碼器件20經組態以獲得待用以表示一音場之一獨特分量的一向量之係數的一第一非零集合,其中該向量係自描述該音場之複數個球諧係數分解。
在此等及其他情況下,音訊編碼器件20經組態以判定該向量之該等係數的該第一非零集合以包括所有該等係數。
在此等及其他情況下,音訊編碼器件20經組態以將係數之該第一非零集合判定為該等係數中之對應於大於該複數個球諧係數中之一或多者所對應的基底函數之階數的階數之彼等係數。
在此等及其他情況下,音訊編碼器件20經組態以判定係數之第一非零集合以包括該等係數中之對應於大於該複數個球諧係數中之一或多者所對應的基底函數之階數的階數之彼等係數,且排除對應於大於該複數個球諧係數中之該一或多者所對應的該基底函數之階數的階數之該等係數中之至少一者。
在此等及其他情況下,音訊編碼器件20經組態以判定係數之該第一非零集合以包括所有該等係數,惟該等係數中之對應於大於該複數個球諧係數中之一或多者所對應的基底函數之階數的階數之至少一
係數除外。
在此等及其他情況下,音訊編碼器件20經進一步組態以在旁側通道資訊中指定該向量之該等係數的該第一非零集合。
在此等及其他情況下,音訊編碼器件20經進一步組態以在旁側通道資訊中指定該向量之該等係數的該第一非零集合,而不對該向量之該等係數該第一非零集合進行音訊編碼。
在此等及其他情況下,該向量包含使用基於向量合成自該複數個球諧係數分解之向量。
在此等及其他情況下,該基於向量之合成包含奇異值分解。
在此等及其他情況下,該向量包含使用奇異值分解自該複數個球諧係數分解之V向量。
在此等及其他情況下,音訊編碼器件20經進一步組態以選擇複數個組態模式中藉以指定該向量之係數的該非零集合之一組態模式,且基於該複數個組態模式中之該選定者指定該向量之係數的該非零集合。
在此等及其他情況下,該複數個組態模式中之該者指示該等係數之該非零集合包括所有該等係數。
在此等及其他情況下,該複數個組態模式中之該者指示係數之該非零集合包括該等係數中之對應於大於該複數個球諧係數中之一或多者所對應的基底函數之階數的階數之彼等係數。
在此等及其他情況下,該複數個組態模式中之該者指示係數之該非零集合包括該等係數中之對應於大於該複數個球諧係數中之一或多者所對應的基底函數之階數的階數之彼等係數,且排除該等係數中之對應於大於該複數個球諧係數中之該一或多者所對應的該基底函數之階數的階數之至少一係數。
在此等及其他情況下,該複數個組態模式中之該者指示係數之
該非零集合包括所有該等係數,惟該等係數中之至少一者除外。
在此等及其他情況下,音訊編碼器件20經進一步組態以在位元串流中指定該複數個組態模式中之該選定者。
本發明中所描述之技術的各種態樣亦可允許音訊編碼器件20經組態而以各種方式表示音場之彼獨特分量。在此等及其他情況下,音訊編碼器件20經組態以獲得表示一音場之一獨特分量的一向量之係數的一第一非零集合,該向量已自描述該音場之複數個球諧係數分解。
在此等及其他情況下,係數之該第一非零集合包括向量之所有係數。
在此等及其他情況下,係數之該第一非零集合包括該等係數中之對應於大於該複數個球諧係數中之一或多者所對應的基底函數之階數的階數之彼等係數。
在此等及其他情況下,係數之該第一非零集合包括該等係數中之對應於大於該複數個球諧係數中之一或多者所對應的基底函數之階數的階數之彼等係數,且排除該等係數中之對應於大於該複數個球諧係數中之該一或多者所對應的該基底函數之階數的階數之至少一係數。
在此等及其他情況下,係數之該第一非零集合包括所有該等係數,惟該等係數中之識別為不具有足夠方向資訊之至少一係數除外。
在此等及其他情況下,音訊編碼器件20經進一步組態以將係數之該第一非零集合提取為向量之第一部分。
在此等及其他情況下,音訊編碼器件20經進一步組態以自旁側通道資訊提取向量之第一非零集合,且基於該向量之係數的該第一非零集合獲得該複數個球諧係數之重組版本。
在此等及其他情況下,該向量包含使用基於向量合成自該複數個球諧係數分解之向量。
在此等及其他情況下,該基於向量之合成包含奇異值分解。
在此等及其他情況下,音訊編碼器件20經進一步組態以判定藉以根據複數個組態模式中之一者提取該向量之係數的非零集合之該複數個組態模式中之該者,且基於該複數個組態模式中之所獲得者提取該向量之係數的該非零集合。
在此等及其他情況下,該複數個組態模式中之該者指示該等係數之該非零集合包括所有該等係數。
在此等及其他情況下,該複數個組態模式中之該者指示係數之該非零集合包括該等係數中之對應於大於該複數個球諧係數中之一或多者所對應的基底函數之階數的階數之彼等係數。
在此等及其他情況下,該複數個組態模式中之該者指示係數之該非零集合包括該等係數中之對應於大於該複數個球諧係數中之一或多者所對應的基底函數之階數的階數之彼等係數,且排除該等係數中之對應於大於該複數個球諧係數中之該一或多者所對應的該基底函數之階數的階數之至少一係數。
在此等及其他情況下,該複數個組態模式中之該者指示係數之該非零集合包括所有該等係數,惟該等係數中之至少一者除外。
在此等及其他情況下,音訊編碼器件20經組態以基於在位元串流中用信號通知之值判定該複數個組態模式中之該者。
在一些情況下,該等技術之各種態樣亦可使得音訊編碼器件20能夠識別一或多個獨特音訊物件(或,換言之,優勢音訊物件)。在一些情況下,音訊編碼器件20可經組態以基於針對音訊物件中之一或多者判定之一方向性自與該等音訊物件相關聯之一或多個球諧係數(SHC)識別一或多個獨特音訊物件。
在此等及其他情況下,音訊編碼器件20經進一步組態以基於與音訊物件相關聯之球諧係數判定該一或多個音訊物件的方向性。
在此等及其他情況下,音訊編碼器件20經進一步組態以對於表示音場之複數個球諧係數執行奇異值分解以產生表示複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數之右奇異向量的V矩陣,且將該複數個球諧係數表示為U矩陣、S矩陣及V矩陣中之一或多者的至少一部分的函數,其中音訊編碼器件20經組態以判定該一或多個音訊物件之各別方向性係至少部分基於該V矩陣。
在此等及其他情況下,音訊編碼器件20經進一步組態以對V矩陣之一或多個向量重排序,使得具有較大方向性商之向量在經重排序之V矩陣中定位在具有較小方向性商之向量之上。
在此等及其他情況下,音訊編碼器件20經進一步組態以判定具有較大方向性商之向量比具有較小方向性商之向量包括較多的方向資訊。
在此等及其他情況下,音訊編碼器件20經進一步組態以將V矩陣乘以S矩陣以產生VS矩陣,該VS矩陣包括一或多個向量。
在此等及其他情況下,音訊編碼器件20經進一步組態以選擇VS矩陣之每一列的與大於14之階數相關聯的項,對選定項中的每一者求平方以形成對應求平方項,且對於VS矩陣之每一列,對所有求平方項進行求和以判定對應向量之方向性商。
在此等及其他情況下,音訊編碼器件20經組態以選擇VS矩陣之每一列的與大於14之階數相關聯的項包含選擇在VS矩陣之每一列的第18項處開始且在VS矩陣之每一列的第38項處結束的所有項。
在此等及其他情況下,音訊編碼器件20經進一步組態以選擇VS矩陣之向量之子集來表示獨特音訊物件。在此等及其他情況下,音訊編碼器件20經組態以選擇VS矩陣之四個向量,且其中選定的四個向
量具有VS矩陣之所有向量中之四個最大方向性商。
在此等及其他情況下,音訊編碼器件20經組態以判定表示獨特音訊物件之向量之選定子集係基於每一向量之方向性及能量兩者。
在此等及其他情況下,音訊編碼器件20經進一步組態以在表示獨特音訊物件之一或多個第一向量與一或多個第二向量之間執行能量比較以判定經重排序之一或多個第一向量,其中該一或多個第一向量描述音訊資料之第一部分中的獨特音訊物件,且該一或多個第二向量描述音訊資料之第二部分中的獨特音訊物件。
在此等及其他情況下,音訊編碼器件20經進一步組態以在表示獨特音訊物件之一或多個第一向量與一或多個第二向量之間執行交叉相關以判定經重排序之一或多個第一向量,其中該一或多個第一向量描述音訊資料之第一部分中的獨特音訊物件,且該一或多個第二向量描述音訊資料之第二部分中的獨特音訊物件。
在一些情況下,該等技術之各種態樣亦可使得音訊編碼器件20能夠經組態以對於HOA係數11之分解執行能量補償。在此等及其他情況下,音訊編碼器件20可經組態以:對於複數個球諧係數執行一基於向量之合成以產生表示一或多個音訊物件及對應方向資訊之該複數個球諧係數的分解表示,其中該等球諧係數與一階數相關聯且描述一音場;自該方向資訊判定獨特方向資訊及背景方向資訊;縮減與該等背景音訊物件相關聯之該方向資訊之一階數以產生經變換背景方向資訊;應用補償以增加該經變換方向資訊之值以保留該音場之一總體能量。
在此等及其他情況下,音訊編碼器件20可經組態以:對於複數個球諧係數執行奇異值分解以產生表示音訊物件之U矩陣及S矩陣以及表示方向資訊之V矩陣;判定V矩陣之獨特行向量及V矩陣之背景行向量;縮減V矩陣之背景行向量之階數以產生V矩陣之經變換背景行
向量;及應用補償以增加V矩陣之經變換背景行向量之值以保留音場之總體能量。
在此等及其他情況下,音訊編碼器件20經進一步組態以判定S矩陣之突出奇異值的數目,其中V矩陣之獨特行向量之數目為S矩陣之突出奇異值之數目。
在此等及其他情況下,音訊編碼器件20經組態以判定球諧係數之經縮減階數,且零化V矩陣之背景行向量的與大於該經縮減階數之階數相關聯的列之值。
在此等及其他情況下,音訊編碼器件20經進一步組態以組合U矩陣之背景行、S矩陣之背景行及V矩陣之經變換背景行之轉置以產生經修改球諧係數。
在此等及其他情況下,該等經修改球諧係數描述音場之一或多個背景分量。
在此等及其他情況下,音訊編碼器件20經組態以判定V矩陣之背景行向量中之向量的第一能量及V矩陣之經變換背景行向量中之向量的第二能量,且將放大值應用於V矩陣之經變換背景行向量中之向量的每一元素,其中該放大值包含第一能量與第二能量之比率。
在此等及其他情況下,音訊編碼器件20經組態以判定V矩陣之背景行向量中之向量的第一均方根能量及V矩陣之經變換背景行向量中之向量的第二均方根能量,且將放大值應用於V矩陣之經變換背景行向量中之向量的每一元素,其中該放大值包含第一能量與第二能量之比率。
本發明中所描述之技術的各種態樣亦可使得音訊編碼器件20能夠對於HOA係數11之經分解版本執行內插。在一些情況下,音訊編碼器件20可經組態以至少部分地藉由對於第一複數個球諧係數之一第一分解及第二複數個球諧係數之一第二分解執行一內插而獲得用於一時
間區段之分解式經內插球諧係數。
在此等及其他情況下,該第一分解包含表示該第一複數個球諧係數之右奇異向量的第一V矩陣。
在此等及其他實例中,該第二分解包含表示該第二複數個球諧係數之右奇異向量的第二V矩陣。
在此等及其他情況下,該第一分解包含表示該第一複數個球諧係數之右奇異向量的第一V矩陣,且該第二分解包含表示該第二複數個球諧係數之右奇異向量的第二V矩陣。
在此等及其他情況下,該時間區段包含音訊訊框之子訊框。
在此等及其他情況下,該時間區段包含音訊訊框之時間樣本。
在此等及其他情況下,音訊編碼器件20經組態以獲得第一複數個球諧係數中之球諧係數的第一分解及第二分解的經內插分解。
在此等及其他情況下,音訊編碼器件20經組態以獲得用於包括於第一訊框中之第一複數個球諧係數之第一部分的第一分解及用於包括於第二訊框中之第二複數個球諧係數之第二部分的第二分解之經內插分解,且音訊編碼器件20經進一步組態以將該等經內插分解應用於包括於該第一訊框中的該第一複數個球諧係數之該第一部分之第一時間分量以產生該第一複數個球諧係數之第一人工時間分量,且將各別經內插分解應用於包括於該第二訊框中的該第二複數個球諧係數之該第二部分的第二時間分量以產生所包括的該第二複數個球諧係數之第二人工時間分量。
在此等及其他情況下,該第一時間分量係藉由對於該第一複數個球諧係數執行基於向量之合成而產生。
在此等及其他情況下,該第二時間分量係藉由對於該第二複數個球諧係數執行基於向量之合成而產生。
在此等及其他情況下,音訊編碼器件20經進一步組態以:接收
該第一人工時間分量及該第二人工時間分量;計算用於該第一複數個球諧係數之該第一部分的第一分解及用於該第二複數個球諧係數之該第二部分的第二分解之經內插分解;及將該等經內插分解之逆(inverse)應用於該第一人工時間分量以恢復該第一時間分量且應用於該第二人工時間分量以恢復該第二時間分量。
在此等及其他情況下,音訊編碼器件20經組態以內插第一複數個球諧係數之第一空間分量及第二複數個球諧係數之第二空間分量。
在此等及其他情況下,該第一空間分量包含表示該第一複數個球諧係數之左奇異向量的第一U矩陣。
在此等及其他情況下,該第二空間分量包含表示該第二複數個球諧係數之左奇異向量的第二U矩陣。
在此等及其他情況下,該第一空間分量表示用於第一複數個球諧係數之球諧係數的M個時間區段,且該第二空間分量表示用於第二複數個球諧係數之球諧係數的M個時間區段。
在此等及其他情況下,該第一空間分量表示用於第一複數個球諧係數之球諧係數的M個時間區段且該第二空間分量表示用於第二複數個球諧係數之球諧係數的M個時間區段,且音訊編碼器件20經組態以內插該第一空間分量之最後N個元素及該第二空間分量之前N個元素。
在此等及其他情況下,該第二複數個球諧係數在時域中在該第一複數個球諧係數之後。
在此等及其他情況下,音訊編碼器件20經進一步組態以分解該第一複數個球諧係數以產生該第一複數個球諧係數之第一分解。
在此等及其他情況下,音訊編碼器件20經進一步組態以分解該第二複數個球諧係數以產生該第二複數個球諧係數之第二分解。
在此等及其他情況下,音訊編碼器件20經進一步組態以對於該
第一複數個球諧係數執行奇異值分解以產生表示第一複數個球諧係數之左奇異向量的U矩陣、表示第一複數個球諧係數之奇異值的S矩陣及表示第一複數個球諧係數之右奇異向量的V矩陣。
在此等及其他情況下,音訊編碼器件20經進一步組態以對於第二複數個球諧係數執行奇異值分解以產生表示第二複數個球諧係數之左奇異向量的U矩陣、表示第二複數個球諧係數之奇異值的S矩陣及表示第二複數個球諧係數之右奇異向量的V矩陣。
在此等及其他情況下,該第一複數個球諧係數及該第二複數個球諧係數各表示音場之平面波表示。
在此等及其他情況下,該第一複數個球諧係數及該第二複數個球諧係數各表示混合在一起之一或多個單聲道音訊物件。
在此等及其他情況下,該第一複數個球諧係數及該第二複數個球諧係數各包含表示三維音場之各別第一及第二球諧係數。
在此等及其他情況下,該第一複數個球諧係數及該第二複數個球諧係數各與具有大於一之階數的至少一球面基底函數相關聯。
在此等及其他情況下,該第一複數個球諧係數及該第二複數個球諧係數各與具有等於四之階數的至少一球面基底函數相關聯。
在此等及其他情況下,該內插為第一分解及第二分解之加權內插,其中應用於第一分解之加權內插的權重與由第一及第二分解之向量表示的時間成反比,且其中應用於第二分解之加權內插的權重與由第一及第二分解之向量表示的時間成比例。
在此等及其他情況下,分解式經內插球諧係數平滑化第一複數個球諧係數及第二複數個球諧係數之空間分量及時間分量中之至少一者。
在此等及其他情況下,音訊編碼器件20經組態以計算Us[n]=HOA(n)*(V_vec[n])-1以獲得一純量。
在此等及其他情況下,內插包含線性內插。在此等及其他情況下,內插包含非線性內插。在此等及其他情況下該內插包含餘弦內插。在此等及其他情況下,內插包含加權餘弦內插。在此等及其他情況下,內插包含立方內插。在此等及其他情況下,內插包含自適應性樣條內插。在此等及其他情況下,內插包含最小曲率內插。
在此等及其他情況下,音訊編碼器件20經進一步組態以產生包括用於時間區段之分解式經內插球諧係數的表示及內插之類型的指示之位元串流。
在此等及其他情況下,該指示包含映射至內插之類型的一或多個位元。
以此方式,本發明中所描述之技術的各種態樣可使得音訊編碼器件20能夠經組態以獲得包括用於時間區段之分解式經內插球諧係數的表示及內插之類型的指示之位元串流。
在此等及其他情況下,該指示包含映射至內插之類型的一或多個位元。
就此而言,音訊編碼器件20可表示該等技術之一個實施例,此係由於在一些情況下,音訊編碼器件20可經組態以產生包含音場之空間分量(藉由對於複數個球諧係數執行基於向量之合成而產生的空間分量)的經壓縮版本之位元串流。
在此等及其他情況下,音訊編碼器件20經進一步組態以產生位元串流以包括指定在壓縮空間分量時使用的預測模式之欄位。
在此等及其他情況下,音訊編碼器件20經組態以產生位元串流以包括指定在壓縮空間分量時使用的霍夫曼表之霍夫曼表資訊。
在此等及其他情況下,音訊編碼器件20經組態以產生位元串流以包括指示表達在壓縮空間分量時使用的量化步長或其變數之值的欄位。
在此等及其他情況下,該值包含nbits值。
在此等及其他情況下,音訊編碼器件20經組態以產生位元串流以包括音場(包括其空間分量之經壓縮版本)的複數個空間分量之經壓縮版本,其中該值表達當壓縮複數個空間分量時使用的量化步長或其變數。
在此等及其他情況下,音訊編碼器件20經進一步組態以產生位元串流以包括霍夫曼碼以表示識別空間分量所對應的壓縮類別之類別識別符。
在此等及其他情況下,音訊編碼器件20經組態以產生位元串流以包括識別空間分量為正值還是負值之正負號位元。
在此等及其他情況下,音訊編碼器件20經組態以產生位元串流以包括霍夫曼碼以表示空間分量之殘餘值。
在此等及其他情況下,該基於向量之合成包含奇異值分解。
就此而言,音訊編碼器件20可進一步實施該等技術之各種態樣,此係因為在一些情況下,音訊編碼器件20可經組態以基於複數個空間分量中之一空間分量相對於該複數個空間分量中之剩餘者的一階數識別一霍夫曼碼簿以在壓縮該空間分量時使用,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生。
在此等及其他情況下,音訊編碼器件20經組態以基於壓縮該空間分量時使用的預測模式識別霍夫曼碼簿。
在此等及其他情況下,空間分量之經壓縮版本至少部分地使用識別霍夫曼碼簿之霍夫曼表資訊而表示於位元串流中。
在此等及其他情況下,空間分量之經壓縮版本至少部分地使用指示表達壓縮該空間分量時使用的量化步長或其變數之值的欄位而表示於位元串流中。
在此等及其他情況下,該值包含nbits值。
在此等及其他情況下,位元串流包含音場(包括其空間分量之經壓縮版本)的複數個空間分量之經壓縮版本,且該值表達當壓縮複數個空間分量時使用的量化步長或其變數。
在此等及其他情況下,空間分量之經壓縮版本係至少部分地使用霍夫曼碼選定形式而表示於位元串流中,所識別的霍夫曼碼簿用以表示識別空間分量所對應的壓縮類別之類別識別符。
在此等及其他情況下,空間分量之經壓縮版本至少部分地使用識別空間分量為正值還是負值之正負號位元而表示於位元串流中。
在此等及其他情況下,空間分量之經壓縮版本係至少部分地使用霍夫曼碼選定形式而表示於位元串流中,所識別之霍夫曼碼簿用以表示空間分量之殘餘值。
在此等及其他情況下,音訊編碼器件20經進一步組態以基於所識別之霍夫曼碼簿壓縮空間分量以產生空間分量之經壓縮版本,且產生位元串流以包括空間分量之經壓縮版本。
此外,在一些情況下,音訊編碼器件20可實施該等技術之各種態樣,此係由於音訊編碼器件20可經組態以判定在壓縮音場之空間分量(藉由對於複數個球諧係數執行基於向量之合成而產生的空間分量)時將使用的量化步長。
在此等及其他情況下,音訊編碼器件20經進一步組態以基於目標位元速判定量化步長。
在此等及其他情況下,音訊編碼器件20經組態以判定用以表示空間分量之位元的數目之估計,且基於該估計與目標位元速之間的差判定該量化步長。
在此等及其他情況下,音訊編碼器件20經組態以判定用以表示空間分量之位元的數目之估計,判定該估計與目標位元速之間的差,且藉由將該差相加至目標位元率而判定該量化步長。
在此等及其他情況下,音訊編碼器件20經組態以計算將針對空間分量產生之位元的數目之估計(給定對應於目標位元率之碼簿)。
在此等及其他情況下,音訊編碼器件20經組態以計算將針對空間分量產生之位元的數目之估計(給定在壓縮空間分量時使用的寫碼模式)。
在此等及其他情況下,音訊編碼器件20經組態以:計算將針對空間分量產生之位元的數目之第一估計(給定在壓縮空間分量時將使用的第一寫碼模式);計算將針對空間分量產生之位元的數目之第二估計(給定在壓縮空間分量時將使用的第二寫碼模式);選擇第一估計及第二估計中具有最少數目的位元將用作位元數目之所判定估計的一估計。
在此等及其他情況下,音訊編碼器件20經組態以:識別識別空間分量所對應的類別之類別識別符;識別在壓縮對應於該類別之空間分量時將導致的空間分量之殘餘值的位元長度;及至少部分地藉由將用以表示類別識別符之位元數目相加至殘餘值之位元長度來判定位元數目之估計。
在此等及其他情況下,音訊編碼器件20經進一步組態以選擇在壓縮空間分量時將使用的複數個碼簿中之一者。
在此等及其他情況下,音訊編碼器件20經進一步組態以使用該複數個碼簿中的每一者判定用以表示空間分量之位元的數目之估計,且選擇該複數個碼簿中導致具有最少數目的位元之所判定估計的一碼簿。
在此等及其他情況下,音訊編碼器件20經進一步組態以使用該複數個碼簿中之一或多者判定用以表示空間分量之位元的數目之估計,該複數個碼簿中之該一或多者係基於將相對於空間分量之其他元素壓縮的空間分量之元素之階數而加以選擇。
在此等及其他情況下,音訊編碼器件20經進一步組態以使用該複數個碼簿中之經設計以在空間分量並非係自後續空間分量預測時使用的一碼簿判定用以表示該空間分量之位元的數目之估計。
在此等及其他情況下,音訊編碼器件20經進一步組態以使用該複數個碼簿中之經設計以在空間分量係自後續空間分量預測時使用的一碼簿判定用以表示該空間分量之位元的數目之估計。
在此等及其他情況下,音訊編碼器件20經進一步組態以使用該複數個碼簿中之經設計以在空間分量表示音場中之合成音訊物件時使用的一碼簿判定用以表示該空間分量之位元的數目之估計。
在此等及其他情況下,合成音訊物件包含脈碼調變(PCM)音訊物件。
在此等及其他情況下,音訊編碼器件20經進一步組態以使用該複數個碼簿中之經設計以在空間分量表示音場中之所記錄音訊物件時使用的一碼簿判定用以表示該空間分量之位元的數目之估計。
在上文所描述的各種情況中的每一者中,應理解,音訊編碼器件20可執行方法或另外包含用以執行音訊編碼器件20經組態以執行的方法之每一步驟的構件。在一些情況下,此等構件可包含一或多個處理器。在一些情況下,該一或多個處理器可表示藉助於儲存至非暫時性電腦可讀儲存媒體之指令組態之專用處理器。換言之,編碼實例之集合中的每一者中的技術之各種態樣可提供其上儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在執行時使得一或多個處理器執行音訊編碼器件20已經組態以執行之方法。
圖5為更詳細地說明圖3之音訊解碼器件24之方塊圖。如圖5之實例中所示,音訊解碼器件24可包括提取單元72、基於方向性之重建構單元90及基於向量之重建構單元92。
提取單元72可表示經組態以接收位元串流21且提取HOA係數11
之各種經編碼版本(例如,基於方向之經編碼版本或基於向量之經編碼版本)的單元。提取單元72可自上文指出之語法(例如,圖10E及圖10H(i)至圖10O(ii)之實例中所展示之ChannelType語法元素)判定HOA係數11是否係經由各種版本加以編碼。當執行基於方向之編碼時,提取單元72可提取HOA係數11之基於方向之版本及與此經編碼版本相關聯之語法元素(其在圖5之實例中表示為基於方向之資訊91),將此基於方向之資訊91傳遞至基於方向之重建單元90。基於方向之重建單元90可表示經組態以基於基於方向之資訊91以HOA係數11'之形式重建構HOA係數的單元。在下文關於圖10至圖10O(ii)及圖11之實例更詳細地描述位元串流及語法元素在位元串流內之配置。
當語法元素指示HOA係數11係使用基於向量之合成編碼時,提取單元72可提取經寫碼前景V[k]向量57、經編碼環境HOA係數59及經編碼nFG信號59。提取單元72可將經寫碼前景V[k]向量57傳遞至量化單元74,且將經編碼環境HOA係數59連同經編碼nFG信號61傳遞至音質解碼單元80。
為提取經寫碼前景V[k]向量57、經編碼環境HOA係數59及經編碼nFG信號59,提取單元72可獲得包括表示為codedVVecLength的語法元素之旁側通道資訊57。提取單元72可剖析來自旁側通道資訊57之codedVVecLength。提取單元72可經組態以基於codedVVecLength語法元素以上述組態模式中的任一者操作。
提取單元72接著根據組態模式中的任一者操作以剖析來自旁側通道資訊57的經縮減前景V[k]向量55 k 之壓縮形式。提取單元72可根據在以下偽碼中存在的switch語句而操作,其中語法存在於用於VVectorData之以下語法表中:
在先前語法表中,具有四種情況(情況0至3)之第一switch語句提供藉以根據係數之數目(VVecLength)及索引(VVecCoeffId)判定VT DIST向量長度之方式。第一情況,情況0,指示用於VT DIST向量之所有係數(NumOfHoaCoeffs)被指定。第二情況,情況1,指示僅VT DIST向量之
對應於大於MinNumOfCoeffsForAmbHOA之數目的彼等係數被指定,其可表示上文所指的(NDIST+1)2-(NBG+1)2。另外,ContAddAmbHoaChan中識別之彼等NumOfContAddAmbHoaChan係數被減去。清單ContAddAmbHoaChan指定對應於超過階數MinAmbHoaOrder之階數的額外通道(其中「通道」係指對應於某一階數、子階組合之特定係數)。第三情況,情況2,指示VT DIST向量之對應於大於MinNumOfCoeffsForAmbHOA之數目的彼等係數被指定,其可表示上文所指的(NDIST+1)2-(NBG+1)2。第四情況,情況3,指示VT DIST向量之在移除藉由NumOfContAddAmbHoaChan識別之係數之後所剩餘的彼等係數被指定。VVecLength以及VVecCoeffId清單兩者對於HOAFrame上之所有VVectors皆係有效的。
在此switch語句之後,可藉由NbitsQ(或,如上文所表示,nbits)控制是否執行均勻解量化之決策,若NbitsQ等於5,則執行均勻的8位元純量解量化。相比之下,大於或等於6之NbitsQ值可導致霍夫曼解碼之應用。上文提及之cid值可等於NbitsQ值之兩個最低有效位元。上文所論述之預測模式在以上語法表中表示為PFlag,而HT資訊位元在以上語法表中表示為CbFlag。剩餘語法指定解碼如何以實質上類似於上文所描述的方式出現。下文關於圖10H(i)至10O(ii)更詳細地描述符合以上指出之各種情況中的每一者之位元串流21之各種實例。
基於向量之重建構單元92表示經組態以執行與上文關於基於向量之合成單元27所描述的操作互逆之操作以便重建構HOA係數11'之單元。基於向量之重建構單元92可包括量化單元74、空間-時間內插單元76、前景制訂單元78、音質解碼單元80、HOA係數制訂單元82及重排序單元84。
量化單元74可表示經組態而以與圖4之實例中所示的量化單元52互逆之方式操作以便對經寫碼前景V[k]向量57解量化且藉此產生經縮
減前景V[k]向量55 k 之單元。在一些實例中,解量化單元74可以與上文關於量化單元52所描述的方式互逆的方式執行某形式之熵解碼及純量解量化。解量化單元74可將經縮減前景V[k]向量55 k 轉遞至重排序單元84。
音質解碼單元80可以與圖4之實例中所示的音質音訊寫碼單元40互逆之方式操作以便對經編碼環境HOA係數59及經編碼nFG信號61進行解碼且藉此產生能量經補償之環境HOA係數47'及經內插nFG信號49'(其亦可被稱作經內插nFG音訊物件49')。音質解碼單元80可將能量經補償之環境HOA係數47'傳遞至HOA係數制訂單元82且將nFG信號49'傳遞至重排序84。
重排序單元84可表示經組態而以與上文關於重排序單元34所描述之方式大體互逆之方式操作的單元。重排序單元84可接收指示HOA係數11之前景分量的原始階數之語法元素。重排序單元84可基於此等重排序語法元素對經內插nFG信號49'及經縮減前景V[k]向量55 k 重排序以產生經重排序之nFG信號49"及經重排序之前景V[k]向量55 k '。重排序單元84可將經重排序之nFG信號49"輸出至前景制訂單元78,且將經重排序之前景V[k]向量55 k '輸出至空間-時間內插單元76。
空間-時間內插單元76可以類似於上文關於空間-時間內插單元50所描述的方式之方式操作。空間-時間內插單元76可接收經重排序之前景V[k]向量55 k '且對於經重排序之前景V[k]向量55 k '及經重排序之前景V[k-1]向量55 k-1'執行空間-時間內插以產生經內插前景V[k]向量55 k "。空間-時間內插單元76可將經內插前景V[k]向量55 k "轉遞至前景制訂單元78。
前景制訂單元78可表示經組態以對於經內插前景V[k]向量55 k "及經重排序之nFG信號49"執行矩陣乘法以產生前景HOA係數65之單元。前景制訂單元78可執行經重排序之nFG信號49"與經內插前景V[k]
向量55 k "之矩陣乘法。
HOA係數制訂單元82可表示經組態以將前景HOA係數65相加至環境HOA通道47'以便獲得HOA係數11'之單元,其中撇號記法反映此等HOA係數11'可類似於但不同於HOA係數11。HOA係數11與11'之間的差異可源自於歸因於經由有損傳輸傳輸、量化或其他有損操作之損失。
以此方式,該等技術可使得諸如音訊解碼器件24之音訊解碼器件能夠:自位元串流判定經量化方向資訊、經編碼前景音訊物件及經編碼環境高階立體混響(HOA)係數,其中經量化方向資訊及經編碼前景音訊物件表示描述音場之前景分量的前景HOA係數,且其中經編碼環境HOA係數描述音場之環境分量;對經量化方向資訊進行解量化以產生方向資訊;對於該方向資訊執行空間-時間內插以產生經內插方向資訊;對經編碼前景音訊物件進行音訊解碼以產生前景音訊物件及經編碼環境HOA係數從而產生環境HOA係數;作為經內插方向資訊及前景音訊物件之函數判定前景HOA係數;及作為前景HOA係數及環境HOA係數之函數判定HOA係數。
以此方式,該等技術之各種態樣可使得統一音訊解碼器件24能夠在兩個不同解壓縮方案之間切換。在一些情況下,音訊解碼器件24可經組態以基於表示音場之球諧係數的經壓縮版本是否係自合成音頻物件產生之指示而選擇複數個解壓縮方案中之一者,且使用該複數個解壓縮方案中之該選定者解壓縮該等球諧係數之該經壓縮版本。在此等及其他情況下,該音訊解碼器件24包含整合式解碼器。
在一些情況下,音訊解碼器件24可經組態以獲得表示音場之球諧係數是否係自合成音頻物件產生之指示。
在此等及其他情況下,音訊解碼器件24經組態以自儲存球諧係數之經壓縮版本的位元串流獲得該指示。
以此方式,該等技術之各種態樣可使得音訊解碼器件24能夠獲得描述音場之獨特分量及背景分量的向量。在一些情況下,音訊解碼器件24可經組態以判定描述音場之獨特分量的一或多個第一向量及描述該音場之背景分量的一或多個第二向量,該一或多個第一向量及該一或多個第二向量皆係至少藉由相對於複數個球諧係數執行變換而產生。
在此等及其他情況下,音訊解碼器件24,其中變換包含奇異值分解,該奇異值分解產生表示複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數之右奇異向量的V矩陣。
在此等及其他情況下,音訊解碼器件24,其中該一或多個第一向量包含一或多個音訊編碼之UDIST*SDIST向量,其係在音訊編碼之前藉由將U矩陣之一或多個音訊編碼之UDIST向量乘以S矩陣之一或多個SDIST向量而產生,且其中U矩陣及S矩陣係至少藉由對於複數個球諧係數執行奇異值分解而產生。
在此等及其他情況下,音訊解碼器件24經進一步組態以對該一或多個音訊編碼UDIST*SDIST向量進行音訊解碼以產生一或多個音訊編碼UDIST*SDIST向量之音訊解碼版本。
在此等及其他情況下,音訊解碼器件24,其中該一或多個第一向量包含一或多個音訊編碼之UDIST*SDIST向量及具有V矩陣之轉置的一或多個VT DIST向量,該一或多個音訊編碼之UDIST*SDIST向量係在音訊編碼之前藉由將U矩陣之一或多個音訊編碼之UDIST向量乘以S矩陣之一或多個SDIST向量而產生,且其中U矩陣及S矩陣以及V矩陣係至少藉由對於複數個球諧係數執行奇異值分解而產生。
在此等及其他情況下,音訊解碼器件24經進一步組態以對該一或多個音訊編碼UDIST*SDIST向量進行音訊解碼以產生一或多個音訊編
碼UDIST*SDIST向量之音訊解碼版本。
在此等及其他情況下,音訊解碼器件24經進一步組態以將UDIST*SDIST向量乘以VT DIST向量以恢復複數個球諧中表示音場之獨特分量的球諧。
在此等及其他情況下,音訊解碼器件24,其中該一或多個第二向量包含一或多個音訊編碼之UBG*SBG*VT BG向量,該一或多個音訊編碼之UBG*SBG*VT BG向量係在音訊編碼之前藉由將包括於U矩陣內之UBG向量乘以包括於S矩陣內之SBG向量且接著乘以包括於V矩陣之轉置內的VT BG向量而產生,且其中U矩陣、S矩陣及V矩陣各自係至少藉由對於複數個球諧係數執行奇異值分解而產生。
在此等及其他情況下,音訊解碼器件24,其中該一或多個第二向量包含一或多個音訊編碼之UBG*SBG*VT BG向量,該一或多個音訊編碼之UBG*SBG*VT BG向量係在音訊編碼之前藉由將包括於U矩陣內之UBG向量乘以包括於S矩陣內之SBG向量且接著乘以包括於V矩陣之轉置內的VT BG向量而產生,其中S矩陣、U矩陣及V矩陣係至少藉由對於複數個球諧係數執行奇異值分解而產生,且其中音訊解碼器件24經進一步組態以對該一或多個音訊編碼UBG*SBG*VT BG向量進行音訊解碼以產生一或多個音訊解碼UBG*SBG*VT BG向量。
在此等及其他情況下,音訊解碼器件24,其中一或多個第一向量包含一或多個音訊編碼之UDIST*SDIST向量及具有V矩陣之轉置的一或多個VT DIST向量,該一或多個音訊編碼之UDIST*SDIST向量係在音訊編碼之前藉由將U矩陣之一或多個音訊編碼UDIST向量乘以S矩陣之一或多個SDIST向量而產生,其中S矩陣、U矩陣及V矩陣係至少藉由對於複數個球諧係數執行奇異值分解而產生,且其中音訊解碼器件24經進一步組態以對該一或多個音訊編碼UDIST*SDIST向量進行音訊解碼以產生一或多個UDIST*SDIST向量,且將UDIST*SDIST向量乘以VT DIST向量以恢
復複數個球諧係數中描述音場之獨特分量的彼等球諧係數,其中該一或多個第二向量包含一或多個音訊編碼之UBG*SBG*VT BG向量,該一或多個音訊編碼之UBG*SBG*VT BG向量係在音訊編碼之前藉由將包括於U矩陣內之UBG向量乘以包括於S矩陣內之SBG向量且接著乘以包括於V矩陣之轉置內的VT BG向量而產生,且其中音訊解碼器件24經進一步組態以對該一或多個音訊編碼UBG*SBG*VT BG向量進行音訊解碼以恢復複數個球諧係數中描述音場之背景分量的至少一部分球諧係數,且將描述音場之獨特分量的該複數個球諧係數相加至該複數個球諧係數中描述音場之背景分量的至少部分球諧係數以產生複數個球諧係數之經重建構版本。
在此等及其他情況下,音訊解碼器件24,其中該一或多個第一向量包含一或多個UDIST*SDIST向量及具有V矩陣之轉置的一或多個VT DIST向量,該一或多個UDIST*SDIST向量係在音訊編碼之前藉由將U矩陣之一或多個音訊編碼之UDIST向量乘以S矩陣之一或多個SDIST向量而產生,其中U矩陣、S矩陣及V矩陣係至少藉由對於複數個球諧係數執行奇異值分解而產生,且其中音訊解碼器件20經進一步組態以獲得值D,該值D指示待自位元串流提取以形成該一或多個UDIST*SDIST向量及該一或多個VT DIST向量之向量的數目。
在此等及其他情況下,音訊解碼器件24,其中該一或多個第一向量包含一或多個UDIST*SDIST向量及具有V矩陣之轉置的一或多個VT DIST向量,該一或多個UDIST*SDIST向量係在音訊編碼之前藉由將U矩陣之一或多個音訊編碼之UDIST向量乘以S矩陣之一或多個SDIST向量而產生,其中U矩陣、S矩陣及V矩陣係至少藉由對於複數個球諧係數執行奇異值分解而產生,且其中音訊解碼器件24經進一步組態以逐音訊訊框地獲得值D,該值D指示待自位元串流提取以形成該一或多個UDIST*SDIST向量及該一或多個VT DIST向量之向量的數目。
在此等及其他情況下,音訊解碼器件24,其中該變換包含主分量分析以識別音場之獨特分量及音場之背景分量。
本發明中所描述之技術的各種態樣亦可使得音訊編碼器件24能夠對於HOA係數之經分解版本執行內插。在一些情況下,音訊解碼器件24可經組態以至少部分地藉由對於第一複數個球諧係數之一第一分解及第二複數個球諧係數之一第二分解執行一內插而獲得用於一時間區段之分解式經內插球諧係數。
在此等及其他情況下,該第一分解包含表示該第一複數個球諧係數之右奇異向量的第一V矩陣。
在此等及其他實例中,該第二分解包含表示該第二複數個球諧係數之右奇異向量的第二V矩陣。
在此等及其他情況下,該第一分解包含表示該第一複數個球諧係數之右奇異向量的第一V矩陣,且該第二分解包含表示該第二複數個球諧係數之右奇異向量的第二V矩陣。
在此等及其他情況下,該時間區段包含音訊訊框之子訊框。
在此等及其他情況下,該時間區段包含音訊訊框之時間樣本。
在此等及其他情況下,音訊解碼器件24經組態以獲得第一複數個球諧係數中之球諧係數的第一分解及第二分解的經內插分解。
在此等及其他情況下,音訊解碼器件24經組態以獲得用於包括於第一訊框中之第一複數個球諧係數之第一部分的第一分解及用於包括於第二訊框中之第二複數個球諧係數之第二部分的第二分解之經內插分解,且音訊解碼器件24經進一步組態以將該等經內插分解應用於包括於該第一訊框中的該第一複數個球諧係數之該第一部分之第一時間分量以產生該第一複數個球諧係數之第一人工時間分量,且將各別經內插分解應用於包括於該第二訊框中的該第二複數個球諧係數之該第二部分的第二時間分量以產生所包括的該第二複數個球諧係數之第
二人工時間分量。
在此等及其他情況下,該第一時間分量係藉由對於該第一複數個球諧係數執行基於向量之合成而產生。
在此等及其他情況下,該第二時間分量係藉由對於該第二複數個球諧係數執行基於向量之合成而產生。
在此等及其他情況下,音訊解碼器件24經進一步組態以:接收該第一人工時間分量及該第二人工時間分量;計算用於該第一複數個球諧係數之該第一部分的第一分解及用於該第二複數個球諧係數之該第二部分的第二分解之經內插分解;及將該等經內插分解之逆應用於該第一人工時間分量以恢復該第一時間分量且應用於該第二人工時間分量以恢復該第二時間分量。
在此等及其他情況下,音訊解碼器件24經組態以內插第一複數個球諧係數之第一空間分量及第二複數個球諧係數之第二空間分量。
在此等及其他情況下,該第一空間分量包含表示該第一複數個球諧係數之左奇異向量的第一U矩陣。
在此等及其他情況下,該第二空間分量包含表示該第二複數個球諧係數之左奇異向量的第二U矩陣。
在此等及其他情況下,該第一空間分量表示用於第一複數個球諧係數之球諧係數的M個時間區段,且該第二空間分量表示用於第二複數個球諧係數之球諧係數的M個時間區段。
在此等及其他情況下,該第一空間分量表示用於第一複數個球諧係數之球諧係數的M個時間區段且該第二空間分量表示用於第二複數個球諧係數之球諧係數的M個時間區段,且音訊解碼器件24經組態以內插該第一空間分量之最後N個元素及該第二空間分量之前N個元素。
在此等及其他情況下,該第二複數個球諧係數在時域中在該第
一複數個球諧係數之後。
在此等及其他情況下,音訊解碼器件24經進一步組態以分解該第一複數個球諧係數以產生該第一複數個球諧係數之第一分解。
在此等及其他情況下,音訊解碼器件24經進一步組態以分解該第二複數個球諧係數以產生該第二複數個球諧係數之第二分解。
在此等及其他情況下,音訊解碼器件24經進一步組態以對於該第一複數個球諧係數執行奇異值分解以產生表示第一複數個球諧係數之左奇異向量的U矩陣、表示第一複數個球諧係數之奇異值的S矩陣及表示第一複數個球諧係數之右奇異向量的V矩陣。
在此等及其他情況下,音訊解碼器件24經進一步組態以對於第二複數個球諧係數執行奇異值分解以產生表示第二複數個球諧係數之左奇異向量的U矩陣、表示第二複數個球諧係數之奇異值的S矩陣及表示第二複數個球諧係數之右奇異向量的V矩陣。
在此等及其他情況下,該第一複數個球諧係數及該第二複數個球諧係數各表示音場之平面波表示。
在此等及其他情況下,該第一複數個球諧係數及該第二複數個球諧係數各表示混合在一起之一或多個單聲道音訊物件。
在此等及其他情況下,該第一複數個球諧係數及該第二複數個球諧係數各包含表示三維音場之各別第一及第二球諧係數。
在此等及其他情況下,該第一複數個球諧係數及該第二複數個球諧係數各與具有大於一之階數的至少一球面基底函數相關聯。
在此等及其他情況下,該第一複數個球諧係數及該第二複數個球諧係數各與具有等於四之階數的至少一球面基底函數相關聯。
在此等及其他情況下,該內插為第一分解及第二分解之加權內插,其中應用於第一分解之加權內插的權重與由第一及第二分解之向量表示的時間成反比,且其中應用於第二分解之加權內插的權重與由
第一及第二分解之向量表示的時間成比例。
在此等及其他情況下,分解式經內插球諧係數平滑化第一複數個球諧係數及第二複數個球諧係數之空間分量及時間分量中之至少一者。
在此等及其他情況下,音訊解碼器件24經組態以計算Us[n]=HOA(n)*(V_vec[n])-1以獲得一純量。
在此等及其他情況下,內插包含線性內插。在此等及其他情況下,內插包含非線性內插。在此等及其他情況下該內插包含餘弦內插。在此等及其他情況下,內插包含加權餘弦內插。在此等及其他情況下,內插包含立方內插。在此等及其他情況下,內插包含自適應性樣條內插。在此等及其他情況下,內插包含最小曲率內插。
在此等及其他情況下,音訊解碼器件24經進一步組態以產生包括用於時間區段之分解式經內插球諧係數的表示及內插之類型的指示之位元串流。
在此等及其他情況下,該指示包含映射至內插之類型的一或多個位元。
在此等及其他情況下,音訊解碼器件24經進一步組態以獲得包括用於時間區段之分解式經內插球諧係數的表示及內插之類型的指示之位元串流。
在此等及其他情況下,該指示包含映射至內插之類型的一或多個位元。
在一些情況下,該等技術之各種態樣可進一步使得音訊解碼器件24能夠經組態以獲得包含音場之空間分量之經壓縮版本的位元串流,該空間分量係藉由對於複數個球諧係數執行基於向量之合成而產生。
在此等及其他情況下,空間分量之經壓縮版本係至少部分使用
指定當壓縮空間分量時使用之預測模式的欄位表示於位元串流中。
在此等及其他情況下,空間分量之經壓縮版本係至少部分地使用霍夫曼表資訊而表示於位元串流中,該霍夫曼表資訊指定在壓縮空間分量時使用的霍夫曼表。
在此等及其他情況下,空間分量之經壓縮版本至少部分地使用指示表達壓縮空間分量時使用的量化步長或其變數之值的欄位而表示於位元串流中。
在此等及其他情況下,該值包含nbits值。
在此等及其他情況下,位元串流包含音場(包括其空間分量之經壓縮版本)的複數個空間分量之經壓縮版本,且該值表達當壓縮複數個空間分量時使用的量化步長或其變數。
在此等及其他情況下,空間分量之經壓縮版本至少部分使用用以表示識別空間分量所對應的壓縮類別之類別識別符的霍夫曼碼而表示於位元串流中。
在此等及其他情況下,空間分量之經壓縮版本至少部分地使用識別空間分量為正值還是負值之正負號位元而表示於位元串流中。
在此等及其他情況下,空間分量之經壓縮版本係至少部分使用用以表示空間分量之殘餘值的霍夫曼碼而表示於位元串流中。
在此等及其他情況下,該器件包含音訊解碼器件。
該等技術之各種態樣亦可使得音訊解碼器件24能夠基於複數個經壓縮空間分量中之一空間分量的一經壓縮版本相對於該複數個經壓縮空間分量中之其餘者的一階數識別一霍夫曼碼簿以在對該空間分量之該經壓縮版本進行解壓縮時使用,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生。
在此等及其他情況下,音訊解碼器件24經組態以獲得包含音場之空間分量的經壓縮版本之位元串流,且至少部分地使用所識別霍夫
曼碼簿解壓縮空間分量之經壓縮版本以獲得空間分量。
在此等及其他情況下,空間分量之經壓縮版本至少部分地使用指定在壓縮空間分量時使用的預測模式之欄位而表示於位元串流中,且音訊解碼器件24經組態以至少部分地基於該預測模式解壓縮空間分量之經壓縮版本以獲得空間分量。
在此等及其他情況下,空間分量之經壓縮版本至少部分地使用指定在壓縮空間分量時使用的霍夫曼表之霍夫曼表資訊而表示於位元串流中,且音訊解碼器件24經組態以至少部分地基於該霍夫曼表資訊解壓縮空間分量之經壓縮版本。
在此等及其他情況下,空間分量之經壓縮版本至少部分地使用指示表達在壓縮空間分量時使用的量化步長或其變數之值的欄位而表示於位元串流中,且音訊解碼器件24經組態以至少部分地基於該值解壓縮空間分量之經壓縮版本。
在此等及其他情況下,該值包含nbits值。
在此等及其他情況下,位元串流包含音場(包括其空間分量之經壓縮版本)的複數個空間分量之經壓縮版本,該值表達當壓縮複數個空間分量時使用的量化步長或其變數,且音訊解碼器件24經組態以至少部分地基於該值解壓縮空間分量之複數個經壓縮版本。
在此等及其他情況下,空間分量之經壓縮版本至少部分地使用用以表示識別空間分量所對應的壓縮類別之類別識別符的霍夫曼碼而表示於位元串流中,且音訊解碼器件24經組態以至少部分地基於該霍夫曼碼解壓縮空間分量之經壓縮版本。
在此等及其他情況下,空間分量之經壓縮版本至少部分地使用識別空間分量為正值還是負值之正負號位元而表示於位元串流中,且音訊解碼器件24經組態以至少部分地基於該正負號位元解壓縮空間分量之經壓縮版本。
在此等及其他情況下,空間分量之經壓縮版本至少部分地使用用以表示空間分量之殘餘值的霍夫曼碼而表示於位元串流中,且音訊解碼器件24經組態以至少部分地基於包括於所識別的霍夫曼碼簿中的霍夫曼碼解壓縮空間分量之經壓縮版本。
在上文所描述的各種情況中的每一者中,應理解,音訊解碼器件24可執行方法或另外包含用以執行音訊解碼器件24經組態以執行的方法之每一步驟的構件。在一些情況下,此等構件可包含一或多個處理器。在一些情況下,該一或多個處理器可表示藉助於儲存至非暫時性電腦可讀儲存媒體之指令組態之專用處理器。換言之,編碼實例之集合中的每一者中的技術之各種態樣可提供其上儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在執行時使得一或多個處理器執行音訊解碼器件24已經組態以執行之方法。
圖6為說明音訊編碼器件之內容分析單元(諸如圖4之實例中所示的內容分析單元26)執行本發明中所描述之技術的各種態樣之例示性操作的流程圖。
在判定表示音場之HOA係數11是否係自合成音頻物件產生時,內容分析單元26可獲得HOA係數之訊框(93),其對於四階表示(亦即,N=4)可為大小25乘1024。在獲得框式HOA係數(其亦可在本文中表示為框式SHC矩陣11,且後續框式SHC矩陣可表示為框式SHC矩陣27B、27C,等)之後,內容分析單元26可接著排除框式HOA係數11之第一向量以產生經縮減框式HOA係數(94)。
內容分析單元26可接著自經縮減框式HOA係數之剩餘向量預測經縮減框式HOA係數之第一非零向量(95)。在預測第一非零向量之後,內容分析單元26可基於預測之第一非零向量及實際非零向量而獲得一錯誤(96)。一旦獲得該錯誤,內容分析單元26即可基於實際第一非零向量及該錯誤之能量計算一比率(97)。內容分析單元26可接著比
較此比率與一臨限值(98)。當該比率不超出臨限值(「否」98)時,內容分析單元26可判定框式SHC矩陣11係自記錄產生,且在位元串流中指示SHC矩陣11之對應經寫碼表示係自記錄產生(100,101)。當該比率超過臨限值(「是」98)時,內容分析單元26可判定框式SHC矩陣11係自合成音頻物件產生,且在位元串流中指示框式SHC矩陣11之對應經寫碼表示係自合成音頻物件產生(102,103)。在一些情況下,當框式SHC矩陣11係自記錄產生時,內容分析單元26將框式SHC矩陣11傳遞至基於向量之合成單元27(101)。在一些情況下,當框式SHC矩陣11係自合成音頻物件產生時,內容分析單元26將框式SHC矩陣11傳遞至基於方向之合成單元28(104)。
圖7為說明音訊編碼器件(諸如圖4之實例中所示的音訊編碼器件20)執行本發明中所描述之基於向量之合成技術的各種態樣之例示性操作的流程圖。最初,音訊編碼器件20接收HOA係數11(106)。音訊編碼器件20可調用LIT單元30,LIT單元30可對於HOA係數應用LIT以輸出經變換HOA係數(例如,在SVD之情況下,經變換HOA係數可包含US[k]向量33及V[k]向量35)(107)。
音訊編碼器件20可接下來調用參數計算單元32以按上文所描述的方式對於US[k]向量33、US[k-1]向量33、V[k]及/或V[k-1]向量35之任何組合執行上述分析以識別各種參數。亦即,參數計算單元32可基於經變換HOA係數33/35之分析判定至少一參數(108)。
音訊編碼器件20可接著調用重排序單元34,重排序單元34其基於參數對經變換HOA係數(再次在SVD之內容脈絡中,其可指US[k]向量33及V[k]向量35)重排序以產生經重排序之經變換HOA係數33'/35'(或,換言之,US[k]向量33'及V[k]向量35'),如上文所描述(109)。在先前操作或後續操作中的任一者期間,音訊編碼器件20亦可調用音場分析單元44。如上文所描述,音場分析單元44可對於HOA
係數11及/或經變換HOA係數33/35執行音場分析以判定前景通道之總數(nFG)45、背景音場之階數(NBG)以及要發送之額外BG HOA通道之數目(nBGa)及索引(i)(其在圖4之實例中可共同地表示為背景通道資訊43)(109)。
音訊編碼器件20亦可調用背景選擇單元48。背景選擇單元48可基於背景通道資訊43判定背景或環境HOA係數47(110)。音訊編碼器件20可進一步調用前景選擇單元36,前景選擇單元36可基於nFG45(其可表示識別此等前景向量之一或多個索引)選擇經重排序之US[k]向量33'及經重排序之V[k]向量35'中表示音場之前景或獨特分量之彼等向量(112)。
音訊編碼器件20可調用能量補償單元38。能量補償單元38可對於環境HOA係數47執行能量補償以補償歸因於藉由背景選擇單元48移除HOA通道中之多者而造成的能量損失(114),且藉此產生能量經補償之環境HOA係數47'。
音訊編碼器件20亦接著調用空間-時間內插單元50。空間-時間內插單元50可對於經重排序之經變換HOA係數33'/35'執行空間-時間內插以獲得經內插前景信號49'(其亦可被稱作「經內插nFG信號49'」)及剩餘前景方向資訊53(其亦可被稱作「V[k]向量53」)(116)。音訊編碼器件20可接著調用係數縮減單元46。係數縮減單元46可基於背景通道資訊43對於剩餘前景V[k]向量53執行係數縮減以獲得經縮減前景方向資訊55(其亦可被稱作經縮減前景V[k]向量55)(118)。
音訊編碼器件20可接著調用量化單元52以按上文所描述的方式壓縮經縮減前景V[k]向量55且產生經寫碼前景V[k]向量57(120)。
音訊編碼器件20亦可調用音質音訊寫碼器單元40。音質音訊寫碼器單元40可對能量經補償之環境HOA係數47'及經內插nFG信號49'之每一向量進行音質寫碼以產生經編碼環境HOA係數59及經編碼nFG
信號61。音訊編碼器件可接著調用位元串流產生單元42。位元串流產生單元42可基於經寫碼前景方向資訊57、經寫碼環境HOA係數59、經寫碼nFG信號61及背景通道資訊43產生位元串流21。
圖8為說明音訊解碼器件(諸如圖5中所示的音訊解碼器件24)執行本發明中所描述之技術的各種態樣之例示性操作的流程圖。最初,音訊解碼器件24可接收位元串流21(130)。在接收到位元串流之後,音訊解碼器件24可即刻調用提取單元72。假定出於論述之目的,位元串流21指示將執行基於向量之重建構,則提取器件72可剖析此位元串流以擷取以上指出之資訊,將此資訊傳遞至基於向量之基於向量之重建構單元92。
換言之,提取單元72可以上文所描述的方式自位元串流21提取經寫碼前景方向資訊57(再次,其亦可被稱作經寫碼前景V[k]向量57)、經寫碼環境HOA係數59及經寫碼前景信號(其亦可被稱作經寫碼前景nFG信號59或經寫碼前景音訊物件59)(132)。
音訊解碼器件24可進一步調用量化單元74。量化單元74可對經寫碼前景方向資訊57進行熵解碼及解量化以獲得經縮減前景方向資訊55 k (136)。音訊解碼器件24亦可調用音質解碼單元80。音質音訊寫碼單元80可對經編碼環境HOA係數59及經編碼前景信號61進行解碼以獲得能量經補償之環境HOA係數47'及經內插前景信號49'(138)。音質解碼單元80可將能量經補償之環境HOA係數47'傳遞至HOA係數制訂單元82且將nFG信號49'傳遞至重排序84。
重排序單元84可接收指示HOA係數11之前景分量的原始階數之語法元素。重排序單元84可基於此等重排序語法元素對經內插nFG信號49'及經縮減前景V[k]向量55 k 重排序以產生經重排序之nFG信號49"及經重排序之前景V[k]向量55 k '(140)。重排序單元84可將經重排序之nFG信號49"輸出至前景制訂單元78,且將經重排序之前景V[k]向量
55 k '輸出至空間-時間內插單元76。
音訊解碼器件24可接下來調用空間-時間內插單元76。空間-時間內插單元76可接收經重排序之前景方向資訊55 k ',且對於經縮減前景方向資訊55 k /55 k-1執行空間-時間內插以產生經內插前景方向資訊55 k "(142)。空間-時間內插單元76可將經內插前景V[k]向量55 k "轉遞至前景制訂單元718。
音訊解碼器件24可調用前景制訂單元78。前景制訂單元78可執行經內插前景信號49"與經內插前景方向資訊55 k "之矩陣乘法以獲得前景HOA係數65(144)。音訊解碼器件24亦可調用HOA係數制訂單元82。HOA係數制訂單元82可將前景HOA係數65相加至環境HOA通道47'以便獲得HOA係數11'(146)。
圖9A至圖9L為更詳細地說明圖4之實例的音訊編碼器件20之各種態樣的方塊圖。圖9A為更詳細地說明音訊編碼器件20之LIT單元30的方塊圖。如圖9A之實例中所示,LIT單元30可包括多個不同的線性可逆變換200至200N。LIT單元30可包括(提供幾個實例)奇異值分解(SVD)變換200A(「SVD 200A」)、主分量分析(PCA)變換200B(「PCA 200B」)、卡忽南-拉維變換(KLT)200C(「KLT 200C」)、快速傅立葉變換(FFT)200D(「FFT 200D」)及離散餘弦變換(DCT)200N(「DCT 200N」)。LIT單元30可調用此等線性可逆變換200中的任一者以對於HOA係數11應用各別變換且產生各別經變換HOA係數33/35。
儘管描述為直接對於HOA係數11執行,但LIT單元30可將線性可逆變換200應用於HOA係數11之導出項。舉例而言,LIT單元30可對於自HOA係數11導出之功率譜密度矩陣應用SVD 200。功率譜密度矩陣可表示為PSD且係經由hoaFrame至hoaFrame之轉置的矩陣乘法而獲得,如下文之偽碼中所概述。hoaFrame記法係指HOA係數11之訊框。
LIT單元30可在將SVD 200(svd)應用於PSD之後可獲得S[k]2矩陣
(S_squared)及V[k]矩陣。S[k]2矩陣可表示求平方之S[k]矩陣,因此LIT單元30(或替代地,SVD單元200,作為一個實例)可將平方根運算應用於S[k]2矩陣以獲得S[k]矩陣。在一些情況下,SVD單元200可對於V[k]矩陣執行量化以獲得經量化V[k]矩陣(其可表示為V[k]'矩陣)。LIT單元30可藉由首先將S[k]矩陣乘以經量化V[k]'矩陣以獲得SV[k]'矩陣而獲得U[k]矩陣。LIT單元30接下來可獲得SV[k]'矩陣之偽逆(pinv)且接著將HOA係數11乘以SV[k]'矩陣之偽逆以獲得U[k]矩陣。可由以下偽碼表示前述情況:PSD=hoaFrame'*hoaFrame;[V,S_squared]=svd(PSD,'econ');S=sqrt(S_squared);U=hoaFrame * pinv(S*V');藉由對於HOA係數之功率譜密度(PSD)而非係數自身執行SVD,LIT單元30可在處理器循環及儲存空間中之一或多者的方面潛在地減小執行SVD之計算複雜度,同時達成相同的源音訊編碼效率,如同SVD係直接應用於HOA係數。亦即,上述PSD型SVD可潛在地需求較少計算,此係因為SVD係在F*F矩陣(其中F為HOA係數之數目)上完成。與M*F矩陣相比,其中M為訊框長度,亦即,1024或更多個樣本。經由應用於PSD而非HOA係數11,與應用於HOA係數11時之O(M*L^2)相比,SVD之複雜度現可為約O(L^3)(其中O(*)表示電腦科學技術中常用的計算複雜度之大O記法)。
圖9B為更詳細地說明音訊編碼器件20之參數計算單元32的方塊圖。參數計算單元32可包括能量分析單元202及交叉相關單元204。能量分析單元202可對於US[k]向量33及V[k]向量35中之一或多者執行上述能量分析以產生用於當前訊框(k)或前一訊框(k-1)中之一或多者的相關參數(R)、方向特性參數(θ,φ,r)及能量特性(e)中之一或多者。
同樣,交叉相關單元204可對於US[k]向量33及V[k]向量35中之一或多者執行上述交叉相關以產生用於當前訊框(k)或訊框(k-1)中之一或多者的相關參數(R)、方向特性參數(θ,φ,r)及能量特性(e)中之一或多者。參數計算單元32可輸出當前訊框參數37及前一訊框參數39。
圖9C為更詳細地說明音訊編碼器件20之重排序單元34的方塊圖。重排序單元34包括參數評估單元206及向量重排序單元208。參數評估單元206表示經組態而以上文所描述的方式評估前一訊框參數39及當前訊框參數37以產生重排序索引205之單元重排序索引205包括識別將如何對US[k]向量33之向量及V[k]向量35之向量重排序之索引(例如,藉由索引對,其中該對之第一索引識別當前向量位置之索引,且該對之第二索引識別向量之經重排序之位置)。向量重排序單元208表示經組態以根據重排序索引205對US[k]向量33及V[k]向量35重排序之單元。重排序單元34可輸出經重排序之US[k]向量33'及經重排序之V[k]向量35',同時亦將重排序索引205作為一或多個語法元素傳遞至位元串流產生單元42。
圖9D為更詳細地說明音訊編碼器件20之音場分析單元44的方塊圖。如圖9D之實例中所示,音場分析單元44可包括奇異值分析單元210A、能量分析單元210B、空間分析單元210C、空間掩蔽分析單元210D、擴散分析單元210E及方向分析單元210F。奇異值分析單元210A可表示經組態以分析藉由使S向量之對角線值(形成US[k]向量33之部分)遞減而產生的曲線之斜率的單元,其中大奇異值表示前景或獨特聲音,且低奇異值表示音場之背景分量,如上文所描述。能量分析單元210B可表示經組態以每向量地判定V[k]矩陣35之能量的單元。
空間分析單元210C可表示經組態以經由將HOA係數11變換至空間域且識別表示應保留之音場之方向分量的高能量區域而執行上文所描述的空間能量分析之單元。空間掩蔽分析單元210D可表示經組態
而以類似於空間能量分析(惟空間掩蔽分析單元210D可識別藉由空間上接近之較高能量聲音掩蔽的空間區域除外)之方式執行空間掩蔽分析之單元。擴散分析單元210E可表示經組態以對於HOA係數11執行上述擴散分析以識別可表示音場之背景分量的擴散能量區域之單元。方向分析單元210F可表示經組態以執行以上指出之方向分析的單元,該方向分析涉及計算VS[k]向量,以及對此等VS[k]向量中的每一者之每一項進行求平方及求和以識別方向性商。方向分析單元210F可將VS[k]向量中的每一者之此方向性商提供至背景/前景(BG/FG)識別(ID)單元212。
音場分析單元44亦可包括BG/FG ID單元212,該BG/FG ID單元212可表示經組態以基於藉由分析單元210至210F之任何組合輸出之分析之任何組合判定前景通道之總數(nFG)45、背景音場之階數(NBG)以及要發送之額外BG HOA通道之數目(nBGa)及索引(i)(其在圖4之實例中可共同地表示為背景通道資訊43)之單元。BG/FG ID單元212可判定nFG 45及背景通道資訊43以便達成目標位元率41。
圖9E為更詳細地說明音訊編碼器件20之前景選擇單元36的方塊圖。前景選擇單元36包括向量剖析單元214,該向量剖析單元214可剖析或以其他方式自經重排序之US[k]向量33'及經重排序之V[k]向量35'提取由nFG語法元素45識別之前景US[k]向量49及前景V[k]向量51 k 。向量剖析單元214可剖析表示由音場分析單元44識別且由nFG語法元素45(其亦可被稱作前景通道資訊45)指定之音場的前景分量之各種向量。如圖9E之實例中所示,在一些情況下,向量剖析單元214可選擇前景US[k]向量49及前景V[k]向量51 k 內之非連續向量來表示音場之前景分量。此外,在一些情況下,向量剖析單元214可選擇前景US[k]向量49及前景V[k]向量51 k 之相同向量(按位置)來表示音場之前景分量。
圖9F為更詳細地說明音訊編碼器件20之背景選擇單元48的方塊
圖。背景選擇單元48可基於背景通道資訊(例如,背景音場(NBG)以及要發送的額外BG HOA通道之數目(nBGa)及索引(i))判定背景或環境HOA係數47。舉例而言,當NBG等於一時,背景選擇單元48可選擇具有等於或小於一之階數的音訊訊框之每一樣本的HOA係數11。在此實例中,背景選擇單元48可接著選擇具有由索引(i)中之一者識別的索引之HOA係數11作為額外BG HOA係數,其中將nBGa提供至待於位元串流21中指定之位元串流產生單元42以便使得音訊解碼器件(諸如圖5之實例中所示的音訊解碼器件24)能夠剖析來自位元串流21之BG HOA係數47。背景選擇單元48可接著將環境HOA係數47輸出至能量補償單元38。環境HOA係數47可具有維度D:M×[(N BG +1) 2 + nBGa]。
圖9G為更詳細地說明音訊編碼器件20之能量補償單元38的方塊圖。能量補償單元38可表示經組態以對於環境HOA係數47執行能量補償以補償歸因於藉由背景選擇單元48移除HOA通道中之多者而造成的能量損失之單元。能量補償單元38可包括能量判定單元218、能量分析單元220及能量放大單元222。
能量判定單元218可表示經組態以識別經重排序之US[k]矩陣33'及經重排序之V[k]矩陣35'中之一或多者上的每一列及/或行之RMS的單元。能量判定單元38亦可識別選定前景通道中之一或多者之每一列及/或行的RMS,其可包括nFG信號49及前景V[k]向量51 k ,以及階數經縮減之環境HOA係數47。用於經重排序之US[k]矩陣33'及經重排序之V[k]矩陣35'中之一或多者的每一列及/或行之RMS可儲存至表示為RMS FULL 之向量,而用於nFG信號49、前景V[k]向量51 k 及階數經縮減之環境HOA係數47中之一或多者的每一列及/或行之RMS可儲存至表示為RMS REDUCED 之向量。
在一些實例中,為判定經重排序之US[k]矩陣33'、經重排序之V[k]矩陣35'、nFG信號49、前景V[k]向量51 k 及階數經縮減之環境HOA
係數47中之一或多者的各別列及/或行之每一RMS,能量判定單元218可首先將參考球諧係數(SHC)轉譯器應用於該等行。藉由能量判定單元218應用參考SHC轉譯器允許判定SHC域中之RMS以判定由經重排序之US[k]矩陣33'、經重排序之V[k]矩陣35'、nFG信號49、前景V[k]向量51 k 及階數經縮減之環境HOA係數47中之一或多者的列及/或行所表示的訊框之每一列及/或行描述的總體音場之能量。能量判定單元38可將此RMS FULL 及RMS REDUCED 向量傳遞至能量分析單元220。
能量分析單元220可表示經組態以根據以下方程式計算放大值向量Z之單元:Z=RMS FULL /RMS REDUCED 。能量分析單元220可接著將此放大值向量Z傳遞至能量放大單元222。能量放大單元222可表示經組態以將此放大值向量Z或其多個部分應用於nFG信號49、前景V[k]向量51 k 及階數經縮減之環境HOA係數47中之一或多者的單元。在一些情況下,放大值向量Z依據以下方程式而僅應用於階數經縮減之環境HOA係數47:HOA BG-RED '=HOA BG-RED Z T ,HOA BG-RED '表示能量經補償、階數經縮減之環境HOA係數47',且Z T 表示Z向量之轉置。
圖9H為更詳細地說明圖4之實例中所示的音訊編碼器件20之空間-時間內插單元50的方塊圖。空間-時間內插單元50可表示經組態以接收第k訊框之前景V[k]向量51 k 及前一訊框(因此為k-1記法)之前景V[k-1]向量51 k-1且執行空間-時間內插以產生經內插前景V[k]向量之單元。空間-時間內插單元50可包括V內插單元224及前景調適單元226。
V內插單元224可基於當前前景V[k]向量51 k 及先前前景V[k-1]向量51 k-1之剩餘部分選擇當前前景V[k]向量51 k 之要內插之部分。V內插單元224可將該部分選擇為以上指出之子訊框中之一或多者或僅為可能逐訊框變化之單一不確定部分。在一些情況下,V內插單元224可選擇當前前景V[k]向量51 k 之1024個樣本之單一128樣本部分以內插。V內插單元224可接著藉由將當前前景V[k]向量51 k 及先前前景V[k-1]向
量51 k-1中之向量投影至球面上(使用諸如T設計矩陣之投影矩陣)來將該等向量中的每一者轉換為單獨空間點陣圖。V內插單元224可接著將V中之向量解譯為球面上之形狀。為內插256樣本部分之V矩陣,V內插單元224可接著內插此等空間形狀,且且接著經由投影矩陣之逆將其變換回至球諧域向量。以此方式,本發明之技術可提供V矩陣之間的平穩轉變。V內插單元224可接著產生剩餘V[k]向量53,其表示經修改以移除前景V[k]向量51 k 之經內插部分之後的前景V[k]向量51 k 。V內插單元224可接著將經內插前景V[k]向量51 k '傳遞至nFG調適單元226。
當選擇單一部分進行內插時,V內插單元224可產生表示為CodedSpatialInterpolationTime 254之語法元素,其識別持續時間或換言之,內插之時間(例如,根據樣本之數目)。當選擇單一部分執行子訊框內插時,V內插單元224亦可產生表示為SpatialInterpolationMethod 255之另一語法元素,其可識別所執行的內插之類型(或在一些情況下,是否執行內插)。空間-時間內插單元50可將此等語法元素254及255輸出至位元串流產生單元42。
nFG調適單元226可表示經組態以產生經調適nFG信號49'之單元。nFG調適單元226可藉由首先經由nFG信號49與前景V[k]向量51 k 之乘法獲得前景HOA係數而產生經調適nFG信號49'。在獲得前景HOA係數之後,nFG調適單元226可將前景HOA係數除以經內插前景V[k]向量53以獲得經調適nFG信號49'(其可被稱作經內插nFG信號49',假定此等信號係自經內插前景V[k]向量51 k '導出)。
圖9I為更詳細地說明圖4之實例中所示的音訊編碼器件20之係數縮減單元46的方塊圖。係數減少單元46可表示經組態以基於背景通道資訊43對於剩餘前景V[k]向量53執行係數縮減以將經縮減前景V[k]向量55輸出至量化單元52之單元。經縮減前景V[k]向量55可具有維度
D:[(N+1) 2 -(N BG +1)2-nBGa]×nFG。
係數縮減單元46可包括係數最小化單元228,係數最小化單元228可表示經組態以藉由移除在背景HOA係數47(如由背景通道資訊43所識別)中考量之任何係數而縮減或以其他方式最小化剩餘前景V[k]向量53中的每一者之大小的單元。係數最小化單元228可移除藉由背景通道資訊43識別之彼等係數以獲得經縮減前景V[k]向量55。
圖9J為更詳細地說明圖4之實例中所示的音訊編碼器件20之音質音訊寫碼器單元40的方塊圖。音質音訊寫碼器單元40可表示經組態以對於能量經補償之背景HOA係數47'及經內插nFG信號49'執行音質編碼之單元。如圖9H之實例中所示,音質音訊寫碼器單元40可調用音質音訊編碼器40A至40N之多個執行個體以對能量經補償之背景HOA係數47'之通道(其中在此內容脈絡中,通道係指對應於特定階數/子階球面基底函數之訊框中的所有樣本)中的每一者及經內插nFG信號49'之每一信號進行音訊編碼。在一些實例中,音質音訊寫碼器單元40執行個體化或以其他方式包括(當以硬體實施時)足夠數目之音訊編碼器40A至40N以對能量經補償之背景HOA係數47'之每一通道(或nBGa加索引(i)之總數)及經內插nFG信號49'(或nFG)之每一信號進行單獨地編碼(對於總共nBGa加額外環境HOA通道之索引(i)之總數加nFG)。音訊編碼器40A至40N可輸出經編碼背景HOA係數59及經編碼nFG信號61。
圖9K為更詳細地說明圖4之實例中所示的音訊編碼器件20之量化單元52的方塊圖。在圖9K之實例中,量化單元52包括均勻量化單元230、nbits單元232、預測單元234、預測模式單元236(「預測模式單元236」)、類別及殘差寫碼單元238,及霍夫曼表選擇單元240。均勻量化單元230表示經組態以對於空間分量中之一者(其可表示經縮減前景V[k]向量55中的任一者)執行上文所描述的均勻量化的單元。nbits
單元232表示經組態以判定nbits參數或值之單元。
預測單元234表示經組態以對於經量化空間分量執行預測之單元。預測單元234可藉由用經縮減前景V[k]向量55中之時間上在後的一對應者(其可表示為經縮減前景V[k-1]向量55)逐元素地減去經縮減前景V[k]向量55中之一當前者而執行預測。此預測之結果可被稱作預測空間分量。
預測模式單元236可表示經組態以選擇預測模式之單元。霍夫曼表選擇單元240可表示經組態以選擇一適當霍夫曼表用於cid之寫碼的單元。作為一實例,預測模式單元236及霍夫曼表選擇單元240可根據以下偽碼操作:用於一給定nbits,擷取具有nbits之所有霍夫曼表
B00=0;B01=0;B10=0;B11=0;//初始化以計算每寫碼模式之預期位元
for m=1:(# elements in the vector)
//計算用於向量元素v(m)之位元的預期數目
//無預測且使用霍夫曼表5
B00=B00+calculate_bits(v(m),HT5);
//無預測且使用霍夫曼表{1,2,3}
B01=B01+calculate_bits(v(m),HTq);q in{1,2,3}
//計算用於預測殘餘e(m)之位元的預期數目
e(m)=v(m)-vp(m);//vp(m):previous frame vector element
//有預測且使用霍夫曼表4
B10=B10+calculate_bits(e(m),HT4);
//有預測且使用霍夫曼表5
B11=B11+calculate_bits(e(m),HT5);
end
//找出產生最少位元的最佳預測模式及霍夫曼表
//最佳預測模式與霍夫曼表分別由pflag及Htflag加旗標
[Be,id]=min([B00 B01 B10 B11]);Switch id case 1:pflag=0;HTflag=0;case 2:pflag=0;HTflag=1;case 3:pflag=1;HTflag=0;case 4:pflag=1;HTflag=1;end
類別及殘差寫碼單元238可表示經組態以按以上更詳細地描述之方式執行經預測之空間分量或經量化之空間分量(當預測停用時)的分類及殘差寫碼之單元。
如圖9K之實例中所示,量化單元52可輸出各種參數或值用於包括於位元串流21或旁側資訊(其可自身為與位元串流21分開之位元串流)中。假定資訊在旁側通道資訊中指定,則純量/熵量化單元50可將nbits值(作為nbits值233)、預測模式(作為預測模式237)及霍夫曼表資訊(作為霍夫曼表資訊241)連同空間分量之經壓縮版本(在圖4之實例中展示為經寫碼前景V[k]向量57)(在此實例中,其可指經選擇以對cid、正負號位元及區塊寫碼殘差進行編碼之霍夫曼碼)輸出至位元串流產生單元42。nbits值可對於所有經寫碼前景V[k]向量57在旁側通道資訊中指定一次,而預測模式及霍夫曼表資訊可針對經寫碼前景V[k]向量57中之每一者予以指定。在圖10B及/或圖10C之實例中更詳細地展示位元串流之指定空間分量之經壓縮版本的部分。
圖9L為更詳細地說明圖4之實例中所示的音訊編碼器件20之位元串流產生單元42的方塊圖。位元串流產生單元42可包括主通道資訊產生單元242及旁側通道資訊產生單元244。主通道資訊產生單元242可
產生包括重排序索引205、CodedSpatialInterpolationTime語法元素254、SpatialInterpolationMethod語法元素255、經編碼背景HOA係數59及經編碼nFG信號61中之一或多者的主位元串流21。旁側通道資訊產生單元244可表示經組態以產生可包括nbits值233、預測模式237、霍夫曼表資訊241及經寫碼前景V[k]向量57中之一或多者(若非所有)的旁側通道位元串流21B之單元。位元串流21及21B可統稱為位元串流21。在一些內容脈絡中,位元串流21可僅指主通道位元串流21,而位元串流21B可被稱作旁側通道資訊21B。
圖10A至圖10O(ii)為更詳細地說明可指定經壓縮空間分量之位元串流或旁側通道資訊之部分的圖。在圖10A之實例中,部分250包括轉譯器識別符(「轉譯器ID」)欄位251及HOADecoderConfig欄位252。轉譯器ID欄位251可表示儲存已用於HOA內容之混音的轉譯器之ID的欄位。HOADecoderConfig欄位252可表示經組態以儲存用以初始化HOA空間解碼器之資訊的欄位。
HOADecoderConfig欄位252進一步包含方向資訊(「方向資訊」)欄位253、CodedSpatialInterpolationTime欄位254、SpatialInterpolationMethod欄位255、CodedVVecLength欄位256及增益資訊欄位257。方向資訊欄位253可表示儲存用於組態基於方向之合成解碼器的資訊之欄位。CodedSpatialInterpolationTime欄位254可表示儲存基於向量之信號之空間-時間內插之時間的欄位。SpatialInterpolationMethod欄位255可表示儲存在基於向量之信號的空間-時間內插期間應用的內插類型之指示的欄位。CodedVVecLength欄位256可表示儲存用以合成基於向量之信號的所傳輸資料向量之長度的欄位。增益資訊欄位257表示儲存指示應用於信號之增益校正的資訊之欄位。
在圖10B之實例中,部分258A表示旁側資訊通道之一部分,其中部分258A包括訊框標頭259,訊框標頭259包括位元組數目欄位260及
nbits欄位261。位元組數目欄位260可表示用以表達包括於用於指定空間分量v1至vn之訊框中的位元組數目(包括用於位元組對準欄位264之零)之欄位。nbits欄位261表示可指定經識別供用於解壓縮空間分量v1至vn之nbits值的欄位。
如圖10B之實例中進一步所示,部分258A可包括用於v1至vn之子位元串流,其中的每一者包括預測模式欄位262、霍夫曼表資訊欄位263及經壓縮空間分量v1至vn中之一對應者。預測模式欄位262可表示用以儲存是否對於經壓縮空間分量v1至vn中之該對應者執行預測之指示的欄位。霍夫曼表資訊欄位263表示用以至少部分地指示應使用哪一霍夫曼表來對經壓縮空間分量v1至vn中之該對應者之各種態樣進行解碼的欄位。
就此而言,該等技術可使得音訊編碼器件20能夠獲得包括一音場之一空間分量之一經壓縮版本的一位元串流,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生。
圖10C為更詳細地說明可指定經壓縮空間分量之旁側通道資訊之部分258B的替代實例之圖。在圖10C之實例中,部分258B包括包括Nbits欄位261之訊框標頭259。Nbits欄位261表示可指定經識別供用於解壓縮空間分量v1至vn之nbits值的欄位。
如圖10C之實例中進一步所示,部分258B可包括用於v1至vn之子位元串流,其中的每一者包括預測模式欄位262、霍夫曼表資訊欄位263及經壓縮空間分量v1至vn中之一對應者。預測模式欄位262可表示用以儲存是否對於經壓縮空間分量v1至vn中之該對應者執行預測之指示的欄位。霍夫曼表資訊欄位263表示用以至少部分地指示應使用哪一霍夫曼表來對經壓縮空間分量v1至vn中之該對應者之各種態樣進行解碼的欄位。
在所說明之實例中,Nbits欄位261包括子欄位A 265、B 266及C
267。在此實例中,A 265及B 266各自為1位元子欄位,而C 267為2位元子欄位。其他實例可包括大小不同之子欄位265、266及267。A欄位265及B欄位266可表示儲存Nbits欄位261之第一及第二最高有效位元之欄位,而C欄位267可表示儲存Nbits欄位261之最低有效位元的欄位。
部分258B亦可包括AddAmbHoaInfoChannel欄位268。AddAmbHoaInfoChannel欄位268可表示儲存用於額外環境HOA係數之資訊的欄位。如圖10C之實例中所示,AddAmbHoaInfoChannel 268包括CodedAmbCoeffIdx欄位246、AmbCoeffIdxTransition欄位247。CodedAmbCoeffIdx欄位246可表示儲存額外環境HOA係數之索引的欄位。AmbCoeffIdxTransition欄位247可表示經組態以儲存指示在此訊框中是否有額外環境HOA係數被淡入或淡出之資料的欄位。
圖10C(i)為更詳細地說明可指定經壓縮空間分量之旁側通道資訊之部分258B'的替代實例之圖。在圖10C(i)之實例中,部分258B'包括包括Nbits欄位261之訊框標頭259。Nbits欄位261表示可指定經識別供用於解壓縮空間分量v1至vn之nbits值的欄位。
如圖10C(i)之實例中進一步所示,部分258B'可包括用於v1至vn之子位元串流,其中的每一者包括霍夫曼表資訊欄位263及經壓縮方向分量v1至vn中之一對應者,而不包括預測模式欄位262。在所有其他方面,部分258B'可類似於部分258B。
圖10D為更詳細地說明位元串流21之部分258C的圖。部分258C類似於部分258,惟以下情況除外:訊框標頭259及零位元組對準264已被移除,同時Nbits 261欄位已添加在用於v1至vn之位元串流中的每一者之前,如圖10D之實例中所示。
圖10D(i)為更詳細地說明位元串流21之部分258C'的圖。部分258C'類似於部分258C,惟部分258C'不包括用於V向量v1至vn中的每
一者之預測模式欄位262除外。
圖10E為更詳細地說明位元串流21之部分258D的圖。部分258D類似於部分258B,惟以下情況除外:訊框標頭259及零位元組對準264已被移除,同時Nbits 261欄位已添加在用於v1至vn之位元串流中的每一者之前,如圖10E之實例中所示。
圖10E(i)為更詳細地說明位元串流21之部分258D'的圖。部分258D'類似於部分258D,惟部分258D'不包括用於V向量v1至vn中的每一者之預測模式欄位262除外。就此而言,音訊編碼器件20可產生不包括用於每一經壓縮V向量之預測模式欄位262的位元串流21,如關於圖10C(i)、圖10D(i)及圖10E(i)之實例所表明。
圖10F為以不同方式說明圖10A之實例中所示的位元串流21之部分250的圖。圖10D之實例中所示的部分250包括HOAOrder欄位(其為容易說明之目的而未在圖10F之實例中展示)、MinAmbHoaOrder欄位(其再次為容易說明之目的而未在圖10F之實例中展示)、方向資訊欄位253、CodedSpatialInterpolationTime欄位254、SpatialInterpolationMethod欄位255、CodedVVecLength欄位256及增益資訊欄位257。如圖10F之實例中所示,CodedSpatialInterpolationTime欄位254可包含三位元欄位,SpatialInterpolationMethod欄位255可包含一位元欄位,且CodedVVecLength欄位256可包含二位元欄位。
圖10G為更詳細地說明位元串流21之部分248的圖。部分248表示統一話音/音訊寫碼器(USAC)三維(3D)有效負載,其包括HOAframe欄位249(其亦可表示為旁頻帶資訊、旁側通道資訊,或旁側通道位元串流)。如圖10E之實例中所示,HOAFrame欄位249之展開圖可類似於圖10C之實例中所示的位元串流21之部分258B。「ChannelSideInfoData」包括ChannelType欄位269(其出於容易說明之目的而未在圖10C之實例中展示)、在圖10E之實例中表示為「ba」之A欄位265、在圖10E之
實例中表示為「bb」之B欄位266及在圖10E之實例中表示為「unitC」之C欄位267。ChannelType欄位指示通道為基於方向之信號、基於向量之信號還是額外環境HOA係數。在不同ChannelSideInfoData之間,存在AddAmbHoaInfoChannel欄位268,其中不同V向量位元串流用灰色表示(例如,「用於v1之位元串流」及「用於v2之位元串流」)。
圖10H至圖10O(ii)為更詳細地說明位元串流21之另一各種實例部分248H至248O連同伴隨的HOAconfig部分250H至250O之圖。圖10H(i)及圖10H(ii)說明已產生第一實例位元串流248H及伴隨的HOA config部分250H以與以上偽碼中的情況0相對應。在圖10H(i)之實例中,HOAconfig部分250H包括CodedVVecLength語法元素256,其經設定以指示V向量之所有元素經寫碼,例如,所有16個V向量元素。HOAconfig部分250H亦包括SpatialInterpolationMethod語法元素255,其經設定以指示空間-時間內插之內插函數為升餘弦。此外,HOAconfig部分250H包括CodedSpatialInterpolationTime 254,其經設定以指示為256之經內插樣本持續時間。HOAconfig部分250H進一步包含MinAmbHoaOrder語法元素150,其經設定以指示環境HOA內容之MinimumHOA階數為一,其中音訊解碼器件24可導出MinNumofCoeffsForAmbHOA語法元素等於(1+1)2或四。HOAconfig部分250H包括HoaOrder語法元素152,其經設定以指示內容之HOA階數等於三(或換言之,N=3),其中音訊解碼器件24可導出NumOfHoaCoeffs等於(N+1)2或16。
如圖10H(i)之實例中進一步所示,部分248H包括統一話音及音訊寫碼(USAC)三維(USAC-3D)音訊訊框,其中兩個HOA訊框249A及249B儲存在一USAC有效負載中,假定在啟用頻譜帶複製(SBR)時該兩個音訊訊框儲存在一個USAC-3D訊框內。音訊解碼器件24可導出作
為numHOATransportChannels語法元素及MinNumOfCoeffsForAmbHOA語法元素之函數的數個可撓性傳輸通道。在以下實例中,其係假定numHOATransportChannels語法元素等於7且MinNumOfCoeffsForAmbHOA語法元素等於四,其中可撓性傳輸通道之數目等於numHOATransportChannels語法元素減MinNumOfCoeffsForAmbHOA語法元素(或三)。
圖10H(ii)更詳細地說明訊框249A及249B。如圖10H(ii)之實例中所示,訊框249A包括ChannelSideInfoData(CSID)欄位154至154C、HOAGainCorrectionData(HOAGCD)欄位、VVectorData欄位156及156B以及HOAPredictionInfo欄位。CSID欄位154包括unitC 267、bb 266及ba265連同ChannelType 269,其中的每一者設定至圖10H(i)之實例中所示的對應值01、1、0及01。CSID欄位154B包括unitC 267、bb 266及ba 265連同ChannelType 269,其中的每一者設定至圖10H(ii)之實例中所示的對應值01、1、0及01。CSID欄位154C包括具有值3之ChannelType欄位269。CSID欄位154至154C中的每一者對應於傳輸通道1、2及3中之一各別者。在效果上,每一CSID欄位154至154C指示對應有效負載156及156B為基於方向之信號(當對應ChannelType等於零時)、基於向量之信號(當對應ChannelType等於一時)、額外環境HOA係數(當對應ChannelType等於二時),還是為空(當ChannelType等於三時)。
在圖10H(ii)之實例中,訊框249A包括兩個基於向量之信號(假定ChannelType 269在CSID欄位154及154B中等於1)及一空信號(假定ChannelType 269在CSID欄位154C中等於3)。給定前述HOAconfig部分250H,音訊解碼器件24可判定所有16個V向量元素經編碼。因此,VVectorData 156及156B各自包括所有16個向量元素,其中的每一者藉由8個位元均勻量化。如腳註1所指出,經寫碼VVectorData元素之
數目及索引由參數CodedVVecLength=0指定。此外,如由單星號(*)所指出,寫碼方案藉由NbitsQ=5在用於對應傳輸通道之CSID欄位中用信號通知。
在訊框249B中,CSID欄位154及154B與訊框249中之CSID欄位154及154B相同,而訊框249B之CSID欄位154C切換至為一之ChannelType。因此,訊框249B之CSID欄位154C包括Cbflag 267、Pflag 267(指示霍夫曼編碼)及Nbits 261(等於12)。結果,訊框249B包括第三VVectorData欄位156C,其包括16個V向量元素,其中的每一者藉由12個位元均勻量化且經霍夫曼寫碼。如上文所指出,經寫碼VVectorData元素之數目及索引由參數CodedVVecLength=0指定,而霍夫曼寫碼方案藉由NbitsQ=12、CbFlag=0及Pflag=0先用於此特定傳輸通道(例如,第3傳輸通道)之CSID欄位154C中用信號通知。
圖10I(i)及圖10I(ii)之實例說明已產生第二實例位元串流248I及伴隨的HOA config部分250I以與以上偽碼中的以上情況0相對應。在圖10I(i)之實例中,HOAconfig部分250I包括CodedVVecLength語法元素256,其經設定以指示V向量之所有元素經寫碼,例如,所有16個V向量元素。HOAconfig部分250I亦包括SpatialInterpolationMethod語法元素255,其經設定以指示空間-時間內插之內插函數為升餘弦。此外,HOAconfig部分250I包括CodedSpatialInterpolationTime 254,其經設定以指示為256之經內插樣本持續時間。
HOAconfig部分250I進一步包含MinAmbHoaOrder語法元素150,其經設定以指示環境HOA內容之MinimumHOA階數為一,其中音訊解碼器件24可導出MinNumofCoeffsForAmbHOA語法元素等於(1+1)2或四。音訊解碼器件24亦可導出MaxNoofAddActiveAmbCoeffs語法元素,如設定至NumOfHoaCoeff語法元素與MinNumOfCoeffsForAmbHOA之間的差,在此實例中假定其等於16-
4或12。音訊解碼器件24亦可導出AmbAsignmBits語法元素,如設定至ceil(log2(MaxNoOfAddActiveAmbCoeffs))=ceil(log2(12))=4。HOAconfig部分250H包括HoaOrder語法元素152,其經設定以指示內容之HOA階數等於三(或換言之,N=3),其中音訊解碼器件24可導出NumOfHoaCoeffs等於(N+1)2或16。
如圖10I(i)之實例中進一步所示,部分248H包括USAC-3D音訊訊框,其中兩個HOA訊框249C及249D儲存於USAC擴展有效負載中,假定在啟用頻譜帶複製(SBR)時,該兩個音訊訊框儲存在一個USAC-3D訊框內。音訊解碼器件24可導出作為numHOATransportChannels語法元素及MinNumOfCoeffsForAmbHOA語法元素之函數的數個可撓性傳輸通道。在以下實例中,假設numHOATransportChannels語法元素等於7且MinNumOfCoeffsForAmbHOA語法元素等於四,其中可撓性傳輸通道之數目等於numHOATransportChannels語法元素減MinNumOfCoeffsForAmbHOA語法元素(或三)。
圖10I(ii)更詳細地說明訊框249C及249D。如圖10I(ii)之實例中所示,訊框249C包括CSID欄位154至154C及VVectorData欄位156。CSID欄位154包括CodedAmbCoeffIdx 246、AmbCoeffIdxTransition 247(其中雙星號(**)指示對於第1可撓性傳輸通道,此處假定解碼器之內部狀態為AmbCoeffIdxTransitionState=2,其導致CodedAmbCoeffIdx位元欄位在位元串流中用信號通知或以其他方式指定)及ChannelType 269(其等於二,從而用信號通知對應有效負載為額外環境HOA係數)。在此實例中,音訊解碼器件24可將AmbCoeffIdx導出為等於CodedAmbCoeffIdx+1+MinNumOfCoeffsForAmbHOA或5。CSID欄位154B包括unitC 267、bb 266及ba 265連同ChannelType 269,其中的每一者設定至圖10I(ii)之實例中所示的對應值01、1、0及01。CSID欄位154C包括具有值3之ChannelType欄位269。
在圖10I(ii)之實例中,訊框249C包括單一基於向量之信號(假定ChannelType 269在CSID欄位154B中等於1)及一空信號(假定ChannelType 269在CSID欄位154C中等於3)。給定前述HOAconfig部分250I,音訊解碼器件24可判定所有16個V向量元素經編碼。因此,VVectorData 156包括所有16個向量元素,其中的每一者藉由8個位元均勻量化。如腳註1所指出,經寫碼VVectorData元素之數目及索引由參數CodedVVecLength=0指定。此外,如由腳註2所指出,寫碼方案藉由NbitsQ=5在用於對應傳輸通道之CSID欄位中用信號通知。
在訊框249D中,CSID欄位154包括指示無轉變已發生之AmbCoeffIdxTransition247,且因此可自前一訊框暗示而無需用信號通知或以其他方式再次指定CodedAmbCoeffIdx 246。訊框249D之CSID欄位154B及154C與用於訊框249C之CSID欄位相同,且因而,如同訊框249C,訊框249D包括單一VVectorData欄位156,其包括所有16個向量元素,其中的每一者藉由8個位元均勻量化。
圖10J(i)及圖10J(ii)說明已產生第一實例位元串流248J及伴隨的HOA config部分250J以與以上偽碼中的情況1相對應。在圖10J(i)之實例中,HOAconfig部分250J包括CodedVVecLength語法元素256,其經設定以指示除了元素1至MinNumOfCoeffsForAmbHOA及在ContAddAmbHoaChan語法元素(在此實例中假定為零)中指定之彼等元素,V向量之所有元素經寫碼。HOAconfig部分250J亦包括SpatialInterpolationMethod語法元素255集合以指示空間-時間內插之內插函數為升餘弦。此外,HOAconfig部分250J包括CodedSpatialInterpolationTime 254,其經設定以指示為256之經內插樣本持續時間。HOAconfig部分250J進一步包含MinAmbHoaOrder語法元素150,其經設定以指示環境HOA內容之MinimumHOA階數為一,其中音訊解碼器件24可導出MinNumofCoeffsForAmbHOA語法元
素等於(1+1)2或四。HOAconfig部分250J包括HoaOrder語法元素152,其經設定以指示內容之HOA階數等於三(或換言之,N=3),其中音訊解碼器件24可導出NumOfHoaCoeffs等於(N+1)2或16。
如圖10J(i)之實例中進一步所示,部分248J包括USAC-3D音訊訊框,其中兩個HOA訊框249E及249F儲存於USAC擴展有效負載中,假定在啟用頻譜帶複製(SBR)時,該兩個音訊訊框儲存在一個USAC-3D訊框內。音訊解碼器件24可導出作為numHOATransportChannels語法元素及MinNumOfCoeffsForAmbHOA語法元素之函數的數個可撓性傳輸通道。在以下實例中,假設numHOATransportChannels語法元素等於7且MinNumOfCoeffsForAmbHOA語法元素等於四,其中可撓性傳輸通道之數目等於numHOATransportChannels語法元素減MinNumOfCoeffsForAmbHOA語法元素(或三)。
圖10J(ii)更詳細地說明訊框249E及249F。如圖10J(ii)之實例中所示,訊框249E包括CSID欄位154至154C以及VVectorData欄位156及156B。CSID欄位154包括unitC 267、bb 266及ba 265連同ChannelType 269,其中的每一者設定至圖10J(i)之實例中所示的對應值01、1、0及01。CSID欄位154B包括unitC 267、bb 266及ba 265連同ChannelType 269,其中的每一者設定至圖10J(ii)之實例中所示的對應值01、1、0及01。CSID欄位154C包括具有值3之ChannelType欄位269。CSID欄位154至154C中的每一者對應於傳輸通道1、2及3中之一各別者。
在圖10J(ii)之實例中,訊框249E包括兩個基於向量之信號(假定ChannelType 269在CSID欄位154及154B中等於1)及一空信號(假定ChannelType 269在CSID欄位154C中等於3)。給定前述HOAconfig部分250H,音訊解碼器件24可判定所有12個V向量元素經編碼(其中12係導出為(HOAOrder+1)2-(MinNumOfCoeffsForAmbHOA)-(ContAddAmbHoaChan)=16-4-0=12)。因此,VVectorData 156及
156B各自包括所有12個向量元素,其中的每一者藉由8個位元均勻量化。如腳註1所指出,經寫碼VVectorData元素之數目及索引由參數CodedVVecLength=0指定。此外,如由單星號(*)所指出,寫碼方案藉由NbitsQ=5在用於對應傳輸通道之CSID欄位中用信號通知。
在訊框249F中,CSID欄位154及154B與訊框249E中之CSID欄位154及154B相同,而訊框249F之CSID欄位154C切換至為一之ChannelType。因此,訊框249B之CSID欄位154C包括Cbflag 267、Pflag 267(指示霍夫曼編碼)及Nbits 261(等於12)。結果,訊框249F包括第三VVectorData欄位156C,其包括12個V向量元素,其中的每一者藉由12個位元均勻量化且經霍夫曼寫碼。如上文所指出,經寫碼VVectorData元素之數目及索引由參數CodedVVecLength=0指定,而霍夫曼寫碼方案藉由NbitsQ=12、CbFlag=0及Pflag=0先用於此特定傳輸通道(例如,第3傳輸通道)之CSID欄位154C中用信號通知。
圖10K(i)及圖10K(ii)之實例說明已產生第二實例位元串流248K及伴隨的HOA config部分250K以與以上偽碼中的以上情況1相對應。在圖10K(i)之實例中,HOAconfig部分250K包括CodedVVecLength語法元素256,其經設定以指示除了元素1至MinNumOfCoeffsForAmbHOA及在ContAddAmbHoaChan語法元素(在此實例中假定為一)中指定之彼等元素,V向量之所有元素經寫碼。HOAconfig部分250K亦包括SpatialInterpolationMethod語法元素255,其經設定以指示空間-時間內插之內插函數為升餘弦。此外,HOAconfig部分250K包括CodedSpatialInterpolationTime 254,其經設定以指示為256之經內插樣本持續時間。
HOAconfig部分250K進一步包含MinAmbHoaOrder語法元素150,其經設定以指示環境HOA內容之MinimumHOA階數為一,其中音訊解碼器件24可導出MinNumofCoeffsForAmbHOA語法元素等於(1+1)2或
四。音訊解碼器件24亦可導出MaxNoOfAddActiveAmbCoeffs語法元素,如設定至NumOfHoaCoeff語法元素與MinNumOfCoeffsForAmbHOA之間的差,在此實例中假定其等於16-4或12。音訊解碼器件24亦可導出AmbAsignmBits語法元素,如設定至ceil(log2(MaxNoOfAddActiveAmbCoeffs))=ceil(log2(12))=4。HOAconfig部分250K包括HoaOrder語法元素152,其經設定以指示內容之HOA階數等於三(或換言之,N=3),其中音訊解碼器件24可導出NumOfHoaCoeffs等於(N+1)2或16。
如圖10K(i)之實例中進一步所示,部分248K包括USAC-3D音訊訊框,其中兩個HOA訊框249G及249H儲存於USAC擴展有效負載中,假定在啟用頻譜帶複製(SBR)時,該兩個音訊訊框儲存在一個USAC-3D訊框內。音訊解碼器件24可導出作為numHOATransportChannels語法元素及MinNumOfCoeffsForAmbHOA語法元素之函數的數個可撓性傳輸通道。在以下實例中,假設numHOATransportChannels語法元素等於7且MinNumOfCoeffsForAmbHOA語法元素等於四,其中可撓性傳輸通道之數目等於numHOATransportChannels語法元素減MinNumOfCoeffsForAmbHOA語法元素(或三)。
圖10K(ii)更詳細地說明訊框249G及249H。如圖10K(ii)之實例中所示,訊框249G包括CSID欄位154至154C以及VVectorData欄位156。CSID欄位154包括CodedAmbCoeffIdx 246、AmbCoeffIdxTransition 247(其中雙星號(**)指示對於第1可撓性傳輸通道,此處假定解碼器之內部狀態為AmbCoeffIdxTransitionState=2,其導致CodedAmbCoeffIdx位元欄位在位元串流中用信號通知或以其他方式指定)及ChannelType 269(其等於二,從而用信號通知對應有效負載為額外環境HOA係數)。在此實例中,音訊解碼器件24可將AmbCoeffIdx導出為等於CodedAmbCoeffIdx+1+MinNumOfCoeffsForAmbHOA或5。CSID欄位
154B包括unitC 267、bb 266及ba 265連同ChannelType 269,其中的每一者設定至圖10K(ii)之實例中所示的對應值01、1、0及01。CSID欄位154C包括具有值3之ChannelType欄位269。
在圖10K(ii)之實例中,訊框249G包括單一基於向量之信號(假定ChannelType 269在CSID欄位154B中等於1)及一空信號(假定ChannelType 269在CSID欄位154C中等於3)。給定前述HOAconfig部分250K,音訊解碼器件24可判定所有11個V向量元素經編碼(其中12係導出為(HOAOrder+1)2-(MinNumOfCoeffsForAmbHOA)-(ContAddAmbHoaChan)=16-4-1=11)。因此,VVectorData 156包括所有11個向量元素,其中的每一者藉由8個位元均勻量化。如腳註1所指出,經寫碼VVectorData元素之數目及索引由參數CodedVVecLength=0指定。此外,如由腳註2所指出,寫碼方案藉由NbitsQ=5在用於對應傳輸通道之CSID欄位中用信號通知。
在訊框249H中,CSID欄位154包括指示無轉變已發生之AmbCoeffIdxTransition 247,且因此可自前一訊框暗示而無需用信號通知或以其他方式再次指定CodedAmbCoeffIdx 246。訊框249H之CSID欄位154B及154C與用於訊框249G之CSID欄位相同,且因而,如同訊框249G,訊框249H包括單一VVectorData欄位156,其包括所有11個向量元素,其中的每一者藉由8個位元均勻量化。
圖10L(i)及圖10L(ii)說明已產生第一實例位元串流248L及伴隨的HOA config部分250L以與以上偽碼中的情況2相對應。在圖10L(i)之實例中,HOAconfig部分250L包括CodedVVecLength語法元素256,其經設定以指示除了0階直至由MinAmbHoaOrder語法元素150(其在此實例中等於(HoaOrder+1)2-(MinAmbHoaOrder+1)2=16-4=12)指定之階數的元素,V向量之所有元素經寫碼。HOAconfig部分250L亦包括SpatialInterpolationMethod語法元素255,其經設定以指示空間-時間
內插之內插函數為升餘弦。此外,HOAconfig部分250L包括CodedSpatialInterpolationTime 254,其經設定以指示為256之經內插樣本持續時間。HOAconfig部分250L進一步包含MinAmbHoaOrder語法元素150,其經設定以指示環境HOA內容之MinimumHOA階數為一,其中音訊解碼器件24可導出MinNumofCoeffsForAmbHOA語法元素等於(1+1)2或四。HOAconfig部分250L包括HoaOrder語法元素152,其經設定以指示內容之HOA階數等於三(或換言之,N=3),其中音訊解碼器件24可導出NumOfHoaCoeffs等於(N+1)2或16。
如圖10L(i)之實例中進一步所示,部分248L包括USAC-3D音訊訊框,其中兩個HOA訊框249I及249J儲存於USAC擴展有效負載中,假定在啟用頻譜帶複製(SBR)時,該兩個音訊訊框儲存在一個USAC-3D訊框內。音訊解碼器件24可導出作為numHOATransportChannels語法元素及MinNumOfCoeffsForAmbHOA語法元素之函數的數個可撓性傳輸通道。在以下實例,假定numHOATransportChannels語法元素等於7且MinNumOfCoeffsForAmbHOA語法元素等於四,其中可撓性傳輸通道之數目等於numHOATransportChannels語法元素減MinNumOfCoeffsForAmbHOA語法元素(或三)。
圖10L(ii)更詳細地說明訊框249I及249J。如圖10L(ii)之實例中所示,訊框249I包括CSID欄位154至154C以及VVectorData欄位156及156B。CSID欄位154包括unitC 267、bb 266及ba 265連同ChannelType 269,其中的每一者設定至圖10J(i)之實例中所示的對應值01、1、0及01。CSID欄位154B包括unitC 267、bb 266及ba 265連同ChannelType 269,其中的每一者設定至圖10L(ii)之實例中所示的對應值01、1、0及01。CSID欄位154C包括具有值3之ChannelType欄位269。CSID欄位154至154C中的每一者對應於傳輸通道1、2及3中之一各別者。
在圖10L(ii)之實例中,訊框249I包括兩個基於向量之信號(假定
ChannelType 269在CSID欄位154及154B中等於1)及一空信號(假定ChannelType 269在CSID欄位154C中等於3)。給定前述HOAconfig部分250H,音訊解碼器件24可判定12個V向量元素經編碼。因此,VVectorData 156及156B各自包括12個向量元素,其中的每一者藉由8個位元均勻量化。如腳註1所指出,經寫碼VVectorData元素之數目及索引由參數CodedVVecLength=0指定。此外,如由單星號(*)所指出,寫碼方案藉由NbitsQ=5在用於對應傳輸通道之CSID欄位中用信號通知。
在訊框249J中,CSID欄位154及154B與訊框249I中之CSID欄位154及154B相同,而訊框249F之CSID欄位154C切換至為一之ChannelType。因此,訊框249B之CSID欄位154C包括Cbflag 267、Pflag 267(指示霍夫曼編碼)及Nbits 261(等於12)。結果,訊框249F包括第三VVectorData欄位156C,其包括12個V向量元素,其中的每一者藉由12個位元均勻量化且經霍夫曼寫碼。如上文所指出,經寫碼VVectorData元素之數目及索引由參數CodedVVecLength=0指定,而霍夫曼寫碼方案藉由NbitsQ=12、CbFlag=0及Pflag=0先用於此特定傳輸通道(例如,第3傳輸通道)之CSID欄位154C中用信號通知。
圖10M(i)及圖10M(ii)之實例說明已產生第二實例位元串流248M及伴隨的HOA config部分250M以與以上偽碼中的以上情況2相對應。在圖10M(i)之實例中,HOAconfig部分250M包括CodedVVecLength語法元素256,其經設定以指示除了0階直至由MinAmbHoaOrder語法元素150(其在此實例中等於(HoaOrder+1)2-(MinAmbHoaOrder+1)2=16-4=12)指定之階數的元素,V向量之所有元素經寫碼。HOAconfig部分250M亦包括SpatialInterpolationMethod語法元素255集合以指示空間-時間內插之內插函數為升餘弦。此外,HOAconfig部分250M包括CodedSpatialInterpolationTime 254,其經設定以指示為256之經內插
樣本持續時間。
HOAconfig部分250M進一步包含MinAmbHoaOrder語法元素150,其經設定以指示環境HOA內容之MinimumHOA階數為一,其中音訊解碼器件24可導出MinNumofCoeffsForAmbHOA語法元素等於(1+1)2或四。音訊解碼器件24亦可導出MaxNoOfAddActiveAmbCoeffs語法元素,如設定至NumOfHoaCoeff語法元素與MinNumOfCoeffsForAmbHOA之間的差,在此實例中假定其等於16-4或12。音訊解碼器件24亦可導出AmbAsignmBits語法元素,如設定至ceil(log2(MaxNoOfAddActiveAmbCoeffs))=ceil(log2(12))=4。HOAconfig部分250M包括HoaOrder語法元素152,其經設定以指示內容之HOA階數等於三(或換言之,N=3),其中音訊解碼器件24可導出NumOfHoaCoeffs等於(N+1)2或16。
如圖10M(i)之實例中進一步所示,部分248M包括USAC-3D音訊訊框,其中兩個HOA訊框249K及249L儲存於USAC擴展有效負載中,假定在啟用頻譜帶複製(SBR)時,該兩個音訊訊框儲存在一個USAC-3D訊框內。音訊解碼器件24可導出作為numHOATransportChannels語法元素及MinNumOfCoeffsForAmbHOA語法元素之函數的數個可撓性傳輸通道。在以下實例中,假設numHOATransportChannels語法元素等於7且MinNumOfCoeffsForAmbHOA語法元素等於四,其中可撓性傳輸通道之數目等於numHOATransportChannels語法元素減MinNumOfCoeffsForAmbHOA語法元素(或三)。
圖10M(ii)更詳細地說明訊框249K及249L。如圖10M(ii)之實例中所示,訊框249K包括CSID欄位154至154C以及VVectorData欄位156。CSID欄位154包括CodedAmbCoeffIdx 246、AmbCoeffIdxTransition 247(其中雙星號(**)指示對於第1可撓性傳輸通道,此處假定解碼器之內部狀態為AmbCoeffIdxTransitionState=2,其導致CodedAmbCoeffIdx
位元欄位在位元串流中用信號通知或以其他方式指定)及ChannelType 269(其等於二,從而用信號通知對應有效負載為額外環境HOA係數)。在此實例中,音訊解碼器件24可將AmbCoeffIdx導出為等於CodedAmbCoeffIdx+1+MinNumOfCoeffsForAmbHOA或5。CSID欄位154B包括unitC 267、bb 266及ba 265連同ChannelType 269,其中的每一者設定至圖10M(ii)之實例中所示的對應值01、1、0及01。CSID欄位154C包括具有值3之ChannelType欄位269。
在圖10M(ii)之實例中,訊框249K包括單一基於向量之信號(假定ChannelType 269在CSID欄位154B中等於1)及一空信號(假定ChannelType 269在CSID欄位154C中等於3)。給定前述HOAconfig部分250M,音訊解碼器件24可判定12個V向量元素經編碼。因此,VVectorData 156包括12個向量元素,其中的每一者藉由8個位元均勻量化。如腳註1所指出,經寫碼VVectorData元素之數目及索引由參數CodedVVecLength=0指定。此外,如由腳註2所指出,寫碼方案藉由NbitsQ=5在用於對應傳輸通道之CSID欄位中用信號通知。
在訊框249L中,CSID欄位154包括指示無轉變已發生之AmbCoeffIdxTransition 247,且因此可自前一訊框暗示而無需用信號通知或以其他方式再次指定CodedAmbCoeffIdx 246。訊框249L之CSID欄位154B及154C與用於訊框249K之CSID欄位相同,且因而,如同訊框249K,訊框249L包括單一VVectorData欄位156,其包括所有12個向量元素,其中的每一者藉由8個位元均勻量化。
圖10N(i)及10N(ii)說明已產生第一實例位元串流248N及伴隨的HOA config部分250N以與以上偽碼中的情況3相對應。在圖10N(i)之實例中,HOAconfig部分250N包括CodedVVecLength語法元素256,其經設定以指示除了在ContAddAmbHoaChan語法元素(其在此實例中假定為零)中指定之彼等元素,V向量之所有元素經寫碼。HOAconfig部
分250N包括SpatialInterpolationMethod語法元素255集合以指示空間-時間內插之內插函數為升餘弦。此外,HOAconfig部分250N包括CodedSpatialInterpolationTime 254,其經設定以指示為256之經內插樣本持續時間。HOAconfig部分250N進一步包含MinAmbHoaOrder語法元素150,其經設定以指示環境HOA內容之MinimumHOA階數為一,其中音訊解碼器件24可導出MinNumofCoeffsForAmbHOA語法元素等於(1+1)2或四。HOAconfig部分250N包括HoaOrder語法元素152,其經設定以指示內容之HOA階數等於三(或換言之,N=3),其中音訊解碼器件24可導出NumOfHoaCoeffs等於(N+1)2或16。
如圖10N(i)之實例中進一步所示,部分248N包括USAC-3D音訊訊框,其中兩個HOA訊框249M及249N儲存於USAC擴展有效負載中,假定在啟用頻譜帶複製(SBR)時,該兩個音訊訊框儲存在一個USAC-3D訊框內。音訊解碼器件24可導出作為numHOATransportChannels語法元素及MinNumOfCoeffsForAmbHOA語法元素之函數的數個可撓性傳輸通道。在以下實例,假定numHOATransportChannels語法元素等於7且MinNumOfCoeffsForAmbHOA語法元素等於四,其中可撓性傳輸通道之數目等於numHOATransportChannels語法元素減MinNumOfCoeffsForAmbHOA語法元素(或三)。
圖10N(ii)更詳細地說明訊框249M及249N。如圖10N(ii)之實例中所示,訊框249M包括CSID欄位154至154C以及VVectorData欄位156及156B。CSID欄位154包括unitC 267、bb 266及ba 265連同ChannelType 269,其中的每一者設定至圖10J(i)之實例中所示的對應值01、1、0及01。CSID欄位154B包括unitC 267、bb 266及ba 265連同ChannelType 269,其中的每一者設定至圖10N(ii)之實例中所示的對應值01、1、0及01。CSID欄位154C包括具有值3之ChannelType欄位269。CSID欄位
154至154C中的每一者對應於傳輸通道1、2及3中之一各別者。
在圖10N(ii)之實例中,訊框249M包括兩個基於向量之信號(假定ChannelType 269在CSID欄位154及154B中等於1)及一空信號(假定ChannelType 269在CSID欄位154C中等於3)。給定前述HOAconfig部分250M,音訊解碼器件24可判定16個V向量元素經編碼。因此,VVectorData 156及156B各自包括16個向量元素,其中的每一者藉由8個位元均勻量化。如腳註1所指出,經寫碼VVectorData元素之數目及索引由參數CodedVVecLength=0指定。此外,如由單星號(*)所指出,寫碼方案藉由NbitsQ=5在用於對應傳輸通道之CSID欄位中用信號通知。
在訊框249N中,CSID欄位154及154B與訊框249M中之CSID欄位154及154B相同,而訊框249F之CSID欄位154C切換至為一之ChannelType。因此,訊框249B之CSID欄位154C包括Cbflag 267、Pflag 267(指示霍夫曼編碼)及Nbits 261(等於12)。結果,訊框249F包括第三VVectorData欄位156C,其包括16個V向量元素,其中的每一者藉由12個位元均勻量化且經霍夫曼寫碼。如上文所指出,經寫碼VVectorData元素之數目及索引由參數CodedVVecLength=0指定,而霍夫曼寫碼方案藉由NbitsQ=12、CbFlag=0及Pflag=0先用於此特定傳輸通道(例如,第3傳輸通道)之CSID欄位154C中用信號通知。
圖10O(i)及圖10O(ii)之實例說明已產生第二實例位元串流248O及伴隨的HOA config部分250O以與以上偽碼中的以上情況3相對應。在圖10O(i)之實例中,HOAconfig部分250O包括CodedVVecLength語法元素256,其經設定以指示除了在ContAddAmbHoaChan語法元素(其在此實例中假定為一)中指定之彼等元素,V向量之所有元素經寫碼。HOAconfig部分250O亦包括SpatialInterpolationMethod語法元素255集合以指示空間-時間內插之內插函數為升餘弦。此外,HOAconfig部分
250O包括CodedSpatialInterpolationTime 254,其經設定以指示為256之經內插樣本持續時間。
HOAconfig部分250O進一步包含MinAmbHoaOrder語法元素150,其經設定以指示環境HOA內容之MinimumHOA階數為一,其中音訊解碼器件24可導出MinNumofCoeffsForAmbHOA語法元素等於(1+1)2或四。音訊解碼器件24亦可導出MaxNoOfAddActiveAmbCoeffs語法元素,如設定至NumOfHoaCoeff語法元素與MinNumOfCoeffsForAmbHOA之間的差,在此實例中假定其等於16-4或12。音訊解碼器件24亦可導出AmbAsignmBits語法元素,如設定至ceil(log2(MaxNoOfAddActiveAmbCoeffs))=ceil(log2(12))=4。HOAconfig部分250O包括HoaOrder語法元素152,其經設定以指示內容之HOA階數等於三(或換言之,N=3),其中音訊解碼器件24可導出NumOfHoaCoeffs等於(N+1)2或16。
如圖10O(i)之實例中進一步所示,部分248O包括USAC-3D音訊訊框,其中兩個HOA訊框249O及249P儲存於USAC擴展有效負載中,假定在啟用頻譜帶複製(SBR)時,該兩個音訊訊框儲存在一個USAC-3D訊框內。音訊解碼器件24可導出作為numHOATransportChannels語法元素及MinNumOfCoeffsForAmbHOA語法元素之函數的數個可撓性傳輸通道。在以下實例,假定numHOATransportChannels語法元素等於7且MinNumOfCoeffsForAmbHOA語法元素等於四,其中可撓性傳輸通道之數目等於numHOATransportChannels語法元素減MinNumOfCoeffsForAmbHOA語法元素(或三)。
圖10O(ii)更詳細地說明訊框249O及249P。如圖10O(ii)之實例中所示,訊框249O包括CSID欄位154至154C以及VVectorData欄位156。CSID欄位154包括CodedAmbCoeffIdx 246、AmbCoeffIdxTransition 247(其中雙星號(**)指示對於第1可撓性傳輸通道,此處假定解碼器之
內部狀態為AmbCoeffIdxTransitionState=2,其導致CodedAmbCoeffIdx位元欄位在位元串流中用信號通知或以其他方式指定)及ChannelType 269(其等於二,從而用信號通知對應有效負載為額外環境HOA係數)。在此實例中,音訊解碼器件24可將AmbCoeffIdx導出為等於CodedAmbCoeffIdx+1+MinNumOfCoeffsForAmbHOA或5。CSID欄位154B包括unitC 267、bb 266及ba 265連同ChannelType 269,其中的每一者設定至圖10O(ii)之實例中所示的對應值01、1、0及01。CSID欄位154C包括具有值3之ChannelType欄位269。
在圖10O(ii)之實例中,訊框249O包括單一基於向量之信號(假定ChannelType 269在CSID欄位154B中等於1)及一空信號(假定ChannelType 269在CSID欄位154C中等於3)。給定前述HOAconfig部分250O,音訊解碼器件24可判定16減去由ContAddAmbHoaChan語法元素(例如,其中與索引6相關聯之向量元素被指定為ContAddAmbHoaChan語法元素)指定之一,或15個V向量元素經編碼。因此,VVectorData 156包括15個向量元素,其中的每一者藉由8個位元均勻量化。如腳註1所指出,經寫碼VVectorData元素之數目及索引由參數CodedVVecLength=0指定。此外,如由腳註2所指出,寫碼方案藉由NbitsQ=5在用於對應傳輸通道之CSID欄位中用信號通知。
在訊框249P中,CSID欄位154包括指示無轉變已發生之AmbCoeffIdxTransition 247,且因此可自前一訊框暗示而無需用信號通知或以其他方式再次指定CodedAmbCoeffIdx 246。訊框249P之CSID欄位154B及154C與用於訊框249O之CSID欄位相同,且因而,如同訊框249O,訊框249P包括單一VVectorData欄位156,其包括15個向量元素,其中的每一者藉由8個位元均勻量化。
圖11A至圖11G為更詳細地說明圖5之實例中所示的音訊解碼器件
24之各種單元的方塊圖。圖11A為更詳細地說明音訊解碼器件24之提取單元72的方塊圖。如圖11A之實例中所示,提取單元72可包括模式剖析單元270、模式組態單元272(「模式組態單元272」),及可組態提取單元274。
模式剖析單元270可表示經組態以剖析指示用以對HOA係數11進行編碼之寫碼模式的以上指出之語法元素(例如,圖10E之實例中所示的ChannelType語法元素)以便形成位元串流21。模式剖析單元270可將所判定語法元素傳遞至模式組態單元272。模式組態單元272可表示經組態以基於經剖析語法元素組態可組態提取單元274之單元。模式組態單元272可組態可組態提取單元274以基於經剖析語法元素自位元串流21提取HOA係數11之基於方向之經寫碼表示或自位元串流21提取HOA係數11之基於向量之經寫碼表示。
當執行基於方向之編碼時,可組態提取單元274可提取HOA係數11之基於方向之版本及與此經編碼版本相關聯之語法元素(其在圖11A之實例中表示為基於方向之資訊91)。此基於方向之資訊91可包括圖10D之實例中所示的方向資訊253及圖10E之實例中所示的基於方向之SideChannelInfoData,如藉由等於零之ChannelType界定。
當語法元素指示HOA係數11係使用基於向量之合成予以編碼時(例如,當ChannelType語法元素等於一時),可組態提取單元274可提取經寫碼前景V[k]向量57、經編碼環境HOA係數59及經編碼nFG信號59。可組態提取單元274亦可在判定語法元素指示HOA係數11係使用基於向量之合成予以編碼之後即刻自位元串流21提取CodedSpatialInterpolationTime語法元素254及SpatialInterpolationMethod語法元素255,將此等語法元素254及255傳遞至空間-時間內插單元76。
圖11B為更詳細地說明圖5之實例中所示的音訊解碼器件24之量
化單元74的方塊圖。量化單元74可表示經組態而以與圖4之實例中所示的量化單元52互逆之方式操作以便對經寫碼前景V[k]向量57進行熵解碼解量化且藉此產生經縮減前景V[k]向量55 k 之單元。純量/熵解量化單元984可包括類別/殘差解碼單元276、預測單元278及均勻解量化單元280。
類別/殘差解碼單元276可表示經組態以使用藉由霍夫曼表資訊241(如上文所指出,其表示為位元串流21中之語法元素)識別之霍夫曼表對於經寫碼前景V[k]向量57執行霍夫曼解碼之單元。類別/殘差解碼單元276可將經量化前景V[k]向量輸出至預測單元278。預測單元278可表示經組態以基於預測模式237對於經量化前景V[k]向量執行預測之單元,將擴充之經量化前景V[k]向量輸出至均勻解量化單元280。均勻解量化單元280可表示經組態以基於nbits值233對於擴充之經量化前景V[k]向量執行解量化之單元,輸出經縮減前景V[k]向量55 k 。
圖11C為更詳細地說明圖5之實例中所示的音訊解碼器件24之音質解碼單元80的方塊圖。如上文所指出,音質解碼單元80可以與圖4之實例中所示的音質音訊寫碼單元40互逆之方式操作以便對經編碼環境HOA係數59及經編碼nFG信號61進行解碼且藉此產生能量經補償之環境HOA係數47'及經內插nFG信號49'(其亦可被稱作經內插nFG音訊物件49')。音質解碼單元80可將能量經補償之環境HOA係數47'傳遞至HOA係數制訂單元82且將nFG信號49'傳遞至重排序84。音質解碼單元80可包括類似於音質音訊寫碼單元40之複數個音訊解碼器80至80N。音訊解碼器80至80N可以足夠數量藉由音質音訊寫碼單元40執行個體化或以其他方式包括於音質音訊寫碼單元40內以如上文所指出支援對背景HOA係數47'之每一通道及nFG信號49'之每一信號的同時解碼。
圖11D為更詳細地說明圖5之實例中所示的音訊解碼器件24之重
排序單元84的方塊圖。重排序單元84可表示經組態而以與上文關於重排序單元34所描述的方式大體互逆之方式操作的單元。重排序單元84可包括向量重排序單元282,其可表示經組態以接收指示HOA係數11之前景分量的原始階數之語法元素205的單元。提取單元72可剖析來自位元串流21之此等語法元素205,且將語法元素205傳遞至重排序單元84。向量重排序單元282可基於此等重排序語法元素205對經內插nFG信號49'及經縮減前景V[k]向量55 k 重排序以產生經重排序之nFG信號49"及經重排序之前景V[k]向量55 k '。重排序單元84可將經重排序之nFG信號49"輸出至前景制訂單元78,且將經重排序之前景V[k]向量55k'輸出至空間-時間內插單元76。
圖11E為更詳細地說明圖5之實例中所示的音訊解碼器件24之空間-時間內插單元76的方塊圖。空間-時間內插單元76可以類似於上文關於空間-時間內插單元50所描述的方式之方式操作。空間-時間內插單元76可包括V內插單元284,其可表示經組態以接收經重排序之前景V[k]向量55 k '且對於經重排序之前景V[k]向量55 k '及經重排序之前景V[k-1]向量55 k-1'執行空間-時間內插以產生經內插前景V[k]向量55 k "之單元。V內插單元284可基於CodedSpatialInterpolationTime語法元素254及SpatialInterpolationMethod語法元素255執行內插。在一些實例中,V內插單元285可使用藉由SpatialInterpolationMethod語法元素255識別之內插類型在藉由CodedSpatialInterpolationTime語法元素254指定之持續時間內內插V向量。空間-時間內插單元76可將經內插前景V[k]向量55k"轉遞至前景制訂單元78。
圖11F為更詳細地說明圖5之實例中所示的音訊解碼器件24之前景制訂單元78的方塊圖。前景制訂單元78可包括乘法單元286,乘法單元286可表示經組態以對於經內插前景V[k]向量55 k "及經重排序之nFG信號49"執行矩陣乘法以產生前景HOA係數65之單元。
圖11G為更詳細地說明圖5之實例中所示的音訊解碼器件24之HOA係數制訂單元82的方塊圖。係數制訂單元82可包括加法單元288,加法單元288可表示經組態以將前景HOA係數65相加至環境HOA通道47'以便獲得HOA係數11'之單元。
圖12為說明可執行本發明中所描述之技術的各種態樣之實例音訊生態系統的圖。如圖12中所示,音訊生態系統300可包括獲取301、編輯302、寫碼303、傳輸304,及播放305。
獲取301可表示音訊生態系統300之獲取音訊內容的技術。獲取301之實例包括(但不限於)記錄聲音(例如,實況聲音)、音訊產生(例如,音訊物件、歌舞劇製作、聲音合成,模擬),等等。在一些實例中,聲音可係在音樂會、體育事件及在進行監督時記錄。在一些實例中,可在執行模擬及製作/混音(例如,電影、遊戲)時產生音訊。音訊物件可用於好萊塢(例如,IMAX工作室)中。在一些實例中,獲取301可藉由內容建立者(諸如圖3之內容建立者12)執行。
編輯302可表示音訊生態系統300之編輯及/或修改音訊內容之技術。作為一個實例,可藉由將音訊內容之多個單元組合成音訊內容之單一單元來編輯音訊內容。作為另一實例,可藉由調整實際音訊內容(例如,調整音訊內容之一或多個頻率分量之位準)來編輯音訊內容。在一些實例中,編輯302可藉由音訊編輯系統(諸如圖3之音訊編輯系統18)執行。在一些實例中,可在行動器件(諸如圖29中所說明之行動器件中之一或多者)上執行編輯302。
寫碼303可表示音訊生態系統300之將音訊內容寫碼為音訊內容之表示的技術。在一些實例中,音訊內容之表示可為位元串流,諸如圖3之位元串流21。在一些實例中,寫碼302可藉由音訊編碼器件(諸如圖3之音訊編碼器件20)執行。
傳輸304可表示音訊生態系統300之將音訊內容自內容建立者傳
送至內容消費者之元件。在一些實例中,可即時或接近即時地傳送音訊內容。舉例而言,音訊內容可串流傳輸至內容消費者。在一些實例中,音訊內容可藉由將音訊內容寫碼於媒體(諸如電腦可讀儲存媒體)上而予以傳送。舉例而言,音訊內容可儲存在光碟、碟機等等(例如,藍光磁碟、記憶卡、硬碟機等)上。
播放305可表示音訊生態系統300之將音訊內容轉譯且播放給內容消費者的技術。在一些實例中,播放305可包括基於播放環境之一或多個態樣轉譯3D音場。換言之,播放305可基於本端聲學地景。
圖13為更詳細地說明圖12之音訊生態系統之一個實例的圖。如圖13中所示,音訊生態系統300可包括音訊內容308、電影工作室310、音樂工作室311、遊戲音訊工作室312、基於通道之音訊內容313、寫碼引擎314、遊戲音訊原聲(game audio stem)315、遊戲音訊寫碼/轉譯引擎316,及遞送系統317。圖26中說明實例遊戲音訊演播室312。圖27中說明一些實例遊戲音訊寫碼/轉譯引擎316。
如圖13所說明,電影工作室310、音樂工作室311及遊戲音訊工作室312可接收音訊內容308。在一些實例中,音訊內容308可表示圖12之獲取301的輸出。電影工作室310可諸如藉由使用數位音訊工作站(DAW)而輸出基於通道之音訊內容313(例如,在2.0、5.1及7.1中)。音樂工作室310可諸如藉由使用DAW而輸出基於通道之音訊內容313(例如,在2.0及5.1中)。在任一情況下,寫碼引擎314可基於一或多個編解碼標準(例如,AAC、AC3、Dolby True HD、Dolby Plus及DTS Master Audio)接收及編碼基於通道之音訊內容313以供由遞送系統317輸出。以此方式,寫碼引擎314可為圖12之寫碼303的實例。遊戲音訊工作室312可諸如藉由使用DAW輸出一或多個遊戲音訊原聲315。遊戲音訊寫碼/轉譯引擎316可將音訊原聲315寫碼及或轉譯成基於通道之音訊內容以供由遞送系統317輸出。在一些實例中,電影工作室
310、音樂工作室311及遊戲音訊工作室312之輸出可表示圖12之編輯302的輸出。在一些實例中,寫碼引擎314及/或遊戲音訊寫碼/轉譯引擎316之輸出可經由圖12之傳輸304的技術傳送至遞送系統317。
圖14為更詳細地說明圖12之音訊生態系統之另一實例的圖。如圖14中所說明,音訊生態系統300B可包括:廣播記錄音訊物件319;專業音訊系統320;消費者器件上捕獲器322;HOA音訊格式323;器件上轉譯324;消費者音訊、電視及配件325;及汽車音訊系統326。
如圖14中所說明,廣播記錄音訊物件319、專業音訊系統320及消費者器件上捕獲器322皆可使用HOA音訊格式323對其輸出進行寫碼。以此方式,可使用HOA音訊格式323將音訊內容寫碼為可使用器件上轉譯324、消費者音訊、電視及配件325以及汽車音訊系統326播放之單一表示。換言之,可在通用音訊播放系統(亦即,相較於需要諸如5.1、7.1等之特定組態)處播放音訊內容之單一表示。
圖15A及圖15B為更詳細地說明圖12之音訊生態系統之其他實例的圖。如圖15A中所說明,音訊生態系統300C可包括獲取元件331及播放元件336。獲取元件331可包括有線及/或無線獲取器件332(例如,Eigen麥克風)、器件上環繞聲捕獲器334及行動器件335(例如,智慧型手機及平板電腦)。在一些實例中,有線及/或無線獲取器件332可經由有線及/或無線通信通道333耦接至行動器件335。
根據本發明之一或多個技術,行動器件335可用以獲取音場。例如,行動器件335可經由有線及/或無線獲取器件332及/或器件上環繞聲捕獲器334(例如,整合至行動器件335中之複數個麥克風)獲取音場。行動器件335可接著將所獲取音場寫碼成HOA 337以供由播放元件336中之一或多者播放。例如,行動器件335之使用者可記錄實況事件(例如,會面、會議、比賽、音樂會,等)(獲取其音場),且將該記錄寫碼成HOA。
行動器件335亦可利用播放元件336中之一或多者來播放HOA經寫碼音場。舉例而言,行動器件335可對HOA經寫碼音場進行解碼,且將使得播放元件336中之一或多者重建音場之信號輸出至播放元件336中之一或多者。作為一個實例,行動器件335可利用無線及/或無線通信通道338將信號輸出至一或多個揚聲器(例如,揚聲器陣列、聲棒(sound bar),等)。作為另一實例,行動器件335可利用銜接解決方案339將信號輸出至一或多個銜接台及/或一或多個銜接之揚聲器(例如,智慧型汽車及/或家庭中之聲音系統)。作為另一實例,行動器件335可利用頭戴式耳機轉譯340來將信號輸出至頭戴式耳機集合(例如)以產生實際的雙耳聲音。
在一些實例中,特定行動器件335可獲取3D音場並且在稍後時間播放相同3D音場。在一些實例中,行動器件335可獲取3D音場,將該3D音場編碼為HOA,且將經編碼3D音場傳輸至一或多個其他器件(例如,其他行動器件及/或其他非行動器件)用於播放。
如圖15B中所說明,音訊生態系統300D可包括音訊內容343、遊戲工作室344、經寫碼音訊內容345、轉譯引擎346,及遞送系統347。在一些實例中,遊戲工作室344可包括可支援對HOA信號之編輯的一或多個DAW。舉例而言,一或多個DAW可包括HOA外掛程式及/或可經組態以與一或多個遊戲音訊系統一起操作(例如,工作)之工具。在一些實例中,遊戲工作室344可輸出支援HOA之新原聲格式。在任何情況下,遊戲工作室344可將經寫碼音訊內容345輸出至轉譯引擎346,轉譯引擎346可轉譯音場以供由遞送系統347播放。
圖16為說明可執行本發明中所描述之技術的各種態樣之實例音訊編碼器件的圖。如圖16中所說明,音訊生態系統300E可包括原始3D音訊內容351、編碼器352、位元串流353、解碼器354、轉譯器355,及播放元件356。如圖16所進一步說明,編碼器352可包括音場
分析及分解357、背景提取358、背景突出性判定359、音訊寫碼360、前景/獨特音訊提取361,及音訊寫碼362。在一些實例中,編碼器352可經組態以執行類似於圖3及圖4之音訊編碼器件20的操作。在一些實例中,音場分析及分解357可經組態以執行類似於圖4之音場分析單元44的操作。在一些實例中,背景提取358及背景突出性判定359可經組態以執行類似於圖4之BG選擇單元48的操作。在一些實例中,音訊寫碼360及音訊寫碼362可經組態以執行類似於圖4之音質音訊寫碼器單元40的操作。在一些實例中,前景/獨特音訊提取361可經組態以執行類似於圖4之前景選擇單元36的操作。
在一些實例中,前景/獨特音訊提取361可分析對應於圖33之視訊圖框390的音訊內容。舉例而言,前景/獨特音訊提取361可判定對應於區域391A至391C之音訊內容為前景音訊。
如圖16中所說明,編碼器352可經組態以將可具有25至75Mbps之位元率的原始內容351編碼為可具有256kbps至1.2Mbps之位元率的位元串流353。圖17為更詳細地說明圖16之音訊編碼器件之一個實例的圖。
圖18為說明可執行本發明中所描述之技術的各種態樣之實例音訊解碼器件的圖。如圖18中所說明,音訊生態系統300E可包括原始3D音訊內容351、編碼器352、位元串流353、解碼器354、轉譯器355,及播放元件356。如圖16所進一步說明,解碼器354可包括音訊解碼器363、音訊解碼器364、前景重建構365,及混音366。在一些實例中,解碼器354可經組態以執行類似於圖3及圖5之音訊解碼器件24的操作。在一些實例中,音訊解碼器363、音訊解碼器364可經組態以執行類似於圖5之音質解碼單元80的操作。在一些實例中,前景重建構365可經組態以執行類似於圖5之前景制訂單元78的操作。
如圖16中所說明,解碼器354可經組態以接收並解碼位元串流
353且將所得經重建構之3D音場輸出至轉譯器355,轉譯器355可接著使得播放元件356中之一或多者輸出原始3D內容351之表示。圖19為更詳細地說明圖18之音訊解碼器件之一個實例的圖。
圖20A至圖20G為說明可執行本發明中所描述之技術的各種態樣之實例音訊獲取器件的圖。圖20A說明可包括共同地經組態以記錄3D音場之複數個麥克風的Eigen麥克風370。在一些實例中,Eigen麥克風370之複數個麥克風可位於半徑約4cm之實質上成球面的球之表面上。在一些實例中,音訊編碼器件20可整合至Eigen麥克風中以便直接自麥克風370輸出位元串流17。
圖20B說明可經組態以自諸如一或多個Eigen麥克風370之一或多個麥克風接收信號的製作車372。製作車372亦可包括音訊編碼器,諸如圖3之音訊編碼器20。
圖20C至圖20E說明可包括共同地經組態以記錄3D音場之複數個麥克風的行動器件374。換言之,該複數個麥克風可具有X、Y、Z分集。在一些實例中,行動器件374可包括麥克風376,其可相對於行動器件374之一或多個其他麥克風旋轉以提供X、Y、Z分集。行動器件374亦可包括音訊編碼器,諸如圖3之音訊編碼器20。
圖20F說明可經組態以記錄3D音場之加固型視頻俘獲器件378。在一些實例中,加固型視頻俘獲器件378可附接至參與活動的使用者之頭盔。舉例而言,加固型視頻俘獲器件378可在使用者泛舟時附接至使用者之頭盔。以此方式,加固型視頻俘獲器件378可捕獲表示使用者周圍的動作(例如,水在使用者身後的撞擊、另一泛舟者在使用者前方說話,等)的3D音場。
圖20G說明可經組態以記錄3D音場之配件助強型行動器件380。在一些實例中,行動器件380可類似於圖15之行動器件335,其中添加一或多個配件。舉例而言,Eigen麥克風可附接至圖15之行動器件335
以形成配件增強型行動器件380。以此方式,配件增強型行動器件380可僅使用整合至配件增強型行動器件380之聲音捕獲組件捕獲較高品質之3D音場版本。
圖21A至圖21E為說明可執行本發明中所描述之技術的各種態樣之實例音訊播放器件的圖。圖21A及圖21B說明複數個揚聲器382及聲棒384。根據本發明之一或多個技術,揚聲器382及/或聲棒384可配置成任何任意組態同時仍播放3D音場。圖21C至圖21E說明複數個頭戴式耳機播放器件386至386C。頭戴式耳機播放器件386至386C可經由有線或無線連接耦接至解碼器。根據本發明之一或多個技術,可利用音場之單一通用表示來在揚聲器382、聲棒384及頭戴式耳機播放器件386至386C之任何組合上轉譯音場。
圖22A至圖22H為說明根據本發明中所描述之一或多個技術的實例音訊播放環境的圖。舉例而言,圖22A說明5.1揚聲器播放環境,圖22B說明2.0(例如,立體聲)揚聲器播放環境,圖22C說明具有全高前擴音器之9.1揚聲器播放環境,圖22D及圖22E各說明22.2揚聲器播放環境,圖22F說明16.0揚聲器播放環境,圖22G說明汽車揚聲器播放環境,且圖22H說明具有耳掛式耳機播放環境的行動器件。
根據本發明之一或多個技術,可利用音場之單一通用表示來在圖22A至22H中所說明之播放環境中的任一者上轉譯音場。此外,本發明之技術使轉譯器能夠自通用表示轉譯一音場以供在不同於圖22A至圖22H中所說明之環境的播放環境上播放。舉例而言,若設計考慮禁止揚聲器根據7.1揚聲器播放環境之恰當置放(例如,若不可能置放右環繞揚聲器),則本發明之技術使轉譯器能夠藉由其他6個揚聲器而獲得補償,使得可在6.1揚聲器播放環境上達成播放。
如圖23中所說明,使用者可在佩戴頭戴式耳機386之同時觀看體育賽事。根據本發明之一或多個技術,可獲取體育賽事之3D音場(例
如,一或多個Eigen麥克風可置放在圖24中所說明之棒球館中及/或其周圍),對應於該3D音場之HOA係數可經獲得且傳輸至解碼器,解碼器可判定基於該等HOA係數重建構該3D音場且將經重建構之3D音場輸出至轉譯器,轉譯器可獲得關於播放環境之類型(例如,頭戴式耳機)的指示,且將經重建構之3D音場轉譯成信號,該等信號使得頭戴式耳機輸出體育賽事之3D音場的表示。在一些實例中,轉譯器可根據圖25之技術獲得關於播放環境之類型的指示。以此方式,轉譯器可針對各種揚聲器位置、數目、類型、大小而「調適」,且亦理想地針對當地環境而均衡化。
圖28為說明根據本發明中所描述之一或多個技術的可由頭戴式耳機模擬之揚聲器組態的圖。如圖28所說明,本發明之技術可使佩戴頭戴式耳機389之使用者能夠體驗到音場,如同該音場係由揚聲器388播放一般。以此方式,使用者可收聽3D音場而無需將聲音輸出至大的區域。
圖30為說明與可根據本發明中所描述之一或多個技術加以處理之3D音場相關聯的視訊圖框之圖。
圖31A至圖31M為說明展示根據本發明中所描述之技術的各種態樣之執行音場之合成或記錄分類之各種模擬結果的曲線圖400A至400M之圖。在圖31A至圖31M之實例中,曲線圖400A至400M中的每一者包括由點線表示之臨限值402及由虛線表示之各別音訊物件404A至404M(統稱「音訊物件404」)。
當經由上文關於內容分析單元26描述之分析而判定音訊物件404低於臨限值402時,內容分析單元26判定音訊物件404中之一對應者表示已記錄之音訊物件。如圖31B、圖31D至圖31H及圖31J至圖31L之實例中所示,內容分析單元26判定音訊物件404B、404D至404H、404J至404L低於臨限值402(至少+90%之可能,且常常100%),且因此表示
所記錄之音訊物件。如圖31A、圖31C及圖31I之實例中所示,內容分析單元26判定音訊物件404A、404C及404I超出臨限值402且因此表示合成音訊物件。
在圖31M之實例中,音訊物件404M表示混合之合成/記錄音訊物件,其具有一些合成部分(例如,高於臨限值402)及一些合成部分(例如,低於臨限值402)。在此情況下,內容分析單元26識別音訊物件404M之合成及記錄部分,結果,音訊編碼器件20產生位元串流21以包括基於方向性之經編碼音訊資料及基於向量之經編碼音訊資料兩者。
圖32為說明來自根據本發明中所描述之技術自高階立體混響係數分解之S矩陣的奇異值之曲線圖406的圖。如圖32中所示,具有大值之非零奇異值很少。圖4之音場分析單元44可分析此等奇異值以判定經重排序之US[k]向量33'及經重排序之V[k]向量35'之nFG前景(或換言之,優勢)分量(常常由向量)表示。
圖33A及圖33B為說明展示在根據本發明中所描述之技術對描述音場之前景分量的向量進行編碼時重排序所具有的潛在影響的各別曲線圖410A及410B之圖。曲線圖410A展示對無序(或換言之,原始)US[k]向量33中的至少一些進行編碼之結果,而曲線圖410B展示對有序US[k]向量33'中之對應者進行編碼之結果。曲線410A及410B中的每一者中之頂部曲線展示編碼中的錯誤,其中可能僅曲線圖410B中在訊框邊界處之錯誤明顯。因此,本發明中所描述之重排序技術可促進或以其他方式促成使用舊版音訊寫碼器對單聲道音訊物件之寫碼。
圖34及圖35為說明根據本發明之對獨特音訊物件的單獨基於能量之識別與基於方向性之識別之間的差異之概念圖。在圖34之實例中,展現較大能量之向量識別為獨特音訊物件,而不管方向性如何。如圖34中所示,根據較高能量值定位(標繪在y軸上)之音訊物件判定
為「在前景中」,而不管方向性((例如,由標繪在x軸上之方向性商表示)如何。
圖35說明基於方向性及能量兩者識別獨特音訊物件,諸如根據圖4之音場分析單元44所實施的技術。如圖35中所示,方向性商標繪為朝向x軸之左方變大,且能階標繪為朝向y軸之頂部變大。在此實例中,音場分析單元44可判定獨特音訊物件(例如,「在前景中」之音訊物件)與標繪為相對朝向曲線圖之左上方的向量資料相關聯。作為一個實例,音場分析單元44可判定標繪在曲線圖之左上象限中的彼等向量與獨特音訊物件相關聯。
圖36A至圖36F為說明根據本發明中所描述之技術的各種態樣之球諧係數的經分解版本之至少一部分向空間域中投影以便執行內插的圖。圖36A為說明V[k]向量35中之一或多者至球面412上之投影。在圖36A之實例中,每一數字識別投影至球面上(可能與V矩陣19'之一個列及/或行相關聯)之不同球諧係數。不同顏色暗示獨特音訊分量之方向,其中較淡(且逐漸變深)的色彩表示獨特分量之主要方向。圖4之實例中所示的音訊編碼器件20之空間-時間內插單元50可在紅點中的每一者之間執行空間-時間內插以產生圖36A之實例中所示的球面。
圖36B為說明V[k]向量35中之一或多者至橫桿上之投影。空間-時間內插單元50可投影V[k]向量35之一個列及/或行或V[k]向量35之多個列及/或行以產生圖36B之實例中所示的橫桿414。
圖36C為說明V[k]向量35中之一或多者之一或多個向量至球面(諸如圖36之實例中所示的球面412)上之投影的橫截面之圖。
圖36D至圖36G中展示在不同聲源(蜜蜂、直升機、電子音樂,及體育場中的人)可說明於三維空間中時的時間(在約20毫秒之1個訊框內)之快照的實例。
本發明中所描述之技術允許使用單一US[k]向量及單一V[k]向量
識別及表示此等不同聲源之表示。聲源之時間變化性表示於US[k]向量中,而每一聲源之空間分佈由單一V[k]向量表示。一個V[k]向量可表示聲源之寬度、位置及大小。此外,單一V[k]向量可表示為球諧基底函數之線性組合。在圖36D至圖36G之曲線中,聲源之表示係基於將單一V向量變換至空間座標系統。圖36至圖36C中使用說明聲源之類似方法。
圖37說明用於獲得如本文所描述的空間-時間內插之技術的表示。圖4之實例中所示的音訊編碼器件20之空間-時間內插單元50可執行下文更詳細地描述之空間-時間內插。空間-時間內插可包括在空間及時間維度兩者上獲得較高解析度空間分量。該等空間分量可係基於由高階立體混響(HOA)係數(或,如同HOA係數亦可被稱作的,「球諧係數」)組成之多維信號的正交分解。
在所說明之曲線圖中,向量V1及V2表示多維信號之兩個不同空間分量的對應向量。可藉由多維信號之逐區塊分解獲得空間分量。在一些實例中,空間分量源自於對於高階立體混響(HOA)音訊資料(其中此立體混響音訊資料包括區塊、樣本或任何其他形式之多通道音訊資料)之每一區塊(其可指訊框)執行逐區塊形式之SVD。變數M可用以表示以樣本計的音訊訊框之長度。
因此,V1及V2可表示用於HOA係數11之連續區塊的前景V[k]向量51 k 及前景V[k-1]向量51 k-1之對應向量。舉例而言,V1可表示用於第一訊框(k-1)之前景V[k-1]向量51 k-1之第一向量,而V2可表示用於第二後續訊框(k)之前景V[k]向量51 k 之第一向量。V1及V2可表示包括於多維信號中的單一音訊物件之空間分量。
用於每一x之經內插向量Vx係藉由根據多維信號(經內插向量Vx可應用於該多維信號以平滑化時間(且因此,在一些情況下,空間)分量)之時間分量的時間區段或「時間樣本」之數目對V1及V2進行加權而獲
得。如上文所描述,採用SVD組合,可藉由對每一時間樣本向量(例如,HOA係數11之樣本)與對應經內插Vx進行向量除法來獲得nFG信號49之平滑化。亦即,US[n]=HOA[n]* Vx[n]-1,其中此表示列向量乘以行向量,因而產生US之純量元素。Vx[n]-1可作為Vx[n]之偽逆而獲得。
關於V1及V2之加權,歸因於在時間上在V1之後出現的V2,V1的權重沿著時間維度按比例較低。亦即,儘管前景V[k-1]向量51 k-1為分解之空間分量,但時間上連續之前景V[k]向量51 k 隨時間推移表示空間分量之不同值。因此,V1之權重減小,而V2之權重隨著x沿著t增大而增長。此處,d1及d2表示權重。
圖38為說明根據本文所述的技術的用於多維信號之依序SVD區塊的假造US矩陣(US1及US2)之方塊圖。經內插V向量可應用於人工US矩陣之列向量以恢復原始多維信號。更特定言之,空間-時間內插單元50可將經內插前景V[k]向量53之偽逆乘以nFG信號49與前景V[k]向量51 k (其可表示為前景HOA係數)之相乘結果以獲得K/2經內插樣本,其可代替nFG信號之K/2樣本用作第一K/2樣本,如U2矩陣之圖38之實例中所示。
圖39為說明根據本發明中所描述之技術使用奇異值分解及空間時間分量之平滑化來分解高階立體混響(HOA)信號之後續訊框的方塊圖。訊框n-1及訊框n(其亦可表示為訊框n及訊框n+1)表示時間上連續的訊框,其中每一訊框包含1024個時間區段且具有HOA階數4,從而得出(4+1)2=25個係數。可藉由如所說明應用經內插V向量而獲得為訊框n-1及訊框n處的經人工平滑化之U矩陣的US矩陣。每一灰色列或行向量表示一個音訊物件。
藉由取表示於 X VECk中之基於向量之信號中的每一者且將其與
其對應(經解量化之)空間向量 V VECk相乘而產生瞬時 C VECk。每一 V VECk表示於 M VECk中。因而,對於L階HOA信號及M個基於向量之信號,將存在M個基於向量之信號,其中的每一者將具有由訊框長度P給出之維度。此等信號可因而表示為: X VECkmn、n=0,...P-1;m=0,..M-1。因此,將存在M個空間向量,即維度為(L+1) 2 之 V VECk。此等可表示為 M VECkml、l=0,..,(L+1) 2-1 ;m=0,..,M-1。用於每一基於向量之信號 C VECkm的HOA表示為由下式給出之矩陣向量乘法: C VECkm= (X VECkm(M VECkm)T)T
其產生矩陣(L+1) 2 乘P。藉由如下對每一基於向量之信號的貢獻求和而給出完整HOA表示: C VECk=m=0M-1C VECk[m]
然而,為了維持平滑的空間-時間連續性,僅對於訊框長度之部分P-B進行以上計算。改為藉由使用自當前 M VECkm及先前值 M VECk-1m導出的經內插集合 M VECkml(m=0,..,M-1;l=0,..,(L+1) 2 )進行HOA矩陣之前B個樣本。此導致較高時間密度空間向量,此係因為吾人如下對於每一時間樣本p導出一向量: M VECkmp=pB-1M VECkm+B-1-pB-1M VECk-1m,p=0,..,B-1.
用於每一時間樣本p,具有(L+1) 2 個維度之新HOA向量計算為: C VECkp= (X VECkmp)M VECkmp,p=0,..,B-1
藉由先前區段之P-B樣本擴充此等前B個樣本以導致第m基於向量之信號的完整HOA表示 C VECkm。
在解碼器(例如,圖5之實例中所示的音訊解碼器件24)處,對於某些獨特、前景或基於向量之優勢聲音,可使用線性(或非線性)內插來內插來自前一訊框之V向量及來自當前訊框之V向量以產生特定時
間區段內的較高解析度(在時間上)經內插V向量。空間時間內插單元76可執行此內插,其中空間-時間內插單元76可接著將當前訊框中之US向量與較高解析度經內插V向量相乘以產生彼特定時間區段內之HOA矩陣。
或者,空間-時間內插單元76可將US向量與當前訊框之V向量相乘以產生第一HOA矩陣。此外,解碼器可將US向量與來自前一訊框之V向量相乘以產生第二HOA矩陣。空間-時間內插單元76可接著將線性(或非線性)內插應用於特定時間區段內之第一HOA矩陣及第二HOA矩陣。假定常見輸入矩陣/向量,此內插之輸出可匹配US向量與經內插V向量之乘法的輸出。
就此而言,該等技術可使音訊編碼器件20及/或音訊解碼器件24能夠經組態以根據以下條項操作。
條項135054-1C。一種器件,諸如音訊編碼器件20或音訊解碼器件24,其包含:一或多個處理器,其經組態以在空間及時間兩者中獲得複數個較高解析度空間分量,其中該等空間分量係基於由球諧係數組成之多維信號的正交分解。
條項135054-1D。一種器件,諸如音訊編碼器件20或音訊解碼器件24,其包含:一或多個處理器,其經組態以平滑化第一複數個球諧係數及第二複數個球諧係數之空間分量及時間分量中之至少一者。
條項135054-1E。一種器件,諸如音訊編碼器件20或音訊解碼器件24,其包含:一或多個處理器,其經組態以在空間及時間兩者中獲得複數個較高解析度空間分量,其中該等空間分量係基於由球諧係數組成之多維信號的正交分解。
條項135054-1G。一種器件,諸如音訊編碼器件20或音訊解碼器件24,其包含:一或多個處理器,其經組態以至少部分地藉由對於第一複數個球諧係數之一第一分解及第二複數個球諧係數之一第二分解
增加解析度而獲得用於一時間區段之分解式增加解析度之球諧係數。
條項135054-2G。如條項135054-1G之器件,其中該第一分解包含表示該第一複數個球諧係數之右奇異向量的一第一V矩陣。
條項135054-3G。如條項135054-1G之器件,其中該第二分解包含表示該第二複數個球諧係數之右奇異向量的一第二V矩陣。
條項135054-4G。如條項135054-1G之器件,其中該第一分解包含表示該第一複數個球諧係數之右奇異向量的第一V矩陣,且其中該第二分解包含表示該第二複數個球諧係數之右奇異向量的第二V矩陣。
條項135054-5G。如條項135054-1G之器件,其中該時間區段包含一音訊訊框之一子訊框。
條項135054-6G。如條項135054-1G之器件,其中該時間區段包含一音訊訊框之一時間樣本。
條項135054-7G。如條項135054-1G之器件,其中該一或多個處理器經組態以獲得該第一複數個球諧係數中之一球諧係數的該第一分解及該第二分解的一經內插分解。
條項135054-8G。如條項135054-1G之器件,其中該一或多個處理器經組態以獲得用於包括於第一訊框中之第一複數個球諧係數之第一部分的第一分解及用於包括於第二訊框中之第二複數個球諧係數之第二部分的第二分解之經內插分解,其中該一或多個處理器經進一步組態以將該等經內插分解應用於包括於該第一訊框中的該第一複數個球諧係數之該第一部分之第一時間分量以產生該第一複數個球諧係數之第一人工時間分量,且將各別經內插分解應用於包括於該第二訊框中的該第二複數個球諧係數之該第二部分的第二時間分量以產生所包括的該第二複數個球諧係數之第二人工時間分量。
條項135054-9G。如條項135054-8G之器件,其中該第一時間分
量係藉由對於該第一複數個球諧係數執行一基於向量之合成而產生。
條項135054-10G。如條項135054-8G之器件,其中該第二時間分量係藉由對於該第二複數個球諧係數執行一基於向量之合成而產生。
條項135054-11G。如條項135054-8G之器件,其中該一或多個處理器經進一步組態以:接收該第一人工時間分量及該第二人工時間分量;計算用於該第一複數個球諧係數之該第一部分的該第一分解及用於該第二複數個球諧係數之該第二部分的該第二分解之經內插分解;及將該等經內插分解之逆應用於該第一人工時間分量以恢復該第一時間分量且應用於該第二人工時間分量以恢復該第二時間分量。
條項135054-12G。如條項135054-1G之器件,其中該一或多個處理器經組態以內插該第一複數個球諧係數之一第一空間分量及該第二複數個球諧係數之該第二空間分量。
條項135054-13G。如條項135054-12G之器件,其中該第一空間分量包含表示該第一複數個球諧係數之左奇異向量的一第一U矩陣。
條項135054-14G。如條項135054-12G之器件,其中該第二空間分量包含表示該第二複數個球諧係數之左奇異向量的一第二U矩陣。
條項135054-15G。如條項135054-12G之器件,其中該第一空間分量表示用於第一複數個球諧係數之球諧係數的M個時間區段,且該第二空間分量表示用於第二複數個球諧係數之球諧係數的M個時間區段。
條項135054-16G。如條項135054-12G之器件,其中該第一空間分量表示用於第一複數個球諧係數之球諧係數的M個時間區段,且該第二空間分量表示用於第二複數個球諧係數之球諧係數的M個時間區段,且其中該一或多個處理器經組態以獲得用於該時間區段之分解式經內插球諧係數包含內插該第一空間分量之最後N個元素及該第二空間分量之前N個元素。
條項135054-17G。如條項135054-1G之器件,其中該第二複數個球諧係數在時域中在該第一複數個球諧係數之後。
條項135054-18G。如條項135054-1G之器件,其中該一或多個處理器經進一步組態以分解該第一複數個球諧係數以產生該第一複數個球諧係數之該第一分解。
條項135054-19G。如條項135054-1G之器件,其中該一或多個處理器經進一步組態以分解該第二複數個球諧係數以產生該第二複數個球諧係數之該第二分解。
條項135054-20G。如條項135054-1G之器件,其中該一或多個處理器經進一步組態以對於該第一複數個球諧係數執行奇異值分解以產生表示第一複數個球諧係數之左奇異向量的U矩陣、表示第一複數個球諧係數之奇異值的S矩陣及表示第一複數個球諧係數之右奇異向量的V矩陣。
條項135054-21G。如條項135054-1G之器件,其中該一或多個處理器經進一步組態以對於第二複數個球諧係數執行奇異值分解以產生表示第二複數個球諧係數之左奇異向量的U矩陣、表示第二複數個球諧係數之奇異值的S矩陣及表示第二複數個球諧係數之右奇異向量的V矩陣。
條項135054-22G。如條項135054-1G之器件,其中該第一複數個球諧係數及該第二複數個球諧係數各表示音場之平面波表示。
條項135054-23G。如條項135054-1G之器件,其中該第一複數個球諧係數及該第二複數個球諧係數各表示混合在一起之一或多個單聲道音訊物件。
條項135054-24G。如條項135054-1G之器件,其中該第一複數個球諧係數及該第二複數個球諧係數各包含表示三維音場之各別第一及第二球諧係數。
條項135054-25G。如條項135054-1G之器件,其中該第一複數個球諧係數及該第二複數個球諧係數各與具有大於一之階數的至少一球面基底函數相關聯。
條項135054-26G。如條項135054-1G之器件,其中該第一複數個球諧係數及該第二複數個球諧係數各與具有等於四之階數的至少一球面基底函數相關聯。
條項135054-27G。如條項135054-1G之器件,其中該內插為該第一分解及第二分解之一加權內插,其中應用於該第一分解之該加權內插的權重與由該第一分解及第二分解之向量表示的一時間成反比,且其中應用於該第二分解之該加權內插的權重與由該第一分解及第二分解之向量表示的一時間成比例。
條項135054-28G。如條項135054-1G之器件,其中該等分解式經內插球諧係數平滑化該第一複數個球諧係數及該第二複數個球諧係數之空間分量及時間分量中之至少一者。
圖40A至圖40J各為說明可執行本發明中所描述之技術的各種態樣以壓縮描述二維或三維音場之球諧係數的實例音訊編碼器件510A至510J之方塊圖。在圖40A至圖40J之實例中的每一者中,在一些實例中,音訊編碼器件510A及510B各表示能夠對音訊資料進行編碼之任何器件,諸如桌上型電腦、膝上型電腦、工作站、平板(tablet,slate)電腦、專用音訊記錄器件、蜂巢式電話(包括所謂的「智慧型手機」)、個人媒體播放器器件、個人遊戲器件,或能夠對音訊資料進行編碼之任何其他類型之器件。
儘管展示為單一器件,亦即,圖40A至圖40J之實例中的器件510A至器件510J,但下文稱為包括於器件510A至510J內之各種組件或單元可實際上形成在器件510A至510J外部之單獨器件。換言之,儘管本發明中描述為由單一器件(亦即,圖40A至圖40J之實例中的器件
510A至510J)執行,但該等技術可由包含多個器件之系統實施或以其他方式執行,其中此等器件中的每一者可各包括下文更詳細地描述之各種組件或單元中之一或多者。因此,該等技術不應限於圖40A至圖40J之實例。
在一些實例中,音訊編碼器件510A至510J表示上文對關於圖3及圖4之實例所描述的音訊編碼器件之替代。貫穿對音訊編碼器件510A至510J之以下論述,對於上文關於圖4所描述的音訊編碼器件20之各種單元30至52指出在操作方面的各種相似性。在許多方面,如下所述,音訊編碼器件510A至510J可以實質上類似於音訊編碼器件20之方式操作,但具有輕微偏差或修改。
如圖40A之實例中所示,音訊編碼器件510A包含音訊壓縮單元512、音訊編碼單元514及位元串流產生單元516。音訊壓縮單元512可表示壓縮球諧係數(SHC)511(「SHC 511」)之單元,SHC 511亦可表示為高階立體混響(HOA)係數511。音訊壓縮單元512可在一些情況下,音訊壓縮單元512表示可無損地壓縮SHC 511或對於SHC 511執行有損壓縮之單元。SHC 511可表示複數個SHC,其中該複數個SHC中之至少一者對應於階數大於一之球面基底函數(其中具有此多樣性之SHC被稱作高階立體混響(HOA)以便與低階立體混響相區分,低階立體混響之一個實例為所謂的「B格式」),如上文更詳細地描述。儘管音訊壓縮單元512可無損地壓縮SHC 511,但在一些實例中,音訊壓縮單元512移除SHC 511之在描述音場(在再現時)時不突出或不相關之彼等SHC(此係因為一些SHC可能不能夠由人聽覺系統聽到)。在此意義上,此壓縮之有損性質可能不會在自SHC 511之經壓縮版本再現時過度影響音場之感知品質。
在圖40A之實例中,音訊壓縮單元包括分解單元518及音場分量提取單元520。分解單元518可類似於音訊編碼器件20之線性可逆變換
單元30。亦即,分解單元518可表示經組態以執行被稱作奇異值分解之形式的分析之單元。儘管關於SVD予以描述,但可對於提供線性不相關資料之集合的任何類似變換或分解執行該等技術。又,在本發明中對「集合」之提及意欲指代非零集合(除非特定地相反陳述),且並不意欲指代包括所謂的「空集合」之集合之經典數學定義。
在任何情況下,分解單元518執行奇異值分解(其再次可藉由其首字母縮略詞「SVD」表示)以將球諧係數511變換成經變換球諧係數之兩個或兩個以上集合。在圖40之實例中,分解單元518可對於SHC 511執行SVD以產生所謂的V矩陣519、S矩陣519B及U矩陣519C。在圖40之實例中,分解單元518單獨地輸出矩陣中的每一者而非如上文關於線性可逆變換單元30所論述以組合形式輸出US[k]向量。
如上文所指出,以上提及之SVD數學表達式中的V*矩陣表示為V矩陣之共軛轉置以反映SVD可應用於包含複數數字的矩陣。當應用於僅包含實數之矩陣時,V矩陣之複數共軛(或,換言之,V*矩陣)可認為等於V矩陣。下文中為容易說明之目的,假定SHC 511包含實數,結果經由SVD而非V*矩陣輸出V矩陣。儘管假定為V矩陣,但該等技術可以類似方式應用於具有複數係數之SHC 511,其中SVD之輸出為V*矩陣。因此,就此而言,該等技術不應限於僅提供應用SVD以產生V矩陣,而可包括將SVD應用於具有複數分量之SHC 511以產生V*矩陣。
在任何情況下,分解單元518可對於高階立體混響(HOA)音訊資料(其中此立體混響音訊資料包括SHC 511或任何其他形式之多通道音訊資料之區塊或樣本)之每一區塊(其可稱作訊框)執行逐區塊形式之SVD。變數M可用以表示音訊訊框之長度(以樣本數計)。舉例而言,當音訊訊框包括1024個音訊樣本時,M等於1024。分解單元518可因此對於具有M乘(N+1)2個SHC之SHC 511的區塊執行逐區塊SVD,其中
N再次表示HOA音訊資料之階數。分解單元518可經由執行此SVD而產生V矩陣519、S矩陣519B及U矩陣519C,其中矩陣519至519C(「矩陣519」)中的每一者可表示上文更詳細描述之各別V、S及U矩陣。分解單元518可將此等矩陣519A傳遞或輸出至音場分量提取單元520。V矩陣519A可具有大小(N+1)2乘(N+1)2,S矩陣519B可具有大小(N+1)2乘(N+1)2,且U矩陣可具有大小M乘(N+1)2,其中M係指音訊訊框中的樣本之數目。M之典型值為1024,但本發明之技術不應限於M之此典型值。
音場分量提取單元520可表示經組態以判定且接著提取音場之獨特分量及音場之背景分量從而有效地將音場之獨特分量與音場之背景分量分離之單元。就此而言,音場分量提取單元520可執行上文關於圖4之實例中所示的音訊編碼器件20之音場分析單元44、背景選擇單元48及前景選擇單元36所描述之操作中之許多者。假定在一些實例中,音場之獨特分量需要較高階(相對於音場之背景分量)基底函數(且因此需要更多SHC)來準確地表示此等分量之獨特性,將獨特分量與背景分量分離可使得能夠將較多位元分配給獨特分量且將較少位元(相對而言)分配給背景分量。因此,經由應用此變換(以SVD之形式或任何其他變換形式,包括PCA),本發明中所描述之技術可促進將位元分配給各種SHC,且藉此壓縮SHC 511。
此外,如下文關於圖40B所更詳細地描述,該等技術亦可實現音場之背景分量的階數縮減,假定在一些實例中不需要高階基底函數來表示音場之此等背景部分(給定此等分量之擴散或背景性質)。因此,該等技術可實現音場之擴散或背景態樣之壓縮,同時藉由將SVD應用於SHC 511而保留音場之突出的獨特分量或態樣。
如圖40之實例中進一步所示,音場分量提取單元520包括轉置單元522、突出分量分析單元524及數學單元526。轉置單元522表示經組
態以轉置V矩陣519A以產生V矩陣519之轉置(其表示為「VT矩陣523」)的單元。轉置單元522可將此VT矩陣523輸出至數學單元526。VT矩陣523可具有大小(N+1)2乘(N+1)2。
突出分量分析單元524表示經組態以對於S矩陣519B執行突出性分析之單元。就此而言,突出分量分析單元524可執行類似於上文關於圖4之實例中所示的音訊編碼器件20之音場分析單元44所描述的操作之操作。突出分量分析單元524可分析S矩陣519B之對角線值,從而選擇變數D數目個具有最大值的此等分量。換言之,突出分量分析單元524可藉由分析由S之遞減對角線值產生的曲線之斜率而判定分隔兩個子空間(例如,前景或優勢子空間及背景或環境子空間)之值D,其中大奇異值表示前景或獨特的聲音,且低奇異值表示音場之背景分量。在一些實例中,突出分量分析單元524可使用奇異值曲線之第一導數及第二導數。突出分量分析單元524亦可將數目D限制在一與五之間。作為另一實例,突出分量分析單元524可將數目D限制在一與(N+1)2之間。或者,突出分量分析單元524可預定義數目D,以便為值四。在任何情況下,一旦估計出數目D,突出分量分析單元24即自矩陣U、V及S擷取前景及背景子空間。
在一些實例中,突出分量分析單元524可每M個樣本(其可重新表述為逐訊框地)執行此分析。就此而言,D可在訊框間不同。在其他實例中,突出分量分析單元24可每訊框執行此分析一次以上,從而分析訊框之兩個或兩個以上部分。因此,就此而言,該等技術不應限於本發明中描述之實例。
在效果上,突出分量分析單元524可分析對角線矩陣(其在圖40之實例中表示為S矩陣519B)之奇異值,識別相對值大於對角線S矩陣519B之其他值的彼等值。突出分量分析單元524可識別D值,提取此等值以產生SDIST矩陣525A及SBG矩陣525B。SDIST矩陣525A可表示包含
具有原始S矩陣519B之D行((N+1)2)的對角線矩陣。在一些情況下,SBG矩陣525B可表示具有(N+1)2-D行之矩陣,其中的每一者包括原始S矩陣519B之(N+1)2個經變換球諧係數。儘管描述為表示包含原始S矩陣519B之D行(具有(N+1)2個值)的矩陣,但突出分量分析單元524可截斷此矩陣以產生具有原始S矩陣519B之D行(具有D個值)的SDIST矩陣,假定S矩陣519B為對角線矩陣且在每一行中的第D值之後的D行之(N+1)2個值常常為零值。儘管關於完整SDIST矩陣525A及完整SBG矩陣525B予以描述,但可對於此等SDIST矩陣525A之截斷版本及此SBG矩陣525B之截斷版本實施該等技術。因此,就此而言,本發明之技術技術不應受到限制。
換言之,SDIST矩陣525A可具有大小D乘(N+1)2,而SBG矩陣525B可具有大小(N+1)2-D乘(N+1)2。SDIST矩陣525A可包括在為音場之獨特(DIST)音訊分量方面被判定為突出之彼等主分量或(換言之)奇異值,而SBG矩陣525B可包括被判定為音場之背景(BG)或(換言之)環境或非獨特音訊分量之彼等奇異值。儘管在圖40在之實例中展示為單獨矩陣525A及525B,但矩陣525A與525B可指定為單一矩陣,使用變數D來表示此表示SDIST矩陣525之單一矩陣之行(自左至右)的數目。在一些實例中,變數D可設定為四。
突出分量分析單元524亦可分析U矩陣519C以產生UDIST矩陣525C及UBG矩陣525D。常常,突出分量分析單元524可分析S矩陣519B以識別變數D,從而基於變數D產生UDIST矩陣525C及UBG矩陣525B。亦即,在識別出S矩陣519B之突出的D行之後,突出分量分析單元524可基於此判定之變數D分裂U矩陣519C。在此情況下,突出分量分析單元524可產生UDIST矩陣525C以包括原始U矩陣519C之(N+1)2個經變換球諧係數之D行(自左至右),且產生UBG矩陣525D以包括原始U矩陣519C之(N+1)2個經變換球諧係數之剩餘(N+1)2-D行。UDIST矩陣525C
可具有大小M乘D,而UBG矩陣525D可具有大小M乘(N+1)2-D。儘管在圖40之實例中展示為單獨矩陣525C及525D,但矩陣525C與525D可指定為單一矩陣,使用變數D來表示此表示UDIST矩陣525B之單一矩陣的行(自左至右)之數目。
突出分量分析單元524亦可分析VT矩陣523以產生VT DIST矩陣525E及VT BG矩陣525F。常常,突出分量分析單元524可分析S矩陣519B以識別變數D,從而基於變數D產生VT DIST矩陣525E及VBG矩陣525F。亦即,在識別出S矩陣519B之突出的D行之後,突出分量分析單元524可基於此判定之變數D分裂V矩陣519A。在此情況下,突出分量分析單元524可產生VT DIST矩陣525E以包括原始VT矩陣523之為D值的(N+1)2列(自上至下),且產生VT BG矩陣525F以包括原始VT矩陣523之為(N+1)2-D值的剩餘(N+1)2列。VT DIST矩陣525E可具有大小(N+1)2乘D,而VT BG矩陣525D可具有大小(N+1)2乘(N+1)2-D。儘管在圖40之實例中展示為單獨矩陣525E及525F,但矩陣525E與525F可指定為單一矩陣,使用變數D來表示此表示VDIST矩陣525E之單一矩陣的行(自左至右)之數目。突出分量分析單元524可將SDIST矩陣525、SBG矩陣525B、UDIST矩陣525C、UBG矩陣525D及VT BG矩陣525F輸出至數學單元526,同時亦將VT DIST矩陣525E輸出至位元串流產生單元516。
數學單元526可表示經組態以執行能夠對於一或多個矩陣(或向量)執行的矩陣乘法或任何其他數學運算的單元。更特定言之,如圖40之實例中所示,數學單元526可表示經組態以執行矩陣乘法以將UDIST矩陣525C乘以SDIST矩陣525A以產生具有大小M乘D之UDIST*SDIST向量527的單元。矩陣數學單元526亦可表示經組態以執行矩陣乘法以將UBG矩陣525D乘以SBG矩陣525B且接著乘以VT BG矩陣525F以產生UBG*SBG*VT BG矩陣525F以產生大小為大小M乘(N+1)2之背景球諧係數531(其可表示球諧係數511之表示音場之背景分量的彼等球諧係數)的
單元。數學單元526可將UDIST*SDIST向量527及背景球諧係數531輸出至音訊編碼單元514。
因此,音訊編碼器件510不同於音訊編碼器件20,不同之處在於音訊編碼器件510包括經組態以經由編碼過程後期的矩陣乘法而產生UDIST*SDIST向量527及背景球諧係數531的此數學單元526。音訊編碼器件20之線性可逆變換單元30執行U與S矩陣之乘法以在編碼過程之相對開始處輸出US[k]向量33,其可促進未在圖40在之實例中展示的稍後操作,諸如重排序。此外,音訊編碼器件20並非在編碼過程後期恢復背景SHC 531,而是直接自HOA係數11選擇背景HOA係數47,藉此潛在地避免用以恢復背景SHC 531之矩陣乘法。
音訊編碼單元514可表示執行某形式之編碼以進一步壓縮UDIST*SDIST向量527及背景球諧係數531的單元。音訊編碼單元514可以實質上類似於圖4之實例中所示的音訊編碼器件20之音質音訊寫碼器單元40的方式操作。在一些情況下,此音訊編碼單元514可表示高階音訊寫碼(AAC)編碼單元之一或多個執行個體。音訊編碼單元514可對UDIST*SDIST向量527之每一行或列進行編碼。常常,音訊編碼單元514可對於背景球諧係數531中剩餘的階數/子階組合中的每一者調用AAC編碼單元之一執行個體。關於可如何使用AAC編碼單元對背景球諧係數531進行編碼之更多資訊可見於Eric Hellerud等人的標題為「Encoding Higher Order Ambisonics with AAC」的大會論文中,其在第124次大會(2008年5月17日至20日)上提交且可在下處獲得:http://ro.uow.edu.au/cgi/viewcontent.cgi?article=8025&context=engpapers。音訊編碼單元14可將UDIST*SDIST向量527之經編碼版本(表示為「經編碼UDIST*SDIST向量515」)及背景球諧係數531之經編碼版本(表示為「經編碼背景球諧係數515B」)輸出至位元串流產生單元516。在一些情況下,音訊編碼單元514可使用比用以對UDIST*SDIST向量527進行編
碼之位元率低的位元率對背景球諧係數531進行音訊編碼,藉此潛在地與UDIST*SDIST向量527相比更多地壓縮背景球諧係數531。
位元串流產生單元516表示格式化資料以符合已知格式(其可指解碼器件已知之格式)藉此產生位元串流517之單元。位元串流產生單元42可以實質上類似於上文關於圖4之實例中所示的音訊編碼器件24之位元串流產生單元42所描述的方式操作。位元串流產生單元516可包括對經編碼UDIST*SDIST向量515、經編碼背景球諧係數515B及VT DIST矩陣525E進行多工之多工器。
圖40B為說明可執行本發明中所描述之技術的各種態樣以壓縮描述二維或三維音場之球諧係數的實例音訊編碼器件510B之方塊圖。音訊編碼器件510B可類似於音訊編碼器件510,類似之處在於音訊編碼器件510B包括一音訊壓縮單元512、一音訊編碼單元514及一位元串流產生單元516。此外,音訊編碼器件510B之音訊壓縮單元512可類似於音訊編碼器件510之音訊壓縮單元,類似之處在於音訊壓縮單元512包括一分解單元518。音訊編碼器件510B之音訊壓縮單元512可不同於音訊編碼器件510之音訊壓縮單元512,其不同之處在於音場分量提取單元520包括表示為階數縮減單元528A(「階數縮減單元528」)之額外單元。出於此原因,音訊編碼器件510B之音場分量提取單元520表示為「音場分量提取單元520B」。
階數縮減單元528A表示經組態以執行背景球諧係數531之額外階數縮減之單元。在一些情況下,階數縮減單元528A可旋轉背景球諧係數531所表示的音場以縮減表示音場所需要的背景球諧係數531之數目。在一些情況下,假定背景球諧係數531表示音場之背景分量,階數縮減單元528A可移除消除或以其他方式刪除(常常藉由零化)背景球諧係數531中對應於高階球面基底函數之彼等球諧係數。就此而言,階數縮減單元528A可執行類似於圖4之實例中所示的音訊編碼器件20
之背景選擇單元48之操作。階數縮減單元528A可將背景球諧係數531之經縮減版本(表示為「經縮減背景球諧係數529」)輸出至音訊編碼單元514,音訊編碼單元514可以上文所描述的方式執行音訊編碼以對經縮減背景球諧係數529進行編碼且藉此產生經編碼經縮減背景球諧係數515B。
以下列出之各種條項可呈現本發明中所描述之技術之各種態樣。
條項132567-1。一種器件,諸如音訊編碼器件510或音訊編碼器件510B,其包含一或多個處理器,該一或多個處理器經組態以進行進行以下操作:對於複數個球諧係數執行奇異值分解以產生表示該複數個球諧係數之左奇異向量的U矩陣、表示該複數個球諧係數之奇異值的S矩陣及表示該複數個球諧係數之右奇異向量的V矩陣;及將該複數個球諧係數表示為U矩陣、S矩陣及V矩陣中之一或多者的至少一部分之函數。
條項132567-2。如條項132567-1之器件,其中該一或多個處理器經進一步組態以產生位元串流以將該複數個球諧係數之表示包括為U矩陣、S矩陣及V矩陣之一或多個向量,包括其組合或其導出項。
條項132567-3。條項132567-1之器件,其中該一或多個處理器經進一步組態以當表示該複數個球諧係數時判定包括於該U矩陣內的描述音場之獨特分量的一或多個UDIST向量。
條項132567-4。如條項132567-1器件,其中該一或多個處理器經進一步組態以當表示該複數個球諧係數時判定包括於該U矩陣內之描述音場之獨特分量的一或多個UDIST向量,判定包括於該S矩陣內之亦描述音場之獨特分量的一或多個SDIST向量,且將該一或多個UDIST向量與該一或多個一或多個SDIST向量相乘以產生UDIST*SDIST向量。
條項132567-5。如條項132567-1之器件,其中該一或多個處理器
經進一步組態以當表示該複數個球諧係數時判定包括於該U矩陣內之描述音場之獨特分量的一或多個UDIST向量,判定包括於該S矩陣內之亦描述音場之獨特分量的一或多個SDIST向量,且將該一或多個UDIST向量與該一或多個一或多個SDIST向量相乘以產生UDIST*SDIST向量,且其中該一或多個處理器經進一步組態以對該一或多個UDIST*SDIST向量進行音訊編碼以產生該一或多個UDIST*SDIST向量之音訊編碼版本。
條項132567-6。如條項132567-1之器件,其中該一或多個處理器經進一步組態以當表示該複數個球諧係數時判定包括於該U矩陣內之一或多個UBG向量。
條項132567-7。如條項132567-1之器件,其中該一或多個處理器經進一步組態以當表示該複數個球諧係數時分析該S矩陣以識別音場之獨特分量及背景分量。
條項132567-8。如條項132567-1之器件,其中該一或多個處理器經進一步組態以當表示該複數個球諧係數時分析該S矩陣以識別音場之獨特分量及背景分量,且基於對S矩陣之該分析判定該U矩陣之描述音場之獨特分量的一或多個UDIST向量及該U矩陣之描述音場之背景分量的一或多個UBG向量。
條項132567-9。如條項132567-1之器件,其中該一或多個處理器經進一步組態以當表示該複數個球諧係數時分析該S矩陣以逐音訊訊框地識別音場之獨特分量及背景分量,且基於對該S矩陣之逐音訊訊框分析判定U矩陣之描述音場之獨特分量的一或多個UDIST向量及U矩陣之描述音場之背景分量的一或多個UBG向量。
條項132567-10。如條項132567-1之器件,其中該一或多個處理器經進一步組態以當表示該複數個球諧係數時分析該S矩陣以逐音訊訊框地識別音場之獨特分量及背景分量,且基於對S矩陣之該分析判定U矩陣之描述音場之獨特分量的一或多個UDIST向量及U矩陣之描述
音場之背景分量的一或多個UBG向量,基於對S矩陣之該分析判定S矩陣之對應於該一或多個UDIST向量及該一或多個UBG向量的一或多個SDIST向量及一或多個SBG向量,且基於對S矩陣之該分析判定V矩陣之轉置的對應於該一或多個UDIST向量及該一或多個UBG向量之一或多個VT DIST向量及一或多個VT BG向量。
條項132567-11。如條項132567-10之器件,其中該一或多個處理器經進一步組態以當表示該複數個球諧係數時進一步將該一或多個UBG向量乘以該一或多個SBG向量且接著乘以一或多個VT BG向量以產生一或多個UBG*SBG*VT BG向量,且其中該一或多個處理器經進一步組態以對該等UBG*SBG*VT BG向量進行音訊編碼以產生該等UBG*SBG*VT BG向量之音訊編碼版本。
條項132567-12。如條項132567-10之器件,其中該一或多個處理器經進一步組態以當表示該複數個球諧係數時將該一或多個UBG向量乘以該一或多個SBG向量且接著乘以一或多個VT BG向量以產生一或多個UBG*SBG*VT BG向量,且執行階數縮減過程以消除該一或多個UBG*SBG*VT BG向量之係數中的與球諧基底函數之一或多個階數相關聯的係數且藉此產生該一或多個UBG*SBG*VT BG向量之階數經縮減版本。
條項132567-13。如條項132567-10之器件,其中該一或多個處理器經進一步組態以當表示該複數個球諧係數時將該一或多個UBG向量乘以該一或多個SBG向量且接著乘以一或多個VT BG向量以產生一或多個UBG*SBG*VT BG向量,且執行階數縮減過程以消除該一或多個UBG*SBG*VT BG向量之係數中的與球諧基底函數之一或多個階數相關聯的係數且藉此產生該一或多個UBG*SBG*VT BG向量之階數經縮減版本,且其中該一或多個處理器經進一步組態以對該一或多個UBG*SBG*VT BG向量之階數經縮減版本進行音訊編碼以產生階數經縮減一或多個UBG*SBG*VT BG向量之音訊編碼版本。
條項132567-14。如條項132567-10之器件,其中該一或多個處理器經進一步組態以當表示該複數個球諧係數時將該一或多個UBG向量乘以該一或多個SBG向量且接著乘以一或多個VT BG向量以產生一或多個UBG*SBG*VT BG向量,執行階數縮減過程以消除該一或多個UBG*SBG*VT BG向量之係數中的與球諧基底函數之大於一之一或多個階數相關聯的係數且藉此產生該一或多個UBG*SBG*VT BG向量之階數經縮減版本,且對該一或多個UBG*SBG*VT BG向量之階數經縮減版本進行音訊編碼以產生階數經縮減一或多個UBG*SBG*VT BG向量之音訊編碼版本。
條項132567-15。如條項132567-10之器件,其中該一或多個處理器經進一步組態以產生位元串流以包括該一或多個VT DIST向量。
條項132567-16。如條項132567-10之器件,其中該一或多個處理器經進一步組態以產生位元串流以包括該一或多個VT DIST向量而不對該一或多個VT DIST向量進行音訊編碼。
條項132567-1F。一種器件,諸如音訊編碼器件510或510B,其包含一或多個處理器以對於表示音場之至少一部分的多通道音訊資料執行奇異值分解以產生表示該多通道音訊資料之左奇異向量的U矩陣、表示該多通道音訊資料之奇異值的S矩陣及表示該多通道音訊資料之右奇異向量的V矩陣,且將該多通道音訊資料表示為該U矩陣、該S矩陣及該V矩陣中之一或多者之至少一部分的函數。
條項132567-2F。如條項132567-1F之器件,其中該多通道音訊資料包含複數個球諧係數。
條項132567-3F。如條項132567-2F之器件,其中該一或多個處理器經進一步組態以如條項132567-2至132567-16之任何組合所述而執行。
自上述各種條項中之每一者,應理解,音訊解碼器件510A至
510J中之任一者可執行方法,或另外包含執行音訊解碼器件音訊編碼器件510A至510J經組態以執行的方法之每一步驟之構件。在一些情況下,此等構件可包含一或多個處理器。在一些情況下,該一或多個處理器可表示藉助於儲存至非暫時性電腦可讀儲存媒體之指令組態之專用處理器。換言之,編碼實例之集合中的每一者中的技術之各種態樣可提供其上儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在執行時使得一或多個處理器執行音訊編碼器件510A至510J已經組態以執行之方法。
舉例而言,條項132567-17可自先前條項132567-1導出而為一種方法,該方法包含:對於表示音場之複數個球諧係數執行奇異值分解以產生表示該複數個球諧係數之左奇異向量的U矩陣、表示該複數個球諧係數之奇異值的S矩陣及表示該複數個球諧係數之右奇異向量的V矩陣;及將該複數個球諧係數表示為U矩陣、S矩陣及V矩陣中之一或多者的至少一部分之函數。
作為另一實例,條項132567-18可自先前條項132567-1導出而為一種器件,諸如音訊編碼器件510B,其包含:用於對於表示音場之複數個球諧係數執行奇異值分解以產生表示該複數個球諧係數之左奇異向量的U矩陣、表示該複數個球諧係數之奇異值的S矩陣及表示該多個球諧係數之右奇異向量的V矩陣之構件;及用於將該複數個球諧係數表示為U矩陣、S矩陣及V矩陣中之一或多者的至少一部分之函數之構件。
作為又一實例,條項132567-18可自先前條項132567-1導出而為一種上面儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在執行時使得一或多個處理器對於表示音場之複數個球諧係數執行奇異值分解以產生表示該複數個球諧係數之左奇異向量的U矩陣、表示該複數個球諧係數之奇異值的S矩陣及表示該複數個球諧係數之右奇異向量
的V矩陣,且將該複數個球諧係數表示為U矩陣、S矩陣及V矩陣中之一或多者的至少一部分之函數。
對於如上文所舉例說明而導出之各種器件、方法及非暫時性電腦可讀儲存媒體,各種條項可同樣地自條項132567-2至132567-16導出。可針對貫穿本發明列出之各種其他條項執行同樣的操作。
圖40C為說明可執行本發明中所描述之技術的各種態樣以壓縮描述二維或三維音場之球諧係數的實例音訊編碼器件510C之方塊圖。音訊編碼器件510C可類似於音訊編碼器件510B,類似之處在於音訊編碼器件510C包括一音訊壓縮單元512、一音訊編碼單元514及一位元串流產生單元516。此外,音訊編碼器件510C之音訊壓縮單元512可類似於音訊編碼器件510B之音訊壓縮單元,類似之處在於音訊壓縮單元512包括一分解單元518。
然而,音訊編碼器件510C之音訊壓縮單元512可不同於音訊編碼器件510B之音訊壓縮單元512,其不同之處在於音場分量提取單元520包括表示為向量重排序單元532之額外單元。出於此原因,音訊編碼器件510C之音場分量提取單元520表示為「音場分量提取單元520C」。
向量重排序單元532可表示經組態以對UDIST*SDIST向量527重排序以產生經重排序之一或多個UDIST*SDIST向量533的單元。就此而言,向量重排序單元532可以類似於上文關於圖4之實例中所示的音訊編碼器件20之重排序單元34所描述的方式操作。音場分量提取單元520C可調用向量重排序單元532以對UDIST*SDIST向量527重排序,此係因為UDIST*SDIST向量527之階數(其中UDIST*SDIST向量527之每一向量可表示存在於音場中的一或多個獨特單聲道音訊物件)可能由於上文指出之原因而對於音訊資料之各部分不同。亦即,在一些實例中,假定音訊壓縮單元512對通常被稱作音訊訊框之音訊資料的此等部分(其可具有
球諧係數511之M個樣本,其中M在一些實例中設定為1024)操作,對應於此等獨特單聲道音訊物件的向量之位置(如表示於導出UDIST*SDIST向量527之U矩陣519C中)可在音訊訊框間不同。
將此等UDIST*SDIST向量527直接傳遞至音訊編碼單元514而不對此等UDIST*SDIST向量527逐音訊訊框地重排序可能減小一些壓縮方案(諸如舊版壓縮方案,其在單聲道音訊物件跨越音訊訊框相關(逐通道,其在此實例中藉由UDIST*SDIST向量527相對於彼此之階數來界定)時執行地更好)可達成的壓縮程度。此外,當不重排序時,UDIST*SDIST向量527之編碼可能在恢復時降低音訊資料之品質。舉例而言,與直接逐訊框地對UDIST*SDIST向量527進行編碼時達成的壓縮相比,在圖40C之實例中可藉由音訊編碼單元514表示之AAC編碼器可更有效地逐訊框地壓縮經重排序之一或多個UDIST*SDIST向量533。儘管上文關於AAC編碼器予以描述,但可關於跨越處於特定次序或位置的訊框指定單聲道音訊物件(逐通道地)時提供更好壓縮之任何編碼器執行該等技術。
如下文更詳細地描述,該等技術可使音訊編碼器件510C能夠對一或多個向量(亦即,UDIST*SDIST向量527)重排序以產生經重排序之一或多個向量UDIST*SDIST向量533且藉此促進舊版音訊編碼器(諸如音訊編碼單元514)對UDIST*SDIST向量527之壓縮。音訊編碼器件510C可進一步執行本發明中所描述之技術以使用音訊編碼單元514對經重排序之一或多個UDIST*SDIST向量533進行音訊編碼以產生經重排序之一或多個UDIST*SDIST向量533之經編碼版本515A。
舉例而言,音場分量提取單元520C可調用向量重排序單元532以對來自在時間上在一或多個第二UDIST*SDIST向量527所對應的第二訊框之後的第一音訊訊框之一或多個第一UDIST*SDIST向量527重排序。儘管於在時間上在第二音訊訊框之後的第一音訊訊框的內容脈絡中予以描述,但第一音訊訊框可在時間上先於第二音訊訊框。因此,該等
技術不應限於本發明中描述之實例。
向量重排序單元532可首先對於第一UDIST*SDIST向量527及第二UDIST*SDIST向量527中的每一者執行能量分析,計算第一音訊訊框之至少一部分(但常常為整個)及第二音訊訊框之一部分(但常常為整個)的均方根能量且藉此產生(假定D為四)八個個能量,針對第一音訊訊框之第一UDIST*SDIST向量527中的每一者產生一個且針對第二音訊訊框之第二UDIST*SDIST向量527中的每一者產生一個。向量重排序單元532可接著逐輪比較來自第一UDIST*SDIST向量527之每一能量與第二UDIST*SDIST向量527中的每一者,如上文關於表1-4所描述。
換言之,當對HoA信號使用基於訊框之SVD(或相關方法,諸如KLT及PCA)分解時,可能不保證向量之排序在訊框間一致。舉例而言,若在基礎音場中存在兩個物件,則分解(其在恰當地執行時可被稱作「理想分解」)可導致兩個物件之分離,使得一個向量將表示U矩陣中之一個物件。然而,即使當分解可表示為「理想分解」時,向量在U矩陣中(且因此在S及V矩陣中)的位置亦可能在訊框間交替。另外,可存在相位差異,其中向量重排序單元532可使用相位反轉(藉由將經反相向量之每一元素點乘負一)來使階段反轉。為了逐訊框地將此等向量饋送至相同「AAC/音訊寫碼引擎」,可能需要識別階數(或換言之,匹配信號)、矯正相位且在訊框邊界處應用謹慎的內插。在無此操作的情況下,基礎音訊編解碼器可能產生極其刺耳的偽訊,包括被稱為「時間拖尾(temporal smearing)」或「預回聲」之彼等偽訊。
根據本發明中所描述之技術的各種態樣,音訊編碼器件510C可應用多個方法來使用向量之訊框邊界處的能量及交叉相關識別/匹配向量。音訊編碼器件510C亦可確保常常在訊框邊界處出現的180度之相位改變得以校正。向量重排序單元532可在向量之間應用某形式的
淡入/淡出內插窗來確保訊框之間的平滑轉變。
以此方式,音訊編碼器件530C可對一或多個向量重排序以產生經重排序之一或多個第一向量且藉此促進舊版音訊編碼器之編碼,其中該一或多個向量描述表示音場之獨特分量,且使用舊版音訊編碼器對經重排序之一或多個向量進行音訊編碼以產生經重排序之一或多個向量的經編碼版本。
本發明中所描述之技術的各種態樣可使音訊編碼器件510C能夠根據以下條項而操作。
條項133143-1A。一種器件,諸如音訊編碼器件510C,其包含:一或多個處理器,該一或多個處理器經組態以在一或多個第一向量與一或多個第二向量之間執行能量比較以判定經重排序之一或多個第一向量且促進一或多個第一向量及一或多個第二向量中之一或兩者的提取,其中該一或多個第一向量描述音訊資料之第一部分中的音場之獨特分量,且該一或多個第二向量描述音訊資料之第二部分中的音場之獨特分量。
條項133143-2A。如條項133143-1A之器件,其中該一或多個第一向量不表示音訊資料之第一部分中的音場之背景分量,且其中該一或多個第二向量不表示音訊資料之第二部分中的音場之背景分量。
條項133143-3A。如條項133143-1A之器件,其中該一或多個處理器經進一步組態以在執行該能量比較之後在一或多個第一向量與一或多個第二向量之間執行交叉相關以識別與一或多個第二向量相關之一或多個第一向量。
條項133143-4A。如條項133143-1A之器件,其中該一或多個處理器經進一步組態以進行以下操作:基於該能量比較捨棄第二向量中之一或多者以產生比一或多個第二向量具有較少向量的經縮減一或多個第二向量;在一或多個第一向量中之至少一者與經縮減一或多個第
二向量之間執行交叉相關以識別經縮減一或多個第二向量中之與一或多個第一向量中之至少一者相關的一第二向量;及基於該交叉相關對一或多個第一向量中之至少一者重排序以產生經重排序之一或多個第一向量。
條項133143-5A。如條項133143-1A之器件,其中該一或多個處理器經進一步組態以進行以下操作:基於該能量比較捨棄第二向量中之一或多者以產生比一或多個第二向量具有較少向量的經縮減一或多個第二向量;在一或多個第一向量中之至少一者與經縮減一或多個第二向量之間執行交叉相關以識別經縮減一或多個第二向量中之與一或多個第一向量中之至少一者相關的一第二向量;基於該交叉相關對一或多個第一向量中之至少一者重排序以產生經重排序之一或多個第一向量;及對經重排序之一或多個第一向量進行編碼以產生經重排序之一或多個第一向量的音訊編碼版本。
條項133143-6A。如條項133143-1A之器件,其中該一或多個處理器經進一步組態以進行以下操作:基於該能量比較捨棄第二向量中之一或多者以產生比一或多個第二向量具有較少向量的經縮減一或多個第二向量;在一或多個第一向量中之至少一者與經縮減一或多個第二向量之間執行交叉相關以識別經縮減一或多個第二向量中之與一或多個第一向量中之至少一者相關的一第二向量;基於該交叉相關對一或多個第一向量中之至少一者重排序以產生經重排序之一或多個第一向量;對經重排序之一或多個第一向量進行編碼以產生經重排序之一或多個第一向量的音訊編碼版本;及產生一位元串流以包括經重排序之一或多個第一向量的經編碼版本。
條項133143-7A。如技術方案3A至6A之器件,其中該音訊資料之第一部分包含具有M個樣本之第一音訊訊框,其中該音訊資料之第二部分包含具有相同數目M個樣本之第二音訊訊框,其中該一或多個處
理器經進一步組態以在執行交叉相關時對於一或多個第一向量中之至少一者的最後M-Z個值及經縮減一或多個第二向量中的每一者之前M-Z個值執行交叉相關以識別經縮減一或多個第二向量中的與一或多個第一向量中之至少一者相關的一第二向量,且其中Z小於M。
條項133143-8A。如技術方案3A至6A之器件,其中該音訊資料之第一部分包含具有M個樣本之第一音訊訊框,其中該音訊資料之第二部分包含具有相同數目M個樣本之第二音訊訊框,其中該一或多個處理器經進一步組態以在執行交叉相關時對於一或多個第一向量中之至少一者的最後M-Y個值及經縮減一或多個第二向量中的每一者之前M-Z個值執行交叉相關以識別經縮減一或多個第二向量中的與一或多個第一向量中之至少一者相關的一第二向量,且其中Z及Y兩者皆小於M。
條項133143-9A。如技術方案3A至6A之器件,其中該一或多個處理器經進一步組態以當執行交叉相關時使一或多個第一向量及一或多個第二向量中之至少一者反轉。
條項133143-10A。如條項133143-1A之器件,其中該一或多個處理器經進一步組態以對於表示音場之複數個球諧係數執行奇異值分解以產生一或多個第一向量及一或多個第二向量。
條項133143-11A。如條項133143-1A之器件,其中該一或多個處理器經進一步組態以對於表示音場之複數個球諧係數執行奇異值分解以產生表示複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數之右奇異向量的V矩陣,且將該一或多個第一向量及該一或多個第二向量產生為U矩陣、S矩陣及V矩陣中之一或多者的函數。
條項133143-12A。如條項133143-1A之器件,其中該一或多個處理器經進一步組態以對於表示音場之複數個球諧係數執行奇異值分解
以產生表示複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數之右奇異向量的V矩陣,對於該S矩陣執行突出性分析以識別U矩陣一或多個UDIST向量及S矩陣之一或多個SDIST向量,且藉由至少部分地將一或多個UDIST向量乘以一或多個SDIST向量而判定該一或多個第一向量及該一或多個第二向量。
條項133143-13A。如條項133143-1A之器件,其中該音訊資料之第一部分在時間上出現於該音訊資料之第二部分之前。
條項133143-14A。如條項133143-1A之器件,其中該音訊資料之第一部分在時間上出現於該音訊資料之第二部分之後。
條項133143-15A。如條項133143-1A之器件,其中該一或多個處理器經進一步組態以當執行能量比較時計算一或多個第一向量及一或多個第二向量中的每一者之均方根能量,且比較針對一或多個第一向量中之至少一者計算之均方根能量與針對一或多個第二向量中的每一者計算之均方根能量。
條項133143-16A。如條項133143-1A之器件,其中該一或多個處理器經進一步組態以基於該能量比較對一或多個第一向量中之至少一者重排序以產生經重排序之一或多個第一向量,且其中該一或多個處理器經進一步組態以在對第一向量重排序時在一或多個第一向量之間應用淡入/淡出內插窗以確保在產生經重排序之一或多個第一向量時的平滑轉變。
條項133143-17A。如條項133143-1A之器件,其中該一或多個處理器經進一步組態以至少基於該能量比較對一或多個第一向量重排序以產生經重排序之一或多個第一向量,產生位元串流以包括經重排序之一或多個第一向量或經重排序之一或多個第一向量之經編碼版本,且在該位元串流中指定描述如何對一或多個第一向量重排序之重排序
資訊。
條項133143-18A。如條項133143-1A之器件,其中該能量比較促進一或多個第一向量及一或多個第二向量中之一或兩者之提取以便促成一或多個第一向量及一或多個第二向量中之一或兩者之音訊編碼。
條項133143-1B。一種器件,諸如音訊編碼器件510C,其包含:一或多個處理器,該一或多個處理器經組態以對於一或多個第一向量及一或多個第二向量執行交叉相關以判定經重排序之一或多個第一向量且促進一或多個第一向量及一或多個第二向量中之一或兩者的提取,其中該一或多個第一向量描述音訊資料之第一部分中的音場之獨特分量,且該一或多個第二向量描述音訊資料之第二部分中的音場之獨特分量。
條項133143-2B。如條項133143-1B之器件,其中該一或多個第一向量不表示音訊資料之第一部分中的音場之背景分量,且其中該一或多個第二向量不表示音訊資料之第二部分中的音場之背景分量。
條項133143-3B。如條項133143-1B之器件,其中該一或多個處理器經進一步組態以在執行該交叉相關之前在一或多個第一向量與一或多個第二向量之間執行能量比較以產生比一或多個第二向量具有較少向量的經縮減一或多個第二向量,且其中該一或多個處理器經進一步組態以當執行該交叉相關時在一或多個第一向量與經縮減一或多個第二向量之間執行交叉相關以促進對一或多個第一向量及一或多個第二向量中之一或兩者的音訊編碼。
條項133143-4B。如條項133143-3B之器件,其中該一或多個處理器經進一步組態以當執行能量比較時計算一或多個第一向量及一或多個第二向量中的每一者之均方根能量,且比較針對一或多個第一向量中之至少一者計算之均方根能量與針對一或多個第二向量中的每一者計算之均方根能量。
條項133143-5B。如條項133143-3B之器件,其中該一或多個經進一步組態以基於該能量比較捨棄第二向量中之一或多者以產生比一或多個第二向量具有較少向量的經縮減一或多個第二向量,其中該一或多個處理器經進一步組態以在執行交叉相關時在一或多個第一向量中之至少一者與經縮減一或多個第二向量之間執行交叉相關以識別經縮減一或多個第二向量中的與一或多個第一向量中之至少一者相關的一第二向量,且其中該一或多個處理器經進一步組態以基於該交叉相關對一或多個第一向量中之至少一者重排序以產生經重排序之一或多個第一向量。
條項133143-6B。如條項133143-3B之器件,其中該一或多個處理器經進一步組態以基於該能量比較捨棄第二向量中之一或多者以產生比一或多個第二向量具有較少向量的經縮減一或多個第二向量,其中該一或多個處理器經進一步組態以在執行交叉相關時在一或多個第一向量中之至少一者與經縮減一或多個第二向量之間執行交叉相關以識別經縮減一或多個第二向量中的與一或多個第一向量中之至少一者相關的一第二向量,且其中該一或多個處理器經進一步組態以基於該交叉相關對一或多個第一向量中之至少一者重排序以產生經重排序之一或多個第一向量,且對經重排序之一或多個第一向量進行編碼以產生經重排序之一或多個第一向量的音訊編碼版本。
條項133143-7B。如條項133143-3B之器件,其中該一或多個處理器經進一步組態以基於該能量比較捨棄第二向量中之一或多者以產生比一或多個第二向量具有較少向量的經縮減一或多個第二向量,其中該一或多個處理器經進一步組態以在執行交叉相關時在一或多個第一向量中之至少一者與經縮減一或多個第二向量之間執行交叉相關以識別經縮減一或多個第二向量中的與一或多個第一向量中之至少一者相關的一第二向量,且其中該一或多個處理器經進一步組態以基於該
交叉相關對一或多個第一向量中之至少一者重排序以產生經重排序之一或多個第一向量,對經重排序之一或多個第一向量進行編碼以產生經重排序之一或多個第一向量的音訊編碼版本,且產生位元串流以包括經重排序之一或多個第一向量的經編碼版本。
條項133143-8B。如技術方案3B至7B之器件,其中該音訊資料之第一部分包含具有M個樣本之第一音訊訊框,其中該音訊資料之第二部分包含具有相同數目M個樣本之第二音訊訊框,其中該一或多個處理器經進一步組態以在執行交叉相關時對於一或多個第一向量中之至少一者的最後M-Z個值及經縮減一或多個第二向量中的每一者之前M-Z個值執行交叉相關以識別經縮減一或多個第二向量中的與一或多個第一向量中之至少一者相關的一第二向量,且其中Z小於M。
條項133143-9B。如技術方案3B至7B之器件,其中該音訊資料之第一部分包含具有M個樣本之第一音訊訊框,其中該音訊資料之第二部分包含具有相同數目M個樣本之第二音訊訊框,其中該一或多個處理器經進一步組態以在執行交叉相關時對於一或多個第一向量中之至少一者的最後M-Y個值及經縮減一或多個第二向量中的每一者之前M-Z個值執行交叉相關以識別經縮減一或多個第二向量中的與一或多個第一向量中之至少一者相關的一第二向量,且其中Z及Y兩者皆小於M。
條項133143-10B。如技術方案1B之器件,其中該一或多個處理器經進一步組態以當執行交叉相關時使一或多個第一向量及一或多個第二向量中之至少一者反轉。
條項133143-11B。如條項133143-1B之器件,其中該一或多個處理器經進一步組態以對於表示音場之複數個球諧係數執行奇異值分解以產生一或多個第一向量及一或多個第二向量。
條項133143-12B。如條項133143-1B之器件,其中該一或多個處
理器經進一步組態以對於表示音場之複數個球諧係數執行奇異值分解以產生表示複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數之右奇異向量的V矩陣,且將該一或多個第一向量及該一或多個第二向量產生為U矩陣、S矩陣及V矩陣中之一或多者的函數。
條項133143-13B。如條項133143-1B之器件,其中該一或多個處理器經進一步組態以對於表示音場之複數個球諧係數執行奇異值分解以產生表示複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數之右奇異向量的V矩陣,對於該S矩陣執行突出性分析以識別U矩陣一或多個UDIST向量及S矩陣之一或多個SDIST向量,且藉由至少部分地將一或多個UDIST向量乘以一或多個SDIST向量而判定該一或多個第一向量及該一或多個第二向量。
條項133143-14B。如條項133143-1B之器件,其中該一或多個處理器經進一步組態以對於表示音場之複數個球諧係數執行奇異值分解以產生表示複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數之右奇異向量的V矩陣,且在判定一或多個第一向量及一或多個第二向量時對於該S矩陣執行突出性分析以將V矩陣之一或多個VDIST向量識別為該一或多個第一向量及該一或多個第二向量。
條項133143-15B。如條項133143-1B之器件,其中該音訊資料之第一部分在時間上出現於該音訊資料之第二部分之前。
條項133143-16B。如條項133143-1B之器件,其中該音訊資料之第一部分在時間上出現於該音訊資料之第二部分之後。
條項133143-17B。如條項133143-1B之器件,其中該一或多個處理器經進一步組態以基於該交叉相關對一或多個第一向量中之至少一
者重排序以產生經重排序之一或多個第一向量,且在對第一向量重排序時在一或多個第一向量之間應用淡入/淡出內插窗以確保在產生經重排序之一或多個第一向量時的平滑轉變。
條項133143-18B。如條項133143-1B之器件,其中該一或多個處理器經進一步組態以至少基於該交叉相關對一或多個第一向量重排序以產生經重排序之一或多個第一向量,產生位元串流以包括經重排序之一或多個第一向量或經重排序之一或多個第一向量的經編碼版本,且在該位元串流中指定如何對一或多個第一向量重排序。
條項133143-19B。如條項133143-1B之器件,其中該交叉相關促進一或多個第一向量及一或多個第二向量中之一或兩者之提取以便促成一或多個第一向量及一或多個第二向量中之一或兩者之音訊編碼。
圖40D為說明可執行本發明中所描述之技術的各種態樣以壓縮描述二維或三維音場之球諧係數的實例音訊編碼器件510D之方塊圖。音訊編碼器件510D可類似於音訊編碼器件510C,類似之處在於音訊編碼器件510D包括一音訊壓縮單元512、一音訊編碼單元514及一位元串流產生單元516。此外,音訊編碼器件510D之音訊壓縮單元512可類似於音訊編碼器件510C之音訊壓縮單元,類似之處在於音訊壓縮單元512包括一分解單元518。
然而,音訊編碼器件510D之音訊壓縮單元512可不同於音訊編碼器件510C之音訊壓縮單元512,其不同之處在於音場分量提取單元520包括表示為量化單元534(「量化單元534」)之額外單元。出於此原因,音訊編碼器件510D之音場分量提取單元520表示為「音場分量提取單元520D」。
量化單元534表示經組態以量化一或多個VT DIST向量525E及/或一或多個VT BG向量525F以產生對應的一或多個VT Q_DIST向量525G及/或一或多個VT Q_BG向量525H之單元。量化單元534可量化(其為用於經由消
除用以表示值的位元而進行的數學捨入的信號處理術語)一或多個VT DIST向量525E以便減少用以在位元串流517中表示一或多個VT DIST向量525E的位元之數目。在一些實例中,量化單元534可量化一或多個VT DIST向量525E之32位元值,用經捨入之16位元值替換此等32位元值以產生一或多個VT Q_DIST向量525G。就此而言,量化單元534可以類似於上文關於圖4之實例中所示的音訊編碼器件20之量化單元52所描述的方式操作。
此性質之量化可將錯誤引入於音場之表示中,該錯誤根據量化之粗糙度而變化。換言之,用以表示一或多個VT DIST向量525E之位元愈多,可能導致之量化錯誤愈少。可藉由自一或多個VT Q_DIST向量525G減去一或多個VT DIST向量525E而判定歸因於VT DIST向量525E之量化而造成的量化錯誤(其可表示為「EDIST」)。
根據本發明中所描述之技術,音訊編碼器件510D可藉由將EDIST錯誤投影至藉由將一或多個UBG向量525D乘以一或多個SBG向量525B且接著乘以一或多個VT BG向量525F而產生的UDIST*SDIST向量527或背景球諧係數531中之一或多者或以其他方式修改該等UDIST*SDIST向量527或背景球諧係數531中之一或多者而補償EDIST量化錯誤中之一或多者。在一些實例中,音訊編碼器件510D可僅補償UDIST*SDIST向量527中之EDIST錯誤。在其他實例中,音訊編碼器件510D可僅補償背景球諧係數中之EBG錯誤。在其他實例中,音訊編碼器件510D可補償UDIST*SDIST向量527及背景球諧係數兩者中之EDIST錯誤。
在操作中,突出分量分析單元524可經組態以將一或多個SDIST向量525、一或多個SBG向量525B、一或多個UDIST向量525C、一或多個UBG向量525D、一或多個VT DIST向量525E及一或多個VT BG向量525F輸出至數學單元526。突出分量分析單元524亦可將一或多個VT DIST向量525E輸出至量化單元534。量化單元534可量化一或多個VT DIST向量
525E以產生一或多個VT Q_DIST向量525G。量化單元534可將一或多個VT Q_DIST向量525G提供至數學單元526,同時亦將一或多個VT Q_DIST向量525G提供至向量重排序單元532(如上文所描述)。向量重排序單元532可以類似於上文關於VT DIST向量525E所描述的方式對於該一或多個VT Q_DIST向量525G操作。
在接收到此等向量525至525G(「向量525」)之後,數學單元526可即刻首先判定描述音場之獨特分量之獨特球諧係數及描述音場之背景分量的背景球諧係數。矩陣數學單元526可經組態以藉由將一或多個UDIST 525C向量乘以一或多個SDIST向量525A且接著乘以一或多個VT DIST向量525E而判定獨特球諧係數。數學單元526可經組態以藉由將一或多個UBG 525D向量乘以一或多個SBG向量525A且接著乘以一或多個VT BG向量525E而判定背景球諧係數。
數學單元526可接著藉由對於一或多個VT Q_DIST向量525G執行偽逆操作且接著將獨特球諧乘以一或多個VT Q_DIST向量525G之偽逆而判定一或多個經補償之UDIST*SDIST向量527'(其可類似於UDIST*SDIST向量527,惟此等向量包括用以補償EDIST錯誤之值除外)。向量重排序單元532可以上文所描述的方式操作以產生經重排序之向量527',該等經重排序之向量527'接著藉由音訊編碼單元515A予以音訊編碼以產生音訊編碼經重排序之向量515',再次如上文所描述。
數學單元526可接下來將EDIST錯誤投影至背景球諧係數。為執行此投影,數學單元526可藉由將獨特球諧係數相加至背景球諧係數而判定或以其他方式恢復原始球諧係數511。數學單元526可接著自球諧係數511減去經量化獨特球諧係數(其可藉由將UDIST向量525C乘以SDIST向量525A且接著乘以VT Q_DIST向量525G而產生)及背景球諧係數以判定歸因於VT DIST向量519之量化而造成的剩餘錯誤。數學單元526可接著將此錯誤相加至經量化背景球諧係數以產生經補償之經量化背
景球諧係數531'。
在任何情況下,階數縮減單元528A可如上文所描述而執行以將經補償之經量化背景球諧係數531'縮減為經縮減背景球諧係數529',經縮減背景球諧係數529'可藉由音訊編碼單元514以上文所描述的方式予以音訊編碼以產生經音訊編碼之經縮減背景球諧係數515B'。
以此方式,該等技術可使音訊編碼器件510D能夠量化表示音場之一或多個分量的一或多個第一向量(諸如VT DIST向量525E),且補償歸因於一或多個第一向量之量化而引入於亦表示音場之相同的一或多個分量之一或多個第二向量(諸如UDIST*SDIST向量527及/或背景球諧係數531之向量)中的錯誤。
此外,該等技術可根據以下條項提供此量化錯誤補償。
條項133146-1B。一種器件,諸如音訊編碼器件510D,其包含:一或多個處理器,該一或多個處理器經組態以量化表示音場之一或多個獨特分量的一或多個第一向量,且補償歸因於一或多個第一向量之量化而引入於亦表示音場之相同的一或多個獨特分量之一或多個第二向量中的錯誤。
條項133146-2B。如條項133146-1B之器件,其中該一或多個處理器經組態以量化來自至少部分地藉由對於描述音場之複數個球諧係數執行奇異值分解而產生的V矩陣之轉置的一或多個向量。
條項133146-3B。如條項133146-1B之器件,其中該一或多個處理器經進一步組態以對於表示音場之複數個球諧係數執行奇異值分解以產生表示複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數之右奇異向量的V矩陣,且其中該一或多個處理器經組態以量化來自V矩陣之轉置的一或多個向量。
條項133146-4B。如條項133146-1B之器件,其中該一或多個處
理器經進一步組態以對於表示音場之複數個球諧係數執行奇異值分解以產生表示複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數之右奇異向量的V矩陣,其中該一或多個處理器經組態以量化來自V矩陣之轉置的一或多個向量,且其中該一或多個處理器經組態以補償歸因於量化而引入於藉由將U矩陣之一或多個U向量乘以S矩陣之一或多個S向量而計算出的一或多個U*S向量中之錯誤。
條項133146-5B。如條項133146-1B之器件,其中該一或多個處理器經進一步組態以進行以下操作:對於表示音場之複數個球諧係數執行奇異值分解以產生表示複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數之右奇異向量的V矩陣;判定U矩陣之一或多個UDIST向量,其中的每一者對應於音場之獨特分量中之一者;判定S矩陣之一或多個SDIST向量,其中的每一者對應於音場之獨特分量中之該相同者;及判定V矩陣之轉置的一或多個VT DIST向量,其中的每一者對應於音場之獨特分量中的該相同者。
其中該一或多個處理器經組態以量化一或多個VT DIST向量以產生一或多個VT Q_DIST向量,且其中該一或多個處理器經組態以補償歸因於量化而引入於藉由將U矩陣之一或多個UDIST向量乘以S矩陣之一或多個SDIST向量而計算出的一或多個UDIST*SDIST向量中的錯誤以便產生一或多個錯誤經補償之UDIST*SDIST向量。
條項133146-6B。如條項133146-5B之器件,其中該一或多個處理器經組態以基於該一或多個UDIST向量、該一或多個SDIST向量及該一或多個VT DIST向量判定獨特球諧係數,且對於該等VT Q_DIST向量執行偽逆以將該等獨特球諧係數除以該一或多個VT Q_DIST向量且藉此產生至少部分地補償經由VT DIST向量之量化而引入的錯誤之錯誤經補償之
一或多個UC_DIST*SC_DIST向量。
條項133146-7B。如條項133146-5B之器件,其中該一或多個處理器經進一步組態以對一或多個錯誤經補償之UDIST*SDIST向量進行音訊編碼。
條項133146-8B。如條項133146-1B之器件,其中該一或多個處理器經進一步組態以進行以下操作:對於表示音場之複數個球諧係數執行奇異值分解以產生表示複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數之右奇異向量的V矩陣;判定U矩陣描述音場之一或多個背景分量的一或多個UBG向量及U矩陣之描述音場之一或多個獨特分量的一或多個UDIST向量;判定S矩陣之描述音場一或多個背景分量的一或多個SBG向量及S矩陣之描述音場之一或多個獨特分量的一或多個SDIST向量;及判定V矩陣之轉置的一或多個VT DIST向量及一或多個VT BG向量,其中該等VT DIST向量描述音場之一或多個獨特分量,且VT BG描述音場之一或多個背景分量,其中該一或多個處理器經組態以量化該一或多個VT DIST向量以產生一或多個VT Q_DIST向量,且其中該一或多個處理器經進一步組態以補償歸因於量化而引入於藉由將一或多個UBG向量乘以一或多個SBG向量且接著乘以一或多個VT BG向量而形成的背景球諧係數中的錯誤之至少一部分以便產生錯誤經補償之背景球諧係數。
條項133146-9B。如條項133146-8B之器件,其中該一或多個處理器經組態以基於VT DIST向量及藉由將該等UDIST向量乘以SDIST向量而形成的一或多個UDIST*SDIST向量判定該錯誤,且將該所判定之錯誤相加至背景球諧係數以產生錯誤經補償之背景球諧係數。
條項133146-10B。如條項133146-8B之器件,其中該一或多個處理器經進一步組態以對錯誤經補償之背景球諧係數進行音訊編碼。
條項133146-11B。如條項133146-1B之器件,
其中該一或多個處理器經組態以補償歸因於一或多個第一向量之量化而引入於亦表示音場之相同的一或多個分量之一或多個第二向量中的錯誤以產生一或多個錯誤經補償之第二向量,且其中該一或多個處理器經進一步組態以產生一位元串流以包括一或多個錯誤經補償之第二向量及經量化之一或多個第一向量。
條項133146-12B。如條項133146-1B之器件,其中該一或多個處理器經組態以補償歸因於一或多個第一向量之量化而引入於亦表示音場之相同的一或多個分量之一或多個第二向量中的錯誤以產生一或多個錯誤經補償之第二向量,且其中該一或多個處理器經進一步組態以對一或多個錯誤經補償之第二向量進行音訊編碼,且產生一位元串流以包括經音訊編碼之一或多個錯誤經補償之第二向量及經量化之一或多個第一向量。
條項133146-1C。一種器件,諸如音訊編碼器件510D,其包含:一或多個處理器,該一或多個處理器經組態以量化表示音場之一或多個獨特分量的一或多個第一向量,且補償歸因於一或多個第一向量之量化而引入於表示音場之一或多個背景分量之一或多個第二向量中的錯誤。
條項133146-2C。如條項133146-1C之器件,其中該一或多個處理器經組態以量化來自至少部分地藉由對於描述音場之複數個球諧係數執行奇異值分解而產生的V矩陣之轉置的一或多個向量。
條項133146-3C。如條項133146-1C之器件,其中該一或多個處理器經進一步組態以對於表示音場之複數個球諧係數執行奇異值分解以產生表示複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數之右奇異向量的V矩陣,且其中該一或多個處理器經組態以量化來自V矩陣之轉置的一或
多個向量。
條項133146-4C。如條項133146-1C之器件,其中該一或多個處理器經進一步組態以進行以下操作:對於表示音場之複數個球諧係數執行奇異值分解以產生表示複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數之右奇異向量的V矩陣;判定U矩陣之一或多個UDIST向量,其中的每一者對應於音場之獨特分量中之一者;判定S矩陣之SDIST向量,其中的每一者對應於音場之獨特分量中之相同者;及判定V矩陣之轉置的一或多個VT DIST向量,其中的每一者對應於音場之獨特分量中之相同者,其中該一或多個處理器經組態以量化該一或多個VT DIST向量以產生一或多個VT Q_DIST向量;及補償歸因於量化而引入於藉由將U矩陣之一或多個UDIST向量乘以S矩陣之一或多個SDIST向量而計算出的一或多個UDIST*SDIST向量中的錯誤之至少一部分以便產生一或多個錯誤經補償之UDIST*SDIST向量。
條項133146-5C。如條項133146-4C之器件,其中該一或多個處理器經組態以基於該一或多個UDIST向量、該一或多個SDIST向量及該一或多個VT DIST向量判定獨特球諧係數,且對於該等VT Q_DIST向量執行偽逆以將該等獨特球諧係數除以該一或多個VT Q_DIST向量且藉此產生至少部分地補償經由VT DIST向量之量化而引入的錯誤之錯誤經補償之一或多個UC_DIST*SC_DIST向量。
條項133146-6C。如條項133146-4C之器件,其中該一或多個處理器經進一步組態以對一或多個錯誤經補償之UDIST*SDIST向量進行音訊編碼。
條項133146-7C。如條項133146-1C之器件,其中該一或多個處理器經進一步組態以進行以下操作:對於表示音場之複數個球諧係數執行奇異值分解以產生表示複數個球諧係數之左奇異向量的U矩陣、
表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數之右奇異向量的V矩陣;判定U矩陣之描述音場之一或多個背景分量的一或多個UBG向量及U矩陣之描述音場之一或多個獨特分量的一或多個UDIST向量;判定S矩陣之描述音場之一或多個背景分量的一或多個SBG向量及S矩陣之描述音場之一或多個獨特分量的一或多個SDIST向量;及判定V矩陣之轉置的一或多個VT DIST向量及一或多個VT BG向量,其中該等VT DIST向量描述音場之該一或多個獨特分量且該等VT BG描述音場之該一或多個背景分量,其中該一或多個處理器經組態以量化該一或多個VT DIST向量以產生一或多個VT Q_DIST向量,且其中該一或多個處理器且經組態以補償歸因於量化而引入於藉由將該一或多個UBG向量乘以該一或多個SBG向量且接著乘以該一或多個VT BG向量而形成的背景球諧係數中之錯誤以便產生錯誤經補償的背景球諧係數。
條項133146-8C。如條項133146-7C之器件,其中該一或多個處理器經組態以基於VT DIST向量及藉由將該等UDIST向量乘以SDIST向量而形成的一或多個UDIST*SDIST向量判定該錯誤,且將該所判定之錯誤相加至背景球諧係數以產生錯誤經補償之背景球諧係數。
條項133146-9C。如條項133146-7C之器件,其中該一或多個處理器經進一步組態以對錯誤經補償之背景球諧係數進行音訊編碼。
條項133146-10C。如條項133146-1C之器件,其中該一或多個處理器經進一步組態以補償歸因於該一或多個第一向量之量化而引入於亦表示音場之相同的一或多個分量之一或多個第二向量中的錯誤以產生一或多個錯誤經補償之第二向量,且產生位元串流以包括該一或多個錯誤經補償之第二向量及該等經量化之一或多個第一向量。
條項133146-11C。如條項133146-1C之器件,其中該一或多個處理器經進一步組態以補償歸因於該一或多個第一向量之量化而引入於亦表示音場之相同的一或多個分量之一或多個第二向量中的錯誤以產
生一或多個錯誤經補償之第二向量,對該一或多個錯誤經補償之第二向量進行音訊編碼,且產生位元串流以包括經經音訊編碼之一或多個錯誤經補償之第二向量及該等經量化之一或多個第一向量。
換言之,當出於頻寬減小之目的而對HoA信號使用基於訊框之SVD(或相關方法,諸如KLT&PCA)分解時,本發明中所描述之技術可使音訊編碼器件10D能夠量化U矩陣之前幾個向量(乘以S矩陣之對應奇異值)以及V向量之對應向量。此將包含音場之「前景」或「獨特」分量。該等技術可接著使音訊編碼器件510D能夠使用諸如AAC編碼器之「黑箱」音訊寫碼引擎對U*S向量進行寫碼。可對V向量進行純量量化或向量量化。
此外,U矩陣中之剩餘向量中的一些可乘以S矩陣及V矩陣之對應奇異值且亦使用「黑箱」音訊寫碼引擎予以寫碼。此等將包含音場之「背景」分量。V向量之簡單16位元純量量化對於四階(25個係數)可導致約80kbps額外負荷且對於6階(49個係數)可導致160kbps。愈粗略的量化可導致愈大之量化錯誤。本發明中所描述之技術可藉由將V向量之量化錯誤「投影」至前景及背景分量上而補償V向量之量化錯誤。
在本發明中之技術可包括計算實際V向量之經量化版本。此經量化V向量可稱為V'(其中V'=V+e)。該等技術試圖重建的用於前景分量之基礎HoA信號係藉由H_f=USV給出,其中U、S及V僅含有前景元素。出於此論述之目的,吾人將代之以向量U之單一集合。因而,H_f=UV。假定吾人具有不正確的V',則該等技術試圖儘可能接近地重建H_f。因而,該等技術可使音訊編碼器件10D能夠找出使得H_f=U'V'之U'。音訊編碼器件10D可使用偽逆方法,其允許H_f[V']^(-1)。使用所謂的「黑箱」音訊寫碼引擎來對U'進行寫碼,該等技術可最小化由於所謂的不正確的V'向量而造成的H中的錯誤。
以類似方式,該等技術亦可使音訊編碼器件能夠將歸因於量化V而造成的錯誤投影至背景元素中。音訊編碼器件510D可經組態以重建完整HoA信號,其為前景與背景HoA信號之組合,亦即H=H_f+H_b。歸因於量化V'時的錯誤,此可再次模型化為H=H_f+e+H_b。以此方式,替代經由「黑箱音訊寫碼器」安置H_b,吾人經由音訊寫碼器安置(e+H_b),從而在效果上補償V'中的錯誤。實務上,此對錯誤之補償僅達到藉由音訊編碼器件510D判定之將針對背景元素發送之階數。
圖40E為說明可執行本發明中所描述之技術的各種態樣以壓縮描述二維或三維音場之球諧係數的實例音訊編碼器件510E之方塊圖。音訊編碼器件510E可類似於音訊編碼器件510D,類似之處在於音訊編碼器件510E包括一音訊壓縮單元512、一音訊編碼單元514及一位元串流產生單元516。此外,音訊編碼器件510E之音訊壓縮單元512可類似於音訊編碼器件510D之音訊壓縮單元,類似之處在於音訊壓縮單元512包括一分解單元518。
然而,音訊編碼器件510E之音訊壓縮單元512可不同於音訊編碼器件510D之音訊壓縮單元512,不同之處在於音場分量提取單元520之數學單元526執行本發明中所描述之技術的額外態樣以在將V矩陣519A之轉置的經縮減版本包括在位元串流517中之前進一步縮減V矩陣519A。出於此原因,音訊編碼器件510E之音場分量提取單元520表示為「音場分量提取單元520E」。
在圖40E之實例中,並非將經縮減背景球諧係數529'轉遞至音訊編碼單元514,階數縮減單元528將經縮減背景球諧係數529'傳回至數學單元526。如上文所指出,此等經縮減背景球諧係數529'可能已藉由移除係數中之對應於具有一或多個所識別階數及/或子階的球面基底函數之係數而得以縮減。經縮減背景球諧係數529'之經縮減階數可
由變數NBG表示。
假定音場分量提取單元520E不可對於經重排序之一或多個UDIST*SDIST向量533'執行階數縮減,則描述音場之獨特分量的球諧係數之此分解的階數(其可由變數NDIST表示)可能大於背景階數NBG。換言之,NBG可能通常小於NDIST。NBG可能小於NDIST之一個可能原因係假定背景分量不具有許多方向性,使得不需要高階球面基底函數,藉此實現階數縮減且導致NBG小於NDIST。
假定先前公開地發送經重排序之一或多個VT Q_DIST向量539而不將此等向量539音訊編碼於位元串流517中,如圖40A至圖40D之實例中所示,則經重排序之一或多個VT Q_DIST向量539可能消耗相當大的頻寬。作為一個實例,經重排序之一或多個VT Q_DIST向量539中的每一者在量化至16位元純量值時對於四階立體混響音訊資料(其中每一向量具有25個係數)可能消耗約20Kbps且對於六階立體混響音訊資料(其中每一向量具有49個係數)可能消耗40Kbps。
根據本發明中所描述之技術的各種態樣,音場分量提取單元520E可減小需要針對球諧係數或其分解(諸如經重排序之一或多個VT Q_DIST向量539)指定之位元之量。在一些實例中,數學單元526可基於階數經縮減之球諧係數529'判定經重排序之VT Q_DIST向量539中將被移除且與階數經縮減之球諧係數529'重組之彼等向量及經重排序之VT Q_DIST向量539中的將形成VT SMALL向量521之彼等向量。亦即,數學單元526可判定階數經縮減之球諧係數529'的階數,其中此階數可表示為NBG。經重排序之VT Q_DIST向量539可具有由變數NDIST表示之階數,其中NDIST大於階數NBG。
數學單元526可接著剖析經重排序之VT Q_DIST向量539之第一NBG階數,移除指定對應於階數小於或等於NBG之球面基底函數的經分解球諧係數之彼等向量。此等經移除之經重排序之VT Q_DIST向量539可接
著用以形成中間球諧係數,其係藉由將經重排序之UDIST*SDIST向量533'中的表示對應於階數小於或等於NBG之球面基底函數的球諧係數511之經分解版本的彼等向量乘以經移除之經重排序之VT Q_DIST向量539以形成中間獨特球諧係數。數學單元526可藉由將該等中間獨特球諧係數相加至階數經縮減之球諧係數529'而產生經修改之背景球諧係數537。數學單元526可接著將此經修改之背景球諧係數537傳遞至音訊編碼單元514,音訊編碼單元514對此等係數537進行音訊編碼以形成經音訊編碼之經修改之背景球諧係數515B'。
數學單元526可接著傳遞該一或多個VT SMALL向量521,其可表示表示對應於階數大於NBG且小於或等於NDIST之球面基底函數的球諧係數511之分解形式的彼等向量539。就此而言,數學單元526可執行類似於圖4之實例中所示的音訊編碼器件20之係數縮減單元46的操作。數學單元526可將該一或多個VT SMALL向量521傳遞至位元串流產生單元516,位元串流產生單元516可產生位元串流517以包括VT SMALL向量521(常常呈其原始非經音訊編碼形式)。假定VT SMALL向量521包括比經重排序之VT Q_DIST向量539少的向量,則該等技術可藉由僅在位元串流517中指定VT SMALL向量521而促進將較少位元分配至經重排序之VT Q_DIST向量539。
儘管展示為未經量化,但在一些情況下,音訊編碼器件510E可量化VT BG向量525F。在一些情況下,諸如當音訊編碼單元514不用以壓縮背景球諧係數時,音訊編碼器件510E可量化VT BG向量525F。
以此方式,該等技術可使音訊解碼器件510E能夠判定自將與背景球諧係數重組以減少需要在位元串流中分配給一或多個向量之位元的量的球諧係數分解之一或多個向量中之至少一者,其中該等球諧係數描述一音場,且其中該等背景球諧係數描述相同音場之一或多個背景分量。
亦即,該等技術可使音訊編碼器件510E能夠以藉由以下條項指示之方式加以組態。
條項133149-1A。一種器件,諸如音訊編碼器件510E,其包含:一或多個處理器,該一或多個處理器經組態以判定自將與背景球諧係數重組以減少需要在位元串流中分配至一或多個向量的位元之量之球諧係數分解的一或多個向量中之至少一者,其中該等球諧係數描述音場,且其中背景球諧係數描述相同音場之一或多個背景分量。
條項133149-2A。如條項133149-1A之器件,其中該一或多個處理器經進一步組態以藉由自該一或多個向量移除該一或多個向量中之所判定之至少一者而產生該一或多個向量之經縮減集合。
條項133149-3A。如條項133149-1A之器件,其中該一或多個處理器經進一步組態以藉由自該一或多個向量移除該一或多個向量中之所判定之至少一者而產生該一或多個向量之經縮減集合,重組該一或多個向量中之所移除之至少一者與該等背景球諧係數以產生經修改之背景球諧係數,且產生位元串流以包括該一或多個向量之經縮減集合及該等經修改之背景球諧係數。
條項133149-4A。如條項133149-3A之器件,其中該一或多個向量之經縮減集合包括於該位元串流中而不首先經音訊編碼。
條項133149-5A。如條項133149-1A之器件,其中該一或多個處理器經進一步組態以藉由自該一或多個向量移除該一或多個向量中之所判定之至少一者而產生該一或多個向量之經縮減集合,重組該一或多個向量中之所移除之至少一者與該等背景球諧係數以產生經修改之背景球諧係數,對經修改之背景球諧係數進行音訊編碼,且產生位元串流以包括該一或多個向量之經縮減集合及該等經音訊編碼之經修改之背景球諧係數。
條項133149-6A。如條項133149-1A之器件,其中該一或多個向
量包含表示音場之一或多個獨特分量的至少某一態樣之向量。
條項133149-7A。如條項133149-1A之器件,其中該一或多個向量包含來自至少部分地藉由對於描述音場之複數個球諧係數執行奇異值分解而產生的V矩陣之轉置的一或多個向量。
條項133149-8A。如條項133149-1A之器件,其中該一或多個處理器經進一步組態以對於複數個球諧係數執行奇異值分解以產生表示複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數之右奇異向量的V矩陣,且其中該一或多個向量包含來自該V矩陣之轉置的一或多個向量。
條項133149-9A。如條項133149-1A之器件,其中該一或多個處理器經進一步組態以對於背景球諧係數執行階數縮減以便移除背景球諧係數中之對應於具有所識別階數及/或子階數的球面基底函數之背景球諧係數,其中該等背景球諧係數對應於階數NBG。
條項133149-10A。如條項133149-1A之器件,其中該一或多個處理器經進一步組態以對於背景球諧係數執行階數縮減以便移除背景球諧係數中之對應於具有所識別階數及/或子階數的球面基底函數之背景球諧係數,其中該等背景球諧係數對應於小於獨特球諧係數之階數NDIST的階數NBG,且其中該等獨特球諧係數表示音場之獨特分量。
條項133149-11A。如條項133149-1A之器件,其中該一或多個處理器經進一步組態以對於背景球諧係數執行階數縮減以便移除背景球諧係數中之對應於具有所識別階數及/或子階數的球面基底函數之背景球諧係數,其中該等背景球諧係數對應於小於獨特球諧係數之階數NDIST的階數NBG,且其中該等獨特球諧係數表示音場之獨特分量且不經受階數縮減。
條項133149-12A。如條項133149-1A之器件,其中該一或多個處理器經進一步組態以對於複數個球諧係數執行奇異值分解以產生表示
複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數之右奇異向量的V矩陣,且判定V矩陣之轉置的一或多個VT DIST向量及一或多個VT BG向量,該一或多個VT DIST向量描述音場之一或多個獨特分量,且該一或多個VT BG向量描述音場之一或多個背景分量,且其中該一或多個向量包括一或多個VT DIST向量。
條項133149-13A。如條項133149-1A之器件,其中該一或多個處理器經進一步組態以進行以下操作:對於複數個球諧係數執行奇異值分解以產生表示複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩陣及表示複數個球諧係數之右奇異向量的V矩陣;判定V矩陣之轉置的一或多個VT DIST向量及一或多個VT BG向量,該一或多個VT DIST向量描述音場之一或多個獨特分量,且該一或多個VT BG向量描述音場之一或多個背景分量;及量化該一或多個VT DIST向量以產生一或多個VT Q_DIST向量,且其中該一或多個向量包括該一或多個VT Q_DIST向量。
條項133149-14A。如條項133149-12A或條項133149-13A中之任一者的器件,其中該一或多個處理器經進一步組態以進行以下操作:判定U矩陣之一或多個UDIST向量及一或多個UBG,該一或多個UDIST向量描述音場之一或多個獨特分量,且該一或多個UBG向量描述音場之一或多個背景分量;及判定S矩陣之一或多個SDIST向量及一或多個SBG向量,該一或多個SDIST向量描述音場之一或多個獨特分量,且該一或多個SBG向量描述音場之一或多個背景分量。
條項133149-15A。如條項133149-14A之器件,其中該一或多個處理器經進一步組態以進行以下操作:依據一或多個UBG向量、一或多個SBG向量及一或多個VT BG判定背景球諧係數;對於背景球諧係數執行階數縮減以產生階數等於一之經縮減背景球諧係數;將一或多個
UDIST乘以一或多個SDIST向量以產生一或多個UDIST*SDIST向量;自該一或多個向量移除該一或多個向量中之所判定之至少一者以產生該一或多個向量之經縮減集合;將一或多個UDIST*SDIST向量乘以該一或多個VT DIST向量或該一或多個VT Q_DIST向量中之所移除的至少一者以產生中間獨特球諧係數;及將中間獨特球諧係數相加至背景球諧係數以重組該一或多個VT DIST向量或該一或多個VT Q_DIST向量中之所移除的至少一者與背景球諧係數。
條項133149-16A。如條項133149-14A之器件,其中該一或多個處理器經進一步組態以進行以下操作:依據一或多個UBG向量、一或多個SBG向量及一或多個VT BG判定背景球諧係數;對於背景球諧係數執行階數縮減以產生階數等於NBG之經縮減背景球諧係數;將一或多個UDIST乘以一或多個SDIST向量以產生一或多個UDIST*SDIST向量;對該一或多個UDIST*SDIST向量重排序以產生經重排序之一或多個UDIST*SDIST向量;自該一或多個向量移除該一或多個向量中之所判定之至少一者以產生該一或多個向量之經縮減集合;將經重排序之一或多個UDIST*SDIST向量乘以該一或多個VT DIST向量或該一或多個VT Q_DIST向量中之所移除的至少一者以產生中間獨特球諧係數;及將中間獨特球諧係數相加至背景球諧係數以重組該一或多個VT DIST向量或該一或多個VT Q_DIST向量中之所移除的至少一者與背景球諧係數。
條項133149-17A。如條項133149-15A或條項133149-16A中之任一者的器件,其中該一或多個處理器經進一步組態以在將中間獨特球諧係數相加至背景球諧係數之後對背景球諧係數進行音訊編碼,且產生位元串流以包括經音訊編碼之背景球諧係數。
條項133149-18A。如條項133149-1A之,其中該一或多個處理器經進一步組態以進行以下操作:對於複數個球諧係數執行奇異值分解以產生表示該複數個球諧係數之左奇異向量的U矩陣、表示該複數個
球諧係數之奇異值的S矩陣及表示該複數個球諧係數之右奇異向量的V矩陣;判定V矩陣之轉置的一或多個VT DIST向量及一或多個VT BG向量,該一或多個VDIST向量描述音場之一或多個獨特分量,且該一或多個VBG向量描述音場之一或多個背景分量;量化該一或多個VT DIST向量以產生一或多個VT Q_DIST向量;及對該一或多個VT Q_DIST向量重排序以產生經重排序之一或多個VT Q_DIST向量,且其中該一或多個向量包括經重排序之一或多個VT DIST向量。
圖40F為說明可執行本發明中所描述之技術的各種態樣以壓縮描述二維或三維音場之球諧係數的實例音訊編碼器件510F之方塊圖。音訊編碼器件510F可類似於音訊編碼器件510C,類似之處在於音訊編碼器件510F包括一音訊壓縮單元512、一音訊編碼單元514及一位元串流產生單元516。此外,音訊編碼器件510F之音訊壓縮單元512可類似於音訊編碼器件510C之音訊壓縮單元,類似之處在於音訊壓縮單元512包括分解單元518及向量重排序單元532,其可類似於音訊編碼器件510C中的相同單元而操作。在一些實例中,音訊編碼器件510F可包括一量化單元534(如關於圖40D至圖40E所描述)以量化UDIST向量525C、UBG向量525D、VT DIST向量525E及VT BG向量525J中之任一者中的一或多個向量。
然而,音訊編碼器件510F之音訊壓縮單元512可不同於音訊編碼器件510C之音訊壓縮單元512,不同之處在於音場分量提取單元520之突出分量分析單元524可執行內容分析以選擇前景分量之數目(在圖40A至圖40J之內容脈絡中表示為D)。換言之,突出分量分析單元524可以上文所描述的方式對於U、S及V矩陣519操作以識別球諧係數之經分解版本係自合成音訊物件還是自利用麥克風之自然記錄產生。突出分量分析單元524可接著基於此合成判定而判定D。
此外,音訊編碼器件510F之音訊壓縮單元512可不同於音訊編碼
器件510C之音訊壓縮單元512,不同之處在於音場分量提取單元520可包括額外單元,即階數縮減及能量保留單元528F(說明為「階數縮減及能留保留單元528F」)。出於此原因,音訊編碼器件510F之音場分量提取單元520表示為「音場分量提取單元520F」。
階數縮減及能量保留單元528F表示經組態以對表示複數個球諧係數511之右奇異向量的VBG矩陣525H之背景分量執行階數縮減同時保留部分地由完整VBG矩陣525H描述的音場之總體能量(及伴隨的聲壓)之單元。就此而言,階數縮減及能量保留單元528F可執行上文關於圖4之實例中所示的音訊編碼器件20之背景選擇單元48及能量補償單元38所描述的操作。
完整VBG矩陣525H具有維度(N+1)2×(N+1)2-D,其中D表示判定為在為音場之獨特音訊分量方面突出的主分量或(換言之)奇異值之數目。亦即,完整VBG矩陣525H包括判定為音場之背景(BG)或(換言之)環境或非獨特音訊分量之彼等奇異值。
如上文關於例如圖40B至圖40E之階數縮減單元524所描述,階數縮減及能量保留單元528F可移除、消除或以其他方式刪除(常常藉由零化)VBG矩陣525H之背景奇異值中的對應於高階球面基底函數之彼等背景奇異值。階數縮減及能量保留單元528F可將VBG矩陣525H之經縮減版本(表示為「VBG'矩陣525I」,且在下文中稱作「經縮減VBG'矩陣525I」)輸出至轉置單元522。經縮減VBG'矩陣525I可具有維度(+1)2×(N+1)2-D,其中<N。轉置單元522將轉置操作應用於經縮減VBG'矩陣525I以產生經轉置經縮減VT BG'矩陣525J且將其輸出至數學單元526,數學單元526可操作以藉由使用UBG矩陣525D、SBG矩陣525B及經轉置經縮減VT BG'矩陣525J計算UBG*SBG*VT BG而重建構音場之背景聲音分量。
根據本文所述的技術,階數縮減及能量保留單元528F經進一步
組態以補償音場之背景聲音分量之總體能量的可能降低,該等可能降低係藉由縮減完整VBG矩陣525H之階數以產生經縮減VBG'矩陣525I而造成。在一些實例中,階數縮減及能量保留單元528F藉由判定呈放大值形式之補償增益而進行補償,該補償增益將應用於經縮減VBG'矩陣525I之(N+1)2-D行中的每一者以便將經縮減VBG'矩陣525I之均方根(RMS)能量增加至等於或至少更接近於完整VBG矩陣525H之RMS,隨後將經縮減VBG'矩陣525I輸出至轉置單元522。
在一些情況下,階數縮減及能量保留單元528F可判定完整VBG矩陣525H之每一行的RMS能量及經縮減VBG'矩陣525I之每一行的RMS能量,接著將該行之放大值判定為前者與後者之比率,如以下方程式中所指示:
其中為用於一行之放大值,v BG表示VBG矩陣525H之單一行,且v BG'表示VBG'矩陣525I之對應單一行。此可按矩陣記法表示為:
其中V BG RMS 為RMS向量,其元素表示VBG矩陣525H之每一行的RMS,V BG ’ RMS 為RMS向量,其元素表示經縮減VBG'矩陣525I之每一行的RMS,且A為放大值向量,其具有用於VBG矩陣525H之每一行的元素。階數縮減及能量保留單元528F使用對應放大值或以向量形式將純量乘法應用於經縮減VBG'矩陣525I之每一行:
其中表示包括能量補償之經縮減VBG'矩陣525I。階數縮減及能量保留單元528F可將包括能量補償之經縮減VBG'矩陣525I輸出至轉置單元522以使經縮減VBG'矩陣525I之RMS與完整VBG矩陣525H之RMS相等(或幾乎相當)。包括能量補償之經縮減VBG'矩陣525I的輸出維度可為(+1)2×(N+1)2-D。
在一些實例中,為判定經縮減VBG'矩陣525I及完整VBG矩陣525H之各別行的每一RMS,階數縮減及能量保留單元528F可首先將參考球諧係數(SHC)轉譯器應用於該等行。藉由階數縮減及能量保留單元528F應用參考SHC轉譯器允許在SHC域中判定RMS以判定藉由經縮減VBG'矩陣525I及完整VBG矩陣525H所表示之訊框之每一行描述的總體音場之能量。因而,在此些實例中,階數縮減及能量保留單元528F可將參考SHC轉譯器應用於完整VBG矩陣525H之每一行且應用於經縮減VBG'矩陣525I之每一經縮減行,判定該行及該經縮減行之各別RMS值,且將用於該行之放大值判定為該行之RMS值與該經縮減行之RMS值之比率。在一些實例中,達到經縮減VBG'矩陣525I之階數縮減根據能量保留而逐行進行。此可表達於如下偽碼中:R=ReferenceRenderer;for m=numDist+1:numChannels fullV=V(:,m);//takes one column of V=>fullV reducedV=[fullV(1:numBG);zeros(numChannels-numBG,1)];alpha=sqrt(sum((fullV'*R).^2)/sum((reducedV'*R).^2));if isnan(alpha)∥ isinf(alpha),alpha=1;end;V_out(:,m)=reducedV * alpha;end
在以上偽碼中,numChannels可表示(N+1)2-D,numBG可表示(+1)2,V可表示VBG矩陣525H,且V_out可表示經縮減VBG'矩陣525I,且R可表示階數縮減及能量保留單元528F之參考SHC轉譯器。V之維度可為(N+1)2×(N+1)2-D,且V_out之維度可為(+1)2×(N+1)2-D。
結果,當表示複數個球諧係數511時,音訊編碼器件510F可使用包括由於階數縮減過程而可能損失之能量之補償的階數經縮減之VBG'
矩陣525I重建構背景聲音分量。
圖40G為說明可執行本發明中所描述之技術的各種態樣以壓縮描述二維或三維音場之球諧係數的實例音訊編碼器件510G之方塊圖。在圖40G之實例中,音訊編碼器件510G包括音場分量提取單元520F。又,音場分量提取單元520F包括突出分量分析單元524G。
然而,音訊編碼器件510G之音訊壓縮單元512可不同於音訊編碼器件10F之音訊壓縮單元512,其不同之處在於音訊編碼器件510G之音訊壓縮單元512包括突出分量分析單元524G。突出分量分析單元524G可表示經組態以使用與音訊資料相關聯的基於方向性之資訊判定表示音場的音訊資料之突出性或獨特性之單元。
雖然基於能量之判定可改良由SVD分解的音場之轉譯以識別音場之獨特的音訊分量,但在背景音訊分量展現高能量位準之情況下,基於能量之判定亦可使器件錯誤地將背景音訊分量識別為獨特的音訊分量。亦即,獨特且背景音訊分量之基於僅能量之分離可不穩固,此係因為高能(例如,較響)背景音訊分量可能經不正確地識別為獨特音訊分量。為了更穩固地在音場之獨特且背景音訊分量之間區分,本發明中所描述之技術之各種態樣可使突出分量分析單元524G能夠執行SHC 511的基於方向性之分析以將獨特且背景音訊分量與SHC 511之經分解版本分離。
在圖40H之實例中,突出分量分析單元524G可表示經組態或另外可操作以將獨特(或前景)元素與包括於V矩陣519、S矩陣519B及U矩陣519C中之一或多者中的背景元素分離之單元,類似於先前所描述的音訊編碼器件510-510F之突出分量分析單元524。根據一些基於SVD之技術,最高能分量(例如,V、S及U矩陣519-519C或自其衍生之矩陣中之一或多者的第一極少向量)可作為獨特分量來處理。然而,矩陣519-519C中之一或多者的最高能分量(其由向量表示)可不在
所有內容脈絡中表示最有方向性之分量/信號。
不同於先前所描述的突出分量分析單元524,突出分量分析單元524G可實施本文中所描述的技術之一或多個態樣以基於矩陣519-519C或自其導出之矩陣中之一或多者的向量之方向性識別前景元素。在一些實例中,突出分量分析單元524G可基於能量及向量之方向性識別或選擇一或多個向量作為獨特音訊分量(其中分量亦可被稱作「目標」)。舉例而言,突出分量分析單元524G可將矩陣519-519C(或自其導出之矩陣)中之一或多者的顯示高能量及高方向性(例如,表示為方向性商)之彼等向量識別為獨特音訊分量。結果,若突出分量分析單元524G判定當與矩陣519-519C(或自其衍生之矩陣)中之一或多者的其他向量比較時特定向量相對較小,則不管與該特定向量相關聯之能量位準,突出分量分析單元524G可判定該特定向量表示由SHC 511表示的音場之背景(或環境)音訊分量。就此而言,突出分量分析單元524G可執行類似於以上關於圖4之實例中展示的音訊編碼器件20之音場分析單元44描述的操作之操作。
在一些實施中,突出分量分析單元524G可藉由執行下列操作基於方向性識別獨特音訊物件(如上文所指出,其亦可被稱作「分量」)。突出分量分析單元524G可(例如,使用一或多個矩陣乘法過程)將V矩陣519A乘以S矩陣519B。藉由將V矩陣519A與S矩陣519B相乘,突出分量分析單元524G可獲得VS矩陣。另外,突出分量分析單元524G可將VS矩陣之向量(其可為列)中之每一者的項中之至少一些求平方(亦即,按二次方求冪)。在一些情況下,突出分量分析單元524G可將每一向量之與大於1之階數相關聯的彼等平方項求和。作為一個實例,若矩陣每一向量包括25個項,則突出分量分析單元524G可關於每一向量將開始於第五項且結束於第二十五項之每一向量的項求平方,將平方項求和以判定方向性商(或方向性指示符)。每一求和
運算可導致對應的向量之方向性商。在此實例中,突出分量分析單元524G可判定每一列之與小於或等於1之階數相關聯的彼等項(即,第一至第四項)更通常係針對能量之量,且較少係針對彼等項之方向性。亦即,與零或一之階數相關聯的低階立體混響對應於球面基底函數,如在圖1及圖2中所說明,就壓力波之方向而言,球面基底函數並不提供許多,而相反,提供一些量(其表示能量)。
在以上實例中描述之操作亦可根據以下偽碼來表達。下面的偽碼包括註釋,其呈包括於字元串「/*」及「*/」(無引號)之連結例項內的註解語句之形式。
[U,S,V]=svd(audioframe,'ecom');VS=V*S;/*下一行係針對獨立地分析每一列,且將自第五項至第二十五項之第一(作為一個實例)列中的值求和以判定對應的向量之商或方向性量度。在求和前將該等項求平方。每一列中與大於1之階數相關聯的項與高階立體混響相關聯,且因此更有可能為方向性的。*/
sumVS=sum(VS(5:end,:).^2,1);/*下一行係針對將產生之VS矩陣的平方之總和排序,且選擇最大值之集合(例如,最大值中之三個或四個)*/
[~,idxVS]=sort(sumVS,'descend');U=U(:,idxVS);V=V(:,idxVS);S=S(idxVS,idxVS);換言之,根據以上偽碼,突出分量分析單元524G可選擇自對應於具有大於一之階數之球面基底函數的SHC 511之彼等分解的VS矩陣之每一向量之項。突出分量分析單元524G可接著將VS矩陣之每一向量之此等項求平方,經平方之項求和以識別、計算或另外判定VS矩
陣之每一向量的方向性量度或商。接下來,突出分量分析單元524G可基於向量中之每一者的各別方向性量度將VS矩陣之向量排序。突出分量分析單元524G可按方向性量度之降序將此等向量排序,使得具有最高對應的方向性之彼等向量為第一,且具有最低對應的方向性之彼等向量為最後。突出分量分析單元524G可接著選擇向量的具有最高相對方向性量度之非零子集。
根據本文中所描述的技術之一些態樣,音訊編碼器件510G或其一或多個組件可將VS矩陣之預定數目個向量識別為或另外用作獨特音訊分量。舉例而言,在選擇了VS矩陣之每一列的項5至項25且將選定項求和以判定每一各別向量之相對方向性量度後,突出分量分析單元524G可實施該等向量間之進一步選擇以識別表示獨特音訊分量之向量。在一些實例中,突出分量分析單元524G可藉由比較向量之方向性商來選擇VS矩陣之預定數目個向量。作為一個實例,突出分量分析單元524G可選擇具有四個最高方向性商(且為經排序之VS矩陣的首先四個向量)的在VS矩陣中表示之四個向量。又,突出分量分析單元524G可判定四個選定向量表示與音場之對應的SHC表示相關聯之四個最獨特音訊物件。
在一些實例中,突出分量分析單元524G可重排序自VS矩陣導出之向量,以反映四個選定向量之獨特性,如上所述。在一個實例中,突出分量分析單元524G可重排序該等向量,使得四個選定項經重新定位至VS矩陣之頂部。舉例而言,突出分量分析單元524G可修改VS矩陣,使得所有四個選定項定位於所得經重排序之VS矩陣的第一(或最高)列中。儘管本文中關於突出分量分析單元524G描述,但在各別實施中,音訊編碼器件510G之其他組件(諸如,向量重排序單元532)可執行該重排序。
突出分量分析單元524G可將所得矩陣(亦即,經重排序或未經重
排序之VS矩陣)遞送至位元串流產生單元516。又,位元串流產生單元516可使用VS矩陣525K以產生位元串流517。舉例而言,若突出分量分析單元524G已重排序VS矩陣525K,則位元串流產生單元516可將VS矩陣525K之經重排序之版本的頂部列用作獨特音訊物件,諸如,藉由量化或丟棄VS矩陣525K之經重排序之版本的剩餘向量。藉由量化VS矩陣525K之經重排序之版本的剩餘向量,位元串流產生單元16可將剩餘向量作為環境或背景音訊資料處理。
在突出分量分析單元524G尚未重排序VS矩陣525K之實例中,位元串流產生單元516可基於如由突出分量分析單元524G選擇的VS矩陣525K之每一列的特定項(例如,第5至第25項)區分獨特音訊資料與背景音訊資料。舉例而言,位元串流產生單元516可藉由量化或丟棄VS矩陣525K之每一列之首先的四個項來產生位元串流517。
以此方式,音訊編碼器件510G及/或其組件(諸如,突出分量分析單元524G)可實施本發明之技術以判定或另外利用音訊資料之較高及較低係數之能量的比率,以便在獨特音訊物件與表示音場之背景音訊資料之間區分。舉例而言,如所描述,突出分量分析單元524G可利用基於由突出分量分析單元524H產生的VS矩陣525K之各種項之值之能量比。藉由組合由V矩陣519A及S矩陣519B提供之資料,突出分量分析單元524G可產生VS矩陣525K以提供關於音訊資料之各種分量的方向性及總能量之資訊,其呈向量及有關資料(例如,方向性)之形式。更具體言之,V矩陣519A可提供與方向性判定有關之資訊,而S矩陣519B可提供與針對音訊資料之分量的總能量判定有關之資訊。
在其他實例中,突出分量分析單元524G可使用重排序之VT DIST向量539產生VS矩陣525K。在此等實例中,突出分量分析單元524G可在基於S矩陣519B之任何修改前基於V矩陣519判定獨特性。換言之,根據此等實例,突出分量分析單元524G可使用僅V矩陣519判定
方向性,而不執行產生VS矩陣525K之步驟。更具體言之,V矩陣519A可提供關於混合音訊資料之分量(例如,V矩陣519之向量)的方式之資訊,及潛在地,關於由向量傳達的資料之各種協同效應。舉例而言,V矩陣519A可提供如由EigenMike®中繼至音訊編碼器件510G的關於由向量表示的各種音訊分量之「到達方向」之資訊,諸如,每一音訊分量之到達方向。如本文中所使用,術語「音訊資料之分量」可與矩陣519或自其導出之任何矩陣中的任一者之「項」互換。
根據本發明之技術之一些實施,突出分量分析單元524G可對SHC表示補充或擴增外來資訊以進行本文中描述之各種判定。作為一個實例,突出分量分析單元524G可對SHC擴增外來資訊以便判定在矩陣519-519C中表示的各種音訊組件之突出性。作為另一實例,突出分量分析單元524G及/或向量重排序單元532可對HOA擴增外來資料以在獨特音訊物件與背景音訊資料之間區分。
在一些實例中,突出分量分析單元524G可偵測音訊資料之部分(例如,獨特音訊物件)顯示凱因斯(Keynesian)能量。此等獨特物件之實例可與調變的人類話音相關聯。在調變的基於語音之音訊資料之情況下,突出分量分析單元524G可判定作為對剩餘分量之能量之比率的調變資料之能量隨時間過去保持大致恆定(例如,在臨限範圍內恆定)或大致固定。傳統地,若具有凱因斯能量之獨特音訊組件之能量特性(例如,與調變話音相關聯之能量特性)自一個音訊訊框改變至另一者,則器件可能不能夠將一系列音訊分量識別為單一信號。然而,突出分量分析單元524G可實施本發明之技術以判定表示為各別矩陣中之向量的距離物件之方向性或孔徑。
更具體言之,突出分量分析單元524G可判定諸如方向性及/或孔徑之特性不大可能跨音訊訊框實質上改變。如本文所使用,孔徑表示在音訊資料內的高階係數對低階係數之比率。V矩陣519A之每一列可
包括對應於特定SHC之向量。突出分量分析單元524G可判定低階SHC(例如,與小於或等於1之階數相關聯)傾向於表示環境資料,而高階項傾向於表示獨特資料。另外,突出分量分析單元524G可判定在許多情況下,高階SHC(例如,與大於1之階數相關聯)顯示較大能量,且在音訊訊框間,高階SHC與低階SHC之能量比率保持實質上類似(或大致恆定)。
突出分量分析單元524G之一或多個組件可使用V矩陣519判定音訊資料之特性,諸如,方向性及孔徑。以此方式,音訊編碼器件510G之組件(諸如,突出分量分析單元524G)可實施本文中所描述之技術以使用基於方向性之資訊判定突出性及/或將獨特音訊物件與背景音訊區分開。藉由使用方向性判定突出性及/或獨特性,突出分量分析單元524G可比在經組態以使用僅基於能量之資料判定突出性及/或獨特性的器件穩定地達成判定。儘管以上關於突出性及/或獨特性的基於方向性之判定描述,但突出分量分析單元524G可實施本發明之技術以除了其他特性(諸如,能量)之外亦使用方向性來判定音訊資料之特定分量的突出性及/或獨特性,如由矩陣519-519C(或自其導出之任何矩陣)中之一或多者的向量表示。
在一些實例中,一種方法包括基於針對音訊物件中之一或多者判定之方向性自與該等音訊物件相關聯之一或多個球諧係數(SHC)識別一或多個獨特音訊物件。在一個實例中,該方法進一步包括基於與音訊物件相關聯之球諧係數判定該一或多個音訊物件之方向性。在一些實例中,該方法進一步包括對於球諧係數執行奇異值分解以產生表示該複數個球諧係數之左奇異向量的U矩陣、表示該複數個球諧係數之奇異值的S矩陣及表示該複數個球諧係數之右奇異向量的V矩陣;及將該複數個球諧係數表示為U矩陣、S矩陣及V矩陣中之一或多者的至少一部分之函數,其中判定該一或多個音訊物件之各別方向性至少
部分基於V矩陣。
在一個實例中,該方法進一步包括將V矩陣之一或多個向量重排序使得在經重排序之V矩陣中,具有較大方向性商之向量定位於具有較小方向性商之向量上方。在一個實例中,該方法進一步包括判定具有較大方向性商之向量包括比具有較小方向性商之向量大的方向資訊。在一個實例中,該方法進一步包括將V矩陣乘以S矩陣以產生VS矩陣,該VS矩陣包括一或多個向量。在一個實例中,該方法進一步包括選擇VS矩陣之每一列的與大於1之階數相關聯的項,將選定項中之每一者求平方以形成對應的平方項,且針對VS矩陣之每一列,將所有平方項求和以判定對應的向量之方向性商。
在一些實例中,VS矩陣之每一列包括25個項。在一個實例中,選擇VS矩陣之每一列的與大於1之階數相關聯的項包括選擇開始於VS矩陣之每一列的第5項且結束於VS矩陣之每一列的第25項之所有項。在一個實例中,該方法進一步包括選擇VS矩陣之向量之子集來表示獨特音訊物件。在一些實例中,選擇該子集包括選擇VS矩陣之四個向量,且選定四個向量具有VS矩陣之所有向量的四個最大方向性商。在一個實例中,判定向量之選定子集表示獨特音訊物件係基於每一向量之方向性及能量兩者。
在一些實例中,一種方法包括基於針對音訊物件中之一或多者判定之方向性及能量自與該等音訊物件相關聯之一或多個球諧係數識別一或多個獨特音訊物件。在一個實例中,該方法進一步包括基於與音訊物件相關聯之球諧係數判定該一或多個音訊物件的方向性及能量中之一或兩者。在一些實例中,該方法進一步包括對於表示音場之球諧係數執行奇異值分解以產生表示該複數個球諧係數之左奇異向量的U矩陣、表示該複數個球諧係數之奇異值的S矩陣及表示該複數個球諧係數之右奇異向量的V矩陣;及將該複數個球諧係數表示為U矩
陣、S矩陣及V矩陣中之一或多者的至少一部分之函數,其中判定該一或多個音訊物件之各別方向性至少部分基於V矩陣,且其中判定該一或多個音訊物件之各別能量至少部分基於S矩陣。
在一個實例中,該方法進一步包括將V矩陣乘以S矩陣以產生VS矩陣,該VS矩陣包括一或多個向量。在一些實例中,該方法進一步包括選擇VS矩陣之每一列的與大於1之階數相關聯的項,將選定項中之每一者求平方以形成對應的平方項,且針對VS矩陣之每一列,將所有平方項求和以產生VS矩陣之對應的向量之方向性商。在一些實例中,VS矩陣之每一列包括25個項。在一個實例中,選擇VS矩陣之每一列的與大於1之階數相關聯的項包含選擇開始於VS矩陣之每一列的第5項且結束於VS矩陣之每一列的第25項之所有項。在一些實例中,該方法進一步包括選擇向量之子集來表示獨特音訊物件。在一個實例中,選擇該子集包含選擇VS矩陣之四個向量,且選定四個向量具有VS矩陣之所有向量的四個最大方向性商。在一些實例中,判定向量之選定子集表示獨特音訊物件係基於每一向量之方向性及能量兩者。
在一些實例中,一種方法包括使用基於方向性之資訊判定描述該音場之獨特分量的一或多個第一向量及描述該音場之背景分量的一或多個第二向量,該一或多個第一向量及該一或多個第二向量皆係至少藉由對於複數個球諧係數執行變換而產生。在一實例中,該變換包含奇異值分解,奇異值分解產生表示該複數個球諧係數之左奇異向量的U矩陣、表示該複數個球諧係數之奇異值的S矩陣及表示該複數個球諧係數之右奇異向量的V矩陣。在一個實例中,變換包含主分量分析以識別音場之獨特分量及音場之背景分量。
在一些實例中,一種器件經組態或另外可操作以執行本文中所描述的技術中之任一者或該等技術之任何組合。在一些實例中,一種
電腦可讀儲存媒體編碼有指令,該等指令在執行時使一或多個處理器執行本文中所描述的技術中之任一者或該等技術之任何組合。在一些實例中,一種器件包括執行本文中所描述的技術中之任一者或該等技術之任何組合的構件。
亦即,該等技術之前述態樣可使音訊編碼器件510G能夠經組態以根據以下條項操作。
條項134954-1B。一種器件,諸如音訊編碼器件510G,其包含:一或多個處理器,其經組態以基於針對音訊物件中之一或多者判定之方向性及能量識別來自與音訊物件相關聯之一或多個球諧係數的一或多個獨特音訊物件。
條項134954-2B。如條項134954-1B之器件,其中該一或多個處理器經進一步組態以基於與音訊物件相關聯之球諧係數判定該一或多個音訊物件之方向性及能量中的一或兩者。
條項134954-3B。如請求項1B或2B中任一項或其組合之器件,其中該一或多個處理器經進一步組態以對於表示音場之球諧係數執行奇異值分解以產生表示該複數個球諧係數之左奇異向量的U矩陣、表示該複數個球諧係數之奇異值的S矩陣及表示該複數個球諧係數之右奇異向量的V矩陣,及將該複數個球諧係數表示為U矩陣、S矩陣及V矩陣中之一或多者的至少一部分之函數,其中該一或多個處理器經組態以至少部分基於V矩陣判定該一或多個音訊物件之各別方向性,且其中該一或多個處理器經組態以判定該一或多個音訊物件之各別能量至少部分基於S矩陣。
條項134954-4B。如條項134954-3B之器件,其中該一或多個處理器經進一步組態以將V矩陣乘以S矩陣以產生VS矩陣,該VS矩陣包
括一或多個向量。
條項134954-5B。如條項134954-4B之器件,其中該一或多個處理器經進一步組態以選擇VS矩陣之每一列的與大於1之階數相關聯的項,將選定項中之每一者求平方以形成對應的平方項,且針對VS矩陣之每一列,將所有平方項求和以產生VS矩陣之對應的向量之方向性商。
條項134954-6B。如請求項5B及6B中任一項或其組合之器件,其中VS矩陣之每一列包括25個項。
條項134954-7B。如條項134954-6B之器件,其中該一或多個處理器經組態以選擇開始於VS矩陣之每一列的第5項且結束於VS矩陣之每一列的第25項之所有項。
條項134954-8B。如條項134954-6B及條項134954-7B中任一項或其組合之器件,其中該一或多個處理器經進一步組態以選擇向量之一子集來表示獨特音訊物件。
條項134954-9B。如條項134954-8B之器件,其中該一或多個處理器經組態以選擇VS矩陣之四個向量,且其中選定四個向量具有VS矩陣之所有向量中之四個最大方向性商。
條項134954-10B。如條項134954-8B及條項134954-9B中任一項或其組合之器件,其中該一或多個處理器經進一步組態以判定向量之選定子集表示獨特音訊物件係基於每一向量之方向性及能量兩者。
條項134954-1C。一種器件,諸如音訊編碼器件510G,其包含:一或多個處理器,該或多個處理器經組態以使用基於方向性之資訊判定描述音場之獨特分量的一或多個第一向量及描述音場之背景分量的一或多個第二向量,該一或多個第一向量及該一或多個第二向量皆至少藉由對於複數個球諧係數執行變換而產生。
條項134954-2C。如條項134954-1C之方法,其中該變換包含奇
異值分解,其產生表示該複數個球諧係數之左奇異向量的U矩陣、表示該複數個球諧係數之奇異值的S矩陣及表示該複數個球諧係數之右奇異向量的V矩陣。
條項134954-3C。如條項134954-2C之方法,其進一步包含由條項134954-1A至條項134954-12A及條項134954-1B至134954-9B之任何組合敍述的操作。
條項134954-4C。如條項134954-1C之方法,其中變換包含主分量分析以識別音場之獨特分量及音場之背景分量。
圖40H為說明可執行本發明中所描述之技術的各種態樣以壓縮描述二維或三維音場之球諧係數的實例音訊編碼器件510H之方塊圖。音訊編碼器件510H可類似於音訊編碼器件510G,其中音訊編碼器件510H包括音訊壓縮單元512、音訊編碼單元514及位元串流產生單元516。此外,音訊編碼器件510H之音訊壓縮單元512可類似於音訊編碼器件510G之音訊壓縮單元,其中音訊壓縮單元512包括分解單元518及音場分量提取單元520G,該等單元可類似於音訊編碼器件510G之同樣單元操作。在一些實例中,音訊編碼器件510H可包括一量化單元534(如關於圖40D至圖40E所描述)以量化UDIST向量525C、UBG向量525D、VT DIST向量525E及VT BG向量525J中之任一者中的一或多個向量。
然而,音訊編碼器件510H之音訊壓縮單元512可不同於音訊編碼器件510G之音訊壓縮單元512,其不同之處在於,音訊編碼器件510H之音訊壓縮單元512包括表示為內插單元550之額外單元。內插單元550可表示自第一音訊訊框之子訊框及第二時間上在後或在前的音訊訊框內插第一音訊訊框之子訊框,如以下關於圖45及圖45B更詳細地描述。內插單元550可在執行此內插過程中藉由潛在地減小需要分解單元518分解SHC 511之程度來降低計算複雜度(就處理循環及/或記憶
體消耗而言)。就此而言,內插單元550可執行類似於以上關於在圖4之實例中展示的音訊編碼器件24之空間-時間內插單元50描述的彼等操作之操作。
亦即,由分解單元518執行之奇異值分解潛在地非常密集地使用處理器及/或記憶體,同時在一些實例中亦花費大量時間來分解SHC 511,尤其隨著SHC 511之階數增加。為了減少時間量且使SHC 511之壓縮更有效率(就處理循環及/或記憶體消耗而言),本發明中所描述之技術可提供第一音訊訊框之一或多個子訊框的內插,其中子訊框中之每一者可表示SHC 511之分解版本。替代對於整個訊框執行SVD,該等技術可使分解單元518能夠分解第一音訊訊框之第一子訊框,從而產生V矩陣519'。
分解單元518亦可分解第二音訊訊框之第二子訊框,其中此第二音訊訊框可時間上在第一音訊訊框之後或在時間上在第一音訊訊框之前。分解單元518可針對第二音訊訊框之此子訊框輸出V矩陣519'。內插單元550可接著基於自第一子訊框及第二子訊框分解之V矩陣519'內插第一音訊訊框之剩餘子訊框,輸出V矩陣519、S矩陣519B及U矩陣519C,其中可基於SHC 511、第一音訊訊框之V矩陣519A及用於第一音訊訊框之剩餘子訊框的經內插V矩陣519計算用於剩餘子訊框之分解。內插可因此避免計算用於第一音訊訊框之剩餘子訊框的分解。
此外,如上文所指出,U矩陣519C在訊框間可不連續,其中可在與自SHC 511之第二音訊訊框分解的U矩陣519C中不同的列及/或行中指定自SHC 511之第一音訊訊框分解的U矩陣519C之獨特分量。藉由執行此內插,可減少不連續性,假定線性內插可具有可減少歸因於訊框邊界(或換言之,SHC 511至訊框之分段)而引入之任何偽訊的平滑化效應。使用V矩陣519'執行此內插且接著基於經內插V矩陣519'自SHC 511恢復U矩陣519C可使由重排序U矩陣519C獲得的任何效應平
穩。
在操作中,內插單元550可自包括於第一訊框中的第一複數個球諧係數511之一部分之第一分解(例如,V矩陣519')及包括於第二訊框中的第二複數個球諧係數511之一部分之第二分解(例如,V矩陣519')內插第一音訊訊框之一或多個子訊框以產生用於該一或多個子訊框的經分解之經內插球諧係數。
在一些實例中,第一分解包含表示第一複數個球諧係數511之部分之右奇異向量的第一V矩陣519'。同樣,在一些實例中,第二分解包含表示第二複數個球諧係數之部分之右奇異向量的第二V矩陣519'。
內插單元550可基於第一V矩陣519'及第二V矩陣519'對於該一或多個子訊框執行時間內插。亦即,內插單元550可基於自第一音訊訊框之第一子訊框分解的V矩陣519'及自第二音訊訊框之第一子訊框分解的V矩陣519'在時間上內插(例如)來自第一音訊訊框之一共四個子訊框的第二、第三及第四子訊框。在一些實例中,此時間內插為線性時間內插,其中當內插第一音訊訊框之第二子訊框時自第一音訊訊框之第一子訊框分解的V矩陣519'比當內插第一音訊訊框之第四子訊框時用較大權重加權。當內插第三子訊框時,可均勻地對V矩陣519'加權。當內插第四子訊框時,自第二音訊訊框之第一子訊框分解的V矩陣519'可比自第一音訊訊框之第一子訊框分解的V矩陣519'用較大權重加權。
換言之,給定待內插的第一音訊訊框之子訊框中之一者的接近性,線性時間內插可對V矩陣519'加權。對於待內插之第二子訊框,給定第一音訊訊框之第一子訊框至待內插之第二子訊框的接近性,自第一音訊訊框之第一子訊框分解的V矩陣519'比自第二音訊訊框之第一子訊框分解的V矩陣519'用較大權重加權。出於此原因,當基於V矩
陣519'內插第三子訊框時,權重可等效。應用於自第二音訊訊框之第一子訊框分解的V矩陣519'之權重可大於應用於自第一音訊訊框之第一子訊框分解的V矩陣519'之權重,假定待內插之第四子訊框與接近第一音訊訊框之第一子訊框相比更接近第二音訊訊框之第一子訊框。
儘管在一些實例中,僅使用每一音訊訊框之第一子訊框執行內插,但第一複數個球諧係數之部分可包含第一複數個球諧係數511之四個子訊框中的兩個。在此等及其他實例中,第二複數個球諧係數511之部分包含第二複數個球諧係數511之四個子訊框中的兩個。
如上文所指出,單一器件(例如,音訊編碼器件510H)可在亦分解第一複數個球諧係數之部分的同時執行內插以產生第一複數個球諧係數之部分的第一分解。在此等及其他實例中,分解單元518可分解第二複數個球諧係數之部分以產生第二複數個球諧係數之部分的第二分解。雖然關於單一器件描述,但兩個或兩個以上器件可執行本發明中所描述之技術,其中兩個器件中之一者執行分解且該等器件中之另一者執行內插(根據本發明中所描述之技術)。
換言之,就球面上之正交基底函數而言,基於球諧之3D音訊可為3D壓力場之參數表示。該表示之階數N愈高,則空間解析度潛在地愈高,且常常球諧(SH)係數之數目愈大(對於一共(N+1)2個係數)。對於許多應用,可能需要係數之頻寬壓縮能夠有效率地傳輸且儲存係數。在本發明中所針對之此技術可提供使用奇異值分解(SVD)的基於訊框之維度減少過程。SVD分析可將係數之每一訊框分解成三個矩陣U、S及V。在一些實例中,該等技術可將U中的向量中之一些作為基礎音場之方向分量處置。然而,當以此方式處置時,此等向量(在U中)在訊框間係不連續的--即使其表示同一獨特音訊分量。當經由變換音訊寫碼器饋入該等分量時,此等不連續性可導致顯著偽訊。
本發明中所描述之技術可解決此不連續性。亦即,該等技術可
基於可將V矩陣解譯為球諧域中之正交空間軸線之觀測。U矩陣可表示球諧(HOA)資料根據彼等基底函數之投影,其中不連續性可係歸因於基底函數(V),該等基底函數(V)每一訊框皆改變且因此自身為不連續的。此不同於諸如傅立葉變換之類似分解,其中基底函數在一些實例中在訊框間恆定。在此等術語中,SVD可認為係匹配追求演算法。本發明中所描述之技術可使內插單元550能夠藉由在其間進行內插而在訊框間維持基底函數(V)之間的連續性。
在一些實例中,該等技術使內插單元550能夠將SH資料之訊框分成四個子訊框,如上所述且以下關於圖45及圖45B進一步描述。內插單元550可接著計算第一子訊框之SVD。類似地,吾人計算第二訊框之第一子訊框的SVD。對於第一訊框及第二訊框中之每一者,內插單元550可藉由將向量投影至球面上(使用諸如T設計矩陣之投影矩陣)將V中之向量轉換至空間映射。內插單元550可接著將V中之向量解譯為球面上之形狀。為了在第一訊框之第一子訊框與下一個訊框之第一子訊框之間內插三個子訊框之V矩陣,內插單元550可接著內插此等空間形狀,且接著經由投影矩陣之逆將其變換回至SH向量。以此方式,本發明之技術可提供V矩陣之間的平穩轉變。
以此方式,音訊編碼器件510H可經組態以執行以下關於以下條項闡明的技術之各種態樣。
條項135054-1A。一種器件,諸如音訊編碼器件510H,其包含:一或多個處理器,該一或多個處理器經組態以自包括於第一訊框中的第一複數個球諧係數之一部分之第一分解及包括於第二訊框中的第二複數個球諧係數之一部分之第二分解內插第一音訊訊框之一或多個子訊框以產生用於該一或多個子訊框的經分解之經內插球諧係數。
條項135054-2A。如條項135054-1A之器件,其中該第一分解包含表示第一複數個球諧係數之該部分之右奇異向量的第一V矩陣。
條項135054-3A。如條項135054-1A之器件,其中該第二分解包含表示第二複數個球諧係數之該部分之右奇異向量的第二V矩陣。
條項135054-4A。如條項135054-1A之器件,其中第一分解包含表示第一複數個球諧係數之部分之右奇異向量的第一V矩陣,且其中第二分解包含表示第二複數個球諧係數之部分之右奇異向量的第二V矩陣。
條項135054-5A。如條項135054-1A之器件,其中該一或多個處理器經進一步組態以當內插一或多個子訊框時,基於第一分解及第二分解在時間上內插該一或多個子訊框。
條項135054-6A。如條項135054-1A之器件,其中該一或多個處理器經進一步組態以當內插一或多個子訊框時,將第一分解投影至空間域內以產生第一經投影分解,將第二分解投影至空間域內以產生第二經投影分解,空間上內插第一經投影分解及第二經投影分解以產生第一經空間內插之經投影分解及第二經空間內插之經投影分解,及基於第一經空間內插之經投影分解及第二經空間內插之經投影分解時間上內插該一或多個子訊框。
條項135054-7A。如條項135054-6A之器件,其中該一或多個處理器經進一步組態以將自內插該一或多個子訊框產生的經時間內插之球諧係數投影回至球諧域。
條項135054-8A。如條項135054-1A之器件,其中該第一複數個球諧係數之該部分包含第一複數個球諧係數之單一子訊框。
條項135054-9A。如條項135054-1A之器件,其中該第二複數個球諧係數之該部分包含第二複數個球諧係數之單一子訊框。
條項135054-10A。如條項135054-1A之器件,其中該第一訊框經分成四個子訊框,且其中該第一複數個球諧係數之該部分僅包含該第一複數個球諧
係數之該第一子訊框。
條項135054-11A。如條項135054-1A之器件,其中該第二訊框經分成四個子訊框,且其中該第二複數個球諧係數之該部分僅包含該第二複數個球諧係數之該第一子訊框。
條項135054-12A。如條項135054-1A之器件,其中該第一複數個球諧係數之該部分包含第一複數個球諧係數之四個子訊框中的兩個。
條項135054-13A。如條項135054-1A之器件,其中該第二複數個球諧係數之該部分包含第二複數個球諧係數之四個子訊框中的兩個。
條項135054-14A。如條項135054-1A之器件,其中該一或多個處理器經進一步組態以分解該第一複數個球諧係數之該部分以產生該第一複數個球諧係數之該部分的第一分解。
條項135054-15A。如條項135054-1A之器件,其中該一或多個處理器經進一步組態以分解該第二複數個球諧係數之該部分以產生該第二複數個球諧係數之該部分的第二分解。
條項135054-16A。如條項135054-1A之器件,其中該一或多個處理器經進一步組態以對於該第一複數個球諧係數之該部分執行奇異值分解以產生表示第一複數個球諧係數之左奇異向量的U矩陣、表示第一複數個球諧係數之奇異值的S矩陣及表示第一複數個球諧係數之右奇異向量的V矩陣。
條項135054-17A。如條項135054-1A之器件,其中該一或多個處理器經進一步組態以對於第二複數個球諧係數之該部分執行奇異值分解以產生表示第二複數個球諧係數之左奇異向量的U矩陣、表示第二複數個球諧係數之奇異值的S矩陣及表示第二複數個球諧係數之右奇異向量的V矩陣。
條項135054-18A。如條項135054-1A之器件,其中該第一複數個
球諧係數及該第二複數個球諧係數各表示音場之平面波表示。
條項135054-19A。如條項135054-1A之器件,其中該第一複數個球諧係數及該第二複數個球諧係數各表示混合在一起之一或多個單聲道音訊物件。
條項135054-20A。如條項135054-1A之器件,其中該第一複數個球諧係數及該第二複數個球諧係數各包含表示三維音場之各別第一球諧係數及第二球諧係數。
條項135054-21A。如條項135054-1A之器件,其中該第一複數個球諧係數及該第二複數個球諧係數各與具有大於一之階數的至少一球面基底函數相關聯。
條項135054-22A。如條項135054-1A之器件,其中該第一複數個球諧係數及該第二複數個球諧係數各與具有等於四之階數的至少一球面基底函數相關聯。
儘管以上描述為由音訊編碼器件510H執行,但各種音訊解碼器件24及540亦可執行以上關於條項135054-1A至135054-22A闡明的技術之各種態樣中之任一者。
圖40I為說明可執行本發明中所描述之技術的各種態樣以壓縮描述二維或三維音場之球諧係數的實例音訊編碼器件510I之方塊圖。音訊編碼器件510I可類似於音訊編碼器件510H,其中音訊編碼器件510I包括音訊壓縮單元512、音訊編碼單元514及位元串流產生單元516。此外,音訊編碼器件510I之音訊壓縮單元512可類似於音訊編碼器件510H之音訊壓縮單元,其中音訊壓縮單元512包括分解單元518及音場分量提取單元520,該等單元可類似於音訊編碼器件510H之同樣單元操作。在一些實例中,音訊編碼器件10I可包括量化單元34(如關於圖3D至圖3E所描述)以量化UDIST 25C、UBG 25D、VT DIST 25E及VT BG 25J中之任一者的一或多個向量。
然而,雖然音訊編碼器件510I之音訊壓縮512及音訊編碼器件10H之音訊壓縮單元512皆包括音場分量提取單元,但音訊編碼器件510I之音場分量提取單元520I可包括被稱作V壓縮單元552之額外模組。V壓縮單元552可表示經組態以壓縮音場之空間分量(亦即,在此實例中為VT DIST向量539中之一或多者)的單元。亦即,對於SHC執行之奇異值分解可將SHC(其表示音場)分解成由S矩陣之向量表示之能量分量、由U矩陣表示之時間分量及由V矩陣表示之空間分量。V壓縮單元552可執行類似於以上關於量化單元52所描述之操作的操作。
出於實例之目的,假定VT DIST向量539包含各具有25個元素之兩個列向量(其暗示音場之四階HOA表示)。儘管關於兩個列向量來描述,但任何數目個向量可包括於VT DIST向量539中,至多為(n+1)2個,其中n表示音場之HOA表示的階數。
V壓縮單元552可接收向量539,且執行壓縮方案以產生經壓縮之VT DIST向量表示539'。此壓縮方案通常可涉及用於向量或資料之壓縮元素的任何可設想壓縮方案,且不應限於以下更詳細描述之實例。
作為一實例,V壓縮單元552可執行包括下列中之一或多者的壓縮方案:將VT DIST向量539之每一元素的浮點表示變換至VT DIST向量539之每一元素的整數表示、VT DIST向量539之整數表示的均勻量化及VT DIST向量539之經量化整數表示的分類及寫碼。此壓縮方案之一或多個過程中的各者可由參數動態控制以達成或幾乎達成(作為一個實例)針對所得位元串流517之目標位元率。
假定VT DIST向量539中之每一者相互正交,則VT DIST向量539中之每一者可獨立地寫碼。在一些實例中,如下文更詳細地所描述,可使用同一寫碼模式(由各種子模式定義)寫碼每一VT DIST向量539之每一元素。
在任何情況下,如上文所指出,此寫碼方案可首先涉及將VT DIST
向量539中的每一者之每一元素之浮點表示(其在一些實例中為32位元浮點數目)變換為16位元整數表示。V壓縮單元552可藉由將VT DIST向量539中之給定者的每一元素乘以215(在一些實例中,其係藉由右移15而執行)來執行此浮點至整數變換。
V壓縮單元552可接著對於VT DIST向量539中之該給定者的所有元素執行均勻量化。V壓縮單元552可基於可表示為nbits參數之值而識別量化步長。V壓縮單元552可基於目標位元率動態判定此nbits參數。V壓縮單元552可判定作為此nbits參數之函數的量化步長。作為一個實例,V壓縮單元552可將量化步長(在本發明中表示為「差量」或「△」)判定為等於216-nbits。在此實例中,若nbits等於六,則差量等於210,且存在26個量化層級。就此而言,對於向量元素v,經量化向量元素v q 等於[v/△],且-2nbits-1<vq<2nbits-1。
V壓縮單元552可接著執行經量化向量元素之分類及殘差寫碼。作為一個實例,V壓縮單元552可使用以下方程式對於一給定經量化向量元素v q 識別此元素所對應的類別(藉由判定類別識別符cid):
V壓縮單元552可接著對此類別索引cid進行霍夫曼寫碼,同時亦識別指示v q 為正值還是負值之正負號位元。V壓縮單元552接下來可識別此類別中之殘差。作為一個實例,V壓縮單元552可根據以下方程式判定此殘差:殘差=|v q |-2 cid-1
V壓縮單元552可接著用cid-1個位元對此殘差進行區塊寫碼。
以下實例說明此分類及殘差寫碼過程之簡化實例過程。首先,假定nbits等於六以使得vq [-31,31]。接下來,假定以下:
又,假定以下:
因而,對於v q =[6,-17,0,0,3],可判定以下:
»cid=3、5、0、0、2
»正負號=1、0、x、x、1
»列差=2、1、x、x、1
»6之位元=「0010」+「1」+「10」
»-17之位元=「00111」+「0」+「0001」
»0之位元=「0」
»0之位元=「0」
»3之位元=「000」+「1」+「1」
»全部位元=7+10+1+1+5=24
»平均位元=24/5=4.8
雖然未展示於先前簡化實例中,但V壓縮單元552可在對cid進行
寫碼時針對nbits之不同值選擇不同霍夫曼碼簿。在一些實例中,V壓縮單元552可提供針對nbits值6、……、15的不同霍夫曼寫碼表。此外,V壓縮單元552可包括用於範圍自6、……、15之不同nbits值中之每一者的五個不同霍夫曼碼簿,一共50個霍夫曼碼簿。就此而言V壓縮單元552可包括複數個不同霍夫曼碼簿以容納在許多不同統計內容脈絡中的cid之寫碼。
為了說明,V壓縮單元552可針對nbits值中之每一者包括用於寫碼向量元素一至四之第一霍夫曼碼簿、用於寫碼向量元素五至九之第二霍夫曼碼簿、用於寫碼向量元素九及以上之第三霍夫曼碼簿。當待壓縮的VT DIST向量539中之一者未自VT DIST向量539中之時間上在後的對應者預測且不表示合成音訊物件(例如,原先由脈碼調變(PCM)之音訊物件定義的合成音訊物件)之空間資訊時,可使用此等前三個霍夫曼碼簿。對於nbits值中之每一者,V壓縮單元552可另外包括第四霍夫曼碼簿,其用於當VT DIST向量539中之一者係自VT DIST向量539之時間上在後的對應者預測時寫碼VT DIST向量539中之此者。對於nbits值中之每一者,V壓縮單元552亦可包括第五霍夫曼碼簿,其用於當VT DIST向量539中之一者表示合成音訊物件時寫碼VT DIST向量539中之此者。可針對此等不同統計內容脈絡(亦即,在此實例中,未預測及非合成內容脈絡、經預測之內容脈絡及合成內容脈絡)中之每一者開發各種霍夫曼碼簿。
下表說明霍夫曼表選擇及待在位元串流中指定以使解壓縮單元能夠選擇適當霍夫曼表之位元:
在前表中,預測模式(「Pred模式」)指示是否針對當前向量執行了預測,而霍夫曼表(「HT資訊」)指示用以選擇霍夫曼表一至五中之一者的額外霍夫曼碼簿(或表)資訊。
下表進一步說明此霍夫曼表選擇過程(給定各種統計內容脈絡或情形)。
在前表中,「記錄」欄指示向量表示所記錄之音訊物件時的寫碼內容脈絡,而「合成」欄指示向量表示合成音訊物件時的寫碼內容脈絡。「無預測」列指示不對於向量元素執行預測時的寫碼內容脈絡,而「有預測」列指示對於向量元素執行預測時的寫碼內容脈絡。如此表中所示,V壓縮單元552在向量表示所記錄音訊物件且不對於向量元素執行預測時選擇HT{1,2,3}。V壓縮單元552在音訊物件表示合成音訊物件且不對於向量元素執行預測時選擇HT5。V壓縮單元552在向量表示所記錄音訊物件且對於向量元素執行預測時選擇HT4。V壓縮單元552在音訊物件表示合成音訊物件且對於向量元素執行預測時選擇HT5。
以此方式,該等技術可使音訊壓縮器件能夠壓縮音場之空間分量,其中空間分量係藉由對於複數個球諧係數執行基於向量之合成而產生。
圖43為更詳細地說明圖40I中所示的V壓縮單元552之圖。在圖43之實例中,V壓縮單元552包括均勻量化單元600、nbits單元602、預測單元604、預測模式單元606(「Pred Mode Unit 606」)、類別及殘差寫碼單元608及霍夫曼表選擇單元610。均勻量化單元600表示經組態以執行以上關於在圖43之實例中表示為v的空間分量中之一者(其可表示VT DIST向量539中之任一者)所描述之均勻量化的單元。nbits單元602表示經組態以判定nbits參數或值之單元。
預測單元604表示經組態以對於在圖43之實例中表示為v q 的經量化之空間分量執行預測的單元。預測單元604可藉由執行將VT DIST向量539之當前者逐個元素減去VT DIST向量539之時間上在後的對應者來執行預測。此預測之結果可被稱作預測空間分量。
預測模式單元606可表示經組態以選擇預測模式之單元。霍夫曼表選擇單元610可表示經組態以選擇適當霍夫曼表用於cid之寫碼的單元。作為一個實例,預測模式單元606及霍夫曼表選擇單元610可根據以下偽碼操作:對於給定nbits,擷取具有nbits之所有霍夫曼表
B00=0;B01=0;B10=0;B11=0;//初始化以計算每個寫碼模式之預期位元
for m=1:(#向量中之元素)
//計算用於一向量元素v(m)的位元之預期數目
//無預測且使用霍夫曼表5
B00=B00+calculate_bits(v(m),HT5);
//無預測且使用霍夫曼表{1,2,3}
B01=B01+calculate_bits(v(m),HTq);q in{1,2,3}
//計算用於預測殘差e(m)的位元之預期數目
e(m)=v(m)-vp(m);//vp(m):前一訊框向量元素
//具有預測且使用霍夫曼表4
B10=B10+calculate_bits(e(m),HT4);
//具有預測且使用霍夫曼表5
B11=B11+calculate_bits(e(m),HT5);
end
//尋找產生最小位元的最佳預測模式及霍夫曼表
//最佳預測模式及霍夫曼表分別由pflag及Htflag旗標表示
[Be,id]=min([B00 B01 B10 B11]);Switch id case 1:pflag=0;HTflag=0;case 2:pflag=0;HTflag=1;case 3:pflag=1;HTflag=0;case 4:pflag=1;HTflag=1;end
類別及殘差寫碼單元608可表示經組態以按以上更詳細地描述之方式執行經預測之空間分量或經量化之空間分量(當預測停用時)的分類及殘差寫碼之單元。
如圖43之實例中所示,V壓縮單元552可輸出各種參數或值用於包括於位元串流517或旁側資訊(其可自身為與位元串流517分開之位元串流)中。假定在位元串流517中指定該資訊,則V壓縮單元552可將nbits值、預測模式及霍夫曼表資訊連同空間分量(在圖40I之實例中,展示為經壓縮之空間分量539')之經壓縮版本輸出至位元串流產生單元516,在此實例中,空間分量可指經選擇以編碼cid之霍夫曼碼、正負號位元及經區塊寫碼之殘差。可針對所有VT DIST向量539在位元串流517中指定nbits值一次,但可針對向量539中之每一者指定預測模式及霍夫曼表資訊。指定空間分量之經壓縮版本的位元串流之部分展示於
圖10B及圖10C之實例中。
以此方式,音訊編碼器件510H可執行以下關於下列條項闡明的技術之各種態樣。
條項141541-1A。一種器件,諸如音訊編碼器件510H,其包含:一或多個處理器,該一或多個處理器經組態以獲得包含音場之空間分量之經壓縮版本的位元串流,該空間分量係藉由對於複數個球諧係數執行基於向量之合成而產生。
條項141541-2A。如條項141541-1A之器件,其中空間分量之經壓縮版本係至少部分使用指定當壓縮空間分量時使用之預測模式的欄位表示於位元串流中。
條項141541-3A。如條項141541-1A及條項141541-2A之任何組合之器件,其中空間分量之經壓縮版本係至少部分使用指定當壓縮空間分量時使用之霍夫曼表的霍夫曼表資訊表示於位元串流中。
條項141541-4A。如條項141541-1A至條項141541-3A之任何組合之器件,其中空間分量之經壓縮版本係至少部分使用指示表達當壓縮空間分量時使用之量化步長或其變數的值之一欄位表示於該位元串流中。
條項141541-5A。如條項141541-4A之器件,其中該值包含一nbits值。
條項141541-6A。如條項141541-4A及條項141541-5A之任何組合之器件,其中位元串流包含音場(包括其空間分量之經壓縮版本)的複數個空間分量之經壓縮版本,且其中該值表達當壓縮複數個空間分量時使用的量化步長或其變數。
條項141541-7A。如條項141541-1A至條項141541-6A之任何組合之器件,其中空間分量之經壓縮版本係至少部分使用霍夫曼碼以表示識別空間分量對應於的壓縮類別之類別識別符來表示於位元串流中。
條項141541-8A。如條項141541-1A至條項141541-7A之任何組合之器件,其中空間分量之經壓縮版本係至少部分使用識別空間分量為正值或是負值的正負號位元表示於位元串流中。
條項141541-9A。如條項141541-1A至條項141541-8A之任何組合之器件,其中空間分量之經壓縮版本係至少部分使用霍夫曼碼以表示空間分量之殘餘值來表示於位元串流中。
條項141541-10A。如條項141541-1A至條項141541-9A之任何組合之器件,其中該器件包含音訊編碼器件及位元串流產生器件。
條項141541-12A。如條項141541-1A至條項141541-11A之任何組合之器件,其中基於向量之合成包含奇異值分解。
雖然描述為由音訊編碼器件510H執行,但該等技術亦可由音訊解碼器件24及/或540中之任一者執行。
以此方式,音訊編碼器件510H可另外執行以下關於下列條項闡明的技術之各種態樣。
條項141541-1D。一種器件,諸如音訊編碼器件510H,其包含:一或多個處理器,該一或多個處理器經組態以產生包含音場之空間分量之經壓縮版本的位元串流,該空間分量係藉由對於複數個球諧係數執行基於向量之合成而產生。
條項141541-2D。如條項141541-1D之器件,其中該一或多個處理器經進一步組態以當產生位元串流時產生包括指定當壓縮空間分量時使用之預測模式的欄位之位元串流。
條項141541-3D。如條項141541-1D及條項141541-2D之任何組合之器件,其中該一或多個處理器經進一步組態以當產生位元串流時,產生包括指定當壓縮空間分量時使用之霍夫曼表的霍夫曼表資訊之位元串流。
條項141541-4D。如條項141541-1D至條項141541-3D之任何組合
之器件,其中該一或多個處理器經進一步組態以當產生位元串流時,產生包括指示表達當壓縮空間分量時使用之量化步長或其變數的值之欄位之位元串流。
條項141541-5D。如條項141541-4D之器件,其中該值包含一nbits值。
條項141541-6。如條項141541-4D及條項141541-5D之任何組合之器件,其中該一或多個處理器經進一步組態以當產生位元串流時,產生包括音場(包括其空間分量之經壓縮版本)的複數個空間分量之經壓縮版本,且其中該值表達當壓縮複數個空間分量時使用的量化步長或其變數。
條項141541-7D。如條項141541-1D至條項141541-6D之任何組合之器件,其中該一或多個處理器經進一步組態以當產生位元串流時,產生包括表示識別空間分量對應於的壓縮類別之類別識別符之霍夫曼碼之位元串流。
條項141541-8D。如條項141541-1D至條項141541-7D之任何組合之器件,其中該一或多個處理器經進一步組態以當產生位元串流時,產生包括識別空間分量為正值或是負值的正負號位元之位元串流。
條項141541-9D。如條項141541-1D至條項141541-8D之任何組合之器件,其中該一或多個處理器經進一步組態以當產生位元串流時,產生包括表示空間分量之殘餘值的霍夫曼碼之位元串流。
條項141541-10D。如條項141541-1D至條項141541-10D之任何組合之器件,其中基於向量之合成包含奇異值分解。
音訊編碼器件510H可進一步經組態以實施如在下列條項中闡明的技術之各種態樣。
條項141541-1E。一種器件,諸如音訊編碼器件510H,其包含:一或多個處理器,該一或多個處理器經組態以壓縮一音場之一空間分
量,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生。
條項141541-2E。如條項141541-1E之器件,其中該一或多個處理器經進一步組態以當壓縮空間分量時,將空間分量自浮點表示轉換至整數表示。
條項141541-3E。如條項141541-1E及條項141541-2E之任何組合之器件,其中該一或多個處理器經進一步組態以當壓縮空間分量時,動態判定指示量化步長之值,且基於該值量化空間分量以產生一經量化之空間分量。
條項141541-4E。如請求項1E-3E之任何組合之器件,其中該一或多個處理器經進一步組態以當壓縮空間分量時,識別空間分量對應於之類別。
條項141541-5E。如條項141541-1E及條項141541-4E之任何組合之器件,其中該一或多個處理器經進一步組態以當壓縮空間分量時,識別該空間分量之殘餘值。
條項141541-6E。如條項141541-1E及條項141541-5E之任何組合之器件,其中該一或多個處理器經進一步組態以當壓縮空間分量時,對於空間分量及後續空間分量執行預測以產生經預測之空間分量。
條項141541-7E。如請求項141541-1E之任何組合之器件,其中該一或多個處理器經進一步組態以當壓縮空間分量時,將空間分量自浮點表示轉換至整數表示,動態判定指示量化步長之值,且基於該值量化空間分量之整數表示以產生一經量化之空間分量,基於經量化之空間分量識別該空間分量對應於的類別以產生一類別識別符,判定該空間分量之正負號,基於經量化之空間分量及類別識別符識別該空間分量之殘餘值,及基於類別識別符、正負號及殘餘值產生空間分量之經壓縮版本。
條項141541-8E。如請求項141541-1E之任何組合之器件,其中該一或多個處理器經進一步組態以當壓縮空間分量時,將空間分量自浮點表示轉換至整數表示,動態判定指示量化步長之值,且基於該值量化空間分量之整數表示以產生一經量化之空間分量,對於空間分量及後續空間分量執行預測以產生經預測之空間分量,基於經量化之空間分量識別該經預測之空間分量對應於的類別以產生一類別識別符,判定該空間分量之正負號,基於經量化之空間分量及類別識別符識別該空間分量之殘餘值,及基於類別識別符、正負號及殘餘值產生空間分量之經壓縮版本。
條項141541-9E。如條項141541-1E至條項141541-8E之任何組合之器件,其中基於向量之合成包含奇異值分解。
該等技術之各種態樣可此外使音訊編碼器件510H能夠經組態以如在下列條項中所闡明而操作。
條項141541-1F。一種器件,諸如音訊編碼器件510H,其包含:一或多個處理器,該一或多個處理器經組態以基於複數個空間分量中當前空間分量相對於該複數個空間分量中之其餘者的一階數識別一霍夫曼碼簿以當壓縮該當前空間分量時使用,該空間分量係藉由對於複數個球諧係數執行一基於向量之合成而產生。
條項141541-2F。如條項141541-3F之器件,其中該一或多個處理器經進一步組態以執行條項141541-1A至條項141541-12A、條項141541-1B至條項141541-10B及條項141541-1C至條項141541-9C中敍述的步驟之任何組合。
該等技術之各種態樣可此外使音訊編碼器件510H能夠經組態以如在下列條項中所闡明而操作。
條項141541-1H。一種器件,諸如音訊編碼器件510H,其包含:一或多個處理器,該一或多個處理器經組態以判定待在壓縮音場之空
間分量時使用之量化步長,該空間分量係藉由對於複數個球諧係數執行基於向量之合成而產生。
條項141541-2H。如條項141541-1H之器件,該一或多個處理器經進一步組態以當判定量化步長時,基於目標位元率判定量化步長。
條項141541-3H。如條項141541-1H之器件,其中該一或多個處理器經進一步組態以當選擇複數個量化步長中之一者時,判定用以表示空間分量的位元之數目之估計,及基於估計與目標位元率之間的差判定量化步長。
條項141541-4H。如條項141541-1H之器件,其中該一或多個處理器經進一步組態以當選擇複數個量化步長中之一者時,判定用以表示空間分量的位元之數目之估計,判定估計與目標位元率之間的差,及藉由將差與目標位元率相加來判定量化步長。
條項141541-5H。如條項141541-3H或條項141541-4H之器件,其中該一或多個處理器經進一步組態以當判定位元之數目之估計時,計算待針對空間分量產生的位元之數目之估計(給定對應於目標位元率之碼簿)。
條項141541-6H。如條項141541-3H或條項141541-4H之器件,其中該一或多個處理器經進一步組態以當判定位元之數目之估計時,計算待針對空間分量產生的位元之數目之估計(給定當壓縮空間分量時使用之寫碼模式)。
條項141541-7H。如條項141541-3H或條項141541-4H之器件,其中該一或多個處理器經進一步組態以當判定位元之數目之估計時,計算待針對空間分量產生的位元之數目之第一估計(給定待在壓縮空間分量時使用之第一寫碼模式),計算待針對空間分量產生的位元之數目之第二估計(給定待在壓縮空間分量時使用之第二寫碼模式),選擇第一估計及第二估計中具有待用作位元之數目之經判定估計的最小位
元數目之一者。
條項141541-8H。如條項141541-3H或條項141541-4H之器件,其中該一或多個處理器經進一步組態以當判定位元之數目之估計時,識別識別空間分量對應於之類別的類別識別符,識別當壓縮對應於類別之空間分量時將產生的用於空間分量之殘餘值之位元長度,及藉由至少部分將用以表示類別識別符的位元之數目與殘餘值之位元長度相加來判定位元之數目之估計。
條項141541-9H。如條項141541-1H至條項141541-8H之任何組合之器件,其中該基於向量之合成包含奇異值分解。
儘管描述為由音訊編碼器件510H執行,但以上條項條項141541-1H至條項141541-9H中闡明之該等技術亦可由音訊解碼器件540D執行。
另外,該等技術之各種態樣可使音訊編碼器件510H能夠經組態以如在下列條項中所闡明而操作。
條項141541-1J。一種器件,諸如音訊編碼器件510J,其包含:一或多個處理器,該一或多個處理器經組態以選擇待在壓縮音場之空間分量時使用的複數個碼簿中之一者,該空間分量係藉由對於複數個球諧係數執行基於向量之合成而產生。
條項141541-2J。如條項141541-1J之器件,其中該一或多個處理器經進一步組態以當選擇複數個碼簿中之一者時,使用複數個碼簿中之每一者判定用以表示空間分量的位元之數目之估計,及選擇複數個碼簿中導致具有最小位元數目之經判定之估計的一者。
條項141541-3J。如條項141541-1J之器件,其中該一或多個處理器經進一步組態以當選擇複數個碼簿中之一者時,使用複數個碼簿中之一或多者判定用以表示空間分量的位元之數目之估計,該複數個碼簿之該一或多者係基於待壓縮之空間分量之元素相對於空間分量之其
他元素的階數而選擇。
條項141541-4J。如條項141541-1J之器件,其中該一或多個處理器經進一步組態以當選擇複數個碼簿中之一者時,使用經設計以當不自後續空間分量預測該空間分量時使用的複數個碼簿中之一者判定用以表示空間分量的位元之數目之估計。
條項141541-5J。如條項141541-1J之器件,其中該一或多個處理器經進一步組態以當選擇複數個碼簿中之一者時,使用經設計以當自後續空間分量預測該空間分量時使用的複數個碼簿中之一者判定用以表示空間分量的位元之數目之估計。
條項141541-6J。如條項141541-1J之器件,其中該一或多個處理器經進一步組態以當選擇複數個碼簿中之一者時,使用經設計以當空間分量表示音場中之合成音訊物件時使用的複數個碼簿中之一者判定用以表示空間分量的位元之數目之估計。
條項141541-7J。如條項141541-1J之器件,其中該合成音訊物件包含一經脈碼調變(PCM)之音訊物件。
條項141541-8J。如條項141541-1J之器件,其中該一或多個處理器經進一步組態以當選擇複數個碼簿中之一者時,使用經設計以當空間分量表示音場中之經記錄音訊物件時使用的複數個碼簿中之一者判定用以表示空間分量的位元之數目之估計。
條項141541-9J。如請求項1J至8J之任何組合之器件,其中該基於向量之合成包含奇異值分解。
在上文所描述的各種情況中的每一者中,應理解,音訊編碼器件510可執行方法或另外包含用以執行音訊編碼器件510經組態以執行的方法之每一步驟的構件。在一些情況下,此等構件可包含一或多個處理器。在一些情況下,該一或多個處理器可表示藉助於儲存至非暫時性電腦可讀儲存媒體之指令組態之專用處理器。換言之,編碼實例
之集合中的每一者中的技術之各種態樣可提供其上儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在執行時使得一或多個處理器執行音訊編碼器件510已經組態以執行之方法。
圖40J為說明可執行本發明中所描述之技術的各種態樣以壓縮描述二維或三維音場之球諧係數的實例音訊編碼器件510J之方塊圖。音訊編碼器件510J可類似於音訊編碼器件510G,其中音訊編碼器件510J包括音訊壓縮單元512、音訊編碼單元514及位元串流產生單元516。此外,音訊編碼器件510J之音訊壓縮單元512可類似於音訊編碼器件510G之音訊壓縮單元,其中音訊壓縮單元512包括分解單元518及音場分量提取單元520,該等單元可類似於音訊編碼器件510I之同樣單元操作。在一些實例中,音訊編碼器件510J可包括量化單元534(如關於圖40D至圖40E所描述)以量化UDIST向量525C、UBG向量525D、VT DIST向量525E及VT BG向量525J中之任一者中的一或多個向量。
然而,音訊編碼器件510J之音訊壓縮單元512可不同於音訊編碼器件510G之音訊壓縮單元512,其不同之處在於,音訊編碼器件510J之音訊壓縮單元512包括表示為內插單元550之額外單元。內插單元550可表示自第一音訊訊框之子訊框及第二時間上在後或在前的音訊訊框內插第一音訊訊框之子訊框,如以下關於圖45及圖45B更詳細地描述。內插單元550可在執行此內插過程中藉由潛在地減小需要分解單元518分解SHC 511之程度來降低計算複雜度(就處理循環及/或記憶體消耗而言)。內插單元550可按類似於以上關於在圖40H及圖40I之實例中展示的音訊編碼器件510H及510I之內插單元550描述的方式之方式操作。
在操作中,內插單元200可自包括於第一訊框中的第一複數個球諧係數11之一部分之第一分解(例如,V矩陣19')及包括於第二訊框中
的第二複數個球諧係數11之一部分之第二分解(例如,V矩陣19')內插第一音訊訊框之一或多個子訊框以產生用於該一或多個子訊框的經分解之經內插球諧係數。
內插單元550可至少部分地藉由對於第一複數個球諧係數之第一分解及第二複數個球諧係數之第二分解執行內插而獲得用於時間區段之經分解之經內插球諧係數。平滑化單元554可應用經分解之經內插球諧係數以使第一複數個球諧係數及第二複數個球諧係數之空間分量及時間分量中之至少一者平滑化。平滑化單元554可產生經平滑化之UDIST矩陣525C',如上關於圖37至圖39所描述。第一分解及第二分解可參照圖40J中之V1 T 556、V2 T 556B。
在一些情況下,VT或其他V向量或V矩陣可以經量化之版本輸出以用於內插。以此方式,用於內插之V向量可與解碼器處之V向量相同,解碼器亦可執行V向量內插,例如,以恢復多維信號。
在一些實例中,第一分解包含表示第一複數個球諧係數511之部分之右奇異向量的第一V矩陣519'。同樣,在一些實例中,第二分解包含表示第二複數個球諧係數之部分之右奇異向量的第二V矩陣519'。
內插單元550可基於第一V矩陣519'及第二V矩陣19'對於該一或多個子訊框執行時間內插。亦即,內插單元550可基於自第一音訊訊框之第一子訊框分解的V矩陣519'及自第二音訊訊框之第一子訊框分解的V矩陣519'在時間上內插(例如)來自第一音訊訊框之一共四個子訊框的第二、第三及第四子訊框。在一些實例中,此時間內插為線性時間內插,其中當內插第一音訊訊框之第二子訊框時自第一音訊訊框之第一子訊框分解的V矩陣519'比當內插第一音訊訊框之第四子訊框時用較大權重加權。當內插第三子訊框時,可均勻地對V矩陣519'加權。當內插第四子訊框時,自第二音訊訊框之第一子訊框分解的V矩
陣519'可比自第一音訊訊框之第一子訊框分解的V矩陣519'用較大權重加權。
換言之,給定待內插的第一音訊訊框之子訊框中之一者的接近性,線性時間內插可對V矩陣519'加權。對於待內插之第二子訊框,給定自第一音訊訊框之第一子訊框分解的V矩陣519'與待內插之第二子訊框的接近性,可對該V矩陣519'比對自第二音訊訊框之第一子訊框分解的V矩陣519'用較大權重加權。出於此原因,當基於V矩陣519'內插第三子訊框時,權重可等效。倘若待內插之第四子訊框與接近第一音訊訊框之第一子訊框相比更接近第二音訊訊框之第一子訊框,則應用於自第二音訊訊框之第一子訊框分解的V矩陣519'之權重可大於應用於自第一音訊訊框之第一子訊框分解的V矩陣519'之權重。
在一些實例中,內插單元550可將自第一音訊訊框之第一子訊框分解的第一V矩陣519'投影至空間域以產生第一經投影之分解。在一些實例中,此投影包括至球面之投影(例如,使用投影矩陣,諸如,T設計矩陣)。內插單元550可接著將自第二音訊訊框之第一子訊框分解的第二V矩陣519'投影至所產生的第二經投影之分解。內插單元550可接著空間內插(其再次可為線性內插)第一經投影之分解及第二經投影之分解以產生第一空間內插的經投影之分解及第二空間內插的經投影之分解。內插單元550可接著基於第一空間內插的經投影之分解及第二空間內插的經投影之分解在時間上內插該一或多個子訊框。
在內插單元550空間且接著時間投影V矩陣519'之彼等實例中,內插單元550可將自內插該一或多個子訊框產生的經時間內插之球諧係數投影回至球諧域,藉此產生V矩陣519、S矩陣519B及U矩陣519C。
在一些實例中,第一複數個球諧係數之部分包含第一複數個球諧係數511之單一子訊框。在一些實例中,第二複數個球諧係數之部分包含第二複數個球諧係數511之單一子訊框。在一些實例中V矩陣
19'分解自的單一子訊框為第一子訊框。
在一些實例中,第一訊框經分成四個子訊框。在此等及其他實例中,第一複數個球諧係數之部分僅包含複數個球諧係數511之第一子訊框。在此等及其他實例中,第二訊框經分成四個子訊框,且第二複數個球諧係數511之部分僅包含第二複數個球諧係數511之第一子訊框。
儘管在一些實例中,僅使用每一音訊訊框之第一子訊框執行內插,但第一複數個球諧係數之部分可包含第一複數個球諧係數511之四個子訊框中的兩個。在此等及其他實例中,第二複數個球諧係數511之部分包含第二複數個球諧係數511之四個子訊框中的兩個。
如上文所指出,單一器件(例如,音訊編碼器件510J)可在亦分解第一複數個球諧係數之部分的同時執行內插以產生第一複數個球諧係數之部分的第一分解。在此等及其他實例中,分解單元518可分解第二複數個球諧係數之部分以產生第二複數個球諧係數之部分的第二分解。雖然關於單一器件描述,但兩個或兩個以上器件可執行本發明中所描述之技術,其中兩個器件中之一者執行分解,且該等器件中之另一者根據本發明中所描述之技術執行內插。
在一些實例中,分解單元518可對於第一複數個球諧係數511之部分執行奇異值分解以產生表示第一複數個球諧係數511之右奇異向量的V矩陣519'(以及S矩陣519B'及U矩陣519C',為了易於說明之目的,其未展示)。在此等及其他實例中分解單元518可對於第二複數個球諧係數511之部分執行奇異值分解以產生表示第二複數個球諧係數511之右奇異向量的V矩陣519'(以及S矩陣519B'及U矩陣519C',為了易於說明之目的,其未展示)。
在一些實例中,如上文所指出,該第一複數個球諧係數及該第二複數個球諧係數各表示音場之平面波表示。在此等及其他實例中,
該第一複數個球諧係數及該第二複數個球諧係數511各表示混合在一起之一或多個單聲道音訊物件。
換言之,就球面上之正交基底函數而言,基於球諧之3D音訊可為3D壓力場之參數表示。該表示之階數N愈高,則空間解析度潛在地愈高,且常常球諧(SH)係數之數目愈大(對於一共(N+1)2個係數)。對於許多應用,可能需要係數之頻帶壓縮能夠有效率地傳輸且儲存係數。在本發明中所針對之此技術可提供使用奇異值分解(SVD)的基於訊框之維度減少過程。SVD分析可將係數之每一訊框分解成三個矩陣U、S及V。在一些實例中,該等技術可將U中的向量中之一些作為基礎音場之方向分量處置。然而,當以此方式處置時,此等向量(在U中)在訊框間係不連續的--即使其表示同一獨特音訊分量。當經由變換音訊寫碼器饋入該等分量時,此等不連續性可導致顯著偽訊。
本發明中所描述之技術可解決此不連續性。亦即,該等技術可基於以下觀測結果:V矩陣可解譯為球諧域中的正交空間軸。U矩陣可表示球諧(HOA)資料根據彼等基底函數之投影,其中不連續性可係歸因於基底函數(V),該等基底函數(V)改變每一訊框且因此自身為不連續的。此不同於諸如傅立葉變換之類似分解,其中基底函數在一些實例中在訊框間恆定。在此等術語中,SVD可認為係匹配追求演算法。本發明中所描述之技術可使內插單元550能夠藉由在其間進行內插而在訊框間維持基底函數(V)之間的連續性。
在一些實例中,該等技術使內插單元550能夠將SH資料之訊框分成四個子訊框,如上所述且以下關於圖45及圖45B進一步描述。內插單元550可接著計算第一子訊框之SVD。類似地,吾人計算第二訊框之第一子訊框的SVD。對於第一訊框及第二訊框中之每一者,內插單元550可藉由將向量投影至球面上(使用諸如T設計矩陣之投影矩陣)將V中之向量轉換至空間映射。內插單元550可接著將V中之向量解譯為
球面上之形狀。為了在第一訊框之第一子訊框與下一個訊框之第一子訊框之間內插三個子訊框之V矩陣,內插單元550可接著內插此等空間形狀,且接著經由投影矩陣之逆將其變換回至SH向量。以此方式,本發明之技術可提供V矩陣之間的平穩轉變。
圖41A至圖41D為各自說明可執行本發明中所描述之技術的各種態樣以對描述二維或三維音場之球諧係數進行解碼的實例音訊解碼器件540A-540D之方塊圖。音訊解碼器件540A可表示能夠解碼音訊資料之任何器件,諸如,桌上型電腦、膝上型電腦、工作站、平板電腦或板式電腦、專用音訊記錄器件、蜂巢式電話(包括所謂的「智慧型手機」)、個人媒體播放機器件、個人遊戲器件或能夠解碼音訊資料的任何其他類型之器件。
在一些實例中,音訊解碼器件540A執行與由音訊編碼器件510或510B中之任一者執行的音訊編碼過程互逆的音訊解碼過程,例外情況為,執行階數縮減(如上關於圖40B-40J之實例所描述),在一些實例中,該音訊解碼過程由音訊編碼器件510B-510J用以有助於外來不相關資料之移除。
雖然展示為單一器件(亦即,在圖41之實例中,器件540A),但以下提及為包括於器件540A內之各種組件或單元可形成在器件540A外部之分開器件。換言之,雖然在本發明中描述為由單一器件(亦即,在圖41之實例中,器件540A)執行,但該等技術可由包含多個器件之系統實施或另外執行,其中此等器件中之每一者可各包括以下更詳細地描述的各種組件或單元中之一或多者。因此,該等技術就此而言不應限於圖41之實例。
如在圖41之實例中所展示,音訊解碼器件540A包含提取單元
542、音訊解碼單元544、數學單元546及音訊轉譯單元548。提取單元542表示經組態以自位元串流517提取經編碼之縮減背景球諧係數515B、經編碼之UDIST * SDIST向量515A及VT DIST向量525E的單元。提取單元542將經編碼之縮減背景球諧係數515B及經編碼之UDIST * SDIST向量515A輸出至音訊解碼單元544,同時亦將VT DIST矩陣525E輸出至數學單元546。就此而言,提取單元542可按類似於圖5之實例中展示的音訊解碼器件24之提取單元72的方式操作。
音訊解碼單元544表示解碼經編碼之音訊資料(常根據逆音訊解碼方案,諸如,AAC解碼方案)以便恢復UDIST * SDIST向量527及經縮減背景球諧係數529的單元。音訊解碼單元544將UDIST * SDIST向量527及經縮減背景球諧係數529輸出至數學單元546。就此而言,音訊解碼單元544可按類似於在圖5之實例中展示的音訊解碼器件24之音質解碼單元80的方式操作。
數學單元546可表示經組態以執行矩陣乘法及加法(以及,在一些實例中,任何其他矩陣數學運算)之單元。數學單元546可首先執行UDIST * SDIST向量527與VT DIST矩陣525E之矩陣乘法。數學單元546可接著將UDIST * SDIST向量527與VT DIST矩陣525E與經縮減背景球諧係數529之相乘的結果(再次,其可參照UBG矩陣525D與SBG矩陣525B及接著與VT BG矩陣525F之相乘的結果)與UDIST * SDIST向量527與VT DIST矩陣525E之矩陣乘法的結果相加以產生原始球諧係數11的縮減版本(其表示為恢復之球諧係數547)。數學單元546可將恢復之球諧係數547輸出至音訊轉譯單元548。就此而言,數學單元546可按類似於在圖5之實例中展示的音訊解碼器件24之前景制訂單元78及HOA係數調製訂單元82之方式操作。
轉譯單元548表示經組態以轉譯通道549A-549N(「通道549」,其亦可大體被稱作「多通道音訊資料549」或稱作「揚聲器饋入549」)
之單元。音訊轉譯單元548可將變換(常按矩陣之形式表達)應用於恢復之球諧係數547。因為恢復之球諧係數547描述三維中之音場,所以恢復之球諧係數547表示有助於以能夠適應多數解碼器-本端揚聲器幾何形狀(其可指將播放多通道音訊資料549的揚聲器之幾何形狀)的方式轉譯多通道音訊資料549A之音訊格式。以下關於圖48描述關於多通道音訊資料549A之轉譯的更多資訊。
雖然在多通道音訊資料549A為環繞聲多通道音訊資料549之情況下描述,但音訊轉譯單元48亦可執行雙聲化之形式以使恢復之球諧係數549A雙聲化,且藉此產生兩個雙聲轉譯之通道549。因此,該等技術不應限於多通道音訊資料之環繞聲形式,而可包括雙聲化之多通道音訊資料。
以下列出之各種條項可呈現本發明中所描述之技術之各種態樣。
條項132567-1B。一種器件,諸如音訊解碼器件540,其包含:一或多個處理器,該一或多個處理器經組態以判定描述音場之獨特同分量的一或多個第一向量及描述音場之背景分量的一或多個第二向量,該一或多個第一向量及該一或多個第二向量皆係至少藉由對於複數個球諧係數執行奇異值分解而產生。
條項132567-2B。如條項132567-1B之器件,其中該一或多個第一向量包含在音訊編碼前藉由將U矩陣之一或多個經音訊編碼之UDIST向量乘以S矩陣之一或多個SDIST向量而產生的一或多個經音訊編碼之UDIST * SDIST向量,其中U矩陣及S矩陣至少藉由對於複數個球諧係數執行奇異值分解而產生,且其中該一或多個處理器經進一步組態以音訊解碼該一或多個經音訊編碼之UDIST * SDIST向量以產生該一或多個經音訊編碼之UDIST * SDIST向量的經音訊解碼之版本。
條項132567-3B。如條項132567-1B之器件,其中該一或多個第
一向量包含在音訊編碼前藉由將U矩陣之一或多個經音訊編碼之UDIST向量乘以S矩陣之一或多個SDIST向量及V矩陣之轉置之一或多個VT DIST向量而產生的一或多個經音訊編碼之UDIST * SDIST向量,其中U矩陣及S矩陣及V矩陣至少藉由對於複數個球諧係數執行奇異值分解而產生,且其中該一或多個處理器經進一步組態以音訊解碼該一或多個經音訊編碼之UDIST * SDIST向量以產生該一或多個經音訊編碼之UDIST * SDIST向量的經音訊解碼之版本。
條項132567-4B。如條項132567-3B之器件,其中該一或多個處理器經進一步組態以將UDIST * SDIST向量乘以VT DIST向量以恢復複數個球諧中表示音場之獨特分量的球諧。
條項132567-5B。如條項132567-3B之器件,其中該一或多個第二向量包含在音訊編碼前藉由將包括於U矩陣內之UBG向量乘以包括於S矩陣內之SBG向量且接著乘以包括於V矩陣之轉置內之VT BG向量而產生的一或多個經音訊編碼之UBG * SBG * VT BG向量,且其中S矩陣、U矩陣及V矩陣各至少藉由對於複數個球諧係數執行奇異值分解而產生。
條項132567-6B。如條項132567-1B之器件,其中該一或多個第二向量包含在音訊編碼前藉由將包括於U矩陣內之UBG向量乘以包括於S矩陣內之SBG向量且接著乘以包括於V矩陣之轉置內之VT BG向量而產生的一或多個經音訊編碼之UBG * SBG * VT BG向量,且其中S矩陣、U矩陣及V矩陣至少藉由對於複數個球諧係數執行奇異值分解而產生,且其中該一或多個處理器經進一步組態以音訊解碼該一或多個經音訊編碼之UBG * SBG * VT BG向量以產生一或多個經音訊解碼之UBG * SBG * VT BG向量。
條項132567-7B。如條項132567-1B之器件,其中該一或多個第一向量包含在音訊編碼前藉由將U矩陣之一或多個經音訊編碼之UDIST
向量乘以S矩陣之一或多個SDIST向量及V矩陣之轉置之一或多個VT DIST向量而產生的一或多個經音訊編碼之UDIST * SDIST向量,其中U矩陣、S矩陣及V矩陣至少藉由對於複數個球諧係數執行奇異值分解而產生,且其中該一或多個處理器經進一步組態以音訊解碼該一或多個經音訊編碼之UDIST * SDIST向量以產生一或多個UDIST * SDIST向量,且將UDIST * SDIST向量乘以VT DIST向量以恢復複數個球諧係數中描述音場之獨特分量的球諧係數,其中該一或多個第二向量包含在音訊編碼前正藉由將包括於U矩陣內之UBG向量乘以包括於S矩陣內之SBG向量且接著乘以包括於V矩陣之轉置內之VT BG向量而產生的一或多個經音訊編碼之UBG * SBG * VT BG向量,且其中該一或多個處理器經進一步組態以音訊解碼該一或多個經音訊編碼之UBG * SBG * VT BG向量以恢復描述音場之背景分量的複數個球諧係數之至少一部分,且將描述音場之獨特分量的複數個球諧係數與描述音場之背景分量的複數個球諧係數之至少一部分相加以產生該複數個球諧係數之經重建構之版本。
條項132567-8B。如條項132567-1B之器件,其中該一或多個第一向量包含在音訊編碼前藉由將U矩陣之一或多個經音訊編碼之UDIST向量乘以S矩陣之一或多個SDIST向量及V矩陣之轉置之一或多個VT DIST向量而產生的一或多個UDIST * SDIST向量,其中U矩陣、S矩陣及V矩陣至少藉由對於複數個球諧係數執行奇異值分解而產生,且其中該一或多個處理器經進一步組態以判定指示待自一位元串流提取以形成一或多個UDIST * SDIST向量及一或多個VT DIST向量的向量之數目之值D。
條項132567-9B。如條項132567-10B之器件,其中該一或多個第一向量包含在音訊編碼前藉由將U矩陣之一或多個經音訊編碼之UDIST向量乘以S矩陣之一或多個SDIST向量及V矩陣之轉置之一或多個VT DIST向量而產生的一或多個UDIST*SDIST向量,其中U矩陣、S矩陣及V矩陣係至少藉由對於複數個球諧係數執行奇異值分解而產生,且其中該一
或多個處理器經進一步組態以基於逐個音訊訊框獲得值D,該值D指示待自位元串流提取以形成該一或多個UDIST*SDIST向量及該一或多個VT DIST向量之向量的數目。
條項132567-1G。一種器件,諸如音訊解碼器件540,其包含:一或多個處理器,該或多個處理器經組態以判定描述音場之獨特分量的一或多個第一向量及描述音場之背景分量的一或多個第二向量,該一或多個第一向量及該一或多個第二向量皆至少藉由對於表示音場之至少一部分的多通道音訊資料執行奇異值分解而產生。
條項132567-2G。如條項132567-1G之器件,其中該多通道音訊資料包含複數個球諧係數。
條項132567-3G。如條項132567-2G之器件,其中該一或多個處理器經進一步組態以執行條項132567-2B至條項132567-9B之任何組合。
自上述各種條項中之每一者,應理解,音訊解碼器件540A-540D中之任一者可執行方法,或另外包含執行音訊解碼器件540A-540D經組態以執行的方法之每一步驟之構件。在一些情況下,此等構件可包含一或多個處理器。在一些情況下,該一或多個處理器可表示藉助於儲存至非暫時性電腦可讀儲存媒體之指令組態之專用處理器。換言之,編碼實例之集合中的每一者中的技術之各種態樣可提供其上儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在執行時使一或多個處理器執行音訊解碼器件540A-540D已經組態以執行之方法。
舉例而言,條項132567-10B可自前述條項132567-1B導出為包含以下步驟之一種方法:判定描述音場之獨特分量的一或多個第一向量及描述音場之背景分量的一或多個第二向量,該一或多個第一向量及該一或多個第二向量皆至少藉由對於表示音場的複數個球諧係數執行奇異值分解而產生。
作為另一實例,條項132567-11B可自前述條項132567-1B導出為一種器件(諸如,音訊解碼器件540),其包含用於判定描述音場之獨特分量的一或多個第一向量及描述音場之背景分量的一或多個第二向量之構件,該一或多個第一向量及該一或多個第二向量皆至少藉由對於複數個球諧係數執行奇異值分解而產生;及用於儲存該一或多個第一向量及該一或多個第二向量之構件。
作為又一實例,條項132567-12B可自條項132567-1B導出為一種具有儲存於其上之指令之非暫時性電腦可讀儲存媒體,該等指令在執行時使一或多個處理器判定描述音場之獨特分量的一或多個第一向量及描述音場之背景分量的一或多個第二向量,該一或多個第一向量及該一或多個第二向量皆至少藉由對於包括於描述音場之高階立體混響音訊資料內的複數個球諧係數執行奇異值分解而產生。
對於如以上舉例說明之各種器件、方法及非暫時性電腦可讀儲存媒體,各種條項可同樣自條項132567-2B至132567-9B導出。可針對貫穿本發明列出之各種其他條項執行同樣的操作。
圖41B為說明可執行本發明中所描述之技術的各種態樣以解碼描述二維或三維音場之球諧係數的實例音訊解碼器件540B之方塊圖。音訊解碼器件540B可類似於音訊解碼器件540,例外情況為,在一些實例中,提取單元542可提取經重排序之VT DIST向量539,而非VT DIST向量525E。在其他實例中,提取單元542可提取VT DIST向量525E,且接著基於在位元串流中指定或經推斷(經由其他向量之分析)以判定經重排序之VT DIST向量539的重排序資訊重排序此等VT DIST向量525E。就此而言,提取單元542可按類似於圖5之實例中展示的音訊解碼器件24之提取單元72的方式操作。無論如何,提取單元542可將經重排序之VT DIST向量539輸出至數學單元546,其中可對於此等經重排序之VT DIST向量539執行以上關於恢復球諧係數描述之過程。
以此方式,該等技術可使音訊解碼器件540B能夠音訊解碼表示音場之獨特分量的經重排序之一或多個向量,該經重排序之一或多個向量已經經重排序以有助於壓縮該一或多個向量。在此等及其他實例中,音訊解碼器件540B可重組經重排序之一或多個向量與經重排序之一或多個額外向量以恢復表示音場之獨特分量的球諧係數。在此等及其他實例中,音訊解碼器件540B可接著基於表示音場之獨特分量的球諧係數及基於表示音場之背景分量的球諧係數恢復複數個球諧係數。
亦即,該等技術之各種態樣可提供待經組態以根據下列條項解碼經重排序之一或多個向量的音訊解碼器件540B。
條項133146-1F。一種器件,諸如音訊編碼器件540B,其包含:一或多個處理器,該一或多個處理器經組態以判定對應於音場中之分量的向量之數目。
條項133146-2F。如條項133146-1F之器件,其中該一或多個處理器經組態以在根據上述實例之任何組合執行階數縮減後判定向量之數目。
條項133146-3F。如條項133146-1F之器件,其中該一或多個處理器經進一步組態以根據上述實例之任何組合執行階數縮減。
條項133146-4F。如條項133146-1F之器件,其中該一或多個處理器經組態以自位元串流中指定之一值判定向量之數目,且其中該一或多個處理器經進一步組態以基於判定之向量數目剖析位元串流以識別位元串流中表示音場之獨特分量之一或多個向量。
條項133146-5F。如條項133146-1F之器件,其中該一或多個處理器經組態以自位元串流中指定之一值判定向量之數目,且其中該一或多個處理器經進一步組態以基於判定之向量數目剖析位元串流以識別位元串流中表示音場之背景分量之一或多個向量。
條項133143-1C。一種器件,諸如音訊解碼器件540B,其包含:一或多個處理器,該一或多個處理器經組態以重排序表示音場之獨特分量的經重排序之一或多個向量。
條項133143-2C。如條項133143-1C之器件,其中該一或多個處理器經進一步組態以判定經重排序之一或多個向量,及判定描述重排序該經重排序之一或多個向量之方式的重排序資訊,其中該一或多個處理器經進一步組態以當重排序該經重排序之一或多個向量時,基於該判定之重排序資訊重排序該經重排序之一或多個向量。
條項133143-3C。如1C之器件,其中該經重排序之一或多個向量包含由請求項1A-18A之任何組合或請求項1B-19B之任何組合敍述的一或多個經重排序之第一向量,且其中該一或多個第一向量係根據由請求項1A-18A之任何組合或請求項1B-19B之任何組合敍述的方法判定。
條項133143-4D。一種器件,諸如音訊解碼器件540B,其包含:一或多個處理器,該一或多個處理器經組態以音訊解碼表示音場之獨特分量的經重排序之一或多個向量,該經重排序之一或多個向量已經重排序以有助於壓縮該一或多個向量。
條項133143-5D。如條項133143-4D之器件,其中該一或多個處理器經進一步組態以重組該經重排序之一或多個向量與經重排序之一或多個額外向量以恢復表示音場之獨特分量的球諧係數。
條項133143-6D。如條項133143-5D之器件,其中該一或多個處理器經進一步組態以基於表示音場之獨特分量的球諧係數及表示音場之背景分量的球諧係數恢復複數個球諧係數。
條項133143-1E。一種器件,諸如音訊解碼器件540B,其包含:一或多個處理器,該一或多個處理器經組態以重排序一或多個向量以產生經重排序之一或多個第一向量,且藉此有助於由舊版音訊編碼器
進行之編碼,其中該一或多個向量描述表示音場之獨特分量,且使用舊版音訊編碼器音訊編碼經重排序之一或多個向量以產生經重排序之一或多個向量的經編碼版本。
條項133143-2E。如1E之器件,其中該經重排序之一或多個向量包含由請求項1A-18A之任何組合或請求項1B-19B之任何組合敍述的一或多個經重排序之第一向量,且其中該一或多個第一向量係根據由請求項1A-18A之任何組合或請求項1B-19B之任何組合敍述的方法判定。
圖41C為說明另一例示性音訊編碼器件540C之方塊圖。音訊解碼器件540C可表示能夠解碼音訊資料之任何器件,諸如,桌上型電腦、膝上型電腦、工作站、平板電腦或板式電腦、專用音訊記錄器件、蜂巢式電話(包括所謂的「智慧型手機」)、個人媒體播放機器件、個人遊戲器件或能夠解碼音訊資料的任何其他類型之器件。
在圖41C之實例中,音訊解碼器件540C執行與由音訊編碼器件510B-510E中之任一者執行之音訊編碼過程互逆的音訊解碼過程,例外情況為,執行階數縮減(如上關於圖40B-40J之實例所描述),在一些實例中,該音訊解碼過程由音訊編碼器件510B-510J用以有助於外來不相關資料之移除。
雖然展示為單一器件,亦即,在圖41C之實例中的器件540C,但以下提及為包括於器件540C內之各種組件或單元可形成在器件540C外部之分開器件。換言之,雖然本發明中描述為由單一器件(亦即,在圖41C之實例中的器件540C)執行,但該等技術可由包含多個器件之系統實施或另外執行,其中此等器件中之每一者可各包括以下更詳細地描述的各種組件或單元中之一或多者。因此,就此而言,該等技術不應限於圖41C之實例。
此外,音訊編碼器件540C可類似於音訊編碼器件540B。然而,
提取單元542可自位元串流517而非經重排序之VT Q_DIST向量539或VT DIST向量525E(如關於圖40之音訊編碼器件510所描述之情況,即為如此)判定一或多個VT SMALL向量521。結果,提取單元542可將VT SMALL向量521傳至數學單元546。
另外,提取單元542可自位元串流517判定經音訊編碼之經修改背景球諧係數515B',將此等係數515B'傳至音訊解碼單元544,音訊解碼單元544可音訊解碼經編碼之經修改背景球諧係數515B以恢復經修改背景球諧係數537。音訊解碼單元544可將此等經修改背景球諧係數537傳至數學單元546。
數學單元546可接著將經音訊解碼之(且可能無序)UDIST*SDIST向量527'乘以該一或多個VT SMALL向量521以恢復高階獨特球諧係數。數學單元546可接著將高階獨特球諧係數與經修改背景球諧係數537相加以恢復複數個球諧係數511或其某一導出(其可為歸因於在編碼器單元510E處執行之階數縮減的導出)。
以此方式,該等技術可使音訊解碼器件540C能夠自位元串流判定自與背景球諧係數重組以減少需要分配至位元串流中之一或多個向量的位元之量之球諧係數分解的一或多個向量中之至少一者,其中球諧係數描述音場,且其中背景球諧係數描述同一音場之一或多個背景分量。
就此而言,該等技術之各種態樣可使音訊解碼器件540C能夠在一些情況下經組態以自位元串流判定自與背景球諧係數重組之球諧係數分解的一或多個向量中之至少一者,其中該等球諧係數描述音場,且其中該等背景球諧係數描述同一音場之一或多個背景分量。
在此等及其他情況下音訊解碼器件540C經組態以自位元串流獲得球諧係數具有等於NBG之階數的第一部分。
在此等及其他情況下,音訊解碼器件540C經進一步組態以自位
元串流獲得球諧係數具有等於NBG之階數的第一經音訊編碼之部分,且音訊解碼球諧係數的經音訊編碼之第一部分以產生球諧係數之第一部分。
在此等及其他情況下,該一或多個向量中之至少一者包含一或多個VT SMALL向量,該一或多個VT SMALL向量已自藉由對於複數個球諧係數執行奇異值分解產生的V矩陣之轉置判定。
在此等及其他情況下,該一或多個向量中之至少一者包含一或多個VT SMALL向量,該一或多個VT SMALL向量已經自藉由對於該複數個球諧係數執行奇異值分解而產生的V矩陣之轉置判定,且音訊解碼器件540C經進一步組態以自位元串流獲得已自U矩陣及S矩陣導出之一或多個UDIST*SDIST向量,兩個矩陣皆藉由對於該複數個球諧係數執行奇異值分解而產生,且將UDIST*SDIST向量乘以VT SMALL向量。
在此等及其他情況下,該一或多個向量中之至少一者包含一或多個VT SMALL向量,該一或多個VT SMALL向量已經自藉由對於該複數個球諧係數執行奇異值分解而產生的V矩陣之轉置判定,且音訊解碼器件540C經進一步組態以自位元串流獲得已自U矩陣及S矩陣導出之一或多個UDIST*SDIST向量,兩個矩陣皆藉由對於該複數個球諧係數執行奇異值分解而產生,將UDIST*SDIST向量乘以VT SMALL向量以恢復高階獨特背景球諧係數,且將包括低階獨特背景球諧係數之背景球諧係數與高階獨特背景球諧係數相加以至少部分恢復該複數個球諧係數。
在此等及其他情況下,該一或多個向量中之至少一者包含一或多個VT SMALL向量、該一或多個VT SMALL向量已經自藉由對於該複數個球諧係數執行奇異值分解而產生的V矩陣之轉置判定,且音訊解碼器件540C經進一步組態以自位元串流獲得已自U矩陣及S矩陣導出之一或多個UDIST*SDIST向量,兩個矩陣皆藉由對於該複數個球諧係數執行奇異值分解而產生,將UDIST*SDIST向量乘以VT SMALL向量以恢復高階獨
特背景球諧係數,將包括低階獨特背景球諧係數之背景球諧係數與高階獨特背景球諧係數相加以至少部分恢復該複數個球諧係數,且轉譯恢復之複數個球諧係數。
圖41D為說明另一例示性音訊編碼器件540D之方塊圖。音訊解碼器件540D可表示能夠解碼音訊資料之任何器件,諸如,桌上型電腦、膝上型電腦、工作站、平板電腦或板式電腦、專用音訊記錄器件、蜂巢式電話(包括所謂的「智慧型手機」)、個人媒體播放機器件、個人遊戲器件或能夠解碼音訊資料的任何其他類型之器件。
在圖41D之實例中,音訊解碼器件540D執行與由音訊編碼器件510B-510J中之任一者執行之音訊編碼過程互逆的音訊解碼過程,例外情況為,執行階數縮減(如上關於圖40B-40J之實例所描述),在一些實例中,該音訊解碼過程由音訊編碼器件510B-510J用以有助於外來不相關資料之移除。
雖然展示為單一器件,亦即,在圖41D之實例中的器件540D,但以下提及為包括於器件540D內之各種組件或單元可形成在器件540D外部之分開器件。換言之,雖然本發明中描述為由單一器件(亦即,在圖41D之實例中的器件540D)執行,但該等技術可由包含多個器件之系統實施或另外執行,其中此等器件中之每一者可各包括以下更詳細地描述的各種組件或單元中之一或多者。因此,就此而言,該等技術不應限於圖41D之實例。
此外,音訊解碼器件540D可類似於音訊解碼器件540B,惟音訊解碼器件540D執行與由以上關於圖40I描述之V壓縮單元552執行之壓縮大體互逆的額外V解壓縮除外。在圖41D之實例中,提取單元542包括V解壓縮單元555,其執行包括於位元串流517中(且大體根據在圖10B及圖10C中之一者中展示之實例指定)的經壓縮空間分量539'之此V解壓縮。V解壓縮單元555可基於以下方程式解壓縮VT DIST向量539:
換言之,V解壓縮單元555可首先剖析來自位元串流517之nbits值,且識別五個霍夫曼碼表之適當集合以當解碼cid之霍夫曼碼時使用。基於預測模式及在位元串流517中指定之霍夫曼寫碼資訊及可能空間分量之元素相對於空間分量之其他元素的階數,V解壓縮單元555可識別針對經剖析之nbits值定義的五個霍夫曼表中之正確者。使用此霍夫曼表,V解壓縮單元555可解碼來自霍夫曼碼之cid值。V解壓縮單元555可接著剖析正負號位元及殘餘區塊碼,從而解碼該殘餘區塊碼以識別殘差。根據以上方程式,V解壓縮單元555可解碼VT DIST向量539中之一者。
前述內容可總結於以下語法表中:
在前述語法表中,具有四種情況(情況0-3)之第一切換語句提供就係數之數目而言判定VT DIST向量長度之方式。第一情況,情況0,指示用於VT DIST向量之所有係數被指定。第二情況,情況1,指示僅VT DIST向量之對應於大於MinNumOfCoeffsForAmbHOA之階數的彼等
係數被指定,其可表示上文被稱作(NDIST+1)-(NBG+1)之情況。第三情況,情況2,類似於第二情況,但進一步將識別之係數減去NumOfAddAmbHoaChan,其表示用於指定對應於超過階數NBG之階數的額外通道(其中「通道」指對應於某一階數、子階組合之特定係數)之變數。第四情況,情況3,指示僅VT DIST向量之在移除由NumOfAddAmbHoaChan識別之係數之後所剩餘的彼等係數被指定。
在此切換語句後,是否執行統一反量化之決策由NbitsQ(或,如上所表示,nbits)控制,NbitsQ若不等於5,則導致應用霍夫曼解碼。上文提及之cid值等於NbitsQ值之兩個最低有效位元。上文所論述之預測模式在以上語法表中表示為PFlag,而HT資訊位元在以上語法表中表示為CbFlag。剩餘語法指定解碼如何以實質上類似於上文所描述的方式出現。
以此方式,本發明之該等技術可使音訊解碼器件540D能夠獲得包含音場之空間分量之經壓縮版本的位元串流,該空間分量係藉由對於複數個球諧係數執行基於向量之合成而產生,且解壓縮空間分量之經壓縮版本以獲得空間分量。
此外,該等技術可使得音訊編碼器件540D能夠解壓縮音場之空間分量之經壓縮版本,該空間分量係藉由對於複數個球諧係數執行基於向量之合成而產生。
以此方式,音訊編碼器件540D可執行以下關於下列條項闡明的技術之各種態樣。
條項141541-1B。一種器件,其包含:一或多個處理器,該一或多個處理器經組態以獲得包含音場之空間分量之經壓縮版本的位元串流,該空間分量係藉由對於複數個球諧係數執行基於向量之合成而產生,及解壓縮空間分量之經壓縮版本以獲得空間分量。
條項141541-2B。如條項141541-1B之器件,其中空間分量之經壓縮版本至少部分使用指定當壓縮空間分量時使用之預測模式的欄位表示於位元串流中,且其中該一或多個處理器經進一步組態以當解壓縮空間分量之經壓縮版本時,至少部分基於該預測模式解壓縮空間分量之經壓縮版本以獲得空間分量。
條項141541-3B。如條項141541-1B及條項141541-2B之任何組合之器件,其中空間分量之經壓縮版本至少部分使用指定當壓縮空間分量時使用之霍夫曼表的霍夫曼表資訊表示於位元串流中,且其中該一或多個處理器經進一步組態以當解壓縮空間分量之經壓縮版本時,至少部分基於該霍夫曼表資訊解壓縮空間分量之經壓縮版本。
條項141541-4B。如條項141541-1B至條項141541-3B之任何組合之器件,其中空間分量之經壓縮版本至少部分使用指示表達當壓縮空間分量時使用之量化步長或其變數之值的欄位表示於位元串流中,且其中該一或多個處理器經進一步組態以當解壓縮空間分量之經壓縮版本時,至少部分基於該值解壓縮空間分量之經壓縮版本。
條項141541-5B。如條項141541-4B之器件,其中該值包含一nbits值。
條項141541-6B。如條項141541-4B及條項141541-5B之任何組合之器件,其中該位元串流包含音場(包括其空間分量之經壓縮版本)的複數個空間分量之一經壓縮版本,且其中該值表達當壓縮複數個空間分量時使用的量化步長或其變數,且其中該一或多個處理器經進一步組態以當解壓縮空間分量之經壓縮版本時,至少部分基於該值解壓縮該空間分量之該複數個經壓縮版本。
條項141541-7B。如條項141541-1B至條項141541-6B之任何組合之器件,其中空間分量之經壓縮版本至少部分使用霍夫曼碼表示識別空間分量對應於之壓縮類別的類別識別符來表示於位元串流中,且其
中該一或多個處理器經進一步組態以當解壓縮空間分量之經壓縮版本時,至少部分基於霍夫曼碼解壓縮空間分量之經壓縮版本。
條項141541-8B。如條項141541-1B至條項141541-7B之任何組合之器件,其中空間分量之經壓縮版本至少部分使用識別空間分量為正值或是負值之正負號位元表示於位元串流中,且其中該一或多個處理器經進一步組態以當解壓縮空間分量之經壓縮版本時,至少部分基於該正負號位元解壓縮空間分量之經壓縮版本。
條項141541-9B。如條項141541-1B至條項141541-8B之任何組合之器件,其中空間分量之經壓縮版本至少部分使用霍夫曼碼表示空間分量之殘餘值來表示於位元串流中,且其中該一或多個處理器經進一步組態以當解壓縮空間分量之經壓縮版本時,至少部分基於霍夫曼碼解壓縮空間分量之經壓縮版本。
條項141541-10B。如條項141541-1B至條項141541-10B之任何組合之器件,其中基於向量之合成包含奇異值分解。
此外,音訊解碼器件540D可經組態以執行以下關於下列條項闡明的技術之各種態樣。
條項141541-1C。一種器件,諸如音訊解碼器件540D,其包含:一或多個處理器,該一或多個處理器經組態以解壓縮音場之空間分量之經壓縮版本,該空間分量係藉由對於複數個球諧係數執行基於向量之合成而產生。
條項141541-2C。如條項141541-1C及條項141541-2C之任何組合之器件,其中該一或多個處理器經進一步組態以當解壓縮空間分量之經壓縮版本時,獲得識別空間分量當經壓縮時分類至之類別的類別識別符,獲得識別空間分量為正值或是負值之正負號,獲得與空間分量之經壓縮版本相關聯的殘餘值,及基於類別識別符、正負號及殘餘值解壓縮空間分量之經壓縮版本。
條項141541-3C。如條項141541-2C之器件,其中該一或多個處理器經進一步組態以當獲得類別識別符時,獲得表示類別識別符之霍夫曼碼,及解碼該霍夫曼碼以獲得類別識別符。
條項141541-4C。如條項141541-3C之器件,其中該一或多個處理器經進一步組態以當解碼霍夫曼碼時,至少部分基於空間分量在指定複數個空間分量之向量中的相對位置來識別用以解碼霍夫曼碼之霍夫曼表。
條項141541-5C。如條項141541-3C及條項141541-4C之任何組合之器件,其中該一或多個處理器經進一步組態以當解碼霍夫曼碼時,至少部分基於當壓縮空間分量時使用之預測模式識別用以解碼霍夫曼碼之霍夫曼表。
條項141541-6C。如條項141541-3C及條項141541-5C之任何組合之器件,其中該一或多個處理器經進一步組態以當解碼霍夫曼碼時,至少部分基於與空間分量之經壓縮版本相關聯的霍夫曼表資訊識別用以解碼霍夫曼碼之霍夫曼表。
條項141541-7C。如條項141541-3C之器件,其中該一或多個處理器經進一步組態以當解碼霍夫曼碼時,至少部分基於空間分量在指定複數個空間分量之向量中的相對位置、當壓縮空間分量時使用之預測模式及與空間分量之經壓縮版本相關聯的霍夫曼表資訊識別用以解碼霍夫曼碼之霍夫曼表。
條項141541-8C。如條項141541-2C之器件,其中該一或多個處理器經進一步組態以當獲得殘餘值時,解碼表示殘餘值之區塊碼以獲得殘餘值。
條項141541-9C。如條項141541-1C至條項141541-8C之任何組合之器件,其中基於向量之合成包含奇異值分解。
此外,音訊解碼器件540D可經組態以執行以下關於下列條項闡
明的技術之各種態樣。
條項141541-1G。一種器件,諸如音訊解碼器件540D,其包含:一或多個處理器,該一或多個處理器經組態以基於複數個經壓縮空間分量中之一當前空間分量的經壓縮版本相對於該複數個經壓縮空間分量中之其餘者的階數識別一霍夫曼碼簿以在解壓縮該當前空間分量之經壓縮版本時使用,該空間分量係藉由對於複數個球諧係數執行基於向量之合成而產生。
條項141541-2G。如條項141541-1G之器件,其中該一或多個處理器經進一步組態以執行在條項141541-1D至條項141541-10D及條項141541-1E至條項141541-9E中敍述的步驟之任何組合。
圖42至圖42C各自為更詳細地說明圖40B至圖40J之實例中所展示的階數縮減單元528A之方塊圖。圖42為說明階數縮減單元528之方塊圖,其可表示圖40B至圖40J之階數縮減單元528A的一個實例。階數縮減單元528A可接收或另外判定目標位元率535,且僅基於此目標位元率535對於背景球諧係數531執行階數縮減。在一些實例中,階數縮減單元528A可使用目標位元率535存取表或其他資料結構以識別待自背景球諧係數531移除的彼等階數及/或子階以產生經縮減背景球諧係數529。
以此方式,該等技術可使音訊編碼器件(諸如,音訊編碼器件510B-410J)能夠基於目標位元率535對於複數個球諧係數或其分解(諸如,背景球諧係數531)執行階數縮減,以產生經縮減球諧係數529或其經縮減分解,其中該複數個球諧係數表示音場。
在上文所描述的各種情況中的每一者中,應理解,音訊解碼器件540可執行方法或另外包含執行音訊解碼器件540經組態以執行的方法之每一步驟之構件。在一些情況下,此等構件可包含一或多個處理器。在一些情況下,該一或多個處理器可表示藉助於儲存至非暫時性
電腦可讀儲存媒體之指令組態之專用處理器。換言之,編碼實例之集合中的每一者中的技術之各種態樣可提供其上儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在執行時使得一或多個處理器執行音訊解碼器件540已經組態以執行之方法。
圖42B為說明階數縮減單元528B之方塊圖,其可表示圖40B至圖40J之階數縮減單元528A的一個實例。在圖42B之實例中,替代基於僅目標位元率535執行階數縮減,階數縮減單元528B可基於背景球諧係數531之內容分析執行階數縮減。階數縮減單元528B可包括執行內容分析之內容分析單元536A。
在一些實例中,內容分析單元536A可包括執行參照空間分析的形式之內容分析之空間分析單元536A。空間分析可涉及分析背景球諧係數531以識別描述音場之背景分量之形狀或其他空間性質的空間資訊。基於此空間資訊,階數縮減單元528B可識別待自背景球諧係數531移除之彼等階數及/或子階以產生經縮減背景球諧係數529。
在一些實例中,內容分析單元536A可包括執行參照擴散分析的形式之內容分析之擴散分析單元536B。擴散分析可涉及分析背景球諧係數531以識別描述音場之背景分量之擴散性的擴散資訊。基於此擴散資訊,階數縮減單元528B可識別待自背景球諧係數531移除之彼等階數及/或子階以產生經縮減背景球諧係數529。
雖然展示為包括空間分析單元536A及擴散分析單元36B兩者,但內容分析單元536A可包括僅空間分析單元536、僅擴散分析單元536B或空間分析單元536A及擴散分析單元536B兩者。在一些實例中,除了空間分析及擴散分析中之一或兩者之外,或替代空間分析及擴散分析中之一或兩者,內容分析單元536A可執行其他形式之內容分析。因此,就此而言,本發明中描述之該等技術不應受到限制。
以此方式,該等技術可使音訊編碼器件(諸如,音訊編碼器件
510B-510J)能夠基於描述音場之複數個球諧係數或其分解之內容分析對於該複數個球諧係數或其分解執行階數縮減以產生經縮減球諧係數或其經縮減分解。
換言之,該等技術可使器件(諸如,音訊編碼器件510B-510J)能夠根據下列條項組態。
條項133146-1E。一種器件,諸如音訊編碼器件510B-510J中之任一者,其包含一或多個處理器,該一或多個處理器經組態以基於描述音場之複數個球諧係數或其分解之內容分析對於該複數個球諧係數或其分解執行階數縮減以產生經縮減球諧係數或其經縮減分解。
條項133146-2E。如條項133146-1E之器件,其中該一或多個處理器經進一步組態以在執行階數縮減前,對於複數個球諧係數執行奇異值分解以識別描述音場之獨特分量的一或多個第一向量及識別音場之背景分量的一或多個第二向量,且其中該一或多個處理器經組態以對於該一或多個第一向量、該一或多個第二向量或該一或多個第一向量及該一或多個第二向量兩者執行階數縮減。
條項133146-3E。如條項133146-1E之器件,其中該一或多個處理器經進一步組態以對於複數個球諧係數或其分解執行內容分析。
條項133146-4E。如條項133146-3E之器件,其中該一或多個處理器經組態以對於複數個球諧係數或其分解執行空間分析。
條項133146-5E。如條項133146-3E之器件,其中執行內容分析包含對於複數個球諧係數或其分解執行擴散分析。
條項133146-6E。如條項133146-3E之器件,其中該一或多個處理器經組態以對於複數個球諧係數或其分解執行空間分析及擴散分析。
條項133146-7E。如請求項1之器件,其中該一或多個處理器經組態以基於複數個球諧係數或其分解之內容分析及目標位元率對於複數個球諧係數或其分解執行階數縮減以產生經縮減球諧係數或其經縮減
分解。
條項133146-8E。如條項133146-1E之器件,其中該一或多個處理器經進一步組態以音訊編碼經縮減球諧係數或其分解。
條項133146-9E。如條項133146-1E之器件,其中該一或多個處理器經進一步組態以音訊編碼經縮減球諧係數或其分解,且產生一位元串流以包括經縮減球諧係數或其經縮減分解。
條項133146-10E。如條項133146-1E之器件,其中該一或多個處理器經進一步組態以在包括經縮減球諧係數或其經縮減分解之位元串流中指定經縮減球諧係數或其經縮減分解所對應於的球面基底函數之一或多個階數及/或一或多個子階。
條項133146-11E。如條項133146-1E之器件,其中經縮減球諧係數或其經縮減分解具有比該複數個球諧係數或其分解小的值。
條項133146-12E。如條項133146-1E之器件,其中該一或多個處理器經進一步組態以移除該複數個球諧係數或其分解之向量中的具有指定階數及/或子階之球諧係數或向量以產生經縮減球諧係數或其經縮減分解。
條項133146-13E。如條項133146-1E之器件,其中該一或多個處理器經組態以零化該複數個球諧係數或其分解之彼等向量中的具有指定階數及/或子階之彼等球諧係數或向量以產生經縮減球諧係數或其經縮減分解。
圖42C為說明階數縮減單元528C之方塊圖,其可表示圖40B至圖40J之階數縮減單元528A的一個實例。圖42B之階數縮減單元528C實質上與階數縮減單元528B相同,但可按以上關於圖42之階數縮減單元528A描述的方式接收或另外判定目標位元率535,同時亦按以上關於圖42B之階數縮減單元528B描述的方式執行內容分析。階數縮減單元528C可接著基於目標位元率535及內容分析對於背景球諧係數531
執行階數縮減。
以此方式該等技術可使音訊編碼器件(諸如,音訊編碼器件510B-510J)能夠對於複數個球諧係數或其分解執行內容分析。當執行階數縮減時,音訊編碼器件510B-510J可基於目標位元率535及內容分析對於複數個球諧係數或其分解執行階數縮減以產生經縮減球諧係數或其經縮減分解。
倘若移除了一或多個向量,則音訊編碼器件510B-510J可在位元串流中將向量之數目指定為對照資料。音訊編碼器件510B-510J可在位元串流中指定此向量數目以有助於由音訊解碼器件自位元串流提取向量。
圖44為說明根據本發明中所描述之技術的各種態樣之由音訊編碼器件410D執行以補償量化錯誤的例示性操作之圖。在圖44之實例中,音訊編碼器件510D之數學單元526展示為一虛線區塊以表示數學運算可由音訊編碼器件510D之數學單元526執行。
如圖44之實例中所展示,數學單元526可首先將UDIST*SDIST向量527乘以VT DIST向量525E以產生獨特球諧係數(表示為「HDIST向量630」)。數學單元526可接著將HDIST向量630除以VT DIST向量525E之經量化版本(其再次表示為「VT Q_DIST向量525G」)。數學單元526可藉由判定VT Q_DIST向量525G之偽逆且接著將HDIST向量乘以VT Q_DIST向量525G之偽逆來執行此除以,從而輸出UDIST*SDIST(其可被縮寫為「USDIST」或「USDIST向量」)的錯誤經補償之版本。在圖44之實例中,USDIST的錯誤經補償之版本可表示為US* DIST向量527'。以此方式,該等技術可有效地至少部分將量化錯誤投影至USDIST向量527,從而產生US* DIST向量527'。
數學單元526可接著自UDIST*SDIST向量527減去US* DIST向量527'以判定USERR向量634(其可表示歸因於投影至UDIST*SDIST向量527內的量
化之錯誤之至少一部分)。數學單元526可接著將USERR向量634乘以VT Q_DIST向量525G以判定HERR向量636。在數學上,HERR向量636可等效於USDIST向量527-US* DIST向量527',其結果接著與VT DIST向量525E相乘。數學單元526可接著將HERR向量636與藉由將UBG向量525D乘以SBG向量525B且接著乘以VT BG向量525F計算的背景球諧係數531(在圖44之實例中,表示為HBG向量531)相加。數學單元526可將HERR向量636與HBG向量531相加,從而有效地將量化錯誤之至少一部分投影至HBG向量531內以產生經補償之HBG向量531'。以此方式,該等技術可將量化錯誤之至少一部分投影至HBG向量531內。
圖45及45B為說明根據本發明中所描述之技術的各種態樣之自兩個訊框之若干部分內插子訊框之圖。在圖45之實例中,展示第一訊框650及第二訊框652。第一訊框650可包括可分解成U[1]、S[1]及V'[1]矩陣之球諧係數(「SH[1]」)。第二訊框652可包括球諧係數(「SH[2]」)。此等SH[1]及SH[2]可識別以上描述的SHC 511之不同訊框。
在圖45B之實例中,在圖40H之實例中展示的音訊編碼器件510H之分解單元518可將訊框650及652中之每一者分成四個各別子訊框651A-651D及653A-653D。分解單元518可接著將訊框650之第一子訊框651A(表示為「SH[1,1]」)分解成U[1,1]、S[1,1]及V[1,1]矩陣,從而將V[1,1]矩陣519'輸出至內插單元550。分解單元518可接著將訊框652之第二子訊框653A(表示為「SH[2,1]」)分解成U[1,1]、S[1,1]及V[1,1]矩陣,從而將V[2,1]矩陣519'輸出至內插單元550。分解單元518亦可將SHC 11之SH[1,1]、SH[1,2]、SH[1,3]及SH[1,4]及SHC 511之SH[2,1]、SH[2,2]、SH[2,3]及SH[2,4]輸出至內插單元550。
內插單元550可接著執行在於圖45B之實例中展示的圖示之底部處識別之內插。亦即,內插單元550可基於V'[1,1]及V'[2,1]內插
V'[1,2]。內插單元550亦可基於V'[1,1]及V'[2,1]內插V'[1,3]。另外,內插單元550亦可基於V'[1,1]及V'[2,1]內插V'[1,4]。此等內插可涉及V'[1,1]及V'[2,1]至空間域內之投影,如在圖46至圖46E之實例中所展示,接著為時間內插,接著投影回至球諧域內。
內插單元550可接下來藉由將SH[1,2]乘以(V'[1,2])-1導出U[1,2]S[1,2],藉由將SH[1,3]乘以(V'[1,3])-1導出U[1,3]S[1,3],且將SH[1,4]乘以(V'[1,4])-1導出U[1,4]S[1,4]。內插單元550可接著按經分解之形式重整訊框,從而輸出V矩陣519、S矩陣519B及U矩陣519C。
圖46A至圖46E為說明已根據本發明中所描述之技術內插之複數個球諧係數之經分解版本的一或多個向量之投影的橫截面之圖。圖46A說明已經經由SVD過程自來自第一訊框之第一子訊框之SHC 511分解的第一V矩陣19'之一或多個第一向量之投影之橫截面。圖46B說明已經經由SVD過程自來自第二訊框之第二子訊框之SHC 511分解的第二V矩陣519'之一或多個第二向量之投影之橫截面。
圖46C說明表示來自第一訊框之第二子訊框的V矩陣519A之一或多個經內插向量之投影之橫截面,此等向量已經根據本發明中描述之該等技術自分解自SHC 511之第一訊框之第一子訊框(亦即,在此實例中,在圖46之實例中展示的V矩陣519'之一或多個向量)及SHC 511之第二訊框之第一子訊框(亦即,在此實例中,在圖46B之實例中展示的V矩陣519'之一或多個向量)的V矩陣519'內插。
圖46D說明表示來自第一訊框之第三子訊框的V矩陣519A之一或多個經內插向量之投影之橫截面,此等向量已經根據本發明中描述之該等技術自分解自SHC 511之第一訊框之第一子訊框(亦即,在此實例中,在圖46之實例中展示的V矩陣519'之一或多個向量)及SHC 511之
第二訊框之第一子訊框(亦即,在此實例中,在圖46B之實例中展示的V矩陣519'之一或多個向量)的V矩陣519'內插。
圖46E說明表示來自第一訊框之第四子訊框的V矩陣519A之一或多個經內插向量之投影之橫截面,此等向量已經根據本發明中描述之該等技術自分解自SHC 511之第一訊框之第一子訊框(亦即,在此實例中,在圖46之實例中展示的V矩陣519'之一或多個向量)及SHC 511之第二訊框之第一子訊框(亦即,在此實例中,在圖46B之實例中展示的V矩陣519'之一或多個向量)的V矩陣519'內插。
圖47為更詳細地說明圖41A至圖41D之實例中展示的音訊解碼器件540A-540D之提取單元542之方塊圖。在一些實例中,提取單元542可表示可被稱作「整合式解碼器」之前端,其可執行兩個或兩個以上解碼方案(其中藉由執行此等兩個或兩個以上方案,可考慮解碼器「整合」該兩個或兩個以上方案)。如在圖44之實例中所展示,提取單元542包括多工器620及提取子單元622A及622B(「提取子單元622」)。多工器620基於相關聯之經編碼框式SHC矩陣547-547N自合成音訊物件或是自記錄產生之對應的指示識別經編碼框式SHC矩陣547-547N中待發送至提取子單元622A及提取子單元622B之矩陣。提取子單元622A中之每一者可執行不同的解碼(其可被稱作「解壓縮」)方案,在一些實例中,該方案適應於自合成音訊物件產生之SHC或自記錄產生之SHC。提取子單元622A中之每一者可執行此等解壓縮方案中之各別者,以便產生SHC 547之待輸出至SHC 547的訊框。
舉例而言,提取單元622A可執行解壓縮方案以使用下列方程式自主要信號(聚合物持續)重建構SA:HOA=DirV x PS,其中DirV為方向向量(表示各種方向及寬度),其可經由旁側通道傳輸。在此實例中,提取單元622B可執行使用下列方程式自PS重建
構HOA矩陣之解壓縮方案:HOA=sqrt(4π)* Ynm(theta,phi)* PS,其中Ynm為球諧函數,且θ及φ資訊可經由旁側通道發送。
就此而言,該等技術可使提取單元538能夠基於表示音場之球諧係數的經壓縮版本是否自合成音訊物件產生之指示而選擇複數個解壓縮方案中之一者,且使用該複數個解壓縮方案中之該選定者解壓縮該等球諧係數之該經壓縮版本。在一些實例中,該器件包含一整合式解碼器。
圖48為更詳細地說明圖41A至圖41D之實例中所示的音訊解碼器件540A至540D之音訊呈現單元48的方塊圖。圖48說明自所恢復球諧係數547至與解碼器局部揚聲器幾何佈置相容之多通道音訊資料549A的轉換。對於一些局部揚聲器幾何佈置(其可再次指代在解碼器處之揚聲器幾何佈置),確保可逆性之一些變換可導致不太合乎需要的音訊影像品質。亦即,當與所捕獲之音訊相比較時,聲音再現可並不總是導致聲音之正確定位。為了對此不太合乎需要的影像品質進行校正,可進一步擴充技術以引入可被稱作「虛擬揚聲器」之概念。
可修改上文構架以包括某一形式之移動,諸如向量基振幅移動(VBAP)、基於距離之振幅移動或其他形式之移動,而不是需要將一或多個擴音器再定位或定位於具有由諸如上文所指出之ITU-R BS.775-1的標準指定之特定角容限的空間之特定或經定義區中。出於說明的目的而聚焦於VBAP上,VBAP實際上可引入可表徵為「虛擬揚聲器」之物。VBAP可修改至一或多個擴音器之饋入以使得此等一或多個擴音器實際上輸出呈現為起源於虛擬揚聲器之聲音,該虛擬揚聲器係在不同於支援該虛擬揚聲器之一或多個擴音器的位置及/或角度中之至少一者的位置及角度中的一或多者處。
為進行說明,用於根據SHC判定揚聲器饋入之以下等式可為如
下:
在上文等式中,VBAP矩陣具有M列×N行之大小,其中M表示揚聲器之數目(且在上文等式中將等於五),及N表示虛擬揚聲器之數目。可依據自聽者之經定義位置至揚聲器的位置中之每一者的向量及自聽者之經定義位置至虛擬揚聲器的位置中之每一者的向量來計算VBAP矩陣。上文等式中之D矩陣可具有N列×(階數+1)2行之大小,其中階數可指代SH函數之階數。D矩陣可表示以下矩陣:
g矩陣(或考慮到僅存在單一行,向量)可表示配置於解碼器局部幾何佈置中之揚聲器的揚聲器體入之增益。在等式中,g矩陣具有大小M。A矩陣(或考慮到僅存在單一行,向量)可表示SHC 520,且具有大小(階數+1)(階數+1),其亦可表示為(階數+1)2。
實際上,VBAP矩陣為M×N矩陣,其提供可被稱作「增益調整」之調整,該調整將揚聲器之位置及虛擬揚聲器之位置考慮在內。以此方式引入移動可導致多通道音訊之較好再現,該較好再現導致在由局部揚聲器幾何佈置再現時的較好品質影像。此外,藉由將VBAP併入至此等式中,技術可克服並不與各種標準中所指定之幾何佈置對準的不佳揚聲器幾何佈置。
實務上,可反轉及使用等式以將SHC變換回至用於擴音器之特定幾何佈置或組態的多通道饋入,該特定幾何佈置或組態在本發明中可
再次被稱作解碼器局部幾何佈置。亦即,可反轉等式以求解g矩陣。反轉等式可為如下:
g矩陣可表示在此實例中用於5.1揚聲器組態中之五個擴音器中之每一者的揚聲器增益。此組態中所使用之虛擬揚聲器位置可對應於5.1多通道格式規範或標準中所定義之位置。可使用任何數目的已知音訊定位技術來判定可支援此等虛擬揚聲器中之每一者的擴音器之位置,該等技術中之許多技術涉及播放具有特定頻率之載頻調以判定每一揚聲器相對於頭端單元(諸如音訊/視訊接收器(A/V接收器)、電視、遊戲系統、數位視訊光碟系統或其他類型之頭端系統)之位置。或者,頭端單元之使用者可手動地指定擴音器中之每一者的位置。在任何情況下,在給定此等已知位置及可能角度的情況下,假定虛擬擴音器之藉助於VBAP的理想組態,則頭端單元可求解增益。
就此而言,器件或裝置可對複數個虛擬信道執行向量基振幅移動或其他形式之移動,以產生驅使解碼器局部幾何佈置中之揚聲器發射呈現為起源於經組態成不同局部幾何佈置之虛擬揚聲器的聲音之複數個通道。技術因此可使音訊解碼器件40能夠對複數個球諧係數(諸如所恢復球諧係數47)執行變換以產生複數個通道。複數個通道中之每一者可與空間之對應不同區相關聯。此外,複數個通道中之每一者可包含複數個虛擬通道,其中複數個虛擬通道可與空間之對應不同區相關聯。器件因此可對虛擬通道執行向量基振幅移動以產生多通道音訊資料49之複數個通道。
圖49A至圖49E(ii)為說明可實施本發明中所描述之技術各種態樣
的各別音訊寫碼系統560A至560C、567D、569D、571E及573E的圖。如圖49A之實例中所示,音訊寫碼系統560A可包括音訊編碼器件562及音訊解碼器件564。音訊編碼器件562可類似於分別在圖4及圖40A至圖40D之實例中所示的音訊編碼器件20及510A至510D中的任一者。音訊解碼器件564可類似於圖5及圖41之實例中所示之音訊解碼器件24及40。
如上文所描述,高階立體混響(HOA)為描述基於空間傅立葉變換之音場的所有方向資訊之方式。在一些實例中,立體混響階數N愈高,空間解析度就愈高,且球諧(SH)係數之數目(N+1)2就愈大。因此,在一些實例中,立體混響階數N愈高,就會導致用於傳輸及儲存係數之頻寬要求愈大。因為與例如5.1或7.1環繞聲音訊資料相比較,HOA之頻寬要求相當高,所以對於許多應用而言可期望頻寬縮減。
根據本發明中所描述之技術,音訊寫碼系統560A可執行基於在空間聲音場景中將獨特(前景)與非獨特(背景或環境)元素分離之方法。此分離可允許音訊寫碼系統560A彼此獨立地處理前景及背景元素。在此實例中,音訊寫碼系統560A利用前景元素可吸引更多注意(由聽者)之特性,且與背景元素相比較可較容易定位(再次由聽者)。結果,音訊寫碼系統560A可更有效地儲存或傳輸HOA內容。
在一些實例中,音訊寫碼系統560A可藉由使用奇異值分解(SVD)程序而達成此分離。SVD程序可將HOA係數之訊框分離成3個矩陣(U,S,V)。矩陣U含有左奇異向量,且V矩陣含有右奇異向量。對角線矩陣S在其對角線中含有非負經分類奇異值。HOA係數之通常良好(或在一些情況下,完美假定表示HOA係數中之無限精度)重建構將由U*S*V'給出。僅藉由用D最大奇異值重建構子空間:U(:,1:D)*S(1:D,:)*V',音訊寫碼系統560A可自此HOA訊框提取大部分突出空間資訊,亦即前景聲音元素(且可為一些強早期室內反射)。剩餘部分
U(:,D+1:end)*S(D+1:end,:)*V'可重建構背景元素及來自內容之混響。
音訊寫碼系統560A可藉由分析由遞減對角線值S產生之曲線的判定使兩個子空間分離之值D:大奇異值表示前景聲音,低奇異值表示背景值。音訊寫碼系統560A可使用奇異值曲線之第一導數及第二導數。音訊寫碼系統560A亦可將數目D限制在一與五之間。或者,音訊寫碼系統560A可將數目D預定義為諸如值四個。在任何情況下,一旦估計出數目D,音訊寫碼系統560A即自矩陣U及S擷取前景及背景子空間。
音訊寫碼系統560A接著可經由U(:,D+1:end)*S(D+1:end,:)*V'重建構背景場景之HOA係數,從而導致HOA係數之(N+1)2通道。因為已知背景元素在一些實例中並非同樣突出的且並非同樣可相對於前景元素定位,所以音訊寫碼系統560A可截斷HOA通道之階數。此外,音訊寫碼系統560A可用有損或無損音訊編解碼器(諸如AAC)壓縮此等通道,或視情況用與用以壓縮突出前景元素之編解碼器相比較更積極的音訊編解碼器來進行壓縮。在一些情況下,為了節省頻寬,音訊寫碼系統560A可不同地傳輸前景元素。亦即,音訊寫碼系統可在用有損或無損音訊編解碼器(諸如AAC)進行壓縮之後傳輸左奇異向量U(:,1:D),及連同重建構矩陣R=S(1:D,:)*V'一起傳輸此等經壓縮左奇異值。R可表示D×(N+1)2矩陣,該矩陣可跨訊框而不同。
在音訊寫碼系統560之接收器側處,音訊寫碼系統可使此等兩種矩陣相乘以重建構(N+1)2個HOA通道之訊框。一旦將背景及前景HOA通道一起求和,音訊寫碼系統560A即可使用任何適當立體混響顯現器向任何揚聲器設置進行呈現。因為技術提供前景元素(直接或獨特聲音)與元素之分離,所以聽覺受損的人可控制前景至背景元素之混合以增加可懂度。又,其他音訊效果亦可為可適用的,例如僅對前景
元素之動態壓縮器。
圖49B為更詳細地說明音訊編碼系統560B之方塊圖。如圖49B之實例中所示,音訊寫碼系統560B可包括音訊編碼器件566及音訊解碼器件568。音訊編碼器件566可類似於圖4及圖40E之實例中所示之音訊編碼器件24及510E。音訊解碼器件568可類似於圖5及圖41B之實例中所示之音訊解碼器件24及540B。
根據本發明中所描述之技術,當出於頻寬縮減之目的而對HoA信號使用基於訊框之SVD(或相關方法,諸如KLT&PCA)分解時,音訊編碼器件66可量化U矩陣之前幾個向量(乘以S矩陣之對應奇異值)以及VT向量之對應向量。此將包含音場之「前景」分量。技術可使音訊編碼器件566能夠使用「黑箱」音訊寫碼引擎對UDIST * SDIST向量進行寫碼。V向量可經純量量化或向量量化。此外,U矩陣中之剩餘向量中的一些或全部可乘以S矩陣及V矩陣之對應奇異值且亦使用「黑箱」音訊寫碼引擎予以寫碼。此等將包含音場之「背景」分量。
因為將最響聽覺分量分解成「前景分量」,所以音訊編碼器件566可在使用「黑箱」音訊寫碼引擎之前縮減「背景」分量的立體混響階數,因為(吾人假定)背景並不含有重要的可定位內容。取決於前景分量之立體混響階數,音訊編碼單元566可傳輸對應V向量,對應V向量可相當大。舉例而言,V向量之簡單16位元純量量化將產生每一前景分量大約用於第4階之20kbps額外負荷(25個係數)及用於第6階之40kbps(49個係數)。本發明中所描述之技術可提供用以減少V向量之額外負荷的方法。
為進行說明,假定前景元素之立體混響階數為NDIST,且背景元素之立體混響階數為NBG,如上文所描述。因為音訊編碼器件566可如上文所描述縮減背景元素之立體混響階數,所以NBG可小於NDIST。需要經傳輸以在接收器側處重建構前景元素之前景V向量的長度具有每
一前景元素(NDIST+1)2的長度,而第一((NDIST+1)2)-((NBG+1)2)係數可用以重建構至多為階數NBG之前景或獨特分量。使用本發明中所描述之技術,音訊編碼器件566可重建構至多為階數NBG之前景且將所得(NBG+1)2個通道與背景通道合併,從而導致至多為階數NBG之完整音場。音訊編碼器件566接著可將V向量縮減至具有高於(NBG+1)2之索引以用於傳輸的彼等係數(其中此等向量可被稱作「VT SMALL」)。在接收器側處,音訊解碼單元568可藉由將前景元素乘以VT SMALL向量來重建構用於大於NBG之立體混響階數的前景音訊通道。
圖49C為更詳細地說明音訊編碼系統560C之方塊圖。如圖49C之實例中所示,音訊寫碼系統560B可包括音訊編碼器件567及音訊解碼器件569。音訊編碼器件567可類似於圖4及圖40F之實例中所示之音訊編碼器件20及510F。音訊解碼器件569可類似於圖5及圖41B之實例中所示之音訊解碼器件24及540B。
根據本發明中所描述之技術,當出於頻寬縮減之目的而對HoA信號使用基於訊框之SVD(或相關方法,諸如KLT&PCA)分解時,音訊編碼器件567可量化U矩陣之前幾個向量(乘以S矩陣之對應奇異值)以及VT向量之對應向量。此將包含音場之「前景」分量。技術可使音訊編碼器件567能夠使用「黑箱」音訊寫碼引擎對UDIST * SDIST向量進行寫碼。V向量可經純量量化或向量量化。此外,U矩陣中之剩餘向量中的一些或全部可乘以S矩陣及V矩陣之對應奇異值且亦使用「黑箱」音訊寫碼引擎予以寫碼。此等將包含音場之「背景」分量。
因為將最響聽覺分量分解成「前景分量」,所以音訊編碼器件567可在使用「黑箱」音訊寫碼引擎之前縮減「背景」分量的立體混響階數,因為(吾人假定)背景並不含有重要的可定位內容。音訊編碼器件567可以使得保留根據本文中所描述之技術之音場的總能量之方式縮減階數。取決於前景分量之立體混響階數,音訊編碼單元567可
傳輸對應V向量,對應V向量可相當大。舉例而言,V向量之簡單16位元純量量化將產生每一前景分量大約用於第4階之20kbps附加項(25個係數)及用於第6階之40kbps(49個係數)。本發明中所描述之技術可提供用以減少V向量之額外負荷的方法。
為進行說明,假定前景元素及背景元素之立體混響階數為N。音訊編碼器件567可使V向量之背景元素的立體混響階數自N縮減至,以使得<N。音訊編碼器件67進一步應用補償以增加V向量之背景元素的值,從而保留由SHC描述之音場的總能量。上文關於圖40F描述用於應用補償之實例技術。在接收器側處,音訊解碼單元569可重建構用於立體混響階數之背景音訊通道。
圖49D(i)及圖49D(ii)分別說明音訊編碼器件567D及音訊解碼器件569D。音訊編碼器件567D及音訊解碼器件569D可經組態以執行根據本發明之態樣之一或多個基於方向性的獨特性判定。高階立體混響(HOA)為描述基於空間傅立葉變換之音場的所有方向資訊之方法。立體混響階數N愈高,空間解析度就愈高,球諧(SH)係數之數目(N+1)^2愈大,用於傳輸及儲存資料所需要的頻寬就愈大。因為HOA之頻寬要求相當高,所以對於許多應用而言,期望頻寬縮減。
先前描述已描述了SVD(奇異值分解)或相關程序可如何用於空間音訊壓縮。本文中所描述之技術呈現用於選擇突出元素(亦稱前景元素)之改良演算法。在將HOA音訊訊框基於SVD分解成其U、S及V矩陣之後,技術使K個突出元素之選擇排他性地基於U矩陣之前K個通道[U(:,1:K)*S(1:K,1:K)]。此導致選擇具有最高能量之音訊元素。然而,並不保證彼等元素亦為方向性的。因此,技術係針對發現具有高能量及亦為方向性的聲音元素。此藉由對V矩陣以及S矩陣進行加權而潛在地達成。接著,對於此所得矩陣之每一列,對較高索引元素(其與高階HOA係數相關聯)求平方及求和,從而導致每一列一個值
[在關於圖40H描述之偽代碼中的sumVS]。根據偽代碼中表示之工作流程,考慮在第5索引處開始之高階立體混響係數。此等值根據其大小來分類,且分類索引用以相應地重新配置原始U、S及V矩陣。接著可應用在本發明中較早所描述之基於SVD之壓縮演算法而無進一步修改。
圖49E(i)及圖49E(ii)為分別說明音訊編碼器件571E及音訊解碼器件573E之方塊圖。音訊編碼器件571E及音訊解碼器件573E可執行上文關於圖49至圖49D(ii)之實例所描述的技術之各種態樣,除了音訊編碼器件571E可執行關於HOA係數之功率譜密度矩陣(PDS)的奇異值分解以產生S2矩陣及V矩陣之外。S2矩陣可表示求平方之S矩陣,因此S2矩陣可經歷平方根操作以獲得S矩陣。在一些情況下,音訊編碼器件571E可對於V矩陣執行量化以獲得經量化V矩陣(其可表示為V'矩陣)。
音訊編碼器件571E可藉由首先將S矩陣乘以經量化V'矩陣以產生SV'矩陣來獲得U矩陣。音訊編碼器件571E接下來可獲得SV'矩陣之偽倒數且接著將HOA係數乘以SV'矩陣之偽倒數以獲得U矩陣。藉由對於HOA係數之功率譜密度而非係數自身執行SVD,音訊編碼器件571E可在處理器循環及儲存空間中之一或多者的方面潛在地減小執行SVD之計算複雜度,同時達成相同的源音訊編碼效率,如同SVD係直接應用於HOA係數。
音訊解碼器件573E可類似於上文所描述之彼等音訊解碼器件,除了音訊解碼器件573可自經由將SVD應用於HOA係數之功率譜密度達成的HOA係數之分解而不是直接自HOA係數來重建構HOA係數之外。
圖50A及圖50B各自為說明根據本發明中所描述之技術潛在地縮減背景內容之階數的兩個不同方法中之一者的方塊圖。如圖50之實例中所示,第一方法可使用相對於UBG * SBG * VT向量之階數縮減將階
數自N縮減至,其中小於(<)N。亦即,圖40B至圖40J之實例中所示的階數縮減單元528A可執行階數縮減以截斷或以其他方式將UBG * SBG * VT向量之階數N縮減至,其中小於(<)N。
作為替代方法,如圖50B之實例中所示,階數縮減單元528A可執行關於VT之此截斷,使列消減至(+1)2,其為容易說明的目的在圖40B之實例中未進行說明。換言之,階數縮減單元528A可移除VT矩陣之一或多個階數以實際上產生VBG矩陣。此VBG矩陣之大小為(+1)2×(N+1)2-D,其中接著在產生UBG * SBG * VT向量時使用此VBG矩陣代替VT矩陣,從而有效地執行截斷以產生大小為M×(+1)2之UBG * SBG * VT向量。
圖51為說明可實施本發明中所描述之技術的各種態樣以壓縮球諧係數701的音訊編碼器件700A之獨特分量壓縮路徑之實例的方塊圖。在圖51之實例中,獨特分量壓縮路徑可指代壓縮由SHC 701表示之音場之獨特分量的音訊編碼器件700A之處理路徑。可被稱作背景分量壓縮路徑之另一路徑可表示壓縮SHC 701之背景分量的音訊編碼器件700A之處理路徑。
儘管為容易說明的目的而未圖示,背景分量壓縮路徑可直接關於SHC 701而不是SHC 701之分解進行操作。此類似於上文關於圖49至圖49C所描述之情形,除了背景分量處理路徑可直接關於SHC 701操作(如上文關於圖4之實例中所示的音訊編碼器件20所描述),使用音質編碼器來壓縮此等背景分量,而不是自UBG、SBG及VBG矩陣重組背景分量,且接著執行此等重組背景分量之某一形式的音質編碼(例如,使用AAC編碼器)。藉由執行直接關於SHC 701之音質編碼,與執行關於重組背景分量之音質編碼相比較,可減少不連續性,同時亦減少計算複雜度(在壓縮背景分量所需要之操作方面)。儘管涉及獨特及背景方面,但在本發明中,可使用術語「顯著」代替「獨特」,且可
使用術語「環境」代替「背景」。
在任何情況下,球諧係數701(「SHC 701」)可包含具有M×(N+1)2之大小的係數矩陣,其中M表示音訊訊框中之樣本之數目(及在一些實例中,1024),且N表示係數所對應之基底函數之最高階數。如上文所指出,對於總共1024×25個係數,N通常設定為四(4)。對應於特定階數、子階組合之SHC 701中之每一者可被稱作通道。舉例而言,對應於一階零子階基底函數之所有M個樣本係數可表示通道,而對應於零階零子階基底函數之係數可表示另一通道等。SHC 701在本發明中亦可被稱作高階立體混響(HOA)內容701或SH信號701。
如圖51之實例中所示,音訊編碼器件700A包括分析單元702、基於向量之合成單元704、向量縮減單元706、音質編碼單元708、係數縮減單元710及壓縮單元712(「壓縮器單元712」)。分析單元702可表示經組態以執行關於SHC 701之分析以便識別音場(D)703之獨特分量及背景分量(BGTOT)705之總數的單元。與上文所描述之音訊編碼器件相比較,音訊編碼器件700A並不執行關於SHC 701之分解的此判定,但執行直接關於SHC 701之判定。
基於向量之合成單元704表示經組態以執行關於SHC 701之某一形式的基於向量係合成(諸如SVD、KLT、PCA或任何其他基於向量之合成)以在SVD之例子中產生具有M×(N+1)2之大小的[US]矩陣707及具有(N+1)2×(N+1)2之大小的[V]矩陣709的單元。[US]矩陣707可表示由經由將SVD應用於SHC 701產生之[U]矩陣與[S]矩陣的矩陣相乘產生之矩陣。
向量縮減單元706可表示經組態以縮減[US]矩陣707及[V]矩陣709之向量數目以使得[US]矩陣707及[V]矩陣709之剩餘向量中的每一者識別音場之獨特或顯著分量的單元。向量縮減單元706可執行基於獨特分量D 703之數目的此縮減。獨特分量D 703之數目可實際上表示數
目陣列,其中每一數目識別矩陣707及709之不同獨特向量。向量縮減單元706可輸出大小M×D之經縮減[US]矩陣711及大小(N+1)2 x D之經縮減[V]矩陣713。
儘管為容易說明的目的未圖示,但[V]矩陣709之內插可以類似於上文更詳細地描述之方式的方式在[V]矩陣709之縮減之前出現。此外,儘管為容易說明的目的未圖示,但以上文更詳細地描述之方式重排經縮減[US]矩陣711及/或經縮減[V]矩陣712。因此,技術不應在此等及其他方面受到限制(諸如錯誤投影或上文所描述但在圖51之實例中並未圖示的前述技術之任何其他方面)。
音質編碼單元708表示經組態以執行關於[US]矩陣711之音質編碼以產生位元串流715之單元。係數縮減單元710可表示經組態以縮減經縮減[V]矩陣713之通道的數目之單元。換言之,係數縮減單元710可表示經組態以消除具有極少方向資訊之獨特V向量(其形成經縮減[V]矩陣713)的彼等係數之單元。如上文所描述,在一些實例中,對應於一階及零階基底函數之獨特V向量的彼等係數(上文表示為NBG)提供極少方向資訊且因此可自獨特V向量移除(經由上文被稱作「階數縮減」的縮減)。在此實例中,可提供較大靈活性以不僅自集合[(NBG+1)2+1,(N+1)2]識別對應於NBG之此等係數而且識別額外HOA通道(其可由變數TotalOfAddAmbHOAChan表示)。分析單元702可分析SHC 701以判定BGTOT,其不僅可識別(NBG+1)2而且識別TotalOfAddAmbHOAChan。係數縮減單元710接著可自經縮減[V]矩陣713移除對應於(NBG+1)2及TotalOfAddAmbHOAChan之彼等係數,以產生大小為((N+1)2-(BGTOT)×D之小[V]矩陣717。
壓縮單元712接著可執行上文所指出的純量量化及/或霍夫曼編碼以壓縮小[V]矩陣717,輸出經壓縮小[V]矩陣717作為旁側通道資訊719(「旁側通道資訊(side channel info)719」)。壓縮單元712可以類似
於圖10至圖10O(ii)之實例中所示的方式之方式輸出旁側通道資訊719。在一些實例中,類似於上文所描述之單元的位元串流產生單元可將旁側通道資訊719併入至位元串流715中。此外,在被稱作位元串流715時,如上文所指出,音訊編碼器件700A可包括產生另一位元串流之背景分量處理路徑,其中類似於上文所描述之單元的位元串流產生單元可產生類似於上文所描述之位元串流17的位元串流,該位元串流被可位元串流715及由背景分量處理路徑輸出之位元串流。
根據本發明中所描述之技術,分析單元702可經組態以判定向量之係數的第一非零集合,亦即,在此實例中將用以表示音場之獨特分量的經縮減[V]矩陣713之向量。在一些實例中,分析單元702可判定形成經縮減[V]矩陣713之每一向量的所有係數將包括於旁側通道資訊719中。分析單元702因此可設定BGTOT等於零。
音訊編碼器件700A因此可有效地以與上文關於表示為「經解碼向量」的表所描述之方式互逆的方式起作用。另外,音訊編碼器件700A可指定存取單元之標頭中的語法元素(其可包括一或多個訊框),其中複數個組態模式係選定的。儘管描述為在每存取單元基礎上予以指定,但分析單元702可在每訊框基礎或任何其他週期性基礎或非週期性基礎(諸如整個位元串流一次)上指定此語法元素。在任何情況下,此語法元素可包含指示選擇了四個組態模式中之哪一者用於指定經縮減[V]矩陣713之非零係數集合以表示此獨特分量之方向態樣的兩個位元。該語法元素可表示為「codedVVecLength」。以此方式,音訊編碼器件700A可在位元串流中用信號通知或以其他方式指定使用四個組態模式中之哪一者來在位元串流中指定小[V]矩陣717。儘管關於四個組態模式予以描述,但該等技術不應限於四個組態模式,而應限於任何數目的組態模式,包括單個組態模式或複數個組態模式。
因此,該等技術之各種態樣可使音訊編碼器件700A能夠經組態
以根據以下條項操作。
條項133149-1F。一種器件,其包含:一或多個處理器,該一或多個處理器經組態以選擇藉以指定向量之係數的非零集合之複數個組態模式中之一者,該向量已自描述音場且表示音場之獨特分量的複數個球諧係數分解,且基於該複數個組態模式中之該選定者指定該向量之係數的該非零集合。
條項133149-2F。如條項133149-1F之器件,其中之該複數個組態模式中之該者指示該等係數之該非零集合包括所有該等係數。
條項133149-3F。如條項133149-1F之器件,其中該複數個組態模式中之該者指示係數之該非零集合包括該等係數中之對應於大於該複數個球諧係數中之一或多者所對應的基底函數之階數的階數之彼等係數。
條項133149-4F。如條項133149-1F之器件,其中該複數個組態模式中之該者指示係數之該非零集合包括該等係數中之對應於大於該複數個球諧係數中之一或多者所對應的基底函數之階數的階數之彼等係數,且排除該等係數中之對應於大於該複數個球諧係數中之該一或多者所對應的該基底函數之階數的階數之至少一係數。
條項133149-5F。如條項133149-1F之器件,其中該複數個組態模式中之該者指示係數之該非零集合包括所有該等係數,惟該等係數中之至少一者除外。
條項133149-6F。如條項133149-1F之器件,其中該一或多個處理器經進一步組態以在位元串流中指定該複數個組態模式中之該選定者。
條項133149-1G。一種器件,其包含:一或多個處理器,該一或多個處理器經組態以判定複數個組態模式中之一者,將根據複數個組態模式中之一者提取向量之係數之非零集合,該向量已自描述音場且
表示音場之獨特分量的複數個球諧係數分解,且基於該複數個組態模式中之該獲得者提取該向量之係數的該非零集合。
條項133149-2G。如條項133149-1G之器件,其中之該複數個組態模式中之該者指示該等係數之該非零集合包括所有該等係數。
條項133149-3G。如條項133149-1G之器件,其中該複數個組態模式中之該者指示係數之該非零集合包括該等係數中之對應於大於該複數個球諧係數中之一或多者所對應的基底函數之階數的階數之彼等係數。
條項133149-4G。如條項133149-1G之器件,其中該複數個組態模式中之該者指示係數之該非零集合包括該等係數中之對應於大於該複數個球諧係數中之一或多者所對應的基底函數之階數的階數之彼等係數,且排除該等係數中之對應於大於該複數個球諧係數中之該一或多者所對應的該基底函數之階數的階數之至少一係數。
條項133149-5G。如條項133149-1G之器件,其中該複數個組態模式中之該者指示係數之該非零集合包括所有該等係數,惟該等係數中之至少一者除外。
條項133149-6G。如條項133149-1G之器件,其中該一或多個處理器經進一步組態以當判定該複數個組態模式中之該者時基於在位元串流中用信號通知之值判定該複數個組態模式中之該者。
圖52為說明可實施本發明中所描述之技術的各種態樣以重建構或接近重建構SHC 701之音訊解碼器件750A的另一實例之方塊圖。在圖52之實例中,音訊解碼器件750A類似於圖41D之實例中所示的音訊解碼器件540D,惟提取單元542接收位元串流715'(其類似於上文關於圖51之實例所描述的位元串流715,惟位元串流715'亦包括SHCBG 752之經音訊編碼版本除外)及旁側通道資訊719除外。出於此原因,該提取單元表示為「提取單元542'」。
此外,提取單元542'不同於提取單元542之處在於萃取單元542'包括V解壓縮單元555之經修改形式(其在圖52之實例中展示為「V解壓縮單元555'」)。V解壓縮單元555'接收旁側通道資訊719及表示為codedVVecLength 754之語法元素。提取單元542'自位元串流715'(及在一個實例中,自包括於位元串流715'內之存取單元標頭)剖析codedVVecLength 754。V解壓縮單元555'包括模式組態單元756(「模式組態單元(mode config unit)756」)及可組態以根據之前描述之組態模式760中的任一者操作之剖析單元758。
模式組態單元756接收語法元素754及選擇組態模式760中之一者。模式組態單元756接著用組態模式760中之該選定者組態剖析單元758。剖析單元758表示經組態以根據組態模式760中的任一者操作以自旁側通道資訊719剖析小[V]向量717之壓縮形式的單元。剖析單元758可根據以下表中所呈現的switch語句來操作。
在先前語法表中,具有四種情況(情況0至3)之第一switch語句提供藉以根據係數之數目判定小[V]矩陣717之每一向量的長度之方式。第一情況,情況0,指示用於VT DIST向量之所有係數被指定。第二情況,情況1,指示僅VT DIST向量之對應於大於
MinNumOfCoeffsForAmbHOA之階數的彼等係數被指定,其可表示上文被稱作(NDIST+1)-(NBG+1)之情況。第三情況,情況2,類似於第二情況,但進一步將識別之係數減去NumOfAddAmbHoaChan,其表示用於指定對應於超過階數NBG之階數的額外通道(其中「通道」指對應於某一階數、子階組合之一特定係數)之變數。第四情況,情況3,指示僅VT DIST向量之在移除由NumOfAddAmbHoaChan識別之係數之後所剩餘的彼等係數被指定。
就此而言,音訊解碼器件750A可根據本發明中所描述之技術操作以判定表示音場之獨特分量的向量之係數的第一非零集合,該向量已自描述音場之複數個球諧係數分解。
此外,音訊解碼器件750A可經組態以根據本發明中所描述之技術操作以判定複數個組態模式中之一者,將根據複數個組態模式中之一者提取向量之係數之非零集合,該向量已自描述音場且表示音場之獨特分量的複數個球諧係數分解,且基於該複數個組態模式中之該獲得者提取該向量之係數的該非零集合。
圖53為說明可執行本發明中所描述之技術的各種態樣之音訊編碼器件570之另一實例的方塊圖。在圖53之實例中,音訊編碼器件570可類似於音訊編碼器件510A至510J中的一或多者(其中假定階數縮減單元528A包括在音場分量提取單元20內但為容易說明的目的未圖示)。然而,音訊編碼器件570可包括更一般變換單元572,該變換單元在一些實例中可包含分解單元518。
圖54為更詳細地說明圖53之實例中所示的音訊編碼器件570之實例實施的方塊圖。如圖54之實例中所說明,音訊編碼器件570之變換單元572包括旋轉單元654。音訊編碼器件570之音場分量提取單元520包括空間分析單元650、內容特性分析單元652、提取相干分量單元656及提取擴散分量單元658。音訊編碼器件570之音訊編碼單元514包
括AAC寫碼引擎660及AAC寫碼引擎162。音訊編碼器件570之位元串流產生單元516包括多工器(MUX)164。
表示呈SHC之形式的3D音訊資料所需要之根據位元/秒之頻寬可使其在消費者使用方面係受抑制的。舉例而言,當使用48kHz之取樣速率時,且在32位元/相同解析度的情況下,四階SHC表示係表示36Mbits/秒之頻寬(25×48000×32bps)。當與用於立體聲信號之目前先進技術音訊寫碼(其通常約為100kbits/秒)相比較時,此為較大的數字。圖54之實例中所實施的技術可縮減3D音訊表示之頻寬。
空間分析單元650、內容特性分析單元652及旋轉單元654可接收SHC 511。如在本發明中其他地方所描述,SHC 511可表示音場。在圖54之實例中,空間分析單元650、內容特性分析單元652及旋轉單元654可接收用於音場之四階(n=4)表示的二十五個SHC。
空間分析單元650可分析由SHC 511表示之音場以識別音場之獨特分量且擴散音場之分量。音場之獨特分量為感知為來自可識別的方向或以其他方式不同於音場之背景或擴散分量的聲音。舉例而言,由個別樂器產生之聲音可感知為來自可識別的方向。相比而言,音場之擴散或背景分量未感知為來自可識別的方向。舉例而言,風穿過森林的聲音可為音場之擴散分量。
空間分析單元650可識別試圖識別最佳角度之一或多個獨特分量,藉由該最佳角度旋轉音場以使具有大部分能量之獨特分量的彼等分量與垂直及/或水平軸(關於記錄此音場之假定麥克風)對準。空間分析單元650可識別此最佳角度以使得音場可旋轉,使得此等獨特分量與圖1及圖2之實例中所示的基礎球面基底函數較好地對準。
在一些實例中,空間分析單元650可表示經組態以執行某一形式的擴散分析以識別包括擴散聲音之由SHC 511表示之音場的百分比(擴散聲音可指代具有低層級方向或低階SHC之聲音,意謂彼等SHC 511
具有小於或等於一之階數)。作為一個實例,空間分析單元650可以類似於Ville Pulkki的標題為「Spatial Sound Reproduction with Directional Audio Coding」的論文(公佈於J.Audio Eng.Soc.,第55卷,第6期,日期為2007年6月)中所描述之方式的方式執行擴散分析。在一些情況下,空間分析單元650在執行擴散分析以判定擴散百分比時可僅分析HOA係數之非零子集,諸如SHC 511之零階及一階SHC。
內容特性分析單元652可至少部分基於SHC 511判定該SHC 511是經由音場之自然記錄產生還是由(作為一個實例)諸如PCM物件之音訊物件人工地(亦即,合成地)產生。此外,內容特性分析單元652接著可至少部分基於SHC 511是經由音場之實際記錄產生還是由人工音訊物件產生判定位元串流517中包括之通道的總數。舉例而言,內容特性分析單元652可至少部分基於SHC 511是由實際音場之記錄產生還是由人工音訊物件產生來判定位元串流517將包括十六個通道。通道中的每一者可為單聲道通道。內容特性分析單元652可基於位元串流517之輸出位元率(例如,1.2Mbps)進一步執行對位元串流517中所包括之通道之總數的判定。
另外,內容特性分析單元652可至少部分基於SHC 511是由實際音場之記錄產生還是由人工音訊物件產生來判定有多少通道分配給音場之相干或(換言之)獨特分量,及有多少通道分配給音場之擴散或(換言之)背景分量。舉例而言,當SHC 511是由使用(作為一個實例)Eigenmic記錄實際音場產生的時,內容特性分析單元652可將通道中之三個通道分配給音場之相干分量,且可將剩餘通道分配給音場之擴散分量。在此實例中,當由人工音訊物件產生SHC 511時,內容特性分析單元652可將通道中之五個通道分配給音場之相干分量,且可將剩餘通道分配給音場之擴散分量。以此方式,內容分析區塊(亦
即,內容特性分析單元652)可判定音場之類型(例如,擴散/方向等),且又判定提取之相干/擴散分量之數目。
目標位元率可影響個別AAC寫碼引擎(例如,AAC寫碼引擎660,662)之組件的數目及位元率。換言之,內容特性分析單元652可進一步執行基於位元串流517之輸出位元率(例如1.2Mbps)判定要分配給相干分量之通道數目及要分配給擴散分量之通道數目。
在一些實例中,分配給音場之相干分量的通道的位元率可大於分配給音場之擴散分量的通道之位元率。舉例而言,位元串流517之最大位元率可為1.2Mb/sec。在此實例中,可存在分配給相干分量之四個通道及分配給擴散分量之16個通道。此外,在此實例中,分配給相干分量之通道中的每一者可具有64kb/sec之最大位元率。在此實例中,分配給擴散分量之通道中的每一者可具有48kb/sec之最大位元率。
如上文所指示,內容特性分析單元652可判定SHC 511係自實際音場之記錄還是自人工音訊物件產生。內容特性分析單元652可以各種方式進行此判定。舉例而言,音訊編碼器件570可使用4階SHC。在此實例中,內容特性分析單元652可寫碼24個通道且預測第25個通道(其可表示為向量)。內容特性分析單元652可將純量應用於該24個通道中之至少一些且將所得值相加以判定第25向量。此外,在此實例中,內容特性分析單元652可判定所預測第25個通道之準確度。在此實例中,若所預測第25通道之準確度相對較高(例如,準確度超過特定臨限值),則SHC 511可能係自合成音頻物件產生。相比之下,若所預測第25通道之準確度相對較低(例如,準確度低於特定臨限值),則SHC 511更可能表示所記錄之音場。舉例而言,在此實例中,若第25通道之信雜比(SNR)超過100分貝(db),則SHC 511更可能表示自合成音頻物件產生之音場。相比之下,使用Eigen麥克風記錄之音場的
SNR可為5db至20db。因而,在由自實際直接記錄產生與自合成音頻物件產生之SHC 511表示之音場之間的SNR比率中可存在明顯分界。
此外,內容特性分析單元652可至少部分基於SHC 511係自實際音場之記錄還是自人工音訊物件產生而選擇用於量化V向量之碼簿。換言之,取決於由HOA係數表示之音場係記錄的還是合成的,內容特性分析單元652可選擇供用於量化V向量的不同碼簿。
在一些實例中,內容特性分析單元652可重複地判定SHC 511係自實際音場之記錄還是自人工音訊物件產生。在一些此等實例中,重複基礎可為每一訊框。在其他實例中,內容特性分析單元652可執行此判定一次。此外,內容特性分析單元652可重複地判定相干分量通道及擴散分量通道之通道總數及分配。在一些此等實例中,重複基礎可為每一訊框。在其他實例中,內容特性分析單元652可執行此判定一次。在一些實例中,內容特性分析單元652可重複地選擇供用於量化V向量的碼簿。在一些此等實例中,重複基礎可為每一訊框。在其他實例中,內容特性分析單元652可執行此判定一次。
旋轉單元654可執行HOA係數之旋轉操作。如在本發明中其他處所論述(例如,關於圖55及圖55B),執行旋轉操作可減少表示SHC 511所需的位元之數目。在一些實例中,由旋轉單元652執行之旋轉分析為奇異值分解(「SVD」)分析之例子。主分量分析(「PCA」)、獨立分量分析(「ICA」)及卡忽南-拉維變換(「KLT」)為可能適用的相關技術。
在圖54之實例中,提取相干分量單元656自旋轉單元654接收經旋轉SHC 511。此外,提取相干分量單元656自經旋轉SHC 511提取與音場之相干分量相關聯的彼等經旋轉SHC 511。
此外,提取相干分量單元656產生一或多個相干分量通道。相干分量通道中的每一者可包括與音場之相干係數相關聯的經旋轉SHC
511之不同子集。在圖54之實例中,提取相干分量單元656可產生1至16個相干分量通道。由提取相干分量單元656產生的相干分量通道之數目可藉由由內容特性分析單元652分配給音場之相干分量的通道之數目來判定。由提取相干分量單元656產生的相干分量通道之位元率可藉由內容特性分析單元652加以判定。
類似地,在圖54之實例中,提取擴散分量單元658自旋轉單元654接收經旋轉SHC 511。此外,提取擴散分量單元658自經旋轉SHC 511提取與音場之擴散分量相關聯的彼等經旋轉SHC 511。
此外,提取擴散分量單元658產生一或多個擴散分量通道。擴散分量通道中的每一者可包括與音場之擴散係數相關聯的經旋轉SHC 511之不同子集。在圖54之實例中,提取擴散分量單元658可產生1至9個擴散分量通道。由提取擴散分量單元658產生的擴散分量通道之數目可藉由由內容特性分析單元652分配給音場之擴散分量的通道之數目來判定。由提取擴散分量單元658產生的擴散分量通道之位元率可藉由內容特性分析單元652加以判定。
在圖54之實例中,AAC寫碼單元660可使用AAC編解碼器來對由提取相干分量單元656產生之相干分量通道進行編碼。類似地,AAC寫碼單元662可使用AAC編解碼器來對由提取擴散分量單元658產生之擴散分量通道進行編碼。多工器664(「MUX 664」)可對經編碼相干分量通道及經編碼擴散分量通道連同旁側資料(例如,由空間分析單元650判定之最佳角度)進行多工以產生位元串流517。
以此方式,該等技術之可使音訊編碼器件570能夠判定表示音場之球諧係數是否係自合成音頻物件產生。
在一些實例中,音訊編碼器件570可基於球諧係數是否係自合成音頻物件產生而判定表示音場之獨特分量的球諧係數之子集。在此等及其他實例中,音訊編碼器件570可產生一位元串流以包括球諧係數
之該子集。在一些情況下,音訊編碼器件570可對球諧係數之該子集進行音訊編碼,且產生一位元串流以包括球諧係數之經音訊編碼之子集。
在一些實例中,音訊編碼器件570可基於球諧係數是否係自合成音頻物件產生而判定表示音場之背景分量的球諧係數之子集。在此等及其他實例中,音訊編碼器件570可產生一位元串流以包括球諧係數之該子集。在此等及其他實例中,音訊編碼器件570可對球諧係數之該子集進行音訊編碼,且產生一位元串流以包括球諧係數之經音訊編碼之子集。
在一些實例中,音訊編碼器件570可對於球諧係數執行空間分析以識別要旋轉由球諧係數表示之音場的角度,且執行旋轉操作以將音場旋轉所識別角度以產生經旋轉球諧係數。
在一些實例中,音訊編碼器件570可基於球諧係數是否係自合成音頻物件產生而判定表示音場之獨特分量的球諧係數之第一子集,且基於球諧係數是否係自合成音頻物件產生而判定表示音場之背景分量的球諧係數之第二子集。在此等及其他實例中,音訊編碼器件570可按比用以對球諧係數之第二主題進行音訊編碼之目標位元率高的目標位元率對球諧係數之第一子集進行音訊編碼。
以此方式,該等技術之各種態樣可使音訊編碼器件570能夠根據以下條項判定SCH 511是否係自合成音頻物件產生。
條項132512-1。一種器件,諸如音訊編碼器件570,其包含:其中該一或多個處理器經進一步組態以判定表示音場之球諧係數是否係自合成音頻物件產生。
條項132512-2。如條項132512-1之器件,其中該一或多個處理器經進一步組態以當判定表示音場之球諧係數是否係自合成音頻物件產生時自儲存表示音場之球諧係數之至少一部分的框式球諧係數矩陣排
除第一向量以獲得經縮減框式球諧係數矩陣。
條項132512-3。如條項132512-1之器件,其中該一或多個處理器經進一步組態以當判定表示音場之球諧係數是否係自合成音頻物件產生時自儲存表示音場之球諧係數之至少一部分的框式球諧係數矩陣排除第一向量以獲得經縮減框式球諧係數矩陣,且基於該經縮減框式球諧係數矩陣之剩餘向量預測該經縮減框式球諧係數矩陣之向量。
條項132512-4。如條項132512-1之器件,其中該一或多個處理器經進一步組態以當判定表示音場之球諧係數是否係自合成音頻物件產生時自儲存表示音場之球諧係數之至少一部分的框式球諧係數矩陣排除第一向量以獲得經縮減框式球諧係數矩陣,且至少部分地基於該經縮減框式球諧係數矩陣之剩餘向量的總和預測該經縮減框式球諧係數矩陣之向量。
條項132512-5。如條項132512-1之器件,其中該一或多個處理器經進一步組態以當判定表示音場之球諧係數是否係自合成音頻物件產生時至少部分地基於儲存球諧係數之至少一部分的框式球諧係數矩陣之剩餘向量的總和預測該框式球諧係數矩陣之向量。
條項132512-6。如條項132512-1之器件,其中該一或多個處理器經進一步組態以以當判定表示音場之球諧係數是否係自合成音頻物件產生時至少部分地基於儲存球諧係數之至少一部分的框式球諧係數矩陣之剩餘向量的總和預測該框式球諧係數矩陣之向量,且基於該所預測向量計算一錯誤。
條項132512-7。如條項132512-1之器件,其中該一或多個處理器經進一步組態以當判定表示音場之球諧係數是否係自合成音頻物件產生時至少部分地基於儲存球諧係數之至少一部分的框式球諧係數矩陣之剩餘向量的總和預測該框式球諧係數矩陣之向量,且基於該所預測向量及該框式球諧係數矩陣之對應向量計算一錯誤。
條項132512-8。如條項132512-1之器件,其中該一或多個處理器經進一步組態以當判定表示音場之球諧係數是否係自合成音頻物件產生時至少部分地基於儲存球諧係數之至少一部分的框式球諧係數矩陣之剩餘向量的總和預測該框式球諧係數矩陣之向量,且將一錯誤計算為該所預測向量與該框式球諧係數矩陣之對應向量之差的絕對值之總和。
條項132512-9。如條項132512-1之器件,其中該一或多個處理器經進一步組態以當判定表示音場之球諧係數是否係自合成音頻物件產生時至少部分地基於儲存球諧係數之至少一部分的框式球諧係數矩陣之剩餘向量的總和預測該框式球諧係數矩陣之向量,基於該所預測向量及該框式球諧係數矩陣之對應向量計算一錯誤,基於該框式球諧係數矩陣之對應向量與該錯誤之能量計算一比率,且比較該比率與一臨限值以判定表示音場之球諧係數是否係自合成音頻物件產生。
條項132512-10。如技術方案4至9中之任一者的器件,其中該一或多個處理器經進一步組態以當預測該向量時預測儲存該等球諧係數之至少該部分的框式球諧係數矩陣之第一非零向量。
條項132512-11。如技術方案1至10中任一項之器件,其中該一或多個處理器經進一步組態以在儲存球諧係數之經壓縮版本的位元串流中指定球諧係數是否係自合成音頻物件產生之指示。
條項132512-12。如條項132512-11之器件,其中該指示為單一位元。
條項132512-13。如條項132512-1之器件,其中該一或多個處理器經進一步組態以基於球諧係數是否係自合成音頻物件產生而判定表示音場之獨特分量的球諧係數之子集。
條項132512-14。如條項132512-13之器件,其中該一或多個處理器經進一步組態以產生一位元串流以包括球諧係數之該子集。
條項132512-15。如條項132512-13之器件,其中該一或多個處理器經進一步組態以對球諧係數之該子集進行音訊編碼,且產生一位元串流以包括該等球諧係數之經音訊編碼之子集。
條項132512-16。如條項132512-1之器件,其中該一或多個處理器經進一步組態以基於球諧係數是否係自合成音頻物件產生而判定表示音場之背景分量的球諧係數之子集。
條項132512-17。如條項132512-16之器件,其中該一或多個處理器經進一步組態以產生一位元串流以包括球諧係數之該子集。
條項132512-18。如條項132512-15之器件,其中該一或多個處理器經進一步組態以對球諧係數之該子集進行音訊編碼,且產生一位元串流以包括該等球諧係數之經音訊編碼之子集。
條項132512-18。如條項132512-1之器件,其中該一或多個處理器經進一步組態以對於球諧係數執行空間分析以識別需旋轉由球諧係數表示之音場的角度,且執行一旋轉操作以將該音場旋轉所識別角度以產生經旋轉之球諧係數。
條項132512-20。如條項132512-1之器件,其中該一或多個處理器經進一步組態以基於球諧係數是否係自合成音頻物件產生而判定表示音場之獨特分量的球諧係數之第一子集,且基於球諧係數是否係自合成音頻物件產生而判定表示音場之背景分量的球諧係數之第二子集。
條項132512-21。如條項132512-20之器件,其中該一或多個處理器經進一步組態以按比用以對球諧係數之第二主題進行音訊編碼之目標位元率高的目標位元率對球諧係數之第一子集進行音訊編碼。
條項132512-22。如條項132512-1之器件,其中該一或多個處理器經進一步組態以對於球諧係數執行奇異值分解以產生表示複數個球諧係數之左奇異向量的U矩陣、表示複數個球諧係數之奇異值的S矩
陣及表示複數個球諧係數11之右奇異向量的V矩陣。
條項132512-23。如條項132512-22之器件,其中該一或多個處理器經進一步組態以基於球諧係數是否係自合成音頻物件產生而判定U矩陣、S矩陣及V矩陣中之一或多者的表示音場之獨特分量的彼等部分。
條項132512-24。如條項132512-22之器件,其中該一或多個處理器經進一步組態以基於球諧係數是否係自合成音頻物件產生而判定U矩陣、S矩陣及V矩陣中之一或多者的表示音場之背景分量的彼等部分。
條項132512-1C。一種器件,諸如音訊編碼器件570,其包含:一或多個處理器,該一或多個處理器經組態以基於至少依據球諧係數之向量的能量與基於球諧係數之向量的預測版本及球諧係數之向量而導出的錯誤而計算出的比率判定表示音場之球諧係數是否係自合成音頻物件產生。
在上文所描述的各種情況中的每一者中,應理解,音訊編碼器件570可執行方法或另外包含用以執行音訊編碼器件570經組態以執行的方法之每一步驟的構件。在一些情況下,此等構件可包含一或多個處理器。在一些情況下,該一或多個處理器可表示藉助於儲存至非暫時性電腦可讀儲存媒體之指令組態之專用處理器。換言之,編碼實例之集合中的每一者中的技術之各種態樣可提供其上儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在執行時使得一或多個處理器執行音訊編碼器件570已經組態以執行之方法。
圖55及圖55B為說明執行本發明中所描述之技術的各種態樣以旋轉音場640之實例的圖。圖55為根據本發明中所描述之技術之各種態樣的說明在旋轉前之音場640的圖。在圖55之實例中,音場640包括兩個高壓力位置(表示為位置642A及642B)。此等位置642A及642B(「位
置642」)係位於具有非零斜率(其為參考非水平線之另一方式,此係因為水平線具有零斜率)之線644上。假定位置642除x及y座標之外還具有z座標,可能需要高階球面基底函數來正確地表示此音場640(因為此等高階球面基底函數描述音場之上部及下部或非水平部分)。音訊編碼器件570可旋轉音場640直至連接位置642之線644垂直為止,而非直接將音場640縮減至SHC 511。
圖55B為說明音場640在被旋轉直至連接位置642之線644水平之後的圖。由於以此方式旋轉音場640,所以可導出SHC 511使得SHC 511中之高階SHC被指定為零(假定經旋轉之音場640對於z座標不再具有任何壓力(或能量)位置)。以此方式,音訊編碼器件570可旋轉、平移或更大體而言調整音場640以減少具有非零值之SHC 511的數目。結合該等技術之各種其他態樣,音訊編碼器件570可接著在位元串流517之欄位中用信號通知未用信號通知SHC 511之此等高階SHC,而非用信號通知識別SHC 511之此等高階SHC具有零值之32位元帶正負號數目。音訊編碼器件570亦可常藉由以上文所描述之方式來表達方位角及仰角而在位元串流517中指定指示如何旋轉音場640之旋轉資訊。諸如音訊編碼器件之提取器件可接著暗示SHC 511之此等未用信號通知的SHC具有零值,且當基於SHC 511重現音場640時,執行旋轉以旋轉音場640以使得音場640類似於圖55之實例中所示的音場640。以此方式,音訊編碼器件570可根據本發明中所描述之技術減少需要在位元串流517中指定之SHC 511的數目。
可使用「空間壓縮」演算法來判定音場之最佳旋轉。在一個實施例中,音訊編碼器件570可執行該演算法以迭代經過所有可能之方位角及仰角組合(亦即,在以上之實例中為1024x512個組合),從而針對每一組合來旋轉音場且計算高於臨限值之SHC 511的數目。可將產生最小數目的高於臨限值之SHC 511之方位角/仰角候選者組合視為可
稱作「最佳旋轉」之組合。在此經旋轉形式中,音場可能需要最小數目之SHC 511以用於表示音場且可因而被視為壓縮的。在一些情況下,調整可包含此最佳旋轉且上文所描述之調整資訊可包括此旋轉(其可稱為「最佳旋轉」)資訊(就方位角及仰角而言)。
在一些例子中,音訊編碼器件570可以(作為一個實例)尤拉(Euler)角之形式來指定額外角,而非僅指定方位角及仰角。尤拉角指定關於z軸、以前之x軸及以前之z軸的旋轉角度。雖然在本發明中係關於方位角及仰角之組合加以描述,但本發明之技術不應受限於僅指定方位角及仰角,而是可包括指定任何數目之角(包括上文所提及之三個尤拉角)。在此意義上,音訊編碼器件570可旋轉音場以減少提供與描述音場相關之資訊的複數個階層元素之數目且在位元串流中將尤拉角指定為旋轉資訊。如上文所指出,尤拉角可描述如何旋轉音場。當使用尤拉角時,位元串流提取器件可剖析位元串流以判定包括尤拉角之旋轉資訊,且當基於提供與描述音場相關之資訊的彼等複數個階層元素來重現音場時基於尤拉角來旋轉音場。
此外,在一些情況下,音訊編碼器件570可指定與指定旋轉之一或多個角度之預定義組合相關聯的索引(其可稱作「旋轉索引」),而非在位元串流517中顯式地指定此等角。換言之,在一些情況下,旋轉資訊可包括旋轉索引。在此等情況下,旋轉索引之給定值(諸如,零值)可指示未執行旋轉。可關於旋轉表來使用此旋轉索引。亦即,音訊編碼器件570可包括一旋轉表,該旋轉表包含針對方位角及仰角之組合中之每一者的項。
或者,旋轉表可包括針對表示方位角及仰角之每一組合的每一矩陣變換之項。亦即,音訊編碼器件570可儲存旋轉表,該旋轉表具有針對用於將音場旋轉方位角及仰角之組合中之每一組合的每一矩陣變換之項。通常,音訊編碼器件570接收SHC 511且當執行旋轉時根
據以下方程式來導出SHC 511':
在以上方程式中,將SHC 511'計算為以下三者之函數:用於依據第二參考座標來編碼音場之編碼矩陣(EncMat 2 );用於將SHC 511恢復至依據第一參考座標的音場的反矩陣(InvMat 1 );及SHC 511。EncMat 2 具有大小25x32,而InvMat 1 具有大小32x25。SHC 511'與SHC 511兩者均具有大小25,其中SHC 511'可歸因於移除了不指定突出音訊資訊的彼等SHC而得以進一步縮減。EncMat 2 可針對每一方位角及仰角組合而變化,而InvMat 1 可關於每一方位角及仰角組合而保持不變。旋轉表可包括儲存將每一不同EncMat 2 與InvMat 1 相乘之結果的項。
圖56為說明根據第一參考座標捕獲之實例音場的圖,該第一參考座標接著根據本發明中所描述之技術旋轉以依據第二參考座標表達音場。在圖56之實例中,在假定第一參考座標的情況下捕獲包圍Eigen麥克風646之音場,該第一參考座標在圖56之實例中由X1、Y1及Z1軸表示。SHC 511依據此第一參考座標來描述音場。InvMat 1 將SHC 511變換回至音場,從而在圖56之實例中使得能夠將音場旋轉至由X2、Y2及Z2軸所表示之第二參考座標。上文所描述之EncMat 2 可旋轉音場並產生依據第二參考座標來描述此經旋轉之音場的SHC 511'。
在任何情況下,可如下導出以上方程式。假定用某一座標系統來記錄音場,使得前方被視為x軸之方向,自此參考座標系統來定義Eigen麥克風(或其他麥克風組態)之32個麥克風位置。可接著將音場之旋轉視為此參考座標之旋轉。對於所假定之參考座標而言,可如下計算SHC 511:
在以上方程式中,表示在第i麥克風(其中在此實例中,i可為1-32)之位置(Pos i )處的球面基底函數。mic i 向量表示時間t的第i麥克風之麥克風信號。位置(Pos i )指麥克風在第一參考座標(亦即,在此實例中為在旋轉前之參考座標)中之位置。
可替代地依據上文所表示之數學表示式來將以上方程式表達為:[SHC_27]=[E s (θ,φ)][m i (t)]。
為了旋轉音場(或在第二參考座標中),將在第二參考座標中計算位置(Pos i )。只要原始麥克風信號存在,便可任意地旋轉音場。然而,原始麥克風信號(mic i (t))常不可獲得。問題接著可為如何自SHC 511擷取麥克風信號(mic i (t))。若使用T設計(如在32麥克風Eigen麥克風中),則可藉由求解以下方程式來達成此問題之解決方案:
此InvMat 1 可指定根據麥克風之位置(如關於第一參考座標所指定)所計算之球諧基底函數。亦可將此方程式表達為[m i (t)]=[E s (θ,φ)]-1[SHC],如上文所指出。
一旦根據以上方程式擷取麥克風信號(mic i (t)),便可旋轉描述音場之該等麥克風信號(mic i (t))以計算對應於第二參考座標之SHC 511',從而產生以下方程式:
EncMat 2 指定來自旋轉位置(Pos i ')之球諧基底函數。以此方式,
EncMat 2 可有效地指定方位角及仰角之組合。因此,當旋轉表針對方
位角及仰角之每一組合來儲存之結果時,旋轉表有效地指定方位角及仰角之每一組合。亦可將以上方程式表達為:[SHC 27']=[E s (θ 2,φ 2)][E s (θ 1,φ 1)]-1[SHC 27],其中θ 2,φ 2表示不同於由θ 1,φ 1表示之第一方位角及仰角的第二方位角及第二仰角。θ 1,φ 1對應於第一參考座標,而θ 2,φ 2對應於第二參考座標。InvMat 1 可因此對應於[E s (θ 1,φ 1)]-1,而EncMat 2 可對應於[E s (θ 2,φ 2)]。
以上可表示不考慮濾波操作(上文在表示在頻域中導出SHC 511之各種方程式中由j n (.)函數表示,該j n (.)函數指n階球面貝塞耳函數)之計算的更簡化版本。在時域中,此j n (.)函數表示特定針對一特定階數n之濾波操作。在進行濾波的情況下,可按階數執行旋轉。為進行說明,考慮以下方程式:
自此等方程式,分開地完成數個階數之經旋轉之SHC 511',此係因為對於每一階數而言b n (t)係不同的。結果,可如下變更以上方程式以用於計算經旋轉之SHC 511'中的一階者:
假定存在三個一階SHC 511,在以上方程式中SHC 511'及SHC 511向量中之每一者的大小為三。同樣地,對於二階而言,可應用以下方程式:
再次,假定存在五個二階SHC 511,在以上方程式中SHC 511'及
SHC 511向量中之每一者的大小為五。對於其他階(亦即,三階及四階)而言,剩餘方程式可類似於上文所描述之方程式,其關於矩陣之大小而遵循相同型樣(因為EncMat 2 之列數、InvMat 1 之行數以及三階SHC 511及SHC 511'向量與四階SHC 511及SHC 511'向量之大小等於三階球諧基底函數及四階球諧基底函數中之每一者之子階的數目(m乘二加1))。
音訊編碼器件570可因此關於方位角及仰角之每一組合來執行此旋轉操作以嘗試識別所謂之最佳旋轉。在執行此旋轉操作之後,音訊編碼器件570可計算高於臨限值之SHC 511'之數目。在一些情況下,音訊編碼器件570可在一持續時間(諸如,一音訊訊框)內執行此旋轉以導出表示音場之一系列SHC 511'。藉由在此持續時間內執行此旋轉以導出表示音場之一系列SHC 511',音訊編碼器件570可在小於一訊框或其他長度之持續時間中減少不得不執行之旋轉操作的數目(與針對描述音場之每一組SHC 511來完成此旋轉操作相比)。在任何情況下,音訊編碼器件570可貫穿此過程來節省彼等SHC 511',從而具有最小數目的大於臨限值之SHC 511'。
然而,關於方位角及仰角之每一組合來執行此旋轉操作可為處理器密集型或耗時的。結果,音訊編碼器件570可不執行可被特徵化為旋轉演算法之此「蠻力」實施的過程。替代性地,音訊編碼器件570可關於大體提供優良壓縮的方位角及仰角之可能已知(按統計而言)組合之子集來執行旋轉,關於此子集中之組合周圍的組合來執行進一步旋轉,從而與子集中之其他組合相比提供更好的壓縮。
作為另一替代例,音訊編碼器件570可僅關於組合之已知子集來執行此旋轉。作為另一替代例,音訊編碼器件570可遵循組合之軌跡(空間上),關於組合之此軌跡來執行旋轉。作為另一替代例,音訊編碼器件570可指定一壓縮臨限值,該壓縮臨限值定義具有高於臨限值
之非零值的SHC 511'之最大數目。此壓縮臨限值可有效地設定搜尋的停止點,使得當音訊編碼器件570執行旋轉且判定具有高於所設定臨限值之值的SHC 511'之數目小於或等於(或在一些情況下小於)壓縮臨限值時,音訊編碼器件570停止關於剩餘組合來執行任何額外旋轉操作。作為又一替代例,音訊編碼器件570可橫越組合之階層配置樹(或其他資料結構),關於當前組合來執行旋轉操作且取決於具有大於臨限值之非零值的SHC 511'之數目而橫越該樹至右邊或左邊(例如,對於二進位樹而言)。
在此意義上,此等替代例中之每一者涉及執行第一及第二旋轉操作且比較執行第一及第二旋轉操作之結果以識別產生最小數目之具有大於臨限值之非零值之SHC 511'的第一及第二旋轉操作中之一者。因此,音訊編碼器件570可對音場執行第一旋轉操作以根據第一方位角及第一仰角來旋轉音場,且判定提供與描述音場相關之資訊的複數個階層元素之第一數目,該複數個階層元素表示根據第一方位角及第一仰角所旋轉之音場。音訊編碼器件570亦可對音場執行第二旋轉操作以根據第二方位角及第二仰角來旋轉音場,且判定提供與描述音場相關之資訊的複數個階層元素之第二數目,該複數個階層元素表示根據第二方位角及第二仰角所旋轉之音場。此外,音訊編碼器件570可基於複數個階層元素之第一數目與複數個階層元素之第二數目的比較來選擇第一旋轉操作或第二旋轉操作。
在一些例子中,可關於持續時間來執行旋轉演算法,其中對旋轉演算法之後續調用可基於對旋轉演算法之過去調用來執行旋轉操作。換言之,旋轉演算法可基於在旋轉音場歷時先前持續時間時所判定的過去旋轉資訊而為自適應性的。舉例而言,音訊編碼器件570可旋轉音場歷時第一持續時間(例如,一音訊訊框)以識別針對此第一持續時間的SHC 511'。音訊編碼器件570可以上文所描述之方式中之任
一者而在位元串流517中指定旋轉資訊及SHC 511'。可將此旋轉資訊稱作第一旋轉資訊,此係因為其描述音場在第一持續時間中的旋轉。音訊編碼器件570可接著基於此第一旋轉資訊來旋轉音場歷時第二持續時間(例如,第二音訊訊框)以識別針對此第二持續時間的SHC 511'。當在第二持續時間內執行第二旋轉操作時,音訊編碼器件570可利用此第一旋轉資訊以初始化對方位角及仰角之「最佳」組合的搜尋(作為一個實例)。音訊編碼器件570可接著在位元串流517中指定SHC 511'及針對第二持續時間之對應旋轉資訊(其可稱作「第二旋轉資訊」)。
雖然上文係關於藉以實施旋轉演算法以減少處理時間及/或消耗之若干不同方式加以描述,但該等技術可關於可減少或以其他方式加速對可稱作「最佳旋轉」之旋轉之識別的任何演算法加以執行。此外,可關於識別非最佳旋轉但可在其他態樣中改良效能(常依據速度或處理器或其他資源利用率來量測)的任何演算法來執行該等技術。
圖57A至圖57E各自為說明根據本發明中所描述之技術形成的位元串流517A至517E之圖。在圖57A之實例中,位元串流517A可表示上圖53中所示之位元串流517的一個實例。位元串流517A包括SHC存在欄位670及儲存SHC 511'之欄位(其中該欄位被表示為「SHC 511'」)。SHC存在欄位670可包括對應於SHC 511中之每一者的位元。SHC 511'可表示在位元串流中被指定之彼等SHC 511,SHC 511'之數目可小於SHC 511之數目。通常,SHC 511'中之每一者為具有非零值之彼等SHC 511。如上文所提及,對於任一給定音場之四階表示而言,需要(1+4)2或25個SHC。消除此等SHC中之一或多者並用單一位元來代替此等零值SHC可節省31個位元,該等位元可經分配以更詳細地表達音場之其他部分或者被移除以促進高效的頻寬利用。
在圖57B之實例中,位元串流517B可表示上圖53中所示之位元串
流517的一個實例。位元串流517B包括變換資訊欄位672(「變換資訊672」)及儲存SHC 511'之欄位(其中該欄位被表示為「SHC 511'」)。如上文所提及,變換資訊672可包含平移資訊、旋轉資訊及/或表示對音場之調整的任何其他形式之資訊。在一些情況下,變換資訊672亦可指定在位元串流517B中被指定為SHC 511'的SHC 511之最高階。亦即,變換資訊672可指示階數三,提取器件可將該階數理解為指示SHC 511'包括多達且包括具有階數三之彼等SHC 511的彼等SHC 511。提取器件可接著經組態以將具有四或更高之階的SHC 511設定至零,藉此潛在地在位元串流中移除階數為四或更高之SHC 511之顯式發信。
在圖57C之實例中,位元串流517C可表示上圖53中所示之位元串流517的一個實例。位元串流517C包括變換資訊欄位672(「變換資訊672」)、SHC存在欄位670及儲存SHC 511'之欄位(其中該欄位被表示為「SHC 511'」)。SHC存在欄位670可顯式地用信號通知SHC 511中之哪些在位元串流517C中被指定為SHC 511',而非經組態以理解哪一階之SHC 511未被用信號通知(如上文關於圖57B所描述)。
在圖57D之實例中,位元串流517D可表示上圖53中所示之位元串流517的一個實例。位元串流517D包括階數欄位674(「階數60」)、SHC存在欄位670、方位角旗標676(「AZF 676」)、仰角旗標678(「ELF 678」)、方位角欄位680(「方位角680」)、仰角欄位682(「仰角682」)及儲存SHC 511'之欄位(其中,再次,該欄位被表示為「SHC 511'」)。階數欄位674指定SHC 511'之階數(亦即,以上針對用以表示音場之球面基底函數之最高階由n表示的階)。階數欄位674經展示為8位元欄位,但可具有其他各種位元大小,諸如三(其為指定四階所需之位元的數目)。SHC存在欄位670經展示為25位元欄位。然而,再次,SHC存在欄位670可具有其他各種位元大小。SHC存在欄
位670經展示為25位元以指示SHC存在欄位670可針對對應於音場之四階表示的球諧係數中之每一者而包括一個位元。
方位角旗標676表示1位元旗標,其指定方位角欄位680是否存在於位元串流517D中。當方位角旗標676被設定至一時,SHC 511'之方位角欄位680存在於位元串流517D中。當方位角旗標676被設定至零時,SHC 511'之方位角欄位680不存在於位元串流517D中或以其他方式在位元串流517D中未被指定。同樣地,仰角旗標678表示1位元旗標,其指定仰角欄位682是否存在於位元串流517D中。當仰角旗標678被設定至一時,SHC 511'之仰角欄位682存在於位元串流517D中。當仰角旗標678被設定至零時,SHC 511'之仰角欄位682不存在於位元串流517D中或以其他方式在位元串流517D中未被指定。雖然被描述為:一用信號表示對應之欄位存在且零用信號表示對應之欄位不存在,但可將慣例反轉使得零指定對應之欄位在位元串流517D中被指定且一指定對應之欄位在位元串流517D中未被指定。因此,就此而言,本發明中所描述之技術不應受限。
方位角欄位680表示10位元欄位,其當存在於位元串流517D中時指定方位角。雖然被展示為10位元欄位,但方位角欄位680可具有其他位元大小。仰角欄位682表示9位元欄位,其當存在於位元串流517D中時指定仰角。分別在欄位680及682中所指定之方位角及仰角可結合旗標676及678來表示上文所描述之旋轉資訊。此旋轉資訊可用以旋轉音場以便在原始參考座標中恢復SHC 511。
SHC 511'欄位經展示為具有大小X之可變欄位。SHC 511'欄位可歸因於在位元串流中被指定之SHC 511'的數目(如由SHC存在欄位670所表示)而變化。可將大小X導出作為SHC存在欄位670中之一的數目乘32位元(其為每一SHC 511'之大小)的函數。
在圖57E之實例中,位元串流517E可表示上圖53中所示之位元串
流517的另一實例。位元串流517E包括階數欄位674(「階數60」)、SHC存在欄位670及旋轉索引欄位684,以及儲存SHC 511'之欄位(其中,再次,該欄位被表示為「SHC 511'」)。階數欄位674、SHC存在欄位670及SHC 511'欄位可實質上類似於上文所描述之彼等欄位。旋轉索引欄位684可表示用以指定仰角及方位角之1024x512(或換言之,524288)個組合中之一者的20位元欄位。在一些情況下,僅可使用19位元來指定此旋轉索引欄位684,且音訊編碼器件570可在位元串流中指定一額外旗標以指示是否執行旋轉操作(且因此旋轉索引欄位684是否存在於位元串流中)。此旋轉索引欄位684指定上文所提及之旋轉索引,該旋轉索引可指在為音訊編碼器件570與位元串流提取器件兩者所共有之旋轉表中的項。在一些情況下,此旋轉表可儲存方位角及仰角之不同組合。或者,旋轉表可儲存上文所描述之矩陣,其有效地以矩陣形式來儲存方位角及仰角之不同組合。
圖58為說明圖53之實例中所示的音訊編碼器件570實施本發明中所描述之技術的旋轉態樣之實例操作的流程圖。最初,音訊編碼器件570可根據上文所描述之各種旋轉演算法中之一或多者來選擇方位角及仰角組合(800)。音訊編碼器件570可接著根據所選之方位角及仰角來旋轉音場(802)。如上文所描述,音訊編碼器件570可首先使用上文所提及之InvMat 1 自SHC 511導出音場。音訊編碼器件570亦可判定表示經旋轉之音場的SHC 511'(804)。雖然被描述為分開之步驟或操作,但音訊編碼器件570可應用表示對方位角及仰角組合之選擇的變換(其可表示[EncMat 2 ][InvMat 1 ]之結果),從而自SHC 511導出音場,旋轉音場,且判定表示經旋轉之音場的SHC 511'。
在任何情況下,音訊編碼器件570可接著計算大於臨限值之所判定之SHC 511'的數目,將此數目與針對關於先前方位角及仰角組合之先前迭代所計算的數目相比較(806、808)。在關於第一方位角及仰角
組合之第一迭代中,此比較可相對於一預定義之先前數目(其可設定至零)。在任何情況下,若SHC 511'之所判定之數目小於先前數目(「是」808),則音訊編碼器件570儲存SHC 511'、方位角及仰角,常替換自旋轉演算法之先前迭代所儲存之先前SHC 511'、方位角及仰角(810)。
若SHC 511'之所判定之數目不小於先前數目(「否」808)或在儲存代替先前所儲存之SHC 511'、方位角及仰角的SHC 511'、方位角及仰角之後,音訊編碼器件570可判定旋轉演算法是否已完成(812)。亦即,作為一個實例,音訊編碼器件570可判定是否已評估方位角及仰角之所有可用組合。在其他實例中,音訊編碼器件570可判定是否滿足其他準則(諸如,已執行了組合之已定義子集的全部,是否已橫越一給定軌跡,是否已橫越階層樹至葉節點等),使得音訊編碼器件570已完成執行旋轉演算法。若未完成(「否」812),則音訊編碼器件570可關於另一所選組合來執行以上過程(800至812)。若已完成(「是」812),則音訊編碼器件570可以上文所描述之各種方式中之一者而在位元串流517中指定所儲存之SHC 511'、方位角及仰角(814)。
圖59為說明在圖53之實例中所示之音訊編碼器件570在執行本發明中所描述之技術之變換態樣時之實例操作的流程圖。最初,音訊編碼器件570可選擇表示線性可逆變換之矩陣(820)。表示線性可逆變換之矩陣的一個實例可為上文所示之矩陣,其為[EncMat 1 ][IncMat 1 ]之結果。音訊編碼器件570可接著將矩陣應用於音場以變換音場(822)。音訊編碼器件570亦可判定表示經旋轉之音場的SHC 511'(824)。雖然被描述為分開之步驟或操作,但音訊編碼器件570可應用變換(其可表示[EncMat2][InvMat 1 ]之結果),從而自SHC 511導出音場,變換音場,且判定表示所變換之音場的SHC 511'。
在任何情況下,音訊編碼器件570可接著計算大於臨限值之所判
定之SHC 511'的數目,從而將此數目與針對關於變換矩陣之先前應用之先前迭代所計算的數目相比較(826,828)。若SHC 511'之所判定之數目小於先前數目(「是」828),則音訊編碼器件570儲存SHC 511'及矩陣(或其某一導數,諸如與矩陣相關聯之索引),常替換自旋轉演算法之先前迭代所儲存的先前SHC 511'及矩陣(或其導數)(830)。
若SHC 511'之所判定數目不小於先前數目(「否」828)或在儲存代替先前所儲存之SHC 511'及矩陣的SHC 511'及矩陣之後,音訊編碼器件570可判定變換演算法是否已完成(832)。亦即,作為一個實例,音訊編碼器件570可判定是否已評估所有可用變換矩陣。在其他實例中,音訊編碼器件570可判定是否滿足其他準則(諸如,已執行了可用變換矩陣之已定義子集的全部,是否已橫越一給定軌跡,是否已橫越階層樹至葉節點等),使得音訊編碼器件570已完成執行變換演算法。若未完成(「否」832),則音訊編碼器件570可關於另一所選之變換矩陣來執行以上過程(820至832)。若已完成(「是」832),則音訊編碼器件570可以上文所描述的各種方式中之一者指定在位元串流517中儲存的SHC 511'及矩陣(834)。
在一些實例中,變換演算法可執行單一迭代,從而評估單一變換矩陣。亦即,變換矩陣可包含表示線性可逆變換之任何矩陣。在一些例子中,線性可逆變換可將音場自空間域變換至頻域。此線性可逆變換之實例可包括離散傅里葉變換(DFT)。DFT之應用可僅涉及單一迭代且因此將不一定包括用以判定是否已完成變換演算法的步驟。因此,該等技術不應受限於圖59之實例。
換言之,線性可逆變換之一個實例為離散傅里葉變換(DFT)。可根據DFT對二十五個SHC 511'操作以形成一組二十五個複數係數。音訊編碼器件570亦可將二十五個SHC 511'零填補為2之整數倍,以便潛在地增加DFT之區間(bin)大小的解析度,且潛在地具有DFT之更高
效實施(例如,經由應用快速傅里葉變換(FFT))。在一些例子中,未必需要將DFT之解析度增加超過25個點。在變換域中,音訊編碼器件570可應用一用以判定在特定區間中是否存在任何頻譜能量的臨限值。在此內容脈絡中,音訊編碼器件570可接著捨棄或零化低於此臨限值之頻譜係數能量,且音訊編碼器件570可應用逆變換以恢復一或多個SHC 511'被捨棄或零化的SHC 511'。亦即,在應用逆變換之後,低於臨限值之係數不存在,且結果,可使用較少位元來對音場進行編碼。
在一或多個實例中,所描述之功能可實施於硬體、軟體、韌體或其任何組合中。若實施於軟體中,則功能可作為一或多個指令或程式碼而儲存於電腦可讀媒體上或經由電腦可讀媒體而傳輸,且藉由基於硬體之處理單元執行。電腦可讀媒體可包括電腦可讀儲存媒體(其對應於諸如資料儲存媒體之有形媒體)或通信媒體,通信媒體包括(例如)根據通信協定促進電腦程式自一處傳送至另一處的任何媒體。以此方式,電腦可讀媒體大體上可對應於:(1)非暫時性之有形電腦可讀儲存媒體;或(2)諸如信號或載波之通信媒體。資料儲存媒體可為可由一或多個電腦或一或多個處理器存取以擷取用於實施本發明中所描述之技術之指令、程式碼及/或資料結構的任何可用媒體。電腦程式產品可包括電腦可讀媒體。
藉由實例且非限制,此等電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器,或其他磁性儲存器件、快閃記憶體,或可用以儲存呈指令或資料結構之形式的所要程式碼且可由電腦存取的任何其他媒體。又,將任何連接恰當地稱為電腦可讀媒體。舉例而言,若使用同軸電纜、光纜、雙絞線、數位用戶線(DSL)或無線技術(諸如,紅外線、無線電及微波)而自網站、伺服器或其他遠端源傳輸指令,則同軸電纜、光纜、雙絞線、
DSL或無線技術(諸如,紅外線、無線電及微波)包括於媒體之定義中。然而,應理解,電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他瞬間媒體,而是改為係關於非瞬間之有形儲存媒體。如本文中所使用,磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位影音光碟(DVD)、軟性磁碟及藍光光碟,其中磁碟通常以磁性方式再生資料,而光碟藉由雷射以光學方式再生資料。以上各物之組合亦應包括於電腦可讀媒體之範疇內。
可由諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效整合或離散邏輯電路之一或多個處理器來執行指令。因此,如本文中所使用之術語「處理器」可指上述結構或適於實施本文中所描述之技術之任何其他結構中的任一者。另外,在一些態樣中,可將本文中所描述之功能性提供於經組態以用於編碼及解碼之專用硬體及/或軟體模組內,或併入於組合式編碼解碼器中。又,該等技術可完全實施於一或多個電路或邏輯元件中。
本發明之技術可以廣泛多種器件或裝置予以實施,該等器件或裝置包括無線手機、積體電路(IC)或一組IC(例如,晶片集)。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術的器件之功能態樣,但未必要求藉由不同硬體單元來實現。相反地,如上文所描述,可將各種單元組合於編碼解碼器硬體單元中,或藉由結合合適之軟體及/或韌體的互操作性硬體單元(包括如上文所描述之一或多個處理器)之集合來提供該等單元。
已描述該等技術之各種實施例。該等技術之此等及其他態樣係在以下申請專利範圍之範疇內。
11‧‧‧HOA係數
20‧‧‧音訊編碼器件
21‧‧‧位元串流
26‧‧‧內容分析單元
27‧‧‧基於向量之合成單元
28‧‧‧基於方向之合成單元
30‧‧‧線性可逆變換(LIT)單元
32‧‧‧參數計算單元
33‧‧‧US[k]向量/US[k]矩陣
33'‧‧‧US[k]矩陣/經重排序之US[k]向量
34‧‧‧重排序單元
35‧‧‧V[k]矩陣
35'‧‧‧V[k]矩陣/經重排序之V[k]向量
36‧‧‧前景選擇單元
37‧‧‧當前訊框參數
38‧‧‧能量補償單元
39‧‧‧前一訊框參數
40‧‧‧音質音訊寫碼器單元
41‧‧‧目標位元率
42‧‧‧位元串流產生單元
43‧‧‧背景通道資訊
44‧‧‧音場分析單元
45‧‧‧前景通道之總數/nFG
46‧‧‧係數縮減單元
47‧‧‧背景或環境HOA係數
47'‧‧‧能量經補償之背景HOA係數
48‧‧‧背景(BG)選擇單元
49‧‧‧nFG信號/前景US[k]向量
49'‧‧‧經內插nFG信號
50‧‧‧空間-時間內插單元
51 k ‧‧‧前景V[k]向量
51 k-1‧‧‧前景V[k-1]向量
52‧‧‧量化單元
53‧‧‧前景V[k]向量
55‧‧‧經縮減前景V[k]向量/經縮減前景V[k-1]向量
57‧‧‧經寫碼前景V[k]向量/經寫碼前景方向資訊
59‧‧‧經編碼背景HOA係數
61‧‧‧經編碼nFG信號
Claims (25)
- 一種方法,其包含:對於複數個球諧係數執行一基於向量之合成以產生表示一或多個音訊物件及對應方向資訊之該複數個球諧係數的分解表示,其中該等球諧係數與一階數相關聯且描述一音場;自該方向資訊判定獨特方向資訊及背景方向資訊;縮減與該等背景音訊物件相關聯之該方向資訊之一階數以產生經變換背景方向資訊;應用補償以增加該經變換方向資訊之值以保留該音場之一總體能量。
- 如請求項1之方法,其中執行該基於向量之合成包含對於複數個球諧係數執行一奇異值分解以產生表示該等音訊物件之一U矩陣及一S以及表示該方向資訊之一V矩陣,其中判定該獨特方向資訊及該背景方向資訊包含判定該V矩陣之獨特行向量及該V矩陣之背景行向量;其中縮減該方向資訊之該階數包含縮減該V矩陣之該等背景行向量之一階數以產生該V矩陣之經變換背景行向量;且其中應用補償包含應用補償以增加該V矩陣之該等經變換背景行向量之值以保留該音場之一總體能量。
- 如請求項2之方法,判定該S矩陣之突出奇異值之一數目,其中該V矩陣之該等獨特行向量之一數目為該S矩陣之突出奇異值的該數目。
- 如請求項2之方法,其中縮減該V矩陣之該等背景行向量之該階數包含: 判定該等球諧係數之一經縮減階數;及零化該V矩陣之該等背景行向量的與大於該經縮減階數之一階數相關聯的列之值。
- 如請求項2之方法,其進一步包含:組合該U矩陣之背景行、該S矩陣之背景行及該V矩陣之該等經變換背景行之一轉置以產生經修改球諧係數。
- 如請求項2之方法,其中該等經修改球諧係數描述該音場之一或多個背景分量。
- 如請求項2之方法,其中應用補償以增加該V矩陣之該等經變換背景行向量之值包含:判定該V矩陣之該等背景行向量中之一向量的一第一能量及該V矩陣之該等經變換背景行向量中之一向量的一第二能量;及將一放大值應用於該V矩陣之該等經變換背景行向量中之該向量的每一元素,其中該放大值包含該第一能量與該第二能量之一比率。
- 如請求項2之方法,其中應用補償以增加該V矩陣之該等經變換背景行向量之值包含:判定該V矩陣之該等背景行向量中之一向量的一第一均方根能量及該V矩陣之該等經變換背景行向量中之一向量的一第二均方根能量;及將一放大值應用於該V矩陣之該等經變換背景行向量中之該向量的每一元素,其中該放大值包含該第一能量與該第二能量之一比率。
- 一種器件,其包含:一或多個處理器,該一或多個處理器經組態以進行以下操作:對於複數個球諧係數執行一基於向量之合成以產生表示一 或多個音訊物件及對應方向資訊之該複數個球諧係數的分解表示,其中該等球諧係數與一階數相關聯且描述一音場;自該方向資訊判定獨特方向資訊及背景方向資訊;縮減與該等背景音訊物件相關聯之該方向資訊之一階數以產生經變換背景方向資訊;應用補償以增加該經變換方向資訊之值以保留該音場之一總體能量。
- 如請求項9之器件,其中該一或多個處理器經組態以進行以下操作:對於複數個球諧係數執行一奇異值分解以產生表示該等音訊物件之一U矩陣及一S矩陣以及表示該方向資訊之一V矩陣;判定該V矩陣之獨特行向量及該V矩陣之背景行向量;縮減該V矩陣之該等背景行向量之一階數以產生該V矩陣之經變換背景行向量;及應用該補償以增加該V矩陣之該等經變換背景行向量之值以保留該音場之一總體能量。
- 如請求項10之器件,其中該一或多個處理器經進一步組態以判定該S矩陣之突出奇異值之一數目,其中該V矩陣之該等獨特行向量之一數目為該S矩陣之突出奇異值之該數目。
- 如請求項10之器件,其中該一或多個處理器經組態以判定該等球諧係數之一經縮減階數,且零化該V矩陣之該等背景行向量的與大於該經縮減階數之一階數相關聯的列之值。
- 如請求項10之器件,其中該一或多個處理器經進一步組態以組合該U矩陣之背景行、該S矩陣之背景行及該V矩陣之該等經變換背景行之一轉置以產生經修改球諧係數。
- 如請求項10之器件,其中該等經修改球諧係數描述該音場之一或多個背景分量。
- 如請求項10之器件,其中該一或多個處理器經組態以判定該V矩 陣之該等背景行向量中之一向量的一第一能量及該V矩陣之該等經變換背景行向量中之一向量的一第二能量,且將一放大值應用於該V矩陣之該等經變換背景行向量中之該向量的每一元素,其中該放大值包含該第一能量與該第二能量之一比率。
- 如請求項10之器件,其中該一或多個處理器經組態以判定該V矩陣之該等背景行向量中之一向量的一第一均方根能量及該V矩陣之該等經變換背景行向量中之一向量的一第二均方根能量,且將一放大值應用於該V矩陣之該等經變換背景行向量中之該向量的每一元素,其中該放大值包含該第一能量與該第二能量之一比率。
- 一種器件,其包含:用於對於複數個球諧係數執行一基於向量之合成以產生表示一或多個音訊物件及對應方向資訊之該複數個球諧係數的分解表示之構件,其中該等球諧係數與一階數相關聯且描述一音場;用於自該方向資訊判定獨特方向資訊及背景方向資訊之構件;用於縮減與該等背景音訊物件相關聯之該方向資訊之一階數以產生經變換背景方向資訊之構件;及用於應用補償以增加該經變換方向資訊之值以保留該音場之一總體能量之構件。
- 如請求項17之器件,其中用於執行該基於向量之合成之該構件包含用於對於複數個球諧係數執行一奇異值分解以產生表示該等音訊物件之一U矩陣及一S矩陣以及表示該方向資訊之一V矩陣之構件,其中用於判定該獨特方向資訊及該背景方向資訊之該構件包 含用於判定該V矩陣之獨特行向量及該V矩陣之背景行向量之構件;其中用於縮減該方向資訊之該階數之該構件包含用於縮減該V矩陣之該等背景行向量之一階數以產生該V矩陣之經變換背景行向量之構件;且其中用於應用補償之該構件包含用於應用補償以增加該V矩陣之該等經變換背景行向量之值以保留該音場之一總體能量之構件。
- 如請求項18之器件,其進一步包含:用於判定該S矩陣之突出奇異值之一數目之構件,其中該V矩陣之該等獨特行向量之一數目為該S矩陣之突出奇異值的該數目。
- 如請求項18之器件,其中縮減該V矩陣之該等背景行向量之該階數包含:用於判定該等球諧係數之一經縮減階數之構件;及用於零化該V矩陣之該等背景行向量的與大於該經縮減階數之一階數相關聯的列之值之構件。
- 如請求項18之器件,其進一步包含:用於組合該U矩陣之背景行、該S矩陣之背景行及該V矩陣之該等經變換背景行之一轉置以產生經修改球諧係數之構件。
- 如請求項18之器件,其中該等經修改球諧係數描述該音場之一或多個背景分量。
- 如請求項18之器件,其中用於應用補償以增加該V矩陣之該等經變換背景行向量之值的該構件包含:用於判定該V矩陣之該等背景行向量中之一向量的一第一能量及該V矩陣之該等經變換背景行向量中之一向量的一第二能量之 構件;及用於將一放大值應用於該V矩陣之該等經變換背景行向量中之該向量的每一元素之構件,其中該放大值包含該第一能量與該第二能量之一比率。
- 如請求項18之器件,其中用於應用補償以增加該V矩陣之該等經變換背景行向量之值的該構件包含:用於判定該V矩陣之該等背景行向量中之一向量的一第一均方根能量及該V矩陣之該等經變換背景行向量中之一向量的一第二均方根能量之構件;及用於將一放大值應用於該V矩陣之該等經變換背景行向量中之該向量的每一元素之構件,其中該放大值包含該第一能量與該第二能量之一比率。
- 一種上面儲存有指令之非暫時性電腦可讀儲存媒體,該等指令在執行時使得一或多個處理器進行以下操作:對於複數個球諧係數執行一基於向量之合成以產生表示一或多個音訊物件及對應方向資訊之該複數個球諧係數的分解表示,其中該等球諧係數與一階數相關聯且描述一音場;自該方向資訊判定獨特方向資訊及背景方向資訊;縮減與該等背景音訊物件相關聯之該方向資訊之一階數以產生經變換背景方向資訊;及應用補償以增加該經變換方向資訊之值以保留該音場之一總體能量。
Applications Claiming Priority (19)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361828445P | 2013-05-29 | 2013-05-29 | |
US201361828615P | 2013-05-29 | 2013-05-29 | |
US201361829182P | 2013-05-30 | 2013-05-30 | |
US201361829155P | 2013-05-30 | 2013-05-30 | |
US201361829174P | 2013-05-30 | 2013-05-30 | |
US201361829846P | 2013-05-31 | 2013-05-31 | |
US201361829791P | 2013-05-31 | 2013-05-31 | |
US201361886617P | 2013-10-03 | 2013-10-03 | |
US201361886605P | 2013-10-03 | 2013-10-03 | |
US201361899034P | 2013-11-01 | 2013-11-01 | |
US201361899041P | 2013-11-01 | 2013-11-01 | |
US201461925112P | 2014-01-08 | 2014-01-08 | |
US201461925158P | 2014-01-08 | 2014-01-08 | |
US201461925126P | 2014-01-08 | 2014-01-08 | |
US201461925074P | 2014-01-08 | 2014-01-08 | |
US201461933721P | 2014-01-30 | 2014-01-30 | |
US201461933706P | 2014-01-30 | 2014-01-30 | |
US201462003515P | 2014-05-27 | 2014-05-27 | |
US14/289,323 US20140355769A1 (en) | 2013-05-29 | 2014-05-28 | Energy preservation for decomposed representations of a sound field |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201509200A true TW201509200A (zh) | 2015-03-01 |
Family
ID=51985123
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW103118935A TWI645723B (zh) | 2013-05-29 | 2014-05-29 | 用於解壓縮經壓縮之音訊資料之方法及器件及其非暫時性電腦可讀儲存媒體 |
TW103118931A TW201509200A (zh) | 2013-05-29 | 2014-05-29 | 用於音場之分解表示之能量保留 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW103118935A TWI645723B (zh) | 2013-05-29 | 2014-05-29 | 用於解壓縮經壓縮之音訊資料之方法及器件及其非暫時性電腦可讀儲存媒體 |
Country Status (20)
Country | Link |
---|---|
US (16) | US20140355769A1 (zh) |
EP (8) | EP3005358B1 (zh) |
JP (6) | JP6121625B2 (zh) |
KR (11) | KR20160016885A (zh) |
CN (7) | CN105580072B (zh) |
AU (1) | AU2014274076B2 (zh) |
BR (1) | BR112015030102B1 (zh) |
CA (1) | CA2912810C (zh) |
ES (4) | ES2689566T3 (zh) |
HK (1) | HK1215752A1 (zh) |
HU (3) | HUE046520T2 (zh) |
IL (1) | IL242648B (zh) |
MY (1) | MY174865A (zh) |
PH (1) | PH12015502634B1 (zh) |
RU (1) | RU2668059C2 (zh) |
SG (1) | SG11201509462VA (zh) |
TW (2) | TWI645723B (zh) |
UA (1) | UA116140C2 (zh) |
WO (12) | WO2014194105A1 (zh) |
ZA (1) | ZA201509227B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI709131B (zh) * | 2017-12-27 | 2020-11-01 | 芬蘭商諾基亞科技公司 | 音訊場景處理技術 |
Families Citing this family (121)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2665208A1 (en) | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
EP2743922A1 (en) | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
US9736609B2 (en) | 2013-02-07 | 2017-08-15 | Qualcomm Incorporated | Determining renderers for spherical harmonic coefficients |
US9883310B2 (en) | 2013-02-08 | 2018-01-30 | Qualcomm Incorporated | Obtaining symmetry information for higher order ambisonic audio renderers |
US10178489B2 (en) | 2013-02-08 | 2019-01-08 | Qualcomm Incorporated | Signaling audio rendering information in a bitstream |
US9609452B2 (en) | 2013-02-08 | 2017-03-28 | Qualcomm Incorporated | Obtaining sparseness information for higher order ambisonic audio renderers |
US20140355769A1 (en) | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Energy preservation for decomposed representations of a sound field |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
WO2014195190A1 (en) * | 2013-06-05 | 2014-12-11 | Thomson Licensing | Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals |
US9922656B2 (en) * | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US9502045B2 (en) | 2014-01-30 | 2016-11-22 | Qualcomm Incorporated | Coding independent frames of ambient higher-order ambisonic coefficients |
US20150243292A1 (en) | 2014-02-25 | 2015-08-27 | Qualcomm Incorporated | Order format signaling for higher-order ambisonic audio data |
US10412522B2 (en) | 2014-03-21 | 2019-09-10 | Qualcomm Incorporated | Inserting audio channels into descriptions of soundfields |
EP2922057A1 (en) | 2014-03-21 | 2015-09-23 | Thomson Licensing | Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal |
US9847087B2 (en) | 2014-05-16 | 2017-12-19 | Qualcomm Incorporated | Higher order ambisonics signal compression |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9959876B2 (en) | 2014-05-16 | 2018-05-01 | Qualcomm Incorporated | Closed loop quantization of higher order ambisonic coefficients |
US20150332682A1 (en) | 2014-05-16 | 2015-11-19 | Qualcomm Incorporated | Spatial relation coding for higher order ambisonic coefficients |
US9620137B2 (en) | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US10134403B2 (en) * | 2014-05-16 | 2018-11-20 | Qualcomm Incorporated | Crossfading between higher order ambisonic signals |
US20150347392A1 (en) * | 2014-05-29 | 2015-12-03 | International Business Machines Corporation | Real-time filtering of massive time series sets for social media trends |
JP6423009B2 (ja) | 2014-05-30 | 2018-11-14 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | 高次アンビソニックオーディオレンダラのためのシンメトリ情報を取得すること |
EP2960903A1 (en) * | 2014-06-27 | 2015-12-30 | Thomson Licensing | Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values |
US9838819B2 (en) | 2014-07-02 | 2017-12-05 | Qualcomm Incorporated | Reducing correlation between higher order ambisonic (HOA) background channels |
US9536531B2 (en) * | 2014-08-01 | 2017-01-03 | Qualcomm Incorporated | Editing of higher-order ambisonic audio data |
US9847088B2 (en) | 2014-08-29 | 2017-12-19 | Qualcomm Incorporated | Intermediate compression for higher order ambisonic audio data |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
US20160093308A1 (en) | 2014-09-26 | 2016-03-31 | Qualcomm Incorporated | Predictive vector quantization techniques in a higher order ambisonics (hoa) framework |
US9875745B2 (en) | 2014-10-07 | 2018-01-23 | Qualcomm Incorporated | Normalization of ambient higher order ambisonic audio data |
US9984693B2 (en) | 2014-10-10 | 2018-05-29 | Qualcomm Incorporated | Signaling channels for scalable coding of higher order ambisonic audio data |
US9940937B2 (en) | 2014-10-10 | 2018-04-10 | Qualcomm Incorporated | Screen related adaptation of HOA content |
US10140996B2 (en) | 2014-10-10 | 2018-11-27 | Qualcomm Incorporated | Signaling layers for scalable coding of higher order ambisonic audio data |
CN106303897A (zh) | 2015-06-01 | 2017-01-04 | 杜比实验室特许公司 | 处理基于对象的音频信号 |
US11223857B2 (en) * | 2015-06-02 | 2022-01-11 | Sony Corporation | Transmission device, transmission method, media processing device, media processing method, and reception device |
EP3329486B1 (en) * | 2015-07-30 | 2020-07-29 | Dolby International AB | Method and apparatus for generating from an hoa signal representation a mezzanine hoa signal representation |
US12087311B2 (en) | 2015-07-30 | 2024-09-10 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding an HOA representation |
JP6501259B2 (ja) * | 2015-08-04 | 2019-04-17 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
US10693936B2 (en) * | 2015-08-25 | 2020-06-23 | Qualcomm Incorporated | Transporting coded audio data |
US20170098452A1 (en) * | 2015-10-02 | 2017-04-06 | Dts, Inc. | Method and system for audio processing of dialog, music, effect and height objects |
US9961475B2 (en) | 2015-10-08 | 2018-05-01 | Qualcomm Incorporated | Conversion from object-based audio to HOA |
US9961467B2 (en) | 2015-10-08 | 2018-05-01 | Qualcomm Incorporated | Conversion from channel-based audio to HOA |
IL302588B1 (en) * | 2015-10-08 | 2024-10-01 | Dolby Int Ab | Layered coding and data structure for compressed high-order sound or surround sound field representations |
MX2020011754A (es) | 2015-10-08 | 2022-05-19 | Dolby Int Ab | Codificacion en capas para representaciones de sonido o campo de sonido comprimidas. |
US10249312B2 (en) * | 2015-10-08 | 2019-04-02 | Qualcomm Incorporated | Quantization of spatial vectors |
US10070094B2 (en) | 2015-10-14 | 2018-09-04 | Qualcomm Incorporated | Screen related adaptation of higher order ambisonic (HOA) content |
US9959880B2 (en) | 2015-10-14 | 2018-05-01 | Qualcomm Incorporated | Coding higher-order ambisonic coefficients during multiple transitions |
WO2017085140A1 (en) * | 2015-11-17 | 2017-05-26 | Dolby International Ab | Method and apparatus for converting a channel-based 3d audio signal to an hoa audio signal |
EP3174316B1 (en) * | 2015-11-27 | 2020-02-26 | Nokia Technologies Oy | Intelligent audio rendering |
EP3188504B1 (en) | 2016-01-04 | 2020-07-29 | Harman Becker Automotive Systems GmbH | Multi-media reproduction for a multiplicity of recipients |
BR112018013526A2 (pt) * | 2016-01-08 | 2018-12-04 | Sony Corporation | aparelho e método para processamento de áudio, e, programa |
PL3338462T3 (pl) | 2016-03-15 | 2020-03-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Urządzenie, sposób lub program komputerowy do generowania opisu pola dźwięku |
WO2018001500A1 (en) * | 2016-06-30 | 2018-01-04 | Huawei Technologies Duesseldorf Gmbh | Apparatuses and methods for encoding and decoding a multichannel audio signal |
KR102561371B1 (ko) * | 2016-07-11 | 2023-08-01 | 삼성전자주식회사 | 디스플레이장치와, 기록매체 |
US11032663B2 (en) | 2016-09-29 | 2021-06-08 | The Trustees Of Princeton University | System and method for virtual navigation of sound fields through interpolation of signals from an array of microphone assemblies |
CN107945810B (zh) * | 2016-10-13 | 2021-12-14 | 杭州米谟科技有限公司 | 用于编码和解码hoa或多声道数据的方法和装置 |
US20180107926A1 (en) * | 2016-10-19 | 2018-04-19 | Samsung Electronics Co., Ltd. | Method and apparatus for neural network quantization |
US11321609B2 (en) | 2016-10-19 | 2022-05-03 | Samsung Electronics Co., Ltd | Method and apparatus for neural network quantization |
EP3497944A1 (en) * | 2016-10-31 | 2019-06-19 | Google LLC | Projection-based audio coding |
CN108206021B (zh) * | 2016-12-16 | 2020-12-18 | 南京青衿信息科技有限公司 | 一种后向兼容式三维声编码器、解码器及其编解码方法 |
KR20190118212A (ko) * | 2017-01-24 | 2019-10-18 | 주식회사 알티스트 | 차량 상태 모니터링 시스템 및 방법 |
US10455321B2 (en) | 2017-04-28 | 2019-10-22 | Qualcomm Incorporated | Microphone configurations |
US9820073B1 (en) | 2017-05-10 | 2017-11-14 | Tls Corp. | Extracting a common signal from multiple audio signals |
CN110771181B (zh) * | 2017-05-15 | 2021-09-28 | 杜比实验室特许公司 | 用于将空间音频格式转换为扬声器信号的方法、系统和设备 |
US10390166B2 (en) * | 2017-05-31 | 2019-08-20 | Qualcomm Incorporated | System and method for mixing and adjusting multi-input ambisonics |
US10405126B2 (en) | 2017-06-30 | 2019-09-03 | Qualcomm Incorporated | Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems |
RU2736274C1 (ru) | 2017-07-14 | 2020-11-13 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием dirac-технологии с расширением глубины или других технологий |
RU2740703C1 (ru) | 2017-07-14 | 2021-01-20 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием многослойного описания |
RU2736418C1 (ru) | 2017-07-14 | 2020-11-17 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием многоточечного описания звукового поля |
US10075802B1 (en) | 2017-08-08 | 2018-09-11 | Qualcomm Incorporated | Bitrate allocation for higher order ambisonic audio data |
US10674301B2 (en) * | 2017-08-25 | 2020-06-02 | Google Llc | Fast and memory efficient encoding of sound objects using spherical harmonic symmetries |
US10764684B1 (en) | 2017-09-29 | 2020-09-01 | Katherine A. Franco | Binaural audio using an arbitrarily shaped microphone array |
CN111164679B (zh) | 2017-10-05 | 2024-04-09 | 索尼公司 | 编码装置和方法、解码装置和方法以及程序 |
US10972851B2 (en) * | 2017-10-05 | 2021-04-06 | Qualcomm Incorporated | Spatial relation coding of higher order ambisonic coefficients |
CN111656441B (zh) | 2017-11-17 | 2023-10-03 | 弗劳恩霍夫应用研究促进协会 | 编码或解码定向音频编码参数的装置和方法 |
US10595146B2 (en) | 2017-12-21 | 2020-03-17 | Verizon Patent And Licensing Inc. | Methods and systems for extracting location-diffused ambient sound from a real-world scene |
US11409923B1 (en) * | 2018-01-22 | 2022-08-09 | Ansys, Inc | Systems and methods for generating reduced order models |
FR3079706B1 (fr) | 2018-03-29 | 2021-06-04 | Inst Mines Telecom | Procede et systeme de diffusion d'un flux audio multicanal a des terminaux de spectateurs assistant a un evenement sportif |
GB2572650A (en) * | 2018-04-06 | 2019-10-09 | Nokia Technologies Oy | Spatial audio parameters and associated spatial audio playback |
US10672405B2 (en) * | 2018-05-07 | 2020-06-02 | Google Llc | Objective quality metrics for ambisonic spatial audio |
CN108831494B (zh) * | 2018-05-29 | 2022-07-19 | 平安科技(深圳)有限公司 | 语音增强方法、装置、计算机设备及存储介质 |
GB2574873A (en) * | 2018-06-21 | 2019-12-25 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
US10999693B2 (en) | 2018-06-25 | 2021-05-04 | Qualcomm Incorporated | Rendering different portions of audio data using different renderers |
US12056594B2 (en) * | 2018-06-27 | 2024-08-06 | International Business Machines Corporation | Low precision deep neural network enabled by compensation instructions |
US11798569B2 (en) | 2018-10-02 | 2023-10-24 | Qualcomm Incorporated | Flexible rendering of audio data |
WO2020084170A1 (en) * | 2018-10-26 | 2020-04-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Directional loudness map based audio processing |
FI3874492T3 (fi) * | 2018-10-31 | 2024-01-08 | Nokia Technologies Oy | Spatiaalisten äänten parametrikoodauksen ja siihen liittyvän dekoodauksen määrittäminen |
GB2578625A (en) | 2018-11-01 | 2020-05-20 | Nokia Technologies Oy | Apparatus, methods and computer programs for encoding spatial metadata |
KR102599744B1 (ko) | 2018-12-07 | 2023-11-08 | 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 | 방향 컴포넌트 보상을 사용하는 DirAC 기반 공간 오디오 코딩과 관련된 인코딩, 디코딩, 장면 처리 및 기타 절차를 위한 장치, 방법 및 컴퓨터 프로그램 |
FR3090179B1 (fr) * | 2018-12-14 | 2021-04-09 | Fond B Com | Procédé d’interpolation d’un champ sonore, produit programme d’ordinateur et dispositif correspondants. |
CN113316943B (zh) * | 2018-12-19 | 2023-06-06 | 弗劳恩霍夫应用研究促进协会 | 再现空间扩展声源的设备与方法、或从空间扩展声源生成比特流的设备与方法 |
KR102277952B1 (ko) * | 2019-01-11 | 2021-07-19 | 브레인소프트주식회사 | 디제이 변환에 의한 주파수 추출 방법 |
EP3706119A1 (fr) * | 2019-03-05 | 2020-09-09 | Orange | Codage audio spatialisé avec interpolation et quantification de rotations |
GB2582748A (en) * | 2019-03-27 | 2020-10-07 | Nokia Technologies Oy | Sound field related rendering |
RU2722223C1 (ru) * | 2019-04-16 | 2020-05-28 | Вадим Иванович Филиппов | Способ сжатия многомерных образов путем приближения элементов пространств Lp{ (0, 1]m} , p больше или равно 1 и меньше бесконечности, по системам сжатий и сдвигов одной функции рядами типа Фурье с целыми коэффциентами и целочисленное разложение элементов многомодулярных пространств |
US11538489B2 (en) * | 2019-06-24 | 2022-12-27 | Qualcomm Incorporated | Correlating scene-based audio data for psychoacoustic audio coding |
US12073842B2 (en) * | 2019-06-24 | 2024-08-27 | Qualcomm Incorporated | Psychoacoustic audio coding of ambisonic audio data |
GB2586214A (en) * | 2019-07-31 | 2021-02-17 | Nokia Technologies Oy | Quantization of spatial audio direction parameters |
JP7270836B2 (ja) * | 2019-08-08 | 2023-05-10 | ブームクラウド 360 インコーポレイテッド | 音響心理学的周波数範囲拡張のための非線形適応フィルタバンク |
WO2021041623A1 (en) * | 2019-08-30 | 2021-03-04 | Dolby Laboratories Licensing Corporation | Channel identification of multi-channel audio signals |
GB2587196A (en) | 2019-09-13 | 2021-03-24 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
US11430451B2 (en) * | 2019-09-26 | 2022-08-30 | Apple Inc. | Layered coding of audio with discrete objects |
CN110708647B (zh) * | 2019-10-29 | 2020-12-25 | 扆亮海 | 一种球面分配引导的数据匹配立体声场重构方法 |
GB2590906A (en) * | 2019-12-19 | 2021-07-14 | Nomono As | Wireless microphone with local storage |
US11636866B2 (en) | 2020-03-24 | 2023-04-25 | Qualcomm Incorporated | Transform ambisonic coefficients using an adaptive network |
CN113593585A (zh) * | 2020-04-30 | 2021-11-02 | 华为技术有限公司 | 音频信号的比特分配方法和装置 |
GB2595871A (en) * | 2020-06-09 | 2021-12-15 | Nokia Technologies Oy | The reduction of spatial audio parameters |
WO2022046155A1 (en) * | 2020-08-28 | 2022-03-03 | Google Llc | Maintaining invariance of sensory dissonance and sound localization cues in audio codecs |
FR3113993B1 (fr) * | 2020-09-09 | 2023-02-24 | Arkamys | Procédé de spatialisation sonore |
CN116391365A (zh) * | 2020-09-25 | 2023-07-04 | 苹果公司 | 高阶环境立体声编码和解码 |
CN112327398B (zh) * | 2020-11-20 | 2022-03-08 | 中国科学院上海光学精密机械研究所 | 一种矢量补偿体布拉格光栅角度偏转器的制备方法 |
US11743670B2 (en) | 2020-12-18 | 2023-08-29 | Qualcomm Incorporated | Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications |
US11521623B2 (en) | 2021-01-11 | 2022-12-06 | Bank Of America Corporation | System and method for single-speaker identification in a multi-speaker environment on a low-frequency audio recording |
CN113518299B (zh) * | 2021-04-30 | 2022-06-03 | 电子科技大学 | 一种改进的源分量及环境分量提取方法、设备及计算机可读存储介质 |
CN113345448B (zh) * | 2021-05-12 | 2022-08-05 | 北京大学 | 一种基于独立成分分析的hoa信号压缩方法 |
CN115376527A (zh) * | 2021-05-17 | 2022-11-22 | 华为技术有限公司 | 三维音频信号编码方法、装置和编码器 |
CN115497485B (zh) * | 2021-06-18 | 2024-10-18 | 华为技术有限公司 | 三维音频信号编码方法、装置、编码器和系统 |
CN113378063B (zh) * | 2021-07-09 | 2023-07-28 | 小红书科技有限公司 | 一种基于滑动谱分解确定内容多样性的方法和内容排序方法 |
WO2023008831A1 (ko) * | 2021-07-27 | 2023-02-02 | 브레인소프트 주식회사 | 해석적 방법에 기반한 디제이 변환 주파수 추출 방법 |
US20230051841A1 (en) * | 2021-07-30 | 2023-02-16 | Qualcomm Incorporated | Xr rendering for 3d audio content and audio codec |
CN113647978B (zh) * | 2021-08-18 | 2023-11-21 | 重庆大学 | 一种带有截断因子的高鲁棒性符号相干系数超声成像方法 |
Family Cites Families (209)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT1159034B (it) | 1983-06-10 | 1987-02-25 | Cselt Centro Studi Lab Telecom | Sintetizzatore vocale |
US4972344A (en) | 1986-05-30 | 1990-11-20 | Finial Technology, Inc. | Dual beam optical turntable |
US5012518A (en) | 1989-07-26 | 1991-04-30 | Itt Corporation | Low-bit-rate speech coder using LPC data reduction processing |
US5363050A (en) | 1990-08-31 | 1994-11-08 | Guo Wendy W | Quantitative dielectric imaging system |
SG49883A1 (en) | 1991-01-08 | 1998-06-15 | Dolby Lab Licensing Corp | Encoder/decoder for multidimensional sound fields |
US5757927A (en) | 1992-03-02 | 1998-05-26 | Trifield Productions Ltd. | Surround sound apparatus |
JP2626492B2 (ja) | 1993-09-13 | 1997-07-02 | 日本電気株式会社 | ベクトル量子化装置 |
US5790759A (en) | 1995-09-19 | 1998-08-04 | Lucent Technologies Inc. | Perceptual noise masking measure based on synthesis filter frequency response |
US5819215A (en) | 1995-10-13 | 1998-10-06 | Dobson; Kurt | Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data |
JP3707116B2 (ja) | 1995-10-26 | 2005-10-19 | ソニー株式会社 | 音声復号化方法及び装置 |
US5956674A (en) | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
JP3849210B2 (ja) | 1996-09-24 | 2006-11-22 | ヤマハ株式会社 | 音声符号化復号方式 |
US5821887A (en) * | 1996-11-12 | 1998-10-13 | Intel Corporation | Method and apparatus for decoding variable length codes |
US6167375A (en) | 1997-03-17 | 2000-12-26 | Kabushiki Kaisha Toshiba | Method for encoding and decoding a speech signal including background noise |
US6072878A (en) | 1997-09-24 | 2000-06-06 | Sonic Solutions | Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics |
US6263312B1 (en) | 1997-10-03 | 2001-07-17 | Alaris, Inc. | Audio compression and decompression employing subband decomposition of residual signal and distortion reduction |
JP3211762B2 (ja) | 1997-12-12 | 2001-09-25 | 日本電気株式会社 | 音声及び音楽符号化方式 |
AUPP272698A0 (en) | 1998-03-31 | 1998-04-23 | Lake Dsp Pty Limited | Soundfield playback from a single speaker system |
EP1018840A3 (en) | 1998-12-08 | 2005-12-21 | Canon Kabushiki Kaisha | Digital receiving apparatus and method |
WO2000060575A1 (en) | 1999-04-05 | 2000-10-12 | Hughes Electronics Corporation | A voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system |
US6370502B1 (en) | 1999-05-27 | 2002-04-09 | America Online, Inc. | Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec |
US6782360B1 (en) | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
US20020049586A1 (en) | 2000-09-11 | 2002-04-25 | Kousuke Nishio | Audio encoder, audio decoder, and broadcasting system |
JP2002094989A (ja) | 2000-09-14 | 2002-03-29 | Pioneer Electronic Corp | ビデオ信号符号化装置及びビデオ信号符号化方法 |
US7660424B2 (en) | 2001-02-07 | 2010-02-09 | Dolby Laboratories Licensing Corporation | Audio channel spatial translation |
US20020169735A1 (en) | 2001-03-07 | 2002-11-14 | David Kil | Automatic mapping from data to preprocessing algorithms |
GB2379147B (en) | 2001-04-18 | 2003-10-22 | Univ York | Sound processing |
US20030147539A1 (en) * | 2002-01-11 | 2003-08-07 | Mh Acoustics, Llc, A Delaware Corporation | Audio system based on at least second-order eigenbeams |
US7031894B2 (en) * | 2002-01-16 | 2006-04-18 | Timbre Technologies, Inc. | Generating a library of simulated-diffraction signals and hypothetical profiles of periodic gratings |
US7262770B2 (en) | 2002-03-21 | 2007-08-28 | Microsoft Corporation | Graphics image rendering with radiance self-transfer for low-frequency lighting environments |
US20030223603A1 (en) * | 2002-05-28 | 2003-12-04 | Beckman Kenneth Oren | Sound space replication |
US8160269B2 (en) | 2003-08-27 | 2012-04-17 | Sony Computer Entertainment Inc. | Methods and apparatuses for adjusting a listening area for capturing sounds |
ES2297083T3 (es) | 2002-09-04 | 2008-05-01 | Microsoft Corporation | Codificacion entropica por adaptacion de la codificacion entre modos por longitud de ejecucion y por nivel. |
FR2844894B1 (fr) | 2002-09-23 | 2004-12-17 | Remy Henri Denis Bruno | Procede et systeme de traitement d'une representation d'un champ acoustique |
US7330812B2 (en) | 2002-10-04 | 2008-02-12 | National Research Council Of Canada | Method and apparatus for transmitting an audio stream having additional payload in a hidden sub-channel |
FR2847376B1 (fr) | 2002-11-19 | 2005-02-04 | France Telecom | Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede |
US6961696B2 (en) | 2003-02-07 | 2005-11-01 | Motorola, Inc. | Class quantization for distributed speech recognition |
FI115324B (fi) | 2003-03-14 | 2005-04-15 | Elekta Neuromag Oy | Menetelmä ja järjestelmä monikanavaisen mittaussignaalin käsittelemiseksi |
US7558393B2 (en) | 2003-03-18 | 2009-07-07 | Miller Iii Robert E | System and method for compatible 2D/3D (full sphere with height) surround sound reproduction |
US7920709B1 (en) | 2003-03-25 | 2011-04-05 | Robert Hickling | Vector sound-intensity probes operating in a half-space |
JP2005086486A (ja) | 2003-09-09 | 2005-03-31 | Alpine Electronics Inc | オーディオ装置およびオーディオ処理方法 |
US7433815B2 (en) | 2003-09-10 | 2008-10-07 | Dilithium Networks Pty Ltd. | Method and apparatus for voice transcoding between variable rate coders |
US7447317B2 (en) | 2003-10-02 | 2008-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Compatible multi-channel coding/decoding by weighting the downmix channel |
KR100556911B1 (ko) | 2003-12-05 | 2006-03-03 | 엘지전자 주식회사 | 무선 동영상 스트리밍 서비스를 위한 동영상 데이터의 구조 |
KR100629997B1 (ko) | 2004-02-26 | 2006-09-27 | 엘지전자 주식회사 | 오디오 신호의 인코딩 방법 |
US7283634B2 (en) | 2004-08-31 | 2007-10-16 | Dts, Inc. | Method of mixing audio channels using correlated outputs |
US7630902B2 (en) | 2004-09-17 | 2009-12-08 | Digital Rise Technology Co., Ltd. | Apparatus and methods for digital audio coding using codebook application ranges |
FR2880755A1 (fr) | 2005-01-10 | 2006-07-14 | France Telecom | Procede et dispositif d'individualisation de hrtfs par modelisation |
KR100636229B1 (ko) | 2005-01-14 | 2006-10-19 | 학교법인 성균관대학 | 신축형 부호화를 위한 적응적 엔트로피 부호화 및 복호화방법과 그 장치 |
JP5012504B2 (ja) | 2005-03-30 | 2012-08-29 | アイシン・エィ・ダブリュ株式会社 | 車両用ナビゲーションシステム |
WO2006122146A2 (en) | 2005-05-10 | 2006-11-16 | William Marsh Rice University | Method and apparatus for distributed compressed sensing |
EP1905004A2 (en) * | 2005-05-26 | 2008-04-02 | LG Electronics Inc. | Method of encoding and decoding an audio signal |
ATE378793T1 (de) | 2005-06-23 | 2007-11-15 | Akg Acoustics Gmbh | Methode zur modellierung eines mikrofons |
US7599840B2 (en) * | 2005-07-15 | 2009-10-06 | Microsoft Corporation | Selectively using multiple entropy models in adaptive coding and decoding |
WO2007037613A1 (en) | 2005-09-27 | 2007-04-05 | Lg Electronics Inc. | Method and apparatus for encoding/decoding multi-channel audio signal |
US8510105B2 (en) | 2005-10-21 | 2013-08-13 | Nokia Corporation | Compression and decompression of data vectors |
WO2007048900A1 (fr) | 2005-10-27 | 2007-05-03 | France Telecom | Individualisation de hrtfs utilisant une modelisation par elements finis couplee a un modele correctif |
US8190425B2 (en) | 2006-01-20 | 2012-05-29 | Microsoft Corporation | Complex cross-correlation parameters for multi-channel audio |
CN101379553B (zh) | 2006-02-07 | 2012-02-29 | Lg电子株式会社 | 用于编码/解码信号的装置和方法 |
EP1853092B1 (en) | 2006-05-04 | 2011-10-05 | LG Electronics, Inc. | Enhancing stereo audio with remix capability |
US8712061B2 (en) | 2006-05-17 | 2014-04-29 | Creative Technology Ltd | Phase-amplitude 3-D stereo encoder and decoder |
US8345899B2 (en) | 2006-05-17 | 2013-01-01 | Creative Technology Ltd | Phase-amplitude matrixed surround decoder |
US8379868B2 (en) | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
US20080004729A1 (en) | 2006-06-30 | 2008-01-03 | Nokia Corporation | Direct encoding into a directional audio coding format |
US7877253B2 (en) | 2006-10-06 | 2011-01-25 | Qualcomm Incorporated | Systems, methods, and apparatus for frame erasure recovery |
DE102006053919A1 (de) | 2006-10-11 | 2008-04-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen einer Anzahl von Lautsprechersignalen für ein Lautsprecher-Array, das einen Wiedergaberaum definiert |
US7966175B2 (en) | 2006-10-18 | 2011-06-21 | Polycom, Inc. | Fast lattice vector quantization |
AU2007322488B2 (en) | 2006-11-24 | 2010-04-29 | Lg Electronics Inc. | Method for encoding and decoding object-based audio signal and apparatus thereof |
JP5450085B2 (ja) * | 2006-12-07 | 2014-03-26 | エルジー エレクトロニクス インコーポレイティド | オーディオ処理方法及び装置 |
US7663623B2 (en) | 2006-12-18 | 2010-02-16 | Microsoft Corporation | Spherical harmonics scaling |
JP2008227946A (ja) | 2007-03-13 | 2008-09-25 | Toshiba Corp | 画像復号装置 |
US8290167B2 (en) | 2007-03-21 | 2012-10-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and apparatus for conversion between multi-channel audio formats |
US9015051B2 (en) | 2007-03-21 | 2015-04-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Reconstruction of audio channels with direction parameters indicating direction of origin |
US8908873B2 (en) | 2007-03-21 | 2014-12-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and apparatus for conversion between multi-channel audio formats |
EP2137973B1 (en) | 2007-04-12 | 2019-05-01 | InterDigital VC Holdings, Inc. | Methods and apparatus for video usability information (vui) for scalable video coding (svc) |
US20080298610A1 (en) * | 2007-05-30 | 2008-12-04 | Nokia Corporation | Parameter Space Re-Panning for Spatial Audio |
US8180062B2 (en) | 2007-05-30 | 2012-05-15 | Nokia Corporation | Spatial sound zooming |
EP2278582B1 (en) * | 2007-06-08 | 2016-08-10 | LG Electronics Inc. | A method and an apparatus for processing an audio signal |
US7885819B2 (en) | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
WO2009007639A1 (fr) | 2007-07-03 | 2009-01-15 | France Telecom | Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe |
DE602007008717D1 (de) | 2007-07-30 | 2010-10-07 | Global Ip Solutions Inc | Audiodekoder mit geringer Verzögerung |
US8463615B2 (en) * | 2007-07-30 | 2013-06-11 | Google Inc. | Low-delay audio coder |
US8566106B2 (en) | 2007-09-11 | 2013-10-22 | Voiceage Corporation | Method and device for fast algebraic codebook search in speech and audio coding |
CN101884065B (zh) | 2007-10-03 | 2013-07-10 | 创新科技有限公司 | 用于双耳再现和格式转换的空间音频分析和合成的方法 |
US8509454B2 (en) * | 2007-11-01 | 2013-08-13 | Nokia Corporation | Focusing on a portion of an audio scene for an audio signal |
WO2009067741A1 (en) | 2007-11-27 | 2009-06-04 | Acouity Pty Ltd | Bandwidth compression of parametric soundfield representations for transmission and storage |
EP2234104B1 (en) | 2008-01-16 | 2017-06-14 | III Holdings 12, LLC | Vector quantizer, vector inverse quantizer, and methods therefor |
EP2094032A1 (en) | 2008-02-19 | 2009-08-26 | Deutsche Thomson OHG | Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same |
JP5266341B2 (ja) | 2008-03-03 | 2013-08-21 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号処理方法及び装置 |
KR101230479B1 (ko) | 2008-03-10 | 2013-02-06 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 트랜지언트 이벤트를 갖는 오디오 신호를 조작하기 위한 장치 및 방법 |
US8219409B2 (en) | 2008-03-31 | 2012-07-10 | Ecole Polytechnique Federale De Lausanne | Audio wave field encoding |
US8781197B2 (en) * | 2008-04-28 | 2014-07-15 | Cornell University | Tool for accurate quantification in molecular MRI |
US8184298B2 (en) | 2008-05-21 | 2012-05-22 | The Board Of Trustees Of The University Of Illinois | Spatial light interference microscopy and fourier transform light scattering for cell and tissue characterization |
JP5383676B2 (ja) | 2008-05-30 | 2014-01-08 | パナソニック株式会社 | 符号化装置、復号装置およびこれらの方法 |
EP2297557B1 (en) | 2008-07-08 | 2013-10-30 | Brüel & Kjaer Sound & Vibration Measurement A/S | Reconstructing an acoustic field |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
GB0817950D0 (en) | 2008-10-01 | 2008-11-05 | Univ Southampton | Apparatus and method for sound reproduction |
JP5697301B2 (ja) | 2008-10-01 | 2015-04-08 | 株式会社Nttドコモ | 動画像符号化装置、動画像復号装置、動画像符号化方法、動画像復号方法、動画像符号化プログラム、動画像復号プログラム、及び動画像符号化・復号システム |
US8207890B2 (en) * | 2008-10-08 | 2012-06-26 | Qualcomm Atheros, Inc. | Providing ephemeris data and clock corrections to a satellite navigation system receiver |
US8391500B2 (en) | 2008-10-17 | 2013-03-05 | University Of Kentucky Research Foundation | Method and system for creating three-dimensional spatial audio |
FR2938688A1 (fr) | 2008-11-18 | 2010-05-21 | France Telecom | Codage avec mise en forme du bruit dans un codeur hierarchique |
US8964994B2 (en) * | 2008-12-15 | 2015-02-24 | Orange | Encoding of multichannel digital audio signals |
US8817991B2 (en) | 2008-12-15 | 2014-08-26 | Orange | Advanced encoding of multi-channel digital audio signals |
US8332229B2 (en) | 2008-12-30 | 2012-12-11 | Stmicroelectronics Asia Pacific Pte. Ltd. | Low complexity MPEG encoding for surround sound recordings |
EP2205007B1 (en) | 2008-12-30 | 2019-01-09 | Dolby International AB | Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction |
WO2010086342A1 (en) | 2009-01-28 | 2010-08-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, method for encoding an input audio information, method for decoding an input audio information and computer program using improved coding tables |
GB2476747B (en) | 2009-02-04 | 2011-12-21 | Richard Furse | Sound system |
JP5163545B2 (ja) | 2009-03-05 | 2013-03-13 | 富士通株式会社 | オーディオ復号装置及びオーディオ復号方法 |
EP2237270B1 (en) | 2009-03-30 | 2012-07-04 | Nuance Communications, Inc. | A method for determining a noise reference signal for noise compensation and/or noise reduction |
GB0906269D0 (en) | 2009-04-09 | 2009-05-20 | Ntnu Technology Transfer As | Optimal modal beamformer for sensor arrays |
US8629600B2 (en) * | 2009-05-08 | 2014-01-14 | University Of Utah Research Foundation | Annular thermoacoustic energy converter |
JP4778591B2 (ja) | 2009-05-21 | 2011-09-21 | パナソニック株式会社 | 触感処理装置 |
JP5678048B2 (ja) * | 2009-06-24 | 2015-02-25 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | カスケード化されたオーディオオブジェクト処理ステージを用いたオーディオ信号デコーダ、オーディオ信号を復号化する方法、およびコンピュータプログラム |
ES2690164T3 (es) | 2009-06-25 | 2018-11-19 | Dts Licensing Limited | Dispositivo y método para convertir una señal de audio espacial |
WO2011041834A1 (en) | 2009-10-07 | 2011-04-14 | The University Of Sydney | Reconstruction of a recorded sound field |
AU2009353896B2 (en) | 2009-10-15 | 2013-05-23 | Widex A/S | Hearing aid with audio codec and method |
JP5746974B2 (ja) | 2009-11-13 | 2015-07-08 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 符号化装置、復号装置およびこれらの方法 |
JP5427565B2 (ja) * | 2009-11-24 | 2014-02-26 | 株式会社日立製作所 | Mri装置用磁場調整 |
SI2510515T1 (sl) | 2009-12-07 | 2014-06-30 | Dolby Laboratories Licensing Corporation | Dekodiranje večkanalnih avdio kodiranih bitnih prenosov s pomočjo adaptivne hibridne transformacije |
EP2346028A1 (en) * | 2009-12-17 | 2011-07-20 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal |
CN102104452B (zh) | 2009-12-22 | 2013-09-11 | 华为技术有限公司 | 信道状态信息反馈方法、信道状态信息获得方法及设备 |
TWI443646B (zh) | 2010-02-18 | 2014-07-01 | Dolby Lab Licensing Corp | 音訊解碼器及使用有效降混之解碼方法 |
EP2539892B1 (fr) | 2010-02-26 | 2014-04-02 | Orange | Compression de flux audio multicanal |
RU2586848C2 (ru) | 2010-03-10 | 2016-06-10 | Долби Интернейшнл АБ | Декодер звукового сигнала, кодирующее устройство звукового сигнала, способы и компьютерная программа, использующие зависящее от частоты выборки кодирование контура деформации времени |
WO2011117399A1 (en) | 2010-03-26 | 2011-09-29 | Thomson Licensing | Method and device for decoding an audio soundfield representation for audio playback |
ES2656815T3 (es) * | 2010-03-29 | 2018-02-28 | Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung | Procesador de audio espacial y procedimiento para proporcionar parámetros espaciales en base a una señal de entrada acústica |
JP5850216B2 (ja) | 2010-04-13 | 2016-02-03 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
TW201214415A (en) | 2010-05-28 | 2012-04-01 | Fraunhofer Ges Forschung | Low-delay unified speech and audio codec |
US9053697B2 (en) | 2010-06-01 | 2015-06-09 | Qualcomm Incorporated | Systems, methods, devices, apparatus, and computer program products for audio equalization |
US9398308B2 (en) | 2010-07-28 | 2016-07-19 | Qualcomm Incorporated | Coding motion prediction direction in video coding |
US9208792B2 (en) | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
NZ587483A (en) | 2010-08-20 | 2012-12-21 | Ind Res Ltd | Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions |
US9271081B2 (en) | 2010-08-27 | 2016-02-23 | Sonicemotion Ag | Method and device for enhanced sound field reproduction of spatially encoded audio input signals |
CN101977349A (zh) | 2010-09-29 | 2011-02-16 | 华南理工大学 | Ambisonic声重发系统解码的优化改进方法 |
US9084049B2 (en) | 2010-10-14 | 2015-07-14 | Dolby Laboratories Licensing Corporation | Automatic equalization using adaptive frequency-domain filtering and dynamic fast convolution |
US20120093323A1 (en) | 2010-10-14 | 2012-04-19 | Samsung Electronics Co., Ltd. | Audio system and method of down mixing audio signals using the same |
US9552840B2 (en) | 2010-10-25 | 2017-01-24 | Qualcomm Incorporated | Three-dimensional sound capturing and reproducing with multi-microphones |
EP2450880A1 (en) | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
EP2451196A1 (en) | 2010-11-05 | 2012-05-09 | Thomson Licensing | Method and apparatus for generating and for decoding sound field data including ambisonics sound field data of an order higher than three |
KR101401775B1 (ko) | 2010-11-10 | 2014-05-30 | 한국전자통신연구원 | 스피커 어레이 기반 음장 합성을 이용한 음장 재생 장치 및 방법 |
US9448289B2 (en) * | 2010-11-23 | 2016-09-20 | Cornell University | Background field removal method for MRI using projection onto dipole fields |
CN103460285B (zh) | 2010-12-03 | 2018-01-12 | 弗劳恩霍夫应用研究促进协会 | 用于以几何为基础的空间音频编码的装置及方法 |
EP2464146A1 (en) * | 2010-12-10 | 2012-06-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decomposing an input signal using a pre-calculated reference curve |
EP2469741A1 (en) | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
US20120163622A1 (en) | 2010-12-28 | 2012-06-28 | Stmicroelectronics Asia Pacific Pte Ltd | Noise detection and reduction in audio devices |
US8809663B2 (en) | 2011-01-06 | 2014-08-19 | Hank Risan | Synthetic simulation of a media recording |
US9008176B2 (en) | 2011-01-22 | 2015-04-14 | Qualcomm Incorporated | Combined reference picture list construction for video coding |
US20120189052A1 (en) | 2011-01-24 | 2012-07-26 | Qualcomm Incorporated | Signaling quantization parameter changes for coded units in high efficiency video coding (hevc) |
EP2671221B1 (en) * | 2011-02-03 | 2017-02-01 | Telefonaktiebolaget LM Ericsson (publ) | Determining the inter-channel time difference of a multi-channel audio signal |
WO2012122397A1 (en) | 2011-03-09 | 2012-09-13 | Srs Labs, Inc. | System for dynamically creating and rendering audio objects |
CN105244034B (zh) | 2011-04-21 | 2019-08-13 | 三星电子株式会社 | 针对语音信号或音频信号的量化方法以及解码方法和设备 |
EP2541547A1 (en) | 2011-06-30 | 2013-01-02 | Thomson Licensing | Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation |
EP2727383B1 (en) * | 2011-07-01 | 2021-04-28 | Dolby Laboratories Licensing Corporation | System and method for adaptive audio signal generation, coding and rendering |
US8548803B2 (en) * | 2011-08-08 | 2013-10-01 | The Intellisis Corporation | System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain |
US9641951B2 (en) | 2011-08-10 | 2017-05-02 | The Johns Hopkins University | System and method for fast binaural rendering of complex acoustic scenes |
EP2560161A1 (en) | 2011-08-17 | 2013-02-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Optimal mixing matrices and usage of decorrelators in spatial audio processing |
EP2592846A1 (en) | 2011-11-11 | 2013-05-15 | Thomson Licensing | Method and apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field |
EP2592845A1 (en) | 2011-11-11 | 2013-05-15 | Thomson Licensing | Method and Apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field |
EP2600343A1 (en) | 2011-12-02 | 2013-06-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for merging geometry - based spatial audio coding streams |
KR101590332B1 (ko) | 2012-01-09 | 2016-02-18 | 삼성전자주식회사 | 영상장치 및 그 제어방법 |
US9584912B2 (en) | 2012-01-19 | 2017-02-28 | Koninklijke Philips N.V. | Spatial audio rendering and encoding |
EP2637427A1 (en) | 2012-03-06 | 2013-09-11 | Thomson Licensing | Method and apparatus for playback of a higher-order ambisonics audio signal |
EP2645748A1 (en) | 2012-03-28 | 2013-10-02 | Thomson Licensing | Method and apparatus for decoding stereo loudspeaker signals from a higher-order Ambisonics audio signal |
US9955280B2 (en) * | 2012-04-19 | 2018-04-24 | Nokia Technologies Oy | Audio scene apparatus |
EP2665208A1 (en) | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
US9190065B2 (en) | 2012-07-15 | 2015-11-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients |
US20140086416A1 (en) | 2012-07-15 | 2014-03-27 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients |
US9288603B2 (en) | 2012-07-15 | 2016-03-15 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding |
EP2688066A1 (en) | 2012-07-16 | 2014-01-22 | Thomson Licensing | Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction |
CN107071687B (zh) | 2012-07-16 | 2020-02-14 | 杜比国际公司 | 用于渲染音频声场表示以供音频回放的方法和设备 |
US9473870B2 (en) | 2012-07-16 | 2016-10-18 | Qualcomm Incorporated | Loudspeaker position compensation with 3D-audio hierarchical coding |
EP2875511B1 (en) | 2012-07-19 | 2018-02-21 | Dolby International AB | Audio coding for improving the rendering of multi-channel audio signals |
US9761229B2 (en) * | 2012-07-20 | 2017-09-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for audio object clustering |
US9479886B2 (en) | 2012-07-20 | 2016-10-25 | Qualcomm Incorporated | Scalable downmix design with feedback for object-based surround codec |
JP5967571B2 (ja) | 2012-07-26 | 2016-08-10 | 本田技研工業株式会社 | 音響信号処理装置、音響信号処理方法、及び音響信号処理プログラム |
WO2014068167A1 (en) * | 2012-10-30 | 2014-05-08 | Nokia Corporation | A method and apparatus for resilient vector quantization |
US9336771B2 (en) | 2012-11-01 | 2016-05-10 | Google Inc. | Speech recognition using non-parametric models |
EP2743922A1 (en) | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
US9736609B2 (en) | 2013-02-07 | 2017-08-15 | Qualcomm Incorporated | Determining renderers for spherical harmonic coefficients |
US9883310B2 (en) | 2013-02-08 | 2018-01-30 | Qualcomm Incorporated | Obtaining symmetry information for higher order ambisonic audio renderers |
EP2765791A1 (en) | 2013-02-08 | 2014-08-13 | Thomson Licensing | Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field |
US10178489B2 (en) | 2013-02-08 | 2019-01-08 | Qualcomm Incorporated | Signaling audio rendering information in a bitstream |
US9609452B2 (en) | 2013-02-08 | 2017-03-28 | Qualcomm Incorporated | Obtaining sparseness information for higher order ambisonic audio renderers |
US9338420B2 (en) | 2013-02-15 | 2016-05-10 | Qualcomm Incorporated | Video analysis assisted generation of multi-channel audio data |
CN104010265A (zh) * | 2013-02-22 | 2014-08-27 | 杜比实验室特许公司 | 音频空间渲染设备及方法 |
US9685163B2 (en) | 2013-03-01 | 2017-06-20 | Qualcomm Incorporated | Transforming spherical harmonic coefficients |
SG11201507066PA (en) * | 2013-03-05 | 2015-10-29 | Fraunhofer Ges Forschung | Apparatus and method for multichannel direct-ambient decomposition for audio signal processing |
US9197962B2 (en) | 2013-03-15 | 2015-11-24 | Mh Acoustics Llc | Polyhedral audio system based on at least second-order eigenbeams |
EP2800401A1 (en) | 2013-04-29 | 2014-11-05 | Thomson Licensing | Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation |
RU2667630C2 (ru) | 2013-05-16 | 2018-09-21 | Конинклейке Филипс Н.В. | Устройство аудиообработки и способ для этого |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
US9384741B2 (en) | 2013-05-29 | 2016-07-05 | Qualcomm Incorporated | Binauralization of rotated higher order ambisonics |
US20140355769A1 (en) | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Energy preservation for decomposed representations of a sound field |
WO2014195190A1 (en) | 2013-06-05 | 2014-12-11 | Thomson Licensing | Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals |
EP3933834B1 (en) | 2013-07-05 | 2024-07-24 | Dolby International AB | Enhanced soundfield coding using parametric component generation |
TWI631553B (zh) | 2013-07-19 | 2018-08-01 | 瑞典商杜比國際公司 | 將以<i>L</i><sub>1</sub>個頻道為基礎之輸入聲音訊號產生至<i>L</i><sub>2</sub>個揚聲器頻道之方法及裝置,以及得到一能量保留混音矩陣之方法及裝置,用以將以輸入頻道為基礎之聲音訊號混音以用於<i>L</i><sub>1</sub>個聲音頻道至<i>L</i><sub>2</sub>個揚聲器頻道 |
US20150127354A1 (en) | 2013-10-03 | 2015-05-07 | Qualcomm Incorporated | Near field compensation for decomposed representations of a sound field |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US9502045B2 (en) | 2014-01-30 | 2016-11-22 | Qualcomm Incorporated | Coding independent frames of ambient higher-order ambisonic coefficients |
US20150243292A1 (en) * | 2014-02-25 | 2015-08-27 | Qualcomm Incorporated | Order format signaling for higher-order ambisonic audio data |
US20150264483A1 (en) | 2014-03-14 | 2015-09-17 | Qualcomm Incorporated | Low frequency rendering of higher-order ambisonic audio data |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9959876B2 (en) * | 2014-05-16 | 2018-05-01 | Qualcomm Incorporated | Closed loop quantization of higher order ambisonic coefficients |
US20150332682A1 (en) * | 2014-05-16 | 2015-11-19 | Qualcomm Incorporated | Spatial relation coding for higher order ambisonic coefficients |
US9620137B2 (en) | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
US10142642B2 (en) | 2014-06-04 | 2018-11-27 | Qualcomm Incorporated | Block adaptive color-space conversion coding |
US20160093308A1 (en) | 2014-09-26 | 2016-03-31 | Qualcomm Incorporated | Predictive vector quantization techniques in a higher order ambisonics (hoa) framework |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
-
2014
- 2014-05-28 US US14/289,323 patent/US20140355769A1/en not_active Abandoned
- 2014-05-28 US US14/289,588 patent/US20140358565A1/en not_active Abandoned
- 2014-05-28 US US14/289,549 patent/US9883312B2/en active Active
- 2014-05-28 US US14/289,551 patent/US9502044B2/en active Active
- 2014-05-28 US US14/289,234 patent/US9763019B2/en active Active
- 2014-05-28 US US14/289,539 patent/US9854377B2/en active Active
- 2014-05-28 US US14/289,174 patent/US9495968B2/en not_active Expired - Fee Related
- 2014-05-28 US US14/289,522 patent/US11146903B2/en active Active
- 2014-05-28 US US14/289,396 patent/US9769586B2/en active Active
- 2014-05-28 US US14/289,440 patent/US10499176B2/en active Active
- 2014-05-28 US US14/289,477 patent/US9980074B2/en active Active
- 2014-05-28 US US14/289,265 patent/US9716959B2/en active Active
- 2014-05-29 EP EP14733462.7A patent/EP3005358B1/en active Active
- 2014-05-29 TW TW103118935A patent/TWI645723B/zh active
- 2014-05-29 HU HUE16183136A patent/HUE046520T2/hu unknown
- 2014-05-29 EP EP14733873.5A patent/EP3005359B1/en active Active
- 2014-05-29 ES ES16183135.9T patent/ES2689566T3/es active Active
- 2014-05-29 RU RU2015151021A patent/RU2668059C2/ru active
- 2014-05-29 KR KR1020157036271A patent/KR20160016885A/ko not_active Application Discontinuation
- 2014-05-29 KR KR1020157036262A patent/KR101877605B1/ko active IP Right Grant
- 2014-05-29 CN CN201480031271.1A patent/CN105580072B/zh active Active
- 2014-05-29 WO PCT/US2014/040041 patent/WO2014194105A1/en active Application Filing
- 2014-05-29 CN CN201480032630.5A patent/CN105284132B/zh active Active
- 2014-05-29 KR KR1020157036263A patent/KR101795900B1/ko active IP Right Grant
- 2014-05-29 JP JP2016516821A patent/JP6121625B2/ja active Active
- 2014-05-29 KR KR1020157036261A patent/KR102190201B1/ko active IP Right Grant
- 2014-05-29 WO PCT/US2014/040048 patent/WO2014194110A1/en active Application Filing
- 2014-05-29 BR BR112015030102-9A patent/BR112015030102B1/pt active IP Right Grant
- 2014-05-29 EP EP14736510.0A patent/EP3005361B1/en active Active
- 2014-05-29 CN CN201480032616.5A patent/CN105284131B/zh active Active
- 2014-05-29 WO PCT/US2014/040008 patent/WO2014194080A1/en active Application Filing
- 2014-05-29 JP JP2016516824A patent/JP6449256B2/ja active Active
- 2014-05-29 KR KR1020157036200A patent/KR101929092B1/ko active IP Right Grant
- 2014-05-29 CA CA2912810A patent/CA2912810C/en active Active
- 2014-05-29 WO PCT/US2014/040042 patent/WO2014194106A1/en active Application Filing
- 2014-05-29 KR KR1020157036244A patent/KR20160016879A/ko active IP Right Grant
- 2014-05-29 CN CN201480031031.1A patent/CN105264598B/zh active Active
- 2014-05-29 KR KR1020157036246A patent/KR20160016881A/ko not_active Application Discontinuation
- 2014-05-29 JP JP2016516813A patent/JP6185159B2/ja active Active
- 2014-05-29 CN CN201480031272.6A patent/CN105917407B/zh active Active
- 2014-05-29 TW TW103118931A patent/TW201509200A/zh unknown
- 2014-05-29 WO PCT/US2014/039999 patent/WO2014194075A1/en active Application Filing
- 2014-05-29 KR KR1020157036199A patent/KR20160013125A/ko active Application Filing
- 2014-05-29 KR KR1020157036241A patent/KR101961986B1/ko active IP Right Grant
- 2014-05-29 KR KR1020157036243A patent/KR20160016878A/ko not_active Application Discontinuation
- 2014-05-29 EP EP16183136.7A patent/EP3107095B1/en active Active
- 2014-05-29 SG SG11201509462VA patent/SG11201509462VA/en unknown
- 2014-05-29 WO PCT/US2014/040013 patent/WO2014194084A1/en active Application Filing
- 2014-05-29 ES ES14733873.5T patent/ES2635327T3/es active Active
- 2014-05-29 HU HUE14736510A patent/HUE033545T2/hu unknown
- 2014-05-29 WO PCT/US2014/040061 patent/WO2014194116A1/en active Application Filing
- 2014-05-29 ES ES16183136T patent/ES2764384T3/es active Active
- 2014-05-29 WO PCT/US2014/040044 patent/WO2014194107A1/en active Application Filing
- 2014-05-29 HU HUE16183135A patent/HUE039457T2/hu unknown
- 2014-05-29 EP EP14734328.9A patent/EP3005360B1/en active Active
- 2014-05-29 KR KR1020217022743A patent/KR102407554B1/ko active IP Right Grant
- 2014-05-29 WO PCT/US2014/040047 patent/WO2014194109A1/en active Application Filing
- 2014-05-29 WO PCT/US2014/040025 patent/WO2014194090A1/en active Application Filing
- 2014-05-29 MY MYPI2015704125A patent/MY174865A/en unknown
- 2014-05-29 ES ES14736510.0T patent/ES2641175T3/es active Active
- 2014-05-29 EP EP17177230.4A patent/EP3282448A3/en not_active Ceased
- 2014-05-29 WO PCT/US2014/040057 patent/WO2014194115A1/en active Application Filing
- 2014-05-29 AU AU2014274076A patent/AU2014274076B2/en active Active
- 2014-05-29 EP EP16183119.3A patent/EP3107093A1/en not_active Withdrawn
- 2014-05-29 EP EP16183135.9A patent/EP3107094B1/en active Active
- 2014-05-29 UA UAA201511755A patent/UA116140C2/uk unknown
- 2014-05-29 JP JP2016516823A patent/JP6345771B2/ja active Active
- 2014-05-29 CN CN201910693832.9A patent/CN110767242B/zh active Active
- 2014-05-29 WO PCT/US2014/040035 patent/WO2014194099A1/en active Application Filing
- 2014-05-29 CN CN201480031114.0A patent/CN105340009B/zh active Active
-
2015
- 2015-11-17 IL IL242648A patent/IL242648B/en active IP Right Grant
- 2015-11-26 PH PH12015502634A patent/PH12015502634B1/en unknown
- 2015-12-18 ZA ZA2015/09227A patent/ZA201509227B/en unknown
-
2016
- 2016-03-30 HK HK16103671.2A patent/HK1215752A1/zh unknown
- 2016-08-25 US US15/247,244 patent/US9749768B2/en active Active
- 2016-08-25 US US15/247,364 patent/US9774977B2/en active Active
-
2017
- 2017-03-29 JP JP2017065537A patent/JP6199519B2/ja active Active
- 2017-06-19 JP JP2017119791A patent/JP6290498B2/ja active Active
-
2021
- 2021-10-11 US US17/498,707 patent/US11962990B2/en active Active
-
2024
- 2024-04-12 US US18/634,501 patent/US20240276166A1/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI709131B (zh) * | 2017-12-27 | 2020-11-01 | 芬蘭商諾基亞科技公司 | 音訊場景處理技術 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11962990B2 (en) | Reordering of foreground audio objects in the ambisonics domain | |
US20150127354A1 (en) | Near field compensation for decomposed representations of a sound field | |
CN105340008B (zh) | 声场的经分解表示的压缩 |