TW201535354A - 寫碼環境高階立體混響係數之獨立訊框 - Google Patents
寫碼環境高階立體混響係數之獨立訊框 Download PDFInfo
- Publication number
- TW201535354A TW201535354A TW104103380A TW104103380A TW201535354A TW 201535354 A TW201535354 A TW 201535354A TW 104103380 A TW104103380 A TW 104103380A TW 104103380 A TW104103380 A TW 104103380A TW 201535354 A TW201535354 A TW 201535354A
- Authority
- TW
- Taiwan
- Prior art keywords
- frame
- vector
- information
- audio
- bits
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 130
- 230000004044 response Effects 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 627
- 238000013139 quantization Methods 0.000 claims description 322
- 239000000463 material Substances 0.000 claims description 74
- 230000005540 biological transmission Effects 0.000 claims description 49
- 230000007613 environmental effect Effects 0.000 claims description 31
- 238000003860 storage Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 description 81
- 238000000605 extraction Methods 0.000 description 53
- 238000000354 decomposition reaction Methods 0.000 description 37
- 230000009467 reduction Effects 0.000 description 37
- 238000004458 analytical method Methods 0.000 description 31
- 230000006870 function Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 22
- 230000005236 sound signal Effects 0.000 description 20
- 230000007704 transition Effects 0.000 description 15
- 230000015572 biosynthetic process Effects 0.000 description 14
- 239000000203 mixture Substances 0.000 description 14
- 238000003786 synthesis reaction Methods 0.000 description 14
- 230000008859 change Effects 0.000 description 12
- 230000006835 compression Effects 0.000 description 12
- 238000007906 compression Methods 0.000 description 12
- 238000009472 formulation Methods 0.000 description 12
- 230000014509 gene expression Effects 0.000 description 10
- 238000013519 translation Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 230000014616 translation Effects 0.000 description 9
- 230000003111 delayed effect Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000011664 signaling Effects 0.000 description 6
- 230000002441 reversible effect Effects 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010612 desalination reaction Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- VBRBNWWNRIMAII-WYMLVPIESA-N 3-[(e)-5-(4-ethylphenoxy)-3-methylpent-3-enyl]-2,2-dimethyloxirane Chemical compound C1=CC(CC)=CC=C1OC\C=C(/C)CCC1C(C)(C)O1 VBRBNWWNRIMAII-WYMLVPIESA-N 0.000 description 1
- ZAKOWWREFLAJOT-CEFNRUSXSA-N D-alpha-tocopherylacetate Chemical compound CC(=O)OC1=C(C)C(C)=C2O[C@@](CCC[C@H](C)CCC[C@H](C)CCCC(C)C)(C)CCC2=C1C ZAKOWWREFLAJOT-CEFNRUSXSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000386 athletic effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
大體而言,描述用於寫碼一環境高階立體混響係數之技術。包含一記憶體及一處理器之一音訊解碼器件可執行該等技術。該記憶體可儲存一位元串流之一第一訊框及該位元串流之一第二訊框。該處理器可自該第一訊框獲得指示該第一訊框是否為一獨立訊框之一或多個位元,該獨立訊框包括使得能夠在不參考該第二訊框之情況下解碼該第一訊框之額外參考資訊。該處理器可回應於指示該第一訊框並非一獨立訊框之該一或多個位元而進一步獲得用於一輸送聲道之第一聲道旁側資訊資料之預測資訊。該預測資訊可用以參考該輸送聲道之第二聲道旁側資訊資料解碼該輸送聲道之該第一聲道旁側資訊資料。
Description
本申請案主張以下各美國臨時申請案之權利:2014年1月30日申請之題為「音場之經分解表示之壓縮(COMPRESSION OF DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)」之美國臨時申請案第61/933,706號;2014年1月30日申請之題為「音場之經分解表示之壓縮(COMPRESSION OF DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)」之美國臨時申請案第61/933,714號;2014年1月30日申請之題為「指示用於解碼空間向量之訊框參數可重用性(INDICATING FRAME PARAMETER REUSABILITY FOR DECODING SPATIAL VECTORS)」之美國臨時申請案第61/933,731號;2014年3月7日申請之題為「用於球諧係數之立即播出訊框(IMMEDIATE PLAY-OUT FRAME FOR SPHERICAL HARMONIC COEFFICIENTS)」之美國臨時申請案第61/949,591號;2014年3月7日申請之題為「音場之經分解表示之淡入/淡出(FADE-IN/FADE-OUT OF DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)」之美國臨時申請案第61/949,583號;2014年5月16日申請之題為「譯碼經分解高階立體混響(HOA)音
訊信號之V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)」之美國臨時申請案第61/994,794號;2014年5月28日申請之題為「指示用於解碼空間向量之訊框參數可重用性(INDICATING FRAME PARAMETER REUSABILITY FOR DECODING SPATIAL VECTORS)」之美國臨時申請案第62/004,147號;2014年5月28日申請之題為「用於球諧係數之立即播出訊框及音場之經分解表示之淡入/淡出(IMMEDIATE PLAY-OUT FRAME FOR SPHERICAL HARMONIC COEFFICIENTS AND FADE-IN/FADE-OUT OF DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)」之美國臨時申請案第62/004,067號;2014年5月28日申請之題為「譯碼經分解高階立體混響(HOA)音訊信號之V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)」之美國臨時申請案第62/004,128號;2014年7月1日申請之題為「譯碼經分解高階立體混響(HOA)音訊信號之V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)」之美國臨時申請案第62/019,663號;2014年7月22日申請之題為「譯碼經分解高階立體混響(HOA)音訊信號之V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)」之美國臨時申請案第62/027,702號;2014年7月23日申請之題為「譯碼經分解高階立體混響(HOA)音訊信號之V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER
ORDER AMBISONICS(HOA)AUDIO SIGNAL)」之美國臨時申請案第62/028,282號;2014年7月25日申請之題為「用於球諧係數之立即播出訊框及音場之經分解表示之淡入/淡出(IMMEDIATE PLAY-OUT FRAME FOR SPHERICAL HARMONIC COEFFICIENTS AND FADE-IN/FADE-OUT OF DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)」之美國臨時申請案第62/029,173號;2014年8月1日申請之題為「譯碼經分解高階立體混響(HOA)音訊信號之V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)」之美國臨時申請案第62/032,440號;2014年9月26日申請之題為「高階立體混響(HOA)音訊信號之切換式V-向量量化(SWITCHED V-VECTOR QUANTIZATION OF A HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)」之美國臨時申請案第62/056,248號;及2014年9月26日申請之題為「經分解高階立體混響(HOA)音訊信號之預測性向量量化(PREDICTIVE VECTOR QUANTIZATION OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)」之美國臨時申請案第62/056,286號;及2015年1月12日申請之題為「環境高階立體混響係數之轉變(TRANSITIONING OF AMBIENT HIGHER-ORDER AMBISONIC COEFFICIENTS)」之美國臨時申請案第62/102,243號,前述所列各美國臨時申請案中之每一者以引用之方式併入本文中,如同在其各別全文中所闡述般。
本發明係關於音訊資料且,更具體而言,係關於高階立體混響
音訊資料之譯碼。
高階立體混響(HOA)信號(常常藉由複數個球諧係數(SHC)或其他階層元素表示)為音場之三維表示。HOA或SHC表示可按獨立於用以播放自SHC信號轉譯之多通道音訊信號的局部揚聲器幾何佈置之方式來表示音場。SHC信號亦可促進回溯相容性,此係因為可將SHC信號轉譯為熟知且被高度採用之多通道格式(諸如,5.1音訊通道格式或7.1音訊通道格式)。SHC表示因此可實現對音場之更好表示,其亦適應回溯相容性。
大體而言,描述譯碼高階立體混響音訊資料之技術。高階立體混響音訊資料可包含對應於具有大於一之一階數之一球諧基底函數的至少一球諧係數。
在一態樣中,論述一種解碼包括一輸送聲道之一位元串流之方法,該輸送聲道指定指示經編碼高階立體混響音訊資料之一或多個位元。該方法包含自該位元串流之包括該輸送聲道之第一聲道旁側資訊資料的一第一訊框獲得指示該第一訊框是否為一獨立訊框之一或多個位元,該獨立訊框包括使得能夠在不參考該位元串流之包括該輸送聲道之第二聲道旁側資訊資料的一第二訊框之情況下解碼該第一訊框的額外參考資訊。該方法亦包含回應於指示該第一訊框並非一獨立訊框之該一或多個位元而獲得用於該輸送聲道之該第一聲道旁側資訊資料之預測資訊。該預測資訊用以參考該輸送聲道之該第二聲道旁側資訊資料解碼該輸送聲道之該第一聲道旁側資訊資料。
在另一態樣中,論述一種音訊解碼器件,其經組態以解碼包括一輸送聲道之一位元串流,該輸送聲道指定指示經編碼高階立體混響音訊資料之一或多個位元。該音訊解碼器件包含一記憶體,其經組態
以儲存該位元串流之包括該輸送聲道之第一聲道旁側資訊資料的一第一訊框,及該位元串流之包括該輸送聲道之第二聲道旁側資訊資料的一第二訊框。該音訊解碼器件亦包含一或多個處理器,其經組態以自該第一訊框獲得指示該第一訊框是否為一獨立訊框之一或多個位元,該獨立訊框包括使得能夠在不參考該第二訊框之情況下解碼該第一訊框之額外參考資訊。該一或多個處理器經進一步組態以回應於指示該第一訊框並非一獨立訊框之該一或多個位元而獲得用於該輸送聲道之該第一聲道旁側資訊資料之預測資訊。該預測資訊用以參考該輸送聲道之該第二聲道旁側資訊資料解碼該輸送聲道之該第一聲道旁側資訊資料。
在另一態樣中,一種音訊解碼器件經組態以解碼一位元串流。該音訊解碼器件包含用於儲存該位元串流之構件,該位元串流包括包含表示一球諧域中之一正交空間軸線之一向量的一第一訊框。該音訊解碼器件亦包含用於自該位元串流之一第一訊框獲得指示該第一訊框是否為一獨立訊框之一或多個位元的構件,該獨立訊框包括使得能夠在不參考該位元串流之一第二訊框之情況下解碼該向量的向量量化資訊。
在另一態樣中,一種非暫時性電腦可讀儲存媒體具有儲存於其上之指令,該等指令在經執行時使得一或多個處理器進行以下操作:自該位元串流之包括一輸送聲道之第一聲道旁側資訊資料的一第一訊框獲得指示該第一訊框是否為一獨立訊框之一或多個位元,該獨立訊框包括使得能夠在不參考該位元串流之包括該輸送聲道之第二聲道旁側資訊資料的一第二訊框之情況下解碼該第一訊框的額外參考資訊;及回應於指示該第一訊框並非一獨立訊框之該一或多個位元而獲得用於該輸送聲道之該第一聲道旁側資訊資料之預測資訊,該預測資訊用以參考該輸送聲道之該第二聲道旁側資訊資料解碼該輸送聲道之該第
一聲道旁側資訊資料。
在另一態樣中,論述一種編碼高階環境係數以獲得包括一輸送聲道之一位元串流的方法,該輸送聲道指定指示經編碼高階立體混響音訊資料之一或多個位元。該方法包含在該位元串流之包括該輸送聲道之第一聲道旁側資訊資料的一第一訊框中指定指示該第一訊框是否為一獨立訊框之一或多個位元,該獨立訊框包括使得能夠在不參考該位元串流之包括該輸送聲道之第二聲道旁側資訊資料的一第二訊框之情況下解碼該第一訊框的額外參考資訊。該方法進一步包含回應於指示該第一訊框並非一獨立訊框之該一或多個位元而指定用於該輸送聲道之該第一聲道旁側資訊資料的預測資訊。該預測資訊可用以參考該輸送聲道之該第二聲道旁側資訊資料解碼該輸送聲道之該第一聲道旁側資訊資料。
在另一態樣中,論述一種音訊編碼器件,其經組態以編碼高階環境係數以獲得包括一輸送聲道之一位元串流,該輸送聲道指定指示經編碼高階立體混響音訊資料之一或多個位元。該音訊編碼器件包含經組態以儲存該位元串流之一記憶體。該音訊編碼器件亦包含一或多個處理器,其經組態以在該位元串流之包括該輸送聲道之第一聲道旁側資訊資料的一第一訊框中指定指示該第一訊框是否為一獨立訊框之一或多個位元,該獨立訊框包括使得能夠在不參考該位元串流之包括該輸送聲道之第二聲道旁側資訊資料的一第二訊框之情況下解碼該第一訊框的額外參考資訊。該一或多個處理器可進一步經組態以回應於指示該第一訊框並非一獨立訊框之該一或多個位元而指定用於該輸送聲道之該第一聲道旁側資訊資料的預測資訊。該預測資訊可用以參考該輸送聲道之該第二聲道旁側資訊資料解碼該輸送聲道之該第一聲道旁側資訊資料。
在另一態樣中,論述一種音訊編碼器件,其經組態以編碼高階
環境音訊資料以獲得一位元串流。該音訊編碼器件包含用於儲存該位元串流之構件,該位元串流包括包含表示一球諧域中之一正交空間軸線之一向量的一第一訊框。該音訊編碼器件亦包含用於自該位元串流之該第一訊框獲得指示該第一訊框是否為一獨立訊框之一或多個位元的構件,該獨立訊框包括使得能夠在不參考該位元串流之一第二訊框之情況下解碼該向量的向量量化資訊。
在另一態樣中,一種非暫時性電腦可讀儲存媒體具有儲存於其上之指令,該等指令在經執行時使得一或多個處理器進行以下操作:在該位元串流之包括一輸送聲道之第一聲道旁側資訊資料的一第一訊框中指定指示該第一訊框是否為一獨立訊框之一或多個位元,該獨立訊框包括使得能夠在不參考該位元串流之包括該輸送聲道之第二聲道旁側資訊資料的一第二訊框之情況下解碼該第一訊框的額外參考資訊;及回應於指示該第一訊框並非一獨立訊框之該一或多個位元而指定用於該輸送聲道之該第一聲道旁側資訊資料之預測資訊,該預測資訊用以參考該輸送聲道之該第二聲道旁側資訊資料解碼該輸送聲道之該第一聲道旁側資訊資料。
在隨附圖式及以下描述中闡述該等技術之一或多個態樣的細節。該等技術之其他特徵、目標及優點將自該描述及該等圖式以及自申請專利範圍而顯而易見。
7‧‧‧實況記錄
9‧‧‧音訊物件
10‧‧‧系統
11‧‧‧高階立體混響係數
11'‧‧‧高階立體混響係數
12‧‧‧內容建立者器件
13‧‧‧擴音器資訊
14‧‧‧內容消費者器件
16‧‧‧音訊播放系統
18‧‧‧音訊編輯系統
20‧‧‧音訊編碼器件
21‧‧‧位元串流
22‧‧‧轉譯器
24‧‧‧音訊解碼器件
25‧‧‧擴音器饋入
26‧‧‧內容分析單元
27‧‧‧基於向量之分解單元/基於向量之合成單元
28‧‧‧基於方向之分解單元
30‧‧‧線性可逆變換(LIT)單元
32‧‧‧參數計算單元
33‧‧‧US[k]向量
33'‧‧‧經重新排序之US[k]矩陣
34‧‧‧重新排序單元
35‧‧‧V[k]向量
35'‧‧‧經重新排序之V[k]矩陣
36‧‧‧前景選擇單元
37‧‧‧當前參數
38‧‧‧能量補償單元
39‧‧‧先前參數
40‧‧‧音質音訊寫碼器單元
41‧‧‧目標位元速率
42‧‧‧位元串流產生單元
43‧‧‧背景聲道資訊
44‧‧‧音場分析單元
45‧‧‧前景聲道之總數目(nFG)
46‧‧‧係數減少單元
47‧‧‧背景或環境高階立體混響係數/單獨環境高階立體混
響聲道47
47'‧‧‧經能量補償之環境高階立體混響係數
48‧‧‧背景(BG)選擇單元
49‧‧‧前景聲道之總數目信號
49'‧‧‧經內插之前景聲道之總數目信號
50‧‧‧空間-時間內插單元
51 k ‧‧‧前景V[k]矩陣
52‧‧‧量化單元/V-向量寫碼單元52
53‧‧‧剩餘前景V[k]向量
55‧‧‧減少之前景V[k]向量
57‧‧‧旁側聲道資訊/經寫碼前景V[k]向量/經寫碼權重
59‧‧‧經編碼環境高階立體混響係數
61‧‧‧經編碼前景聲道之總數目信號/音訊物件
63‧‧‧旗標/碼向量/索引
65‧‧‧前景高階立體混響係數
72‧‧‧提取單元
74‧‧‧V-向量重建構單元/解量化單元
76‧‧‧空間-時間內插單元
78‧‧‧前景制訂單元
80‧‧‧音質解碼單元
82‧‧‧高階立體混響係數制訂單元
84‧‧‧重新排序單元
90‧‧‧基於方向性之重建構單元
91‧‧‧基於方向之資訊
92‧‧‧基於向量之重建構單元
154A‧‧‧ChannelSideInfoData(CSID)欄位
154B‧‧‧ChannelSideInfoData(CSID)欄位
154C‧‧‧ChannelSideInfoData(CSID)欄位
154D‧‧‧ChannelSideInfoData(CSID)欄位
156‧‧‧VVectorData欄位
156A‧‧‧VVectorData欄位
156B‧‧‧VectorData欄位
249S‧‧‧訊框
249T‧‧‧訊框
261‧‧‧NbitsQ語法元素
265‧‧‧bA語法元素(「bA」)
266‧‧‧bb語法元素(「bB」)
267‧‧‧uintC語法元素(「uintC」)
269‧‧‧ChannelType語法元素(「ChannelType」)
300‧‧‧PFlag語法元素
302‧‧‧CbFlag語法元素
402‧‧‧狀態機
450‧‧‧位元串流
620‧‧‧預測性權重值
755‧‧‧V分解單元
756‧‧‧模式組態單元
757‧‧‧信號/轉變資訊
758‧‧‧剖析單元
760‧‧‧模式
770‧‧‧淡化單元
808‧‧‧位元串流
810A‧‧‧訊框
810B‧‧‧訊框
810C‧‧‧訊框
810D‧‧‧訊框
810E‧‧‧訊框
810H‧‧‧訊框
812‧‧‧狀態資訊
814‧‧‧組態
816‧‧‧立即播出訊框(IPF)
860‧‧‧HOAIndependencyFlag語法元素
圖1為說明具有各種階數及子階數之球諧基底函數之圖。
圖2為說明可執行本發明中所描述之技術之各種態樣的系統的圖。
圖3為更詳細地說明可執行本發明中所描述之技術之各種態樣的圖2之實例中所展示的音訊編碼器件之一實例的方塊圖。
圖4為更詳細地說明圖2之音訊解碼器件之方塊圖。
圖5A為說明音訊編碼器件在執行本發明中所描述的基於向量之合成技術之各種態樣中的例示性操作的流程圖。
圖5B為說明音訊編碼器件在執行本發明中所描述之譯碼技術之各種態樣中的例示性操作的流程圖。
圖6A為說明音訊解碼器件在執行本發明中所描述之技術之各種態樣中的例示性操作的流程圖。
圖6B為說明音訊解碼器件在執行本發明中所描述之譯碼技術之各種態樣中的例示性操作的流程圖。
圖7為更詳細地說明可指定經壓縮空間分量之位元串流或旁側聲道資訊之一部分的圖。
圖8A及圖8B為各自更詳細地說明可指定經壓縮空間分量之位元串流或旁側聲道資訊之一部分的圖。
環繞聲之演化現今已使得許多輸出格式可用於娛樂。此等消費型環繞聲格式之實例大部分為「聲道」式的,此係因為其以某些幾何座標隱含地指定至擴音器之饋入。消費型環繞聲格式包括風行的5.1格式(其包括以下六個聲道:左前(FL)、右前(FR)、中心或前中心、左後或左環繞、右後或右環繞,及低頻效應(LFE))、發展中的7.1格式、包括高度揚聲器之各種格式,諸如7.1.4格式及22.2格式(例如,用於供超高清晰度電視標準使用)。非消費型格式可橫跨任何數目個揚聲器(成對稱及非對稱幾何佈置),其常常被稱為「環繞陣列」。此類陣列之一實例包括定位於截頂二十面體(truncated icosahedron)之拐角上的座標處之32個擴音器。
至未來MPEG編碼器之輸入視情況為以下三種可能格式中之一者:(i)傳統的基於聲道之音訊(如上文所論述),其意欲經由處於預先指定之位置處的擴音器播放;(ii)基於物件之音訊,其涉及用於單一
音訊物件之具有含有其位置座標(以及其他資訊)之相關聯後設資料的離散脈碼調變(PCM)資料;及(iii)基於場景之音訊,其涉及使用球諧基底函數之係數(亦被稱為「球諧係數」或SHC、「高階立體混響」或HOA及「HOA係數」)來表示音場。該未來MPEG編碼器可能更詳細地描述於國際標準化組織/國際電工委員會(ISO)/(IEC)JTC1/SC29/WG11/N13411之題為「要求針對3D音訊之提議(Call for Proposals for 3D Audio)」的文件中,該文件於2013年1月在瑞士日內瓦發佈,且可在http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip獲得。
在市場中存在各種基於「環繞聲」聲道之格式。舉例而言,其範圍自5.1家庭影院系統(其在使起居室享有立體聲方面已獲得最大成功)至由日本廣播協會或日本廣播公司(NHK)開發之22.2系統。內容建立者(例如,好萊塢工作室)將希望產生影片之音軌一次,而不花費精力來針對每一揚聲器組態對其進行重混(remix)。近年來,標準開發組織一直在考慮如下方式:將編碼及後續解碼(其可為調適的且不知曉播放位置(涉及轉譯器)處的揚聲器幾何佈置(及數目)及聲學條件)提供至標準化位元串流中。
為了向內容建立者提供此類靈活性,可使用一組階層元素來表示音場。該組階層元素可指其中元素經排序而使得一組基本低階元素提供經模型化音場之完整表示的一組元素。當將該組擴展以包括高階元素時,該表示變得更詳細,從而增加解析度。
一組階層元素之一實例為一組球諧係數(SHC)。以下表達式示範使用SHC進行的對音場之描述或表示:
該表達式展示:在時間t在音場之任何點{r r ,θ r ,φ r }處之壓力p i 可獨
特地藉由SHC 來表示。此處,,c為音速(~343m/s),{r r ,θ r ,φ r }為參考點(或觀測點),j n (.)為n階球面貝塞爾函數,且為n階及m子階球諧基底函數。可辨識,方括號中之術語為可藉由各種時間-頻率變換來近似的信號之頻域表示(亦即,S(ω,r r ,θ r ,φ r )),該等變換諸如離散傅立葉變換(DFT)、離散餘弦變換(DCT)或小波變換。階層組之其他實例包括數組小波變換係數及其他數組多解析度基底函數係數。
圖1為說明自零階(n=0)至四階(n=4)之球諧基底函數的圖。如可見,對於每一階而言,存在m子階之擴展,出於易於說明之目的,在圖1之實例中展示了該等子階但未明確地提及。
可藉由各種麥克風陣列組態來實體地獲取(例如,記錄)SHC ,或替代地,可自音場之基於聲道或基於物件之描述導出SHC。SHC表示基於場景之音訊,其中可將SHC輸入至音訊編碼器以獲得經編碼SHC,該經編碼SHC可促成更有效率的傳輸或儲存。舉例而言,可使用涉及(1+4)2(25,且因此為四階)係數之四階表示。
如上文所提及,可使用麥克風陣列自麥克風記錄導出SHC。可如何自麥克風陣列導出SHC之各種實例描述於Poletti,M.之「基於球諧之三維環繞聲系統(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)」(J.Audio Eng.Soc.,第53卷,第11期,2005年11月,第1004至1025頁)中。
為了說明可如何自基於物件之描述導出SHC,考慮以下等式。可將對應於個別音訊物件之音場之係數表達為:
其中i為,為n階球面漢克爾函數(第二種類),且{r s ,θ s ,φ s }為物件之位置。知道依據頻率之物件源能量g(ω)(例如,使用時間-頻率分析技術,諸如,對PCM串流執行快速傅立葉變換)允許
吾人將每一PCM物件及對應位置轉換成SHC 。另外,可展示(因為上述情形為線性及正交分解)每一物件之係數為加成性的。以此方式,可藉由係數表示眾多PCM物件(例如,作為用於個別物件之係數向量之總和)。基本上,該等係數含有關於音場之資訊(依據3D座標之壓力),且上述情形表示在觀測點{r r ,θ r ,φ r }附近自個別物件至整個音場之表示的變換。下文在基於物件及基於SHC之音訊寫碼的內容脈絡中描述剩餘諸圖。
圖2為說明可執行本發明中所描述之技術之各種態樣的系統10的圖。如圖2之實例中所展示,系統10包括內容建立者器件12及內容消費者器件14。雖然在內容建立者器件12及內容消費者器件14之內容脈絡中加以描述,但可在音場之SHC(其亦可被稱作HOA係數)或任何其他階層表示經編碼以形成表示音訊資料之位元串流的任何內容脈絡中實施該等技術。此外,內容建立者器件12可表示能夠實施本發明中所描述之技術的任何形式之計算器件,包括手機(或蜂巢式電話)、平板電腦、智慧型手機或桌上型電腦(提供幾個實例)。同樣地,內容消費者器件14可表示能夠實施本發明中所描述之技術的任何形式之計算器件,包括手機(或蜂巢式電話)、平板電腦、智慧型手機、機上盒,或桌上型電腦(提供幾個實例)。
內容建立者器件12可由影片工作室或可產生多聲道音訊內容以供內容消費者之操作者(諸如,內容消費者器件14)消耗的其他實體來操作。在一些實例中,內容建立者器件12可由將希望壓縮HOA係數11之個別使用者操作。常常,內容建立者產生音訊內容連同視訊內容。內容消費者器件14可由個體來操作。內容消費者器件14可包括音訊播放系統16,其可指能夠轉譯SHC以供作為多聲道音訊內容播放的任何形式之音訊播放系統。
內容建立者器件12包括音訊編輯系統18。內容建立者器件12獲
得呈各種格式(包括直接作為HOA係數)之實況記錄7及音訊物件9,內容建立者器件12可使用音訊編輯系統18對實況記錄7及音訊物件9進行編輯。內容建立者可在編輯處理程序期間自音訊物件9轉譯HOA係數11,從而在識別音場之需要進一步編輯之各種態樣的嘗試中傾聽所轉譯之揚聲器饋入。內容建立者器件12可接著編輯HOA係數11(可能經由操縱可供以上文所描述之方式導出源HOA係數的音訊物件9中之不同者間接地編輯)。內容建立者器件12可使用音訊編輯系統18產生HOA係數11。音訊編輯系統18表示能夠編輯音訊資料且輸出該音訊資料作為一或多個源球諧係數之任何系統。
當編輯處理程序完成時,內容建立者器件12可基於HOA係數11產生位元串流21。亦即,內容建立者器件12包括音訊編碼器件20,該音訊編碼器件20表示經組態以根據本發明中所描述之技術之各種態樣編碼或以其他方式壓縮HOA係數11以產生位元串流21的器件。音訊編碼器件20可產生位元串流21以供傳輸,作為一實例,跨越傳輸頻道(其可為有線或無線頻道、資料儲存器件或其類似者)。位元串流21可表示HOA係數11之經編碼版本,且可包括主要位元串流及另一旁側位元串流(其可被稱作旁側聲道資訊)。
儘管下文更詳細地加以描述,但音訊編碼器件20可經組態以基於基於向量之合成或基於方向之合成編碼HOA係數11。為了判定是執行基於向量之分解方法抑或執行基於方向之分解方法,音訊編碼器件20可至少部分基於HOA係數11判定HOA係數11係經由音場之自然記錄(例如,實況記錄7)產生抑或自(作為一實例)諸如PCM物件之音訊物件9人工地(亦即,合成地)產生。當HOA係數11係自音訊物體9產生時,音訊編碼器件20可使用基於方向之分解方法編碼HOA係數11。當HOA係數11係使用(例如,eigenmike)實況地俘獲時,音訊編碼器件20可基於基於向量之分解方法編碼HOA係數11。上述區別表示可部署基
於向量或基於方向之分解方法的一實例。可能存在其他狀況:其中該等分解方法中之任一者或兩者可用於自然記錄、人工產生之內容或兩種內容之混合(混合內容)。此外,亦有可能同時使用兩種方法用於寫碼HOA係數之單一時間框。
出於說明之目的假定:音訊編碼器件20判定HOA係數11係實況地俘獲或以其他方式表示實況記錄(諸如,實況記錄7),音訊編碼器件20可經組態以使用涉及線性可逆變換(LIT)之應用的基於向量之分解方法編碼HOA係數11。線性可逆變換之一實例被稱作「奇異值分解」(或「SVD」)。在此實例中,音訊編碼器件20可將SVD應用於HOA係數11以判定HOA係數11之經分解版本。音訊編碼器件20可接著分析HOA係數11之經分解版本以識別可促進進行HOA係數11之經分解版本之重新排序的各種參數。音訊編碼器件20可接著基於所識別之參數將HOA係數11之經分解版本重新排序,其中如下文進一步詳細描述,在給定以下情形之情況下,此重新排序可改良譯碼效率:變換可將HOA係數跨越HOA係數之訊框重新排序(其中一訊框可包括HOA係數11之M個樣本且在一些實例中,M經設定為1024)。在將HOA係數11之經分解版本重新排序之後,音訊編碼器件20可選擇表示音場之前景(或,換言之,特異的、佔優勢的或突出的)分量的HOA係數11之經分解版本。音訊編碼器件20可將表示前景分量的HOA係數11之經分解版本指定為音訊物件及相關聯方向資訊。
音訊編碼器件20亦可關於HOA係數11執行音場分析以便至少部分地識別表示音場之一或多個背景(或,換言之,環境)分量之HOA係數11。音訊編碼器件20可在給定以下情形之情況下關於背景分量執行能量補償:在一些實例中,背景分量可能僅包括HOA係數11之任何給定樣本之一子集(例如,諸如對應於零階及一階球面基底函數之HOA係數11,而非對應於二階或高階球面基底函數之HOA係數11)。換言
之,當執行降階時,音訊編碼器件20可擴增(例如,添加能量/減去能量)HOA係數11中之剩餘背景HOA係數以補償由於執行降階而導致的總體能量之改變。
音訊編碼器件20接下來可關於表示背景分量及前景音訊物件中之每一者的HOA係數11中之每一者執行一種形式之音質編碼(諸如,MPEG環繞、MPEG-AAC、MPEG-USAC或其他已知形式之音質編碼)。音訊編碼器件20可關於前景方向資訊執行一種形式之內插,且接著關於經內插前景方向資訊執行一降階以產生經降階之前景方向資訊。在一些實例中,音訊編碼器件20可進一步關於經降階之前景方向資訊執行量化,從而輸出經寫碼前景方向資訊。在一些情況下,量化可包含純量/熵量化。音訊編碼器件20可接著形成位元串流21以包括經編碼背景分量、經編碼前景音訊物件及經量化之方向資訊。音訊編碼器件20可接著傳輸或以其他方式將位元串流21輸出至內容消費者器件14。
雖然在圖2中經展示為直接傳輸至內容消費者器件14,但內容建立者器件12可將位元串流21輸出至定位於內容建立者器件12與內容消費者器件14之間的中間器件。該中間器件可儲存位元串流21以供稍後遞送至可能請求該位元串流之內容消費者器件14。該中間器件可包含檔案伺服器、網頁伺服器、桌上型電腦、膝上型電腦、平板電腦、行動電話、智慧型手機,或能夠儲存位元串流21以供音訊解碼器稍後擷取之任何其他器件。該中間器件可駐留於能夠將位元串流21串流傳輸(且可能結合傳輸對應視訊資料位元串流)至請求位元串流21之訂戶(諸如,內容消費者器件14)的內容遞送網路中。
替代地,內容建立者器件12可將位元串流21儲存至儲存媒體,諸如緊密光碟、數位影音光碟、高清晰度視訊光碟或其他儲存媒體,其中之大部分能夠由電腦讀取且因此可被稱作電腦可讀儲存媒體或非
暫時性電腦可讀儲存媒體。在此內容脈絡中,傳輸通道可指藉以傳輸儲存至該等媒體之內容的彼等通道(且可包括零售商店及其他基於商店之遞送機構)。在任何情況下,本發明之技術因此就此而言不應限於圖2之實例。
如圖2之實例中進一步展示,內容消費者器件14包括音訊播放系統16。音訊播放系統16可表示能夠播放多聲道音訊資料之任何音訊播放系統。音訊播放系統16可包括數個不同轉譯器22。轉譯器22可各自提供不同形式之轉譯,其中不同形式之轉譯可包括執行基於向量之振幅移動(VBAP)之各種方式中的一或多者及/或執行音場合成之各種方式中的一或多者。如本文所使用,「A及/或B」意謂「A或B」,或「A及B」兩者。
音訊播放系統16可進一步包括音訊解碼器件24。音訊解碼器件24可表示經組態以解碼來自位元串流21之HOA係數11'之器件,其中HOA係數11'可類似於HOA係數11,但歸因於經由傳輸通道之有損操作(例如,量化)及/或傳輸而有所不同。亦即,音訊解碼器件24可將位元串流21中所指定之前景方向資訊解量化,同時亦關於位元串流21中所指定之前景音訊物件及表示背景分量之經編碼HOA係數執行音質解碼。音訊解碼器件24可進一步關於經解碼前景方向資訊執行內插,且接著基於經解碼前景音訊物件及經內插前景方向資訊判定表示前景分量之HOA係數。音訊解碼器件24可接著基於表示前景分量之所判定的HOA係數及表示背景分量之經解碼HOA係數判定HOA係數11'。
音訊播放系統16可在解碼位元串流21之後獲得HOA係數11'且轉譯HOA係數11'以輸出擴音器饋入25。擴音器饋入25可驅動一或多個擴音器(其出於易於說明之目的而未在圖2之實例中加以展示)。
為了選擇適當轉譯器或在一些情況下產生適當轉譯器,音訊播放系統16可獲得指示擴音器之數目及/或擴音器之空間幾何佈置的擴
音器資訊13。在一些情況下,音訊播放系統16可使用參考麥克風且以使得動態地判定擴音器資訊13之方式驅動擴音器而獲得擴音器資訊13。在其他情況下或結合擴音器資訊13之動態判定,音訊播放系統16可提示使用者與音訊播放系統16介接且輸入擴音器資訊13。
音訊播放系統16可接著基於擴音器資訊13選擇音訊轉譯器22中之一者。在一些情況下,當音訊轉譯器22中無一者在與擴音器資訊13中所指定者處於某一臨限相似度度量(按照擴音器幾何佈置)內時,音訊播放系統16可基於擴音器資訊13產生音訊轉譯器22中之該者。在一些情況下,音訊播放系統16可基於擴音器資訊13產生音訊轉譯器22中之一者,而不會首先試圖選擇音訊轉譯器22中之現有的一者。
圖3為更詳細地說明可執行本發明中所描述之技術之各種態樣的圖2之實例中所展示的音訊編碼器件20之一實例的方塊圖。音訊編碼器件20包括內容分析單元26、基於向量之分解單元27及基於方向之分解單元28。儘管下文簡要描述,但關於音訊編碼器件20及壓縮或以其他方式編碼HOA係數之各種態樣之更多資訊可在2014年5月29日申請之題為「用於音場之經分解表示之內插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)」之國際專利申請公開案第WO 2014/194099號中獲得。
內容分析單元26表示經組態以分析HOA係數11之內容以識別HOA係數11表示自實況記錄產生之內容抑或自音訊物件產生之內容的單元。內容分析單元26可判定HOA係數11係自實際音場之記錄產生抑或自人工音訊物件產生。在一些情況下,當框式HOA係數11係自記錄產生時,內容分析單元26將HOA係數11傳遞至基於向量之分解單元27。在一些情況下,當框式HOA係數11係自合成音訊物件產生時,內容分析單元26將HOA係數11傳遞至基於方向之合成單元28。基於方向之合成單元28可表示經組態以執行對HOA係數11的基於方向之合成以
產生基於方向之位元串流21的單元。
如圖3之實例中所展示,基於向量之分解單元27可包括線性可逆變換(LIT)單元30、參數計算單元32、重新排序單元34、前景選擇單元36、能量補償單元38、音質音訊寫碼器單元40、位元串流產生單元42、音場分析單元44、係數減少單元46、背景(BG)選擇單元48、空間-時間內插單元50及量化單元52。
線性可逆變換(LIT)單元30接收呈HOA聲道形式之HOA係數11,每一聲道表示與球面基底函數之給定階數、子階數相關聯的係數之區塊或訊框(其可表示為HOA[k],其中k可表示樣本之當前訊框或區塊)。HOA係數11之矩陣可具有維度D:M×(N+1)2。
亦即,LIT單元30可表示經組態以執行被稱作奇異值分解之形式之分析的單元。雖然關於SVD加以描述,但可關於提供數組線性不相關的能量密集輸出之任何類似變換或分解執行本發明中所描述之該等技術。又,本發明中對「組」之提及大體上意欲指非零組(除非特別地相反陳述),且並不意欲指包括所謂的「空組」之組之經典數學定義。
替代變換可包含常常被稱作「PCA」之主分量分析。PCA係指使用正交變換將一組可能相關變數之觀測結果轉換成被稱作主分量之一組線性不相關變數的數學程序。線性不相關變數表示彼此並不具有線性統計關係(或相依性)之變數。可將主分量描述為彼此具有小程度之統計相關性。在任何情況下,所謂的主分量之數目小於或等於原始變數之數目。在一些實例中,按如下方式定義變換:使得第一主分量具有最大可能方差(或,換言之,儘可能多地考慮資料中之可變性),且每一接續分量又具有可能的最高方差(在以下約束下:該連續分量正交於前述分量(該情形可重新陳述為與前述分量不相關))。PCA可執行一種形式之降階,其就HOA係數11而言可導致HOA係數11之壓縮。取
決於內容脈絡,可藉由數個不同名稱來提及PCA,諸如離散卡忽南-拉維變換(discrete Karhunen-Loeve transform)、哈特林變換(Hotelling transform)、適當正交分解(POD)及本徵值分解(EVD)(僅舉幾個實例)。有利於壓縮音訊資料之基本目標的此等操作之性質為多聲道音訊資料之「能量壓縮」及「解相關」。
在任何情況下,出於實例之目的,假定LIT單元30執行奇異值分解(其再次可被稱作「SVD」),LIT單元30可將HOA係數11變換成兩組或兩組以上經變換之HOA係數。「數組」經變換之HOA係數可包括經變換之HOA係數之向量。在圖3之實例中,LIT單元30可關於HOA係數11執行SVD以產生所謂的V矩陣、S矩陣及U矩陣。在線性代數中,SVD可按如下形式表示y乘z實數或複數矩陣X(其中X可表示多聲道音訊資料,諸如HOA係數11)之因子分解:X=USV*
U可表示y乘y實數或複數單位矩陣,其中U之y行被稱為多聲道音訊資料之左奇異向量。S可表示在對角線上具有非負實數之y乘z矩形對角線矩陣,其中S之對角線值被稱為多聲道音訊資料之奇異值。V*(其可表示V之共軛轉置)可表示z乘z實數或複數單位矩陣,其中V*之z行被稱為多聲道音訊資料之右奇異向量。
儘管本發明中描述為將技術應用於包含HOA係數11之多聲道音訊資料,但該等技術可應用於任何形式之多聲道音訊資料。以此方式,音訊編碼器件20可關於表示音場之至少一部分的多聲道音訊資料執行奇異值分解,以產生表示多聲道音訊資料之左奇異向量的U矩陣、表示多聲道音訊資料之奇異值的S矩陣及表示多聲道音訊資料之右奇異向量的V矩陣,且將多聲道音訊資料表示為U矩陣、S矩陣及V矩陣中之一或多者之至少一部分的函數。
在一些實例中,將上文提及之SVD數學表達式中的V*矩陣表示
為V矩陣之共軛轉置以反映SVD可應用於包含複數之矩陣。當應用於僅包含實數之矩陣時,V矩陣之複數共軛(或,換言之,V*矩陣)可被視為V矩陣之轉置。下文為易於說明之目的,假定:HOA係數11包含實數,結果為經由SVD而非V*矩陣輸出V矩陣。此外,雖然在本發明中表示為V矩陣,但在適當時,對V矩陣之提及應被理解為是指V矩陣之轉置。雖然假定為V矩陣,但該等技術可按類似方式應用於具有複數係數之HOA係數11,其中SVD之輸出為V*矩陣。因此,就此而言,該等技術不應限於僅提供應用SVD以產生V矩陣,而可包括將SVD應用於具有複數分量之HOA係數11以產生V*矩陣。
在任何情況下,LIT單元30可關於高階立體混響(HOA)音訊資料(其中立體混響音訊資料包括HOA係數11或任何其他形式之多聲道音訊資料之區塊或樣本)之每一區塊(其可指訊框)執行逐區塊形式之SVD。如上文所提及,變數M可用以表示音訊訊框之長度(以樣本數計)。舉例而言,當音訊訊框包括1024個音訊樣本時,M等於1024。儘管關於M之典型值加以描述,但本發明之該等技術不應限於M之典型值。LIT單元30因此可關於具有M乘(N+1)2個HOA係數之HOA係數11的區塊執行逐區塊SVD,其中N再次表示HOA音訊資料之階數。LIT單元30可經由執行該SVD而產生V矩陣、S矩陣及U矩陣,其中矩陣中之每一者可表示上文所描述之各別V、S及U矩陣。以此方式,線性可逆變換單元30可關於HOA係數11執行SVD以輸出具有維度D:M×(N+1)2之US[k]向量33(其可表示S向量及U向量之組合版本),及具有維度D:(N+1)2×(N+1)2之V[k]向量35。US[k]矩陣中之個別向量元素亦可被稱為X PS (k),而V[k]矩陣中之個別向量亦可被稱為v(k)。
U、S及V矩陣之分析可揭示:該等矩陣攜有或表示上文藉由X表示的基礎音場之空間及時間特性。U(長度為M個樣本)中的N個向量中之每一者可表示依據時間(對於藉由M個樣本表示之時間段)的經正規
化之分離音訊信號,其彼此正交且已與任何空間特性(其亦可被稱作方向資訊)解耦。表示空間形狀及位置(r、θ、φ)寬度之空間特性可改為藉由V矩陣中之個別第i向量v (i)(k)(每一者具有長度(N+1)2)表示。v(i)(k)向量中之每一者的個別元素可表示描述針對相關聯之音訊物件的音場之形狀及方向的HOA係數。U矩陣及V矩陣兩者中之向量經正規化而使得其均方根能量等於單位。U中的音訊信號之能量因此藉由S中之對角線元素表示。將U與S相乘以形成US[k](具有個別向量元素X PS (k)),因此表示具有真正能量之音訊信號。進行SVD分解以使音訊時間信號(U中)、其能量(S中)與其空間特性(V中)解耦之能力可支援本發明中所描述之技術的各種態樣。另外,藉由US[k]與V[k]之向量乘法合成基礎HOA[k]係數X之模型引出貫穿此文件使用之術語「基於向量之分解」。
儘管描述為直接關於HOA係數11執行,但LIT單元30可將線性可逆變換應用於HOA係數11之導數。舉例而言,LIT單元30可關於自HOA係數11導出之功率譜密度矩陣應用SVD。功率譜密度矩陣可表示為PSD且係經由hoaFrame至hoaFrame之轉置的矩陣乘法而獲得,如下文之偽碼中所概述。hoaFrame記法係指HOA係數11之訊框。
在將SVD(svd)應用於PSD之後,LIT單元30可獲得S[k]2矩陣(S_squared)及V[k]矩陣。S[k]2矩陣可表示S[k]矩陣之平方,因此LIT單元30可將平方根運算應用於S[k]2矩陣以獲得S[k]矩陣。在一些情況下,LIT單元30可關於V[k]矩陣執行量化以獲得經量化之V[k]矩陣(其可表示為V[k]'矩陣)。LIT單元30可藉由首先將S[k]矩陣乘以經量化之V[k]'矩陣以獲得SV[k]'矩陣而獲得U[k]矩陣。LIT單元30接下來可獲得SV[k]'矩陣之偽逆(pinv)且接著將HOA係數11乘以SV[k]'矩陣之偽逆以獲得U[k]矩陣。可藉由以下偽碼表示前述情形:PSD=hoaFrame'*hoaFrame;
[V,S_squared]=svd(PSD,'econ');S=sqrt(S_squared);U=hoaFrame * pinv(S*V');藉由關於HOA係數之功率譜密度(PSD)而非係數自身執行SVD,LIT單元30可在處理器循環及儲存空間中之一或多者方面可能地降低執行SVD之計算複雜性,同時達成相同的源音訊編碼效率,如同SVD係直接應用於HOA係數一般。亦即,上文所描述之PSD型SVD可能有可能在計算上要求不太高,此係因為與M*F矩陣(其中M為訊框長度,亦即,1024或大於1024個樣本)相比較,SVD係針對F*F矩陣(其中F為HOA係數之數目)進行。藉由應用於PSD而非HOA係數11,與應用於HOA係數11時之O(M*L2)相比較,SVD之複雜性現可為約O(L3)(其中O(*)表示電腦科學技術中常見的計算複雜性之大O記法)。
參數計算單元32表示經組態以計算各種參數之單元,該等參數諸如相關性參數(R)、方向性質參數(θ、φ、r),及能量性質(e)。用於當前訊框之參數中的每一者可表示為R[k]、θ[k]、φ[k]、r[k]及e[k]。參數計算單元32可關於US[k]向量33執行能量分析及/或相關(或所謂的交叉相關)以識別該等參數。參數計算單元32亦可判定用於先前訊框之參數,其中先前訊框參數可基於具有US[k-1]向量及V[k-1]向量之先前訊框表示為R[k-1]、θ[k-1]、φ[k-1]、r[k-1]及e[k-1]。參數計算單元32可將當前參數37及先前參數39輸出至重新排序單元34。
SVD分解並不會保證藉由US[k-1]向量33中之第p向量表示之音訊信號/物件(其可表示為US[k-1][p]向量(或,替代地,表示為X PS (p)(k-1)))將為藉由US[k]向量33中之第p向量表示之相同音訊信號/物件(其亦可表示為US[k][p]向量33(或,替代地,表示為X PS (p)(k)))(在時間上前進)。由參數計算單元32計算之參數可供重新排序單元34用以將音訊物件重新排序以表示其自然評估或隨時間推移之連續性。
亦即,重新排序單元34可逐輪地比較來自第一US[k]向量33之參數37中的每一者與用於第二US[k-1]向量33之參數39中的每一者。重新排序單元34可基於當前參數37及先前參數39將US[k]矩陣33及V[k]矩陣35內之各種向量重新排序(作為一實例,使用匈牙利演算法(Hungarian algorithm))以將經重新排序之US[k]矩陣33'(其可在數學上表示為)及經重新排序之V[k]矩陣35'(其可在數學上表示為)輸出至前景聲音(或佔優勢聲音--PS)選擇單元36(「前景選擇單元36」)及能量補償單元38。
音場分析單元44可表示經組態以關於HOA係數11執行音場分析以便有可能達成目標位元速率41之單元。音場分析單元44可基於分析及/或基於所接收目標位元速率41,判定音質寫碼器執行個體之總數目(其可為環境或背景聲道之總數目(BGTOT)之函數)及前景聲道(或換言之,佔優勢聲道)之數目。音質寫碼器執行個體之總數目可表示為numHOATransportChannels。
再次為了可能地達成目標位元速率41,音場分析單元44亦可判定前景聲道之總數目(nFG)45、背景(或換言之,環境)音場之最小階數(NBG或替代地,MinAmbHOAorder)、表示背景音場之最小階數的實際聲道之對應數目(nBGa=(MinAmbHOAorder+1)2),及待發送之額外BG HOA聲道之索引(i)(其在圖3之實例中可共同地表示為背景聲道資訊43)。背景聲道資訊42亦可被稱作環境聲道資訊43。numHOATransportChannels-nBGa後剩餘的聲道中之每一者可為「額外背景/環境聲道」、「作用中的基於向量之佔優勢聲道」、「作用中的基於方向之佔優勢信號」或「完全不活動」。在一態樣中,可藉由兩個位元以(「ChannelType」)語法元素形式指示聲道類型:(例如,00:基於方向之信號;01:基於向量之佔優勢信號;10:額外環境信號;11:非作用中信號)。背景或環境信號之總數目nBGa可藉由
(MinAmbHOAorder+1)2+在用於彼訊框之位元串流中以聲道類型形式顯現索引10(在上述實例中)之次數給出。
在任何情況下,音場分析單元44可基於目標位元速率41選擇背景(或換言之,環境)聲道之數目及前景(或換言之,佔優勢)聲道之數目,從而在目標位元速率41相對較高時(例如,在目標位元速率41等於或大於512Kbps時)選擇更多背景及/或前景聲道。在一態樣中,在位元串流之標頭區段中,numHOATransportChannels可經設定為8,而MinAmbHOAorder可經設定為1。在此情境下,在每個訊框處,四個聲道可專用於表示音場之背景或環境部分,而其他4個聲道可逐訊框地在聲道類型上變化--例如,用作額外背景/環境聲道或前景/佔優勢聲道。前景/佔優勢信號可為基於向量或基於方向之信號中之一者,如上文所描述。
在一些情況下,用於訊框之基於向量之佔優勢信號的總數目可藉由彼訊框之位元串流中ChannelType索引為01的次數給出。在上述態樣中,對於每個額外背景/環境聲道(例如,對應於ChannelType 10),可在彼聲道中表示可能的HOA係數(前四個除外)中之哪一者之對應資訊。對於四階HOA內容,該資訊可為指示HOA係數5至25之索引。可在minAmbHOAorder經設定為1時始終發送前四個環境HOA係數1至4,因此,音訊編碼器件可能僅需要指示額外環境HOA係數中具有索引5至25之一者。因此可使用5位元語法元素(對於四階內容)發送該資訊,其可表示為「CodedAmbCoeffIdx」。
為了加以說明,假定:minAmbHOAorder經設定為1且具有索引6之額外環境HOA係數係經由位元串流21發送(作為一實例)。在此實例中,minAmbHOAorder 1指示環境HOA係數具有索引1、2、3及4。音訊編碼器件20可選擇環境HOA係數,此係因為環境HOA係數具有小於或等於(minAmbHOAorder+1)2或4之索引(在此實例中)。音訊編碼
器件20可指定位元串流21中與索引1、2、3及4相關聯之環境HOA係數。音訊編碼器件20亦可指定位元串流中具有索引6之額外環境HOA係數作為具有ChannelType 10之additionalAmbientHOAchannel。音訊編碼器件20可使用CodedAmbCoeffIdx語法元素指定索引。作為一種實踐,CodedAmbCoeffIdx元素可指定自1至25之所有索引。然而,因為minAmbHOAorder經設定為1,所以音訊編碼器件20可能並不指定前四個索引中之任一者(因為已知將在位元串流21中經由minAmbHOAorder語法元素指定前四個索引)。在任何情況下,因為音訊編碼器件20經由minAmbHOAorder(對於前四個係數)及CodedAmbCoeffIdx(對於額外環境HOA係數)指定五個環境HOA係數,所以音訊編碼器件20可能並不指定與具有索引1、2、3、4及6之環境HOA係數相關聯的對應V-向量元素。因此,音訊編碼器件20可藉由元素[5,7:25]指定V-向量。
在第二態樣中,所有前景/佔優勢信號為基於向量之信號。在此第二態樣中,前景/佔優勢信號之總數目可藉由nFG=numHOATransportChannels-[(MinAmbHOAorder+1)2+additionalAmbientHOAchannel中之每一者]給出。
音場分析單元44將背景聲道資訊43及HOA係數11輸出至背景(BG)選擇單元36,將背景聲道資訊43輸出至係數減少單元46及位元串流產生單元42,且將nFG 45輸出至前景選擇單元36。
背景選擇單元48可表示經組態以基於背景聲道資訊(例如,背景音場(NBG)以及待發送之額外BG HOA聲道之數目(nBGa)及索引(i))判定背景或環境HOA係數47之單元。舉例而言,當NBG等於一時,背景選擇單元48可選擇用於具有等於或小於一之階數的音訊訊框之每一樣本的HOA係數11。在此實例中,背景選擇單元48可接著選擇具有藉由索引(i)中之一者識別之索引的HOA係數11作為額外BG HOA係數,其
中將待於位元串流21中指定之nBGa提供至位元串流產生單元42以便使得音訊解碼器件(諸如,圖2及圖4之實例中所展示的音訊解碼器件24)能夠自位元串流21剖析背景HOA係數47。背景選擇單元48可接著將環境HOA係數47輸出至能量補償單元38。環境HOA係數47可具有維度D:M×[(N BG +1)2+nBGa]。環境HOA係數47亦可被稱作「環境HOA係數47」,其中環境HOA係數47中之每一者對應於待由音質音訊寫碼器單元40編碼之單獨環境HOA聲道47。
前景選擇單元36可表示經組態以基於nFG 45(其可表示識別前景向量之一或多個索引)選擇表示音場之前景或特異分量的經重新排序之US[k]矩陣33'及經重新排序之V[k]矩陣35'的單元。前景選擇單元36可將nFG信號49(其可表示為經重新排序之US[k]1,...,nFG 49、FG 1,...,nfG[k]49或49)輸出至音質音訊寫碼器單元40,其中nFG信號49可具有維度D:M×nFG且每一者表示單聲道-音訊物件。前景選擇單元36亦可將對應於音場之前景分量的經重新排序之V[k]矩陣35'(或v (1..nFG)(k)35')輸出至空間-時間內插單元50,其中對應於前景分量的經重新排序之V[k]矩陣35'之子集可表示為前景V[k]矩陣51k(其可在數學上表示為),其具有維度D:(N+1)2×nFG。
能量補償單元38可表示經組態以關於環境HOA係數47執行能量補償以補償歸因於藉由背景選擇單元48移除HOA聲道中之各者而產生的能量損失之單元。能量補償單元38可關於經重新排序之US[k]矩陣33'、經重新排序之V[k]矩陣35'、nFG信號49、前景V[k]向量51k及環境HOA係數47中之一或多者執行能量分析,且接著基於能量分析執行能量補償以產生經能量補償之環境HOA係數47'。能量補償單元38可將經能量補償之環境HOA係數47'輸出至音質音訊寫碼器單元40。
空間-時間內插單元50可表示經組態以接收第k訊框之前景V[k]向量51 k 及前一訊框(因此為k-1記法)之前景V[k-1]向量51 k-1且執行空間
-時間內插以產生經內插之前景V[k]向量之單元。空間-時間內插單元50可將nFG信號49與前景V[k]向量51 k 重新組合以恢復經重新排序之前景HOA係數。空間-時間內插單元50可接著將經重新排序之前景HOA係數除以經內插之V[k]向量以產生經內插之nFG信號49'。空間-時間內插單元50亦可輸出用以產生經內插之前景V[k]向量之前景V[k]向量51 k ,以使得音訊解碼器件(諸如,音訊解碼器件24)可產生經內插之前景V[k]向量且藉此恢復前景V[k]向量51 k 。將用以產生經內插之前景V[k]向量之前景V[k]向量51 k 表示為剩餘前景V[k]向量53。為了確保在編碼器及解碼器處使用相同的V[k]及V[k-1](以建立經內插之向量V[k]),可在編碼器及解碼器處使用向量之經量化/經解量化之版本。
在操作中,空間-時間內插單元50可內插來自包括於第一訊框中的第一複數個HOA係數11之一部分之第一分解(例如,前景V[k]向量51 k )及包括於第二訊框中的第二複數個HOA係數11之一部分之第二分解(例如,前景V[k]向量51 k-1)的第一音訊訊框之一或多個子訊框,以產生用於該一或多個子訊框的經分解之經內插球諧係數。
在一些實例中,第一分解包含表示HOA係數11之該部分的右奇異向量之第一前景V[k]向量51 k 。同樣,在一些實例中,第二分解包含表示HOA係數11之該部分的右奇異向量之第二前景V[k]向量51 k 。
換言之,就球面上之正交基底函數而言,基於球諧之3D音訊可為3D壓力場之參數表示。該表示之階數N愈高,空間解析度可能地愈高,且常常球諧(SH)係數之數目愈大(總共(N+1)2個係數)。對於許多應用,可能需要係數之頻寬壓縮能夠有效率地傳輸及儲存該等係數。本發明中所針對之該等技術可提供使用奇異值分解(SVD)進行的基於訊框之維度減少處理程序。SVD分析可將係數之每一訊框分解成三個矩陣U、S及V。在一些實例中,該等技術可將US[k]矩陣中的向量中之一些向量作為基礎音場之前景分量來處置。然而,當以此方式進行
處置時,該等向量(在US[k]矩陣中)在訊框間係不連續的--即使其表示同一特異音訊分量亦如此。當經由變換音訊寫碼器饋入該等分量時,該等不連續性可導致顯著假影。
在一些態樣中,空間-時間內插可依賴於以下觀測:可將V矩陣解譯為球諧域中之正交空間軸線。U[k]矩陣可表示球諧(HOA)資料依據基底函數之投影,其中不連續性可歸因於正交空間軸線(V[k]),該等正交空間軸線每個訊框皆改變且因此自身為不連續的。此情形不同於諸如傅立葉變換之一些其他分解,其中在一些實例中,基底函數在訊框間為常數。在此等術語中,SVD可被視為匹配追求演算法。空間-時間內插單元50可執行內插以藉由在訊框之間內插而可能自訊框至訊框維持基底函數(V[k])之間的連續性。
如上文所提及,可關於樣本執行內插。當子訊框包含一組單一樣本時,該狀況在上述描述中得以一般化。在經由樣本及經由子訊框進行內插之兩種狀況下,內插運算可呈以下等式之形式:
在上述等式中,可自單一V-向量v(k-1)關於單一V-向量v(k)執行內插,該等向量在一態樣中可表示來自鄰近訊框k及k-1之V-向量。在上述等式中,l表示執行內插所針對之解析度,其中l可指示整數樣本且l=1,...,T(其中T為樣本之長度,在該長度內執行內插且在該長度內需要經輸出的經內插之向量且該長度亦指示處理程序之輸出產生向量之l)。替代地,l可指示由多個樣本組成之子訊框。當(例如)將訊框劃分成四個子訊框時,l可包含用於該等子訊框中之每一子訊框之值1、2、3及4。可經由位元串流將l之值作為被稱為「CodedSpatialInterpolationTime」之欄位用信號通知,使得可在解碼器中重複內插運算。w(l)可包含內插權重之值。當內插為線性的時,w(l)可依據l在0與1之間線性地且單調地變化。在其他情況下,w(l)可
依據l在0與1之間以非線性但單調方式(諸如,上升餘弦之四分之一循環)變化。可將函數w(l)在幾種不同函數可能性之間編索引且將該函數在位元串流中作為被稱為「SpatialInterpolationMethod」之欄位用信號通知,使得可由解碼器重複相同的內插運算。當w(l)具有接近於0之值時,輸出可被高度加權或受v(k-1)影響。而當w(l)具有接近於1之值時,其確保輸出被高度加權且受v(k-1)影響。
係數減少單元46可表示經組態以基於背景聲道資訊43關於剩餘前景V[k]向量53執行係數減少以將減少之前景V[k]向量55輸出至量化單元52的單元。減少之前景V[k]向量55可具有維度D:[(N+1)2-(N BG +1)2-BGTOT]×nFG。
就此而言,係數減少單元46可表示經組態以減少剩餘前景V[k]向量53之係數之數目的單元。換言之,係數減少單元46可表示經組態以消除前景V[k]向量中具有極少或幾乎沒有方向資訊之係數(其形成剩餘前景V[k]向量53)之單元。如上文所描述,在一些實例中,特異或(換言之)前景V[k]向量之對應於一階及零階基底函數之係數(其可表示為NBG)提供極少方向資訊,且因此可將其自前景V-向量移除(經由可被稱作「係數減少」之處理程序)。在此實例中,可提供較大靈活性以使得不僅自組[(NBG+1)2+1,(N+1)2]識別對應於NBG之係數而且識別額外HOA聲道(其可藉由變數TotalOfAddAmbHOAChan表示)。音場分析單元44可分析HOA係數11以判定BGTOT,其不僅可識別(NBG+1)2而且可識別TotalOfAddAmbHOAChan,該兩者可共同地被稱作背景聲道資訊43。係數減少單元46可接著將對應於(NBG+1)2及TotalOfAddAmbHOAChan之係數自剩餘前景V[k]向量53移除以產生大小為((N+1)2-(BGTOT)×nFG之維度較小的V[k]矩陣55,其亦可被稱作減少之前景V[k]向量55。
換言之,如公開案第WO 2014/194099號中所提及,係數減少單
元46可產生用於旁側聲道資訊57之語法元素。舉例而言,係數減少單元46可在存取單元(其可包括一或多個訊框)之標頭中指定表示選擇複數種組態模式中之哪一者之語法元素。儘管描述為基於每一存取單元指定,但係數減少單元46可基於每一訊框或任何其他週期性基礎或非週期性基礎(諸如,針對整個位元串流一次)指定該語法元素。在任何情況下,該語法元素可包含兩個位元,該兩個位元指示選擇三種組態模式中之哪一者用於指定減少之前景V[k]向量55之該組非零係數以表示特異分量之方向態樣。該語法元素可表示為「CodedVVecLength」。以此方式,係數減少單元46可在位元串流中用信號通知或以其他方式指定使用三種組態模式中之哪一者在位元串流21中指定減少之前景V[k]向量55。
舉例而言,三種組態模式可呈現於用於VVecData之語法表(稍後在本文件中引用)中。在彼實例中,組態模式如下:(模式0),在VVecData欄位中傳輸完整V-向量長度;(模式1),不傳輸與用於環境HOA係數之最小數目個係數相關聯的V-向量之元素及包括額外HOA聲道之V-向量之所有元素;及(模式2),不傳輸與用於環境HOA係數之最小數目個係數相關聯的V-向量之元素。VVecData之語法表結合switch及case敍述說明該等模式。儘管關於三種組態模式加以描述,但該等技術不應限於三種組態模式,且可包括任何數目種組態模式,包括單一組態模式或複數種模式。公開案第WO 2014/194099號提供具有四種模式之不同實例。係數減少單元46亦可將旗標63指定為旁側聲道資訊57中之另一語法元素。
量化單元52可表示經組態以執行任何形式之量化以壓縮減少之前景V[k]向量55以產生經寫碼前景V[k]向量57從而將經寫碼前景V[k]向量57輸出至位元串流產生單元42之單元。在操作中,量化單元52可表示經組態以壓縮音場之空間分量(亦即,在此實例中,為減少之前
景V[k]向量55中之一或多者)的單元。空間分量亦可被稱作表示球諧域中之正交空間軸線之向量。出於實例之目的,假定減少之前景V[k]向量55包括兩列向量,由於係數減少,每一列具有少於25個元素(其暗示音場之四階HOA表示)。儘管關於兩列向量加以描述,但任何數目個向量可包括於減少之前景V[k]向量55中,至多為(n+1)2個,其中n表示音場之HOA表示的階數。此外,儘管下文描述為執行純量及/或熵量化,但量化單元52可執行導致減少之前景V[k]向量55之壓縮的任何形式之量化。
量化單元52可接收減少之前景V[k]向量55且執行壓縮方案以產生經寫碼前景V[k]向量57。壓縮方案大體上可涉及用於壓縮向量或資料之元素的任何可設想壓縮方案,且不應限於下文更詳細描述之實例。作為一實例,量化單元52可執行包括以下各者中之一或多者的壓縮方案:將減少之前景V[k]向量55之每一元素的浮點表示變換成減少之前景V[k]向量55之每一元素的整數表示、減少之前景V[k]向量55之整數表示的均勻量化,以及剩餘前景V[k]向量55之經量化之整數表示的分類及寫碼。
在一些實例中,可藉由參數動態地控制該壓縮方案之一或多個處理程序中之若干者以達成或幾乎達成(作為一實例)所得位元串流21之目標位元速率41。在給定減少之前景V[k]向量55中之每一者彼此正交之情況下,可獨立地寫碼減少之前景V[k]向量55中的每一者。在一些實例中,如下文更詳細地描述,可使用相同寫碼模式(藉由各種子模式界定)寫碼每一減少之前景V[k]向量55的每一元素。
如公開案第WO 2014/194099號中所描述,量化單元52可執行純量量化及/或霍夫曼編碼以壓縮減少之前景V[k]向量55,從而輸出經寫碼前景V[k]向量57(其亦可被稱作旁側聲道資訊57)。旁側聲道資訊57可包括用以寫碼剩餘前景V[k]向量55之語法元素。
此外,儘管關於純量量化形式加以描述,但量化單元52可執行向量量化或任何其他形式之量化。在一些情況下,量化單元52可在向量量化及純量量化之間切換。在上文所描述之純量量化期間,量化單元52可計算兩個連續V-向量(如在訊框至訊框中連續)之間的差且寫碼該差(或,換言之,殘餘)。此純量量化可表示基於先前所指定之向量及差信號進行的一種形式之預測性寫碼。向量量化並不涉及此差寫碼。
換言之,量化單元52可接收輸入V-向量(例如,減少之前景V[k]向量55中之一者)且執行不同類型之量化以選擇該等量化類型中將用於該輸入V-向量之類型。作為一實例,量化單元52可執行向量量化、無霍夫曼寫碼之純量量化,及具有霍夫曼寫碼之純量量化。
在此實例中,量化單元52可根據向量量化模式將輸入V-向量向量量化以產生經向量量化之V-向量。經向量量化之V-向量可包括表示輸入V-向量之經向量量化之權重值。在一些實例中,可將經向量量化之權重值表示為指向量化碼字之量化碼簿中之量化碼字(亦即,量化向量)的一或多個量化索引。當經組態以執行向量量化時,量化單元52可基於碼向量63(「CV 63」)將減少之前景V[k]向量55中之每一者分解成碼向量之加權總和。量化單元52可產生用於碼向量63中之選定碼向量中之每一者的權重值。
量化單元52接下來可選擇該等權重值之一子集以產生權重值之一選定子集。舉例而言,量化單元52可自該組權重值中選擇Z個最大量值權重值以產生權重值之選定子集。在一些實例中,量化單元52可進一步將選定權重值重新排序以產生權重值之選定子集。舉例而言,量化單元52可基於自最高量值權重值開始且於最低量值權重值結束之量值將選定權重值重新排序。
當執行向量量化時,量化單元52可自量化碼簿中選擇Z-分量向量
來表示Z個權重值。換言之,量化單元52可將Z個權重值向量量化以產生表示Z個權重值之Z-分量向量。在一些實例中,Z可對應於由量化單元52選擇以表示單一V-向量的權重值之數目。量化單元52可產生指示經選擇以表示Z個權重值之Z-分量向量之資料,且將此資料提供至位元串流產生單元42作為經寫碼權重57。在一些實例中,量化碼簿可包括經編索引之複數個Z-分量向量,且指示Z-分量向量之資料可為量化碼簿中指向選定向量之索引值。在此等實例中,解碼器可包括經類似地編索引之量化碼簿以解碼索引值。
在數學上,可基於以下表達式表示減少之前景V[k]向量55中之每一者:
其中Ω j 表示一組碼向量({Ω j })中之第j碼向量,ω j 表示一組權重({ω j })中之第j權重,V對應於由V-向量寫碼單元52表示、分解及/或寫碼之V-向量,且J表示用以表示V的權重之數目及碼向量之數目。表達式(1)之右側可表示包括一組權重({ω j })及一組碼向量({Ω j })的碼向量之加權總和。
在一些實例中,量化單元52可基於以下等式判定權重值:
其中表示一組碼向量({Ω k })中之第k碼向量之轉置,V對應於由量化單元52表示、分解及/或寫碼之V-向量,且ω k 表示一組權重({ω k })中之第k權重。
考慮使用25個權重及25個碼向量表示V-向量V FG 之實例。可將V FG 之此分解書寫為:
其中Ω j 表示一組碼向量({Ω j })中之第j碼向量,ω j 表示一組權重
({ω j })中之第j權重,且V FG 對應於由量化單元52表示、分解及/或寫碼之V-向量。
在該組碼向量({Ω j })正交之實例中,以下表達式可適用:
在此等實例中,等式(3)之右側可簡化如下:
其中ω k 對應於碼向量之加權總和中之第k權重。
對於等式(3)中所使用的碼向量之實例加權總和,量化單元52可使用等式(5)(類似於等式(2))計算用於碼向量之加權總和中的權重中之每一者的權重值且可將所得權重表示為:{ω k }k=1,…,25 (6)
考慮量化單元52選擇五個最大權重值(亦即,具有最大值或絕對值之權重)之實例。可將待量化的權重值之子集表示為:
可使用權重值之子集以及其對應碼向量形成估計V-向量的碼向量之加權總和,如以下表達式中所展示:
其中Ω j 表示碼向量({Ω j })之一子集中之第j碼向量,表示權重()之一子集中之第j權重,且對應於所估計之V-向量,其對應於由量化單元52分解及/或寫碼之V-向量。表達式(1)之右側可表示包括一組權重()及一組碼向量({Ω j })的碼向量之加權總和。
量化單元52可將權重值之子集量化以產生經量化之權重值,其可表示為:
可使用經量化之權重值以及其對應碼向量形成表示所估計之V-向量的經量化之版本的碼向量之加權總和,如以下表達式中所展示:
其中Ω j 表示碼向量({Ω j })之一子集中之第j碼向量,表示權重()之一子集中之第j權重,且對應於所估計之V-向量,其對應於由量化單元52分解及/或寫碼之V-向量。表達式(1)之右側可表示包括一組權重()及一組碼向量({Ω j })的碼向量之一子集之加權總和。
前文之替代重新敍述(其大部分等效於上文所描述之敍述)可如下。可基於一組預定義碼向量寫碼V-向量。為了寫碼V-向量,將每一V-向量分解成碼向量之加權總和。碼向量之加權總和由k對預定義碼向量及相關聯權重組成:
其中Ω j 表示一組預定義碼向量({Ω j })中之第j碼向量,ω j 表示一組預定義權重({ω j })中之第j實數值權重,k對應於加數之索引(其可高達7),且V對應於經寫碼之V-向量。k之選擇取決於編碼器。若編碼器選擇兩個或兩個以上碼向量之加權總和,則編碼器可選擇的預定義碼向量之總數目為(N+1)2,該等預定義碼向量係自3D音訊標準(題為「資訊技術-異質環境中之高效率寫碼及媒體遞送-第3部分:3D音訊(Information technology-High effeciency coding and media delivery in heterogeneous environments-Part 3:3D audio)」,ISO/IEC JTC 1/SC 29/WG 11,日期為2014年7月25日,且藉由文件編號ISO/IEC DIS 23008-3識別)之表F.3至F.7導出作為HOA擴展係數。當N為4時,使用上文所引用的3D音訊標準之附錄F.5中具有32個預定義方向之表格。在所有狀況下,將權重ω之絕對值關於上文所引用的3D音訊標準之表F.12中的表格之前k+1行中可見的且藉由相關聯之列編號索引用信號通知的預定義加權值向量量化。
將權重ω之數字正負號分別寫碼為:
換言之,在用信號通知值k之後,藉由指向k+1個預定義碼向量{Ω j }之k+1個索引、指向預定義加權碼簿中之k個經量化之權重的一索引及k+1個數字正負號值s j編碼V-向量:
若編碼器選擇一碼向量之加權總和,則結合上文所引用的3D音訊標準之表F.11之表格中的絕對加權值使用自上文所引用的3D音訊標準之表F.8導出之碼簿,其中在下文展示這些表格中之兩者。又,可分別寫碼加權值ω之數字正負號。量化單元52可用信號通知使用上文所提及之表F.3至F.12中所闡述的前述碼簿中之哪一碼簿來使用碼簿索引語法元素(其在下文可表示為「CodebkIdx」)寫碼輸入V-向量。量化單元52亦可將輸入V-向量純量量化以產生輸出經純量量化之V-向量,而無需對經純量量化之V-向量進行霍夫曼寫碼。量化單元52可進一步根據霍夫曼寫碼純量量化模式將輸入V-向量純量量化以產生經霍夫曼寫碼經純量量化之V-向量。舉例而言,量化單元52可將輸入V-向量純量量化以產生經純量量化之V-向量,且對經純量量化之V-向量進行霍夫曼寫碼以產生輸出經霍夫曼寫碼經純量量化之V-向量。
在一些實例中,量化單元52可執行一種形式之經預測之向量量化。量化單元52可藉由在位元串流21中指定指示是否執行用於向量量化之預測之一或多個位元(例如,PFlag語法元素)而識別是否預測向量量化(如藉由指示量化模式之一或多個位元識別,例如,NbitsQ語法元素)。
為了說明經預測之向量量化,量化單元42可經組態以接收對應於向量(例如,v-向量)之基於碼向量之分解的權重值(例如,權重值量值),基於所接收權重值及基於經重建構之權重值(例如,自一或多個
先前或後續音訊訊框重建構之權重值)產生預測性權重值,及將數組預測性權重值向量量化。在一些狀況下,一組預測性權重值中之每一權重值可對應於單一向量之基於碼向量之分解中所包括的權重值。
量化單元52可接收權重值及自向量之先前或後續譯碼獲得的經加權之經重建構之權重值。量化單元52可基於權重值及經加權之經重建構之權重值產生預測性權重值。量化單元42可將經加權之經重建構之權重值自權重值中減去以產生預測性權重值。預測性權重值可替代地被稱作(例如)殘餘、預測殘餘、殘餘權重值、權重值差、誤差或預測誤差。
權重值可表示為|w i,j |,其為對應權重值w i,j 之量值(或絕對值)。因此,權重值可替代地被稱作權重值量值或被稱作權重值之量值。權重值w i,j 對應於來自用於第i音訊訊框之權重值之有序子集的第j權重值。在一些實例中,權重值之有序子集可對應於向量(例如,v-向量)的基於碼向量之分解中的權重值之子集,其係基於權重值之量值而排序(例如,自最大量值至最小量值排序)。
經加權之經重建構之權重值可包括項,其對應於對應的經重建構之權重值之量值(或絕對值)。經重建構之權重值對應於來自用於第(i-1)音訊訊框的經重建構之權重值之有序子集的第j經重建構之權重值。在一些實例中,可基於對應於經重建構之權重值的經量化之預測性權重值產生經重建構之權重值之有序子集(或集合)。
量化單元42亦包括加權因子α j 。在一些實例中,α j =1,在此狀況下,經加權之經重建構之權重值可減小至。在其他實例中,α j ≠1。舉例而言,可基於以下等式判定α j :
其中I對應於用以判定α j 之音訊訊框之數目。如先前等式中所展示,在一些實例中,可基於來自複數個不同音訊訊框之複數個不同權重值判定加權因子。
又,當經組態以執行經預測之向量量化時,量化單元52可基於以下等式產生預測性權重值:
其中e i,j 對應於來自用於第i音訊訊框之權重值之有序子集的第j權重值之預測性權重值。
量化單元52基於預測性權重值及經預測之向量量化(PVQ)碼簿產生經量化之預測性權重值。舉例而言,量化單元52可將預測性權重值結合針對待寫碼之向量或針對待寫碼之訊框產生的其他預測性權重值向量量化以便產生經量化之預測性權重值。
量化單元52可基於PVQ碼簿將預測性權重值620向量量化。PVQ碼簿可包括複數個M-分量候選量化向量,且量化單元52可選擇該等候選量化向量中之一者來表示Z個預測性權重值。在一些實例中,量化單元52可自PVQ碼簿中選擇使量化誤差最小化(例如,使最小平方誤差最小化)之候選量化向量。
在一些實例中,PVQ碼簿可包括複數個條目,其中該等條目中之每一者包括一量化碼簿索引及一對應M-分量候選量化向量。量化碼簿中之該等索引中之每一者可對應於複數個M-分量候選量化向量中之一各別者。
量化向量中之每一者中的分量之數目可取決於經選擇以表示單一v-向量之權重之數目(亦即,Z)。大體而言,對於具有Z-分量候選量化向量之碼簿,量化單元52可同時將Z個預測性權重值向量量化以產生單一經量化之向量。量化碼簿中之條目之數目可取決於用以將權重值向量量化之位元速率。
當量化單元52將預測性權重值向量量化時,量化單元52可自PVQ碼簿中選擇將為表示Z個預測性權重值之量化向量的Z-分量向量。經量化之預測性權重值可表示為,其可對應於用於第i音訊訊框之Z-分量量化向量之第j分量,其可進一步對應於用於第i音訊訊框之第j預測性權重值的經向量量化之版本。
當經組態以執行經預測之向量量化時,量化單元52亦可基於經量化之預測性權重值及經加權之經重建構之權重值產生經重建構之權重值。舉例而言,量化單元52可將經加權之經重建構之權重值加至經量化之預測性權重值以產生經重建構之權重值。經加權之經重建構之權重值可與上文所描述的經加權之經重建構之權重值相同。在一些實例中,經加權之經重建構之權重值可為經重建構之權重值的經加權及經延遲之版本。
經重建構之權重值可表示為,其對應於對應的經重建構之權重值量值(或絕對值)。經重建構之權重值對應於來自用於第(i-1)音訊訊框的經重建構之權重值之有序子集的第j經重建構之權重值。在一些實例中,量化單元52可分別寫碼指示經預測性地寫碼之權重值之正負號的資料,且解碼器可使用此資訊判定經重建構之權重值之正負號。
量化單元52可基於以下等式產生經重建構之權重值:
其中對應於來自用於第i音訊訊框的權重值之有序子集的第j權重值(例如,M-分量量化向量之第j分量)的經量化之預測性權重值,對應於來自用於第(i-1)音訊訊框的權重值之有序子集的第j權重值的經重建構之權重值之量值,且α j 對應於來自權重值之有序子集的第j權重值之加權因子。
量化單元52可基於經重建構之權重值產生經延遲之經重建構之
權重值。舉例而言,量化單元52可將經重建構之權重值延遲達一音訊訊框以產生經延遲之經重建構之權重值。
量化單元52亦可基於經延遲之經重建構之權重值及加權因子產生經加權之經重建構之權重值。舉例而言,量化單元52可將經延遲之經重建構之權重值乘以加權因子以產生經加權之經重建構之權重值。
類似地,量化單元52可基於經延遲之經重建構之權重值及加權因子產生經加權之經重建構之權重值。舉例而言,量化單元52可將經延遲之經重建構之權重值乘以加權因子以產生經加權之經重建構之權重值。
回應於自PVQ碼簿中選擇將為用於Z個預測性權重值之量化向量的Z-分量向量,在一些實例中,量化單元52可寫碼對應於所選定Z-分量向量之索引(來自PVQ碼簿)(而非寫碼所選定Z-分量向量自身)。該索引可指示一組經量化之預測性權重值。在此等實例中,解碼器24可包括類似於PVQ碼簿之碼簿,且可藉由將指示經量化之預測性權重值之索引映射至解碼器碼簿中的對應Z-分量向量而解碼該索引。Z-分量向量中的分量中之每一者可對應於一經量化之預測性權重值。
將向量(例如,V-向量)純量量化可涉及個別地及/或獨立於其他分量將該向量之分量中的每一者量化。舉例而言,考慮以下實例V-向量:V=[0.23 0.31 -0.47…0.85]
為了將此實例V-向量純量量化,可個別地將該等分量中之每一者量化(亦即,純量量化)。舉例而言,若量化步長為0.1,則可將0.23分量量化為0.2,可將0.31分量量化為0.3,等等。經純量量化之分量可共同地形成經純量量化之V-向量。
換言之,量化單元52可關於減少之前景V[k]向量55中之給定向量之所有元素執行均勻純量量化。量化單元52可基於可表示為NbitsQ語
法元素之值識別量化步長。量化單元52可基於目標位元速率41動態地判定此NbitsQ語法元素。NbitsQ語法元素亦可識別如下文再現之ChannelSideInfoData語法表中所提及之量化模式,同時亦識別步長(出於純量量化之目的)。亦即,量化單元52可依據此NbitsQ語法元素判定量化步長。作為一實例,量化單元52可將量化步長(在本發明中表示為「差量」或「△」)判定為等於216-NbitsQ 。在此實例中,當NbitsQ語法元素之值等於6時,差量等於210且存在26種量化等級。就此而言,對於向量元素v,經量化之向量元素v q 等於[v/△],且-2 NbitsQ-1<v q <2 NbitsQ-1。
量化單元52可接著執行經量化之向量元素之分類及殘餘寫碼。作為一實例,量化單元52可針對給定的經量化之向量元素v q ,使用以下等式識別此元素所對應的類別(藉由判定類別識別符cid):
量化單元52可接著對此類別索引cid進行霍夫曼寫碼,同時亦識別指示v q 為正值抑或負值之正負號位元。量化單元52接下來可識別此類別中之殘餘。作為一實例,量化單元52可根據以下等式判定此殘餘:殘餘=|v q |-2 cid-1
量化單元52可接著用cid-1個位元對此殘餘進行區塊寫碼。
在一些實例中,當寫碼cid時,量化單元52可選擇用於NbitsQ語法元素之不同值之不同霍夫曼碼簿。在一些實例中,量化單元52可提供用於NbitsQ語法元素值6,...,15之不同霍夫曼寫碼表。此外,量化單元52可包括用於在6,...,15之範圍內的不同NbitsQ語法元素值中之每一者的五個不同霍夫曼碼簿,總共50個霍夫曼碼簿。就此而言,量化單元52可包括複數個不同霍夫曼碼簿以適應數個不同統計內容脈絡中的
cid之寫碼。
為了進行說明,量化單元52可針對NbitsQ語法元素值中之每一者包括:用於寫碼向量元素一至四之第一霍夫曼碼簿;用於寫碼向量元素五至九之第二霍夫曼碼簿;用於寫碼向量元素九及九以上之第三霍夫曼碼簿。當出現以下情形時,可使用此等前三個霍夫曼碼簿:減少之前景V[k]向量55中待壓縮的減少之前景V[k]向量55並非係自減少之前景V[k]向量55中在時間上後續之對應減少之前景V[k]向量預測且並非表示合成音訊物件((例如)最初藉由經脈碼調變(PCM)音訊物件界定之音訊物件)之空間資訊。當減少之前景V[k]向量55中之此減少之前景V[k]向量55係自減少之前景V[k]向量55中在時間上後續之對應減少之前景V[k]向量55預測時,量化單元52可針對NbitsQ語法元素值中之每一者另外包括用於寫碼減少之前景V[k]向量55中之該減少之前景V[k]向量55的第四霍夫曼碼簿。當減少之前景V[k]向量55中之此減少之前景V[k]向量55表示合成音訊物件時,量化單元52亦可針對NbitsQ語法元素值中之每一者包括用於寫碼減少之前景V[k]向量55中之該減少之前景V[k]向量55的第五霍夫曼碼簿。可針對此等不同統計內容脈絡(亦即,在此實例中,未經預測及非合成內容脈絡、經預測之內容脈絡及合成內容脈絡)中之每一者開發各種霍夫曼碼簿。
下表說明霍夫曼表選擇及待於位元串流中指定以使得解壓縮單元能夠選擇適當霍夫曼表之位元:
在前表中,預測模式(「Pred模式」)指示是否針對當前向量執行
了預測,而霍夫曼表(「HT資訊」)指示用以選擇霍夫曼表一至五中之一者的額外霍夫曼碼簿(或表格)資訊。預測模式亦可表示為下文所論述之PFlag語法元素,而HT資訊可藉由下文所論述之CbFlag語法元素來表示。
下表進一步說明此霍夫曼表選擇處理程序(在給定各種統計內容脈絡或情形之情況下)。
在前表中,「記錄」行指示向量表示經記錄之音訊物件時的寫碼內容脈絡,而「合成」行指示向量表示合成音訊物件時的寫碼內容脈絡。「無Pred」列指示並不關於向量元素執行預測時的寫碼內容脈絡,而「具有Pred」列指示關於向量元素執行預測時的寫碼內容脈絡。如此表中所展示,量化單元52在向量表示所記錄音訊物件且並不關於向量元素執行預測時選擇HT{1,2,3}。量化單元52在音訊物件表示合成音訊物件且並不關於向量元素執行預測時選擇HT5。量化單元52在向量表示所記錄音訊物件且關於向量元素執行預測時選擇HT4。量化單元52在音訊物件表示合成音訊物件且關於向量元素執行預測時選擇HT5。
量化單元52可基於本發明中所論述之準則之任何組合選擇以下各者中之一者以用作輸出經切換式量化之V-向量:未經預測之經向量量化之V-向量、經預測之經向量量化之V-向量、未經霍夫曼寫碼之經純量量化之V-向量,及經霍夫曼寫碼之經純量量化之V-向量。在一些實例中,量化單元52可自包括一向量量化模式及一或多個純量量化模式之一組量化模式中選擇一量化模式,且基於(或根據)該選定模式將輸入V-向量量化。量化單元52可接著將以下各者中之選定者提供至位
元串流產生單元52以用作經寫碼前景V[k]向量57:未經預測之經向量量化之V-向量(例如,就權重值或指示權重值之位元而言)、經預測之經向量量化之V-向量(例如,就誤差值或指示誤差值之位元而言)、未經霍夫曼寫碼之經純量量化之V-向量,及經霍夫曼寫碼之經純量量化之V-向量。量化單元52亦可提供指示量化模式之語法元素(例如,NbitsQ語法元素),及用以解量化或以其他方式重建構V-向量之任何其他語法元素(如下文關於圖4及圖7之實例更詳細論述)。
包括於音訊編碼器件20內之音質音訊寫碼器單元40可表示音質音訊寫碼器之多個執行個體,其中之每一者用以編碼經能量補償之環境HOA係數47'及經內插之nFG信號49'中的每一者之不同音訊物件或HOA聲道,以產生經編碼環境HOA係數59及經編碼nFG信號61。音質音訊寫碼器單元40可將經編碼環境HOA係數59及經編碼nFG信號61輸出至位元串流產生單元42。
包括於音訊編碼器件20內之位元串流產生單元42表示將資料格式化以符合已知格式(其可指為解碼器件已知之格式)藉此產生基於向量之位元串流21的單元。換言之,位元串流21可表示以上文所描述之方式編碼之經編碼音訊資料。位元串流產生單元42在一些實例中可表示多工器,其可接收經寫碼前景V[k]向量57、經編碼環境HOA係數59、經編碼nFG信號61,及背景聲道資訊43。位元串流產生單元42可接著基於經寫碼前景V[k]向量57、經編碼環境HOA係數59、經編碼nFG信號61及背景聲道資訊43產生位元串流21。位元串流21可包括主要或主位元串流及一或多個旁側聲道位元串流。
儘管在圖3之實例中未展示,但音訊編碼器件20亦可包括位元串流輸出單元,該位元串流輸出單元基於當前訊框將使用基於方向之合成抑或基於向量之合成編碼而切換自音訊編碼器件20輸出之位元串流(例如,在基於方向之位元串流21與基於向量之位元串流21之間切
換)。位元串流輸出單元可基於由內容分析單元26輸出的指示執行基於方向之合成(作為偵測到HOA係數11係自合成音訊物件產生之結果)抑或執行基於向量之合成(作為偵測到HOA係數經記錄之結果)之語法元素執行該切換。位元串流輸出單元可指定正確的標頭語法以指示用於當前訊框以及位元串流21中之各別位元串流之切換或當前編碼。
此外,如上文所提及,音場分析單元44可識別BGTOT環境HOA係數47,該等BGTOT環境HOA係數可基於逐個訊框而改變(但時常BGTOT可跨越兩個或兩個以上鄰近(在時間上)訊框保持恆定或相同)。BGTOT之改變可導致在減少之前景V[k]向量55中表達之係數之改變。BGTOT之改變可導致背景HOA係數(其亦可被稱作「環境HOA係數」),其基於逐個訊框而改變(但再次,時常BGTOT可跨越兩個或兩個以上鄰近(在時間上)訊框保持恆定或相同)。該等改變常常導致就以下方面而言的能量之改變:藉由額外環境HOA係數之添加或移除及係數自減少之前景V[k]向量55之對應移除或係數至減少之前景V[k]向量55之添加表示的音場。
因此,音場分析單元(音場分析單元44)可進一步判定環境HOA係數何時自訊框至訊框而改變且產生指示環境HOA係數之改變之旗標或其他語法元素(就用以表示音場之環境分量而言)(其中該改變亦可被稱作環境HOA係數之「轉變」或被稱作環境HOA係數之「轉變」)。詳言之,係數減少單元46可產生旗標(其可表示為AmbCoeffTransition旗標或AmbCoeffIdxTransition旗標),從而將該旗標提供至位元串流產生單元42,以便可將該旗標包括於位元串流21中(有可能作為旁側聲道資訊之部分)。
除指定環境係數轉變旗標之外,係數減少單元46亦可修改產生減少之前景V[k]向量55之方式。在一實例中,當判定環境HOA環境係數中之一者在當前訊框期間處於轉變中時,係數減少單元46可指定用
於減少之前景V[k]向量55之V-向量中的每一者的向量係數(其亦可被稱作「向量元素」或「元素」),其對應於處於轉變中之環境HOA係數。此外,處於轉變中之環境HOA係數可添加至背景係數之BGTOT總數目或自背景係數之BGTOT總數目移除。因此,背景係數之總數目之所得改變影響以下情形:環境HOA係數包括於抑或不包括於位元串流中,及在上文所描述之第二及第三組態模式中是否針對位元串流中所指定之V-向量包括V-向量之對應元素。關於係數減少單元46可如何指定減少之前景V[k]向量55以克服能量之改變的更多資訊提供於2015年1月12日申請之題為「環境HIGHER_ORDER立體混響係數之轉變(TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS)」之美國申請案第14/594,533號中。
在一些實例中,位元串流產生單元42產生位元串流21以包括立即播出訊框(IPF)以(例如)補償解碼器啟動延遲。在一些狀況下,可結合諸如HTTP上動態自適應串流(DASH)或單向輸送檔案遞送(FLUTE)之網際網路串流標準使用位元串流21。DASH描述於2012年4月之ISO/IEC 23009-1「資訊技術-HTTP上動態自適應串流(DASH)(Information Technology-Dynamic adaptive streaming over HTTP(DASH))」中。FLUTE描述於2012年11月之IETF RFC 6726「FLUTE-單向輸送檔案遞送(FLUTE-File Delivery over Unidirectional Transport)」中。諸如前述FLUTE及DASH之網際網路串流標準藉由以下操作補償訊框損失/降級且適應網路輸送鏈路頻寬:實現指明串流存取點(SAP)處之瞬時播出,以及在串流之表示之間切換播出(該等表示在位元速率及/或串流之任何SAP處之啟用工具上不同)。換言之,音訊編碼器件20可按以下方式編碼訊框:使得自內容之第一表示(例如,在第一位元速率下指定)切換至內容之第二不同表示(例如,在第二較高或較低位元速率下指定)。音訊解碼器件24
可接收訊框且獨立地解碼訊框以自內容之第一表示切換至內容之第二表示。音訊解碼器件24可繼續解碼後續訊框以獲得內容之第二表示。
在瞬時播出/切換之情況下,並未解碼用於串流訊框之預滾以便建立必要的內部狀態以恰當地解碼訊框,位元串流產生單元42可編碼位元串流21以包括立即播出訊框(IPF),如下文關於圖8A及圖8B更詳細地描述。
就此而言,該等技術可使得音訊編碼器件20能夠在位元串流21之包括輸送聲道之第一聲道旁側資訊資料的第一訊框中指定指示該第一訊框是否為獨立訊框之一或多個位元。該獨立訊框可包括使得能夠在不參考位元串流21之包括輸送聲道之第二聲道旁側資訊資料的第二訊框之情況下解碼該第一訊框的額外參考資訊(諸如,下文關於圖8A之實例所論述之狀態資訊812)。下文關於圖4及圖7更詳細地論述聲道旁側資訊資料及輸送聲道。音訊編碼器件20亦可回應於指示該第一訊框並非一獨立訊框之該一或多個位元而指定用於輸送聲道之第一聲道旁側資訊資料的預測資訊。該預測資訊可用以參考該輸送聲道之該第二聲道旁側資訊資料解碼該輸送聲道之該第一聲道旁側資訊資料。
此外,在一些情況下,音訊編碼器件20亦可經組態以儲存包括一第一訊框之位元串流21,該第一訊框包含表示球諧域中之正交空間軸線之向量。音訊編碼器件20可進一步自位元串流之第一訊框獲得指示該第一訊框是否為一獨立訊框之一或多個位元,該獨立訊框包括使得能夠在不參考位元串流21之一第二訊框之情況下解碼該向量的向量量化資訊(例如,CodebkIdx及NumVecIndices語法元素中之一者或兩者)。
在一些情況下,音訊編碼器件20可進一步經組態以在該一或多個位元指示該第一訊框為一獨立訊框時(例如,HOAIndependencyFlag語法元素),自位元串流指定向量量化資訊。向量量化資訊可能並不
包括指示經預測之向量量化是否用以將向量量化之預測資訊(例如,PFlag語法元素)。
在一些情況下,音訊編碼器件20可進一步經組態以在該一或多個位元指示第一訊框為獨立訊框時,設定預測資訊以指示並不關於該向量執行經預測之向量解量化。亦即,當HOAIndependencyFlag等於一時,音訊編碼器件20可將PFlag語法元素設定為零,此係因為針對獨立訊框停用預測。在一些情況下,音訊編碼器件20可進一步經組態以在該一或多個位元指示第一訊框並非獨立訊框時,設定用於向量量化資訊之預測資訊。在此情況下,當HOAIndependencyFlag等於零時,當啟用預測時,音訊編碼器件20可將PFlag語法元素設定為一或零。
圖4為更詳細地說明圖2之音訊解碼器件24之方塊圖。如圖4之實例中所展示,音訊解碼器件24可包括提取單元72、基於方向性之重建構單元90及基於向量之重建構單元92。儘管下文加以描述,但關於音訊解碼器件24及解壓縮或以其他方式解碼HOA係數之各種態樣之更多資訊可在2014年5月29日申請之題為「用於音場之經分解表示之內插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)」之國際專利申請公開案第WO 2014/194099號中獲得。
提取單元72可表示經組態以接收位元串流21及提取HOA係數11之各種經編碼版本(例如,基於方向之經編碼版本或基於向量之經編碼版本)之單元。提取單元72可判定上文所提及的指示HOA係數11係經由各種基於方向之版本抑或基於向量之版本編碼的語法元素。當執行基於方向之編碼時,提取單元72可提取HOA係數11之基於方向之版本及與該經編碼版本相關聯之語法元素(其在圖4之實例中表示為基於方向之資訊91),將該基於方向之資訊91傳遞至基於方向之重建構單
元90。基於方向之重建構單元90可表示經組態以基於基於方向之資訊91以HOA係數11'之形式重建構HOA係數的單元。下文關於圖7A至圖7J之實例更詳細地描述位元串流及位元串流內之語法元素之配置。
當語法元素指示HOA係數11係使用基於向量之合成編碼時,提取單元72可提取經寫碼前景V[k]向量57(其可包括經寫碼權重57及/或索引63或經純量量化之V-向量)、經編碼環境HOA係數59及經編碼nFG信號61。提取單元72可將經寫碼前景V[k]向量57傳遞至V-向量重建構單元74,且將經編碼環境HOA係數59以及經編碼nFG信號61提供至音質解碼單元80。
為了提取經寫碼前景V[k]向量57,提取單元72可根據以下ChannelSideInfoData(CSID)語法表提取語法元素。
前表中之加底線表示用以適應CodebkIdx之添加的對現有語法表之改變。用於前表之語義如下。
此有效負載保持用於第i聲道之旁側資訊。有效負載之大小及資料取決於聲道之類型。
根據CSID語法表,提取單元72可首先獲得指示聲道之類型之ChannelType語法元素(例如,其中值0用信號通知基於方向之信號,值1用信號通知基於向量之信號,且值2用信號通知額外環境HOA信號)。基於ChannelType語法元素,提取單元72可在三種狀況之間切
換。
集中於狀況1以說明本發明中所描述之技術之一實例,提取單元72可判定hoaIndependencyFlag語法元素之值是否經設定為1(其可用信號通知第i輸送聲道之第k訊框為獨立訊框)。提取單元72可獲得用於訊框之此hoaIndependencyFlag作為第k訊框之第一位元且關於圖7之實例更詳細地展示。當hoaIndependencyFlag語法元素之值經設定為1時,提取單元72可獲得NbitsQ語法元素(其中(k)[i]表示針對第i輸送聲道之第k訊框獲得NbitsQ語法元素)。NbitsQ語法元素可表示指示用以將藉由HOA係數11表示之音場之空間分量量化的量化模式的一或多個位元。在本發明中亦可將空間分量稱作V-向量或稱作經寫碼前景V[k]向量57。
在上述實例CSID語法表中,NbitsQ語法元素可包括四個位元以指示12種量化模式中之一者(用於NbitsQ語法元素之值零至三保留或未使用)。12種量化模式包括下文指示之以下模式:
在上文中,NbitsQ語法元素之自6至16索引之值不僅指示將執行具有霍夫曼寫碼之純量量化,而且指示純量量化之位元深度。
返回至上述實例CSID語法表,提取單元72接下來可判定NbitsQ語法元素之值是否等於四(藉此用信號通知使用向量解量化重建構V-
向量)。當NbitsQ語法元素之值等於四時,提取單元72可將PFlag語法元素設定為零。亦即,因為訊框為獨立訊框(如藉由hoaIndependencyFlag指示),所以不允許進行預測且提取單元72可將PFlag語法元素設定為值零。在向量量化之內容脈絡中(如藉由NbitsQ語法元素用信號通知),Pflag語法元素可表示指示是否執行經預測之向量量化之一或多個位元。提取單元72亦可自位元串流21獲得CodebkIdx語法元素及NumVecIndices語法元素。NumVecIndices語法元素可表示指示用以將經向量量化之V-向量解量化的碼向量之數目的一或多個位元。
當NbitsQ語法元素之值並不等於四而實際上等於六時,提取單元72可將PFlag語法元素設定為零。此外,因為hoaIndependencyFlag之值為一(用信號通知第k訊框為獨立訊框),所以並不允許進行預測且提取單元72因此設定PFlag語法元素以用信號通知並不使用預測來重建構V-向量。提取單元72亦可自位元串流21獲得CbFlag語法元素。
當hoaIndpendencyFlag語法元素之值指示第k訊框並非獨立訊框時(例如,在上述實例CSID表中,藉由經設定為零),提取單元72可獲得NbitsQ語法元素之最高有效位元(亦即,上述實例CSID語法表中之bA語法元素)及NbitsQ語法元素之次高有效位元(亦即,上述實例CSID語法表中之bB語法元素)。提取單元72可組合bA語法元素與bB語法元素,其中此組合可為如上述實例CSID語法表中所展示之加法。提取單元72接下來比較組合之bA/bB語法元素與值零。
當組合之bA/bB語法元素具有值零時,提取單元72可判定用於第i輸送聲道之當前第k訊框之量化模式資訊((亦即,指示上述實例CSID語法表中之量化模式之NbitsQ語法元素)與第i輸送聲道之第k-1訊框之量化模式資訊相同。提取單元72類似地判定用於第i輸送聲道之當前第k訊框之預測資訊(亦即,該實例中指示是否在向量量化或純量量
化期間執行預測之PFlag語法元素)與第i輸送聲道之第k-1訊框之預測資訊相同。提取單元72亦可判定用於第i輸送聲道之當前第k訊框之霍夫曼碼簿資訊(亦即,指示用以重建構V-向量之霍夫曼碼簿之CbFlag語法元素)與第i輸送聲道之第k-1訊框之霍夫曼碼簿資訊相同。提取單元72亦可判定用於第i輸送聲道之當前第k訊框之向量量化資訊(亦即,指示用以重建構V-向量之向量量化碼簿之CodebkIdx語法元素)與第i輸送聲道之第k-1訊框之向量量化資訊相同。
當組合之bA/bB語法元素並不具有值零時,提取單元72可判定用於第i輸送聲道之第k訊框之量化模式資訊、預測資訊、霍夫曼碼簿資訊及向量量化資訊並不與第i輸送聲道之第k-1訊框之彼情形相同。因此,提取單元72可獲得NbitsQ語法元素之最低有效位元(亦即,上述實例CSID語法表中之uintC語法元素),從而組合bA、bB及uintC語法元素以獲得NbitsQ語法元素。基於此NbitsQ語法元素,當NbitsQ語法元素用信號通知向量量化時,提取單元72可獲得Pflag及CodebkIdx語法元素,或當NbitsQ語法元素用信號通知具有霍夫曼寫碼之純量量化時,提取單元72可獲得PFlag及CbFlag語法元素。以此方式,提取單元72可提取用以重建構V-向量之前述語法元素,將此等語法元素傳遞至基於向量之重建構單元72。
提取單元72接下來可自第i輸送聲道之第k訊框中提取V-向量。提取單元72可獲得HOADecoderConfig容器應用程式,其包括表示為CodedVVecLength之語法元素。提取單元72可剖析來自HOADecoderConfig容器應用程式之CodedVVecLength。提取單元72可根據以下VVecData語法表獲得V-向量。
在前述語法表中,提取單元72可判定NbitsQ語法元素之值是否等於四(或,換言之,用信號通知使用向量解量化重建構V-向量)。當NbitsQ語法元素之值等於四時,提取單元72可比較NumVecIndices語法元素之值與值一。當NumVecIndices之值等於一時,提取單元72可獲得VecIdx語法元素。VecIdx語法元素可表示指示用以將經向量量化之V-向量解量化的VecDict之索引的一或多個位元。提取單元72可將VecIdx陣列執行個體化,其中第零元素經設定為VecIdx語法元素之值加上一。提取單元72亦可獲得SgnVal語法元素。SgnVal語法元素可表示指示在解碼V-向量期間使用之經寫碼正負號值的一或多個位元。提取單元72可將WeightVal陣列執行個體化,其中依據SgnVal語法元素之值設定第零元素。
當NumVecIndices語法元素之值並不等於一之值時,提取單元72可獲得WeightIdx語法元素。WeightIdx語法元素可表示指示用以將經向量量化之V-向量解量化的WeightValCdbk陣列中之索引的一或多個位元。WeightValCdbk陣列可表示含有正實數值加權係數之向量的碼簿。提取單元72接下來可依據在HOAConfig容器應用程式中指定之NumOfHoaCoeffs語法元素(在位元串流21之開始時作為一實例指定)判定nbitsIdx。提取單元72可接著對NumVecIndices反覆,從而自位元串流21中獲得VecIdx語法元素且用每一所獲得之VecIdx語法元素設定VecIdx陣列元素。
提取單元72並不執行以下PFlag語法比較,該PFlag語法比較涉及判定與自位元串流21中提取語法元素不相關的tmpWeightVal變數值。因此,提取單元72接下來可獲得用於在判定WeightVal語法元素中使用之SgnVal語法元素。
當NbitsQ語法元素之值等於五時(用信號通知使用無霍夫曼解碼之純量解量化重建構V-向量),提取單元72自0至VVecLength反覆,從
而將aVal變數設定為自位元串流21中獲得之VecVal語法元素。VecVal語法元素可表示指示介於0與255之間的整數之一或多個位元。
當NbitsQ語法元素之值等於或大於六時(用信號通知使用具有霍夫曼解碼之NbitsQ-位元純量解量化重建構V-向量),提取單元72自0至VVecLength反覆,從而獲得huffVal、SgnVal及intAddVal語法元素中之一或多者。huffVal語法元素可表示指示霍夫曼碼字之一或多個位元。intAddVal語法元素可表示指示在解碼期間使用之額外整數值的一或多個位元。提取單元72可將此等語法元素提供至基於向量之重建構單元92。
基於向量之重建構單元92可表示經組態以執行與上文關於基於向量之合成單元27所描述之彼等操作互逆之操作以便重建構HOA係數11'的單元。基於向量之重建構單元92可包括V-向量重建構單元74、空間-時間內插單元76、前景制訂單元78、音質解碼單元80、HOA係數制訂單元82、淡化單元770,及重新排序單元84。使用虛線展示淡化單元770以指示淡化單元770為視情況選用之單元。
V-向量重建構單元74可表示經組態以自經編碼前景V[k]向量57重建構V-向量之單元。V-向量重建構單元74可以與量化單元52之方式互逆之方式操作。
換言之,V-向量重建構單元74可根據以下偽碼操作以重建構V-向量:
根據前述偽碼,V-向量重建構單元74可獲得用於第i輸送聲道之第k訊框之NbitsQ語法元素。當NbitsQ語法元素等於四時(該情形再次用信號通知執行向量量化),V-向量重建構單元74可比較NumVecIndicies語法元素與一。如上文所描述,NumVecIndicies語法元素可表示指示用以將經向量量化之V-向量解量化的向量之數目的一或多個位元。當NumVecIndicies語法元素之值等於一時,V-向量重建構單元74可接著自0直至VVecLength語法元素之值反覆,從而將idx變數設定為VVecCoeffId且將第VVecCoeffId V-向量元素(v (i) VVecCoeffId[m](k))設定為WeightVal乘以藉由[900][VecIdx[0]][idx]識別之VecDict條目。換言之,當NumVvecIndicies之值等於一時,自表F.8結合表F.11中所展示之8×1加權值之碼簿導出向量碼簿HOA擴展係數。
當NumVecIndicies語法元素之值並不等於一時,V-向量重建構單元74可將cdbLen變數設定為O,其為表示向量之數目的變數。cdbLen語法元素指示碼向量之辭典或碼簿中的條目之數目(其中此辭典在前述偽碼中表示為「VecDict」且表示含有用以解碼經向量量化之V-向量的HOA擴展係數之向量的具有cdbLen個碼簿條目之碼簿)。當HOA
係數11之次序(藉由「N」表示)等於四時,V-向量重建構單元74可將cdbLen變數設定為32。V-向量重建構單元74接下來可自0至O反覆,從而將TmpVVec陣列設定為零。在此反覆期間,v-向量重建構單元74亦可自0至NumVecIndecies語法元素之值反覆,從而將TempVVec陣列之第m條目設定為等於第j WeightVal乘以VecDict之[cdbLen][VecIdx[j]][m]條目。
V-向量重建構單元74可根據以下偽碼導出WeightVal:
在前述偽碼中,V-向量重建構單元74可自0直至NumVecIndices語法元素之值反覆,首先判定PFlag語法元素之值是否等於0。當PFlag語法元素等於0時,V-向量重建構單元74可判定tmpWeightVal變數,從而將tmpWeightVal變數設定為等於WeightValCdbk碼簿之[CodebkIdx][WeightIdx]條目。當PFlag語法元素之值並不等於0時,V-向量重建構單元74可將tmpWeightVal變數設定為等於WeightValPredCdbk碼簿之[CodebkIdx][WeightIdx]條目加上WeightValAlpha變數乘以第i輸送聲道之第k-1訊框之tempWeightVal。WeightValAlpha變數可指上文所提及之阿爾法值,其可在音訊編碼及解碼器件20及24處靜態地界定。V-向量重建構單元74可接著依據由提取單元72獲得之SgnVal語法元素及tmpWeightVal變數獲得WeightVal。
換言之,V-向量重建構單元74可基於權重值碼簿(表示為用於未經預測之向量量化之「WeightValCdbk」及用於經預測之向量量化之
「WeightValPredCdbk」,該兩者可表示基於碼簿索引(在前述VVectorData(i)語法表中表示為「CodebkIdx」語法元素)及權重索引(在前述VVectorData(i)語法表中表示為「WeightIdx」語法元素)中之一或多者編索引之多維表)導出用於用以重建構V-向量之每一對應碼向量之權重值。可在旁側聲道資訊之一部分中界定此CodebkIdx語法元素,如下文ChannelSideInfoData(i)語法表中所展示。
上述偽碼之剩餘向量量化部分係關於計算FNorm以使V-向量之元素正規化,繼之將V-向量元素(v (i) VVecCoeffId[m](k))計算為等於TmpVVec[idx]乘以FNorm。V-向量重建構單元74可依據VVecCoeffID獲得idx變數。
當NbitsQ等於5時,執行均勻8位元純量解量化。與此對比,大於或等於6之NbitsQ值可導致霍夫曼解碼之應用。上文所提及之cid值可等於NbitsQ值之兩個最低有效位元。預測模式在上述語法表中表示為PFlag,而霍夫曼表資訊位元在上述語法表中表示為CbFlag。剩餘語法指定解碼如何以實質上類似於上文所描述之方式的方式出現。
音質解碼單元80可以與圖3之實例中所展示的音質音訊寫碼器單元40互逆之方式操作以便解碼經編碼環境HOA係數59及經編碼nFG信號61且藉此產生經能量補償之環境HOA係數47'及經內插之nFG信號49'(其亦可被稱作經內插之nFG音訊物件49')。音質解碼單元80可將經能量補償之環境HOA係數47'傳遞至淡化單元770且將nFG信號49'傳遞至前景制訂單元78。
空間-時間內插單元76可以與上文關於空間-時間內插單元50所描述之方式類似之方式操作。空間-時間內插單元76可接收減少之前景V[k]向量55 k 且關於前景V[k]向量55 k 及減少之前景V[k-1]向量55 k-1執行空間-時間內插以產生經內插之前景V[p]向量55 k "。空間-時間內插單元76可將經內插之前景V[k]向量55 k "轉遞至淡化單元770。
提取單元72亦可將指示環境HOA係數中之一者何時處於轉變中之信號757輸出至淡化單元770,該淡化單元770可接著判定SHCBG 47'(其中SHCBG 47'亦可表示為「環境HOA聲道47'''」或「環境HOA係數47'''」)及經內插之前景V[k]向量55 k "之元素中之哪一者將淡入或淡出。在一些實例中,淡化單元770可關於環境HOA係數47'及經內插之前景V[k]向量55k"之元素中之每一者相反地操作。亦即,淡化單元770可關於環境HOA係數47'中之對應環境HOA係數執行淡入或淡出或執行淡入或淡出兩者,同時關於經內插之前景V[k]向量55k"之元素中之對應經內插之前景V[k]向量執行淡入或淡出或執行淡入與淡出兩者。淡化單元770可將經調整之環境HOA係數47"輸出至HOA係數制訂單元82且將經調整之前景V[k]向量55k'''輸出至前景制訂單元78。就此而言,淡化單元770表示經組態以關於HOA係數或其導出項(例如,呈環境HOA係數47'及經內插之前景V[k]向量55 k "之元素的形式)之各種態樣執行淡化操作的單元。
前景制訂單元78可表示經組態以關於經調整之前景V[k]向量55 k '''及經內插之nFG信號49'執行矩陣乘法以產生前景HOA係數65的單元。前景制訂單元78可執行經內插之nFG信號49'乘以經調整之前景V[k]向量55 k '''的矩陣乘法。
HOA係數制訂單元82可表示經組態以將前景HOA係數65組合至經調整之環境HOA係數47"以便獲得HOA係數11'的單元。撇號記法反映HOA係數11'可類似於HOA係數11但與HOA係數11不相同。HOA係數11與11'之間的差可起因於歸因於有損傳輸媒體上之傳輸、量化或其他有損操作產生之損失。
就此而言,該等技術可使得音訊解碼器件20能夠自位元串流21之包括輸送聲道之第一聲道旁側資訊資料的第一訊框(其在下文關於圖7更詳細地加以描述)獲得指示第一訊框是否為獨立訊框之一或多個
位元(例如,圖7中所展示之HOAIndependencyFlag語法元素860),該獨立訊框包括使得能夠在不參考位元串流21之第二訊框之情況下解碼第一訊框的額外參考資訊。音訊編碼器件20亦可回應於指示該第一訊框並非獨立訊框之HOAIndependencyFlag語法元素而獲得用於輸送聲道之第一聲道旁側資訊資料的預測資訊。該預測資訊可用以參考該輸送聲道之該第二聲道旁側資訊資料解碼該輸送聲道之該第一聲道旁側資訊資料。
此外,本發明中所描述之該等技術可使得音訊解碼器件能夠經組態以儲存包括第一訊框之位元串流21,該第一訊框包含表示球諧域中之正交空間軸線之向量。音訊編碼器件經進一步組態以自位元串流21之第一訊框獲得指示第一訊框是否為獨立訊框之一或多個位元(例如,HOAIndependencyFlag語法元素),該獨立訊框包括使得能夠在不參考位元串流21之第二訊框之情況下解碼該向量的向量量化資訊(例如,CodebkIdx及NumVecIndices語法元素中之一者或兩者)。
在一些情況下,音訊解碼器件24可進一步經組態以在該一或多個位元指示第一訊框為獨立訊框時,自位元串流21獲得向量量化資訊。在一些情況下,向量量化資訊並不包括指示經預測之向量量化是否用以將向量量化之預測資訊。
在一些情況下,音訊解碼器件24可進一步經組態以在該一或多個位元指示第一訊框為獨立訊框時,設定預測資訊(例如,PFlag語法元素)以指示並不關於該向量執行經預測之向量解量化。在一些情況下,音訊解碼器件24可進一步經組態以在該一或多個位元指示第一訊框並非獨立訊框時,自向量量化資訊獲得預測資訊(例如,PFlag語法元素)(意謂:當NbitsQ語法元素指示使用向量量化壓縮向量時,PFlag語法元素為向量量化資訊之部分)。在此內容脈絡中,預測資訊可指示是否使用經預測之向量量化將向量量化。
在一些情況下,音訊解碼器件24可進一步經組態以在該一或多個位元指示第一訊框並非獨立訊框時自向量量化資訊獲得預測資訊。在一些情況下,音訊解碼器件24可進一步經組態以在預測資訊指示使用經預測之向量量化將向量量化時,關於向量執行經預測之向量解量化。
在一些情況下,音訊解碼器件24可進一步經組態以自向量量化資訊獲得碼簿資訊(例如,CodebkIdx語法元素),該碼簿資訊指示用以將該向量向量量化之碼簿。在一些情況下,音訊解碼器件24可進一步經組態以使用藉由碼簿資訊指示之碼簿關於該向量執行向量量化。
圖5A為說明音訊編碼器件(諸如,圖3之實例中所展示的音訊編碼器件20)在執行本發明中所描述的基於向量之合成技術之各種態樣中的例示性操作的流程圖。最初,音訊編碼器件20接收HOA係數11(106)。音訊編碼器件20可調用LIT單元30,LIT單元30可關於HOA係數應用LIT以輸出經變換之HOA係數(例如,在SVD之狀況下,經變換之HOA係數可包含US[k]向量33及V[k]向量35)(107)。
音訊編碼器件20接下來可調用參數計算單元32以按上文所描述之方式關於US[k]向量33、US[k-1]向量33、V[k]及/或V[k-1]向量35之任何組合執行上文所描述之分析以識別各種參數。亦即,參數計算單元32可基於經變換之HOA係數33/35之分析判定至少一參數(108)。
音訊編碼器件20可接著調用重新排序單元34,重新排序單元34基於參數將經變換之HOA係數(再次在SVD之內容脈絡中,其可指US[k]向量33及V[k]向量35)重新排序以產生經重新排序之經變換之HOA係數33'/35'(或,換言之,US[k]向量33'及V[k]向量35'),如上文所描述(109)。在前述操作或後續操作中之任一者期間,音訊編碼器件20亦可調用音場分析單元44。如上文所描述,音場分析單元44可關於HOA係數11及/或經變換之HOA係數33/35執行音場分析以判定前景
聲道之總數目(nFG)45、背景音場之階數(NBG)以及待發送之額外BG HOA聲道之數目(nBGa)及索引(i)(其在圖3之實例中可共同地表示為背景聲道資訊43)(109)。
音訊編碼器件20亦可調用背景選擇單元48。背景選擇單元48可基於背景聲道資訊43判定背景或環境HOA係數47(110)。音訊編碼器件20可進一步調用前景選擇單元36,前景選擇單元36可基於nFG 45(其可表示識別前景向量之一或多個索引)選擇表示音場之前景或特異分量的經重新排序之US[k]向量33'及經重新排序之V[k]向量35'(112)。
音訊編碼器件20可調用能量補償單元38。能量補償單元38可關於環境HOA係數47執行能量補償以補償歸因於由背景選擇單元48移除HOA係數中之各種HOA係數而產生的能量損失(114),且藉此產生經能量補償之環境HOA係數47'。
音訊編碼器件20亦可調用空間-時間內插單元50。空間-時間內插單元50可關於經重新排序之經變換之HOA係數33'/35'執行空間-時間內插以獲得經內插之前景信號49'(其亦可被稱作「經內插之nFG信號49'''」)及剩餘前景方向資訊53(其亦可被稱作「V[k]向量53"」)(116)。音訊編碼器件20可接著調用係數減少單元46。係數減少單元46可基於背景聲道資訊43關於剩餘前景V[k]向量53執行係數減少以獲得減少之前景方向資訊55(其亦可被稱作減少之前景V[k]向量55)(118)。
音訊編碼器件20可接著調用量化單元52以按上文所描述之方式壓縮減少之前景V[k]向量55且產生經寫碼前景V[k]向量57(120)。
音訊編碼器件20亦可調用音質音訊寫碼器單元40。音質音訊寫碼器單元40可對經能量補償之環境HOA係數47'及經內插之nFG信號49'之每一向量進行音質寫碼以產生經編碼環境HOA係數59及經編碼nFG信號61。音訊編碼器件可接著調用位元串流產生單元42。位元串
流產生單元42可基於經寫碼前景方向資訊57、經寫碼環境HOA係數59、經寫碼nFG信號61及背景聲道資訊43產生位元串流21。
圖5B為說明音訊編碼器件在執行本發明中所描述之寫碼技術中之例示性操作的流程圖。圖3之實例中所展示的音訊編碼器件20之位元串流產生單元42可表示經組態以執行本發明中所描述之技術之一實例單元。位元串流產生單元42可獲得指示訊框(其可表示為「第一訊框」)是否為獨立訊框(其亦可被稱作「立即播出訊框」)之一或多個位元(302)。關於圖7展示訊框之實例。訊框可包括一或多個輸送聲道之一部分。輸送聲道之該部分可包括ChannelSideInfoData(根據ChannelSideInfoData語法表形成)以及某一有效負載(例如,圖7之實例中之VVectorData欄位156)。有效負載之其他實例可包括AddAmbientHOACoeffs欄位。
當判定訊框為獨立訊框時(「是」304),位元串流產生單元42可在位元串流21中指定指示獨立性之一或多個位元(306)。HOAIndependencyFlag語法元素可表示指示獨立性之該一或多個位元。位元串流產生單元42亦可在位元串流21中指定指示整個量化模式之位元(308)。指示整個量化模式之位元可包括bA語法元素、bB語法元素及uintC語法元素,其亦可被稱作整個NbitsQ欄位。
位元串流產生單元42亦可基於量化模式在位元串流21中指定向量量化資訊或霍夫曼碼簿資訊(310)。向量量化資訊可包括CodebkIdx語法元素,而霍夫曼碼簿資訊可包括CbFlag語法元素。位元串流產生單元42可在量化模式之值等於四時指定向量量化資訊。位元串流產生單元42可在量化模式等於5時既不指定向量量化資訊亦不指定霍夫曼碼簿資訊。位元串流產生單元42可在量化模式大於或等於六時指定無任何預測資訊(例如,PFlag語法元素)之霍夫曼碼簿資訊。在此內容脈絡中,位元串流產生單元42可能並不指定PFlag語法元素,此係因為
當訊框為獨立訊框時並不啟用預測。就此而言,位元串流產生單元42可按以下各者中之一或多者之形式指定額外參考資訊:向量量化資訊、霍夫曼碼簿資訊、預測資訊及量化模式資訊。
當訊框為獨立訊框時(「是」304),位元串流產生單元42可在位元串流21中指定指示無獨立性之一或多個位元(312)。當HOAIndependencyFlag經設定為值(例如)零時,HOAIndependencyFlag語法元素可表示指示無獨立性之一或多個位元。位元串流產生單元42可接著判定訊框之量化模式是否與時間上之前一訊框(其可表示為「第二訊框」)之量化模式相同(314)。儘管關於前一訊框加以描述,但可關於時間上之後續訊框執行該等技術。
當量化模式相同時(「是」316),位元串流產生單元42可在位元串流21中指定量化模式之一部分(318)。量化模式之該部分可包括bA語法元素及bB語法元素,但不包括uintC語法元素。位元串流產生單元42可將bA語法元素及bB語法元素中之每一者之值設定為0,藉此用信號通知位元串流21中之量化模式欄位(亦即,作為一實例,NbitsQ欄位)並不包括uintC語法元素。零值bA語法元素及bB語法元素之此用信號通知亦指示將來自前一訊框之NbitsQ值、PFlag值、CbFlag值、CodebkIdx值及NumVecIndices值用作用於當前訊框之相同語法元素的對應值。
當量化模式並不相同時(「否」316),位元串流產生單元42可在位元串流21中指定指示整個量化模式之一或多個位元(320)。亦即,位元串流產生單元42可在位元串流21中指定bA、bB及uintC語法元素。位元串流產生單元42亦可基於量化模式指定量化資訊(322)。此量化資訊可包括關於量化之任何資訊,諸如向量量化資訊、預測資訊及霍夫曼碼簿資訊。作為一實例,向量量化資訊可包括CodebkIdx語法元素及NumVecIndices語法元素中之一者或兩者。作為一實例,預
測資訊可包括PFlag語法元素。作為一實例,霍夫曼碼簿資訊可包括CbFlag語法元素。
圖6A為說明音訊解碼器件(諸如,圖4中所展示之音訊解碼器件24)在執行本發明中所描述之技術之各種態樣中的例示性操作的流程圖。最初,音訊解碼器件24可接收位元串流21(130)。在接收到位元串流後,音訊解碼器件24可調用提取單元72。出於論述之目的假定位元串流21指示將執行基於向量之重建構,提取單元72可剖析位元串流以擷取上文所提及之資訊,將該資訊傳遞至基於向量之重建構單元92。
換言之,提取單元72可按上文所描述之方式自位元串流21中提取經寫碼前景方向資訊57(再次,其亦可被稱作經寫碼前景V[k]向量57)、經寫碼環境HOA係數59及經寫碼前景信號(其亦可被稱作經寫碼前景nFG信號59或經寫碼前景音訊物件59)(132)。
音訊解碼器件24可進一步調用解量化單元74。解量化單元74可對經寫碼前景方向資訊57進行熵解碼及解量化以獲得減少之前景方向資訊55 k (136)。音訊解碼器件24亦可調用音質解碼單元80。音質音訊解碼單元80可解碼經編碼環境HOA係數59及經編碼前景信號61以獲得經能量補償之環境HOA係數47'及經內插之前景信號49'(138)。音質解碼單元80可將經能量補償之環境HOA係數47'傳遞至淡化單元770且將nFG信號49'傳遞至前景制訂單元78。
音訊解碼器件24接下來可調用空間-時間內插單元76。空間-時間內插單元76可接收經重新排序之前景方向資訊55 k '且關於減少之前景方向資訊55 k /55 k-1執行空間-時間內插以產生經內插之前景方向資訊55 k "(140)。空間-時間內插單元76可將經內插之前景V[k]向量55 k "轉遞至淡化單元770。
音訊解碼器件24可調用淡化單元770。淡化單元770可接收或以
其他方式獲得指示經能量補償之環境HOA係數47'何時處於轉變中之語法元素(例如,AmbCoeffTransition語法元素)(例如,自提取單元72)。淡化單元770可基於轉變語法元素及維持之轉變狀態資訊使經能量補償之環境HOA係數47'淡入或淡出,從而將經調整之環境HOA係數47"輸出至HOA係數制訂單元82。淡化單元770亦可基於語法元素及維持之轉變狀態資訊,及使經內插之前景V[k]向量55 k "中之對應一或多個元素淡出或淡入,從而將經調整之前景V[k]向量55 k '''輸出至前景制訂單元78(142)。
音訊解碼器件24可調用前景制訂單元78。前景制訂單元78可執行nFG信號49'乘以經調整之前景方向資訊55 k '''之矩陣乘法以獲得前景HOA係數65(144)。音訊解碼器件24亦可調用HOA係數制訂單元82。HOA係數制訂單元82可將前景HOA係數65加至經調整之環境HOA係數47"以便獲得HOA係數11'(146)。
圖6B為說明音訊解碼器件在執行本發明中所描述之寫碼技術中之例示性操作的流程圖。圖4之實例中所展示的音訊編碼器件24之提取單元72可表示經組態以執行本發明中所描述之技術之一實例單元。位元串流提取單元72可獲得指示訊框(其可表示為「第一訊框」)是否為獨立訊框(其亦可被稱作「立即播出訊框」)之一或多個位元(352)。
當判定訊框為獨立訊框時(「是」354),提取單元72可自位元串流21獲得指示整個量化模式之位元(356)。此外,指示整個量化模式之位元可包括bA語法元素、bB語法元素及uintC語法元素,其亦可被稱作整個NbitsQ欄位。
提取單元72亦可基於量化模式自位元串流21獲得向量量化資訊/霍夫曼碼簿資訊(358)。亦即,當量化模式之值等於四時,提取產生單元72可獲得向量量化資訊。當量化模式等於5時,提取單元72可能既不獲得向量量化資訊亦不獲得霍夫曼碼簿資訊。當量化模式大於或
等於六時,提取單元72可獲得無任何預測資訊(例如,PFlag語法元素)之霍夫曼碼簿資訊。在此內容脈絡中,提取單元72可能並不獲得PFlag語法元素,此係因為當訊框為獨立訊框時並不啟用預測。因此,當訊框為獨立訊框時,提取單元72可判定隱含地指示預測資訊(亦即,該實例中之PFlag語法元素)之該一或多個位元之值,且將指示預測資訊之該一或多個位元設定為(例如)值零(360)。
當訊框為獨立訊框時(「是」354),提取單元72可獲得指示訊框之量化模式是否與時間上之前一訊框(其可表示為「第二訊框」)之量化模式相同的位元(362)。此外,儘管關於前一訊框加以描述,但可關於時間上之後續訊框執行該等技術。
當量化模式相同時(「是」364),提取單元72可自位元串流21中獲得量化模式之一部分(366)。量化模式之該部分可包括bA語法元素及bB語法元素,但不包括uintC語法元素。提取單元42亦可將用於當前訊框之NbitsQ值、PFlag值、CbFlag值及CodebkIdx值之值設定為與針對前一訊框設定的NbitsQ值、PFlag值、CbFlag值及CodebkIdx值之值相同(368)。
當量化模式並不相同時(「否」364),提取單元72可自位元串流21中獲得指示整個量化模式之一或多個位元。亦即,提取單元72自位元串流21中獲得bA、bB及uintC語法元素(370)。提取單元72亦可基於量化模式獲得指示量化資訊之一或多個位元(372)。如上文關於圖5B所提及,量化資訊可包括關於量化之任何資訊,諸如向量量化資訊、預測資訊及霍夫曼碼簿資訊。作為一實例,向量量化資訊可包括CodebkIdx語法元素及NumVecIndices語法元素中之一者或兩者。作為一實例,預測資訊可包括PFlag語法元素。作為一實例,霍夫曼碼簿資訊可包括CbFlag語法元素。
圖7為說明根據本發明中所描述之技術之各種態樣指定的實例訊
框249S及249T的圖。如圖7之實例中所展示,訊框249S包括ChannelSideInfoData(CSID)欄位154A至154D、HOAGainCorrectionData(HOAGCD)欄位、VVectorData欄位156A及156B以及HOAPredictionInfo欄位。CSID欄位154A包括經設定為值10之uintC語法元素(「uintC」)267、經設定為值1之bb語法元素(「bB」)266,及經設定為值0之bA語法元素(「bA」)265,以及經設定為值01之ChannelType語法元素(「ChannelType」)269。
uintC語法元素267、bb語法元素266及aa語法元素265一起形成NbitsQ語法元素261,其中aa語法元素265形成NbitsQ語法元素261之最高有效位元,bb語法元素266形成次高有效位元且uintC語法元素267形成最低有效位元。如上文所提及,NbitsQ語法元素261可表示指示用以編碼高階立體混響音訊資料之量化模式(例如,向量量化模式、無霍夫曼寫碼之純量量化模式,及具有霍夫曼寫碼之純量量化模式中的一者)的一或多個位元。
CSID語法元素154A亦包括上文在各種語法表中參考之PFlag語法元素300及CbFlag語法元素302。PFlag語法元素300可表示指示第一訊框249S之V-向量的經寫碼元素是否係自第二訊框(例如,此實例中之前一訊框)之V-向量的經寫碼元素預測的一或多個位元。CbFlag語法元素302可表示指示霍夫曼碼簿資訊之一或多個位元,其可識別使用霍夫曼碼簿(或,換言之,表格)中之哪一者來編碼V-向量之元素。
CSID欄位154B包括bB語法元素266及bA語法元素265以及ChannelType語法元素269,在圖7之實例中,前述各語法元素中之每一者經設定為對應值0及0及01。CSID欄位154C及154D中之每一者包括具有值3(112)之ChannelType欄位269。CSID欄位154A至154D中之每一者對應於輸送聲道1、2、3及4中之各別輸送聲道。實際上,每一CSID欄位154A至154D指示對應有效負載為基於方向之信號(當對應
ChannelType等於零時)、基於向量之信號(當對應ChannelType等於一時)、額外環境HOA係數(當對應ChannelType等於二時),抑或為空值(當ChannelType等於三時)。
在圖7之實例中,訊框249S包括兩個基於向量之信號(在給定ChannelType語法元素269在CSID欄位154A及154B中等於1之情況下)及兩個空值(在給定ChannelType 269在CSID欄位154C及154D中等於3之情況下)。此外,如藉由PFlag語法元素300指示的音訊編碼器件20使用之預測經設定為一。此外,如藉由PFlag語法元素300指示之預測係指指示關於經壓縮空間分量v1至vn中之對應經壓縮空間分量是否執行預測之預測模式指示。當PFlag語法元素300經設定為一時,音訊編碼器件20可使用藉由採取以下情形之差進行之預測:對於純量量化,來自前一訊框之向量元素與當前訊框之對應向量元素之間的差,或,對於向量量化,來自前一訊框之權重與當前訊框之對應權重之間的差。
音訊編碼器件20亦判定訊框249S中之第二輸送聲道之CSID欄位154B的NbitsQ語法元素261之值與前一訊框之第二輸送聲道之CSID欄位154B的NbitsQ語法元素261之值相同。因此,音訊編碼器件20針對ba語法元素265及bb語法元素266中之每一者指定值零以用信號通知將前一訊框中之第二輸送聲道的NbitsQ語法元素261之值重用於訊框249S中之第二輸送聲道的NbitsQ語法元素261。因此,音訊編碼器件20可避免指定訊框249S中之第二輸送聲道的uintC語法元素267。
當訊框249S並非立即播出訊框(其亦可被稱作「獨立訊框」)時,音訊編碼器件20可准許進行依賴於過去的資訊(就V-向量元素之預測而言及就來自前一訊框之uintC語法元素267之預測而言)之此時間預測。訊框是否為立即播出訊框可藉由HOAIndependencyFlag語法元素860來指明。換言之,HOAIndependencyFlag語法元素860可表示包含
表示訊框249S是否為可獨立解碼之訊框(或,換言之,立即播出訊框)之位元的語法元素。
與此對比,在圖7之實例中,音訊編碼器件20可判定訊框249T為立即播出訊框。音訊編碼器件20可將用於訊框249T之HOAIndependencyFlag語法元素860設定為一。因此,將訊框2497指明為立即播出訊框。音訊編碼器件20可接著停用時間(意謂,訊框間)預測。因為時間預測經停用,所以音訊編碼器件20可能不需要針對訊框249T中之第一輸送聲道的CSID欄位154A指定PFlag語法元素300。實情為,音訊編碼器件20可藉由用值一指定HOAIndependencyFlag 860,隱含地用信號通知:對於訊框249T中之第一輸送聲道的CSID欄位154A,PFlag語法元素300具有值零。此外,因為針對訊框249T停用時間預測,所以音訊編碼器件20針對Nbits欄位261指定整個值(包括uintC語法元素267),甚至在前一訊框中之第二輸送聲道的CSID 154B之Nbits欄位261的值相同時亦如此。
音訊解碼器件24可接著根據指定用於ChannelSideInfoData(i)之語法之上述語法表操作以剖析訊框249S及249T中之每一者。音訊解碼器件24可針對訊框249S剖析用於HOAIndependencyFlag 860之單一位元,且在給定HOAIndependencyFlag值並不等於一之情況下,跳過第一「if」敍述(在狀況1之情況下,給定:switch敍述對經設定為值一之ChannelType語法元素269進行操作)。音訊解碼器件24可接著在「else」敍述下剖析第一(亦即,在此實例中,i=1)輸送聲道之CSID欄位154A。剖析CSID欄位154A,音訊解碼器件24可剖析bA及bB語法元素265及266。
當bA及bB語法元素265及266之組合值等於零時,音訊解碼器件24判定預測用於CSID欄位154A之NbitsQ欄位261。在此情況下,bA及bB語法元素265及266具有組合值一。音訊解碼器件24基於組合值一
判定預測並不用於CSID欄位154A之NbitsQ欄位261。基於並不使用預測之判定,音訊解碼器件24剖析來自CSID欄位154A之uintC語法元素267且依據bA語法元素265、bB語法元素266及uintC語法元素267形成NbitsQ欄位261。
基於此NbitsQ欄位261,音訊解碼器件24判定是否執行向量量化(亦即,在該實例中,NbitsQ==4)或是否執行純量量化(亦即,在該實例中,NbitsQ>=6)。在給定NbitsQ欄位261指定二進位記法之0110或十進位記法之6之值的情況下,音訊解碼器件24判定執行純量量化。音訊解碼器件24剖析來自CSID欄位154A的與純量量化相關之量化資訊(亦即,在該實例中,PFlag語法元素300及CbFlag語法元素302)。
音訊解碼器件24可針對訊框249S之CSID欄位154B重複類似處理程序,其例外之處在於:音訊解碼器件24判定預測用於NbitsQ欄位261。換言之,音訊解碼器件24與上文所描述情形相同般操作,其例外之處在於:音訊解碼器件24判定bA語法元素265及bB語法元素266之組合值等於零。因此,音訊解碼器件24判定用於訊框249S之CSID欄位154B之NbitsQ欄位261與在前一訊框之對應CSID欄位中指定之情形相同。此外,音訊解碼器件24亦可判定:當bA語法元素265及bB語法元素266之組合值等於零時,用於CSID欄位154B之PFlag語法元素300、CbFlag語法元素302及CodebkIdx語法元素(在圖7A之純量量化實例中未展示)與在前一訊框之對應CSID欄位154B中指定之彼等情形相同。
關於訊框249T,音訊解碼器件24可剖析或以其他方式獲得HOAIndependencyFlag語法元素860。音訊解碼器件24可判定:針對訊框249T,HOAIndependencyFlag語法元素860具有值一。就此而言,音訊解碼器件24可判定實例訊框249T為立即播出訊框。音訊解碼器件24接下來可剖析或以其他方式獲得ChannelType語法元素269。音訊解
碼器件24可判定:訊框249T之CSID欄位154A之ChannelType語法元素269具有值一且執行ChannelSideInfoData(i)語法表中之switch敍述以達成狀況1。因為HOAIndependencyFlag語法元素860之值具有值一,所以音訊解碼器件24在狀況1下進入第一if敍述且剖析或以其他方式獲得NbitsQ欄位261。
基於NbitsQ欄位261之值,音訊解碼器件24獲得用於進行向量量化之CodebkIdx語法元素或獲得CbFlag語法元素302(同時隱含地將PFlag語法元素300設定為零)。換言之,音訊解碼器件24可隱含地將PFlag語法元素300設定為零,此係因為針對獨立訊框停用訊框間預測。就此而言,音訊解碼器件24可回應於指示第一訊框249T為獨立訊框之該一或多個位元860而設定預測資訊300以指示與第一聲道旁側資訊資料154A相關聯的向量之經寫碼元素之值並非參考與前一訊框之第二聲道旁側資訊資料相關聯的向量之值預測。在任何情況下,在給定NbitsQ欄位261具有二進位記法之值0110(其在十進位記法中為6)之情況下,音訊解碼器件24剖析CbFlag語法元素302。
對於訊框249T之CSID欄位154B,音訊解碼器件24剖析或以其他方式獲得ChannelType語法元素269,執行switch敍述以達成狀況1,且進入if敍述(類似於訊框249T之CSID欄位154A)。然而,因為NbitsQ欄位261之值為五,所以當執行非霍夫曼純量量化以寫碼第二輸送聲道之V-向量元素時,當在CSID欄位154B中未指定任何其他語法元素時,音訊解碼器件24退出if敍述。
圖8A及圖8B為各自說明根據本文所描述之技術之至少一位元串流的一或多個聲道之實例訊框的圖。在圖8A之實例中,位元串流808包括訊框810A至810E,其各自可包括一或多個聲道,且位元串流808可表示根據本文所描述之技術修改以便包括IPF的位元串流21之任何組合。訊框810A至810E可包括於各別存取單元內且可替代地被稱作
「存取單元810A至810E」。
在所說明之實例中,立即播出訊框(IPF)816包括獨立訊框810E以及來自先前訊框810B、810C及810D之狀態資訊(在IPF 816中表示為狀態資訊812)。亦即,狀態資訊812可包括IPF 816中表示的由狀態機402自處理先前訊框810B、810C及810D而維持之狀態。可在IPF 816內使用位元串流808內之有效負載擴展編碼狀態資訊812。狀態資訊812可補償解碼器啟動延遲以在內部組態解碼器狀態以實現獨立訊框810E之正確解碼。狀態資訊812可出於此原因而替代地且共同地被稱作獨立訊框810E之「預滾」。在各種實例中,更多或更少訊框可供解碼器用以補償解碼器啟動延遲,該解碼器啟動延遲判定用於訊框之狀態資訊812之量。獨立訊框810E為獨立的,此係因為訊框810E可獨立解碼。因此,訊框810E可被稱作「可獨立解碼訊框810」。獨立訊框810E因此可構成位元串流808之串流存取點。
狀態資訊812可進一步包括可在位元串流808開始時發送之HOAconfig語法元素。狀態資訊812可(例如)描述位元串流808位元速率或可用於位元串流切換或位元速率調適之其他資訊。狀態資訊814之一部分可包括的內容之另一實例為HOAConfig語法元素。就此而言,IPF 816可表示無狀態訊框,其可能並非呈揚聲器具有過去的任何記憶體之方式。換言之,獨立訊框810E可表示無狀態訊框,其可經解碼而不管任何先前狀態(因為狀態係依據狀態資訊812而提供)。
當選擇訊框810E為獨立訊框時,音訊編碼器件20可執行將訊框810E自可依賴性地解碼訊框轉變至可獨立解碼訊框之處理程序。該處理程序可涉及在訊框中指定包括轉變狀態資訊之狀態資訊812,該狀態資訊使得能夠在不參考位元串流之先前訊框之情況下解碼及播放訊框的經編碼音訊資料之位元串流。
解碼器(諸如,解碼器24)可在IPF 816處隨機地存取位元串流808
且,當解碼狀態資訊812以初始化解碼器狀態及緩衝器(例如,解碼器側狀態機402)時,解碼獨立訊框810E以輸出HOA係數之經壓縮版本。狀態資訊812之實例可包括下表中所指定之語法元素:
解碼器24可剖析來自狀態資訊812之前述語法元素以獲得以下各者中之一或多者:呈NbitsQ語法元素形式之量化狀態資訊、呈PFlag語法元素形式之預測狀態資訊、呈CodebkIdx語法元素及NumVecIndices語法元素中之一者或兩者形式的向量量化狀態資訊,及呈AmbCoeffTransitionState語法元素形式之轉變狀態資訊。解碼器24可用經剖析之狀態資訊812組態狀態機402以使得能夠獨立地解碼訊框810E。在解碼獨立訊框810E之後,解碼器24可繼續進行訊框之常規解碼。
根據本文所描述之技術,音訊編碼器件20可經組態以按不同於其他訊框810之方式產生IPF 816之獨立訊框810E以准許在獨立訊框810E處立即播出及/或在相同內容之音訊表示之間切換(該等表示在位元速率及/或獨立訊框810E處之啟用工具上不同)。更具體言之,位元串流產生單元42可使用狀態機402維持狀態資訊812。位元串流產生單元42可產生獨立訊框810E以包括用以組態狀態機402以用於一或多個環境HOA係數之狀態資訊812。位元串流產生單元42可進一步或替代
地產生獨立訊框810E以按不同方式編碼量化及/或預測資訊以便(例如)相對於位元串流808之其他非IPF訊框減小訊框大小。此外,位元串流產生單元42可按狀態機402之形式維持量化狀態。另外,位元串流產生單元42可編碼訊框810A至810E之每一訊框以包括指示訊框是否為IPF之旗標或其他語法元素。該語法元素在本發明中之別處可被稱作IndependencyFlag或HOAIndependencyFlag。
就此而言,作為一實例,該等技術之各種態樣可使得音訊編碼器件20之位元串流產生單元42能夠在位元串流(諸如,位元串流21)中指定:包括高階立體混響係數(諸如,以下各者中之一者:環境高階立體混響係數47'、用於獨立訊框(諸如,在圖8A之實例中,獨立訊框810E)用於高階立體混響係數47'之轉變資訊757(例如,作為狀態資訊812之部分)。獨立訊框810E可包括使得能夠在不參考高階立體混響係數47'之先前訊框(例如,訊框810A至810D)之情況下解碼及立即播放獨立訊框的額外參考資訊(其可指狀態資訊812)。雖然描述為立即或瞬時播放,但術語「立即」或「瞬時」係指幾乎立即、隨後或幾乎瞬時播放且並非既定指「立即」或「瞬時」之文字定義。此外,術語之使用係出於採用貫穿各種標準(當前的及新興的)使用之語言之目的。
圖8B為說明根據本文中所描述之技術之至少一位元串流的一或多個聲道之實例訊框的圖。位元串流450包括各自可包括一或多個聲道之訊框810A至810H。位元串流450可為圖7之實例中所展示之位元串流21。位元串流450可實質上類似於位元串流808,其例外之處在於位元串流450並不包括IPF。因此,音訊解碼器件24維持狀態資訊,從而更新狀態資訊以判定如何解碼當前訊框k。音訊解碼器件24可利用來自組態814及訊框810B至810D之狀態資訊。訊框810E與IPF 816之間的差異為:訊框810E並不包括前述狀態資訊,而IFP 816包括前述狀態資訊。
換言之,音訊編碼器件20可在位元串流產生單元42內包括(例如)狀態機402,其維持用於編碼訊框810A至810E中之每一者之狀態資訊,此係因為位元串流產生單元42可基於狀態機402指定用於訊框810A至810E中之每一者之語法元素。
音訊解碼器件24同樣可在位元串流提取單元72內包括(例如)類似狀態機402,其基於狀態機402輸出語法元素(該等語法元素中之一些語法元素未在位元串流21中明確地指定)。音訊解碼器件24之狀態機402可按與音訊編碼器件20之狀態機402之方式類似的方式操作。因此,音訊解碼器件24之狀態機402可維持狀態資訊,從而基於組態814(及,在圖8B之實例中,訊框810B至810D之解碼)更新狀態資訊。基於狀態資訊,位元串流提取單元72可基於由狀態機402維持之狀態資訊提取訊框810E。狀態資訊可提供數個隱含語法元素,音訊編碼器件20可在解碼訊框810E之各種輸送聲道時利用該等隱含語法元素。
可關於任何數目個不同內容脈絡及音訊生態系統執行前述技術。下文描述數個實例內容脈絡,但該等技術應限於該等實例內容脈絡。一實例音訊生態系統可包括音訊內容、影片工作室、音樂工作室、遊戲音訊工作室、基於聲道之音訊內容、寫碼引擎、遊戲音訊符尾(game audio stems)、遊戲音訊寫碼/轉譯引擎,及遞送系統。
影片工作室、音樂工作室及遊戲音訊工作室可接收音訊內容。在一些實例中,音訊內容可表示獲取之輸出。影片工作室可諸如藉由使用數位音訊工作站(DAW)輸出基於聲道之音訊內容(例如,呈2.0、5.1及7.1)。音樂工作室可諸如藉由使用DAW輸出基於聲道之音訊內容(例如,呈2.0及5.1)。在任一狀況下,寫碼引擎可基於一或多個編碼解碼器(例如,AAC、AC3、杜比真HD(Dolby True HD)、杜比數位Plus(Dolby Digital Plus)及DTS主音訊)接收及編碼基於聲道之音訊內容以供由遞送系統輸出。遊戲音訊工作室可諸如藉由使用DAW輸出
一或多個遊戲音訊符尾。遊戲音訊寫碼/轉譯引擎可寫碼音訊符尾及或將音訊符尾轉譯成基於聲道之音訊內容以供由遞送系統輸出。可執行該等技術之另一實例內容脈絡包含音訊生態系統,其可包括廣播記錄音訊物件、專業音訊系統、消費型器件上俘獲、HOA音訊格式、器件上轉譯、消費型音訊、TV及附件,及汽車音訊系統。
廣播記錄音訊物件、專業音訊系統及消費型器件上俘獲皆可使用HOA音訊格式寫碼其輸出。以此方式,可使用HOA音訊格式將音訊內容寫碼成單一表示,可使用器件上轉譯、消費型音訊、TV及附件及汽車音訊系統播放該單一表示。換言之,可在通用音訊播放系統(亦即,與需要諸如5.1、7.1等之特定組態之情形形成對比)(諸如,音訊播放系統16)處播放音訊內容之單一表示。
可執行該等技術之內容脈絡之其他實例包括可包括獲取元件及播放元件之音訊生態系統。獲取元件可包括有線及/或無線獲取器件(例如,Eigen麥克風)、器件上環繞聲俘獲器及行動器件(例如,智慧型手機及平板電腦)。在一些實例中,有線及/或無線獲取器件可經由有線及/或無線通信頻道耦接至行動器件。
根據本發明之一或多個技術,行動器件可用以獲取音場。舉例而言,行動器件可經由有線及/或無線獲取器件及/或器件上環繞聲俘獲器(例如,整合至行動器件中之複數個麥克風)獲取音場。行動器件可接著將所獲取音場寫碼成HOA係數以用於由播放元件中之一或多者播放。舉例而言,行動器件之使用者可記錄(獲取音場)實況事件(例如,集會、會議、比賽、音樂會等),且將記錄寫碼成HOA係數。
行動器件亦可利用播放元件中之一或多者來播放HOA經寫碼音場。舉例而言,行動器件可解碼HOA經寫碼音場,且將使得播放元件中之一或多者重新建立音場之信號輸出至播放元件中之一或多者。作為一實例,行動器件可利用無線及/或無線通信頻道將信號輸出至一
或多個揚聲器(例如,揚聲器陣列、聲棒(sound bar)等)。作為另一實例,行動器件可利用銜接解決方案將信號輸出至一或多個銜接台及/或一或多個銜接之揚聲器(例如,智慧型汽車及/或家庭中之聲音系統)。作為另一實例,行動器件可利用頭戴式耳機轉譯將信號輸出至一組頭戴式耳機(例如)以建立實際的雙耳聲音。
在一些實例中,特定行動器件可獲取3D音場並且在稍後時間播放相同的3D音場。在一些實例中,行動器件可獲取3D音場,將該3D音場編碼為HOA,且將經編碼3D音場傳輸至一或多個其他器件(例如,其他行動器件及/或其他非行動器件)以用於播放。
可執行該等技術之又一內容脈絡包括可包括音訊內容、遊戲工作室、經寫碼音訊內容、轉譯引擎及遞送系統之音訊生態系統。在一些實例中,遊戲工作室可包括可支援HOA信號之編輯的一或多個DAW。舉例而言,該一或多個DAW可包括HOA外掛程式及/或可經組態以與一或多個遊戲音訊系統一起操作(例如,工作)之工具。在一些實例中,遊戲工作室可輸出支援HOA之新符尾格式。在任何狀況下,遊戲工作室可將經寫碼音訊內容輸出至轉譯引擎,該轉譯引擎可轉譯音場以供由遞送系統播放。
亦可關於例示性音訊獲取器件執行該等技術。舉例而言,可關於可包括共同地經組態以記錄3D音場之複數個麥克風之Eigen麥克風執行該等技術。在一些實例中,Eigen麥克風之該複數個麥克風可位於具有大約4cm之半徑的實質上球面球之表面上。在一些實例中,音訊編碼器件20可整合至Eigen麥克風中以便直接自麥克風輸出位元串流21。
另一例示性音訊獲取內容脈絡可包括可經組態以接收來自一或多個麥克風(諸如,一或多個Eigen麥克風)之信號的製作車。製作車亦可包括音訊編碼器,諸如圖3之音訊編碼器20。
在一些情況下,行動器件亦可包括共同地經組態以記錄3D音場之複數個麥克風。換言之,該複數個麥克風可具有X、Y、Z分集。在一些實例中,行動器件可包括可旋轉以關於行動器件之一或多個其他麥克風提供X、Y、Z分集之麥克風。行動器件亦可包括音訊編碼器,諸如圖3之音訊編碼器20。
加固型視訊俘獲器件可進一步經組態以記錄3D音場。在一些實例中,加固型視訊俘獲器件可附接至參與活動的使用者之頭盔。舉例而言,加固型視訊俘獲器件可在使用者泛舟時附接至使用者之頭盔。以此方式,加固型視訊俘獲器件可俘獲表示使用者周圍之動作(例如,水在使用者身後的撞擊、另一泛舟者在使用者前方說話,等等)的3D音場。
亦可關於可經組態以記錄3D音場之附件增強型行動器件執行該等技術。在一些實例中,行動器件可類似於上文所論述之行動器件,其中添加一或多個附件。舉例而言,Eigen麥克風可附接至上文所提及之行動器件以形成附件增強型行動器件。以此方式,附件增強型行動器件可俘獲3D音場之較高品質版本(與僅使用與附件增強型行動器件成一體式之聲音俘獲組件之情形相比較)。
下文進一步論述可執行本發明中所描述之技術之各種態樣的實例音訊播放器件。根據本發明之一或多個技術,揚聲器及/或聲棒可配置於任何任意組態中,同時仍播放3D音場。此外,在一些實例中,頭戴式耳機播放器件可經由有線或無線連接耦接至解碼器24。根據本發明之一或多個技術,可利用音場之單一通用表示來在揚聲器、聲棒及頭戴式耳機播放器件之任何組合上轉譯音場。
數個不同實例音訊播放環境亦可適合於執行本發明中所描述之技術之各種態樣。舉例而言,以下環境可為用於執行本發明中所描述之技術之各種態樣的合適環境:5.1揚聲器播放環境、2.0(例如,立
體聲)揚聲器播放環境、具有全高前擴音器之9.1揚聲器播放環境、22.2揚聲器播放環境、16.0揚聲器播放環境、汽車揚聲器播放環境,及具有耳掛式耳機播放環境之行動器件。
根據本發明之一或多個技術,可利用音場之單一通用表示來在前述播放環境中之任一者上轉譯音場。另外,本發明之技術使得轉譯器能夠自通用表示轉譯一音場以供在不同於上文所描述之環境之播放環境上播放。舉例而言,若設計考慮禁止揚聲器根據7.1揚聲器播放環境之恰當置放(例如,若不可能置放右環繞揚聲器),則本發明之技術使得轉譯器能夠藉由其他6個揚聲器進行補償,使得可在6.1揚聲器播放環境上達成播放。
此外,使用者可在佩戴頭戴式耳機時觀看運動比賽。根據本發明之一或多個技術,可獲取運動比賽之3D音場(例如,可將一或多個Eigen麥克風置放於棒球場中及/或周圍),可獲得對應於3D音場之HOA係數且將該等HOA係數傳輸至解碼器,該解碼器可基於HOA係數重建構3D音場且將經重建構之3D音場輸出至轉譯器,該轉譯器可獲得關於播放環境之類型(例如,頭戴式耳機)之指示,且將經重建構之3D音場轉譯成使得頭戴式耳機輸出運動比賽之3D音場之表示的信號。
在上文所描述之各種情況中的每一者中,應理解,音訊編碼器件20可執行方法或另外包含用以執行音訊編碼器件20經組態以執行的方法之每一步驟的構件。在一些情況下,該等構件可包含一或多個處理器。在一些情況下,該一或多個處理器可表示借助於儲存至非暫時性電腦可讀儲存媒體之指令組態之專用處理器。換言之,數組編碼實例中之每一者中之技術的各種態樣可提供非暫時性電腦可讀儲存媒體,其具有儲存於其上之指令,該等指令在經執行時使得一或多個處理器執行音訊編碼器件20已經組態以執行之方法。
在一或多個實例中,所描述功能可以硬體、軟體、韌體或其任何組合來實施。若以軟體實施,則該等功能可作為一或多個指令或程式碼儲存於電腦可讀媒體上或經由電腦可讀媒體進行傳輸,且由基於硬體之處理單元執行。電腦可讀媒體可包括電腦可讀儲存媒體,其對應於諸如資料儲存媒體之有形媒體。資料儲存媒體可為可由一或多個電腦或一或多個處理器存取以擷取用於實施本發明中所描述之技術的指令、程式碼及/或資料結構的任何可用媒體。電腦程式產品可包括電腦可讀媒體。
同樣,在上文所描述之各種情況中的每一者中,應理解,音訊解碼器件24可執行方法或另外包含用以執行音訊解碼器件24經組態以執行的方法之每一步驟的構件。在一些情況下,該等構件可包含一或多個處理器。在一些情況下,該一或多個處理器可表示借助於儲存至非暫時性電腦可讀儲存媒體之指令組態之專用處理器。換言之,數組編碼實例中之每一者中之技術的各種態樣可提供非暫時性電腦可讀儲存媒體,其具有儲存於其上之指令,該等指令在經執行時使得一或多個處理器執行音訊解碼器件24已經組態以執行之方法。
借助於實例而非限制,此等電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器件、磁碟儲存器件或其他磁性儲存器件、快閃記憶體或可用來儲存呈指令或資料結構形式之所要程式碼且可由電腦存取的任何其他媒體。然而,應理解,電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體,而是針對非暫時性有形儲存媒體。如本文中所使用,磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位影音光碟(DVD)、磁碟片及藍光光碟,其中磁碟通常以磁性方式再生資料,而光碟藉由雷射以光學方式再生資料。以上各者之組合亦應包括於電腦可讀媒體之範疇內。
指令可由一或多個處理器執行,該一或多個處理器諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效的整合或離散邏輯電路。因此,如本文中所使用之術語「處理器」可指上述結構或適合於實施本文中所描述之技術的任何其他結構中的任一者。另外,在一些態樣中,可在經組態用於編碼及解碼之專用硬體及/或軟體模組內提供本文中所描述之功能性,或將本文中所描述之功能性併入於組合式編碼解碼器中。又,該等技術可完全實施於一或多個電路或邏輯元件中。
本發明之技術可在廣泛多種器件或裝置中實施,該等器件或裝置包括無線手機、積體電路(IC)或一組IC(例如,晶片組)。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術之器件的功能態樣,但未必需要藉由不同硬體單元來實現。確切地說,如上文所描述,各種單元可與合適的軟體及/或韌體一起組合於編碼解碼器硬體單元中或由互操作性硬體單元之集合提供,硬件單元包括如上文所描述之一或多個處理器。
已描述該等技術之各種態樣。該等技術之此等及其他態樣在以下申請專利範圍之範疇內。
Claims (65)
- 一種解碼包括一輸送聲道之一位元串流之方法,該輸送聲道指定指示經編碼高階立體混響音訊資料之一或多個位元,該方法包含:自該位元串流之包括該輸送聲道之第一聲道旁側資訊資料的一第一訊框獲得指示該第一訊框是否為一獨立訊框之一或多個位元,該獨立訊框包括使得能夠在不參考該位元串流之包括該輸送聲道之第二聲道旁側資訊資料的一第二訊框之情況下解碼該第一訊框的額外參考資訊;及回應於指示該第一訊框並非一獨立訊框之該一或多個位元而獲得用於該輸送聲道之該第一聲道旁側資訊資料之預測資訊,該預測資訊用以參考該輸送聲道之該第二聲道旁側資訊資料解碼該輸送聲道之該第一聲道旁側資訊資料。
- 如請求項1之方法,其中指示該經編碼高階立體混響音訊資料之該一或多個位元包含指示表示一球諧域中之一正交空間軸線的一向量之一經寫碼元素的一或多個位元。
- 如請求項2之方法,其中該向量包含自該高階立體混響音訊資料分解之一V-向量。
- 如請求項2之方法,其中該預測資訊包含一或多個位元,該一或多個位元指示在該第一聲道旁側資訊資料中指定的該向量之該經寫碼元素之一值是否係自與該第二聲道旁側資訊資料相關聯的該向量之該經寫碼元素之一值所預測。
- 如請求項2之方法,其進一步包含回應於指示該第一訊框為一獨立訊框之該一或多個位元,設定該預測資訊以指示與該第一聲道旁側資訊資料相關聯的該向量之該經寫碼元素之該值並非係 參考與該第二聲道旁側資訊資料相關聯的該向量之該值所預測。
- 如請求項1之方法,其中該額外參考資訊包含指示一量化模式之一或多個位元,該量化模式用以編碼藉由該第一聲道旁側資訊資料指定之該高階立體混響音訊資料。
- 如請求項6之方法,其中指示該量化模式之該一或多個位元包含指示一未經霍夫曼寫碼之純量量化模式之一或多個位元。
- 如請求項6之方法,其中指示該量化模式之該一或多個位元包含指示經霍夫曼寫碼之純量量化模式之一或多個位元。
- 如請求項6之方法,其中指示該量化模式之該一或多個位元包含指示一向量量化模式之一或多個位元。
- 如請求項1之方法,其中該額外參考資訊包含用以編碼該高階立體混響資料之霍夫曼碼簿資訊。
- 如請求項1之方法,其中該額外參考資訊包含用以編碼該高階立體混響資料之向量量化碼簿資訊。
- 如請求項1之方法,其中該額外參考資訊包含在關於該高階立體混響資料執行向量量化時使用的向量之一數目。
- 如請求項1之方法,其進一步包含回應於指示該第一訊框並非一獨立訊框之該一或多個位元而進行以下操作:自該輸送聲道之該第一聲道旁側資訊資料獲得指示用以編碼該高階立體混響音訊資料之一量化模式之一最高有效位元及一次高有效位元;及當該最高有效位元及該次高有效位元之組合等於零時,將在該第一聲道旁側資訊資料中指定的用以編碼該高階立體混響資料之該量化模式設定為等於在該第二聲道旁側資訊資料中指定的用以編碼該高階立體混響資料之該量化模式。
- 如請求項1之方法,其進一步包含回應於指示該第一訊框並非一獨立訊框之該一或多個位元,自該輸送聲道之該第一聲道旁側資訊資料獲得指示用以編碼該高階立體混響音訊資料之一量化模式之一最高有效位元及一次高有效位元,其中獲得該預測資訊包含,當該最高有效位元及該次高有效位元之該組合等於零時,將在該第一聲道旁側資訊資料中指定的用以編碼該高階立體混響資料之該預測資訊設定為等於在該第二聲道旁側資訊資料中指定的用以編碼該高階立體混響資料之該預測模式。
- 如請求項1之方法,其進一步包含回應於指示該第一訊框並非一獨立訊框之該一或多個位元而進行以下操作:自該輸送聲道之該第一聲道旁側資訊資料獲得指示用以編碼該高階立體混響音訊資料之一量化模式之一最高有效位元及一次高有效位元;及當該最高有效位元及該次高有效位元之該組合等於零時,將在該第一聲道旁側資訊資料中指定的用以編碼該高階立體混響資料之該霍夫曼碼簿資訊設定為等於在該第二聲道旁側資訊資料中指定的用以編碼該高階立體混響資料之該量化模式。
- 如請求項1之方法,其進一步包含回應於指示該第一訊框並非一獨立訊框之該一或多個位元而進行以下操作:自該輸送聲道之該第一聲道旁側資訊資料獲得指示用以編碼該高階立體混響音訊資料之一量化模式之一最高有效位元及一次高有效位元;及當該最高有效位元及該次高有效位元之該組合等於零時,將在該第一聲道旁側資訊資料中指定的用以編碼該高階立體混響資料之該向量量化碼簿資訊設定為等於在該第二聲道旁側資訊 資料中指定的用以編碼該高階立體混響資料之該量化模式。
- 如請求項1之方法,其中該第二訊框在時間上在該第一訊框之前。
- 一種音訊解碼器件,其經組態以解碼包括一輸送聲道之一位元串流,該輸送聲道指定指示經編碼高階立體混響音訊資料之一或多個位元,該音訊解碼器件包含:一記憶體,其經組態以儲存該位元串流之包括該輸送聲道之第一聲道旁側資訊資料的一第一訊框,及該位元串流之包括該輸送聲道之第二聲道旁側資訊資料的一第二訊框;及一或多個處理器,其經組態以:自該第一訊框獲得指示該第一訊框是否為一獨立訊框之一或多個位元,該獨立訊框包括使得能夠在不參考該第二訊框之情況下解碼該第一訊框之額外參考資訊;及回應於指示該第一訊框並非一獨立訊框之該一或多個位元而獲得用於該輸送聲道之該第一聲道旁側資訊資料之預測資訊,該預測資訊用以參考該輸送聲道之該第二聲道旁側資訊資料解碼該輸送聲道之該第一聲道旁側資訊資料。
- 如請求項18之音訊解碼器件,其中指示該經編碼高階立體混響音訊資料之該一或多個位元包含指示表示一球諧域中之一正交空間軸線的一向量之一經寫碼元素的一或多個位元。
- 如請求項19之音訊解碼器件,其中該向量包含自該高階立體混響音訊資料分解之一V-向量。
- 如請求項19之音訊解碼器件,其中該預測資訊包含一或多個位元,該一或多個位元指示在該第一聲道旁側資訊資料中指定的該向量之該經寫碼元素之一值是否係自與該第二聲道旁側資訊資料相關聯的該向量之該經寫碼元素之一值所預測。
- 如請求項19之音訊解碼器件,其中該一或多個處理器經進一步 組態以回應於指示該第一訊框為一獨立訊框之該一或多個位元,設定該預測資訊以指示與該第一聲道旁側資訊資料相關聯的該向量之該經寫碼元素之該值並非係參考與該第二聲道旁側資訊資料相關聯的該向量之該值所預測。
- 如請求項18之音訊解碼器件,其中該額外參考資訊包含指示一量化模式之一或多個位元,該量化模式用以編碼藉由該第一聲道旁側資訊資料指定之該高階立體混響音訊資料。
- 如請求項23之音訊解碼器件,其中指示該量化模式之該一或多個位元包含指示一未經霍夫曼寫碼之純量量化模式之一或多個位元。
- 如請求項23之音訊解碼器件,其中指示該量化模式之該一或多個位元包含指示經霍夫曼寫碼之純量量化模式之一或多個位元。
- 如請求項23之音訊解碼器件,其中指示該量化模式之該一或多個位元包含指示一向量量化模式之一或多個位元。
- 如請求項18之音訊解碼器件,其中該額外參考資訊包含用以編碼該高階立體混響資料之霍夫曼碼簿資訊。
- 如請求項18之音訊解碼器件,其中該額外參考資訊包含用以編碼該高階立體混響資料之向量量化碼簿資訊。
- 如請求項18之音訊解碼器件,其中該額外參考資訊包含在關於該高階立體混響資料執行向量量化時使用的向量之一數目。
- 如請求項18之音訊解碼器件,其中該一或多個處理器經進一步組態以:回應於指示該第一訊框並非一獨立訊框之該一或多個位元,自該輸送聲道之該第一聲道旁側資訊資料獲得指示用以編碼該高階立體混響音訊資料之一量化模式之一最高有效位元及一次高有效位元;及當該最高有效位元及該次高有效位元之 組合等於零時,將在該第一聲道旁側資訊資料中指定的用以編碼該高階立體混響資料之該量化模式設定為等於在該第二聲道旁側資訊資料中指定的用以編碼該高階立體混響資料之該量化模式。
- 如請求項18之音訊解碼器件,其中該一或多個處理器經進一步組態以:回應於指示該第一訊框並非一獨立訊框之該一或多個位元,自該輸送聲道之該第一聲道旁側資訊資料獲得指示用以編碼該高階立體混響音訊資料之一量化模式之一最高有效位元及一次高有效位元;及當該最高有效位元及該次高有效位元之該組合等於零時,將在該第一聲道旁側資訊資料中指定的用以編碼該高階立體混響資料之該預測資訊設定為等於在該第二聲道旁側資訊資料中指定的用以編碼該高階立體混響資料之該預測模式。
- 如請求項18之音訊解碼器件,其中該一或多個處理器經進一步組態以:回應於指示該第一訊框並非一獨立訊框之該一或多個位元,自該輸送聲道之該第一聲道旁側資訊資料獲得指示用以編碼該高階立體混響音訊資料之一量化模式之一最高有效位元及一次高有效位元;及當該最高有效位元及該次高有效位元之該組合等於零時,將在該第一聲道旁側資訊資料中指定的用以編碼該高階立體混響資料之該霍夫曼碼簿資訊設定為等於在該第二聲道旁側資訊資料中指定的用以編碼該高階立體混響資料之該量化模式。
- 如請求項18之音訊解碼器件,其中該一或多個處理器經進一步組態以:回應於指示該第一訊框並非一獨立訊框之該一或多個位元,自該輸送聲道之該第一聲道旁側資訊資料獲得指示用以編碼該高階立體混響音訊資料之一量化模式之一最高有效位元 及一次高有效位元;及當該最高有效位元及該次高有效位元之該組合等於零時,將在該第一聲道旁側資訊資料中指定的用以編碼該高階立體混響資料之該向量量化碼簿資訊設定為等於在該第二聲道旁側資訊資料中指定的用以編碼該高階立體混響資料之該量化模式。
- 如請求項18之音訊解碼器件,其中該第二訊框在時間上在該第一訊框之前。
- 一種經組態以解碼一位元串流之音訊解碼器件,該音訊解碼器件包含:用於儲存包括一第一訊框之該位元串流之構件,該第一訊框包含表示一球諧域中之一正交空間軸線之一向量;及用於自該位元串流之一第一訊框獲得指示該第一訊框是否為一獨立訊框之一或多個位元的構件,該獨立訊框包括使得能夠在不參考該位元串流之一第二訊框之情況下解碼該向量的向量量化資訊。
- 如請求項35之音訊解碼器件,其進一步包含用於在該一或多個位元指示該第一訊框為一獨立訊框時自該位元串流獲得該向量量化資訊之構件。
- 如請求項36之音訊解碼器件,其中該向量量化資訊並不包括指示是否使用經預測之向量量化將該向量量化之預測資訊。
- 如請求項36之音訊解碼器件,其進一步包含用於在該一或多個位元指示該第一訊框為一獨立訊框時設定預測資訊以指示並不關於該向量執行經預測之向量解量化的構件。
- 如請求項35之音訊解碼器件,其進一步包含用於在該一或多個位元指示該第一訊框並非一獨立訊框時自該向量量化資訊獲得預測資訊之構件,該預測資訊指示是否使用經預測之向量量化 將該向量量化。
- 如請求項35之音訊解碼器件,其進一步包含:用於在該一或多個位元指示該第一訊框並非一獨立訊框時自該向量量化資訊獲得預測資訊之構件,該預測資訊指示是否使用經預測之向量量化將該向量量化;及用於在該預測資訊指示使用經預測之向量量化將該向量量化時關於該向量執行經預測之向量解量化的構件。
- 如請求項35之音訊解碼器件,其進一步包含用於自該向量量化資訊獲得碼簿資訊之構件,該碼簿資訊指示用以將該向量向量量化之一碼簿。
- 如請求項35之音訊解碼器件,其進一步包含:用於自該向量量化資訊獲得碼簿資訊之構件,該碼簿資訊指示用以將該向量向量量化之一碼簿;及用於使用藉由該碼簿資訊指示之該碼簿關於該向量執行向量量化之構件。
- 一種非暫時性電腦可讀儲存媒體,其具有儲存於其上之指令,該等指令在經執行時使得一或多個處理器進行以下操作:自一位元串流之包括一輸送聲道之第一聲道旁側資訊資料的一第一訊框獲得指示該第一訊框是否為一獨立訊框之一或多個位元,該獨立訊框包括使得能夠在不參考該位元串流之包括該輸送聲道之第二聲道旁側資訊資料的一第二訊框之情況下解碼該第一訊框的額外參考資訊;及回應於指示該第一訊框並非一獨立訊框之該一或多個位元而獲得用於該輸送聲道之該第一聲道旁側資訊資料之預測資訊,該預測資訊用以參考該輸送聲道之該第二聲道旁側資訊資料解碼該輸送聲道之該第一聲道旁側資訊資料。
- 一種編碼高階環境係數以獲得包括一輸送聲道之一位元串流的方法,該輸送聲道指定指示經編碼高階立體混響音訊資料之一或多個位元,該方法包含:在該位元串流之包括該輸送聲道之第一聲道旁側資訊資料的一第一訊框中指定指示該第一訊框是否為一獨立訊框之一或多個位元,該獨立訊框包括使得能夠在不參考該位元串流之包括該輸送聲道之第二聲道旁側資訊資料的一第二訊框之情況下解碼該第一訊框的額外參考資訊;及回應於指示該第一訊框並非一獨立訊框之該一或多個位元而指定用於該輸送聲道之該第一聲道旁側資訊資料的預測資訊,該預測資訊用以參考該輸送聲道之該第二聲道旁側資訊資料解碼該輸送聲道之該第一聲道旁側資訊資料。
- 如請求項44之方法,其中指示該經編碼高階立體混響音訊資料之該一或多個位元包含指示表示一球諧域中之一正交空間軸線的一向量之一經寫碼元素的一或多個位元。
- 如請求項45之方法,其中該向量包含自該高階立體混響音訊資料分解之一V-向量。
- 如請求項45之方法,其中該預測資訊包含一或多個位元,該一或多個位元指示在該第一聲道旁側資訊資料中指定的該向量之該經寫碼元素之一值是否係自在該第二聲道旁側資訊資料中指定的該向量之該經寫碼元素之一值所預測。
- 如請求項45之方法,其進一步包含回應於指示該第一訊框為一獨立訊框之該一或多個位元,設定:該第一聲道旁側資訊資料的該向量之該經寫碼元素之該值並非係參考該第二聲道旁側資訊資料的該向量之該經寫碼元素之該值所預測。
- 如請求項44之方法,其中該額外參考資訊包含指示藉由該第一 聲道旁側資訊資料指定的用以編碼該高階立體混響音訊資料之一量化模式之一或多個位元,指示該量化模式之該一或多個位元包含以下各者中之一者:1)指示一未經霍夫曼寫碼之純量量化模式之一或多個位元、2)指示經霍夫曼寫碼之純量量化模式之一或多個位元,或3)指示一向量量化模式之一或多個位元。
- 如請求項44之方法,其中該額外參考資訊包含以下各者中之一者:1)用以編碼該高階立體混響資料之霍夫曼碼簿資訊,或2)用以編碼該高階立體混響資料之向量量化資訊。
- 如請求項44之方法,其中該額外參考資訊包含在關於該高階立體混響資料執行向量量化時使用的向量之一數目。
- 一種音訊編碼器件,其經組態以編碼高階環境係數以獲得包括一輸送聲道之一位元串流,該輸送聲道指定指示經編碼高階立體混響音訊資料之一或多個位元,該音訊編碼器件包含:一記憶體,其經組態以儲存該位元串流;及一或多個處理器,其經組態以:在該位元串流之包括該輸送聲道之第一聲道旁側資訊資料的一第一訊框中指定指示該第一訊框是否為一獨立訊框之一或多個位元,該獨立訊框包括使得能夠在不參考該位元串流之包括該輸送聲道之第二聲道旁側資訊資料的一第二訊框之情況下解碼該第一訊框的額外參考資訊;及回應於指示該第一訊框並非一獨立訊框之該一或多個位元而指定用於該輸送聲道之該第一聲道旁側資訊資料的預測資訊,該預測資訊用以參考該輸送聲道之該第二聲道旁側資訊資料解碼該輸送聲道之該第一聲道旁側資訊資料。
- 如請求項52之音訊編碼器件,其中指示該經編碼高階立體混響音訊資料之該一或多個位元包含指示表示一球諧域中之一正交空間軸線的一向量之一經寫碼元素的一或多個位元。
- 如請求項53之音訊編碼器件,其中該向量包含自該高階立體混響音訊資料分解之一V-向量。
- 如請求項53之音訊編碼器件,其中該預測資訊包含一或多個位元,該一或多個位元指示在該第一聲道旁側資訊資料中指定的該向量之該經寫碼元素之一值是否係自在該第二聲道旁側資訊資料中指定的該向量之該經寫碼元素之一值所預測。
- 如請求項53之音訊編碼器件,其中該一或多個處理器經進一步組態以回應於指示該第一訊框為一獨立訊框之該一或多個位元,設定:該第一聲道旁側資訊資料的該向量之該經寫碼元素之該值並非係參考該第二聲道旁側資訊資料的該向量之該經寫碼元素之該值所預測。
- 如請求項52之音訊編碼器件,其中該額外參考資訊包含指示藉由該第一聲道旁側資訊資料指定的用以編碼該高階立體混響音訊資料之一量化模式之一或多個位元,指示該量化模式之該一或多個位元包含以下各者中之一者:1)指示一未經霍夫曼寫碼之純量量化模式之一或多個位元、2)指示經霍夫曼寫碼之純量量化模式之一或多個位元,或3)指示一向量量化模式之一或多個位元。
- 如請求項52之音訊編碼器件,其中該額外參考資訊包含以下各者中之一者:1)用以編碼該高階立體混響資料之霍夫曼碼簿資訊,或2)用以編碼該高階立體混響資料之向量量化資訊。
- 如請求項52之方法,其中該額外參考資訊包含在關於該高階立體混響資料執行向量量化時使用的向量之一數目。
- 一種音訊編碼器件,其經組態以編碼高階環境音訊資料以獲得一位元串流,該音訊編碼器件包含:用於儲存包括一第一訊框之該位元串流之構件,該第一訊框 包含表示一球諧域中之一正交空間軸線之一向量;及用於自該位元串流之該第一訊框獲得指示該第一訊框是否為一獨立訊框之一或多個位元的構件,該獨立訊框包括使得能夠在不參考該位元串流之一第二訊框之情況下解碼該向量的向量量化資訊。
- 如請求項60之音訊編碼器件,其進一步包含用於在該一或多個位元指示該第一訊框為一獨立訊框時自該位元串流指定該向量量化資訊的構件。
- 如請求項61之音訊編碼器件,其中該向量量化資訊並不包括指示是否使用經預測之向量量化將向量量化之預測資訊。
- 如請求項61之音訊編碼器件,其進一步包含用於在該一或多個位元指示該第一訊框為一獨立訊框時設定預測資訊以指示並不關於該向量執行經預測之向量解量化的構件。
- 如請求項60之音訊編碼器件,其進一步包含用於在該一或多個位元指示該第一訊框並非一獨立訊框時設定用於該向量量化資訊之預測資訊的構件,該預測資訊指示是否使用經預測之向量量化將該向量量化。
- 一種非暫時性電腦可讀儲存媒體,其具有儲存於其上之指令,該等指令在經執行時使得一或多個處理器進行以下操作:在一位元串流之包括一輸送聲道之第一聲道旁側資訊資料的一第一訊框中指定指示該第一訊框是否為一獨立訊框之一或多個位元,該獨立訊框包括使得能夠在不參考該位元串流之包括該輸送聲道之第二聲道旁側資訊資料的一第二訊框之情況下解碼該第一訊框的額外參考資訊;及回應於指示該第一訊框並非一獨立訊框之該一或多個位元而指定用於該輸送聲道之該第一聲道旁側資訊資料之預測資訊, 該預測資訊用以參考該輸送聲道之該第二聲道旁側資訊資料解碼該輸送聲道之該第一聲道旁側資訊資料。
Applications Claiming Priority (18)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201461933706P | 2014-01-30 | 2014-01-30 | |
US201461933731P | 2014-01-30 | 2014-01-30 | |
US201461933714P | 2014-01-30 | 2014-01-30 | |
US201461949591P | 2014-03-07 | 2014-03-07 | |
US201461949583P | 2014-03-07 | 2014-03-07 | |
US201461994794P | 2014-05-16 | 2014-05-16 | |
US201462004147P | 2014-05-28 | 2014-05-28 | |
US201462004128P | 2014-05-28 | 2014-05-28 | |
US201462004067P | 2014-05-28 | 2014-05-28 | |
US201462019663P | 2014-07-01 | 2014-07-01 | |
US201462027702P | 2014-07-22 | 2014-07-22 | |
US201462028282P | 2014-07-23 | 2014-07-23 | |
US201462029173P | 2014-07-25 | 2014-07-25 | |
US201462032440P | 2014-08-01 | 2014-08-01 | |
US201462056286P | 2014-09-26 | 2014-09-26 | |
US201462056248P | 2014-09-26 | 2014-09-26 | |
US201562102243P | 2015-01-12 | 2015-01-12 | |
US14/609,208 US9502045B2 (en) | 2014-01-30 | 2015-01-29 | Coding independent frames of ambient higher-order ambisonic coefficients |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201535354A true TW201535354A (zh) | 2015-09-16 |
TWI603322B TWI603322B (zh) | 2017-10-21 |
Family
ID=53679595
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW104103381A TWI595479B (zh) | 2014-01-30 | 2015-01-30 | 指示用於寫碼向量之訊框參數可重用性 |
TW104103380A TWI603322B (zh) | 2014-01-30 | 2015-01-30 | 解碼包括一輸送聲道之一位元串流之方法、音訊解碼器件、非暫時性電腦可讀儲存媒體、編碼高階環境係數以獲得包括一輸送聲道之一位元串流的方法及音訊編碼器件 |
TW106124181A TWI618052B (zh) | 2014-01-30 | 2015-01-30 | 解碼包括一輸送聲道之一位元串流之方法、音訊解碼器件、非暫時性電腦可讀儲存媒體、編碼高階環境係數以獲得包括一輸送聲道之一位元串流的方法及音訊編碼器件 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW104103381A TWI595479B (zh) | 2014-01-30 | 2015-01-30 | 指示用於寫碼向量之訊框參數可重用性 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106124181A TWI618052B (zh) | 2014-01-30 | 2015-01-30 | 解碼包括一輸送聲道之一位元串流之方法、音訊解碼器件、非暫時性電腦可讀儲存媒體、編碼高階環境係數以獲得包括一輸送聲道之一位元串流的方法及音訊編碼器件 |
Country Status (19)
Country | Link |
---|---|
US (6) | US9502045B2 (zh) |
EP (2) | EP3100265B1 (zh) |
JP (5) | JP6208373B2 (zh) |
KR (3) | KR101798811B1 (zh) |
CN (4) | CN110827840B (zh) |
AU (1) | AU2015210791B2 (zh) |
BR (2) | BR112016017589B1 (zh) |
CA (2) | CA2933901C (zh) |
CL (1) | CL2016001898A1 (zh) |
ES (1) | ES2922451T3 (zh) |
HK (1) | HK1224073A1 (zh) |
MX (1) | MX350783B (zh) |
MY (1) | MY176805A (zh) |
PH (1) | PH12016501506B1 (zh) |
RU (1) | RU2689427C2 (zh) |
SG (1) | SG11201604624TA (zh) |
TW (3) | TWI595479B (zh) |
WO (2) | WO2015116949A2 (zh) |
ZA (1) | ZA201605973B (zh) |
Families Citing this family (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9667959B2 (en) | 2013-03-29 | 2017-05-30 | Qualcomm Incorporated | RTP payload format designs |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
US9502044B2 (en) | 2013-05-29 | 2016-11-22 | Qualcomm Incorporated | Compression of decomposed representations of a sound field |
US9502045B2 (en) | 2014-01-30 | 2016-11-22 | Qualcomm Incorporated | Coding independent frames of ambient higher-order ambisonic coefficients |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
KR102428794B1 (ko) | 2014-03-21 | 2022-08-04 | 돌비 인터네셔널 에이비 | 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치 |
EP2922057A1 (en) * | 2014-03-21 | 2015-09-23 | Thomson Licensing | Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US9620137B2 (en) | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9736606B2 (en) | 2014-08-01 | 2017-08-15 | Qualcomm Incorporated | Editing of higher-order ambisonic audio data |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
US20160093308A1 (en) * | 2014-09-26 | 2016-03-31 | Qualcomm Incorporated | Predictive vector quantization techniques in a higher order ambisonics (hoa) framework |
US9961467B2 (en) | 2015-10-08 | 2018-05-01 | Qualcomm Incorporated | Conversion from channel-based audio to HOA |
UA123399C2 (uk) * | 2015-10-08 | 2021-03-31 | Долбі Інтернешнл Аб | Багаторівневе кодування стиснених представлень звуку або звукового поля |
US10249312B2 (en) * | 2015-10-08 | 2019-04-02 | Qualcomm Incorporated | Quantization of spatial vectors |
CN108140392B (zh) * | 2015-10-08 | 2023-04-18 | 杜比国际公司 | 用于压缩声音或声场表示的分层编解码 |
US9961475B2 (en) | 2015-10-08 | 2018-05-01 | Qualcomm Incorporated | Conversion from object-based audio to HOA |
US9959880B2 (en) * | 2015-10-14 | 2018-05-01 | Qualcomm Incorporated | Coding higher-order ambisonic coefficients during multiple transitions |
US10142755B2 (en) * | 2016-02-18 | 2018-11-27 | Google Llc | Signal processing methods and systems for rendering audio on virtual loudspeaker arrays |
US10108359B2 (en) * | 2016-10-20 | 2018-10-23 | Avago Technologies General Ip (Singapore) Pte. Ltd. | Method and system for efficient cache buffering in a system having parity arms to enable hardware acceleration |
US10891962B2 (en) | 2017-03-06 | 2021-01-12 | Dolby International Ab | Integrated reconstruction and rendering of audio signals |
JP7055595B2 (ja) * | 2017-03-29 | 2022-04-18 | 古河機械金属株式会社 | Iii族窒化物半導体基板、及び、iii族窒化物半導体基板の製造方法 |
US20180338212A1 (en) * | 2017-05-18 | 2018-11-22 | Qualcomm Incorporated | Layered intermediate compression for higher order ambisonic audio data |
US10075802B1 (en) | 2017-08-08 | 2018-09-11 | Qualcomm Incorporated | Bitrate allocation for higher order ambisonic audio data |
US11070831B2 (en) * | 2017-11-30 | 2021-07-20 | Lg Electronics Inc. | Method and device for processing video signal |
US10999693B2 (en) | 2018-06-25 | 2021-05-04 | Qualcomm Incorporated | Rendering different portions of audio data using different renderers |
CN109101315B (zh) * | 2018-07-04 | 2021-11-19 | 上海理工大学 | 基于包簇框架的云数据中心资源分配方法 |
DE112019004193T5 (de) * | 2018-08-21 | 2021-07-15 | Sony Corporation | Audiowiedergabevorrichtung, audiowiedergabeverfahren und audiowiedergabeprogramm |
CN112740325B (zh) | 2018-08-21 | 2024-04-16 | 杜比国际公司 | 即时播放帧(ipf)的生成、传输及处理的方法、设备及系统 |
GB2577698A (en) * | 2018-10-02 | 2020-04-08 | Nokia Technologies Oy | Selection of quantisation schemes for spatial audio parameter encoding |
CA3122164C (en) | 2018-12-07 | 2024-01-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using diffuse compensation |
US20200402523A1 (en) * | 2019-06-24 | 2020-12-24 | Qualcomm Incorporated | Psychoacoustic audio coding of ambisonic audio data |
TW202123220A (zh) | 2019-10-30 | 2021-06-16 | 美商杜拜研究特許公司 | 使用方向性元資料之多通道音頻編碼及解碼 |
US10904690B1 (en) * | 2019-12-15 | 2021-01-26 | Nuvoton Technology Corporation | Energy and phase correlated audio channels mixer |
GB2590650A (en) * | 2019-12-23 | 2021-07-07 | Nokia Technologies Oy | The merging of spatial audio parameters |
CN116348951A (zh) * | 2020-07-30 | 2023-06-27 | 弗劳恩霍夫应用研究促进协会 | 用于编码音频信号或用于解码经编码音频场景的设备、方法及计算机程序 |
CN111915533B (zh) * | 2020-08-10 | 2023-12-01 | 上海金桥信息股份有限公司 | 一种基于低动态范围的高精图像信息提取方法 |
US11743670B2 (en) | 2020-12-18 | 2023-08-29 | Qualcomm Incorporated | Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications |
CN115346537A (zh) * | 2021-05-14 | 2022-11-15 | 华为技术有限公司 | 一种音频编码、解码方法及装置 |
Family Cites Families (144)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT1159034B (it) | 1983-06-10 | 1987-02-25 | Cselt Centro Studi Lab Telecom | Sintetizzatore vocale |
US5012518A (en) | 1989-07-26 | 1991-04-30 | Itt Corporation | Low-bit-rate speech coder using LPC data reduction processing |
EP0520068B1 (en) | 1991-01-08 | 1996-05-15 | Dolby Laboratories Licensing Corporation | Encoder/decoder for multidimensional sound fields |
US5757927A (en) | 1992-03-02 | 1998-05-26 | Trifield Productions Ltd. | Surround sound apparatus |
US5790759A (en) | 1995-09-19 | 1998-08-04 | Lucent Technologies Inc. | Perceptual noise masking measure based on synthesis filter frequency response |
US5819215A (en) | 1995-10-13 | 1998-10-06 | Dobson; Kurt | Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data |
JP3849210B2 (ja) | 1996-09-24 | 2006-11-22 | ヤマハ株式会社 | 音声符号化復号方式 |
US5821887A (en) | 1996-11-12 | 1998-10-13 | Intel Corporation | Method and apparatus for decoding variable length codes |
US6167375A (en) | 1997-03-17 | 2000-12-26 | Kabushiki Kaisha Toshiba | Method for encoding and decoding a speech signal including background noise |
US6263312B1 (en) | 1997-10-03 | 2001-07-17 | Alaris, Inc. | Audio compression and decompression employing subband decomposition of residual signal and distortion reduction |
AUPP272698A0 (en) | 1998-03-31 | 1998-04-23 | Lake Dsp Pty Limited | Soundfield playback from a single speaker system |
EP1018840A3 (en) | 1998-12-08 | 2005-12-21 | Canon Kabushiki Kaisha | Digital receiving apparatus and method |
US6370502B1 (en) | 1999-05-27 | 2002-04-09 | America Online, Inc. | Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec |
US6782360B1 (en) * | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
US20020049586A1 (en) | 2000-09-11 | 2002-04-25 | Kousuke Nishio | Audio encoder, audio decoder, and broadcasting system |
JP2002094989A (ja) | 2000-09-14 | 2002-03-29 | Pioneer Electronic Corp | ビデオ信号符号化装置及びビデオ信号符号化方法 |
US20020169735A1 (en) | 2001-03-07 | 2002-11-14 | David Kil | Automatic mapping from data to preprocessing algorithms |
GB2379147B (en) | 2001-04-18 | 2003-10-22 | Univ York | Sound processing |
US20030147539A1 (en) | 2002-01-11 | 2003-08-07 | Mh Acoustics, Llc, A Delaware Corporation | Audio system based on at least second-order eigenbeams |
US7262770B2 (en) | 2002-03-21 | 2007-08-28 | Microsoft Corporation | Graphics image rendering with radiance self-transfer for low-frequency lighting environments |
US8160269B2 (en) | 2003-08-27 | 2012-04-17 | Sony Computer Entertainment Inc. | Methods and apparatuses for adjusting a listening area for capturing sounds |
ATE543179T1 (de) | 2002-09-04 | 2012-02-15 | Microsoft Corp | Entropische kodierung mittels anpassung des kodierungsmodus zwischen niveau- und lauflängenniveau-modus |
FR2844894B1 (fr) | 2002-09-23 | 2004-12-17 | Remy Henri Denis Bruno | Procede et systeme de traitement d'une representation d'un champ acoustique |
US6961696B2 (en) * | 2003-02-07 | 2005-11-01 | Motorola, Inc. | Class quantization for distributed speech recognition |
US7920709B1 (en) | 2003-03-25 | 2011-04-05 | Robert Hickling | Vector sound-intensity probes operating in a half-space |
JP2005086486A (ja) | 2003-09-09 | 2005-03-31 | Alpine Electronics Inc | オーディオ装置およびオーディオ処理方法 |
US7433815B2 (en) | 2003-09-10 | 2008-10-07 | Dilithium Networks Pty Ltd. | Method and apparatus for voice transcoding between variable rate coders |
KR100556911B1 (ko) * | 2003-12-05 | 2006-03-03 | 엘지전자 주식회사 | 무선 동영상 스트리밍 서비스를 위한 동영상 데이터의 구조 |
US7283634B2 (en) | 2004-08-31 | 2007-10-16 | Dts, Inc. | Method of mixing audio channels using correlated outputs |
US7630902B2 (en) * | 2004-09-17 | 2009-12-08 | Digital Rise Technology Co., Ltd. | Apparatus and methods for digital audio coding using codebook application ranges |
FR2880755A1 (fr) | 2005-01-10 | 2006-07-14 | France Telecom | Procede et dispositif d'individualisation de hrtfs par modelisation |
KR100636229B1 (ko) * | 2005-01-14 | 2006-10-19 | 학교법인 성균관대학 | 신축형 부호화를 위한 적응적 엔트로피 부호화 및 복호화방법과 그 장치 |
US7271747B2 (en) | 2005-05-10 | 2007-09-18 | Rice University | Method and apparatus for distributed compressed sensing |
ATE378793T1 (de) | 2005-06-23 | 2007-11-15 | Akg Acoustics Gmbh | Methode zur modellierung eines mikrofons |
US8510105B2 (en) | 2005-10-21 | 2013-08-13 | Nokia Corporation | Compression and decompression of data vectors |
WO2007048900A1 (fr) | 2005-10-27 | 2007-05-03 | France Telecom | Individualisation de hrtfs utilisant une modelisation par elements finis couplee a un modele correctif |
US8190425B2 (en) | 2006-01-20 | 2012-05-29 | Microsoft Corporation | Complex cross-correlation parameters for multi-channel audio |
US8379868B2 (en) | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
US8712061B2 (en) | 2006-05-17 | 2014-04-29 | Creative Technology Ltd | Phase-amplitude 3-D stereo encoder and decoder |
US8345899B2 (en) | 2006-05-17 | 2013-01-01 | Creative Technology Ltd | Phase-amplitude matrixed surround decoder |
US20080004729A1 (en) | 2006-06-30 | 2008-01-03 | Nokia Corporation | Direct encoding into a directional audio coding format |
DE102006053919A1 (de) | 2006-10-11 | 2008-04-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen einer Anzahl von Lautsprechersignalen für ein Lautsprecher-Array, das einen Wiedergaberaum definiert |
US7663623B2 (en) | 2006-12-18 | 2010-02-16 | Microsoft Corporation | Spherical harmonics scaling |
JP2008227946A (ja) * | 2007-03-13 | 2008-09-25 | Toshiba Corp | 画像復号装置 |
US9015051B2 (en) | 2007-03-21 | 2015-04-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Reconstruction of audio channels with direction parameters indicating direction of origin |
US8908873B2 (en) | 2007-03-21 | 2014-12-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and apparatus for conversion between multi-channel audio formats |
WO2008127536A2 (en) * | 2007-04-12 | 2008-10-23 | Thomson Licensing | Methods and apparatus for video usability information (vui) for scalable video coding (svc) |
US7885819B2 (en) | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
WO2009007639A1 (fr) | 2007-07-03 | 2009-01-15 | France Telecom | Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe |
CN101884065B (zh) | 2007-10-03 | 2013-07-10 | 创新科技有限公司 | 用于双耳再现和格式转换的空间音频分析和合成的方法 |
JP5419714B2 (ja) | 2008-01-16 | 2014-02-19 | パナソニック株式会社 | ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法 |
EP2094032A1 (en) * | 2008-02-19 | 2009-08-26 | Deutsche Thomson OHG | Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same |
RU2565008C2 (ru) | 2008-03-10 | 2015-10-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство и метод для обработки аудио сигнала, содержащего переходный сигнал |
US8219409B2 (en) | 2008-03-31 | 2012-07-10 | Ecole Polytechnique Federale De Lausanne | Audio wave field encoding |
EP2287836B1 (en) | 2008-05-30 | 2014-10-15 | Panasonic Intellectual Property Corporation of America | Encoder and encoding method |
CN102089634B (zh) | 2008-07-08 | 2012-11-21 | 布鲁尔及凯尔声音及振动测量公司 | 重建声学场 |
EP2169670B1 (en) * | 2008-09-25 | 2016-07-20 | LG Electronics Inc. | An apparatus for processing an audio signal and method thereof |
GB0817950D0 (en) | 2008-10-01 | 2008-11-05 | Univ Southampton | Apparatus and method for sound reproduction |
JP5697301B2 (ja) | 2008-10-01 | 2015-04-08 | 株式会社Nttドコモ | 動画像符号化装置、動画像復号装置、動画像符号化方法、動画像復号方法、動画像符号化プログラム、動画像復号プログラム、及び動画像符号化・復号システム |
US8207890B2 (en) | 2008-10-08 | 2012-06-26 | Qualcomm Atheros, Inc. | Providing ephemeris data and clock corrections to a satellite navigation system receiver |
US8391500B2 (en) | 2008-10-17 | 2013-03-05 | University Of Kentucky Research Foundation | Method and system for creating three-dimensional spatial audio |
FR2938688A1 (fr) | 2008-11-18 | 2010-05-21 | France Telecom | Codage avec mise en forme du bruit dans un codeur hierarchique |
EP2374123B1 (fr) | 2008-12-15 | 2019-04-10 | Orange | Codage perfectionne de signaux audionumeriques multicanaux |
EP2374124B1 (fr) | 2008-12-15 | 2013-05-29 | France Telecom | Codage perfectionne de signaux audionumériques multicanaux |
EP2205007B1 (en) | 2008-12-30 | 2019-01-09 | Dolby International AB | Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction |
GB2476747B (en) | 2009-02-04 | 2011-12-21 | Richard Furse | Sound system |
EP2237270B1 (en) | 2009-03-30 | 2012-07-04 | Nuance Communications, Inc. | A method for determining a noise reference signal for noise compensation and/or noise reduction |
GB0906269D0 (en) | 2009-04-09 | 2009-05-20 | Ntnu Technology Transfer As | Optimal modal beamformer for sensor arrays |
WO2011022027A2 (en) | 2009-05-08 | 2011-02-24 | University Of Utah Research Foundation | Annular thermoacoustic energy converter |
CN102227696B (zh) | 2009-05-21 | 2014-09-24 | 松下电器产业株式会社 | 触感处理装置 |
ES2690164T3 (es) | 2009-06-25 | 2018-11-19 | Dts Licensing Limited | Dispositivo y método para convertir una señal de audio espacial |
WO2011041834A1 (en) | 2009-10-07 | 2011-04-14 | The University Of Sydney | Reconstruction of a recorded sound field |
WO2011044898A1 (en) * | 2009-10-15 | 2011-04-21 | Widex A/S | Hearing aid with audio codec and method |
PL2491555T3 (pl) * | 2009-10-20 | 2014-08-29 | Fraunhofer Ges Forschung | Wielotrybowy kodek audio |
EP2510515B1 (en) | 2009-12-07 | 2014-03-19 | Dolby Laboratories Licensing Corporation | Decoding of multichannel audio encoded bit streams using adaptive hybrid transformation |
CN102104452B (zh) | 2009-12-22 | 2013-09-11 | 华为技术有限公司 | 信道状态信息反馈方法、信道状态信息获得方法及设备 |
TWI557723B (zh) * | 2010-02-18 | 2016-11-11 | 杜比實驗室特許公司 | 解碼方法及系統 |
WO2011104463A1 (fr) | 2010-02-26 | 2011-09-01 | France Telecom | Compression de flux audio multicanal |
AU2011226143B9 (en) | 2010-03-10 | 2015-03-19 | Dolby International Ab | Audio signal decoder, audio signal encoder, method for decoding an audio signal, method for encoding an audio signal and computer program using a pitch-dependent adaptation of a coding context |
AU2011231565B2 (en) | 2010-03-26 | 2014-08-28 | Dolby International Ab | Method and device for decoding an audio soundfield representation for audio playback |
JP5850216B2 (ja) * | 2010-04-13 | 2016-02-03 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
US9053697B2 (en) | 2010-06-01 | 2015-06-09 | Qualcomm Incorporated | Systems, methods, devices, apparatus, and computer program products for audio equalization |
US9357229B2 (en) * | 2010-07-28 | 2016-05-31 | Qualcomm Incorporated | Coding motion vectors in video coding |
NZ587483A (en) | 2010-08-20 | 2012-12-21 | Ind Res Ltd | Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions |
WO2012025580A1 (en) | 2010-08-27 | 2012-03-01 | Sonicemotion Ag | Method and device for enhanced sound field reproduction of spatially encoded audio input signals |
US9084049B2 (en) | 2010-10-14 | 2015-07-14 | Dolby Laboratories Licensing Corporation | Automatic equalization using adaptive frequency-domain filtering and dynamic fast convolution |
US9552840B2 (en) | 2010-10-25 | 2017-01-24 | Qualcomm Incorporated | Three-dimensional sound capturing and reproducing with multi-microphones |
EP2450880A1 (en) * | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
KR101401775B1 (ko) | 2010-11-10 | 2014-05-30 | 한국전자통신연구원 | 스피커 어레이 기반 음장 합성을 이용한 음장 재생 장치 및 방법 |
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
FR2969805A1 (fr) * | 2010-12-23 | 2012-06-29 | France Telecom | Codage bas retard alternant codage predictif et codage par transformee |
US20120163622A1 (en) | 2010-12-28 | 2012-06-28 | Stmicroelectronics Asia Pacific Pte Ltd | Noise detection and reduction in audio devices |
US8809663B2 (en) | 2011-01-06 | 2014-08-19 | Hank Risan | Synthetic simulation of a media recording |
US9008176B2 (en) * | 2011-01-22 | 2015-04-14 | Qualcomm Incorporated | Combined reference picture list construction for video coding |
US20120189052A1 (en) * | 2011-01-24 | 2012-07-26 | Qualcomm Incorporated | Signaling quantization parameter changes for coded units in high efficiency video coding (hevc) |
CA2833868C (en) | 2011-04-21 | 2019-08-20 | Samsung Electronics Co., Ltd. | Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor |
EP2541547A1 (en) | 2011-06-30 | 2013-01-02 | Thomson Licensing | Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation |
US8548803B2 (en) | 2011-08-08 | 2013-10-01 | The Intellisis Corporation | System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain |
US9641951B2 (en) | 2011-08-10 | 2017-05-02 | The Johns Hopkins University | System and method for fast binaural rendering of complex acoustic scenes |
EP2560161A1 (en) | 2011-08-17 | 2013-02-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Optimal mixing matrices and usage of decorrelators in spatial audio processing |
EP2592845A1 (en) | 2011-11-11 | 2013-05-15 | Thomson Licensing | Method and Apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field |
EP2592846A1 (en) | 2011-11-11 | 2013-05-15 | Thomson Licensing | Method and apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field |
US9584912B2 (en) | 2012-01-19 | 2017-02-28 | Koninklijke Philips N.V. | Spatial audio rendering and encoding |
EP2665208A1 (en) | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
US9190065B2 (en) | 2012-07-15 | 2015-11-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients |
US9288603B2 (en) | 2012-07-15 | 2016-03-15 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding |
KR102201034B1 (ko) | 2012-07-16 | 2021-01-11 | 돌비 인터네셔널 에이비 | 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치 |
EP2688066A1 (en) | 2012-07-16 | 2014-01-22 | Thomson Licensing | Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction |
US9473870B2 (en) | 2012-07-16 | 2016-10-18 | Qualcomm Incorporated | Loudspeaker position compensation with 3D-audio hierarchical coding |
EP2688065A1 (en) * | 2012-07-16 | 2014-01-22 | Thomson Licensing | Method and apparatus for avoiding unmasking of coding noise when mixing perceptually coded multi-channel audio signals |
KR102201713B1 (ko) | 2012-07-19 | 2021-01-12 | 돌비 인터네셔널 에이비 | 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스 |
US9479886B2 (en) | 2012-07-20 | 2016-10-25 | Qualcomm Incorporated | Scalable downmix design with feedback for object-based surround codec |
US9761229B2 (en) | 2012-07-20 | 2017-09-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for audio object clustering |
JP5967571B2 (ja) | 2012-07-26 | 2016-08-10 | 本田技研工業株式会社 | 音響信号処理装置、音響信号処理方法、及び音響信号処理プログラム |
PL2915166T3 (pl) | 2012-10-30 | 2019-04-30 | Nokia Technologies Oy | Sposób i urządzenie do kwantyzacji odpornego wektora |
US9336771B2 (en) | 2012-11-01 | 2016-05-10 | Google Inc. | Speech recognition using non-parametric models |
EP2743922A1 (en) | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
US9913064B2 (en) | 2013-02-07 | 2018-03-06 | Qualcomm Incorporated | Mapping virtual speakers to physical speakers |
US9883310B2 (en) | 2013-02-08 | 2018-01-30 | Qualcomm Incorporated | Obtaining symmetry information for higher order ambisonic audio renderers |
EP2765791A1 (en) | 2013-02-08 | 2014-08-13 | Thomson Licensing | Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field |
US9609452B2 (en) | 2013-02-08 | 2017-03-28 | Qualcomm Incorporated | Obtaining sparseness information for higher order ambisonic audio renderers |
US10178489B2 (en) | 2013-02-08 | 2019-01-08 | Qualcomm Incorporated | Signaling audio rendering information in a bitstream |
US9338420B2 (en) | 2013-02-15 | 2016-05-10 | Qualcomm Incorporated | Video analysis assisted generation of multi-channel audio data |
US9959875B2 (en) | 2013-03-01 | 2018-05-01 | Qualcomm Incorporated | Specifying spherical harmonic and/or higher order ambisonics coefficients in bitstreams |
BR112015021520B1 (pt) | 2013-03-05 | 2021-07-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V | Aparelho e método para criar um ou mais sinais do canal de saída de áudio dependendo de dois ou mais sinais do canal de entrada de áudio |
US9197962B2 (en) | 2013-03-15 | 2015-11-24 | Mh Acoustics Llc | Polyhedral audio system based on at least second-order eigenbeams |
US9170386B2 (en) | 2013-04-08 | 2015-10-27 | Hon Hai Precision Industry Co., Ltd. | Opto-electronic device assembly |
EP2800401A1 (en) | 2013-04-29 | 2014-11-05 | Thomson Licensing | Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation |
US9502044B2 (en) | 2013-05-29 | 2016-11-22 | Qualcomm Incorporated | Compression of decomposed representations of a sound field |
US9384741B2 (en) | 2013-05-29 | 2016-07-05 | Qualcomm Incorporated | Binauralization of rotated higher order ambisonics |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
CN105264595B (zh) * | 2013-06-05 | 2019-10-01 | 杜比国际公司 | 用于编码和解码音频信号的方法和装置 |
US9830918B2 (en) | 2013-07-05 | 2017-11-28 | Dolby International Ab | Enhanced soundfield coding using parametric component generation |
TWI631553B (zh) | 2013-07-19 | 2018-08-01 | 瑞典商杜比國際公司 | 將以<i>L</i><sub>1</sub>個頻道為基礎之輸入聲音訊號產生至<i>L</i><sub>2</sub>個揚聲器頻道之方法及裝置,以及得到一能量保留混音矩陣之方法及裝置,用以將以輸入頻道為基礎之聲音訊號混音以用於<i>L</i><sub>1</sub>個聲音頻道至<i>L</i><sub>2</sub>個揚聲器頻道 |
US20150127354A1 (en) | 2013-10-03 | 2015-05-07 | Qualcomm Incorporated | Near field compensation for decomposed representations of a sound field |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US9502045B2 (en) | 2014-01-30 | 2016-11-22 | Qualcomm Incorporated | Coding independent frames of ambient higher-order ambisonic coefficients |
US20150264483A1 (en) | 2014-03-14 | 2015-09-17 | Qualcomm Incorporated | Low frequency rendering of higher-order ambisonic audio data |
US9620137B2 (en) | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US10142642B2 (en) | 2014-06-04 | 2018-11-27 | Qualcomm Incorporated | Block adaptive color-space conversion coding |
US20160093308A1 (en) | 2014-09-26 | 2016-03-31 | Qualcomm Incorporated | Predictive vector quantization techniques in a higher order ambisonics (hoa) framework |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
-
2015
- 2015-01-29 US US14/609,208 patent/US9502045B2/en active Active
- 2015-01-29 US US14/609,190 patent/US9489955B2/en active Active
- 2015-01-30 CN CN201911044211.4A patent/CN110827840B/zh active Active
- 2015-01-30 BR BR112016017589-1A patent/BR112016017589B1/pt active IP Right Grant
- 2015-01-30 WO PCT/US2015/013811 patent/WO2015116949A2/en active Application Filing
- 2015-01-30 AU AU2015210791A patent/AU2015210791B2/en active Active
- 2015-01-30 EP EP15703712.8A patent/EP3100265B1/en active Active
- 2015-01-30 SG SG11201604624TA patent/SG11201604624TA/en unknown
- 2015-01-30 CA CA2933901A patent/CA2933901C/en active Active
- 2015-01-30 CA CA2933734A patent/CA2933734C/en active Active
- 2015-01-30 CN CN202010075175.4A patent/CN111383645B/zh active Active
- 2015-01-30 BR BR112016017283-3A patent/BR112016017283B1/pt active IP Right Grant
- 2015-01-30 MY MYPI2016702092A patent/MY176805A/en unknown
- 2015-01-30 WO PCT/US2015/013818 patent/WO2015116952A1/en active Application Filing
- 2015-01-30 CN CN201580005153.8A patent/CN106415714B/zh active Active
- 2015-01-30 KR KR1020167023093A patent/KR101798811B1/ko active IP Right Grant
- 2015-01-30 KR KR1020177018248A patent/KR102095091B1/ko active IP Right Grant
- 2015-01-30 TW TW104103381A patent/TWI595479B/zh active
- 2015-01-30 JP JP2016548729A patent/JP6208373B2/ja active Active
- 2015-01-30 MX MX2016009785A patent/MX350783B/es active IP Right Grant
- 2015-01-30 TW TW104103380A patent/TWI603322B/zh active
- 2015-01-30 RU RU2016130323A patent/RU2689427C2/ru active
- 2015-01-30 EP EP15703428.1A patent/EP3100264A2/en active Pending
- 2015-01-30 TW TW106124181A patent/TWI618052B/zh active
- 2015-01-30 ES ES15703712T patent/ES2922451T3/es active Active
- 2015-01-30 CN CN201580005068.1A patent/CN105917408B/zh active Active
- 2015-01-30 KR KR1020167023092A patent/KR101756612B1/ko active IP Right Grant
- 2015-01-30 JP JP2016548734A patent/JP6169805B2/ja active Active
-
2016
- 2016-07-26 CL CL2016001898A patent/CL2016001898A1/es unknown
- 2016-07-29 PH PH12016501506A patent/PH12016501506B1/en unknown
- 2016-08-29 ZA ZA2016/05973A patent/ZA201605973B/en unknown
- 2016-10-11 US US15/290,181 patent/US9754600B2/en active Active
- 2016-10-11 US US15/290,214 patent/US9747912B2/en active Active
- 2016-10-11 US US15/290,213 patent/US9653086B2/en active Active
- 2016-10-11 US US15/290,206 patent/US9747911B2/en active Active
- 2016-10-24 HK HK16112175.4A patent/HK1224073A1/zh unknown
-
2017
- 2017-06-28 JP JP2017126157A patent/JP6542295B2/ja active Active
- 2017-06-28 JP JP2017126158A patent/JP6542296B2/ja active Active
- 2017-06-28 JP JP2017126159A patent/JP6542297B2/ja active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI603322B (zh) | 解碼包括一輸送聲道之一位元串流之方法、音訊解碼器件、非暫時性電腦可讀儲存媒體、編碼高階環境係數以獲得包括一輸送聲道之一位元串流的方法及音訊編碼器件 | |
CN105940447B (zh) | 用于译码音频数据的方法、装置及计算机可读存储媒体 | |
TW201603006A (zh) | 寫碼自高階立體混響聲音訊信號分解之向量 | |
TW201601144A (zh) | 選擇碼簿以用於寫碼自高階立體混響音訊信號分解之向量 |