TW201714169A - 自以通道為基礎之音訊至高階立體混響之轉換 - Google Patents
自以通道為基礎之音訊至高階立體混響之轉換 Download PDFInfo
- Publication number
- TW201714169A TW201714169A TW105130241A TW105130241A TW201714169A TW 201714169 A TW201714169 A TW 201714169A TW 105130241 A TW105130241 A TW 105130241A TW 105130241 A TW105130241 A TW 105130241A TW 201714169 A TW201714169 A TW 201714169A
- Authority
- TW
- Taiwan
- Prior art keywords
- audio
- vector
- source
- unit
- hoa
- Prior art date
Links
- 238000006243 chemical reaction Methods 0.000 title description 7
- 239000013598 vector Substances 0.000 claims abstract description 585
- 230000005236 sound signal Effects 0.000 claims abstract description 261
- 238000000034 method Methods 0.000 claims abstract description 149
- 239000011159 matrix material Substances 0.000 claims abstract description 97
- 238000009877 rendering Methods 0.000 claims abstract description 50
- 230000017105 transposition Effects 0.000 claims description 5
- 238000013139 quantization Methods 0.000 description 92
- 239000000463 material Substances 0.000 description 70
- 238000010586 diagram Methods 0.000 description 37
- 230000006870 function Effects 0.000 description 13
- 238000013461 design Methods 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 230000006835 compression Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 235000021185 dessert Nutrition 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011002 quantification Methods 0.000 description 3
- 101100379079 Emericella variicolor andA gene Proteins 0.000 description 2
- 101100001674 Emericella variicolor andI gene Proteins 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 101100001669 Emericella variicolor andD gene Proteins 0.000 description 1
- 102000002274 Matrix Metalloproteinases Human genes 0.000 description 1
- 108010000684 Matrix Metalloproteinases Proteins 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/308—Electronic adaptation dependent on speaker or headphone connection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Stereophonic System (AREA)
Abstract
在一個實例中,一種方法包括:獲得用於一源擴音器組態之一多通道音訊訊號之一表示;獲得在一高階立體混響(HOA)域中之基於一源呈現矩陣之複數個空間定位向量(SPV)之一表示,該源呈現矩陣基於該擴音器組態;及基於該多通道音訊信號及該複數個空間定位向量產生一HOA音場。
Description
本發明係關於音訊資料,且更具體而言,係關於高階立體混響音訊資料之寫碼。
高階立體混響(HOA)信號(常常藉由複數個球諧係數(SHC)或其他階層元素表示)為音場之三維表示。HOA或SHC表示可按獨立於用以播放自SHC信號呈現之多通道音訊信號的局部擴音器幾何佈置之方式來表示音場。SHC信號亦可促進回溯相容性,此係因為可將SHC信號呈現為熟知且被高度採用之多通道格式,諸如,5.1音訊通道格式或7.1音訊通道格式。SHC表示因此可實現音場之更好表示,其亦適應回溯相容性。
在一個實例中,器件包含記憶體,其經組態以儲存經寫碼音訊位元串流;及一或多個處理器,其電耦接至該記憶體。在此實例中,該一或多個處理器經組態以:自經寫碼音訊位元串流獲得用於源擴音器組態之多通道音訊信號之表示;獲得高階立體混響(HOA)域中之基於源呈現矩陣之複數個空間定位向量之表示,該源呈現矩陣基於源擴音器組態;基於多通道音訊信號及複數個空間定位向量產生HOA音場;及呈現HOA音場以基於表示複數個局部擴音器之位置之局部擴音器組態產生複數個音訊信號,其中該複數個音訊信號中之每一各別音訊信號對應於複數個局部擴音器中之各別擴音器。 在另一實例中,一種器件包括一或多個處理器,其經組態以:接收用於源擴音器組態之多通道音訊信號;獲得基於源擴音器組態之源呈現矩陣;基於源呈現矩陣獲得高階立體混響(HOA)域中之複數個空間定位向量,該複數個空間定位向量與多通道音訊信號組合而表示對應於多通道音訊信號之HOA音場,及在經寫碼音訊位元串流中編碼多通道音訊信號之表示及複數個空間定位向量之指示。在此實例中,該器件亦包括記憶體,其電耦接至該一或多個處理器,經組態以儲存經寫碼位元串流。 在另一實例中,一種方法包括:自經寫碼音訊位元串流獲得用於源擴音器組態之多通道音訊信號之表示;獲得高階立體混響(HOA)域中之基於源呈現矩陣之複數個空間定位向量之表示,該源呈現矩陣基於源擴音器組態;基於多通道音訊信號及複數個空間定位向量產生HOA音場;及呈現HOA音場以基於表示複數個局部擴音器之位置之局部擴音器組態而產生複數個音訊信號,其中複數個音訊信號中之每一各別音訊信號對應於複數個局部擴音器中之各別擴音器。 在另一實例中,一種方法包括:接收用於源擴音器組態之多通道音訊信號;獲得基於源擴音器組態之源呈現矩陣;基於源呈現矩陣獲得高階立體混響(HOA)域中之複數個空間定位向量,該複數個空間定位向量與多通道音訊信號組合而表示對應於多通道音訊信號之HOA音場,及在經寫碼音訊位元串流中編碼多通道音訊信號之表示及複數個空間定位向量之指示。 在隨附圖式及以下描述中闡述本發明之一或多個態樣的細節。本發明中所描述之技術的其他特徵、目標及優點將自描述及圖式且自申請專利範圍顯而易見。
本申請案主張2015年10月8日申請之美國臨時專利申請案62/239,079之權益,該臨時專利申請案之全部內容以引用之方式併入本文中。 環繞聲之演化現今已使得許多輸出格式可用於娛樂。此等消費型環繞聲格式之實例大部分為以『通道』為基礎的,此係因為其以某些幾何座標隱含地指定至擴音器之饋入。消費型環繞聲格式包括風行的5.1格式(其包括以下六個通道:左前(FL)、右前(FR)、中心或前中心、左後或左環繞、右後或右環繞,及低頻效應(LFE))、發展中的7.1格式、包括高度揚聲器之各種格式,諸如7.1.4格式及22.2格式(例如,用於供超高清晰度電視標準使用)。非消費型格式可涵括任何數目的揚聲器(成對稱及非對稱幾何結構),其常常稱為『環繞陣列』。此類陣列之一個實例包括定位於截頂二十面體之拐角上的座標處之32個擴音器。 音訊編碼器可接收呈三種可能格式中之一種的輸入:(i)傳統的以通道為基礎之音訊(如上文所論述),其意謂經由在預先指定之位置處的擴音器播放;(ii)基於對象之音訊,其涉及用於單音訊對象之離散脈碼調變(PCM)資料及含有其場所座標(以及其他資訊)之相關聯後設資料;及(iii)基於場景之音訊,其涉及使用球諧基底函數之係數(亦稱為「球諧係數」或SHC、「高階立體混響」或HOA及「HOA係數」)來表示音場。 在一些實例中,編碼器可按接收到之格式來編碼所接收之音訊資料。舉例而言,接收傳統的7.1以通道為基礎之音訊之編碼器可將以通道為基礎之音訊編碼為位元串流,其可由解碼器播放。然而,在一些實例中,為了使得能夠在具有5.1播放功能(而非7.1播放功能)之解碼器處播放,編碼器亦可包括位元串流中之7.1以通道為基礎之音訊之5.1版本。在一些實例中,可能不需要編碼器包括位元串流中之音訊之多個版本。作為一個實例,包括位元串流中之音訊之多個版本可增加位元串流之大小,且因此可增加傳輸所需之頻寬之量及/或儲存位元串流所需之儲存器之量。作為另一實例,內容創建者(例如,好萊塢工作室)希望一次製作電影之聲跡且不費力混音每一揚聲器組態之聲跡。因此,可能需要提供至標準化位元串流中之編碼及對播放(涉及呈現器)之位置處的揚聲器幾何形狀(及數目)及聲學條件可調適及不可知的後續解碼。 在一些實例中,為了使音訊解碼器能夠用任意揚聲器組態播放音訊,音訊編碼器可轉換單一格式之輸入音訊以用於編碼。舉例而言,音訊編碼器可將多通道音訊資料及/或音訊對象轉換為階層元素集合且編碼位元串流中之所得元素集合。該階層元素集合可指其中元素經排序而使得基本低階元素集合提供經模型化音場之完整表示的一組元素。當將該集合擴展以包括高階元素時,該表示變得更詳細,從而增加解析度。 階層元素集合之一個實例為球諧係數(SHC)集合,其亦可稱為高階立體混響(HOA)係數。以下方程式(1)表明使用SHC對音場之描述或表示。
方程式(1)展示在時間t
在音場之任何點處之壓力可由SHC ()獨特地表示。此處,,c
為聲速(~343 m/s),為參考點(或觀測點),為階數n
之球貝塞爾函數,且為階數n
及子階數m
之球諧基底函數。可認識到,方括弧中之項為信號之頻域表示(亦即,),其可藉由各種時間-頻率變換(諸如,離散傅立葉變換(DFT)、離散餘弦變換(DCT)或小波變換)來近似。階層集合之其他實例包括小波變換係數集合及其他多解析度基底函數係數集合。出於簡單之目的,下文參考HOA係數描述本發明。然而,應瞭解,該等技術可同樣適用於其他階層集合。 然而,在一些實例中,可不需要將所有接收到的音訊資料轉換為HOA係數。舉例而言,若音訊編碼器係將所有接收到的音訊資料轉換為HOA係數,所得位元串流可不與不能夠處理HOA係數之音訊解碼器(亦即,僅可處理多通道音訊資料及音訊對象中之一或兩者之音訊解碼器)回溯相容。因此,音訊編碼器可能需要編碼接收到的音訊資料,以使得所得位元串流使音訊解碼器能夠用任意揚聲器組態來播放音訊資料,同時亦實現與不能夠處理HOA係數之內容消費者系統之回溯相容性。 根據本發明之一或多個技術,如與將接收到的音訊資料轉換為HOA係數及在位元串流中編碼所得HOA係數相反,音訊編碼器可在位元串流中編碼接收到的呈其原始格式之音訊資料以及實現經編碼音訊資料至HOA係數之轉換之資訊。舉例而言,音訊編碼器可判定實現經編碼音訊資料至HOA係數之轉換之一或多個空間定位向量(SPV),且在位元串流中編碼該一或多個SPV之表示及接收到的音訊資料之表示。在一些實例中,該一或多個SPV中之特定SPV之表示可為對應於碼簿中之特定SPV之索引。可基於源擴音器組態(亦即,接收到的音訊資料意欲用於播放之擴音器組態)來判定空間定位向量。以此方式,音訊編碼器可輸出使音訊解碼器能夠用任意揚聲器組態播放接收到的音訊資料同時亦實現與不能夠處理HOA係數之音訊解碼器之回溯相容性的位元串流。 音訊解碼器可接收包括呈其原始格式之音訊資料以及實現經編碼音訊資料至HOA係數之轉換之資訊的位元串流。舉例而言,音訊解碼器可接收呈5.1格式之多通道音訊資料及一或多個空間定位向量(SPV)。使用該一或多個空間定位向量,音訊解碼器可自5.1格式之音訊資料產生HOA音場。舉例而言,音訊解碼器可基於多通道音訊信號及空間定位向量產生HOA係數之集合。音訊解碼器可呈現或使得另一器件能夠基於局部擴音器組態呈現HOA音場。以此方式,能夠處理HOA係數之音訊解碼器可用任意揚聲器組態播放多通道音訊資料,同時亦實現與不能夠處理HOA係數之音訊解碼器之回溯相容性。 如上文所論述,音訊編碼器可判定及編碼實現經編碼音訊資料至HOA係數之轉換的一或多個空間定位向量(SPV)。然而,在一些實例中,音訊解碼器可需要當位元串流不包括一或多個空間定位向量之指示時用任意揚聲器組態播放接收到的音訊資料。 根據本發明之一或多個技術,音訊解碼器可接收經編碼音訊資料及源擴音器組態(亦即,經編碼音訊資料意欲用於播放之擴音器組態之指示),且基於源擴音器組態之指示產生實現經編碼音訊資料至HOA係數之轉換的空間定位向量(SPV)。在一些實例中,諸如當經編碼音訊資料為5.1格式之多通道音訊資料之情況下,源擴音器組態之指示可指示經編碼音訊資料為呈5.1格式之多通道音訊資料。 使用空間定位向量,音訊解碼器可自音訊資料產生HOA音場。舉例而言,音訊解碼器可基於多通道音訊信號及空間定位向量產生HOA係數之集合。音訊解碼器可呈現或使得另一器件能夠基於局部擴音器組態呈現HOA音場。以此方式,音訊解碼器可輸出位元串流,其使音訊解碼器能夠用任意揚聲器組態播放接收到的音訊資料,同時亦實現與可不產生及編碼空間定位向量之音訊編碼器的回溯相容性 如上文所論述,音訊寫碼器(亦即,音訊編碼器或音訊解碼器)可獲得(亦即,產生、判定、擷取、接收等)實現經編碼音訊資料至HOA音場之轉換的空間定位向量。在一些實例中,以實現音訊資料之近似「完美」重建構之目標獲得空間定位向量。可考慮空間定位向量以實現音訊資料之近似「完美」重建構,其中空間定位向量用以將輸入N-通道音訊資料轉換為HOA音場,該HOA音場在經轉換回至N-通道之音訊資料時近似地等效於該輸入N-通道音訊資料。 為獲得實現近似「完美」重建構之空間定位向量,音訊編碼器可判定用於每一向量之係數NHOA
之數目。若HOA音場係根據方程式(2)及(3)表達且由用呈現矩陣D呈現HOA音場所產生之N-通道音訊係根據方程式(4)及(5)表達,則在係數之數目經選擇為大於或等於輸入N-通道音訊資料中之通道之數目的情況下,近似「完美」重建構可係有可能的。
亦即,若滿足方程式(6),則近似「完美」重建構可係有可能的。
亦即,若輸入通道N
之數目小於或等於用於每一空間定位向量之係數NHOA
之數目,則近似「完美」重建構可係有可能的。 音訊寫碼器可用所選數目之係數獲得空間定位向量。HOA音場H
可根據方程式(7)表達。
在方程式(7)中,i
通道之可為通道i
之音訊通道Ci
與通道i
之空間定位向量Vi
之轉置之乘積,如方程式(8)中所示。 可經呈現以產生以通道為基礎之音訊信號,如方程式(9)中所示。
若方程式(10)或方程式(11)為真,則方程式(9)可適用,其中對方程式(11)之第二解答由於係單數的而移除。
若方程式(10)或方程式(11)為真,則可根據方程式(12)至(14)表示以通道為基礎之音訊信號。
因此,為實現近似「完美」重建構,音訊寫碼器可獲得滿足方程式(15)及(16)之空間定位向量。
為了完整性,以下為滿足以上方程式之空間定位向量實現近似「完美」重建構之證據。對於根據方程式(17)表達之給定N-通道音訊,音訊寫碼器可獲得可根據方程式(18)及(19)表達之空間定位向量,其中D
為基於N-通道音訊資料之源擴音器組態判定之源呈現矩陣,包括N
個元素,且第i
個元素為其中其他元素為零之一個元素。
音訊寫碼器可基於空間定位向量及根據方程式(20)之N-通道音訊資料產生HOA音場H
。
音訊寫碼器可將HOA音場H
轉換回至根據方程式(21)之N-通道音訊資料,其中D
為基於N-通道音訊資料之源擴音器組態判定之源呈現矩陣。
如上文所論述,若近似等於,則達成「完美」重建構。如下文在方程式(22)至(26)中所示,近似等於,因此近似「完美」重建構可係有可能的。
可以各種方式處理諸如呈現矩陣之矩陣。舉例而言,可將矩陣處理(例如,儲存、相加、倍增、擷取等)為列、行、向量或以其它方式來處理矩陣。 圖1為說明可執行本發明中所描述之技術之各種態樣的系統2的圖。如圖1之實例中所示,系統2包括內容創建者系統4及內容消費者系統6。雖然在內容創建者系統4及內容消費者系統6之環境中描述,但該等技術可實施於其中音訊資料經編碼以形成表示音訊資料之位元串流之任何環境中。此外,內容創建者系統4可包括能夠實施本發明中所描述之技術之任何形式之一或多個計算器件,包括手持機(或蜂巢式電話)、平板電腦、智慧型手機或桌上型電腦以提供一些實例。同樣,內容消費者系統6可包括能夠實施本發明中所描述之技術之任何形式之一或多個計算器件,包括手持機(或蜂巢式電話)、平板電腦、智慧型電話、機上盒、AV-接收器、無線揚聲器或或桌上型電腦以提供一些實例。 內容創建者系統4可由各種內容創建者操作,該各種內容創建者諸如電影工作室、電視工作室、網際網路串流服務或可產生供內容消費者系統(諸如內容消費者系統6)之操作者消耗之音訊內容的其他實體。常常,內容創建者產生音訊內容連同視訊內容。內容消費者系統6可由個體操作。大體上,內容消費者系統6可係指能夠輸出多通道音訊內容之任何形式之音訊播放系統。 內容創建者系統4包括音訊編碼器件14,其可能夠將接收到的音訊資料編碼至位元串流。音訊編碼器件14可自各種源接收音訊資料。舉例而言,音訊編碼器件14可獲得實時音訊資料10及/或預產生之音訊資料12。音訊編碼器件14可接收呈各種格式之實時音訊資料10及/或預產生之音訊資料12。作為一個實例,音訊編碼器件14可自一或多個麥克風8接收實時音訊資料10作為HOA係數、音訊對象或多通道音訊資料。作為另一實例,音訊編碼器件14可接收預產生之音訊資料12作為HOA係數、音訊對象或多通道音訊資料。 如上所述,音訊編碼器件14可將接收到的音訊資料編碼至位元串流(諸如位元串流20)中以供(作為一個實例)橫越可為有線或無線通道之傳輸通道,資料儲存器件或類似者傳輸。在一些實例中,內容創建者系統4將經編碼位元串流20直接傳輸至內容消費者系統6。在其他實例中,經編碼位元串流亦可儲存至儲存媒體或檔案伺服器上,以便稍後藉由內容消費者系統6存取以用於解碼及/或播放。 如上文所論述,在一些實例中,接收到的音訊資料可包括HOA係數。然而,在一些實例中,接收到的音訊資料可包括呈除HOA係數之外之格式之音訊資料,諸如多通道音訊資料及/或基於對象之音訊資料。在一些實例中,音訊編碼器件14可轉換接收到的呈單一格式之音訊資料以用於編碼。舉例而言,如上文所論述,音訊編碼器件14可將多通道音訊資料及/或音訊對象轉換成HOA係數及在位元串流20中編碼所得HOA係數。以此方式,音訊編碼器件14可使內容消費者系統能夠用任意揚聲器組態來播放音訊資料。 然而,在一些實例中,可不需要將所有接收到的音訊資料轉換成HOA係數。舉例而言,若音訊編碼器件14係將所有接收到的音訊資料轉換成HOA係數,則所得位元串流可並不與不能夠處理HOA係數之內容消費者系統(亦即,僅可處理多通道音訊資料及音訊對象中之一或兩者之內容消費者系統)回溯相容。因此,音訊編碼器件14可能需要編碼接收到的音訊資料,以使得所得位元串流使內容消費者系統能夠用任意揚聲器組態來播放音訊資料,同時亦實現與不能夠處理HOA係數之內容消費者系統之回溯相容性。 根據本發明之一或多個技術,如與將接收到的音訊資料轉換成HOA係數及在位元串流中編碼所得HOA係數相反,音訊編碼器件14可在位元串流20中編碼接收到的呈其原始格式之音訊資料以及實現經編碼音訊資料至HOA係數之轉換之資訊.舉例而言,音訊編碼器件14可判定實現經編碼音訊資料至HOA係數之轉換之一或多個空間定位向量(SPV),且在位元串流20中編碼該一或多個SPV之表示及接收到的音訊資料之表示。在一些實例中,音訊編碼器件14可判定滿足以上方程式(15)及(16)之一或多個空間定位向量。以此方式,音訊編碼器件14可輸出使內容消費者系統能夠用任意揚聲器組態播放接收到的音訊資料同時亦實現與不能夠處理HOA係數之內容消費者系統之回溯相容性的位元串流。 內容消費者系統6可基於位元串流20產生擴音器饋送26。如圖1中所示,內容消費者系統6可包括音訊解碼器件22及擴音器24。擴音器24亦可被稱作局部擴音器。音訊解碼器件22可能夠解碼位元串流20。作為一個實例,音訊解碼器件22可對位元串流20進行解碼以重建構音訊資料及實現經解碼音訊資料至HOA係數之轉換之資訊。作為另一實例,音訊解碼器件22可對位元串流20進行解碼以重建構音訊資料且可局部判定實現經解碼音訊資料至HOA係數之轉換之資訊。舉例而言,音訊解碼器件22可判定滿足以上方程式(15)及(16)之一或多個空間定位向量。 在任何情況下,音訊解碼器件22可使用該資訊將經解碼音訊資料轉換成HOA係數。舉例而言,音訊解碼器件22可使用SPV將經解碼音訊資料轉換成HOA係數並呈現HOA係數。在一些實例中,音訊解碼器件可呈現所得HOA係數以輸出可驅動擴音器24中之一或多者的擴音器饋送26。在一些實例中,音訊解碼器件可將所得HOA係數輸出至外部呈現器(未圖示),該外部呈現器可呈現HOA係數以輸出可驅動擴音器24中之一或多者之擴音器饋送26。換言之,HOA音場由擴音器24播放。在各種實例中,擴音器24可為車輛、住宅、電影院、音樂會場地或其他場所。 音訊編碼器件14及音訊解碼器件22各可實施為各種合適電路中之任一者,諸如一或多個積體電路,其包括微處理器、數位信號處理器(DSP)、特定應用積體電路(ASIC)、場可程式化閘陣列(FPGA)、離散邏輯、軟體、硬體、韌體或其任何組合。當以軟體部分地實施技術時,器件可將用於軟體之指令儲存於合適的非暫時性電腦可讀媒體中,且使用一或多個處理器來執行諸如積體電路之硬體中之指令以執行本發明之技術。 圖2為說明自零階(n
= 0)至四階(n
= 4)之球諧基底函數的圖。如可見,對於每一階而言,存在子階m
之擴展,出於易於說明之目的,在圖1之實例中展示了該等子階但卻未顯式註釋。 可由各種麥克風陣列組態實體地獲取(例如,記錄) SHC,或替代地,其可自音場之以通道為基礎或基於對象之描述導出。SHC表示基於場景之音訊,其中可將SHC輸入至音訊編碼器以獲得經編碼SHC,該經編碼SHC可促成更有效率的傳輸或儲存。舉例而言,可使用涉及1+24 個(25,且因此為四階)係數之四階表示。 如上文所陳述,可使用麥克風陣列自麥克風記錄導出SHC。可如何自麥克風陣列導出SHC之各種實例描述於Poletti,M.之「基於球諧之三維環繞聲系統(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)」(J. Audio Eng. Soc.,第53卷, 第11期,2005年11月,第1004至1025頁)中。 為了說明可如何自基於對象之描述導出SHC,考慮以下方程式。用於對應於個別音訊對象之音場之係數可如方程式(27)中所示表達,其中i為,為階數n之(第二種類)之球面漢克爾函數,且為對象之位置。
已知隨頻率變化的對象源能量(例如,使用時間-頻率分析技術,諸如,對PCM串流執行快速傅立葉變換)允許吾人將每一PCM對象及對應位置轉換成SHC。另外,可展示(由於上式為線性及正交分解):每一對象之係數為相加性的。以此方式,許多PCM對象可由係數(例如,作為個別對象之係數向量的總和)來表示。基本上,該等係數含有關於音場之資訊(作為3D座標之函數的壓力),且上式表示在觀測點附近自個別對象至總音場之表示的變換。 圖3為說明根據本發明之一或多個技術之音訊編碼器件14之實例實施的方塊圖。圖3中所示之音訊編碼器件14之實例實施標記為音訊編碼器件14A。音訊編碼器件14A包括音訊編碼單元51、位元串流產生單元52A及記憶體54。在其他實例中,音訊編碼器件14A可包括更多、更多或不同單元。舉例而言,音訊編碼器件14A可不包括音訊編碼單元51,或音訊編碼單元51可實施於可經由一或多個有線或無線連接而連接至音訊編碼器件14A之單獨器件中。 音訊信號50可表示由音訊編碼器件14A接收之輸入音訊信號。在一些實例中,音訊信號50可為用於源擴音器組態之多通道音訊信號。舉例而言,如圖3中所示,音訊信號50可包括表示為通道C1
至通道CN
之N
個通道之音訊資料。作為一個實例,音訊信號50可為用於5.1之源擴音器組態之6通道音訊信號(亦即,左前通道、中心通道、右前通道、左後環繞通道、右後環繞通道,及低頻效應(LFE)通道) 作為另一實例,音訊信號50可為用於7.1之源擴音器組態之8通道音訊信號(亦即,左前通道、中心通道、右前通道、左後環繞通道、左環繞通道、右後環繞通道,右環繞通道及低頻效應(LFE)通道)。其他實例係可能的,諸如24通道音訊信號(例如,22.2)、9通道音訊信號(例如,8.1)及通道之任何其他組合。 在一些實例中,音訊編碼器件14A可包括音訊編碼單元51,其可經組態以將音訊信號50編碼成經寫碼音訊信號62。舉例而言,音訊編碼單元51可量化格式或另外壓縮音訊信號50以產生音訊信號62。如圖3之實例中所示,音訊編碼單元51可將通道C1
至CN
之音訊信號50編碼成通道C'1
至C'N
之經寫碼音訊信號62。在一些實例中,音訊編碼單元51可被稱為音訊編解碼器(CODEC)。 源擴音器設定資訊48可指定源擴音器設定中之擴音器之數目(例如,N
)及源擴音器設定中之擴音器之位置。在一些實例中,源擴音器設定資訊48可指示呈方位角及仰角(例如,)形式之源擴音器之位置。在一些實例中,源擴音器設定資訊48可指示呈預定義設定(例如,5.1、7.1、22.2)之形式之源擴音器之位置。在一些實例中,音訊編碼器件14A可基於源擴音器設定資訊48判定源呈現格式D
。在一些實例中,源呈現格式D
可表示為矩陣。 位元串流產生單元52A可經組態以基於一或多個輸入產生位元串流。在圖3之實例中,位元串流產生單元52A可經組態以將擴音器位置資訊48及音訊信號50編碼至位元串流56A中。在一些實例中,位元串流產生單元52A可編碼音訊信號而不壓縮。舉例而言,位元串流產生單元52A可將音訊信號50編碼至位元串流56A中。在一些實例中,位元串流產生單元52A可利用壓縮編碼音訊信號。舉例而言,位元串流產生單元52A可將經寫碼音訊信號62編碼至位元串流56A中。 在一些實例中,至擴音器位置資訊48至位元串流56A中,位元串流產生單元52A可編碼(例如,傳信)源擴音器設定中之擴音器之數目(例如,N
)及源擴音器設定中呈方位角及仰角(例如,)之形式之擴音器的位置。另外在一些實例中,位元串流產生單元52A可判定及編碼對在將音訊信號50轉換成HOA音場時將使用多少HOA係數(例如,NHOA
)之指示。在一些實例中,音訊信號50可經劃分為訊框。在一些實例中,位元串流產生單元52A可針對每一訊框傳信源擴音器設定中之擴音器之數目及源擴音器設定之擴音器之位置。在一些實例中,諸如在當前訊框之源擴音器設定與前一訊框之源擴音器設定相同的情況下,位元串流產生單元52A可針對當前訊框省略源擴音器設定中之擴音器之數目及源擴音器設定之擴音器之位置。 在操作時,音訊編碼器件14A可接收音訊信號50作為6通道多通道音訊信號且接收擴音器位置資訊48作為呈5.1預定義設定之形式之源擴音器的位置的指示。如上文所論述,位元串流產生單元52A可將擴音器位置資訊48及音訊信號50編碼至位元串流56A中。舉例而言,位元串流產生單元52A可將6通道多通道(音訊信號50)之表示及經編碼音訊信號為5.1音訊信號之指示(源擴音器位置資訊48)編碼至位元串流56A中。 如上文所論述,在一些實例中,音訊編碼器件14A可將經編碼音訊資料(亦即,位元串流56A)直接傳輸至音訊解碼器件。在其他實例中,音訊編碼器件14A可將經編碼音訊資料(亦即,位元串流56A)儲存至儲存媒體或檔案伺服器上以供稍後由音訊解碼器件存取以用於解碼及/或播放。在圖3之實例中,記憶體54可在藉由音訊編碼器件14A輸出之前儲存位元串流56A之至少一部分。換言之,記憶體54可儲存所有位元串流56A或一部分位元串流56A。 因此,音訊編碼器件14A可包括一或多個處理器,其經組態以:接收用於源擴音器組態之多通道音訊信號(例如,針對擴音器位置資訊48之多通道音訊信號50);基於源擴音器組態獲得高階立體混響(HOA)域中之複數個空間定位向量,該複數個空間定位向量與多通道音訊信號組合而表示高階立體混響(HOA)係數之集合,該等高階立體混響(HOA)係數表示多通道音訊信號;及在經寫碼音訊位元串流(例如,位元串流56A)中編碼多通道音訊信號(例如,經寫碼音訊信號62)之表示及複數個空間定位向量(例如,擴音器位置資訊48)之指示。此外,音訊編碼器件14A可包括電耦接至一或多個處理器之記憶體(例如記憶體54),其經組態以儲存經寫碼音訊位元串流。 圖4為說明根據本發明之一或多個技術之用於與圖3中所示之音訊編碼器件14A之實例實施一起使用的音訊解碼器件22之實例實施的方塊圖。圖4中所示之音訊解碼器件22之實例實施標記為22A。圖4中之音訊解碼器件22之實施包括記憶體200、解多工單元202A、音訊解碼單元204、向量創建單元206、HOA產生單元208A及呈現單元210。在其他實例中,音訊解碼器件22A可包括更多、更多或不同單元。舉例而言,呈現單元210可實施於諸如擴音器、頭戴式耳機單元或音訊庫或衛星器件之單獨器件中,且可經由一或多個有線或無線連接而連接至音訊解碼器件22A。 記憶體200可獲得經編碼音訊資料,諸如位元串流56A。在一些實例中,記憶體200可自音訊編碼器件直接接收經編碼音訊資料(亦即,位元串流56A)。在其他實例中,可儲存經編碼音訊資料且記憶體200可自儲存媒體或檔案伺服器獲得經編碼音訊資料(亦即,位元串流56A)。記憶體200可提供對至音訊解碼器件22A之一或多個組件(諸如解多工單元202)的位元串流56A的存取。 解多工單元202A可對位元串流56A解多工以獲得經寫碼音訊資料62及源擴音器設定資訊48。解多工單元202A可將獲得的資料提供至音訊解碼器件22A之一或多個組件。舉例而言,解多工單元202A可將經寫碼音訊資料62提供至音訊解碼單元204且將源擴音器設定資訊48提供至向量創建單元206。 音訊解碼單元204可經組態以將經寫碼音訊信號62解碼成音訊信號70。舉例而言,音訊解碼單元204可解量化、解格式化或另外解壓縮音訊信號62以產生音訊信號70。如圖4之實例中所示,音訊解碼單元204可將通道C'1
至C'N
之音訊信號62解碼成通道C'1
至C'N
之經解碼音訊信號70。在一些實例中,諸如在使用無損寫碼技術寫碼音訊信號62的情況下,音訊信號70可近似等於或近似等效於圖3之音訊信號50。在一些實例中,音訊解碼單元204可被稱為音訊編解碼器(CODEC)。音訊解碼單元204可將經解碼音訊信號70提供至音訊解碼器件22A之一或多個組件,諸如HOA產生單元208A。 向量創建單元206可經組態以產生一或多個空間定位向量。舉例而言,如圖4之實例中所示,向量創建單元206可基於源擴音器設定資訊48產生空間定位向量72。在一些實例中,空間定位向量72可在高階立體混響(HOA)域中。在一些實例中,為了產生空間定位向量72,向量創建單元206可基於源擴音器設定資訊48判定源呈現格式D
。使用該經判定之源呈現格式D
,向量創建單元206可判定空間定位向量72滿足以上方程式(15)及(16)。向量創建單元206可將空間定位向量72提供至音訊解碼器件22A之一或多個組件,諸如HOA產生單元208A。 HOA產生單元208A可經組態以基於多通道音訊資料及空間定位向量產生HOA音場。舉例而言,如圖4之實例中所示,HOA產生單元208A可基於經解碼音訊信號70及空間定位向量72產生HOA係數212A之集合。在一些實例中,HOA產生單元208A可根據以下方程式(28)產生HOA係數212A之集合,其中H
表示HOA係數212A,表示經解碼音訊信號70,且表示空間定位向量72之轉置。
HOA產生單元208A可將產生的HOA音場提供至一或多個其他組件。舉例而言,如圖4之實例中所示,HOA產生單元208A可將HOA係數212A提供至呈現單元210。 呈現單元210可經組態以呈現HOA音場以產生複數個音訊信號。在一些實例中,呈現單元210可呈現HOA音場之HOA係數212A以產生音訊信號26A以用於在複數個局部擴音器(諸如圖1之擴音器24處)播放。在複數個局部擴音器包括L
個擴音器的情況下,音訊信號26A可包括分別凹入以用於經由擴音器1至L
播放之通道C1
至CL
。 呈現單元210可基於可表示複數個局部擴音器之位置的局部擴音器設定資訊28產生音訊信號26A。在一些實例中,局部擴音器設定資訊28可呈局部呈現格式之形式。在一些實例中,局部呈現格式可為局部呈現矩陣。在一些實例中,諸如當局部擴音器設定資訊28呈局部擴音器中之每一者之方位角及仰角之形式時,呈現單元210可基於局部擴音器設定資訊28判定局部呈現格式。在一些實例中,呈現單元210可基於局部擴音器設定資訊28根據方程式(29)產生音訊信號26A,其中表示音訊信號26A,H
表示HOA係數212A,且表示局部呈現格式之轉置。
在一些實例中,局部呈現格式可不同於用以判定空間定位向量72之源呈現格式D
。作為一個實例,複數個局部擴音器之位置可不同於複數個源擴音器之位置。作為另一實例,複數個局部擴音器中之擴音器之數目可不同於複數個源擴音器中之擴音器的數目。作為另一實例,複數個局部擴音器之位置可不同於複數個源擴音器之位置,且複數個局部擴音器中之擴音器之數目可不同於複數個源擴音器中之擴音器之數目。 因此,音訊解碼器件22A可包括經組態以儲存經寫碼音訊位元串流之記憶體(例如,記憶體200)。音訊解碼器件22A可進一步包括一或多個處理器,其電耦接至記憶體且經組態以:自經寫碼音訊位元串流獲得用於源擴音器組態之多通道音訊信號(例如,針對擴音器位置資訊48之經寫碼音訊信號62)之表示;獲得高階立體混響(HOA)域中之基於源擴音器組態之複數個空間定位向量(SPV) (例如,空間定位向量72)之表示;及基於多通道音訊信號及複數個空間定位向量產生HOA音場(例如,HOA係數212A)。 圖5為說明根據本發明之一或多個技術之音訊編碼器件14之實例實施的方塊圖。圖5中所示之音訊編碼器件14之實例實施標記為音訊編碼器件14B。音訊編碼器件14B包括音訊編碼單元51、位元串流產生單元52A及記憶體54。在其他實例中,音訊編碼器件14B可包括更多、更多或不同單元。舉例而言,音訊編碼器件14B可不包括音訊編碼單元51,或音訊編碼單元51可實施於可經由一或多個有線或無線連接而連接至音訊編碼器件14B之單獨器件中。 與圖3之可編碼經寫碼音訊信號62及擴音器位置資訊48而不編碼空間定位向量之指示的音訊編碼器件14A相對比,音訊編碼器件14B包括可判定空間定位向量之向量編碼單元68。在一些實例中,向量編碼單元68可基於擴音器位置資訊48判定空間定位向量且輸出空間向量表示資料71A以用於藉由位元串流產生單元52B編碼至位元串流56B中。 在一些實例中,向量編碼單元68可產生向量表示資料71A作為碼簿中之索引。作為一個實例,向量編碼單元68可產生向量表示資料71A作為經動態(例如,基於擴音器位置資訊48)創建之碼簿中之索引。下文參考圖6至圖8論述產生向量表示資料71A作為動態創建之碼簿中之索引的向量編碼單元68之一個實例之額外細節。作為另一實例,向量編碼單元68可產生向量表示資料71A作為包括用於預定源擴音器設定之空間定位向量的碼簿中之索引。下文參考圖9論述產生向量表示資料71A作為包括用於預定源擴音器設定之空間定位向量的碼簿中之索引的向量編碼單元68之一個實例之額外細節 位元串流產生單元52B可在位元串流56B中包括表示經寫碼音訊信號60之資料及空間向量表示資料71A。在一些實例中,位元串流產生單元52B亦可在位元串流56B中包括表示擴音器位置資訊48之資料。在圖5之實例中,記憶體54可在藉由音訊編碼器件14B輸出之前儲存位元串流56B之至少一部分。 因此,音訊編碼器件14B可包括一或多個處理器,其經組態以:接收用於源擴音器組態之多通道音訊信號(例如,針對擴音器位置資訊48之多通道音訊信號50);基於源擴音器組態獲得高階立體混響(HOA)域中之複數個空間定位向量,該複數個空間定位向量與多通道音訊信號組合而表示HOA係數之集合,該等HOA係數表示多通道音訊信號;及在經寫碼音訊位元串流(例如,位元串流56B)中編碼多通道音訊信號(例如,經寫碼音訊信號62)之表示及複數個空間定位向量(例如,空間向量表示資料71A)之指示。此外,音訊編碼器件14B可包括電耦接至一或多個處理器之記憶體(例如,記憶體54),其經組態以儲存經寫碼音訊位元串流。 圖6為說明根據本發明之一或多個技術之向量編碼單元68的實例實施的圖。在圖6之實例中,向量編碼單元68之實例實施經標記為向量編碼單元68A。在圖6之實例中,向量編碼單元68A包含呈現格式單元110、向量創建單元112、記憶體114及表示單元115。此外,如圖6之實例中所示,呈現格式單元110接收源擴音器設定資訊48。 呈現格式單元110使用源擴音器設定資訊48判定源呈現格式116。源呈現格式116可為用於將HOA係數之集合呈現為用於按源擴音器設定資訊48描述之方式佈置之擴音器的擴音器饋送之集合的呈現矩陣。呈現格式單元110可以各種方式判定源呈現格式116。舉例而言,呈現格式單元110可使用ISO/IEC 23008-3 (「Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio,」,第一版,2015 (可在iso.org處獲得))中所描述之技術。 在呈現格式單元110使用ISO/IEC 23008-3中描述之技術之實例中,源擴音器設定資訊48包括指定源擴音器設定中之擴音器之方向的資訊。為易於解釋,本發明可將源擴音器設定中之擴音器稱作「源擴音器」。因此,源擴音器設定資訊48可包括指定L個擴音器方向之資料,其中L為源擴音器之數目。指定L個擴音器方向之資料可表示為𝕯L
。指定源擴音器之方向之資料可表達為一對球面座標。因此,具有球面角度之指示傾斜角度,且指示方位角角度,其可以弧度為單位表達。在此實例中,呈現格式單元110可假定源擴音器具有定心於聲學甜點處之球面佈置。 在此實例中,呈現格式單元110可基於HOA階數及理想球面設計位置之集合判定模式矩陣,其表示為。圖7展示理想球面設計位置之實例集合。圖8為展示理想球面設計位置之另一實例集合的表。理想球面設計位置可表示為,其中S為理想球面設計位置之數目且。模式矩陣可經定義以使得,其中,其中ys
持有實值球諧係數。大體上,實值球諧係數可根據方程式(30)及(31)表示。
在方程式(30)及(31)中,勒戎德爾函數可根據以下方程式(32)定義,方程式(32)具有勒戎德爾多頂式且無康登-肖特萊相位項(-1)m
。
圖7呈現具有對應於理想球面設計位置之輸入項之實例表130。在圖7之實例中,表130之各列為對應於預定義擴音器位置之輸入項。表130之行131以度為單位指定擴音器之理想方位角。表130之行132以度為單位指定擴音器之理想仰角。表130之行133及134以度為單位指定擴音器之方位角之可接受範圍。表130之行135及136以度為單位指定擴音器之仰角之可接受範圍。 圖8呈現具有對應於理想球面設計位置之輸入項之另一實例表140之一部分。雖然圖8中未示出,但表140包括900個輸入項,其各指定擴音器定位之不同方位角φ
及仰角θ
。在圖8之實例中,音訊編碼器件20可藉由傳信表140中之輸入項之索引而指定源擴音器設定中之擴音器之位置。舉例而言,音訊編碼器件20可藉由傳信索引值46來指定源擴音器設定中之擴音器處於弧度為1.967778之方位角及弧度為0.428967之仰角。 返回至圖6之實例,向量創建單元112可獲得源呈現格式116。向量創建單元112可基於源呈現格式116判定空間向量118之集合。在一些實例中,由向量創建單元112產生之空間向量之數目等於源擴音器設定中之擴音器之數目。舉例而言,若在源擴音器設定中存在N
個擴音器,則向量創建單元112可判定N
個空間向量。對於源擴音器設定中之每一擴音器n
,其中n
之範圍自1至N
,用於擴音器之空間向量可等於或等效於V n
= [An
(DDT
)- 1 D
] T
。在此方程式中,D
為表示為矩陣之源呈現格式,且An
為由數目等於N
之單列元素構成之矩陣(亦即,An
為N
維向量)。An
中之每一元素等於0,除了其值等於1的一個元素之外。等於1之元素之An
內之位置的索引等於n
。因此,當n
等於1時,An
等於[1,0,0,…,0];當n
等於2時,An
等於[0,1,0,…,0],等等。 記憶體114可儲存碼簿120。記憶體114可與向量編碼單元68A分離且可形成音訊編碼器件14之通用記憶體之一部分。碼簿120包括輸入項之集合,其中之每一者將各別碼-向量索引映射至空間向量118之集合中之各別空間向量。下表為實例碼簿。在此表中,每一各別列對應於各別輸入項,N
指示擴音器之數目,且D
表示源呈現格式,其表示為矩陣。
對於源擴音器設定之每一各別擴音器,表示單元115輸出對應於各別擴音器之碼-向量索引。舉例而言,表示單元115可輸出指示對應於第一通道之碼-向量索引為2、對應於第二通道之碼-向量索引等於4等等之資料。具有碼簿120之複本之解碼器件能夠使用碼-向量索引判定用於源擴音器設定之擴音器之空間向量。因此,碼-向量索引為一類空間向量表示資料。如上文所論述,位元串流產生單元52B可在位元串流56B包括空間向量表示資料71A。 此外,在一些實例中,表示單元115可獲得源擴音器設定資訊48且可包括指示源擴音器在空間向量表示資料71A中之位置的資料。在其他實例中,表示單元115並不包括指示源擴音器在空間向量表示資料71A中之位置的資料。相反,在至少一些此類實例中,源擴音器之位置可在音訊解碼器件22處經預組態。 在表示單元115包括指示源擴音器在空間向量表示資料71A中之位置的資料的實例中,表示單元115可以各種方式指示源擴音器之位置。在一個實例中,源擴音器設定資訊48指定環繞聲格式,諸如5.1格式、7.1格式或22.2格式。在此實例中,源擴音器設定中之擴音器中之每一者處於預定義位置。因此,表示單元115可在空間表示資料115中包括指示預定義環繞聲格式之資料。因為呈預定義環繞聲格式之擴音器處於預定義位置,故指示預定義環繞聲格式之資料可足以用於音訊解碼器件22產生匹配碼簿120之碼簿。 在另一實例中,ISO/IEC 23008-3定義用於不同擴音器佈局之複數個CICP揚聲器佈局索引值。在此實例中,源擴音器設定資訊48指定CICP揚聲器佈局索引(CICPspeakerLayoutIdx),如ISO/IEC 23008-3中所指定。呈現格式單元110可基於此CICP揚聲器佈局索引判定源擴音器設定中之擴音器之位置。因此,表示單元115可在空間向量表示資料71A中包括對CICP揚聲器佈局索引之指示。 在另一實例中,源擴音器設定資訊48指定源擴音器設定中之擴音器的任意數目及源擴音器設定中之擴音器的任意位置。在此實例中,呈現格式單元110可判定基於源擴音器設定中之擴音器之任意數目及源擴音器設定中之擴音器之任意位置形成之源呈現格式。在此實例中,源擴音器設定中之擴音器之任意位置可以各種方式表達。舉例而言,表示單元115可在空間向量表示資料71A中包括源擴音器設定中之擴音器的球面座標。在另一實例中,音訊編碼器件20及音訊解碼器件24經組態有具有對應於複數個預定義擴音器位置之輸入項之表。圖7及圖8為此等表之實例。在此實例中,並非空間向量表示資料71A進一步指定擴音器之球面座標,實情為空間向量表示資料71A可包括指示表中之條目之索引值的資料。傳信索引值可比傳信球面座標更高效。 圖9為說明根據本發明的一或多個技術之向量編碼單元68之實例實施之方塊圖。在圖9之實例中,向量編碼單元68之實例實施經標記為向量編碼單元68B。在圖9之實例中,空間向量單元68B包括碼簿程式庫150及選擇單元154。碼簿程式庫150可使用記憶體實施。碼簿程式庫150包括一或多個預定義碼簿152A至152N (統稱為「碼簿152」)。碼簿152中之每一各別者包括一或多個輸入項之集合。每一各別輸入項將各別碼-向量索引映射至各別空間向量。 碼簿152中之每一各別者對應於不同預定義源擴音器設定。舉例而言,碼簿程式庫150中之第一碼簿可對應於由兩個擴音器組成之源擴音器設定。在此實例中,碼簿程式庫150中之第二碼簿對應於由佈置在用於5.1環繞聲格式之標準位置處之五個擴音器組成之源擴音器設定。此外,在此實例中,碼簿程式庫150中之第三碼簿對應於由佈置在用於7.1環繞聲格式之標準位置處之七個擴音器組成之源擴音器設定。在此實例中,碼簿程式庫100中之第四碼簿對應於由佈置在用於22.2環繞聲格式之標準位置處之22個擴音器組成之源擴音器設定。相比於先前實例中所提及之彼等碼簿,其他實例可包括更多、更少或不同碼簿。 在圖9之實例中,選擇單元154接收源擴音器設定資訊48。在一個實例中,源擴音器資訊48可由識別預定義環繞聲格式(諸如5.1、7.1 22.2及其他格式)之資訊組成或包含該資訊。在另一實例中,源擴音器資訊48由識別另一類型之預定義數目及佈置之擴音器的資訊組成或包含該資訊。 選擇單元154基於源擴音器設定資訊識別碼簿152中之哪一者適用於音訊解碼器件24所接收之音訊信號。在圖9之實例中,選擇單元154輸出指示音訊信號50中之哪一者對應於經識別碼簿中之哪些輸入項的空間向量表示資料71A。舉例而言,選擇單元154可輸出用於音訊信號50中之每一者的碼-向量索引。 在一些實例中,向量編碼單元68採用圖6之預定義碼簿方法與圖9之動態碼簿方法之混合。舉例而言,如在本發明中其他處所描述,在使用以通道為基礎之音訊之情況下,每一各別通道對應於源擴音器設定之每一各別擴音器且向量編碼單元68判定用於源擴音器設定之每一各別擴音器之各別空間向量。在一些此類實例中,諸如在使用以通道為基礎之音訊的情況下,向量編碼單元68可使用一或多個預定義碼簿來判定源擴音器設定之特定擴音器之空間向量。向量編碼單元68可判定基於源擴音器設定形成之源呈現格式,且使用源呈現格式判定用於源擴音器設定之其他擴音器之空間向量。 圖10為說明根據本發明之一或多個技術之音訊解碼器件22之實例實施的方塊圖。圖5中所示之音訊解碼器件22之實例實施標記為音訊解碼器件22B。圖10中之音訊解碼器件22之實施包括記憶體200、解多工單元202B、音訊解碼單元204、向量解碼單元207、HOA產生單元208A及呈現單元210。在其他實例中,音訊解碼器件22B可包括更多、更多或不同單元。舉例而言,呈現單元210可實施於諸如擴音器、頭戴式耳機單元或音訊基礎或衛星器件之單獨器件中,且可經由一或多個有線或無線連接而連接至音訊解碼器件22B。 與圖4中可在不接收空間定位向量之指示的情況下基於擴音器位置資訊48而產生空間定位向量72的音訊解碼器件22A相對比,音訊解碼器件22B包括可基於接收到的空間向量表示資料71A判定空間定位向量72的向量解碼單元207。 在一些實例中,向量解碼單元207可基於藉由空間向量表示資料71A表示之碼簿索引判定空間定位向量72。作為一個實例,向量編碼單元207可自經動態(例如,基於擴音器位置資訊48)創建之碼簿中之索引判定空間定位向量72。下文參考圖11論述自經動態創建之碼簿中之索引判定空間定位向量的向量解碼單元207之一個實例之額外細節。作為另一實例,向量解碼單元207可自包括用於預定源擴音器設定之空間定位向量的碼簿中之索引判定空間定位向量72。下文參考圖12論述自包括用於預定源擴音器設定之空間定位向量的碼簿中之索引判定空間定位向量之向量解碼單元207的一個實例之額外細節。 在任何情況下,向量解碼單元207可將空間定位向量72提供至音訊解碼器件22B之一或多個其他組件,諸如HOA產生單元208A。 因此,音訊解碼器件22B可包括經組態以儲存經寫碼音訊位元串流之記憶體(例如,記憶體200)。音訊解碼器件22B可進一步包括一或多個處理器,其電耦接至記憶體且經組態以:自經寫碼音訊位元串流獲得用於源擴音器組態之多通道音訊信號(例如,針對擴音器位置資訊48之經寫碼音訊信號62)之表示;獲得HOA域中之基於源擴音器組態之複數個SPV (例如,空間定位向量72)之表示;及基於多通道音訊信號及複數個空間定位向量產生HOA音場(例如,HOA係數212A)。 圖11為說明根據本發明的一或多個技術之向量解碼單元207之實例實施之方塊圖。在圖11之實例中,向量解碼單元207之實例實施經標記為向量解碼單元207A。在圖11之實例中,向量解碼單元207包括呈現格式單元250、向量創建單元252、記憶體254及重建構單元256。在其他實例中,向量解碼單元207可包括更多、更少或不同組件。 呈現格式單元250之操作方式可類似於圖6之呈現格式單元110之操作方式。正如呈現格式單元110,呈現格式單元250可接收源擴音器設定資訊48。在一些實例中,源擴音器設定資訊48自位元串流獲得。在其他實例中,源擴音器設定資訊48在音訊解碼器件22處經預組態。此外,與呈現格式單元110相同,呈現格式單元250可產生源呈現格式258。源呈現格式258可匹配由呈現格式單元110產生之源呈現格式116。 向量創建單元252之操作方式可類似於圖6之向量創建單元112之操作方式。向量創建單元252可使用源呈現格式258來判定空間向量260之集合。空間向量260可匹配由向量產生單元112產生之空間向量118。記憶體254可儲存碼簿262。記憶體254可與向量解碼206分離且可形成音訊解碼器件22之通用記憶體之一部分。碼簿262包括輸入項之集合,其中之每一者將各別碼-向量索引映射至空間向量260之集合中之各別空間向量。碼簿262可匹配圖6之碼簿120。 重建構單元256可輸出經識別為對應於源擴音器設定之特定擴音器之空間向量。舉例而言,重建構單元256可輸出空間向量72。 圖12為說明根據本發明的一或多個技術之向量解碼單元207之替代實施之方塊圖。在圖12之實例中,向量解碼單元207之實例實施經標記為向量解碼單元207B。向量解碼單元207包括碼簿程式庫300及重建構單元304。碼簿程式庫300可使用記憶體實施。碼簿程式庫300包括一或多個預定義碼簿302A至302N (統稱為「碼簿302」)。碼簿302中之每一各別者包括一或多個輸入項之集合。每一各別輸入項將各別碼-向量索引映射至各別空間向量。碼簿程式庫300可匹配圖9之碼簿程式庫150。 在圖12之實例中,重建構單元304獲得源擴音器設定資訊48。以類似於圖9之選擇單元154之方式,重建構單元304可使用源擴音器設定資訊48來識別碼簿程式庫300中之可適用碼簿。重建構單元304可針對源擴音器設定資訊之擴音器輸出在可適用碼簿中所指定的空間向量。 圖13為說明根據本發明的一或多種技術之音訊編碼器件14之實例實施之方塊圖,其中該音訊編碼器件14經組態以編碼基於對象之音訊資料。圖13中所示之音訊編碼器件14之實例實施標記為14C。在圖13之實例中,音訊編碼器件14C包括向量編碼單元68C、位元串流產生單元52C及記憶體54。 在圖13之實例中,向量編碼單元68C獲得源擴音器設定資訊48。另外,向量編碼單元58C獲得音訊對象位置資訊350。音訊對象位置資訊350指定音訊對象之虛擬位置。向量編碼單元68B使用源擴音器設定資訊48及音訊對象位置資訊350來判定音訊對象之空間向量表示資料71B。下文詳細描述之圖14描述向量編碼單元68C之實例實施。 位元串流產生單元52C獲得音訊對象之音訊信號50B。位元串流產生單元52C可在位元串流56C中包括表示音訊信號50C之資料及空間向量表示資料71B。在一些實例中,位元串流產生單元52C可使用諸如MP3、AAC、Vorbis、FLAC及Opus之已知音訊壓縮格式來編碼音訊信號50B。在一些情況下,位元串流產生單元52C將音訊信號50B自一種壓縮格式轉碼至另一種壓縮格式。在一些實例中,音訊編碼器件14C可包括音訊編碼單元(諸如圖3及圖5之音訊編碼單元51)以編碼及/或轉碼音訊信號50B。在圖13之實例中,在由音訊編碼器件14C輸出之前,記憶體54儲存位元串流56C之至少部分。 因此,音訊編碼器件14C包括記憶體,其經組態以儲存音訊對象之音訊信號(例如音訊信號50B)達一時間間隔及指示音訊對象之虛擬源位置之資料(例如,音訊對象位置資訊350)。此外,音訊編碼器件14C包括電耦接至記憶體之一或多個處理器。該一或多個處理器經組態以基於指示音訊對象之虛擬源位置的資料及指示複數個擴音器位置之資訊(例如,源擴音器設定資訊48)來判定HOA域中之音訊對象的空間向量。此外,在一些實例中,音訊編碼器件14C在位元串流中可包括表示音訊信號之資料及表示空間向量之資料。在一些實例中,表示音訊信號之資料並非係HOA域中之資料的表示。此外,在一些實例中,描述在時間間隔期間含有音訊信號之音場之HOA係數之集合等於或等效於音訊信號乘以空間向量之轉置。 此外,在一些實例中,空間向量表示資料71B可包括指示源擴音器設定中之擴音器之位置的資料。位元串流產生單元52C可在位元串流56C中包括表示源擴音器設定之擴音器的位置的資料。在其他實例中,位元串流產生單元52C在位元串流56C中並不包括指示源擴音器設定中之擴音器之位置的資料。 圖14為說明根據本發明的一或多個技術之用於基於對象之音訊資料的向量編碼單元68C之實例實施的方塊圖。在圖14之實例中,向量編碼單元68C包括呈現格式單元400、中間向量單元402、向量終結單元404、增益判定單元406及量化單元408。 在圖14之實例中,呈現格式單元400獲得源擴音器設定資訊48。呈現格式單元400基於源擴音器設定資訊48判定源呈現格式410。呈現格式單元400可根據在本發明中其他處提供之實例中之一或多者判定源呈現格式410。 在圖14之實例中,中間向量單元402基於源呈現格式410判定中間空間向量412之集合。中間空間向量412之集合中之每一各別中間空間向量對應於源擴音器設定中之各別擴音器。舉例而言,若在源擴音器設定中存在N
個擴音器,則中間向量單元402判定N
個中間空間向量。對於源擴音器設定中之每一擴音器n
,其中n
之範圍自1至N
,則用於擴音器之中間空間向量可等於或等效於Vn
= [An
(DD T
)- 1 D
]T
。在此方程式中,D
為表示為矩陣之源呈現格式且An
為由數目等於N
之單列元件組成之矩陣。An
中之每一元件等於0,除了其值等於1之一個元件以外。等於1之元素之An
內之位置的索引等於n
。 此外,在圖14之實例中,增益判定單元406獲得源擴音器設定資訊48及音訊對象位置資料49。音訊對象位置資料49指定音訊對象之虛擬位置。舉例而言,音訊對象位置資料49可指定音訊對象之球面座標。在圖14之實例中,增益判定單元406判定增益因數416之集合。增益因數416之集合中之每一個各別增益因數對應於源擴音器設定之各別擴音器。增益判定單元406可使用向量基礎振幅平移(VBAP)來判定增益因數416。VBAP可用以利用任意擴音器設定置放虛擬音訊源,其中假定擴音器與收聽位置的相同距離。Pulkki的「Virtual Sound Source Positioning Using Vector Base Amplitude Panning」(Journal of Audio Engineering Society,第45卷,第6版,1997年6月)提供對VBAP之描述。 圖15為說明VBAP之概念圖。在VBAP中,應用於藉由三個揚聲器輸出之音訊信號之增益因數誘使收聽者感知到音訊信號來自位於三個擴音器之間的作用中三角形452內的虛擬源位置450。虛擬源位置450可為由音訊對象之定位座標指示之位置。舉例而言,在圖15之實例中,虛擬源位置450相比擴音器454B更接近擴音器454A。因此,用於擴音器454A之增益因數可大於用於擴音器454B之增益因數。具有較大數目之擴音器或具有兩個擴音器之其他實例係可能的。 VBAP使用幾何方法來計算增益因數416。在諸如圖15之實例中,當針對每一音訊對象使用三個擴音器時,該三個擴音器按三角形佈置以形成向量基。每一向量基由擴音器編號k
、m
、n
及在正規化至單位長度之笛卡爾座標中給定之擴音器位置向量Ik
、Im
及In
識別。用於擴音器k
、m
及n
之向量基可由下者定義:
音訊對象之所要方向Ω
= (θ , φ
)可給定為方位角φ
及仰角θ
。θ 、 φ
可為音訊對象之定位座標。笛卡爾座標中之虛擬源之單位長度位置向量p
(Ω
)因此由下者定義:
虛擬源位置可利用向量基及增益因素g( Ω ) =藉由下式表示:
藉由對向量基矩陣求逆,可藉由下式計算所需增益因數:
根據方程式(36)判定待使用之向量基。首先,針對所有向量基根據方程式(36)計算增益。隨後,對於每一向量基,藉由 評估增益因數上之最小值。使用其中具有最高值之向量基。大體上,不容許增益因數為負。取決於收聽室聲學,可針對能量保存來正規化增益因數。 在圖14之實例中,向量終結單元404獲得增益因數416。向量終結單元404基於中間空間向量412及增益因數416產生音訊對象之空間向量418。在一些實例中,向量終結單元404使用以下方程式判定空間向量。
在以上方程式中,V
為空間向量,N
為源擴音器設定之擴音器之數目,g i
為擴音器i
之增益因數,且I i
為擴音器i
之中間空間向量。在其中增益判定單元406使用具有三個擴音器之VBAP的一些實例中,僅三個增益因數gi
為非零。 因此,在其中向量終結單元404使用方程式(37)判定空間向量418之實例中,空間向量418等於或等效於複數個運算元之總和。複數個運算元中之每一各別運算元對應於複數個擴音器位置中之各別擴音器位置。對於複數個擴音器位置中之每一各別擴音器位置,複數個擴音器位置向量包括用於各別擴音器位置之擴音器位置向量。此外,對於複數個擴音器位置中之每一各別擴音器位置,對應於各別擴音器位置之運算元等於或等效於用於各別擴音器位置之增益因數乘以用於各別擴音器位置之擴音器位置向量。在此實例中,用於各別擴音器位置之增益因數指示在各別擴音器位置處之音訊信號的各別增益。 因此,在此實例中,空間向量418等於或等效於複數個運算元之總和。複數個運算元中之每一各別運算元對應於複數個擴音器位置中之各別擴音器位置。對於複數個擴音器位置中之每一各別擴音器位置,複數個擴音器位置向量包括用於各別擴音器位置之擴音器位置向量。此外,對應於各別擴音器位置之運算元等於或等效於用於各別擴音器位置之增益因數乘以用於各別擴音器位置之擴音器位置向量。在此實例中,用於各別擴音器位置之增益因數指示在各別擴音器位置處之音訊信號的各別增益。 總之,在一些實例中,視訊編碼單元68C之呈現格式單元400可判定用於將HOA係數之集合呈現為用於源擴音器位置處之擴音器的擴音器饋送的呈現格式。此外,向量終結單元404可判定複數個擴音器位置向量。複數個擴音器位置向量中之每一各別擴音器位置向量可對應於複數個擴音器位置中之各別擴音器位置。為判定複數個擴音器位置向量,增益判定單元406可針對複數個擴音器位置中之每一各別擴音器位置基於音訊對象之位置座標判定用於各別擴音器位置之增益因數。用於各別擴音器位置之增益因數可指示在各別擴音器位置處之增益信號之各別增益。此外,對於複數個擴音器位置中之每一各別擴音器位置,基於音訊對象之位置座標判定,中間向量單元402可基於呈現格式判定對應於各別擴音器位置之擴音器位置向量。向量終結單元404可將空間向量判定為複數個運算元之總和,該複數個運算元中之每一各別運算元對應於複數個擴音器位置中之各別擴音器位置。對於複數個擴音器位置之每一各別擴音器位置,對應於各別擴音器位置之運算元等於或等效於各別擴音器位置之增益因數乘以對應於各別擴音器位置之擴音器位置向量。 量化單元408量化用於音訊對象之空間向量。舉例而言,量化單元408可根據本發明中其他處所描述之向量量化技術來量化空間向量。舉例而言,量化單元408可使用純量量化、具有霍夫曼(Huffman)寫碼之純量量化或關於圖17所描述之向量量化技術來量化空間向量418。因此,表示包括於位元串流70C中之空間向量之資料為經量化空間向量。 如上文所論述,空間向量418可等於或等效於複數個運算元之總和。出於本發明之目的,在其中以下中之任一者為真的情況下,第一元素可被視為等於第二元素:(1)第一元素之值在數學上等於第二元素之值,(2)第一元素之值當經捨入時(例如,歸因於位元深度、暫存器限制、浮點表示、固定點表示、經二進位寫碼十進位表示等)與當經捨入時(例如,歸因於位元深度、暫存器限制、浮點表示、固定點表示、經二進位寫碼十進位表示等)的第二元素之值相同,或(3)第一元素之值等於第二元素之值。 圖16為說明根據本發明的一或多個技術之音訊解碼器件22之實例實施之方塊圖,其中該音訊解碼器件22經組態以解碼基於對象之音訊資料。圖16中所示之音訊解碼器件22之實例實施標記為22C。在圖16之實例中,音訊解碼器件22C包括記憶體200、解多工單元202C、音訊解碼單元66、向量解碼單元209、HOA產生單元208B及呈現單元210。大體上,記憶體200、解多工單元202C、音訊解碼單元66、HOA產生單元208B及呈現單元210可以與關於圖10之實例的記憶體200、解多工單元202B、音訊解碼單元204、HOA產生單元208A及呈現單元210描述之方式類似的方式操作。在其他實例中,關於圖14描述之音訊解碼器件22之實施可包括更多、更少或不同單元。舉例而言,呈現單元210可實施於諸如擴音器、頭戴式耳機單元或音訊基礎或衛星器件之單獨器件中。 在圖16之實例中,音訊解碼器件22C獲得位元串流56C。位元串流56C可包括音訊對象之經編碼之基於對象之音訊信號及表示音訊對象之空間向量的資料。在圖16之實例中,基於對象之音訊信號並未基於HOA域中之資料、自HOA域中之資料導出或表示HOA域中之資料。然而,音訊對象之空間向量在HOA域中。在圖16之實例中,記憶體200經組態以儲存位元串流56C之至少部分且因此經組態以儲存表示音訊對象之音訊信號的資料及表示音訊對象之空間向量的資料。 解多工單元202C可自位元串流56C獲得空間向量表示資料71B。空間向量表示資料71B包括表示用於每一音訊對象之空間向量的資料。解多工單元202C可自位元串流56C獲得表示音訊對象之音訊信號的資料,且可自位元串流56C獲得表示用於音訊對象之空間向量的資料。在實例中,諸如在表示空間向量之資料經量化的情況下,向量解碼單元209可逆量化空間向量以判定音訊對象之空間向量72。 HOA產生單元208B可接著以關於圖10描述之方式使用空間向量72。舉例而言,HOA產生單元208B可基於空間向量72及音訊信號70產生HOA音場,諸如HOA係數212B。 因此,音訊解碼器件22B包括經組態以儲存位元串流之記憶體58。此外,音訊解碼器件22B包括電耦接至記憶體之一或多個處理器。該一或多個處理器經組態以基於位元串流中之資料判定音訊對象之音訊信號,該音訊信號對應於時間間隔。此外,該一或多個處理器經組態以基於位元串流中之資料判定用於音訊對象之空間向量。在此實例中,空間向量經定義於HOA 域中。此外,在一些實例中,該一或多個處理器將音訊對象之音訊信號及空間向量轉換為描述時間間隔期間之音場的HOA係數212B之集合。如在本發明中其他處所描述,HOA產生單元208B可判定HOA係數之集合,以使得HOA係數之集合等於音訊信號乘以空間向量之轉置。 在圖16之實例中,呈現單元210可以類似於圖10之呈現單元210之方式操作。舉例而言,呈現單元210可藉由將呈現格式(例如,局部呈現矩陣)應用於HOA係數212B而產生複數個音訊信號26。複數個音訊信號26中之每一各別音訊信號可對應於複數個擴音器中之各別擴音器,諸如圖1之擴音器24。 在一些實例中,呈現單元210B可基於指示局部擴音器設定之位置的資訊28來調適局部呈現格式。呈現單元210B可以下文關於圖19描述之方式來調適局部呈現格式。 圖17為說明根據本發明之一或多個技術之音訊編碼器件14之實例實施之方塊圖,其中該音訊編碼器件14經組態以量化空間向量。圖17中所示之音訊編碼器件14之實例實施標記為14D。在圖17之實例中,音訊編碼器件14D包括向量編碼單元68D、量化單元500、位元串流產生單元52D及記憶體54。 在圖17之實例中,向量編碼單元68D可以與上文關於圖5及/或圖13描述之方式類似的方式來操作。舉例而言,若音訊編碼器件14D編碼以通道為基礎之音訊,則向量編碼單元68D可獲得源擴音器設定資訊48。向量編碼單元68可基於由源擴音器設定資訊48指定之擴音器的位置來判定空間向量之集合。若音訊編碼器件14D編碼基於對象之音訊,則向量編碼單元68D除源擴音器設定資訊48之外可獲得音訊對象位置資訊350。音訊對象位置資訊49指定音訊對象之虛擬源位置。在此實例中,空間向量單元68D可以與圖13之實例中所示之向量編碼單元68C判定用於音訊對象之空間向量大致相同的方式來判定用於音訊對象之空間向量。在一些實例中,空間向量單元68D經組態以判定用於以通道為基礎之音訊及基於對象之音訊兩者之空間向量。在其他實例中,向量編碼單元68D經組態以判定用於以通道為基礎之音訊或基於對象之音訊中之僅一者的空間向量。 音訊編碼器件14D之量化單元500量化藉由向量編碼單元68C判定之空間向量。量化單元500可使用各種量化技術來量化空間向量。量化單元500可經組態以僅執行單一量化技術或可經組態以執行多個量化技術。在量化單元500經組態以執行多個量化技術之實例中,量化單元500可接收指示使用該等量化技術中之哪一者之資料或可內部判定應用該等量化技術中之哪一者。 在一個實例量化技術中,空間向量可由向量編碼單元68D產生,其中通道或對象i
經表示為Vi
。在此實例中,量化單元500可計算中間空間向量,以使得等於,其中可為量化步長。此外,在此實例中,量化單元500可量化中間空間向量。中間空間向量之經量化版本可表示為。另外,量化單元500可量化。之經量化版本可表示為。量化單元500可輸出及以用於包含於位元串流56D中。因此,量化單元500可輸出用於音訊信號50D之經量化向量資料之集合。用於音訊信號50C之經量化向量資料之集合可包括及。 量化單元500可以各種方式量化中間空間向量。在一個實例中,量化單元500可將純量量化(SQ)應用於中間空間向量。在另一實例量化技術中,量化單元200可將具有霍夫曼寫碼之純量量化應用於中間空間向量。在另一實例量化技術中,量化單元200可將向量量化應用於中間空間向量。在量化單元200應用純量量化技術、純量量化加霍夫曼寫碼技術或向量量化技術之實例中,音訊解碼器件22可逆量化經量化之空間向量。 在概念上,在純量量化中,數線(number line)經劃分為複數個頻帶,每一者對應於不同純量值。當量化單元500將純量量化應用於中間空間向量時,量化單元500用對應於含有由各別元素指定之值的頻帶的純量值來替換中間空間向量之每一各別元素。為便於解釋,本發明可參考對應於含有由空間向量之元素指定為「經量化值」之值的頻帶之純量值。在此實例中,量化單元500可輸出包括經量化值之經量化空間向量。 純量量化加霍夫曼寫碼技術可類似於純量量化技術。然而,量化單元500另外判定用於經量化值中之每一者的霍夫曼碼。量化單元500用相對應的霍夫曼碼替換空間向量之經量化值。因此,經量化空間向量中之每一元素指定霍夫曼碼。霍夫曼碼允許該等元素中之每一者表示為變數長度值而非固定長度值,其可提高資料壓縮。音訊解碼器件22D可藉由判定對應於霍夫曼碼之經量化值及將該等經量化值復原至其原始位元深度來判定空間向量之逆量化版本。 在量化單元500將向量量化應用於中間空間向量之至少一些實例中,量化單元500可將中間空間向量變換為低維之離散子空間中的值之集合。為便於解釋,本發明可將低維之離散子空間之尺寸稱為「降低維度集合」且將空間向量之原始維度稱為「全維度集合」。舉例而言,全維度集合可由二十二個維度組成且降低維度集合可由八個維度組成。因此,在此情況下,量化單元500將中間空間向量自二十二個值之集合變換至八個值之集合。此變換可採用自空間向量之高維空間至低維子空間的投影之形式。 在量化單元500應用向量量化之至少一些實例中,用包括輸入項之集合的碼簿來組態量化單元500。可預定義或動態判定碼簿。碼簿可基於空間向量之統計分析。碼簿中之每一輸入項指示低緯子空間中之點。在將空間向量自全維度集合變換至降低維度集合之後,量化單元500可判定對應於經變換之空間向量之碼簿輸入項。在碼簿中之碼簿輸入項中,對應於經變換之空間向量之碼簿輸入項指定最接近由該經變換之空間向量指定之點的點。在一個實例中,量化單元500輸出由經識別之碼簿輸入項指定的向量作為經量化空間向量。在另一實例中,量化單元200輸出呈碼-向量索引形式之經量化空間向量,該碼-向量索引指定對應於經變換之空間向量的碼簿輸入項之索引。舉例而言,若對應於經變換之空間向量之碼簿輸入項為碼簿中之第8個輸入項,則碼-向量索引可等於8。在此實例中,音訊解碼器件22可藉由查找碼簿中之相對應的輸入項來逆量化該碼-向量索引。音訊解碼器件22D可藉由假定在全維度集合中而非在降低維度集合中之空間向量之分量等於零來判定空間向量的逆量化版本。 在圖17之實例中,音訊編碼器件14D之位元串流產生單元52D自量化單元200獲得經量化空間向量204,獲得音訊信號50C且輸出位元串流56D。在音訊編碼器件14D編碼以通道為基礎之音訊的實例中,位元串流產生單元52D可獲得用於每一各別通道之音訊信號及經量化空間向量。在音訊編碼器件14D編碼基於對象音訊的實例中,位元串流產生單元52D可獲得用於每一各別音訊對象之音訊信號及經量化空間向量。在一些實例中,位元串流產生單元52D可編碼音訊信號50C以用於更強的資料壓縮。舉例而言,位元串流產生單元52D可使用諸如MP3、AAC、Vorbis、FLAC及Opus之已知音訊壓縮格式來編碼音訊信號50C中之每一者。在一些情況下,位元串流產生單元52C將音訊信號50C自一種壓縮格式轉碼至另一種壓縮格式。位元串流產生單元52D在位元串流56C中可包括經量化空間向量作為伴隨經編碼音訊信號之後設資料。 因此,音訊編碼器件14D可包括一或多個處理器,其經組態以:接收針對源擴音器組態之多通道音訊信號(例如,針對擴音器位置資訊48之多通道音訊信號50);基於源擴音器組態獲得高階立體混響(HOA)域中之複數個空間定位向量,該複數個空間定位向量與多通道音訊信號組合而表示高階立體混響(HOA)係數,該等高階立體混響(HOA)係數表示多通道音訊信號;及在經寫碼音訊位元串流(例如,位元串流56D)中編碼多通道音訊信號(例如,音訊信號50C)之表示及複數個空間定位向量(例如,經量化向量資料554)之指示。此外,音訊編碼器件14A可包括電耦接至一或多個處理器之記憶體(例如記憶體54),其經組態以儲存經寫碼音訊位元串流。 圖18為說明根據本發明之一或多個技術之用於與圖17中所示之音訊編碼器件14之實例實施一起使用的音訊解碼器件22之實例實施的方塊圖。圖18中所示之音訊解碼器件22之實例實施標記為音訊解碼器件22D。類似於關於圖10描述之音訊解碼器件22之實施,圖18中之音訊解碼器件22之實施包括記憶體200、解多工單元202D、音訊解碼單元204、HOA產生單元208C及呈現單元210。 與關於圖10描述之音訊解碼器件22之實施相對比,關於圖18描述之音訊解碼器件22之實施可包括逆量化單元550代替向量解碼單元207。在其他實例中,音訊解碼器件22D可包括更多、更多或不同單元。舉例而言,呈現單元210可實施於諸如擴音器、頭戴式耳機單元或音訊基礎或衛星器件之單獨器件中。 記憶體200、解多工單元202D、音訊解碼單元204、HOA產生單元208C、及呈現單元210可以與在本發明中其他處關於圖10之實例所描述之相同方式來操作。然而,解多工單元202D可自位元串流56D獲得經量化向量資料554之集合。經量化向量資料之每一各別集合對應於音訊信號70中之各別者。在圖18之實例中,經量化向量資料554之集合經表示為V ' 1
至V ' N
。逆量化單元550可使用經量化向量資料554之集合來判定逆量化之空間向量72。逆量化單元550可將逆量化之空間向量72提供至音訊解碼器件22D之一或多個組件,諸如HOA產生單元208C。 逆量化單元550可使用經量化向量資料554之集合以各種方式判定逆量化之向量。在一個實例中,經量化向量資料中之每一集合包括用於音訊信號之經量化之空間向量及 經量化之量化步長 。在此實例中,逆量化單元550可基於經量化之空間向量及 經量化之量化步長 判定逆量化之空間向量。舉例而言,逆量化單元550可判定逆量化之空間向量,以使得。基於逆量化之空間向量及音訊信號,HOA產生單元208C可將HOA域表示判定為 。如在本發明中其他處所描述,呈現單元210可獲得局部呈現格式。另外,擴音器饋送80可經表示為。呈現單元210C可產生擴音器饋送26作為。 因此,音訊解碼器件22D可包括記憶體(例如記憶體200),其經組態以儲存經寫碼之音訊位元串流(例如,位元串流56D)。音訊解碼器件22D可進一步包括一或多個處理器,其電耦接至記憶體且經組態以:自經寫碼音訊位元串流獲得用於源擴音器組態之多通道音訊信號(例如,用於擴音器位置資訊48之經寫碼音訊信號62)之表示;獲得高階立體混響(HOA)域中之基於源擴音器組態之複數個空間定位向量(SPV) (例如,空間定位向量72)之表示;及基於多通道音訊信號及複數個空間定位向量產生HOA音場(例如,HOA係數212C)。 圖19為根據本發明之一或多個技術之呈現單元210之實例實施的方塊圖。如圖19中所說明,呈現單元210可包括收聽者定位單元610、擴音器位置單元612、呈現格式單元614、記憶體615及擴音器饋送產生單元616。 收聽者定位單元610可經組態以判定複數個擴音器(諸如圖1之擴音器24)之收聽者的位置。在一些實例中,收聽者定位單元610可定期(例如每1秒、每5秒、每10秒、每30秒、每1分鐘、每5分鐘、每10分鐘等)判定收聽者之位置。在一些實例中,收聽者定位單元610可基於由收聽者定位之器件所產生的信號來判定收聽者之位置。可由收聽者定位單元610使用以判定收聽者之位置之器件的一些實例包括(但不限於)行動計算器件、視訊遊戲控制器、遙控器或可指示收聽者之位置的任何其他器件。在一些實例中,收聽者定位單元610可基於一或多個感測器判定收聽者之位置。可由收聽者定位單元610使用以判定收聽者之位置之感測器的一些實例包括(但不限於)攝影機、麥克風、壓力感測器(例如,嵌入或附接至傢俱、車輛座椅)、安全帶感測器或可指示收聽者之位置的任何其他感測器。收聽者定位單元610可將收聽者之位置之指示618提供至呈現單元210之一或多個其他組件,諸如呈現格式單元614。 擴音器位置單元612可經組態以獲得複數個局部擴音器(諸如圖1之擴音器24)之位置的表示。在一些實例中,擴音器位置單元612可基於局部擴音器設定資訊28判定複數個局部擴音器之位置的表示。擴音器位置單元612可自廣泛多種來源獲得局部擴音器設定資訊28。作為一個實例,使用者/收聽者可經由音訊解碼單元22之使用者介面手動鍵入局部擴音器設定資訊28。作為另一實例,擴音器位置單元612可使複數個局部擴音器發射各種頻調並利用麥克風以基於該等頻調判定局部擴音器設定資訊28。作為另一實例,擴音器位置單元612可接收來自一或多個攝影機之影像,且執行影像辨識以基於該等影像判定局部擴音器設定資訊28。擴音器位置單元612可將複數個局部擴音器之位置之表示620提供至呈現單元210之一或多個其他組件,諸如呈現格式單元614。作為另一實例,局部擴音器設定資訊28可(例如在工廠處)經預程式化至音訊解碼單元22中。舉例而言,在擴音器24經整合於車輛中的情況下,局部擴音器設定資訊28可藉由車輛之製造商及/或擴音器24之安裝者預程式化至音訊解碼單元22中。 呈現格式單元614可經組態以基於複數個局部擴音器(例如,局部重現佈局)之位置的表示及複數個局部擴音器之收聽者的位置產生局部呈現格式622。在一些實例中,呈現格式單元614可產生局部呈現格式622,以使得當HOA係數212經呈現為擴音器饋送且經由複數個局部擴音器播放時,聲學「甜點」位於收聽者之位置處或附近。在一些實例中,為產生局部呈現格式622,呈現格式單元614可產生局部呈現矩陣。呈現格式單元614可將局部呈現格式622提供至呈現單元210之一或多個其他組件,諸如擴音器饋送產生單元616及/或記憶體615。 記憶體615可經組態以儲存局部呈現格式,諸如局部呈現格式622。在局部呈現格式622包含局部呈現矩陣之情況下,記憶體615可經組態以儲存局部呈現矩陣。 擴音器饋送產生單元616可經組態以將HOA係數呈現為各自對應於複數個局部擴音器中之各別局部擴音器的複數個輸出音訊信號。在圖19之實例中,擴音器饋送產生單元616可基於局部呈現格式622來呈現HOA係數,以使得當所得擴音器饋送26經由複數個局部擴音器播放時,聲學「甜點」位於如由收聽者定位單元610所判定之收聽者的位置處或附近。在一些實例中,擴音器饋送產生單元616可根據方程式(35)產生擴音器饋送26,其中表示擴音器饋送26,H
為HOA係數212,且為局部呈現矩陣之轉置。
圖20說明根據本發明之一或多個技術之汽車揚聲器播放環境。如圖20中所說明,在一些實例中,音訊解碼器件22可包括於諸如汽車2000之車輛中。在一些實例中,車輛2000可包括一或多個乘客感測器。可包括於車輛2000中之乘客感測器之實例包括但不一定限於安全帶感測器及整合於車輛2000之座椅中的壓力感測器。 圖21為說明根據本發明之一或多個技術之音訊編碼器件之實例操作的流程圖。圖21之技術可由音訊編碼器件(諸如圖1、圖3、圖5、圖13及圖17之音訊編碼器件14)之一或多個處理器執行,但具有與音訊編碼器件14不同之組態之音訊編碼器件可執行圖21之技術。 根據本發明之一或多種技術,音訊編碼器件14可接收針對源擴音器組態之多通道音訊信號(2102)。舉例而言,音訊編碼器件14可接收呈5.1環繞聲格式之六通道音訊資料(例如,針對5.1之源擴音器組態)。如上文所論述,由音訊編碼器件14接收之多通道音訊信號可包括圖1之實時音訊資料10及/或預產生之音訊資料12。 音訊編碼器件14可基於源擴音器組態獲得高階立體混響(HOA)域中之複數個空間定位向量,該複數個空間定位向量可與多通道音訊信號組合以產生表示多通道音訊信號之HOA音場(2104)。在一些實例中,複數個空間定位向量可與多通道音訊信號組合以根據以上方程式(20)產生表示多通道音訊信號之HOA音場。 音訊編碼器件14可在經寫碼音訊位元串流中編碼多通道音訊信號之表示及複數個空間定位向量之指示(2016)。作為一個實例,音訊編碼器件14A之位元串流產生單元52A可在位元串流56A中編碼經寫碼音訊資料62之表示及擴音器位置資訊48之表示。作為另一實例,音訊編碼器件14B之位元串流產生單元52B可在位元串流56B中編碼經寫碼音訊資料62之表示及空間向量表示資料71A。作為另一實例,音訊編碼器件14D之位元串流產生單元52D可在位元串流56D中編碼音訊信號50C之表示及經量化向量資料554之表示。 圖22為說明根據本發明之一或多個技術之音訊解碼器件之實例操作的流程圖。圖22之技術可由音訊解碼器件(諸如圖1、圖4、圖10、圖16及圖18之音訊解碼器件22)之一或多個處理器執行,但具有與音訊編碼器件14不同之組態之音訊編碼器件可執行圖22之技術。 根據本發明之一或多個技術,音訊解碼器件22可獲得經寫碼音訊位元串流(2202)。作為一個實例,音訊解碼器件22可經由可為有線或無線通道之傳輸通道、資料儲存器件或類似者獲得位元串流。作為另一實例,音訊解碼器件22可自儲存媒體或檔案伺服器獲得位元串流。 音訊解碼器件22可自經寫碼音訊位元串流獲得針對源擴音器組態之多通道音訊信號之表示(2204)。舉例而言,音訊解碼單元204可自位元串流獲得呈5.1環繞聲格式之六通道音訊資料(亦即,針對5.1之源擴音器組態)。 音訊解碼器件22可獲得高階立體混響(HOA)域中之基於源擴音器組態之複數個空間定位向量的表示(2206)。作為一個實例,音訊解碼器件22A之向量創建單元206可基於源擴音器設定資訊48產生空間定位向量72。作為另一實例,音訊解碼器件22B之向量解碼單元207可自空間向量表示資料71A解碼基於源擴音器設定資訊48之空間定位向量72。作為另一實例,音訊解碼器件22D之逆量化單元550可逆量化經量化之向量資料554以產生基於源擴音器設定資訊48之空間定位向量72。 音訊解碼器件22可基於多通道音訊信號及複數個空間定位向量產生HOA音場(2208)。舉例而言,HOA產生單元208A可根據以上方程式(20)基於多通道音訊信號70及空間定位向量72產生HOA係數212A。 音訊解碼器件22可呈現HOA音場以產生複數個音訊信號(2210)。舉例而言,呈現單元210 (其可或可不包括於音訊解碼器件22中)可呈現HOA係數之集合以基於局部呈現組態產生複數個音訊信號(例如。局部呈現格式)。在一些實例中,呈現單元210可根據以上方程式(21)呈現HOA係數之集合。 圖23為說明根據本發明之一或多個技術之音訊編碼器件之實例操作的流程圖。圖23之技術可由音訊編碼器件(諸如圖1、圖3、圖5、圖13及圖17之音訊編碼器件14)之一或多個處理器執行,但具有與音訊編碼器件14不同之組態之音訊編碼器件可執行圖23之技術。 根據本發明之一或多個技術,音訊編碼器件14可接收音訊對象之音訊信號及指示音訊對象之虛擬源位置之資料(2230)。此外,音訊編碼器件14可基於指示音訊對象之虛擬源位置之資料及指示複數個擴音器位置之資料來判定HOA域中之音訊對象之空間向量(2232)。 圖24為說明根據本發明之一或多個技術之音訊解碼器件之實例操作的流程圖。圖24之技術可由音訊解碼器件(諸如圖1、圖4、圖10、圖16及圖18之音訊解碼器件22)之一或多個處理器執行,但具有與音訊編碼器件14不同之組態之音訊編碼器件可執行圖24之技術。 根據本發明之一或多個技術,音訊解碼器件22可自經寫碼音訊位元串流獲得音訊對象之音訊信號之基於對象的表示(2250)。在此實例中,音訊信號對應於時間間隔。此外,音訊解碼器件22可自經寫碼音訊位元串流獲得用於音訊對象之空間向量之表示(2252)。在此實例中,空間向量經定義於HOA域中且係基於複數個擴音器位置。HOA產生單元208B (或音訊解碼器件22之另一單元)可將音訊對象之音訊信號及空間向量轉換為描述時間間隔期間之音場之HOA係數的集合(2254)。 圖25為說明根據本發明之一或多個技術之音訊編碼器件之實例操作的流程圖。圖25之技術可由音訊編碼器件(諸如圖1、圖3、圖5、圖13及圖17之音訊編碼器件14)之一或多個處理器執行,但具有與音訊編碼器件14不同之組態之音訊編碼器件可執行圖25之技術。 根據本發明之一或多個技術,音訊編碼器件14可在經寫碼音訊位元串流中包括針對時間間隔之一或多個音訊信號之集合的基於對象或以通道為基礎之表示(2300)。此外,音訊編碼器件14可基於擴音器位置之集合判定HOA域中之一或多個空間向量之集合(2302)。在此實例中,空間向量之集合中之每一各別空間向量對應於音訊信號之集合中之各別音訊信號。此外,在此實例中,音訊編碼器件14可產生表示空間向量之經量化版本的資料(2304)。此外,在此實例中,音訊編碼器件14可在經寫碼音訊位元串流中包括表示空間向量之經量化版本之資料(2306)。 圖26為說明根據本發明之一或多個技術之音訊解碼器件之實例操作的流程圖。圖26之技術可由音訊解碼器件(諸如圖1、圖4、圖10、圖16及圖18之音訊解碼器件22)之一或多個處理器執行,但具有與音訊解碼器件22不同之組態之音訊解碼器件可執行圖26之技術。 根據本發明之一或多個技術,音訊解碼器件22可自經寫碼音訊位元串流獲得針對時間間隔之一或多個音訊信號之集合的基於對象或以通道為基礎之表示(2400)。此外,音訊解碼器件22可自經寫碼音訊位元串流獲得表示一或多個空間向量之集合之經量化版本的資料(2402)。在此實例中,空間向量之集合中之每一各別空間向量對應於音訊信號之集合中之各別音訊信號。此外,在此實例中,空間向量中之每一者在HOA域中且係基於擴音器位置之集合計算。 圖27為說明根據本發明之一或多個技術之音訊解碼器件之實例操作的流程圖。圖27之技術可由音訊解碼器件(諸如圖1、圖4、圖10、圖16及圖18之音訊解碼器件22)之一或多個處理器執行,但具有與音訊解碼器件22不同之組態之音訊編碼器件可執行圖27之技術。 根據本發明之一或多個技術,音訊解碼器件22可獲得高階立體混響(HOA)音場(2702)。舉例而言,音訊解碼器件22之HOA產生單元(例如,HOA產生單元208A/208B/208C)可將HOA係數(例如,HOA係數212A/212B/212C)之集合提供至音訊解碼器件22之呈現單元210。 音訊解碼器件22可獲得複數個局部擴音器之位置之表示(2704)。舉例而言,音訊解碼器件22之呈現單元210之擴音器位置單元612可基於局部擴音器設定資訊(例如,局部擴音器設定資訊28)來判定複數個局部擴音器之位置之表示。如上文所論述,擴音器位置單元612可自廣泛多種來源獲得局部擴音器設定資訊28。 音訊解碼器件22可定期判定收聽者之位置(2706)。舉例而言,在一些實例中,音訊解碼器件22之呈現單元210之收聽者定位單元610可基於由收聽者定位之器件所產生之信號來判定收聽者之位置。可由收聽者定位單元610使用以判定收聽者之位置之器件的一些實例包括(但不限於)行動計算器件、視訊遊戲控制器、遙控器或可指示收聽者之位置的任何其他器件。在一些實例中,收聽者定位單元610可基於一或多個感測器判定收聽者之位置。可由收聽者定位單元610使用以判定收聽者之位置之感測器的一些實例包括(但不限於)攝影機、麥克風、壓力感測器(例如,嵌入或附接至傢俱、車輛座椅)、安全帶感測器或可指示收聽者之位置的任何其他感測器。 音訊解碼器件22可基於收聽者之位置及複數個局部擴音器位置來定期判定局部呈現格式(2708)。舉例而言,音訊解碼器件22之呈現單元210之呈現格式單元614可產生局部呈現格式,以使得當HOA音場呈現為擴音器饋送且經由複數個擴音器播放時,聲學「甜點」位於收聽者之位置處或附近。在一些實例中,為產生局部呈現格式,呈現組態單元614可產生局部呈現矩陣。 音訊解碼器件22可基於局部呈現格式將HOA音場呈現為各自對應於複數個局部擴音器中之各別局部擴音器的複數個輸出音訊信號(2710)。舉例而言,擴音器饋送產生單元616可呈現HOA係數以根據以上方程式(35)產生擴音器饋送26。 在一個實例中,為編碼多通道音訊信號(例如,),音訊編碼器件14可判定源擴音器組態中之擴音器之數目(例如,N
)、待在基於多通道音訊信號產生HOA音場時使用之HOA係數之數目(例如,NHOA
)及源擴音器組態中之擴音器的位置(例如,)。在此實例中,音訊編碼器件14可在位元串流中編碼N
、NHOA
及。在一些實例中,音訊編碼器件14可在位元串流針對每一訊框編碼N
、NHOA
及。在一些實例中,若前一訊框使用相同N
、NHOA
及,則音訊編碼器件14可省略在位元串流針對當前訊框編碼N
、NHOA
及。在一些實例中,音訊編碼器件14可基於N
、NHOA
及產生呈現矩陣D1
。在一些實例中,若需要,則音訊編碼器件14可產生並使用一或多個空間定位向量(例如,)。在一些實例中,音訊編碼器件14可量化多通道音訊信號(例如,)以產生經量化之多通道音訊信號(例如,)並在位元串流中編碼經量化之多通道音訊信號。 音訊解碼器件22可接收位元串流。基於源擴音器組態中之擴音器之所接收數目(例如,N
)、待在基於多通道音訊信號產生HOA音場時使用之HOA係數之數目(例如,NHOA
)及源擴音器組態中之擴音器的位置(例如,),音訊解碼器件22可產生呈現矩陣D2
。在一些實例中,只要D2
係基於所接收之N
、NHOA
及(亦即,源擴音器組態)而產生,D2
即可與D1
不相同。基於D2
,音訊解碼器件22可計算一或多個空間定位向量(例如,)。基於該一或多個空間定位向量及接收到的音訊信號(例如,),音訊解碼器件22可產生HOA域表示作為。基於局部擴音器組態(亦即,在解碼器處之擴音器之數目及位置) (例如,及),音訊解碼器件22可產生局部呈現矩陣D3
。音訊解碼器件22可藉由將局部呈現矩陣乘以所產生之HOA域表示(例如,)來產生用於局部擴音器之揚聲器饋送(例如,)。 在一個實例中,為編碼多通道音訊信號(例如,),音訊編碼器件14可判定源擴音器組態中之擴音器之數目(例如,N
)、待在基於多通道音訊信號產生HOA音場時使用之HOA係數之數目(例如,NHOA
)及源擴音器組態中之擴音器的位置(例如,)。在一些實例中,音訊編碼器件14可基於N
、NHOA
及產生呈現矩陣D1
。在一些實例中,音訊編碼器件14可計算一或多個空間定位向量(例如,)。在一些實例中,音訊編碼器件14可將空間定位向量正規化為,且按ISO/IEC 23008-3將量化至(例如,使用諸如(SQ、SQ+Huff、VQ)的向量量化方法)並在位元串流中編碼及。在一些實例中,音訊編碼器件14可量化多通道音訊信號(例如,)以產生經量化之多通道音訊信號(例如)並在位元串流中編碼經量化之多通道音訊信號。 音訊解碼器件22可接收位元串流。基於及,音訊解碼器件22可藉由 重建構空間定位向量。基於該一或多個空間定位向量(例如)及接收到的音訊信號(例如,),音訊解碼器件22可產生HOA域表示作為。基於局部擴音器組態(亦即,在解碼器處之擴音器之數目及位置) (例如,及),音訊解碼器件22可產生局部呈現矩陣D3
。音訊解碼器件22可藉由將局部呈現矩陣乘以所產生之HOA域表示(例如, )來產生用於局部擴音器之揚聲器饋送(例如,)。 圖28為說明根據本發明之技術之實例向量編碼單元68E之方塊圖。向量編碼單元68E可為圖5之向量編碼單元68之例項。在圖28之實例中,向量編碼單元68E包括呈現格式單元、向量創建單元2804、向量預測單元2806。表示單元2808、逆量化單元2810及重建構單元2812。 呈現格式單元2802使用源擴音器設定資訊48判定源呈現格式2803。源呈現格式116可為用於將HOA係數之集合呈現為用於按源擴音器設定資訊48描述之方式佈置之擴音器的擴音器饋送之集合的呈現矩陣。呈現格式單元2802可根據在本發明中其他處描述之實例判定源呈現格式2803。 向量創建單元2804可基於空間向量2805之集合判定源呈現格式116。在一些實例中,向量創建單元2804以在本發明中其他處關於圖6之向量創建單元112描述之方式來判定空間向量2805。在一些實例中,向量創建單元2804以關於圖14之中間向量單元402及向量終結單元404描述之方式來判定空間向量2805。 在圖28之實例中,向量預測單元2806可自重建構單元2812獲得經重建構之空間向量2811。向量預測單元2806可基於經重建構之空間向量2811判定中間空間向量2813。在一些實例中,向量預測單元2806可判定中間空間向量2806,以使得針對空間向量2805中之每一各別空間向量,中間空間向量2806中之各別中間空間向量等效於或基於該各別空間向量與經重建構之空間向量2811中之相對應的經重建構空間向量之間的差異。相對應的空間向量及經重建之空間向量可對應於源擴音器設定之同一擴音器。 量化單元2808可量化中間空間向量2813。量化單元2808可根據在本發明中其他處描述之量化技術來量化中間空間向量2813。量化單元2808輸出空間向量表示資料2815。空間向量表示資料2815可包含表示空間向量2805之經量化版本之資料。更具體而言,在圖28之實例中,空間向量表示資料2815可包含表示中間空間向量2813之經量化版本的資料。在一些實例中,使用與在本發明中其他處關於碼簿描述之彼等技術類似之技術,表示中間空間向量2813之經量化版本之資料包含碼簿索引,其指示經動態或靜態定義之碼簿中之輸入項,該等輸入項指定中間空間向量之經量化版本之值。在一些實例中,空間向量表示資料2815包含中間空間向量2813之經量化版本。 此外,在圖28之實例中,逆量化單元2810可獲得空間向量表示資料2815。亦即,逆量化單元2810可獲得表示空間向量2805之經量化版本之資料。更具體而言,在圖28之實例中,逆量化單元2810可獲得表示中間空間向量2813之經量化版本之資料。逆量化單元2810可對中間空間向量2813之經量化版本進行逆量化。因此,逆量化單元2810可產生經逆量化之中間空間向量2817。逆量化單元2810可根據在本發明中其他處描述之用於逆量化空間向量之實例來對中間空間向量2813之經量化版本進行逆量化。因為量化可涉及資訊之損失,經逆量化之中間空間向量2817可並不與中間空間向量2813一樣精確。 此外,重建構單元2813可基於經逆量化之中間空間向量2817產生經重建構之空間向量的集合。在一些實例中,重建構單元2813可產生經重建構之空間向量的集合,以使得針對經逆量化之空間向量2817之集合中之每一各別經逆量化之空間向量,各別經重建構之空間向量等於按解碼次序用於先前時間間隔的各別經逆量化之空間向量與相對應的經重建構之空間向量之總和。向量預測單元2806可使用經重建構之空間向量以用於產生用於後續時間間隔之中間空間向量。 因此,在圖28之實例中,逆量化單元2810可獲得表示一或多個空間向量之第一集合之經量化版本的資料。空間向量之第一集合中之每一各別空間向量對應於用於第一時間間隔之音訊信號之集合中之各別音訊信號。空間向量之第一集合中之空間向量中之每一者在HOA域中且係基於擴音器位置之集合計算。此外,逆量化單元2810可對空間向量之第一集合之經量化版本進行逆量化。此外,在此實例中,向量創建單元2804可判定空間向量之第二集合。空間向量之第二集合中之每一各別空間向量對應於用於按按解碼次序在第一時間間隔之後的第二時間間隔的音訊信號之集合中之各別音訊信號。空間向量之第二集合中之每一空間向量在HOA域中且係基於擴音器位置之集合計算。向量預測單元2806可基於空間向量之經逆量化之第一集合判定空間向量之第二集合中之空間向量的中間版本。量化單元2808可對空間向量之第二集合中之空間向量的中間版本進行量化。音訊編碼器件可包括在經寫碼音訊位元串流中表示空間向量之第二集合中之空間向量之中間版本的經量化版本的資料。 以下編號實例可說明本發明之一或多個態樣: 實例1. 一種用於解碼經寫碼音訊位元串流之器件,該器件包含:記憶體,其經組態以儲存經寫碼音訊位元串流;及電耦接至該記憶體之一或多個處理器,該一或多個處理器經組態以:自經寫碼音訊位元串流獲得用於源擴音器組態之多通道音訊信號之表示;獲得高階立體混響(HOA)域中之基於源呈現矩陣之複數個空間定位向量之表示,該源呈現矩陣基於源擴音器組態;基於多通道音訊信號及複數個空間定位向量產生HOA音場;及呈現HOA音場以基於表示複數個局部擴音器之位置之局部擴音器組態產生複數個音訊信號,其中該複數個音訊信號中之每一各別音訊信號對應於複數個局部擴音器中之各別擴音器 實例2. 如實例1之器件,其中該一或多個處理器經進一步組態以:自經寫碼音訊位元串流獲得源擴音器組態之指示;基於該指示產生源呈現矩陣,其中,為獲得HOA域中之複數個空間定位向量之表示,該一或多個處理器經組態以基於源呈現矩陣產生空間定位向量。 實例3. 如實例1之器件,其中該一或多個處理器經組態以自經寫碼音訊位元串流獲得HOA域中之複數個空間定位向量之表示。 實例4. 如實例1至3之任何組合之器件,其中,為基於多通道音訊信號及複數個空間定位向量產生HOA音場,該一或多個處理器經組態以基於多通道音訊信號及複數個空間定位向量產生HOA係數之集合。 實例5. 如實例4之器件,其中該一或多個處理器經組態以根據以下方程式產生HOA係數之集合:,其中 H
為HOA係數之集合, Ci
為多通道音訊信號之第i個通道,且 SPi
為複數個空間定位向量中對應於多通道音訊信號之第i個通道之空間位置向量。 實例6. 如實例1至5之任何組合之器件,其中複數個空間定位向量中之每一空間定位向量對應於包括於多通道音訊信號中之通道,其中複數個空間定位向量中對應於第N個通道之空間定位向量等於由第一矩陣、第二矩陣與源呈現矩陣相乘產生之矩陣的轉置,該第一矩陣由單一各別行之元素組成,該單一各別行之元素的數目等於源擴音器組態中之擴音器之數目,該各別行之元素中之第N個元素等於1且該各別行中除該第N個元素之外的元素等於0,該第二矩陣為由源呈現矩陣與源呈現矩陣之轉置相乘產生之矩陣的相逆項。 實例7. 如實例1至6之任何組合之器件,其中該一或多個處理器包括於車輛之音訊系統中。 實例8. 一種用於編碼音訊資料之器件,該器件包含:一或多個處理器,其經組態以:接收用於源擴音器組態之多通道音訊信號;獲得基於源擴音器組態之源呈現矩陣;基於源呈現矩陣獲得高階立體混響(HOA)域中之複數個空間定位向量,該複數個空間定位向量與多通道音訊信號組合而表示對應於多通道音訊信號之HOA音場,及在經寫碼音訊位元串流中編碼多通道音訊信號之表示及複數個空間定位向量之指示;及記憶體,其電耦接至該一或多個處理器,經組態以儲存經寫碼音訊位元串流。 實例9. 如實例8之器件,其中,為編碼複數個空間定位向量之指示,該一或多個處理器經組態以:編碼源擴音器組態之指示。 實例10. 如實例8之器件,其中,為編碼複數個空間定位向量之指示,該一或多個處理器經組態以:編碼空間定位向量之經量化值。 實例11 如實例8至10之任何組合之器件,其中多通道音訊信號之表示為多通道音訊信號之未經壓縮版本。 實例12. 如實例8至10之任何組合之器件,其中多通道音訊信號之表示為多通道音訊信號之未經壓縮之脈碼調變(PCM)版本。 實例13. 如實例8至10之任何組合之器件,其中多通道音訊信號之表示為多通道音訊信號之經壓縮版本。 實例14. 如實例8至10之任何組合之器件,其中多通道音訊信號之表示為多通道音訊信號之經壓縮之脈碼調變(PCM)版本。 實例15. 如實例8至14之任何組合之器件,其中複數個空間定位向量中之每一空間定位向量對應於包括於多通道音訊信號中之通道,其中複數個空間定位向量中對應於第N個通道之空間定位向量等於由第一矩陣、第二矩陣及源呈現矩陣相乘產生之矩陣的轉置,該第一矩陣由單一各別行之元素組成,該單一各別行之元素的數目等於源擴音器組態中之擴音器之數目,該各別行之元素中之第N個元素等於1且該各別行中除該第N個元素之外的元素等於0,該第二矩陣為由源呈現矩陣與源呈現矩陣之轉置相乘產生之矩陣的相逆項。 實例16. 一種用於解碼經寫碼音訊位元串流之方法,該方法包含:自經寫碼音訊位元串流獲得用於源擴音器組態之多通道音訊信號之表示;獲得高階立體混響(HOA)域中之基於源呈現矩陣之複數個空間定位向量之表示,該源呈現矩陣基於源擴音器組態;基於多通道音訊信號及複數個空間定位向量產生HOA音場;及呈現HOA音場以基於表示複數個局部擴音器之位置之局部擴音器組態而產生複數個音訊信號,其中複數個音訊信號中之每一各別音訊信號對應於複數個局部擴音器中之各別擴音器。 實例17. 如實例16之方法,其進一步包含:自經寫碼音訊位元串流獲得源擴音器組態之指示;及基於該指示產生源呈現矩陣,其中獲得HOA域中之複數個空間定位向量之表示包含基於該源呈現矩陣產生空間定位向量。 實例18. 如實例16之方法,其中獲得複數個空間定位向量之表示包含自經寫碼音訊位元串流獲得HOA域中之複數個空間定位向量之表示。 實例19. 如實例16至18之任何組合之方法其中基於多通道音訊信號及複數個空間定位向量產生HOA音場包含:基於多通道音訊信號及複數個空間定位向量產生HOA係數之集合。 實例20. 如實例16至19之任何組合之方法,其中產生HOA係數之集合包含根據以下方程式產生HOA係數之集合:,其中 H
為HOA係數之集合, Ci
為多通道音訊信號之第i個通道,且 SPi
為複數個空間定位向量中對應於多通道音訊信號之第i個通道之空間位置向量。 實例21. 一種用於編碼經寫碼音訊位元串流之方法,該方法包含:接收用於源擴音器組態之多通道音訊信號;獲得基於源擴音器組態之源呈現矩陣;基於源呈現矩陣獲得高階立體混響(HOA)域中之複數個空間定位向量,該複數個空間定位向量與多通道音訊信號組合而表示對應於多通道音訊信號之HOA音場,及在經寫碼音訊位元串流中編碼多通道音訊信號之表示及複數個空間定位向量之指示。 實例22. 如實例21之方法,其中編碼複數個空間定位向量之指示包含:編碼源擴音器組態之指示。 實例23. 如實例21之方法,其中編碼複數個空間定位向量之指示包含:編碼空間定位向量之經量化值。 實例24. 一種儲存指令之電腦可讀儲存媒體,該等指令在執行時使音訊編碼器件或音訊解碼器件之一或多個處理器執行如實例16至22之任何組合之方法。 實例25. 一種音訊編碼或音訊解碼器件,其包含用於執行如實例16至22之任何組合之方法的構件。 在上文所描述之各種情況中之每一者中,應理解,音訊編碼器件14可執行一方法或另外包含用以執行音訊編碼器件14經組態以執行的方法之每一步驟的構件。在一些情況下,構件可包含一或多個處理器。在一些情況下,該一或多個處理器可表示藉助於儲存至非暫時性電腦可讀儲存媒體之指令組態之專用處理器。換言之,編碼實例集合中之每一者中之技術的各種態樣可提供非暫時性電腦可讀儲存媒體,其上儲存有指令,該等指令在執行時使得一或多個處理器執行音訊編碼器件14已經組態以執行之方法。 在一或多個實例中,所描述之功能可以硬體、軟體、韌體或其任何組合來實施。若以軟體實施,則該等功能可作為一或多個指令或程式碼而儲存於電腦可讀媒體上或經由電腦可讀媒體進行傳輸,且藉由基於硬體之處理單元執行。電腦可讀媒體可包括電腦可讀儲存媒體,其對應於諸如資料儲存媒體之有形媒體。資料儲存媒體可為可藉由一或多個電腦或一或多個處理器存取以擷取指令、程式碼及/或資料結構以用於實施本發明中所描述之技術的任何可用媒體。電腦程式產品可包括電腦可讀媒體。 同樣,在上文所描述之各種情況中之每一者中,應理解,音訊解碼器件22可執行一方法或另外包含用以執行音訊解碼器件22經組態以執行的方法之每一步驟的構件。在一些情況下,構件可包含一或多個處理器。在一些情況下,該一或多個處理器可表示藉助於儲存至非暫時性電腦可讀儲存媒體之指令組態之專用處理器。換言之,編碼實例集合中之每一者中之技術的各種態樣可提供非暫時性電腦可讀儲存媒體,其上儲存有指令,該等指令在執行時使得一或多個處理器執行音訊解碼器件24已經組態以執行之方法。 藉由實例而非限制,此等電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存器件、快閃記憶體或可用於儲存呈指令或資料結構形式之所要程式碼且可由電腦存取的任何其他媒體。然而,應理解,電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體,而實情為關於非暫時性有形儲存媒體。如本文中所使用,磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位影音光碟(DVD)、軟性磁碟及藍光(Blu-ray)光碟,其中磁碟通常以磁性方式重現資料,而光碟使用雷射以光學方式重現資料。以上各者之組合亦應包括於電腦可讀媒體之範疇內。 可由諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效整合式或離散邏輯電路之一或多個處理器來執行指令。因此,如本文中所使用之術語「處理器」可指上述結構或適合於實施本文中所描述之技術的任何其他結構中之任一者。另外,在一些態樣中,本文中所描述之功能性可提供於經組態用於編碼及解碼之專用硬體及/或軟體模組內,或併入組合式編解碼器中。此外,該等技術可完全實施於一或多個電路或邏輯元件中。 本發明之技術可在廣泛多種器件或裝置中實施,包括無線手持機、積體電路(IC)或IC集合(例如,晶片組)。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術之器件的功能態樣,但未必要求由不同硬體單元來實現。確切而言,如上文所描述,可將各種單元組合於編解碼器硬體單元中,或藉由互操作性硬體單元(包括如上文所描述之一或多個處理器)之集合結合合適之軟體及/或韌體來提供該等單元。 已描述該等技術之各種態樣。該等技術之此等及其他態樣在以下申請專利範圍之範疇內。
2‧‧‧系統
4‧‧‧內容創建者系統
6‧‧‧內容消費系統者
8‧‧‧麥克風
10‧‧‧實時音訊資料
12‧‧‧預產生之音訊資料
14‧‧‧音訊編碼器件
14A‧‧‧音訊編碼器件
14B‧‧‧音訊編碼器件
14C‧‧‧音訊編碼器件
14D‧‧‧音訊編碼器件
20‧‧‧經編碼位元串流
22‧‧‧音訊解碼器件
22B‧‧‧音訊解碼器件
22C‧‧‧音訊解碼器件
24‧‧‧音訊解碼器件
26‧‧‧擴音器饋送/音訊信號
26A‧‧‧音訊信號
28‧‧‧局部擴音器設定資訊
46‧‧‧索引值
48‧‧‧源擴音器設定資訊
49‧‧‧音訊對象位置資料
50‧‧‧音訊信號
50B‧‧‧音訊信號
50C‧‧‧音訊信號
50D‧‧‧音訊信號
51‧‧‧音訊編碼單元
52A‧‧‧位元串流產生單元
52B‧‧‧位元串流產生單元
52C‧‧‧位元串流產生單元
52D‧‧‧位元串流產生單元
54‧‧‧記憶體
56A‧‧‧位元串流
56B‧‧‧位元串流
56C‧‧‧位元串流
56D‧‧‧位元串流
60‧‧‧經寫碼音訊信號
62‧‧‧經寫碼音訊信號
66‧‧‧音訊解碼單元
68‧‧‧向量編碼單元
68B‧‧‧向量編碼單元
68C‧‧‧向量編碼單元
68D‧‧‧向量編碼單元
68E‧‧‧向量編碼單元
70‧‧‧音訊信號
71A‧‧‧空間向量表示資料
72‧‧‧空間定位向量
100‧‧‧碼簿程式庫
110‧‧‧呈現格式單元
112‧‧‧向量創建單元
114‧‧‧記憶體
115‧‧‧表示單元
116‧‧‧源呈現格式
118‧‧‧空間向量
120‧‧‧碼簿
130‧‧‧實例表
131‧‧‧行
132‧‧‧行
133‧‧‧行
134‧‧‧行
135‧‧‧行
136‧‧‧行
140‧‧‧實例表
150‧‧‧碼簿程式庫
152‧‧‧碼簿
152A‧‧‧碼簿
152N‧‧‧碼簿
154‧‧‧選擇單元
200‧‧‧記憶體
202A‧‧‧解多工單元
202B‧‧‧解多工單元
202C‧‧‧解多工單元
202D‧‧‧解多工單元
204‧‧‧音訊解碼單元
206‧‧‧向量創建單元
207‧‧‧向量解碼單元
207A‧‧‧向量解碼單元
207B‧‧‧向量解碼單元
208A‧‧‧HOA產生單元
208B‧‧‧HOA產生單元
208C‧‧‧HOA產生單元
209‧‧‧向量解碼單元
210‧‧‧呈現單元
212A‧‧‧HOA係數
212B‧‧‧HOA係數
212C‧‧‧HOA係數
250‧‧‧呈現格式單元
252‧‧‧向量創建單元
254‧‧‧記憶體
256‧‧‧重建構單元
258‧‧‧源呈現格式
260‧‧‧空間向量
262‧‧‧碼簿
300‧‧‧碼簿程式庫
302‧‧‧碼簿
302A‧‧‧碼簿
302N‧‧‧碼簿
304‧‧‧重建構單元
350‧‧‧音訊對象位置資訊
400‧‧‧呈現格式單元
402‧‧‧中間向量單元
404‧‧‧向量終結單元
406‧‧‧增益判定單元
408‧‧‧量化單元
410‧‧‧源呈現格式
412‧‧‧中間空間向量
416‧‧‧增益因數
418‧‧‧空間向量
450‧‧‧虛擬源位置
452‧‧‧作用中三角形
454A‧‧‧擴音器
454B‧‧‧擴音器
500‧‧‧量化單元
554‧‧‧經量化向量資料
550‧‧‧逆量化單元
610‧‧‧收聽者定位單元
612‧‧‧擴音器位置單元
614‧‧‧呈現格式單元
615‧‧‧記憶體
616‧‧‧擴音器饋送產生單元
618‧‧‧指示
620‧‧‧表示
622‧‧‧局部呈現格式
2000‧‧‧汽車
2102‧‧‧區塊
2104‧‧‧區塊
2106‧‧‧區塊
2202‧‧‧區塊
2204‧‧‧區塊
2206‧‧‧區塊
2208‧‧‧區塊
2210‧‧‧區塊
2230‧‧‧區塊
2232‧‧‧區塊
2250‧‧‧區塊
2252‧‧‧區塊
2254‧‧‧區塊
2300‧‧‧區塊
2302‧‧‧區塊
2304‧‧‧區塊
2306‧‧‧區塊
2400‧‧‧區塊
2402‧‧‧區塊
2702‧‧‧區塊
2704‧‧‧區塊
2706‧‧‧區塊
2708‧‧‧區塊
2710‧‧‧區塊
2802‧‧‧呈現格式單元
2803‧‧‧源呈現格式
2804‧‧‧向量創建單元
2805‧‧‧空間向量
2806‧‧‧向量預測單元
2808‧‧‧量化單元
2810‧‧‧逆量化單元
2811‧‧‧經重建構之空間向量
2812‧‧‧重建構單元
2813‧‧‧中間空間向量
2815‧‧‧空間向量表示資料
2817‧‧‧經逆量化之中間空間向量
4‧‧‧內容創建者系統
6‧‧‧內容消費系統者
8‧‧‧麥克風
10‧‧‧實時音訊資料
12‧‧‧預產生之音訊資料
14‧‧‧音訊編碼器件
14A‧‧‧音訊編碼器件
14B‧‧‧音訊編碼器件
14C‧‧‧音訊編碼器件
14D‧‧‧音訊編碼器件
20‧‧‧經編碼位元串流
22‧‧‧音訊解碼器件
22B‧‧‧音訊解碼器件
22C‧‧‧音訊解碼器件
24‧‧‧音訊解碼器件
26‧‧‧擴音器饋送/音訊信號
26A‧‧‧音訊信號
28‧‧‧局部擴音器設定資訊
46‧‧‧索引值
48‧‧‧源擴音器設定資訊
49‧‧‧音訊對象位置資料
50‧‧‧音訊信號
50B‧‧‧音訊信號
50C‧‧‧音訊信號
50D‧‧‧音訊信號
51‧‧‧音訊編碼單元
52A‧‧‧位元串流產生單元
52B‧‧‧位元串流產生單元
52C‧‧‧位元串流產生單元
52D‧‧‧位元串流產生單元
54‧‧‧記憶體
56A‧‧‧位元串流
56B‧‧‧位元串流
56C‧‧‧位元串流
56D‧‧‧位元串流
60‧‧‧經寫碼音訊信號
62‧‧‧經寫碼音訊信號
66‧‧‧音訊解碼單元
68‧‧‧向量編碼單元
68B‧‧‧向量編碼單元
68C‧‧‧向量編碼單元
68D‧‧‧向量編碼單元
68E‧‧‧向量編碼單元
70‧‧‧音訊信號
71A‧‧‧空間向量表示資料
72‧‧‧空間定位向量
100‧‧‧碼簿程式庫
110‧‧‧呈現格式單元
112‧‧‧向量創建單元
114‧‧‧記憶體
115‧‧‧表示單元
116‧‧‧源呈現格式
118‧‧‧空間向量
120‧‧‧碼簿
130‧‧‧實例表
131‧‧‧行
132‧‧‧行
133‧‧‧行
134‧‧‧行
135‧‧‧行
136‧‧‧行
140‧‧‧實例表
150‧‧‧碼簿程式庫
152‧‧‧碼簿
152A‧‧‧碼簿
152N‧‧‧碼簿
154‧‧‧選擇單元
200‧‧‧記憶體
202A‧‧‧解多工單元
202B‧‧‧解多工單元
202C‧‧‧解多工單元
202D‧‧‧解多工單元
204‧‧‧音訊解碼單元
206‧‧‧向量創建單元
207‧‧‧向量解碼單元
207A‧‧‧向量解碼單元
207B‧‧‧向量解碼單元
208A‧‧‧HOA產生單元
208B‧‧‧HOA產生單元
208C‧‧‧HOA產生單元
209‧‧‧向量解碼單元
210‧‧‧呈現單元
212A‧‧‧HOA係數
212B‧‧‧HOA係數
212C‧‧‧HOA係數
250‧‧‧呈現格式單元
252‧‧‧向量創建單元
254‧‧‧記憶體
256‧‧‧重建構單元
258‧‧‧源呈現格式
260‧‧‧空間向量
262‧‧‧碼簿
300‧‧‧碼簿程式庫
302‧‧‧碼簿
302A‧‧‧碼簿
302N‧‧‧碼簿
304‧‧‧重建構單元
350‧‧‧音訊對象位置資訊
400‧‧‧呈現格式單元
402‧‧‧中間向量單元
404‧‧‧向量終結單元
406‧‧‧增益判定單元
408‧‧‧量化單元
410‧‧‧源呈現格式
412‧‧‧中間空間向量
416‧‧‧增益因數
418‧‧‧空間向量
450‧‧‧虛擬源位置
452‧‧‧作用中三角形
454A‧‧‧擴音器
454B‧‧‧擴音器
500‧‧‧量化單元
554‧‧‧經量化向量資料
550‧‧‧逆量化單元
610‧‧‧收聽者定位單元
612‧‧‧擴音器位置單元
614‧‧‧呈現格式單元
615‧‧‧記憶體
616‧‧‧擴音器饋送產生單元
618‧‧‧指示
620‧‧‧表示
622‧‧‧局部呈現格式
2000‧‧‧汽車
2102‧‧‧區塊
2104‧‧‧區塊
2106‧‧‧區塊
2202‧‧‧區塊
2204‧‧‧區塊
2206‧‧‧區塊
2208‧‧‧區塊
2210‧‧‧區塊
2230‧‧‧區塊
2232‧‧‧區塊
2250‧‧‧區塊
2252‧‧‧區塊
2254‧‧‧區塊
2300‧‧‧區塊
2302‧‧‧區塊
2304‧‧‧區塊
2306‧‧‧區塊
2400‧‧‧區塊
2402‧‧‧區塊
2702‧‧‧區塊
2704‧‧‧區塊
2706‧‧‧區塊
2708‧‧‧區塊
2710‧‧‧區塊
2802‧‧‧呈現格式單元
2803‧‧‧源呈現格式
2804‧‧‧向量創建單元
2805‧‧‧空間向量
2806‧‧‧向量預測單元
2808‧‧‧量化單元
2810‧‧‧逆量化單元
2811‧‧‧經重建構之空間向量
2812‧‧‧重建構單元
2813‧‧‧中間空間向量
2815‧‧‧空間向量表示資料
2817‧‧‧經逆量化之中間空間向量
圖1為說明可執行本發明中所描述之技術的各種態樣之系統的圖。 圖2為說明具有各種階數及子階數之球諧基底函數之圖。 圖3為說明根據本發明之一或多個技術之音訊編碼器件之實例實施的方塊圖。 圖4為說明根據本發明之一或多個技術之用於與圖3中所示之音訊編碼器件之實例實施一起使用的音訊編碼器件之實例實施的方塊圖。 圖5為說明根據本發明之一或多個技術之音訊編碼器件之實例實施的方塊圖。 圖6為說明根據本發明之一或多個技術之向量編碼單元的實例實施的圖。 圖7為展示理想球面設計位置之實例集合的表。 圖8為展示理想球面設計位置之另一實例集合的表。 圖9為說明根據本發明的一或多個技術之向量編碼單元之實例實施之方塊圖。 圖10為說明根據本發明之一或多個技術之音訊解碼器件之實例實施的方塊圖。 圖11為說明根據本發明的一或多個技術之向量解碼單元之實例實施之方塊圖。 圖12為說明根據本發明的一或多個技術之向量解碼單元之替代實施之方塊圖。 圖13為說明根據本發明的一或多個技術之音訊編碼器件之實例實施之方塊圖,其中該音訊編碼器件經組態以編碼基於對象之音訊資料。 圖14為說明根據本發明之一或多個技術之用於基於對象之音訊資料的向量編碼單元68C之實例實施的方塊圖。 圖15為說明VBAP之概念圖。 圖16為說明根據本發明之一或多個技術之音訊解碼器件之實例實施之方塊圖,其中該音訊解碼器件經組態以解碼基於對象之音訊資料。 圖17為說明根據本發明之一或多個技術之音訊編碼器件之實例實施之方塊圖,其中該音訊編碼器件經組態以量化空間向量。 圖18為說明根據本發明之一或多個技術之用於與圖17中所示之音訊編碼器件之實例實施一起使用的音訊解碼器件之實例實施的方塊圖。 圖19為說明根據本發明之一或多個技術之呈現單元210之實例實施的方塊圖。 圖20說明根據本發明之一或多個技術之汽車揚聲器播放環境。 圖21為說明根據本發明之一或多個技術之音訊編碼器件之實例操作的流程圖。 圖22為說明根據本發明之一或多個技術之音訊解碼器件之實例操作的流程圖。 圖23為說明根據本發明之一或多個技術之音訊編碼器件之實例操作的流程圖。 圖24為說明根據本發明之一或多個技術之音訊解碼器件之實例操作的流程圖。 圖25為說明根據本發明之一或多個技術之音訊編碼器件之實例操作的流程圖。 圖26為說明根據本發明之一或多個技術之音訊解碼器件之實例操作的流程圖。 圖27為說明根據本發明之一或多個技術之音訊編碼器件之實例操作的流程圖。 圖28為說明根據本發明之技術之實例向量編碼單元之方塊圖。
2202‧‧‧區塊
2204‧‧‧區塊
2206‧‧‧區塊
2208‧‧‧區塊
2210‧‧‧區塊
Claims (25)
- 一種用於解碼一經寫碼音訊位元串流之器件,該器件包含: 一記憶體,其經組態以儲存一經寫碼位元串流;及 電耦接至該記憶體之一或多個處理器,該一或多個處理器經組態以: 自該經寫碼音訊位元串流獲得用於一源擴音器組態之一多通道音訊信號之一表示; 獲得一高階立體混響(HOA)域中之基於一源呈現矩陣之複數個空間定位向量之一表示,該源呈現矩陣基於該源擴音器組態; 基於該多通道音訊信號及該複數個空間定位向量產生一HOA音場;及 呈現該HOA音場以基於表示複數個局部擴音器之位置之一局部擴音器組態產生複數個音訊信號,其中該複數個音訊信號中之每一各別音訊信號對應於該複數個局部擴音器中之一各別擴音器。
- 如請求項1之器件,其中該一或多個處理器經進一步組態以: 自該經寫碼音訊位元串流獲得該源擴音器組態之一指示; 基於該指示產生該源呈現矩陣, 其中,為獲得該HOA域中之該複數個空間定位向量之該表示,該一或多個處理器經組態以基於該源呈現矩陣產生該等空間定位向量。
- 如請求項1之器件,其中該一或多個處理器經組態以自該經寫碼音訊位元串流獲得該HOA域中之該複數個空間定位向量之該表示。
- 如請求項1之器件,其中為基於該多通道音訊信號及該複數個空間定位向量產生該HOA音場,該一或多個處理器經組態以基於該多通道音訊信號及該複數個空間定位向量產生HOA係數之一集合。
- 如請求項4之器件,其中該一或多個處理器經組態以根據以下方程式產生HOA係數之該集合:其中 H 為HOA係數之該集合, Ci 為該多通道音訊信號之一第i個通道,且 SPi 為該複數個空間定位向量中對應於該多通道音訊信號之該第i個通道之一空間位置向量。
- 如請求項1之器件,其中該複數個空間定位向量中之每一空間定位向量對應於包括於該多通道音訊信號中之一通道,其中該複數個空間定位向量中對應於一第N個通道之該空間定位向量等於由一第一矩陣、一第二矩陣與該源呈現矩陣之一相乘產生之一矩陣的一轉置,該第一矩陣由一單一各別行之元素組成,該單一各別行之元素的數目等於該源擴音器組態中之擴音器之該數目,該各別行之元素中之該第N個元素等於1且該各別行中除該第N個元素之外的元素等於0,該第二矩陣為由該源呈現矩陣與該源呈現矩陣之該轉置之一相乘產生之一矩陣的一相逆項。
- 如請求項1之器件,其中該一或多個處理器包括於車輛之音訊系統中,該音訊系統包括該複數個局部擴音器。
- 如請求項1之器件,其進一步包含: 該複數個局部擴音器中之一或多者。
- 一種用於編碼視訊資料之器件,該器件包含: 一或多個處理器,其經組態以: 接收用於一源擴音器組態之一多通道音訊信號; 獲得基於該源擴音器組態之一源呈現矩陣; 基於該源呈現矩陣獲得一高階立體混響(HOA)域中之複數個空間定位向量,該複數個空間定位向量與該多通道音訊信號組合而表示對應於該多通道音訊信號之一HOA音場;及 在一經寫碼音訊位元串流中編碼該多通道音訊信號之一表示及該複數個空間定位向量之一指示;及 一記憶體,其電耦接至該一或多個處理器,經組態以儲存該經寫碼音訊位元串流。
- 如請求項9之器件,其中為編碼該複數個空間定位向量之該指示,該一或多個處理器經組態以: 編碼該源擴音器組態之一指示。
- 如請求項9之器件,其中為編碼該複數個空間定位向量之該指示,該一或多個處理器經組態以: 編碼該等空間定位向量之經量化值。
- 如請求項9之器件,其中該多通道音訊信號之該表示為該多通道音訊信號之一未經壓縮版本。
- 如請求項9之器件,其中該多通道音訊信號之該表示為該多通道音訊信號之一未經壓縮之脈碼調變(PCM)版本。
- 如請求項9之器件,其中該多通道音訊信號之該表示為該多通道音訊信號之一經壓縮版本。
- 如請求項9之器件,其中該多通道音訊信號之該表示為該多通道音訊信號之一經壓縮之脈碼調變(PCM)版本。
- 如請求項9之器件,其中該複數個空間定位向量中之每一空間定位向量對應於包括於該多通道音訊信號中之一通道,其中該複數個空間定位向量中對應於一第N個通道之該空間定位向量等於由一第一矩陣、一第二矩陣與該源呈現矩陣之一相乘產生之一矩陣的一轉置,該第一矩陣由一單一各別行之元素組成,該單一各別行之元素的數目等於該源擴音器組態中之擴音器之該數目,該各別行之元素中之該第N個元素等於1且該各別行中除該第N個元素之外的元素等於0,該第二矩陣為由該源呈現矩陣與該源呈現矩陣之該轉置之一相乘產生之一矩陣的一相逆項。
- 如請求項9之器件,其進一步包含: 一或多個麥克風,其經組態以捕獲該多通道音訊信號。
- 一種用於解碼一經寫碼音訊位元串流之方法,該方法包含: 自一經寫碼音訊位元串流獲得用於一源擴音器組態之一多通道音訊信號之一表示; 獲得一高階立體混響(HOA)域中之基於一源呈現矩陣之複數個空間定位向量之一表示,該源呈現矩陣基於該源擴音器組態; 基於該多通道音訊信號及該複數個空間定位向量產生一HOA音場;及 呈現該HOA音場以基於表示複數個局部擴音器之位置之一局部擴音器組態而產生複數個音訊信號,其中該複數個音訊信號中之每一各別音訊信號對應於該複數個局部擴音器中之一各別擴音器。
- 如請求項18之方法,其進一步包含: 自該經寫碼音訊位元串流獲得該源擴音器組態之一指示;及 基於該指示產生該源呈現矩陣, 其中獲得該HOA域中之該複數個空間定位向量之該表示包含基於該源呈現矩陣產生該等空間定位向量。
- 如請求項18之方法,其中獲得該複數個空間定位向量之該表示包含自該經寫碼音訊位元串流獲得該HOA域中之該複數個空間定位向量之該表示。
- 如請求項18之方法,其中基於該多通道音訊信號及該複數個空間定位向量產生該HOA音場包含: 基於該多通道音訊信號及該複數個空間定位向量產生HOA係數之一集合。
- 如請求項21之方法,其中產生HOA係數之該集合包含根據以下方程式產生HOA係數之該集合:其中 H 為HOA係數之該集合, Ci 為該多通道音訊信號之一第i個通道,且 SPi 為該複數個空間定位向量中對應於該多通道音訊信號之該第i個通道之一空間位置向量。
- 一種用於編碼一經寫碼音訊位元串流之方法,該方法包含: 接收用於一源擴音器組態之一多通道音訊信號; 獲得基於該源擴音器組態之一源呈現矩陣; 基於該源呈現矩陣獲得一高階立體混響(HOA)域中之複數個空間定位向量,該複數個空間定位向量與該多通道音訊信號組合而表示對應於該多通道音訊信號之一HOA音場;及 在一經寫碼音訊位元串流中編碼該多通道音訊信號之一表示及該複數個空間定位向量之一指示。
- 如請求項23之方法,其中編碼該複數個空間定位向量之該指示包含: 編碼該源擴音器組態之一指示。
- 如請求項23之方法,其中編碼該複數個空間定位向量之該指示包含: 編碼該等空間定位向量之經量化值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562239079P | 2015-10-08 | 2015-10-08 | |
US15/266,895 US9961467B2 (en) | 2015-10-08 | 2016-09-15 | Conversion from channel-based audio to HOA |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201714169A true TW201714169A (zh) | 2017-04-16 |
Family
ID=57018190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW105130241A TW201714169A (zh) | 2015-10-08 | 2016-09-19 | 自以通道為基礎之音訊至高階立體混響之轉換 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9961467B2 (zh) |
EP (1) | EP3360342B1 (zh) |
JP (1) | JP2018534616A (zh) |
KR (1) | KR102032073B1 (zh) |
CN (1) | CN108141688B (zh) |
TW (1) | TW201714169A (zh) |
WO (1) | WO2017062157A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115334444A (zh) | 2018-04-11 | 2022-11-11 | 杜比国际公司 | 用于音频渲染的预渲染信号的方法、设备和系统 |
US10999693B2 (en) * | 2018-06-25 | 2021-05-04 | Qualcomm Incorporated | Rendering different portions of audio data using different renderers |
WO2020046349A1 (en) * | 2018-08-30 | 2020-03-05 | Hewlett-Packard Development Company, L.P. | Spatial characteristics of multi-channel source audio |
DE102021128314A1 (de) | 2021-10-29 | 2023-05-04 | Blum-Novotest Gmbh | Rundlaufüberwachungsmodule und Rundlaufüberwachungsverfahren für ein im Betrieb zu rotierendes Werkzeug |
US20230317087A1 (en) * | 2022-04-01 | 2023-10-05 | Sonos, Inc. | Multichannel compressed audio transmission to satellite playback devices |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5857026A (en) * | 1996-03-26 | 1999-01-05 | Scheiber; Peter | Space-mapping sound system |
JP4676140B2 (ja) | 2002-09-04 | 2011-04-27 | マイクロソフト コーポレーション | オーディオの量子化および逆量子化 |
DE602007013415D1 (de) * | 2006-10-16 | 2011-05-05 | Dolby Sweden Ab | Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung |
CN101009950B (zh) * | 2006-12-30 | 2010-11-03 | 华南理工大学 | 一种连续处理式混合音频盲分离装置 |
EP2094032A1 (en) | 2008-02-19 | 2009-08-26 | Deutsche Thomson OHG | Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same |
US8964994B2 (en) | 2008-12-15 | 2015-02-24 | Orange | Encoding of multichannel digital audio signals |
GB2476747B (en) * | 2009-02-04 | 2011-12-21 | Richard Furse | Sound system |
EP2389016B1 (en) * | 2010-05-18 | 2013-07-10 | Harman Becker Automotive Systems GmbH | Individualization of sound signals |
NZ587483A (en) * | 2010-08-20 | 2012-12-21 | Ind Res Ltd | Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions |
EP2450880A1 (en) | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
CN104115229B (zh) | 2011-12-23 | 2017-03-08 | 英特尔公司 | 动态存储器性能调节 |
EP2645748A1 (en) * | 2012-03-28 | 2013-10-02 | Thomson Licensing | Method and apparatus for decoding stereo loudspeaker signals from a higher-order Ambisonics audio signal |
EP3748632A1 (en) * | 2012-07-09 | 2020-12-09 | Koninklijke Philips N.V. | Encoding and decoding of audio signals |
US9288603B2 (en) | 2012-07-15 | 2016-03-15 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding |
US9190065B2 (en) | 2012-07-15 | 2015-11-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients |
US20140086416A1 (en) | 2012-07-15 | 2014-03-27 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients |
US9473870B2 (en) | 2012-07-16 | 2016-10-18 | Qualcomm Incorporated | Loudspeaker position compensation with 3D-audio hierarchical coding |
CN107071687B (zh) * | 2012-07-16 | 2020-02-14 | 杜比国际公司 | 用于渲染音频声场表示以供音频回放的方法和设备 |
EP2875511B1 (en) * | 2012-07-19 | 2018-02-21 | Dolby International AB | Audio coding for improving the rendering of multi-channel audio signals |
EP2912860B1 (en) * | 2012-11-30 | 2018-01-10 | Huawei Technologies Co., Ltd. | Audio rendering system |
EP2743922A1 (en) | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
US9609452B2 (en) | 2013-02-08 | 2017-03-28 | Qualcomm Incorporated | Obtaining sparseness information for higher order ambisonic audio renderers |
US10178489B2 (en) * | 2013-02-08 | 2019-01-08 | Qualcomm Incorporated | Signaling audio rendering information in a bitstream |
CN104982042B (zh) | 2013-04-19 | 2018-06-08 | 韩国电子通信研究院 | 多信道音频信号处理装置及方法 |
RU2667630C2 (ru) * | 2013-05-16 | 2018-09-21 | Конинклейке Филипс Н.В. | Устройство аудиообработки и способ для этого |
US20140355769A1 (en) | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Energy preservation for decomposed representations of a sound field |
WO2014195190A1 (en) * | 2013-06-05 | 2014-12-11 | Thomson Licensing | Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals |
US9319819B2 (en) * | 2013-07-25 | 2016-04-19 | Etri | Binaural rendering method and apparatus for decoding multi channel audio |
US9502045B2 (en) | 2014-01-30 | 2016-11-22 | Qualcomm Incorporated | Coding independent frames of ambient higher-order ambisonic coefficients |
US20150243292A1 (en) | 2014-02-25 | 2015-08-27 | Qualcomm Incorporated | Order format signaling for higher-order ambisonic audio data |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US10134403B2 (en) * | 2014-05-16 | 2018-11-20 | Qualcomm Incorporated | Crossfading between higher order ambisonic signals |
KR102606212B1 (ko) * | 2014-06-27 | 2023-11-29 | 돌비 인터네셔널 에이비 | Hoa 데이터 프레임 표현의 데이터 프레임들 중 특정 데이터 프레임들의 채널 신호들과 연관된 비차분 이득 값들을 포함하는 코딩된 hoa 데이터 프레임 표현 |
US9875745B2 (en) | 2014-10-07 | 2018-01-23 | Qualcomm Incorporated | Normalization of ambient higher order ambisonic audio data |
US9767618B2 (en) * | 2015-01-28 | 2017-09-19 | Samsung Electronics Co., Ltd. | Adaptive ambisonic binaural rendering |
CN109314832B (zh) * | 2016-05-31 | 2021-01-29 | 高迪奥实验室公司 | 音频信号处理方法和设备 |
WO2017218973A1 (en) * | 2016-06-17 | 2017-12-21 | Edward Stein | Distance panning using near / far-field rendering |
-
2016
- 2016-09-15 US US15/266,895 patent/US9961467B2/en active Active
- 2016-09-16 EP EP16774582.7A patent/EP3360342B1/en active Active
- 2016-09-16 WO PCT/US2016/052221 patent/WO2017062157A1/en active Application Filing
- 2016-09-16 KR KR1020187009767A patent/KR102032073B1/ko active IP Right Grant
- 2016-09-16 CN CN201680057675.7A patent/CN108141688B/zh active Active
- 2016-09-16 JP JP2018517803A patent/JP2018534616A/ja active Pending
- 2016-09-19 TW TW105130241A patent/TW201714169A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
KR102032073B1 (ko) | 2019-10-14 |
KR20180066074A (ko) | 2018-06-18 |
EP3360342A1 (en) | 2018-08-15 |
CN108141688B (zh) | 2020-07-28 |
EP3360342B1 (en) | 2019-10-30 |
US20170105082A1 (en) | 2017-04-13 |
WO2017062157A1 (en) | 2017-04-13 |
CN108141688A (zh) | 2018-06-08 |
US9961467B2 (en) | 2018-05-01 |
JP2018534616A (ja) | 2018-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102122672B1 (ko) | 공간 벡터들의 양자화 | |
KR102032072B1 (ko) | 객체-기반의 오디오로부터 hoa로의 컨버전 | |
KR101723332B1 (ko) | 회전된 고차 앰비소닉스의 바이노럴화 | |
EP3400598B1 (en) | Mixed domain coding of audio | |
EP3100265A1 (en) | Indicating frame parameter reusability for coding vectors | |
US10075802B1 (en) | Bitrate allocation for higher order ambisonic audio data | |
WO2016004277A1 (en) | Reducing correlation between higher order ambisonic (hoa) background channels | |
WO2016033480A2 (en) | Intermediate compression for higher order ambisonic audio data | |
WO2015175998A1 (en) | Spatial relation coding for higher order ambisonic coefficients | |
CN108141688B (zh) | 从以信道为基础的音频到高阶立体混响的转换 | |
US20200120438A1 (en) | Recursively defined audio metadata | |
US10999693B2 (en) | Rendering different portions of audio data using different renderers |