TW202109507A - 基於用於心理聲學之音訊寫碼之經判定位元分配的量化空間分量 - Google Patents
基於用於心理聲學之音訊寫碼之經判定位元分配的量化空間分量 Download PDFInfo
- Publication number
- TW202109507A TW202109507A TW109121370A TW109121370A TW202109507A TW 202109507 A TW202109507 A TW 202109507A TW 109121370 A TW109121370 A TW 109121370A TW 109121370 A TW109121370 A TW 109121370A TW 202109507 A TW202109507 A TW 202109507A
- Authority
- TW
- Taiwan
- Prior art keywords
- audio signal
- audio
- audio data
- foreground
- spatial
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 298
- 238000000034 method Methods 0.000 claims abstract description 85
- 238000013139 quantization Methods 0.000 claims description 107
- 238000009826 distribution Methods 0.000 claims description 56
- 238000001228 spectrum Methods 0.000 claims description 42
- 230000003068 static effect Effects 0.000 claims description 38
- 238000004458 analytical method Methods 0.000 claims description 30
- 230000008447 perception Effects 0.000 claims description 25
- 230000009466 transformation Effects 0.000 claims description 17
- 238000007906 compression Methods 0.000 claims description 16
- 230000006835 compression Effects 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 230000006837 decompression Effects 0.000 claims description 8
- 230000002441 reversible effect Effects 0.000 claims description 6
- 238000003860 storage Methods 0.000 description 58
- 239000013598 vector Substances 0.000 description 53
- 238000004891 communication Methods 0.000 description 52
- 238000005516 engineering process Methods 0.000 description 52
- 230000005540 biological transmission Effects 0.000 description 35
- 101150036464 aptx gene Proteins 0.000 description 29
- 230000006870 function Effects 0.000 description 22
- 230000008569 process Effects 0.000 description 18
- 238000012545 processing Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 11
- 238000003786 synthesis reaction Methods 0.000 description 10
- 230000001413 cellular effect Effects 0.000 description 6
- 238000000354 decomposition reaction Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000003032 molecular docking Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- -1 enhanced AptX—E-AptX Proteins 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000001172 regenerating effect Effects 0.000 description 2
- 101150095491 AACS gene Proteins 0.000 description 1
- 241000282693 Cercopithecidae Species 0.000 description 1
- 241001025261 Neoraja caerulea Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/61—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
- H04L65/612—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for unicast
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/70—Media network packetisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/752—Media network packet handling adapting media to network capabilities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
Abstract
一般而言,本發明描述用於基於針對心理聲學音訊寫碼判定之位元分配來量化空間分量之技術。一種包含一記憶體及一或多個處理器之裝置可執行該等技術。該記憶體可儲存包括一經編碼前景音訊信號及一對應的經量化空間分量之一位元串流。該一或多個處理器可執行關於該經編碼前景音訊信號之心理聲學音訊解碼以獲得一前景音訊信號,並且當執行該心理聲學音訊解碼時判定用於該經編碼前景音訊信號之一第一位元分配。該一或多個處理器亦可基於該第一位元分配而判定一第二位元分配,並且基於該第二位元分配而反量化該經量化空間分量以獲得一空間分量。該一或多個處理器可基於該前景音訊信號及該空間分量而重建基於場景之音訊資料。
Description
本發明係關於音訊資料,且更特定言之,係關於音訊資料之寫碼。
心理聲學音訊寫碼係指使用心理聲學模型壓縮音訊資料之程序。考慮到由於空間遮蔽(例如,兩個音訊源處於相同位置,其中聽覺源中之一者就音量而言遮蔽另一聽覺源)、時間遮蔽(例如其中一個音訊源就音量而言遮蔽另一聽覺源)等而出現的限制,心理聲學音訊寫碼可充分利用人類聽覺系統中之限制來壓縮音訊資料。心理聲學模型可嘗試模型化人類聽覺系統以識別冗餘、經遮蔽或以其他方式不能被人類聽覺系統感知的音場之經遮蔽或其他部分。心理聲學音訊寫碼亦可藉由對音訊資料進行熵編碼而執行無損壓縮。
一般而言,描述用於基於針對心理聲學音訊寫碼判定之位元分配來量化空間分量之技術。
在一個實例中,該等技術之各種態樣係關於一種裝置,其經組態以對基於場景之音訊資料進行編碼,該裝置包含:一記憶體,其經組態以儲存基於場景之音訊資料;及一或多個處理器,其經組態以:執行關於該基於場景之音訊資料之空間音訊編碼以獲得一前景音訊信號及一對應的空間分量,該空間分量界定該前景音訊信號之空間特性;執行關於該前景音訊信號之心理聲學音訊編碼以獲得一經編碼前景音訊信號;當執行關於該前景音訊信號之心理聲學音訊編碼時判定用於該前景音訊信號之一第一位元分配;基於用於該前景音訊信號之該第一位元分配而判定用於該空間分量之一第二位元分配;基於用於該空間分量之該第二位元分配而量化該空間分量以獲得一經量化空間分量;及在一位元串流中指定該經編碼前景音訊信號及該經量化空間分量。
在另一實例中,該等技術之各種態樣係關於一種對基於場景之音訊資料進行編碼之方法,該方法包含:執行關於該基於場景之音訊資料之空間音訊編碼以獲得一前景音訊信號及一對應的空間分量,該空間分量界定該前景音訊信號之空間特性;執行關於該前景音訊信號之心理聲學音訊編碼以獲得一經編碼前景音訊信號;當執行關於該前景音訊信號之心理聲學音訊編碼時判定用於該前景音訊信號之一第一位元分配;基於用於該前景音訊信號之該第一位元分配而判定用於該空間分量之一第二位元分配;基於用於該空間分量之該第二位元分配而量化該空間分量以獲得一經量化空間分量;及在一位元串流中指定該經編碼前景音訊信號及該經量化空間分量。
在另一實例中,該等技術之各種態樣係關於一種裝置,其經組態以對基於場景之音訊資料進行編碼,該裝置包含:用於執行關於該基於場景之音訊資料之空間音訊編碼以獲得一前景音訊信號及一對應的空間分量之構件,該空間分量界定該前景音訊信號之空間特性;用於執行關於該前景音訊信號之心理聲學音訊編碼以獲得一經編碼前景音訊信號之構件;用於當執行關於該前景音訊信號之心理聲學音訊編碼時判定用於該前景音訊信號之一第一位元分配之構件;用於基於用於該前景音訊信號之該第一位元分配而判定用於該空間分量之一第二位元分配之構件;用於基於用於該空間分量之該第二位元分配而量化該空間分量以獲得一經量化空間分量之構件;及用於在一位元串流中指定該前景音訊信號及該經量化空間分量之構件。
在另一實例中,該等技術之各種態樣係關於一種非暫時性電腦可讀儲存媒體,其上儲存有指令,該等指令在被執行時使一或多個處理器:執行關於基於場景之音訊資料之空間音訊編碼以獲得一前景音訊信號及一對應的空間分量,該空間分量界定該前景音訊信號之空間特性;執行關於該前景音訊信號之心理聲學音訊編碼以獲得一經編碼前景音訊信號;當執行關於該前景音訊信號之心理聲學音訊編碼時判定用於該前景音訊信號之一第一位元分配;基於用於該前景音訊信號之該第一位元分配而判定用於該空間分量之一第二位元分配;基於用於該空間分量之該第二位元分配而量化該空間分量以獲得一經量化空間分量;及在一位元串流中指定該前景音訊信號及該經量化空間分量。
在另一實例中,該等技術之各種態樣係關於一種裝置,其經組態以對表示經編碼之基於場景之音訊資料之一位元串流進行解碼,該裝置包含:一記憶體,其經組態以儲存該位元串流,該位元串流包括一經編碼前景音訊信號及界定該前景音訊信號之空間特性之一對應的經量化空間分量;及一或多個處理器,其經組態以:執行關於該經編碼前景音訊信號之心理聲學音訊解碼以獲得一前景音訊信號;當執行關於該經編碼前景音訊信號之該心理聲學音訊解碼時判定用於該經編碼前景音訊信號之一第一位元分配;基於用於該經編碼前景音訊信號之該第一位元分配而判定用於該經量化空間分量之一第二位元分配;基於用於該經量化空間分量之該第二位元分配而反量化該經量化空間分量以獲得一空間分量;及基於該前景音訊信號及該空間分量而重建該基於場景之音訊資料。
在另一實例中,該等技術之各種態樣係關於一種對表示基於場景之音訊資料之一位元串流進行解碼之方法,該方法包含:自該位元串流獲得一經編碼前景音訊信號及界定該經編碼前景音訊信號之空間特性之一對應的經量化空間分量;執行關於該經編碼前景音訊信號之心理聲學音訊解碼以獲得一前景音訊信號;當執行關於該經編碼前景音訊信號之心理聲學音訊解碼時判定用於該經編碼前景音訊信號之一第一位元分配;基於用於該經編碼前景音訊信號之該第一位元分配而判定用於該經量化空間分量之一第二位元分配;基於用於該經量化空間分量之該第二位元分配而反量化該經量化空間分量以獲得一空間分量;及基於該前景音訊信號及該空間分量而重建該基於場景之音訊資料。
在另一實例中,該等技術之各種態樣係關於一種裝置,其經組態以對表示經編碼之基於場景之音訊資料之一位元串流進行解碼,該裝置包含:用於自該位元串流獲得一經編碼前景音訊信號及界定該經編碼前景音訊信號之空間特性之一對應的經量化空間分量之構件;用於執行關於該經編碼前景音訊信號之心理聲學音訊解碼以獲得一前景音訊信號之構件;用於當執行關於該經編碼前景音訊信號之心理聲學音訊解碼時判定用於該經編碼前景音訊信號之一第一位元分配之構件;用於基於用於該經編碼前景音訊信號之該第一位元分配而判定用於該經量化空間分量之一第二位元分配之構件;用於基於用於該經量化空間分量之該第二位元分配而反量化該經量化空間分量以獲得一空間分量之構件;及用於基於該前景音訊信號及該空間分量而重建該基於場景之音訊資料之構件。
在另一實例中,該等技術之各種態樣係關於一種非暫時性電腦可讀儲存媒體,其上儲存有指令,該等指令在被執行時使一或多個處理器:自表示基於場景之音訊資料之一位元串流獲得一經編碼前景音訊信號及界定該經編碼前景音訊信號之空間特性之一對應的經量化空間分量;執行關於該經編碼前景音訊信號之心理聲學音訊解碼以獲得一前景音訊信號;當執行關於該經編碼前景音訊信號之心理聲學音訊解碼時判定用於該經編碼前景音訊信號之一第一位元分配;基於用於該經編碼前景音訊信號之該第一位元分配而判定用於該經量化空間分量之一第二位元分配;基於用於該經量化空間分量之該第二位元分配而反量化該經量化空間分量以獲得一空間分量;及基於該前景音訊信號及該空間分量而重建該基於場景之音訊資料。
在隨附圖式及以下描述中闡述該等技術之一或多個態樣的細節。此等技術之其他特徵、目標及優點將自該描述及該等圖式以及申請專利範圍而顯而易見。
[相關申請案之交叉參改]
本申請案主張2019年6月24日申請之名為「QUANTIZING SPATIAL COMPONENTS BASED ON BIT ALLOCATIONS DETERMINED FOR PSYCHOACOUSTIC AUDIO CODING」之美國臨時申請案第62/865,853號之權益,該申請案之全部內容特此以引用之方式併入如同其全文經闡述一樣。
存在不同類型的音訊格式,包括基於聲道、基於對象及基於場景。基於場景之格式可使用立體混響技術。立體混響技術允許使用元素之階層式集合來表示音場,該等元素可呈現給用於大多數揚聲器組態的揚聲器饋送。
表達式展示在時間t處,音場之任一點處的壓力可由SHC唯一地表示。此處,,c
為聲音之速度(約343 m/s),為參考點(或觀測點),為階數n
之球面貝塞爾函數,且為階數n
及子階數m
之球面調和基底函數(其亦可稱作球面基底函數)。可認識到,方括號中之術語為信號之頻域表示(亦即,),其可由各種時間頻率變換近似,諸如離散傅立葉變換(DFT)、離散餘弦變換(DCT)或小波變換。階層式集合之其他實例包括小波變換係數之集合及多解析度基底函數之係數之其他集合。
SHC可藉由各種麥克風陣列組態以物理方式經獲取(例如記錄),或替代地,其可自音場的基於聲道或基於對象之描述(例如,經脈碼調變—PCM—音訊對象,其包括界定音場內之音訊對象的位置之音訊對象及後設資料)導出。SHC (其亦可被稱作立體混響係數)表示基於場景之音訊,其中SHC可輸入至音訊編碼器以獲得可促進更高效傳輸或儲存的經編碼SHC。舉例而言,可使用涉及(1+4)2
個(25,且因此為四階)係數之四階表示。
如上文所提及,可使用麥克風陣列自麥克風記錄導出SHC。可如何自麥克風陣列導出SHC之各種實例描述於Poletti,M.之「Three-Dimensional Surround Sound Systems Based on Spherical Harmonics」(J. Audio Eng. Soc.,第53卷,第11期,2005年11月,第1004至1025頁)中。
為了說明可如何自基於對象之描述導出SHC,考慮以下等式。可將對應於個別音訊對象之音場之係數表達為:,
其中i為,為n
階之球面漢克(Hankel)函數(第二種類),且為對象之位置。已知隨頻率變化的對象源能量(例如,使用時間-頻率分析技術,諸如,對PCM串流執行快速傅立葉變換)允許吾人將每一PCM對象及對應位置轉換成SHC。另外,可展示(由於上式為線性及正交分解):每一對象之係數為相加性的。以此方式,數個PCM對象(其中PCM對象為音訊對象之一個實例)可由係數表示(例如表示為個別對象之係數向量的總和)。基本上,該等係數含有關於音場之資訊(隨3D座標變化的壓力),且上式表示在觀測點附近自個別對象至總音場之表示的變換。下文在基於SHC之音訊寫碼的上下文中描述以下圖。
圖1為說明可執行本發明中所描述之技術的各種態樣之系統10的圖。如圖1之實例中所展示,系統10包括內容創建者系統12及內容消費者14。雖然在內容創建者系統12及內容消費者14之上下文中描述,但可在音場之SHC (其亦可被稱作立體混響係數)或任何其他階層式表示經編碼以形成表示音訊資料之位元串流的任何上下文中實施該等技術。
此外,內容創建者系統12可表示包含能夠實施本發明中描述之技術的任何形式的計算裝置中之一或多者的系統,該等計算裝置包括手機(或蜂巢式電話,包括所謂的「智慧型電話」,或換言之,行動電話或手機)、平板電腦、筆記本電腦、桌上型電腦、延伸實境(XR)裝置(其可指虛擬實境—VR—裝置、擴增實境—AR—裝置、混合實境—MR—裝置等中之任一或多者)、遊戲系統、光碟播放器、接收器(諸如音訊/視覺—A/V—接收器)或專用硬體,以提供若干實例。
同樣地,內容消費者14可表示能夠實施本發明中描述之技術的任何形式之計算裝置,該等計算裝置包括手機(或蜂巢式電話,包括所謂的「智慧型電話」,或換言之,行動手機或電話)、XR裝置、平板電腦、電視(包括所謂的「智慧型電視」)、機上盒、筆記本電腦、遊戲系統或控制台、手錶(包括所謂的智慧型手錶)、無線頭戴式耳機(包括所謂的「智慧型頭戴式耳機」)或桌上型電腦,以提供若干實例。
內容創建者系統12可表示可藉由內容消費者,諸如內容消費者14針對消耗產生音訊內容及可能地視訊內容的任何實體。內容創建者系統12可在事件,諸如體育事件處捕捉實時音訊資料,同時亦將各種其他類型之額外音訊資料,諸如解說音訊資料、廣告音訊資料、介紹或退場音訊資料等插入至實時音訊內容中。
內容消費者14表示擁有或可存取一音訊播放系統16的個人,該音訊播放系統可指能夠將至揚聲器饋送以用於播放的高階立體混響音訊資料(其包括高階音訊係數,其再次亦可被稱作球面調和係數)呈現為音訊內容的任何形式之音訊播放系統。在圖1之實例中,內容消費者14包括音訊播放系統16。
立體混響音訊資料可在球面調和域中經界定,並且自球面調和域經呈現或以其他方式變換至空間域,從而產生呈一或多個揚聲器饋送之形式的音訊內容。立體混響音訊資料可表示「基於場景之音訊資料」的一個實例,其描述使用立體混響係數之音訊場景。基於場景之音訊資料與基於對象之音訊資料的區別在於(在球面調和域中)描述整個場景,而非基於對象之音訊資料中常見的(在空間域中)描述精密對象。基於場景之音訊資料與基於聲道之音訊資料的不同之處在於基於場景之音訊資料駐留在球面調和域中而非基於聲道之音訊資料之空間域中。
在任何情況下,內容創建者系統12都包括麥克風18,其記錄或以其他方式獲得呈各種格式之實時記錄(包括直接作為立體混響係數及音訊對象)。當麥克風陣列18 (其亦可被稱作「麥克風18」)獲得實時音訊直接作為立體混響係數時,麥克風18可包括轉碼器,諸如圖1的實例中展示之立體混響轉碼器20。
換言之,儘管展示為與麥克風5分離,但立體混響轉碼器20之分離例項可包括在麥克風5中之每一者內,以便將所捕捉饋送自然地轉碼成立體混響係數21。然而,當不包括於麥克風18內時,立體混響轉碼器20可將自麥克風18輸出之實時饋送轉碼成立體混響係數21。就此而言,立體混響轉碼器20可表示經組態以將麥克風饋送及/或音訊對象轉碼成立體混響係數21之單元。內容創建者系統12因此包括與麥克風18整合之立體混響轉碼器20,作為與麥克風18分離的轉碼器或其某一組合。
內容創建者系統12亦可包括經組態以壓縮立體混響係數21以獲得位元串流31之音訊編碼器22。音訊編碼器22可包括空間音訊編碼裝置24及心理聲學音訊編碼裝置26。空間音訊編碼裝置24可表示能夠執行關於立體混響係數21之壓縮以獲得中間格式化的音訊資料25 (其在內容創建者系統12表示如下文更詳細地描述之廣播網路時亦可被稱作「夾層格式化的音訊資料25」)之裝置。中間格式化的音訊資料25可表示使用空間音訊壓縮而經壓縮但尚未經歷心理聲學音訊編碼(例如AptX或進階音訊寫碼-AAC,或其他類似類型之心理聲學音訊編碼,包括各種增強之AAC-eAAC-諸如高效率AAC-HE-AAC-HE-AAC v2,其亦稱為eAAC+等)的音訊資料。
空間音訊編碼裝置24可經組態以壓縮立體混響係數21。亦即,空間音訊編碼裝置24可使用涉及線性可逆變換(LIT)之應用的分解來壓縮立體混響係數21。線性可逆變換之一個實例被稱作「單一值分解」(「SVD」)、主成分分析(「PCA」)或特徵值分解,該特徵值分解可表示線性可逆分解之不同實例。
在此實例中,空間音訊編碼裝置24可將SVD應用於立體混響係數21以判定立體混響係數21之經分解版本。立體混響係數21之經分解版本可包括主要音訊信號中之一或多者及描述空間特性之一或多個對應的空間分量,該等空間特性例如相關聯的主要音訊信號之方向、形狀及寬度。因而,空間音訊編碼裝置24可將分解應用於立體混響係數21以自空間特性(如由空間分量表示)解耦能量(如由主要音訊信號表示)。
空間音訊編碼裝置24可分析立體混響係數21之經分解版本以識別各種參數,其可促進立體混響係數21之經分解版本的重定序。空間音訊編碼裝置24可基於經識別參數對立體混響係數21之經分解版本重定序,其中在變換可對橫越立體混響係數之訊框的立體混響係數重定序之條件下,此類重定序可改良寫碼效率(其中訊框通常包括立體混響係數21之經分解版本的M個樣品並且M在一些實例中經設定為1024)。
在對立體混響係數21之經分解版本重定序之後,空間音訊編碼裝置24可選擇立體混響係數21之經分解版本中之一或多者作為音場的前景(或換言之,不同、主要或突出)分量的代表。空間音訊編碼裝置24可指定表示前景分量(其亦可被稱作「主要聲音信號」、「主要音訊信號」或「主要聲音分量」)及相關聯的方向性資訊(其亦可被稱作「空間分量」或在一些情況下,被稱作所謂的「V向量,其識別對應的音訊對象之空間特性」)之立體混響係數21的經分解版本。空間分量可表示具有多個不同元素(其就向量而言可被稱作「係數」)之向量且藉此可被稱作「多維向量」。
空間音訊編碼裝置24接下來可執行關於立體混響係數21之音場分析以便至少部分地識別表示音場之一或多個背景(或換言之,環境)分量的立體混響係數21。背景分量亦可被稱作「背景音訊信號」或「環境音訊信號」。在一些實例中,在背景音訊信號可僅包括立體混響係數21 (例如對應於零階及一階球面基底函數之立體混響係數及而非對應於二階或更高階球面基底函數之立體混響係數)之任何給定樣品之一子集之條件下,空間音訊編碼裝置24可執行關於背景音訊信號之能量補償。當執行降階時,換言之,空間音訊編碼裝置24可擴增立體混響係數21之其餘的後台立體混響係數(例如將能量添加至其餘的背景立體混響係數/自其餘的背景立體混響係數減去能量)以補償由執行降階產生之總能量的改變。
空間音訊編碼裝置24接下來可執行關於前景方向性資訊(其為指代空間分量之另一方式)之內插的形成且接著執行關於經內插前景方向性資訊之降階以產生經降階前景方向性資訊。在一些實例中,空間音訊編碼裝置24可進一步執行關於經降階之前景方向性資訊的量化,從而輸出經寫碼之前景方向性資訊。在一些情況下,此量化可包含可能呈向量量化之形式的純量/熵量化。空間音訊編碼裝置24接著可輸出中間格式化的音訊資料25作為背景音訊信號、前景音訊信號及經量化前景方向性資訊。
在任何情況下,背景音訊信號及前景音訊信號在一些實例中可包含傳送聲道。亦即,空間音訊編碼裝置24可針對立體混響係數21之包括背景音訊信號(例如對應於零階或一階球面基底函數之立體混響係數21中之一者的M個樣品)中之各別者之每一訊框並且針對前景音訊信號(例如自立體混響係數21分解之音訊對象之M個樣品)之每一訊框輸出傳送聲道。空間音訊編碼裝置24可進一步輸出側資訊(其亦可被稱作「旁頻帶資訊」),該輸出側資訊包括對應於前景音訊信號中之每一者的經量化空間分量。
總體而言,傳送聲道及旁側資訊可在圖1之實例中表示為立體混響傳送格式(ATF)音訊資料25 (其為指代中間格式化的音訊資料之另一方式)。換言之,AFT音訊資料25可包括傳送聲道及旁側資訊(其亦可被稱作「後設資料」)。作為一個實例,ATF音訊資料25可符合高階立體混響(HOA)傳送格式(HTF)。更多關於HTF之資訊可見於名為「高階立體混響(HOA)傳送格式」ETSI TS 103 589 V1.1.1,日期為2018年6月(2018-06)的歐洲電信標準協會(ETSI)之技術規格(TS)中。因而,ATF音訊資料25可被稱作HTF音訊資料25。
空間音訊編碼裝置24接著可將ATF音訊資料25傳輸或以其他方式輸出至心理聲學音訊編碼裝置26。心理聲學音訊編碼裝置26可執行關於ATF音訊資料25之心理聲學音訊編碼以產生位元串流31。心理聲學音訊編碼裝置26可根據標準化、開放源或專有音訊寫碼程序來操作。舉例而言,心理聲學音訊編碼裝置26可根據AptX™、AptX之各種其他版本(例如增強之AptX—E-AptX、AptX實時、AptX立體聲及AptX高清晰度—AptX-HD)或進階音訊寫碼(AAC)及其推導執行心理聲學音訊編碼。內容創建者系統12可接著經由傳輸聲道將位元串流31傳輸至內容消費者14。
在一些實例中,心理聲學音訊編碼裝置26可表示心理聲學音訊寫碼器之一或多個例項,其中之每一者用於對ATF音訊資料25之傳送聲道進行編碼。在一些情況下,此心理聲學音訊編碼裝置26可表示AptX編碼單元的一或多個例項(如上文所提及)。心理聲學音訊寫碼器單元26可在一些情況下針對ATF音訊資料25之每一傳送聲道來調用AptX編碼單元之例項。
在一些實例中,為了使用立體混響係數產生音場之不同表示(其再次為音訊資料21之一個實例),音訊編碼器22可使用用於被稱作混合位階立體混響(MOA)之音場之立體混響表示的寫碼方案,如在名為「MIXED-ORDER AMBISONICS (MOA) AUDIO DATA FOR COMPUTER-MEDIATED REALITY SYSTEMS」且2017年8月8日申請之美國申請案第15/672,058號中較詳細地論述,該申請案在2019年1月3日經公開為美國專利公開案第2019/0007781號。
為了產生音場之特定MOA表示,音訊編碼器22可產生立體混響係數之全集合之部分子集。舉例而言,由音訊編碼器22產生之每一MOA表示可提供關於音場之一些區域之精確度,但在其他區域中提供較小精確度。在一個實例中,音場之MOA表示可包括立體混響係數之八個(8)未經壓縮立體混響係數,而相同音場之三階立體混響表示可包括立體混響係數之十六個(16)未壓縮立體混響係數。因而,經產生作為立體混響係數之部分子集的音場之每一MOA表示可能相比由立體混響係數產生的同一音場之對應三階立體混響表示在儲存方面不太充分且在頻寬方面不太充分(在作為位元串流31之部分而經由所說明傳輸聲道傳輸的情況下及在此時)。
儘管參考MOA表示來描述,但本發明之技術亦可參照全階立體混響(FOA)表示來執行,在該全階立體混響表示中,給定階數N之所有立體混響係數用以表示音場。換言之,替代使用立體混響係數之部分非零子集來表示音場,音場表示產生器302可使用給定階數N之所有立體混響係數來表示音場,產生等於(N+1)2
之總立體環繞聲係數。
就此而言,高階立體混響音訊資料(其為指代MOA表示或FOA表示中的立體混響係數之另一方式)可包括與具有一階或以下之球面基底函數相關聯的高階立體混響係數(其可被稱作「1階立體混響音訊資料」)、與具有混合位階及子位階之球面基底函數相關聯的高階立體混響係數(其可被稱作如上文所論述之「MOA表示」),或與具有大於一之階數之球面基底函數相關聯的高階立體混響係數(其在上文稱作「FOA表示」)。
此外,雖然在圖1中經展示為直接傳輸至內容消費者14,但內容創建者系統12可將位元串流31輸出至定位於內容創建者系統12與內容消費者14之間的中間裝置。中間裝置可儲存位元串流31以供稍後遞送至可請求此位元串流之內容消費者14。中間裝置可包含檔案伺服器、網頁伺服器、桌上型電腦、膝上型電腦、平板電腦、行動電話、智慧型手機,或能夠儲存位元串流31以供音訊解碼器稍後擷取之任何其他裝置。該中間裝置可駐留於能夠將位元串流31 (且可能結合傳輸對應視訊資料位元串流)串流式傳輸至請求位元串流31之用戶(諸如,內容消費者14)的內容遞送網路中。
替代地,內容創建者系統12可將位元串流31儲存至儲存媒體,諸如緊密光碟、數位視訊光碟、高清晰度視訊光碟或其他儲存媒體,其中之大多數能夠由電腦讀取且因此可被稱作電腦可讀儲存媒體或非暫時性電腦可讀儲存媒體。在此上下文中,傳輸聲道可指藉以傳輸儲存至此等媒體之內容的彼等聲道(且可包括零售商店及其他基於商店之遞送機構)。在任何情況下,本發明之技術因此就此而言不應限於圖1之實例。
如圖1之實例中進一步展示,內容消費者14包括音訊播放系統16。音訊播放系統16可表示能夠播放多聲道音訊資料之任何音訊播放系統。音訊播放系統16可進一步包括音訊解碼裝置32。音訊解碼裝置32可表示經組態以自位元串流31解碼立體混響係數11'的裝置,其中立體混響係數11'可類似於立體混響係數11,但歸因於有損操作(例如,量化)及/或經由傳輸聲道之傳輸而不同。
音訊解碼裝置32可包括心理聲學音訊解碼裝置34及空間音訊解碼裝置36。心理聲學音訊解碼裝置34可表示經組態以與心理聲學音訊編碼裝置26對等地操作以自位元串流31重建ATF音訊資料25'的單元。再次,關於自心理聲學音訊解碼裝置34輸出之ATF音訊資料25的質數表示標示ATF音訊資料25'可由於在ATF音訊資料25之壓縮期間執行的有損或其他操作而與ATF音訊資料25稍微不同。心理聲學音訊解碼裝置34可經組態以根據標準化、開放源或專有音訊寫碼處理(諸如以上所提及之AptX、AptX的變化、AAC、AAC的變化等)執行解壓縮。
雖然主要下文關於AptX描述,但可相對於其他心理聲學音訊編解碼器應用技術。其他心理聲學音訊編解碼器之實例包括音訊編解碼器3 (AC-3)、蘋果的無損音訊編解碼器(ALAC)、MPEG-4音訊無損串流式傳輸(ALS)、aptX®、增強AC-3、自由無損音訊編解碼器(FLAC)、猴子的音訊(Monkey's Audio)、MPEG-1音訊層II (MP2)、MPEG-1音訊層III (MP3)、Opus及視窗媒體音訊(WMA)。
在任何情況下,心理聲學音訊解碼裝置34可執行關於位元串流31中指定之前景音訊對象及表示位元串流31中指定之背景音訊信號之經編碼立體混響係數的心理聲學解碼。以此方式,心理聲學音訊解碼裝置34可獲得ATF音訊資料25'並將ATF音訊資料25'輸出至空間音訊解碼裝置36。
空間音訊解碼裝置36可表示經組態以與空間音訊編碼裝置24對等地操作之單元。亦即,空間音訊解碼裝置36可對位元串流31中指定之前景方向性資訊進行反量化。空間音訊解碼裝置36可進一步執行關於經量化前景方向性資訊之反量化以獲得經解碼前景方向性資訊。空間音訊解碼裝置36接下來可執行關於經解碼前景方向資訊之內插,且接著基於經解碼前景音訊信號及經內插前景方向資訊判定表示前景分量之立體混響係數。空間音訊解碼裝置36接著可基於表示前景音訊信號之經判定立體混響係數及表示背景音訊信號之經解碼立體混響係數來判定立體混響係數11'。
音訊播放系統16可在對位元串流31進行解碼以獲得立體混響係數11'之後將立體混響係數11'呈現給輸出揚聲器饋送39。音訊播放系統16可包括多個不同音訊呈現器38。音訊呈現器38可各自提供不同形式的呈現,其中不同形式的呈現可包括執行基於向量之振幅平移(VBAP)之各種方式中之一或多者、執行雙耳呈現(例如頭部相關傳遞函數-HRTF,雙耳室脈衝回應-BRIR等)中之一或多者,及/或執行音場合成之各種方式中之一或多者。
音訊播放系統16可將揚聲器饋送39輸出至揚聲器40中之一或多者。揚聲器饋送39可驅動揚聲器40。揚聲器40可表示揚聲器(例如置放於箱或其他殼體中之轉換器)、頭戴式耳機揚聲器,或能夠基於電信號發射聲音之任何其他類型的轉換器。
為了選擇適當呈現器或在一些情況下產生適當呈現器,音訊播放系統16可獲得指示揚聲器40之數目及/或揚聲器40之空間幾何佈置的揚聲器資訊41。在一些情況下,音訊播放系統16可使用參考麥克風及以一方式驅動揚聲器40以便動態地判定揚聲器資訊41來獲得揚聲器資訊41。在其他情況下,或結合揚聲器資訊41之動態判定,音訊播放系統16可促使使用者與音訊播放系統16介接且輸入揚聲器資訊41。
音訊播放系統16可基於揚聲器資訊41選擇音訊呈現器38中之一者。在一些情況下,在音訊呈現器38中無一者處於至揚聲器資訊41中所指定之揚聲器幾何佈置之某一臨限值類似性量度(就揚聲器幾何佈置而言)內時,音訊播放系統16可基於揚聲器資訊41產生音訊呈現器38中之一者。在一些情況下,音訊播放系統16可基於揚聲器資訊41產生音訊呈現器38中之一者,而無需首先嘗試選擇音訊呈現器38中之現有一者。
雖然關於揚聲器饋送39描述,但音訊播放系統16可自揚聲器饋送39或直接自立體混響係數11'呈現頭戴式耳機饋送,從而輸出頭戴式耳機饋送至頭戴式耳機揚聲器。頭戴式耳機饋送可表示雙耳音訊揚聲器饋送,音訊播放系統16使用雙耳音訊呈現器來呈現雙聲音訊揚聲器饋送。
如上文所描述,音訊編碼器22可調用空間音訊編碼裝置24以執行空間音訊編碼(或以其他方式壓縮)立體混響音訊資料21且藉此獲得ATF音訊資料25。在將空間音訊編碼應用於立體混響音訊資料21期間,空間音訊編碼裝置24可獲得前景音訊信號及對應的空間分量,其分別以經編碼形式經指定為傳送聲道及隨附後設資料(或旁頻帶資訊)。
如上文所提及,空間音訊編碼裝置24可針對空間分量並且在將空間分量指定為AFT音訊資料25中之後設資料之前應用向量量化。心理聲學音訊編碼裝置26可獨立於藉由空間音訊編碼裝置24執行之空間分量之量化而量化ATF音訊資料25之傳送聲道中之每一者。因為空間分量為對應的前景音訊信號提供空間特性,所以獨立量化可在空間分量與前景音訊信號之間產生不同誤差,從而可在播放時產生音訊假影,諸如前述音訊信號在經重建音場內之不正確定位、用於較高品質前景音訊信號之不佳空間解析度及可在音場的再現期間產生干擾或明顯的不準確性之其他異常情況。
根據本發明中描述之技術之各種態樣,空間音訊編碼裝置24及心理聲學音訊編碼裝置26經整合,此係因為心理聲學音訊編碼裝置26可併有空間分量量化器(SCQ) 46,從而自空間音訊編碼裝置24分擔量化。SCQ 46可基於針對傳送聲道指定之位元分配執行關於空間分量之量化,藉此較緊密地整合空間音訊編碼裝置24及心理聲學音訊編碼裝置26。對準或以其他方式整合兩個裝置24及26可允許較均勻量化,從而可減少或以其他方式去除上文所提及之音訊假影,藉此改良音訊編碼器22自身之效能。
在操作中,空間音訊編碼裝置24可執行關於基於場景之音訊資料21之空間音訊編碼以獲得前景音訊信號及對應的空間分量。然而,藉由空間音訊編碼裝置24執行之空間音訊編碼省去空間分量之上文所提及之量化,因為量化再次經分擔至心理聲學音訊編碼裝置26。空間音訊編碼裝置24可將ATF音訊資料25輸出至心理聲學音訊編碼裝置26。
音訊編碼器22調用心理聲學音訊編碼裝置26以執行關於前景音訊信號之心理聲學音訊編碼以獲得經編碼前景音訊信號。在一些實例中,心理聲學音訊編碼裝置26可根據AptX壓縮演算法(包括上文所列舉之AptX的各種版本中之任一者)執行心理聲學音訊編碼。關於圖5至圖8之實例大體描述AptX壓縮演算法。
心理聲學音訊編碼裝置26可當執行關於前景音訊信號之心理聲學音訊編碼時判定用於前景音訊信號之第一位元分配。心理聲學音訊編碼裝置26可基於用於前景音訊信號之第一位元分配判定用於空間分量之第二位元分配。因為第二位元分配係基於第一位元分配而判定,所以心理聲學音訊編碼裝置26較完全地整合橫越前景音訊信號及空間分量之量化。心理聲學音訊編碼裝置26可調用SCQ 46,從而將第二位元分配傳遞至SCQ 46。SCQ 46可應用量化(諸如向量量化)以實現用於空間分量之位元分配,該位元分配符合或超過第二位元分配。心理聲學音訊編碼裝置26接著可在位元串流31中指定經編碼前景音訊信號及經量化空間分量。
如上文所提及,音訊解碼器32可與音訊編碼器22對等地操作。因而,音訊解碼器32可獲得位元串流31並且調用心理聲學音訊解碼裝置34以執行關於經編碼前景音訊信號之心理聲學音訊解碼以獲得前景音訊信號。如上文所提及,心理聲學音訊解碼裝置34可根據AptX解壓縮演算法執行心理聲學音訊解碼。再次,下文關於圖5至圖8之實例描述較多關於AptX解壓縮演算法之資訊。
在任何情況下,當執行關於前景音訊信號之心理聲學音訊編碼時,心理聲學音訊解碼裝置34可針對經編碼前景音訊信號判定第一位元分配。心理聲學音訊解碼裝置34亦可基於用於經編碼前景音訊信號之第一位元分配而判定用於經量化空間分量之第二位元分配。心理聲學音訊解碼裝置34可調用空間分量反量化器(SCD) 54,其可基於用於空間分量之第二位元分配來反量化經量化空間分量以獲得空間分量。心理聲學音訊解碼裝置34可基於前景音訊信號及空間分量重建ATF音訊資料25'。空間音訊解碼裝置36接著可基於前景音訊信號及空間分量重建基於場景之音訊資料21'。
圖2為說明可執行本發明中描述之技術的各種態樣之系統的另一實例之圖。圖2之系統110可表示圖1之實例中展示的系統10之一個實例。如圖2之實例中所展示,系統110包括源裝置112及積儲裝置114,其中源裝置112可表示內容創建者系統12之實例,且積儲裝置114可表示內容消費者14及/或音訊播放系統16之實例。
儘管關於源裝置112及積儲裝置114描述,但源裝置112在一些情況下可用作積儲裝置,且積儲裝置114在此等及其他情況下可用作源裝置。因而,圖2中所展示之系統110的實例僅僅為說明本發明中描述之技術的各種態樣之一個實例。
在任何情況下,如上文所提及,源裝置112可表示能夠實施本發明中描述之技術之任何形式的計算裝置,包括手機(或蜂巢式電話,包括所謂的「智慧型電話」)、平板電腦、所謂的智慧型電話、遠端駕駛飛機(諸如所謂的「無人機」)、機器人、桌上型電腦、接收器(諸如音訊/視覺—AV—接收器)、機上盒、電視(包括所謂的「智慧型電視」)、媒體播放器(諸如數位視訊光碟播放器、串流式傳輸媒體播放器、Blue-Ray Disc™播放器等),或能夠經由個人區域網路(PAN)將音訊資料無線地傳達至積儲裝置之任何其他裝置。出於說明的目的,假設源裝置112表示智慧型電話。
積儲裝置114可表示能夠實施本發明中描述之技術的任何形式的計算裝置,包括手機(或換言之,蜂巢式電話、行動電話、行動手機等)、平板電腦、智慧型電話、桌上型電腦、無線耳機(其可包括:無線頭戴式耳機,其包括或不包括麥克風;及所謂的智慧型無線頭戴式耳機,其包括額外功能,諸如健康監測、機載音樂儲存及/或播放、專用蜂巢式能力等)、無線揚聲器(包括所謂的「智慧型揚聲器」)、手錶(包括所謂的「智慧型手錶」),或能夠基於經由PAN無線地傳達之音訊資料再生音場的任何其他裝置。又,出於說明的目的,假設積儲裝置114表示無線頭戴式耳機。
如圖2之實例中所展示,源裝置112包括一或多個應用程式(「app」) 118A至118N (「app 118」)、混合單元120、音訊編碼器122 (其包括空間音訊編碼裝置-SAED-124及心理聲學音訊編碼裝置-PAED-126),及無線連接管理器128。儘管圖2之實例中未展示,但源裝置112可包括支援app 118之操作的多個其他元件,包括作業系統、各種硬體及/或軟體介面(諸如使用者介面,包括圖形使用者介面)、一或多個處理器、記憶體、儲存裝置等等。
app 118中之每一者表示軟體(諸如一批儲存至非暫時性電腦可讀媒體之指令),其對系統110進行組態以在由源裝置112之一或多個處理器執行時提供某種功能性。例如,app 118可提供發訊息功能性(諸如存取電子郵件、本文發訊息及/或視訊發訊息)、話音呼叫功能性、視訊會議功能性、行事曆功能性、音訊串流式傳輸功能性、方向功能性、映射功能性、遊戲功能性。app 118可為:由設計並出售由源裝置112執行(並且常常預先安裝在源裝置112上)的作業系統的同一公司設計且開發的第一方應用程式;或可經由所謂的「app商店」獲得或可能預先安裝在源裝置112上的第三方應用程式。app 118中之每一者在被執行時可分別輸出音訊資料119A至119N (「音訊資料119」)。
在一些實例中,音訊資料119可自連接至源裝置112之麥克風(未經描繪,但類似於圖1之實例中展示的麥克風5)產生。音訊資料119可包括類似於上文關於圖1的實例所論述的立體混響音訊資料21之立體混響係數,其中此類立體混響音訊資料可被稱作「基於場景之音訊資料」。因而,音訊資料119亦可被稱作「基於場景之音訊資料119」或「立體混響音訊資料119」。
儘管關於立體混響音訊資料描述,但該等技術可針對立體混響音訊資料執行,該立體混響音訊資料不一定包括對應於所謂的「高階」球面基底函數(例如具有大於一之階數之球面基底函數)的係數。因此,可關於包括僅對應於零階球面基底函數或僅零階及一階球面基底函數之係數的立體混響音訊資料執行該等技術。
混合單元120表示經組態以混合由app 118輸出之音訊資料119 (及由作業系統輸出之其他音訊資料,諸如警報或其他音調,包括鍵盤按鍵音、鈴聲等)中之一或多者以產生經混合音訊資料121的單元。音訊混合可指多個聲音(如音訊資料119中所闡述)藉以組合成一或多個聲道之程序。在混合期間,混合單元120亦可操縱及/或增強立體混響音訊資料119之音量(其亦可被稱作「增益位準」)、頻率內容、及/或全景位置。在經由無線PAN會話串流式傳輸立體混響音訊資料119之上下文中,混合單元120可將經混合音訊資料121輸出至音訊編碼器122。
音訊編碼器122可類似(若不實質上類似)於上文在圖1的實例中所描述的音訊編碼器22。亦即,音訊編碼器122可表示經組態以對經混合音訊資料121進行編碼且藉此獲得呈位元串流131之形式的經編碼音訊資料之單元。在一些實例中,音訊編碼器122可對音訊資料119中之個別音訊資料進行編碼。
出於說明的目的,參考PAN協定之一個實例,Bluetooth®提供多個不同類型的音訊編解碼器(其為由組合詞語「編碼」及「解碼」產生之詞語)並且可擴展以包括供應商特定的音訊編解碼器。Bluetooth®的進階音訊分發設定檔(A2DP)指示用於A2DP之支援需要支援A2DP中指定之次頻帶編解碼器。A2DP亦支援MPEG-1部分3 (MP2)、MPEG-2部分3 (MP3)、MPEG-2部分7 (進階音訊寫碼-AAC)、MPEG-4部分3 (高效率-AAC—HE-AAC)及自適應性變換聲學寫碼(ATRAC)中所闡述之編解碼器。此外,如上文所提及,Bluetooth®之A2DP支援供應商特定的編解碼器,諸如aptX™及aptX之各種其他版本(例如增強式aptX—E-aptX、aptX實時及aptX高清晰度—aptX-HD)。
音訊編碼器122可與上文所列舉之音訊編解碼器以及上文未列舉之音訊編解碼器中任一者中之一或多者一致地操作,但該音訊編碼器操作以對經混合音訊資料121進行編碼以獲得經編碼音訊資料131 (其為指代位元串流131之另一方式)。音訊編碼器122可首先調用SAED 124,該SAED可類似(若不實質上類似)於圖1的實例中展示之SAED 24。SAED 124可執行關於經混合音訊資料之以上所提及之空間音訊壓縮以獲得ATF音訊資料125 (其可類似(若不實質上類似)於圖1的實例中展示之ATF音訊資料25)。SAED 124可將ATF音訊資料25輸出至PAED 126。
PAED 126可類似於(若不實質上類似)圖1的實例中展示之PAED 26。PAED 126根據以上編解碼器(包括AptX及其變化)中之任一者執行心理聲學音訊編碼以獲得位元串流131。音訊編碼器122可將經編碼音訊資料131輸出至由無線連接管理器128管理之無線通信單元130 (例如無線通信單元130A)中之一者。
無線連接管理器128可表示經組態以將可用的頻譜之某些頻率內之頻寬分配至無線通信單元130中之不同的無線通信單元之單元。舉例而言,Bluetooth®通信協定在頻譜之2.5 GHz範圍內操作,該頻譜之2.5 GHz範圍與各種WLAN通信協定使用之頻譜的範圍重疊。無線連接管理器128可在給定時間期間將頻寬之某一部分分配至Bluetooth®協定且在不同時間期間將頻寬之不同部分分配至重疊的WLAN協定。頻寬及其他頻寬之分配由方案129限定。無線連接管理器128可曝露各種應用程式員介面(API),藉由其調整頻寬之分配及通信協定之其他態樣以便實現指定的服務品質(QoS)。亦即,無線連接管理器128可提供API以調整方案129,藉由該方案來控制無線通信單元130之操作以實現指定的QoS。
換言之,無線連接管理器128可管理在相同頻譜(諸如如上文所論述的某些WLAN通信協定及一些PAN協定)內操作之多個無線通信單元130的共存。無線連接管理器128可包括共存方案129 (圖2中展示為「方案129」),其指示無線通信單元130中之每一者何時可發送(例如時間間隔)及可發送多少封包、經發送封包之大小等等。
無線通信單元130可各自表示無線通信單元130,其根據一或多個通信協定操作以經由傳輸聲道將位元串流131傳達至積儲裝置114。在圖2的實例中,出於說明的目的,假設無線通信單元130A根據通信協定之Bluetooth®套件來操作。進一步假設,無線通信單元130A根據A2DP操作以建立PAN鏈路(經由傳輸聲道)以允許位元串流131自源裝置112至積儲裝置114之遞送。
更多關於通信協定之Bluetooth®套件的資訊可見於名為「藍芽核心規範v 5.0」之文件中,該文件在2016年12月6日公開並且可在www . bluetooth . org / en - us / specification / adopted - specifications
處獲得。更多關於A2DP之資訊可見於名為「高階音訊分發設定檔規範」版本1.3.1之文件中,該文件在2015年7月14日公開。
無線通信單元130A可經由傳輸聲道將位元串流131輸出至積儲裝置114,假設該傳輸聲道為藍芽之實例中之無線聲道。雖然圖2中展示為直接傳輸至積儲裝置114,但源裝置112可將位元串流131輸出至定位於源裝置112與積儲裝置114之間的中間裝置。中間裝置可儲存位元串流131以用於稍後遞送至積儲裝置14,該積儲裝置可請求位元串流131。中間裝置可包含檔案伺服器、網頁伺服器、桌上型電腦、膝上型電腦、平板電腦、行動電話、智慧型電話,或能夠儲存位元串流131以供音訊解碼器稍後擷取之任何其他裝置。此中間裝置可駐留在能夠將位元串流131 (且可能與傳輸對應的視訊資料位元串流相結合)串流式傳輸至請求位元串流131之用戶(諸如積儲裝置114)的內容傳送網路中。
替代地,源裝置112可將位元串流131儲存至儲存媒體,諸如緊密光碟、數位視訊光碟、高清晰度視訊光碟或其他儲存媒體,其中之大多數能夠由電腦讀取且因此可被稱作電腦可讀儲存媒體或非暫時性電腦可讀儲存媒體。在此上下文中,傳輸聲道可指藉以傳輸儲存至此等媒體之內容的彼等聲道(且可包括零售商店及其他基於商店之遞送機構)。在任何情況下,本發明之技術因此就此而言不應限於圖2之實例。
如在圖2的實例中進一步所展示,積儲裝置114包括以下各者中之一或多者:無線連接管理器150,其根據方案151管理無線通信單元152A至152N (「無線通信單元152」),音訊解碼器132 (包括心理聲學音訊解碼裝置-PADD-134及空間音訊解碼裝置-SADD-136),及一或多個揚聲器140A至140N (「揚聲器140」,其可類似於圖1的實例中展示之揚聲器40)。無線連接管理器150可以類似於上文關於無線連接管理器128所描述的方式之方式操作,從而曝露API以調整方案151,無線通信單元152藉由該方案來實現指定的QoS。
無線通信單元152可與無線通信單元130類似地操作,不同之處在於無線通信單元152與無線通信單元130對等地操作以經由傳輸聲道接收位元串流131。假設無線通信單元152 (例如無線通信單元152A)中之一者根據通信協定之Bluetooth®套件並且與無線通信協定對等地操作。無線通信單元152A可將位元串流131輸出至音訊解碼器132。
音訊解碼器132可以與音訊編碼器122對等之方式操作。音訊解碼器132可根據上文所列舉之音訊編解碼器以及上文未列舉之音訊編解碼器中之任一者中之一或多者操作,但該音訊解碼器操作以對經編碼音訊資料131進行解碼以獲得經混合音訊資料121'。再次,關於「經混合音訊資料121」之標以加撇符號標示可存在由於量化或在音訊編碼器122之編碼期間進行的其他有損操作造成的一些損失。
音訊解碼器132可調用PADD 134以執行關於位元串流131之心理聲學音訊解碼以獲得ATF音訊資料125',PADD 134可將該ATF音訊資料輸出至SADD 136。SADD 136可執行空間音訊解碼以獲得經混合音訊資料121'。儘管為了易於說明,未在圖2之實例中展示呈現器(類似於圖1之呈現器38),但音訊解碼器132可將經混合音訊資料121'呈現至揚聲器饋送(使用呈現器中之任一者,諸如上文關於圖1的實例所論述之呈現器38)並將揚聲器饋送輸出至揚聲器140中之一或多者。
揚聲器140中之每一者表示經組態以自揚聲器饋送再現音場之轉換器。轉換器可整合於如圖2的實例中所展示之積儲裝置114內或可通信耦合至積儲裝置114 (經由線或無線地)。揚聲器140可表示任何形式的揚聲器,諸如揚聲器、頭戴式耳機揚聲器或耳塞中之揚聲器。此外,儘管關於轉換器描述,但揚聲器140可表示其他形式之揚聲器,諸如骨傳導頭戴式耳機中之「揚聲器」,該等骨傳導頭戴式耳機將振動發送至上鄂,從而在人類聽覺系統中產生聲音。
如上文所描述,PAED 126可執行關於PAED 26之上文所描述的量化技術的各種態樣以基於用於空間分量之前景音訊信號相關位元分配來量化空間分量。PADD 134亦可執行關於PADD 34之上文所描述的量化技術之各種態樣,以基於用於空間分量之前景音訊信號相關位元分配來對經量化空間分量進行反量化。針對圖3A及圖3B之實例提供更多關於PAED 126之資訊,同時針對圖4A及圖4B之實例提供更多關於PADD 134之資訊。
圖3A為較詳細地說明圖1及圖2之實例中展示的心理聲學音訊編碼器之實例之方塊圖。PAED 326A可表示PAED 26及126之一個實例,其中PAED 326A可經組態以對音訊資料進行編碼以經由PAN (例如Bluetooth®)或任何其他形式的無線通信(諸如蜂巢式無線通信,所謂的3G、4G及/或5G無線通信、WiFi™等)進行傳輸。然而,藉由音訊編碼器326A執行之本發明之技術可用於需要音訊資料之壓縮的任何上下文中。在一些實例中,音訊編碼器326A可經組態以根據包括例如增強式aptX—E-aptX、aptX實時及aptX高清晰度之aptX™音訊編解碼器對音訊資料25進行編碼。然而,本發明之技術可用於任何音訊編解碼器中。如將在下文較詳細地解釋,音訊編碼器326A可經組態以根據本發明中描述之技術的各種態樣執行感知音訊寫碼之各種態樣。
在圖3A的實例中,音訊編碼器326A可經組態以使用增益形狀向量量化編碼程序對音訊資料25進行編碼。在增益形狀向量量化編碼程序中,音訊編碼器326A經組態以分別對頻域音訊資料之次頻帶的增益(例如能量位準)及形狀(例如由變換係數界定之殘差向量)兩者進行編碼。頻域音訊資料之每一次頻帶表示音訊資料25之特定訊框的特定頻率範圍。一般而言,貫穿本發明,術語「次頻帶」表示頻率範圍、頻帶等等
音訊編碼器326A可首先調用變換寫碼器328,其表示經組態以處理音訊資料25之單元。變換單元328經組態以藉由至少部分地將變換應用於音訊資料25之訊框來處理音訊資料25且藉此將音訊資料25自時域變換至頻域以產生頻域音訊資料329。
音訊資料25之訊框可由音訊資料之預定數目個樣品表示。在一個實例中,音訊資料25之訊框可為1024個樣品寬。可基於正使用的頻率變換及所需壓縮量來選擇不同訊框寬度。頻域音訊資料329可經表示為變換係數,其中每一該等變換係數之值表示頻域音訊資料329在特定頻率下之能量。
在一個實例中,變換單元328可經組態以使用修改型離散餘弦變換(MDCT)將音訊資料25變換成頻域音訊資料329。MDCT為基於IV型離散餘弦變換之「重疊」變換。MDCT被視為「重疊」,此係由於其對來自多個訊框之資料起作用。亦即,為了使用MDCT執行變換,變換單元328可將百分之五十的重疊窗口包括在音訊資料之後續訊框中。MDCT之重疊性質可能適用於資料壓縮技術,諸如音訊編碼,此係由於其可減小訊框邊界處的來自寫碼之假影。變換單元328不必限於使用MDCT而是可將其他頻域變換技術用於將音訊資料25變換成頻域音訊資料329。
儘管圖3A之實例中未展示,但PAED 326A接下來可調用次頻帶濾波器,其可表示經組態以將頻域音訊資料329分離成次頻帶之單元。次頻帶中之每一者包括在特定頻率範圍中之頻域音訊資料329的變換係數。舉例而言,次頻帶濾波器可將頻域音訊資料329分離成二十個不同次頻帶。在一些實例中,次頻帶濾波器可經組態以將頻域音訊資料329分離成均勻頻率範圍的次頻帶。在其他實例中,次頻帶濾波器可經組態以將頻域音訊資料329分離成不均勻頻率範圍之次頻帶。
舉例而言,次頻帶濾波器可經組態以根據巴克(Bark)尺度將頻域音訊資料329分離成次頻帶。一般而言,巴克尺度之次頻帶具有在感知上相等距離之頻率範圍。亦即,巴克尺度之次頻帶就頻率範圍而言並不相等,而實際上,就人類聽覺感受而言相等。一般而言,較低頻率下之次頻帶將具有較少變換係數,因為較低頻率更易於由人類聽覺系統感知。
因而,相較於較高頻率次頻帶,次頻帶中之較低頻率次頻帶之頻域音訊資料329藉由PAED 326A被較少地壓縮。同樣地,次頻帶之較高頻率次頻帶可包括較多變換係數,因為較高頻率更難以藉由人類聽覺系統感知。因而,相較於較低頻率次頻帶,次頻帶中之較高頻率次頻帶中之資料中之頻域音訊329藉由PAED 326A被較多地壓縮。
PAED 326A可經組態以使用次頻帶處理單元來處理次頻帶中之每一者。亦即,次頻帶處理單元可經組態以單獨地處理次頻帶中之每一者。次頻帶處理單元可經組態以執行增益形狀向量量化程序。
增益形狀分析單元330可接收次頻帶作為輸入。對於次頻帶中之每一者,增益形狀分析單元330可判定次頻帶中之每一者之能量位準331A。亦即,次頻帶中之每一者具有相關聯能量位準331A。能量位準331A為以分貝(dB)為單位之純量值,其表示次頻帶中之特定次頻帶的變換係數之能量之總量(亦被稱作增益)。增益形狀分析單元330可將用於次頻帶中之一者之能量位準331A與次頻帶之變換係數分離以產生殘差向量331B。殘差向量331B表示次頻帶之所謂的「形狀」。次頻帶之形狀亦可被稱作次頻帶之頻譜。
為了執行增益形狀分析,PAED 326A可調用頻譜感知分析單元324,其可表示經組態以分析頻域音訊資料329以識別次頻帶中之每一者相對於其他聲音頻帶之感知重要性(可能在時間上及在用於同一時間段之次頻帶之間)的單元。頻譜感知分析單元324可識別次頻帶中之哪些應進行增益形狀分析,從而將指示325輸出至增益形狀分析單元330及靜態空間位元重佈單元352。增益形狀分析單元330接著可基於指示325執行上文關於次頻帶所論述的增益形狀分析。
向量量化器332可表示經組態以量化殘差向量331B之單元。在一個實例中,向量量化器332可使用量化程序量化殘差向量以產生殘差ID 333。代替單獨地量化每一樣品(例如純量量化),向量量化器332可經組態以量化包括於殘差向量332 (例如形狀向量)中之樣品的區塊。
在一些實例中,PAED 326A可動態地分配位元以用於對能量位準331A及殘差向量331B進行寫碼。亦即,對於次頻帶中之每一者,PAED 326A可調用動態位元分配單元334,其可表示經組態以判定經分配用於能量量化(例如藉由能量量化器336)之位元之數目及經分配用於向量量化(例如藉由向量量化器332)之位元之數目之單元。
動態位元分配單元334可根據心理聲學模型335A (「PM 335A」)針對每一形狀向量331B分配位元,該心理聲學模型可嘗試模型化人類聽覺系統且藉此識別不能被感知的音場之冗餘、不可感知的、經遮蔽及/或其他態樣。動態位元分配單元334接著可根據PM 335A分配位元,從而減少或消除音場之不能被人類聽覺系統感知或在音場內為冗餘的分量之位元。經分配用於能量量化之位元之總數目可被稱作能量指派位元。經分配位元接著可在粗略量化程序與精細量化程序以及向量量化程序之間分配。
動態位元分配單元334可自加法器342獲得經重建能量,其可基於粗略能量339及精細能量341 (經由相加)重建能量331A'。動態位元分配單元334可將PM 335A應用於經重建能量331A'以便獲得位元分配337。動態位元分配單元334可將位元分配337輸出至形狀向量量化器332、動態空間位元重佈單元350及能量量化器336 (但未在圖3A的實例中展示)。
能量量化器336可接收次頻帶之能量位準331A並將次頻帶之能量位準336量化成粗略能量339及精細能量341。本發明將針對一個次頻帶描述量化程序,但應理解,能量量化器336可對次頻帶中之一或多者執行能量量化,包括次頻帶中之每一者。
如圖3A之實例中所展示,能量量化器336可包括粗略增益量化(「CGQ」)單元338、精細增益量化(「FGQ」)單元340及加法器342。儘管圖3A之實例中未展示,但能量量化器336可進一步包括預測性差(P/D)單元,其可針對音訊資料之相同訊框之次頻帶中之一者及次頻帶中之另一者(其可指代空間—頻域中—預測)或來自不同訊框之次頻帶中之相同(或可能不同)的次頻帶(其可被稱作時間預測)來預測或以其他方式識別能量位準331A之間的差。P/D單元可以此方式分析能量位準331A以獲得用於次頻帶中之每一者之經預測能量位準(「PEL」)。P/D單元可將經預測能量位準輸出至粗略量化單元338。
CGQ單元338可表示經組態以執行關於經預測能量位準之粗略量化以獲得經量化粗略能量339之單元。CGQ單元338可將經量化粗略能量339輸出至位元串流編碼器344及加法器342。CGQ單元338亦可獲得經量化粗略能量339與經預測能量位準之差。CGQ單元338可將作為誤差343 (其亦可被稱作「殘差343」)之差輸出至FGQ單元340。
FGQ單元340可表示經組態以執行關於誤差343之精細量化之單元。精細量化可經視為相對於藉由粗略量化單元338執行之粗略量化為「精細」。亦即,精細量化單元340可根據比當執行粗略量化時使用之步長具有更高解析度之步長進行量化,藉此進一步量化誤差343。FGQ單元340可由於執行關於誤差343之精細量化而獲得用於次頻帶中之每一者之經量化精細能量341。精細量化單元340可將經量化精細能量341輸出至位元串流編碼器344。
一般而言,能量量化器336可執行多步驟量化程序。能量量化器336可首先運用第一數目個位元來量化能量位準338以用於粗略量化程序以產生粗略能量339。能量量化器336可使用用於量化之預定範圍(例如由最大及最小能量位準界定之範圍)的能量位準來產生粗略能量。粗略能量339接近能量位準331A之值。
能量量化器336接著可判定粗略能量339與經預測能量位準之間的差。此差有時被稱作量化誤差(或殘差)。能量量化器336接著可使用第二數目個位元在精細量化程序中量化量化誤差以產生精細能量341。藉由能量指派位元之總數目減去用於粗略量化程序之位元的數目來判定用於精細量化位元之位元的數目。當一起相加時,粗略能量339及精細能量341表示能量位準331A之總經量化值。
PAED 326A可進一步經組態以使用位元串流編碼器344對粗略能量339、精細能量341及殘差ID 333進行編碼以產生經編碼音訊資料31。位元串流編碼器344可經組態以使用以上所提及之熵編碼程序中之一或多者來進一步壓縮粗略能量339、精細能量341及殘差ID 333。
能量量化器336 (及/或其組件,諸如FGQ單元340)可實施階層式速率控制機構以提供較大程度的可縮放性並實現無縫或實質上無縫即時串流式傳輸。舉例而言,FGQ單元340可根據本發明之態樣實施階層式精細量化方案。在一些實例中,FGQ單元340調用多工器(或「MUX」)以實施階層式速率控制之選擇操作。
術語「粗略量化」係指上文所描述的兩步驟粗略精細量化程序之經組合操作。FGQ單元340可執行關於自CGQ單元338接收之誤差343之精細量化的一或多個額外反覆。FGQ單元340可使用多工器以在各種(較)精細能量位準之間切換並且橫穿橫穿該等能量位準。
階層式速率控制可指代以樹為基礎之精細量化結構或級聯的精細量化結構。當被視為以樹為基礎之結構時,現有的兩步驟量化操作形成樹之根節點,且根節點經描述為具有解析度深度一(1)。取決於用於另一精細量化之位元之可用性,多工器可選擇精細粒度級量化的額外位準。藉由多工器選擇的任何此類後續精細量化位準表示關於以樹為基礎之結構的解析度深度二(2)、三(3)等等,該以樹為基礎之結構表示本發明之多位準精細量化技術。
FGQ單元340可在無線PAN中提供關於無縫即時串流式傳輸情境之經改良可縮放性及控制。舉例而言,FGQ單元340可在較高位準階層下複製階層式精細量化方案及量化多工樹,該階層式精細量化方案及量化多工樹接種於更一般決策樹的粗略量化點處。此外,FGQ單元340可使得PAED 326能夠實現無縫或實質上無縫即時壓縮及串流式傳輸導航。舉例而言,FGQ單元340可執行關於多位準精細量化之多根階層式決策結構,藉此使得能量量化器336能夠利用全部可用的位元以實施精細量化的可能若干反覆。
FGQ單元340可以多種方式實施階層式速率控制程序。FGQ單元340可基於每一次頻帶調用多工器以針對涉及次頻帶中之每一者之誤差343資訊進行多工(且藉此選擇各別以樹為基礎之量化方案)。亦即,在此等實例中,FGQ單元340獨立於用於次頻帶中之任何其他次頻帶之量化機構選擇而執行用於每一各別次頻帶之基於多工之階層式量化機構選擇。在此等實例中,FGQ單元340根據僅關於各別次頻帶指定之目標位元率來量化次頻帶中之每一者。在此等實例中,PAED 326A可用信號發送用於次頻帶中之每一者之特定階層式量化方案的細節作為經編碼音訊資料31之部分。
在其他實例中,FGQ單元340可僅調用多工器一次,且藉此選擇用於涉及所有次頻帶之誤差343資訊之單個基於多工之量化方案。亦即,在此等實例中,FGQ單元340根據相同目標位元率量化涉及所有次頻帶之誤差343資訊,該資訊經選擇一次且針對所有次頻帶經均一地界定。在此等實例中,PAED 326A可用信號發送橫越所有次頻帶應用之單個階層式量化方案的細節作為經編碼音訊資料31之部分。
如在圖3A之實例中進一步所展示,CGQ單元338可將用於粗略能量339之位元分配349輸出至靜態空間位元重佈單元352。位元分配349可界定經分配至粗略增益339之位元之數目。FGQ單元340可將用於一或多個精細能量341中之每一者之位元分配351輸出至動態空間位元重佈單元350。位元分配351可界定經分配至一或多個精細增益341中之每一者之位元之數目。
靜態空間位元重佈(「SBR」)單元352可表示經組態以基於頻譜感知重要性(來自頻譜感知分析單元324)之指示325及用於粗略能量339之位元分配349來在用於不同次頻帶之不同粗略能量339之間重佈位元以實現目標位元率(其通常在編碼之前經界定或基於各種操作條件,諸如通信鏈路頻寬、通信鏈路信號雜訊比—SNR、電池電量或其他條件,而判定)之單元。靜態SBR單元352可將位元重佈359 (其亦可被稱作「靜態空間位元分佈359」)輸出至空間時間位元分佈器354。
動態SBR單元350可表示經組態以基於用於精細能量341之動態位元分配337及位元分配351在不同次頻帶之間重佈位元之單元。動態SBR單元350可根據PM 335B操作以獲得位元重佈361 (其亦可被稱作「動態空間位元分佈351」),該PM可類似或實質上類似於PM 335A。動態SBR單元350可將位元重佈361輸出至空間時間位元分佈器354。
空間時間位元分佈器354接著可基於位元分佈361及359判定空間時間位元分佈355。空間時間位元分佈355為空間及時間的,因為空間分量隨時間推移界定前景音訊信號之空間特性。空間時間位元分佈器354可判定空間時間位元分佈355以實現目標位元率。空間時間位元分佈器354可將空間時間位元分佈355輸出至ATF位元分配單元356。
ATF位元分配單元356可表示經組態以基於空間時間位元分佈355判定空間分量位元分配357之單元。ATF位元分配單元356可基於目標位元率判定空間分量位元分配357,從而將位元中之一些分配至前景音訊信號及背景音訊信號,且將剩餘的位元分配至空間分量。ATF位元分配單元356可將空間分量位元分配357輸出至空間分量量化器46,該空間分量量化器可如上文所描述進行操作以基於空間分量位元分配357量化空間分量45以獲得經量化空間分量47。
就此而言,PAED 326A可調用增益形狀分析單元330以執行關於前景音訊信號(由頻域音訊資料329表示)之形狀及增益分析以獲得表示前景音訊信號之形狀331B及增益331A。PAED 326A接著可執行關於增益331A之量化以獲得粗略增益339及一或多個精細殘差341。PAED 326A可調用動態SBR單元350及靜態SBR單元352以判定(分別)位元分配361及359,該空間時間位元分佈器354可處理以獲得空間時間位元分佈355。基於空間時間位元分佈355,ATF位元分配單元356可判定空間分量位元分佈357。
接下來參考圖3B之實例,PAED 326B可表示圖1及圖2之實例中展示之PAED 26及/或126的另一實例。因而,PAED 326B可類似於PAED 326A,其例外之處在於PAED 326B不包括增益形狀分析單元330、形狀向量量化器332及階層式粗略-精細增益量化單元336 (包括粗略增益量化單元338、精細增益量化單元340及加法器342)。
實情為,PAED 326B包括通用量化器380,其量化頻域音訊資料329以產生經量化音訊資料381,該經量化音訊資料經輸出至動態位元分配單元334及位元串流編碼器344。量化器380可執行任何形式的量化,無論為粗略/精細量化、階層式量化、多步驟量化、單步驟量化、動態量化及/或靜態量化。量化器380亦將位元分配輸出至動態SBR單元350、靜態SBR單元352及位元串流編碼器344。
圖4A及圖4B為較詳細地說明圖1及圖2的心理聲學音訊解碼器之實例之方塊圖。在圖4A的實例中,PADD 434A表示圖1及圖2之實例中展示的PADD 34及PADD 134之另一實例。PADD 434A可表示經組態以根據AptX解壓縮演算法執行心理聲學音訊解碼之音訊解碼器。
如在圖4A的實例中進一步所展示,PADD 434A包括位元串流解碼器436、形狀向量反量化器438、能量反量化器440 (包括粗略增益反量化器442、精細增益反量化器444、加法器446)、增益形狀合成單元448及逆變換寫碼器450。位元串流解碼器436可表示經組態以自經編碼音訊資料31提取粗略能量339、精細能量341及殘差ID 333之單元。位元串流解碼器436可基於粗略能量位元分配349及精細能量位元分配351提取粗略能量339、精細能量341及殘差ID 333中之一或多者。位元串流解碼器436可將粗略能量339輸出至粗略增益反量化器442,將經量化精細能量341輸出至精細增益反量化器444,且將殘差333輸出至形狀向量反量化器438。
能量反量化器440可表示經組態成以與藉由圖3A中所說明之能量量化器336執行之量化對等的方式執行反量化的單元。能量反量化器336可執行關於粗略能量339及精細能量441之反量化以獲得經預測/差能量位準,能量反量化器336可執行逆預測或差計算以獲得能量位準331A'。能量反量化器440可將能量位準331A'輸出至增益形狀合成單元448。
若經編碼音訊資料31包括設定為指示精細能量349經分層地量化的值之語法元素,則能量反量化器440可分層地反量化精細能量341。在一些實例中,經編碼音訊資料31可包括指示經分層量化之精細能量349是否使用橫越所有次頻帶之相同階層式量化結構形成或各別階層式量化結構是否關於次頻帶中之每一者個別地經判定之語法元素。基於語法元素之值,能量反量化器440可橫越所有次頻帶應用如由精細能量341表示之相同階層式反量化結構,或可當反量化精細能量341時基於每一次頻帶更新階層式反量化結構。
在操作中,位元串流解碼器436可自位元串流31解析用於粗略能量339之位元分配349,且將位元分配349提供至粗略增益反量化器442。粗略增益反量化器442可表示經組態以基於位元分配349執行關於粗略增益339之反量化以獲得經反量化粗略能量443之單元。粗略增益反量化器442可將經反量化粗略能量443輸出至加法器446。
位元串流解碼器436可自位元串流31解析用於精細能量341之位元分配351,且將位元分配351提供至精細增益反量化器444。精細增益反量化器444可表示經組態以基於位元分配351執行關於精細增益341之反量化以獲得經反量化精細能量445之單元。精細增益反量化器444可將經反量化精細能量445輸出至加法器446。
加法器446可表示經組態以對經反量化粗略增益443與經反量化精細增益445進行求和,或換言之,將兩者相加以獲得能量位準331A'之單元,其中標以加撇符號標示能量位準331A'可由於有損量化操作不同於能量位準331A。加法器446可將能量位準331A'輸出至增益形狀合成單元448。
如上文所提及,位元串流解碼器436可將殘差ID 333解析至形狀向量反量化器438,該形狀向量反量化器可表示經組態成以與藉由形狀向量量化器332執行之向量量化對等之方式執行向量反量化之單元。形狀向量反量化器438可執行關於殘差ID 333之向量反量化以獲得殘差向量331B'。形狀向量反量化器438可將殘差向量331B'輸出至增益形狀合成單元448,其中用於殘差向量331B'之標以加撇符號再次標示殘差向量331B'可由於有損量化操作而不同於殘差向量331B。
形狀向量反量化器438可基於經動態判定之位元分配337執行向量反量化。如在圖4A的實例中進一步所展示,PADD 434A包括動態位元分配單元452,其可表示經組態以將PM 335A應用於經反量化能量位準331A'以獲得動態位元分配337之單元。動態位元分配單元452可以類似(若不實質上類似)於上文關於圖3A的實例所描述之動態位元分配單元334的方式進行操作。動態位元分配單元452可將動態位元分配337輸出至形狀向量反量化器438及動態SBR單元454。
增益形狀合成單元448可表示經組態成以與(圖3A的)增益形狀分析單元330對等之方式操作以重建頻域音訊資料329'之單元。增益形狀合成單元448可基於能量位準331A'及殘差向量331B'重建頻域音訊資料329',其中用於頻域音訊資料329'之標以加撇符號再次可標示頻域音訊資料329'與頻域音訊資料329之間的由於有損量化操作造成之略微差異。增益形狀合成單元448可將頻域音訊資料329'輸出至逆變換寫碼器450及頻譜感知分析單元456。
PADD 434A可包括頻譜感知分析單元456,其可表示經組態成以類似(若不實質上類似)於上文關於圖3A的實例所描述的頻譜感知分析單元324之方式操作之單元。頻譜感知分析單元456可執行關於頻域音訊資料329'之頻譜感知分析以判定經編碼前景音訊信號(由頻域音訊資料329'表示)相對於由ATF音訊資料25'表示之音場的頻譜感知重要性。空間感知分析單元456可將頻譜感知重要性之指示325輸出至逆變換寫碼器450及靜態SBR單元458。
逆變換寫碼器450可表示經組態成以與變換寫碼器328對等之方式操作之單元。因而,逆變換寫碼器450可將逆變換應用於頻域音訊資料329以獲得傳送聲道451,該等傳送聲道可表示時域音訊信號,該等時域音訊信號表示前景音訊信號(並且可能表示背景音訊信號)。逆變換可將頻域音訊信號329'自頻域變換為時域,其中時域音訊信號表示傳送聲道451。逆變換寫碼器450可將傳送聲道451輸出至ATF寫碼器466。
如在圖4A的實例中進一步所展示,PADD 434A可包括動態SBR單元454及靜態SBR單元458。動態SBR單元454可表示經組態成以類似(若不實質上類似)於動態SBR單元350之方式操作之單元。動態SBR單元454可將PM 335B應用於動態位元分配337及精細位元分配351以獲得動態位元重佈361。動態SBR單元454可將動態位元重佈361輸出至空間時間位元分佈器460。
靜態SBR單元458可表示經組態成以類似(若不實質上類似)於靜態SBR單元352之方式操作之單元。靜態SBR單元458處理指示325及粗略位元分配349以獲得靜態位元重佈359。靜態SBR單元458可將靜態位元重佈359輸出至空間時間位元分佈器460。
如圖4A的實例中所展示,PADD 434A可進一步包括空間時間位元分佈器460、ATF位元分配單元462及空間分量反量化器54。空間時間位元分佈器460可表示經組態成以類似(若不實質上類似)於上文關於圖3A的實例所描述的空間時間位元分佈器354之方式操作之單元。空間時間位元分佈器460可處理動態位元重佈361及靜態位元重佈359以獲得空間時間位元分佈355。空間時間位元分佈器460可將空間時間位元分佈355輸出至ATF位元分配單元462。
ATF位元分配單元462可表示經組態成以類似(若不實質上類似)於上文關於圖3A的實例所描述的ATF位元分配單元356之方式操作之單元。ATF位元分配單元462可處理空間時間位元分配355以獲得空間分量位元分配357。ATF位元分配單元462可將空間分量位元分配357輸出至空間分量反量化器54。
空間分量反量化器54可表示經組態成以與上文關於圖3A的實例所描述的空間分量量化器46對等之方式操作之單元。空間分量反量化器54可基於空間分量位元分配357反量化空間分量47以獲得經反量化空間分量45'。空間分量反量化器54可將經反量化空間分量45'輸出至ATF寫碼器466。
ATF寫碼器466可表示經組態以基於傳送聲道451及經反量化空間分量45'重建ATF音訊資料25'之單元。ATF寫碼器466可對傳送聲道451及經反量化空間分量45'進行多工以公式化ATF音訊資料25' (諸如根據上文所描述的HTF)。ATF寫碼器466可將ATF音訊資料25'輸出至如上文所描述的SADD 136。
接下來參考圖4B之實例,PADD 434B可類似於圖4A的實例中展示之PADD 434A,其例外之處在於PADD 434B不包括形狀向量反量化器438及增益形狀合成單元448。此外,PADD 434B之能量反量化器440不包括粗略/精細量化且可執行任何形式的反量化,無論為粗略/精細反量化、階層式反量化、多步驟反量化、單步驟反量化、動態反量化及/或靜態反量化。因而,PADD 434B可與圖3B的實例中展示的PAED 326B對等地操作。
圖5為說明圖2之實例中展示之源裝置的實例組件之方塊圖。在圖11的實例中,源裝置112包括處理器412、圖形處理單元(GPU) 414、系統記憶體416、顯示處理器418、一或多個整合式揚聲器140、顯示器103、使用者介面420、天線421及收發器模組422。在源裝置112為行動裝置之實例中,顯示處理器418為行動顯示處理器(MDP)。在一些實例中,諸如源裝置112為行動裝置之實例,處理器412、GPU 414及顯示處理器418可形成為積體電路(IC)。
舉例而言,IC可視為晶片封裝內之處理晶片,且可為系統單晶片(SoC)。在一些實例中,處理器412、GPU 414及顯示處理器418中之兩者可共同容納在同一IC中且其他可容納在不同的積體電路(亦即,不同的晶片封裝)中或所有三者可均可容納於不同IC中或同一IC上。然而,在源裝置12為行動裝置之實例中,處理器412、GPU 414及顯示處理器418可能均容納於不同的積體電路中。
處理器412、GPU 414及顯示處理器418之實例包括但不限於一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA),或其他等效的整合式或離散邏輯電路。處理器412可為源裝置12之中央處理單元(CPU)。在一些實例中,GPU 414可為包括整合式及/或離散邏輯電路之專用硬體,該專用硬體向GPU 414提供適用於圖形處理之大規模並行處理能力。在一些情況下,GPU 414亦可包括通用處理能力,且在實施通用處理任務(亦即,非圖形相關任務)時可被稱作通用GPU (GPGPU)。顯示處理器418亦可為專用積體電路硬體,其設計成自系統記憶體416擷取影像內容,將影像內容合成為影像訊框且將影像訊框輸出至顯示器103。
處理器412可執行各種類型之應用程式20。應用程式20之實例包括網頁瀏覽器、電子郵件應用程式、電子算表、視訊遊戲、產生用於顯示器之可觀測對象的其他應用程式,或上述更詳細地列舉的應用程式類型中之任一者。系統記憶體416可儲存用於執行應用程式20的指令。處理器412上應用程式20中之一者的執行使得處理器412產生待顯示之影像內容的圖形資料及待播放(可能經由整合式揚聲器105)的音訊資料21。處理器412可將影像內容之圖形資料傳輸至GPU 414以基於處理器412傳輸至GPU 414之指令或命令而進一步處理。
處理器412可根據特定應用程式處理介面(API)與GPU 414通信。此類API之實例包括Microsoft®
之DirectX®
API,Khronos集團之OpenGL®
或OpenGL ES®
以及OpenCLTM
;然而,本發明之態樣不限於DirectX、OpenGL或OpenCL API,且可擴展至其他類型之API。此外,本發明中所描述之技術並不需要根據API起作用,且處理器412及GPU 414可利用用於通信之任何技術。
系統記憶體416可為用於源裝置12之記憶體。系統記憶體416可包含一或多個電腦可讀儲存媒體。系統記憶體416之實例包括但不限於隨機存取記憶體(RAM)、電可抹除可程式化唯讀記憶體(EEPROM)、快閃記憶體,或可用以攜載或儲存呈指令及/或資料結構之形式的所要程式碼並可由電腦或處理器存取的其他媒體。
在一些實例中,系統記憶體416可包括使處理器412、GPU 414及/或顯示處理器418執行在發明中歸屬處理器412、GPU 414及/或顯示處理器418之功能的指令。因此,系統記憶體416可為電腦可讀儲存媒體,其上儲存有指令,該等指令在被執行時使一或多個處理器(例如處理器412、GPU 414及/或顯示處理器418)執行各種功能。
系統記憶體416可包括非暫時性儲存媒體。術語「非暫時性」指示儲存媒體並不以載波或傳播信號體現。然而,術語「非暫時性」不應解譯成意謂系統記憶體416為非可移動或其內容為靜態。作為一個實例,系統記憶體416可自源裝置12移除並移動至另一裝置。作為另一實例,實質上與系統記憶體416類似之記憶體可插入至源裝置12中。在某些實例中,非暫時性儲存媒體可儲存可隨時間推移改變之資料(例如在RAM中)。
使用者介面420可表示使用者可藉以與源裝置12介接之一或多個硬體或虛擬(意謂硬體與軟體之一組合)使用者介面。使用者介面420可包括實體按鈕、開關、雙態觸發、燈或其虛擬版本。使用者介面420亦可包括實體或虛擬鍵盤、觸控式介面-諸如觸控式螢幕、觸覺回饋及類似者。
處理器412可包括一或多個硬體單元(包括所謂的「處理核心」),其經組態以執行上文關於混合單元120、音訊編碼器122、無線連接管理器128及無線通信單元130中之一或多者所論述的操作中之全部或某一部分。天線421及收發器模組422可表示經組態以在源裝置12與積儲裝置114之間建立並且維持無線連接之單元。天線421及收發器模組422可表示能夠根據一或多個無線通信協定進行無線通信之一或多個接收器及/或一或多個傳輸器。亦即,收發器模組422可表示單獨的傳輸器、單獨的接收器、單獨的傳輸器及單獨的接收器兩者,或組合式傳輸器及接收器。天線421及收發器422可經組態以接收已經根據本發明之技術經編碼之經編碼音訊資料。同樣地,天線421及收發器422可經組態以傳輸已經根據本發明之技術經編碼之經編碼音訊資料。收發器模組422可執行無線連接管理器128及無線通信單元130中之一或多者的操作中之所有或某一部分。
圖6為說明圖2之實例中展示之積儲裝置的例示性組件之方塊圖。儘管積儲裝置114可包括類似於上文關於圖5之實例較詳細地論述之源裝置112的組件之組件,但積儲裝置14在某些情況下可僅包括上文關於源裝置112所論述的組件之子集。
在圖6的實例中,積儲裝置114包括一或多個揚聲器802、處理器812、系統記憶體816、使用者介面820、天線821及收發器模組822。處理器812可類似或實質上類似於處理器812。在一些情況下,處理器812可就總處理能力而言不同於處理器412或可針對低電耗定製。系統記憶體816可類似或實質上類似於系統記憶體416。揚聲器140、使用者介面820、天線821及收發器模組822可類似於或實質上類似於各別揚聲器440、使用者介面420及收發器模組422。積儲裝置114亦可視情況包括顯示器800,但顯示器800可表示藉以傳達有限資訊之低功率、低解析度(可能為黑色及白色LED)顯示器,該顯示器可由處理器812直接驅動。
處理器812可包括一或多個硬體單元(包括所謂的「處理核心」),其經組態以執行上文關於無線連接管理器150、無線通信單元152及音訊解碼器132中之一或多者所論述的操作中之所有或某一部分。天線821及收發器模組822可表示經組態以在源裝置112與積儲裝置114之間建立並且維持無線連接之單元。天線821及收發器模組822可表示能夠根據一或多個無線通信協定進行無線通信之一或多個接收器及一或多個傳輸器。天線821及收發器822可經組態以接收已經根據本發明之技術經編碼之經編碼音訊資料。同樣地,天線821及收發器822可經組態以傳輸已經根據本發明之技術經編碼之經編碼音訊資料。收發器模組822可執行無線連接管理器150及無線通信單元152中之一或多者的操作中之所有或某一部分。
圖7為說明圖1中展示之音訊編碼器在執行本發明中描述之技術之各種態樣時之實例操作之流程圖。音訊編碼器22可首先調用空間音訊編碼裝置24以執行關於基於場景之音訊資料21之空間音訊編碼且藉此獲得前景音訊信號及對應的空間分量(700)。然而,藉由空間音訊編碼裝置24執行之空間音訊編碼省去空間分量之上文所提及之量化,因為量化再次經分擔至心理聲學音訊編碼裝置26。空間音訊編碼裝置24可將表示前景音訊信號及對應的空間分量之ATF音訊資料25輸出至心理聲學音訊編碼裝置26。
音訊編碼器22調用心理聲學音訊編碼裝置26以執行關於前景音訊信號之心理聲學音訊編碼以獲得經編碼前景音訊信號(702)。心理聲學音訊編碼裝置26可當執行關於前景音訊信號之心理聲學音訊編碼時判定用於前景音訊信號之第一位元分配(704)。心理聲學音訊編碼裝置26可基於用於前景音訊信號之第一位元分配判定用於空間分量之第二位元分配(706)。因為第二位元分配係基於第一位元分配而判定,所以心理聲學音訊編碼裝置26較完全地整合橫越前景音訊信號及空間分量之量化。心理聲學音訊編碼裝置26可調用SCQ 46,從而將第二位元分配傳遞至SCQ 46。
SCQ 46可應用量化(諸如向量量化)以實現用於空間分量之位元分配,該位元分配符合或超過第二位元分配。因而,SCO 46可基於用於空間分量之第二位元分配而量化空間分量以獲得經量化空間分量(708)。心理聲學音訊編碼裝置26接著可在位元串流31中指定經編碼前景音訊信號及經量化空間分量(710)。
圖8為說明圖1中展示之音訊解碼器在執行本發明中描述之技術之各種態樣時之實例操作之流程圖。如上文所提及,音訊解碼器32可與音訊編碼器22對等地操作。因而,音訊解碼器32可自位元串流31獲得經編碼前景音訊信號及對應的經量化空間分量(720)。音訊解碼器32可調用心理聲學音訊解碼裝置34以執行關於經編碼前景音訊信號之心理聲學音訊解碼以獲得前景音訊信號(722)。
當執行關於前景音訊信號之心理聲學音訊編碼時,心理聲學音訊解碼裝置34可針對經編碼前景音訊信號判定第一位元分配(724)。心理聲學音訊解碼裝置34亦可基於用於經編碼前景音訊信號之第一位元分配而判定用於經量化空間分量之第二位元分配(726)。心理聲學音訊解碼裝置34可調用空間分量反量化器(SCD) 54,其可基於用於空間分量之第二位元分配來反量化經量化空間分量以獲得空間分量(728)。心理聲學音訊解碼裝置34可基於前景音訊信號及空間分量重建ATF音訊資料25'。空間音訊解碼裝置36接著可基於前景音訊信號及空間分量重建基於場景之音訊資料21' (730)。
技術之前述態樣可根據以下條項實現實施。
條項1B:一種裝置,其經組態以對基於場景之音訊資料進行編碼,該裝置包含:一記憶體,其經組態以儲存基於場景之音訊資料;及一或多個處理器,其經組態以:執行關於該基於場景之音訊資料之空間音訊編碼以獲得一前景音訊信號及一對應的空間分量,該空間分量界定該前景音訊信號之空間特性;執行關於該前景音訊信號之心理聲學音訊編碼以獲得一經編碼前景音訊信號;當執行關於該前景音訊信號之心理聲學音訊編碼時判定用於該前景音訊信號之一第一位元分配;基於用於該前景音訊信號之該第一位元分配而判定分配用於該空間分量之一第二位元分配;基於用於該空間分量之該第二位元分配而量化該空間分量以獲得一經量化空間分量;及在一位元串流中指定該經編碼前景音訊信號及該經量化空間分量。
條項2B:如條項1B之裝置,其中該一或多個處理器經組態以根據一AptX壓縮演算法執行關於該前景音訊信號之該心理聲學音訊編碼以獲得該經編碼前景音訊信號。
條項3B:如條項1B及2B之任何組合之裝置,其中該一或多個處理器經組態以:執行關於該前景音訊信號之一形狀及增益分析以獲得表示該前景音訊信號之一形狀及一增益;執行關於該增益之量化以獲得一粗略經量化增益及一或多個精細經量化殘差;及基於經分配至該粗略經量化增益及該一或多個精細經量化殘差中之每一者之位元之一數目而判定該第二位元分配。
條項4B:如條項1B至3B之任何組合之裝置,其中該一或多個處理器經組態以:判定該前景音訊信號相對於由該基於場景之音訊資料表示之一音場之一頻譜感知重要性;及基於該頻譜感知重要性判定該第一位元分配。
條項5B:如條項4B之裝置,其中該一或多個處理器經組態以:基於該頻譜感知重要性及經分配至該粗略經量化增益之位元之該數目而判定一靜態空間位元分佈;基於經分配至該一或多個精細經量化殘差中之每一者之位元之該數目而判定一動態空間位元分佈;及基於該靜態空間位元分佈及該動態空間位元分佈而判定該第二位元分配。
條項6B:如條項1B至5B之任何組合之裝置,其中該一或多個處理器經組態以執行關於該基於場景之音訊資料之一線性可逆變換以獲得該前景音訊信號及該對應的空間分量。
條項7B:如條項1B至6B之任何組合之裝置,其中該基於場景之音訊資料包含對應於大於一之一階數之立體混響係數。
條項8B:如條項1B至6B之任何組合之裝置,其中該基於場景之音訊資料包含對應於大於零之一階數之立體混響係數。
條項9B:如條項1B至8B之任何組合之裝置,其中該基於場景之音訊資料包含在一球面調和域中界定之音訊資料。
條項10B:如條項1B至9B之任何組合之裝置,其中該前景音訊信號包含在該球面調和域中界定之一前景音訊信號,且其中該空間分量包含在該球面調和域中界定之一空間分量。
條項11B:如條項1B至10B之任何組合之裝置,其中該基於場景之音訊資料包括混合位階立體混響音訊資料。
條項12B:一種對基於場景之音訊資料進行編碼之方法,該方法包含:執行關於該基於場景之音訊資料之空間音訊編碼以獲得一前景音訊信號及一對應的空間分量,該空間分量界定該前景音訊信號之空間特性;執行關於該前景音訊信號之心理聲學音訊編碼以獲得一經編碼前景音訊信號;當執行關於該前景音訊信號之心理聲學音訊編碼時判定用於該前景音訊信號之一第一位元分配;基於用於該前景音訊信號之該第一位元分配而判定用於該空間分量之一第二位元分配;基於用於該空間分量之該第二位元分配而量化該空間分量以獲得一經量化空間分量;及在一位元串流中指定該經編碼前景音訊信號及該經量化空間分量。
條項13B:如條項12B之方法,其中執行該心理聲學音訊包含編碼包含根據一AptX壓縮演算法執行關於該前景音訊信號之該心理聲學音訊編碼以獲得該經編碼前景音訊信號。
條項14B:如條項12B及13B之任何組合之方法,其中判定該第一位元分配包含:執行關於該前景音訊信號之一形狀及增益分析以獲得表示該前景音訊信號之一形狀及一增益;執行關於該增益之量化以獲得一粗略經量化增益及一或多個精細經量化殘差;及基於經分配至該粗略經量化增益及該一或多個精細經量化殘差中之每一者之位元之一數目而判定該第二位元分配。
條項15B:如條項12B至14B之任何組合之方法,其中判定該第一位元分配包含:判定該前景音訊信號相對於由該基於場景之音訊資料表示之一音場之一頻譜感知重要性;及基於該頻譜感知重要性判定該第一位元分配。
條項16B:如條項15B之方法,其中判定該第二位元分配包含:基於該頻譜感知重要性及經分配至該粗略經量化增益之位元之該數目而判定一靜態空間位元分佈;基於經分配至該一或多個精細經量化殘差中之每一者之位元之該數目而判定一動態空間位元分佈;及基於該靜態空間位元分佈及該動態空間位元分佈而判定該第二位元分配。
條項17B:如條項12B至16B之任何組合之方法,其中執行該空間音訊編碼包含執行關於該基於場景之音訊資料之一線性可逆變換以獲得該前景音訊信號及該對應的空間分量。
條項18B:如條項12B至17B之任何組合之方法,其中該基於場景之音訊資料包含對應於大於一之一階數之立體混響係數。
條項19B:如條項12B至17B之任何組合之方法,其中該基於場景之音訊資料包含對應於大於零之一階數之立體混響係數。
條項20B:如條項12B至19B之任何組合之方法,其中該基於場景之音訊資料包含在一球面調和域中界定之音訊資料。
條項21B:如技術方案12B至20B之任何組合之方法,其中該前景音訊信號包含在該球面調和域中界定之一前景音訊信號,且其中該空間分量包含在該球面調和域中界定之一空間分量。
條項22B:如條項12B至21B之任何組合之方法,其中該基於場景之音訊資料包括混合位階立體混響音訊資料。
條項23B:一種裝置,其經組態以對基於場景之音訊資料進行編碼,該裝置包含:用於執行關於該基於場景之音訊資料之空間音訊編碼以獲得一前景音訊信號及一對應的空間分量之構件,該空間分量界定該前景音訊信號之空間特性;用於執行關於該前景音訊信號之心理聲學音訊編碼以獲得一經編碼前景音訊信號之構件;用於當執行關於該前景音訊信號之心理聲學音訊編碼時判定用於該前景音訊信號之一第一位元分配之構件;用於基於用於該前景音訊信號之該第一位元分配而判定用於該空間分量之一第二位元分配之構件;用於基於用於該空間分量之該第二位元分配而量化該空間分量以獲得一經量化空間分量之構件;及用於在一位元串流中指定該前景音訊信號及該經量化空間分量之構件。
條項24B:如條項23B之裝置,其中該用於執行該心理聲學音訊之構件包含用於編碼之構件包含根據一AptX壓縮演算法執行關於該前景音訊信號之該心理聲學音訊編碼以獲得該經編碼前景音訊信號。
條項25B:如條項23B及24B之任何組合之裝置,其中該用於判定該第一位元分配之構件包含:用於執行關於該前景音訊信號之一形狀及增益分析以獲得表示該前景音訊信號之一形狀及一增益之構件;用於執行關於該增益之量化以獲得一粗略經量化增益及一或多個精細經量化殘差之構件;及用於基於經分配至該粗略經量化增益及該一或多個精細經量化殘差中之每一者之位元一數目而判定該第二位元分配之構件。
條項26B:如條項23B至25B之任何組合之裝置,其中該用於判定該第一位元分配之構件包含:用於判定該前景音訊信號相對於由該基於場景之音訊資料表示之一音場之一頻譜感知重要性之構件;及用於基於該頻譜感知重要性而判定該第一位元分配之構件。
條項27B:如條項26B之裝置,其中該用於判定該第二位元分配之構件包含:用於基於該頻譜感知重要性及經分配至該粗略經量化增益之位元之該數目而判定一靜態空間位元分佈之構件;用於基於經分配至該一或多個精細經量化殘差中之每一者之位元之該數目而判定一動態空間位元分佈之構件;及用於基於該靜態空間位元分佈及該動態空間位元分佈而判定該第二位元分配之構件。
條項28B:如條項23B至27B之任何組合之裝置,其中該用於執行該空間音訊編碼之構件包含用於執行關於該基於場景之音訊資料之一線性可逆變換以獲得該前景音訊信號及該對應的空間分量之構件。
條項29B:如條項23B至28B之任何組合之裝置,其中該基於場景之音訊資料包含對應於大於一之一階數之立體混響係數。
條項30B:如條項23B至29B之任何組合之裝置,其中該基於場景之音訊資料包含對應於大於零之一階數之立體混響係數。
條項31B:如條項23B至30B之任何組合之裝置,其中該基於場景之音訊資料包含在一球面調和域中界定之音訊資料。
條項32B:如條項23B至31B之任何組合之裝置,其中該前景音訊信號包含在該球面調和域中界定之一前景音訊信號,且其中該空間分量包含在該球面調和域中界定之一空間分量。
條項33B:如條項23B至32B之任何組合之裝置,其中該基於場景之音訊資料包括混合位階立體混響音訊資料。
條項34B:一種非暫時性電腦可讀儲存媒體,其上儲存有指令,該等指令在被執行時使一或多個處理器:執行關於基於場景之音訊資料之空間音訊編碼以獲得一前景音訊信號及一對應的空間分量,該空間分量界定該前景音訊信號之空間特性;執行關於該前景音訊信號之心理聲學音訊編碼以獲得一經編碼前景音訊信號;當執行關於該前景音訊信號之心理聲學音訊編碼時判定用於該前景音訊信號之一第一位元分配;基於用於該前景音訊信號之該第一位元分配而判定用於該空間分量之一第二位元分配;基於用於該空間分量之該第二位元分配而量化該空間分量以獲得一經量化空間分量;及在一位元串流中指定該前景音訊信號及該經量化空間分量。
條項1C:一種裝置,其經組態以對表示經編碼之基於場景之音訊資料之一位元串流進行解碼,該裝置包含:一記憶體,其經組態以儲存該位元串流,該位元串流包括一經編碼前景音訊信號及界定該前景音訊信號之空間特性之一對應的經量化空間分量;及一或多個處理器,其經組態以:執行關於該經編碼前景音訊信號之心理聲學音訊解碼以獲得一前景音訊信號;當執行關於該經編碼前景音訊信號之該心理聲學音訊解碼時判定用於該經編碼前景音訊信號之一第一位元分配;基於用於該經編碼前景音訊信號之該第一位元分配而判定用於該經量化空間分量之一第二位元分配;基於用於該經量化空間分量之該第二位元分配而反量化該經量化空間分量以獲得一空間分量;及基於該前景音訊信號及該空間分量而重建該基於場景之音訊資料。
條項2C:如條項1C之裝置,其中該一或多個處理器經組態以根據一AptX解壓縮演算法執行關於該經編碼前景音訊信號之該心理聲學音訊解碼以獲得該前景音訊信號。
條項3C:如條項1C及2C之任何組合之裝置,其中該一或多個處理器經組態以:自該位元串流獲得經分配至一粗略經量化增益及一或多個精細經量化殘差中之每一者之位元之一數目,該粗略經量化增益及該一或多個精細經量化殘差表示該前景音訊信號之一增益;及基於經分配至該粗略經量化增益及該一或多個精細經量化殘差中之每一者之位元之該數目而判定該第二位元分配。
條項4C:如條項1C至3C之任何組合之裝置,其中該一或多個處理器經組態以:判定該經編碼前景音訊信號相對於由該基於場景之音訊資料表示之一音場之一頻譜感知重要性;及基於該頻譜感知重要性而判定該第一位元分配。
條項5C:如條項4C之裝置,其中該一或多個處理器經組態以:基於該頻譜感知重要性及經分配至該粗略經量化增益之位元之該數目而判定一靜態空間位元分佈;基於經分配至該一或多個精細經量化殘差中之每一者之位元之該數目而判定一動態空間位元分佈;及基於該靜態空間位元分佈及該動態空間位元分佈而判定該第二位元分配。
條項6C:如條項1C至5C之任何組合之裝置,其中該基於場景之音訊資料包含對應於大於一之一階數之立體混響係數。
條項7C:如條項1C至5C之任何組合之裝置,其中該基於場景之音訊資料包含在一球面調和域中界定之音訊資料。
條項8C:如條項1C至7C之任何組合之裝置,其中該前景音訊信號包含在該球面調和域中界定之一前景音訊信號,且其中該空間分量包含在該球面調和域中界定之一空間分量。
條項9C:如條項1C至8C之任何組合之裝置,其中該一或多個處理器進一步經組態以:將該基於場景之音訊資料呈現至一或多個揚聲器饋送;及基於該等揚聲器饋送再現由該基於場景之音訊資料表示之一音場。
條項10C:如條項1C至8C之任何組合之裝置,其中該一或多個處理器進一步經組態以:將該基於場景之音訊資料呈現至一或多個揚聲器饋送,且其中該裝置包含一或多個揚聲器,該一或多個揚聲器經組態以基於該等揚聲器饋送再現由該基於場景之音訊資料表示之一音場。
條項11C:如條項1C至10C之任何組合之裝置,其中該基於場景之音訊資料包括混合位階立體混響音訊資料。
條項12C:一種對表示基於場景之音訊資料之一位元串流進行解碼之方法,該方法包含:自該位元串流獲得一經編碼前景音訊信號及界定該經編碼前景音訊信號之空間特性之一對應的經量化空間分量;執行關於該經編碼前景音訊信號之心理聲學音訊解碼以獲得一前景音訊信號;當執行關於該經編碼前景音訊信號之心理聲學音訊解碼時判定用於該經編碼前景音訊信號之一第一位元分配;基於用於該經編碼前景音訊信號之該第一位元分配而判定用於該經量化空間分量之一第二位元分配;基於用於該經量化空間分量之該第二位元分配而反量化該經量化空間分量以獲得一空間分量;及基於該前景音訊信號及該空間分量而重建該基於場景之音訊資料。
條項13C:如條項12C之方法,其中執行該心理聲學音訊解碼包含根據一AptX解壓縮演算法執行關於該經編碼前景音訊信號之該心理聲學音訊解碼以獲得該前景音訊信號。
條項14C:如條項12C及13C之任何組合之方法,其中判定該第二位元分配包含:自該位元串流獲得經分配至一粗略經量化增益及一或多個精細經量化殘差中之每一者之位元之一數目,該粗略經量化增益及該一或多個精細經量化殘差表示該前景音訊信號之一增益;及基於經分配至該粗略經量化增益及該一或多個精細經量化殘差中之每一者之位元之該數目而判定該第二位元分配。
條項15C:如條項12C至14C之任何組合之方法,其中判定該第一位元分配包含:判定該經編碼前景音訊信號相對於由該基於場景之音訊資料表示之一音場之一頻譜感知重要性;及基於該頻譜感知重要性判定該第一位元分配。
條項16C:如條項15C之方法,其中判定該第二位元分配包含:基於該頻譜感知重要性及經分配至該粗略經量化增益之位元之該數目而判定一靜態空間位元分佈;基於經分配至該一或多個精細經量化殘差中之每一者之位元之該數目而判定一動態空間位元分佈;及基於該靜態空間位元分佈及該動態空間位元分佈而判定該第二位元分配。
條項17C:如條項12C至16C之任何組合之方法,其中該基於場景之音訊資料包含對應於大於一之一階數之立體混響係數。
條項18C:如條項12C至16C之任何組合之方法,其中該基於場景之音訊資料包含在一球面調和域中界定之音訊資料。
條項19C:如條項12C至18C之任何組合之方法,其中該前景音訊信號包含在該球面調和域中界定之一前景音訊信號,且其中該空間分量包含在該球面調和域中界定之一空間分量。
條項20C:如條項12C至19C之任何組合之方法,其進一步包含:將該基於場景之音訊資料呈現至一或多個揚聲器饋送;及基於該等揚聲器饋送再生由該基於場景之音訊資料表示之一音場。
條項21C:如條項12C至20C之任何組合之方法,其中該基於場景之音訊資料包括混合位階立體混響音訊資料。
條項22C:一種裝置,其經組態以對表示經編碼之基於場景之音訊資料之一位元串流進行解碼,該裝置包含:用於自該位元串流獲得一經編碼前景音訊信號及界定該經編碼前景音訊信號之空間特性之一對應的經量化空間分量之構件;用於執行關於該經編碼前景音訊信號之心理聲學音訊解碼以獲得一前景音訊信號之構件;用於當執行關於該經編碼前景音訊信號之心理聲學音訊解碼時判定用於該經編碼前景音訊信號之一第一位元分配之構件;用於基於用於該經編碼前景音訊信號之該第一位元分配而判定用於該經量化空間分量之一第二位元分配之構件;用於基於用於該經量化空間分量之該第二位元分配而反量化該經量化空間分量以獲得一空間分量之構件;及用於基於該前景音訊信號及該空間分量而重建該基於場景之音訊資料之構件。
條項23C:如條項22C之裝置,其中該用於執行該心理聲學音訊解碼之構件包含用於根據一AptX解壓縮演算法執行關於該經編碼前景音訊信號之該心理聲學音訊解碼以獲得該前景音訊信號之構件。
條項24C:如條項22C及23C之任何組合之裝置,其中該用於判定該第二位元分配之構件包含:用於自該位元串流獲得經分配至一粗略經量化增益及一或多個精細經量化殘差中之每一者之位元之一數目之構件,該粗略經量化增益及該一或多個精細經量化殘差表示該前景音訊信號之一增益;及用於基於經分配至該粗略經量化增益及該一或多個精細經量化殘差中之每一者之位元之該數目而判定該第二位元分配之構件。
條項25C:如條項22C至24C之任何組合之裝置,其中該用於判定該第一位元分配之構件包含:用於判定該經編碼前景音訊信號相對於由該基於場景之音訊資料表示之一音場之一頻譜感知重要性之構件;及用於基於該頻譜感知重要性而判定該第一位元分配之構件。
條項26C:如條項25C之裝置,其中該用於判定該第二位元分配之構件包含:用於基於該頻譜感知重要性及經分配至該粗略經量化增益之位元之該數目而判定一靜態空間位元分佈之構件;用於基於經分配至該一或多個精細經量化殘差中之每一者之位元之該數目而判定一動態空間位元分佈之構件;及用於基於該靜態空間位元分佈及該動態空間位元分佈而判定該第二位元分配之構件。
條項27C:如條項22C至26C之任何組合之裝置,其中該基於場景之音訊資料包含對應於大於一之一階數之立體混響係數。
條項28C:如條項22C至26C之任何組合之裝置,其中該基於場景之音訊資料包含在一球面調和域中界定之音訊資料。
條項29C:如條項22C至28C之任何組合之裝置,其中該前景音訊信號包含在該球面調和域中界定之一前景音訊信號,且其中該空間分量包含在該球面調和域中界定之一空間分量。
條項30C:如條項22C至29C之任何組合之裝置,其進一步包含:用於將該基於場景之音訊資料呈現至一或多個揚聲器饋送之構件;及用於基於該等揚聲器饋送而再生由該基於場景之音訊資料表示之一音場之構件。
條項31C:如條項22C至30C之任何組合之裝置,其中該基於場景之音訊資料包括混合位階立體混響音訊資料。
條項32C:一種非暫時性電腦可讀儲存媒體,其上儲存有指令,該等指令在被執行時使一或多個處理器:自表示基於場景之音訊資料之一位元串流獲得一經編碼前景音訊信號及界定該經編碼前景音訊信號之空間特性之一對應的經量化空間分量;執行關於該經編碼前景音訊信號之心理聲學音訊解碼以獲得一前景音訊信號;當執行關於該經編碼前景音訊信號之心理聲學音訊解碼時判定用於該經編碼前景音訊信號之一第一位元分配;基於用於該經編碼前景音訊信號之該第一位元分配而判定用於該經量化空間分量之一第二位元分配;基於用於該經量化空間分量之該第二位元分配而反量化該經量化空間分量以獲得一空間分量;及基於該前景音訊信號及該空間分量而重建該基於場景之音訊資料。
在一些內容脈絡(諸如廣播內容脈絡)中,音訊編碼裝置可拆分成空間音訊編碼器(其執行關於立體混響表示之一種形式的中間壓縮,其包括增益控制),及執行感知音訊壓縮以減小增益正規化傳送聲道之間的資料之冗餘的心理聲學音訊編碼器26 (其亦可被稱作「感知音訊編碼器26」)。
另外,先前技術可關於任何數目個不同上下文及音訊生態系統執行且不應受限於上文所描述的上下文或音訊生態系統中之任一者。下文描述多個實例上下文,但該等技術不應限於該等實例上下文。一個實例音訊生態系統可包括音訊內容、電影工作室、音樂工作室、遊戲音訊工作室、基於聲道之音訊內容、寫碼引擎、遊戲音訊主體、遊戲音訊寫碼/呈現引擎,及遞送系統。
電影工作室、音樂工作室及遊戲音訊工作室可接收音訊內容。在一些實例中,音訊內容可表示獲取之輸出。電影工作室可諸如藉由使用數位音訊工作站(DAW)輸出基於聲道之音訊內容(例如,呈2.0、5.1及7.1)。音樂工作室可諸如藉由使用DAW輸出基於聲道之音訊內容(例如,呈2.0及5.1)。在任一狀況下,寫碼引擎可基於一或多個編碼解碼器(例如,AAC、AC3、杜比真HD、杜比數位Plus及DTS主音訊)接收及編碼基於聲道之音訊內容以供遞送系統輸出。遊戲音訊工作室可諸如藉由使用DAW輸出一或多個遊戲音訊主體。遊戲音訊寫碼/呈現引擎可寫碼音訊主體及或將音訊主體呈現為基於聲道之音訊內容以供由遞送系統輸出。可執行該等技術之另一實例上下文包含音訊生態系統,其可包括廣播記錄音訊對象、專業音訊系統、消費型裝置上捕捉、立體混響音訊格式、裝置上呈現、消費型音訊、TV及附件,及汽車音訊系統。
廣播記錄音訊對象、專業音訊系統及消費型裝置上捕捉皆可使用立體混響音訊格式寫碼其輸出。以此方式,可使用立體混響音訊格式將音訊內容寫碼成單一表示,可使用裝置上呈現、消費型音訊、TV及附件及汽車音訊系統播放該單一表示。換言之,可在通用音訊播放系統(亦即,與需要諸如5.1、7.1等之特定組態之情形形成對比) (諸如,音訊播放系統16)處播放音訊內容之單一表示。
可執行該等技術之上下文之其他實例包括音訊生態系統,其可包括獲取元件及播放元件。獲取元件可包括有線及/或無線獲取裝置(例如,Eigen麥克風)、裝置上環繞聲捕捉及行動裝置(例如,智慧型手機及平板電腦)。在一些實例中,有線及/或無線獲取裝置可經由有線及/或無線通信聲道耦接至行動裝置。
根據本發明之一或多個技術,行動裝置可用以獲取音場。舉例而言,行動裝置可經由有線及/或無線獲取裝置及/或裝置上環繞聲捕捉(例如,整合至行動裝置中之複數個麥克風)獲取音場。行動裝置可接著將所獲取音場寫碼成立體環繞聲係數以用於由播放元件中之一或多者播放。舉例而言,行動裝置之使用者可記錄實況事件(例如,會見、會議、劇、音樂會等等) (獲取其音場)且將記錄寫碼成立體混響係數。
行動裝置亦可利用播放元件中之一或多者來播放立體混響經寫碼音場。舉例而言,行動裝置可對立體混響經寫碼音場進行解碼,且將使得播放元件中之一或多者重新創建音場之信號輸出至播放元件中之一或多者。作為一個實例,行動裝置可利用無線及/或無線通信聲道以將信號輸出至一或多個揚聲器(例如揚聲器陣列、聲棒等)。作為另一實例,行動裝置可利用銜接解決方案將信號輸出至一或多個銜接台及/或一或多個銜接之揚聲器(例如,智慧型汽車及/或家庭中之聲音系統)。作為另一實例,行動裝置可利用頭戴式耳機呈現將信號輸出至一組頭戴式耳機(例如)以創建實際的雙耳聲音。
在一些實例中,特定行動裝置可獲取3D音場並且在稍後時間播放相同的3D音場。在一些實例中,行動裝置可獲取3D音場,將3D音場編碼成HOA,並且將經編碼3D音場傳輸至一或多個其他裝置(例如其他行動裝置及/或其他非行動裝置)以用於播放。
可執行該等技術之又一上下文包括音訊生態系統,其可包括音訊內容、遊戲工作室、經寫碼音訊內容、呈現引擎及遞送系統。在一些實例中,遊戲工作室可包括可支援立體混響信號之編輯的一或多個DAW。舉例而言,一或多個DAW可包括立體混響外掛程式及/或可經組態以與一或多個遊戲音訊系統一起操作(例如,工作)之工具。在一些實例中,遊戲工作室可輸出支援HOA之新主體格式。在任何狀況下,遊戲工作室可將經寫碼音訊內容輸出至呈現引擎,該呈現引擎可呈現音場以供由遞送系統播放。
亦可關於例示性音訊獲取裝置執行該等技術。舉例而言,可關於可包括共同地經組態以記錄3D音場之複數個麥克風之Eigen麥克風執行該等技術。在一些實例中,Eigen麥克風之該複數個麥克風可位於具有大約4 cm之半徑的實質上球面球之表面上。在一些實例中,音訊編碼裝置20可整合至Eigen麥克風中以便直接自麥克風輸出位元串流21。
另一例示性音訊獲取上下文可包括可經組態以接收來自一或多個麥克風(諸如,一或多個Eigen麥克風)之信號的製作車。製作車亦可包括音訊編碼器,諸如圖1之空間音訊編碼裝置24。
在一些情況下,行動裝置亦可包括共同地經組態以記錄3D音場之複數個麥克風。換言之,該複數個麥克風可具有X、Y、Z分集。在一些實例中,行動裝置可包括可旋轉以關於行動裝置之一或多個其他麥克風提供X、Y、Z分集之麥克風。行動裝置亦可包括音訊編碼器,諸如圖1的音訊編碼器22。
加固型視訊捕捉裝置可進一步經組態以記錄3D音場。在一些實例中,加固型視訊捕捉裝置可附接至參與活動的使用者之頭盔。舉例而言,加固型視訊捕捉裝置可在使用者泛舟時附接至使用者之頭盔。以此方式,加固型視訊捕捉裝置可捕捉表示使用者周圍之動作(例如,水在使用者身後的撞擊、另一泛舟者在使用者前方說話,等等)的3D音場。
亦可關於可經組態以記錄3D音場之附件增強型行動裝置執行該等技術。在一些實例中,行動裝置可類似於上文所論述之行動裝置,其中添加一或多個附件。舉例而言,Eigen麥克風可附接至上文所提及之行動裝置以形成附件增強型行動裝置。以此方式,與僅使用與附件增強型行動裝置成一體式之聲音捕捉組件之情形相比較,附件增強型行動裝置可捕捉3D音場之較高品質版本。
下文進一步論述可執行本發明中所描述之技術之各種態樣的實例音訊播放裝置。根據本發明之一或多個技術,揚聲器及/或聲棒可配置於任何任意組態中,同時仍播放3D音場。此外,在一些實例中,頭戴式耳機播放裝置可經由有線或無線連接耦接至解碼器32 (其為指代圖1之音訊解碼裝置32的另一方式)。根據本發明之一或多個技術,可利用音場之單一通用表示來在揚聲器、聲棒及頭戴式耳機播放裝置之任何組合上呈現音場。
多個不同實例音訊播放環境亦可適合於執行本發明中所描述之技術之各種態樣。舉例而言,以下環境可為用於執行本發明中所描述之技術之各種態樣的合適環境:5.1揚聲器播放環境、2.0 (例如,立體聲)揚聲器播放環境、具有全高前揚聲器之9.1揚聲器播放環境、22.2揚聲器播放環境、16.0揚聲器播放環境、汽車揚聲器播放環境,及具有耳掛式耳機播放環境之行動裝置。
根據本發明之一或多個技術,可利用音場之單一通用表示來在前述播放環境中之任一者上呈現音場。另外,本發明之技術使得呈現器能夠自通用表示呈現一音場以供在不同於上文所描述之環境之播放環境上播放。舉例而言,若設計考慮禁止揚聲器根據7.1揚聲器播放環境之恰當置放(例如,若不可能置放右環繞揚聲器),則本發明之技術使得呈現器能夠藉由其他6個揚聲器而進行補償,使得可在6.1揚聲器播放環境上達成播放。
此外,使用者可在佩戴頭戴式耳機時觀看運動比賽。根據本發明之一或多個技術,可獲取運動比賽之3D音場(例如,可將一或多個Eigen麥克風置放於棒球場中及/或周圍),可獲得對應於3D音場之立體混響係數且將該等立體混響係數傳輸至解碼器,該解碼器可基於立體混響係數重建3D音場且將經重建之3D音場輸出至呈現器,該呈現器可獲得關於播放環境之類型(例如,頭戴式耳機)之指示,且將經重建之3D音場呈現成使得頭戴式耳機輸出運動比賽之3D音場之表示的信號。
在上文所描述之各種情況中之每一者中,應理解,音訊編碼裝置22可執行一方法或另外包含用以執行音訊編碼裝置22經組態以執行的方法之每一步驟的構件。在一些情況下,構件可包含一或多個處理器。在一些情況下,該一或多個處理器可表示藉助於儲存至非暫時性電腦可讀儲存媒體之指令組態之專用處理器。換言之,編碼實例集合中之每一者中之技術的各種態樣可提供非暫時性電腦可讀儲存媒體,其上儲存有指令,該等指令在執行時使一或多個處理器執行音訊編碼裝置20已經組態以執行之方法。
在一或多個實例中,所描述之功能可以硬體、軟體、韌體或其任何組合來實施。若以軟體實施,則該等功能可作為一或多個指令或程式碼而儲存於電腦可讀媒體上或經由電腦可讀媒體進行傳輸,且藉由基於硬體之處理單元執行。電腦可讀媒體可包括電腦可讀儲存媒體,其對應於諸如資料儲存媒體之有形媒體。資料儲存媒體可為可由一或多個電腦或一或多個處理器存取以擷取指令、程式碼及/或資料結構以用於實施本發明所描述之技術的任何可用媒體。電腦程式產品可包括電腦可讀媒體。
作為實例而非限制,此等電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存裝置、快閃記憶體或可用於儲存呈指令或資料結構形式之所要程式碼且可由電腦存取的任何其他媒體。然而,應理解,電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體,而實情為係關於非暫時性有形儲存媒體。如本文中所使用,磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位多功能光碟(DVD)、軟性磁碟及藍光光碟,其中磁碟通常以磁性方式再現資料,而光碟用雷射以光學方式再現資料。上文之組合亦應包括於電腦可讀媒體之範疇內。
指令可由一或多個處理器執行,諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效的整合或離散邏輯電路。因此,如本文中所使用之術語「處理器」可指前述結構或適用於實施本文中所描述之技術的任何其他結構中之任一者。另外,在一些態樣中,本文中所描述之功能可經提供於經組態以供編碼及解碼或併入於經組合編碼解碼器中之專用硬體及/或軟體模組內。又,該等技術可充分實施於一或多個電路或邏輯元件中。
本發明之技術可實施於多種裝置或設備中,包括無線手機、積體電路(IC)或IC集合(例如晶片集合)。本發明中描述各種組件、模組或單元以強調經組態以執行所揭示之技術之裝置的功能態樣,但未必要求由不同硬體單元來實現。相反地,如上文所描述,各種單元可與合適的軟體及/或韌體一起組合在編解碼器硬體單元中或由一批互操作硬體單元提供,硬體單元包括如上文所描述之一或多個處理器。
此外,如本文中所使用,「A及/或B」」意謂「A或B」,或「A及B」兩者。
已描述該等技術之各種態樣。該等技術之此等及其他態樣在以下申請專利範圍之範疇內。
10:系統
11':立體混響係數
12:內容創建者系統
14:內容消費者
16:音訊播放系統
18:麥克風
20:立體混響轉碼器
21:立體混響係數
21':基於場景之音訊資料
22:音訊編碼器
24:空間音訊編碼裝置
25:ATF音訊資料
25':ATF音訊資料
26:心理聲學音訊編碼裝置
31:位元串流
32:音訊解碼裝置
34:心理聲學音訊解碼裝置
36:空間音訊解碼裝置
38:音訊呈現器
39:揚聲器饋送
40:揚聲器
41:揚聲器資訊
45:空間分量
45':經反量化空間分量
46:空間分量量化器(SCQ)
47:經量化空間分量
54:空間分量反量化器(SCD)
103:顯示器
110:系統
112:源裝置
114:儲集器裝置
118:app
118A:應用程式(app)
118N:應用程式(app)
119:音訊資料
119A:音訊資料
119N:音訊資料
120:混合單元
121:經混合音訊資料
121':經混合音訊資料
122:音訊編碼器
124:空間音訊編碼裝置(SAED)
125:ATF音訊資料
125':ATF音訊資料
126:心理聲學音訊編碼裝置(PAED)
128:無線連接管理器
129:方案
130:無線通信單元
130A:無線通信單元
131:位元串流
132:音訊解碼器
134:心理聲學音訊解碼裝置(PADD)
136:空間音訊解碼裝置(SADD)
140:揚聲器
140A:揚聲器
140N:揚聲器
150:無線連接管理器
151:方案
152:無線通信單元
152A:無線通信單元
152N:無線通信單元
324:頻譜感知分析單元
325:指示
326A:PAED
326B:PAED
328:變換寫碼器
329:頻域音訊資料
329':頻域音訊資料
330:增益形狀分析單元
331A:能量位準
331A':能量
331B:殘差向量
331B':殘差向量
332:向量量化器
333:殘差ID
334:動態位元分配單元
335A:心理聲學模型
335B:PM
336:能量量化器
337:位元分配
338:粗略增益量化(CGQ)單元
339:粗略能量
340:精細增益量化(FGQ)單元
341:精細能量
342:加法器
343:誤差
344:位元串流編碼器
349:位元分配
350:動態空間位元重佈單元
351:位元分配
352:靜態空間位元重佈單元
354:空間時間位元分佈器
355:空間時間位元分佈
356:ATF位元分配單元
357:空間分量位元分配
359:靜態空間位元分佈
361:位元重佈
380:通用量化器
381:經量化音訊資料
412:處理器
414:圖形處理單元(GPU)
416:系統記憶體
418:顯示處理器
420:使用者介面
421:天線
422:收發器模組
434A:PADD
434B:PADD
436:位元串流解碼器
438:形狀向量反量化器
440:能量反量化器
442:粗略增益反量化器
443:經反量化粗略能量
444:精細增益反量化器
445:經反量化精細能量
446:加法器
448:增益形狀合成單元
450:逆變換寫碼器
451:傳送聲道
452:動態位元分配單元
454:動態SBR單元
456:頻譜感知分析單元
458:靜態SBR單元
460:空間時間位元分佈器
462:ATF位元分配單元
466:ATF寫碼器
700:步驟
702:步驟
704:步驟
706:步驟
708:步驟
710:步驟
720:步驟
722:步驟
724:步驟
726:步驟
728:步驟
730:步驟
800:顯示器
802:揚聲器
812:處理器
816:系統記憶體
820:使用者介面
821:天線
822:收發器模組
圖1為說明可執行本發明中所描述之技術的各種態樣之系統的圖。
圖2為說明可執行本發明中描述之技術的各種態樣之系統的另一實例之圖。
圖3A及圖3B為較詳細地說明圖1及圖2之實例中展示的心理聲學音訊編碼器之實例之方塊圖。
圖4A及圖4B為較詳細地說明圖1及圖2的心理聲學音訊解碼器之實例之方塊圖。
圖5為說明圖2之實例中展示之源裝置的實例組件之方塊圖。
圖6為說明圖2之實例中展示之積儲裝置的例示性組件之方塊圖。
圖7為說明圖1中展示之音訊編碼器在執行本發明中描述之技術之各種態樣時之實例操作之流程圖。
圖8為說明圖1中展示之音訊解碼器在執行本發明中描述之技術之各種態樣時之實例操作之流程圖。
720:步驟
722:步驟
724:步驟
726:步驟
728:步驟
730:步驟
Claims (27)
- 一種裝置,其經組態以對基於場景之音訊資料進行編碼,該裝置包含: 一記憶體,其經組態以儲存基於場景之音訊資料;及 一或多個處理器,其經組態以: 執行關於該基於場景之音訊資料之空間音訊編碼以獲得一前景音訊信號及一對應的空間分量,該空間分量界定該前景音訊信號之空間特性; 執行關於該前景音訊信號之心理聲學音訊編碼以獲得一經編碼前景音訊信號; 當執行關於該前景音訊信號之心理聲學音訊編碼時判定用於該前景音訊信號之一第一位元分配; 基於用於該前景音訊信號之該第一位元分配而判定用於該空間分量之一第二位元分配; 基於用於該空間分量之該第二位元分配而量化該空間分量以獲得一經量化空間分量;及 在一位元串流中指定該經編碼前景音訊信號及該經量化空間分量。
- 如請求項1之裝置,其中該一或多個處理器經組態以根據一壓縮演算法執行關於該前景音訊信號之該心理聲學音訊編碼以獲得該經編碼前景音訊信號。
- 如請求項1之裝置,其中該一或多個處理器經組態以: 執行關於該前景音訊信號之一形狀及增益分析以獲得表示該前景音訊信號之一形狀及一增益; 執行關於該增益之量化以獲得一粗略經量化增益及一或多個精細經量化殘差;及 基於經分配至該粗略經量化增益及該一或多個精細經量化殘差中之每一者之一數目之位元而判定該第二位元分配。
- 如請求項1之裝置,其中該一或多個處理器經組態以: 判定該前景音訊信號相對於由該基於場景之音訊資料表示之一音場之一頻譜感知重要性;及 基於該頻譜感知重要性而判定該第一位元分配。
- 如請求項4之裝置,其中該一或多個處理器經組態以: 基於該頻譜感知重要性及經分配至該粗略經量化增益之該數目之位元而判定一靜態空間位元分佈; 基於經分配至該一或多個精細經量化殘差中之每一者之該數目之位元而判定一動態空間位元分佈;及 基於該靜態空間位元分佈及該動態空間位元分佈而判定該第二位元分配。
- 如請求項1之裝置,其中該一或多個處理器經組態以執行關於該基於場景之音訊資料之一線性可逆變換以獲得該前景音訊信號及該對應的空間分量。
- 如請求項1之裝置,其中該基於場景之音訊資料包含對應於大於一之一階數之立體混響係數。
- 如請求項1之裝置,其中該基於場景之音訊資料包含對應於大於零之一階數之立體混響係數。
- 如請求項1之裝置,其中該基於場景之音訊資料包含在一球面調和域中界定之音訊資料。
- 如請求項1之裝置, 其中該前景音訊信號包含在該球面調和域中界定之一前景音訊信號,且 其中該空間分量包含在該球面調和域中界定之一空間分量。
- 如請求項1之裝置,其中該基於場景之音訊資料包括混合位階立體混響音訊資料。
- 如請求項1之裝置,其進一步包含經組態以捕捉該基於場景之音訊資料之一麥克風。
- 一種對基於場景之音訊資料進行編碼之方法,該方法包含: 執行關於該基於場景之音訊資料之空間音訊編碼以獲得一前景音訊信號及一對應的空間分量,該空間分量界定該前景音訊信號之空間特性; 執行關於該前景音訊信號之心理聲學音訊編碼以獲得一經編碼前景音訊信號; 當執行關於該前景音訊信號之心理聲學音訊編碼時判定用於該前景音訊信號之一第一位元分配; 基於用於該前景音訊信號之該第一位元分配而判定用於該空間分量之一第二位元分配; 基於用於該空間分量之該第二位元分配而量化該空間分量以獲得一經量化空間分量;及 在一位元串流中指定該經編碼前景音訊信號及該經量化空間分量。
- 一種裝置,其經組態以對表示經編碼之基於場景之音訊資料之一位元串流進行解碼,該裝置包含: 一記憶體,其經組態以儲存該位元串流,該位元串流包括一經編碼前景音訊信號及界定該前景音訊信號之空間特性之一對應的經量化空間分量;及 一或多個處理器,其經組態以: 執行關於該經編碼前景音訊信號之心理聲學音訊解碼以獲得一前景音訊信號; 當執行關於該經編碼前景音訊信號之該心理聲學音訊解碼時判定用於該經編碼前景音訊信號之一第一位元分配; 基於用於該經編碼前景音訊信號之該第一位元分配而判定用於該經量化空間分量之一第二位元分配; 基於用於該經量化空間分量之該第二位元分配而反量化該經量化空間分量以獲得一空間分量;及 基於該前景音訊信號及該空間分量而重建該基於場景之音訊資料。
- 如請求項14之裝置,其中該一或多個處理器經組態以根據一解壓縮演算法執行關於該經編碼前景音訊信號之該心理聲學音訊解碼以獲得該前景音訊信號。
- 如請求項14之裝置,其中該一或多個處理器經組態以: 自該位元串流獲得經分配至一粗略經量化增益及一或多個精細經量化殘差中之每一者之一數目之位元,該粗略經量化增益及該一或多個精細經量化殘差表示該前景音訊信號之一增益;及 基於經分配至該粗略經量化增益及該一或多個精細經量化殘差中之每一者之該數目之位元而判定該第二位元分配。
- 如請求項14之裝置,其中該一或多個處理器經組態以: 判定該經編碼前景音訊信號相對於由該基於場景之音訊資料表示之一音場之一頻譜感知重要性;及 基於該頻譜感知重要性而判定該第一位元分配。
- 如請求項17之裝置,其中該一或多個處理器經組態以: 基於該頻譜感知重要性及經分配至該粗略經量化增益之該數目之位元而判定一靜態空間位元分佈; 基於經分配至該一或多個精細經量化殘差中之每一者之該數目之位元而判定一動態空間位元分佈;及 基於該靜態空間位元分佈及該動態空間位元分佈而判定該第二位元分配。
- 如請求項14之裝置,其中該基於場景之音訊資料包含對應於大於一之一階數之立體混響係數。
- 如請求項14之裝置,其中該基於場景之音訊資料包含在一球面調和域中界定之音訊資料。
- 如請求項14之裝置, 其中該前景音訊信號包含在該球面調和域中界定之一前景音訊信號,且 其中該空間分量包含在該球面調和域中界定之一空間分量。
- 如請求項14之裝置,其中該一或多個處理器進一步經組態以: 將該基於場景之音訊資料呈現至一或多個揚聲器饋送;及 基於該等揚聲器饋送而再現由該基於場景之音訊資料表示之一音場。
- 如請求項14之裝置, 其中該一或多個處理器進一步經組態以將該基於場景之音訊資料呈現至一或多個揚聲器饋送,且 其中該裝置包含經組態以基於該等揚聲器饋送再現由該基於場景之音訊資料表示之一音場之一或多個揚聲器。
- 如請求項14之裝置,其中該基於場景之音訊資料包括混合位階立體混響音訊資料。
- 如請求項14之裝置,其中該一或多個處理器進一步經組態以: 將該基於場景之音訊資料呈現至一或多個揚聲器饋送;及 將該等揚聲器饋送輸出至一或多個揚聲器以基於該等揚聲器饋送再現由該基於場景之音訊資料表示之一音場。
- 如請求項14之裝置, 其中該一或多個處理器進一步經組態以將該基於場景之音訊資料呈現至一或多個揚聲器饋送,且 其中該裝置包含經組態以基於該等揚聲器饋送再現由該基於場景之音訊資料表示之一音場之一或多個揚聲器。
- 一種對表示基於場景之音訊資料之一位元串流進行解碼之方法,該方法包含: 自該位元串流獲得一經編碼前景音訊信號及界定該經編碼前景音訊信號之空間特性之一對應的經量化空間分量; 執行關於該經編碼前景音訊信號之心理聲學音訊解碼以獲得一前景音訊信號; 當執行關於該經編碼前景音訊信號之心理聲學音訊解碼時判定用於該經編碼前景音訊信號之一第一位元分配; 基於用於該經編碼前景音訊信號之該第一位元分配而判定用於該經量化空間分量之一第二位元分配; 基於用於該經量化空間分量之該第二位元分配而反量化該經量化空間分量以獲得一空間分量;及 基於該前景音訊信號及該空間分量而重建該基於場景之音訊資料。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962865853P | 2019-06-24 | 2019-06-24 | |
US62/865,853 | 2019-06-24 | ||
US16/907,934 US20200402522A1 (en) | 2019-06-24 | 2020-06-22 | Quantizing spatial components based on bit allocations determined for psychoacoustic audio coding |
US16/907,934 | 2020-06-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202109507A true TW202109507A (zh) | 2021-03-01 |
Family
ID=74038995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109121370A TW202109507A (zh) | 2019-06-24 | 2020-06-23 | 基於用於心理聲學之音訊寫碼之經判定位元分配的量化空間分量 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20200402522A1 (zh) |
CN (1) | CN113994425A (zh) |
TW (1) | TW202109507A (zh) |
WO (1) | WO2020263846A1 (zh) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2144231A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
BRPI0910811B1 (pt) * | 2008-07-11 | 2021-09-21 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Codificador de áudio, decodificador de áudio, métodos para codificar e decodificar um sinal de áudio. |
GB201204324D0 (en) * | 2012-03-12 | 2012-04-25 | Jaguar Cars | Audio system |
EP2830051A3 (en) * | 2013-07-22 | 2015-03-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals |
US10770087B2 (en) * | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9959880B2 (en) * | 2015-10-14 | 2018-05-01 | Qualcomm Incorporated | Coding higher-order ambisonic coefficients during multiple transitions |
US10405126B2 (en) | 2017-06-30 | 2019-09-03 | Qualcomm Incorporated | Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems |
US10075802B1 (en) * | 2017-08-08 | 2018-09-11 | Qualcomm Incorporated | Bitrate allocation for higher order ambisonic audio data |
US10854209B2 (en) * | 2017-10-03 | 2020-12-01 | Qualcomm Incorporated | Multi-stream audio coding |
-
2020
- 2020-06-22 US US16/907,934 patent/US20200402522A1/en active Pending
- 2020-06-23 CN CN202080044574.2A patent/CN113994425A/zh active Pending
- 2020-06-23 WO PCT/US2020/039162 patent/WO2020263846A1/en unknown
- 2020-06-23 TW TW109121370A patent/TW202109507A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
CN113994425A (zh) | 2022-01-28 |
EP3987513A1 (en) | 2022-04-27 |
WO2020263846A1 (en) | 2020-12-30 |
US20200402522A1 (en) | 2020-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113488064A (zh) | 高阶立体混响音频数据的优先级信息 | |
US20200013426A1 (en) | Synchronizing enhanced audio transports with backward compatible audio transports | |
US10075802B1 (en) | Bitrate allocation for higher order ambisonic audio data | |
US20200120438A1 (en) | Recursively defined audio metadata | |
US11538489B2 (en) | Correlating scene-based audio data for psychoacoustic audio coding | |
US20190392846A1 (en) | Demixing data for backward compatible rendering of higher order ambisonic audio | |
US11081116B2 (en) | Embedding enhanced audio transports in backward compatible audio bitstreams | |
EP3987515B1 (en) | Performing psychoacoustic audio coding based on operating conditions | |
EP3987516B1 (en) | Coding scaled spatial components | |
US10999693B2 (en) | Rendering different portions of audio data using different renderers | |
US20200402523A1 (en) | Psychoacoustic audio coding of ambisonic audio data | |
US20200335113A1 (en) | Higher order ambisonic audio data | |
US11062713B2 (en) | Spatially formatted enhanced audio data for backward compatible audio bitstreams | |
US10762910B2 (en) | Hierarchical fine quantization for audio coding | |
EP3987513B1 (en) | Quantizing spatial components based on bit allocations determined for psychoacoustic audio coding | |
US20200402522A1 (en) | Quantizing spatial components based on bit allocations determined for psychoacoustic audio coding | |
US10559315B2 (en) | Extended-range coarse-fine quantization for audio coding |