TW202107450A - 用於心理聲學之音訊寫碼的使基於場景的音訊資料關聯 - Google Patents
用於心理聲學之音訊寫碼的使基於場景的音訊資料關聯 Download PDFInfo
- Publication number
- TW202107450A TW202107450A TW109121368A TW109121368A TW202107450A TW 202107450 A TW202107450 A TW 202107450A TW 109121368 A TW109121368 A TW 109121368A TW 109121368 A TW109121368 A TW 109121368A TW 202107450 A TW202107450 A TW 202107450A
- Authority
- TW
- Taiwan
- Prior art keywords
- components
- audio
- audio data
- scene
- foreground
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 123
- 230000002596 correlated effect Effects 0.000 claims abstract description 17
- 230000005236 sound signal Effects 0.000 claims description 140
- 230000000875 corresponding effect Effects 0.000 claims description 62
- 238000012163 sequencing technique Methods 0.000 claims description 36
- 230000009466 transformation Effects 0.000 claims description 35
- 238000007906 compression Methods 0.000 claims description 26
- 230000006835 compression Effects 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 230000002441 reversible effect Effects 0.000 claims description 7
- 230000006837 decompression Effects 0.000 claims description 5
- 238000013139 quantization Methods 0.000 description 172
- 230000005540 biological transmission Effects 0.000 description 151
- 239000013598 vector Substances 0.000 description 69
- 238000003860 storage Methods 0.000 description 58
- 238000005516 engineering process Methods 0.000 description 54
- 238000004891 communication Methods 0.000 description 47
- 101150036464 aptx gene Proteins 0.000 description 31
- 238000004458 analytical method Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 26
- 230000008569 process Effects 0.000 description 24
- 238000012545 processing Methods 0.000 description 23
- 239000011159 matrix material Substances 0.000 description 16
- 230000015572 biosynthetic process Effects 0.000 description 15
- 238000003786 synthesis reaction Methods 0.000 description 14
- LZAYOZUFUAMFLD-UHFFFAOYSA-N 4-(4-chlorophenyl)-4-hydroxypiperidine Chemical compound C=1C=C(Cl)C=CC=1C1(O)CCNCC1 LZAYOZUFUAMFLD-UHFFFAOYSA-N 0.000 description 11
- 238000002156 mixing Methods 0.000 description 9
- 230000001413 cellular effect Effects 0.000 description 7
- 238000000354 decomposition reaction Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 230000008447 perception Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000003032 molecular docking Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 241000282693 Cercopithecidae Species 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- -1 enhanced AptX-E-AptX Proteins 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 101150095491 AACS gene Proteins 0.000 description 1
- 241001025261 Neoraja caerulea Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000013707 sensory perception of sound Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/61—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
- H04L65/612—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for unicast
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/70—Media network packetisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/756—Media network packet handling adapting media to device capabilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/762—Media network packet handling at the source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
Abstract
一般而言,本發明描述用於心理聲學音訊寫碼的使基於場景的音訊資料關聯之技術。包含一記憶體及一或多個處理器之一種裝置可經組態以執行該等技術。該記憶體可儲存一位元串流,該位元串流包括由基於場景之音訊資料表示之一音場的複數個經編碼關聯分量。該一或多個處理器可執行關於該複數個經編碼關聯分量中之一或多者之心理聲學音訊解碼以獲得複數個關聯分量,並且自該位元串流獲得表示該複數個關聯分量中之該一或多者在該位元串流中經重定序之方式之一指示。該一或多個處理器可基於該指示對該複數個關聯分量重定序以獲得複數個經重定序分量,並且基於該複數個經重定序分量重建該基於場景之音訊資料。
Description
本發明係關於音訊資料,且更特定言之,係關於音訊資料之寫碼。
心理聲學音訊寫碼係指使用心理聲學模型壓縮音訊資料之程序。考慮到由於空間遮蔽(例如,兩個音訊源處於相同位置,其中聽覺源中之一者就音量而言遮蔽另一聽覺源)、時間遮蔽(例如其中一個音訊源就音量而言遮蔽另一聽覺源)等而出現的限制,心理聲學音訊寫碼可充分利用人類聽覺系統中之限制來壓縮音訊資料。心理聲學模型可嘗試模型化人類聽覺系統以識別冗餘、經遮蔽或以其他方式不能被人類聽覺系統感知的音場之經遮蔽或其他部分。心理聲學音訊寫碼亦可藉由對音訊資料進行熵編碼而執行無損壓縮。
一般而言,描述用於心理聲學音訊寫碼的使基於場景的音訊資料關聯之技術。
在一個實例中,該等技術之各種態樣係關於一種裝置,其經組態以對基於場景之音訊資料進行編碼,該裝置包含:一記憶體,其經組態以儲存該基於場景之音訊資料;及一或多個處理器,其經組態以:執行關於該基於場景之音訊資料之空間音訊編碼以獲得由該基於場景之音訊資料表示之一音場之複數個背景分量、複數個前景音訊信號及對應的複數個空間分量,該複數個空間分量中之每一者界定該複數個前景音訊信號中之對應的前景音訊信號之空間特性;執行關於該複數個背景分量及該複數個前景音訊信號中之兩者或更多者之關聯以獲得複數個關聯分量;執行關於該複數個關聯分量中之一或多者之心理聲學音訊編碼以獲得經編碼分量;及在一位元串流中指定該等經編碼分量。
在另一實例中,該等技術之各種態樣係關於一種對基於場景之音訊資料進行編碼之方法,該方法包含:執行關於該基於場景之音訊資料之空間音訊編碼以獲得由該基於場景之音訊資料表示之一音場之複數個背景分量、複數個前景音訊信號及對應的複數個空間分量,該複數個空間分量中之每一者界定該複數個前景音訊信號中之一對應的前景音訊信號之空間特性;執行關於該複數個背景分量及該複數個前景音訊信號中之一或多者之關聯以獲得複數個關聯分量;執行關於該複數個關聯分量中之一或多者之心理聲學音訊編碼以獲得經編碼分量;及在一位元串流中指定該等經編碼分量。
在另一實例中,該等技術之各種態樣係關於一種裝置,其經組態以對基於場景之音訊資料進行編碼,該裝置包含:用於執行關於該基於場景之音訊資料之空間音訊編碼以獲得由該基於場景之音訊資料表示之一音場之複數個背景分量、複數個前景音訊信號及對應的複數個空間分量之構件,該複數個空間分量中之每一者界定該複數個前景音訊信號中之一對應的前景音訊信號之空間特性;用於執行關於該複數個背景分量及該複數個前景音訊信號中之一或多者之關聯以獲得複數個關聯分量之構件;用於執行關於該複數個關聯分量中之一或多者之心理聲學音訊編碼以獲得經編碼分量之構件及用於在一位元串流中指定該等經編碼分量之構件。
在另一實例中,該等技術之各種態樣係關於一種非暫時性電腦可讀儲存媒體,其上儲存有指令,該等指令在被執行時使一或多個處理器:執行關於該基於場景之音訊資料之空間音訊編碼以獲得由該基於場景之音訊資料表示之一音場的複數個背景分量、複數個前景音訊信號及對應的複數個空間分量,該複數個空間分量中之每一者界定該複數個前景音訊信號中之對應的前景音訊信號之空間特性;執行關於該複數個背景分量及該複數個前景音訊信號中之一或多者之關聯以獲得複數個關聯分量;執行關於該複數個關聯分量中之一或多者之心理聲學音訊編碼以獲得經編碼分量;且在一位元串流中指定該等經編碼分量。
在另一實例中,該等技術之各種態樣係關於一種裝置,其經組態以對表示基於場景之音訊資料之一位元串流進行解碼,該裝置包含:一記憶體,其經組態以儲存該位元串流,該位元串流包括由該基於場景之音訊資料表示之一音場的複數個經編碼關聯分量;及一或多個處理器,其經組態以:執行關於該複數個經編碼關聯分量中之一或多者之心理聲學音訊解碼以獲得複數個關聯分量;自該位元串流獲得表示該複數個關聯分量中之一或多者在該位元串流中經重定序之方式之一指示;基於該指示對該複數個關聯分量重定序以獲得複數個經重定序分量;及基於該複數個經重定序分量重建該基於場景之音訊資料。
在另一實例中,該等技術之各種態樣係關於一種對表示基於場景之音訊資料之一位元串流進行解碼之方法,該方法包含:自該位元串流獲得複數個經編碼關聯分量;執行關於該複數個經編碼關聯分量中之一或多者之心理聲學音訊解碼以獲得複數個關聯分量;自該位元串流獲得表示該複數個關聯分量中之一或多者在該位元串流中經重定序之方式之一指示;基於該指示對該複數個關聯分量重定序以獲得複數個經重定序分量;及基於該複數個經重定序分量重建該基於場景之音訊資料。
在另一實例中,該等技術之各種態樣係關於一種裝置,其經組態以對表示基於場景之音訊資料之一位元串流進行解碼,該裝置包含:用於自該位元串流獲得複數個經編碼關聯分量之構件;用於執行關於該複數個經編碼關聯分量中之一或多者之心理聲學音訊解碼以獲得複數個關聯分量之構件;用於自該位元串流獲得表示該複數個關聯分量中之一或多者在該位元串流中經重定序之方式之一指示之構件;用於基於該指示對該複數個關聯分量重定序以獲得複數個經重定序分量之構件;及用於基於該複數個經重定序分量重建該基於場景之音訊資料之構件。
在另一實例中,該等技術之各種態樣係關於一種非暫時性電腦可讀儲存媒體,其上儲存有指令,該等指令在被執行時使一或多個處理器:自表示基於場景之音訊資料之一位元串流獲得複數個經編碼關聯分量;執行關於該複數個經編碼關聯分量中之一或多者之心理聲學音訊解碼以獲得複數個關聯分量;自該位元串流獲得表示該複數個關聯分量中之一或多者在該位元串流中經重定序之方式之一指示;基於該指示對該複數個關聯分量重定序以獲得複數個經重定序分量;及基於該複數個經重定序分量重建該基於場景之音訊資料。
在隨附圖式及以下描述中闡述該等技術之一或多個態樣的細節。此等技術之其他特徵、目標及優點將自該描述及該等圖式以及申請專利範圍而顯而易見。
本申請案主張2019年6月24日申請之名為「CORRELATING SCENE-BASED AUDIO DATA FOR PSYCHOACOUSTIC AUDIO CODING」之美國臨時申請案第62/865,865號之權益,該申請案之全部內容特此以引用之方式併入,如同其全文在本文中闡述一樣。
存在不同類型的音訊格式,包括基於聲道、基於對象及基於場景。基於場景之格式可使用立體混響技術。立體混響技術允許使用元素之階層式集合來表示音場,該等元素可呈現給用於大多數揚聲器組態的揚聲器饋送。
表達式展示在時間t
處,音場之任一點處的壓力可由SHC唯一地表示。此處,,c
為聲音之速度(約343 m/s),為參考點(或觀測點),為階數n
之球面貝塞爾函數,且為階數n
及子階數m
之球面調和基函數(其亦可稱作球面基底函數)。可認識到,方括號中之術語為信號之頻域表示(亦即,),其可由各種時間頻率變換近似,諸如離散傅立葉變換(DFT)、離散餘弦變換(DCT)或小波變換。階層式集合之其他實例包括小波變換係數之集合及多解析度基底函數之係數之其他集合。
SHC可藉由各種麥克風陣列組態以物理方式經獲取(例如記錄),或替代地,其可自音場的基於聲道或基於對象之描述(例如,經脈碼調變-PCM-音訊對象,其包括界定音場內之音訊對象的位置之音訊對象及後設資料)導出。SHC (其亦可被稱作立體混響係數)表示基於場景之音訊,其中SHC可輸入至音訊編碼器以獲得可促進更高效傳輸或儲存的經編碼SHC。舉例而言,可使用涉及(1+4)2
(25,且因此為四階)係數之四階表示。
如上文所提及,可使用麥克風陣列自麥克風記錄導出SHC。可如何自麥克風陣列導出SHC之各種實例描述於Poletti,M.之「Three-Dimensional Surround Sound Systems Based on Spherical Harmonics」(J. Audio Eng. Soc.,第53卷,第11期,2005年11月,第1004至1025頁)中。
為了說明可如何自基於對象之描述導出SHC,考慮以下等式。可將對應於個別音訊對象之音場之係數表達為:,
其中i為,為n階之球面漢克(Hankel)函數(第二種類),且為對象之位置。已知隨頻率變化的對象源能量(例如,使用時間-頻率分析技術,諸如,對PCM串流執行快速傅立葉變換)允許吾人將每一PCM對象及對應位置轉換成SHC。另外,可展示(由於上式為線性及正交分解):每一對象之係數為相加性的。以此方式,數個PCM對象(其中PCM對象為音訊對象之一個實例)可由係數表示(例如表示為個別對象之係數向量的總和)。基本上,該等係數含有關於音場之資訊(隨3D座標變化的壓力),且上式表示在觀測點附近自個別對象至總音場之表示的變換。下文在基於SHC之音訊寫碼的上下文中描述以下圖。
圖1為說明可執行本發明中所描述之技術的各種態樣之系統10的圖。如圖1之實例中所展示,系統10包括內容創建者系統12及內容消費者14。雖然在內容創建者系統12及內容消費者14之上下文中描述,但可在音場之SHC (其亦可被稱作立體混響係數)或任何其他階層式表示經編碼以形成表示音訊資料之位元串流的任何上下文中實施該等技術。
此外,內容創建者系統12可表示包含能夠實施本發明中描述之技術的任何形式的計算裝置中之一或多者的系統,該等計算裝置包括手機(或蜂巢式電話,包括所謂的「智慧型電話」,或換言之,行動電話或手機)、平板電腦、筆記本電腦、桌上型電腦、延伸實境(XR)裝置(其可指虛擬實境-VR-裝置、擴增實境-AR-裝置、混合實境-MR-裝置等中之任一或多者)、遊戲系統、光碟播放器、接收器(諸如音訊/視訊-A/V-接收器)或專用硬體,以提供若干實例。
同樣地,內容消費者14可表示能夠實施本發明中描述之技術的任何形式之計算裝置,該等計算裝置包括手機(或蜂巢式電話,包括所謂的「智慧型電話」,或換言之,行動手機或電話)、XR裝置、平板電腦、電視(包括所謂的「智慧型電視」)、機上盒、筆記本電腦、遊戲系統或控制台、手錶(包括所謂的智慧型手錶)、無線頭戴式耳機(包括所謂的「智慧型頭戴式耳機」)或桌上型電腦,以提供若干實例。
內容創建者系統12可表示可藉由內容消費者,諸如內容消費者14針對消耗產生音訊內容及可能地視訊內容的任何實體。內容創建者系統12可在事件,諸如體育事件處捕捉實時音訊資料,同時亦將各種其他類型之額外音訊資料,諸如解說音訊資料、廣告音訊資料、介紹或退場音訊資料等插入至實時音訊內容中。
內容消費者14表示擁有或可存取一音訊播放系統16的個人,該音訊播放系統可指能夠將至揚聲器饋送以用於播放的高階立體混響音訊資料(其包括高階音訊係數,其再次亦可被稱作球面調和係數)呈現為音頻內容的任何形式之音訊播放系統。在圖1之實例中,內容消費者14包括音訊播放系統16。
立體混響音訊資料可在球面調和域中經界定,並且自球面調和域經呈現或以其他方式變換至空間域,從而產生呈一或多個揚聲器饋送之形式的音訊內容。立體混響音訊資料可表示「基於場景之音訊資料」的一個實例,其描述使用立體混響係數之音訊場景。基於場景之音訊資料與基於對象之音訊資料的區別在於(在球面調和域中)描述整個場景,而非基於對象之音訊資料中常見的(在空間域中)描述精密對象。基於場景之音訊資料與基於聲道之音訊資料的不同之處在於基於場景之音訊資料駐留在球面調和域中而非基於聲道之音訊資料之空間域中。
在任何情況下,內容創建者系統12都包括麥克風18,其記錄或以其他方式獲得呈各種格式之實時記錄(包括直接作為立體混響係數及音訊對象)。當麥克風陣列18 (其亦可被稱作「麥克風18」)獲得實時音訊直接作為立體混響係數時,麥克風18可包括如圖1的實例中所展示之立體混響轉碼器20。
換言之,儘管展示為與麥克風5分離,但立體混響轉碼器20之分離例項可包括在麥克風5中之每一者內,以便將所捕捉饋送自然地轉碼成立體混響係數21。然而,當不包括於麥克風18內時,立體混響轉碼器20可將自麥克風18輸出之實時饋送轉碼成立體混響係數21。就此而言,立體混響轉碼器20可表示經組態以將麥克風饋送及/或音訊對象轉碼成立體混響係數21之單元。內容創建者系統12因此包括與麥克風18整合之立體混響轉碼器20,作為與麥克風18分離的立體混響轉碼器或其某一組合。
內容創建者系統12亦可包括經組態以壓縮立體混響係數21以獲得位元串流31之音訊編碼器22。音訊編碼器22可包括空間音訊編碼裝置24及心理聲學音訊編碼裝置26。空間音訊編碼裝置24可表示能夠執行關於立體混響係數21之壓縮以獲得中間格式化的音訊資料25 (其在內容創建者系統12表示如下文更詳細地描述之廣播網路時亦可被稱作「夾層格式化的音訊資料25」)之裝置。中間格式化的音訊資料25可表示使用空間音訊壓縮而經壓縮但尚未經歷心理聲學音訊編碼(例如AptX或進階音訊寫碼-AAC,或其他類似類型之心理聲學音訊編碼,包括各種增強之AAC-eAAC-諸如高效率AAC-HE-AAC-HE-AAC v2,其亦稱為eAAC+等)的音訊資料。
空間音訊編碼裝置24可經組態以壓縮立體混響係數21。亦即,空間音訊編碼裝置24可使用涉及線性可逆變換(LIT)之應用的分解來壓縮立體混響係數21。線性可逆變換之一個實例被稱作「單一值分解」(「SVD」)、主成分分析(「PCA」)或特徵值分解,該特徵值分解可表示線性可逆分解之不同實例。
在此實例中,空間音訊編碼裝置24可將SVD應用於立體混響係數21以判定立體混響係數21之經分解版本。立體混響係數21之經分解版本可包括主要音訊信號中之一或多者及描述空間特性之一或多個對應的空間分量,該等空間特性例如相關聯的主要音訊信號之方向、形狀及寬度。因而,空間音訊編碼裝置24可將分解應用於立體混響係數21以自空間特性(如由空間分量表示)解耦能量(如由主要音訊信號表示)。
空間音訊編碼裝置24可分析立體混響係數21之經分解版本以識別各種參數,其可促進立體混響係數21之經分解版本的重定序。空間音訊編碼裝置24可基於經識別參數對立體混響係數21之經分解版本重定序,其中在變換可對橫越立體混響係數之訊框的立體混響係數重定序之條件下,此類重定序可改良寫碼效率(其中訊框通常包括立體混響係數21之經分解版本的M個樣品並且M在一些實例中經設定為1024)。
在對立體混響係數21之經分解版本重定序之後,空間音訊編碼裝置24可選擇立體混響係數21之經分解版本中之一或多者作為音場的前景(或換言之,不同、主要或突出)分量的代表。空間音訊編碼裝置24可指定表示前景分量(其亦可被稱作「主要聲音信號」、「主要音訊信號」或「主要聲音分量」)及相關聯的方向性資訊(其亦可被稱作「空間分量」或在一些情況下,被稱作所謂的「V向量,其識別對應的音訊對象之空間特性」)之立體混響係數21的經分解版本。空間分量可表示具有多個不同元素(其就向量而言可被稱作「係數」)之向量且藉此可被稱作「多維向量」。
空間音訊編碼裝置24接下來可執行關於立體混響係數21之音場分析以便至少部分地識別表示音場之一或多個背景(或換言之,環境)分量的立體混響係數21。背景分量亦可被稱作「背景音訊信號」或「環境音訊信號」。在一些實例中,在背景音訊信號可僅包括立體混響係數21 (例如對應於零階及一階球面基底函數之立體混響係數及而非對應於二階或更高階球面基底函數之立體混響係數)之任何給定樣品之一子集之條件下,空間音訊編碼裝置24可執行關於背景音訊信號之能量補償。當執行降階時,換言之,空間音訊編碼裝置24可擴增立體混響係數21之其餘的背景立體混響係數(例如將能量添加至其餘的背景立體混響係數/自其餘的背景立體混響係數減去能量)以補償由執行降階產生之總能量的改變。
空間音訊編碼裝置24接下來可執行關於前景方向性資訊(其為指代空間分量之另一方式)之內插的形成且接著執行關於經內插前景方向性資訊之降階以產生經降階前景方向性資訊。在一些實例中,空間音訊編碼裝置24可進一步執行關於經降階之前景方向性資訊的量化,從而輸出經寫碼之前景方向性資訊。在一些情況下,此量化可包含可能呈向量量化之形式的純量/熵量化。空間音訊編碼裝置24接著可輸出中間格式化的音訊資料25作為背景音訊信號、前景音訊信號及經量化之前景方向性資訊。
在任何情況下,背景音訊信號及前景音訊信號在一些實例中可包含傳送聲道。亦即,空間音訊編碼裝置24可針對立體混響係數21之包括背景音訊信號(例如對應於零階或一階球面基底函數之立體混響係數21中之一者的M個樣品)中之各別者之每一訊框並且針對前景音訊信號(例如自立體混響係數21分解之音訊對象之M個樣品)之每一訊框輸出傳送聲道。空間音訊編碼裝置24可進一步輸出側資訊(其亦可被稱作「旁頻帶資訊」),該輸出側資訊包括對應於前景音訊信號中之每一者的經量化空間分量。
總體而言,傳送聲道及旁側資訊可在圖1之實例中表示為立體混響傳送格式(ATF)音訊資料25 (其為指代中間格式化的音訊資料之另一方式)。換言之,AFT音訊資料25可包括傳送聲道及旁側資訊(其亦可被稱作「後設資料」)。作為一個實例,ATF音訊資料25可符合高階立體混響(HOA)傳送格式(HTF)。更多關於HTF之資訊可見於名為「高階立體混響(HOA)傳送格式」ETSI TS 103 589 V1.1.1,日期為2018年6月(2018-06)的歐洲電信標準協會(ETSI)之技術規格(TS)中。因而,ATF音訊資料25可被稱作HTF音訊資料25。
空間音訊編碼裝置24接著可將ATF音訊資料25傳輸或以其他方式輸出至心理聲學音訊編碼裝置26。心理聲學音訊編碼裝置26可執行關於ATF音訊資料25之心理聲學音訊編碼以產生位元串流31。心理聲學音訊編碼裝置26可根據標準化、開放源或專有音訊寫碼程序來操作。舉例而言,心理聲學音訊編碼裝置26可根據任何類型的壓縮演算法來執行心理聲學音訊編碼,諸如標示為藉由動畫專業團體(MPEG)、MPEG-H 3D音訊寫碼標準、MPEG-I浸入式音訊標準或專有標準(諸如AptX™ (包括諸如增強式AptX-E-AptX、AptX實時、AptX立體聲及AptX高清晰度-AptX-HD的AptX之各種版本))闡述之「USAC」之統一語音及音訊寫碼器、進階音訊寫碼(AAC)、音訊編解碼器3 (AC-3)、蘋果的無損音訊編解碼器(ALAC)、MPEG-4音訊無損串流式傳輸(ALS)、增強式AC-3、自由無損音訊編解碼器(FLAC)、猴子的音訊(Monkey's Audio)、MPEG-1音訊層II (MP2)、MPEG-1音訊層III (MP3)、Opus及視窗媒體音訊(WMA)。內容創建者系統12可接著經由傳輸聲道將位元串流31傳輸至內容消費者14。
在一些實例中,心理聲學音訊編碼裝置26可表示心理聲學音訊寫碼器之一或多個例項,其中之每一者用於對ATF音訊資料25之傳送聲道進行編碼。在一些情況下,此心理聲學音訊編碼裝置26可表示AptX編碼單元的一或多個例項(如上文所提及)。心理聲學音訊寫碼器單元26可在一些情況下針對ATF音訊資料25之每一傳送聲道來調用立體聲編碼單元之例項。
在一些實例中,為了使用立體混響係數產生音場之不同表示(其再次為音訊資料21之一個實例),音訊編碼器22可使用用於被稱作混合位階立體混響(MOA)之音場之立體混響表示的寫碼方案,如在名為「MIXED-ORDER AMBISONICS (MOA) AUDIO DATA FOR COMPUTER-MEDIATED REALITY SYSTEMS」且2017年8月8日申請之美國申請案第15/672,058號中較詳細地論述,該申請案在2019年1月3日經公開為美國專利公開案第2019/0007781號。
為了產生音場之特定MOA表示,音訊編碼器22可產生立體混響係數之全集合之部分子集。舉例而言,由音訊編碼器22產生之每一MOA表示可提供關於音場之一些區域之精確度,但在其他區域中提供較小精確度。在一個實例中,音場之MOA表示可包括立體混響係數之八個(8)未經壓縮立體混響係數,而相同音場之三階立體混響表示可包括立體混響係數之十六個(16)未壓縮立體混響係數。因而,經產生作為立體混響係數之部分子集的音場之每一MOA表示可能相比由立體混響係數產生的同一音場之對應三階立體混響表示在儲存方面不太充分且在頻寬方面不太充分(在作為位元串流31之部分而經由所說明傳輸聲道傳輸的情況下及在此時)。
儘管關於MOA表示描述,但本發明之技術亦可針對一階立體混響(FOA)表示執行,其中對應於具有直至一之階數之球面基底函數的所有立體混響係數用於表示音場。換言之,而非使用立體混響係數之部分非零子集來表示音場,音場表示產生器302可使用用於一階之所有立體混響係數來表示音場。
就此而言,高階立體混響音訊資料可包括與具有一或小於一之階數的球面基底函數相關聯之高階立體混響係數(其可稱作「1階立體混響音訊資料」)、與具有經混合位階及子位階的球面基底函數相關聯之高階立體混響係數(其可被稱作上文所論述之「MOA表示」),或與具有大於一之階數的球面基底函數相關聯之高階立體混響係數。
此外,雖然在圖1中經展示為直接傳輸至內容消費者14,但內容創建者系統12可將位元串流31輸出至定位於內容創建者系統12與內容消費者14之間的中間裝置。中間裝置可儲存位元串流31以供稍後遞送至可請求此位元串流之內容消費者14。中間裝置可包含檔案伺服器、網頁伺服器、桌上型電腦、膝上型電腦、平板電腦、行動電話、智慧型手機,或能夠儲存位元串流31以供音訊解碼器稍後擷取之任何其他裝置。該中間裝置可駐留於能夠將位元串流31 (且可能結合傳輸對應視訊資料位元串流)串流式傳輸至請求位元串流31之用戶(諸如,內容消費者14)的內容遞送網路中。
替代地,內容創建者系統12可將位元串流31儲存至儲存媒體,諸如緊密光碟、數位視訊光碟、高清晰度視訊光碟或其他儲存媒體,其中之大多數能夠由電腦讀取且因此可被稱作電腦可讀儲存媒體或非暫時性電腦可讀儲存媒體。在此上下文中,傳輸聲道可指藉以傳輸儲存至此等媒體之內容的彼等聲道(且可包括零售商店及其他基於商店之遞送機構)。在任何情況下,本發明之技術因此就此而言不應限於圖1之實例。
如圖1之實例中進一步展示,內容消費者14包括音訊播放系統16。音訊播放系統16可表示能夠播放多聲道音訊資料之任何音訊播放系統。音訊播放系統16可進一步包括音訊解碼裝置32。音訊解碼裝置32可表示經組態以自位元串流31解碼立體混響係數11'的裝置,其中立體混響係數11'可類似於立體混響係數11,但歸因於有損操作(例如,量化)及/或經由傳輸聲道之傳輸而不同。
音訊解碼裝置32可包括心理聲學音訊解碼裝置34及空間音訊解碼裝置36。心理聲學音訊解碼裝置34可表示經組態以與心理聲學音訊編碼裝置26對等地操作以自位元串流31重建ATF音訊資料25'的單元。再次,關於自心理聲學音訊解碼裝置34輸出之ATF音訊資料25的質數表示標示ATF音訊資料25'可由於在ATF音訊資料25之壓縮期間執行的有損或其他操作而與ATF音訊資料25稍微不同。心理聲學音訊解碼裝置34可經組態以根據標準化、開放源或專有音訊寫碼處理(諸如以上所提及之AptX、AptX的變化、AAC、AAC的變化等)執行解壓縮。
雖然主要下文關於AptX描述,但可相對於其他心理聲學音訊編解碼器應用技術。其他心理聲學音訊編解碼器之實例包括音訊編解碼器3 (AC-3)、蘋果的無損音訊編解碼器(ALAC)、MPEG-4音訊無損串流式傳輸(ALS)、aptX®、增強AC-3、自由無損音訊編解碼器(FLAC)、猴子的音訊、MPEG-1音訊層II (MP2)、MPEG-1音訊層III (MP3)、Opus及視窗媒體音訊(WMA)。
在任何情況下,心理聲學音訊解碼裝置34可執行關於位元串流31中指定之前景音訊對象及表示位元串流31中指定之背景音訊信號之經編碼立體混響係數的心理聲學解碼。以此方式,心理聲學音訊解碼裝置34可獲得ATF音訊資料25'並將ATF音訊資料25'輸出至空間音訊解碼裝置36。
空間音訊解碼裝置36可表示經組態以與空間音訊編碼裝置24對等地操作之單元。亦即,空間音訊解碼裝置36可對位元串流31中指定之前景方向性資訊進行反量化。空間音訊解碼裝置36可進一步執行關於經量化前景方向性資訊之反量化以獲得經解碼前景方向性資訊。空間音訊解碼裝置36接下來可執行關於經解碼前景方向資訊之內插,且接著基於經解碼前景音訊信號及經內插前景方向資訊判定表示前景分量之立體混響係數。空間音訊解碼裝置36接著可基於表示前景音訊信號之經判定立體混響係數及表示背景音訊信號之經解碼立體混響係數來判定立體混響係數11'。
音訊播放系統16可在對位元串流31進行解碼以獲得立體混響係數11'之後呈現立體混響係數11'以輸出揚聲器饋送39。音訊播放系統16可包括多個不同音訊呈現器38。音訊呈現器38可各自提供不同形式的呈現,其中不同形式的呈現可包括執行基於向量之振幅平移(VBAP)之各種方式中之一或多者、執行雙耳呈現(例如頭部相關傳遞函數-HRTF,雙耳室脈衝回應-BRIR等)中之一或多者,及/或執行音場合成之各種方式中之一或多者。
音訊播放系統16可將揚聲器饋送39輸出至揚聲器40中之一或多者。揚聲器饋送39可驅動揚聲器40。揚聲器40可表示揚聲器(例如置放於箱或其他殼體中之轉換器)、頭戴式耳機揚聲器,或能夠基於電信號發射聲音之任何其他類型的轉換器。
為了選擇適當呈現器或在一些情況下產生適當呈現器,音訊播放系統16可獲得指示揚聲器40之數目及/或揚聲器40之空間幾何佈置的揚聲器資訊41。在一些情況下,音訊播放系統16可使用參考麥克風及以一方式驅動揚聲器40以便動態地判定揚聲器資訊41來獲得揚聲器資訊41。在其他情況下,或結合揚聲器資訊41之動態判定,音訊播放系統16可促使使用者與音訊播放系統16介接且輸入揚聲器資訊41。
音訊播放系統16可基於揚聲器資訊41選擇音訊呈現器38中之一者。在一些情況下,在音訊呈現器38中無一者處於至揚聲器資訊41中所指定之揚聲器幾何佈置之某一臨限值類似性量度(就揚聲器幾何佈置而言)內時,音訊播放系統16可基於揚聲器資訊41產生音訊呈現器38中之一者。在一些情況下,音訊播放系統16可基於揚聲器資訊41產生音訊呈現器38中之一者,而無需首先嘗試選擇音訊呈現器38中之現有一者。
雖然關於揚聲器饋送39描述,但音訊播放系統16可自揚聲器饋送39或直接自立體混響係數11'呈現頭戴式耳機饋送,從而輸出頭戴式耳機饋送至頭戴式耳機揚聲器。頭戴式耳機饋送可表示雙耳音訊揚聲器饋送,音訊播放系統16使用雙耳音訊呈現器來呈現雙聲音訊揚聲器饋送。如上文所描述,音訊編碼器22可調用空間音訊編碼裝置24以執行空間音訊編碼(或以其他方式壓縮)立體混響音訊資料21且藉此獲得ATF音訊資料25。在將空間音訊編碼應用於立體混響音訊資料21期間,空間音訊編碼裝置24可獲得前景音訊信號及對應的空間分量,其分別以經編碼形式指定為傳送聲道及隨附後設資料(或旁頻帶資訊)。
如上文所提及,空間音訊編碼裝置24可對立體混響音訊資料21進行編碼以獲得ATF音訊資料25,其可包括複數個傳送聲道,該等傳送聲道指定複數個背景分量、複數個前景音訊信號及對應複數個空間分量。在一些實例中,ATF音訊資料25當符合HTF時可包括四個前景音訊信號連同一階立體混響音訊信號,該一階立體混響音訊信號具有對應於零階球面基底函數及三個一階球面基底函數之係數作為用於總共四個背景分量之背景分量。空間音訊編碼裝置24可將ATF音訊資料25輸出至心理聲學音訊編碼裝置26,其可執行某一形式的心理聲學音訊編碼。
在一些實例中,心理聲學音訊編碼裝置26可執行一定形式的立體聲心理聲學音訊編碼,其中ATF音訊資料25之至少兩個傳送聲道之間的預測經執行以判定差,藉此可能減小傳送聲道之動態範圍。在立體聲音訊資料僅包括就高度及位置而言相對關聯(相對,但相位可不同)之兩個聲道之條件下,立體聲心理聲學音訊編碼演算法可能不執行關於立體聲音訊資料之任何關聯性。因而,將立體聲心理聲學音訊編碼應用於ATF音訊資料25之傳送聲道的任何給定配對可產生較低壓縮效率,因為傳送聲道之任何給定配對可或可不具有足夠的關聯性以獲得足夠的動態增益減少。
根據本發明中描述之技術之各種態樣,心理聲學音訊編碼裝置26可在執行關於傳送聲道之立體聲或多聲道心理聲學音訊編碼之前執行關於ATF音訊資料25之傳送聲道中之兩者或更多者的關聯性以獲得關聯值。在一些實例中,心理聲學音訊編碼裝置26可執行關於指定背景分量之傳送聲道之每一唯一配對及關於指定前景音訊信號之傳送聲道之每一唯一配對的關聯性。在一些實例中,心理聲學音訊編碼裝置26可執行關於傳送聲道之每一單元配對之關聯(作為一個實例,比較至少一個背景分量與至少一個前景音訊信號)。
在任何情況下,心理聲學音訊編碼裝置26接著可基於關聯值對傳送聲道重定序(根據最高關聯值對傳送聲道進行配對)。藉由可能在立體聲心理聲學音訊編碼之前改良關聯性,該等技術可能會改良寫碼效率,藉此改良心理聲學音訊編碼裝置26自身的操作。
在操作中,空間音訊編碼裝置24可執行關於基於場景之音訊資料21之空間音訊編碼以獲得複數個背景分量、複數個前景音訊信號及對應複數個空間分量作為ATF音訊資料25。空間音訊編碼裝置24可將ATF音訊資料25輸出至心理聲學音訊編碼裝置26。
心理聲學音訊編碼裝置26可接收背景分量及前景音訊信號。如圖1之實例中所展示,心理聲學音訊編碼裝置26可包括關聯單元(CU) 46,其可執行關於複數個背景分量及複數個前景音訊信號中之兩者或更多者的以上所提及之關聯,以獲得複數個關聯分量。如上文所論述,CU 46可單獨地執行關於背景分量及前景音訊信號之關聯。在其他實例中,如上文所提及,CU 46可執行關於背景分量及前景音訊信號之關聯,其中至少一個背景分量及至少一個前景音訊信號經歷關聯。
CU 46可由於執行關於背景分量及前景音訊信號中之兩者或更多者之關聯而獲得關聯值。CU 46可基於關聯值對背景分量及前景音訊信號重定序。CU 46可將指示重定序傳送聲道之方式之重定序後設資料輸出至空間音訊編碼裝置24,空間音訊編碼裝置24可在包括空間分量之後設資料中指定該重定序後設資料。儘管經描述為在包括空間分量之後設資料中指定重定序後設資料,但心理聲學音訊編碼裝置26可在位元串流31中指定重定序後設資料。
在任何情況下,CU 46可輸出經重定序傳送聲道(其可指定複數個關聯分量),之後心理聲學音訊編碼裝置26可執行關於複數個關聯分量之心理聲學音訊編碼以獲得經編碼分量。如下文較詳細地描述,心理聲學音訊編碼裝置26可根據AptX壓縮演算法執行關於複數個關聯分量之至少一個配對之心理聲學音訊編碼以獲得複數個經編碼分量。心理聲學音訊編碼裝置26可在位元串流31中指定複數個經編碼分量。
如上文所提及,音訊解碼器32可與音訊編碼器22對等地操作。因而,音訊解碼器32可獲得位元串流31並調用心理聲學音訊解碼裝置34。如上文所提及,心理聲學音訊解碼裝置34可根據AptX解壓縮演算法執行心理聲學音訊解碼。再次,下文關於圖5至圖10之實例描述較多關於AptX解壓縮演算法之資訊。
在任何情況下,心理聲學音訊解碼裝置34可自位元串流31獲得重定序後設資料,其可表示複數個關聯分量中之一或多者在位元串流31中經重定序之方式之指示。如圖1的實例中所展示,心理聲學音訊解碼裝置34可包括重定序單元(RU) 54,其表示經組態以基於重定序後設資料對複數個關聯分量重定序以獲得複數個經重定序分量之單元。心理聲學音訊解碼裝置34可基於複數個經重定序分量而重建ATF音訊資料25'。空間音訊解碼裝置36接著可基於ATF音訊資料25'而重建基於場景之音訊資料21'。
圖2為說明可執行本發明中描述之技術的各種態樣之系統的另一實例之圖。圖2之系統110可表示圖1之實例中展示的系統10之一個實例。如圖2之實例中所展示,系統110包括源裝置112及積儲裝置114,其中源裝置112可表示內容創建者系統12之實例,且積儲裝置114可表示內容消費者14及/或音訊播放系統16之實例。
儘管關於源裝置112及積儲裝置114描述,但源裝置112在一些情況下可用作積儲裝置,且積儲裝置114在此等及其他情況下可用作源裝置。因而,圖2中所展示之系統110的實例僅僅為說明本發明中描述之技術的各種態樣之一個實例。
在任何情況下,如上文所提及,源裝置112可表示能夠實施本發明中描述之技術之任何形式的計算裝置,包括手機(或蜂巢式電話,包括所謂的「智慧型電話」)、平板電腦、所謂的智慧型電話、遠端駕駛飛機(諸如所謂的「無人機」)、機器人、桌上型電腦、接收器(諸如音訊/視覺-AV-接收器)、機上盒、電視(包括所謂的「智慧型電視」)、媒體播放器(諸如數位視訊光碟播放器、串流式傳輸媒體播放器、Blue-Ray Disc™播放器等),或能夠經由個人區域網路(PAN)將音訊資料無線地傳達至積儲裝置之任何其他裝置。出於說明的目的,假設源裝置112表示智慧型電話。
積儲裝置114可表示能夠實施本發明中描述之技術的任何形式的計算裝置,包括手機(或換言之,蜂巢式電話、行動電話、行動手機等)、平板電腦、智慧型電話、桌上型電腦、無線耳機(其可包括:無線頭戴式耳機,其包括或不包括麥克風;及所謂的智慧型無線頭戴式耳機,其包括額外功能,諸如健康監測、機載音樂儲存及/或播放、專用蜂巢式能力等)、無線揚聲器(包括所謂的「智慧型揚聲器」)、手錶(包括所謂的「智慧型手錶」),或能夠基於經由PAN無線地傳達之音訊資料再生音場的任何其他裝置。又,出於說明的目的,假設積儲裝置114表示無線頭戴式耳機。
如圖2之實例中所展示,源裝置112包括一或多個應用程式(「app」) 118A至118N (「app 118」)、混合單元120、音訊編碼器122 (其包括空間音訊編碼裝置-SAED-124及心理聲學音訊編碼裝置-PAED-126),及無線連接管理器128。儘管圖2之實例中未展示,但源裝置112可包括支援app 118之操作的多個其他元件,包括作業系統、各種硬體及/或軟體介面(諸如使用者介面,包括圖形使用者介面)、一或多個處理器、記憶體、儲存裝置等等。
app 118中之每一者表示軟體(諸如一批儲存至非暫時性電腦可讀媒體之指令),其對系統110進行組態以在由源裝置112之一或多個處理器執行時提供某一功能性。例如,app 118可提供發訊息功能性(諸如存取電子郵件、本文發訊息及/或視訊發訊息)、話音呼叫功能性、視訊會議功能性、行事曆功能性、音訊串流式傳輸功能性、方向功能性、映射功能性、遊戲功能性。app 118可為:由同一公司設計且開發的第一方應用程式,該公司設計並出售由源裝置112執行(並且常常預先安裝在源裝置112上)的作業系統;或第三方應用程式,其可經由所謂的「app商店」存取或可能預先安裝在源裝置112上。app 118中之每一者在被執行時可分別輸出音訊資料119A至119N (「音訊資料119」)。
在一些實例中,音訊資料119可自連接至源裝置112之麥克風(未經描繪,但類似於圖1之實例中展示的麥克風5)產生。音訊資料119可包括類似於上文關於圖1的實例所論述的立體混響音訊資料21之立體混響係數,其中此類立體混響音訊資料可被稱作「基於場景之音訊資料」。因而,音訊資料119亦可被稱作「基於場景之音訊資料119」或「立體混響音訊資料119」。
儘管關於立體混響音訊資料描述,但該等技術可針對立體混響音訊資料執行,該立體混響音訊資料不一定包括對應於所謂的「高階」球面基底函數(例如具有大於一之階數之球面基底函數)的係數。因此,可關於包括僅對應於零階球面基底函數或零階及一階球面基底函數之係數的立體混響音訊資料執行技術。
混合單元120表示經組態以混合app 118輸出之音訊資料119 (及由作業系統輸出之其他音訊資料,諸如警報或其他音調,包括鍵盤按鍵音、鈴聲等)中之一或多者以產生經混合音訊資料121的單元。音訊混合可指多個聲音(如音訊資料119中所闡述)藉以組合成一或多個聲道之程序。在混合期間,混合單元120亦可操縱及/或增強立體混響音訊資料119的音量位準(其亦可被稱作「增益位準」)、頻率內容及/或全景位置。在經由無線PAN會話串流式傳輸立體混響音訊資料119之上下文中,混合單元120可將經混合音訊資料121輸出至音訊編碼器122。
音訊編碼器122可類似(若不實質上類似)於上文在圖1的實例中所描述的音訊編碼器22。亦即,音訊編碼器122可表示經組態以對經混合音訊資料121進行編碼且藉此獲得呈位元串流131之形式的經編碼音訊資料之單元。在一些實例中,音訊編碼器122可對音訊資料119中之個別音訊資料進行編碼。
出於說明的目的,參考PAN協定之一個實例,Bluetooth®提供多個不同類型的音訊編解碼器(其為由組合詞語「編碼」及「解碼」產生之詞語)並且可擴展以包括供應商特定的音訊編解碼器。Bluetooth®的進階音訊分發設定檔(A2DP)指示用於A2DP之支援需要支援A2DP中指定之次頻帶編解碼器。A2DP亦支援MPEG-1部分3 (MP2)、MPEG-2部分3 (MP3)、MPEG-2部分7 (進階音訊寫碼-AAC)、MPEG-4部分3 (高效率-AAC-HE-AAC)及自適應性變換聲學寫碼(ATRAC)中所闡述之編解碼器。此外,如上文所提及,Bluetooth®之A2DP支援供應商特定的編解碼器,諸如aptX™及aptX之各種其他版本(例如增強式aptX-E-aptX、aptX實時及aptX高清晰度-aptX-HD)。
音訊編碼器122可與上文所列舉之音訊編解碼器以及上文未列舉之音訊編解碼器中任一者中之一或多者一致地操作,但該音訊編碼器操作以對經混合音訊資料121進行編碼以獲得經編碼音訊資料131 (其為指代位元串流131之另一方式)。音訊編碼器122可首先調用SAED 124,該SAED 124可類似(若不實質上類似)於圖1的實例中展示之SAED 24。SAED 124可執行關於經混合音訊資料之以上所提及之空間音訊壓縮以獲得ATF音訊資料125 (其可類似(若不實質上類似)於圖1的實例中展示之ATF音訊資料25)。SAED 124可將ATF音訊資料25輸出至PAED 126。
PAED 126可類似於(若不實質上類似)圖1的實例中展示之PAED 26。PAED 126根據以上編解碼器(包括AptX及其變化)中之任一者執行心理聲學音訊編碼以獲得位元串流131。音訊編碼器122可將經編碼音訊資料131輸出至由無線連接管理器128管理之無線通信單元130 (例如無線通信單元130A)中之一者。
無線連接管理器128可表示經組態以將可用的頻譜之某些頻率內之頻寬分配至無線通信單元130中之不同的無線通信單元之單元。舉例而言,Bluetooth®通信協定在頻譜之2.5 GHz範圍內操作,該頻譜之2.5 GHz範圍與各種WLAN通信協定使用之頻譜的範圍重疊。無線連接管理器128可在給定時間期間將頻寬之某一部分分配至Bluetooth®協定且在不同時間期間將頻寬之不同部分分配至重疊的WLAN協定。頻寬及其他頻寬之分配由方案129限定。無線連接管理器128可曝露各種應用程式員介面(API),藉由其調整頻寬之分配及通信協定之其他態樣以便實現指定的服務品質(QoS)。亦即,無線連接管理器128可提供API以調整方案129,藉由該方案來控制無線通信單元130之操作以實現指定的QoS。
換言之,無線連接管理器128可管理在相同頻譜(諸如如上文所論述的某些WLAN通信協定及一些PAN協定)內操作之多個無線通信單元130的共存。無線連接管理器128可包括共存方案129 (圖2中展示為「方案129」),其指示無線通信單元130中之每一者何時可發送(例如時間間隔)及可發送多少封包、經發送封包之大小等等。
無線通信單元130可各自表示無線通信單元130,其根據一或多個通信協定操作以經由傳輸聲道將位元串流131傳達至積儲裝置114。在圖2的實例中,出於說明的目的,假設無線通信單元130A根據通信協定之Bluetooth®套件來操作。進一步假設,無線通信單元130A根據A2DP操作以建立PAN鏈路(經由傳輸聲道)以允許位元串流131自源裝置112至積儲裝置114之遞送。儘管關於PAN鏈路描述,但該等技術的各種態樣可針對任何類型的有線或無線連接來實施,該等有線或無線連接包括蜂巢式連接(諸如所謂的3G、4G及/或5G蜂巢式資料服務)、WiFi™等等。
更多關於通信協定之Bluetooth®套件的資訊可見於名為「藍芽核心規範v 5.0」之文件中,該文件在2016年12月6日公開並且可在www . bluetooth . org / en - us / specification / adopted - specifications
處獲得。更多關於A2DP之資訊可見於名為「高階音訊分發設定檔規範」版本1.3.1之文件中,該文件在2015年7月14日公開。
無線通信單元130A可經由傳輸聲道將位元串流131輸出至積儲裝置114,假設該傳輸聲道為藍芽之實例中之無線聲道。雖然圖2中展示為直接傳輸至積儲裝置114,但源裝置112可將位元串流131輸出至定位於源裝置112與積儲裝置114之間的中間裝置。中間裝置可儲存位元串流131以用於稍後遞送至積儲裝置14,該積儲裝置可請求位元串流131。中間裝置可包含檔案伺服器、網頁伺服器、桌上型電腦、膝上型電腦、平板電腦、行動電話、智慧型電話,或能夠儲存位元串流131以供音訊解碼器稍後擷取之任何其他裝置。此中間裝置可駐留在能夠將位元串流131 (且可能與傳輸對應的視訊資料位元串流相結合)串流式傳輸至請求位元串流131之用戶(諸如積儲裝置114)的內容傳送網路中。
替代地,源裝置112可將位元串流131儲存至儲存媒體,諸如緊密光碟、數位視訊光碟、高清晰度視訊光碟或其他儲存媒體,其中之大多數能夠由電腦讀取且因此可被稱作電腦可讀儲存媒體或非暫時性電腦可讀儲存媒體。在此上下文中,傳輸聲道可指藉以傳輸儲存至此等媒體之內容的彼等聲道(且可包括零售商店及其他基於商店之遞送機構)。在任何情況下,本發明之技術因此就此而言不應限於圖2之實例。
如在圖2的實例中進一步所展示,積儲裝置114包括以下各者中之一或多者:無線連接管理器150,其根據方案151管理無線通信單元152A至152N (「無線通信單元152」),音訊解碼器132 (包括心理聲學音訊解碼裝置(PADD)134及空間音訊解碼裝置(SADD)136),及一或多個揚聲器140A至140N (「揚聲器140」,其可類似於圖1的實例中展示之揚聲器40)。無線連接管理器150可以類似於上文關於無線連接管理器128所描述的方式之方式操作,從而曝露API以調整方案151,無線通信單元152藉由該方案來實現指定的QoS。
無線通信單元152可與無線通信單元130類似地操作,不同之處在於無線通信單元152與無線通信單元130對等地操作以經由傳輸聲道接收位元串流131。假設無線通信單元152 (例如無線通信單元152A)中之一者根據通信協定之Bluetooth®套件並且與無線通信協定對等地操作。無線通信單元152A可將位元串流131輸出至音訊解碼器132。
音訊解碼器132可以與音訊編碼器122對等之方式操作。音訊解碼器132可根據上文所列舉之音訊編解碼器以及上文未列舉之音訊編解碼器中之任一者中之一或多者操作,但該音訊解碼器操作以對經編碼音訊資料131進行解碼以獲得經混合音訊資料121'。再次,關於「經混合音訊資料121」之標以加撇符號標示可存在由於量化或在音訊編碼器122之編碼期間進行的其他有損操作造成的一些損失。
音訊解碼器132可調用PADD 134以執行關於位元串流131之心理聲學音訊解碼以獲得ATF音訊資料125',PADD 134可將該ATF音訊資料輸出至SADD 136。SADD 136可執行空間音訊解碼以獲得經混合音訊資料121'。儘管為了易於說明,未在圖2之實例中展示呈現器(類似於圖1之呈現器38),但音訊解碼器132可將經混合音訊資料121'呈現至揚聲器饋送(使用呈現器中之任一者,諸如上文關於圖1的實例所論述之呈現器38)並將揚聲器饋送輸出至揚聲器140中之一或多者。
揚聲器140中之每一者表示經組態以自揚聲器饋送再現音場之轉換器。轉換器可整合於如圖2的實例中所展示之積儲裝置114內或可通信耦合至積儲裝置114 (經由線或無線地)。揚聲器140可表示任何形式的揚聲器,諸如揚聲器、頭戴式耳機揚聲器或耳塞中之揚聲器。此外,儘管關於轉換器描述,但揚聲器140可表示其他形式之揚聲器,諸如骨傳導頭戴式耳機中之「揚聲器」,該等骨傳導頭戴式耳機將振動發送至上鄂,從而在人類聽覺系統中產生聲音。
如上文所描述,PAED 126可執行關於PAED 26之上文所描述的量化技術的各種態樣以基於用於空間分量之前景音訊信號相關位元分配來量化空間分量。PADD 134亦可執行關於PADD 34之上文所描述的量化技術之各種態樣,以基於用於空間分量之前景音訊信號相關位元分配來對經量化空間分量進行反量化。針對圖3A至圖3C之實例提供更多關於PAED 126之資訊,同時針對圖4A及圖4B之實例提供更多關於PADD 134之資訊。
圖3A至圖3C為各自較詳細地說明圖1及圖2之實例中展示的心理聲學音訊編碼裝置之實例之方塊圖。首先參考圖3A的實例,心理聲學音訊編碼器226A可表示PAED 26及/或PAED 126的一個實例。PAED 226A可自AFT編碼器224接收傳送聲道225A至225N (其中ATF編碼器可表示指代空間音訊編碼裝置24之另一方式)。ATF編碼器224可如上文關於空間音訊編碼裝置24所描述執行關於立體混響係數221 (其可表示立體混響係數21之實例)之空間音訊編碼。
PAED 226A之CU 46A (其可表示圖1中展示的CU 46的一個實例)可獲得傳送聲道225,其中傳送聲道225A至225D可指定背景分量(並且因而可被稱作背景傳送聲道225),且傳送聲道225E至225H可指定前景音訊信號(並且因而可被稱作前景傳送聲道225)。如圖3A的實例中所展示,CU 46A可包括背景(BG)關聯單元228A、前景(FG)關聯單元228B、BG重定序單元230A,及FG重定序單元230B。
BG關聯單元228A可表示經組態以執行關於背景傳送聲道225之關聯之單元。如圖3A之實例中所展示,BG關聯單元228A可執行僅關於背景傳送聲道225之關聯以獲得BG關聯值229A (其可被稱作BG關聯矩陣229A)。因而,BG關聯單元228A可單獨地執行關於背景傳送聲道225之關聯以獲得複數個關聯背景傳送聲道225,其中關聯背景傳送聲道225經由BG關聯矩陣229A「關聯」。BG關聯單元228A可將關聯背景傳送聲道225及關聯矩陣輸出至BG重定序單元230A。
BG重定序單元230A可表示經組態以基於BG關聯矩陣229A而重定序關聯背景傳送聲道225以獲得經重定序背景傳送聲道231A至231D (「經重定序背景傳送聲道231」)之單元。如上文所提及,BG重定序單元230可重定序關聯背景傳送聲道225以根據關聯矩陣229A中所闡述之若干對關聯背景傳送聲道225之間的最高關聯值使若干對關聯背景傳送聲道225匹配。
因而,BG重定序單元230A可單獨地僅重定序關聯背景傳送聲道225以獲得經重定序背景傳送聲道231。BG重定序單元230A可將BG重定序後設資料235A輸出至位元串流產生器256,其中BG重定序後設資料235A可表示經重定序背景傳送聲道231經重定序之方式之指示。BG重定序單元230A可將經重定序背景傳送聲道231輸出至立體聲編碼器250。
FG關聯單元228B可類似於BG關聯單元228A操作,除了關於前景傳送聲道225之外。以此方式,FG關聯單元228B可單獨地執行關於前景傳送聲道225之關聯以獲得關聯矩陣229B,從而將關聯背景傳送聲道及關聯矩陣229B輸出至FG重定序單元230B。換言之,FG關聯單元228B可執行僅關於前景傳送聲道225之關聯以獲得關聯矩陣229B。FG關聯單元228A可將關聯前景傳送聲道225輸出至FG重定序單元230B。
FG重定序單元230B可類似於BG重定序單元230A操作以基於FG關聯矩陣229B而重定序關聯前景傳送聲道225且藉此獲得經重定序前景傳送聲道231。FG重定序單元230B可重定序關聯前景傳送聲道225以根據FG關聯矩陣229B中所闡述之若干對關聯前景傳送聲道225之間的最高關聯值來使若干對關聯前景傳送聲道225匹配。
因而,FG重定序單元230B可單獨地僅重定序關聯前景傳送聲道225以獲得經重定序前景傳送聲道231。FG重定序單元230B可將BG重定序後設資料235B輸出至位元串流產生器256,其中BG重定序後設資料235B可表示經重定序前景傳送聲道231經重定序之方式之指示。FG重定序單元230B可將經重定序前景傳送聲道231輸出至立體聲編碼器250。
PAED 226A可調用立體聲編碼器250A至250N (「立體聲編碼器250」)之例項,其可根據上文所提及之立體聲壓縮演算法中之任一者來執行心理聲學音訊編碼。立體聲編碼器250可各自處理兩個傳送聲道以產生子位元串流233A至233N (「子位元串流233」)。
為了壓縮傳送聲道,立體聲編碼器250可執行關於經重定序背景及前景傳送聲道231的中之每一者的形狀及增益分析以獲得表示傳送聲道231之形狀及增益。立體聲編碼器250亦可自若干對傳送聲道231中之第二傳送聲道預測若干對傳送聲道231中之第一傳送聲道,從而自表示第二傳送聲道之增益及形狀預測表示第一傳送聲道之增益及形狀以獲得殘差。
在執行用於增益之單獨預測之前,立體聲編碼器250可首先執行關於第二傳送聲道之增益的量化以獲得粗略經量化增益及一或多個精細經量化殘差。另外,立體聲編碼器250可在執行用於形狀的單獨預測之前執行關於第二傳送聲道之形狀的量化(例如向量量化)以獲得經量化形狀。立體聲編碼器250接著可使用來自第二傳送聲道之經量化粗略及精細能量及經量化形狀以預測來自第一傳送聲道之經量化粗略及精細能量以及經量化形狀來自第二傳送聲道預測第一傳送聲道。
PAED 226A可進一步包括位元串流產生器256,其可接收子位元串流233、BG重定序後設資料235A及FG重定序後設資料235B。位元串流產生器256可表示經組態以在位元串流231中指定子位元串流233、BG重定序後設資料235A及FG重定序後設資料235B之單元。位元串流231可表示上文所論述之位元串流31的實例。
在圖3B的實例中,PAED 226B類似於PAED 226A,其例外之處在於PAED 226B包括CU 46B,其中經組合關聯單元228C執行關於所有傳送聲道225之關聯以獲得經組合關聯矩陣229C。就此而言,經組合關聯單元228C可執行關於至少一個背景傳送聲道225及至少一個前景傳送聲道225之關聯。經組合關聯單元228C可將經組合關聯矩陣229C及關聯傳送聲道225輸出至經組合重定序單元230C。
此外,PAED 226B與PAED 226A之不同之處在於經組合重定序單元230C可基於經組合關聯矩陣229C而重定序關聯傳送聲道225以獲得經重定序傳送聲道231 (其可包括背景分量及前景音訊信號兩者或其某一表示)。經組合關聯單元230C可判定重定序後設資料235C,其可指示所有傳送聲道225經重定序之方式。經組合關聯矩陣229C可將經重定序傳送聲道231輸出至立體聲解碼器且將重定序後設資料235C輸出至位元串流產生器256,兩者均如上文所描述起作用以產生位元串流231。
在圖3C的實例中,PAED 226C類似於PAED 226A,其例外之處在於存在奇數個聲道使得無法針對經重定序傳送聲道231 (亦即,圖3C之實例中之經重定序傳送聲道231G)中之一者執行立體聲編碼。因而,PAED 226C可調用單聲道編碼器260之例項,其可執行關於經重定序傳送聲道231G之單聲道心理聲學音訊編碼,如關於圖7至圖10較詳細地論述。
圖4A及圖4B為各自較詳細地說明圖1及圖2之實例中展示的心理聲學音訊解碼裝置之實例之方塊圖。首先參考圖4A的實例,PADD 334A可表示PADD 34及/或PADD 134的實例。PADD 334A可包括位元串流提取器338、立體聲解碼器340A至340N (「立體聲解碼器340」)及RU 54。
位元串流提取器338可表示經組態以自位元串流231解析子位元串流233、重定序後設資料235 (其可指代上文所論述之重定序後設資料235A至235C中之任一者)及ATF後設資料339之單元。位元串流提取器338可將子位元串流233中之每一者輸出至立體聲解碼器340之單獨的例項。位元串流提取器338亦可將重定序後設資料235輸出至RU 54。
立體聲解碼器340中之每一者可基於子位元串流233中所闡述之經量化增益及經量化形狀而重建該對經重定序傳送聲道231'中之第二傳送聲道。立體聲解碼器340中之每一者接著可自子位元串流233獲得表示該對經重定序傳送聲道231'中之第一傳送聲道的殘差。立體聲解碼器340可將殘差添加至第二傳送聲道以自第二傳送聲道(例如關聯傳送聲道231B')獲得第一關聯傳送聲道(例如關聯傳送聲道231A')。立體聲解碼器340可將經重定序傳送聲道231'輸出至RU 54。
RU 54可基於重定序後設資料235而重定序經重定序傳送聲道231'。在一些實例中,當BG重定序後設資料235A及FG重定序後設資料235B存在於重定序後設資料235中時,RU 54可基於BG重定序後設資料235A而單獨地重定序經重定序背景傳送聲道231',同時亦基於FG重定序後設資料235B而單獨地重定序經重定序前景傳送聲道231'。在其他實例中,複數個經重定序分量包括與前景音訊信號關聯之背景分量,且RU 54可基於共同重定序後設資料235C而重定序指定背景分量及前景音訊信號之經重定序傳送聲道231'的混合。RU 54可將經重定序傳送聲道225' (其亦可被稱作ATF音訊資料225')輸出至ATF解碼器336。
ATF解碼器336 (其可類似(若不實質上類似)於SADD 36及/或SADD 136而執行操作)可接收傳送聲道225'及ATF後設資料339,並且執行關於傳送聲道225'及由ATF後設資料339界定之空間分量的空間音訊解碼以獲得基於場景之音訊資料221'。基於場景之音訊資料221'可表示基於場景之音訊資料21'及/或基於場景之音訊資料121'的實例。
在圖4B的實例中,PADD 334B類似於PADD 334A,其例外之處在於存在奇數個聲道使得無法針對子位元串流233中之一者(亦即,圖4B之實例中之子位元串流233D)執行立體聲解碼。因而,PADD 334B可調用單聲道編碼器360之例項,其可執行關於子位元串流233D之單聲道心理聲學音訊編碼,如關於圖7至圖10較詳細地論述。
圖5為較詳細地說明圖3A至圖3C之實例中展示的編碼器之實例之方塊圖。編碼器550經展示為多聲道編碼器,並且表示圖3A及圖3B之實例中展示之立體聲編碼器250的實例(其中立體聲編碼器250可包括僅兩個聲道,而編碼器550已經一般化以支援N個聲道)。
如圖5的實例中所展示,編碼器包括增益/形狀分析單元552A至552N (「增益/形狀分析單元552」)、能量量化單元556A至556N (「能量量化單元556」)、位準差單元558A至558N (「位準差單元558」)、變換單元562A至562N (「變換單元562」)及向量量化器564。增益/形狀分析單元552中之每一者可如下文關於以下在圖7及/或圖9中描述之增益形狀分析單元所描述來操作以執行關於傳送聲道551中之每一者之增益形狀分析以獲得增益553A至553N (「增益553」)及形狀555A至555N (「形狀555」)。
能量量化單元556可如下文關於圖7及/或圖9之能量量化器所描述來操作以量化增益553且藉此獲得經量化增益557A至557N (「經量化增益557」)。位準差單元558可各自表示經組態以比較一對增益553以判定該對增益553之間的差之單元。在此實例中,位準差單元558可比較參考增益553A與剩餘的增益553中之每一者以獲得增益差559A至559M (「增益差559」)。編碼器550可在位元串流中指定經量化參考增益557A及增益差559。
變換單元562可執行次頻帶分析(如下文較詳細地論述)並且將變換(諸如KLT,其係指卡忽南-拉維(Karhunen-Loeve)變換)應用於形狀555之次頻帶以輸出經變換形狀563A至563N (「經變換形狀563」)。向量量化器564可執行關於經變換形狀563之向量量化以獲得殘差ID 565A至565N (「殘差ID 565」),從而在位元串流中指定殘差ID 565。
編碼器550亦可基於經分配至經量化增益557及增益差559之位元之數目而判定經組合位元分配560。經組合位元分配560可表示上文較詳細地論述之位元分配251的一個實例。
圖6為較詳細地說明圖4A及圖4B之解碼器的實例之方塊圖。解碼器634經展示為多聲道解碼器,並且表示圖4A及圖4B之實例中展示的立體聲解碼器340之實例(其中立體聲解碼器340可包括僅兩個聲道,而解碼器634已經一般化以支援N個聲道)。
如圖6的實例中所展示,解碼器634包括位準組合單元636A至636N (「位準組合單元636」)、向量量化器638、能量反量化單元640A至640N (「能量反量化單元640」)、逆變換單元642A至642N (「變換單元642」)及增益/形狀合成單元646A至646N (「增益/形狀合成單元552」)。位準組合單元636可各自表示經組態以將經量化參考增益553A與增益差559中之每一者組合以判定經量化增益557之單元。
能量反量化單元640可如下文關於圖8及/或圖10的能量反量化器所描述來操作以反量化經量化增益557且藉此獲得增益553'。編碼器550可在ATF音訊資料中指定經量化參考增益557A及增益差559。
向量反量化器638可執行關於殘差ID 565之向量量化以獲得經變換形狀563'。變換單元562可對經變換形狀563執行應用逆變換(諸如逆KLT)並且執行次頻帶合成(如下文較詳細地所論述)以輸出形狀555'。
增益/形狀合成單元552中之每一者可如下文關於增益形狀分析單元(關於圖7及/或圖9之實例所論述)所描述來操作以執行關於增益553'及形狀555'中之每一者的增益形狀合成以獲得傳送聲道551'。增益/形狀合成單元646可將傳送聲道551'輸出至ATF音訊資料。
編碼器550亦可基於經分配至經量化增益557及增益差559之位元之數目而判定經組合位元分配560。經組合位元分配560可表示上文較詳細地論述之位元分配251的一個實例。
圖7為說明經組態以執行本發明中描述之技術的各種態樣之圖3A至圖3C的心理聲學音訊編碼器之實例的方塊圖。音訊編碼器1000A可表示PAED 126之一個實例,該PAED可經組態以對音訊資料進行編碼以經由個人區域網路或「PAN」(例如Bluetooth®)進行傳輸。然而,藉由音訊編碼器1000A執行之本發明之技術可用於需要音訊資料之壓縮的任何上下文中。在一些實例中,音訊編碼器1000A可經組態以根據包括例如增強式aptX-E-aptX、aptX實時及aptX高清晰度之aptX™音訊編解碼器對音訊資料17進行編碼。
在圖7的實例中,音訊編碼器1000A可經組態以使用增益形狀向量量化編碼程序對音訊資料25進行編碼,該增益形狀向量量化編碼程序包括使用緊密映射對殘差向量進行寫碼。在增益形狀向量量化編碼程序中,音訊編碼器1000A經組態以對頻域音訊資料之次頻帶的增益(例如能量位準)及形狀(例如由變換係數界定之殘差向量)兩者進行編碼。頻域音訊資料之每一次頻帶表示音訊資料25之特定訊框的特定頻率範圍。
音訊資料25可以特定取樣頻率經取樣。實例取樣頻率可包括48 kHz或44.1 kHZ,但可使用任何所需取樣頻率。音訊資料25之每一數位樣品可由特定輸入位元深度界定,例如,16位元或24位元。在一個實例中,音訊編碼器1000A可經組態以在音訊資料21 (例如單音訊)之單個聲道上操作。在另一實例中,音訊編碼器1000A可經組態以獨立地對音訊資料25之兩個或多於兩個聲道進行編碼。舉例而言,音訊資料17可包括用於立體聲音訊之左聲道及右聲道。在此實例中,音訊編碼器1000A可經組態以在雙單聲道模式中獨立地對左及右音訊聲道進行編碼。在其他實例中,音訊編碼器1000A可經組態以對音訊資料25之兩個或多於兩個聲道一起進行編碼(例如在聯合立體聲模式中)。舉例而言,音訊編碼器1000A可藉由用音訊資料25之另一聲道預測音訊資料25之一個聲道來執行某些壓縮操作。
不管音訊資料25之聲道之配置如何,音訊編碼器1000A獲得音訊資料25並且將彼音訊資料25發送至變換單元1100。變換單元1100經組態以將音訊資料25之訊框自時域變換至頻域以產生頻域音訊資料1112。音訊資料25之訊框可由音訊資料之預定數目個樣品表示。在一個實例中,音訊資料25之訊框可為1024個樣品寬。可基於正使用的頻率變換及所需壓縮量來選擇不同訊框寬度。頻域音訊資料1112可經表示為變換係數,其中每一該等變換係數之值表示頻域音訊資料1112在特定頻率下之能量。
在一個實例中,變換單元1100可經組態以使用修改型離散餘弦變換(MDCT)將音訊資料25變換成頻域音訊資料1112。MDCT為基於IV型離散餘弦變換之「重疊」變換。MDCT被視為「重疊」,此係由於其對來自多個訊框之資料起作用。亦即,為了使用MDCT執行變換,變換單元1100可將百分之五十的重疊窗口包括在音訊資料之後續訊框中。MDCT之重疊性質可能適用於資料壓縮技術,諸如音訊編碼,此係由於其可減小訊框邊界處的來自寫碼之假影。變換單元1100不必限於使用MDCT而是可將其他頻域變換技術用於將音訊資料17變換成頻域音訊資料1112。
次頻帶濾波器1102將頻域音訊資料1112分離成次頻帶1114。次頻帶1114中之每一者包括在特定頻率範圍中之頻域音訊資料1112的變換係數。舉例而言,次頻帶濾波器1102可將頻域音訊資料1112分離成二十個不同次頻帶。在一些實例中,次頻帶濾波器1102可經組態以將頻域音訊資料1112分離成均勻頻率範圍的次頻帶1114。在其他實例中,次頻帶濾波器1102可經組態以將頻域音訊資料1112分離成不均勻頻率範圍之次頻帶1114。
舉例而言,次頻帶濾波器1102可經組態以根據巴克(Bark)尺度將頻域音訊資料1112分離成次頻帶1114。一般而言,巴克尺度之次頻帶具有在感知上相等距離之頻率範圍。亦即,巴克尺度之次頻帶就頻率範圍而言並不相等,而實際上,就人類聽覺感受而言相等。一般而言,較低頻率下之次頻帶將具有較少變換係數,因為較低頻率更易於由人類聽覺系統感知。因而,與較高頻率次頻帶相比較,次頻帶1114之較低頻率次頻帶中之頻域音訊資料1112藉由音訊編碼器1000A更少地壓縮。同樣地,次頻帶1114之較高頻率次頻帶可包括較多變換係數,因為較高頻率更難以藉由人類聽覺系統感知。因此,與較低頻率次頻帶相比較,次頻帶1114之較高頻率子頻帶中之資料的頻域音訊1112可藉由音訊編碼器1000A更多地壓縮。
音訊編碼器1000A可經組態以使用次頻帶處理單元1128處理次頻帶1114中之每一者。亦即,次頻帶處理單元1128可經組態以單獨地處理次頻帶中之每一者。次頻帶處理單元1128可經組態以根據本發明之技術運用擴展範圍粗略-精細量化來執行增益形狀向量量化程序。
增益形狀分析單元1104可接收次頻帶1114作為輸入。對於次頻帶1114中之每一者,增益形狀分析單元1104可判定次頻帶1114中之每一者的能量位準1116。亦即,次頻帶1114中之每一者具有相關聯能量位準1116。能量位準1116為以分貝(dB)為單位之純量值,其表示次頻帶1114中之特定次頻帶的變換係數之能量之總量(亦被稱作增益)。增益形狀分析單元1104可自次頻帶之變換係數分離次頻帶1114中之一者的能量位準1116以產生殘差向量1118。殘差向量1118表示次頻帶之所謂的「形狀」。次頻帶之形狀亦可被稱作次頻帶之頻譜。
向量量化器1108可經組態以量化殘差向量1118。在一個實例中,向量量化器1108可使用量化程序量化殘差向量以產生殘差ID 1124。代替單獨地量化每一樣品(例如純量量化),向量量化器1108可經組態以量化包括於殘差向量1118 (例如形狀向量)中之樣品的區塊。任何向量量化技術方法可連同擴展範圍粗略-精細能量量化程序一起使用。
在一些實例中,音訊編碼器1000A可動態地分配位元以用於對能量位準1116及殘差向量1118進行寫碼。亦即,對於次頻帶1114中之每一者,音訊編碼器1000A可判定經分配用於能量量化(例如藉由能量量化器1106)之位元之數目及經分配用於向量量化(例如藉由向量量化器1108)之位元之數目。經分配用於能量量化之位元之總數目可被稱作能量指派位元。此等能量指派位元接著可在粗略量化程序與精細量化程序之間經分配。
能量量化器1106可接收次頻帶1114之能量位準1116及將次頻帶1114之能量位準1116量化成粗略能量1120及精細能量1122 (其可表示一或多個經量化精細殘差)。本發明將針對一個次頻帶描述量化程序,但應理解,能量量化器1106可對次頻帶1114中之一或多者執行能量量化,該等次頻帶包括次頻帶1114中之每一者。
一般而言,能量量化器1106可執行遞歸兩步量化程序。能量量化器1106可首先運用第一數目的位元來量化能量位準1116以用於粗略量化程序以產生粗略能量1120。能量量化器1106可使用用於量化之預定範圍(例如由最大及最小能量位準界定之範圍)的能量位準來產生粗略能量。粗略能量1120接近能量位準1116之值。
能量量化器1106接著可判定粗略能量1120與能量位準1116之間的差。此差有時被稱作量化誤差。能量量化器1106接著可使用第二數目個位元在精細量化程序中量化量化誤差以產生精細能量1122。藉由能量指派位元之總數目減去用於粗略量化程序之位元的數目來判定用於精細量化位元之位元的數目。當一起相加時,粗略能量1120及精細能量1122表示能量位準1116之總經量化值。能量量化器1106可以此方式繼續產生一或多個精細能量1122。
音訊編碼器1000A可進一步經組態以使用位元串流編碼器1110對粗略能量1120、精細能量1122及殘差ID 1124進行編碼以產生經編碼音訊資料31 (其為指代位元串流31之另一方式)。位元串流編碼器1110可經組態以使用一或多個熵編碼程序進一步壓縮粗略能量1120、精細能量1122及殘差ID 1124。熵編碼程序可包括霍夫曼(Huffman)寫碼、算術寫碼、上下文自適應性二進位算術寫碼(CABAC)及其他類似編碼技術。
在本發明之一個實例中,藉由能量量化器1106執行之量化為均勻量化。亦即,每一量化的步長(亦被稱作「解析度」)為相等的。在一些實例中,步長可以分貝(dB)為單位。用於粗略的量化及精細量化之步長可分別根據用於量化之能量值之預定範圍及經分配用於量化之位元之數目來判定。在一個實例中,能量量化器1106針對粗略量化(例如,以產生粗略能量1120)及精細量化(例如,以產生精細能量1122)兩者執行均勻量化。
執行兩步、均勻量化程序等效於執行單一均勻量化程序。然而,藉由將均勻量化分成兩個部分,分配至粗略量化及精細量化之位元可獨立地受控制。此可允許橫越能量及向量量化之位元的分配中之較大靈活性且可改良壓縮效率。考慮M位準均勻量化器,其中M界定能量位準可劃分成的位準的數目(例如,以dB為單位)。M可藉由經分配用於量化之位元之數目判定。舉例而言,能量量化器1106可將M1位準用於粗略量化且將M2位準用於精細量化。此等效於使用M1*M2位準之單個均勻量化器。
圖8為較詳細地說明圖4A及圖4B之心理聲學音訊解碼器的實施之方塊圖。音訊解碼器1002A可表示解碼器510之一個實例,該解碼器可經組態以對經由PAN (例如Bluetooth®)接收之音訊資料進行解碼。然而,藉由音訊解碼器1002A執行之本發明之技術可用於需要音訊資料之壓縮的任何上下文中。在一些實例中,音訊解碼器1002A可經組態以根據包括例如增強式aptX-E-aptX、aptX實時及aptX高清晰度之aptX™音訊編解碼器對音訊資料21進行解碼。然而,本發明之技術可用於經組態以執行音訊資料之量化的任何音訊編解碼器中。根據本發明之技術,音訊解碼器1002A可經組態以使用緊密映射執行量化程序之各種態樣。
一般而言,音訊解碼器1002A可相對於音訊編碼器1000A以對等之方式操作。因而,在音訊解碼器1002A中可使用在編碼器中用於品質/位元率可縮放協作PVQ之相同程序。解碼係基於相同原則,其中在解碼器中進行操作的反向操作,使得音訊資料可自自編碼器接收到的經編碼位元串流重建。每一量化器具有相關聯的反量化器對應物。舉例而言,如圖8中所展示,逆變換單元1100'、逆次頻帶濾波器1102'、增益形狀合成單元1104'、能量反量化器1106'、向量反量化器1108'及位元串流解碼器1110'可分別經組態以執行關於圖7的變換單元1100、次頻帶濾波器1102、增益形狀分析單元1104、能量量化器1106、向量量化器1108及位元串流編碼器1110之反向操作。
詳言之,增益形狀合成單元1104'重建頻域音訊資料,其具有經重建殘差向量連同經重建能量位準。逆次頻帶濾波器1102'及逆變換單元1100'輸出經重建音訊資料25'。在編碼係無損之實例中,經重建音訊資料25'可完全匹配音訊資料25。在編碼係有損之實例中,經重建音訊資料25'可能並不完全匹配音訊資料25。
圖9A及圖9B為較詳細地說明圖3A至圖3C之實例中展示之心理聲學音訊編碼器的額外實例之方塊圖。首先參考圖9A的實例,音訊編碼器1000B可經組態以對音訊資料進行編碼以供經由PAN (例如Bluetooth®)傳輸。然而,再次,藉由音訊編碼器1000B執行之本發明之技術可用於需要音訊資料之壓縮的任何上下文中。在一些實例中,音訊編碼器1000B可經組態以根據包括例如增強式aptX-E-aptX、aptX實時及aptX高清晰度之aptX™音訊編解碼器對音訊資料25進行編碼。然而,本發明之技術可用於任何音訊編解碼器中。如將在下文較詳細地解釋,音訊編碼器1000B可經組態以根據本發明中描述之技術的各種態樣執行感知音訊寫碼之各種態樣。
在圖9A的實例中,音訊編碼器1000B可經組態以使用增益形狀向量量化編碼程序對音訊資料25進行編碼。在增益形狀向量量化編碼程序中,音訊編碼器1000B經組態以對頻域音訊資料之次頻帶的增益(例如能量位準)及形狀(例如由變換係數界定之殘差向量)兩者進行編碼。頻域音訊資料之每一次頻帶表示音訊資料25之特定訊框的特定頻率範圍。一般而言,貫穿本發明,術語「次頻帶」表示頻率範圍、頻帶等等
音訊編碼器1000B調用變換單元1100以處理音訊資料25。變換單元1100經組態以藉由至少部分地將變換應用於音訊資料25之訊框來處理音訊資料25且藉此將音訊資料25自時域變換至頻域以產生頻域音訊資料1112。
音訊資料25之訊框可由音訊資料之預定數目個樣品表示。在一個實例中,音訊資料25之訊框可為1024個樣品寬。可基於正使用的頻率變換及所需壓縮量來選擇不同訊框寬度。頻域音訊資料1112可經表示為變換係數,其中每一該等變換係數之值表示頻域音訊資料1112在特定頻率下之能量。
在一個實例中,變換單元1100可經組態以使用修改型離散餘弦變換(MDCT)將音訊資料25變換成頻域音訊資料1112。MDCT為基於IV型離散餘弦變換之「重疊」變換。MDCT被視為「重疊」,此係由於其對來自多個訊框之資料起作用。亦即,為了使用MDCT執行變換,變換單元1100可將百分之五十的重疊窗口包括在音訊資料之後續訊框中。MDCT之重疊性質可能適用於資料壓縮技術,諸如音訊編碼,此係由於其可減小訊框邊界處的來自寫碼之假影。變換單元1100不必限於使用MDCT而是可將其他頻域變換技術用於將音訊資料25變換成頻域音訊資料1112。
次頻帶濾波器1102將頻域音訊資料1112分離成次頻帶1114。次頻帶1114中之每一者包括在特定頻率範圍中之頻域音訊資料1112的變換係數。舉例而言,次頻帶濾波器1102可將頻域音訊資料1112分離成二十個不同次頻帶。在一些實例中,次頻帶濾波器1102可經組態以將頻域音訊資料1112分離成均勻頻率範圍的次頻帶1114。在其他實例中,次頻帶濾波器1102可經組態以將頻域音訊資料1112分離成不均勻頻率範圍之次頻帶1114。
舉例而言,次頻帶濾波器1102可經組態以根據巴克(Bark)尺度將頻域音訊資料1112分離成次頻帶1114。一般而言,巴克尺度之次頻帶具有在感知上相等距離之頻率範圍。亦即,巴克尺度之次頻帶就頻率範圍而言並不相等,而實際上,就人類聽覺感受而言相等。一般而言,較低頻率下之次頻帶將具有較少變換係數,因為較低頻率更易於由人類聽覺系統感知。
因而,與較高頻率次頻帶相比較,次頻帶1114之較低頻率次頻帶中之頻域音訊資料1112藉由音訊編碼器1000B更少地壓縮。同樣地,次頻帶1114之較高頻率次頻帶可包括較多變換係數,因為較高頻率更難以藉由人類聽覺系統感知。因而,與較低頻率次頻帶相比較,次頻帶1114之較高頻率次頻帶中之資料的頻域音訊1112可藉由音訊編碼器1000B更多地壓縮。
音訊編碼器1000B可經組態以使用次頻帶處理單元1128處理次頻帶1114中之每一者,亦即,次頻帶處理單元1128可經組態以單獨地處理次頻帶中之每一者。次頻帶處理單元1128可經組態以執行增益形狀向量量化程序。
增益形狀分析單元1104可接收次頻帶1114作為輸入。對於次頻帶1114中之每一者,增益形狀分析單元1104可判定次頻帶1114中之每一者的能量位準1116。亦即,次頻帶1114中之每一者具有相關聯能量位準1116。能量位準1116為以分貝(dB)為單位之純量值,其表示次頻帶1114中之特定次頻帶的變換係數之能量之總量(亦被稱作增益)。增益形狀分析單元1104可自次頻帶之變換係數分離次頻帶1114中之一者的能量位準1116以產生殘差向量1118。殘差向量1118表示次頻帶之所謂的「形狀」。次頻帶之形狀亦可被稱作次頻帶之頻譜。
向量量化器1108可經組態以量化殘差向量1118。在一個實例中,向量量化器1108可使用量化程序量化殘差向量以產生殘差ID 1124。代替單獨地量化每一樣品(例如純量量化),向量量化器1108可經組態以量化包括於殘差向量1118 (例如形狀向量)中之樣品的區塊。
在一些實例中,音訊編碼器1000B可動態地分配位元以用於對能量位準1116及殘差向量1118進行寫碼。亦即,對於次頻帶1114中之每一者,音訊編碼器1000B可判定經分配用於能量量化(例如藉由能量量化器1106)之位元之數目及經分配用於向量量化(例如藉由向量量化器1108)之位元之數目。經分配用於能量量化之位元之總數目可被稱作能量指派位元。此等能量指派位元接著可在粗略量化程序與精細量化程序之間經分配。
能量量化器1106可接收次頻帶1114之能量位準1116並且將次頻帶1114之能量位準1116量化成粗略能量1120及精細能量1122。本發明將針對一個次頻帶描述量化程序,但應理解,能量量化器1106可對次頻帶1114中之一或多者執行能量量化,包括次頻帶1114中之每一者。
如圖9A的實例中所展示,能量量化器1106可包括預測/差(「P/D」)單元1130、粗略量化(「CQ」)單元1132、求和單元1134及精細量化(「FQ」)單元1136。P/D單元1130可針對音訊資料之相同訊框的次頻帶1114中之一者及次頻帶1114中之另一者(其可指代空間-頻域中-預測)或來自不同訊框之次頻帶1114中之相同次頻帶(或可能不同的次頻帶) (其可被稱作時間預測)來預測或以其他方式識別能量位準1116之間的差。P/D單元1130可以此方式分析能量位準1116以獲得用於次頻帶1114中之每一者的經預測能量位準1131 (「PEL 1131」)。P/D單元1130可將經預測能量位準1131輸出至粗略量化單元1132。
粗略量化單元1132可表示經組態以執行關於經預測能量位準1131之粗略量化以獲得粗略能量1120之單元。粗略量化單元1132可將粗略能量1120輸出至位元串流編碼器1110及求和單元1134。求和單元1134可表示經組態以獲得粗略量化單元1134及經預測能量位準1131之差的單元。求和單元1134可將作為誤差1135 (其亦可被稱作「殘差1135」)之差輸出至精細量化單元1135。
精細量化單元1132可表示經組態以執行關於誤差1135之精細量化的單元。精細量化可經視為相對於藉由粗略量化單元1132執行之粗略量化為「精細」。亦即,精細量化單元1132可根據比當執行粗略量化時使用之步長具有更高解析度之步長進行量化,藉此進一步量化誤差1135。精細量化單元1136可由於執行關於誤差1135之精細量化而獲得用於次頻帶1122中之每一者之精細能量1122。精細量化單元1136可將精細能量1122輸出至位元串流編碼器1110。
一般而言,能量量化器1106可執行多步驟量化程序。能量量化器1106可首先運用第一數目的位元來量化能量位準1116以用於粗略量化程序以產生粗略能量1120。能量量化器1106可使用用於量化之預定範圍(例如由最大及最小能量位準界定之範圍)的能量位準來產生粗略能量。粗略能量1120接近能量位準1116之值。
能量量化器1106接著可判定粗略能量1120與能量位準1116之間的差。此差有時被稱作量化誤差(或殘差)。能量量化器1106接著可使用第二數目個位元在精細量化程序中量化量化誤差以產生精細能量1122。藉由能量指派位元之總數目減去用於粗略量化程序之位元的數目來判定用於精細量化位元之位元的數目。當一起相加時,粗略能量1120及精細能量1122表示能量位準1116之總經量化值。
音訊編碼器1000B可進一步經組態以使用位元串流編碼器1110對粗略能量1120、精細能量1122及殘差ID 1124進行編碼以產生經編碼音訊資料21。位元串流編碼器1110可經組態以使用以上所提及之熵編碼程序中之一或多者來進一步壓縮粗略能量1120、精細能量1122及殘差ID 1124。
能量量化器1106 (及/或其組件,諸如精細量化單元1136)可根據本發明的態樣實施階層式速率控制機構以提供較大程度的可縮放性並且實現無縫或實質上無縫即時串流式傳輸。舉例而言,精細量化單元1136可根據本發明之態樣實施階層式精細量化方案。在一些實例中,精細量化單元1136調用多工器(或「MUX」) 1137以實施階層式速率控制的選擇操作。
術語「粗略量化」係指上文所描述的兩步驟粗略精細量化程序之經組合操作。根據本發明的各種態樣,精細量化單元1136可執行關於自求和單元1134接收到之誤差1135的精細量化之一或多個額外反覆。精細量化單元1136可使用多工器1137以在各種(較)精細能量位準之間切換並且橫穿該等能量位準。
階層式速率控制可指代以樹為基礎之精細量化結構或級聯的精細量化結構。當被視為以樹為基礎之結構時,現有的兩步驟量化操作形成樹之根節點,且根節點經描述為具有解析度深度一(1)。取決於根據本發明之技術之另一精細量化之位元的可用性,多工器1137可選擇精細粒度級量化的額外位準。藉由多工器1137選擇的任何此類後續精細量化位準表示關於以樹為基礎之結構的解析度深度二(2)、三(3)等等,該以樹為基礎之結構表示本發明之多位準精細量化技術。
精細量化單元1136可在無線PAN中提供關於無縫即時串流式傳輸情境之經改良可縮放性及控制。舉例而言,精細量化單元1136可在較高位準階層下複製階層式精細量化方案及量化多工樹,該階層式精細量化方案及量化多工樹接種於更一般決策樹的粗略量化點點處。此外,精細量化單元1136可使得音訊編碼器1000B能夠實現無縫或實質上無縫即時壓縮及串流式傳輸導航。舉例而言,精細量化單元1136可執行關於多位準精細量化之多根階層式決策結構,藉此使得能量量化器1106能夠利用全部可用的位元以實施精細量化的可能若干反覆。
精細量化單元1136可以多種方式實施階層式速率控制程序。精細量化單元1136可基於每次頻帶調用多工器1137以針對關於次頻帶1114中之每一者之誤差1135資訊獨立地進行多工(且藉此選擇各別以樹為基礎之量化方案)。亦即,在此等實例中,精細量化單元1136獨立於用於次頻帶1114中之任何其他次頻帶之量化機構選擇而執行用於每一各別次頻帶1114之基於多工之階層式量化機構選擇。在此等實例中,精細量化單元1136根據僅關於各別次頻帶1114指定之目標位元率來量化次頻帶1114中之每一者。在此等實例中,音訊編碼器1000B可用信號發送用於次頻帶1114中之每一者之特定階層式量化方案的細節作為經編碼音訊資料21之部分。
在其他實例中,精細量化單元1136可調用多工器1137僅一次且藉此選擇用於關於所有次頻帶1114之誤差1135資訊的單個基於多工之量化方案。亦即,在此等實例中,精細量化單元1136根據相同目標位元率量化關於所有次頻帶1114之誤差1135資訊,該資訊經選擇一次且針對所有次頻帶1114經均一地界定。在此等實例中,音訊編碼器1000B可用信號發送橫越所有次頻帶1114應用之單個階層式量化方案的細節作為經編碼音訊資料21之部分。
接下來參考圖9B之實例,音訊編碼器1000C可表示圖1及圖2之實例中展示的心理聲學音訊編碼裝置26及/或126的另一實例。音訊編碼器1000C類似於圖9A的實例中展示之音訊編碼器1000B,其例外之處在於音訊編碼器1000C包括可執行增益合成分析或任何其他類型的分析以輸出位準1149及殘差1151之通用分析單元1148、量化控制器單元1150、通用量化器1156及認知/感知/聽覺/心理聲學(CPHP)量化器1160。
通用分析單元1148可接收次頻帶1114且執行任何類型的分析以產生位準1149及殘差1151。通用分析單元1148可將位準1149輸出至量化控制器單元1150且將殘差1151輸出至CPHP量化器1160。
量化控制器單元1150可接收位準1149。如圖9B的實例中所展示,量化控制器單元1150可包括階層式規範單元1152及規範控制(SC)管理器單元1154。量化控制器單元1150回應於接收位準1149可調用階層式規範單元1152,該階層式規範單元可執行自上向下或自下向上階層式規範。圖11為說明自上而下量化之實例的圖。圖12為說明自下而上量化之實例的圖。亦即,階層式規範單元1152可基於訊框在粗略量化與精細量化之間來回切換以使得再量化機構能夠使任何給定量化較粗糙或較精細。
自粗略狀態至較精細狀態,該過渡可藉由再量化先前的量化誤差而發生。替代地,可進行量化使得相鄰量化點在一起分組為單個量化點(自精細狀態移動至粗略狀態)。此類實施可使用依序資料結構,諸如連結清單或較豐富的結構,諸如樹或圖。因而,階層式規範單元1152可判定是否自精細量化切換至粗略量化或自粗略量化切換至精細量化,從而將階層式空間1153 (其為用於當前訊框之量化點的集合)提供至SC管理器單元1154。階層式規範單元1152可基於用於執行以上指定之精細或粗略量化之任何資訊(例如時間或空間優先級資訊)判定是否在較精細量化與粗略量化之間切換。
SC管理器單元1154可接收階層式空間1153並且產生規範後設資料1155,從而將階層式空間1153之指示1159連同規範後設資料1155傳遞至位元串流編碼器1110。SC管理器單元1154亦可將階層式規範1159輸出至量化器1156,該量化器可根據階層式空間1159執行關於位準1149之量化以獲得經量化位準1157。量化器1156可將經量化位準1157輸出至位元串流編碼器1110,該位元串流編碼器可如上文所描述進行操作以形成經編碼音訊資料31。
CPHP量化器1160可執行關於殘差1151之認知、感知、聽覺、心理聲學編碼中之一或多者以獲得殘差ID 1161。CPHP量化器1160可將殘差ID 1161輸出至位元串流編碼器1110,該位元串流編碼器可如上文所描述進行操作以形成經編碼音訊資料31。
圖10A及圖10B為較詳細地說明圖4A及圖4B之心理聲學音訊解碼器的額外實例之方塊圖。在圖10A的實例中,音訊解碼器1002B表示圖3A之實例中展示的AptX解碼器510之另一實例。音訊解碼器1002B包括提取單元1232、次頻帶重建單元1234及重建單元1236。提取單元1232可表示經組態以自經編碼音訊資料31提取粗略能量1120、精細能量1122及殘差ID 1124的單元。提取單元1232可基於能量位元分配1203提取粗略能量1120、精細能量1122及殘差ID 1124中之一或多者。提取單元1232可將粗略能量1120、精細能量1122及殘差ID 1124輸出至次頻帶重建單元1234。
次頻帶重建單元1234可表示經組態成以一方式操作使得與圖9A的實例中展示之音訊編碼器1000B的次頻帶處理單元1128之操作對等的單元。換言之,次頻帶重建單元1234可自粗略能量1120、精細能量1122及殘差ID 1124重建次頻帶。次頻帶重建單元1234可包括能量反量化器1238、向量反量化器1240及次頻帶合成器1242。
能量反量化器1238可表示經組態成以與藉由圖9A中所說明之能量量化器1106執行之量化對等的方式執行反量化的單元。能量反量化器1238可執行關於粗略能量1122及精細能量1122之反量化以獲得經預測/差能量位準,能量反量化器1238可執行逆預測或差計算以獲得能量位準1116。能量反量化器1238可將能量位準1116輸出至次頻帶合成器1242。
若經編碼音訊資料31包括設定為指示精細能量1122經分層地量化的值之語法元素,則能量反量化器1238可分層地反量化精細能量1122。在一些實例中,經編碼音訊資料31可包括指示經分層量化之精細能量1122是否使用橫越所有次頻帶1114之相同階層式量化結構形成或各別階層式量化結構是否關於次頻帶1114中之每一者個別地經判定之語法元素。基於語法元素之值,能量反量化器1238可橫越所有次頻帶1114應用如由精細能量1122表示之相同階層式反量化結構,或可當反量化精細能量1122時基於每一次頻帶更新階層式反量化結構。
向量反量化器1240可表示經組態成以與藉由向量量化器1108執行之向量量化對等之方式執行向量反量化之單元。向量反量化器1240可執行關於殘差ID 1124之向量反量化以獲得殘差向量1118。向量反量化器1240可將殘差向量1118輸出至次頻帶合成器1242。
次頻帶合成器1242可表示經組態成以與增益形狀分析單元1104對等之方式操作之單元。因而,次頻帶合成器1242可執行關於能量位準1116及殘差向量1118之逆增益形狀分析以獲得次頻帶1114。次頻帶合成器1242可將次頻帶1114輸出至重建單元1236。
重建單元1236可表示經組態以基於次頻帶1114重建音訊資料25'之單元。換言之,重建單元1236可以與藉由次頻帶濾波器1102應用之次頻帶濾波對等之方式執行逆次頻帶濾波以獲得頻域音訊資料1112。重建單元1236接下來可以與藉由變換單元1100應用之變換對等之方式執行逆變換以獲得音訊資料25'。
接下來參考圖10B的實例,音訊解碼器1002C可表示圖1及/或圖2之實例中展示之心理聲學音訊解碼裝置34及/或134之一個實例。此外,音訊解碼器1002C可類似於音訊解碼器1002B,其例外之處在於音訊解碼器1002C可包括抽象控制管理器1250、階層式抽象單元1252、反量化器1254以及CPHP反量化器1256。
抽象控制管理器1250及階層式抽象單元1252可形成控制反量化器1254之操作的反量化器控制器1249,其與量化器控制器1150對等地操作。因而,抽象控制管理器1250可與SC管理器單元1154對等地操作,接收後設資料1155及階層式規範1159。抽象控制管理器1250處理後設資料1155及階層式規範1159以獲得階層式空間1153,該抽象控制管理器1250將該階層式空間輸出至階層式抽象單元1252。階層式抽象單元1252可與階層式規範單元1152對等地操作,藉此處理階層式空間1153以將階層式空間1153之指示1159輸出至反量化器1254。
反量化器1254可與量化器1156對等地操作,其中反量化器1254可使用階層式空間1153之指示1159反量化經量化位準1157以獲得經反量化位準1149。反量化器1254可將經反量化位準1149輸出至次頻帶合成器1242。
提取單元1232可將殘差ID 1161輸出至CPHP反量化器1256,該反量化器可與CPHP量化器1160對等地操作。CPHP反量化器1256可處理殘差ID 1161以反量化殘差ID 1161並且獲得殘差1161。CPHP反量化器1256可將殘差輸出至次頻帶合成器1242,該次頻帶合成器可處理殘差1151及經反量化位準1254以輸出次頻帶1114。重建單元1236可如上文所描述進行操作以藉由應用關於次頻帶1114之逆次頻帶濾波器且接著將逆變換應用於逆次頻帶濾波器之輸出來將次頻帶1114轉換成音訊資料25'。
圖13為說明圖2之實例中展示之源裝置的實例組件之方塊圖。在圖13的實例中,源裝置112包括處理器412、圖形處理單元(GPU) 414、系統記憶體416、顯示處理器418、一或多個整合式揚聲器140、顯示器103、使用者介面420、天線421及收發器模組422。在源裝置112為行動裝置之實例中,顯示處理器418為行動顯示處理器(MDP)。在一些實例中,諸如源裝置112為行動裝置之實例,處理器412、GPU 414及顯示處理器418可形成為積體電路(IC)。
舉例而言,IC可視為晶片封裝內之處理晶片,且可為系統單晶片(SoC)。在一些實例中,處理器412、GPU 414及顯示處理器418中之兩者可共同容納在相同的IC中且其他容納在不同的積體電路(亦即,不同的晶片封裝)中或所有三個均可容納於不同的IC中或在相同的IC上。然而,在源裝置12為行動裝置之實例中,處理器412、GPU 414及顯示處理器418可能均容納於不同的積體電路中。
處理器412、GPU 414及顯示處理器418之實例包括但不限於一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA),或其他等效的整合式或離散邏輯電路。處理器412可為源裝置12之中央處理單元(CPU)。在一些實例中,GPU 414可為包括整合式及/或離散邏輯電路之專用硬體,該專用硬體向GPU 414提供適用於圖形處理之大規模並行處理能力。在一些情況下,GPU 414亦可包括通用處理能力,且在實施通用處理任務(亦即,非圖形相關任務)時可被稱作通用GPU (GPGPU)。顯示處理器418亦可為專用積體電路硬體,其設計成自系統記憶體416擷取影像內容,將影像內容合成為影像訊框且將影像訊框輸出至顯示器103。
處理器412可執行各種類型之應用程式20。應用程式20之實例包括網頁瀏覽器、電子郵件應用程式、電子試算表、視訊遊戲、產生用於顯示器之可觀測對象的其他應用程式,或上述更詳細地列舉的應用程式類型中之任一者。系統記憶體416可儲存用於執行應用程式20的指令。處理器412上應用程式20中之一者的執行使得處理器412產生待顯示之影像內容的圖形資料及待播放(可能經由整合式揚聲器105)的音訊資料21 。處理器412可將影像內容之圖形資料傳輸至GPU 414以基於處理器412傳輸至GPU 414之指令或命令而進一步處理。
處理器412可根據特定應用程式處理介面(API)與GPU 414通信。此類API之實例包括Microsoft®
之DirectX®
API,Khronos集團之OpenGL®
或OpenGL ES®
以及OpenCLTM
;然而,本發明之態樣不限於DirectX、OpenGL或OpenCL API,且可延伸至其他類型之API。此外,本發明中所描述之技術並不需要根據API起作用,且處理器412及GPU 414可利用用於通信之任何技術。
系統記憶體416可為用於源裝置12之記憶體。系統記憶體416可包含一或多個電腦可讀儲存媒體。系統記憶體416之實例包括但不限於隨機存取記憶體(RAM)、電可抹除可程式化唯讀記憶體(EEPROM)、快閃記憶體,或可用以攜載或儲存呈指令及/或資料結構之形式的所要程式碼並可由電腦或處理器存取的其他媒體。
在一些實例中,系統記憶體416可包括使處理器412、GPU 414及/或顯示處理器418執行在發明中歸屬處理器412、GPU 414及/或顯示處理器418之功能的指令。因此,系統記憶體416可為電腦可讀儲存媒體,其上儲存有指令,該等指令在被執行時使一或多個處理器(例如處理器412、GPU 414及/或顯示處理器418)執行各種功能。
系統記憶體416可包括非暫時性儲存媒體。術語「非暫時性」指示儲存媒體並不以載波或傳播信號體現。然而,術語「非暫時性」不應解譯成意謂系統記憶體416為非可移動或其內容為靜態。作為一個實例,系統記憶體416可自源裝置12移除並移動至另一裝置。作為另一實例,實質上與系統記憶體416類似之記憶體可插入至源裝置12中。在某些實例中,非暫時性儲存媒體可儲存可隨時間推移改變之資料(例如在RAM中)。
使用者介面420可表示使用者可藉以與源裝置12介接之一或多個硬體或虛擬(意謂硬體與軟體之一組合)使用者介面。使用者介面420可包括實體按鈕、開關、雙態觸發、燈或其虛擬版本。使用者介面420亦可包括實體或虛擬鍵盤、觸控式介面-諸如觸控式螢幕、觸覺回饋及類似者。
處理器412可包括一或多個硬體單元(包括所謂的「處理核心」),其經組態以執行上文關於混合單元120、音訊編碼器122、無線連接管理器128及無線通信單元130中之一或多者所論述的操作中之全部或某一部分。天線421及收發器模組422可表示經組態以在源裝置12與積儲裝置114之間建立並且維持無線連接之單元。天線421及收發器模組422可表示能夠根據一或多個無線通信協定進行無線通信之一或多個接收器及/或一或多個傳輸器。亦即,收發器模組422可表示單獨的傳輸器、單獨的接收器、單獨的傳輸器及單獨的接收器兩者,或組合式傳輸器及接收器。天線421及收發器422可經組態以接收已經根據本發明之技術經編碼之經編碼音訊資料。同樣地,天線421及收發器422可經組態以傳輸已經根據本發明之技術經編碼之經編碼音訊資料。收發器模組422可執行無線連接管理器128及無線通信單元130中之一或多者的操作中之全部或某一部分。
圖14為說明圖2之實例中展示之積儲裝置的例示性組件之方塊圖。儘管積儲裝置114可包括類似於上文關於圖13之實例較詳細地論述之源裝置112的組件之組件,但積儲裝置14在某些情況下可僅包括上文關於源裝置112所論述的組件之子集。
在圖14的實例中,積儲裝置114包括一或多個揚聲器802、處理器812、系統記憶體816、使用者介面820、天線821及收發器模組822。處理器812可類似或實質上類似於處理器812。在一些情況下,處理器812可就總處理能力而言不同於處理器412或可針對低電耗定製。系統記憶體816可類似或實質上類似於系統記憶體416。揚聲器140、使用者介面820、天線821及收發器模組822可類似於或實質上類似於各別揚聲器440、使用者介面420及收發器模組422。積儲裝置114亦可視情況包括顯示器800,但顯示器800可表示藉以傳達有限資訊之低功率、低解析度(可能為黑色及白色LED)顯示器,該顯示器可由處理器812直接驅動。
處理器812可包括一或多個硬體單元(包括所謂的「處理核心」),其經組態以執行上文關於無線連接管理器150、無線通信單元152及音訊解碼器132中之一或多者所論述的操作中之所有或某一部分。天線821及收發器模組822可表示經組態以在源裝置112與積儲裝置114之間建立並且維持無線連接之單元。天線821及收發器模組822可表示能夠根據一或多個無線通信協定進行無線通信之一或多個接收器及一或多個傳輸器。天線821及收發器822可經組態以接收已經根據本發明之技術經編碼之經編碼音訊資料。同樣地,天線821及收發器822可經組態以傳輸已經根據本發明之技術經編碼之經編碼音訊資料。收發器模組822可執行無線連接管理器150及無線通信單元152中之一或多者的操作中之全部或某一部分。
圖15為說明圖1之實例中展示之音訊編碼器在執行本發明中描述之技術之各種態樣時之實例操作之流程圖。音訊編碼器22可調用空間音訊編碼裝置24,其可執行關於基於場景之音訊資料21之空間音訊編碼以獲得複數個背景分量、複數個前景音訊信號及對應複數個空間分量作為ATF音訊資料25 (1300)。空間音訊編碼裝置24可將ATF音訊資料25輸出至心理聲學音訊編碼裝置26。
心理聲學音訊編碼裝置26可接收背景分量及前景音訊信號。如圖1之實例中所展示,心理聲學音訊編碼裝置26可包括關聯單元(CU) 46,其可執行關於複數個背景分量及複數個前景音訊信號中之兩者或更多者的以上所提及之關聯,以獲得複數個關聯分量(1302)。如上文所論述,CU 46可單獨地執行關於背景分量及前景音訊信號之關聯。在其他實例中,如上文所提及,CU 46可執行關於背景分量及前景音訊信號之關聯,其中至少一個背景分量及至少一個前景音訊信號經歷關聯。
CU 46可由於執行關於背景分量及前景音訊信號中之兩者或更多者之關聯而獲得關聯值。CU 46可基於關聯值對背景分量及前景音訊信號重定序。CU 46可將指示重定序傳送聲道之方式之重定序後設資料輸出至空間音訊編碼裝置24,空間音訊編碼裝置24可在包括空間分量之後設資料中指定該重定序後設資料。儘管經描述為在包括空間分量之後設資料中指定重定序後設資料,但心理聲學音訊編碼裝置26可在位元串流31中指定重定序後設資料。
在任何情況下,CU 46可輸出經重定序傳送聲道(其可指定複數個關聯分量),之後心理聲學音訊編碼裝置26可執行關於複數個關聯分量之心理聲學音訊編碼以獲得經編碼分量(1304)。心理聲學音訊編碼裝置26可在位元串流31中指定複數個經編碼分量(1306)。
圖16為說明圖1之實例中展示之音訊解碼器在執行本發明中描述之技術之各種態樣時之實例操作之流程圖。如上文所提及,音訊解碼器32可與音訊編碼器22對等地操作。因而,音訊解碼器32可自位元串流31獲得複數個經編碼關聯分量(1400)。音訊解碼器32可調用心理聲學音訊解碼裝置34,其可執行關於複數個經編碼關聯分量中之一或多者之心理聲學音訊解碼以獲得複數個關聯分量(1401)。
心理聲學音訊解碼裝置34可自位元串流31獲得重定序後設資料,其可表示複數個關聯分量中之一或多者在位元串流31中經重定序之方式之指示(1402)。如圖1的實例中所展示,心理聲學音訊解碼裝置34可包括重定序單元(RU) 54,其表示經組態以基於重定序後設資料對複數個關聯分量重定序以獲得複數個經重定序分量之單元(1404)。心理聲學音訊解碼裝置34可基於複數個經重定序分量而重建ATF音訊資料25' (1406)。空間音訊解碼裝置36接著可基於ATF音訊資料25'而重建基於場景之音訊資料21'。
技術之前述態樣可根據以下條項實現實施。
條項1F:一種裝置,其經組態以對基於場景之音訊資料進行編碼,該裝置包含:一記憶體,其經組態以儲存該基於場景之音訊資料;及一或多個處理器,其經組態以:執行關於該基於場景之音訊資料之空間音訊編碼以獲得由該基於場景之音訊資料表示之一音場的複數個背景分量、複數個前景音訊信號及對應的複數個空間分量,該複數個空間分量中之每一者界定該複數個前景音訊信號中之一對應的前景音訊信號之空間特性;執行關於該複數個背景分量及該複數個前景音訊信號中之兩者或更多者之關聯以獲得複數個關聯分量;執行關於該複數個關聯分量中之一或多者之心理聲學音訊編碼以獲得經編碼分量;及在一位元串流中指定該等經編碼分量。
條項2F:如條項1F之裝置,其中該一或多個處理器經組態以根據一AptX壓縮演算法執行關於該複數個關聯分量中之至少一對之心理聲學音訊編碼。
條項3F:如條項1F及2F之任何組合之裝置,其中該一或多個處理器經組態以執行關於該複數個關聯分量中之至少一對之心理聲學音訊編碼以獲得經編碼分量。
條項4F:如條項1F至3F之任何組合之裝置,其中該一或多個處理器經組態以:單獨地執行關於該複數個背景分量之關聯以獲得該複數個關聯分量之複數個關聯背景分量;及執行關於該複數個背景分量中之至少一對之心理聲學音訊編碼。
條項5F:如條項1F至4F之任何組合之裝置,其中該一或多個處理器經組態以:單獨地執行關於該複數個前景音訊信號之關聯以獲得該複數個關聯分量之複數個關聯前景音訊信號;及執行關於該複數個關聯前景音訊信號中之至少一對之心理聲學音訊編碼。
條項6F:如條項1F至5F之任何組合之裝置,其中該一或多個處理器經組態以執行關於該複數個背景分量中之至少一者及該複數個前景音訊信號中之至少一者之關聯以獲得該複數個關聯分量中之至少一對。
條項7F:如條項1F至6F之任何組合之裝置,其中該一或多個處理器進一步經組態以:基於該關聯在該位元串流中對該複數個背景分量及該複數個前景音訊信號中之一或多者重定序;及在該位元串流中指定表示該複數個背景分量、該複數個前景音訊信號中之一或多者在該位元串流中經重定序之方式之一指示。
條項8F:如條項1F至7F之任何組合之裝置,其中該一或多個處理器經組態以執行關於該基於場景之音訊資料之一線性可逆變換以獲得該複數個前景音訊信號及該對應的複數個空間分量。
條項9F:如條項1F至8F之任何組合之裝置,其中該基於場景之音訊資料包含對應於大於零之一階數之高階立體混響係數。
條項10F:如條項1F至9F之任何組合之裝置,其中該基於場景之音訊資料包含在一球面調和域中界定之音訊資料。
條項11F:如條項1F至10F之任何組合之裝置,其中該複數個前景音訊信號中之每一者包含在該球面調和域中界定之一前景音訊信號,且其中該對應的複數個空間分量中之每一者包含在該球面調和域中界定之一空間分量。
條項12F:一種對基於場景之音訊資料進行編碼之方法,該方法包含:執行關於該基於場景之音訊資料之空間音訊編碼以獲得由該基於場景之音訊資料表示之一音場的複數個背景分量、複數個前景音訊信號及對應的複數個空間分量,該複數個空間分量中之每一者界定該複數個前景音訊信號中之一對應的前景音訊信號之空間特性;執行關於該複數個背景分量及該複數個前景音訊信號中之一或多者之關聯以獲得複數個關聯分量;執行關於該複數個關聯分量中之一或多者之心理聲學音訊編碼以獲得經編碼分量;及在一位元串流中指定該等經編碼分量。
條項13F:如條項12F之方法,其中執行心理聲學音訊編碼包含根據一AptX壓縮演算法執行關於該複數個關聯分量中之至少一對之心理聲學音訊編碼。
條項14F:如條項12F及13F之任何組合之方法,其中執行心理聲學音訊編碼包含執行關於該複數個關聯分量中之至少一對之心理聲學音訊編碼以獲得經編碼分量。
條項15F:如條項12F至14F之任何組合之方法,其中執行關聯包含單獨地執行關於該複數個背景分量之關聯以獲得該複數個關聯分量之複數個關聯背景分量,且其中執行心理聲學音訊編碼包含執行關於該複數個背景分量中之至少一對之心理聲學音訊編碼。
條項16F:如條項12F至15F之任何組合之方法,其中執行關聯包含單獨地執行關於該複數個前景音訊信號之關聯以獲得該複數個關聯分量之複數個關聯前景音訊信號,且其中執行心理聲學音訊編碼包含執行關於該複數個關聯前景音訊信號中之至少一對的心理聲學音訊編碼。
條項17F:如條項12F至16F之任何組合之方法,其中執行關聯包含執行關於該複數個背景分量中之至少一者及該複數個前景音訊信號中之至少一者之關聯以獲得該複數個關聯分量中之至少一對。
條項18F:如條項12F至17F之任何組合之方法,其進一步包含:基於該關聯在該位元串流中對該複數個背景分量及該複數個前景音訊信號中之一或多者重定序;及在該位元串流中指定表示該複數個背景分量、該複數個前景音訊信號中之一或多者在該位元串流中經重定序之方式之一指示。
條項19F:如條項12F至18F之任何組合之方法,其中執行該空間音訊編碼包含執行關於該基於場景之音訊資料之一線性可逆變換以獲得該複數個前景音訊信號及該對應的複數個空間分量。
條項20F:如條項12F至19F之任何組合之方法,其中該基於場景之音訊資料包含對應於大於零之一階數之高階立體混響係數。
條項21F:如條項12F至20F之任何組合之方法,其中該基於場景之音訊資料包含在一球面調和域中界定之音訊資料。
條項22F:如條項12F至21F之任何組合之方法,其中該複數個前景音訊信號中之每一者包含在該球面調和域中界定之一前景音訊信號,且其中該對應的複數個空間分量中之每一者包含在該球面調和域中界定之一空間分量。
條項23F:一種裝置,其經組態以對基於場景之音訊資料進行編碼,該裝置包含:用於執行關於該基於場景之音訊資料之空間音訊編碼以獲得由該基於場景之音訊資料表示之音場的複數個背景分量、複數個前景音訊信號及對應的複數個空間分量之構件,該複數個空間分量中之每一者界定該複數個前景音訊信號中之一對應的前景音訊信號之空間特性;用於執行關於該複數個背景分量及該複數個前景音訊信號中之一或多者之關聯以獲得複數個關聯分量之構件;用於執行關於該複數個關聯分量中之一或多者之心理聲學音訊編碼以獲得經編碼分量之構件;及用於在一位元串流中指定該等經編碼分量之構件。
條項24F:如條項23F之裝置,其中該用於執行心理聲學音訊編碼之構件包含用於根據一AptX壓縮演算法執行關於該複數個關聯分量中之該至少一對之心理聲學音訊編碼之構件。
條項25F:如條項23F及24F之任何組合之裝置,其中該用於執行心理聲學音訊編碼之構件包含用於執行關於該複數個關聯分量中之至少一對之心理聲學音訊編碼以獲得經編碼分量之構件。
條項26F:如條項23F至25F之任何組合之裝置,其中該用於執行關聯之構件包含用於單獨地執行關於該複數個背景分量之關聯以獲得該複數個關聯分量之複數個關聯背景分量之構件,且其中該用於執行心理聲學音訊編碼之構件包含用於執行關於該複數個背景分量中之至少一對之心理聲學音訊編碼之構件。
條項27F:如條項23F至26F之任何組合之裝置,其中該用於執行關聯之構件包含用於單獨地執行關於該複數個前景音訊信號之關聯以獲得該複數個關聯分量之複數個關聯前景音訊信號之構件,且其中該用於執行心理聲學音訊編碼之構件包含用於執行關於該複數個關聯前景音訊信號中之至少一對之心理聲學音訊編碼之構件。
條項28F:如條項23F至27F之任何組合之裝置,其中該用於執行關聯之構件包含用於執行關於該複數個背景分量中之至少一者及該複數個前景音訊信號中之至少一者之關聯以獲得該複數個關聯分量中之至少一對之構件。
條項29F:如條項23F至28F之任何組合之裝置,其進一步包含:用於基於該關聯在該位元串流中對該複數個背景分量及該複數個前景音訊信號中之一或多者重定序之構件;及用於在該位元串流中指定表示該複數個背景分量、該複數個前景音訊信號中之一或多者在該位元串流中經重定序之方式之一指示之構件。
條項30F:如條項23F至29F之任何組合之裝置,其中該用於執行該空間音訊編碼之構件包含用於執行關於該基於場景之音訊資料之一線性可逆變換以獲得該複數個前景音訊信號及該對應的複數個空間分量之構件。
條項31F:如條項23F至30F之任何組合之裝置,其中該基於場景之音訊資料包含對應於大於零之一階數之高階立體混響係數。
條項32F:如條項23F至31F之任何組合之裝置,其中該基於場景之音訊資料包含在一球面調和域中界定之音訊資料。
條項33F:如條項23F至32F之任何組合之裝置,其中該複數個前景音訊信號中之每一者包含在該球面調和域中界定之一前景音訊信號,且其中該對應的複數個空間分量中之每一者包含在該球面調和域中界定之一空間分量。
條項34F:一種非暫時性電腦可讀儲存媒體,其上儲存有指令,該等指令在被執行時使一或多個處理器:執行關於該基於場景之音訊資料之空間音訊編碼以獲得由該基於場景之音訊資料表示之一音場的複數個背景分量、複數個前景音訊信號及對應的複數個空間分量,該複數個空間分量中之每一者界定該複數個前景音訊信號中之一對應的前景音訊信號之空間特性;執行關於該複數個背景分量及該複數個前景音訊信號中之一或多者之關聯以獲得複數個關聯分量;執行關於該複數個關聯分量中之一或多者之心理聲學音訊編碼以獲得經編碼分量;及在一位元串流中指定該等經編碼分量。
條項1G:一種裝置,其經組態以對表示基於場景之音訊資料之一位元串流進行解碼,該裝置包含:一記憶體,其經組態以儲存該位元串流,該位元串流包括由該基於場景之音訊資料表示之一音場的複數個經編碼關聯分量;及一或多個處理器,其經組態以:執行關於該複數個經編碼關聯分量中之一或多者之心理聲學音訊解碼以獲得複數個關聯分量;自該位元串流獲得表示該複數個關聯分量中之一或多者在該位元串流中經重定序之方式之一指示;基於該指示對該複數個關聯分量重定序以獲得複數個經重定序分量;及基於該複數個經重定序分量重建該基於場景之音訊資料。
條項2G:如條項1G之裝置,其中該一或多個處理器經組態以根據一AptX壓縮演算法執行關於該複數個經編碼關聯分量之心理聲學音訊解碼。
條項3G:如條項1G及2G之任何組合之裝置,其中該一或多個處理器經組態以執行關於該複數個經編碼關聯分量中之至少一對之心理聲學音訊解碼以獲得該複數個關聯分量。
條項4G:如條項1G至3G之任何組合之裝置,其中該一或多個處理器經組態以基於該指示單獨地對該複數個關聯分量之複數個關聯背景分量重定序以獲得該複數個經重定序分量之複數個經重定序背景分量。
條項5G:如條項1G至4G之任何組合之裝置,其中該一或多個處理器經組態以基於該指示單獨地對該複數個關聯分量之複數個關聯前景音訊信號重定序以獲得該複數個經重定序分量之複數個經重定序前景音訊信號。
條項6G:如條項1G至5G之任何組合之裝置,其中該複數個關聯分量包括與一前景音訊信號關聯之一背景分量。
條項7G:如條項1G至6G之任何組合之裝置,其中該基於場景之音訊資料包含對應於大於一之一階數之高階立體混響係數。
條項8G:如條項1G至6G之任何組合之裝置,其中該基於場景之音訊資料包含對應於大於零之一階數之高階立體混響係數。
條項9G:如條項1G至6G之任何組合之裝置,其中該基於場景之音訊資料包含在一球面調和域中界定之音訊資料。
條項10G:如條項1G至9G之任何組合之裝置,其中該一或多個處理器進一步經組態以:將該基於場景之音訊資料呈現至一或多個揚聲器饋送,且其中該裝置進一步包含揚聲器,該等揚聲器經組態以基於該等揚聲器饋送再現由該基於場景之音訊資料表示之該音場。
條項11G:一種對表示基於場景之音訊資料之一位元串流進行解碼之方法,該方法包含:自該位元串流獲得複數個經編碼關聯分量;執行關於該複數個經編碼關聯分量中之一或多者之心理聲學音訊解碼以獲得複數個關聯分量;自該位元串流獲得表示該複數個關聯分量中之一或多者在該位元串流中經重定序之方式之一指示;基於該指示對該複數個關聯分量重定序以獲得複數個經重定序分量;及基於該複數個經重定序分量重建該基於場景之音訊資料。
條項12G:如條項11G之方法,其中執行心理聲學音訊解碼包含根據一AptX壓縮演算法執行關於該複數個經編碼關聯分量之心理聲學音訊解碼。
條項13G:如條項11G及12G之任何組合之方法,其中執行心理聲學音訊解碼包含執行關於該複數個經編碼關聯分量中之至少一對之心理聲學音訊解碼以獲得該複數個關聯分量。
條項14G:如條項11G至13G之任何組合之方法,其中對該複數個關聯分量重定序包含基於該指示單獨地對該複數個關聯分量之複數個關聯背景分量重定序以獲得該複數個經重定序分量之複數個經重定序背景分量。
條項15G:如條項11G至14G之任何組合之方法,其中對該複數個關聯分量重定序包含基於該指示單獨地對該複數個關聯分量之複數個關聯前景音訊信號重定序以獲得該複數個經重定序分量之複數個經重定序前景音訊信號。
條項16G:如條項11G至15G之任何組合之方法,其中該複數個關聯分量包括與一前景音訊信號關聯之一背景分量。
條項17G:如條項11G至16G之任何組合之方法,其中該基於場景之音訊資料包含對應於大於一之一階數之高階立體混響係數。
條項18G:如條項11G至16G之任何組合之方法,其中該基於場景之音訊資料包含對應於大於零之一階數之高階立體混響係數。
條項19G:如條項11G至16G之任何組合之方法,其中該基於場景之音訊資料包含在一球面調和域中界定之音訊資料。
條項20G:如條項11G至19G之任何組合之方法,其進一步包含:將該基於場景之音訊資料呈現至一或多個揚聲器饋送;及將該一或多個揚聲器饋送輸出至一或多個揚聲器。
條項21G:一種裝置,其經組態以對表示基於場景之音訊資料之一位元串流進行解碼,該裝置包含:用於自該位元串流獲得複數個經編碼關聯分量之構件;用於執行關於該複數個經編碼關聯分量中之一或多者之心理聲學音訊解碼以獲得複數個關聯分量之構件;用於自該位元串流獲得表示該複數個關聯分量中之一或多者在該位元串流中經重定序之方式之一指示之構件;用於基於該指示對該複數個關聯分量重定序以獲得複數個經重定序分量之構件;及用於基於該複數個經重定序分量重建該基於場景之音訊資料之構件。
條項22G:如條項21G之裝置,其中該用於執行心理聲學音訊解碼之構件包含用於根據一AptX壓縮演算法執行關於該複數個經編碼關聯分量之心理聲學音訊解碼之構件。
條項23G:如條項21G及22G之任何組合之裝置,其中該用於執行心理聲學音訊解碼之構件包含用於執行關於該複數個經編碼關聯分量中之至少一對之心理聲學音訊解碼以獲得該複數個關聯分量之構件。
條項24G:如條項21G至23G之任何組合之裝置,其中該用於對該複數個關聯分量重定序之構件包含用於基於該指示單獨地對該複數個關聯分量之複數個關聯背景分量重定序以獲得該複數個經重定序分量之複數個經重定序背景分量之構件。
條項25G:如條項21G至24G之任何組合之裝置,其中該用於對該複數個關聯分量重定序之構件包含用於基於該指示單獨地對該複數個關聯分量之複數個關聯前景音訊信號重定序以獲得該複數個經重定序分量之複數個經重定序前景音訊信號之構件。
條項26G:如條項21G至25G之任何組合之裝置,其中該複數個關聯分量包括與一前景音訊信號關聯之一背景分量。
條項27G:如條項21G至26G之任何組合之裝置,其中該基於場景之音訊資料包含對應於大於一之一階數之高階立體混響係數。
條項28G:如條項21G至26G之任何組合之裝置,其中該基於場景之音訊資料包含對應於大於零之一階數之高階立體混響係數。
條項29G:如條項21G至26G之任何組合之裝置,其中該基於場景之音訊資料包含在一球面調和域中界定之音訊資料。
條項30G:如條項21G至29G之任何組合之裝置,其進一步包含:用於將該基於場景之音訊資料呈現至一或多個揚聲器饋送之構件;及用於將該一或多個揚聲器饋送輸出至一或多個揚聲器之構件。
條項31G:一種非暫時性電腦可讀儲存媒體,其上儲存有指令,該等指令在被執行時使一或多個處理器:自表示基於場景之音訊資料之一位元串流獲得複數個經編碼關聯分量;執行關於該複數個經編碼關聯分量中之一或多者之心理聲學音訊解碼以獲得複數個關聯分量;自該位元串流獲得表示該複數個關聯分量中之一或多者在該位元串流中經重定序之方式之一指示;基於該指示對該複數個關聯分量重定序以獲得複數個經重定序分量;及基於該複數個經重定序分量重建該基於場景之音訊資料。
在一些內容脈絡(諸如廣播內容脈絡)中,音訊編碼裝置可拆分成空間音訊編碼器(其執行關於立體混響表示之一種形式的中間壓縮,其包括增益控制),及執行感知音訊壓縮以減小增益正規化傳送聲道之間的資料之冗餘的心理聲學音訊編碼器26 (其亦可被稱作「感知音訊編碼器26」)。
另外,先前技術可關於任何數目個不同上下文及音訊生態系統執行且不應受限於上文所描述的上下文或音訊生態系統中之任一者。下文描述多個實例上下文,但該等技術不應限於該等實例上下文。一個實例音訊生態系統可包括音訊內容、電影工作室、音樂工作室、遊戲音訊工作室、基於聲道之音訊內容、寫碼引擎、遊戲音訊主體、遊戲音訊寫碼/呈現引擎,及遞送系統。
電影工作室、音樂工作室及遊戲音訊工作室可接收音訊內容。在一些實例中,音訊內容可表示獲取之輸出。電影工作室可諸如藉由使用數位音訊工作站(DAW)輸出基於聲道之音訊內容(例如,呈2.0、5.1及7.1)。音樂工作室可諸如藉由使用DAW輸出基於聲道之音訊內容(例如,呈2.0及5.1)。在任一狀況下,寫碼引擎可基於一或多個編碼解碼器(例如,AAC、AC3、杜比真HD(Dolby True HD)、杜比數位Plus (Dolby Digital Plus)及DTS主音訊)接收及編碼基於聲道之音訊內容以供遞送系統輸出。遊戲音訊工作室可諸如藉由使用DAW輸出一或多個遊戲音訊主體。遊戲音訊寫碼/呈現引擎可寫碼音訊主體及或將音訊主體呈現為基於聲道之音訊內容以供由遞送系統輸出。可執行該等技術之另一實例上下文包含音訊生態系統,其可包括廣播記錄音訊對象、專業音訊系統、消費型裝置上捕捉、立體混響音訊格式、裝置上呈現、消費型音訊、TV及附件,及汽車音訊系統。
廣播記錄音訊對象、專業音訊系統及消費型裝置上捕捉皆可使用立體混響音訊格式對其輸出進行寫碼。以此方式,可使用立體混響音訊格式將音訊內容寫碼成單一表示,可使用裝置上呈現、消費型音訊、TV及附件及汽車音訊系統播放該單一表示。換言之,可在通用音訊播放系統(亦即,與需要諸如5.1、7.1等之特定組態之情形形成對比) (諸如,音訊播放系統16)處播放音訊內容之單一表示。
可執行該等技術之上下文之其他實例包括音訊生態系統,其可包括獲取元件及播放元件。獲取元件可包括有線及/或無線獲取裝置(例如,Eigen麥克風)、裝置上環繞聲捕捉及行動裝置(例如,智慧型手機及平板電腦)。在一些實例中,有線及/或無線獲取裝置可經由有線及/或無線通信聲道耦接至行動裝置。
根據本發明之一或多個技術,行動裝置可用以獲取音場。舉例而言,行動裝置可經由有線及/或無線獲取裝置及/或裝置上環繞聲捕捉(例如,整合至行動裝置中之複數個麥克風)獲取音場。行動裝置可接著將所獲取音場寫碼成立體混響係數以用於由播放元件中之一或多者播放。舉例而言,行動裝置之使用者可記錄實況事件(例如,集會、會議、播放、音樂會等) (獲取其音場)且將記錄寫碼為立體混響係數。
行動裝置亦可利用播放元件中之一或多者來播放立體混響經寫碼音場。舉例而言,行動裝置可對立體混響經寫碼音場進行解碼,且將使得播放元件中之一或多者重新創建音場之信號輸出至播放元件中之一或多者。作為一個實例,行動裝置可利用無線及/或無線通信通道以將信號輸出至一或多個揚聲器(例如揚聲器陣列、聲棒等)。作為另一實例,行動裝置可利用銜接解決方案將信號輸出至一或多個銜接台及/或一或多個銜接之揚聲器(例如,智慧型汽車及/或家庭中之聲音系統)。作為另一實例,行動裝置可利用頭戴式耳機呈現將信號輸出至一組頭戴式耳機(例如)以創建實際的雙耳聲音。
在一些實例中,特定行動裝置可獲取3D音場並且在稍後時間播放相同的3D音場。在一些實例中,行動裝置可獲取3D音場,將3D音場編碼成立體混響,並且將經編碼3D音場傳輸至一或多個其他裝置(例如其他行動裝置及/或其他非行動裝置)以用於播放。
可執行該等技術之又一上下文包括音訊生態系統,其可包括音訊內容、遊戲工作室、經寫碼音訊內容、呈現引擎及遞送系統。在一些實例中,遊戲工作室可包括可支援立體混響信號之編輯的一或多個DAW。舉例而言,一或多個DAW可包括立體混響外掛程式及/或可經組態以與一或多個遊戲音訊系統一起操作(例如,工作)之工具。在一些實例中,遊戲工作室可輸出支援立體混響之新主體格式。在任何狀況下,遊戲工作室可將經寫碼音訊內容輸出至呈現引擎,該呈現引擎可呈現音場以供由遞送系統播放。
亦可關於例示性音訊獲取裝置執行該等技術。舉例而言,可關於可包括共同地經組態以記錄3D音場之複數個麥克風之Eigen麥克風執行該等技術。在一些實例中,Eigen麥克風之該複數個麥克風可位於具有大約4 cm之半徑的實質上球面球之表面上。在一些實例中,音訊編碼裝置20可整合至Eigen麥克風中以便直接自麥克風輸出位元串流21。
另一例示性音訊獲取上下文可包括可經組態以接收來自一或多個麥克風(諸如,一或多個Eigen麥克風)之信號的製作車。製作車亦可包括音訊編碼器,諸如圖1之空間音訊編碼裝置24。
在一些情況下,行動裝置亦可包括共同地經組態以記錄3D音場之複數個麥克風。換言之,該複數個麥克風可具有X、Y、Z分集。在一些實例中,行動裝置可包括可旋轉以關於行動裝置之一或多個其他麥克風提供X、Y、Z分集之麥克風。行動裝置亦可包括音訊編碼器,諸如圖1的音訊編碼器22。
加固型視訊捕捉裝置可進一步經組態以記錄3D音場。在一些實例中,加固型視訊捕捉裝置可附接至參與活動的使用者之頭盔。舉例而言,加固型視訊捕捉裝置可在使用者泛舟時附接至使用者之頭盔。以此方式,加固型視訊捕捉裝置可捕捉表示使用者周圍之動作(例如,水在使用者身後的撞擊、另一泛舟者在使用者前方說話,等等)的3D音場。
亦可關於可經組態以記錄3D音場之附件增強型行動裝置執行該等技術。在一些實例中,行動裝置可類似於上文所論述之行動裝置,其中添加一或多個附件。舉例而言,Eigen麥克風可附接至上文所提及之行動裝置以形成附件增強型行動裝置。以此方式,與僅使用與附件增強型行動裝置成一體式之聲音捕捉組件之情形相比較,附件增強型行動裝置可捕捉3D音場之較高品質版本。
下文進一步論述可執行本發明中所描述之技術之各種態樣的實例音訊播放裝置。根據本發明之一或多個技術,揚聲器及/或聲棒可配置於任何任意組態中,同時仍播放3D音場。此外,在一些實例中,頭戴式耳機播放裝置可經由有線或無線連接耦接至解碼器32 (其為指代圖1之音訊解碼裝置32的另一方式)。根據本發明之一或多個技術,可利用音場之單一通用表示來在揚聲器、聲棒及頭戴式耳機播放裝置之任何組合上呈現音場。
多個不同實例音訊播放環境亦可適合於執行本發明中所描述之技術之各種態樣。舉例而言,以下環境可為用於執行本發明中所描述之技術之各種態樣的合適環境:5.1揚聲器播放環境、2.0 (例如,立體聲)揚聲器播放環境、具有全高前揚聲器之9.1揚聲器播放環境、22.2揚聲器播放環境、16.0揚聲器播放環境、汽車揚聲器播放環境,及具有耳掛式耳機播放環境之行動裝置。
根據本發明之一或多個技術,可利用音場之單一通用表示來在前述播放環境中之任一者上呈現音場。另外,本發明之技術使得呈現器能夠自通用表示呈現一音場以供在不同於上文所描述之環境之播放環境上播放。舉例而言,若設計考慮禁止揚聲器根據7.1揚聲器播放環境之恰當置放(例如,若不可能置放右環繞揚聲器),則本發明之技術使得呈現器能夠藉由其他6個揚聲器而進行補償,使得可在6.1揚聲器播放環境上達成播放。
此外,使用者可在佩戴頭戴式耳機時觀看運動比賽。根據本發明之一或多個技術,可獲取運動比賽之3D音場(例如,可將一或多個Eigen麥克風置放於棒球場中及/或周圍),可獲得對應於3D音場之立體混響係數且將該等立體混響係數傳輸至解碼器,該解碼器可基於立體混響係數重建3D音場且將經重建之3D音場輸出至呈現器,該呈現器可獲得關於播放環境之類型(例如,頭戴式耳機)之指示,且將經重建之3D音場呈現成使得頭戴式耳機輸出運動比賽之3D音場之表示的信號。
在上文所描述之各種情況中之每一者中,應理解,音訊編碼裝置22可執行一方法或另外包含用以執行音訊編碼裝置22經組態以執行的方法之每一步驟的構件。在一些情況下,構件可包含一或多個處理器。在一些情況下,該一或多個處理器可表示藉助於儲存至非暫時性電腦可讀儲存媒體之指令組態之專用處理器。換言之,編碼實例集合中之每一者中之技術的各種態樣可提供非暫時性電腦可讀儲存媒體,其上儲存有指令,該等指令在執行時使一或多個處理器執行音訊編碼裝置20已經組態以執行之方法。
在一或多個實例中,所描述之功能可以硬體、軟體、韌體或其任何組合來實施。若以軟體實施,則該等功能可作為一或多個指令或程式碼而儲存於電腦可讀媒體上或經由電腦可讀媒體進行傳輸,且藉由基於硬體之處理單元執行。電腦可讀媒體可包括電腦可讀儲存媒體,其對應於諸如資料儲存媒體之有形媒體。資料儲存媒體可為可由一或多個電腦或一或多個處理器存取以擷取指令、程式碼及/或資料結構以用於實施本發明所描述之技術的任何可用媒體。電腦程式產品可包括電腦可讀媒體。
作為實例而非限制,此等電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器或其他磁性儲存裝置、快閃記憶體或可用於儲存呈指令或資料結構形式之所要程式碼且可由電腦存取的任何其他媒體。然而,應理解,電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體,而實情為係關於非暫時性有形儲存媒體。如本文中所使用,磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位多功能光碟(DVD)、軟性磁碟及藍光光碟,其中磁碟通常以磁性方式再現資料,而光碟用雷射以光學方式再現資料。上文之組合亦應包括於電腦可讀媒體之範疇內。
指令可由一或多個處理器執行,諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效的整合或離散邏輯電路。因此,如本文中所使用之術語「處理器」可指前述結構或適用於實施本文中所描述之技術的任何其他結構中之任一者。另外,在一些態樣中,本文中所描述之功能可經提供於經組態以供編碼及解碼或併入於經組合編碼解碼器中之專用硬體及/或軟體模組內。又,該等技術可充分實施於一或多個電路或邏輯元件中。
本發明之技術可實施於多種裝置或設備中,包括無線手機、積體電路(IC)或IC集合(例如晶片集合)。本發明中描述各種組件、模組或單元以強調經組態以執行所揭示之技術之裝置的功能態樣,但未必要求由不同硬體單元來實現。相反地,如上文所描述,各種單元可與合適的軟體及/或韌體一起組合在編解碼器硬體單元中或由一批互操作硬體單元提供,硬體單元包括如上文所描述之一或多個處理器。
此外,如本文中所使用,「A及/或B」」意謂「A或B」,或「A及B」兩者。
已描述該等技術之各種態樣。該等技術之此等及其他態樣在以下申請專利範圍之範疇內。
10:系統
11:立體混響係數
11':立體混響係數
12:內容創建者系統
14:內容消費者
16:音訊播放系統
18:麥克風陣列
20:立體混響轉碼器
21:立體混響係數
21':基於場景之音訊資料
22:音訊編碼器
24:空間音訊編碼裝置
25:中間格式化的音訊資料
25':ATF音訊資料
26:心理聲學音訊編碼裝置
31:位元串流
32:音訊解碼裝置
34:心理聲學音訊解碼裝置
36:空間音訊解碼裝置
38:音訊呈現器
39:揚聲器饋送
40:揚聲器
41:揚聲器資訊
46:關聯單元(CU)
46A:CU
46B:CU
54:重定序單元(RU)
103:顯示器
105:整合式揚聲器
110:系統
112:源裝置
114:儲集器裝置
118:app
118A:應用程式(app)
118N:應用程式(app)
119:音訊資料
119A:音訊資料
119N:音訊資料
120:混合單元
121:經混合音訊資料
121':經混合音訊資料
122:音訊編碼器
124:空間音訊編碼裝置(SAED)
125:ATF音訊資料
125':ATF音訊資料
126:心理聲學音訊編碼裝置(PAED)
128:無線連接管理器
129:方案
130:無線通信單元
130A:無線通信單元
131:位元串流
132:音訊解碼器
134:心理聲學音訊解碼裝置(PADD)
136:空間音訊解碼裝置(SADD)
140:揚聲器
140A:揚聲器
140N:揚聲器
150:無線連接管理器
151:方案
152:無線通信單元
152A:無線通信單元
152N:無線通信單元
221:立體混響係數
221':基於場景之音訊資料
224:AFT編碼器
225:傳送聲道
225':ATF音訊資料
225A:傳送聲道
225B:傳送聲道
225C:傳送聲道
225D:傳送聲道
225E:傳送聲道
225F:傳送聲道
225G:傳送聲道
225H:傳送聲道
225N:傳送聲道
226A:PAED
226B:PAED
228A:背景(BG)關聯單元
228B:前景(FG)關聯單元
228C:經組合關聯單元
229A:BG關聯值
229B:關聯矩陣
229C:經組合關聯矩陣
230A:BG重定序單元
230B:FG重定序單元
230C:經組合重定序單元
231:經重定序背景傳送聲道
231A:經重定序背景傳送聲道
231B:經重定序背景傳送聲道
231C:經重定序背景傳送聲道
231D:經重定序背景傳送聲道
231G:經重定序傳送聲道
231':經重定序傳送聲道
231A':關聯傳送聲道
231B':關聯傳送聲道
233:子位元串流
233A:子位元串流
233B:子位元串流
233C:子位元串流
233D:子位元串流
233N:子位元串流
235:重定序後設資料
235A:BG重定序後設資料
235B:BG重定序後設資料
235C:重定序後設資料
250:立體聲編碼器
250A:立體聲聲編碼器
250B:立體聲聲編碼器
250C:立體聲聲編碼器
250D:立體聲聲編碼器
250N:立體聲聲編碼器
251:位元分配
256:位元串流產生器
260:單聲道編碼器
302:音場表示產生器
334A:PADD
336:ATF解碼器
338:位元串流提取器
339:ATF後設資料
340:立體聲解碼器
340A:立體聲解碼器
340B:立體聲解碼器
340C:立體聲解碼器
340D:立體聲解碼器
340N:立體聲解碼器
360:單聲道編碼器
412:處理器
414:圖形處理單元(GPU)
416:系統記憶體
418:顯示處理器
420:使用者介面
421:天線
422:收發器模組
440:揚聲器
510:AptX解碼器
550:編碼器
551:傳送聲道
551':傳送聲道
552:增益/形狀分析單元
552A:增益/形狀分析單元
552B:增益/形狀分析單元
552N:增益/形狀分析單元
553:增益
553':增益
553A:增益
553B:增益
553N:增益
555:形狀
555':形狀
555A:形狀
555B:形狀
555N:形狀
556:能量量化單元
556A:能量量化單元
556B:能量量化單元
556N:能量量化單元
557:經量化增益
557A:經量化增益
557B:經量化增益
557N:經量化增益
558:位準差單元
558A:位準差單元
558N:位準差單元
559:增益差
559A:增益差
559M:增益差
559N:增益差
560:經組合位元分配
562:變換單元
562A:變換單元
562N:變換單元
563:經變換形狀
563':經變換形狀
563A:經變換形狀
563N:經變換形狀
564:向量量化器
565:殘差ID
565A:殘差ID
565N:殘差ID
634:解碼器
636:位準組合單元
636A:位準組合單元
636N:位準組合單元
638:向量量化器
640:能量反量化單元
640A:能量反量化單元
640B:能量反量化單元
640N:能量反量化單元
642:變換單元
642A:逆變換單元
642B:逆變換單元
642N:逆變換單元
646:增益/形狀合成單元
646A:增益/形狀合成單元
646B:增益/形狀合成單元
646N:增益/形狀合成單元
800:顯示器
802:揚聲器
812:處理器
816:系統記憶體
820:使用者介面
821:天線
822:收發器模組
1000A:音訊編碼器
1000B:音訊編碼器
1000C:音訊編碼器
1002A:音訊解碼器
1002B:音訊解碼器
1002C:音訊解碼器
1100:變換單元
1100':逆變換單元
1102:次頻帶濾波器
1102':逆次頻帶濾波器
1104:增益形狀分析單元
1104':增益形狀合成單元
1106:能量量化器
1106':能量反量化器
1108:向量量化器
1108':向量反量化器
1110:位元串流編碼器
1110':位元串流解碼器
1112:頻域音訊資料
1114:次頻帶
1116:能量位準
1118:殘差向量
1120:粗略能量
1122:精細能量
1124:殘差ID
1128:次頻帶處理單元
1130:預測/差(P/D)單元
1131:經預測能量位準
1132:粗略量化(CQ)單元
1134:求和單元
1135:誤差
1136:精細量化(FQ)單元
1137:多工器(MUX)
1148:通用分析單元
1149:位準
1150:量化控制器單元
1151:殘差
1152:階層式規範單元
1153:階層式空間
1154:SC管理器單元
1155:規範後設資料
1156:通用量化器
1157:經量化位準
1159:指示
1160:認知/感知/聽覺/心理聲學(CPHP)量化器
1161:殘差ID
1203:能量位元分配
1232:提取單元
1234:次頻帶重建單元
1236:重建單元
1238:能量反量化器
1240:向量反量化器
1242:次頻帶合成器
1249:反量化器控制器
1250:抽象控制管理器
1252:階層式抽象單元
1254:反量化器
1256:CPHP反量化器
1300:步驟
1302:步驟
1304:步驟
1306:步驟
1400:步驟
1401:步驟
1402:步驟
1404:步驟
1406:步驟
圖1為說明可執行本發明中所描述之技術的各種態樣之系統的圖。
圖2為說明可執行本發明中描述之技術的各種態樣之系統的另一實例之圖。
圖3A至圖3C為各自較詳細地說明圖1及圖2之實例中展示的心理聲學音訊編碼裝置之實例之方塊圖。
圖4A及圖4B為各自較詳細地說明圖1及圖2之實例中展示的心理聲學音訊解碼裝置之實例之方塊圖。
圖5為較詳細地說明圖3A至圖3C之實例中展示的編碼器之實例之方塊圖。
圖6為較詳細地說明圖4A及圖4B之解碼器的實例之方塊圖。
圖7為較詳細地說明圖3A至圖3C之實例中展示的編碼器之實例之方塊圖。
圖8為較詳細地說明圖4A及圖4B之實例中展示的解碼器之實施之方塊圖。
圖9A及圖9B為較詳細地說明圖3A至圖3C之實例中展示的編碼器之另一實例之方塊圖。
圖10A及圖10B為較詳細地說明圖4A及圖4B之實例中展示的解碼器之另一實例之方塊圖。
圖11為說明自上而下量化之實例的圖。
圖12為說明自下而上量化之實例的圖。
圖13為說明圖2之實例中展示之源裝置的實例組件之方塊圖。
圖14為說明圖2之實例中展示之積儲裝置的例示性組件之方塊圖。
圖15為說明圖1之實例中展示之音訊編碼器在執行本發明中描述之技術之各種態樣時之實例操作之流程圖。
圖16為說明圖1之實例中展示之音訊解碼器在執行本發明中描述之技術之各種態樣時之實例操作之流程圖。
1400:步驟
1401:步驟
1402:步驟
1404:步驟
1406:步驟
Claims (30)
- 一種裝置,其經組態以對基於場景之音訊資料進行編碼,該裝置包含: 一記憶體,其經組態以儲存該基於場景之音訊資料;及 一或多個處理器,其經組態以: 執行關於該基於場景之音訊資料之空間音訊編碼以獲得由該基於場景之音訊資料表示之一音場的複數個背景分量、複數個前景音訊信號及對應的複數個空間分量,該複數個空間分量中之每一者界定該複數個前景音訊信號中之一對應的前景音訊信號之空間特性; 執行關於該複數個背景分量及該複數個前景音訊信號中之兩者或更多者之關聯以獲得複數個關聯分量; 執行關於該複數個關聯分量中之一或多者之心理聲學音訊編碼以獲得經編碼分量;及 在一位元串流中指定該等經編碼分量。
- 如請求項1之裝置,其中該一或多個處理器經組態以根據一壓縮演算法執行關於該複數個關聯分量中之至少一對之心理聲學音訊編碼。
- 如請求項1之裝置,其中該一或多個處理器經組態以執行關於該複數個關聯分量中之至少一對之心理聲學音訊編碼以獲得經編碼分量。
- 如請求項1之裝置,其中該一或多個處理器經組態以: 單獨地執行關於該複數個背景分量之關聯以獲得該複數個關聯分量之複數個關聯背景分量;及 執行關於該複數個背景分量中之至少一對之心理聲學音訊編碼。
- 如請求項1之裝置,其中該一或多個處理器經組態以: 單獨地執行關於該複數個前景音訊信號之關聯以獲得該複數個關聯分量之複數個關聯前景音訊信號;及 執行關於該複數個關聯前景音訊信號中之至少一對之心理聲學音訊編碼。
- 如請求項1之裝置,其中該一或多個處理器經組態以執行關於該複數個背景分量中之至少一者及該複數個前景音訊信號中之至少一者之關聯以獲得該複數個關聯分量中之至少一對。
- 如請求項1之裝置,其中該一或多個處理器進一步經組態以: 基於該關聯在該位元串流中對該複數個背景分量及該複數個前景音訊信號中之一或多者重定序;及 在該位元串流中指定表示該複數個背景分量、該複數個前景音訊信號中之該一或多者在該位元串流中經重定序之方式之一指示。
- 如請求項1之裝置,其中該一或多個處理器經組態以執行關於該基於場景之音訊資料之一線性可逆變換以獲得該複數個前景音訊信號及該對應的複數個空間分量。
- 如請求項1之裝置,其中該基於場景之音訊資料包含對應於大於零之一階數之高階立體混響係數。
- 如請求項1之裝置,其中該基於場景之音訊資料包含在一球面調和域中界定之音訊資料。
- 如請求項1之裝置, 其中該複數個前景音訊信號中之每一者包含在該球面調和域中界定之一前景音訊信號,且 其中該對應的複數個空間分量中之每一者包含在該球面調和域中界定之一空間分量。
- 一種對基於場景之音訊資料進行編碼之方法,該方法包含: 執行關於該基於場景之音訊資料之空間音訊編碼以獲得由該基於場景之音訊資料表示之一音場的複數個背景分量、複數個前景音訊信號及對應的複數個空間分量,該複數個空間分量中之每一者界定該複數個前景音訊信號中之一對應的前景音訊信號之空間特性; 執行關於該複數個背景分量及該複數個前景音訊信號中之一或多者之關聯以獲得複數個關聯分量; 執行關於該複數個關聯分量中之一或多者之心理聲學音訊編碼以獲得經編碼分量;及 在一位元串流中指定該等經編碼分量。
- 一種裝置,其經組態以對表示基於場景之音訊資料之一位元串流進行解碼,該裝置包含: 一記憶體,其經組態以儲存該位元串流,該位元串流包括由該基於場景之音訊資料表示之一音場的複數個經編碼關聯分量;及 一或多個處理器,其經組態以: 執行關於該複數個經編碼關聯分量中之一或多者之心理聲學音訊解碼以獲得複數個關聯分量; 自該位元串流獲得表示該複數個關聯分量中之該一或多者在該位元串流中經重定序之方式之一指示; 基於該指示對該複數個關聯分量重定序以獲得複數個經重定序分量;及 基於該複數個經重定序分量重建該基於場景之音訊資料。
- 如請求項13之裝置,其中該一或多個處理器經組態以根據一解壓縮演算法執行關於該複數個經編碼關聯分量之心理聲學音訊解碼。
- 如請求項13之裝置,其中該一或多個處理器經組態以執行關於該複數個經編碼關聯分量中之至少一對之心理聲學音訊解碼以獲得該複數個關聯分量。
- 如請求項13之裝置,其中該一或多個處理器經組態以基於該指示單獨地對該複數個關聯分量之複數個關聯背景分量重定序以獲得該複數個經重定序分量之複數個經重定序背景分量。
- 如請求項13之裝置,其中該一或多個處理器經組態以基於該指示單獨地對該複數個關聯分量之複數個關聯前景音訊信號重定序以獲得該複數個經重定序分量之複數個經重定序前景音訊信號。
- 如請求項13之裝置,其中該複數個關聯分量包括與一前景音訊信號關聯之一背景分量。
- 如請求項13之裝置,其中該基於場景之音訊資料包含對應於大於一之一階數之高階立體混響係數。
- 如請求項13之裝置,其中該基於場景之音訊資料包含對應於大於零之一階數之高階立體混響係數。
- 如請求項13之裝置,其中該基於場景之音訊資料包含在一球面調和域中界定之音訊資料。
- 如請求項13之裝置, 其中該一或多個處理器進一步經組態以將該基於場景之音訊資料呈現至一或多個揚聲器饋送,且 其中該裝置進一步包含經組態以基於該等揚聲器饋送再現由該基於場景之音訊資料表示之該音場的揚聲器。
- 一種對表示基於場景之音訊資料之一位元串流進行解碼之方法,該方法包含: 自該位元串流獲得複數個經編碼關聯分量; 執行關於該複數個經編碼關聯分量中之一或多者之心理聲學音訊解碼以獲得複數個關聯分量; 自該位元串流獲得表示該複數個關聯分量中之該一或多者在該位元串流中經重定序之方式之一指示; 基於該指示對該複數個關聯分量重定序以獲得複數個經重定序分量;及 基於該複數個經重定序分量重建該基於場景之音訊資料。
- 如請求項23之方法,其中執行心理聲學音訊解碼包含根據一解壓縮演算法執行關於該複數個經編碼關聯分量之心理聲學音訊解碼。
- 如請求項23之方法,其中執行心理聲學音訊解碼包含執行關於該複數個經編碼關聯分量中之至少一對之心理聲學音訊解碼以獲得該複數個關聯分量。
- 如請求項23之方法,其中對該複數個關聯分量重定序包含基於該指示單獨地對該複數個關聯分量之複數個關聯背景分量重定序以獲得該複數個經重定序分量之複數個經重定序背景分量。
- 如請求項23之方法,其中對該複數個關聯分量重定序包含基於該指示單獨地對該複數個關聯分量之複數個關聯前景音訊信號重定序以獲得該複數個經重定序分量之複數個經重定序前景音訊信號。
- 如請求項23之方法,其中該複數個關聯分量包括與一前景音訊信號關聯之一背景分量。
- 如請求項23之方法,其中該基於場景之音訊資料包含對應於大於一之一階數之高階立體混響係數。
- 如請求項23之方法,其中該基於場景之音訊資料包含對應於大於零之一階數之高階立體混響係數。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962865865P | 2019-06-24 | 2019-06-24 | |
US62/865,865 | 2019-06-24 | ||
US16/908,032 | 2020-06-22 | ||
US16/908,032 US11538489B2 (en) | 2019-06-24 | 2020-06-22 | Correlating scene-based audio data for psychoacoustic audio coding |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202107450A true TW202107450A (zh) | 2021-02-16 |
Family
ID=74037932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109121368A TW202107450A (zh) | 2019-06-24 | 2020-06-23 | 用於心理聲學之音訊寫碼的使基於場景的音訊資料關聯 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11538489B2 (zh) |
EP (1) | EP3987514A1 (zh) |
CN (1) | CN114341976A (zh) |
TW (1) | TW202107450A (zh) |
WO (1) | WO2020263851A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11838732B2 (en) | 2021-07-15 | 2023-12-05 | Boomcloud 360 Inc. | Adaptive filterbanks using scale-dependent nonlinearity for psychoacoustic frequency range extension |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11646042B2 (en) * | 2019-10-29 | 2023-05-09 | Agora Lab, Inc. | Digital voice packet loss concealment using deep learning |
CN114786037B (zh) * | 2022-03-17 | 2024-04-12 | 青岛虚拟现实研究院有限公司 | 一种面向vr投影的自适应编码压缩方法 |
CN118800248A (zh) * | 2023-04-13 | 2024-10-18 | 华为技术有限公司 | 场景音频解码方法及电子设备 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5651090A (en) | 1994-05-06 | 1997-07-22 | Nippon Telegraph And Telephone Corporation | Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor |
JP4063508B2 (ja) | 2001-07-04 | 2008-03-19 | 日本電気株式会社 | ビットレート変換装置およびビットレート変換方法 |
US8090587B2 (en) | 2005-09-27 | 2012-01-03 | Lg Electronics Inc. | Method and apparatus for encoding/decoding multi-channel audio signal |
US20070168197A1 (en) | 2006-01-18 | 2007-07-19 | Nokia Corporation | Audio coding |
US8379868B2 (en) | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
US8032371B2 (en) | 2006-07-28 | 2011-10-04 | Apple Inc. | Determining scale factor values in encoding audio data with AAC |
DE102006055737A1 (de) | 2006-11-25 | 2008-05-29 | Deutsche Telekom Ag | Verfahren zur skalierbaren Codierung von Stereo-Signalen |
JP4871894B2 (ja) | 2007-03-02 | 2012-02-08 | パナソニック株式会社 | 符号化装置、復号装置、符号化方法および復号方法 |
MY178597A (en) | 2008-07-11 | 2020-10-16 | Fraunhofer Ges Forschung | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, and a computer program |
US8964994B2 (en) | 2008-12-15 | 2015-02-24 | Orange | Encoding of multichannel digital audio signals |
WO2013092292A1 (en) | 2011-12-21 | 2013-06-27 | Dolby International Ab | Audio encoder with parallel architecture |
RU2505921C2 (ru) * | 2012-02-02 | 2014-01-27 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Способ и устройство кодирования и декодирования аудиосигналов (варианты) |
US9715880B2 (en) | 2013-02-21 | 2017-07-25 | Dolby International Ab | Methods for parametric multi-channel encoding |
US20140358565A1 (en) * | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Compression of decomposed representations of a sound field |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
US9564136B2 (en) | 2014-03-06 | 2017-02-07 | Dts, Inc. | Post-encoding bitrate reduction of multiple object audio |
US10412522B2 (en) | 2014-03-21 | 2019-09-10 | Qualcomm Incorporated | Inserting audio channels into descriptions of soundfields |
US9959876B2 (en) | 2014-05-16 | 2018-05-01 | Qualcomm Incorporated | Closed loop quantization of higher order ambisonic coefficients |
US9847087B2 (en) * | 2014-05-16 | 2017-12-19 | Qualcomm Incorporated | Higher order ambisonics signal compression |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US9838819B2 (en) * | 2014-07-02 | 2017-12-05 | Qualcomm Incorporated | Reducing correlation between higher order ambisonic (HOA) background channels |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
US10140996B2 (en) | 2014-10-10 | 2018-11-27 | Qualcomm Incorporated | Signaling layers for scalable coding of higher order ambisonic audio data |
EP3067885A1 (en) * | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding a multi-channel signal |
CN110100279B (zh) | 2016-11-08 | 2024-03-08 | 弗劳恩霍夫应用研究促进协会 | 对多声道信号进行编码或解码的装置和方法 |
US10405126B2 (en) | 2017-06-30 | 2019-09-03 | Qualcomm Incorporated | Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems |
US10075802B1 (en) | 2017-08-08 | 2018-09-11 | Qualcomm Incorporated | Bitrate allocation for higher order ambisonic audio data |
US10854209B2 (en) | 2017-10-03 | 2020-12-01 | Qualcomm Incorporated | Multi-stream audio coding |
US10657974B2 (en) | 2017-12-21 | 2020-05-19 | Qualcomm Incorporated | Priority information for higher order ambisonic audio data |
US11081116B2 (en) | 2018-07-03 | 2021-08-03 | Qualcomm Incorporated | Embedding enhanced audio transports in backward compatible audio bitstreams |
US11361776B2 (en) | 2019-06-24 | 2022-06-14 | Qualcomm Incorporated | Coding scaled spatial components |
-
2020
- 2020-06-22 US US16/908,032 patent/US11538489B2/en active Active
- 2020-06-23 EP EP20740134.0A patent/EP3987514A1/en active Pending
- 2020-06-23 TW TW109121368A patent/TW202107450A/zh unknown
- 2020-06-23 CN CN202080044737.7A patent/CN114341976A/zh active Pending
- 2020-06-23 WO PCT/US2020/039172 patent/WO2020263851A1/en unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11838732B2 (en) | 2021-07-15 | 2023-12-05 | Boomcloud 360 Inc. | Adaptive filterbanks using scale-dependent nonlinearity for psychoacoustic frequency range extension |
TWI859552B (zh) * | 2021-07-15 | 2024-10-21 | 美商博姆雲360公司 | 聲頻處理系統、聲頻處理方法及用於執行其之非暫時性電腦可讀媒體 |
Also Published As
Publication number | Publication date |
---|---|
EP3987514A1 (en) | 2022-04-27 |
CN114341976A (zh) | 2022-04-12 |
US11538489B2 (en) | 2022-12-27 |
WO2020263851A1 (en) | 2020-12-30 |
US20200402529A1 (en) | 2020-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10176814B2 (en) | Higher order ambisonics signal compression | |
US9774977B2 (en) | Extracting decomposed representations of a sound field based on a second configuration mode | |
JP6449455B2 (ja) | 高次アンビソニック(hoa)バックグラウンドチャネル間の相関の低減 | |
US20150127354A1 (en) | Near field compensation for decomposed representations of a sound field | |
CN113488064A (zh) | 高阶立体混响音频数据的优先级信息 | |
US20150332682A1 (en) | Spatial relation coding for higher order ambisonic coefficients | |
TW202107450A (zh) | 用於心理聲學之音訊寫碼的使基於場景的音訊資料關聯 | |
EP3987516B1 (en) | Coding scaled spatial components | |
JP2017520177A (ja) | 高次アンビソニックオーディオレンダラのための希薄情報を取得すること | |
EP3987515B1 (en) | Performing psychoacoustic audio coding based on operating conditions | |
JP6423009B2 (ja) | 高次アンビソニックオーディオレンダラのためのシンメトリ情報を取得すること | |
CN113994425B (zh) | 对基于场景的音频数据进行编码和解码的设备和方法 | |
US12073842B2 (en) | Psychoacoustic audio coding of ambisonic audio data |