TW201446016A - 位元串流中指定球諧係數及/或高階立體混響係數 - Google Patents

位元串流中指定球諧係數及/或高階立體混響係數 Download PDF

Info

Publication number
TW201446016A
TW201446016A TW103107128A TW103107128A TW201446016A TW 201446016 A TW201446016 A TW 201446016A TW 103107128 A TW103107128 A TW 103107128A TW 103107128 A TW103107128 A TW 103107128A TW 201446016 A TW201446016 A TW 201446016A
Authority
TW
Taiwan
Prior art keywords
bit stream
hierarchical elements
sound field
bitstream
bits
Prior art date
Application number
TW103107128A
Other languages
English (en)
Other versions
TWI603631B (zh
Inventor
Dipanjan Sen
Martin James Morrell
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of TW201446016A publication Critical patent/TW201446016A/zh
Application granted granted Critical
Publication of TWI603631B publication Critical patent/TWI603631B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Abstract

一般而言,本發明描述用於在位元串流中指定球諧係數之技術。一種包含一或多個處理器之器件可執行該等技術。該等處理器可經組態以自該位元串流識別被包括於該位元串流中且描述聲場之複數個階層元素。該等處理器可進一步經組態以剖析該位元串流,從而判定所識別之該複數個階層元素。

Description

位元串流中指定球諧係數及/或高階立體混響係數
本申請案主張2013年3月1日申請之美國臨時申請案第61/771,677號及2013年7月30日申請之美國臨時申請案第61/860,201號的權利。
本發明係關於音訊寫碼,且更特定地係關於指定經寫碼之音訊資料的位元串流。
高階立體混響(HOA)信號(常由複數個球諧係數(SHC)或其他階層元素表示)為聲場之三維表示。此HOA或SHC表示可以獨立於用以播放自此SHC信號轉譯之多通道音訊信號的局部揚聲器幾何佈置之方式來表示此聲場。此SHC信號亦可促進回溯相容性,此係因為可將此SHC信號轉譯為熟知且被廣泛採用之多通道格式(諸如,5.1音訊通道格式或7.1音訊通道格式)。因此,SHC表示可允許實現聲場之更好表示,其亦提供回溯相容性。
一般而言,描述了用於在表示音訊資料之位元串流中發信音訊資訊及用於執行關於音訊資料的變換的各種技術。在一些態樣中,描述了用於發信複數個階層元素(諸如,高階立體混響(HOA)係數(其亦可稱作球諧係數))中之哪些被包括於位元串流中的技術。考慮到該等HOA係數中之一些可能不提供與描述聲場相關之資訊,音訊編碼器可 將該複數個HOA係數減少至提供與描述聲場相關之資訊的HOA係數之非零子集,藉此增大寫碼效率。結果,該等技術之各種態樣可允許實現在包括HOA係數及/或其編碼型式之位元串流中指定實際上被包括於位元串流中的彼等HOA係數(例如,包括該等HOA係數中之至少一者但非全部該等係數的HOA係數之非零子集)。可如上文所提及在位元串流中或在一些例子中在旁通道資訊中指定識別HOA係數之子集的資訊。
在其他態樣中,描述了用於變換SHC以便減少將要在位元串流中指定之SHC之數目且藉此增大寫碼效率的技術。亦即,該等技術可關於SHC來執行某種形式之線性可逆變換,從而減少將要在位元串流中指定之SHC之數目。線性可逆變換之實例包括旋轉、平移、離散餘弦變換(DCT)、離散傅里葉變換(DFT)、奇異值分解及主成分分析。該等技術可接著指定識別關於SHC所執行之變換的「變換資訊」。舉例而言,當關於SHC來執行旋轉時,該等技術可提供指定識別該旋轉之旋轉資訊(常依據各種旋轉角)。作為另一實例,當執行SVD時,該等技術可提供一指示執行了SVD之旗標。
在一個實例中,描述了一種產生表示音訊內容之位元串流的方法,該方法包含:在位元串流中識別被包括於位元串流中且描述聲場之複數個階層元素;及在位元串流中指定所識別之複數個階層元素。
在另一實例中,描述了一經組態以產生表示音訊內容之位元串流的器件,該器件包含一或多個處理器,該一或多個處理器經組態以:在位元串流中識別被包括於位元串流中且描述聲場之複數個階層元素;及在位元串流中指定所識別之複數個階層元素。
在另一實例中,描述了一經組態以產生表示音訊內容之位元串流的器件,該器件包含:用於在位元串流中識別被包括於位元串流中且描述聲場之複數個階層元素的構件;及用於在位元串流中指定所識 別之複數個階層元素的構件。
在另一實例中,一非暫時性電腦可讀儲存媒體具有儲存於其上之指令,當執行時,該等指令使一或多個處理器:在位元串流中識別被包括於位元串流中且描述聲場之複數個階層元素;及在位元串流中指定所識別之複數個階層元素。
在另一實例中,描述了一種處理表示音訊內容之位元串流的方法,該方法包含:自位元串流識別被包括於位元串流中且描述聲場之複數個階層元素;及剖析位元串流以判定所識別之複數個階層元素。
在另一實例中,描述了一經組態以處理表示音訊內容之位元串流的器件,該器件包含一或多個處理器,該一或多個處理器經組態以:自位元串流識別被包括於位元串流中且描述聲場之複數個階層元素;及剖析位元串流以判定所識別之複數個階層元素。
在另一實例中,描述了一經組態以處理表示音訊內容之位元串流的器件,該器件包含:用於自位元串流識別被包括於位元串流中且描述聲場之複數個階層元素的構件;及用於剖析位元串流以判定所識別之複數個階層元素的構件。
在另一實例中,一非暫時性電腦可讀儲存媒體具有儲存於其上之指令,當執行時,該等指令使一或多個處理器:自位元串流識別被包括於位元串流中且描述聲場之複數個階層元素;及剖析位元串流以判定所識別之複數個階層元素。
在另一實例中,描述了一種產生一包含描述聲場之複數個階層元素之位元串流的方法,該方法包含:變換聲場以減少提供與描述聲場相關之資訊的複數個階層元素之數目;及在位元串流中指定描述如何變換聲場之變換資訊。
在另一實例中,描述了一經組態以產生一包含描述聲場之複數個階層元素之位元串流的器件,該器件包含一或多個處理器,該一或 多個處理器經組態以:變換聲場以減少提供與描述聲場相關之資訊的複數個階層元素之數目;及在位元串流中指定描述如何變換聲場之變換資訊。
在另一實例中,描述了一經組態以產生一包含描述聲場之複數個階層元素之位元串流的器件,該器件包含:用於變換聲場以減少提供與描述聲場相關之資訊之複數個階層元素之數目的構件;及用於在位元串流中指定描述如何變換聲場之變換資訊的構件。
在另一實例中,描述了一儲存有指令的非暫時性電腦可讀儲存媒體,當執行時,該等指令使一或多個處理器:變換聲場以減少提供與描述聲場相關之資訊的複數個階層元素之數目;及在位元串流中指定描述如何變換聲場之變換資訊。
在另一實例中,描述了一種處理一包含描述聲場之複數個階層元素之位元串流的方法,該方法包含:剖析位元串流以判定變換資訊,該變換資訊描述如何變換聲場以減少提供與描述聲場相關之資訊的複數個階層元素之數目;及當基於該複數個階層元素中之提供與描述聲場相關之資訊的彼等階層元素來再生聲場時,基於變換資訊來變換聲場以反轉為減少複數個階層元素之數目所執行的變換。
在另一實例中,描述了一經組態以處理一包含描述聲場之複數個階層元素之位元串流的器件,該器件包含一或多個處理器,該一或多個處理器經組態以:剖析位元串流以判定變換資訊,該變換資訊描述如何變換聲場以減少提供與描述聲場相關之資訊的複數個階層元素之數目;及當基於該複數個階層元素中之提供與描述聲場相關之資訊的彼等階層元素來再生聲場時,基於變換資訊來變換聲場以反轉為減少複數個階層元素之數目所執行的變換。
在另一實例中,描述了一經組態以處理一包含描述聲場之複數個階層元素之位元串流的器件,該器件包含:用於剖析位元串流以判 定變換資訊的構件,該變換資訊描述如何變換聲場以減少提供與描述聲場相關之資訊的複數個階層元素之數目;及用於當基於該複數個階層元素中之提供與描述聲場相關之資訊的彼等階層元素來再生聲場時基於變換資訊來變換聲場以反轉為減少複數個階層元素之數目所執行之變換的構件。
在另一實例中,一非暫時性電腦可讀儲存媒體具有儲存於其上之指令,當執行時,該等指令使一或多個處理器:剖析位元串流以判定變換資訊,該變換資訊描述如何變換聲場以減少提供與描述聲場相關之資訊的複數個階層元素之數目;及當基於該複數個階層元素中之提供與描述聲場相關之資訊的彼等階層元素來再生聲場時,基於變換資訊來變換聲場。
該等技術之一或多個態樣之細節闡述於隨附圖式及以下描述中。此等技術之其他特徵、目標及優點將自描述及圖式且自申請專利範圍顯而易見。
20‧‧‧系統
22‧‧‧內容創作者
24‧‧‧內容消費者
27‧‧‧球諧係數(SHC)
27'‧‧‧球諧係數(SHC)
28‧‧‧轉譯器
29‧‧‧揚聲器饋入
30‧‧‧音訊編輯系統
31‧‧‧位元串流
31A‧‧‧位元串流
31B‧‧‧位元串流
31C‧‧‧位元串流
31D‧‧‧位元串流
31E‧‧‧位元串流
32‧‧‧音訊播放系統
34‧‧‧轉譯器
35‧‧‧揚聲器饋入
36‧‧‧位元串流產生器件
36A‧‧‧位元串流產生器件
36B‧‧‧位元串流產生器件
38‧‧‧提取器件
40‧‧‧聲場
42A‧‧‧位置
42B‧‧‧位置
44‧‧‧線
46‧‧‧Eigen麥克風
50‧‧‧SHC存在欄位
52‧‧‧變換資訊欄位
60‧‧‧階欄位
62‧‧‧方位角旗標
64‧‧‧仰角旗標
66‧‧‧方位角欄位
68‧‧‧仰角欄位
70‧‧‧旋轉索引欄位
150‧‧‧空間分析單元
152‧‧‧內容特性分析單元
154‧‧‧旋轉單元
155‧‧‧所變換之球諧係數
156‧‧‧提取相干分量單元
158‧‧‧提取擴散分量單元
160‧‧‧寫碼引擎
161‧‧‧開窗函數
163‧‧‧AAC寫碼單元
164‧‧‧多工器(MUX)
圖1及圖2為說明各個階及子階之球諧基底函數的圖。
圖3為說明可實施本發明中所描述之技術之各種態樣的系統的圖。
圖4A及圖4B為說明在圖3之實例中所示之位元串流產生器件之實例實施的方塊圖。
圖5A及圖5B為說明執行本發明中所描述之技術之各種態樣以旋轉聲場之實例的圖。
圖6為說明根據第一參考座標所俘獲之實例聲場的圖,該實例聲場接著根據本發明中所描述之技術而旋轉以依據第二參考座標來表達該聲場。
圖7A至圖7E說明根據本發明中所描述之技術而形成的位元串流 之實例。
圖8為說明圖3之位元串流產生器件在執行本發明中所描述之技術之旋轉態樣時之實例操作的流程圖。
圖9為說明在圖3之實例中所示之位元串流產生器件在執行本發明中所描述之技術之變換態樣時之實例操作的流程圖。
圖10為說明提取器件在執行本發明中所描述之技術之各種態樣時之例示性操作的流程圖。
圖11為說明位元串流產生器件及提取器件在執行本發明中所描述之技術之各種態樣時之例示性操作的流程圖。
環繞聲之演進已為現今之娛樂提供許多輸出格式。此等環繞聲格式之實例包括風行之5.1格式(其包括以下六個通道:左前(FL)、右前(FR)、中心或前中心、左後或左環繞、右後或右環繞、及低頻效果(LFE))、在增長中之7.1格式及即將來臨之22.2格式(例如,用於與超高清晰度電視標準一起使用)。進一步之實例包括用於球諧陣列之格式。
至未來之MPEG編碼器的輸入視情況為三種可能格式中之一者:(i)傳統之基於通道之音訊,其必須經由在預先指定位置處的擴音器來播放;(ii)基於物件之音訊,其涉及用於單個音訊物件之離散脈碼調變(PCM)資料及含有其位置座標之相關聯之後設資料(以及其他資訊);及(iii)基於場景之音訊,其涉及使用球諧基底函數之係數(亦稱為「球諧係數」或SHC)來表示聲場。
市場上存在各種「環繞聲」格式。該等格式的範圍(例如)從5.1家庭影院系統(除立體聲系統之外,其就進軍起居室而言已是最成功的)到由NHK(日本放送協會或日本廣播公司)開發之22.2系統。內容創作者(例如,好萊塢製片廠)願意為一部電影製作原聲帶一次,但不願意 花費精力來為每一揚聲器組態將其重新混音。近來,標準委員會已考慮將編碼提供至標準化位元串流中及提供可調適於且不限定(agnostic)於揚聲器幾何佈置及轉譯器之位置處的聲學條件之後續解碼的方式。
為了向內容創作者提供此靈活性,可使用一階層元素集合來表示聲場。該階層元素集合可指一元素集合,其中該等元素經排序使得低階元素的基本集合提供模型化聲場之完整表示。當該集合經擴展以包括高階元素時,該表示變得更詳細。
一階層元素集合之一個實例為一球諧係數(SHC)集合。以下表示式使用SHC來示範聲場之描述或表示: 此表示式展示在聲場之任何點{r r ,θ r ,φ r }處的壓力pi可唯一地由SHC表示。此處,,c為聲速(約343m/s),{r r ,θ r ,φ r }為參考點(或觀測點),j n (.)為階n之球面貝塞耳函數,且為階n及子階m之球諧基底函數。可認識到,方括弧中之項為信號之頻域表示(亦即,S(ω,r r ,θ r ,φ r )),其可藉由各種時間-頻率變換(諸如,離散傅里葉變換(DFT)、離散餘弦變換(DCT)或子波變換)來近似。階層集合之其他實例包括子波變換係數之集合及多解析度基底函數之係數的其他集合。
圖1為說明自零階(n=0)至四階(n=4)之球諧基底函數的圖。如可見,對於每一階而言,存在子階m之擴張,出於容易說明之目的,在圖1之實例中展示了該等子階但卻未顯式註釋。
圖2為說明自零階(n=0)至四階(n=4)之球諧基底函數的另一圖。在圖2中,在三維座標空間中展示了球諧基底函數,其中展示了階與子階兩者。
在任何情況下,可由各種麥克風陣列組態實體地獲取(例如,記 錄)SHC ,抑或SHC 可自聲場之基於通道或基於物件之描述導出。前一種情況表示至編碼器之基於場景之音訊輸入。舉例而言,可使用涉及1+24個(25,及因此為四階)係數之四階表示。
為了說明此等SHC可如何自基於物件之描述導出,考慮以下方程式。可將對應於個別音訊物件之聲場之係數表達為: 其中i為(.)為階n之球面漢克(Hankel)函數(第二種類),且{r s ,θ s ,φ s }為物件之位置。已知作為頻率之函數(例如,使用時間-頻率分析技術,諸如對PCM串流執行快速傅里葉變換)的源能量g(ω)允許吾人將每一PCM物件及其位置轉換成SHC 。進一步,可展示(由於上式為線性及正交分解):每一物件之係數為加性的。以此方式,許多PCM物件可由係數(例如,作為個別物件之係數向量的總和)來表示。基本上,此等係數含有關於聲場之資訊(作為3D座標之函數的壓力),且上式表示在觀測點{r r ,θ r ,φ r }附近自個別物件至總聲場之表示的變換。下文在基於物件及基於SHC之音訊寫碼的內容脈絡中描述剩餘諸圖。
雖然SHC可自PCT物件導出,但SHC亦可如下自麥克風陣列記錄導出:
其中,(SHC)之時域等效物,*表示卷積運算,<,>表示內積,b n (r i ,t)表示取決於r i 之時域濾波函數,m i (t)為第i麥克風信號,其中第i麥克風換能器處於半徑r i 、仰角θ i 及方位角φ i 處。因此,若在麥克風陣列中存在32個換能器且每一麥克風被定位於球體上使得r i =a為常數(諸如,來自mhAcoustics之Eigenmike EM32器件上的彼等換能器),則可如下使用矩陣運算來獲得25個SHC:
可將以上方程式中之矩陣更一般地稱作E s (θ,φ),其中下標s可指示矩陣係針對某一換能器幾何設置s。以上方程式中之卷積(由*指示)係逐列進行,使得(例如)輸出b 0(a,t)與時間序列之間的卷積的結果(其係作為時間的函數而變化一考慮到向量乘法之結果為時間序列的事實),該時間序列由E s (θ,φ)矩陣之第一列與麥克風信號的行之向量乘法產生。當麥克風陣列之換能器位置呈所謂之T設計幾何佈置(其非常接近Eigenmike換能器幾何佈置)時,計算可最準確。T設計幾何佈置之一個特性可為由該幾何佈置產生之E s (θ,φ)矩陣具有表現非常好的逆矩陣(或偽逆矩陣),且進一步而言該逆矩陣可常常由矩陣E s (θ,φ)之轉置而得到非常好的近似。若將忽略對b n (a,t)之濾波操作,則此性質可允許自SHC恢復麥克風信號(亦即,在此實例中[m i (t)]=[E s (θ,φ)]-1[SHC])。下文在基於SHC之音訊寫碼的內容脈絡中描述剩餘諸圖。
大體而言,本發明中所描述之技術可提供一種經由使用球諧域至空間域變換及匹配之逆變換來達成聲場之定向變換的強健方法。可借助於旋轉、傾斜及翻滾來控制聲場定向變換。在一些例子中,僅合併一給定階之係數以創造新係數,此意謂不存在中間階相依性(諸如可在使用濾波器時發生)。可接著將球諧域與空間域之間的合成變換表示為矩陣運算。結果,定向變換可為完全可逆的,此係因為可藉由使用一同等定向變換之轉譯器來取消此定向變換。此定向變換之一個應用可為減少為表示基礎聲場所需之球諧係數的數目。可藉由使具有最高能量之區域與聲場方向對準從而需要最小數目之球諧係數來表示旋轉之聲場來實現該減少。可藉由使用能量臨限值來達成係數之數目 的甚至進一步減少。此能量臨限值可減少所需係數之數目而無對應之可察覺的資訊損失。此藉由移除冗餘空間資訊而非冗餘頻譜資訊,對於需要進行基於球諧之音訊材料之傳輸(或儲存)的應用而言可為有益的。
圖3為說明系統20之圖,該系統可執行本發明中所描述之技術以使用球諧係數來潛在地更有效率地表示音訊資料。如在圖3之實例中所示,系統20包括內容創作者22及內容消費者24。雖然係在內容創作者22及內容消費者24之內容脈絡中加以描述,但該等技術可在SHC或聲場之任何其他階層表示經編碼以形成表示音訊資料之位元串流的任何內容脈絡中加以實施。
內容創作者22可表示電影製片廠或可產生供內容消費者(諸如,內容消費者24)消費之多通道音訊內容的其他實體。此內容創作者常結合視訊內容來產生音訊內容。內容消費者24表示擁有或具有對音訊播放系統之存取權的個體,該音訊播放系統可指能夠轉譯SHC以作為多通道音訊內容播放的任何形式之音訊播放系統。在圖3之實例中,內容消費者24包括音訊播放系統32。
內容創作者22包括音訊編輯系統30。音訊轉譯器26可表示轉譯或以其他方式產生揚聲器饋入(其亦可稱作「擴音器饋入」、「揚聲器信號」或「擴音器信號」)之音訊處理單元。每一揚聲器饋入可對應於一再生多通道音訊系統之特定通道之聲音的揚聲器饋入。在圖3之實例中,轉譯器28可針對習知5.1、7.1或22.2環繞聲格式來轉譯揚聲器饋入,從而針對5.1、7.1或22.2環繞聲揚聲器系統中之5、7或22個揚聲器中的每一者產生揚聲器饋入。或者,轉譯器28可經組態以針對具有任何數目之揚聲器的任何揚聲器組態而自源球諧係數轉譯揚聲器饋入(給定上文所論述之源球諧係數之性質)。音訊轉譯器28可以此方式產生若干揚聲器饋入(其在圖3中被表示為揚聲器饋入29)。
內容創作者可在編輯程序期間轉譯球諧係數27(「SHC 27」),傾聽所轉譯之揚聲器饋入以嘗試識別聲場之不具有高保真度或不提供令人信服之環繞聲體驗的態樣。內容創作者22可接著編輯源球諧係數(常間接地經由操縱不同物件來達成,該等源球諧係數可以上文所描述之方式自該等不同物件導出)。內容創作者22可使用音訊編輯系統30來編輯球諧係數27。音訊編輯系統30表示能夠編輯音訊資料且將此音訊資料輸出作為一或多個源球諧係數的任何系統。
當編輯程序完成時,內容創作者22可基於球諧係數27而產生位元串流31。亦即,內容創作者22包括位元串流產生器件36,該位元串流產生器件可表示能夠產生位元串流31(例如,用於傳輸跨越傳輸通道(其可為有線或無線頻道)、資料儲存器件或其類似者)之任何器件,如下文予以進一步詳細描述。在一些例子中,位元串流產生器件36可表示編碼器,該編碼器頻寬壓縮(作為一個實例,經由熵編碼)球諧係數27且以所接受之格式來配置球諧係數27之熵編碼型式以形成位元串流31。在其他例子中,位元串流產生器件36可表示音訊編碼器(可能地,遵照諸如MPEG surround之已知音訊寫碼標準或其衍生標準的音訊編碼器),該音訊編碼器使用(作為一個實例)與彼等習知音訊環繞聲編碼程序類似之程序來編碼多通道音訊內容29以壓縮多通道音訊內容或其衍生物。經壓縮之多通道音訊內容29可接著以某一其他方式加以熵編碼或寫碼以頻寬壓縮內容29且根據已達成協議(或換言之,經指定)之格式加以配置以形成位元串流31。不管是直接被壓縮以形成位元串流31還是被轉譯且接著被壓縮以形成位元串流31,內容創作者22均可將位元串流31傳輸至內容消費者24。
雖然在圖3中被展示為直接傳輸至內容消費者24,但內容創作者22可將位元串流31輸出至一定位於內容創作者22與內容消費者24之間的中間器件。此中間器件可儲存位元串流31以供稍後遞送至可請求此 位元串流之內容消費者24。中間器件可包含檔案伺服器、網頁伺服器、桌上型電腦、膝上型電腦、平板電腦、行動電話、智慧電話或能夠儲存位元串流31以供稍後由音訊解碼器擷取的任何其他器件。此中間器件可駐留於內容遞送網路中,該內容遞送網路能夠將位元串流31串流傳輸(及可能地與傳輸對應之視訊資料位元串流相結合)至請求位元串流31之用戶(諸如,內容消費者24)。
或者,內容創作者22可將位元串流31儲存至一儲存媒體(諸如,緊密光碟、數位影音光碟、高清晰度視訊光碟或其他儲存媒體,以上各者中之大部分能夠由電腦讀取且因此可稱作電腦可讀儲存媒體或非暫時性電腦可讀儲存媒體)。在此內容脈絡中,傳輸通道可指藉以傳輸被儲存至此等媒體之內容的彼等通道(且可包括零售商店及其他基於商店之遞送機構)。因此,在任何情況下,在此方面,本發明之技術不應受限於圖3之實例。
如在圖3之實例中予以進一步展示,內容消費者24包括音訊播放系統32。音訊播放系統32可表示能夠播放多通道音訊資料之任何音訊播放系統。音訊播放系統32可包括若干不同轉譯器34。轉譯器34可各自提供不同形式之轉譯,其中該等不同形式之轉譯可包括:執行向量基振幅移動(VBAP)之各種方式中的一或多者;及/或執行聲場合成之各種方式中的一或多者。
音訊播放系統32可進一步包括提取器件38。提取器件38可表示能夠經由可大體與位元串流產生器件36之程序互反的程序來提取球諧係數27'(「SHC 27'」,其可表示球諧係數27之修改形式或複製品)的任何器件。在任何情況下,音訊播放系統32可接收球諧係數27'且可選擇轉譯器34中之一者。轉譯器34中之所選者可接著轉譯球諧係數27'以產生若干揚聲器饋入35(對應於電耦接或可能地無線耦接至音訊播放系統32之若干擴音器,該等擴音器出於容易說明之目的而未在圖3 之實例中予以展示)。
通常,當位元串流產生器件36直接編碼SHC 27時,位元串流產生器件36編碼所有SHC 27。針對聲場之每一表示所發送的SHC 27之數目係取決於階數且數學上可表達為(1+n)2/樣本,其中n再次表示階數。作為一個實例,為了達成聲場之四階表示,可導出25個SHC。通常,將該等SHC中之每一者表達為32位元有正負號浮點數。因此,為了表達聲場之四階表示,在此實例中需要總計25x32位元/樣本或800位元/樣本。當使用48kHz之取樣率時,此表示800x48,000位元/秒或38,400,000位元/秒。在一些例子中,SHC 27中之一或多者可不指定突出資訊(其可指含有當在內容消費者24處再生時聽得見或在描述聲場方面重要之音訊資訊的資訊)。編碼SHC 27中之此等非突出SHC可導致對經由傳輸通道的頻寬之低效使用(假定內容遞送網路類型之傳輸機構)。在涉及此等係數之儲存的應用中,以上情況可表示儲存空間之低效使用。
在一些例子中,當識別被包括於位元串流31中之SHC 27之子集時,位元串流產生器件36可指定一具有複數個位元之欄位,其中該複數個位元中之一不同者識別SHC 27中之一對應者是否被包括於位元串流31中。在一些例子中,當識別被包括於位元串流31中之SHC 27之子集時,位元串流產生器件36可指定一具有等於(n+1)2個位元之複數個位元的欄位,其中n表示描述聲場之階層元素集合的階數,且其中該複數個位元中之每一者識別SHC 27中之一對應者是否被包括於位元串流31中。
在一些例子中,當識別被包括於位元串流31中之SHC 27之子集時,位元串流產生器件36可在位元串流31中指定一具有複數個位元之欄位,其中該複數個位元中之一不同者識別SHC 27中之一對應者是否被包括於位元串流31中。當指定SHC 27之所識別之子集時,位元 串流產生器件36可直接在具有複數個位元的欄位之後在位元串流31中指定SHC 27之所識別之子集。
在一些例子中,位元串流產生器件36可另外判定SHC 27中之一或多者具有與描述聲場相關之資訊。當識別被包括於位元串流31中之SHC 27之子集時,位元串流產生器件36可識別出SHC 27中之具有與描述聲場相關之資訊的所判定之一或多者被包括於位元串流31中。
在一些例子中,位元串流產生器件36可另外判定SHC 27中之一或多者具有與描述聲場相關之資訊。當識別被包括於位元串流31中之SHC 27之子集時,位元串流產生器件36可:在位元串流31中識別出SHC 27中之具有與描述聲場相關之資訊的所判定之一或多者被包括於位元串流31中;及在位元串流31中識別出SHC 27中之具有與描述聲場無關之資訊的剩餘者未被包括於位元串流31中。
在一些例子中,位元串流產生器件36可判定SHC 27值中之一或多者係低於臨限值。當識別被包括於位元串流31中之SHC 27之子集時,位元串流產生器件36可在位元串流31中識別出SHC 27中之高於此臨限值的所判定之一或多者在位元串流31中被指定。雖然臨限值可常為零值,但對於實際實施而言,可將臨限值設定至表示雜訊底限(或環境能量)之值或與當前信號能量成比例之某一值(此可使臨限信號變得具相依性)。
在一些例子中,位元串流產生器件36可調整或變換聲場以減少提供與描述聲場相關之資訊的SHC 27之數目。術語「調整」可指表示線性可逆變換之任何一或多個矩陣的應用。在此等例子中,位元串流產生器件36可在位元串流31中指定描述如何調整(或換言之,變換)聲場之調整資訊(其亦可稱作「變換資訊」)。雖然被描述為除識別隨後在位元串流中被指定之SHC 27之子集的資訊之外亦指定此資訊,但可將該等技術之此態樣執行作為指定識別被包括於位元串流中之 SHC 27之子集之資訊的替代例。因此,在此方面,該等技術不應受限。
在一些例子中,位元串流產生器件36可旋轉聲場以減少提供與描述聲場相關之資訊的SHC 27之數目。在此等例子中,位元串流產生器件36可在位元串流31中指定描述如何旋轉聲場之旋轉資訊。旋轉資訊可包含方位角值(能夠發信360度)及仰角值(能夠發信180度)。在一些例子中,方位角值包含一或多個位元,且通常包括10個位元。在一些例子中,仰角值包含一或多個位元且通常包括至少9個位元。在最簡單實施例中,此位元選擇允許達成180/512度之解析度(在仰角與方位角兩者中)。在一些例子中,變換可包含旋轉,且上文所描述之變換資訊包括旋轉資訊。在一些例子中,位元串流產生器件36可變換聲場以減少提供與描述聲場相關之資訊的SHC 27之數目。在此等例子中,位元串流產生器件36可在位元串流31中指定描述如何變換聲場之變換資訊。在一些例子中,調整可包含變換且上文所描述之調整資訊包括變換資訊。
在一些例子中,位元串流產生器件36可調整聲場以減少具有高於臨限值之非零值的SHC 27之數目,且在位元串流31中指定描述如何調整聲場之調整資訊。在一些例子中,位元串流產生器件36可旋轉聲場以減少具有高於臨限值之非零值的SHC 27之數目,且在位元串流31中指定描述如何旋轉聲場之旋轉資訊。在一些例子中,位元串流產生器件36可變換聲場以減少具有高於臨限值之非零值的SHC 27之數目,且在位元串流31中指定描述如何變換聲場之變換資訊。
藉由在位元串流31中識別被包括於位元串流31中之SHC 27之子集,位元串流產生器件36可促進頻寬之更有效使用,此係因為不包括與聲場之描述相關之資訊的SHC 27之子集(諸如,SHC 27中之零值者)在位元串流中未被指定(亦即,未被包括於位元串流中)。此外,另外 或替代地,藉由在產生SHC 27時調整聲場以減少指定與聲場之描述相關之資訊的SHC 27之數目,位元串流產生器件36可再次或另外提供潛在更有效之頻寬使用。以此方式,位元串流產生器件31可減少需要在位元串流31中被指定之SHC 27之數目,藉此潛在地改良非固定速率系統(舉幾個實例而言,其可指不具有目標位元率或不提供每訊框或樣本之位元預算的音訊寫碼技術)中之頻寬利用或在固定速率系統中潛在地導致將位元分配給與描述聲場更相關之資訊。
另外或替代地,位元串流產生器件36可根據本發明中所描述之技術來操作以將不同位元率指派給經變換之球諧係數之不同子集。由於變換(例如,旋轉)聲場,位元串流產生器件36可使最突出部分(常經由對在聲場之各個空間位置處的能量之分析來識別)與軸(諸如,Z軸)對準,從而在聲場中有效地將最高能量部分設定於傾聽者上方。換言之,位元串流產生器件36可分析聲場之能量以識別聲場之具有最高能量的部分。若聲場之兩個或兩個以上部分具有高能量,則位元串流產生器件36可比較此等能量以識別具有最高能量之部分。位元串流產生器件36可接著識別藉以旋轉聲場以便使聲場之最高能量部分與Z軸對準的一或多個角度。
可將此旋轉或其他變換視為設定有球面基底函數之參考座標之變換。可將此Z軸變換一或多個角度至在聲場之最高能量部分的方向上的點,而非將Z軸保持(諸如,在圖2之實例中所示的彼等)為筆直的上下。可接著旋轉具有某一方向分量之彼等基底函數(諸如,與Z軸對準之階數為一且子階數為零之球面基底函數)。可接著使用此等所變換(例如,經旋轉)之球面基底函數來表達聲場。位元串流產生器件36可旋轉此參考座標,使得Z軸與聲場之最高能量部分對準。此旋轉可導致聲場之最高能量主要由彼等零子階基底函數表達,而非零子階基底函數可能不含有同樣多的突出資訊。
一旦以此方式經旋轉,位元串流產生器件36便可判定所變換之球諧係數,其指與所變換之球面基底函數相關聯的球諧係數。考慮到零子階球面基底函數可主要表示聲場,位元串流產生器件36可指派一第一位元率以用於在位元串流31中表達此等零子階經變換之球諧係數(其可指對應於零子階基底函數之彼等所變換之球諧係數),同時指派第二位元率以用於在位元串流31中表達非零子階經變換之球諧係數(其可指對應於非零子階基底函數之彼等所變換之球諧係數),其中該第一位元率大於該第二位元率。換言之,由於零子階經變換之球諧係數描述聲場之最突出部分,所以位元串流產生器件36可指派一較高位元率以用於在位元串流中表達此等所變換之係數,同時指派一較低位元率(相對於較高位元率)以用於在位元串流中表達此等係數。
當將此等位元率指派給可稱作所變換之球諧係數之第一子集(例如,零子階經變換之球諧係數)及所變換之球諧係數之第二子集(例如,非零子階經變換之球諧係數)的球諧係數時,位元串流產生器件36可利用一開窗函數(諸如,漢寧(Hanning)開窗函數、漢明(Hamming)開窗函數、矩形開窗函數或三角形開窗函數)。雖然係關於所變換之球諧係數之第一子集及第二子集加以描述,但位元串流產生器件36可識別球諧係數之兩個、三個、四個及常常多達2*n+1個(其中n指階數)子集。通常,階之每一子階可表示所變換之球諧係數之另一子集,位元串流產生器件36將一不同位元率指派給該另一子集。
在這個意義上,位元串流產生器件36可按階及/或子階動態地將不同位元率指派給SHC 27中之不同者。位元率之此動態分配可促進總目標位元率之更好使用,從而將較高位元率指派給所變換之SHC 27中的描述聲場之更突出部分的各者,而將較低位元率(與較高位元率相比較)指派給所變換之SHC 27中的描述聲場之比較而言較不突出部分(或換言之,環境或背景部分)的各者。
為了進行說明,再一次考慮圖2之實例。位元串流產生器件36可基於開窗函數而將位元率指派給所變換之球諧係數之每一子階,其中對於四(4)階而言,位元串流產生器件36識別所變換之球諧係數之九個(從負四至正四)不同子集。舉例而言,位元串流產生器件36可基於開窗函數來指派一用於表達0子階所變換之球諧係數的第一位元率、一用於表達-1/+1子階所變換之球諧係數的第二位元率、一用於表達-2/+2子階所變換之球諧係數的第三位元率、一用於表達-3/+3子階所變換之球諧係數的第四位元率及一用於表達-4/+4子階所變換之球諧係數的第五位元率。
在一些例子中,位元串流產生器件36可以粒度甚至更細之方式來指派位元率,其中位元率不但按子階變化而且按階變化。考慮到高階之球面基底函數具有較小波瓣,此等高階球面基底函數在表示聲場之高能量部分方面不那麼重要。結果,位元串流產生器件36可相對於被指派給低階所變換之球諧係數的此位元率而將較低位元率指派給高階所變換之球諧係數。再次,位元串流產生器件36可以與上文關於子階特定位元率之指派所描述之方式類似的方式來基於開窗函數指派此階特定位元率。
在此方面,位元串流產生器件36可基於所變換之球諧係數之該子集對應於的球面基底函數之階及子階中的一或多者而將一位元率指派給所變換之球諧係數之至少一個子集,該等所變換之球諧係數已根據變換聲場之變換操作而加以變換。
在一些例子中,變換操作包含旋轉聲場之旋轉操作。
在一些例子中,位元串流產生器件36可識別藉以旋轉聲場以使得聲場之具有最高能量的一部分與一軸對準的一或多個角度,其中變換操作可包含旋轉操作,該旋轉操作將聲場旋轉所識別之一或多個角度以便產生所變換之球諧係數。
在一些例子中,位元串流產生器件36可識別藉以旋轉聲場使得聲場之具有最高能量的一部分與Z軸對準的一或多個角度,其中變換操作可包含旋轉操作,該旋轉操作將聲場旋轉所識別之一或多個角度以便產生所變換之球諧係數。
在一些例子中,位元串流產生器件36可執行關於聲場的空間分析以識別藉以旋轉聲場的一或多個角度,其中變換操作可包含旋轉操作,該旋轉操作將聲場旋轉所識別之一或多個角度以便產生所變換之球諧係數。
在一些例子中,當指派位元率時,位元串流產生器件36可根據開窗函數而基於該等所變換之球諧係數中的每一者對應於的球面基底函數之階及子階中的一或多者來動態地將不同位元率指派給所變換之球諧係數之不同子集。開窗函數可包含漢寧開窗函數、漢明開窗函數、矩形開窗函數或三角形開窗函數中之一或多者。
在一些例子中,當指派位元率時,位元串流產生器件36可將第一位元率指派給所變換之球諧係數之第一子集(對應於球面基底函數之具有零子階的子集),且將第二位元率指派給所變換之球諧係數之第二子集(對應於球面基底函數之具有正或負子階的子集),該第一位元率大於該第二位元率。在這個意義上,該等技術可提供基於SHC 27所對應於之球面基底函數之子階的動態位元率指派。
在一些例子中,當指派位元率時,位元串流產生器件36可將第一位元率指派給所變換之球諧係數之第一子集(對應於球面基底函數之具有一階的子集),且將第二位元率指派給所變換之球諧係數之第二子集(對應於球面基底函數之具有二階的子集),該第一位元率大於該第二位元率。以此方式,該等技術可提供基於SHC 27所對應於之球面基底函數之階的動態位元率指派。
在一些例子中,位元串流產生器件36可產生一位元串流,該位 元串流使用第一位元率來指定所變換之球諧係數之第一子集且使用第二位元率來指定所變換之球諧係數之第二子集。
在一些例子中,當指派位元率時,當所變換之球諧係數所對應於的球面基底函數之子階移離零時,位元串流產生器件36可動態地指派逐漸減小之位元率。
在一些例子中,當指派位元率時,當所變換之球諧係數所對應於的球面基底函數之階增加時,位元串流產生器件36可動態地指派逐漸減小之位元率。
在一些例子中,當指派位元率時,位元串流產生器件36可基於所變換之球諧係數之子集所對應於的球面基底函數之階及子階中之一或多者來動態地將不同位元率指派給所變換之球諧係數之不同子集。
在內容消費者24內,提取器件38可接著根據與上文關於位元串流產生器件36所描述之彼等技術互反的技術之態樣來執行一種處理表示音訊內容之位元串流31的方法。提取器件38可:自位元串流31判定被包括於位元串流31中且描述聲場之SHC 27'之子集;及剖析位元串流31以判定SHC 27'之所識別之子集。
在一些例子中,當判定被包括於位元串流31中之SHC 27'之子集時,提取器件38可剖析位元串流31以判定一具有複數個位元之欄位,其中該複數個位元中之每一者識別SHC 27'中之一對應者是否被包括於位元串流31中。
在一些例子中,當判定被包括於位元串流31中之SHC 27'之子集時,提取器件38可指定一具有等於(n+1)2個位元之複數個位元的欄位,其中n再次表示描述聲場之階層元素集合的階數。再次,該複數個位元中之每一者識別SHC 27'中之一對應者是否被包括於位元串流31中。
在一些例子中,當判定被包括於位元串流31中之SHC 27'之子集 時,提取器件38可剖析位元串流31以在位元串流31中識別一具有複數個位元之欄位,其中該複數個位元中之一不同者識別SHC 27'中之一對應者是否被包括於位元串流31中。當剖析位元串流31以判定SHC 27'之所識別之子集時,提取器件38可直接自在具有複數個位元的欄位之後的位元串流31起剖析位元串流31以判定SHC 27'之所識別之子集。
在一些例子中,提取器件38可剖析位元串流31以判定調整資訊,該調整資訊描述如何調整聲場以減少提供與描述聲場相關之資訊的SHC 27'之數目。提取器件38可將此資訊提供至音訊播放系統32,當基於提供與描述聲場相關之資訊的SHC 27'之子集來再生聲場時,該音訊播放系統32基於調整資訊來調整聲場以反轉為了減少複數個階層元素之數目所執行的調整。
在一些例子中,作為該等技術之上文所描述之態樣的替代例或結合該等技術之上文所描述之態樣,提取器件38可剖析位元串流31以判定旋轉資訊,該旋轉資訊描述如何旋轉聲場以減少提供與描述聲場相關之資訊的SHC 27'之數目。提取器件38可將此資訊提供至音訊播放系統32,當基於提供與描述聲場相關之資訊的SHC 27'之子集來再生聲場時,該音訊播放系統32基於旋轉資訊來旋轉聲場以反轉為了減少複數個階層元素之數目所執行的旋轉。
在一些例子中,作為該等技術之上文所描述之態樣的替代例或結合該等技術之上文所描述之態樣,提取器件38可剖析位元串流31以判定變換資訊,該變換資訊描述如何變換聲場以減少提供與描述聲場相關之資訊的SHC 27'之數目。提取器件38可將此資訊提供至音訊播放系統32,當基於提供與描述聲場相關之資訊的SHC 27'之子集來再生聲場時,該音訊播放系統32基於調整資訊來變換聲場以反轉為了減少複數個階層元素之數目所執行的變換。
在一些例子中,作為該等技術之上文所描述之態樣的替代例或結合該等技術之上文所描述之態樣,提取器件38可剖析位元串流31以判定調整資訊,該調整資訊描述如何調整聲場以減少具有非零值之SHC 27'之數目。提取器件38可將此資訊提供至音訊播放系統32,當基於具有非零值之SHC 27'之子集來再生聲場時,該音訊播放系統32基於調整資訊來調整聲場以反轉為了減少複數個階層元素之數目所執行的調整。
在一些例子中,作為該等技術之上文所描述之態樣的替代例或結合該等技術之上文所描述之態樣,提取器件38可剖析位元串流31以判定旋轉資訊,該旋轉資訊描述如何旋轉聲場以減少具有非零值之SHC 27'之數目。提取器件38可將此資訊提供至音訊播放系統32,當基於具有非零值之SHC 27'之子集來再生聲場時,該音訊播放系統32基於旋轉資訊來旋轉聲場以反轉為了減少複數個階層元素之數目所執行的旋轉。
在一些例子中,作為該等技術之上文所描述之態樣的替代例或結合該等技術之上文所描述之態樣,提取器件38可剖析位元串流31以判定變換資訊,該變換資訊描述如何變換聲場以減少具有非零值之SHC 27'之數目。提取器件38可將此資訊提供至音訊播放系統32,當基於具有非零值之彼等SHC 27'來再生聲場時,該音訊播放系統32基於變換資訊來變換聲場以反轉為了減少複數個階層元素之數目所執行的變換。
在此方面,該等技術之各種態樣可允許實現在位元串流中發信被包括於位元串流中之彼等複數個階層元素,諸如高階立體混響(HOA)係數(其亦可稱作球諧係數)(其中將被包括於位元串流中之彼等階層元素可稱作「複數個SHC之子集」)。考慮到該等HOA係數中之一些可能不提供與描述聲場相關的資訊,音訊編碼器可將該複數個 HOA係數減少至提供與描述聲場相關之資訊的HOA係數之子集,藉此增大寫碼效率。結果,該等技術之各種態樣可允許實現在包括HOA係數及/或其編碼型式之位元串流中指定實際上被包括於位元串流中的彼等HOA係數(例如,包括該等HOA係數中之至少一者但非全部該等係數的HOA係數之非零子集)。可在如上文所提及之位元串流中或在一些例子中在旁通道資訊中指定識別HOA係數之子集的資訊。
圖4A及圖4B為說明位元串流產生器件36之實例實施的方塊圖。如在圖4A之實例中所說明,位元串流產生器件36之第一實施(被表示為位元串流產生器件36A)包括空間分析單元150、旋轉單元154、寫碼引擎160及多工器(MUX)164。
就消費者使用而言,以SHC之形式來表示3D音訊資料所需的頻寬(依據位元/秒)可變得高得過分。舉例而言,當使用48kHz之取樣率時且在32位元/相同解析度的情況下,四階SHC表示會表示36百萬位元/秒(25x48000x32bps)之頻寬。當與用於立體聲信號之目前先進技術音訊寫碼(其通常為約100千位元/秒)相比時,此為一大的數字。在圖5之實例中所實施之技術可減小3D音訊表示之頻寬。
空間分析單元150及旋轉單元154可接收SHC 27。如在本發明中別處所描述,SHC 27可表示聲場。在圖4A之實例中,空間分析單元150及旋轉單元154可針對聲場之四階(N=4)表示來接收二十五個SHC之樣本。通常,音訊資料之訊框包括1028個樣本,但可關於一具有任何數目之樣本的訊框來執行該等技術。空間分析單元150及旋轉單元154可以下文關於音訊資料之訊框所描述的方式來操作。雖然被描述為對音訊資料之訊框操作,但該等技術可關於任何量之音訊資料(包括單一樣本及多達全部音訊資料)加以執行。
空間分析單元150可分析由SHC 27所表示之聲場以識別聲場之相異分量及聲場之擴散分量。聲場之相異分量為被察覺為來自於一可識 別方向或以其他方式相異於聲場之背景或擴散分量的聲音。例如,由個別樂器所產生之聲音可被察覺為來自於一可識別方向。相比之下,聲場之擴散或背景分量未被察覺為來自於一可識別方向。例如,風穿過森林的聲音可為聲場之擴散分量。在一些例子中,亦可將相異分量稱作「突出分量」或「前景分量」,而可將擴散分量稱作「環境分量」或「背景分量」。
通常,此等相異分量在聲場之可識別位置中具有高能量。空間分析單元150可識別聲場之此等「高能量」位置,從而分析每一高能量位置以判定聲場中具有最高能量之位置。空間分析單元150可接著判定藉以旋轉聲場以使具有最多能量之彼等相異分量與諸如Z軸之軸(相對於記錄此聲場之假設麥克風)對準的最佳角。空間分析單元150可識別此最佳角,以便可旋轉聲場使得此等相異分量更好地與在圖1及圖2之實例中所示的基礎球面基底函數對準。
在一些實例中,空間分析單元150可表示一經組態以執行某種形式之擴散分析從而識別由包括擴散聲(其可指具有低方向水準或低階SHC之聲音,其意謂彼等SHC 27具有小於或等於一之階數)之SHC 27表示之聲場之百分數的單元。作為一個實例,空間分析單元150可以與Ville Pulkki在題為「Spatial Sound Reproduction with Directional Audio Coding」(公開於J.Audio Eng.Soc.第55卷第6號中,日期為2007年6月)之論文中所描述之方式類似的方式來執行擴散分析。在一些例子中,當執行擴散分析以判定擴散百分數時,空間分析單元150可僅分析SHC 27係數之非零子集(諸如SHC 27中之零階或一階SHC)。
旋轉單元154可基於所識別之最佳角(或視情況而定之角)來執行SHC 27之旋轉操作。如在本發明中之別處所論述(例如,關於圖5A及圖5B),執行旋轉操作可減少表示SHC 27所需之位元的數目。旋轉單元154可將所變換之球諧係數155(「所變換之SHC 155」)輸出至寫碼 引擎160。
寫碼引擎160可表示一經組態以頻寬壓縮所變換之SHC 155的單元。寫碼引擎160可根據本發明中所描述之技術來將不同位元率指派給所變換之SHC 155之不同子集。如在圖4A之實例中所示,寫碼引擎160包括開窗函數161及AAC寫碼單元163。寫碼引擎160可將開窗函數161應用於目標位元率以便將位元率指派給AAC寫碼單元163中之一或多者。開窗函數161可針對所變換之SHC 155所對應於的球面基底函數之每一階及/或子階來識別不同位元率。寫碼引擎160可接著用所識別之位元率來組態AAC寫碼單元163,因此寫碼引擎160可將所變換之SHC 155劃分成不同子集且將此等不同子集傳遞至AAC寫碼單元163中之一對應者。亦即,若針對對應於零子階球面基底函數之彼等所變換之SHC 155而將一位元率組態於AAC寫碼單元163中之一者中,則寫碼引擎160將對應於零子階球面基底函數之彼等所變換之SHC 127傳遞至AAC寫碼單元163中之該者。AAC寫碼單元163可接著執行關於所變換之SHC 155之子集的AAC,從而將所變換之SHC 155之不同子集的壓縮型式輸出至多工器164。多工器164可接著將此等子集連同最佳角一起多路傳輸以產生位元串流31。
如在圖4B之實例中所說明,位元串流產生器件36B包括空間分析單元150、內容特性分析單元152、旋轉單元154、提取相干分量單元156、提取擴散分量單元158、寫碼引擎160及多工器(MUX)164。雖然與位元串流產生器件36A類似,但位元串流產生器件36B包括額外單元152、156及158。
內容特性分析單元152可至少部分地基於SHC 27來判定SHC 27是經由對聲場之自然記錄而產生,還是人工地(亦即,合成地)自(作為一個實例)音訊物件(諸如,PCM物件)而產生。此外,內容特性分析單元152可接著至少部分地基於SHC 27是經由對聲場之實際記錄而產生還 是自人工音訊物件而產生來判定待包括於位元串流31中之通道的總數。舉例而言,內容特性分析單元152可至少部分地基於SHC 27是自對實際聲場之記錄而產生還是自人工音訊物件而產生來判定位元串流31將包括十六個通道。該等通道中之每一者可為單通道。內容特性分析單元152可進一步執行基於位元串流31之輸出位元率(例如,1.2Mbps)來判定待包括於位元串流31中之通道的總數。
另外,內容特性分析單元152可至少部分地基於SHC 27是自對實際聲場之記錄而產生還是自人工音訊物件而產生來判定要將多少通道分配給聲場之相干(或換言之,相異)分量及要將多少通道分配給聲場之擴散(或換言之,背景)分量。舉例而言,當SHC 27係使用(作為一個實例)Eigenmic自對實際聲場之記錄而產生時,內容特性分析單元152可將三個通道分配給聲場之相干分量且可將剩餘通道分配給聲場之擴散分量。在此實例中,當SHC 27係自人工音訊物件而產生時,內容特性分析單元152可將五個通道分配給聲場之相干分量且可將剩餘通道分配給聲場之擴散分量。以此方式,內容分析區塊(亦即,內容特性分析單元152)可判定聲場之類型(例如,擴散/定向等)且又判定待提取之相干/擴散分量的數目。
目標位元率可影響分量之數目及個別AAC寫碼引擎(例如,寫碼引擎160)之位元率。換言之,內容特性分析單元152可進一步執行基於位元串流31之輸出位元率(例如,1.2Mbps)來判定要將多少通道分配給相干分量及要將多少通道分配給擴散分量。
在一些實例中,分配給聲場之相干分量的通道可具有大於分配給聲場之擴散分量之通道的位元率。舉例而言,位元串流31之最大位元率可為1.2Mb/秒。在此實例中,可存在分配給相干分量之四個通道及分配給擴散分量之16個通道。此外,在此實例中,分配給相干分量之通道中之每一者可具有64kb/秒之最大位元率。在此實例中,分 配給擴散分量之通道中之每一者可具有48kb/秒之最大位元率。
如上文所指示,內容特性分析單元152可判定SHC 27是自對實際聲場之記錄而產生,還是自人工音訊物件而產生。內容特性分析單元152可以各種方式來作出此判定。舉例而言,位元串流產生器件36可使用4階SHC。在此實例中,內容特性分析單元152可寫碼24個通道且預測第25個通道(其可表示為向量)。內容特性分析單元152可將純量應用於24個通道中之至少一些,且將所得值相加以判定第25個向量。此外,在此實例中,內容特性分析單元152可判定所預測之第25個通道的準確度。在此實例中,若所預測之第25個通道之準確度為相對高的(例如,準確度超過特定臨限值),則SHC 27很可能係自合成音訊物件而產生。相比之下,若所預測之第25個通道之準確度為相對低的(例如,準確度低於特定臨限值),則SHC 27更有可能表示所記錄之聲場。例如,在此實例中,若第25個通道之信雜比(SNR)超過100分貝(db),則SHC 27更有可能表示自合成音訊物件所產生之聲場。相比之下,使用Eigenmike所記錄之聲場的SNR可為5至20db。因此,在由自實際直接記錄而產生之SHC 27所表示的聲場與自合成音訊物件而產生之SHC 27所表示的聲場之間可存在SNR比之明顯分界。
此外,內容特性分析單元152可至少部分地基於SHC 27係自對實際聲場之記錄而產生還是自人工音訊物件而產生來選擇用於量化V向量之碼簿。換言之,內容特性分析單元152可取決於由HOA係數表示之聲場係被記錄的還是合成的來選擇供用於量化V向量之不同碼簿。
在一些實例中,內容特性分析單元152可重複地判定SHC 27是自對實際聲場之記錄而產生還是自人工音訊物件而產生。在一些此等實例中,重複可為每訊框重複。在其他實例中,內容特性分析單元152可執行此判定一次。此外,內容特性分析單元152可重複地判定通道之總數及相干分量通道與擴散分量通道之分配。在一些此等實例中, 重複可為每訊框重複。在其他實例中,內容特性分析單元152可執行此判定一次。在一些實例中,內容特性分析單元152可重複地選擇供用於量化V向量之碼簿。在一些此等實例中,重複可為每訊框重複。在其他實例中,內容特性分析單元152可執行此判定一次。
旋轉單元154可執行HOA係數之旋轉操作。如在本發明中之別處所論述(例如,關於圖5A及圖5B),執行旋轉操作可減少表示SHC 27所需之位元的數目。在一些實例中,由旋轉單元152執行之旋轉分析為奇異值分解(SVD)分析之執行個體。主分量分析(PCA)、獨立分量分析(ICA)及卡忽南-拉維變換(KLT)係可適用之相關技術。
在此方面,該等技術可提供一種產生包含描述聲場之複數個階層元素之位元串流的方法,其中,在第一實例中,該方法包含:將表示聲場之複數個階層元素自球諧域變換至另一域以便減少複數個階層元素之數目;及在位元串流中指定描述如何變換聲場之變換資訊。
在第二實例(第一實例之方法)中,其中變換複數個階層元素包含執行關於複數個階層元素的基於向量的變換。
在第三實例(第二實例之方法)中,其中執行基於向量的變換包含執行關於複數個階層元素的以下各者中之一或多者:奇異值分解(SVD)、主分量分析(PCA)及卡忽南-拉維變換(KLT)。
在第四實例中,一器件包含一或多個處理器,該一或多個處理器經組態以:將表示聲場之複數個階層元素自球諧域變換至另一域以便減少複數個階層元素之數目;及在位元串流中指定描述如何變換聲場之變換資訊。
在第五實例(第四實例之器件)中,其中該一或多個處理器經組態以在變換複數個階層元素時執行關於複數個階層元素的基於向量的變換。
在第六實例(第五實例之器件)中,其中該一或多個處理器經組態 以在執行基於向量的變換時執行關於複數個階層元素的以下各者中之一或多者:奇異值分解(SVD)、主分量分析(PCA)及卡忽南-拉維變換(KLT)。
在第七實例中,一器件包含:用於將表示聲場之複數個階層元素自球諧域變換至另一域以便減少複數個階層元素之數目的構件;及用於在位元串流中指定描述如何變換聲場之變換資訊的構件。
在第八實例(第七實例之器件)中,其中用於變換複數個階層元素之構件包含用於執行關於複數個階層元素的基於向量的變換的構件。
在第九實例(第八實例之器件)中,其中用於執行基於向量的變換的構件包含用於執行關於複數個階層元素的以下各者中之一或多者的構件:奇異值分解(SVD)、主分量分析(PCA)及卡忽南-拉維變換(KLT)。
在第十實例中,一非暫時性電腦可讀儲存媒體具有儲存於其上之指令,當執行時,該等指令使一或多個處理器:將表示聲場之複數個階層元素自球諧域變換至另一域以便減少複數個階層元素之數目;及在位元串流中指定描述如何變換聲場之變換資訊。
在第十一實例中,一種方法包含:剖析位元串流以判定平移資訊,該平移資訊描述描述聲場之複數個階層元素如何被自球諧域變換至另一域以減少複數個階層元素之數目;及當基於複數個階層元素來再生聲場時,基於所變換之複數個階層元素來重建構複數個階層元素。
在第十二實例(第十一實例之方法)中,其中變換資訊描述複數個階層元素如何使用向量基分解經變換以減少複數個階層元素之數目,且其中變換聲場包含:當基於複數個階層元素來再生聲場時,基於經向量基分解之複數個階層元素來重建構複數個階層元素。
在第十三實例(第十二實例之方法)中,其中向量基分解包含以下 各者中之一或多者:奇異值分解(SVD)、主分量分析(PCA)及卡忽南-拉維變換(KLT)。
在第十四實例中,一器件包含一或多個處理器,該一或多個處理器經組態以:剖析位元串流以判定平移資訊,該平移資訊描述描述聲場之複數個階層元素如何被自球諧域變換至另一域以減少複數個階層元素之數目;及當基於複數個階層元素來再生聲場時,基於所變換之複數個階層元素來重建構複數個階層元素。
在第十五實例(第十四實例之器件)中,其中變換資訊描述複數個階層元素如何使用向量基分解經變換以減少複數個階層元素之數目,且其中該一或多個處理器經組態以:當變換聲場時且當基於複數個階層元素來再生聲場時,基於經向量基分解之複數個階層元素來重建構複數個階層元素。
在第十六實例(第十五實例之器件)中,其中向量基分解包含以下各者中之一或多者:奇異值分解(SVD)、主分量分析(PCA)及卡忽南-拉維變換(KLT)。
在第十七實例中,一器件包含:用於剖析位元串流以判定平移資訊的構件,該平移資訊描述描述聲場之複數個階層元素如何被自球諧域變換至另一域以減少複數個階層元素之數目;及用於在基於複數個階層元素來再生聲場時基於所變換之複數個階層元素來重建構複數個階層元素的構件。
在第十八實例(第十七實例之器件)中,其中變換資訊描述複數個階層元素如何使用向量基分解經變換以減少複數個階層元素之數目,且其中用於變換聲場之構件包含用於在基於複數個階層元素來再生聲場時基於經向量基分解之複數個階層元素來重建構複數個階層元素的構件。
在第十九實例(第十八實例之器件)中,其中向量基分解包含以下 各者中之一或多者:奇異值分解(SVD)、主分量分析(PCA)及卡忽南-拉維變換(KLT)。
在第二十實例中,一非暫時性電腦可讀儲存媒體具有儲存於其上之指令,當執行時,該等指令使一或多個處理器:剖析位元串流以判定平移資訊,該平移資訊描述描述聲場之複數個階層元素如何被自球諧域變換至另一域以減少複數個階層元素之數目;及當基於複數個階層元素來再生聲場時,基於所變換之複數個階層元素來重建構複數個階層元素。
在圖4B之實例中,提取相干分量單元156自旋轉單元154接收經旋轉之SHC 27。此外,提取相干分量單元156自經旋轉之SHC 27提取與聲場之相干分量相關聯的彼等經旋轉之SHC 27。
另外,提取相干分量單元156產生一或多個相干分量通道。該等相干分量通道中之每一者可包括與聲場之相干係數相關聯的經旋轉之SHC 27之一不同子集。在圖4B之實例中,提取相干分量單元156可產生1至16個相干分量通道。可藉由由內容特性分析單元152分配給聲場之相干分量的通道之數目來判定由提取相干分量單元156產生之相干分量通道的數目。可藉由內容特性分析單元152來判定由提取相干分量單元156產生之相干分量通道的位元率。
類似地,在圖4B之實例中,提取擴散分量單元158自旋轉單元154接收經旋轉之SHC 27。此外,提取擴散分量單元158自經旋轉之SHC 27提取與聲場之擴散分量相關聯的彼等經旋轉之SHC 27。
另外,提取擴散分量單元158產生一或多個擴散分量通道。該等擴散分量通道中之每一者可包括與聲場之擴散係數相關聯的經旋轉之SHC 27之一不同子集。在圖4B之實例中,提取擴散分量單元158可產生1至9個擴散分量通道。可藉由由內容特性分析單元152分配給聲場之擴散分量的通道之數目來判定由提取擴散分量單元158產生之擴散 分量通道的數目。可藉由內容特性分析單元152來判定由提取擴散分量單元158產生之擴散分量通道的位元率。
在圖4B之實例中,寫碼引擎160可如上文關於圖4A之實例所描述來操作(不過此時係關於擴散分量及相干分量)。多工器164(「MUX 164」)可將經編碼之相干分量通道及經編碼之擴散分量通道連同旁側資料(例如,由空間分析單元150判定之最佳角)一起多路傳輸,以產生位元串流31。
圖5A及圖5B為說明執行本發明中所描述之技術之各種態樣以旋轉聲場40之實例的圖。圖5A為根據本發明中所描述之技術之各種態樣的說明在旋轉前之聲場40的圖。在圖5A之實例中,聲場40包括兩個高壓力位置(表示為位置42A及42B)。此等位置42A及42B(「位置42」)係位於具有有限斜率(其為參考非垂直線之另一方式,此係因為垂直線具有無限斜率)之線44上。考慮到位置42除x及y座標之外還具有z座標,可能需要高階球面基底函數來正確地表示此聲場40(因為此等高階球面基底函數描述聲場之上部及下部或非水平部分)。位元串流產生器件36可旋轉聲場40直至連接位置42之線44垂直為止,而非直接將聲場40減少至SHC 27。
圖5B為說明聲場40在被旋轉直至連接位置42之線44垂直之後的圖。由於以此方式旋轉聲場40,所以可導出SHC 27使得SHC 27中之非零子階SHC被指定為零(考慮到經旋轉之聲場40沿非垂直軸(例如,X軸及/或Y軸)不再具有任何壓力(或能量)位置)。以此方式,位元串流產生器件36可旋轉、變換或更大體而言調整聲場40以減少具有非零值之經旋轉SHC 27的數目。位元串流產生器件36可接著相對於經旋轉之SHC 27中之零子階SHC而將較低位元率分配給經旋轉之SHC 27中之非零子階SHC,如上文所描述。位元串流產生器件36亦可常藉由以上文所描述之方式來表達方位角及仰角而在位元串流31中指定指示如 何旋轉聲場40之旋轉資訊。
替代地或另外,位元串流產生器件36可接著在位元串流31之欄位中發信SHC 27中之此等高階SHC未被發信,而非發信一識別出SHC 27中之此等高階SHC具有零值的有正負號32位元數。在此等例子中,提取器件38暗示經旋轉之SHC 27中之此等未發信的SHC具有零值,且當基於SHC 27來再生聲場40時執行旋轉以旋轉聲場40使得聲場40類似於在圖5A之實例中所示之聲場40。以此方式,位元串流產生器件36可減少需要在位元串流31中被指定之SHC 27之數目或以其他方式減小與經旋轉之SHC 27中之非零子階SHC相關聯的位元率。
可使用「空間壓縮」演算法來判定聲場之最佳旋轉。在一個實施例中,位元串流產生器件36可執行該演算法以迭代經過所有可能之方位角及仰角組合(亦即,在以上之實例中為1024x512個組合),從而針對每一組合來旋轉聲場及計算高於臨限值之SHC 27的數目。可將產生最小數目的高於臨限值之SHC 27之方位角/仰角候選者組合視為可稱作「最佳旋轉」之組合。在此經旋轉形式中,聲場可能需要最小數目之SHC 27以用於表示聲場且可因而被視為壓縮的。在一些例子中,調整可包含此最佳旋轉且上文所描述之調整資訊可包括此旋轉(其可稱為「最佳旋轉」)資訊(就方位角及仰角而言)。
在一些例子中,位元串流產生器件36可以(作為一個實例)尤拉(Euler)角之形式來指定額外角,而非僅指定方位角及仰角。尤拉角指定關於Z軸、以前之X軸及以前之Z軸的旋轉角度。雖然在本發明中係關於方位角及仰角之組合加以描述,但本發明之技術不應受限於僅指定方位角及仰角,而是可包括指定任何數目之角(包括上文所提及之三個尤拉角)。在這個意義上,位元串流產生器件36可旋轉聲場以減少提供與描述聲場相關之資訊的複數個階層元素之數目且在位元串流中將尤拉角指定為旋轉資訊。如上文所提及,尤拉角可描述如何旋轉 聲場。當使用尤拉角時,位元串流提取器件38可剖析位元串流以判定包括尤拉角之旋轉資訊,且當基於提供與描述聲場相關之資訊的彼等複數個階層元素來再生聲場時基於尤拉角來旋轉聲場。
此外,在一些例子中,位元串流產生器件36可指定與指定旋轉之一或多個角度之預定義組合相關聯的索引(其可稱作「旋轉索引」),而非在位元串流31中顯式地指定此等角。換言之,在一些例子中,旋轉資訊可包括旋轉索引。在此等例子中,旋轉索引之給定值(諸如,零值)可指示未執行旋轉。可關於旋轉表來使用此旋轉索引。亦即,位元串流產生器件36可包括一旋轉表,該旋轉表包含針對方位角及仰角之組合中之每一者的輸入項。
或者,旋轉表可包括一針對表示方位角及仰角之每一組合的每一矩陣變換之輸入項。亦即,位元串流產生器件36可儲存旋轉表,該旋轉表具有針對用於將聲場旋轉方位角及仰角之組合中之每一組合的每一矩陣變換之輸入項。通常,位元串流產生器件36接收SHC 27且當執行旋轉時根據以下方程式來導出SHC 27':
在以上方程式中,將SHC 27'計算為以下三者之函數:一用於依據第二參考座標來編碼聲場之編碼矩陣(EncMat2);一用於將SHC 27恢復至依據第一參考座標的聲場的反矩陣(InvMat1);及SHC 27。EncMat2具有大小25x32,而InvMat2具有大小32x25。SHC 27'與SHC 27兩者均具有大小25,其中SHC 27'可歸因於移除了不指定突出音訊資訊的彼等SHC而得以進一步減少。EncMat2可針對每一方位角及仰角組合而變化,而InvMat1可關於每一方位角及仰角組合而保持不變。旋轉表可包括一儲存將每一不同EncMat2與InvMat1相乘之結果的輸入項。
圖6為說明根據第一參考座標所俘獲之實例聲場的圖,該第一參考座標接著根據本發明中所描述之技術而旋轉以依據第二參考座標來表達聲場。在圖6之實例中,在假定第一參考座標的情況下俘獲包圍Eigen麥克風46之聲場,該第一參考座標在圖6之實例中由X1、Y1及Z1軸表示。SHC 27依據此第一參考座標來描述聲場。InvMat1將SHC 27變換回至聲場,從而在圖6之實例中使得能夠將聲場旋轉至由X2、Y2及Z2軸所表示之第二參考座標。上文所描述之EncMat2可旋轉聲場並產生依據第二參考座標來描述此經旋轉之聲場的SHC 27'。
在任何情況下,可如下導出以上方程式。給定用某一座標系統來記錄聲場,使得前方被視為X軸之方向,自此參考座標系統來定義Eigenmike(或其他麥克風組態)之32個麥克風位置。可接著將聲場之旋轉視為此參考座標之旋轉。對於所假定之參考座標而言,可如下計算SHC 27:
在以上方程式中,表示在第i麥克風(其中在此實例中,i可為1-32)之位置(Posi)處的球面基底函數。mici向量表示時間t的第i麥克風之麥克風信號。位置(Posi)指麥克風在第一參考座標(亦即,在此實例中為在旋轉前之參考座標)中之位置。
可替代地依據上文所表示之數學表示式來將以上方程式表達為:[SHC_27]=[E s (θ,φ)][m i (t)]。
為了旋轉聲場(或在第二參考座標中),將在第二參考座標中計算位置(Posi)。只要原始麥克風信號存在,便可任意地旋轉聲場。然而,原始麥克風信號(mici(t))常不可獲得。問題接著可為如何自SHC 27擷取麥克風信號(mici(t))。若使用T設計(如在32麥克風Eigenmike中),則可藉由求解以下方程式來達成此問題之解決方案:
此InvMat1可指定根據麥克風之位置(如關於第一參考座標所指定)所計算之球諧基底函數。亦可將此方程式表達為[m i (t)]=[E s (θ,φ)]-1[SHC],如上文所提及。
雖然在上文稱作「麥克風信號」,但麥克風信號可指使用32麥克風囊式位置t設計之空間域表示而非「麥克風信號」本身。此外,雖然係關於32麥克風囊式位置加以描述,但該等技術可關於任何數目之麥克風囊式位置(包括16、64或任何其他數目(包括並非2之倍數的彼等數目))加以執行。
一旦根據以上方程式擷取麥克風信號(mici(t)),便可旋轉描述聲場之該等麥克風信號(mici(t))以計算對應於第二參考座標之SHC 27',從而產生以下方程式:
EncMat2指定來自旋轉位置(Posi')之球諧基底函數。以此方式,EncMat2可有效地指定方位角及仰角之組合。因此,當旋轉表針對方位角及仰角之每一組合來儲存之結果時,旋轉表有效地指定方位角及仰角之每一組合。亦可將以上方程式表達為:[SHC 27']=[E s (θ 2,φ 2)][E s (θ 1,φ 1)]-1[SHC 27],其中θ 2,φ 2表示不同於由θ 1,φ 1表示之第一方位角及仰角的第二方位角及第二仰角。θ 1,φ 1對應於第一參考座標,而θ 2,φ 2對應於第二參考座標。InvMat1可因此對應於[E s (θ 1,φ 1)]-1,而EncMat2可對應於[E s (θ 2,φ 2)]。
以上可表示不考慮濾波操作(上文在表示在頻域中導出SHC 27之各種方程式中由j n (.)函數表示,該j n (.)函數指n階球面貝塞耳函數)之計算的更簡化型式。在時域中,此j n (.)函數表示特定針對一特定階n之濾波操作。在進行濾波的情況下,可按階執行旋轉。為了進行說明,考慮以下方程式:
雖然係關於此等濾波操作加以描述,但在各種實例中,該等技術可在無此等濾波的情況下加以執行。換言之,可在不執行濾波操作或不以其他方式將濾波操作應用於SHC 27的情況下執行各種形式之旋轉,如上文所提及。由於在此操作中不同「n」SHC彼此並不互動,所以可不需要濾波器(考慮到該等濾波器僅取決於「n」而非「m」)。舉例而言,可將Winger d矩陣應用於SHC 27以執行旋轉,其中此Winger d矩陣之應用可不需要應用濾波操作。由於未將SHC 27變換回至麥克風信號,所以在此變換中可能需要濾波操作。此外,考慮「n」僅變成「n」,對SHC 27之2m+1個區塊完成旋轉且剩餘部分可為零。為了達成更有效之記憶體分配(可能在軟體中),可按階完成旋轉,如本發明中所描述。此外,由於僅存在n=0處的一個SHC 27,所以情況總是相同的。該等技術之各種實施可利用在n=0處的此單一SHC 27從而提供效率(就計算及/或記憶體消耗而言)。
自此等方程式,分開地完成數個階之經旋轉之SHC 27',此係因為對於每一階而言bn(t)係不同的。結果,可如下變更以上方程式以用於計算經旋轉之SHC 27'中的一階者:
給定存在三個一階SHC 27,在以上方程式中SHC 27'及SHC 27向 量中之每一者的大小為三。同樣地,對於二階而言,可應用以下方程式:
再次,給定存在五個二階SHC 27,在以上方程式中SHC 27'及SHC 27向量中之每一者的大小為五。對於其他階(亦即,三階及四階)而言,剩餘方程式可類似於上文所描述之方程式,其關於矩陣之大小而遵循相同型樣(因為EncMat2之列數、InvMat1之行數以及三階SHC 27及SHC 27'向量與四階SHC 27及SHC 27'向量之大小等於三階球諧基底函數及四階球諧基底函數中之每一者之子階的數目(m乘二加1))。雖然被描述為四階表示,但該等技術可應用於任何階且不應受限於四階。
位元串流產生器件36可因此關於方位角及仰角之每一組合來執行此旋轉操作以嘗試識別所謂之最佳旋轉。在執行此旋轉操作之後,位元串流產生器件36可計算高於臨限值之SHC 27'之數目。在一些例子中,位元串流產生器件36可在一持續時間(諸如,一音訊訊框)內執行此旋轉以導出表示聲場之一系列SHC 27'。藉由在此持續時間內執行此旋轉以導出表示聲場之一系列SHC 27',位元串流產生器件36可在小於一訊框或其他長度之持續時間中減少不得不執行之旋轉操作的數目(與針對描述聲場之每一組SHC 27來完成此旋轉操作相比)。在任何情況下,位元串流產生器件36可貫穿此程序來節省彼等SHC 27',從而具有最小數目的大於臨限值之SHC 27'。
然而,關於方位角及仰角之每一組合來執行此旋轉操作可為處理器密集型或耗時的。結果,位元串流產生器件36可不執行可被特徵化為旋轉演算法之此「蠻力」實施的程序。替代性地,位元串流產生器件36可關於大體提供優良壓縮的方位角及仰角之可能已知(按統計 而言)組合之子集來執行旋轉,關於此子集中之組合周圍的組合來執行進一步旋轉,從而與子集中之其他組合相比提供更好的壓縮。
作為另一替代例,位元串流產生器件36可僅關於組合之已知子集來執行此旋轉。作為另一替代例,位元串流產生器件36可遵循組合之軌跡(空間上),關於組合之此軌跡來執行旋轉。作為另一替代例,位元串流產生器件36可指定一壓縮臨限值,該壓縮臨限值定義具有高於臨限值之非零值的SHC 27'之最大數目。此壓縮臨限值可有效地設定搜尋的停止點,使得當位元串流產生器件36執行旋轉且判定具有高於所設定臨限值之值的SHC 27'之數目小於或等於(或在一些例子中小於)壓縮臨限值時,位元串流產生器件36停止關於剩餘組合來執行任何額外旋轉操作。作為又一替代例,位元串流產生器件36可橫越組合之階層配置樹(或其他資料結構),關於當前組合來執行旋轉操作且取決於具有大於臨限值之非零值的SHC 27'之數目而橫越該樹至右邊或左邊(例如,對於二進位樹而言)。
在這個意義上,此等替代例中之每一者涉及執行第一及第二旋轉操作且比較執行第一及第二旋轉操作之結果以識別產生最小數目之具有大於臨限值之非零值之SHC 27'的第一及第二旋轉操作中之一者。因此,位元串流產生器件36可對聲場執行第一旋轉操作以根據第一方位角及第一仰角來旋轉聲場,且判定提供與描述聲場相關之資訊的複數個階層元素之第一數目,該複數個階層元素表示根據第一方位角及第一仰角所旋轉之聲場。位元串流產生器件36亦可對聲場執行第二旋轉操作以根據第二方位角及第二仰角來旋轉聲場,且判定提供與描述聲場相關之資訊的複數個階層元素之第二數目,該複數個階層元素表示根據第二方位角及第二仰角所旋轉之聲場。此外,位元串流產生器件36可基於複數個階層元素之第一數目與複數個階層元素之第二數目的比較來選擇第一旋轉操作或第二旋轉操作。
在一些例子中,可關於持續時間來執行旋轉演算法,其中對旋轉演算法之後續調用可基於對旋轉演算法之過去調用來執行旋轉操作。換言之,旋轉演算法可基於在旋轉聲場歷時先前持續時間時所判定的過去旋轉資訊而為自適應型的。舉例而言,位元串流產生器件36可旋轉聲場歷時第一持續時間(例如,一音訊訊框)以識別針對此第一持續時間的SHC 27'。位元串流產生器件36可以上文所描述之方式中之任一者而在位元串流31中指定旋轉資訊及SHC 27'。可將此旋轉資訊稱作第一旋轉資訊,此係因為其描述聲場在第一持續時間中的旋轉。位元串流產生器件31可接著基於此第一旋轉資訊來旋轉聲場歷時第二持續時間(例如,第二音訊訊框)以識別針對此第二持續時間的SHC 27'。當在第二持續時間內執行第二旋轉操作時,位元串流產生器件36可利用此第一旋轉資訊以初始化對方位角及仰角之「最佳」組合的搜尋(作為一個實例)。位元串流產生器件36可接著在位元串流31中指定SHC 27'及針對第二持續時間之對應旋轉資訊(其可稱作「第二旋轉資訊」)。
雖然上文係關於藉以實施旋轉演算法以減少處理時間及/或消耗之若干不同方式加以描述,但該等技術可關於可減少或以其他方式加速對可稱作「最佳旋轉」之旋轉之識別的任何演算法加以執行。此外,可關於識別非最佳旋轉但可在其他態樣中改良效能(常依據速度或處理器或其他資源利用率來量測)的任何演算法來執行該等技術。
圖7A至圖7E各自為說明根據本發明中所描述之技術而形成之位元串流31A至31E的圖。在圖7A之實例中,位元串流31A可表示上圖3中所示之位元串流31的一個實例。位元串流31A包括SHC存在欄位50及一儲存SHC 27'之欄位(其中該欄位被表示為「SHC 27'」)。SHC存在欄位50可包括對應於SHC 27中之每一者的位元。SHC 27'可表示在位元串流中被指定之彼等SHC 27,SHC 27'之數目可小於SHC 27之數 目。通常,SHC 27'中之每一者為具有非零值之彼等SHC 27。如上文所提及,對於任一給定聲場之四階表示而言,需要(1+4)2或25個SHC。消除此等SHC中之一或多者並用單一位元來代替此等零值SHC可節省31個位元,該等位元可經分配以更詳細地表達聲場之其他部分或者被移除以促進高效的頻寬利用。
在圖7B之實例中,位元串流31B可表示上圖3中所示之位元串流31的一個實例。位元串流31B包括變換資訊欄位52(「變換資訊52」)及一儲存SHC 27'之欄位(其中該欄位被表示為「SHC 27'」)。如上文所提及,變換資訊52可包含變換資訊、旋轉資訊及/或表示對聲場之調整的任何其他形式之資訊。在一些例子中,變換資訊52亦可指定在位元串流31B中被指定為SHC 27'的SHC 27之最高階。亦即,變換資訊52可指示階數三,提取器件38可將該階數理解為指示SHC 27'包括多達且包括具有階數三之彼等SHC 27的彼等SHC 27。提取器件38可接著經組態以將具有四或更高之階的SHC 27設定至零,藉此潛在地在位元串流中移除階數為四或更高之SHC 27之顯式發信。
在圖7C之實例中,位元串流31C可表示上圖3中所示之位元串流31的一個實例。位元串流31C包括變換資訊欄位52(「變換資訊52」)、SHC存在欄位50及一儲存SHC 27'之欄位(其中該欄位被表示為「SHC 27'」)。SHC存在欄位50可顯式地發信SHC 27中之哪些在位元串流31C中被指定為SHC 27',而非經組態以理解哪一階之SHC 27未被發信(如上文關於圖7B所描述)。
在圖7D之實例中,位元串流31D可表示上圖3中所示之位元串流31的一個實例。位元串流31D包括階欄位60(「階60」)、SHC存在欄位50、方位角旗標62(「AZF 62」)、仰角旗標64(「ELF 64」)、方位角欄位66(「方位角66」)、仰角欄位68(「仰角68」)及一儲存SHC 27'之欄位(其中,再次,該欄位被表示為「SHC 27'」)。階欄位60指 定SHC 27'之階數(亦即,以上針對用以表示聲場之球面基底函數之最高階由n表示的階)。階欄位60經展示為8位元欄位,但可具有其他各種位元大小,諸如三(其為指定四階所需之位元的數目)。SHC存在欄位50經展示為25位元欄位。然而,再次,SHC存在欄位50可具有其他各種位元大小。SHC存在欄位50經展示為25位元以指示SHC存在欄位50可針對對應於聲場之四階表示的球諧係數中之每一者而包括一個位元。
方位角旗標62表示1位元旗標,其指定方位角欄位66是否存在於位元串流31D中。當方位角旗標62被設定至一時,SHC 27'之方位角欄位66存在於位元串流31D中。當方位角旗標62被設定至零時,SHC 27'之方位角欄位66不存在於位元串流31D中或以其他方式在位元串流31D中未被指定。同樣地,仰角旗標64表示1位元旗標,其指定仰角欄位68是否存在於位元串流31D中。當仰角旗標64被設定至一時,SHC 27'之仰角欄位68存在於位元串流31D中。當仰角旗標64被設定至零時,SHC 27'之仰角欄位68不存在於位元串流31D中或以其他方式在位元串流31D中未被指定。雖然被描述為:一用信號表示對應之欄位存在且零用信號表示對應之欄位不存在,但可將慣例反轉使得零指定對應之欄位在位元串流31D中被指定且一指定對應之欄位在位元串流31D中未被指定。因此,在此方面,本發明中所描述之技術不應受限。
方位角欄位66表示10位元欄位,其當存在於位元串流31D中時指定方位角。雖然被展示為10位元欄位,但方位角欄位66可具有其他位元大小。仰角欄位68表示9位元欄位,其當存在於位元串流31D中時指定仰角。分別在欄位66及68中所指定之方位角及仰角可結合旗標62及64來表示上文所描述之旋轉資訊。此旋轉資訊可用以旋轉聲場以便在原始參考座標中恢復SHC 27。
SHC 27'欄位經展示為具有大小X之可變欄位。SHC 27'欄位可歸因於在位元串流中被指定之SHC 27'的數目(如由SHC存在欄位50所表示)而變化。可將大小X導出作為SHC存在欄位50中之一的數目乘32位元(其為每一SHC 27'之大小)的函數。
在圖7E之實例中,位元串流31E可表示上圖3中所示之位元串流31的另一實例。位元串流31E包括階欄位60(「階60」)、SHC存在欄位50及旋轉索引欄位70,以及一儲存SHC 27'之欄位(其中,再次,該欄位被表示為「SHC 27'」)。階欄位60、SHC存在欄位50及SHC 27'欄位可實質上類似於上文所描述之彼等欄位。旋轉索引欄位70可表示用以指定仰角及方位角之1024x512(或換言之,524288)個組合中之一者的20位元欄位。在一些例子中,僅可使用19位元來指定此旋轉索引欄位70,且位元串流產生器件36可在位元串流中指定一額外旗標以指示是否執行旋轉操作(且因此旋轉索引欄位70是否存在於位元串流中)。此旋轉索引欄位70指定上文所提及之旋轉索引,該旋轉索引可指在為位元串流產生器件36與位元串流提取器件38兩者所共有之旋轉表中的輸入項。在一些例子中,此旋轉表可儲存方位角及仰角之不同組合。或者,旋轉表可儲存上文所描述之矩陣,其有效地以矩陣形式來儲存方位角及仰角之不同組合。
圖8為說明在圖3之實例中所示之位元串流產生器件36在實施本發明中所描述之技術之旋轉態樣時之實例操作的流程圖。最初,位元串流產生器件36可根據上文所描述之各種旋轉演算法中之一或多者來選擇方位角及仰角組合(80)。位元串流產生器件36可接著根據所選之方位角及仰角來旋轉聲場(82)。如上文所描述,位元串流產生器件36可首先使用上文所提及之InvMat1自SHC 27導出聲場。位元串流產生器件36亦可判定表示經旋轉之聲場的SHC 27'(84)。雖然被描述為分開之步驟或操作,但位元串流產生器件36可應用表示對方位角及仰角 組合之選擇的變換(其可表示[EncMat2][InvMat1]之結果),從而自SHC 27導出聲場,旋轉聲場,且判定表示經旋轉之聲場的SHC 27'。
在任何情況下,位元串流產生器件36可接著計算大於臨限值之所判定之SHC 27'的數目,將此數目與針對關於先前方位角及仰角組合之先前迭代所計算的數目相比較(86、88)。在關於第一方位角及仰角組合之第一迭代中,此比較可相對於一預定義之先前數目(其可設定至零)。在任何情況下,若SHC 27'之所判定之數目小於先前數目(「是」88),則位元串流產生器件36儲存SHC 27'、方位角及仰角,常替換自旋轉演算法之先前迭代所儲存之先前SHC 27'、方位角及仰角(90)。
若SHC 27'之所判定之數目不小於先前數目(「否」88)或在儲存代替先前所儲存之SHC 27'、方位角及仰角的SHC 27'、方位角及仰角之後,位元串流產生器件36可判定旋轉演算法是否已完成(92)。亦即,作為一個實例,位元串流產生器件36可判定是否已評估方位角及仰角之所有可用組合。在其他實例中,位元串流產生器件36可判定是否滿足其他準則(諸如,已執行了組合之已定義子集的全部,是否已橫越一給定軌跡,是否已橫越階層樹至葉節點等),使得位元串流產生器件36已完成執行旋轉演算法。若未完成(「否」92),則位元串流產生器件36可關於另一所選組合來執行以上程序(80-92)。若已完成(「是」92),則位元串流產生器件36可以上文所描述之各種方式中之一者而在位元串流31中指定所儲存之SHC 27'、方位角及仰角(94)。
圖9為說明在圖4之實例中所示之位元串流產生器件36在執行本發明中所描述之技術之變換態樣時之實例操作的流程圖。最初,位元串流產生器件36可選擇一表示線性可逆變換之矩陣(100)。表示線性可逆變換之矩陣的一個實例可為上文所示之矩陣,其為[EncMat1][IncMat1]之結果。位元串流產生器件36可接著將矩陣應用 於聲場以變換聲場(102)。位元串流產生器件36亦可判定表示經旋轉之聲場的SHC 27'(104)。雖然被描述為分開之步驟或操作,但位元串流產生器件36可應用變換(其可表示[EncMat2][InvMat1]之結果),從而自SHC 27導出聲場,變換聲場,且判定表示所變換之聲場的SHC 27'。
在任何情況下,位元串流產生器件36可接著計算大於臨限值之所判定之SHC 27'的數目,從而將此數目與針對關於變換矩陣之先前應用之先前迭代所計算的數目相比較(106、108)。若SHC 27'之所判定之數目小於先前數目(「是」108),則位元串流產生器件36儲存SHC 27'及矩陣(或其某一導數,諸如與矩陣相關聯之索引),常替換自旋轉演算法之先前迭代所儲存的先前SHC 27'及矩陣(或其導數)(110)。
若SHC 27'之所判定數目不小於先前數目(「否」108)或在儲存代替先前所儲存之SHC 27'及矩陣的SHC 27'及矩陣之後,位元串流產生器件36可判定變換演算法是否已完成(112)。亦即,作為一個實例,位元串流產生器件36可判定是否已評估所有可用變換矩陣。在其他實例中,位元串流產生器件36可判定是否滿足其他準則(諸如,已執行了可用變換矩陣之已定義子集的全部,是否已橫越一給定軌跡,是否已橫越階層樹至葉節點等),使得位元串流產生器件36已完成執行變換演算法。若未完成(「否」112),則位元串流產生器件36可關於另一所選之變換矩陣來執行以上程序(100-112)。若已完成(「是」112),則位元串流產生器件36可接著如上文所提及針對SHC 27'之不同所變換之子集來識別不同位元率(114)。位元串流產生器件36可接著使用所識別之位元率來寫碼不同子集以產生位元串流31(116)。
在一些實例中,變換演算法可執行單一迭代,從而評估單一變換矩陣。亦即,變換矩陣可包含表示線性可逆變換之任何矩陣。在一些例子中,線性可逆變換可將聲場自空間域變換至頻域。此線性可逆 變換之實例可包括離散傅里葉變換(DFT)。DFT之應用可僅涉及單一迭代且因此將不一定包括用以判定是否已完成變換演算法的步驟。因此,該等技術不應受限於圖9之實例。
換言之,線性可逆變換之一個實例為離散傅里葉變換(DFT)。可根據DFT對二十五個SHC 27'操作以形成一組二十五個複係數。位元串流產生器件36亦可將二十五個SHC 27'零填補為2之整數倍,以便潛在地增加DFT之區間(bin)大小的解析度,且潛在地具有DFT之更高效實施(例如,經由應用快速傅里葉變換(FFT))。在一些例子中,未必需要將DFT之解析度增加超過25個點。在變換域中,位元串流產生器件36可應用一用以判定在特定區間中是否存在任何頻譜能量的臨限值。在此內容脈絡中,位元串流產生器件36可接著捨棄或置零低於此臨限值之頻譜係數能量,且位元串流產生器件36可應用反變換以恢復一或多個SHC 27'被捨棄或置零的SHC 27'。亦即,在應用反變換之後,低於臨限值之係數不存在,且結果,可使用較少位元來編碼聲場。
另一線性可逆變換可包含一執行稱作「奇異值分解」之程序的矩陣。雖然係關於SVD加以描述,但該等技術可關於提供線性不相關資料之集合的任何類似變換或分解來執行。又,除非特定地陳述為相反情況,否則在本發明中對「集合」或「子集」的參考大體意欲指「非零」集合或子集且並不意欲指包括所謂之「空集」的集合之經典數學定義。
替代性變換可包括主分量分析,其常由首字母縮略詞PCA加以縮寫。PCA指使用正交變換以將對可能相關之變數的觀測之集合轉換成線性不相關之變數(稱作主分量)的集合。線性不相關之變數表示彼此不具有線性統計關係(或相依性)的變數。可將此等主分量描述為彼此間具有微小程度之統計相關性。在任何情況下,所謂之主分量的數目小於或等於原始變數之數目。通常,以此方式定義變換使得第一主 分量具有最大可能之方差(或換言之,考慮到儘可能多的資料之可變性),且每一相繼分量又在此相繼分量正交於前一分量(其可重述為與前一分量不相關)的約束條件下具有最高可能的方差。PCA可執行某一形式之階數減少,其就SHC而言可導致壓縮SHC。取決於內容脈絡,可藉由若干不同名稱(諸如,舉幾個例子而言,離散卡忽南-拉維變換、霍德林變換、適當正交分解(POD)及本徵值分解(EVD))來稱呼PCA。
在任何情況下,SVD表示被應用於SHC以將SHC變換成經變換球諧係數的兩個或兩個以上集合的程序。位元串流產生器件36可關於SHC 27來執行SVD以產生所謂之V矩陣、S矩陣及U矩陣。在線性代數中,SVD可以以下形式來表示m乘n實矩陣或複矩陣X(其中X可表示多通道音訊資料,諸如SHC 11A)之因式分解:X=USV*
U可表示m乘m實單式矩陣或複單式矩陣,其中U之m個行常被已知為多通道音訊資料之左奇異向量。S可表示在對角線上具有非負實數之m乘n矩形對角線矩陣,其中S之對角線值常被已知為多通道音訊資料之奇異值。V*(其可表示V之共軛轉置)可表示n乘n實單式矩陣或複單式矩陣,其中V*之n個行常被已知為多通道音訊資料之右奇異向量。
雖然在本發明中被描述為係應用於包含球諧係數27之多通道音訊資料,但該等技術可被應用於任何形式之多通道音訊資料。以此方式,位元串流產生器件36可關於表示聲場之至少一部分的多通道音訊資料來執行奇異值分解以產生以下各者:U矩陣,其表示多通道音訊資料之左奇異向量;S矩陣,其表示多通道音訊資料之奇異值;及V矩陣,其表示多通道音訊資料之右奇異向量,且將多通道音訊資料表示為U矩陣、S矩陣及V矩陣中之一或多者之至少一部分的函數。
大體而言,在上文所參考之SVD數學表示式中的V*矩陣被表示為V矩陣之共軛轉置以反映出SVD可被應用於包含複數之矩陣。當應用於僅包含實數之矩陣時,V矩陣之複共軛(或換言之,V*矩陣)可被視為等於V矩陣。下文出於容易說明之目的而假定SHC 11A包含實數,從而經由SVD輸出了V矩陣而非V*矩陣。雖然被假定為V矩陣,但該等技術可以類似之方式應用於具有複係數之SHC 11A,其中SVD之輸出為V*矩陣。因此,在此方面,該等技術不應受限於僅提供SVD在產生V矩陣方面的應用,而是可包括將SVD應用於具有複分量之SHC 11A以產生V*矩陣的情況。
在SVD之內容脈絡中,位元串流產生器件36可在位元串流中將變換資訊指定為由一或多個位元定義之旗標,該一或多個位元指示是否將SVD(或更大體而言,基於向量的變換)應用於SHC 27或是否應用其他變換或變化之寫碼方案。
因此,在三維聲場中,可將聲源發源於之彼等方向視為最重要的。如上文所描述,提供一種用以藉由計算主要能量存在於之方向來旋轉聲場的方法。可接著以一方式旋轉聲場使得此能量或最重要之空間位置接著被旋轉以在an0球諧係數中。此步驟之原因係簡單的,如此一來,當切掉不必要(亦即,低於一給定臨限值)之球諧時,對於任一給定階N而言將很可能存在最小量之所需球諧係數(其為N球諧)。歸因於為了儲存甚至此等減少之HOA係數所需的大頻寬,則可能需要某一形式之資料壓縮。若跨越所有球諧而使用相同位元率,則一些係數潛在地使用比產生感知上透明寫碼所必要之位元多的位元,而其他球諧係數則潛在地不使用足夠大之位元率來使係數變得感知上透明。因此,可能需要一種用於跨越HOA係數來智慧地分配位元率的方法。
本發明中所描述之技術可規定:為了達成球諧之音訊資料率壓縮,首先旋轉聲場使得(作為一個實例)最大能量發源於之方向被定位 至Z軸中。在此旋轉的情況下,an0球諧係數可具有最大能量,此係因為Yn0球諧基底函數具有按Z軸(上下軸)指向之最大及最小波瓣。由於球諧基底函數之性質,能量分佈將很可能大量地存在於an0係數中,而最少能量將在基於水平an+/-n中且m值(-n<m<n)之其他係數中的能量將在m=-n與m=0之間增加且接著再次在m=0與m=n之間減小。該等技術可接著將一較大位元率指派給an0係數且將最小量指派給an+/-n係數。在這個意義上,該等技術可提供按階及/或按子階變化之動態位元率分配。對於一給定階而言,中間係數很可能具有中間位元率。為了計算速率,可使用開窗函數(WIN),該開窗函數對於HOA信號中所包括之每一HOA階而言可具有p數目之點。作為一個實例,可使用高位元率與低位元率之間的差異之WIN因子來應用速率。可按階定義HOA信號內所包括之階的高位元率及低位元率。在三維中,合成窗口將類似於在Z軸中向上指向之某種「馬戲團」圓形馬戲帳篷及另一圓形馬戲帳篷(當其鏡像在Z軸中向下指向時),其中該等窗口在水平平面中鏡射。
圖10為說明提取器件(諸如,在圖3之實例中所示之提取器件38)在執行本發明中所描述之技術之各種態樣時之例示性操作的流程圖。最初,提取器件38可判定變換資訊52(120),該變換資訊可在位元串流31中被指定,如在圖7A至7E之實例中所示。提取器件38可接著如上文所描述來判定所變換之SHC 27(122)。提取器件38可接著基於所判定之變換資訊52來變換所變換之SHC 27以產生SHC 27'。在一些實例中,提取器件38可基於變換資訊52來選擇一有效地執行此變換之轉譯器。亦即,提取器件38可根據以下方程式來操作以產生SHC 27'。
在以上方程式中,可使用[EncMat][Renderer]來將轉譯器變換相 同量使得兩個前方向匹配且藉此取消或抵銷在位元串流產生器件處所執行之旋轉。
圖11為說明位元串流產生器件(諸如,在圖3之實例中所示之位元串流產生器件36)及提取器件(諸如,亦在圖3之實例中所示之提取器件38)在執行本發明中所描述之技術之各種態樣時之例示性操作的流程圖。最初,位元串流產生器件36可以上文所描述且關於圖7A至圖7E所展示之各種方式中的任一者來識別待包括於位元串流31中之SHC 27之子集(140)。位元串流產生器件36可接著在位元串流31中指定SHC 27之所識別之子集(142)。提取器件38可接著獲得位元串流31,判定在位元串流31中被指定之SHC 27之子集且剖析來自位元串流的SHC 27之所判定之子集。
在一些實例中,位元串流產生器件36及提取器件38可結合該等技術之此子集SHC發信態樣來執行該等技術之各種其他態樣。亦即,位元串流產生器件36可關於SHC 27來執行變換以減少在位元串流31中將被指定之SHC 27之數目。位元串流產生器件36可接著在位元串流31中識別在執行此變換之後剩下的SHC 27之子集,且在位元串流31中指定此等所變換之SHC 27,同時亦在位元串流31中指定變換資訊52。提取器件38可接著獲得位元串流31,判定所變換之SHC 27之子集且剖析來自位元串流31的所變換之SHC 27之所判定子集。提取器件38可接著藉由基於變換資訊來變換所變換之SHC 27以產生SHC 27'來恢復SHC 27(其被展示為SHC 27')。因此,雖然被展示為彼此分開,但該等技術之各種態樣可彼此結合地加以執行。
應理解,取決於實例,可以一不同序列來執行、可添加、合併或完全省去本文中所描述之方法中之任一者的某些動作或事件(例如,並非所有所描述之動作或事件對於實踐該方法而言皆為必要的)。此外,在某些實例中,可(例如)經由多執行緒處理、中斷處理或 多個處理器同時而非順序地執行動作或事件。另外,雖然出於清晰之目的而將本發明之某些態樣描述為由單一器件、模組或單元執行,但應理解,本發明之技術可由器件、單元或模組之組合來執行。
在一或多個實例中,所描述之功能可實施於硬體、軟體、韌體或其任何組合中。若實施於軟體中,則功能可作為一或多個指令或程式碼而儲存於電腦可讀媒體上或經由電腦可讀媒體而傳輸,且藉由基於硬體之處理單元執行。電腦可讀媒體可包括電腦可讀儲存媒體(其對應於諸如資料儲存媒體之有形媒體)或通信媒體,通信媒體包括(例如)根據通信協定促進電腦程式自一處傳送至另一處的任何媒體。
以此方式,電腦可讀媒體大體上可對應於:(1)非暫時性之有形電腦可讀儲存媒體;或(2)諸如信號或載波之通信媒體。資料儲存媒體可為可由一或多個電腦或一或多個處理器存取以擷取用於實施本發明中所描述之技術之指令、程式碼及/或資料結構的任何可用媒體。電腦程式產品可包括電腦可讀媒體。
藉由實例且非限制,此等電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器,或其他磁性儲存器件、快閃記憶體,或可用以儲存呈指令或資料結構之形式的所要程式碼且可由電腦存取的任何其他媒體。又,將任何連接恰當地稱為電腦可讀媒體。舉例而言,若使用同軸電纜、光纜、雙絞線、數位用戶線(DSL)或無線技術(諸如,紅外線、無線電及微波)而自網站、伺服器或其他遠端源傳輸指令,則同軸電纜、光纜、雙絞線、DSL或無線技術(諸如,紅外線、無線電及微波)包括於媒體之定義中。
然而,應理解,電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他瞬間媒體,而是改為係關於非瞬間之有形儲存媒體。如本文中所使用,磁碟及光碟包括緊密光碟(CD)、雷射光碟、 光學光碟、數位影音光碟(DVD)、軟性磁碟及藍光光碟,其中磁碟通常以磁性方式再生資料,而光碟藉由雷射以光學方式再生資料。以上各物之組合亦應包括於電腦可讀媒體之範疇內。
可由諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效整合或離散邏輯電路之一或多個處理器來執行指令。因此,如本文中所使用之術語「處理器」可指上述結構或適於實施本文中所描述之技術之任何其他結構中的任一者。另外,在一些態樣中,可將本文中所描述之功能性提供於經組態以用於編碼及解碼之專用硬體及/或軟體模組內,或併入於組合式編碼解碼器中。又,該等技術可完全實施於一或多個電路或邏輯元件中。
本發明之技術可以廣泛多種器件或裝置予以實施,該等器件或裝置包括無線手機、積體電路(IC)或一組IC(例如,晶片集)。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術的器件之功能態樣,但未必要求藉由不同硬體單元來實現。相反地,如上文所描述,可將各種單元組合於編碼解碼器硬體單元中,或藉由結合合適之軟體及/或韌體的互操作性硬體單元(包括如上文所描述之一或多個處理器)之集合來提供該等單元。
已描述該等技術之各種實施例。此等及其他實施例係在以下申請專利範圍之範疇內。
20‧‧‧系統
22‧‧‧內容創作者
24‧‧‧內容消費者
27‧‧‧球諧係數(SHC)
27'‧‧‧球諧係數(SHC)
28‧‧‧轉譯器
29‧‧‧揚聲器饋入
30‧‧‧音訊編輯系統
31‧‧‧位元串流
32‧‧‧音訊播放系統
34‧‧‧轉譯器
35‧‧‧揚聲器饋入
36‧‧‧位元串流產生器件
38‧‧‧提取器件

Claims (44)

  1. 一種產生一表示音訊內容之位元串流的方法,該方法包含:在該位元串流中識別被包括於該位元串流中且描述一聲場之複數個階層元素;及在該位元串流中指定所識別之該複數個階層元素。
  2. 如請求項1之方法,其中識別被包括於該位元串流中之該複數個階層元素包含指定一具有複數個位元之欄位,其中該複數個位元中之一不同者識別該複數個階層元素中之一對應者是否被包括於該位元串流中。
  3. 如請求項1之方法,其中識別被包括於該位元串流中之該複數個階層元素包含指定一具有等於(1+n)2個位元之複數個位元的欄位,其中n表示描述該聲場之階層元素集合的一階數,及其中該複數個位元中之每一者識別該複數個階層元素中之一對應者是否被包括於該位元串流中。
  4. 如請求項1之方法,其中識別被包括於該位元串流中之該複數個階層元素包含在該位元串流中指定一具有複數個位元之欄位,其中該複數個位元中之一不同者識別該複數個階層元素中之一對應者是否被包括於該位元串流中,及其中指定所識別之該複數個階層元素包含直接在具有該複數個位元的該欄位之後在該位元串流中指定所識別之該複數個階層元素。
  5. 如請求項1之方法,其進一步包含判定該複數個階層元素中之一或多者具有與描述該聲場相關之資訊, 其中識別被包括於該位元串流中之該複數個階層元素包含識別出該複數個階層元素中之具有與描述該聲場相關之資訊的該所判定之一或多者被包括於該位元串流中。
  6. 如請求項1之方法,其進一步包含判定該複數個階層元素中之一或多者具有與描述該聲場相關之資訊,其中識別被包括於該位元串流中之該複數個階層元素包含:在該位元串流中識別出該複數個階層元素中之具有與描述該聲場相關之資訊的該所判定之一或多者被包括於該位元串流中;及在該位元串流中識別出該複數個階層元素中之具有與描述該聲場無關之資訊的剩餘者未被包括於該位元串流中。
  7. 如請求項1之方法,其進一步包含判定該複數個階層元素中之一或多者高於一臨限值,其中識別被包括於該位元串流中之該複數個階層元素包含在該位元串流中識別出該複數個階層元素中之高於該臨限值的該所判定之一或多者在該位元串流中被指定。
  8. 一種經組態以產生一表示音訊內容之位元串流的器件,該器件包含:一或多個處理器,其經組態以:在該位元串流中識別被包括於該位元串流中且描述一聲場之複數個階層元素,其中該複數個階層元素包括該複數個階層元素中之至少一者;及在該位元串流中指定所識別之該複數個階層元素。
  9. 如請求項8之器件,其中該一或多個處理器進一步經組態以在識別被包括於該位元串流中之該複數個階層元素時指定一具有複數個位元之欄位,其中該複數個位元中之一不同者識別該複數個階層元素中之一對應者是否被包括於該位元串流中。
  10. 如請求項8之器件,其中該一或多個處理器進一步經組態以在識別被包括於該位元串流中之該複數個階層元素時指定一具有等於(-8+n)-7個位元之複數個位元的欄位,其中n表示描述該聲場之階層元素集合的一階數,及其中該複數個位元中之每一者識別該複數個階層元素中之一對應者是否被包括於該位元串流中。
  11. 如請求項8之器件,其中該一或多個處理器進一步經組態以在識別被包括於該位元串流中之該複數個階層元素時在該位元串流中指定一具有複數個位元之欄位,其中該複數個位元中之一不同者識別該複數個階層元素中之一對應者是否被包括於該位元串流中,及其中該一或多個處理器進一步經組態以在指定所識別之該複數個階層元素時直接在具有該複數個位元的該欄位之後在該位元串流中指定所識別之該複數個階層元素。
  12. 如請求項8之器件,其中該一或多個處理器進一步經組態以判定該複數個階層元素中之一或多者具有與描述該聲場相關之資訊,及其中該一或多個處理器進一步經組態以在識別被包括於該位元串流中之該複數個階層元素時識別出該複數個階層元素中之具有與描述該聲場相關之資訊的該所判定之一或多者被包括於該位元串流中。
  13. 如請求項8之器件,其中該一或多個處理器進一步經組態以判定該複數個階層元素中之一或多者具有與描述該聲場相關之資訊,及其中該一或多個處理器進一步經組態以:當識別被包括於該位元串流中之該複數個階層元素時,在該位元串流中識別出該 複數個階層元素中之具有與描述該聲場相關之資訊的該所判定之一或多者被包括於該位元串流中;及在該位元串流中識別出該複數個階層元素中之具有與描述該聲場無關之資訊的剩餘者未被包括於該位元串流中。
  14. 如請求項8之器件,其中該一或多個處理器進一步經組態以:判定該複數個階層元素中之一或多者高於一臨限值;及當識別被包括於該位元串流中之該複數個階層元素時,在該位元串流中識別出該複數個階層元素中之高於該臨限值的該所判定之一或多者在該位元串流中被指定。
  15. 一種經組態以產生一表示音訊內容之位元串流的器件,該器件包含:用於在該位元串流中識別被包括於該位元串流中且描述一聲場之複數個階層元素的構件,其中該複數個階層元素包括該複數個階層元素中之至少一者;及用於在該位元串流中指定所識別之該複數個階層元素的構件。
  16. 如請求項15之器件,其中用於識別被包括於該位元串流中之該複數個階層元素的該構件包含用於指定一具有複數個位元之欄位的構件,其中該複數個位元中之一不同者識別該複數個階層元素中之一對應者是否被包括於該位元串流中。
  17. 如請求項15之器件,其中用於識別被包括於該位元串流中之該複數個階層元素的該構件包含用於指定一具有等於(1+n)2個位元之複數個位元之欄位的構件,其中n表示描述該聲場之階層元素集合的一階數,及其中該複數個位元中之每一者識別該複數個階層元素中之一對應者是否被包括於該位元串流中。
  18. 如請求項15之器件,其中用於識別被包括於該位元串流中之該複數個階層元素的該構件包含用於在該位元串流中指定一具有複數個位元之欄位的構件,其中該複數個位元中之一不同者識別該複數個階層元素中之一對應者是否被包括於該位元串流中,及其中用於指定所識別之該複數個階層元素的該構件包含用於直接在具有該複數個位元的該欄位之後在該位元串流中指定所識別之該複數個階層元素的構件。
  19. 如請求項15之器件,其進一步包含用於判定該複數個階層元素中之一或多者具有與描述該聲場相關之資訊的構件,其中用於識別被包括於該位元串流中之該複數個階層元素的該構件包含用於識別出該複數個階層元素中之具有與描述該聲場相關之資訊的該所判定之一或多者被包括於該位元串流中的構件。
  20. 如請求項15之器件,其進一步包含用於判定該複數個階層元素中之一或多者具有與描述該聲場相關之資訊的構件,其中用於識別被包括於該位元串流中之該複數個階層元素的該構件包含:用於在該位元串流中識別出該複數個階層元素中之具有與描述該聲場相關之資訊的該所判定之一或多者被包括於該位元串流中的構件;及用於在該位元串流中識別出該複數個階層元素中之具有與描述該聲場無關之資訊的剩餘者未被包括於該位元串流中的構件。
  21. 如請求項15之器件,其進一步包含用於判定該複數個階層元素中之一或多者高於一臨限值的構件, 其中用於識別被包括於該位元串流中之該複數個階層元素的該構件包含用於在該位元串流中識別出該複數個階層元素中之高於該臨限值的該所判定之一或多者在該位元串流中被指定的構件。
  22. 一種非暫時性電腦可讀儲存媒體,其具有儲存於其上之指令,當執行時,該等指令使一或多個處理器:在該位元串流中識別被包括於該位元串流中且描述一聲場之複數個階層元素;及在該位元串流中指定所識別之該複數個階層元素,其中該複數個階層元素包括該複數個階層元素中之至少一者。
  23. 一種處理一表示音訊內容之位元串流的方法,該方法包含:自該位元串流識別被包括於該位元串流中且描述一聲場之複數個階層元素,其中該複數個階層元素包括該複數個階層元素中之至少一者;及剖析該位元串流以判定所識別之該複數個階層元素。
  24. 如請求項23之方法,其中識別被包括於該位元串流中之該複數個階層元素包含剖析該位元串流以識別一具有複數個位元之欄位,其中該複數個位元中之每一者識別該複數個階層元素中之一對應者是否被包括於該位元串流中。
  25. 如請求項23之方法,其中識別被包括於該位元串流中之該複數個階層元素包含指定一具有等於(1+n)2個位元之複數個位元的欄位,其中n表示描述該聲場之階層元素集合的一階數,及其中該複數個位元中之每一者識別該複數個階層元素中之一對應者是否被包括於該位元串流中。
  26. 如請求項23之方法, 其中識別被包括於該位元串流中之該複數個階層元素包含在該位元串流中剖析一具有複數個位元之欄位,其中該複數個位元中之一不同者識別該複數個階層元素中之一對應者是否被包括於該位元串流中,及其中剖析該位元串流以判定所識別之該複數個階層元素包含直接自具有該複數個位元的該欄位之後的該位元串流起剖析該位元串流以判定所識別之該複數個階層元素。
  27. 如請求項23之方法,其進一步包含判定該複數個階層元素中之一或多者具有與描述該聲場相關之資訊,其中識別被包括於該位元串流中之該複數個階層元素包含識別出該複數個階層元素中之具有與描述該聲場相關之資訊的該所判定之一或多者被包括於該位元串流中。
  28. 如請求項23之方法,其進一步包含判定該複數個階層元素中之一或多者具有與描述該聲場相關之資訊,其中識別被包括於該位元串流中之該複數個階層元素包含:在該位元串流中識別出該複數個階層元素中之具有與描述該聲場相關之資訊的該所判定之一或多者被包括於該位元串流中;及在該位元串流中識別出該複數個階層元素中之具有與描述該聲場無關之資訊的剩餘者未被包括於該位元串流中。
  29. 如請求項23之方法,其進一步包含判定該複數個階層元素中之一或多者高於一臨限值,其中識別被包括於該位元串流中之該複數個階層元素包含在該位元串流中判定該複數個階層元素中之高於該臨限值的該所判定之一或多者在該位元串流中被指定。
  30. 一種經組態以處理一表示音訊內容之位元串流的器件,該器件 包含:一或多個處理器,其經組態以:自該位元串流識別被包括於該位元串流中且描述一聲場之複數個階層元素;及剖析該位元串流以判定所識別之該複數個階層元素,其中該複數個階層元素包括該複數個階層元素中之至少一者。
  31. 如請求項30之器件,其中該一或多個處理器進一步經組態以在識別被包括於該位元串流中之該複數個階層元素時剖析該位元串流以識別一具有複數個位元之欄位,其中該複數個位元中之每一者識別該複數個階層元素中之一對應者是否被包括於該位元串流中。
  32. 如請求項30之器件,其中該一或多個處理器進一步經組態以在識別被包括於該位元串流中之該複數個階層元素時在該位元串流中識別一具有等於(1+n)2個位元之複數個位元的欄位,其中n表示描述該聲場之階層元素集合的一階數,及其中該複數個位元中之每一者識別該複數個階層元素中之一對應者是否被包括於該位元串流中。
  33. 如請求項30之器件,其中該一或多個處理器進一步經組態以在識別被包括於該位元串流中之該複數個階層元素時在該位元串流中剖析一具有複數個位元之欄位,其中該複數個位元中之一不同者識別該複數個階層元素中之一對應者是否被包括於該位元串流中,及其中該一或多個處理器進一步經組態以在剖析該位元串流以判定所識別之該複數個階層元素時直接自具有該複數個位元的該欄位之後的該位元串流起剖析該位元串流以判定所識別之該複數個階層元素。
  34. 如請求項30之器件, 其中該一或多個處理器進一步經組態以判定該複數個階層元素中之一或多者具有與描述該聲場相關之資訊,及其中該一或多個處理器進一步經組態以在識別被包括於該位元串流中之該複數個階層元素時識別出該複數個階層元素中之具有與描述該聲場相關之資訊的該所判定之一或多者被包括於該位元串流中。
  35. 如請求項30之器件,其中該一或多個處理器進一步經組態以判定該複數個階層元素中之一或多者具有與描述該聲場相關之資訊,及其中該一或多個處理器進一步經組態以:當識別被包括於該位元串流中之該複數個階層元素時,在該位元串流中識別出該複數個階層元素中之具有與描述該聲場相關之資訊的該所判定之一或多者被包括於該位元串流中;及在該位元串流中識別出該複數個階層元素中之具有與描述該聲場無關之資訊的剩餘者未被包括於該位元串流中。
  36. 如請求項30之器件,其中該一或多個處理器進一步經組態以:判定該複數個階層元素中之一或多者高於一臨限值;及當識別被包括於該位元串流中之該複數個階層元素時,在該位元串流中判定該複數個階層元素中之高於該臨限值的該所判定之一或多者在該位元串流中被指定。
  37. 一種經組態以處理一表示音訊內容之位元串流的器件,該器件包含:用於自該位元串流識別被包括於該位元串流中且描述一聲場之複數個階層元素的構件,其中該複數個階層元素包括該複數個階層元素中之至少一者;及用於剖析該位元串流以判定所識別之該複數個階層元素的構 件。
  38. 如請求項37之器件,其中用於識別被包括於該位元串流中之該複數個階層元素的該構件包含用於剖析該位元串流以識別一具有複數個位元之欄位的構件,其中該複數個位元中之每一者識別該複數個階層元素中之一對應者是否被包括於該位元串流中。
  39. 如請求項37之器件,其中用於識別被包括於該位元串流中之該複數個階層元素的該構件包含用於在該位元串流中識別一具有等於(1+n)2個位元之複數個位元之欄位的構件,其中n表示描述該聲場之階層元素集合的一階數,及其中該複數個位元中之每一者識別該複數個階層元素中之一對應者是否被包括於該位元串流中。
  40. 如請求項37之器件,其中用於識別被包括於該位元串流中之該複數個階層元素的該構件包含用於在該位元串流中剖析一具有複數個位元之欄位的構件,其中該複數個位元中之一不同者識別該複數個階層元素中之一對應者是否被包括於該位元串流中,及其中用於剖析該位元串流以判定所識別之該複數個階層元素的該構件包含用於直接自具有該複數個位元的該欄位之後的該位元串流起剖析該位元串流以判定所識別之該複數個階層元素的構件。
  41. 如請求項37之器件,其進一步包含用於判定該複數個階層元素中之一或多者具有與描述該聲場相關之資訊的構件,其中用於識別被包括於該位元串流中之該複數個階層元素的該構件包含用於識別出該複數個階層元素中之具有與描述該聲場相關之資訊的該所判定之一或多者被包括於該位元串流中的 構件。
  42. 如請求項37之器件,其進一步包含用於判定該複數個階層元素中之一或多者具有與描述該聲場相關之資訊的構件,其中用於識別被包括於該位元串流中之該複數個階層元素的該構件包含:用於在該位元串流中識別出該複數個階層元素中之具有與描述該聲場相關之資訊的該所判定之一或多者被包括於該位元串流中的構件;及用於在該位元串流中識別出該複數個階層元素中之具有與描述該聲場無關之資訊的剩餘者未被包括於該位元串流中的構件。
  43. 如請求項37之器件,其進一步包含用於判定該複數個階層元素中之一或多者高於一臨限值的構件,其中用於識別被包括於該位元串流中之該複數個階層元素的該構件包含用於在該位元串流中判定該複數個階層元素中之高於該臨限值的該所判定之一或多者在該位元串流中被指定的構件。
  44. 一種非暫時性電腦可讀儲存媒體,其具有儲存於其上之指令,當執行時,該等指令使一或多個處理器:自該位元串流識別被包括於該位元串流中且描述一聲場之複數個階層元素,其中該複數個階層元素包括該複數個階層元素中之至少一者;及剖析該位元串流以判定所識別之該複數個階層元素。
TW103107128A 2013-03-01 2014-03-03 產生及處理表示音訊內容之位元串流之方法、器件及非暫時性電腦可讀儲存媒體 TWI603631B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361771677P 2013-03-01 2013-03-01
US201361860201P 2013-07-30 2013-07-30
US14/192,819 US9959875B2 (en) 2013-03-01 2014-02-27 Specifying spherical harmonic and/or higher order ambisonics coefficients in bitstreams

Publications (2)

Publication Number Publication Date
TW201446016A true TW201446016A (zh) 2014-12-01
TWI603631B TWI603631B (zh) 2017-10-21

Family

ID=51420957

Family Applications (2)

Application Number Title Priority Date Filing Date
TW103107142A TWI583210B (zh) 2013-03-01 2014-03-03 變換球諧係數
TW103107128A TWI603631B (zh) 2013-03-01 2014-03-03 產生及處理表示音訊內容之位元串流之方法、器件及非暫時性電腦可讀儲存媒體

Family Applications Before (1)

Application Number Title Priority Date Filing Date
TW103107142A TWI583210B (zh) 2013-03-01 2014-03-03 變換球諧係數

Country Status (10)

Country Link
US (2) US9685163B2 (zh)
EP (2) EP2962297B1 (zh)
JP (2) JP2016510905A (zh)
KR (2) KR20150123310A (zh)
CN (2) CN105027200B (zh)
BR (1) BR112015020892A2 (zh)
ES (1) ES2738490T3 (zh)
HU (1) HUE045446T2 (zh)
TW (2) TWI583210B (zh)
WO (2) WO2014134462A2 (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US9685163B2 (en) 2013-03-01 2017-06-20 Qualcomm Incorporated Transforming spherical harmonic coefficients
US9412385B2 (en) * 2013-05-28 2016-08-09 Qualcomm Incorporated Performing spatial masking with respect to spherical harmonic coefficients
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9384741B2 (en) * 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
US9854377B2 (en) 2013-05-29 2017-12-26 Qualcomm Incorporated Interpolation for decomposed representations of a sound field
KR102228994B1 (ko) * 2013-06-05 2021-03-17 돌비 인터네셔널 에이비 오디오 신호를 인코딩하기 위한 방법, 오디오 신호를 인코딩하기 위한 장치, 오디오 신호를 디코딩하기 위한 방법 및 오디오 신호를 디코딩하기 위한 장치
EP2879408A1 (en) * 2013-11-28 2015-06-03 Thomson Licensing Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
CN107112024B (zh) * 2014-10-24 2020-07-14 杜比国际公司 音频信号的编码和解码
US10452651B1 (en) 2014-12-23 2019-10-22 Palantir Technologies Inc. Searching charts
CN104795064B (zh) * 2015-03-30 2018-04-13 福州大学 低信噪比声场景下声音事件的识别方法
FR3050601B1 (fr) * 2016-04-26 2018-06-22 Arkamys Procede et systeme de diffusion d'un signal audio a 360°
MC200186B1 (fr) * 2016-09-30 2017-10-18 Coronal Encoding Procédé de conversion, d'encodage stéréophonique, de décodage et de transcodage d'un signal audio tridimensionnel
EP3651480A4 (en) * 2017-07-05 2020-06-24 Sony Corporation SIGNAL PROCESSING DEVICE, METHOD, AND PROGRAM
CN111108555B (zh) 2017-07-14 2023-12-15 弗劳恩霍夫应用研究促进协会 使用深度扩展DirAC技术或其他技术生成经增强的声场描述或经修改的声场描述的装置和方法
AR112504A1 (es) 2017-07-14 2019-11-06 Fraunhofer Ges Forschung Concepto para generar una descripción mejorada de campo de sonido o un campo de sonido modificado utilizando una descripción multi-capa
RU2736418C1 (ru) 2017-07-14 2020-11-17 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием многоточечного описания звукового поля
US10075802B1 (en) 2017-08-08 2018-09-11 Qualcomm Incorporated Bitrate allocation for higher order ambisonic audio data
US11281726B2 (en) * 2017-12-01 2022-03-22 Palantir Technologies Inc. System and methods for faster processor comparisons of visual graph features
US10419138B2 (en) * 2017-12-22 2019-09-17 At&T Intellectual Property I, L.P. Radio-based channel sounding using phased array antennas
GB2572650A (en) * 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
BR112020016912A2 (pt) 2018-04-16 2020-12-15 Dolby Laboratories Licensing Corporation Métodos, aparelhos e sistemas para codificação e decodificação de fontes de som direcionais
WO2020008112A1 (en) * 2018-07-03 2020-01-09 Nokia Technologies Oy Energy-ratio signalling and synthesis
US20200402521A1 (en) * 2019-06-24 2020-12-24 Qualcomm Incorporated Performing psychoacoustic audio coding based on operating conditions
US11043742B2 (en) 2019-07-31 2021-06-22 At&T Intellectual Property I, L.P. Phased array mobile channel sounding system
KR20220097888A (ko) * 2019-11-04 2022-07-08 퀄컴 인코포레이티드 비트스트림에서 오디오 효과 메타데이터의 시그널링
EP4241464A2 (en) * 2020-11-03 2023-09-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio signal transformation

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5594800A (en) 1991-02-15 1997-01-14 Trifield Productions Limited Sound reproduction system having a matrix converter
GB9103207D0 (en) 1991-02-15 1991-04-03 Gerzon Michael A Stereophonic sound reproduction system
AUPO099696A0 (en) 1996-07-12 1996-08-08 Lake Dsp Pty Limited Methods and apparatus for processing spatialised audio
US6021206A (en) 1996-10-02 2000-02-01 Lake Dsp Pty Ltd Methods and apparatus for processing spatialised audio
JPH1118199A (ja) 1997-06-26 1999-01-22 Nippon Columbia Co Ltd 音響処理装置
JP4861593B2 (ja) 2000-04-19 2012-01-25 エスエヌケー テック インベストメント エル.エル.シー. 3次元空間高調波を保存するマルチチャンネルサラウンドサウンドマスタリングおよび再生方法
FR2847376B1 (fr) * 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
US7167176B2 (en) 2003-08-15 2007-01-23 Microsoft Corporation Clustered principal components for precomputed radiance transfer
AU2005241905A1 (en) 2004-04-21 2005-11-17 Dolby Laboratories Licensing Corporation Audio bitstream format in which the bitstream syntax is described by an ordered transversal of a tree hierarchy data structure
US20060247918A1 (en) 2005-04-29 2006-11-02 Microsoft Corporation Systems and methods for 3D audio programming and processing
FR2898725A1 (fr) 2006-03-15 2007-09-21 France Telecom Dispositif et procede de codage gradue d'un signal audio multi-canal selon une analyse en composante principale
US7589725B2 (en) 2006-06-30 2009-09-15 Microsoft Corporation Soft shadows in dynamic scenes
FR2916079A1 (fr) * 2007-05-10 2008-11-14 France Telecom Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes
MY154078A (en) * 2009-06-24 2015-04-30 Fraunhofer Ges Forschung Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
EP2459742B1 (en) * 2009-07-29 2016-04-06 Pharnext New diagnostic tools for alzheimer disease
EP2539892B1 (fr) 2010-02-26 2014-04-02 Orange Compression de flux audio multicanal
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
EP2450880A1 (en) 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2469741A1 (en) 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
CN102333265B (zh) 2011-05-20 2014-02-19 南京大学 一种基于连续声源概念的三维局部空间声场重放方法
EP2541547A1 (en) 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
US20140214431A1 (en) * 2011-07-01 2014-07-31 Dolby Laboratories Licensing Corporation Sample rate scalable lossless audio coding
KR101845226B1 (ko) * 2011-07-01 2018-05-18 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법
US9460729B2 (en) 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
US9685163B2 (en) 2013-03-01 2017-06-20 Qualcomm Incorporated Transforming spherical harmonic coefficients

Also Published As

Publication number Publication date
KR20150123311A (ko) 2015-11-03
TWI603631B (zh) 2017-10-21
WO2014134472A2 (en) 2014-09-04
JP2016513811A (ja) 2016-05-16
KR20150123310A (ko) 2015-11-03
US9959875B2 (en) 2018-05-01
CN105027200A (zh) 2015-11-04
US20140249827A1 (en) 2014-09-04
TWI583210B (zh) 2017-05-11
HUE045446T2 (hu) 2019-12-30
KR101854964B1 (ko) 2018-05-04
WO2014134462A2 (en) 2014-09-04
TW201503712A (zh) 2015-01-16
US20140247946A1 (en) 2014-09-04
JP2016510905A (ja) 2016-04-11
BR112015020892A2 (pt) 2017-07-18
ES2738490T3 (es) 2020-01-23
CN105027199A (zh) 2015-11-04
US9685163B2 (en) 2017-06-20
EP2962298A2 (en) 2016-01-06
EP2962298B1 (en) 2019-04-24
CN105027199B (zh) 2018-05-29
EP2962297A2 (en) 2016-01-06
WO2014134462A3 (en) 2014-11-13
CN105027200B (zh) 2019-04-09
WO2014134472A3 (en) 2015-03-19
EP2962297B1 (en) 2019-06-05

Similar Documents

Publication Publication Date Title
TWI603631B (zh) 產生及處理表示音訊內容之位元串流之方法、器件及非暫時性電腦可讀儲存媒體
US20220030372A1 (en) Reordering Of Audio Objects In The Ambisonics Domain
KR101723332B1 (ko) 회전된 고차 앰비소닉스의 바이노럴화
US20150127354A1 (en) Near field compensation for decomposed representations of a sound field
US20150332682A1 (en) Spatial relation coding for higher order ambisonic coefficients
WO2016004277A1 (en) Reducing correlation between higher order ambisonic (hoa) background channels

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees