TW201603006A - 寫碼自高階立體混響聲音訊信號分解之向量 - Google Patents

寫碼自高階立體混響聲音訊信號分解之向量 Download PDF

Info

Publication number
TW201603006A
TW201603006A TW104115697A TW104115697A TW201603006A TW 201603006 A TW201603006 A TW 201603006A TW 104115697 A TW104115697 A TW 104115697A TW 104115697 A TW104115697 A TW 104115697A TW 201603006 A TW201603006 A TW 201603006A
Authority
TW
Taiwan
Prior art keywords
vector
vectors
code
unit
code vectors
Prior art date
Application number
TW104115697A
Other languages
English (en)
Other versions
TWI670709B (zh
Inventor
金墨永
尼爾斯 古恩瑟 彼德斯
迪潘強 森
Original Assignee
高通公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 高通公司 filed Critical 高通公司
Publication of TW201603006A publication Critical patent/TW201603006A/zh
Application granted granted Critical
Publication of TWI670709B publication Critical patent/TWI670709B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

大體而言,本發明描述用於寫碼自高階立體混響係數分解之向量的技術。一種包含一處理器及一記憶體之器件可執行該等技術。該處理器可經組態以自一位元串流獲得指示表示一向量之複數個權重值之資料,該向量包括於該複數個HOA係數之一經分解版本中。該等權重值中之每一者可對應於表示該向量且包括一組碼向量的碼向量之一加權總和中的複數個權重中之一各別權重。該處理器可經進一步組態以基於該等權重值及該等碼向量重建構該向量。該記憶體可經組態以儲存該經重建構之向量。

Description

寫碼自高階立體混響音訊信號分解之向量
本申請案主張以下各美國臨時申請案之權利:
2014年5月16日申請之題為「寫碼經分解高階立體混響(HOA)音訊信號之V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)」之美國臨時申請案第61/994,794號;2014年5月28日申請之題為「寫碼經分解高階立體混響(HOA)音訊信號之V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)」之美國臨時申請案第62/004,128號;2014年7月1日申請之題為「寫碼經分解高階立體混響(HOA)音訊信號之V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)」之美國臨時申請案第62/019,663號;2014年7月22日申請之題為「寫碼經分解高階立體混響(HOA)音訊信號之V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)」之美國臨時申請案第62/027,702號;2014年7月23日申請之題為「寫碼經分解高階立體混響(HOA)音 訊信號之V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)」之美國臨時申請案第62/028,282號;2014年8月1日申請之題為「寫碼經分解高階立體混響(HOA)音訊信號之V-向量(CODING V-VECTORS OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL)」之美國臨時申請案第62/032,440號;2015年5月14日申請之題為「寫碼自高階立體混響音訊信號分解之向量(CODING VECTORS DECOMPOSED FROM HIGHER-ORDER AMBISONICS AUDIO SIGNALS)」之美國申請案第14/712,836號;前述所列各美國臨時申請案中之每一者以引用之方式併入本文中,如同在本文中按其各別全文所闡述般。
本發明係關於音訊資料且,更具體而言,係關於高階立體混響音訊資料之寫碼。
高階立體混響(HOA)信號(常常藉由複數個球諧係數(SHC)或其他階層元素表示)為音場之三維表示。HOA或SHC表示可按獨立於用以播放自SHC信號轉譯之多通道音訊信號的局部揚聲器幾何佈置之方式來表示音場。SHC信號亦可促進回溯相容性,此係因為可將SHC信號轉譯為熟知且被高度採用之多通道格式(諸如,5.1音訊通道格式或7.1音訊通道格式)。SHC表示因此可實現對音場之更好表示,其亦適應回溯相容性。
大體而言,描述用於基於一組碼向量有效率地表示一經分解高階立體混響(HOA)音訊信號之v-向量(該等v-向量可表示一相關聯之音 訊物件之空間資訊,諸如寬度、形狀、方向及位置)的技術。該等技術可涉及:將該v-向量分解成碼向量之一加權總和,選擇複數個權重及對應碼向量之一子集,將該等權重之該所選擇之子集量化,及將碼向量之該所選擇之子集編索引。該等技術可提供用於寫碼HOA音訊信號之改良之位元速率。
在一個態樣中,一種獲得複數個高階立體混響(HOA)係數之方法,該方法包含自一位元串流獲得指示表示一向量之複數個權重值之資料,該向量包括於該複數個HOA係數之經分解版本中。該等權重值中之每一者對應於表示該向量的包括一組碼向量的碼向量之一加權總和中的複數個權重中之一各別權重。該方法進一步包含基於該等權重值及該等碼向量重建構該向量。
在另一態樣中,一種經組態以獲得複數個高階立體混響(HOA)係數之器件,該器件包含一或多個處理器,該一或多個處理器經組態以自一位元串流獲得指示表示一向量之複數個權重值之資料,該向量包括於該複數個HOA係數之一經分解版本中。該等權重值中之每一者對應於表示該向量且包括一組碼向量的碼向量之一加權總和中的複數個權重中之一各別權重。該一或多個處理器經進一步組態以基於該等權重值及該等碼向量重建構該向量。該器件亦包含經組態以儲存該經重建構之向量之一記憶體。
在另一態樣中,一種經組態以獲得複數個高階立體混響(HOA)係數之器件,該器件包含:用於自一位元串流獲得指示表示一向量之複數個權重值之資料的構件,該向量包括於該複數個HOA係數之經分解版本中,該等權重值中之每一者對應於表示該向量的包括一組碼向量的碼向量之一加權總和中的複數個權重中之一各別權重;及用於基於該等權重值及該等碼向量重建構該向量之構件。
在另一態樣中,一種非暫時性電腦可讀儲存媒體,其具有儲存 於其上之指令,該等指令在經執行時使得一或多個處理器進行以下操作:自一位元串流獲得指示表示一向量之複數個權重值之資料,該向量包括於複數個高階立體混響(HOA)係數之經分解版本中,該等權重值中之每一者對應於表示該向量的包括一組碼向量的碼向量之一加權總和中的複數個權重中之一各別權重;及基於該等權重值及該等碼向量重建構該向量。
在另一態樣中,一種方法包含:基於一組碼向量判定表示一向量之一或多個權重值,該向量包括於複數個高階立體混響(HOA)係數之一經分解版本中,該等權重值中之每一者對應於表示該向量的該等碼向量之一加權總和中所包括的複數個權重中之一各別權重。
在另一態樣中,一種器件,其包含:一記憶體,其經組態以儲存一組碼向量;及一或多個處理器,其經組態以基於該組碼向量判定表示一向量之一或多個權重值,該向量包括於複數個高階立體混響(HOA)係數之一經分解版本中,該等權重值中之每一者對應於表示該向量的該等碼向量之一加權總和中所包括的複數個權重中之一各別權重。
在另一態樣中,一種裝置,其包含用於關於複數個高階立體混響(HOA)係數執行一分解以產生該等HOA係數之一經分解版本的構件。該裝置進一步包含用於基於一組碼向量判定表示一向量之一或多個權重值之構件,該向量包括於該等HOA係數之該經分解版本中,該等權重值中之每一者對應於表示該向量的該等碼向量之一加權總和中所包括的複數個權重中之一各別權重。
在另一態樣中,一種非暫時性電腦可讀儲存媒體,其具有儲存於其上之指令,該等指令在經執行時使得一或多個處理器進行以下操作:基於一組碼向量判定表示一向量之一或多個權重值,該向量包括於複數個高階立體混響(HOA)係數之一經分解版本中,該等權重值中 之每一者對應於表示該向量的該等碼向量之一加權總和中所包括的複數個權重中之一各別權重。
在另一態樣中,一種解碼指示複數個高階立體混響(HOA)係數之音訊資料之方法,該方法包含判定是否關於該複數個HOA係數之一經分解版本執行向量解量化或純量解量化。
在另一態樣中,一種經組態以解碼指示複數個高階立體混響(HOA)係數之音訊資料之器件,該器件包含:一記憶體,其經組態以儲存該音訊資料;及一或多個處理器,其經組態以判定是否關於該複數個HOA係數之一經分解版本執行向量解量化或純量解量化。
在另一態樣中,一種編碼音訊資料之方法,該方法包含判定是否關於複數個高階立體混響(HOA)係數之一經分解版本執行向量量化或純量量化。
在另一態樣中,一種解碼音訊資料之方法,該方法包含選擇複數個碼簿中之一者以在關於一音場之一經向量量化之空間分量執行向量解量化時使用,該經向量量化之空間分量係經由對複數個高階立體混響係數應用一分解而獲得。
在另一態樣中,一種器件,其包含:一記憶體,其經組態以儲存複數個碼簿以在關於一音場之一經向量量化之空間分量執行向量解量化時使用,該經向量量化之空間分量係經由對複數個高階立體混響係數應用一分解而獲得;及一或多個處理器,其經組態以選擇該複數個碼簿中之一者。
在另一態樣中,一種器件,其包含:用於儲存複數個碼簿以在關於一音場之一經向量量化之空間分量執行向量解量化時使用的構件,該經向量量化之空間分量係經由對複數個高階立體混響係數應用一分解而獲得;及用於選擇該複數個碼簿中之一者之構件。
在另一態樣中,一種非暫時性電腦可讀儲存媒體,其具有儲存 於其上之指令,該等指令在經執行時使得一或多個處理器選擇複數個碼簿中之一者以在關於一音場之一經向量量化之空間分量執行向量解量化時使用,該經向量量化之空間分量係經由對複數個高階立體混響係數應用一分解而獲得。
在另一態樣中,一種編碼音訊資料之方法,該方法包含選擇複數個碼簿中之一者以在關於一音場之一空間分量執行向量量化時使用,該空間分量係經由對複數個高階立體混響係數應用一分解而獲得。
在另一態樣中,一種器件包含:一記憶體,其經組態以儲存複數個碼簿以在關於一音場之一空間分量執行向量量化時使用,該空間分量係經由對複數個高階立體混響係數應用一分解而獲得。該器件亦包含經組態以選擇該複數個碼簿中之一者之一或多個處理器。
在另一態樣中,一種器件,其包含:用於儲存複數個碼簿以在關於一音場之一空間分量執行向量量化時使用的構件,該空間分量係經由對複數個高階立體混響係數應用一基於向量之合成而獲得;及用於選擇該複數個碼簿中之一者之構件。
在另一態樣中,一種非暫時性電腦可讀儲存媒體,其具有儲存於其上之指令,該等指令在經執行時使得一或多個處理器選擇複數個碼簿中之一者以在關於一音場之一空間分量執行向量量化時使用,該空間分量係經由對複數個高階立體混響係數應用一基於向量之合成而獲得。
在隨附圖式及以下描述中闡述該等技術之一或多個態樣的細節。該等技術之其他特徵、目標及優點將自該描述及該等圖式以及自申請專利範圍而顯而易見。
3‧‧‧揚聲器
5‧‧‧麥克風
7‧‧‧實況記錄
9‧‧‧音訊物件
10‧‧‧系統
11‧‧‧高階立體混響係數
11'‧‧‧高階立體混響係數
12‧‧‧內容建立者器件
13‧‧‧擴音器資訊
14‧‧‧內容消費者器件
16‧‧‧音訊播放系統
18‧‧‧音訊編輯系統
20‧‧‧音訊編碼器件
21‧‧‧位元串流
22‧‧‧轉譯器
24‧‧‧音訊解碼器件
24'‧‧‧音訊解碼器件
25‧‧‧擴音器饋入
26‧‧‧內容分析單元
27‧‧‧基於向量之分解單元
28‧‧‧基於方向之分解單元
30‧‧‧線性可逆變換(LIT)單元
32‧‧‧參數計算單元
33‧‧‧US[k]向量
33'‧‧‧經重新排序之US[k]矩陣
34‧‧‧重新排序單元
35‧‧‧V[k]向量/V[k]矩陣
35'‧‧‧經重新排序之V[k]矩陣
36‧‧‧前景選擇單元
37‧‧‧當前參數
38‧‧‧能量補償單元
39‧‧‧先前參數
40‧‧‧心理聲學音訊寫碼器單元
41‧‧‧目標位元速率
42‧‧‧位元串流產生單元
43‧‧‧背景聲道資訊/環境聲道資訊
44‧‧‧音場分析單元
45‧‧‧前景聲道之總數目(nFG)
46‧‧‧係數減少單元
47‧‧‧背景或環境高階立體混響係數/單獨環境高階立體混響聲道
47'‧‧‧經能量補償之環境高階立體混響係數
47"‧‧‧經調整之環境高階立體混響係數
48‧‧‧背景(BG)選擇單元
49‧‧‧前景聲道之總數目信號
49'‧‧‧經內插之前景聲道之總數目信號/經內插之前景聲道之總數目音訊物件
50‧‧‧空間-時間內插單元
51 k ‧‧‧前景V[k]矩陣
51 k-1‧‧‧前景V[k-1]向量
52‧‧‧V-向量寫碼單元
53‧‧‧剩餘前景V[k]向量
55‧‧‧減少之前景V[k]向量
55 k ‧‧‧減少之前景V[k]向量
55 k-1‧‧‧減少之前景V[k-1]向量
55 k '‧‧‧經重新排序之前景方向資訊
55 k "‧‧‧經內插之前景V[k]向量
55 k '''‧‧‧經調整之前景V[k]向量
57‧‧‧經寫碼前景方向資訊/經寫碼前景V[k]向量/經寫碼權重
57A‧‧‧經寫碼V-向量
57B‧‧‧經寫碼V-向量
57C‧‧‧經寫碼V-向量
59‧‧‧經編碼環境高階立體混響係數
61‧‧‧經編碼前景聲道之總數目信號/經編碼前景信號
63‧‧‧碼向量/條目
63A‧‧‧碼向量
63B‧‧‧碼向量
63C‧‧‧碼向量
63D‧‧‧碼向量
63E‧‧‧碼向量
63F‧‧‧碼向量
63G‧‧‧碼向量
63H‧‧‧碼向量
63I‧‧‧碼向量
63J‧‧‧碼向量
63K‧‧‧碼向量
63L‧‧‧碼向量
63M‧‧‧碼向量
63N‧‧‧碼向量
63O‧‧‧碼向量
63P‧‧‧碼向量
65‧‧‧前景高階立體混響係數
71‧‧‧權重值資訊
72‧‧‧提取單元
73‧‧‧索引
74‧‧‧量化單元/V-向量重建構單元/解量化單元
76‧‧‧空間-時間內插單元
78‧‧‧前景制訂單元
80‧‧‧心理聲學解碼單元
82‧‧‧高階立體混響係數制訂單元
84‧‧‧重新排序單元
90‧‧‧基於方向性之重建構單元
91‧‧‧基於方向之資訊
92‧‧‧基於向量之重建構單元
300A‧‧‧曲線
300B‧‧‧曲線
300C‧‧‧曲線
420‧‧‧音訊編碼器件
502‧‧‧分解單元
504‧‧‧量化單元
506‧‧‧權重
510‧‧‧權重選擇單元
514‧‧‧權重
516‧‧‧權重之所選擇之子集
520‧‧‧向量量化單元
522‧‧‧分解單元
524‧‧‧權重選擇及排序單元
526‧‧‧向量選擇單元
528‧‧‧權重值
530‧‧‧權重值之經重新排序的所選擇之子集
532‧‧‧量化碼簿
700‧‧‧實例曲線
702‧‧‧線
755‧‧‧V分解單元
756‧‧‧模式組態單元
757‧‧‧信號
758‧‧‧剖析單元
760‧‧‧模式
770‧‧‧淡化單元
900‧‧‧經編碼聲道
901‧‧‧經解碼聲道
902‧‧‧心理聲學解碼單元
904‧‧‧聲道重新指派單元
圖1為說明具有各種階數及子階數之球諧基底函數之圖。
圖2為說明可執行本發明中所描述之技術之各種態樣的系統的圖。
圖3A及圖3B為更詳細地說明可執行本發明中所描述之技術之各種態樣的圖2之實例中所展示的音訊編碼器件之不同實例的方塊圖。
圖4A及圖4B為更詳細地說明圖2之音訊解碼器件之不同版本的方塊圖。
圖5為說明音訊編碼器件在執行本發明中所描述的基於向量之合成技術之各種態樣中的例示性操作的流程圖。
圖6為說明音訊解碼器件在執行本發明中所描述之技術之各種態樣中的例示性操作的流程圖。
圖7及圖8為更詳細地說明圖3A或圖3B之音訊編碼器件之V-向量寫碼單元的不同版本的圖。
圖9為說明自v-向量產生之音場之概念圖。
圖10為說明自v-向量之25階模型產生之音場的概念圖。
圖11為說明圖10中所展示之25階模型之每一階的加權的概念圖。
圖12為說明上文關於圖9所描述之v-向量之5階模型的概念圖。
圖13為說明圖12中所展示之5階模型之每一階的加權的概念圖。
圖14為說明用以執行奇異值分解之實例矩陣之實例尺寸的概念圖。
圖15為說明可藉由使用本發明之v-向量寫碼技術獲得之實例效能改良的圖表。
圖16為展示在根據本發明中所描述之技術執行時的V-向量寫碼之實例的數個圖。
圖17為說明根據本發明的V-向量之實例基於碼向量之分解的概念圖。
圖18為說明可藉以供圖10及圖11中之任一者或兩者之實例中所展示的V-向量寫碼單元使用16個不同的碼向量之不同方式的圖。
圖19A及圖19B為說明可根據本發明中所描述之技術之各種態樣使用的具有256列之碼簿的圖,其中每一列分別具有10個值及16個值。
圖20為說明實例曲線之圖,該實例曲線展示根據本發明中所描述之技術之各種態樣的用以選擇X*數目個碼向量之臨限值誤差。
圖21為說明根據本發明之實例向量量化單元520之方塊圖。
圖22、圖24及圖26為說明向量量化單元在執行本發明中所描述之技術之各種態樣中的例示性操作的流程圖。
圖23、圖25及圖27為說明V-向量重建構單元在執行本發明中所描述之技術之各種態樣中的例示性操作的流程圖。
大體而言,描述用於基於一組碼向量有效率地表示一經分解高階立體混響(HOA)音訊信號之v-向量(該等v-向量可表示一相關聯之音訊物件之空間資訊,諸如寬度、形狀、方向及位置)的技術。該等技術可涉及:將該v-向量分解成碼向量之一加權總和,選擇複數個權重及對應碼向量之一子集,將該等權重之該所選擇之子集量化,及將碼向量之該所選擇之子集編索引。該等技術可提供用於寫碼HOA音訊信號之改良之位元速率。
環繞聲之演化現今已使得許多輸出格式可用於娛樂。此等消費型環繞聲格式之實例大部分為「聲道」式的,此係因為其以某些幾何座標隱含地指定至擴音器之饋入。消費型環繞聲格式包括風行的5.1格式(其包括以下六個聲道:左前(FL)、右前(FR)、中心或前中心、左後或左環繞、右後或右環繞,及低頻效應(LFE))、發展中的7.1格式、包括高度揚聲器之各種格式,諸如7.1.4格式及22.2格式(例如,用於 供超高清晰度電視標準使用)。非消費型格式可橫跨任何數目個揚聲器(成對稱及非對稱幾何佈置),其常常被稱為「環繞陣列」。此類陣列之一實例包括定位於截頂二十面體(truncated icosohedron)之拐角上的座標處之32個擴音器。
至未來MPEG編碼器之輸入視情況為以下三種可能格式中之一者:(i)傳統的基於聲道之音訊(如上文所論述),其意欲經由處於預先指定之位置處的擴音器播放;(ii)基於物件之音訊,其涉及用於單一音訊物件之具有含有其位置座標(以及其他資訊)之相關聯後設資料的離散脈碼調變(PCM)資料;及(iii)基於場景之音訊,其涉及使用球諧基底函數之係數(亦被稱為「球諧係數」或SHC、「高階立體混響」或HOA及「HOA係數」)來表示音場。該未來MPEG編碼器可能更詳細地描述於國際標準化組織/國際電工委員會(ISO)/(IEC)JTC1/SC29/WG11/N13411之題為「要求針對3D音訊之提議(Call for Proposals for 3D Audio)」的文件中,該文件於2013年1月在瑞士日內瓦發佈,且可在http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip獲得。
在市場中存在各種基於「環繞聲」聲道之格式。舉例而言,其範圍自5.1家庭影院系統(其在使起居室享有立體聲方面已獲得最大成功)至由日本廣播協會或日本廣播公司(NHK)開發之22.2系統。內容建立者(例如,好萊塢工作室)將希望產生影片之音軌一次,而不花費精力來針對每一揚聲器組態對其進行重混(remix)。近年來,標準開發組織一直在考慮如下方式:提供至標準化位元串流中之編碼及後續解碼(其可為調適的且不知曉播放位置(涉及轉譯器)處的揚聲器幾何佈置(及數目)及聲學條件)。
為了向內容建立者提供此類靈活性,可使用一組階層元素來表示音場。該組階層元素可指其中元素經排序而使得一組基本低階元素 提供經模型化音場之完整表示的一組元素。當將該組擴展以包括高階元素時,該表示變得更詳細,從而增加解析度。
一組階層元素之一實例為一組球諧係數(SHC)。以下表達式示範使用SHC進行的對音場之描述或表示: 該表達式展示:在時間t在音場之任何點{r r r r }處之壓力p i 可獨特地藉由SHC來表示。此處,c為音速(~343m/s),{r r r r }為參考點(或觀測點),j n (.)為n階球面貝塞爾函數,且n階及m子階球諧基底函數。可辨識,方括號中之術語為可藉由各種時間-頻率變換來近似的信號之頻域表示(亦即,S(ω,r r r r )),該等變換諸如離散傅立葉變換(DFT)、離散餘弦變換(DCT)或小波變換。階層組之其他實例包括數組小波變換係數及其他數組多解析度基底函數係數。
圖1為說明自零階(n=0)至四階(n=4)之球諧基底函數的圖。如可見,對於每一階而言,存在m子階之擴展,出於易於說明之目的,在圖1之實例中展示了該等子階但未明確地提及。
可藉由各種麥克風陣列組態來實體地獲取(例如,記錄)SHC,或替代地,可自音場之基於聲道或基於物件之描述導出SHC。SHC表示基於場景之音訊,其中可將SHC輸入至音訊編碼器以獲得經編碼SHC,該經編碼SHC可促成更有效率的傳輸或儲存。舉例而言,可使用涉及(1+4)2(25,且因此為四階)係數之四階表示。
如上文所提及,可使用麥克風陣列自麥克風記錄導出SHC。可如何自麥克風陣列導出SHC之各種實例描述於Poletti,M.之「基於球諧之三維環繞聲系統(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)」(J.Audio Eng.Soc.,第53卷,第11期,2005年11月,第1004至1025頁)中。
為了說明可如何自基於物件之描述導出SHC,考慮以下等式。可將對應於個別音訊物件之音場之係數表達為: 其中i為為n階球面漢克爾函數(第二種類),且{r s s s }為物件之位置。知道依據頻率之物件源能量g(ω)(例如,使用時間-頻率分析技術,諸如,對PCM串流執行快速傅立葉變換)允許吾人將每一PCM物件及對應位置轉換成SHC。另外,可展示(因為上述情形為線性及正交分解)每一物件之係數為加成性的。以此方式,可藉由係數表示眾多PCM物件(例如,作為用於個別物件之係數向量之總和)。基本上,該等係數含有關於音場之資訊(依據3D座標之壓力),且上述情形表示在觀測點{r r r r }附近自個別物件至整個音場之表示的變換。下文在基於物件及基於SHC之音訊寫碼的內容脈絡中描述剩餘諸圖。
圖2為說明可執行本發明中所描述之技術之各種態樣的系統10的圖。如圖2之實例中所展示,系統10包括內容建立者器件12及內容消費者器件14。雖然在內容建立者器件12及內容消費者器件14之內容脈絡中加以描述,但可在音場之SHC(其亦可被稱作HOA係數)或任何其他階層表示經編碼以形成表示音訊資料之位元串流的任何內容脈絡中實施該等技術。此外,內容建立者器件12可表示能夠實施本發明中所描述之技術的任何形式之計算器件,包括手機(或蜂巢式電話)、平板電腦、智慧型手機或桌上型電腦(提供幾個實例)。同樣地,內容消費者器件14可表示能夠實施本發明中所描述之技術的任何形式之計算器件,包括手機(或蜂巢式電話)、平板電腦、智慧型手機、機上盒,或桌上型電腦(提供幾個實例)。
內容建立者器件12可由影片工作室或可產生多聲道音訊內容以供內容消費者器件(諸如,內容消費者器件14)之操作者消耗的其他實體來操作。在一些實例中,內容建立者器件12可由將希望壓縮HOA係數11之個別使用者操作。常常,內容建立者產生音訊內容連同視訊內容。內容消費者器件14可由個體來操作。內容消費者器件14可包括音訊播放系統16,其可指能夠轉譯SHC以供作為多聲道音訊內容播放的任何形式之音訊播放系統。
內容建立者器件12包括音訊編輯系統18。內容建立者器件12獲得呈各種格式(包括直接作為HOA係數)之實況記錄7及音訊物件9,內容建立者器件12可使用音訊編輯系統18對實況記錄7及音訊物件9進行編輯。麥克風5可攫取實況記錄7。內容建立者可在編輯處理程序期間自音訊物件9轉譯HOA係數11,從而在識別音場之需要進一步編輯之各種態樣的嘗試中傾聽所轉譯之揚聲器饋入。內容建立者器件12可接著編輯HOA係數11(可能經由操縱可供以上文所描述之方式導出源HOA係數的音訊物件9中之不同者間接地編輯)。內容建立者器件12可使用音訊編輯系統18產生HOA係數11。音訊編輯系統18表示能夠編輯音訊資料且輸出該音訊資料作為一或多個源球諧係數之任何系統。
當編輯處理程序完成時,內容建立者器件12可基於HOA係數11產生位元串流21。亦即,內容建立者器件12包括音訊編碼器件20,該音訊編碼器件20表示經組態以根據本發明中所描述之技術之各種態樣編碼或以其他方式壓縮HOA係數11以產生位元串流21的器件。音訊編碼器件20可產生位元串流21以供傳輸,作為一實例,跨越傳輸頻道(其可為有線或無線頻道、資料儲存器件或其類似者)。位元串流21可表示HOA係數11之經編碼版本,且可包括主要位元串流及另一旁側位元串流(其可被稱作旁側聲道資訊)。
雖然在圖2中經展示為直接傳輸至內容消費者器件14,但內容建 立者器件12可將位元串流21輸出至定位於內容建立者器件12與內容消費者器件14之間的中間器件。該中間器件可儲存位元串流21以供稍後遞送至可能請求該位元串流之內容消費者器件14。該中間器件可包含檔案伺服器、網頁伺服器、桌上型電腦、膝上型電腦、平板電腦、行動電話、智慧型手機,或能夠儲存位元串流21以供音訊解碼器稍後擷取之任何其他器件。該中間器件可駐留於能夠將位元串流21串流傳輸(且可能結合傳輸對應視訊資料位元串流)至請求位元串流21之訂戶(諸如,內容消費者器件14)的內容遞送網路中。
替代地,內容建立者器件12可將位元串流21儲存至儲存媒體,諸如緊密光碟、數位影音光碟、高清晰度視訊光碟或其他儲存媒體,其中之大部分能夠由電腦讀取且因此可被稱作電腦可讀儲存媒體或非暫時性電腦可讀儲存媒體。在此內容脈絡中,傳輸通道可指藉以傳輸儲存至該等媒體之內容的彼等通道(且可包括零售商店及其他基於商店之遞送機構)。在任何情況下,本發明之技術因此就此而言不應限於圖2之實例。
如圖2之實例中進一步展示,內容消費者器件14包括音訊播放系統16。音訊播放系統16可表示能夠播放多聲道音訊資料之任何音訊播放系統。音訊播放系統16可包括數個不同轉譯器22。轉譯器22可各自提供不同形式之轉譯,其中不同形式之轉譯可包括執行基於向量之振幅移動(VBAP)之各種方式中的一或多者及/或執行音場合成之各種方式中的一或多者。如本文所使用,「A及/或B」意謂「A或B」,或「A及B」兩者。
音訊播放系統16可進一步包括音訊解碼器件24。音訊解碼器件24可表示經組態以解碼來自位元串流21之HOA係數11'之器件,其中HOA係數11'可類似於HOA係數11,但歸因於經由傳輸通道之有損操作(例如,量化)及/或傳輸而有所不同。音訊播放系統16可在解碼位元 串流21之後獲得HOA係數11'且轉譯HOA係數11'以輸出擴音器饋入25。擴音器饋入25可驅動一或多個擴音器(其出於易於說明之目的而未在圖2之實例中加以展示)。
為了選擇適當轉譯器或在一些情況下產生適當轉譯器,音訊播放系統16可獲得指示擴音器之數目及/或擴音器之空間幾何佈置的擴音器資訊13。在一些情況下,音訊播放系統16可使用參考麥克風且以使得動態地判定擴音器資訊13之方式驅動擴音器而獲得擴音器資訊13。在其他情況下或結合擴音器資訊13之動態判定,音訊播放系統16可提示使用者與音訊播放系統16介接且輸入擴音器資訊13。
音訊播放系統16可接著基於擴音器資訊13選擇音訊轉譯器22中之一者。在一些情況下,當音訊轉譯器22中無一者在與擴音器資訊13中所指定的擴音器幾何佈置處於某一臨限相似度度量(依據擴音器幾何佈置)內時,音訊播放系統16可基於擴音器資訊13產生音訊轉譯器22中之該者。在一些情況下,音訊播放系統16可基於擴音器資訊13產生音訊轉譯器22中之一者,而不會首先試圖選擇音訊轉譯器22中之現有的一者。一或多個揚聲器3可接著播放經轉譯之擴音器饋入25。
圖3A為更詳細地說明可執行本發明中所描述之技術之各種態樣的圖2之實例中所展示的音訊編碼器件20之一實例的方塊圖。音訊編碼器件20包括內容分析單元26、基於向量之分解單元27及基於方向之分解單元28。儘管下文簡要描述,但關於音訊編碼器件20及壓縮或以其他方式編碼HOA係數之各種態樣之更多資訊可在2014年5月29日申請之題為「用於音場之經分解表示之內插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)」之國際專利申請公開案第WO 2014/194099號中獲得。
內容分析單元26表示經組態以分析HOA係數11之內容以識別HOA係數11表示自實況記錄產生之內容抑或自音訊物件產生之內容的 單元。內容分析單元26可判定HOA係數11係自實際音場之記錄產生抑或自人工音訊物件產生。在一些情況下,當框式HOA係數11係自記錄產生時,內容分析單元26將HOA係數11傳遞至基於向量之分解單元27。在一些情況下,當框式HOA係數11係自合成音訊物件產生時,內容分析單元26將HOA係數11傳遞至基於方向之合成單元28。基於方向之合成單元28可表示經組態以執行對HOA係數11的基於方向之合成以產生基於方向之位元串流21的單元。
如圖3A之實例中所展示,基於向量之分解單元27可包括線性可逆變換(LIT)單元30、參數計算單元32、重新排序單元34、前景選擇單元36、能量補償單元38、心理聲學音訊寫碼器單元40、位元串流產生單元42、音場分析單元44、係數減少單元46、背景(BG)選擇單元48、空間-時間內插單元50及V-向量寫碼單元52。
線性可逆變換(LIT)單元30接收呈HOA聲道形式之HOA係數11,每一聲道表示與球面基底函數之給定階數、子階數相關聯的係數之區塊或訊框(其可表示為HOA[k],其中k可表示樣本之當前訊框或區塊)。HOA係數11之矩陣可具有維度DM×(N+1)2
LIT單元30可表示經組態以執行被稱作奇異值分解之形式之分析的單元。雖然關於SVD加以描述,但可關於提供數組線性不相關的能量密集輸出之任何類似變換或分解執行本發明中所描述之該等技術。又,本發明中對「組」之提及大體上意欲指非零組(除非特別地相反陳述),且並不意欲指包括所謂的「空組」之組之經典數學定義。替代變換可包含常常被稱作「PCA」之主分量分析。取決於內容脈絡,可藉由數個不同名稱來提及PCA,諸如離散卡忽南-拉維變換(discrete Karhunen-Loeve transform)、哈特林變換(Hotelling transform)、適當正交分解(POD)及本徵值分解(EVD)(僅舉幾個實例)。有利於壓縮音訊資料之基本目標的此等操作之性質為多聲道音訊資料之「能量壓縮」 及「解相關」。
在任何情況下,出於實例之目的,假定LIT單元30執行奇異值分解(其再次可被稱作「SVD」),LIT單元30可將HOA係數11變換成兩組或兩組以上經變換之HOA係數。「數組」經變換之HOA係數可包括經變換之HOA係數之向量。在圖3A之實例中,LIT單元30可關於HOA係數11執行SVD以產生所謂的V矩陣、S矩陣及U矩陣。在線性代數中,SVD可按如下形式表示y乘z實數或複數矩陣X(其中X可表示多聲道音訊資料,諸如HOA係數11)之因子分解:X=USV*
U可表示y乘y實數或複數單位矩陣,其中U之y行被稱為多聲道音訊資料之左奇異向量。S可表示在對角線上具有非負實數之y乘z矩形對角線矩陣,其中S之對角線值被稱為多聲道音訊資料之奇異值。V*(其可表示V之共軛轉置)可表示z乘z實數或複數單位矩陣,其中V*之z行被稱為多聲道音訊資料之右奇異向量。
在一些實例中,將上文提及之SVD數學表達式中的V*矩陣表示為V矩陣之共軛轉置以反映SVD可應用於包含複數之矩陣。當應用於僅包含實數之矩陣時,V矩陣之複數共軛(或,換言之,V*矩陣)可被視為V矩陣之轉置。下文為易於說明之目的,假定:HOA係數11包含實數,結果為經由SVD而非V*矩陣輸出V矩陣。此外,雖然在本發明中表示為V矩陣,但在適當時,對V矩陣之提及應被理解為係指V矩陣之轉置。雖然假定為V矩陣,但該等技術可按類似方式應用於具有複數係數之HOA係數11,其中SVD之輸出為V*矩陣。因此,就此而言,該等技術不應限於僅提供應用SVD以產生V矩陣,而可包括將SVD應用於具有複數分量之HOA係數11以產生V*矩陣。
以此方式,LIT單元30可關於HOA係數11執行SVD以輸出具有維度D:M×(N+1)2之US[k]向量33(其可表示S向量及U向量之組合版 本),及具有維度D:(N+1)2×(N+1)2之V[k]向量35。US[k]矩陣中之個別向量元素亦可被稱為X PS (k),而V[k]矩陣中之個別向量亦可被稱為v(k)。
U、S及V矩陣之分析可揭示:該等矩陣攜有或表示上文藉由X表示的基礎音場之空間及時間特性。U(長度為M個樣本)中的N個向量中之每一者可表示依據時間(對於藉由M個樣本表示之時間段)的經正規化之分離音訊信號,其彼此正交且已與任何空間特性(其亦可被稱作方向資訊)解耦。表示空間形狀及位置(r、θ、φ)之空間特性可改為藉由V矩陣中之個別第i向量v (i)(k)(每一者具有長度(N+1)2)表示。v(i)(k)向量中之每一者的個別元素可表示描述針對相關聯之音訊物件的音場之形狀(包括寬度)及位置的HOA係數。U矩陣及V矩陣兩者中之向量經正規化而使得其均方根能量等於單位。U中的音訊信號之能量因此藉由S中之對角線元素表示。將U與S相乘以形成US[k](具有個別向量元素X PS (k)),因此表示具有能量之音訊信號。進行SVD分解以使音訊時間信號(U中)、其能量(S中)與其空間特性(V中)解耦之能力可支援本發明中所描述之技術的各種態樣。另外,藉由US[k]與V[k]之向量乘法合成基礎HOA[k]係數X之模型引出貫穿此文件使用之術語「基於向量之分解」。
儘管描述為直接關於HOA係數11執行,但LIT單元30可將線性可逆變換應用於HOA係數11之導數。舉例而言,LIT單元30可關於自HOA係數11導出之功率譜密度矩陣應用SVD。藉由關於HOA係數之功率譜密度(PSD)而非係數自身執行SVD,LIT單元30可在處理器循環及儲存空間中之一或多者方面可能地降低執行SVD之計算複雜性,同時達成相同的源音訊編碼效率,如同SVD係直接應用於HOA係數一般。
參數計算單元32表示經組態以計算各種參數之單元,該等參數諸如相關性參數(R)、方向性質參數(θφr),及能量性質(e)。用於 當前訊框之參數中的每一者可表示為R[k]、θ[k]、φ[k]、r[k]及e[k]。參數計算單元32可關於US[k]向量33執行能量分析及/或相關(或所謂的交叉相關)以識別該等參數。參數計算單元32亦可判定用於先前訊框之參數,其中先前訊框參數可基於具有US[k-1]向量及V[k-1]向量之先前訊框表示為R[k-1]、θ[k-1]、φ[k-1]、r[k-1]及e[k-1]。參數計算單元32可將當前參數37及先前參數39輸出至重新排序單元34。
由參數計算單元32計算之參數可供重新排序單元34用以將音訊物件重新排序以表示其自然評估或隨時間推移之連續性。重新排序單元34可逐輪地比較來自第一US[k]向量33之參數37中的每一者與用於第二US[k-1]向量33之參數39中的每一者。重新排序單元34可基於當前參數37及先前參數39將US[k]矩陣33及V[k]矩陣35內之各種向量重新排序(作為一實例,使用匈牙利演算法(Hungarian algorithm))以將經重新排序之US[k]矩陣33'(其可在數學上表示為)及經重新排序之V[k]矩陣35'(其可在數學上表示為)輸出至前景聲音(或佔優勢聲音-PS)選擇單元36(「前景選擇單元36」)及能量補償單元38。
音場分析單元44可表示經組態以關於HOA係數11執行音場分析以便有可能達成目標位元速率41之單元。音場分析單元44可基於分析及/或基於所接收目標位元速率41,判定心理聲學寫碼器執行個體之總數目(其可為環境或背景聲道之總數目(BGTOT)之函數)及前景聲道(或換言之,佔優勢聲道)之數目。心理聲學寫碼器執行個體之總數目可表示為numHOATransportChannels。
再次為了可能地達成目標位元速率41,音場分析單元44亦可判定前景聲道之總數目(nFG)45、背景(或換言之,環境)音場之最小階數(NBG或替代地,MinAmbHOAorder)、表示背景音場之最小階數的實際聲道之對應數目(nBGa=(MinAmbHOAorder+1)2),及待發送之額外BG HOA聲道之索引(i)(其在圖3A之實例中可共同地表示為背景聲 道資訊43)。背景聲道資訊42亦可被稱作環境聲道資訊43。numHOATransportChannels-nBGa後剩餘的聲道中之每一者可為「額外背景/環境聲道」、「作用中的基於向量之佔優勢聲道」、「作用中的基於方向之佔優勢信號」或「完全不活動」。在一態樣中,可藉由兩個位元以(「ChannelType」)語法元素形式指示聲道類型:(例如,00:基於方向之信號;01:基於向量之佔優勢信號;10:額外環境信號;11:非作用中信號)。背景或環境信號之總數目nBGa可藉由(MinAmbHOAorder+1)2+在用於彼訊框之位元串流中以聲道類型形式顯現索引10(在上述實例中)之次數給出。
音場分析單元44可基於目標位元速率41選擇背景(或換言之,環境)聲道之數目及前景(或換言之,佔優勢)聲道之數目,從而在目標位元速率41相對較高時(例如,在目標位元速率41等於或大於512Kbps時)選擇更多背景及/或前景聲道。在一態樣中,在位元串流之標頭區段中,numHOATransportChannels可經設定為8,而MinAmbHOAorder可經設定為1。在此情境下,在每個訊框處,四個聲道可專用於表示音場之背景或環境部分,而其他4個聲道可逐訊框地在聲道類型上變化--例如,用作額外背景/環境聲道或前景/佔優勢聲道。前景/佔優勢信號可為基於向量或基於方向之信號中之一者,如上文所描述。
在一些情況下,用於訊框之基於向量之佔優勢信號的總數目可藉由彼訊框之位元串流中ChannelType索引為01的次數給出。在上述態樣中,對於每個額外背景/環境聲道(例如,對應於ChannelType 10),可在彼聲道中表示可能的HOA係數(前四個除外)中之哪一者之對應資訊。對於四階HOA內容,該資訊可為指示HOA係數5至25之索引。可在minAmbHOAorder經設定為1時始終發送前四個環境HOA係數1至4,因此,音訊編碼器件可能僅需要指示額外環境HOA係數中具有索引5至25之一者。因此可使用5位元語法元素(對於四階內容)發送 該資訊,其可表示為「CodedAmbCoeffIdx」。在任何情況下,音場分析單元44將背景聲道資訊43及HOA係數11輸出至背景(BG)選擇單元36,將背景聲道資訊43輸出至係數減少單元46及位元串流產生單元42,且將nFG 45輸出至前景選擇單元36。
背景選擇單元48可表示經組態以基於背景聲道資訊(例如,背景音場(NBG)以及待發送之額外BG HOA聲道之數目(nBGa)及索引(i))判定背景或環境HOA係數47之單元。舉例而言,當NBG等於一時,背景選擇單元48可選擇用於具有等於或小於一之階數的音訊訊框之每一樣本的HOA係數11。在此實例中,背景選擇單元48可接著選擇具有藉由索引(i)中之一者識別之索引的HOA係數11作為額外BG HOA係數,其中將待於位元串流21中指定之nBGa提供至位元串流產生單元42以便使得音訊解碼器件(諸如,圖4A及圖4B之實例中所展示的音訊解碼器件24)能夠自位元串流21剖析背景HOA係數47。背景選擇單元48可接著將環境HOA係數47輸出至能量補償單元38。環境HOA係數47可具有維度D:M×[(N BG +1)2+nBGa]。環境HOA係數47亦可被稱作「環境HOA係數47」,其中環境HOA係數47中之每一者對應於待由心理聲學音訊寫碼器單元40編碼之單獨環境HOA聲道47。
前景選擇單元36可表示經組態以基於nFG 45(其可表示識別前景向量之一或多個索引)選擇表示音場之前景或特異分量的經重新排序之US[k]矩陣33'及經重新排序之V[k]矩陣35'的單元。前景選擇單元36可將nFG信號49(其可表示為經重新排序之US[k]1,…,nFG 49、FG 1,…,nfG[k]49或49)輸出至心理聲學音訊寫碼器單元40,其中nFG信號49可具有維度D:M×nFG且每一者表示單聲道-音訊物件。前景選擇單元36亦可將對應於音場之前景分量的經重新排序之V[k]矩陣35'(或v (1..nFG)(k)35')輸出至空間-時間內插單元50,其中對應於前景分量的經重新排序之V[k]矩陣35'之子集可表示為前景V[k]矩陣51k(其 可在數學上表示為),其具有維度D:(N+1)2×nFG。
能量補償單元38可表示經組態以關於環境HOA係數47執行能量補償以補償歸因於藉由背景選擇單元48移除HOA聲道中之各者而產生的能量損失之單元。能量補償單元38可關於經重新排序之US[k]矩陣33'、經重新排序之V[k]矩陣35'、nFG信號49、前景V[k]向量51k及環境HOA係數47中之一或多者執行能量分析,且接著基於能量分析執行能量補償以產生經能量補償之環境HOA係數47'。能量補償單元38可將經能量補償之環境HOA係數47'輸出至心理聲學音訊寫碼器單元40。
空間-時間內插單元50可表示經組態以接收第k訊框之前景V[k]向量51 k 及前一訊框(因此為k-1記法)之前景V[k-1]向量51 k-1且執行空間-時間內插以產生經內插之前景V[k]向量之單元。空間-時間內插單元50可將nFG信號49與前景V[k]向量51 k 重新組合以恢復經重新排序之前景HOA係數。空間-時間內插單元50可接著將經重新排序之前景HOA係數除以經內插之V[k]向量以產生經內插之nFG信號49'。空間-時間內插單元50亦可輸出用以產生經內插之前景V[k]向量之前景V[k]向量51 k ,以使得音訊解碼器件(諸如,音訊解碼器件24)可產生經內插之前景V[k]向量且藉此恢復前景V[k]向量51 k 。將用以產生經內插之前景V[k]向量之前景V[k]向量51 k 表示為剩餘前景V[k]向量53。為了確保在編碼器及解碼器處使用相同的V[k]及V[k-1](以建立經內插之向量V[k]),可在編碼器及解碼器處使用向量之經量化/經解量化之版本。空間-時間內插單元50可將經內插之nFG信號49'輸出至心理聲學音訊寫碼器單元46且將經內插之前景V[k]向量51 k 輸出至係數減少單元46。
係數減少單元46可表示經組態以基於背景聲道資訊43關於剩餘前景V[k]向量53執行係數減少以將減少之前景V[k]向量55輸出至V-向 量寫碼單元52的單元。減少之前景V[k]向量55可具有維度D:[(N+1)2-(N BG +1)2-BGTOT]×nFG。就此而言,係數減少單元46可表示經組態以減少剩餘前景V[k]向量53之係數之數目的單元。換言之,係數減少單元46可表示經組態以消除前景V[k]向量中具有極少或幾乎沒有方向資訊之係數(其形成剩餘前景V[k]向量53)之單元。在一些實例中,特異或(換言之)前景V[k]向量之對應於一階及零階基底函數之係數(其可表示為NBG)提供極少方向資訊,且因此可將其自前景V-向量移除(經由可被稱作「係數減少」之處理程序)。在此實例中,可提供較大靈活性以使得不僅自組[(NBG+1)2+1,(N+1)2]識別對應於NBG之係數而且識別額外HOA聲道(其可藉由變數TotalOfAddAmbHOAChan表示)。
V-向量寫碼單元52可表示經組態以執行任何形式之量化以壓縮減少之前景V[k]向量55以產生經寫碼前景V[k]向量57從而將經寫碼前景V[k]向量57輸出至位元串流產生單元42之單元。在操作中,V-向量寫碼單元52可表示經組態以壓縮音場之空間分量(亦即,在此實例中為減少之前景V[k]向量55中之一或多者)之單元。V-向量寫碼單元52可執行如藉由表示為「NbitsQ」之量化模式語法元素指示之以下12種量化模式中的任一者。
16:具有霍夫曼寫碼之16-位元純量量化
V-向量寫碼單元52亦可執行前述類型之量化模式中之任一者的預測版本,其中判定前一訊框之V-向量的元素(或執行向量量化時之權重)與當前訊框之V-向量的元素(或執行向量量化時之權重)之間的差。V-向量寫碼單元52可接著將當前訊框與前一訊框之元素或權重之間的差而非當前訊框自身之V-向量之元素的值量化。
V-向量寫碼單元52可關於減少之前景V[k]向量55中之每一者執行多種形式之量化以獲得減少之前景V[k]向量55的多個經寫碼版本。V-向量寫碼單元52可選擇減少之前景V[k]向量55的經寫碼版本中之一者作為經寫碼前景V[k]向量57。換言之,V-向量寫碼單元52可基於本發明中所論述之準則之任何組合選擇以下各者中之一者以用作輸出經切換式量化之V-向量:未經預測之經向量量化之V-向量、經預測之經向量量化之V-向量、未經霍夫曼寫碼之經純量量化之V-向量,及經霍夫曼寫碼之經純量量化之V-向量。
在一些實例中,V-向量寫碼單元52可自包括一向量量化模式及一或多個純量量化模式之一組量化模式中選擇一量化模式,且基於(或根據)該所選擇之模式將輸入V-向量量化。V-向量寫碼單元52可接著將以下各者中之所選擇者提供至位元串流產生單元52以用作經寫碼前景V[k]向量57:未經預測之經向量量化之V-向量(例如,就權重值或指示權重值之位元而言)、經預測之經向量量化之V-向量(例如,就誤差值或指示誤差值之位元而言)、未經霍夫曼寫碼之經純量量化之V-向量,及經霍夫曼寫碼之經純量量化之V-向量。V-向量寫碼單元52亦可提供指示量化模式之語法元素(例如,NbitsQ語法元素)及用以將V-向量解量化或以其他方式重建構V-向量之任何其他語法元素。
關於向量量化,v-向量寫碼單元52可基於碼向量63寫碼減少之前景V[k]向量55以產生經寫碼V[k]向量。如圖3A中所展示,v-向量寫碼 單元52在一些實例中可輸出經寫碼權重57及索引73。在此等實例中,經寫碼權重57及索引73可一起表示經寫碼V[k]向量。索引73可表示寫碼向量之加權總和中的哪些碼向量對應於經寫碼權重57中之權重中之每一者。
為了寫碼減少之前景V[k]向量55,v-向量寫碼單元52在一些實例中可基於碼向量63將減少之前景V[k]向量55中之每一者分解成碼向量之加權總和。碼向量之加權總和可包括複數個權重及複數個碼向量,且可表示可將權重中之每一者的乘積之總和乘以碼向量中之一各別碼向量。碼向量之加權總和中所包括的該複數個碼向量可對應於由v-向量寫碼單元52接收之碼向量63。將減少之前景V[k]向量55中之一者分解成碼向量之加權總和可涉及判定碼向量之加權總和中所包括的權重中之一或多者的權重值。
在判定對應於碼向量之加權總和中所包括的權重之權重值之後,v-向量寫碼單元52可寫碼權重值中之一或多者以產生經寫碼權重57。在一些實例中,寫碼權重值可包括將權重值量化。在其他實例中,寫碼權重值可包括將權重值量化及關於經量化之權重值執行霍夫曼寫碼。在額外實例中,寫碼權重值可包括使用任何寫碼技術寫碼以下各者中之一或多者:權重值、指示權重值之資料、經量化之權重值、指示經量化之權重值之資料。
在一些實例中,碼向量63可為一組正規正交向量。在其他實例中,碼向量63可為一組偽正規正交向量。在額外實例中,碼向量63可為以下各者中之一或多者:一組方向向量、一組正交方向向量、一組正規正交方向向量、一組偽正規正交方向向量、一組偽正交方向向量、一組方向基底向量、一組正交向量、一組偽正交向量、一組球諧基底向量、一組經正規化之向量,及一組基底向量。在碼向量63包括方向向量之實例中,方向向量中之每一者可具有對應於2D或3D空間 中之方向或定向輻射型樣之方向性。
在一些實例中,碼向量63可為一組預定義及/或預定碼向量63。在額外實例中,碼向量可獨立於基礎HOA音場係數及/或並非基於基礎HOA音場係數而產生。在其他實例中,當寫碼HOA係數之不同訊框時,碼向量63可為相同的。在額外實例中,當寫碼HOA係數之不同訊框時,碼向量63可為不同的。在額外實例中,碼向量63可替代地被稱作碼簿向量及/或候選碼向量。
在一些實例中,為了判定對應於減少之前景V[k]向量55中之一者的權重值,v-向量寫碼單元52可針對碼向量之加權總和中的權重值中之每一者將減少之前景V[k]向量乘以碼向量63中之一各別碼向量以判定各別權重值。在一些狀況下,為了將減少之前景V[k]向量乘以碼向量,v-向量寫碼單元52可將減少之前景V[k]向量乘以碼向量63中之各別碼向量之轉置以判定各別權重值。
為了將權重量化,v-向量寫碼單元52可執行任何類型之量化。舉例而言,v-向量寫碼單元52可關於權重值執行純量量化、向量量化或矩陣量化。
在一些實例中,代替寫碼所有權重值以產生經寫碼權重57,v-向量寫碼單元52可寫碼碼向量之加權總和中所包括的權重值之一子集以產生經寫碼權重57。舉例而言,v-向量寫碼單元52可將碼向量之加權總和中所包括的一組權重值量化。碼向量之加權總和中所包括的權重值之子集可指權重值之數目小於碼向量之加權總和中所包括的整組權重值中的權重值之數目的一組權重值。
在一些實例中,v-向量寫碼單元52可基於各種準則選擇碼向量之加權總和中所包括的權重值之子集以進行寫碼及/或量化。在一個實例中,整數N可表示碼向量之加權總和中所包括的權重值之總數目,且v-向量寫碼單元52可自該組N個權重值中選擇M個最大權重值(亦 即,最大值權重值)以形成權重值之子集,其中M為小於N之整數。以此方式,可保留對經分解之v-向量做出相對大量貢獻之碼向量的貢獻,同時可丟棄對經分解之v-向量做出相對小量貢獻之碼向量的貢獻,從而增加寫碼效率。亦可使用其他準則來選擇權重值之子集以用於進行寫碼及/或量化。
在一些實例中,M個最大權重值可為來自該組N個權重值的具有最大值之M個權重值。在其他實例中,M個最大權重值可為來自該組N個權重值的具有最大絕對值之M個權重值。
在v-向量寫碼單元52寫碼權重值之子集及/或將權重值之子集量化的實例中,除指示權重值的經量化之資料之外,經寫碼權重57亦可包括指示選擇權重值中之哪些者用於進行量化及/或寫碼的資料。在一些實例中,指示選擇權重值中之哪些者用於進行量化及/或寫碼的資料可包括來自對應於碼向量之加權總和中的碼向量之一組索引中的一或多個索引。在此等實例中,對於經選擇以用於進行寫碼及/或量化之權重中之每一者,可將對應於碼向量之加權總和中的權重值之碼向量的索引值包括於位元串流中。
在一些實例中,可基於以下表達式表示減少之前景V[k]向量55中之每一者:
其中Ω j 表示一組碼向量({Ω j })中之第j碼向量,ω j 表示一組權重({ω j })中之第j權重,且V FG 對應於由v-向量寫碼單元52表示、分解及/或寫碼之v-向量。表達式(1)之右側可表示包括一組權重({ω j })及一組碼向量({Ω j })的碼向量之加權總和。
在一些實例中,v-向量寫碼單元52可基於以下等式判定權重值:
其中表示一組碼向量({Ωk})中之第k碼向量之轉置,V FG 對應於由v-向量寫碼單元52表示、分解及/或寫碼之v-向量,且ω k 表示一組權重({ω k })中之第j權重。
在該組碼向量({Ω j })正規正交之實例中,以下表達式可適用:
在此等實例中,等式(2)之右側可簡化如下:
其中ω k 對應於碼向量之加權總和中之第k權重。
對於等式(1)中所使用的碼向量之實例加權總和,v-向量寫碼單元52可使用等式(2)計算碼向量之加權總和中的權重中之每一者的權重值且可將所得權重表示為:{ω k }k=1,…,25 (5)
考慮v-向量寫碼單元52選擇五個最大權重值(亦即,具有最大值或絕對值之權重)之實例。可將待量化的權重值之子集表示為:
可使用權重值之子集以及其對應碼向量形成估計v-向量的碼向量之加權總和,如以下表達式中所展示:
其中Ω j 表示碼向量({Ω j })之一子集中之第j碼向量,表示權重()之一子集中之第j權重,且對應於所估計之v-向量,其對應於由v-向量寫碼單元52分解及/或寫碼之v-向量。表達式(1)之右側可表示包括一組權重()及一組碼向量({Ω j })的碼向量之加權總和。
v-向量寫碼單元52可將權重值之子集量化以產生經量化之權重值,其可表示為:
可使用經量化之權重值以及其對應碼向量形成表示所估計之v-向量的經量化之版本的碼向量之加權總和,如以下表達式中所展示:
其中Ω j 表示碼向量({Ω j })之一子集中之第j碼向量,表示權重()之一子集中之第j權重,且對應於所估計之v-向量,其對應於由v-向量寫碼單元52分解及/或寫碼之v-向量。表達式(1)之右側可表示包括一組權重()及一組碼向量({Ω j })的碼向量之一子集之加權總和。
前文之替代重新敍述(其大部分等效於上文所描述之敍述)可如下。可基於一組預定義碼向量寫碼V-向量。為了寫碼V-向量,將每一V-向量分解成碼向量之加權總和。碼向量之加權總和由k對預定義碼向量及相關聯權重組成:
其中Ω j 表示一組預定義碼向量({Ω j })中之第j碼向量,ω j 表示一組預定義權重({ω j })中之第j實數值權重,k對應於加數之索引(其可高達7),且V對應於經寫碼之V-向量。k之選擇取決於編碼器。若編碼器選擇兩個或兩個以上碼向量之加權總和,則編碼器可選擇的預定義碼向量之總數目為(N+1)2,其中在一些實例中,預定義碼向量係自表F.2至F.11導出作為HOA擴展係數。對藉由F後接續句號點及數字表示之表格的參考係指在MPEG-H 3D音訊標準(題為「資訊技術-異質環境中之高效率寫碼及媒體遞送-第3部分:3D音訊(Information Technology-High efficiency coding and media delivery in heterogeneous environments-Part 3:3D Audio)」,ISO/IEC JTC1/SC 29,日期為2015-2-20(2015年2月20日),ISO/IEC 23008-3:2015(E),ISO/IEC JTC 1/SC 29/WG 11(檔案名稱:ISO_IEC_23008-3(E)- Word_document_v33.doc))之附錄F中指定的表格。
N為4時,使用附錄F.6中具有32個預定義方向之表格。在所有狀況下,將權重ω之絕對值關於下文所展示之表F.12中的表格之前k+1行中可見的且藉由相關聯之列編號索引用信號通知的預定義加權值向量量化。
將權重ω之數字正負號分別寫碼為
換言之,在用信號通知值k之後,藉由指向k+1個預定義碼向量{Ω j }之k+1個索引、指向預定義加權碼簿中之k個經量化之權重的一索引及k+1個數字正負號值s j編碼V-向量:
若編碼器選擇一碼向量之加權總和,則結合表F.11之表格中的絕對加權值使用自表F.8導出之碼簿,其中在下文展示此等表格中之兩者。又,可分別寫碼加權值ω之數字正負號。
就此而言,該等技術可使得音訊編碼器件20能夠選擇複數個碼簿中之一者以在關於音場之空間分量執行向量量化時使用,該空間分量係經由對複數個高階立體混響係數應用基於向量之合成而獲得。
此外,該等技術可使得音訊編碼器件20能夠在複數個成對碼簿中選擇以在關於音場之空間分量執行向量量化時使用,該空間分量係經由對複數個高階立體混響係數應用基於向量之合成而獲得。
在一些實例中,V-向量寫碼單元52可基於一組碼向量判定表示一向量之一或多個權重值,該向量包括於複數個高階立體混響(HOA)係數之經分解版本中。該等權重值中之每一者可對應於表示該向量的碼向量之加權總和中所包括的複數個權重中之一各別權重。
在此等實例中,V-向量寫碼單元52在一些實例中可將指示權重值 之資料量化。在此等實例中,為了將指示權重值之資料量化,V-向量寫碼單元52在一些實例中可選擇權重值之一子集以進行量化,且將指示權重值之所選擇之子集的資料量化。在此等實例中,V-向量寫碼單元52在一些實例中可能並不將指示並未包括於權重值之所選擇之子集中的權重值之資料量化。
在一些實例中,V-向量寫碼單元52可判定一組N個權重值。在此等實例中,V-向量寫碼單元52可自該組N個權重值中選擇M個最大權重值以形成權重值之子集,其中M小於N。
為了將指示權重值之資料量化,V-向量寫碼單元52可關於指示權重值之資料執行純量量化、向量量化及矩陣量化中之至少一者。除上文所提及之量化技術之外或代替上文所提及之量化技術,亦可執行其他量化技術。
為了判定權重值,V-向量寫碼單元52可針對權重值中之每一者基於碼向量63中之一各別碼向量判定各別權重值。舉例而言,V-向量寫碼單元52可將向量乘以碼向量63中之一各別碼向量以判定各別權重值。在一些狀況下,V-向量寫碼單元52可涉及將向量乘以碼向量63中之各別碼向量之轉置以判定各別權重值。
在一些實例中,HOA係數之經分解版本可為HOA係數之奇異值經分解版本。在其他實例中,HOA係數之經分解版本可為以下各者中之至少一者:HOA係數之經主分量分析(PCA)版本、HOA係數之經卡忽南-拉維變換版本、HOA係數之經哈特林變換版本、HOA係數之經適當正交分解(POD)版本,及HOA係數之經本徵值分解(EVD)版本。
在其他實例中,該組碼向量63可包括以下各者中之至少一者:一組方向向量、一組正交方向向量、一組正規正交方向向量、一組偽正規正交方向向量、一組偽正交方向向量、一組方向基底向量、一組正交向量、一組正規正交向量、一組偽正規正交向量、一組偽正交向 量、一組球諧基底向量、一組經正規化之向量,及一組基底向量。
在一些實例中,V-向量寫碼單元52可使用分解碼簿來判定用以表示V-向量(例如,減少之前景V[k]向量)之權重。舉例而言,V-向量寫碼單元52可自一組候選分解碼簿中選擇一分解碼簿,且基於所選擇之分解碼簿判定表示V-向量之權重。
在一些實例中,候選分解碼簿中之每一者可對應於一組碼向量63,該組碼向量63可用以分解V-向量及/或判定對應於V-向量之權重。換言之,每一不同的分解碼簿對應於可用以分解V-向量之一組不同的碼向量63。分解碼簿中之每一條目對應於該組碼向量中之向量中之一者。
分解碼簿中之該組碼向量可對應於用以分解V-向量之碼向量之加權總和中所包括的所有碼向量。舉例而言,該組碼向量可對應於表達式(1)之右側上所展示的碼向量之加權總和中所包括的該組碼向量63({Ω j })。在此實例中,碼向量63中之每一碼向量(亦即,Ω j )可對應於分解碼簿中之一條目。
在一些實例中,不同的分解碼簿可具有相同數目個碼向量63。在其他實例中,不同的分解碼簿可具有不同數目個碼向量63。
舉例而言,候選分解碼簿中之至少兩者可具有不同數目個條目(亦即,在此實例中為碼向量63)。作為另一實例,所有候選分解碼簿可具有不同數目個條目63。作為另一實例,候選分解碼簿中之至少兩者可具有相同數目個條目63。作為額外實例,所有候選分解碼簿可具有相同數目個條目63。
V-向量寫碼單元52可基於一或多個各種準則自該組候選分解碼簿中選擇一分解碼簿。舉例而言,V-向量寫碼單元52可基於對應於每一分解碼簿之權重選擇一分解碼簿。舉例而言,V-向量寫碼單元52可執行對應於每一分解碼簿之權重之分析(自表示V-向量之對應加權總和) 以判定在某一裕度之準確度(如例如藉由臨限值誤差定義)內表示V-向量需要多少個權重。V-向量寫碼單元52可選擇需要最少數目個權重之分解碼簿。在額外實例中,V-向量寫碼單元52可基於基礎音場之特性(例如,人工建立、自然記錄、高度分散等)選擇分解碼簿。
為了基於所選擇之碼簿判定權重(亦即,權重值),V-向量寫碼單元52可針對權重中之每一者選擇對應於各別權重(如例如藉由「WeightIdx」語法元素識別)之碼簿條目(亦即,碼向量),且基於所選擇之碼簿條目判定各別權重之權重值。為了基於所選擇之碼簿條目判定權重值,V-向量寫碼單元52在一些實例中可將V-向量乘以藉由所選擇之碼簿條目指定之碼向量63以產生權重值。舉例而言,V-向量寫碼單元52可將V-向量乘以藉由所選擇之碼簿條目指定之碼向量63的轉置以產生純量權重值。作為另一實例,等式(2)可用以判定權重值。
在一些實例中,分解碼簿中之每一者可對應於複數個量化碼簿中之一各別量化碼簿。在此等實例中,當V-向量寫碼單元52選擇分解碼簿時,V-向量寫碼單元52亦可選擇對應於該分解碼簿之量化碼簿。
V-向量寫碼單元52可將指示選擇哪一分解碼簿(例如,CodebkIdx語法元素)來寫碼減少之前景V[k]向量55中之一或多者的資料提供至位元串流產生單元42,以使得位元串流產生單元42可將此資料包括於所得位元串流中。在一些實例中,V-向量寫碼單元52可針對待寫碼之HOA係數之每一訊框選擇一分解碼簿來使用。在此等實例中,V-向量寫碼單元52可將指示選擇哪一分解碼簿來寫碼每一訊框之資料(例如,CodebkIdx語法元素)提供至位元串流產生單元42。在一些實例中,指示選擇哪一分解碼簿之資料可為對應於所選擇之碼簿之碼簿索引及/或識別值。
在一些實例中,V-向量寫碼單元52可選擇指示將使用多少個權重來估計V-向量(例如,減少之前景V[k]向量)之數目。指示將使用多少 個權重來估計V-向量之數目亦可指示將由V-向量寫碼單元52及/或音訊編碼器件20量化及/或寫碼之權重之數目。指示將使用多少個權重來估計V-向量之數目亦可被稱作待量化及/或寫碼的權重之數目。指示多少個權重之此數目可替代地表示為此等權重所對應於的碼向量63之數目。此數目因此亦可表示為用以將經向量量化之V-向量解量化的碼向量63之數目,且可藉由NumVecIndices語法元素來表示。
在一些實例中,V-向量寫碼單元52可基於針對特定V-向量所判定之權重值選擇待針對彼特定V-向量進行量化及/或寫碼的權重之數目。在額外實例中,V-向量寫碼單元52可基於與使用一或多個特定數目個權重估計特定V-向量相關聯之誤差選擇待針對該V-向量進行量化及/或寫碼的權重之數目。
舉例而言,V-向量寫碼單元52可判定與估計V-向量相關聯的誤差之最大誤差臨限值,且可判定使得藉由該數目個權重估計的所估計之V-向量與V-向量之間的誤差小於或等於最大誤差臨限值需要多少個權重。在來自碼簿之少於全部之碼向量用於加權總和中的情況下,所估計之向量可對應於碼向量之加權總和。
在一些實例中,V-向量寫碼單元52可基於以下等式判定使得誤差低於臨限值需要多少個權重:
其中Ω i 表示第i碼向量,ω i 表示第i權重,V FG 對應於由V-向量寫碼單元52分解、量化及/或寫碼之V-向量,且|x| α 為值x之範數,其中α為指示使用哪種類型之範數之值。舉例而言,α=1表示L1範數且α=2表示L2範數。圖20為說明實例曲線700之圖,該實例曲線700展示根據本發明中所描述之技術之各種態樣的用以選擇X*數目個碼向量之臨限值誤差。曲線700包括線702,該線說明誤差如何隨著碼向量之數目 增加而減小。
在上文所提及之實例中,索引i在一些實例中可按次序序列將權重編索引,以使得較大量值(例如,較大絕對值)權重按有序序列出現於較低量值(例如,較低絕對值)權重之前。換言之,ω 1可表示最大權重值,ω 2可表示次最大權重值,等等。類似地,ω X 可表示最低權重值。
V-向量寫碼單元52可將指示選擇多少個權重以用於寫碼減少之前景V[k]向量55中之一或多者的資料提供至位元串流產生單元42,以使得位元串流產生單元42可將此資料包括於所得位元串流中。在一些實例中,V-向量寫碼單元52可針對待寫碼之HOA係數之每一訊框選擇用於寫碼V-向量的權重之數目。在此等實例中,V-向量寫碼單元52可將指示選擇多少個權重以用於寫碼所選擇之每一訊框之資料提供至位元串流產生單元42。在一些實例中,指示選擇多少個權重之資料可為指示選擇多少個權重以用於進行寫碼及/或量化之數目。
在一些實例中,V-向量寫碼單元52可使用量化碼簿來將用以表示及/或估計V-向量(例如,減少之前景V[k]向量)之該組權重量化。舉例而言,V-向量寫碼單元52可自一組候選量化碼簿中選擇量化碼簿,且基於所選擇之量化碼簿將V-向量量化。
在一些實例中,候選量化碼簿中之每一者可對應於可用以將一組權重量化之一組候選量化向量。該組權重可形成待使用此等量化碼簿量化之權重之向量。換言之,每一不同的量化碼簿對應於一組不同的量化向量,可自該組不同的量化向量中選擇一單一量化向量以將V-向量量化。
碼簿中之每一條目可對應於一候選量化向量。候選量化向量中之每一者中的分量之數目在一些實例中可等於待量化之權重之數目。
在一些實例中,不同的量化碼簿可具有相同數目個候選量化向 量。在其他實例中,不同的量化碼簿可具有不同數目個候選量化向量。
舉例而言,候選量化碼簿中之至少兩者可具有不同數目個候選量化向量。作為另一實例,所有的候選量化碼簿可具有不同數目個候選量化向量。作為另一實例,候選量化碼簿中之至少兩者可具有相同數目個候選量化向量。作為額外實例,所有的候選量化碼簿可具有相同數目個候選量化向量。
V-向量寫碼單元52可基於一或多個各種準則自該組候選量化碼簿中選擇一量化碼簿。舉例而言,V-向量寫碼單元52可基於用以判定用於V-向量之權重之分解碼簿選擇用於V-向量的量化碼簿。作為另一實例,V-向量寫碼單元52可基於待量化之權重值之機率分佈選擇用於V-向量的量化碼簿。在其他實例中,V-向量寫碼單元52可基於選擇以下各者之組合選擇用於V-向量之量化碼簿:用以判定用於V-向量之權重之分解碼簿,以及被視為在某一誤差臨限值(例如,按照等式14)內表示V-向量所必要的權重之數目。
為了基於所選擇之量化碼簿將權重量化,V-向量寫碼單元52在一些實例中可判定用於基於所選擇之量化碼簿將V-向量量化之量化向量。舉例而言,V-向量寫碼單元52可執行向量量化(VQ)以判定用於將V-向量量化之量化向量。
在額外實例中,為了基於所選擇之量化碼簿將權重量化,V-向量寫碼單元52可針對每一V-向量基於與使用量化向量中之一或多者表示V-向量相關聯的量化誤差自所選擇之量化碼簿中選擇量化向量。舉例而言,V-向量寫碼單元52可自所選擇之量化碼簿中選擇使得量化誤差最小化(例如,使得最小平方誤差最小化)之候選量化向量。
在一些實例中,量化碼簿中之每一者可對應於複數個分解碼簿中之一各別分解碼簿。在此等實例中,V-向量寫碼單元52亦可基於用 以判定用於V-向量之權重的分解碼簿選擇用於將與V-向量相關聯之該組權重量化的量化碼簿。舉例而言,V-向量寫碼單元52可選擇對應於用以判定用於V-向量之權重之分解碼簿的量化碼簿。
V-向量寫碼單元52可將指示選擇哪一量化碼簿來將對應於減少之前景V[k]向量55中之一或多者的權重量化的資料提供至位元串流產生單元42,以使得位元串流產生單元42可將此資料包括於所得位元串流中。在一些實例中,V-向量寫碼單元52可針對待寫碼之HOA係數之每一訊框選擇一量化碼簿來使用。在此等實例中,V-向量寫碼單元52可將指示選擇哪一量化碼簿以用於將每一訊框中之權重量化之資料提供至位元串流產生單元42。在一些實例中,指示選擇哪一量化碼簿之資料可為對應於所選擇之碼簿之碼簿索引及/或識別值。
包括於音訊編碼器件20內之心理聲學音訊寫碼器單元40可表示心理聲學音訊寫碼器之多個執行個體,其中之每一者用以編碼經能量補償之環境HOA係數47'及經內插之nFG信號49'中的每一者之不同音訊物件或HOA聲道,以產生經編碼環境HOA係數59及經編碼nFG信號61。心理聲學音訊寫碼器單元40可將經編碼環境HOA係數59及經編碼nFG信號61輸出至位元串流產生單元42。
包括於音訊編碼器件20內之位元串流產生單元42表示將資料格式化以符合已知格式(其可指為解碼器件已知之格式)藉此產生基於向量之位元串流21的單元。換言之,位元串流21可表示以上文所描述之方式編碼之經編碼音訊資料。位元串流產生單元42在一些實例中可表示多工器,其可接收經寫碼前景V[k]向量57、經編碼環境HOA係數59、經編碼nFG信號61,及背景聲道資訊43。位元串流產生單元42可接著基於經寫碼前景V[k]向量57、經編碼環境HOA係數59、經編碼nFG信號61及背景聲道資訊43產生位元串流21。以此方式,位元串流產生單元42可藉此在位元串流21中指定向量57以獲得位元串流21。位 元串流21可包括主要或主位元串流及一或多個旁側聲道位元串流。
儘管在圖3A之實例中未展示,但音訊編碼器件20亦可包括位元串流輸出單元,該位元串流輸出單元基於當前訊框將使用基於方向之合成抑或基於向量之合成編碼而切換自音訊編碼器件20輸出之位元串流(例如,在基於方向之位元串流21與基於向量之位元串流21之間切換)。位元串流輸出單元可基於由內容分析單元26輸出的指示執行基於方向之合成(作為偵測到HOA係數11係自合成音訊物件產生之結果)抑或執行基於向量之合成(作為偵測到HOA係數經記錄之結果)之語法元素執行該切換。位元串流輸出單元可指定正確的標頭語法以指示用於當前訊框以及位元串流21中之各別位元串流之切換或當前編碼。
此外,如上文所提及,音場分析單元44可識別BGTOT環境HOA係數47,該等BGTOT環境HOA係數可基於逐個訊框而改變(但時常BGTOT可跨越兩個或兩個以上鄰近(在時間上)訊框保持恆定或相同)。BGTOT之改變可導致在減少之前景V[k]向量55中表達的係數之改變。BGTOT之改變可導致背景HOA係數(其亦可被稱作「環境HOA係數」),其基於逐個訊框而改變(但再次,時常BGTOT可跨越兩個或兩個以上鄰近(在時間上)訊框保持恆定或相同)。該等改變常常導致藉由以下各者表示的就音場之各方面而言的能量之改變:額外環境HOA係數之添加或移除及係數自減少之前景V[k]向量55之對應移除或係數至減少之前景V[k]向量55之添加。
因此,音場分析單元44可進一步判定環境HOA係數何時逐訊框而改變且產生指示環境HOA係數之改變之旗標或其他語法元素(就用以表示音場之環境分量而言)(其中該改變亦可被稱作環境HOA係數之「轉變」或被稱作環境HOA係數之「轉變」)。詳言之,係數減少單元46可產生旗標(其可表示為AmbCoeffTransition旗標或AmbCoeffIdxTransition旗標),從而將該旗標提供至位元串流產生單 元42,以便可將該旗標包括於位元串流21中(有可能作為旁側聲道資訊之部分)。
除指定環境係數轉變旗標之外,係數減少單元46亦可修改產生減少之前景V[k]向量55之方式。在一實例中,當判定環境HOA環境係數中之一者在當前訊框中處於轉變中時,係數減少單元46可指定用於減少之前景V[k]向量55之V-向量中的每一者的向量係數(其亦可被稱作「向量元素」或「元素」),其對應於處於轉變中之環境HOA係數。同樣地,處於轉變中之環境HOA係數可添加至背景係數之BGTOT總數目或自背景係數之BGTOT總數目移除。因此,背景係數之總數目之所得改變影響以下情形:環境HOA係數包括於抑或不包括於位元串流中,及在上文所描述之第二及第三組態模式中是否針對位元串流中所指定之V-向量包括V-向量之對應元素。關於係數減少單元46可如何指定減少之前景V[k]向量55以克服能量之改變的更多資訊提供於2015年1月12日申請之題為「環境HIGHER_ORDER立體混響係數之轉變(TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS)」之美國申請案第14/594,533號中。
圖3B為更詳細地說明可執行本發明中所描述之技術之各種態樣的圖3之實例中所展示的音訊編碼器件420之另一實例的方塊圖。除了以下情形以外,圖3B中所展示的音訊編碼器件420類似於音訊編碼器件20:音訊編碼器件420中之v-向量寫碼單元52亦將權重值資訊71提供至重新排序單元34。
在一些實例中,權重值資訊71可包括由v-向量寫碼單元52計算之權重值中之一或多者。在其他實例中,權重值資訊71可包括指示v-向量寫碼單元52選擇哪些權重以用於進行量化及/或寫碼之資訊。在額外實例中,權重值資訊71可包括指示v-向量寫碼單元52不選擇哪些權重以用於進行量化及/或寫碼之資訊。除上文所提及之資訊項目之外 或代替上文所提及之資訊項目,權重值資訊71亦可包括上文所提及之資訊項目以及其他項目中之任一者的任何組合。
在一些實例中,重新排序單元34可基於權重值資訊71(例如,基於權重值)將向量重新排序。在v-向量寫碼單元52選擇權重值之一子集以進行量化及/或寫碼之實例中,重新排序單元34在一些實例中可基於選擇權重值中之哪些權重值以用於進行量化或寫碼(其可藉由權重值資訊71指示)而將向量重新排序。
圖4A為更詳細地說明圖2之音訊解碼器件24之方塊圖。如圖4A之實例中所展示,音訊解碼器件24可包括提取單元72、基於方向性之重建構單元90及基於向量之重建構單元92。儘管下文加以描述,但關於音訊解碼器件24及解壓縮或以其他方式解碼HOA係數之各種態樣之更多資訊可在2014年5月29日申請之題為「用於音場之經分解表示之內插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)」之國際專利申請公開案第WO 2014/194099號中獲得。
提取單元72可表示經組態以接收位元串流21及提取HOA係數11之各種經編碼版本(例如,基於方向之經編碼版本或基於向量之經編碼版本)之單元。提取單元72可判定上文所提及的指示HOA係數11係經由各種基於方向之版本抑或基於向量之版本編碼的語法元素。當執行基於方向之編碼時,提取單元72可提取HOA係數11之基於方向之版本及與該經編碼版本相關聯之語法元素(其在圖4A之實例中表示為基於方向之資訊91),將該基於方向之資訊91傳遞至基於方向之重建構單元90。基於方向之重建構單元90可表示經組態以基於基於方向之資訊91以HOA係數11'之形式重建構HOA係數的單元。
當語法元素指示HOA係數11係使用基於向量之合成編碼時,提取單元72可提取經寫碼前景V[k]向量(其可包括經寫碼權重57及/或索 引73)、經編碼環境HOA係數59及經編碼nFG信號59。提取單元72可將經寫碼權重57傳遞至量化單元74且將經編碼環境HOA係數59連同經編碼nFG信號61一起傳遞至心理聲學解碼單元80。
為了提取經寫碼權重57、經編碼環境HOA係數59及經編碼nFG信號59,提取單元72可獲得包括表示為CodedVVecLength之語法元素的HOADecoderConfig容器應用程式。提取單元72可剖析來自HOADecoderConfig容器應用程式之CodedVVecLength。提取單元72可經組態以在上文所描述之組態模式中的任一者中基於CodedVVecLength語法元素操作。
在一些實例中,提取單元72可根據以下偽碼中所呈現之switch敍述與用於VVectorData之以下語法表(其中加刪除線指示加刪除線之標的物之移除且加底線指示加底線之標的物相對於語法表之先前版本的添加)中所呈現之語法操作,如鑒於伴隨的語義而理解:
VVectorData(VecSigChannelIds(i))
此結構含有用於進行基於向量之信號合成之經寫碼V-向量資料。
VVec(k)[i] 此為用於第i聲道之第k HOAframe()之V-向量。
VVecLength 此變數指示待讀出之向量元素之數目。
VVecCoeffId 此向量含有經傳輸之V-向量係數之索引。
VecVal 介於0與255之間的整數值。
aVal 在解碼VVectorData期間使用之暫時變數。
huffVal 待進行霍夫曼解碼之霍夫曼碼字。
sgnVal 此符號為在解碼期間使用之經寫碼正負號值。
intAddVal 此符號為在解碼期間使用之額外整數值。
NumVecIndices 用以將經向量量化之V-向量解量化的向量之數目。
WeightIdx WeightValCdbk中用以將經向量量化之V-向量解量化之索引。
nbitsW 用於讀取WeightIdx以解碼經向量量化之V-向量 的欄位大小。
WeightValCdbk 含有正實數值加權係數之向量的碼簿。若NumVecIndices經設定為1,則使用具有16個條目之WeightValCdbk,否則,使用具有256個條目之WeightValCdbk。
VvecIdx 用以將經向量量化之V-向量解量化的VecDict之索引。
nbitsIdx 用於讀取個別VvecIdxs以解碼經向量量化之V-向量的欄位大小。
WeightVal 用以解碼經向量量化之V-向量的實數值加權係數。
在前述語法表中,具有四種狀況(狀況0至3)之第一switch敍述提供藉以依據係數之數目(VVecLength)及索引(VVecCoeffId)判定VT DIST向量長度之方式。第一狀況(狀況0)指示用於VT DIST向量之所有係數(NumOfHoaCoeffs)經指定。第二狀況(狀況1)指示僅VT DIST向量之對應於大於MinNumOfCoeffsForAmbHOA之數目的彼等係數經指定,其可表示上文所提及的(NDIST+1)2-(NBG+1)2。另外,減去ContAddAmbHoaChan中所識別之彼等NumOfContAddAmbHoaChan係數。清單ContAddAmbHoaChan指定對應於超過階數MinAmbHoaOrder之階數的額外通道(其中「通道」係指對應於某一階數、子階組合之特定係數)。第三狀況(狀況2)指示VT DIST向量之對應於大於MinNumOfCoeffsForAmbHOA之數目的彼等係數經指定,其可表示上文所提及的(NDIST+1)2-(NBG+1)2。VVecLength以及VVecCoeffId清單兩者對於HOAFrame上之所有VVectors皆係有效的。
在此switch敍述之後,可藉由NbitsQ(或,如上文所指示,nbits)來控制是執行向量量化抑或均勻純量解量化之決策。先前,僅提議純 量量化來將Vvectors量化(例如,當NbitsQ等於4時)。雖然當NBitsQ等於5時仍提供純量量化,但當(作為一個實例)NbitsQ等於4時,可根據本發明中所描述之技術執行向量量化。
換言之,藉由前景音訊信號及對應空間資訊(亦即,在本發明之實例中,為V-向量)表示具有強方向性之HOA信號。在本發明中所描述之V-向量寫碼技術中,藉由如以下等式給出的預定義方向向量之加權加總表示每一V-向量:
其中ω i 及Ω i 分別為第i加權值及對應方向向量。
在圖16中說明V-向量寫碼之實例。如圖16(a)中所展示,可藉由若干個方向向量之混合來表示原始V-向量。可接著藉由加權總和來估計原始V-向量,如圖16(b)中所展示,其中在圖16(e)中展示加權向量。圖16(c)及(f)說明僅選擇I S (I S I)個最高加權值之狀況。可接著針對所選擇之加權值執行向量量化(VQ)且在圖16(d)及(g)中說明結果。
可如下來判定此v-向量寫碼方案之計算複雜性:0.06 MOPS(HOA階數=6)/0.05 MOPS(HOA階數=5);且0.03 MOPS(HOA階數=4)/0.02 MOPS(HOA階數=3)。
可判定ROM複雜性為16.29千位元組(對於HOA階數3、4、5及6),而判定演算法延遲為0個樣本。
可在上文藉由使用底線展示之VVectorData語法表內表示對上文提及的3D音訊寫碼標準之當前版本之所需修改。亦即,在上文所提及的MPEG-H 3D音訊提議標準之CD中,藉由純量量化(SQ)或SQ後接續霍夫曼寫碼執行V-向量寫碼。所提議之向量量化(VQ)方法之所需位元可能比習知SQ寫碼方法少。對於12個參考測試項目,所需位元平均如下:
˙SQ+霍夫曼:16.25KB
˙所提議之VQ:5.25KB
可將所節省之位元改變用途以用於感知音訊寫碼。
換言之,V-向量重建構單元74可根據以下偽碼操作以重建構V-向量:
根據前述偽碼(其中加刪除線指示加刪除線之標的物之移除),v-向量重建構單元74可根據關於switch敍述之偽碼基於CodedVVecLength之值判定VVecLength。基於此VVecLength,v-向量重建構單元74可反覆進行考慮NbitsQ值之後續if/elseif敍述。當用於第k訊框之第i NbitsQ值等於4時,v-向量重建構單元74判定將執行向量解量化。
cdbLen語法元素指示碼向量之辭典或碼簿中的條目之數目(其中此辭典在前述偽碼中表示為「VecDict」且表示具有cdbLen個碼簿條目之碼簿,其含有用以解碼經向量量化之V-向量的HOA擴展係數之向量),其係基於NumVvecIndicies及HOA階數而導出。當NumVvecIndicies之值等於一時,自上述表F.8結合上述表F.11中所展示之8×1加權值之碼簿導出向量碼簿HOA擴展係數。當NumVvecIndicies之值大於一時,結合上述表F.12中所展示之256×8加權值使用具有O個向量之向量碼簿。
儘管上文描述為使用大小為256×8之碼簿,但可使用具有不同數目個值之不同碼簿。亦即,代替val0至val7,可使用具有256列之碼簿,其中每一列係藉由一不同索引值(索引0至索引255)編索引且具有不同數目個值,諸如值0至值9(總共十個值)或值0至值15(總共16個值)。圖19A及圖19B為說明可根據本發明中所描述之技術之各種態樣使用的具有256列之碼簿的圖,其中每一列分別具有10個值及16個值。
v-向量重建構單元74可基於權重值碼簿(表示為「WeightValCdbk」,其可表示基於以下各者中之一或多者編索引之多維表:碼簿索引(在前述VVectorData(i)語法表中表示為「CodebkIdx」),及權重索引(在前述VVectorData(i)語法表中表示為「WeightIdx」))導出用以重建構V-向量之每一對應碼向量之權重值。可在旁側聲道資訊之一部分中界定此CodebkIdx語法元素,如以下ChannelSideInfoData(i)語法表中所展示。
前表中之加底線表示用以適應CodebkIdx之添加的對現有語法表之改變。用於前表之語義如下。
此有效負載保持用於第i聲道之旁側資訊。有效負載之大小及資料取決於聲道之類型。
ChannelType[i] 此元素儲存表95中所界定的第i聲道之類型。
ActiveDirsIds[i] 此元素使用來自附錄F.7的900個預定義均勻分佈之點之索引指示作用中方向信號之方向。碼字0用於用信號通知方向信號之結束。
PFlag[i] 與第i聲道之基於向量之信號相關聯的用於經純量量化之V-向量之霍夫曼解碼的預測旗標。
CbFlag[i] 與第i聲道之基於向量之信號相關聯的用於經純量量化之V-向量之霍夫曼解碼的碼簿旗標。
CodebkIdx[i] 用信號通知與第i聲道之基於向量之信號相關聯的用以將經向量量化之V-向量解量化的特定碼簿。
NbitsQ[i] 此索引判定與第i聲道之基於向量之信號相關聯的用於資料之霍夫曼解碼之霍夫曼表。碼字5判定均勻8位元解量化器之使用。兩個MSB 00判定重用前一訊框(k-1)之NbitsQ[i]、PFlag[i]及CbFlag[i]資料。
bA,bB NbitsQ[i]欄位之msb(bA)及第二msb(bB)。
uintC NbitsQ[i]欄位之剩餘兩個位元之碼字。
AddAmbHoaInfoChannel(i) 此有效負載保持用於額外環境HOA係數之資訊。
根據VVectorData語法表語義,nbitsW語法元素表示用於讀取WeightIdx以解碼經向量量化之V-向量之欄位大小,而WeightValCdbk語法元素表示含有正實數值加權係數之向量的碼簿。若NumVecIndices經設定為1,則使用具有8個條目之WeightValCdbk,否則,使用具有256個條目之WeightValCdbk。根據VVectorData語法表,當CodebkIdx等於零時,v-向量重建構單元74判定nbitsW等於3且WeightIdx可具有在0至7之範圍內的值。在此情況下,碼向量辭典VecDict具有相對大量條目(例如,900個)且與僅具有8個條目之權重碼簿配對。當CodebkIdx並不等於零時,v-向量重建構單元74判定nbitsW等於8且WeightIdx可具有在0至255之範圍內的值。在此情況下,VecDict具有相對少量條目(例如,25或32個條目)且權重碼簿中需要相對大量權重(例如,256個)以確保可接受之誤差。以此方式,該等技術可提供成對碼簿(參考成對的所使用之VecDict及權重碼簿)。可接著如下來計算權重值(在前述VVectorData語法表中表示為「WeightVal」): |WeightVal[j]=((SgnVal*2)-1)*WeightValCdbk[CodebkIdx(k)[i]][WeightIdx][j];
可接著根據上述偽碼將此WeightVal應用於對應碼向量以將v-向量解向量量化。
就此而言,該等技術可使得音訊解碼器件(例如,音訊解碼器件24)選擇複數個碼簿中之一者以在關於一音場之一經向量量化之空間分量執行向量解量化時使用,該經向量量化之空間分量係經由對複數個高階立體混響係數應用一基於向量之合成而獲得。
此外,該等技術可使得音訊解碼器件24能夠在複數個成對碼簿之間選擇以在關於一音場之一經向量量化之空間分量執行向量解量化時使用,該經向量量化之空間分量係經由對複數個高階立體混響係數應用一基於向量之合成而獲得。
當NbitsQ等於5時,執行均勻8位元純量解量化。與此對比,大於或等於6之NbitsQ值可導致霍夫曼解碼之應用。上文提及之cid值可等於NbitsQ值之兩個最低有效位元。上文所論述之預測模式在以上語法表中表示為PFlag,而HT資訊位元在以上語法表中表示為CbFlag。剩餘語法指定解碼如何以實質上類似於上文所描述之方式的方式發生。
基於向量之重建構單元92表示經組態以執行與上文關於基於向量之合成單元27所描述的操作互逆之操作以便重建構HOA係數11'之單元。基於向量之重建構單元92可包括v-向量重建構單元74、空間-時間內插單元76、前景制訂單元78、心理聲學解碼單元80、HOA係數制訂單元82及重新排序單元84。
v-向量重建構單元74可接收經寫碼權重57且產生減少之前景V[k]向量55 k 。v-向量重建構單元74可將減少之前景V[k]向量55 k 轉遞至重新排序單元84。
舉例而言,v-向量重建構單元74可經由提取單元72自位元串流 21中獲得經寫碼權重57,且基於經寫碼權重57及一或多個碼向量重建構減少之前景V[k]向量55 k 。在一些實例中,經寫碼權重57可包括對應於用以表示減少之前景V[k]向量55 k 之一組碼向量中之所有碼向量的權重值。在此等實例中,v-向量重建構單元74可基於整組碼向量重建構減少之前景V[k]向量55 k
經寫碼權重57可包括對應於用以表示減少之前景V[k]向量55 k 之一組碼向量的一子集的權重值。在此等實例中,經寫碼權重57可進一步包括指示使用複數個碼向量中之哪一者來重建構減少之前景V[k]向量55 k 的資料,且v-向量重建構單元74可使用藉由此資料指示之碼向量之一子集來重建構減少之前景V[k]向量55 k 。在一些實例中,指示使用複數個碼向量中之哪一者來重建構減少之前景V[k]向量55k的資料可對應於索引57。
在一些實例中,v-向量重建構單元74可自位元串流獲得指示表示一向量之複數個權重值之資料,該向量包括於複數個HOA係數之經分解版本中,且基於權重值及碼向量重建構該向量。該等權重值中之每一者可對應於表示該向量的碼向量之加權總和中的複數個權重中之一各別權重。
在一些實例中,為了重建構向量,v-向量重建構單元74可判定碼向量之加權總和,其中碼向量係經權重值加權。在其他實例中,為了重建構該向量,v-向量重建構單元74可針對權重值中之每一者將權重值乘以碼向量中之一各別碼向量以產生複數個加權碼向量中所包括之一各別加權碼向量,且將該複數個加權碼向量加總以判定該向量。
在一些實例中,v-向量重建構單元74可自位元串流中獲得指示使用複數個碼向量中之哪一者來重建構該向量的資料,且基於權重值(例如,基於CodebkIdx及WeightIdx語法元素自WeightValCdbk導出之WeightVal元素)、碼向量及指示使用複數個碼向量中之哪一者(如例如 藉由VVecIdx語法元素以及NumVecIndices識別)來重建構該向量的資料重建構該向量。在此等實例中,為了重建構該向量,v-向量重建構單元74在一些實例中可基於指示使用複數個碼向量中之哪一者來重建構該向量的資料選擇碼向量之一子集,且基於權重值及碼向量之所選擇之子集重建構該向量。
在此等實例中,為了基於權重值及碼向量之所選擇之子集重建構該向量,v-向量重建構單元74可針對權重值中之每一者將權重值乘以碼向量之子集中的碼向量中之一各別碼向量以產生一各別加權碼向量,且將複數個加權碼向量加總以判定該向量。
心理聲學解碼單元80可以與圖4A之實例中所展示的心理聲學音訊寫碼單元40互逆之方式操作,以便解碼經編碼環境HOA係數59及經編碼nFG信號61,且藉此產生經能量補償之環境HOA係數47'及經內插之nFG信號49'(其亦可被稱作經內插之nFG音訊物件49')。儘管經展示為彼此分離,但經編碼環境HOA係數59及經編碼nFG信號61可能並非彼此分離,且實情為,可經指定為經編碼聲道,如下文關於圖4B所描述。當經編碼環境HOA係數59及經編碼nFG信號61一起經指定為經編碼聲道時,心理聲學解碼單元80可解碼經編碼聲道以獲得經解碼聲道,且接著關於經解碼聲道執行一種形式之聲道重新指派以獲得經能量補償之環境HOA係數47'及經內插之nFG信號49'。
換言之,心理聲學解碼單元80可獲得所有佔優勢聲音信號之經內插之nFG信號49'(其可表示為訊框X ps (k))、表示環境HOA分量之中間表示的經能量補償之環境HOA係數47'(其可表示為訊框 C I,AMB(k))。心理聲學解碼單元80可基於位元串流21或29中所指定之語法元素執行此聲道重新指派,該等語法元素可包括針對每一輸送聲道指定環境HOA分量之有可能含有的係數序列之索引的指派向量,及指示一組作用中V向量之其他語法元素。在任何情況下,心理聲學解碼單元80可 將經能量補償之環境HOA係數47'傳遞至HOA係數制訂單元82且將nFG信號49'傳遞至重新排序單元84。
換言之,心理聲學解碼單元80可獲得所有佔優勢聲音信號之經內插之nFG信號49'(其可表示為訊框X ps (k))、表示環境HOA分量之中間表示的經能量補償之環境HOA係數47'(其可表示為訊框 C I,AMB(k))。心理聲學解碼單元80可基於位元串流21或29中所指定之語法元素執行此聲道重新指派,該等語法元素可包括針對每一輸送聲道指定環境HOA分量之有可能含有的係數序列之索引的指派向量,及指示一組作用中V向量之其他語法元素。在任何情況下,心理聲學解碼單元80可將經能量補償之環境HOA係數47'傳遞至HOA係數制訂單元82且將nFG信號49'傳遞至重新排序單元84。
為了重新敍述前文,可按上文所描述之方式自基於向量之信號重新制訂HOA係數。可首先關於每一V-向量執行純量解量化以產生M VEC(k),其中當前訊框之第i個別向量可表示為。可使用線性可逆變換(諸如,奇異值分解、主分量分析、卡忽南-拉維變換、哈特林變換、適當正交分解或本徵值分解)自HOA係數分解V-向量,如上文所描述。在奇異值分解之狀況下,分解亦輸出S[k]及U[k]向量,該等向量可經組合以形成US[k]。US[k]矩陣中之個別向量元素可表示為X PS (k,l)。
可關於M VEC(k)及M VEC(k-1)(其表示來自前一訊框之V-向量,其中M VEC(k-1)之個別向量表示為)執行空間時間內插。作為一個實例,藉由w VEC(l)來控制空間內插方法。在內插之後,接著將第i個經內插之V-向量乘以第iUS[k](其表示為X Ps,i (k,l))以輸出 HOA表示之第i行。可接著將行向量加總以制訂基於向量之 信號之HOA表示。以此方式,針對訊框藉由關於執行內插而獲得HOA係數之經分解之經內插之表示,如下文進一步詳細描 述。
圖4B為更詳細地說明音訊解碼器件24之另一實例的方塊圖。音訊解碼器件24之在圖4B中所展示之實例經表示為音訊解碼器件24'。除了音訊解碼器件24'之心理聲學解碼單元902並不執行上文所描述之聲道重新指派以外,音訊解碼器件24'實質上類似於圖4A之實例中所展示之音訊解碼器件24。實情為,音訊編碼器件24'包括執行上文所描述之聲道重新指派的單獨聲道重新指派單元904。在圖4B之實例中,心理聲學解碼單元902接收經編碼聲道900且關於經編碼聲道900執行心理聲學解碼以獲得經解碼聲道901。心理聲學解碼單元902可將經解碼聲道901輸出至聲道重新指派單元904。聲道重新指派單元904可接著關於經解碼聲道901執行上文所描述之聲道重新指派以獲得經能量補償之環境HOA係數47'及經內插之nFG信號49'。
空間-時間內插單元76可以與上文關於空間-時間內插單元50所描述之方式類似之方式操作。空間-時間內插單元76可接收減少之前景V[k]向量55 k 且關於前景V[k]向量55 k 及減少之前景V[k-1]向量55 k-1執行空間-時間內插以產生經內插之前景V[k]向量55 k "。空間-時間內插單元76可將經內插之前景V[k]向量55 k "轉遞至淡化單元770。
提取單元72亦可將指示環境HOA係數中之一者何時處於轉變中之信號757輸出至淡化單元770,該淡化單元770可接著判定SHCBG 47'(其中SHCBG 47'亦可表示為「環境HOA聲道47'」或「環境HOA係數47'」)及經內插之前景V[k]向量55 k "之元素中之哪一者將淡入或淡出。在一些實例中,淡化單元770可關於環境HOA係數47'及經內插之前景V[k]向量55 k "之元素中之每一者相反地操作。亦即,淡化單元770可關於環境HOA係數47'中之對應環境HOA係數執行淡入或淡出或執行淡入或淡出兩者,同時關於經內插之前景V[k]向量55 k "之元素中之對應經內插之前景V[k]向量執行淡入或淡出或執行淡入與淡出兩者。 淡化單元770可將經調整之環境HOA係數47"輸出至HOA係數制訂單元82且將經調整之前景V[k]向量55 k '''輸出至前景制訂單元78。就此而言,淡化單元770表示經組態以關於HOA係數或其導出項(例如,呈環境HOA係數47'及經內插之前景V[k]向量55 k "之元素的形式)之各種態樣執行淡化操作的單元。
前景制訂單元78可表示經組態以關於經調整之前景V[k]向量55 k '''及經內插之nFG信號49'執行矩陣乘法以產生前景HOA係數65的單元。就此而言,前景制訂單元78可組合音訊物件49'(該方式為藉以表示經內插之nFG信號49'之另一種方式)與向量55 k '''以重建構HOA係數11'之前景(或換言之,佔優勢)態樣。前景制訂單元78可執行經內插之nFG信號49'乘以經調整之前景V[k]向量55 k '''的矩陣乘法。
HOA係數制訂單元82可表示經組態以將前景HOA係數65組合至經調整之環境HOA係數47"以便獲得HOA係數11'的單元。撇號記法反映HOA係數11'可類似於HOA係數11但與HOA係數11不相同。HOA係數11與11'之間的差可起因於歸因於有損傳輸媒體上之傳輸、量化或其他有損操作產生之損失。
圖5為說明音訊編碼器件(諸如,圖3A之實例中所展示的音訊編碼器件20)在執行本發明中所描述的基於向量之合成技術之各種態樣中的例示性操作的流程圖。最初,音訊編碼器件20接收HOA係數11(106)。音訊編碼器件20可調用LIT單元30,LIT單元30可關於HOA係數應用LIT以輸出經變換之HOA係數(例如,在SVD之狀況下,經變換之HOA係數可包含US[k]向量33及V[k]向量35)(107)。
音訊編碼器件20接下來可調用參數計算單元32以按上文所描述之方式關於US[k]向量33、US[k-1]向量33、V[k]及/或V[k-1]向量35之任何組合執行上文所描述之分析以識別各種參數。亦即,參數計算單元32可基於經變換之HOA係數33/35之分析判定至少一參數(108)。
音訊編碼器件20可接著調用重新排序單元34,重新排序單元34基於參數將經變換之HOA係數(再次在SVD之內容脈絡中,其可指US[k]向量33及V[k]向量35)重新排序以產生經重新排序之經變換之HOA係數33'/35'(或,換言之,US[k]向量33'及V[k]向量35'),如上文所描述(109)。在前述操作或後續操作中之任一者期間,音訊編碼器件20亦可調用音場分析單元44。如上文所描述,音場分析單元44可關於HOA係數11及/或經變換之HOA係數33/35執行音場分析以判定前景聲道之總數目(nFG)45、背景音場之階數(NBG)以及待發送之額外BGHOA聲道之數目(nBGa)及索引(i)(其在圖3A之實例中可共同地表示為背景聲道資訊43)(109)。
音訊編碼器件20亦可調用背景選擇單元48。背景選擇單元48可基於背景聲道資訊43判定背景或環境HOA係數47(110)。音訊編碼器件20可進一步調用前景選擇單元36,前景選擇單元36可基於nFG 45(其可表示識別前景向量之一或多個索引)選擇表示音場之前景或特異分量的經重新排序之US[k]向量33'及經重新排序之V[k]向量35'(112)。
音訊編碼器件20可調用能量補償單元38。能量補償單元38可關於環境HOA係數47執行能量補償以補償歸因於由背景選擇單元48移除HOA係數中之各種HOA係數而產生的能量損失(114),且藉此產生經能量補償之環境HOA係數47'。
音訊編碼器件20亦可調用空間-時間內插單元50。空間-時間內插單元50可關於經重新排序之經變換之HOA係數33'/35'執行空間-時間內插以獲得經內插之前景信號49'(其亦可被稱作「經內插之nFG信號49'」)及剩餘前景方向資訊53(其亦可被稱作「V[k]向量53」)(116)。音訊編碼器件20可接著調用係數減少單元46。係數減少單元46可基於背景聲道資訊43關於剩餘前景V[k]向量53執行係數減少以獲得減少之 前景方向資訊55(其亦可被稱作減少之前景V[k]向量55)(118)。
音訊編碼器件20可接著調用V-向量寫碼單元52以按上文所描述之方式壓縮減少之前景V[k]向量55且產生經寫碼前景V[k]向量57(120)。
音訊編碼器件20亦可調用心理聲學音訊寫碼器單元40。心理聲學音訊寫碼器單元40可對經能量補償之環境HOA係數47'及經內插之nFG信號49'之每一向量進行心理聲學寫碼以產生經編碼環境HOA係數59及經編碼nFG信號61。音訊編碼器件可接著調用位元串流產生單元42。位元串流產生單元42可基於經寫碼前景方向資訊57、經寫碼環境HOA係數59、經寫碼nFG信號61及背景聲道資訊43產生位元串流21。
圖6為說明音訊解碼器件(諸如,圖4A中所展示之音訊解碼器件24)在執行本發明中所描述之技術之各種態樣中的例示性操作的流程圖。最初,音訊解碼器件24可接收位元串流21(130)。在接收到位元串流後,音訊解碼器件24可調用提取單元72。出於論述之目的假定位元串流21指示將執行基於向量之重建構,提取單元72可剖析位元串流以擷取上文所提及之資訊,將該資訊傳遞至基於向量之重建構單元92。
換言之,提取單元72可按上文所描述之方式自位元串流21中提取經寫碼前景方向資訊57(再次,其亦可被稱作經寫碼前景V[k]向量57)、經寫碼環境HOA係數59及經寫碼前景信號(其亦可被稱作經寫碼前景nFG信號59或經寫碼前景音訊物件59)(132)。
音訊解碼器件24可進一步調用解量化單元74。解量化單元74可對經寫碼前景方向資訊57進行熵解碼及解量化以獲得減少之前景方向資訊55 k (136)。音訊解碼器件24亦可調用心理聲學解碼單元80。心理聲學音訊解碼單元80可解碼經編碼環境HOA係數59及經編碼前景信號61以獲得經能量補償之環境HOA係數47'及經內插之前景信號49' (138)。心理聲學解碼單元80可將經能量補償之環境HOA係數47'傳遞至淡化單元770且將nFG信號49'傳遞至前景制訂單元78。
音訊解碼器件24接下來可調用空間-時間內插單元76。空間-時間內插單元76可接收經重新排序之前景方向資訊55 k '且關於減少之前景方向資訊55 k /55 k-1執行空間-時間內插以產生經內插之前景方向資訊55 k "(140)。空間-時間內插單元76可將經內插之前景V[k]向量55 k "轉遞至淡化單元770。
音訊解碼器件24可調用淡化單元770。淡化單元770可接收或以其他方式獲得指示經能量補償之環境HOA係數47'何時處於轉變中之語法元素(例如,AmbCoeffTransition語法元素)(例如,自提取單元72)。淡化單元770可基於轉變語法元素及維持之轉變狀態資訊使經能量補償之環境HOA係數47'淡入或淡出,從而將經調整之環境HOA係數47"輸出至HOA係數制訂單元82。淡化單元770亦可基於語法元素及維持之轉變狀態資訊,及使經內插之前景V[k]向量55 k "中之對應一或多個元素淡出或淡入,從而將經調整之前景V[k]向量55k'''輸出至前景制訂單元78(142)。
音訊解碼器件24可調用前景制訂單元78。前景制訂單元78可執行nFG信號49'乘以經調整之前景方向資訊55 k '''之矩陣乘法以獲得前景HOA係數65(144)。音訊解碼器件24亦可調用HOA係數制訂單元82。HOA係數制訂單元82可將前景HOA係數65加至經調整之環境HOA係數47"以便獲得HOA係數11'(146)。
圖7為更詳細地說明可用於圖3A之音訊編碼器件20中之實例v-向量寫碼單元52的方塊圖。v-向量寫碼單元52包括分解單元502及量化單元504。分解單元502可基於碼向量63將減少之前景V[k]向量55中的每一者分解成碼向量之加權總和。分解單元502可產生權重506且將權重506提供至量化單元504。量化單元504可將權重506量化以產生經寫 碼權重57。
圖8為更詳細地說明可用於圖3A之音訊編碼器件20中之實例v-向量寫碼單元52的方塊圖。v-向量寫碼單元52包括分解單元502、權重選擇單元510及量化單元504。分解單元502可基於碼向量63將減少之前景V[k]向量55中的每一者分解成碼向量之加權總和。分解單元502可產生權重514且將權重514提供至權重選擇單元510。權重選擇單元510可選擇權重514之一子集以產生權重之一所選擇之子集516,且將權重之所選擇之子集516提供至量化單元504。量化單元504可將權重之所選擇之子集516量化以產生經寫碼權重57。
圖9為說明自v-向量產生之音場之概念圖。圖10為說明自上文關於圖9所描述之v-向量之25階模型產生的音場之概念圖。圖11為說明圖10中所展示之25階模型之每一階的加權的概念圖。圖12為說明上文關於圖9所描述之v-向量之5階模型的概念圖。圖13為說明圖12中所展示之5階模型之每一階的加權的概念圖。
圖14為說明用以執行奇異值分解之實例矩陣之實例尺寸的概念圖。如圖14中所展示,U FG 矩陣包括於U矩陣中,S FG 矩陣包括於S矩陣中,且V FG T 矩陣包括於V T 矩陣中。
在圖14之實例矩陣中,U FG 矩陣具有1280乘以2之尺寸,其中1280對應於樣本之數目,且2對應於經選擇用於進行前景寫碼之前景向量之數目。U矩陣具有1280乘以25之尺寸,其中1280對應於樣本之數目,且25對應於HOA音訊信號中之聲道之數目。聲道之數目可等於(N+1)2,其中N等於HOA音訊信號之階數。
S FG 矩陣具有尺寸2乘以2,其中每一個2對應於經選擇用於進行前景寫碼之前景向量之數目。S矩陣具有25乘以25之尺寸,其中每一個25對應於HOA音訊信號中之聲道之數目。
V FG T 矩陣具有尺寸25乘以2,其中25對應於HOA音訊信號中之聲 道之數目,且2對應於經選擇用於進行前景寫碼之前景向量之數目。V T 矩陣具有25乘以25之尺寸,其中每一個25對應於HOA音訊信號中之聲道之數目。
如圖14中所展示,U FG 矩陣、S FG 矩陣及V FG T 矩陣可相乘在一起以產生H FG 矩陣。H FG 矩陣具有1280乘以25之尺寸,其中1280對應於樣本之數目,且25對應於HOA音訊信號中之聲道之數目。
圖15為說明可藉由使用本發明之v-向量寫碼技術獲得之實例效能改良的圖表。每一列表示一測試項目,且行自左至右指示測試項目編號、測試項目名稱、與測試項目相關聯之每一訊框位元數、使用本發明之實例v-向量寫碼技術中之一或多者進行的位元速率,及使用其他v-向量寫碼技術(例如,將v-向量分量純量量化,而並不分解v-向量)獲得之位元速率。如圖15中所展示,相對於並不將v-向量分解成權重及/或選擇權重之一子集以進行量化的其他技術而言,本發明之技術在一些實例中可提供位元速率之顯著改良。
在一些實例中,本發明之技術可基於一組方向向量執行V-向量量化。V-向量可藉由方向向量之加權總和來表示。在一些實例中,對於彼此正規正交之一組給定方向向量,v-向量寫碼單元52可計算每一方向向量之加權值。v-向量寫碼單元52可選擇N個最大值加權值{w_i},及對應方向向量{o_i}。v-向量寫碼單元52可將對應於所選擇之加權值及/或方向向量之索引{i}傳輸至解碼器。在一些實例中,當計算最大值時,v-向量寫碼單元52可使用絕對值(藉由忽略正負號資訊)。v-向量寫碼單元52可將N個最大值加權值{w_i}量化以產生經量化之加權值{w^_i}。v-向量寫碼單元52可將用於{w^_i}之量化索引傳輸至解碼器。在解碼器處,可將經量化之V-向量合成為sum_i(w^_i*o_i)。
在一些實例中,本發明之技術可提供效能之顯著改良。舉例而 言,與使用純量量化後接續霍夫曼寫碼之情形相比較,可獲得大約85%之位元速率減小。舉例而言,純量量化後接續霍夫曼寫碼之情形在一些實例中可能需要16.26kbps(每秒千位元)之位元速率,而本發明之技術在一些實例中可能能夠按2.75kbsp之位元速率寫碼。
考慮使用來自碼簿之X個碼向量(及X個對應權重)寫碼v-向量之實例。在一些實例中,位元串流產生單元42可產生位元串流21以使得藉由3種類別之參數來表示每一v-向量:(1)X數目個索引,每一索引指向碼向量之碼簿(例如,經正規化之方向向量之碼簿)中之一特定向量;(2)與上述索引相配之對應(X)數目個權重;及(3)用於上述(X)數目個權重中之每一者之正負號位元。在一些狀況下,可使用又一向量量化(VQ)進一步將X數目個權重量化。
在此實例中用於判定權重之分解碼簿可選自一組候選碼簿。舉例而言,碼簿可為8個不同碼簿中之一者。此等碼簿中之每一者可具有不同長度。因此,例如,不僅用以判定6階HOA內容之權重的大小為49之碼簿可給出使用8個不同大小之碼簿中之任一者的選項,而且本發明之技術亦可給出使用8個不同大小之碼簿中之任一者的選項。
用於進行權重之VQ之量化碼簿在一些實例中亦可具有與用以判定權重之可能的分解碼簿之數目相同的對應數目個可能的碼簿。因此,在一些實例中,可能存在用於判定權重之可變數目個不同的碼簿,及用於將權重量化之可變數目個碼簿。
在一些實例中,用以估計v-向量之權重之數目(亦即,經選擇用於進行量化之權重之數目)可為可變的。舉例而言,可設定臨限值誤差準則,且經選擇以用於進行量化之權重之數目(X)可取決於達到誤差臨限值,其中誤差臨限值如上文在等式(10)中所界定。
在一些實例中,可在位元串流中用信號通知上文所提及之概念中之一或多者。考慮以下實例:其中用以寫碼v-向量之權重之最大數 目經設定為128個權重,且使用8個不同的量化碼簿來將權重量化。在此實例中,位元串流產生單元42可產生位元串流21以使得位元串流21中之存取訊框單元指示可基於逐個訊框使用之索引之最大數目。在此實例中,索引之最大數目為自0至128之數目,因此上文所提及之資料可消耗存取訊框單元中之7個位元。
在上文所提及之實例中,基於逐個訊框,位元串流產生單元42可產生位元串流21以包括指示以下情形之資料:(1)使用8個不同碼簿中之哪一者來進行VQ(對於每個v-向量);及(2)用以寫碼每一v-向量之索引之實際數目(X)。在此實例中,指示使用8個不同碼簿中之哪一者來進行VQ之資料可消耗3個位元。指示用以寫碼每一v-向量之索引之實際數目(X)的資料可藉由存取訊框單元中所指定之索引之最大數目來給出。在此實例中,此數目可在0個位元至7個位元之範圍內。
在一些實例中,位元串流產生單元42可產生位元串流21以包括以下各者:(1)指示選擇及傳輸哪些方向向量之索引(根據所計算之加權值);及(2)用於每一所選擇之方向向量之加權值。在一些實例中,本發明可提供用於使用對經正規化之球諧碼向量之碼簿的分解進行V-向量之量化的技術。
圖17為說明在空間域中表示的16個不同的碼向量63A至63P之圖,該等碼向量可由圖7及圖8中之任一者或兩者之實例中所展示的V-向量寫碼單元52使用。碼向量63A至63P可表示上文所論述之碼向量63中之一或多者。
圖18為說明可藉以供圖7及圖8中之任一者或兩者之實例中所展示的V-向量寫碼單元52使用16個不同的碼向量63A至63P之不同方式的圖。V-向量寫碼單元52可接收減少之前景V[k]向量55中之一者,該減少之前景V[k]向量55係在經轉譯至空間域之後展示且表示為V-向量55。V-向量寫碼單元52可執行上文所論述之向量量化以產生V-向量55 之三個不同的經寫碼版本。V-向量55之三個不同的經寫碼版本係在經轉譯至空間域之後展示且表示為經寫碼V-向量57A、經寫碼V-向量57B及經寫碼V-向量57C。V-向量寫碼單元52可選擇經寫碼V-向量57A至57C中之一者作為對應於V-向量55的經寫碼前景V[k]向量57中之一者。
V-向量寫碼單元52可基於在圖17之實例中更詳細地展示之碼向量63A至63P(「經寫碼向量63」)產生經寫碼V-向量57A至57C中之每一者。V-向量寫碼單元52可基於如曲線300A中所展示之所有16個碼向量63產生經寫碼V-向量57A,其中所有16個索引係連同16個加權值一起指定。V-向量寫碼單元52可基於碼向量63之非零子集(例如,圍封於正方形方框中且與索引2、6及7相關聯之碼向量63,如曲線300B中所展示,在給定其他索引具有加權零之情況下)產生經寫碼V-向量57A。除了首先將原始的V-向量55量化以外,V-向量寫碼單元52可使用與在產生經寫碼V-向量57B時使用之碼向量相同的三個碼向量63產生經寫碼V-向量57C。
審閱經寫碼V-向量57A至57C之轉譯,與原始V-向量55相比較,說明:向量量化可提供原始V-向量55之實質上類似之表示(意謂經寫碼V-向量57A至57C中之每一者之間的誤差很可能較小)。將經寫碼V-向量57A至57C彼此相比較亦揭示了僅存在微小或輕微差異。因而,經寫碼V-向量57A至57C中提供最好的位元減少之經寫碼V-向量很可能為經寫碼V-向量57A至57C中可供V-向量寫碼單元52選擇之經寫碼V-向量。在給定經寫碼V-向量57C最可能提供最小位元速率之情況下(在給定經寫碼V-向量57C利用V-向量55之經量化之版本同時亦僅使用碼向量63中之三個碼向量的情況下),V-向量寫碼單元52可選擇經寫碼V-向量57C作為經寫碼前景V[k]向量57中對應於V-向量55之經寫碼前景V[k]向量。
圖21為說明根據本發明之實例向量量化單元520之方塊圖。在一些實例中,向量量化單元520可為圖3A之音訊編碼器件20中或圖3B之音訊編碼器件20中的V-向量寫碼單元52之實例。向量量化單元520包括分解單元522、權重選擇及排序單元524,及向量選擇單元526。分解單元522可基於碼向量63將減少之前景V[k]向量55中的每一者分解成碼向量之加權總和。分解單元522可產生權重值528且將權重值528提供至權重選擇及排序單元524。
權重選擇及排序單元524可選擇權重值528之一子集以產生權重值之所選擇之子集。舉例而言,權重選擇及排序單元524可自該組權重值528中選擇M個最大量值權重值。權重選擇及排序單元524可基於權重值之量值進一步將權重值之所選擇之子集重新排序以產生權重值之經重新排序的所選擇之子集530,且將權重值之經重新排序的所選擇之子集530提供至向量選擇單元526。
向量選擇單元526可自量化碼簿532中選擇M-分量向量來表示M個權重值。換言之,向量選擇單元526可將M個權重值向量量化。在一些實例中,M可對應於由權重選擇及排序單元524選擇以表示單一V-向量的權重值之數目。向量選擇單元526可產生指示經選擇以表示M個權重值之M-分量向量之資料,且將此資料提供至位元串流產生單元42作為經寫碼權重57。在一些實例中,量化碼簿532可包括經編索引之複數個M-分量向量,且指示M-分量向量之資料可為量化碼簿532中指向所選擇之向量之索引值。在此等實例中,解碼器可包括經類似地編索引之量化碼簿以解碼索引值。
圖22為說明向量量化單元在執行本發明中所描述之技術之各種態樣中的例示性操作的流程圖。如上文關於圖21之實例所描述,向量量化單元520包括分解單元522、權重選擇及排序單元524,及向量選擇單元526。分解單元522可基於碼向量63將減少之前景V[k]向量55中 的每一者分解成碼向量之加權總和(750)。分解單元522可獲得權重值528且將權重值528提供至權重選擇及排序單元524(752)。
權重選擇及排序單元524可選擇權重值528之一子集以產生權重值之所選擇之子集(754)。舉例而言,權重選擇及排序單元524可自該組權重值528中選擇M個最大量值權重值。權重選擇及排序單元524可基於權重值之量值進一步將權重值之所選擇之子集重新排序以產生權重值之經重新排序的所選擇之子集530,且將權重值之經重新排序的所選擇之子集530提供至向量選擇單元526(756)。
向量選擇單元526可自量化碼簿532中選擇M-分量向量來表示M個權重值。換言之,向量選擇單元526可將M個權重值向量量化(758)。在一些實例中,M可對應於由權重選擇及排序單元524選擇以表示單一V-向量的權重值之數目。向量選擇單元526可產生指示經選擇以表示M個權重值之M-分量向量之資料,且將此資料提供至位元串流產生單元42作為經寫碼權重57。在一些實例中,量化碼簿532可包括經編索引之複數個M-分量向量,且指示M-分量向量之資料可為量化碼簿532中指向所選擇之向量之索引值。在此等實例中,解碼器可包括經類似地編索引之量化碼簿以解碼索引值。
圖23為說明V-向量重建構單元在執行本發明中所描述之技術之各種態樣中的例示性操作的流程圖。圖4A或圖4B之V-向量重建構單元74可首先(例如)自提取單元72獲得權重值(在自位元串流21剖析之後)(760)。V-向量重建構單元74亦可(例如)按上文所描述之方式使用在位元串流21中用信號通知之索引自碼簿獲得碼向量(762)。V-向量重建構單元74可接著按上文所描述之各種方式中之一或多者基於權重值及碼向量重建構減少之前景V[k]向量(其亦可被稱作V-向量)55(764)。
圖24為說明圖3A或圖3B之V-向量寫碼單元在執行本發明中所描 述之技術之各種態樣中的例示性操作的流程圖。V-向量寫碼單元52可獲得目標位元速率(其亦可被稱作臨限值位元速率)41(770)。當目標位元速率41大於256Kbps時(或任何其他經指定、經組態或判定之位元速率)(772之「否」),V-向量寫碼單元52可判定對V-向量55應用且接著應用純量量化(774)。當目標位元速率41小於或等於256Kbps時(772之「是」),V-向量重建構單元52可判定對V-向量55應用且接著應用向量量化(776)。V-向量寫碼單元52亦可在位元串流21中用信號通知:關於V-向量55執行純量量化或向量量化(778)。
圖25為說明V-向量重建構單元在執行本發明中所描述之技術之各種態樣中的例示性操作的流程圖。圖4A或圖4B之V-向量重建構單元74可首先獲得指示關於V-向量55是執行純量量化抑或向量量化之指示(諸如,語法元素)(780)。當語法元素指示並不執行純量量化時(782之「否」),V-向量重建構單元74可執行向量解量化以重建構V-向量55(784)。當語法元素指示執行純量量化時(782之「是」),V-向量重建構單元74可執行純量解量化以重建構V-向量55(786)。
圖26為說明圖3A或圖3B之V-向量寫碼單元在執行本發明中所描述之技術之各種態樣中的例示性操作的流程圖。V-向量寫碼單元52可選擇複數個(意謂兩個或兩個以上)碼簿中之一者以在將V-向量55向量量化時使用(790)。V-向量寫碼單元52可接著按上文關於V-向量55所描述之方式使用兩個或兩個以上碼簿中之所選擇之碼簿執行向量量化(792)。V-向量寫碼單元52可接著在位元串流21中指示或以其他方式用信號通知在將V-向量55量化時使用兩個或兩個以上碼簿中之一碼簿(794)。
圖27為說明V-向量重建構單元在執行本發明中所描述之技術之各種態樣中的例示性操作的流程圖。圖4A或圖4B之V-向量重建構單元74可首先獲得關於在將V-向量55向量量化時使用的兩個或兩個以上 碼簿中之一者的指示(諸如,語法元素)(800)。V-向量重建構單元74可接著執行向量解量化以按上文所描述之方式使用兩個或兩個以上碼簿中之所選擇之碼簿重建構V-向量55(802)。
該等技術之各種態樣可實現一種在以下條項中闡述之器件:
條項1。一種器件,其包含:用於儲存複數個碼簿以在關於一音場之一空間分量執行向量量化時使用的構件,該空間分量係經由對複數個高階立體混響係數應用一分解而獲得;及用於選擇該複數個碼簿中之一者之構件。
條項2。如條項1之器件,其進一步包含用於在包括該經向量量化之空間分量之一位元串流中指定一語法元素的構件,該語法元素識別至具有在執行該空間分量之該向量量化時使用之一權重值的該複數個碼簿中之該所選擇之碼簿中的一索引。
條項3。如條項1之器件,其進一步包含用於在包括該經向量量化之空間分量之一位元串流中指定一語法元素的構件,該語法元素識別至具有在執行該空間分量之該向量量化時使用之一碼向量的一向量辭典中之一索引。
條項4。如條項1之方法,其中用於選擇複數個碼簿中之一者的該構件包含用於基於在執行該向量量化時使用的碼向量之一數目選擇該複數個碼簿中之該碼簿的構件。
該等技術之各種態樣亦可實現一種在以下條項中闡述之器件:
條項5。一種裝置,其包含:用於關於複數個高階立體混響(HOA)係數執行一分解以產生該等HOA係數之一經分解版本的構件,及用於基於一組碼向量判定表示一向量之一或多個權重值的構件,該向量包括於該等HOA係數之該經分解版本中,該等權重值中之每一者對應於表示該向量的該等碼向量之一加權總和中所包括的複數個權重中之一各別權重。
條項6。如條項5之裝置,其進一步包含用於自一組候選分解碼簿中選擇一分解碼簿之構件,其中用於基於該組碼向量判定該一或多個權重值之該構件包含用於基於藉由該所選擇之分解碼簿指定之該組碼向量判定該等權重值的構件。
條項7。如條項6之裝置,其中該等候選分解碼簿中之每一者包括複數個碼向量,且其中該等候選分解碼簿中之至少兩者具有不同數目個碼向量。
條項8。如條項5之裝置,其進一步包含:用於產生一位元串流以包括指示使用哪些碼向量來判定該等權重之一或多個索引的構件,及用於產生該位元串流以進一步包括對應於該等索引中之每一者之權重值的構件。
可關於任何數目個不同內容脈絡及音訊生態系統執行前述技術中之任一者。下文描述數個實例內容脈絡,但該等技術應限於該等實例內容脈絡。一實例音訊生態系統可包括音訊內容、影片工作室、音樂工作室、遊戲音訊工作室、基於聲道之音訊內容、寫碼引擎、遊戲音訊符尾(game audio stems)、遊戲音訊寫碼/轉譯引擎,及遞送系統。
影片工作室、音樂工作室及遊戲音訊工作室可接收音訊內容。在一些實例中,音訊內容可表示獲取之輸出。影片工作室可諸如藉由使用數位音訊工作站(DAW)輸出基於聲道之音訊內容(例如,呈2.0、5.1及7.1)。音樂工作室可諸如藉由使用DAW輸出基於聲道之音訊內容(例如,呈2.0及5.1)。在任一狀況下,寫碼引擎可基於一或多個編碼解碼器(例如,AAC、AC3、杜比真HD(Dolby True HD)、杜比數位Plus(Dolby Digital Plus)及DTS主音訊)接收及編碼基於聲道之音訊內容以供由遞送系統輸出。遊戲音訊工作室可諸如藉由使用DAW輸出一或多個遊戲音訊符尾。遊戲音訊寫碼/轉譯引擎可寫碼音訊符尾及 或將音訊符尾轉譯成基於聲道之音訊內容以供由遞送系統輸出。可執行該等技術之另一實例內容脈絡包含音訊生態系統,其可包括廣播記錄音訊物件、專業音訊系統、消費型器件上攫取、HOA音訊格式、器件上轉譯、消費型音訊、TV及附件,及汽車音訊系統。
廣播記錄音訊物件、專業音訊系統及消費型器件上攫取皆可使用HOA音訊格式寫碼其輸出。以此方式,可使用HOA音訊格式將音訊內容寫碼成單一表示,可使用器件上轉譯、消費型音訊、TV及附件及汽車音訊系統播放該單一表示。換言之,可在通用音訊播放系統(亦即,與需要諸如5.1、7.1等之特定組態之情形形成對比)(諸如,音訊播放系統16)處播放音訊內容之單一表示。
可執行該等技術之內容脈絡之其他實例包括可包括獲取元件及播放元件之音訊生態系統。獲取元件可包括有線及/或無線獲取器件(例如,Eigen麥克風)、器件上環繞聲攫取器及行動器件(例如,智慧型手機及平板電腦)。在一些實例中,有線及/或無線獲取器件可經由有線及/或無線通信頻道耦接至行動器件。
根據本發明之一或多個技術,行動器件可用以獲取音場。舉例而言,行動器件可經由有線及/或無線獲取器件及/或器件上環繞聲攫取器(例如,整合至行動器件中之複數個麥克風)獲取音場。行動器件可接著將所獲取音場寫碼成HOA係數以用於由播放元件中之一或多者播放。舉例而言,行動器件之使用者可記錄(獲取音場)實況事件(例如,集會、會議、比賽、音樂會等),且將記錄寫碼成HOA係數。
行動器件亦可利用播放元件中之一或多者來播放HOA經寫碼音場。舉例而言,行動器件可解碼HOA經寫碼音場,且將使得播放元件中之一或多者重新建立音場之信號輸出至播放元件中之一或多者。作為一實例,行動器件可利用無線及/或無線通信頻道將信號輸出至一或多個揚聲器(例如,揚聲器陣列、聲棒(sound bar)等)。作為另一實 例,行動器件可利用銜接解決方案將信號輸出至一或多個銜接台及/或一或多個銜接之揚聲器(例如,智慧型汽車及/或家庭中之聲音系統)。作為另一實例,行動器件可利用頭戴式耳機轉譯將信號輸出至一組頭戴式耳機(例如)以建立實際的雙耳聲音。
在一些實例中,特定行動器件可獲取3D音場並且在稍後時間播放相同的3D音場。在一些實例中,行動器件可獲取3D音場,將該3D音場編碼為HOA,且將經編碼3D音場傳輸至一或多個其他器件(例如,其他行動器件及/或其他非行動器件)以用於播放。
可執行該等技術之又一內容脈絡包括可包括音訊內容、遊戲工作室、經寫碼音訊內容、轉譯引擎及遞送系統之音訊生態系統。在一些實例中,遊戲工作室可包括可支援HOA信號之編輯的一或多個DAW。舉例而言,該一或多個DAW可包括HOA外掛程式及/或可經組態以與一或多個遊戲音訊系統一起操作(例如,工作)之工具。在一些實例中,遊戲工作室可輸出支援HOA之新符尾格式。在任何狀況下,遊戲工作室可將經寫碼音訊內容輸出至轉譯引擎,該轉譯引擎可轉譯音場以供由遞送系統播放。
亦可關於例示性音訊獲取器件執行該等技術。舉例而言,可關於可包括共同地經組態以記錄3D音場之複數個麥克風之Eigen麥克風執行該等技術。在一些實例中,Eigen麥克風之該複數個麥克風可位於具有大約4cm之半徑的實質上球面球之表面上。在一些實例中,音訊編碼器件20可整合至Eigen麥克風中以便直接自麥克風輸出位元串流21。
另一例示性音訊獲取內容脈絡可包括可經組態以接收來自一或多個麥克風(諸如,一或多個Eigen麥克風)之信號的製作車。製作車亦可包括音訊編碼器,諸如圖3A之音訊編碼器20。
在一些情況下,行動器件亦可包括共同地經組態以記錄3D音場 之複數個麥克風。換言之,該複數個麥克風可具有X、Y、Z分集。在一些實例中,行動器件可包括可旋轉以關於行動器件之一或多個其他麥克風提供X、Y、Z分集之麥克風。行動器件亦可包括音訊編碼器,諸如圖3A之音訊編碼器20。
加固型視訊攫取器件可經進一步組態以記錄3D音場。在一些實例中,加固型視訊攫取器件可附接至參與活動的使用者之頭盔。舉例而言,加固型視訊攫取器件可在使用者泛舟時附接至使用者之頭盔。以此方式,加固型視訊攫取器件可攫取表示使用者周圍之動作(例如,水在使用者身後的撞擊、另一泛舟者在使用者前方說話,等等)的3D音場。
亦可關於可經組態以記錄3D音場之附件增強型行動器件執行該等技術。在一些實例中,行動器件可類似於上文所論述之行動器件,其中添加一或多個附件。舉例而言,Eigen麥克風可附接至上文所提及之行動器件以形成附件增強型行動器件。以此方式,附件增強型行動器件可攫取3D音場之較高品質版本(與僅使用與附件增強型行動器件成一體式之聲音攫取組件之情形相比較)。
下文進一步論述可執行本發明中所描述之技術之各種態樣的實例音訊播放器件。根據本發明之一或多個技術,揚聲器及/或聲棒可配置於任何任意組態中,同時仍播放3D音場。此外,在一些實例中,頭戴式耳機播放器件可經由有線或無線連接耦接至解碼器24。根據本發明之一或多個技術,可利用音場之單一通用表示來在揚聲器、聲棒及頭戴式耳機播放器件之任何組合上轉譯音場。
數個不同實例音訊播放環境亦可適合於執行本發明中所描述之技術之各種態樣。舉例而言,以下環境可為用於執行本發明中所描述之技術之各種態樣的合適環境:5.1揚聲器播放環境、2.0(例如,立體聲)揚聲器播放環境、具有全高前擴音器之9.1揚聲器播放環境、 22.2揚聲器播放環境、16.0揚聲器播放環境、汽車揚聲器播放環境,及具有耳掛式耳機之行動器件播放環境。
根據本發明之一或多個技術,可利用音場之單一通用表示來在前述播放環境中之任一者上轉譯音場。另外,本發明之技術使得轉譯器能夠自通用表示轉譯一音場以供在不同於上文所描述之環境之播放環境上播放。舉例而言,若設計考慮禁止揚聲器根據7.1揚聲器播放環境之恰當置放(例如,若不可能置放右環繞揚聲器),則本發明之技術使得轉譯器能夠藉由其他6個揚聲器進行補償,使得可在6.1揚聲器播放環境上達成播放。
此外,使用者可在佩戴頭戴式耳機時觀看運動比賽。根據本發明之一或多個技術,可獲取運動比賽之3D音場(例如,可將一或多個Eigen麥克風置放於棒球場中及/或周圍),可獲得對應於3D音場之HOA係數且將該等HOA係數傳輸至解碼器,該解碼器可基於HOA係數重建構3D音場且將經重建構之3D音場輸出至轉譯器,該轉譯器可獲得關於播放環境之類型(例如,頭戴式耳機)之指示,且將經重建構之3D音場轉譯成使得頭戴式耳機輸出運動比賽之3D音場之表示的信號。
在上文所描述之各種情況中的每一者中,應理解,音訊編碼器件20可執行方法或另外包含用以執行音訊編碼器件20經組態以執行的方法之每一步驟的構件。在一些情況下,該等構件可包含一或多個處理器。在一些情況下,該一或多個處理器可表示借助於儲存至非暫時性電腦可讀儲存媒體之指令組態之專用處理器。換言之,數組編碼實例中之每一者中之技術的各種態樣可提供非暫時性電腦可讀儲存媒體,其具有儲存於其上之指令,該等指令在經執行時使得一或多個處理器執行音訊編碼器件20已經組態以執行之方法。
在一或多個實例中,所描述功能可以硬體、軟體、韌體或其任 何組合來實施。若以軟體實施,則該等功能可作為一或多個指令或程式碼儲存於電腦可讀媒體上或經由電腦可讀媒體進行傳輸,且由基於硬體之處理單元執行。電腦可讀媒體可包括電腦可讀儲存媒體,其對應於諸如資料儲存媒體之有形媒體。資料儲存媒體可為可由一或多個電腦或一或多個處理器存取以擷取用於實施本發明中所描述之技術的指令、程式碼及/或資料結構的任何可用媒體。電腦程式產品可包括電腦可讀媒體。
同樣,在上文所描述之各種情況中的每一者中,應理解,音訊解碼器件24可執行方法或另外包含用以執行音訊解碼器件24經組態以執行的方法之每一步驟的構件。在一些情況下,該等構件可包含一或多個處理器。在一些情況下,該一或多個處理器可表示借助於儲存至非暫時性電腦可讀儲存媒體之指令組態之專用處理器。換言之,數組編碼實例中之每一者中之技術的各種態樣可提供非暫時性電腦可讀儲存媒體,其具有儲存於其上之指令,該等指令在經執行時使得一或多個處理器執行音訊解碼器件24已經組態以執行之方法。
借助於實例而非限制,此等電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器件、磁碟儲存器件或其他磁性儲存器件、快閃記憶體或可用來儲存呈指令或資料結構形式之所要程式碼且可由電腦存取的任何其他媒體。然而,應理解,電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體,而是針對非暫時性有形儲存媒體。如本文中所使用,磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位影音光碟(DVD)、磁碟片及藍光光碟,其中磁碟通常以磁性方式再生資料,而光碟藉由雷射以光學方式再生資料。以上各者之組合亦應包括於電腦可讀媒體之範疇內。
指令可由一或多個處理器執行,該一或多個處理器諸如一或多 個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效的整合或離散邏輯電路系統。因此,如本文中所使用之術語「處理器」可指上述結構或適合於實施本文中所描述之技術的任何其他結構中的任一者。另外,在一些態樣中,可在經組態用於編碼及解碼之專用硬體及/或軟體模組內提供本文中所描述之功能性,或將本文中所描述之功能性併入於組合式編碼解碼器中。又,該等技術可完全實施於一或多個電路或邏輯元件中。
本發明之技術可在廣泛多種器件或裝置中實施,該等器件或裝置包括無線手機、積體電路(IC)或一組IC(例如,晶片組)。在本發明中描述各種組件、模組或單元以強調經組態以執行所揭示技術之器件的功能態樣,但未必需要藉由不同硬體單元來實現。確切地說,如上文所描述,各種單元可與合適的軟體及/或韌體一起組合於編碼解碼器硬體單元中或由互操作性硬體單元之集合提供,硬件單元包括如上文所描述之一或多個處理器。
已描述該等技術之各種態樣。該等技術之此等及其他態樣在以下申請專利範圍之範疇內。

Claims (32)

  1. 一種獲得複數個高階立體混響(HOA)係數之方法,該方法包含:自一位元串流獲得指示表示一向量之複數個權重值之資料,該向量包括於該複數個HOA係數之經分解版本中,該等權重值中之每一者對應於表示該向量的包括一組碼向量的碼向量之一加權總和中的複數個權重中之一各別權重;及基於該等權重值及該等碼向量重建構該向量。
  2. 如請求項1之方法,其中重建構該向量包含在該等碼向量係藉由該等權重值加權之情況下,判定該等碼向量之一加權總和。
  3. 如請求項1之方法,其中重建構該向量包含:對於該等權重值中之每一者,將該權重值乘以該等碼向量中之一各別碼向量以產生複數個加權碼向量中所包括的一各別加權碼向量;及將該複數個加權碼向量加總以判定該向量。
  4. 如請求項1之方法,其進一步包含:自該位元串流獲得指示使用複數個碼向量中之哪些碼向量來重建構該向量之資料;基於該等權重值、該等碼向量及指示使用複數個碼向量中之哪些碼向量來重建構該向量之該資料重建構該向量。
  5. 如請求項4之方法,其中重建構該向量包含:基於指示使用複數個碼向量中之哪些碼向量來重建構該向量之該資料選擇該等碼向量之一子集;及基於該等權重值及該等碼向量之該所選擇之子集重建構該向量。
  6. 如請求項5之方法,其中基於該等權重值及該等碼向量之該所選 擇之子集重建構該向量包含:對於該等權重值中之每一者,將該權重值乘以碼向量之該子集中的該等碼向量中之一各別碼向量以產生一各別加權碼向量;及將該複數個加權碼向量加總以判定該向量。
  7. 如請求項1之方法,其中該組碼向量包含以下各者中之至少一者:一組方向向量、一組正交方向向量、一組正規正交方向向量、一組偽正規正交方向向量、一組偽正交方向向量、一組方向基底向量、一組正交向量、一組正規正交向量、一組偽正規正交向量、一組偽正交向量,及一組基底向量。
  8. 如請求項1之方法,其中該向量包含以下各者中之至少一者:自該等HOA係數之奇異值分解獲得之一V-向量,及自該等HOA係數之奇異值分解獲得之一右奇異值向量。
  9. 如請求項1之方法,其中該向量係在一球諧域中界定。
  10. 一種經組態以獲得複數個高階立體混響(HOA)係數之器件,該器件包含:一或多個處理器,其經組態以:自一位元串流獲得指示表示一向量之複數個權重值之資料,該向量包括於該複數個HOA係數之一經分解版本中,該等權重值中之每一者對應於表示該向量且包括一組碼向量的碼向量之一加權總和中的複數個權重中之一各別權重;及基於該等權重值及該等碼向量重建構該向量;及一記憶體,其經組態以儲存該經重建構之向量。
  11. 如請求項10之器件,其中該一或多個處理器經進一步組態以在該等碼向量係藉由該等權重值加權之情況下,判定該等碼向量之一加權總和。
  12. 如請求項10之器件,其中該一或多個處理器經進一步組態以進行以下操作:對於該等權重值中之每一者,將該權重值乘以該等碼向量中之一各別碼向量以產生複數個加權碼向量中所包括的一各別加權碼向量;及將該複數個加權碼向量加總以判定該向量。
  13. 如請求項10之器件,其中該一或多個處理器經進一步組態以進行以下操作:自該位元串流獲得指示使用複數個碼向量中之哪些碼向量來重建構該向量之資料;基於該等權重值、該等碼向量及指示使用複數個碼向量中之哪些碼向量來重建構該向量之該資料重建構該向量。
  14. 如請求項13之器件,其中該一或多個處理器經進一步組態以進行以下操作:基於指示使用複數個碼向量中之哪些碼向量來重建構該向量之該資料選擇該等碼向量之一子集;及基於該等權重值及該等碼向量之該所選擇之子集重建構該向量。
  15. 如請求項14之器件,其中該一或多個處理器經進一步組態以進行以下操作:對於該等權重值中之每一者,將該權重值乘以碼向量之該子集中的該等碼向量中之一各別碼向量以產生一各別加權碼向量;及將該複數個加權碼向量加總以判定該向量。
  16. 如請求項10之器件,其中該一或多個處理器經進一步組態以自該位元串流獲得指示表示包括於該複數個HOA係數之該經分解 版本中的該向量之複數個權重值的該資料,該等權重值中之每一者對應於表示該向量且包括該組碼向量的碼向量之該加權總和中的該複數個權重中之該各別權重,該組碼向量包含以下各者中之至少一者:一組方向向量、一組正交方向向量、一組正規正交方向向量、一組偽正規正交方向向量、一組偽正交方向向量、一組方向基底向量、一組正交向量、一組正規正交向量、一組偽正規正交向量、一組偽正交向量,及一組基底向量。
  17. 如請求項10之器件,其中該一或多個處理器經進一步組態以自該位元串流獲得指示表示包括於該複數個HOA係數之該經分解版本中的該向量之複數個權重值的該資料,該向量包含以下各者中之至少一者:自該等HOA係數之奇異值分解獲得之一V-向量,及自該等HOA係數之奇異值分解獲得之一右奇異值向量。
  18. 如請求項10之器件,其中該向量係在一球諧域中界定。
  19. 如請求項10之器件,其中該一或多個處理器經進一步組態以基於該經重建構之向量重建構該等HOA係數,且將該等HOA係數轉譯成擴音器饋入,且其中該器件進一步包含藉由該等擴音器饋入驅動以再生藉由該等HOA係數表示之一音場的揚聲器。
  20. 一種經組態以獲得複數個高階立體混響(HOA)係數之器件,該器件包含:用於自一位元串流獲得指示表示一向量之複數個權重值之資料的構件,該向量包括於該複數個HOA係數之經分解版本中,該等權重值中之每一者對應於表示該向量的包括一組碼向量的碼向量之一加權總和中的複數個權重中之一各別權重;及 用於基於該等權重值及該等碼向量重建構該向量之構件。
  21. 如請求項20之器件,其中用於重建構該向量之該構件包含用於在該等碼向量係藉由該等權重值加權之情況下,判定該等碼向量之一加權總和的構件。
  22. 如請求項20之器件,其中重建構該向量包含:對於該等權重值中之每一者,將該權重值乘以該等碼向量中之一各別碼向量以產生複數個加權碼向量中所包括的一各別加權碼向量;及將該複數個加權碼向量加總以判定該向量。
  23. 如請求項20之器件,其進一步包含:用於自該位元串流獲得指示使用複數個碼向量中之哪些碼向量來重建構該向量之資料的構件;用於基於該等權重值、該等碼向量及指示使用複數個碼向量中之哪些碼向量來重建構該向量之該資料重建構該向量的構件。
  24. 如請求項23之器件,其中重建構該向量包含:用於基於指示使用複數個碼向量中之哪些碼向量來重建構該向量之該資料選擇該等碼向量之一子集的構件;及用於基於該等權重值及該等碼向量之該所選擇之子集重建構該向量的構件。
  25. 如請求項24之器件,其中用於基於該等權重值及該等碼向量之該所選擇之子集重建構該向量的該構件包含:用於對於該等權重值中之每一者,將該權重值乘以碼向量之該子集中的該等碼向量中之一各別碼向量以產生一各別加權碼向量的構件;及用於將該複數個加權碼向量加總以判定該向量之構件。
  26. 一種器件,其包含:一記憶體,其經組態以儲存一組碼向量;及一或多個處理器,其經組態以基於該組碼向量判定表示一向量之一或多個權重值,該向量包括於複數個高階立體混響(HOA)係數之一經分解版本中,該等權重值中之每一者對應於表示該向量的該等碼向量之一加權總和中所包括的複數個權重中之一各別權重。
  27. 如請求項26之器件,其中該一或多個處理器經進一步組態以產生包括指示該等權重值之資料的一位元串流。
  28. 如請求項26之器件,其中該一或多個處理器經進一步組態以基於該等權重值將該等向量重新排序。
  29. 如請求項28之器件,其中該一或多個處理器經進一步組態以選擇該等權重值之一子集以進行量化,且基於選擇該等權重值中之哪些權重值來進行量化而將該等向量重新排序。
  30. 如請求項26之器件,其中該一或多個處理器經進一步組態以將指示該等權重值之該資料量化,自一組候選量化碼簿中選擇一量化碼簿,及基於該所選擇之量化碼簿將指示該等權重值之該資料量化。
  31. 如請求項30之器件,其中該等候選量化碼簿中之每一者包括複數個候選量化向量,且其中該等候選量化碼簿中之至少兩者具有不同數目個候選量化向量。
  32. 如請求項30之器件,其進一步包含經組態以攫取指示該等HOA係數之音訊資料之一麥克風。
TW104115697A 2014-05-16 2015-05-15 獲得複數個高階立體混響(hoa)係數之方法,經組態以獲得複數個hoa係數器件,及用於判定權重值之器件 TWI670709B (zh)

Applications Claiming Priority (14)

Application Number Priority Date Filing Date Title
US201461994794P 2014-05-16 2014-05-16
US61/994,794 2014-05-16
US201462004128P 2014-05-28 2014-05-28
US62/004,128 2014-05-28
US201462019663P 2014-07-01 2014-07-01
US62/019,663 2014-07-01
US201462027702P 2014-07-22 2014-07-22
US62/027,702 2014-07-22
US201462028282P 2014-07-23 2014-07-23
US62/028,282 2014-07-23
US201462032440P 2014-08-01 2014-08-01
US62/032,440 2014-08-01
US14/712,836 US9852737B2 (en) 2014-05-16 2015-05-14 Coding vectors decomposed from higher-order ambisonics audio signals
US14/712,836 2015-05-14

Publications (2)

Publication Number Publication Date
TW201603006A true TW201603006A (zh) 2016-01-16
TWI670709B TWI670709B (zh) 2019-09-01

Family

ID=53274838

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104115697A TWI670709B (zh) 2014-05-16 2015-05-15 獲得複數個高階立體混響(hoa)係數之方法,經組態以獲得複數個hoa係數器件,及用於判定權重值之器件

Country Status (20)

Country Link
US (1) US9852737B2 (zh)
EP (1) EP3143614B1 (zh)
JP (1) JP6549156B2 (zh)
KR (1) KR102032021B1 (zh)
CN (1) CN106463127B (zh)
AU (1) AU2015258899B2 (zh)
BR (1) BR112016026724B1 (zh)
CA (1) CA2946820C (zh)
CL (1) CL2016002867A1 (zh)
DK (1) DK3143614T3 (zh)
ES (1) ES2714356T3 (zh)
HU (1) HUE042623T2 (zh)
MX (1) MX360614B (zh)
MY (1) MY176232A (zh)
PH (1) PH12016502120A1 (zh)
RU (1) RU2685997C2 (zh)
SG (1) SG11201608518TA (zh)
TW (1) TWI670709B (zh)
WO (1) WO2015175981A1 (zh)
ZA (1) ZA201607875B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9641834B2 (en) 2013-03-29 2017-05-02 Qualcomm Incorporated RTP payload format designs
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9769586B2 (en) 2013-05-29 2017-09-19 Qualcomm Incorporated Performing order reduction with respect to higher order ambisonic coefficients
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9736606B2 (en) 2014-08-01 2017-08-15 Qualcomm Incorporated Editing of higher-order ambisonic audio data
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US9961475B2 (en) 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from object-based audio to HOA
US9961467B2 (en) 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from channel-based audio to HOA
US10249312B2 (en) 2015-10-08 2019-04-02 Qualcomm Incorporated Quantization of spatial vectors
EP3297298B1 (en) 2016-09-19 2020-05-06 A-Volute Method for reproducing spatially distributed sounds
GB2554446A (en) * 2016-09-28 2018-04-04 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
WO2018162803A1 (en) * 2017-03-09 2018-09-13 Aalto University Foundation Sr Method and arrangement for parametric analysis and processing of ambisonically encoded spatial sound scenes
US10242486B2 (en) * 2017-04-17 2019-03-26 Intel Corporation Augmented reality and virtual reality feedback enhancement system, apparatus and method
US10405126B2 (en) * 2017-06-30 2019-09-03 Qualcomm Incorporated Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems
US11120363B2 (en) * 2017-10-19 2021-09-14 Adobe Inc. Latency mitigation for encoding data
US11086843B2 (en) 2017-10-19 2021-08-10 Adobe Inc. Embedding codebooks for resource optimization
US10942914B2 (en) 2017-10-19 2021-03-09 Adobe Inc. Latency optimization for digital asset compression
US11270711B2 (en) * 2017-12-21 2022-03-08 Qualcomm Incorproated Higher order ambisonic audio data
US10657974B2 (en) * 2017-12-21 2020-05-19 Qualcomm Incorporated Priority information for higher order ambisonic audio data
US10264386B1 (en) * 2018-02-09 2019-04-16 Google Llc Directional emphasis in ambisonics
CN110876100B (zh) * 2018-08-29 2022-12-09 嘉楠明芯(北京)科技有限公司 一种音源定向方法与系统
US11538489B2 (en) 2019-06-24 2022-12-27 Qualcomm Incorporated Correlating scene-based audio data for psychoacoustic audio coding
US11361776B2 (en) 2019-06-24 2022-06-14 Qualcomm Incorporated Coding scaled spatial components
US11356266B2 (en) 2020-09-11 2022-06-07 Bank Of America Corporation User authentication using diverse media inputs and hash-based ledgers
US11368456B2 (en) 2020-09-11 2022-06-21 Bank Of America Corporation User security profile for multi-media identity verification
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications
US11521623B2 (en) 2021-01-11 2022-12-06 Bank Of America Corporation System and method for single-speaker identification in a multi-speaker environment on a low-frequency audio recording
US11600282B2 (en) * 2021-07-02 2023-03-07 Google Llc Compressing audio waveforms using neural networks and vector quantizers
CN117556431A (zh) * 2024-01-12 2024-02-13 北京北大软件工程股份有限公司 一种混合软件漏洞分析方法和系统

Family Cites Families (129)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1159034B (it) 1983-06-10 1987-02-25 Cselt Centro Studi Lab Telecom Sintetizzatore vocale
US5012518A (en) 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
SG49883A1 (en) 1991-01-08 1998-06-15 Dolby Lab Licensing Corp Encoder/decoder for multidimensional sound fields
US5757927A (en) 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
JP2626492B2 (ja) * 1993-09-13 1997-07-02 日本電気株式会社 ベクトル量子化装置
US5790759A (en) 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
US5819215A (en) 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
JP3849210B2 (ja) 1996-09-24 2006-11-22 ヤマハ株式会社 音声符号化復号方式
US5821887A (en) 1996-11-12 1998-10-13 Intel Corporation Method and apparatus for decoding variable length codes
US6167375A (en) 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
US6263312B1 (en) 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
AUPP272698A0 (en) 1998-03-31 1998-04-23 Lake Dsp Pty Limited Soundfield playback from a single speaker system
EP1018840A3 (en) 1998-12-08 2005-12-21 Canon Kabushiki Kaisha Digital receiving apparatus and method
US6370502B1 (en) 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
US20020049586A1 (en) 2000-09-11 2002-04-25 Kousuke Nishio Audio encoder, audio decoder, and broadcasting system
JP2002094989A (ja) 2000-09-14 2002-03-29 Pioneer Electronic Corp ビデオ信号符号化装置及びビデオ信号符号化方法
US20020169735A1 (en) 2001-03-07 2002-11-14 David Kil Automatic mapping from data to preprocessing algorithms
GB2379147B (en) 2001-04-18 2003-10-22 Univ York Sound processing
US20030147539A1 (en) 2002-01-11 2003-08-07 Mh Acoustics, Llc, A Delaware Corporation Audio system based on at least second-order eigenbeams
US7262770B2 (en) 2002-03-21 2007-08-28 Microsoft Corporation Graphics image rendering with radiance self-transfer for low-frequency lighting environments
US8160269B2 (en) 2003-08-27 2012-04-17 Sony Computer Entertainment Inc. Methods and apparatuses for adjusting a listening area for capturing sounds
PT2282310E (pt) 2002-09-04 2012-04-13 Microsoft Corp Codificação entrópica por adaptação de modos de codificação entre codificação por nível e codificação por comprimento/nível de sequência
FR2844894B1 (fr) 2002-09-23 2004-12-17 Remy Henri Denis Bruno Procede et systeme de traitement d'une representation d'un champ acoustique
US6961696B2 (en) 2003-02-07 2005-11-01 Motorola, Inc. Class quantization for distributed speech recognition
US7920709B1 (en) 2003-03-25 2011-04-05 Robert Hickling Vector sound-intensity probes operating in a half-space
JP2005086486A (ja) 2003-09-09 2005-03-31 Alpine Electronics Inc オーディオ装置およびオーディオ処理方法
US7433815B2 (en) 2003-09-10 2008-10-07 Dilithium Networks Pty Ltd. Method and apparatus for voice transcoding between variable rate coders
US7283634B2 (en) 2004-08-31 2007-10-16 Dts, Inc. Method of mixing audio channels using correlated outputs
FR2880755A1 (fr) 2005-01-10 2006-07-14 France Telecom Procede et dispositif d'individualisation de hrtfs par modelisation
US7271747B2 (en) 2005-05-10 2007-09-18 Rice University Method and apparatus for distributed compressed sensing
DE602005003342T2 (de) 2005-06-23 2008-09-11 Akg Acoustics Gmbh Methode zur Modellierung eines Mikrofons
US8510105B2 (en) 2005-10-21 2013-08-13 Nokia Corporation Compression and decompression of data vectors
WO2007048900A1 (fr) 2005-10-27 2007-05-03 France Telecom Individualisation de hrtfs utilisant une modelisation par elements finis couplee a un modele correctif
US8190425B2 (en) 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
US8345899B2 (en) 2006-05-17 2013-01-01 Creative Technology Ltd Phase-amplitude matrixed surround decoder
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US8712061B2 (en) 2006-05-17 2014-04-29 Creative Technology Ltd Phase-amplitude 3-D stereo encoder and decoder
US20080004729A1 (en) 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
DE102006053919A1 (de) 2006-10-11 2008-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer Anzahl von Lautsprechersignalen für ein Lautsprecher-Array, das einen Wiedergaberaum definiert
US7966175B2 (en) * 2006-10-18 2011-06-21 Polycom, Inc. Fast lattice vector quantization
US7663623B2 (en) 2006-12-18 2010-02-16 Microsoft Corporation Spherical harmonics scaling
US9015051B2 (en) 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
US8290167B2 (en) * 2007-03-21 2012-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US8908873B2 (en) 2007-03-21 2014-12-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
WO2009007639A1 (fr) 2007-07-03 2009-01-15 France Telecom Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe
US8566106B2 (en) * 2007-09-11 2013-10-22 Voiceage Corporation Method and device for fast algebraic codebook search in speech and audio coding
GB2467668B (en) 2007-10-03 2011-12-07 Creative Tech Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
WO2009090876A1 (ja) 2008-01-16 2009-07-23 Panasonic Corporation ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
MX2010009932A (es) 2008-03-10 2010-11-30 Fraunhofer Ges Forschung Metodo y dispositivo para manipular una señal de audio que tiene un evento transitorio.
US8219409B2 (en) 2008-03-31 2012-07-10 Ecole Polytechnique Federale De Lausanne Audio wave field encoding
WO2009144953A1 (ja) 2008-05-30 2009-12-03 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
EP2297557B1 (en) 2008-07-08 2013-10-30 Brüel & Kjaer Sound & Vibration Measurement A/S Reconstructing an acoustic field
GB0817950D0 (en) 2008-10-01 2008-11-05 Univ Southampton Apparatus and method for sound reproduction
JP5697301B2 (ja) 2008-10-01 2015-04-08 株式会社Nttドコモ 動画像符号化装置、動画像復号装置、動画像符号化方法、動画像復号方法、動画像符号化プログラム、動画像復号プログラム、及び動画像符号化・復号システム
US8207890B2 (en) 2008-10-08 2012-06-26 Qualcomm Atheros, Inc. Providing ephemeris data and clock corrections to a satellite navigation system receiver
US8391500B2 (en) 2008-10-17 2013-03-05 University Of Kentucky Research Foundation Method and system for creating three-dimensional spatial audio
FR2938688A1 (fr) 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
ES2733878T3 (es) 2008-12-15 2019-12-03 Orange Codificación mejorada de señales de audio digitales multicanales
ES2435792T3 (es) * 2008-12-15 2013-12-23 Orange Codificación perfeccionada de señales digitales de audio multicanal
EP2205007B1 (en) 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
GB2476747B (en) 2009-02-04 2011-12-21 Richard Furse Sound system
EP2237270B1 (en) 2009-03-30 2012-07-04 Nuance Communications, Inc. A method for determining a noise reference signal for noise compensation and/or noise reduction
GB0906269D0 (en) 2009-04-09 2009-05-20 Ntnu Technology Transfer As Optimal modal beamformer for sensor arrays
WO2011022027A2 (en) 2009-05-08 2011-02-24 University Of Utah Research Foundation Annular thermoacoustic energy converter
CN102227696B (zh) 2009-05-21 2014-09-24 松下电器产业株式会社 触感处理装置
PL2285139T3 (pl) 2009-06-25 2020-03-31 Dts Licensing Limited Urządzenie i sposób konwersji przestrzennego sygnału audio
US9113281B2 (en) 2009-10-07 2015-08-18 The University Of Sydney Reconstruction of a recorded sound field
EP2489205B1 (en) 2009-10-15 2016-12-28 Widex A/S Hearing aid with audio codec
EA024310B1 (ru) 2009-12-07 2016-09-30 Долби Лабораторис Лайсэнзин Корпорейшн Способ декодирования цифровых потоков кодированного многоканального аудиосигнала с использованием адаптивного гибридного преобразования
CN102104452B (zh) 2009-12-22 2013-09-11 华为技术有限公司 信道状态信息反馈方法、信道状态信息获得方法及设备
WO2011104463A1 (fr) 2010-02-26 2011-09-01 France Telecom Compression de flux audio multicanal
CN102884572B (zh) 2010-03-10 2015-06-17 弗兰霍菲尔运输应用研究公司 音频信号解码器、音频信号编码器、用以将音频信号解码的方法、及用以将音频信号编码的方法
BR112012024528B1 (pt) 2010-03-26 2021-05-11 Dolby International Ab método e dispositivo para decodificar uma representação para campo de som de áudio para reprodução de áudio e meio legível por computador
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
NZ587483A (en) * 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
WO2012025580A1 (en) 2010-08-27 2012-03-01 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
CN103155591B (zh) 2010-10-14 2015-09-09 杜比实验室特许公司 使用自适应频域滤波和动态快速卷积的自动均衡方法及装置
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
EP2450880A1 (en) 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
KR101401775B1 (ko) 2010-11-10 2014-05-30 한국전자통신연구원 스피커 어레이 기반 음장 합성을 이용한 음장 재생 장치 및 방법
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
US20120163622A1 (en) 2010-12-28 2012-06-28 Stmicroelectronics Asia Pacific Pte Ltd Noise detection and reduction in audio devices
US8809663B2 (en) 2011-01-06 2014-08-19 Hank Risan Synthetic simulation of a media recording
EP2541547A1 (en) 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US9641951B2 (en) 2011-08-10 2017-05-02 The Johns Hopkins University System and method for fast binaural rendering of complex acoustic scenes
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
EP2592846A1 (en) * 2011-11-11 2013-05-15 Thomson Licensing Method and apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field
EP2592845A1 (en) * 2011-11-11 2013-05-15 Thomson Licensing Method and Apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field
BR112014017457A8 (pt) 2012-01-19 2017-07-04 Koninklijke Philips Nv aparelho de transmissão de áudio espacial; aparelho de codificação de áudio espacial; método de geração de sinais de saída de áudio espacial; e método de codificação de áudio espacial
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
EP2688066A1 (en) 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
EP4284026A3 (en) 2012-07-16 2024-02-21 Dolby International AB Method and device for rendering an audio soundfield representation
KR20230137492A (ko) 2012-07-19 2023-10-04 돌비 인터네셔널 에이비 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9516446B2 (en) 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
JP5967571B2 (ja) 2012-07-26 2016-08-10 本田技研工業株式会社 音響信号処理装置、音響信号処理方法、及び音響信号処理プログラム
PL2915166T3 (pl) 2012-10-30 2019-04-30 Nokia Technologies Oy Sposób i urządzenie do kwantyzacji odpornego wektora
US9336771B2 (en) 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
US9913064B2 (en) 2013-02-07 2018-03-06 Qualcomm Incorporated Mapping virtual speakers to physical speakers
US9883310B2 (en) 2013-02-08 2018-01-30 Qualcomm Incorporated Obtaining symmetry information for higher order ambisonic audio renderers
US9609452B2 (en) 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
EP2765791A1 (en) 2013-02-08 2014-08-13 Thomson Licensing Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field
US10178489B2 (en) 2013-02-08 2019-01-08 Qualcomm Incorporated Signaling audio rendering information in a bitstream
US9338420B2 (en) 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
US9685163B2 (en) 2013-03-01 2017-06-20 Qualcomm Incorporated Transforming spherical harmonic coefficients
SG11201507066PA (en) 2013-03-05 2015-10-29 Fraunhofer Ges Forschung Apparatus and method for multichannel direct-ambient decomposition for audio signal processing
US9197962B2 (en) 2013-03-15 2015-11-24 Mh Acoustics Llc Polyhedral audio system based on at least second-order eigenbeams
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
US9384741B2 (en) 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
US9769586B2 (en) 2013-05-29 2017-09-19 Qualcomm Incorporated Performing order reduction with respect to higher order ambisonic coefficients
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
EP3017446B1 (en) 2013-07-05 2021-08-25 Dolby International AB Enhanced soundfield coding using parametric component generation
TWI631553B (zh) 2013-07-19 2018-08-01 瑞典商杜比國際公司 將以<i>L</i><sub>1</sub>個頻道為基礎之輸入聲音訊號產生至<i>L</i><sub>2</sub>個揚聲器頻道之方法及裝置,以及得到一能量保留混音矩陣之方法及裝置,用以將以輸入頻道為基礎之聲音訊號混音以用於<i>L</i><sub>1</sub>個聲音頻道至<i>L</i><sub>2</sub>個揚聲器頻道
US20150127354A1 (en) 2013-10-03 2015-05-07 Qualcomm Incorporated Near field compensation for decomposed representations of a sound field
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US20150264483A1 (en) 2014-03-14 2015-09-17 Qualcomm Incorporated Low frequency rendering of higher-order ambisonic audio data
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US10142642B2 (en) 2014-06-04 2018-11-27 Qualcomm Incorporated Block adaptive color-space conversion coding
US20160093308A1 (en) 2014-09-26 2016-03-31 Qualcomm Incorporated Predictive vector quantization techniques in a higher order ambisonics (hoa) framework
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework

Also Published As

Publication number Publication date
EP3143614A1 (en) 2017-03-22
BR112016026724A2 (pt) 2017-08-15
JP6549156B2 (ja) 2019-07-24
PH12016502120B1 (en) 2017-01-09
EP3143614B1 (en) 2018-12-05
ZA201607875B (en) 2019-08-28
BR112016026724B1 (pt) 2022-10-11
US20150332690A1 (en) 2015-11-19
KR102032021B1 (ko) 2019-10-14
WO2015175981A1 (en) 2015-11-19
CA2946820C (en) 2021-08-10
ES2714356T3 (es) 2019-05-28
US9852737B2 (en) 2017-12-26
CL2016002867A1 (es) 2017-05-26
DK3143614T3 (en) 2019-03-18
CA2946820A1 (en) 2015-11-19
AU2015258899B2 (en) 2019-09-19
SG11201608518TA (en) 2016-11-29
AU2015258899A1 (en) 2016-11-10
JP2017516149A (ja) 2017-06-15
HUE042623T2 (hu) 2019-07-29
TWI670709B (zh) 2019-09-01
PH12016502120A1 (en) 2017-01-09
CN106463127B (zh) 2020-03-17
MY176232A (en) 2020-07-24
CN106463127A (zh) 2017-02-22
RU2016144327A3 (zh) 2018-12-12
RU2685997C2 (ru) 2019-04-23
MX2016014929A (es) 2017-03-31
MX360614B (es) 2018-11-09
KR20170007801A (ko) 2017-01-20
CN111312263A (zh) 2020-06-19
RU2016144327A (ru) 2018-06-20

Similar Documents

Publication Publication Date Title
TWI670709B (zh) 獲得複數個高階立體混響(hoa)係數之方法,經組態以獲得複數個hoa係數器件,及用於判定權重值之器件
CN105917408B (zh) 指示用于译码向量的帧参数可重用性
TWI612517B (zh) 較高階立體混響聲(hoa)架構中於預測及非預測量化技術間切換
TWI676983B (zh) 用於解碼高階立體混響音訊信號之方法及器件
US9620137B2 (en) Determining between scalar and vector quantization in higher order ambisonic coefficients
TW201621885A (zh) 較高階立體混響聲(hoa)架構中之預測向量量化技術
CN111312263B (zh) 用以获得多个高阶立体混响hoa系数的方法和装置