TWI612517B - 較高階立體混響聲(hoa)架構中於預測及非預測量化技術間切換 - Google Patents

較高階立體混響聲(hoa)架構中於預測及非預測量化技術間切換 Download PDF

Info

Publication number
TWI612517B
TWI612517B TW104131934A TW104131934A TWI612517B TW I612517 B TWI612517 B TW I612517B TW 104131934 A TW104131934 A TW 104131934A TW 104131934 A TW104131934 A TW 104131934A TW I612517 B TWI612517 B TW I612517B
Authority
TW
Taiwan
Prior art keywords
vector
unit
weights
weight
directional
Prior art date
Application number
TW104131934A
Other languages
English (en)
Other versions
TW201618077A (zh
Inventor
金墨永
尼爾斯 剛瑟 彼得斯
Original Assignee
高通公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 高通公司 filed Critical 高通公司
Publication of TW201618077A publication Critical patent/TW201618077A/zh
Application granted granted Critical
Publication of TWI612517B publication Critical patent/TWI612517B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/021Aspects relating to docking-station type assemblies to obtain an acoustical effect, e.g. the type of connection to external loudspeakers or housings, frequency improvement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)

Abstract

一種包含一記憶體及一或多個處理器的器件可經組態以自位元串流提取量化模式之一類型。該一或多個處理器亦可經組態以基於量化模式之該類型,在重建構用以近似較高階立體混響聲域中之多方向V-向量的一或多個權重之一第一集合的非預測向量解量化與重建構用以近似該較高階立體混響聲域中之該多方向V-向量的一或多個權重之一第二集合的預測向量解量化之間切換。該記憶體可經組態以儲存用以近似該較高階立體混響聲域中之該多方向V-向量之一或多個權重的該經重建構之第一集合及用以近似該較高階立體混響聲域中之該多方向V-向量之一或多個權重的該經重建構之第二集合。

Description

較高階立體混響聲(HOA)架構中於預測及非預測量化技術間切換
本申請案主張2014年9月26日申請之名為「SWITCHED V-VECTOR QUANTIZATION OF A HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL」之美國臨時申請案第62/056,248號及2014年9月26日申請之名為「PREDICTIVE VECTOR QUANTIZATION OF A DECOMPOSED HIGHER ORDER AMBISONICS(HOA)AUDIO SIGNAL」之美國臨時申請案第62/056,286號之優先權權益,該等申請案在此以全文引用之方式併入。
本發明係關於音訊資料,且更具體而言,係關於較高階立體混響聲音訊資料之寫碼。
較高階立體混響聲(HOA)信號(常常藉由複數個球諧係數(SHC)或其他階層元素表示)為音場之三維表示。HOA或SHC表示可按獨立於用以播放自SHC信號轉譯之多通道音訊信號的局部擴音器幾何結構之方式來表示音場。SHC信號亦可促進回溯相容性,此係因為可將SHC信號轉譯為熟知且被高度採用之多通道格式(諸如,5.1音訊通道格式或7.1音訊通道格式)。SHC表示因此可實現音場之更好表示,其亦適 應回溯相容性。
大體而言,描述了用於有效地量化用於較高階立體混響聲(HOA)係數架構中之向量的技術。在一些實例中,該等技術可涉及預測性地寫碼向量之基於碼向量之分解中所包括之權重值(其在無之後的術語「值」的情況下亦可被稱作「權重」)。在另外的實例中,該等技術可涉及選擇預測向量量化模式及非預測向量量化模式中之一者以用於基於一或多個準則(例如,與根據各別模式寫碼向量相關聯之信雜比)來寫碼向量。
在另一態樣中,一種經組態以解碼位元串流之器件包含一或多個處理器,其經組態以自位元串流提取量化模式之類型;及基於量化模式之類型,在重建構用以近似較高階立體混響聲域中之多方向V-向量的一或多個權重之第一集合的非預測向量解量化與重建構用以近似較高階立體混響聲域中之多方向V-向量的一或多個權重之第二集合的預測向量解量化之間切換。記憶體可經組態以儲存用以近似較高階立體混響聲域中之多方向V-向量之一或多個權重的經重建構之第一集合及用以近似較高階立體混響聲域中之多方向V-向量之一或多個權重的經重建構之第二集合。
在另一態樣中,一種解碼位元串流之方法包含:自位元串流提取量化模式之類型;及基於量化模式之類型,在重建構用以近似較高階立體混響聲域中之多方向V-向量的一或多個權重之第一集合的非預測向量解量化與重建構用以近似較高階立體混響聲域中之多方向V-向量的一或多個權重之第二集合的預測向量解量化之間切換,及自緩衝器單元擷取用以近似較高階立體混響聲域中之多方向V-向量之一或多個權重的先前經重建構之集合,其中一或多個權重之先前經重建構之集合係基於非預測向量解量化或預測向量解量化。
在另一態樣中,一種經組態以解碼位元串流之裝置包含:用於自位元串流提取量化模式之類型的構件,及用於基於量化模式之類型而在重建構用以近似較高階立體混響聲域中之多方向V-向量的一或多個權重之第一集合的非預測向量解量化與重建構用以近似較高階立體混響聲域中之多方向V-向量的一或多個權重之第二集合的預測向量解量化之間切換的構件,及用於儲存用以近似較高階立體混響聲域中之多方向V-向量之一或多個權重的經重建構之第一集合及用以近似較高階立體混響聲域中之多方向V-向量之一或多個權重的經重建構之第二集合的構件。
在另一態樣中,一種經組態以產生位元串流之器件包含:記憶體,其經組態以儲存用以近似較高階立體混響聲域中之多方向V-向量之一或多個權重的第一集合及用以近似較高階立體混響聲域中之多方向V-向量之一或多個權重的第二集合;電耦接至該記憶體之一或多個處理器,其經組態以在用以近似較高階立體混響聲域中之多方向V-向量的一或多個權重之第一集合的非預測向量量化與用以近似較高階立體混響聲域中之多方向V-向量的一或多個權重之第二集合的預測向量量化之間切換,且在包括較高階立體混響聲域中之多方向V-向量之表示的位元串流中指定指示該切換之量化模式的類型。
在另一態樣中,一種產生位元串流之方法包含:在用以近似較高階立體混響聲域中之多方向V-向量的一或多個權重之第一集合的非預測向量量化與用以近似較高階立體混響聲域中之多方向V-向量的一或多個權重之第二集合的預測向量量化之間切換;在用以近似較高階立體混響聲域中之多方向V-向量的一或多個權重之第二集合的預測向量量化期間,自緩衝器單元擷取用以近似較高階立體混響聲域中之多方向V-向量之一或多個權重的先前經重建構之集合,其中一或多個權重之先前經重建構之集合係基於非預測向量解量化或預測向量解量 化,及在位元串流中指定指示該切換的量化模式的類型。
在另一態樣中,一種經組態以產生位元串流之裝置包含:用於在用以近似較高階立體混響聲域中之多方向V-向量的一或多個權重之第一集合的非預測向量量化與用以近似較高階立體混響聲域中之多方向V-向量的一或多個權重之第二集合的預測向量量化之間切換的構件;用於在用以近似較高階立體混響聲域中之多方向V-向量的一或多個權重之第二集合的預測向量量化期間自記憶體擷取用以近似較高階立體混響聲域中之多方向V-向量之一或多個權重的先前經重建構之集合的構件,其中一或多個權重之先前經重建構之集合係基於編碼器之局部解碼器中的非預測向量解量化或編碼器之局部解碼器中的預測向量解量化,及用於在位元串流中指定指示該切換的量化模式的類型的構件。
在附圖及以下描述中闡述該等技術的一或多個態樣的細節。該等技術之其他特徵、目標及優點將自該描述及該等圖式以及自申請專利範圍顯而易見。
3‧‧‧擴音器
5‧‧‧三維曲面麥克風陣列
7‧‧‧實況記錄
9‧‧‧音訊物件
10‧‧‧系統
11‧‧‧HOA係數
11'‧‧‧HOA係數
12‧‧‧內容創建者器件
13‧‧‧擴音器資訊
14‧‧‧內容消費者器件
16‧‧‧音訊播放系統
18‧‧‧音訊編輯系統
20‧‧‧音訊編碼器件
21‧‧‧位元串流
22‧‧‧轉譯器
24‧‧‧音訊解碼器件
25‧‧‧擴音器饋入
26‧‧‧內容分析單元
27‧‧‧基於向量之分解單元
28‧‧‧基於方向之分解單元
30‧‧‧線性可逆變換(LIT)單元
32‧‧‧參數計算單元
33‧‧‧向量/矩陣
33'‧‧‧矩陣
34‧‧‧重排序單元
35‧‧‧矩陣
35'‧‧‧矩陣
36‧‧‧前景選擇單元
37‧‧‧參數
38‧‧‧能量補償單元
39‧‧‧先前參數
40‧‧‧音質音訊寫碼器單元
41‧‧‧目標位元率
42‧‧‧位元串流產生單元
43‧‧‧頻道資訊
44‧‧‧音場分析單元
45‧‧‧總數目
46‧‧‧係數縮減單元
47‧‧‧HOA係數
47'‧‧‧環境HOA係數
48‧‧‧背景(BG)選擇單元
49‧‧‧nFG信號
49'‧‧‧nFG信號
50‧‧‧空間-時間內插單元
52‧‧‧V-向量寫碼單元
52A‧‧‧V-向量寫碼單元
53‧‧‧向量
55‧‧‧向量
55(i)‧‧‧向量
57‧‧‧向量
57(i)‧‧‧經量化之向量
59‧‧‧環境HOA係數
61‧‧‧nFG信號
63‧‧‧方位角-仰角碼簿
65‧‧‧權重碼簿
65A‧‧‧權重碼簿
65A'‧‧‧權重碼簿
65B‧‧‧殘餘碼簿
72‧‧‧提取單元
74‧‧‧V-向量重建構單元
76‧‧‧空間-時間內插單元
78‧‧‧前景制訂單元
80‧‧‧音質解碼單元
82‧‧‧HOA係數制訂單元
90‧‧‧基於方向性之重建構單元
91‧‧‧基於方向性之資訊
92‧‧‧基於向量之重建構單元
200‧‧‧步驟
202‧‧‧步驟
204‧‧‧步驟
212‧‧‧步驟
214‧‧‧步驟
216‧‧‧步驟
218‧‧‧步驟
502‧‧‧近似單元
503‧‧‧權重
504‧‧‧排序及選擇單元
504A‧‧‧排序及選擇單元
505‧‧‧有序權重
506‧‧‧排序單元
507‧‧‧有序權重
508‧‧‧選擇單元
509‧‧‧索引
510‧‧‧權重向量比較單元
510B‧‧‧權重向量比較單元
511‧‧‧索引/語法元素
512‧‧‧權重向量選擇單元
513‧‧‧誤差
514‧‧‧正負號判定單元
514A‧‧‧正負號判定單元
514B‧‧‧正負號判定單元
514C‧‧‧正負號判定單元
515‧‧‧語法元素
515A‧‧‧語法元素
515B‧‧‧正負號資訊
516A‧‧‧殘餘誤差單元
518‧‧‧殘餘向量比較單元
519A‧‧‧語法元素
519B‧‧‧語法元素
520‧‧‧NPVQ單元
520A‧‧‧NPVQ單元
520B‧‧‧NPVQ單元
521‧‧‧語法元素
521A‧‧‧語法元素
522‧‧‧殘餘向量選擇單元
523‧‧‧權重因數
524A‧‧‧局部權重解碼器單元
524B‧‧‧局部權重解碼器單元
524C‧‧‧局部權重解碼器單元
524D‧‧‧局部權重解碼器單元
525A‧‧‧權重
525A'‧‧‧權重
525B‧‧‧權重
525B'‧‧‧權重
525C‧‧‧權重
525C'‧‧‧權重
525D‧‧‧權重
525D'‧‧‧權重
525E‧‧‧權重
525E'‧‧‧權重
525F‧‧‧權重
525F'‧‧‧權重
525G‧‧‧權重
525G'‧‧‧權重
526A‧‧‧權重重建構單元
527A‧‧‧殘餘權重誤差
528‧‧‧延遲單元/延遲緩衝器
529‧‧‧誤差
530‧‧‧緩衝器單元
531‧‧‧權重
532‧‧‧NPVQ重建構單元
533‧‧‧NPVQ向量
534‧‧‧NPVQ誤差判定單元
536‧‧‧PVQ重建構單元
537‧‧‧PVQ向量
538‧‧‧PVQ誤差判定單元
539‧‧‧PVQ誤差
540‧‧‧預測向量量化(PVQ)單元
540A‧‧‧預測向量量化單元
540B‧‧‧預測向量量化單元
540C‧‧‧預測向量量化單元
540D‧‧‧預測向量量化單元
541‧‧‧VQ誤差
542‧‧‧選擇單元
543(i)‧‧‧VQ向量
550‧‧‧純量量化單元
551(i)‧‧‧向量
553‧‧‧誤差量測
560‧‧‧切換式預測向量量化單元
562‧‧‧NPVQ/PVQ選擇單元
564‧‧‧向量量化/純量量化(VQ/SQ)選擇單元
565‧‧‧選擇資訊
570‧‧‧碼向量轉換單元
571‧‧‧音量碼向量
572‧‧‧權重判定單元
590A‧‧‧向量量化(VQ)單元
590C‧‧‧向量量化(VQ)單元
600‧‧‧權重
600'‧‧‧權重
602‧‧‧權重
612‧‧‧音量向量碼簿
620A‧‧‧殘餘向量
620B‧‧‧殘餘向量
640A‧‧‧PVQ單元
650‧‧‧量值單元
665‧‧‧前景HOA係數
720‧‧‧非預測向量解量化(NPVD)單元
740‧‧‧預測向量解量化(PVD)單元
750‧‧‧純量解量化單元
757‧‧‧信號
760‧‧‧切換式預測向量解量化單元
763‧‧‧語法元素
764‧‧‧選擇單元
770‧‧‧淡化單元
810‧‧‧步驟
812‧‧‧步驟
814‧‧‧步驟
816‧‧‧步驟
818‧‧‧步驟
820‧‧‧步驟
822‧‧‧步驟
824‧‧‧步驟
826‧‧‧步驟
830‧‧‧步驟
832‧‧‧步驟
850‧‧‧步驟
852‧‧‧步驟
854‧‧‧步驟
856‧‧‧步驟
858‧‧‧步驟
860‧‧‧步驟
900A‧‧‧象限
900B‧‧‧象限
900C‧‧‧象限
900D‧‧‧象限
圖1為說明具有各種階數及子階數之球諧基底函數之圖。
圖2為說明可執行本發明中所描述之技術之各種態樣的系統的圖。
圖3為更詳細地說明圖2之實例中所示之音訊編碼器件的方塊圖,該音訊編碼器件可在基於較高階立體混響聲(HoA)向量之分解架構中執行本發明中所描述之技術之各種態樣。
圖4為更詳細地說明基於HoA向量之分解架構之圖3中所示之音訊編碼器件24中之V-向量寫碼單元的圖。
圖5為更詳細地說明包括於圖4之V-向量寫碼單元內用於判定權重的近似單元的圖。
圖6為更詳細地說明包括於圖4的V-向量寫碼單元內用於排序及選擇權重的排序及選擇單元的圖。
圖7A及圖7B為更詳細地說明包括於圖4之V-向量寫碼單元內用於向量量化所選擇的有序權重之NPVQ單元的組態的圖。
圖8A、圖8C、圖8E及圖8G為更詳細地說明包括於圖4之V-向量寫碼單元內用於向量定量所選擇的有序權重之PVQ單元之組態的圖。
圖8B、圖8D、圖8F及圖8H為更詳細地說明包括於圖8A、圖8C、圖8E及圖8G中所描述之不同組態內的局部權重解碼器之組態的圖。
圖9為更詳細地說明包括於切換式預測向量量化單元560內之VQ/PVQ選擇單元的方塊圖。
圖10為更詳細地說明圖2之音訊解碼器件之方塊圖。
圖11為更詳細地說明圖4之實例中所示的音訊解碼器件之V-向量重建構單元的圖。
圖12A為說明圖4之V-向量寫碼單元在執行本發明中所描述之技術之各種態樣中的例示性操作的流程圖。
圖12B為說明音訊編碼器件在執行本發明中所描述的基於向量之合成技術之各種態樣中的例示性操作的流程圖。
圖13A為說明圖11之V-向量重建構單元在執行本發明中所描述之技術之各種態樣中的例示性操作的流程圖。
圖13B為說明音訊解碼器件在執行本發明中所描述之技術之各種態樣中的例示性操作的流程圖。
圖14為根據本發明的包括說明用於使用NPVQ單元進行權重之向量量化的權重之實例分佈的多個圖表之圖。
圖15為根據本發明的包括圖14之底列圖表之正象限之多個圖表的圖,該多個圖表更詳細地說明NPVQ單元中之權重之向量量化。
圖16為根據本發明的包括說明預測權重值(預測權重值亦可被稱 作殘餘權重誤差)之實例分佈之多個圖表的圖,該等預測權重值用作PVQ單元中之殘餘權重誤差之預測向量量化之部分。
圖17為根據本發明的包括說明圖16中之實例分佈之多個圖表的圖,該多個圖表更詳細地說明用作PVQ單元中之殘餘權重誤差之預測向量量化之部分的對應經量化殘餘權重誤差(亦即,預測權重值)。
圖18及圖19為說明本發明之「僅PVQ模式」中之使用不同方法以獲得α因數之預測向量量化技術的比較實例效能特性的表格。
圖20A及圖20B為根據本發明的說明「僅PVQ模式」及「僅VQ模式」之比較實例效能特性的表格。
如本文所使用,「A及/或B」意謂「A或B」,或「A及B」兩者。如在本發明中所使用之術語「或」應理解為表示邏輯上包含或而不是邏輯上互斥或,其中(例如)當A存在時,當B存在時或在A與B兩者存在之情況下滿足邏輯習語(若A或B)(與邏輯上互斥或相反,其中當A及B存在時,未滿足條件敍述)。
大體而言,描述了用於有效地量化複數個較高階立體混響聲(HOA)係數之基於向量之分解式架構版本中所包括之向量的技術。在一些實例中,該等技術可涉及預測性地寫碼向量之基於碼向量之分解中所包括之權重值(其在無之後的術語「值」的情況下亦可被稱作「權重」)。在另外的實例中,該等技術可涉及選擇預測向量量化模式及非預測向量量化模式中之一者以用於基於一或多個準則(例如,與根據各別模式寫碼向量相關聯之信雜比)來寫碼向量。可將並不取決於儲存於編碼器或解碼器之記憶體中的來自先前時間區段(例如,訊框)的過去經量化向量的向量之向量量化(VQ)描述為無記憶的。然而,當過去經量化向量自先前時間區段(例如,訊框)儲存於編碼器或解碼器之記憶體中時,當前時間區段(例如,訊框)中之當前經量化向 量可經預測且可被稱作預測向量量化(PVQ)且描述為基於記憶體的。在本發明中,關於基於較高階立體混響聲(HoA)之分解架構更詳細地描述各種VQ及PVQ組態。當基於僅使用過去區段(訊框或子訊框)預測的經向量量化之權重執行預測向量量化而不能夠自非預測向量量化單元(例如,如圖4中之NPVQ單元520)存取過去經向量量化之權重向量中之任一者時,PVQ組態可被稱作僅PVQ模式。「僅VQ模式」可表示在無藉由非預測向量量化單元(例如,參見圖4,NPVQ單元520)或預測向量量化單元(例如,參見圖4,PVQ單元540)產生之先前經向量量化之權重向量(來自過去訊框或過去子訊框)之情況下執行向量量化。
另外,亦描述了在基於HoA向量之架構內的VQ組態與PVQ組態之間的切換。此種切換可被稱作SPVQ或切換式預測向量量化。此外,在基於HoA向量之分解架構內可存在純量量化與僅VQ模式、僅PVQ模式或啟用SPVQ之模式之間的切換。
先於使用基於HOA之信號表示音場之近來發展,現今環繞聲之演進已使許多輸出格式可用於娛樂。此種消費型環繞聲格式之實例大部分為「頻道」式的,此係因為其以某些幾何座標隱含地指定至擴音器之饋入。消費型環繞聲格式包括風行的5.1格式(其包括以下六個頻道:左前(FL)、右前(FR)、中心或前中心、左後或左環繞、右後或右環繞,及低頻效應(LFE))、發展中的7.1格式、包括高度揚聲器之各種格式,諸如7.1.4格式及22.2格式(例如,用於供超高清晰度電視標準使用)。非消費型格式可涵括任何數目的揚聲器(成對稱及非對稱幾何結構),其常常稱為「環繞陣列」。此類陣列之一實例包括定位於截頂二十面體之拐角上的座標處之32個擴音器。
至未來MPEG編碼器之輸入視情況為以下三種可能格式中之一者:(i)傳統的基於頻道之音訊(如上文所論述),其意欲經由處於預先指定之位置處的擴音器播放;(ii)基於物件之音訊,其涉及用於單音 訊物件之具有含有其位置座標(以及其他資訊)之相關聯後設資料的離散脈碼調變(PCM)資料;及(iii)基於場景之音訊,其涉及使用球諧基底函數之係數(亦被稱為「球諧係數」或SHC、「較高階立體混響聲」或HOA及「HOA係數」)來表示音場。在名為MPEG-H 3D音訊標準(其名為「Information Technology-High efficiency coding and media delivery in heterogeneous environments-Part 3:3D Audio」)之文件(日期為2014-07-25(2014年7月25日),ISO/IEC JTC1/SC 29、ISO/IEC 23008-3、ISO/IEC JTC 1/SC 29/WG 11(檔案名:ISO_IEC_23008-3_(E)_(DIS of 3DA).doc))中更詳細地描述MPEG編碼器。
在市場中存在基於各種「環繞聲」頻道之格式。其範圍(例如)係自5.1家庭影院系統(其在使起居室享有立體聲方面已獲得最大成功)到NHK(日本廣播協會或日本廣播公司)所開發的22.2系統。內容創建者(例如,好萊塢工作室)希望一次製作內容(例如,電影)之聲跡且不費力混音每一揚聲器組態之聲跡。近來,標準開發組織(Standards Developing Organizations)一直在考慮如下方式:提供至標準化位元串流中的編碼,以及後續解碼,其可調適且不知曉播放位置(涉及轉譯器)處的揚聲器幾何形狀(及數目)以及聲學條件。
為向內容創建者提供此種靈活性,可使用階層元素集合表示音場。該階層元素集合可係指其中元素經排序而使得基本低階元素集合提供模型化音場之完整表示的元素集合。當將該集合擴展以包括高階元素時,該表示變得更詳細,從而增加解析度。
階層元素集合之一實例為球諧係數(SHC)之集合。以下表達式表明使用SHC對音場之描述或表示:
Figure TWI612517BD00001
該表達式展示在時間t在音場之任何點{r r r r }處之壓力p i 可獨特 地藉由SHC(
Figure TWI612517BD00002
(k))來表示。此處,
Figure TWI612517BD00003
,c為音速(~343m/s),{r r r r }為參考點(或觀測點),j n (.)為n階球面貝塞爾函數,且
Figure TWI612517BD00004
(θ r r )為n階及m子階之球面諧波基底函數。可認識到,方括號中之項為可藉由各種時間-頻率變換近似的信號之頻域表示(亦即,S(ω,r r r r )),該等變換諸如離散傅立葉變換(DFT)、離散餘弦變換(DCT)或小波變換。階層集合之其他實例包括小波變換係數之集合及多解析度基底函數之係數的其他集合。
圖1為說明自零階(n=0)至四階(n=4)之球諧基底函數的圖。如可見,對於每一階,存在m子階的擴展,出於易於說明的目的,在圖1之實例中展示該等子階但未明確陳述。
可藉由各種麥克風陣列組態來實體地獲取(例如,記錄)SHC
Figure TWI612517BD00005
(k),或替代地,可自音場之基於頻道或基於物件之描述導出SHC。SHC表示基於場景之音訊,其中SHC可輸入至音訊編碼器以獲得經編碼SHC,該經編碼SHC可促成更有效的傳輸或儲存。舉例而言,可使用涉及(1+4)2(25,且因此為四階)係數之四階表示。
如上文所陳述,可使用麥克風陣列自麥克風記錄導出SHC。可如何自麥克風陣列導出SHC之各種實例描述於Poletti,M.之「基於球諧之三維環繞聲系統(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)」(J.Audio Eng.Soc.,第53卷,第11期,2005年11月,第1004至1025頁)中。SHC亦可被稱作較高階立體混響聲(HOA)係數。
為了說明可如何自基於物件之描述導出SHC,考慮以下等式(1)。可將對應於個別音訊物件之音場之係數
Figure TWI612517BD00006
(k)表達為:
Figure TWI612517BD00007
其中i為
Figure TWI612517BD00008
Figure TWI612517BD00009
(.)為具有n階的球面漢克函數(第二種類),且{r s s s }為物件之位置。知道隨頻率變化之物件源能量g(ω)(例如, 使用時間-頻率分析技術,諸如,對PCM串流執行快速傅立葉變換)允許吾人將每一PCM物件及對應位置轉換成SHC
Figure TWI612517BD00010
(k)。另外,可展示(因為上述為線性及正交分解)每一物件之
Figure TWI612517BD00011
(k)係數為加成性的。以此方式,許多PCM物件可由
Figure TWI612517BD00012
(k)係數(例如,作為個別物件之係數向量的總和)來表示。在一個實例中,該等係數含有關於音場之資訊(隨3D座標變化之壓力),且以上情形表示在觀測點{r r r r }附近自個別物件至整個音場之表示的變換。下文在基於物件及基於SHC之音訊寫碼的內容脈絡中描述剩餘諸圖。
圖2為說明可執行本發明中所描述之技術之各種態樣的系統10的圖。如圖2之實例中所示,系統10包括內容創建者器件12及內容消費者器件14。雖然在內容創建者器件12及內容消費者器件14之內容脈絡中加以描述,但可在音場之SHC(其亦可被稱作HOA係數)或任何其他階層表示經編碼以形成表示音訊資料之位元串流的任何內容脈絡中實施該等技術。此外,內容創建者器件12可表示能夠實施本發明中所描述之技術的任何形式之計算器件,包括手機(或蜂巢式電話)、平板電腦、智慧型手機或桌上型電腦(提供幾個實例)。同樣地,內容消費者器件14可表示能夠實施本發明中所描述之技術的任何形式之計算器件,包括手機(或蜂巢式電話)、平板電腦、智慧型手機、機上盒,或桌上型電腦(提供幾個實例)。
內容創建者器件12可由影片工作室或可產生多頻道音訊內容以供內容消費者器件(諸如,內容消費者器件14)之操作者消耗的其他實體來操作。在一些實例中,內容創建者器件12可由將希望壓縮HOA係數11之個別使用者操作。常常,內容創建者產生音訊內容連同視訊內容。內容消費者器件14可同樣由個體操作。內容消費者器件14可包括音訊播放系統16,其可指能夠轉譯HOA係數11以供作為多頻道音訊內容播放的任何形式之音訊播放系統。
如圖2中所示,內容創建者器件12包括音訊編輯系統18。內容創建者器件12可獲得呈各種格式(包括直接作為HOA係數)之實況記錄7及音訊物件9,內容創建者器件12可使用音訊編輯系統18對實況記錄7及音訊物件9進行編輯。三維曲面麥克風陣列5可捕獲實況記錄7。三維曲面麥克風陣列5可為球體,具有置放於該球體上之麥克風之均勻分佈。內容創建者器件12可在編輯處理程序期間自音訊物件9及實況記錄7產生HOA係數11且混合來自音訊物件9及實況記錄7的HOA係數11。音訊編輯系統18可接著轉譯來自混合HOA係數11之揚聲器饋入,收聽經轉譯之揚聲器饋入以試圖識別需要進一步編輯之音場之各種態樣。
內容創建者器件12可接著編輯HOA係數11(可能經由操縱可供以上文所描述之方式導出源HOA係數的音訊物件9間接地編輯)。內容創建者器件12可採用音訊編輯系統18產生HOA係數11。音訊編輯系統18表示能夠編輯音訊資料且輸出該音訊資料作為一或多個源球諧係數之任何系統。在一些內容脈絡中,內容創建者器件12可僅利用實況內容且在其他內容脈絡中,內容創建者器件12可利用記錄之內容。
當編輯處理程序完成時,內容創建者器件12可基於HOA係數11產生位元串流21。亦即,內容創建者器件12包括音訊編碼器件20,該音訊編碼器件20表示經組態以根據本發明中所描述之技術之各種態樣編碼或以其他方式壓縮HOA係數11以產生位元串流21的器件。音訊編碼器件20可產生位元串流21以供傳輸,作為一實例,跨越傳輸頻道(其可為有線或無線頻道、資料儲存器件或其類似者)。位元串流21可表示HOA係數11之經編碼版本,且可包括主要位元串流及另一旁側位元串流(其可稱為旁側頻道資訊)。
雖然在圖2中經展示為直接傳輸至內容消費者器件14,但內容創建者器件12可將位元串流21輸出至定位於內容創建者器件12與內容消 費者器件14之間的中間器件。該中間器件可儲存位元串流21以供稍後遞送至可能請求該位元串流之內容消費者器件14。該中間器件可包含檔案伺服器、網頁伺服器、桌上型電腦、膝上型電腦、平板電腦、行動電話、智慧型手機,或能夠儲存位元串流21以供音訊解碼器稍後擷取之任何其他器件。該中間器件可駐留於能夠將位元串流21(且可能結合傳輸對應視訊資料位元串流)串流傳輸至請求位元串流21之訂戶(諸如,內容消費者器件14)的內容遞送網路中。
替代地,內容創建者器件12可將位元串流21儲存至儲存媒體,諸如緊密光碟、數位影音光碟、高清晰度視訊光碟或其他儲存媒體,其中之大部分能夠由電腦讀取且因此可被稱作電腦可讀儲存媒體或非暫時性電腦可讀儲存媒體。在此內容脈絡中,傳輸頻道可指藉以傳輸儲存至該等媒體之內容的彼等頻道(且可包括零售商店及其他基於商店之遞送機構)。有可能的係內容創建者器件12及消費者器件14為開通器件,以使得內容可在一個時間點記錄且在稍後時間點播放。在任何情況下,本發明之技術因此就此而言不應限於圖2之實例。
如圖2之實例中進一步所示,內容消費者器件14包括音訊播放系統16。音訊播放系統16可表示能夠播放多頻道音訊資料之任何音訊播放系統。音訊播放系統16可包括數個不同視訊轉譯器22。轉譯器22可各自提供不同形式之轉譯,其中不同形式之轉譯可包括執行基於向量之振幅移動(VBAP)之各種方式中的一或多者及/或執行音場合成之各種方式中的一或多者。
音訊播放系統16可進一步包括音訊解碼器件24。音訊解碼器件24可表示經組態以對來自位元串流21之HOA係數11'進行解碼之裝置,其中HOA係數11'可類似於HOA係數11,但歸因於經由傳輸頻道之有損操作(例如,量化)及/或傳輸而有所不同。音訊播放系統16可隨後解碼位元串流21以獲得HOA係數11'且轉譯HOA係數11'以輸出擴音 器饋入25。擴音器饋入25可驅動一或多個擴音器3。
為了選擇適當轉譯器或在一些情況下產生適當轉譯器,音訊播放系統16可獲得指示擴音器3之數目及/或擴音器3之空間幾何結構的擴音器資訊13。在一些情況下,音訊播放系統16可使用參考麥克風且以動態地判定擴音器資訊13之方式驅動擴音器3而獲得擴音器資訊13。在其他情況下或結合擴音器資訊13之動態判定,音訊播放系統16可提示使用者與音訊播放系統16介接且輸入擴音器資訊13。
音訊播放系統16可隨後基於擴音器資訊13選擇音訊轉譯器22中的一者。在一些情況下,在音訊轉譯器22中無一者處於至擴音器資訊13中所指定之擴音器幾何結構之某一臨限值類似性度量(就擴音器幾何結構而言)內時,音訊播放系統16可基於擴音器資訊13產生音訊轉譯器22中之一者。音訊播放系統16可在一些情況下基於擴音器資訊13產生音訊轉譯器22中的一者,而不首先嘗試選擇音訊轉譯器22中的現有一者。擴音器3(其亦可被稱作「揚聲器3」)中之一或多者可隨後播放轉譯之擴音器饋入25。擴音器3可經組態以基於如下文更詳細描述之較高階立體混響聲域中之V-向量的表示來輸出揚聲器饋入。
圖3為更詳細地說明可執行本發明中所描述之技術之各種態樣的圖2之實例中所展示的音訊編碼器件20之一實例的方塊圖。音訊編碼器件20包括內容分析單元26、基於向量之分解單元27及基於方向之分解單元28。
內容分析單元26表示經組態以分析HOA係數11之內容以識別HOA係數11是否表示自實況記錄7抑或自音訊物件9產生之內容的單元。內容分析單元26可判定HOA係數11係自實際音場之實況記錄7產生抑或自人造音訊物件9產生。在一些情況下,當HOA係數11自實況記錄7產生時,內容分析單元26將HOA係數11傳遞至基於向量之分解單元27。在一些情況下,當HOA係數11自合成音訊物件9產生時,內 容分析單元26將HOA係數11傳遞至基於方向之分解單元28。基於方向之合成單元28可表示經組態以執行HOA係數11的基於方向之合成以產生基於方向之位元串流21的單元。
如圖3之實例中所展示,基於向量之分解單元27可包括線性可逆變換(LIT)單元30、參數計算單元32、重排序單元34、前景選擇單元36、能量補償單元38、音質音訊寫碼器單元40、位元串流產生單元42、音場分析單元44、係數縮減單元46、背景(BG)選擇單元48、空間-時間內插單元50及V-向量寫碼單元52。
線性可逆變換(LIT)單元30接收呈HOA頻道形式之HOA係數11,每一頻道表示與球面基底函數之給定階數、子階數相關聯的係數之區塊或訊訊框(其可表示為HOA[k],其中k可表示樣本之當前訊框或區塊)。HOA係數11之矩陣可具有維度DM×(N+1)2
LIT單元30可表示經組態以執行被稱作奇異值分解的形式的分析的單元。雖然關於SVD加以描述,但可關於提供線性不相關的能量密集輸出之集合的任何類似變換或分解執行本發明中所描述之該等技術。分解可將HOA係數11減小成與HOA係數不同之主分量或基波分量且可並不表示HOA係數11之子集之選擇。又,在本發明中對「集合」之提及意欲表示非零集合(除非特定地相反陳述),且並不意欲表示包括所謂的「空集合」之集合之經典數學定義。
替代變換可包含常常被稱作「PCA」之主分量分析。取決於上下文,PCA可由若干不同名稱表示,諸如離散卡忽南-拉維變換、哈特林變換、恰當正交分解(POD)和本徵值分解(EVD),僅舉幾例。有利於壓縮音訊資料之基本目標的此種操作之特性為多頻道音訊資料之「能量壓縮」及「去相關」。
在任何情況下,出於實例之目的,假定LIT單元30執行奇異值分解(其再次可被稱作「SVD」),LIT單元30可將HOA係數11變換成經 變換之HOA係數之兩個或兩個以上集合。經變換HOA係數之「集合」可包括經變換HOA係數之向量。在圖3之實例中,LIT單元30可相對於HOA係數11執行SVD以產生所謂的V矩陣、S矩陣及U矩陣。在線性代數中,SVD可按如下形式表示y乘z實數或複數矩陣X(其中X可表示多頻道音訊資料,諸如HOA係數11)之因子分解:X=USV*
U可表示y乘y實數或複數單式矩陣,其中U之y行被稱為多頻道音訊資料之左奇異向量。S可表示在對角線上具有非負實數之y乘z矩形對角線矩陣,其中S之對角線值被稱為多頻道音訊資料之奇異值。V*(其可表示V之共軛轉置)可表示z乘z實數或複數單式矩陣,其中V*之z行被稱為多頻道音訊資料之右奇異向量。
在一些實例中,以上提及之SVD數學表達式中的V*矩陣表示為V矩陣之共軛轉置以反映SVD可應用於包含複數的矩陣。當應用於僅包含實數之矩陣時,V矩陣之複數共軛(或換言之,V*矩陣)可認為係V矩陣之轉置。下文中為易於說明之目的,假定HOA係數11包含實數,結果為經由SVD而非V*矩陣輸出V矩陣。此外,雖然在本發明中表示為V矩陣,但在適當時,對V矩陣之提及應被理解為是指V矩陣之轉置。雖然假定為V矩陣,但該等技術可按類似方式應用於具有複數係數之HOA係數11,其中SVD之輸出為V*矩陣。因此,就此而言,該等技術不應限於僅提供應用SVD以產生V矩陣,而可包括將SVD應用於具有複數分量之HOA係數11以產生V*矩陣。
以此方式,LIT單元30可相對於HOA係數11執行SVD以輸出具有維度D:M×(N+1)2的US[k]向量33(其可表示S向量及U向量之組合版本)及具有維度D:(N+1)2×(N+1)2之V[k]向量35。US[k]矩陣中之個別向量元素亦可被稱為X PS (k),而V[k]矩陣中之個別向量亦可被稱為v(k)。
U、S及V矩陣之分析可揭示:該等矩陣攜有或表示上文藉由X表示的基礎音場之空間及時間特性。U(長度為M個樣本)中的N個向量中的每一者可表示隨時間(對於由M個樣本表示之時間段)而變化的經正規化之單獨音訊信號,其彼此正交且已與任何空間特性(其亦可稱為方向資訊)解耦。表示空間形狀及位置(r、θ、φ)之空間特性可改為藉由V矩陣中之個別第i向量v (i)(k)(每一者具有長度(N+1)2)表示。向量v (i)(k)中之每一者之個別元素可表示HOA係數,其描述相關聯音訊物件之形狀(包括寬度)及位置。
U矩陣及V矩陣兩者中的向量經正規化而使得其均方根能量等於單位。U中的音訊信號之能量因此藉由S中之對角線元素表示。將U與S相乘以形成US[k](具有個別向量元素X PS (k)),因此表示具有能量之音訊信號。SVD使音訊時間信號(U中)、其能量(S中)與其空間特性(V中)解耦之能力可支援本發明中所描述之技術的各種態樣。此外,藉由US[k]及V[k]之向量乘法合成基礎HOA[k]係數X以重建構解碼器處之HOA[k]係數之模型可產生如藉由編碼器執行以判定US[k]及V[k]之術語「基於向量之分解」,其遍及此文件使用。
儘管描述為直接相對於HOA係數11執行,但LIT單元30可將分解應用於HOA係數11的導出項。舉例而言,LIT單元30可相對於自HOA係數11導出的功率譜密度矩陣應用SVD。藉由相對於HOA係數之功率譜密度(PSD)而非係數自身執行SVD,LIT單元30可在處理器循環及儲存空間中之一或多者的方面潛在地減小執行SVD之計算複雜度,同時達成相同的源音訊編碼效率,如同SVD係直接應用於HOA係數。
參數計算單元32表示經組態以計算各種參數之單元,該等參數諸如相關性參數(R)、方向性質參數(θφr),及能量性質(e)。用於當前訊框之參數中的每一者可表示為R[k]、θ[k]、φ[k]、r[k]及e[k]。參數計算單元32可相對於US[k]向量33執行能量分析及/或相關(或所謂 的交叉相關)以識別該等參數。參數計算單元32亦可判定用於先前訊框之參數,其中先前訊框參數可基於具有US[k-1]向量及V[k-1]向量之先前訊框表示為R[k-1]、θ[k-1]、φ[k-1]、r[k-1]及e[k-1]。參數計算單元32可將參數37及先前參數39輸出至重排序單元34。
由參數計算單元32計算之參數可由重排序單元34用以對音訊物件重排序以表示其自然評估或隨時間推移之連續性。重排序單元34可將來自轉向方向的第一US[k]向量33之參數37中之每一者與第二US[k-1]向量33之參數39的每一者進行比較。重排序單元34可基於當前參數37及先前參數39對US[k]矩陣33和V[k]矩陣35內的各種向量重排序(作為一個實例,使用Hungarian演算法)以將經重排序的US[k]矩陣33'(其可數學表示為
Figure TWI612517BD00013
[k])及經重排序的V[k]矩陣35'(其可數學表示為
Figure TWI612517BD00014
[k])輸出至前景聲音選擇單元36(「前景選擇單元36」)及能量補償單元38。前景選擇單元36亦可被稱作優勢聲音選擇單元36。
音場分析單元44可表示經組態以相對於HOA係數11執行音場分析以便潛在地達成目標位元率41之單元。音場分析單元44可基於該分析及/或所接收之目標位元率41判定音質寫碼器執行個體之總數(其可為環境或背景頻道之總數(BGTOT)及前景頻道或換言之優勢頻道之數目的函數。音質寫碼器執行個體之總數可表示為numHOATransportChannels。
再次為了潛在地達成目標位元率41,音場分析單元44亦可判定前景頻道之總數目(nFG)45、背景(或換言之,環境)音場之最小階數(NBG或替代地,MinAmbHoaOrder)、表示背景音場之最小階數的實際頻道之對應數目(nBGa=(MinAmbHoaOrder+1)2),及待發送之額外BG HOA頻道之索引(i)(其在圖3之實例中可共同地表示為背景頻道資訊43)。背景頻道資訊43亦可被稱作環境頻道資訊43。numHOATransportChannels-nBGa後剩餘的頻道中之每一者可為「額 外背景/環境頻道」、「作用中的基於向量之優勢頻道」、「作用中的基於方向之優勢信號」或「完全不活動」。音場分析單元44將背景頻道資訊43及HOA係數11輸出至背景(BG)選擇單元36,將背景頻道資訊43輸出至係數縮減單元46及位元串流產生單元42,且將nFG 45輸出至前景選擇單元36。
背景選擇單元48可表示經組態以基於背景頻道資訊(例如,背景音場(NBG)以及待發送之額外BG HOA頻道之數目(nBGa)及索引(i))判定背景或環境HOA係數47之單元。舉例而言,當NBG等於一時,背景選擇單元48可選擇用於具有等於或小於一之階數的音訊訊框之每一樣本的HOA係數11。在此實例中,背景選擇單元48可接著選擇具有由索引(i)中之一者識別的索引之HOA係數11作為額外BG HOA係數,其中將nBGa提供至待於位元串流21中指定之位元串流產生單元42以便使得音訊解碼器件(諸如圖4A及圖4B之實例中所示的音訊解碼器件24)能夠提取來自位元串流21之背景HOA係數47。背景選擇單元48可接著將環境HOA係數47輸出至能量補償單元38。環境HOA係數47可具有維度D:M×[(NBG+1)2 +nBGa]。環境HOA係數47亦可被稱作「環境HOA頻道47」,其中環境HOA係數47中之每一者對應於待由音質音訊寫碼器單元40編碼之單獨環境HOA頻道47。
前景選擇單元36可表示經組態以基於nFG 45(其可表示識別前景向量之一或多個索引)選擇表示音場之前景或相異分量的經重排序之US[k]矩陣33'及經重排序之V[k]矩陣35'的單元。前景選擇單元36可將nFG信號49(其可表示為經重排序之US[k]1,...,nFG 49、FG1,...,nfG[k]49或
Figure TWI612517BD00015
(k))輸出至音質音訊寫碼器單元40,其中nFG信號49可具有維度D:M×nFG且每一者表示單聲道-音訊物件。前景選擇單元36亦可將對應於音場之前景分量的經重排序之V[k]矩陣35'(或v (1..nFG)(k)35')輸出至空間-時間內插單元50,其中對應於前景分量的經重排序之 V[k]矩陣35'之子集可表示為前景V[k]矩陣51k(其可在數學上表示為
Figure TWI612517BD00016
[k]),其具有維度D:(N+1)2×nFG。
能量補償單元38可表示經組態以相對於環境HOA係數47執行能量補償以補償歸因於藉由背景選擇單元48移除HOA頻道中之各者而產生的能量損失之單元。能量補償單元38可相對於經重排序之US[k]矩陣33'、經重排序之V[k]矩陣35'、nFG信號49、前景V[k]向量51k及環境HOA係數47中之一或多者執行能量分析,且接著基於能量分析執行能量補償以產生經能量補償之環境HOA係數47'。能量補償單元38可將經能量補償之環境HOA係數47'輸出至音質音訊寫碼器單元40。
空間-時間內插單元50可表示經組態以接收第k訊框之前景V[k]向量51 k 及前一訊框(因此為k-1記號)之前景V[k-1]向量51 k-1且執行空間-時間內插以產生經內插之前景V[k]向量之單元。空間-時間內插單元50可將nFG信號49與前景V[k]向量51 k 重組合以恢復經重排序之前景HOA係數。空間-時間內插單元50可接著將經重排序之前景HOA係數除以經內插之V[k]向量以產生經內插之nFG信號49'。空間-時間內插單元50亦可輸出用以產生經內插之前景V[k]向量之前景V[k]向量51 k ,以使得音訊解碼器件(諸如,音訊解碼器件24)可產生經內插之前景V[k]向量且藉此恢復前景V[k]向量51 k 。將用以產生經內插之前景V[k]向量之前景V[k]向量51 k 表示為剩餘前景V[k]向量53。為了確保在編碼器及解碼器處使用相同的V[k]及V[k-1](以創建經內插之向量V[k]),可在編碼器及解碼器處使用向量之經量化/經解量化之版本。空間-時間內插單元50可將經內插之nFG信號49'輸出至音質音訊寫碼器單元40且將經內插之前景V[k]向量51k輸出至係數縮減單元46。
係數縮減單元46可表示經組態以基於背景頻道資訊43相對於剩餘前景V[k]向量53執行係數縮減以將經減少之前景V[k]向量55輸出至V-向量寫碼單元52之單元。經減少之前景V[k]向量55可具有維度D: [(N+1)2-(N BG +1)2-BGTOT]x nFG。就此而言,係數縮減單元46可表示經組態以減少剩餘前景V[k]向量53中之係數之數目的單元。換言之,係數縮減單元46可表示經組態以消除前景V[k]向量中具有極少或幾乎沒有方向資訊之係數(其形成剩餘前景V[k]向量53)之單元。在一些實例中,相異或(換言之)前景V[k]向量之對應於一階及零階基底函數之係數(其可表示為NBG)提供極少方向資訊,且因此可自前景V-向量移除(經由可被稱作「係數縮減」之過程)。在此實例中,可提供較大靈活性以使得不僅自集合[(NBG+1)2+1,(N+1)2]識別對應於NBG之係數而且識別額外HOA頻道(其可藉由變數TotalOfAddAmbHOAChan表示)。
V-向量寫碼單元52可表示經組態以執行量化或其他形式之寫碼以壓縮經減少之前景v[k]向量55以產生經寫碼之前景v[k]向量57的單元。V-向量寫碼單元52可將經寫碼之前景V[k]向量57輸出至位元串流產生單元42。在操作中,V-向量寫碼單元52可表示經組態以壓縮或以其他方式寫碼音場之空間分量(亦即,在此實例中為經減少之前景V[k]向量55中之一或多者)的單元。V-向量寫碼單元52可執行如藉由表示為「NbitsQ」之量化模式語法元素指示之以下13種量化模式中的任一者:
Figure TWI612517BD00017
V-向量寫碼單元52可相對於減少之前景V[k]向量55中之每一者執行多種形式之量化以獲得減少之前景V[k]向量55的多個經寫碼版本。V-向量寫碼單元52可選擇減少之前景V[k]向量55的經寫碼版本中之一者作為經寫碼前景V[k]向量57。
藉由查看與量化模式之類型相關聯之在上文表示為NbitsQ之語法元素,應注意,V-向量寫碼單元52可(換言之)選擇非預測的經向量量化之V-向量(例如,NbitsQ值為4)、預測的經向量量化之V-向量(NbitsQ值未明確展示,但參見下一段落)、未經霍夫曼寫碼之純量量化之V-向量(例如,NbitsQ值為5)及霍夫曼寫碼之純量量化之V-向量(例如,NbitsQ值為所示之6、7、8及16)中之一者以基於本發明中所論述之準則之任何組合而用作切換式經量化V-向量的輸出。
可將以上具有13種量化模式之量化模式表之經修改版本與可針對一般向量量化模式(例如,NbitsQ等於4)識別向量量化為預測向量量化模式抑或非預測向量量化模式之額外語法元素(例如,pvq/vq選擇語法元素)成對。舉例而言,pvq/vq選擇語法元素等於1,意謂結合等於4之NbitsQ,可存在預測向量量化模式,否則,若pvq/vq選擇位元語法元素等於1且NbitsQ等於4,則向量量化模式將為非預測的。
在一些實例中,V-向量寫碼單元52可自包括一向量量化模式及一或多個純量量化模式之量化模式集合中選擇一量化模式,且基於(或根據)該所選擇之模式將輸入V-向量量化。V-向量寫碼單元52可接著將以下各者中之所選擇者提供至位元串流產生單元42以用作經寫碼前景V[k]向量57:未經預測之經向量量化之V-向量(例如,就權重值或指示權重值之位元而言)、經預測之經向量量化之V-向量(例如,就殘餘權重誤差值或指示其之位元而言)、未經霍夫曼寫碼之經純量量化之V-向量,及經霍夫曼寫碼之經純量量化之V-向量。
在替代實例中,V-向量寫碼單元52可執行以下14種類型之量化模 式中之任一者,如藉由表示為「NbitsQ」之量化模式語法元素指示:
Figure TWI612517BD00018
在正上方之實例量化模式表中,V-向量寫碼單元52可包括用於預測向量量化(例如,NbitsQ等於3)及非預測向量量化(例如,NbitsQ等於4)之單獨量化模式。
圖4為說明經組態以執行本發明中所描述之技術的各種態樣之V-向量寫碼單元52A的圖。V-向量寫碼單元52A可表示包括於圖3之實例中所示之音訊寫碼器件20內的V-向量寫碼單元52的一項實例。在圖4之實例中,V-向量寫碼單元52A包括純量量化單元550、切換式預測向量量化單元560及向量量化/純量量化(VQ/SQ)選擇單元564。純量量化單元550可表示經組態以執行上文所列之各種純量量化模式中之一或多者(亦即,如在上表中藉由此實例中介於5與16之間的NbitsQ值所識別)的單元。
純量量化單元550可根據相對於單輸入V-向量55(i)之模式中之每一者執行純量量化。單輸入V-向量55(i)可指減少之前景V[k]向量55中之一者(或換言之,第i者)。基於目標位元率41,純量量化單元550可選擇輸入V-向量55(i)之經純量量化版本中之一者,將輸入V-向量55(i) 之經純量量化版本輸出至亦包括於V-向量寫碼單元52中的向量量化/純量量化(VQ/SQ)選擇單元564。輸入V-向量55(i)之經純量量化版本表示為SQ向量551(i)。
純量量化單元550亦可判定識別由於輸入V-向量55(i)之純量量化所導致之誤差之誤差(表示為ERRORSQ)。純量量化單元550可根據以下等式(1)判定ERRORSQ
Figure TWI612517BD00019
其中V FG 表示輸入V-向量55(i)且
Figure TWI612517BD00020
表示SQ向量551(i)。純量量化單元550可將ERRORSQ輸出至VQ/SQ選擇單元564作為ERRORSQ 533。
如下文更詳細地描述,切換式預測向量量化單元560可表示經組態以在一或多個權重之第一集合與一或多個權重之第二集合之非預測向量量化之間交換的單元。如圖4之實例中進一步所示,切換式預測向量量化單元560可包括近似單元502、排序及選擇單元504、非預測向量量化(NPVQ)單元520、緩衝器單元530、預測向量量化單元540及向量量化/預測向量量化單元(VQ/PVQ)選擇單元562。近似單元502可表示經組態以基於自一或多個方位角-仰角碼簿(AECB)63變換之一或多個音量碼向量571而產生輸入V-向量55(i)之近似。應注意,緩衝器單元530為實體記憶體之部分。
亦即,近似單元502可將輸入V-向量55(i)近似為一或多個權重與一或多個音量碼向量571之組合。權重集合在數學上可由變數ω表示。碼向量在數學上可由變數Ω表示。因此,音量碼向量571在圖4之實例中展示為「Ω571」。輸入V-向量55(i)在數學上可由變數V FG 表示。在一項實例中,音量碼向量571可使用各種輸入V-向量(類似於輸入V-向量55(i))之統計分析導出,該各種輸入V-向量係經由將上文所描述之處理程序應用於大量樣本音訊音場(如藉由HOA係數描述)以在近似任何給定輸入V-向量時通常產生最少量之誤差而產生。
在不同實例中,音量碼向量571可藉由將空間域中之表格中的方位角與仰角之集合(或,方位角及仰角位置之集合)變換至較高階立體混響聲域而產生,如圖5中進一步描述。表中之方位角及仰角位置亦可藉由圖2中說明之麥克風陣列5中之麥克風位置的幾何結構判定。因此,圖3之編碼器件可進一步整合至包含麥克風陣列5之器件中,該麥克風陣列經組態以用按不同方位角及仰角定位之麥克風捕獲音訊信號。
在輸入V-向量55(i)及碼向量之集合可為固定的條件下,近似單元502可嘗試使用以下等式(2A)及2(B)解答權重503(ω):
Figure TWI612517BD00021
Figure TWI612517BD00022
在以上實例等式(2A)、(2B)中,Ω j 表示碼向量{Ω j }之集合中之第j個碼向量,ω j 表示權重{ω j }之集合中之第j個權重。根據等式(1),近似單元502可將第j個權重乘以J音量碼向量571之集合的第j個碼向量且合計J相乘之結果以近似輸入V-向量55(i),從而產生碼向量之加權總和。
在一個組態(封閉形式之組態)中,近似單元502可基於以下等式(3)解答權重ω
Figure TWI612517BD00023
其中
Figure TWI612517BD00024
表示碼向量({Ω k })之集合中之第k個向量之轉置,且ω k 表示權重{ω k }之集合中之第j個權重。
在一些實例中,在封閉形式之組態中,碼向量可為正規正交向量之集合。舉例而言,若存在(N+1)2個碼向量,其中N=4th階數,則25個碼向量可為正交的且進一步經正規化以使得該等碼向量為正規正交的。在碼向量({Ω j })之集合正規正交之此等實例中,以下表達式可適 用:
Figure TWI612517BD00025
在等式(4)適用之此等實例中,等式(3)之右側可如下簡化:
Figure TWI612517BD00026
其中ω k 對應於碼向量之加權總和中之第k權重。作為一實例,碼向量之加權總和可指複數個音量碼向量中之每一者乘以來自當前時間區段之複數個權重中之每一者的求和。
在碼向量集合並未嚴格地正規正交或嚴格地正交之實例中,J權重之集合可基於以下等式(5B):
Figure TWI612517BD00027
其中ω k 對應於碼向量之加權總和中之第k權重。
在額外實例中,碼向量可為以下各者中之一或多者:方向向量之集合、正交方向向量之集合、正規正交方向向量之集合、偽正規正交方向向量之集合、偽正交方向向量之集合、方向基底向量之集合、正交向量之集合、偽正交向量之集合、球諧基底向量之集合、經正規化之向量之集合,及基底向量之集合。在碼向量包括方向向量之實例中,方向向量中之每一者可具有對應於2D或3D空間中之方向或方向輻射圖案之方向性。
在不同組態(最佳匹配擬合組態)中,近似單元502可經組態以實施匹配演算法以識別權重ω k 。近似單元502可使用最小化碼向量之加權總和(例如,使用等式(5A或5B))與輸入V-向量55(i)之間的誤差的迭代方法選擇音量碼向量571之每一者的權重的不同集合。可使用不同誤差準則,諸如,L1標準變體(例如,絕對差異值)或L2標準(平方差之平方根)。
在以上實例中,權重503包括對應於32個不同音量碼向量之32個 不同權重503。然而,近似單元502可利用具有不同數目之AE向量501(參見圖5)之AECB 63中之不同一者,從而產生不同數目之音量碼向量571。以上參考之MPEG-H 3D音訊標準在附件F中提供大量不同向量碼簿。AECB 63可例如對應於表F.2至F.11中所表示之向量碼簿。對於以上實例,其中J=32,32個音量碼向量571可表示表F.6中所定義之方位角-仰角(AE)向量501之經變換版本。如下文更詳細地描述,近似單元502可根據以上參考之MPEG-H 3D音訊標準之部分F.1.5變換AE向量501(參見圖5)。
在一些實例中,近似單元502可在AECB 63之不同者之間進行選擇以寫碼不同的輸入V-向量55(i)。另外,當相同輸入V-向量55(i)隨時間變化時,近似單元502可在當寫碼相同輸入V-向量55(i)時在AECB 63之不同者之間進行切換。
在一些實例中,當輸入V-向量55(i)指定具有單一方向之聲源之單一方向(例如,描述蜂鳴聲之音場中之方向)時,近似單元502可利用對應於表F.11(具有900個碼向量)之AECB 63中之一者。當輸入V-向量55(i)對應於多方向聲源(亦即,跨越多個方向之聲源)或含有自不同複數個角方向到達之多個聲源時,近似單元502可利用32個AE向量501。就此而言,輸入V-向量55(i)可包括單方向V-向量55(i)或多方向V-向量55(i)。
當近似單方向輸入V-向量55(i)時,近似單元502可選擇自900個AE向量(使用方位角及仰角定義)變換之900個音量碼向量571中之單一者,其最佳地表示單方向輸入V-向量55(i)(例如,依據AE向量501中之每一者與輸入V-向量55(i)之間的誤差)。近似單元502可在使用AE向量501中之單一所選擇向量時判定權重值為-1或1。替代地,近似單元502可存取權重碼簿(WCB)65A中之一者。近似單元502可存取之WCB 65A中之一者可包括類似於F.12之權重。
近似單元502可利用權重值與音量碼向量之各種其他組合。然而,為易於論述之目的,遍及本發明使用J=32之實例以就32個AE向量501(參見圖5)來論述技術。近似單元502可將32個權重503(其為一或多個權重之一項實例)輸出至排序及選擇單元504。
圖5為更詳細地說明包括於圖4之V-向量寫碼單元52A內用於判定權重的近似單元502之實例的圖。圖5之近似單元502A可表示圖4之實例中所示之近似單元502之一項實例。近似單元502A可包括碼向量轉換單元570及權重判定單元572。
碼向量轉換單元570可表示經組態以自AECB 63中之一者(表示為AECB 63A)接收AE向量501且將來自表格中之空間域中之方位角及仰角(諸如,表F.6中之方位角及仰角)之32個AE向量501轉換(或換言之,變換)至具有HOA域中之音量之向量的單元,如圖5之下半部中所示。 32個AE向量之方位角及仰角可基於用以捕獲實況記錄7之三維曲面麥克風陣列5中之麥克風之幾何位置。如上文關於圖2所述,三維曲面麥克風陣列5可為球體,具有置放於該球體上之麥克風之均勻分佈。三維曲面麥克風陣列中之每一麥克風位置可藉由方位角仰角描述。碼向量轉換單元570可將32個音量碼向量571輸出至權重判定單元572。
碼向量轉換單元570可相對於方向
Figure TWI612517BD00028
N 1 階之模式矩陣
Figure TWI612517BD00029
應用於32個AE向量501。以上參考之MPEG-H 3D音訊標準可表示使用「Ω」符號之方向。換言之,模式矩陣
Figure TWI612517BD00030
可包括每一點在方向
Figure TWI612517BD00031
中之一者中的球面基底函數,其中q=1,...,O2=(N 2+1)2。 模式矩陣
Figure TWI612517BD00032
可經定義為
Figure TWI612517BD00033
, 其中
Figure TWI612517BD00034
Figure TWI612517BD00035
且O1=(N1+1)2
Figure TWI612517BD00036
可表示N階及M子階之球面基底函數。換言之,音量碼向量571之音量碼向量中之每一者可定義於HOA域中且係 基於在藉由方位角及仰角之集合定義之複數個角方向中之一者上定向之球諧基底函數的線性組合。方位角及仰角可藉由麥克風陣列5中之麥克風的幾何位置預定義或獲得,諸如圖2中所說明。
儘管描述為針對32個AE向量501之每一應用執行此轉換,但碼向量轉換單元570可在任何給定編碼處理程序期間而非在逐個應用之基礎上僅執行此轉換一次且將該32個AE音量碼向量571儲存至碼簿。此外,近似單元502在一些實施中可並未包括碼向量轉換單元570且可儲存32個音量碼向量571,其中該32個音量碼向量571已預定。在一些實例中,近似單元502可將32個音量碼向量571儲存為音量向量(VV)CB(VVCB)612。又,32個音量碼向量571展示於圖5之下半部中。32個音量碼向量571可表示為Ω0,...,31
權重判定單元572可表示經組態以判定當前時間區段(例如,第i音訊訊框)之32個權重503(或另一數目之複數個權重503)的單元,該等權重對應於較高階立體混響聲域中定義之32個音量AE向量501且指示輸入V-向量55(i)。權重判定單元572可使用上文先前所描述之封閉形式之組態或最佳擬合匹配組態來判定32個權重503。因此,J(例如,J=32)權重503(表示為ω 0,...,31)可藉由將輸入V-向量55(i)乘以J音量碼向量571之轉置來判定。
返回至圖4,排序及選擇單元504表示經組態以排序32個權重503及選擇權重503之非零子集的單元。作為一項實例,排序及選擇單元504可以升序對32個權重503進行排序。替代地,作為另一實例,排序及選擇單元504可以降序對32個權重503進行排序。排序及選擇單元504可基於最高值至最低值或最低值至最高值對32個權重503進行排序,其中在排序時可或可不考慮該等值之量值。一旦權重503經排序,則排序及選擇單元504可選擇有序之32個權重503的非零子集,該32個權重產生將碼向量之加權總和與權重之全集合緊密匹配的碼向量 之加權總和。因此,可不選擇相對小(亦即,較接近零值)之權重之非零集合。
圖6為更詳細地說明包括於圖4的V-向量寫碼單元52A內用於排序及選擇權重的排序及選擇單元504A之實例的圖。圖6之排序及選擇單元504A表示圖4之排序及選擇單元504之一項實例。
如圖6中所示,排序及選擇單元504A可包括可(例如)以降序對32個權重503進行排序之排序單元506。可自最大至最小量值(忽略正負號)記錄個別權重ω 0,...,ω 31。因此,用記錄之索引509說明所得之記錄之32個有序權重507ω 12,ω 14,...,ω 5
由於32個權重503之原始權重值處於對應於32個音量碼向量571之各別階數,故可不指定索引資訊。然而,由於排序單元506已重配置32個有序權重507中之權重,故排序單元506可判定(例如,產生)32個索引509,其指示32個有序權重507中之每一者相對應之音量碼向量571中之一者。排序單元506將32個有序權重507及32個索引509輸出至選擇單元508。
選擇單元508可表示經組態以選擇有序權重507之非零集合及32個索引509的單元。有序權重507可表示為ω'。選擇單元508可經組態以選擇32個有序權重507及32索引509之預定數目(Y)或替代地動態判定數目(Y)。作為一項實例,權重之數目之動態判定可基於目標位元率41。
Y可表示J個有序權重507之任何數目,包括有序權重507之任何非零子集。為易於說明之目的,選擇單元508可經組態以選擇8個(例如,Y=8)權重。儘管在下文描述為選擇8個權重,但選擇單元508可選擇任何Y個J權重。
在一些實例中,選擇單元508可選擇32個有序權重507之頂部(當以降序排序時)8個權重及32個索引509之對應8個索引。8個索引511可 表示指示32個碼向量中之哪些碼向量對應於8個權重值中之每一者的資料。權重之選擇可藉由以下等式(6)表達:
Figure TWI612517BD00037
可使用權重值之子集以及其對應音量碼向量以形成碼向量之加權總和(作為一項實例,其又可指複數個音量碼向量中之每一者乘以來自當前時間區段之複數個權重中之每一者的總和),其估計或仍近似V-向量,如以下表達式中所示:
Figure TWI612517BD00038
其中
Figure TWI612517BD00039
表示權重(
Figure TWI612517BD00040
)之集合中之第j權重,且
Figure TWI612517BD00041
表示估計的V-向量。估計的V-向量可藉由非預測向量量化單元520寫碼,其中權重
Figure TWI612517BD00042
之集合可經向量量化,且碼向量{Ω j }之集合可用以計算碼向量之加權總和。當並非選自J個(例如32個)權重之全集合中之有序權重相對小(亦即,較接近零值)時,碼向量之加權總和仍將碼向量之加權總與權重之全集合緊密匹配。因此,估計的V-向量可近似V-向量。
儘管為了易於可讀性而未明確繪製,但權重判定單元572及選擇單元504之組合可為近似器單元之部分且最佳擬合匹配組態可用以選擇可並不一定排序之8個權重且計算碼向量之加權總和,該等碼向量仍將碼向量之加權總和與權重之全集合(例如J=32)緊密匹配。雖然在近似器單元中不一定存在有序單元,但近似器單元之輸出將輸出上文所描述之估計的V-向量。類似地,排序及選擇單元504亦可為近似器單元之部分,且在此情況中亦使用8個權重輸出估計的V-向量,其可使用32個權重之全集合近似V-向量。
選擇單元508可將8個索引511作為8個VvecIdx語法元素511輸出至V-向量寫碼單元52A之VQ/SQ選擇單元564,如圖4中所描繪。選擇單元508亦可將8個有序權重505輸出至切換式預測向量量化單元560之NPVQ單元520及PVQ單元540兩者。就此而言,有序權重505可表示輸 出至NPVQ單元520之第一權重集合及輸出至PVQ單元540之第二權重集合。
再次返回至圖4之實例,NPVQ單元520可接收8個有序權重505(其亦可被稱作「選擇之有序權重505」)。NPVQ單元520可表示經組態以相對於8個有序權重505執行非預測向量量化之單元。向量量化可指一組值藉由其聯合地而非獨立地經量化之處理程序。向量量化可利用待量化之該群值中之統計相依性。
換言之,向量量化(其亦被稱作區塊量化或圖案匹配量化)可將來自多維向量空間中之值編碼為來自低維之離散子空間之值的有限集合。NPVQ單元520可將值之有限集合儲存至對音訊編碼器件20及音訊解碼器件24兩者共同之表格且索引值集合中之每一者。該指標可有效地量化值之每一集合。在圖4之實例中,該指標可表示識別8個有序權重505之近似的8-位元碼(或視表格之條目之數目而定之任何其他數目的位元碼)。向量量化可因此將8個有序權重505作為索引量化至表格或其他資料結構中,從而潛在地減少大量位元以將8個有序權重505表示為8位元索引。
向量量化可經訓練以減少誤差且更好地表示資料集合(例如,此實例中之8個有序權重505)。可存在複雜度變化之不同類型之訓練。訓練大體上嘗試將量化值指派至資料集合之較密集區域以嘗試更好地表示資料集合。可將意謂近似8個有序權重505之權重值的訓練之結果儲存至權重碼簿(WCB)65。可導出WCB 65A中之不同者以用於量化不同數目之權重。出於說明之目的,論述具有8個權重值之WCB 65A之向量量化碼簿。然而,具有不同數目之權重值之WCB 65A中之不同者可適用。
為進一步減少8個權重值之動態範圍且藉此促進待用於取代8個權重值之權重值的更較選擇,可在訓練期間僅考慮量值。可忽略值之 正負號之一項實例為存在高相對對稱性(意謂正值及負值之分佈在分佈及數目上之類似在某種程度上高於臨限值)。因此,NPVQ單元520可相對於8個有序權重505之量值執行非預測向量量化且單獨地指示正負號資訊(例如,藉助於用於權重505之每一者的SgnVal語法元素)。
圖7A及圖7B為更詳細地說明包括於圖4之V-向量寫碼單元內用於向量量化所選擇的有序權重之NPVQ單元的不同實例的圖。圖7A之NPVQ單元520A可表示圖4中所示之NPVQ單元520之一項實例。NPVQ單元520A可包括權重向量比較單元510、權重向量選擇單元512及正負號判定單元514。
權重向量比較單元510A可表示經組態以接收8個有序權重505且執行與權重碼簿(WCB)65A之條目之比較的單元。如上所述,可存在大量不同WCB 65A。權重向量比較單元510A可基於任何數目的不同準則(包括目標位元率41)在不同WCB 65A之間進行選擇。
在圖7A之實例中,WCB 65A可表示定義於上文參考之MPEG-H 3D音訊標準之表格F.13中之權重碼簿。WCB 65A可包括256個條目(展示為0至255)。256個條目中之每一者可包括具有待用作8個有序權重505之可能近似之8個量化值的權重向量。
權重{
Figure TWI612517BD00043
}k=1,…,8之絕對值可相對於上文參考之MPEG-H 3D音訊標準之表格F.13之預定義權重值
Figure TWI612517BD00044
而經向量量化且用相關聯之列數目索引傳信。在圖7A之實例中,WCB 65A之每一列包括以降序儲存之
Figure TWI612517BD00045
,其中該列以第一下標數字表示(例如,列1之
Figure TWI612517BD00046
表示為
Figure TWI612517BD00047
)。在WCB 65A中之權重向量無正負號(意謂未給定正負號資訊)的條件下,權重向量經表示為權重向量之絕對值(例如,列1之
Figure TWI612517BD00048
表示為
Figure TWI612517BD00049
)。
權重向量比較單元510A可迭代WCB 65A之每一條目以判定由量化權重{
Figure TWI612517BD00050
}k=1,…,8所產生之誤差。權重向量比較單元510A可包括量值單 元650(「mag單元650」),其判定有序權重505中之每一者的該絕對值或換言之量值。有序權重505之量值可表示為|{
Figure TWI612517BD00051
}|。權重向量比較單元510A可根據以下等式(8)計算WCB 65A之第x列之誤差:
Figure TWI612517BD00052
其中NPE x 表示WCB 65A之第x列之非預測誤差(NPE)。權重向量比較單元510A可將256個誤差513輸出至權重向量選擇單元512。
根據以下等式(9)單獨地寫碼8個有序權重505{
Figure TWI612517BD00053
}k=1,…,8之數字正負號:
Figure TWI612517BD00054
其中s k 表示8個有序權重505之第k個權重之正負號位元。基於該正負號位元,正負號判定單元514A可輸出8個SgnVal語法元素515A,其可表示指示對應8個有序權重505中之每一者的正負號的一或多個位元。
權重向量選擇單元512可表示經組態以選擇WCB 65A之條目中之一者以取代8個有序權重505使用的單元。權重向量選擇單元512可基於256個誤差513選擇條目。在一些實例中,權重向量選擇單元512可選擇具有256個誤差513中之最低(或換言之,最小)者之WCB 65A之條目。權重向量選擇單元512可輸出具有最低誤差之索引,其亦識別該條目。權重向量選擇單元512可輸出該索引作為「WeightIdx」語法元素519A。
可使用權重值之子集以及其對應音量碼向量以形成產生經量化V-向量的碼向量之加權總和,如以下等式中所示:
Figure TWI612517BD00055
其中s j 表示正負號位元之子集({s j })中之第j個正負號位元,|
Figure TWI612517BD00056
|表示無正負號權重之子集({
Figure TWI612517BD00057
})中之第j個權重,且
Figure TWI612517BD00058
可表示輸入V- 向量55(i)之非預測的經向量量化版本。表達式(10)之右側可表示碼向量的加權總和,其包括設定之正負號位元({s j })、權重({
Figure TWI612517BD00059
})之集合及碼向量({Ω j })之集合。
NPVQ單元520A可將SgnVal 515A及WeightIdx 519A輸出至NPVQ/PVQ選擇單元562。NPVQ單元520A亦可基於WeightIdx 519A存取WCB 65A以判定所選擇之權重600。NPVQ單元520A可將所選擇之權重600輸出至NPVQ/PVQ選擇單元562及緩衝器單元530。
緩衝器單元530可表示經組態以緩衝所選擇之權重600之單元。緩衝器單元530可包括經組態以延遲所選擇的權重600達一或多個訊框之延遲單元528(表示為「Z-1 528」)。經緩衝之權重可表示來自過去時間區段之一或多個經重建構之權重。過去時間區段可係指訊框或其他壓縮或時間單元。經重建構之權重亦可表示為先前權重或表示為先前經重建構之權重。經重建構之權重531可包含經重建構之權重531之絕對值。過去時間區段之經重建構之權重表示為先前經重建構之權重525A至525G。如圖7A之實例中所示,緩衝器單元530亦可緩衝來自PVQ單元540之經重建構之權重602。
參考圖7B之實例,NPVQ單元520B可表示圖4中所示之NPVQ單元520之另一實例。NPVQ單元520B可實質上類似於圖7A之NPVQ單元520A,不同之處在於WCB 65A中之有序權重向量係有正負號的值。WCB 65A之正負號版本在圖7B之實例中表示為65A'。另外,緩衝器單元530可緩衝所選擇的具有正負號值之權重600'。藉由緩衝器單元530儲存之先前經重建構之權重600'可表示為先前經重建構之權重525A'至525G'。
在WCB 65A'之權重向量係帶正負號之值的條件下,不需要正負號判定單元514A,此係因為正負號值及權重值藉由WCB 65A'之所選擇的帶正負號之權重向量聯合地量化。換言之,WeightIdx 519A可聯 合地識別正負號值及經量化之權重值兩者。因此,在此實例中,圖7B之權重向量比較單元510並不包括量值單元650且因此表示為權重向量比較單元510B。
再次返回至圖4之實例,PVQ單元540可表示經組態以相對於Y(例如,8個)有序權重505執行預測向量量化的單元。儘管如上所述,在使用包括選擇器單元而非排序單元或權重未經排序之其他可適用描述之替代的近似器單元時,亦可使用Y個非有序權重。因此,PVQ單元540可相對於Y(例如,8個)有序或非有序權重而非相對於8個權重(其亦可為有序或非有序的)自身執行一種形式之向量量化,如同在非預測形式之向量量化中一樣。為了易於閱讀,以下之實例常常描述有序權重,但一般熟習此項技術者可認識到,亦可在不嚴格要求權重必須經重排序之情況下執行所描述之技術。亦應注意,NPVQ單元520A及NPVQ單元520B中之權重向量選擇單元或權重比較單元並不取決於儲存於編碼器或解碼器之記憶體中的來自先前時間區段(例如,訊框)之過去經量化向量,以產生藉由WeightIdx 519A或WeightIdx 519B表示之經向量量化之權重向量。因此,NPVQ單元可描述為無記憶的。
圖8A至圖8H為更詳細地說明包括於圖4之V-向量寫碼單元52A內用於向量定量所選擇的有序權重之PVQ單元的圖。
圖8A至圖8B中所示或包括在其他處之PVQ單元中之任一者可經組態以具有記憶體,在圖8A至圖8H中,其經表示為QW緩衝器單元530,該緩衝器單元經組態以儲存來自過去時間區段之用以近似較高階立體混響聲域中之多方向V-向量的經重建構之複數個權重。延遲緩衝器528延遲經重建構之複數個權重之寫入。此延遲可為整個音訊訊框或子訊框之延遲。亦應注意,經重建構之複數個權重(例如,如藉由標記531指示)可以不同形式儲存(例如,具有複數個權重之絕對值或作為複數個權重之絕對值差異或作為複數個權重之差異等)。另 外,可存在與複數個權重之量化相關聯之權重索引或權重誤差索引(亦可表示為權重索引)。此等權重索引可經向量量化且一或多個權重索引可寫入至位元串流中以使得解碼器器件亦能夠重建構該等權重並亦使用解碼器器件處之經重建構之權重以近似多方向V-向量。
如圖8A之實例中所示,PVQ單元540A可表示圖4中所示之PVQ單元540之一項實例。PVQ單元540A可包括正負號判定單元514、殘餘誤差單元516A、殘餘向量比較單元518、殘餘向量選擇單元522及局部權重解碼器單元524A(其中局部權重解碼器單元524A在圖8之實例中更詳細地展示)。
PVQ單元540之正負號判定單元514A可實質上類似於NPVQ單元520之正負號判定單元514。正負號判定單元514A可輸出指示8個有序權重505之數值正負號之8個SgnVal語法元素515A。
殘餘誤差單元516A可表示經組態以判定殘餘權重誤差527A(其亦可被稱為「殘餘權重誤差527A之集合」之單元。在一些實例中,殘餘誤差單元516A可根據以下等式判定8個殘餘權重誤差527A:
Figure TWI612517BD00060
其中r i,j 表示第i個音訊訊框之殘餘權重誤差527A之第j個殘餘權重誤差,|w i,j |為第i個音訊訊框之對應第j個權重值w i,j 之量值(或絕對值),|
Figure TWI612517BD00061
|為第i個音訊訊框之對應第j個經重建構之權重值
Figure TWI612517BD00062
之量值(或絕對值),且α j 表示8個權重因數523之第j個權重因數。殘餘誤差單元516A可包括量值單元650,其判定8個有序權重505之絕對值或換言之量值。8個有序權重505之絕對值可替代地被稱為權重量值或稱為權重之量值。
8個有序權重505(ω i,j )對應於來自用於第i個音訊訊框之權重值之有序子集的第j個權重值。在一些實例中,權重之有序子集(亦即,圖8A之實例中之8個有序權重505)可對應於輸入V-向量55(i)之基於碼向 量之分解中之權重值之子集,該等權重值基於權重值之量值排序(或,自最大量值至最小量值排序)。因此,在有序權重可藉由量值分類之條件下,有序權重505在本文中亦可被稱作「分類權重505」。
等式(11)中之|
Figure TWI612517BD00063
|項可被替代地稱為經量化之先前權重量值或稱為經量化之先前權重的量值。8個經重建構之先前權重525可被替代地稱為加權的經重建構之權重值量值或經重建之權重值之加權量值。8個經重建構之先前權重525(
Figure TWI612517BD00064
)對應於來自第(i-1)個或任何其他時間上在前的音訊訊框(以寫碼次序)的經重建構之權重值之有序子集的第j個經重建構之權重值。在一些實例中,可基於對應於經重建構之權重值的經量化之預測權重值產生經重建構之權重值之有序子集(或集合)。
在一些實例中,在等式(11)中α j =1。在其他實例中,α j ≠1。當不等於1時,可基於以下等式判定8個權重因數523(α j ):
Figure TWI612517BD00065
其中I對應於用以判定α j 的音訊訊框之數目。如下文更詳細描述,在一些實例中,可基於來自複數個不同音訊訊框之複數個不同權重值判定加權因數。
殘餘誤差單元516A可以此方式基於當前時間區段(例如,第i個音訊訊框)的8個有序權重505及來自過去音訊訊框之先前經重建構之權重525(例如,來自第(i-1)個音訊訊框之經重建構之權重525A)來判定8個殘餘權重誤差527A(其亦可被稱為「殘餘權重誤差527A」)。8個殘餘權重誤差527A可表示8個有序權重與8個經重建構之先前權重525中之一者之間的差異。殘餘誤差單元516A可使用8個經重建構之權重525A而非先前權重(ω i-1,j ),此係由於經重建構之先前權重525在音訊解 碼器件24處可用,而8個有序權重505可能不可用。殘餘誤差單元516可將根據等式(11)判定之8個殘餘權重誤差527A輸出至殘餘向量比較單元518。
殘餘向量比較單元518可表示經組態以將8個殘餘權重誤差527A與殘餘權重誤差碼簿(RWC)65B(其亦可被稱為「殘餘碼簿65B」)之條目中之一或多者進行比較的單元。在一些實例中,可存在大量不同RCB 65B。權重向量比較單元518可基於任何數目的不同準則(包括圖4之目標位元率41)在不同RCB 65B之間進行選擇。換言之,殘餘向量比較單元518可基於複數個分類權重505判定複數個殘餘權重誤差527A。
在一些實例中,向量量化殘餘向量中之每一者的分量之數目可取決於經選擇以表示輸入V-向量55(i)的權重之數目(其可藉由變數Y表示)。大體而言,對於具有Y-分量候選量化向量之碼簿,殘餘向量比較單元518可同時將Y個權重向量量化以產生單一經量化之向量。量化碼簿中之條目之數目可取決於用以將權重值向量量化之目標位元率41。
在一些實例中,殘餘向量比較單元518可迭代所有條目(例如,圖8A之實例中所示之256個條目)且判定每一條目之近似誤差(AE)。256個條目中之每一者可包括具有待用做8個殘餘權重誤差527A之可能近似之8個近似值的殘餘向量。在圖8A之實例中,RCB 65B之每一列包括
Figure TWI612517BD00066
,其中該列以第一下標數字表示(例如,列1之
Figure TWI612517BD00067
表示為
Figure TWI612517BD00068
)。
殘餘向量比較單元518可迭代RCB 65B之每一條目以判定由近似殘餘權重誤差527所產生之誤差。殘餘向量比較單元518可根據以下等式(13)計算RCB 65B之第x列之誤差:
Figure TWI612517BD00069
其中AE x 表示RCB 65B之第x列之近似誤差(AE)。殘餘向量比較單元518可將256個誤差529輸出至殘餘向量選擇單元522。
殘餘向量選擇單元522可表示經組態以選擇RCB 65B之條目中之一者以取代或換言之代替8個殘餘權重誤差527使用的單元。殘餘向量選擇單元522可基於256個誤差529選擇條目。在一些實例中,殘餘向量選擇單元522可選擇具有256個誤差529中之最低(或換言之,最小)一者之RCB 65B的條目。殘餘向量選擇單元522可輸出具有最低誤差之索引,其亦識別該條目。殘餘向量選擇單元522可輸出該索引作為「WeightErrorIdx」語法元素519B。WeightErrorIdx語法元素519B可表示指示將選擇來自RCB 65B之Y-分量向量中之哪一者來產生Y殘餘權重誤差之經解量化版本的索引值。
就此而言,殘餘向量比較單元及殘餘向量選擇單元522可表示向量量化(VQ)單元590A。VQ單元590A可有效地向量量化殘餘權重誤差527A以判定殘餘權重誤差527A之表示。殘餘權重誤差527A之表示可包括WeightErrorIdx 519B。
可使用權重值之子集以及其對應音量碼向量571以形成產生經量化之V-向量的音量碼向量之加權總和,如以下等式中所示:
Figure TWI612517BD00070
表達式(14)之右側可表示碼向量之加權總和,其包括設定之正負號位元({s j })、第i個音訊訊框之殘差({
Figure TWI612517BD00071
})之集合、權重因數({α j })之集合、表示過去時間區段之第(i-1)個音訊訊框之權重({
Figure TWI612517BD00072
})之集合,及碼向量({Ω j })之集合。PVQ單元540A可將SgnVal 515A及WeightErrorIdx 519B輸出至NPVQ/PVQ選擇單元562(展示於圖4中)。PVQ單元540A亦可將WeightErrorIdx 519B提供至局部權重解碼器單元524A,其更詳細地關於圖8之實例展示。
如圖8B之實例中所示,局部權重解碼器單元524A包括權重重建構單元526A及延遲單元528。權重重建構單元526A表示經組態以基於8個權重因數523({α j })、表示{
Figure TWI612517BD00073
}之所選擇的殘餘向量620A及表示|{
Figure TWI612517BD00074
}|之8個先前經重建構之權重525來重建構8個有序權重505的單元。權重重建構單元526A可根據以下等式重建構8個權重值505中之第j個權重值以產生8個經重建構之權重值531中之第j個權重值:
Figure TWI612517BD00075
經重建構之權重在以上等式(15)中可經表示為
Figure TWI612517BD00076
用與經量化權重之標號相同之記號
Figure TWI612517BD00077
表示經重建構之權重可暗示經重建構之權重與上文所論述之經量化權重相同。然而,該記號可區分自其理解每一值之透視圖。經量化權重可係指藉由編碼器經由量化獲得之權重。經重建構之權重可係指藉由解碼器經由解量化獲得之權重。
儘管此類記號可暗示透視圖之區別,但應理解,在一些實例中,經重建構之權重可不同於經量化權重,但在其他實例中,經重建之權重可與經量化權重相同。舉例而言,當經重建構之權重係帶正負號之值但經量化權重係無正負號之值時,經重建構之權重可不同。在經重建構之權重及經量化權重係帶正負號之值的實例中,經重建構之權重可與經量化權重相同。
在圖8B之實例中,權重重建構單元526A可藉由與RCB 65B介接獲得所選擇的殘餘權重向量620A。儘管展示為包括於PVQ單元640A內,但局部權重解碼器單元524A可包括RCB 65B。當局部權重解碼器單元524A用於音訊解碼器件內時,RCB 65B可包括於局部權重解碼器單元524A內。儘管展示為局部地儲存於PVQ單元640A內,但RCB 65B可駐留於在PVQ單元640A之外的記憶體或局部權重解碼器單元524A中且可經由共同記憶體存取處理程序存取。
權重重建構單元526A可向量解量化WeightErrorIdx 519B(其可表示權重索引)以判定所選擇的殘餘向量620A(其可表示複數個殘餘權重誤差)。權重重建構單元526可向基於RCB 65B向量解量化WeightErrorIdx 519B以判定所選擇的殘餘向量620A。RCB 65B可表示殘餘權重誤差碼簿之一項實例。
權重重建構單元526A可基於所選擇的殘餘向量620A重建構複數個權重602。權重重建構單元526自緩衝器單元530(其在一些實例中可表示記憶體之至少一部分)擷取來自過去時間區段(其中過去區段在時間上先於當前時間區段出現)之經重建構之複數個權重525之集合中之一者。當前時間區段可表示當前音訊訊框。在一些實例中,過去時間區段可表示前一訊框。在其他實例中,過去時間區段可表示在時間上早於前一訊框之一訊框。如上文關於等式(15)所描述,權重重建構單元526A可基於藉由所選擇的殘餘權重向量620A表示之複數個殘餘權重誤差與來自過去時間區段之經重建構之複數個權重525中之一者來重建構當前時間區段之複數個權重531。
權重重建構單元526A可將可在數學上表示為
Figure TWI612517BD00078
之8個經重建構之權重602(其又可表示經重建構之複數個權重)輸出至量值單元650。量值單元650可判定經重建構之權重602之量值或換言之絕對值。量值單元650可將經重建構之權重602之量值輸出至可以上文關於圖7A及圖7B所描述之方式操作的緩衝器單元530,以緩衝先前經重建構之權重525。局部權重解碼器單元524A可將經重建構之權重602輸出至NPVQ/PVQ選擇單元562。
圖8C為說明圖4中所示之PVQ單元540之另一實例的方塊圖。圖8C之PVQ單元540B類似於PVQ單元540A,不同之處在於PVQ單元540B相對於有序權重505及殘餘權重誤差527A兩者之絕對值操作。殘餘權重誤差527A之絕對值可經表示為殘餘權重誤差527B。
在殘餘權重誤差527B係無正負號之值的條件下,PVQ單元540B包括向量量化單元590B,其相對於RBC 65B'以與上文關於VQ單元590A類似之方式執行向量量化。RBC 65B'包括RBC 65B之殘餘權重向量的絕對值。此外,PVQ單元540B包括判定殘餘權重誤差527A之正負號資訊515B之正負號判定單元514B。
PVQ單元540B包括局部權重解碼器單元524B,其基於RCB 65B'之所選擇的殘餘向量620B重建構權重602,如圖8C中更詳細地展示。參考圖8D,局部權重解碼器單元524B基於正負號資訊515A及515B、權重因數523、先前經重建構之權重525A中之一者及所選擇的殘餘權重誤差620B來重建構權重602。
圖8E為說明圖4中所示之PVQ單元540之另一實例的方塊圖。圖8E之PVQ單元540C類似於PVQ單元540B,不同之處在於PVQ單元540C相對於有序權重505之帶正負號之值及殘餘權重誤差527A之絕對值操作。此外,殘餘權重誤差527A之絕對值可經表示為殘餘權重誤差527B。
在殘餘權重誤差527B為無正負號之值而有序權重505為帶正負號之值的條件下,PVQ單元540C包括向量量化單元590C,其相對於RBC 65B'以類似於上文關於VQ單元590A所描述之方式類似之方式執行向量量化。RBC 65B'包括RBC 65B之殘餘權重向量的絕對值。此外,PVQ 540B包括判定殘餘權重誤差527A之正負號資訊515B之正負號判定單元514C。
PVQ單元540B包括局部權重解碼器單元524C,其基於RCB 65B'之所選擇的殘餘向量620B重建構權重602,如圖8F中更詳細地展示。參考圖8F,局部權重解碼器單元524C基於正負號資訊515B、權重因數523、經重建構之權重525A'中之一者(其中撇號(')可表示無正負號之值)及所選擇的殘餘權重誤差620B來重建構權重602。
圖8G為說明圖4中所示之PVQ單元540之另一實例的方塊圖。圖8G之PVQ單元540D類似於PVQ單元540C,不同之處在於PVQ單元540D相對於有序權重505之帶正負號之值及殘餘權重誤差527A之絕對值操作。
在殘餘權重誤差527B為帶正負號之值且有序權重505為帶正負號之值的條件下,PVQ單元540D包括向量量化單元590A,其以類似於上文關於PVQ單元540A之VQ單元590A所描述之方式類似之方式執行向量量化。此外,PVQ單元540D並不包括正負號判定單元514A,係因為正負號資訊並不單獨地自殘餘權重誤差527A及有序權重505之值量化。
PVQ單元540D包括局部權重解碼器單元524D,其基於RCB 65B之所選擇的殘餘向量620A重建構權重602,如圖8F中更詳細地展示。參考圖8H,局部權重解碼器單元524D基於權重因數523、先前經重建構之權重525A'中之一者(其中撇號(')可表示無正負號之值)及所選擇的殘餘權重誤差620B來重建構權重602。
返回至圖4之實例,切換式預測向量量化單元560可就此而言基於如上文所描述之不同量化碼簿向量量化權重值。NPVQ單元520可根據非預測向量量化模式基於第一向量量化碼簿(例如WCB 65A)執行向量量化。PVQ單元540可根據預測向量量化模式基於第二向量量化碼簿(例如,RCB 65B)執行向量量化。
WCB 65A及RCB 65B中之每一者可實施為條目之陣列,其中該等條目中之每一者包括量化碼簿索引及對應的量化向量。每一碼簿含有256個條目(亦即,識別256個8分量量化向量之256個索引)。量化碼簿中之索引之每一者可對應於8分量量化向量中之各別者。用於每一碼簿中之8分量量化向量可不同。
向量量化殘餘向量中之每一者中的分量之數目可取決於經選擇 以表示單一輸入V-向量55(i)之權重之數目(其中權重之數目在本發明中可藉由變數Y表示)。量化碼簿中之條目之數目可取決於用以向量量化權重值之各別向量量化模式的位元率。
VQ/PVQ選擇單元562可表示經組態以在輸入V-向量55(i)之NPVQ版本(其可被稱為NPVQ向量)與輸入V-向量55(i)之PVQ版本(其可被稱為PVQ向量)之間進行選擇的單元。NPVQ向量可藉由語法元素SgnVal 515、WeightIdx 519A及VvecIdx 511表示。NPVQ單元520亦可將經重建構之權重600提供至NPVQ/PVQ選擇單元562。PVQ向量可藉由語法元素SgnVal 515、WeightIdx 519A及VvecIdx 511表示。PVQ單元540亦可將經重建構之權重602提供至NPVQ/PVQ選擇單元562。
應注意,已用緩衝器單元530將圖4、圖8B、圖8D、圖8F及圖8H中之PVQ單元繪製為具有來自NPVQ單元之經重建構之權重525及來自局部權重解碼器單元(524A、524B、524C或524D)之輸入。此類組態表示當來自先前時間區段(例如,訊框)之儲存於音訊編碼器件(圖3)或音訊解碼器件(圖4)之記憶體中之過去經量化向量、當前時間區段(例如,訊框)中之當前經向量量化之向量(藉由經重建構之權重602表示)可在預測碼簿(例如,該預測碼簿儲存經向量量化之預測權重值或殘餘權重誤差)之使用下基於先前經量化向量預測時的基於記憶體之系統。先前經量化向量係來自NPVQ單元之經重建構之權重525或來自局部權重解碼器單元(524A、524B、524C或524D)之經重建構之權重525。然而,當基於僅使用來自PVQ單元540的過去區段(訊框或子訊框)預測的經向量量化之權重向量執行預測向量量化而不能夠自NPVQ單元520存取過去經向量量化之權重向量中之任一者時,可存在被稱作僅PVQ模式之PVQ組態。因此,在無來自NPVQ單元之任何經重建構之權重525之情況下,僅PVQ模式可藉由先前繪製之圖式(圖4、圖8B、圖8D、圖8F及圖8H)說明。僅PVQ模式中進入緩衝器單元530中 之唯一輸入來自局部權重解碼器單元(524A、524B、524C或524D)。
圖9為更詳細地說明包括於切換式預測向量量化單元560內之VQ/PVQ單元的方塊圖。VQ/PVQ選擇單元562包括NPVQ重建構單元532、NPVQ誤差判定單元534、PVQ重建構單元536、PVQ誤差判定單元538及選擇單元542。
NPVQ重建構單元532表示經組態以基於指示{s j }之集合的SgnVal語法元素515A、可連同SgnVal語法元素515A指示{
Figure TWI612517BD00079
}之經重建之權重600、可一起指示{Ω j }之VvecIdx語法元素511及音量碼向量571來重建構輸入V-向量55(i)的單元。NPVQ重建構單元532可根據以上等式(10)產生輸入V-向量之經量化版本(其被稱為NPVQ向量533),該等式出於便利性之目的協調地再生(但其呈調整形式以將經量化向量表示 為
Figure TWI612517BD00080
。NPVQ重建構單元532可將NPVQ向量533輸出至NPVQ誤差判定單元534。
NPVQ誤差判定單元534可表示經組態以判定由量化輸入V-向量55(i)而產生之量化誤差的單元。NPVQ誤差判定單元534可根據以下等式(16)判定NPVQ量化誤差:
Figure TWI612517BD00081
其中ERROR NPVQ 表示NPVQ誤差作為輸入V-向量55(i)(表示為V FG )與NPVQ向量533(表示為
Figure TWI612517BD00082
)之間的差的絕對值。應注意,在關於圖8A至圖8H說明之不同組態中,例如,等式(16)中不需要絕對值。NPVQ誤差判定單元534可將誤差535輸出至選擇單元542。
PVQ重建構單元536表示經組態以基於指示{s j }之集合的SgnVal語法元素515、可連同SgnVal語法元素515A/515B指示組態根據其而使用(如圖8A至圖8H中所說明)之(
Figure TWI612517BD00083
,
Figure TWI612517BD00084
,
Figure TWI612517BD00085
Figure TWI612517BD00086
)之經重建之權重602來重建構輸入V-向量55(i)的單元。 VvecIdx語法元素511及音量碼向量571可一起指示{Ω j }。PVQ重建構單元536可根據以上等式(14)產生輸入V-向量之經量化版本(其被稱為PVQ向量537),該等式出於便利性之目的(而非必須明確地重說明或重申貫穿圖8A至圖8H之各種組態)協調地再生(但其呈調整形式以將經量化向量表示為
Figure TWI612517BD00087
),說明了具有8個權重及殘餘權重誤差之絕對值 及過去經重建構之權重之絕對值的實例,
Figure TWI612517BD00088
。PVQ重建構單元536可將NPVQ向量533輸出至PVQ誤差判定單元538。
PVQ誤差判定單元538可表示經組態以判定由量化輸入V-向量55(i)而產生之量化誤差的單元。PVQ誤差判定單元538可根據以下等式(16)判定PVQ量化誤差:
Figure TWI612517BD00089
其中ERROR PVQ 表示PVQ誤差539作為輸入V-向量55(i)(表示為V FG )與PVQ向量537(表示為
Figure TWI612517BD00090
)之間的差的絕對值。應注意,在關於圖8A至圖8H說明之不同組態中,例如,等式(17)中不需要絕對值。PVQ誤差判定單元538可將PVQ誤差539輸出至選擇單元542。
在一些實例中,NPVQ誤差判定單元534及PVQ誤差判定單元538可使誤差(535及539)分別基於ERROR NPVQ ERROR PVQ 。亦即,誤差(535及539)可表達為信雜比(SNR)或無論如何誤差通常表示為分別至少部分地利用ERROR NPVQ ERROR PVQ 。如上所述,模式位元D可經傳信以指示是否選擇NPVQ或PVQ。SNR可包括此位元,其可降低SNR,如下文更詳細描述。在現有語法元素經擴展以單獨傳信NPVQ及PVQ之情形下(例如,如上文關於NbitsQ語法元素所論述),SNR可改良。
選擇單元542可基於目標位元率41、誤差(535及539)或目標位元率41及誤差(535及539)兩者在NPVQ向量533與PVQ向量537之間進行 選擇。選擇單元562可選擇用於較高目標位元率41之NPVQ向量533且選擇用於較低相對目標位元率41之PVQ向量537。選擇單元542可輸出NPVQ向量533或PVQ向量537中之選定者作為VQ向量543(i)。選擇單元542亦可輸出誤差(535及539)中之對應一者作為VQ誤差541(其可表示為ERROR VQ )。選擇單元542可進一步輸出用於VQ向量543(i)之SgnVal語法元素515、WeightIdx語法元素519A及CodebkIdx語法元素521。
在NPVQ向量533或PVQ向量537之間進行選擇之選擇單元542可有效地執行用以重建構一或多個權重之第一集合(且藉此判定一或多個權重之經重建構之第一集合)的非預測向量解量化與用以重建構一或多個權重之第二集合(且藉此判定一或多個權重之經重建構之第二集合)的預測向量解量化之間的切換。一或多個權重之經重建構之第一集合及一或多個權重之經重建構之第二集合可各自表示一或多個權重之經重建構集合。當如下文更詳細論述選擇VQ時,選擇單元542可將CodebkIdx語法元素521輸出至圖3中所示之位元串流產生單元42。位元串流產生單元42可接著以指示位元串流21中之切換的CodebkIdx語法元素521之形式指定量化模式,其可包括V-向量之表示。
返回至圖4之實例,VQ/PVQ選擇單元562可將VQ向量543、VQ誤差541、SgnVal語法元素515、WeightIdx語法元素519A及CodebkIdx語法元素521輸出至VQ/SQ選擇單元564。VQ/SQ選擇單元564可表示經組態以在VQ向量543(i)與SQ輸入V-向量551(i)之間進行選擇的單元。類似於VQ/PVQ選擇單元562,VQ/SQ選擇單元564可使選擇至少部分地基於目標位元率41、相對於VQ輸入V-向量543(i)及SQ輸入V-向量551(i)中之每一者計算之誤差量測(例如,誤差量測541及553)或目標位元率41及誤差量測之組合。VQ/SQ選擇單元564可輸出VQ輸入V-向量543(i)及SQ輸入V-向量551(i)中之選定者作為經量化V-向量57(i), 其可表示經寫碼前景V[k]向量57中之第i個向量。可針對減少之前景V[k]向量55中之每一者重複前述操作,從而迭代所有經減少之前景V[k]向量55。
VQ/PVQ選擇單元562亦可將選擇資訊565輸出至緩衝器單元530。VQ/PVQ選擇單元562可輸出選擇資訊565以指示經量化V-向量57(i)係經非預測向量量化、經預測向量量化抑或經純量量化。VQ/PVQ選擇單元562可輸出選擇資訊565以使得緩衝器單元530可移除、刪除或標示可丟棄之彼等先前經重建構之權重525以供刪除。
換言之,緩衝器單元530可標示、標記資料或將資料與先前經重建構之權重525A至525G(「經重建之權重525」)中之每一者相關聯。緩衝器單元530可關聯指示先前經重建構之權重525中之每一者係NPVQ抑或PVQ之資料。緩衝器單元530可以此方式關聯資料以便識別並未由VQ/SQ選擇單元564選擇之先前經重建構之權重525中之一或多者。基於選擇資訊565,緩衝器單元530可移除在位元串流21中將不以經向量量化之形式指定的彼等先前經重建構之權重525。緩衝器單元530可移除在位元串流21中並未以經向量量化之形式指定的彼等者,因為在位元串流21中並未以經向量量化之形式指定的先前經重建構之權重525對於局部權重解碼器單元524而言不可用於判定經重建構之權重602。
返回至圖3之實例,V-向量寫碼單元52可向指示位元串流產生單元42提供指示選擇哪一量化碼簿以用於量化對應於經減少之前景V[k]向量55中之一或多者之權重的資料,以使得位元串流產生單元42可包括所得位元串流中之此類資料。在一些實例中,V-向量寫碼單元52可針對待寫碼之HOA係數之每一訊框選擇一量化碼簿來使用。在此等實例中,V-向量寫碼單元52可將指示選擇哪一量化碼簿以用於量化每一訊框中之權重之資料提供至位元串流產生單元42。在一些實例中,指 示選擇哪一量化碼簿之資料可為對應於所選擇之碼簿之碼簿索引及/或識別值。
音訊編碼器件20內包括的音質音訊寫碼器單元40可表示音質音訊寫碼器的多個個例,其每一者用於編碼經能量補償之環境HOA係數47'及經內插之nFG信號49'中之每一者的不同音訊物件或HOA頻道以產生經編碼之環境HOA係數59及經編碼之nFG信號61。音質音訊寫碼器單元40可將經編碼之環境HOA係數59及經編碼之nFG信號61輸出至位元串流產生單元42。
音訊編碼器件20內包括之位元串流產生單元42表示將資料格式化以符合已知格式(其可係指為解碼器件已知之格式)而藉此產生基於向量之位元串流21的單元。換言之,位元串流21可表示以上文所描述之方式編碼之經編碼音訊資料。在一些實例中,位元串流產生單元42可表示多工器,其可接收經寫碼之前景V[k]向量57(其亦可被稱為經量化之前景V[k]向量57)、經編碼之環境HOA係數59、經編碼之nFG信號61及背景頻道資訊43。位元串流產生單元42可接著基於經寫碼之前景V[k]向量57、經編碼之環境HOA係數59、經編碼之nFG信號61及背景頻道資訊43產生位元串流21。以此方式,位元串流產生單元42可藉此指定位元串流21中之向量57以獲得位元串流21。位元串流21可包括主要或主位元串流及一或多個旁側頻道位元串流。
對於NPVQ,當選擇NPVQ時,位元串流產生單元42可指定NPVQ之權重索引作為位元串流21中之WeightErrorIdx 519B。位元串流產生單元42亦可在位元串流21中指定複數個V-向量索引(作為VVecIdx語法元素511),其指示用以量化輸入V-向量55中之每一者之音量碼向量571。
儘管在圖3之實例中未展示,但音訊編碼器件20亦可包括位元串流輸出單元,該位元串流輸出單元基於當前訊框將使用基於方向之合 成抑或基於向量之合成編碼而切換自音訊編碼器件20輸出之位元串流(例如,在基於方向之位元串流21與基於向量之位元串流21之間切換)。位元串流輸出單元可基於由內容分析單元26輸出的指示執行基於方向之合成(作為偵測到HOA係數11係自合成音訊物件產生之結果)抑或執行基於向量之合成(作為偵測到HOA係數經記錄之結果)之語法元素執行該切換。位元串流輸出單元可指定正確的標頭語法以指示用於當前訊框以及位元串流21中之各別位元串流之切換或當前編碼。
此外,雖然圖3之實例中未展示,但V-向量寫碼單元52可將權重值資訊提供至重排序單元34。在一些實例中,權重值資訊可包括由V-向量寫碼單元52計算之權重值中之一或多者。在另外的實例中,權重值資訊可包括指示V-向量寫碼單元52選擇哪些權重以用於量化及/或寫碼之資訊。在額外實例中,權重值資訊可包括指示V-向量寫碼單元52不選擇哪些權重以用於量化及/或寫碼之資訊。除上文所提及之資訊項目之外或代替上文所提及之資訊項目,權重值資訊亦可包括上文所提及之資訊項目以及其他項目中之任一者的任何組合。
在一些實例中,重排序單元34可基於權重值資訊(例如,基於權重值)對向量進行重排序。在V-向量寫碼單元52選擇權重值之子集以進行量化及/或寫碼之實例中,重排序單元34在一些實例中可基於選擇權重值中之哪些權重值以用於量化或寫碼(其可藉由權重值資訊指示)而對向量進行重排序。
圖10為更詳細地說明圖2之音訊解碼器件24之方塊圖。如圖4之實例中所示,音訊解碼器件24可包括提取單元72、基於方向性之重建構單元90及基於向量之重建構單元92。
提取單元72可表示經組態以接收位元串流21及提取HOA係數11之各種經編碼版本(例如,基於方向性之經編碼版本或基於向量之經編碼版本)之單元。提取單元72可判定上文所述的指示HOA係數11係 經由各種基於方向之版本抑或基於向量之版本編碼的語法元素。當執行基於方向性之編碼時,提取單元72可提取HOA係數11及與經編碼版本相關聯之語法元素(在圖3之實例中)的基於方向性之版本,從而將基於方向性之資訊91傳遞至基於方向性之重建構單元90。基於方向性之重建構單元90可表示經組態以基於該基於方向性之資訊91重建構呈HOA係數11'的形式的HOA係數的單元。
當語法元素指示HOA係數11係使用基於向量之合成編碼時,提取單元72可操作以便提取語法元素及值以供基於向量之重建構單元92使用以重建構HOA係數11。基於向量之重建構單元92可表示經組態以自經編碼之前景V[k]向量57重建構V-向量的單元。基於向量之重建構單元92可以與量化單元52之方式互逆之方式操作。基於向量之重建構單元92可包括V-向量重建構單元74、空間-時間內插單元76、音質解碼單元80、前景制訂單元78、HOA係數制訂單元82及淡化單元770。
提取單元72可提取較高階立體混響聲域中之經寫碼前景V[k]向量(其可僅包括索引或包括索引及模式位元)、經編碼之環境HOA係數59及經編碼之nFG信號61。提取單元72可將經寫碼前景V[k]向量57傳遞至V-向量重建構單元74,且將經編碼之環境HOA係數59以及經編碼之nFG信號61提供至音質解碼單元80。
為提取經寫碼之前景V[k]向量57(其亦可被稱為「經量化V-向量57」或稱為「V-向量55之表示」)、經編碼之環境HOA係數59及經編碼之nFG 61,提取單元72可獲得包括表示為CodedVVecLength之語法元素的HOADecoderConfig集合(container)。提取單元72可剖析來自HOADecoderConfig集合之CodedVVecLength。提取單元72可經組態以在上文所描述之組態模式中的任一者中基於CodedVVecLength語法元素操作。
在一些實例中,提取單元72可根據呈現於以上參考之MPEG-H 3D音訊標準之章節12.4.1.9.1中之偽碼中的切換陳述以及呈現於如鑒於隨附語義所理解之用於VVectorData之以下語法表中之語法操作:
Figure TWI612517BD00091
Figure TWI612517BD00092
VVectorData(VecSigChannelIds(i))
此結構含有用於基於向量之信號合成之經寫碼V-向量資料。
VVec(k)[i] 此為用於第i頻道之第k個HOAframe()之V-向量。
VVecLength 此變數指示待讀出之向量元素之數目。
VVecCoeffId 此向量含有經傳輸之V-向量係數之索引。
VecVal 介於0與255之間的整數值。
aVal 在解碼VVectorData期間使用之暫時變數。
huffVal 待進行霍夫曼解碼之霍夫曼碼字。
sgnVal 此為在解碼期間使用之經寫碼正負號值。
intAddVal 此為在解碼期間使用之額外整數值。
NumVecIndices 用以將經向量量化之V-向量解量化的向量之數目。
WeightIdx WeightValCdbk中用以將經向量量化之V-向量解量化之索引。
WeightErrorIdx WeightValPredictiveCdbk中用以基於先前關於以上各種PVQ單元(例如,單元540A至540D)描述及說明之技術將經向量量化之V-向量解量化之索引。
nbitsW 用於讀取WeightIdx以解碼經向量量化之V-向量的欄位大小。
WeightValCdbk 含有正實數值加權係數之向量的碼簿。若NumVecIndices經設定為1,則使用具有16個條目之WeightValCdbk,否則,使用具有256個條目之WeightValCdbk。
WeightValPredictiveCdbk 含有正實數值加權殘餘係數之向量的 碼簿。若NumVecIndices經設定為1,則使用具有16個條目之WeightValCdbk,否則,使用具有256個條目之WeightValCdbk。
VvecIdx 用以將經向量量化之V-向量解量化的VecDict之索引。
nbitsIdx 用於讀取個別VvecIdxs以解碼經向量量化之V-向量的欄位大小。
WeightVal 用以解碼經向量量化之V-向量的實數值加權係數。
AbsoluteWeightVal WeightVal之絕對值。
雖然關於以上語法表(及基於等於3之nbitQ說明之替代語法表)描述及明確說明語法元素AbsoluteWeightVal、WeightValPredicitiveCdbk及WeightErrorIdx,但可(例如)使用不同名稱反映諸如關於圖8A至圖8H及其他圖中之其他態樣論述之其他組態。此外,在並未使用絕對值之此類組態中,以上語法可相應地具有不同形式。因此,雖然關於權重值之絕對值描述了下文相對於以上語法表及以下替代語法之某些文字,但在下文描述所說明之語法表之元素之描述亦可適用於(例如)關於圖8A至圖8H及其他圖之其他態樣所論述之組態。
提取單元72可剖析位元串流21以獲得第i個V-向量之VVectorData(其亦展示為VVectorData(i))。經量化之V-向量57(i)可至少部分地對應於VVectorData(i)。在提取VVectorData之前,提取單元72可自位元串流21提取量化模式,如上所述,作為一項實例,該量化模式可對應於經量化向量57中之第k個音訊訊框及第i個經量化向量之NbitsQ語法元素(在以上語法表中經表示為NbitsQ(k)[i])。抽取單元72可基於NbitsQ語法元素藉由判定NbitsQ(k)[i]是否等於4來首先判定是否執行向量量化。
當NbitsQ[k](i)等於4時,提取單元72將NumVvecIndices語法元素 設定為等於用於經量化向量57之第k個音訊訊框及第i個經量化向量之CodebkIdx語法元素(表示為CodebkIdx(k)[i])。就此而言,V-向量索引之數目可等於碼簿索引之數目。
提取單元72可接著判定CodebkIdx(k)[i]語法元素是否等於零。當CodebkIdx(k)[i]語法元素等於零時,單一V-向量索引經指定且用以存取表F.11。提取單元72可自位元串流21提取單一10位元VvecIdx語法元素及1位元SgnVal語法元素兩者。提取單元72可將VvecIdx[0]語法元素設定為經剖析之VvecIdx語法元素。提取單元72亦可基於SgnVal語法元素(亦即,在以上例示性語法表中等於((SgnVal*2)-1))來設定WeightVal[0]語法元素。提取單元72可基於SgnVal語法元素有效地將WeightVal[0]設定為-1或1的值。提取單元72亦可將AbsoluteWeightVal[k][0]設定為1之值(在WeightVal[0]語法元素可僅為-1或1的值之條件下,其實際上為WeightVal[0]語法元素之絕對值)。
當CodebkIdx(k)[i]語法元素並不等於0時,提取單元72可判定CodebkIdx(k)[i]語法元素是否等於1。當CodebkIdx(k)[i]語法元素等於1時,提取單元72可自位元串流21提取8位元WeightIdx語法元素。提取單元72亦可將nbitsIdx語法元素設定為HOA係數之數目(其藉由「NumOfHoaCoeffs」語法元素表示且等於階數(N)加1之平方(N+1)2)之基數為2的對數(log2)之數學頂值函數(頂值)之值。
提取單元72接下來可迭代V-向量索引之數目。對於V-向量索引中之每一者,提取單元72可提取VvecIdx語法元素及SgnVal語法元素。實際上,提取單元72可提取8個VvecIdx語法元素511中之一者及8個SgnVal語法元素515中之一者。雖然本文關於8個VvecIdx語法元素511及8個SgnVal語法元素515描述,但可自位元串流21提取任何數目個(至多J個)VvecIdx語法元素511及語法元素515。在每次迭代中,提取單元72可將VvecIdx[]陣列中之第j個元素設定為VvecIdx語法元素加1 之值。儘管展示為藉由提取單元72執行,但V-向量重建構單元74可判定WeightVal[]陣列及AbsoluteWeightVal[][]陣列。因此,提取單元72在每次迭代中可將SgnVal[]陣列設定為SgnVal。
當CodebkIdx(k)[i]語法元素不等於1時,提取單元72可判定CodebkIdx(k)[i]語法元素是否等於2。當CodebkIdx(k)[i]語法元素等於2時,提取單元72可自位元串流21提取8位元WeightIdx語法元素519B。就此而言,在此實例中,提取單元72可自位元串流21提取被稱作「WeightErrorIdx」之權重索引519B。提取單元72亦可將nbitsIdx語法元素設定為HOA係數之數目(其藉由「NumOfHoaCoeffs」語法元素表示且等於階數(N)加1之平方(N+1)2)之基數為2的對數(log2)之數學頂值函數(頂值)之值。
提取單元72接下來可迭代V-向量索引之數目。對於V-向量索引中之每一者,提取單元72提取VvecIdx語法元素及SgnVal語法元素。提取單元72可提取8個VvecIdx語法元素511中之一者及8個SgnVal語法元素515中之一者。雖然本文關於8個VvecIdx語法元素511及8個SgnVal語法元素515描述,但可自位元串流21提取任何數目個(至多J個)VvecIdx語法元素511及語法元素515。
在每一迭代中,提取單元72可將VvecIdx[]陣列中之第j個元素設定為VvecIdx語法元素加1之值。以此方式,提取單元72可自位元串流21提取複數個V-向量索引511,其在此實例中可藉由8個VvecIdx語法元素511表示。儘管展示為藉由提取單元72執行,但V-向量重建構單元74可判定WeightVal[]陣列及AbsoluteWeightVal[][]陣列。因此,提取單元72在每次迭代中可將SgnVal[]陣列設定為SgnVal。
提取單元72亦可自V-向量索引之數目迭代HOA係數之總數,從而將AbsoluteWeightVal[][]陣列設定為0。此外,V-向量重建構單元74可取而代之執行此操作。將剩餘AbsoluteWeightVal[][]陣列條目設定 為零以用於預測之目的。提取單元72接著可繼續考慮是否將執行純量量化(亦即,在以上語法表之實例中,當NbitsQ(k)[i]等於5時)且考慮是否將執行使用霍夫曼寫碼之純量量化(亦即,在以上語法表之實例中,當NbitsQ(k)[i]等於或大於6時)。在以上參考之2014年5月29日申請之名為「INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD」的國際專利申請公開案第WO 2014/194099號中可獲得關於純量量化之更多資訊。提取單元72可以此方式將表示經量化向量57之語法元素提供至V-向量重建構單元74。
在其中存在上文所論述之14種量化模式之替代實例中,當值為3的NbitsQ語法元素可指示預測向量量化時,將執行包括對於「NbitsQ(k)[i]==3」之『若』敍述的VVectorData(i)之不同語法表。在此替代案中,值等於4之NbitsQ語法元素可指示將執行非預測向量量化。此以下語法表表示此替代實例。
Figure TWI612517BD00093
Figure TWI612517BD00094
圖11為更詳細地說明圖4之實例中所示的音訊解碼器件之V-向量重建構單元的圖。V-向量重建構單元74可包括選擇單元764、切換式預測向量解量化單元760及純量解量化單元750。
選擇單元764可表示經組態以選擇是否執行非預測向量解量化、預測向量解量化或是否將基於選擇位元相對於經量化V-向量57(i)執行純量解量化的單元。在一項實例中,選擇位元可表示NbitsQ語法元素。在另一實例中,選擇位元可表示NbitsQ語法元素及模式位元,如上文所論述。在一些實例中,選擇位元可表示除NbitsQ語法元素之外的CodebkIdx語法元素。因此,選擇位元在圖11之實例中展示為CodebkIdx 521及NbitsQ語法元素763。當經量化之V-向量57(i)可包括CodebkIdx語法元素521作為表示經量化之V-向量57(i)之語法元素中之一者時,CodebkIdx語法元素521展示於表示經量化V-向量57(i)之箭頭 內。
NbitsQ語法元素等於4時,選擇單元764可判定執行向量量化。選擇單元764接下來判定CodebkIdx 521語法元素之值以判定是否執行非預測或預測向量量化。當CodebkIdx 521等於0或1時,選擇單元764判定經量化之V-向量57(i)已經非預測向量量化。當經量化之V-向量57(i)經判定為經非預測向量量化時,選擇單元764將VvecIdx語法元素511、SgnVal語法元素515、WeightIdx語法元素519A轉寄至切換式預測向量解量化單元760之非預測向量解量化(NPVD)單元720。
當CodebkIdx 521等於2時,選擇單元764判定經量化之V-向量57(i)已經預測向量量化。當經量化之V-向量57(i)經判定為經預測向量量化時,選擇單元764將VvecIdx語法元素511、SgnVal語法元素515、WeightIdx語法元素519B轉寄至切換式預測向量解量化單元760之預測向量解量化(PVD)單元740。語法元素511、515及519B之任何組合可表示指示權重值之資料。
當NbitsQ語法元素763等於5或6時,選擇單元764判定執行純量量化或使用霍夫曼寫碼之純量量化。選擇單元764接著可將經量化之V-向量57(i)轉寄至純量解量化單元750。
切換式預測向量量化單元760可表示經組態以執行NPVD或PVD中之一或兩者的單元。切換式預測向量解量化單元760可針對整個位元串流之每一訊框或針對整個位元串流之訊框之僅某一子集執行非預測向量解量化。訊框可表示時間區段之一項實例。時間區段之另一實例可表示子訊框。切換式預測向量解量化單元760可針對整個位元串流之每一訊框或針對整個位元串流之訊框之僅某一子集執行預測向量解量化。
在一些情況下,切換式預測向量解量化單元760可針對任何給定位元串流在逐個訊框基礎上在非預測向量解量化(NPVD)與預測向量 解量化(PVD)之間進行切換。亦即,切換式預測向量解量化單元760可在用以重建構一或多個權重之第一集合的NPVD與用以重建構一或多個權重之第二集合的PVD之間進行切換。當在逐個訊框(或逐個子訊框)之基礎上操作時,切換式預測向量解量化單元760可相對於L數目個訊框執行NPVD接著相對於下P個音訊訊框執行PVD。換言之,在逐個訊框(或逐個子訊框)之基礎上操作並不一定暗示每一訊框(或子訊框)發生切換,而是暗示對於位元串流21中之至少一個訊框,存在NPVD與PVD之間的切換。
切換式預測向量解量化單元760可接收藉由提取單元72自位元串流提取之CodebkIdx語法元素521。在一些實例中,CodebkIdx語法元素521可指示量化模式,係因為CodebkIdx語法元素521區分兩種或兩種以上向量量化模式。就此而言,切換式預測向量解量化單元760可表示經組態以基於藉由CodebkIdx語法元素521表示之量化模式在用以重建構一或多個權重之第一集合的非預測向量解量化與用以重建構一或多個權重之第二集合的預測向量解量化之間切換的單元。
如圖11之實例中所示,切換式預測向量解量化單元760可包括經組態以執行非預測向量解量化之非預測向量解量化(NPVD)單元720。切換式預測向量解量化單元760亦可包括經組態以執行預測向量解量化之預測向量解量化(PVD)單元740。切換式預測向量解量化單元760亦可包括緩衝器單元530,其實質上類似於上文相對於切換式預測向量量化單元560所描述之緩衝器單元530。
應注意,在本發明中所描述之基於HoA向量之架構內的VQ組態與PVQ組態之間的切換可包括與圖10及圖11相關聯之描述,且應容易理解,先前所描述之僅PVQ模式及僅VQ模式適用於NPVD單元720及PVD單元740,亦即,在僅PVQ模式中,PVD單元740並不基於先前自NPVD單元720解碼之過去權重向量來重建構權重。類似地,在僅VQ 模式中,NPVD單元720將並未自PVD單元740重建構之經經重建權重提供至切換式預測向量解量化單元760中之緩衝器單元530。
此外,大體經描述之切換式預測向量量化可被稱為啟用SPVQ模式。此外,在基於HoA向量之分解架構內可存在純量量化與VQ模式、PVQ模式或啟用SPVQ之模式之間的切換。如上文所描述,可存在不同類型之量化模式,該等量化模式在先前所描述之編碼器處指定至位元串流中,且接著在解碼器器件處自位元串流提取。可存在如上文所描述之能夠具有PVQ模式或NPVQ模式來回切換之不同方式。作為一實例,向量量化模式可經傳信且額外nvq/pvq選擇語法元素可用於指定位元串流中之量化模式之類型。替代nvq/pvq選擇語法元素之值可為實施啟用SPVQ模式之操作的方式。同樣,向量量化將在VQ與PVQ量化之間進行切換。
替代地,不同實施可為:PVQ量化模式(例如,NbitsQ==3)在一或多個訊框期間指定於位元串流中。一旦先前所描述之編碼器希望切換至VQ量化模式(例如,Nbits Q===4),則不同類型之向量量化可指定於位元串流中且接著在解碼器器件處自位元串流提取。因此,存在其中PVQ模式與NPVQ模式之間的切換可用於實施啟用QPVQ模式之操作的不同方式。
NPVD單元720可以與上文關於NPVQ單元520所描述之方式互逆之方式執行向量解量化。亦即,NPVD單元720可接收VvecIdx語法元素511、SgnVal語法元素515及WeightIdx語法元素519A。NPVD單元720可基於CodebkIdx語法元素521識別AECB 63中之一者且執行上述之轉換以產生32個音量碼向量571。如上文所描述,碼向量可經儲存作為音量碼向量碼簿(VCVCB)。32個音量碼向量571可表示為Ω。
NPVD單元720接下來可以以上VVectorData(i)語法表中所示之方式重建構WeightVal[ ]陣列。NPVD單元720可判定至少部分地作為 SgnVal之函數的權重、CodebkIdx語法元素521A及WeightIdx語法元素519A。NPVD單元720可基於CodebkIdx語法元素521擷取WCB 65A中之一者。NPVD單元720接下來可基於WeightIdx語法元素519A獲得來自WCB 65A之經量化權重,其在以上等式中表示為
Figure TWI612517BD00095
。NPVD單元720接著可根據以下等式重建構權重:WeightVal[j]=((SgnVal*2)-1)* WeightValCdbk[CodebkIdx(k)[i]][WeightIdx][j] (18)
在重建構作為((SgnVal*2)-1)乘以來自WCB 65A之經量化權重的函數的權重後,NPVD單元720可基於以下等式重建構V-向量55(i):
Figure TWI612517BD00096
其中
Figure TWI612517BD00097
表示經重建構之V-向量向量55(i),
Figure TWI612517BD00098
表示第i個經重建構之權重,Ω i 表示對應的第i個碼向量,且I表示VVecIdx語法元素511之數目。NPVD單元720可輸出經重建構之V-向量55(i)。
為了易於可讀性及便利性,本發明之剩餘部分可使用術語AbsoluteWeightVal、WeightValPredicitiveCdbk及WeightErrorIdx或關於絕對值之變數之數學記號;然而,可(例如)使用不同名稱反映諸如關於圖8A至圖8H及其他圖中之其他態樣論述之其他組態。此外,在並未使用絕對值之此類組態中,術語、變數及標記可相應地具有不同形式或名稱。因此,儘管關於權重值之絕對值描述以下某一描述,但權重值亦可適用於例如關於圖8A至圖8H及其他圖之其他態樣論述之其他組態。
PVD單元740可以與上文關於PVQ單元540所描述之方式互逆之方式執行預測向量解量化。亦即,PVD單元740可將VvecIdx語法元素511、SgnVal語法元素515、WeightErrorIdx語法元素519B及CodebkIdx語法元素521接收至切換式預測向量解量化單元760。PVD單元740可自藉由CodebkIdx語法元素521B識別之AECB 63擷取AE向量且執行上 述之轉換以產生32個音量碼向量571。如上文所描述,碼向量可經儲存至VCVCB。當儲存至VCVCB時,PVD單元740可基於複數個V-向量索引擷取音量碼向量。32個音量碼向量571可表示為Ω。
PVD單元740接下來可以以上VVectorData(i)語法表中所示之方式重建構WeightVal[]陣列。PVD單元740可判定至少部分地作為SgnVal之函數的權重、CodebkIdx語法元素521B、WeightErrorIdx語法值519B、經表示為alphaVvec語法元素之權重因數523及經重建構之先前權重525。PVD單元740可包括權重解碼器單元524,其可類似於且可能實質上類似於圖8A至圖8H之實例中所示之局部權重解碼器單元524A至524D。為了易於說明之目的,以下描述假定局部權重解碼器單元524A表示圖8A及圖8B之實例中所示之局部權重解碼器單元524A。當關於例示性局部權重解碼器單元524A描述時,該等技術可相對於圖8C至圖8H之實例中所示之例示性局部權重解碼器單元524B至524D中之任一者執行。
局部權重解碼器單元524A可基於語法元素519B自RCB 65B獲得殘數,其在以上等式中經表示為
Figure TWI612517BD00099
。局部權重解碼器單元524A可根據以下等式重建構複數個權重:WeightVal[j]=((SgnVal*2)-1)* WeightValPredictiveCdbk[CodebkIdx(k)[i]][WeightErrorIdx][j]+alphaVvec[j]* AbsoluteWeightVal[k-1][j] (20)
其中WeightVal[j]表示第k個音訊訊框中之經量化向量57中之第i個經量化向量的第j個經重建構之權重531(
Figure TWI612517BD00100
,其中此記號中之i係指訊框而非k),SgnVal表示第j個正負號值s j ,WeightValPredictiveCodbk[CodebkIdx(k)[i]][WeightErrorIdx][j]表示第k個音訊訊框中之經量化向量57中之第i個經量化向量的第j個殘餘權重誤差620A(
Figure TWI612517BD00101
,其中此記號中之i係指訊框而非k),alphaVvec[j]表示第j個權重因數523(α j ),且AbsoluteWeightVal[k-1][j]表示經重建構 之先前權重525中之第j個權重(|
Figure TWI612517BD00102
|,其中此記號中之i係指訊框而非k)。
就此而言,局部權重解碼器單元524可對權重索引519B解量化以獲得複數個殘餘權重誤差並基於複數個殘餘權重誤差620A及來自過去時間區段之經重建構之複數個權重525中之一者重建構當前時間區段之複數個權重531。關於圖8B更詳細地描述以上重建構。關於圖8D、圖8F及圖8H更詳細地描述替代重建構。
在重建構當前時間區段(例如,第i個音訊訊框)之權重531後,PVD單元740可基於以下等式重建構V-向量55(i):
Figure TWI612517BD00103
其中
Figure TWI612517BD00104
表示經重建構之V-向量55(i)。為重建構V-向量55(i),PVD單元740可擷取音量碼向量571中之第j個向量,其在以上等式(21)中經表示為Ω j 。PVD單元740可基於藉由VVecIdx語法元素511表示之複數個V-向量索引擷取第j個音量碼向量571中之每一者。
如上所述,V-向量55(i)可表示多方向V-向量55(i),其表示多方向聲源。因此,PVD單元740可基於J複數個音量碼向量571及來自當前時間區段之經重建構之複數個權重531重建構多方向V-向量55(i)。NPVD單元720可輸出經重建構之V-向量55(i)。
純量解量化單元750可以與上文所描述之方式互逆之方式操作以獲得經重建構之V-向量55(i)。純量解量化單元750可在首先(意謂在執行解量化解量化之前)將霍夫曼解碼應用於經量化V-向量57(i)之情況下或在並未首先將霍夫曼解碼應用於經量化V-向量57(i)之情況下執行純量解量化。純量解量化單元750可輸出經重建構之V-向量55(i)。
V-向量重建構單元74可以此方式經由提取單元72判定指示來自位元串流21的權重(例如,進入上文所描述之碼簿之索引)的一或多個位 元,且基於該等權重及一或多個對應音量碼向量重建構經減少之前景V[K]向量55 k 。在一些實例中,權重可包括對應於用以重建構經減少之前景V[K]向量55 k (其亦可被稱為經重建構之V-向量55)之碼向量集合中的所有碼向量的權重值。在此等實例中,V-向量重建構單元74可基於音量碼向量之整個集合或子集重建構經減少之前景V[k]向量55 k 作為音量碼向量之加權總和。
音質解碼單元80可以與圖3之實例中所示的音質音訊寫碼器單元40互逆之方式操作以便解碼經編碼之環境HOA係數59及經編碼之nFG信號61且藉此產生經能量補償之環境HOA係數47'及經內插之nFG信號49'(其亦可被稱作經內插之nFG音訊物件49')。音質解碼單元80可將經能量補償之環境HOA係數47'傳遞至淡化單元770且將nFG信號49'傳遞至前景制訂單元78。
空間-時間內插單元76可以與上文關於空間-時間內插單元50所描述之方式類似之方式操作。空間-時間內插單元76可接收減少之前景V[k]向量55 k 且關於前景V[k]向量55 k 及減少之前景V[k-1]向量55 k-1執行空間-時間內插以產生經內插之前景V[k]向量55 k "。空間-時間內插單元76可將經內插之前景V[k]向量55k"轉寄至淡化單元770。
提取單元72亦可將指示環境HOA係數中之一者何時處於轉變中之信號757輸出至淡化單元770,該淡化單元770可接著判定SHCBG 47'(其中SHCBG 47'亦可表示為「環境HOA頻道47'''」或「環境HOA係數47'''」)及經內插之前景V[k]向量55 k "之元素中之哪一者將淡入或淡出。在一些實例中,淡化單元770可關於環境HOA係數47'及經內插之前景V[k]向量55k"之元素中之每一者相反地操作。
前景制訂單元78可表示經組態以關於經調整之前景V[k]向量55 k '''及經內插之nFG信號49'執行矩陣乘法以產生前景HOA係數665的單元。就此而言,前景制訂單元78可組合音訊物件49'(該方式為藉以表 示經內插之nFG信號49'之另一種方式)與向量55 k '''以重建構HOA係數11'之前景(或換言之,優勢)態樣。前景制訂單元78可執行經內插之nFG信號49'乘以經調整之前景V[k]向量55 k '''的矩陣乘法。
HOA係數制訂單元82可表示經組態以將前景HOA係數665組合至經調整之環境HOA係數47"以便獲得HOA係數11'的單元。撇號記號反映HOA係數11'可類似於HOA係數11(或換言之,其表示)但不與其相同。HOA係數11與11'之間的差可起因於歸因於有損傳輸媒體上之傳輸、量化或其他有損操作產生之損失。
圖12A為說明圖5之V向量寫碼單元在執行本發明中所描述之技術之各種態樣中的例示性操作的流程圖。V-向量寫碼單元52之NPVQ單元520可執行關於輸入V-向量55(i)之非預測向量量化(NPVQ)(810)。NPVQ單元520可判定由執行關於輸入V-向量55(i)之NPVQ而產生之誤差(其中該誤差可表示為ERROR NPVQ )(812)。
V-向量寫碼單元52之PVQ單元540可以上文關於輸入V-向量55(i)所描述之方式執行經預測向量量化(PVQ)(814)。PVQ單元540可判定由執行關於輸入V-向量55(i)之PVQ而產生之誤差(其中該誤差可表示為ERROR PVQ )(816)。當ERRORNPVQ大於ERRORPVQ(「是」818)時,V-向量寫碼單元52之VQ/PVQ選擇單元562可選擇PVQ輸入V-向量,其可係指與V-向量55(i)之PVQ版本相關聯之上述語法元素(820)。當ERRORVQ並不大於ERRORPVQ(「否」818)時,VQ/PVQ選擇單元562可選擇NPVQ輸入V-向量,其可係指與V-向量55(i)之NPVQ版本相關聯之上述語法元素(822)。
VQ/PVQ選擇單元562可將NPVQ輸入V-向量及PVQ輸入V-向量中之選定者作為VQ輸入V-向量輸出至VQ/SQ選擇單元564。與VQ輸入V-向量相關聯之誤差可表示為ERRORVQ且等於針對NPVQ輸入V-向量及PVQ輸入V-向量中之選定者判定之誤差。
V-向量寫碼單元52之純量量化單元550亦可執行關於輸入V-向量55(i)之純量量化(824)。純量量化單元550可判定由執行關於輸入V-向量55(i)之SQ而產生之誤差(其中該誤差可表示為ERROR SQ )(826)。純量量化單元550可將SQ輸入V-向量551(i)輸出至VQ/SQ選擇單元564。
當ERRORVQ大於ERRORSQ(「是」818)時,VQ/SQ選擇564可選擇SQ輸入V-向量551(i)(830)。當ERRORVQ並不大於ERRORSQ(「否」828)時,VQ/SQ選擇單元564可選擇VQ輸入V-向量。VQ/SQ選擇單元564可輸出SQ輸入V-向量551(i)及VQ輸入V-向量中之選定者作為經量化V-向量57(i)。
就此而言,V-向量寫碼單元52可在一或多個權重之第一集合之非預測向量量化與一或多個權重之第二集合之預測向量量化之間進行切換。
圖12B為說明音訊編碼器件(諸如,圖3之實例中所示的音訊編碼器件20)在執行本發明中所描述的預測向量量化技術之各種態樣中的例示性操作的流程圖。表示圖3中所示之音訊編碼器件20之V-向量寫碼單元52的V-向量寫碼單元52A(圖4)之近似單元502可判定當前時間區段之對應於音量碼向量571之權重503(200)。
如上文更詳細描述,PVQ單元540可基於權重503(或在一些實例中為有序權重505)及過去時間區段之經重建構之權重525中之一者判定殘餘權重誤差(202)。PVQ單元540可對殘餘權重誤差進行向量量化以判定權重索引,該權重索引可藉由WeightErrorIdx語法元素519B表示(204)。在選擇PVQ時,PVQ單元540可將WeightErrorIdx語法元素519B提供至位元串流產生單元42。位元串流產生單元42可以上文展示於語法表中之方式指定位元串流21中之WeightErrorIdx語法元素519B。
圖13A為說明圖11之V-向量重建構單元在執行本發明中所描述之 技術之各種態樣中的例示性操作的流程圖。V-向量重建構單元74之選擇單元764可獲得上文所描述之指示是否將執行非預測向量解量化(NPVD)、預測向量解量化(PVD)或純量解量化(SD)之選擇位元及經量化V-向量57(i)。
當選擇位元指示將執行NPVD(「是」852)時,選擇單元764將經量化V-向量57(i)轉寄至NPVD單元720。NPVD單元720執行關於經量化V-向量57(i)之NPVD以重建構輸入V-向量55(i)(854)。
當選擇位元指示並不將執行NPVD(「否」852)而是將執行PVD(「是」856)時,選擇單元764將經量化V-向量57(i)轉寄至PVD單元740。PVD單元740執行關於經量化V-向量57(i)之PVD以重建構輸入V-向量55(i)(858)。
當選擇位元指示並不將執行NPVD及PVD(「否」852及「否」856)時,選擇單元764將經量化V-向量57(i)轉寄至純量解量化單元750。純量解量化單元750執行關於經量化V-向量57(i)之SD以重建構輸入V-向量55(i)(860)。
圖13B為說明音訊解碼器件(諸如,圖10中所示的音訊解碼器件24)在執行本發明中所描述的預測向量量化技術之各種態樣中的例示性操作的流程圖。如上文所描述,圖4中所示之音訊解碼器件24之提取單元72可自位元串流21提取表示權重索引之WeightErrorIdx語法元素519B(212)。
圖11中所示之V-向量重建構單元74之PVD單元740可自緩衝器單元530擷取來自過去時間區段之複數個經重建構之權重525中之一者(214)。PVD單元740之局部權重解碼器單元524可對WeightErrorIdx語法元素519B進行向量解量化以藉由上文關於圖8B、圖8D、圖8F或圖8H所描述之方式判定殘餘權重誤差620A(216)。PVD單元740之局部權重解碼器單元524可接著基於殘餘權重誤差620及來自過去時間區段 之經重建構之權重525中之一者重建構當前時間區段之權重531(218)。
圖14為根據本發明的包括說明用於使用NPVQ單元進行權重之向量量化的權重之實例分佈的多個圖表之圖。
在圖14之實例分佈中,每一V-向量(其可被稱為輸入V-向量55(i))藉由8個權重值(亦即,Y=8)表示。換言之,儘管在輸入V-向量55(i)之完全分解中存在超過8個權重值及/或碼向量,但自所有權重值中選擇具有最大量值之8個權重值以表示輸入V-向量55(i)。接著對8個最大量值權重值進行向量量化。
在此實例中,使用8分量量化向量(亦即,Y-分量量化向量,其中Y=8)執行向量量化。換言之,在此實例中,每一輸入V-向量55(i)之權重值經共同分組為8個權重值之群組且使用單一量化向量及權重索引對其進行向量量化。
圖14中之頂列中之四個圖表中之每一者說明表示輸入V-向量55之樣本分佈的複數個群組之8個權重值中的每一者中的8個權重值中的兩者。記號dim1表示輸入V-向量55(i)之權重值(亦即,
Figure TWI612517BD00105
)之有序集合中的第一權重值,dim2表示V-向量55(i)之權重值(亦即,
Figure TWI612517BD00106
)之集合中的第二權重值,等。
在一些實例中,權重值之量值及正負號可經單獨量化。舉例而言,在圖14中所示之實例(其中V-向量中之每一者藉由8個權重值表示)中,可執行8維向量量化以對權重值之量值進行向量量化。在此實例中,可針對每一維度產生正負號位元以指示各別維度之正負號。
在dim0至dim7中之每一者可具有單獨正負號位元之條件下,可存在8個正負號位元,兩個正負號位元用於頂列圖表中之每一者。每一dim1至dim8之正負號位元可有效地識別頂列圖表中之每一者的象限。舉例而言,左邊之第一頂列圖表之象限展示為象限900A至 900D。設定為1之正負號位元可指示正(或零)值,而設定為0之正負號位元可指示負值。象限900A可藉由dim1之設定為1之正負號位元及dim0之設定為1之正負號位元指定。象限900B可藉由dim1之設定為1之正負號位元及dim2之設定為0之正負號位元指定。象限900C可藉由dim1之設定為0之正負號位元及dim2之設定為0之正負號位元指定。象限900D可藉由dim1之設定為0之正負號位元及dim2之設定為1之正負號位元指定。
在給定藉由正負號位元識別之象限中之權重值分佈的對稱性的情況下,圖14之頂列圖表之權重分佈可經縮減至底列中之四個圖表。當動態範圍經縮減至單一象限時,相較於聯合地量化量值及正負號位元,藉由獨立地量化量值及正負號位元,V-向量重建構單元74可減少所分配之大量位元。
圖15為根據本發明的包括圖14的底列圖表之正象限之多個圖表的圖,該多個圖表更詳細地說明NPVQ單元中之權重之向量量化。在圖15之圖表中,較淺的灰度值表示經量化之權重值,而較深的灰度值表示原始權重值。
圖16為根據本發明的包括說明預測權權重值(預測權重值亦可被稱作殘餘權重誤差)之實例分佈之多個圖表的圖,該等預測權重值用作PVQ單元中之殘餘權重誤差之預測向量量化之部分。第j個索引及第i個音訊訊框之殘餘權重誤差可基於以下等式產生:
Figure TWI612517BD00107
其中r i,j 對應於來自第i個音訊訊框之權重值之有序子集的第j個殘餘權重誤差,
Figure TWI612517BD00108
對應於來自第i個音訊訊框之權重值之有序子集的第j個權重值,
Figure TWI612517BD00109
對應於來自第(i-1)個音訊訊框之權重值之有序子集的第j個權重值,且α j 對應於來自音訊訊框之權重值之有序子集的第j個權重值的加權因數。在一些實例中,用於正上方之等式中之索引可係 指在對如上文所論述之權重值進行重排序及重索引後出現之索引,亦即,j
Figure TWI612517BD00110
Ys。在圖16之實例中,α j =1。
殘餘權重誤差亦可被稱為預測權重值。預測權重值可係指用以預測當前時間訊框之權重值(且因此係其之預測)的值。就此而言,預測的權重值可表示基於預測權重值及來自過去時間訊框之經重建構之權重值預測的權重值。
圖16中之每一輸入向量55(i)藉由8個預測權重值表示(亦即,在此實例中M=8)。圖16之頂列中之圖表中之每一者說明表示V-向量之樣本分佈的複數個群組之8個預測權重值中的每一者中的8個預測權重值中的兩者。記號dim1表示輸入向量55(i)之預測權重值之有序集合中的第一預測權重值,dim2表示輸入向量55(i)之權重值之有序集合中的第二預測權重值,等。
在一些實例中,權重值之量值及正負號可經單獨量化。舉例而言,在圖14中所示之實例(其中V-向量中之每一者藉由8個權重值表示)中,可執行8維向量量化以對權重值之量值進行向量量化。在此實例中,可針對每一維度產生正負號位元以指示各別維度之正負號。
類似於非預測向量量化,在dim0至dim7中之每一者可具有單獨正負號位元之條件下,可存在8個正負號位元,兩個正負號位元用於頂列圖表中之每一者。每一dim1至dim8之正負號位元可有效地識別頂列圖表中之每一者的象限。在給定藉由正負號位元識別之象限中之權重值分佈的對稱性的情況下,圖14之頂列圖表之權重分佈可經縮減至底列中之四個圖表。當動態範圍經縮減至單一象限時,相較於聯合地量化量值及正負號位元,藉由獨立地量化量值及正負號位元,V-向量重建構單元74可減少所分配之大量位元。
換言之,預測可在絕對權重值域中發生,且用於權重值中之每一者的正負號資訊可獨立於預測權重值傳輸。
舉例而言,第j個索引及第i個音訊訊框之預測權重值可基於以下等式產生:
Figure TWI612517BD00111
其中r i,j 對應於來自第i個音訊訊框之權重值之有序子集的第j個殘餘值,
Figure TWI612517BD00112
對應於來自第i個音訊訊框之權重值之有序子集的第j個權重值,
Figure TWI612517BD00113
對應於來自第(i-1)個音訊訊框之權重值之有序子集的第j個權重值,α j 對應於來自音訊訊框之權重值之有序子集的第j個權重值的加權因數,且運算子|x|對應於x之量值或絕對值。在一些實例中,用於等式(23)中之索引可係指在對如上文所論述之權重值進行重排序及重索引後出現之索引,亦即,j
Figure TWI612517BD00114
Ys。在圖16之實例中,α j =1。
在一些實例中,預測權重值之量值及正負號可經單獨量化。舉例而言,在圖16中所示之實例(其中輸入V-向量55(i)藉由8個權重值表示)中,可執行8維向量量化以對預測權重值之量值進行向量量化。在此實例中,可針對每一維度產生正負號位元以指示各別維度之正負號(且藉此識別象限)。
圖17為包括說明圖16中之實例分佈以及對應經量化之預測權重值之實例分佈之多個圖表的圖。在圖17之圖表中,較淺的灰度值表示經量化之權重值,而較深的灰度值表示原始權重值。
圖18及圖19為說明本發明之「僅PVQ模式」中之使用不同方法以獲得α因數之預測向量量化技術的比較實例效能特性的表格。圖18為說明本發明之處於「僅PVQ模式」中之預測向量量化技術之實例效能特性的表格。PVQ模式可表示基於僅使用來自PVQ單元540的過去訊框(或子訊框)預測的經向量量化之權重向量執行預測向量量化而不能夠自NPVQ單元520存取過去經向量量化之權重向量中之任一者。「僅VQ模式」可表示在無來自NPVQ單元520或PVQ單元540之先前(來自過去訊框或子訊框)經向量量化之權重向量的情況下執行向量量化。 啟用SPVQ之模式可表示在僅VQ模式與使用本發明中在上文所描述之使PVQ單元540能夠自NPVQ單元520存取過去經向量量化之權重向量的技術之間的彼切換。詳言之,圖18說明圖17中所說明之預測向量量化(其中α j =1)及僅PVQ模式之效能特性。「位元」行定義用以表示每一權重值之位元之數目。隨著位元之數目增加,如以分貝(dB)指定之信雜比(SNR)增加。SNR增加可允許V-向量寫碼單元52為相對大之目標位元率41選擇較多位元且為相對小之目標位元率41選擇較少位元。
在上文關於圖14至圖17所描述之實例中,α j =1。然而,在其他實例中,α j 可不等於1。在一些實例中,可基於誤差度量選擇α j 。舉例而言,可選擇α j 成為最小化一系列音訊訊框內之總和或平方誤差總和(SSE)的值。
舉例而言,以下等式可用以導出最小化誤差度量之α值:
Figure TWI612517BD00115
Figure TWI612517BD00116
Figure TWI612517BD00117
Figure TWI612517BD00118
=[0.9852 0.9889 0.9913 0.9924 0.9912 0.9898 0.9886 0.9870] (28)
等式(27)可用於獲得針對I個音訊訊框內之權重值之給定集合最小化等式(24)中所示之誤差度量的α j 。表達式(28)說明可自圖14中所示之權重值的樣本分佈獲得之實例值。
圖19說明其中α j 基於等式(19)定義之僅PVQ模式之效能特性。在比較圖18及圖19之僅PVQ模式組態中,基於等式(19)定義α j (圖19)可提供比圖18更好之效能。此外,「位元」行定義用以表示每一權重值之位元之數目。隨著位元之數目增加,如以分貝(dB)指定之信雜比 (SNR)增加。SNR增加可允許V-向量寫碼單元52為相對大之目標位元率41選擇較多位元且為相對小之目標位元率41選擇較少位元。
圖20A及圖20B為根據本發明的說明「僅PVQ模式」及「僅VQ模式」之比較實例效能特性的表格。圖20A及圖20B中所示之表格含有位元行及信雜比(SNR)行。在圖20A及圖20B之實例中,「位元」行可指示用以表示每一輸入V-向量之經量化之權重值(例如,經量化之預測或非預測權重值)的位元之數目。
在圖20A之實例中,假定模式位元並未在選擇位元中單獨傳信(亦即,假定CodebkIdx語法元素並不需要包括可表示模式位元的額外位元來單獨識別預測向量量化模式),為權重值之位元長度中之每一者提供SNR值,實情為,表示量化模式之NbitsQ語法元素可藉由(作為一項實例)指定如關於替代語法表所描述之先前保留的為3之值(或任何其他保留值)來單獨指示預測向量量化。用以表示圖20B中之輸入V-向量之經量化的權重值之位元之數目可包括模式位元,該模式位元指示是否執行預測或非預測向量量化以量化輸入V-向量。在用以表示經量化之權重值之位元包括模式位元之條件下,並未指定1個位元之SNR,因為需要兩個或兩個以上位元,亦即,一個位元用於每一權重且一個位元用於模式位元。
圖20A及圖20B之實例中之位元可指示量化碼簿中之複數個量化向量中之哪一者對應於經量化之權重值。因此,在一些實例中,位元行可取決於經選擇以表示V-向量之權重值的數目(亦即,Y)或取決於用以執行向量量化之量化碼簿中之向量的大小。
SNR行指示與使用切換式預測量化模式以對應位元率量化權重值之樣本分佈相關聯的SNR。如圖20A及圖20B中所示,用於位元率為1之SNR行並不適用(N/A),因為位元率為1將顧及模式位元或指示量化向量之位元而非該兩者。因此,相較於單獨使用非預測或預測向量量 化模式中之任一者,切換式預測向量量化模式將額外負荷之額外位元添加至量化碼字。
下表說明根據本發明之「僅PVQ模式」、「僅VQ模式」及「啟用SPVQ之模式」的比較實例效能特性。下文所示之表格含有位元行、向量量化(VQ)行(僅VQ模式)、預測向量量化(PVQ)行(僅PVQ模式)及切換式預測向量量化(SPVQ)行(啟用SPVQ之模式)。可存在用於僅VQ模式、僅PVQ模式及僅SPVQ模式(切換)之專用NbitsQ語法元素值以執行不同類型之量化向量量化模式,效能(以dB為單元)於下表中捕獲。
Figure TWI612517BD00119
在上文所示之此替代表格中,啟用SPVQ之模式超過用於經量化權重值之每一位元長度下之僅VQ模式(例如,非預測VQ)。
在實例表格中,「位元」行可指示用以表示每一輸入V-向量之經量化之權重值(例如,經量化之預測或非預測權重值)之位元的數目。用以表示用於啟用SPVQ的模式之經量化之權重值的位元之數目可包括模式位元,而用以表示用於其他模式之經量化之權重值的位元的數目可不包括模式位元。VQ行、PVQ行及SPVQ行指示與根據其各別向量量化模式以對應位元率執行向量量化相關聯之SNR。
啟用SPVQ之模式提供在較低位元表示下之較好表示(其可用於藉由目標位元率41指定之相對低之位元率,該等位元率允許每個經量化之權重值4個或更少的位元)。僅VQ模式(其表示執行NPVQ而不啟用SPVQ,意謂不允許切換至PVQ)提供在較高位元率下之較好效能(其 可用於藉由目標位元率41指定之相對高之位元率,該等位元率允許每個經量化之權重值5個或更多的位元)。
儘管僅PVQ模式(其表示執行PVQ而不啟用SPVQ,意謂不允許切換至NPVQ)並不提供在位元分配層級中之任一者下之較好效能,但使用PVQ作為啟用SPVQ之模式的部分可提供比僅單獨使用VQ模式低之位元率下之改良的效能。此外,當模式位元不用於支援傳信預測向量量化之專用NbitsQ語法元素值(諸如,為3之值)時,可將用於實例表格中所示之SPVQ的各種SNR量測向上移位。
就此而言,音訊編碼器件20可根據以下步驟操作。
步驟1.對於方向向量之給定集合,音訊編碼器件20可計算每一方向向量之加權值。
步驟2.音訊編碼器件20可選擇N-最大值加權值{w_i},及對應方向向量{o_i}。音訊編碼器件20可將索引{i}傳輸至解碼器。在計算最大值中,音訊編碼器件20可使用絕對值(藉由忽略正負號資訊)。
步驟3.音訊編碼器件20可量化N-最大值加權值{w_i}以產生{w^_i}。音訊編碼器件20可將{w^_i}之量化索引傳輸至音訊解碼器件24。
步驟4.音訊解碼器件24可將經量化之V-向量合成為sum_i(w^_i * o_i)。
在一些實例中,本發明之技術可提供效能之顯著改良。舉例而言,與使用純量量化繼之以霍夫曼寫碼相比,可獲得近似85%之位元率減少。舉例而言,在一些實例中,純量量化繼之以霍夫曼寫碼可需要16.26kbps(每秒千位元)之位元率,而本發明之技術在一些實例中可能夠以2.75kbsp之位元率進行寫碼。
考慮使用來自碼簿之X個碼向量(及X個對應權重)寫碼V-向量之實例。在一些實例中,位元串流產生單元42可產生位元串流21以使得 藉由3種類別之參數來表示每一V-向量:(1)X數目個索引,每一索引指向碼向量之碼簿(例如,經正規化之方向向量之碼簿)中之一特定向量;(2)與上述索引相配之對應(X)數目個權重;及(3)用於上述(X)數目個權重中之每一者之正負號位元。在一些狀況下,可使用又一向量量化(VQ)將X數目個權重進一步量化。
在此實例中用於判定權重之分解碼簿可選自候選碼簿之集合。舉例而言,碼簿可為8個不同碼簿中之一者。此等碼簿中之每一者可具有不同長度。因此,例如,不僅用以判定6階HOA內容之權重的大小為49之碼簿可給出使用8個不同大小之碼簿中之任一者的選項,而且本發明之技術亦可給出使用8個不同大小之碼簿中之任一者的選項。
用於進行權重之VQ之量化碼簿在一些實例中亦可具有與用以判定權重之可能的分解碼簿之數目相同的對應數目個可能的碼簿。因此,在一些實例中,可能存在用於判定權重之可變數目個不同的碼簿,及用於量化權重之可變數目個碼簿。
在一些實例中,用以估計V-向量之權重之數目(亦即,經選擇用於進行量化之權重之數目)可為可變的。舉例而言,可設定臨限值誤差準則,且經選擇用於量化之權重之數目(X)可取決於達到誤差臨限制,其中誤差閾值描述於上文。
在一些實例中,可在位元串流中傳信上文所提及之概念中之一或多者。考慮以下實例:用以寫碼V-向量之權重之最大數目經設定為128個權重,且使用8個不同的量化碼簿來量化權重。在此實例中,位元串流產生單元42可產生位元串流21以使得位元串流21中之存取訊框單元指示可基於逐個訊框使用之索引之最大數目。在此實例中,索引之最大數目為自0至128之數目,因此上文所提及之資料可消耗存取訊框單元中之7個位元。
在上文所提及之實例中,在逐個訊框之基礎上,位元串流產生單元42可產生位元串流21以包括指示以下情形之資料:(1)使用8個不同碼簿中之哪一者來進行VQ(對於每個V-向量);及(2)用以寫碼每一V-向量之索引之實際數目(X)。在此實例中,指示使用8個不同碼簿中之哪一者來進行VQ之資料可消耗3個位元。指示用以寫碼每一V-向量之索引之實際數目(X)的資料可藉由存取訊框單元中所指定之索引之最大數目給定。在此實例中,此數目可自0個位元至7個位元變化。
在一些實例中,位元串流產生單元42可產生位元串流21以包括以下各者:(1)指示選擇及傳輸哪些方向向量之索引(根據所計算之加權值);及(2)用於每一所選擇之方向向量之加權值。在一些實例中,本發明可提供用於對經正規化之球諧碼向量之碼簿使用分解而進行V-向量之量化的技術,亦即,音量碼向量為正規正交的。
在一些實例中,PVQ單元540可包括碼簿訓練階段,其可產生RCB 65B中之候選量化向量。在碼簿訓練階段期間,可用以下等式替換用於產生圖8A至圖8H之實例中所示之預測權重值的等式:r i,j =|ω i,j |-α j |ω i-1,j |
其中r i,j 對應於來自第i個音訊訊框之權重值之有序子集的第j個權重值之預測權重值,其中ω i,j 對應於來自第i個音訊訊框之權重值之有序子集的第j個權重值,ω i-1,j 對應於來自第(i-1)個音訊訊框之權重值之有序子集的第j個權重值,α j 對應於來自權重值之有序子集的第j個權重值的加權因數。換言之,預測向量量化單元540可使用以上再生之等式以在訓練階段期間產生RCB 65B中之候選量化向量。
在另外的實例中,預測向量量化單元540可包括編碼階段。在編碼階段中,音訊編碼器件20及/或預測向量量化單元540可使用圖8中所示之用於預測權重值620的等式。舉例而言,在編碼階段中,音訊編碼器件20及/或預測向量量化單元540可藉由利用RCB 65B將差
Figure TWI612517BD00120
(亦即,預測權重值)量化為
Figure TWI612517BD00121
。預測向量量化單元540可將用於
Figure TWI612517BD00122
之對應索引傳輸至解碼器。
在另外的實例中,音訊編碼器件20(例如,藉助於預測向量量化單元540)及音訊解碼器件24可實施解碼階段。在解碼階段中,音訊編碼器件20及音訊解碼器件24可使用傳輸之索引重建構經量化之預測權重值
Figure TWI612517BD00123
。音訊編碼器件20(例如,此外藉助於預測向量量化單元540)及音訊解碼器件24可基於以下等式重建構|ω i,j |之經量化版本:
Figure TWI612517BD00124
。音訊編碼器件20及音訊解碼器件24可使用經重建構之|
Figure TWI612517BD00125
|作為下一時間區段(例如,訊框或子訊框)中之|
Figure TWI612517BD00126
|。因此,|
Figure TWI612517BD00127
|可為前一時間區段(例如,訊框或子訊框)之|
Figure TWI612517BD00128
|的經量化版本。
在此等及其他情況下,音訊編碼器件20及/或預測向量量化單元540經組態以基於對應於碼向量之一或多個加權總和中所包括之權重的複數個權重值判定複數個預測權重值,該等碼向量表示複數個較高階立體混響聲(HOA)係數之基於向量的合成版本中所包括之一或多個向量。在一些實例中,預測權重值可替代地被稱為(例如)殘數、預測殘數、殘餘權重值、權重值差、誤差值、殘餘權重誤差或預測誤差。
可關於任何數目個不同內容脈絡及音訊生態系統執行前述技術中之任一者。一實例音訊生態系統可包括音訊內容、電影工作室、音樂工作室、遊戲音訊工作室、基於頻道之音訊內容、寫碼引擎、遊戲音訊主體、遊戲音訊寫碼/轉譯引擎,及遞送系統。
電影工作室、音樂工作室及遊戲音訊工作室可接收音訊內容。在一些實例中,音訊內容可表示獲取之輸出。電影工作室可諸如藉由使用數位音訊工作站(DAW)輸出基於頻道之音訊內容(例如,呈2.0、5.1及7.1)。音樂工作室可諸如藉由使用DAW輸出基於頻道之音訊內容(例如,呈2.0及5.1)。在任一狀況下,寫碼引擎可基於一或多個編碼解碼器(例如,AAC、AC3、Dolby True HD、Dolby Digital Plus及 DTS Master Audio)接收並編碼基於頻道之音訊內容以供由遞送系統輸出。遊戲音訊工作室可諸如藉由使用DAW輸出一或多個遊戲音訊主體。遊戲音訊寫碼/轉譯引擎可寫碼音訊主體及或將音訊主體轉譯為基於頻道之音訊內容以供由遞送系統輸出。可執行該等技術之另一實例內容脈絡包含音訊生態系統,其可包括廣播記錄音訊物件、專業音訊系統、消費型器件上捕獲、HOA音訊格式、器件上轉譯、消費型音訊、TV及附件,及汽車音訊系統。
廣播記錄音訊物件、專業音訊系統及消費型器件上捕獲皆可使用HOA音訊格式寫碼其輸出。以此方式,可使用HOA音訊格式將音訊內容寫碼成單一表示,可使用器件上轉譯、消費型音訊、TV及附件及汽車音訊系統播放該單一表示。換言之,可在通用音訊播放系統(亦即,與需要諸如5.1、7.1等之特定組態之情形相反)(諸如,音訊播放系統16)處播放音訊內容之單一表示。
可執行該等技術之內容脈絡之其他實例包括音訊生態系統,其可包括獲取元件及播放元件。獲取元件可包括有線及/或無線獲取器件(例如,Eigen麥克風)、器件上環繞聲捕獲及行動器件(例如,智慧型手機及平板電腦)。在一些實例中,有線及/或無線獲取器件可經由有線及/或無線通信頻道耦接至行動器件。
根據本發明之一或多個技術,行動器件可用以獲取音場。舉例而言,行動器件可經由有線及/或無線獲取器件及/或器件上環繞聲捕獲(例如,整合至行動器件中之複數個麥克風)獲取音場。行動器件可接著將所獲取音場寫碼成HOA係數以用於由播放元件中之一或多者播放。舉例而言,行動器件之使用者可記錄實況事件(例如,集會、會議、戲劇、音樂會等)(獲取其音場)且將記錄寫碼為HOA係數。
行動器件亦可利用播放元件中之一或多者來播放HOA經寫碼音場。舉例而言,行動器件可解碼HOA經寫碼音場,且將使得播放元件 中之一或多者重創建音場之信號輸出至播放元件中之一或多者。作為一項實例,行動器件可利用無線及/或無線通信頻道將信號輸出至一或多個揚聲器(例如,揚聲器陣列、聲棒等)。作為另一實例,行動器件可利用銜接解決方案將信號輸出至一或多個銜接台及/或一或多個銜接之揚聲器(例如,智慧型汽車及/或家庭中之聲音系統)。作為另一實例,行動器件可利用頭戴式耳機轉譯將信號輸出至一組頭戴式耳機(例如)以創建實際的雙耳聲音。
在一些實例中,特定行動器件可獲取3D音場並且在稍後時間播放相同或類似的3D音場。在一些實例中,行動器件可獲取3D音場,將該3D音場編碼為HOA,且將經編碼3D音場傳輸至一或多個其他器件(例如,其他行動器件及/或其他非行動器件)以用於播放。
可執行該等技術之又一內容脈絡包括音訊生態系統,其可包括音訊內容、遊戲工作室、經寫碼音訊內容、轉譯引擎及遞送系統之。在一些實例中,遊戲工作室可包括可支援HOA信號之編輯的一或多個DAW。舉例而言,該一或多個DAW可包括HOA外掛程式及/或可經組態以與一或多個遊戲音訊系統一起操作(例如,工作)之工具。在一些實例中,遊戲工作室可輸出支援HOA之新主體格式。在任何狀況下,遊戲工作室可將經寫碼音訊內容輸出至轉譯引擎,該轉譯引擎可轉譯音場以供由遞送系統播放。
亦可關於例示性音訊獲取器件執行該等技術。舉例而言,可關於Eigen麥克風(或諸如與麥克風陣列5相關聯之其他類型之麥克風陣列)執行該等技術,該Eigen麥克風可包括共同經組態以記錄3D音場之複數個麥克風。在一些實例中,Eigen麥克風之該複數個麥克風可位於具有近似4cm之半徑的實質上球面球之表面上。在一些實例中,音訊編碼器件20可整合至Eigen麥克風中以便直接自麥克風輸出位元串流21。
另一例示性音訊獲取內容脈絡可包括可經組態以接收來自一或多個麥克風(諸如,一或多個Eigen麥克風)之信號的製作車。製作車亦可包括音訊編碼器,諸如圖3之音訊編碼器件20。
在一些情況下,行動器件亦可包括共同地經組態以記錄3D音場之複數個麥克風。換言之,該複數個麥克風可具有X、Y、Z分集。在一些實例中,行動器件可包括可旋轉以關於行動器件之一或多個其他麥克風提供X、Y、Z分集之麥克風。行動器件亦可包括音訊編碼器,諸如圖3之音訊編碼器件20。
加固型視訊捕獲器件可進一步經組態以記錄3D音場。在一些實例中,加固型視訊捕獲器件可附接至參與活動的使用者之頭盔。舉例而言,加固型視訊捕獲器件可在使用者泛舟時附接至使用者之頭盔。以此方式,加固型視訊捕獲器件可捕獲表示使用者周圍之動作(例如,水在使用者身後的撞擊、另一泛舟者在使用者前方說話,等等)的3D音場。
亦可關於可經組態以記錄3D音場之附件增強型行動器件執行該等技術。在一些實例中,行動器件可類似於上文所論述之行動器件,其中添加一或多個附件。舉例而言,Eigen麥克風可附接至上述之行動器件以形成附件增強型行動器件。以此方式,與僅使用與附件增強型行動器件成一體式之聲音捕獲組件之情形相比較,附件增強型行動器件可捕獲3D音場之較高品質版本。
下文進一步論述可執行本發明中所描述之技術之各種態樣的實例音訊播放器件。根據本發明之一或多個技術,揚聲器及/或聲棒可配置於任何任意組態中,同時仍播放3D音場。此外,在一些實例中,頭戴式耳機播放器件可經由有線或無線連接耦接至音訊解碼器件24。根據本發明之一或多個技術,基於解碼位元串流(其基於使用較高階立體混響聲之向量分解架構)之音場的表示可用於轉譯揚聲器、 聲棒及頭戴式耳機播放器件之任何組合上的音場。
數個不同實例音訊播放環境亦可適合於執行本發明中所描述之技術之各種態樣。舉例而言,以下環境可為用於執行本發明中所描述之技術之各種態樣的合適環境:5.1揚聲器播放環境、2.0(例如,立體聲)揚聲器播放環境、具有全高前擴音器之9.1揚聲器播放環境、22.2揚聲器播放環境、16.0揚聲器播放環境、汽車揚聲器播放環境,及具有耳掛式耳機播放環境之行動器件。
根據本發明之一或多個技術,基於解碼位元串流(其基於使用較高階立體混響聲之向量分解架構)之音場的表示可用於轉譯前述播放環境中之任一者上的音場。另外,本發明之技術使得轉譯器能夠基於解碼位元串流(其基於使用較高階立體混響聲之向量分解架構)之音場的表示以用於在除上文所描述之播放環境之外的播放環境上播放。舉例而言,若設計考慮禁止揚聲器根據7.1揚聲器播放環境之恰當置放(例如,若不可能置放右環繞揚聲器),則本發明之技術使得轉譯器能夠藉由其他6個揚聲器而進行補償,使得可在6.1揚聲器播放環境上達成播放。
此外,使用者可在佩戴頭戴式耳機時觀看運動比賽。根據本發明之一或多個技術,可獲取運動比賽之3D音場(例如,可將一或多個Eigen麥克風置放於棒球場中及/或周圍),可獲得對應於3D音場之HOA係數且將該等HOA係數傳輸至解碼器,該解碼器可基於HOA係數重建構3D音場且將經重建構之3D音場輸出至轉譯器,該轉譯器可獲得關於播放環境之類型(例如,頭戴式耳機)之指示,且將經重建構之3D音場轉譯成使得頭戴式耳機輸出運動比賽之3D音場之表示的信號。
在上文所描述之各種情況中之每一者中,應理解,音訊編碼器件20可執行一方法或另外包含用以執行音訊編碼器件20經組態以執行 的方法之每一步驟的構件。舉例而言,音訊編碼器件20之局部權重解碼器單元524A至524B可執行基於記憶體之向量量化技術中之各種態樣。作為另一實例,音訊編碼器件20之切換式預測向量量化單元560亦可執行本發明中所描述之技術之切換式向量量化態樣之各種態樣。
在一些情況下,構件可包含一或多個處理器。在一些情況下,該一或多個處理器可表示藉助於儲存至非暫時性電腦可讀儲存媒體之指令組態之專用處理器。換言之,編碼實例集合中之每一者中之技術的各種態樣可提供非暫時性電腦可讀儲存媒體,其具有儲存於其上之指令,該等指令在執行時使得一或多個處理器執行音訊編碼器件20已經組態以執行之方法。
在一或多個實例中,所描述功能可以硬體、軟體、韌體或其任何組合來實施。若以軟體實施,則該等功能可作為一或多個指令或程式碼儲存於電腦可讀媒體上或經由電腦可讀媒體進行傳輸,且由基於硬體之處理單元執行。電腦可讀媒體可包括電腦可讀儲存媒體,其對應於諸如資料儲存媒體之有形媒體。資料儲存媒體可為可由一或多個電腦或一或多個處理器存取以擷取用於實施本發明中所描述之技術的指令、程式碼及/或資料結構的任何可用媒體。電腦程式產品可包括電腦可讀媒體。
同樣,在上文所描述之各種情況中之每一者中,應理解,音訊解碼器件24可執行一方法或另外包含用以執行音訊解碼器件24經組態以執行的方法之每一步驟的構件。舉例而言,音訊解碼器件24之局部權重解碼器單元524A至524B可執行基於記憶體之向量量化技術中之各種態樣。作為另一實例,音訊解碼器件24之切換式預測向量量化單元760亦可執行本發明中所描述之技術之切換式向量量化態樣之各種態樣。
在一些情況下,構件可包含一或多個處理器。在一些情況下, 該一或多個處理器可表示藉助於儲存至非暫時性電腦可讀儲存媒體之指令組態之專用處理器。換言之,編碼實例集合中之每一者中之技術的各種態樣可提供非暫時性電腦可讀儲存媒體,其具有儲存於其上之指令,該等指令在執行時使得一或多個處理器執行音訊解碼器件24已經組態以執行之方法。
藉助於實例而非限制,此等電腦可讀儲存媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器、磁碟儲存器件或其他磁性儲存器件、快閃記憶體或可用以儲存呈指令或資料結構形式之所要程式碼且可由電腦存取的任何其他媒體。然而,應理解,電腦可讀儲存媒體及資料儲存媒體不包括連接、載波、信號或其他暫時性媒體,而取而代之,係有關非暫時性有形儲存媒體。如本文所使用,磁碟及光碟包括緊密光碟(CD)、雷射光碟、光學光碟、數位多功能光碟(DVD)、軟性磁碟及Blu-ray光碟,其中磁碟通常以磁性方式再現資料,而光碟用雷射以光學方式再現資料。以上各者之組合亦應包含括於電腦可讀媒體之範疇內。
可藉由諸如一或多個數位信號處理器(DSP)、通用微處理器、特殊應用積體電路(ASIC)、場可程式化邏輯陣列(FPGA)或其他等效積體或離散邏輯電路之一或多個處理器來執行指令。因此,如本文中所使用之術語「處理器」可指上述結構或適合於實施本文中所描述之技術的任何其他結構中的任一者。另外,在一些態樣中,本文中所描述之功能性可提供於經組態用於編碼及解碼的專用硬體及/或軟體模組內,或併入於組合式編碼解碼器中。此外,該等技術可充分實施於一或多個電路或邏輯元件中。
本發明之技術可在廣泛多種的器件或裝置中實施,該等器件或裝置包括無線手機、積體電路(IC)或一組IC(例如,晶片組)。本發明中描述各種組件、模組或單元以強調經組態以執行所揭示之技術之器 件的功能態樣,但未必要求由不同硬體單元來實現。確切地,如上文所描述,各種單元可結合合適的軟體及/或韌體組合於編碼解碼器硬體單元中或由互操作性硬體單元之集合提供,該等硬體單元包括如上文所描述之一或多個處理器。
已描述該等技術之各種態樣。該等技術之此等及其他態樣在以下申請專利範圍之範疇內。
41‧‧‧目標位元率
52A‧‧‧V-向量寫碼單元
55(i)‧‧‧向量
57(i)‧‧‧經量化之向量
63‧‧‧方位角-仰角碼簿
65A‧‧‧權重碼簿
65B‧‧‧殘餘碼簿
502‧‧‧近似單元
503‧‧‧權重
504‧‧‧排序及選擇單元
505‧‧‧有序權重
511‧‧‧索引/語法元素
515‧‧‧語法元素
519‧‧‧語法元素
519A‧‧‧語法元素
519B‧‧‧語法元素
520‧‧‧非預測向量量化(NPVQ)單元
521‧‧‧語法元素
530‧‧‧緩衝器單元
533‧‧‧非預測向量量化(NPVQ)向量
540‧‧‧預測向量量化(PVQ)單元
541‧‧‧向量量化(VQ)誤差
543(i)‧‧‧向量量化(VQ)向量
550‧‧‧純量量化單元
551(i)‧‧‧向量
560‧‧‧切換式預測向量量化單元
562‧‧‧非預測向量量化/預測向量量化(NPVQ/PVQ)選擇單元
564‧‧‧向量量化/純量量化(VQ/SQ)選擇單元
565‧‧‧選擇資訊
571‧‧‧音量碼向量
600‧‧‧權重
602‧‧‧權重

Claims (20)

  1. 一種經組態以解碼一位元串流之器件,其包含:一或多個處理器,其經組態以:自該位元串流提取量化模式之一類型;及基於量化模式之該類型,在重建構用以近似一較高階立體混響聲域中之一多方向V-向量的一或多個權重之一第一集合的非預測向量解量化與重建構用以近似該較高階立體混響聲域中之該多方向V-向量的一或多個權重之一第二集合的預測向量解量化之間切換;電耦接至該一或多個處理器之一記憶體,其經組態以儲存用以近似該較高階立體混響聲域中之該多方向V-向量之一或多個權重的該經重建構之第一集合及用以近似該較高階立體混響聲域中之該多方向V-向量之一或多個權重的該經重建構之第二集合。
  2. 如請求項1之器件,其中該一或多個處理器經進一步組態以自該位元串流提取複數個V-向量索引且基於該複數個V-向量索引擷取複數個音量碼向量。
  3. 如請求項2之器件,其中該一或多個處理器經進一步組態以基於該較高階立體混響聲域中之該複數個音量碼向量及用以近似該較高階立體混響聲域中之該多方向V-向量之一或多個權重之該經重建構之第一集合或用以近似該較高階立體混響聲域中之該多方向V-向量之一或多個權重之該經重建構之第二集合來重建構該較高階立體混響聲域中之該多方向V-向量。
  4. 如請求項3之器件,其中該較高階立體混響聲域中之該複數個音量碼向量中之每一音量碼向量係基於以藉由方位角及仰角之一集合定義之複數個角方向中之一者定向之球諧基底函數之一線 性組合。
  5. 如請求項4之器件,其中該複數個角方向係基於一麥克風陣列之一幾何結構或係定義於該記憶體中所儲存之一表格中。
  6. 如請求項3之器件,其進一步包含一擴音器,該擴音器經組態以基於該較高階立體混響聲域中之該多方向V-向量輸出一揚聲器饋入。
  7. 一種解碼一位元串流之方法,其包含:自該位元串流提取量化模式之一類型;及基於量化模式之該類型,在重建構用以近似一較高階立體混響聲域中之一多方向V-向量的一或多個權重之一第一集合的非預測向量解量化與重建構用以近似該較高階立體混響聲域中之該多方向V-向量的一或多個權重之一第二集合的預測向量解量化之間切換;及自一緩衝器單元擷取用以近似該較高階立體混響聲域中之該多方向V-向量之一或多個權重的一先前經重建構之集合,其中一或多個權重之該先前經重建構之集合係基於一非預測向量解量化或一預測向量解量化。
  8. 如請求項7之方法,其中該非預測向量解量化包含:自該位元串流提取一權重索引;及基於一權重碼簿對該權重索引進行向量解量化以重建構用以近似該較高階立體混響聲域中之該多方向V-向量之一或多個權重的該第一集合。
  9. 如請求項7之方法,其中該預測向量解量化包含:自該位元串流提取一權重索引;基於一殘餘碼簿對該權重索引進行向量解量化以獲得用以近似該較高階立體混響聲域中之該多方向V-向量之一殘餘權重誤差 集合;及基於用以近似該較高階立體混響聲域中之該多方向V-向量之該殘餘權重誤差集合及用以近似該較高階立體混響聲域之一或多個權重之該先前經重建構的集合來重建構一或多個權重之該第二集合。
  10. 一種經組態以解碼一位元串流之裝置,其包含:用於自該位元串流提取量化模式之一類型的構件;及用於基於量化模式之該類型在重建構用以近似一較高階立體混響聲域中之多方向V-向量的一或多個權重之一第一集合的非預測向量解量化與重建構用以近似該較高階立體混響聲域中之該多方向V-向量的一或多個權重之一第二集合的預測向量解量化之間切換的構件;及用於儲存用以近似該較高階立體混響聲域中之該多方向V-向量之一或多個權重的該經重建構之第一集合及用以近似該較高階立體混響聲域中之該多方向V-向量之一或多個權重的該經重建構之第二集合的構件。
  11. 一種經組態以產生一位元串流之器件,其包含:一記憶體,其經組態以儲存用以近似一較高階立體混響聲域中之一多方向V-向量之一或多個權重的一第一集合及用以近似該較高階立體混響聲域中之該多方向V-向量之一或多個權重的一第二集合;電耦接至該記憶體之一或多個處理器,其經組態以:在用以近似該較高階立體混響聲域中之該多方向V-向量的一或多個權重之該第一集合的非預測向量量化與用以近似該較高階立體混響聲域中之該多方向V-向量的一或多個權重之該第二集合的預測向量量化之間切換;及 在包括該較高階立體混響聲域中之該多方向V-向量之一表示的該位元串流中指定指示該切換之量化模式的一類型。
  12. 如請求項11之器件,其中該一或多個處理器經進一步組態以基於該複數個音量碼向量及一或多個經重建構之權重來重建構一多方向V-向量。
  13. 如請求項12之器件,其中該複數個音量碼向量中之每一音量碼向量在該較高階立體混響聲域中且係基於以藉由方位角及仰角之一集合定義之複數個角方向中之一者定向之球諧基底函數之一線性組合。
  14. 如請求項13之器件,其中該複數個角方向係基於一麥克風陣列之一幾何結構或定義於該記憶體中所儲存之一表格中。
  15. 如請求項11之器件,其進一步包含一麥克風陣列,該麥克風陣列經組態以藉由以不同方位角及仰角定位之麥克風捕獲一音訊信號。
  16. 一種產生一位元串流之方法,其包含:在用以近似一較高階立體混響聲域中之一多方向V-向量的一或多個權重之一第一集合的非預測向量量化與用以近似該較高階立體混響聲域中之該多方向V-向量的一或多個權重之一第二集合的預測向量量化之間切換;在用以近似該較高階立體混響聲域中之該多方向V-向量的一或多個權重之該第二集合的預測向量量化期間,自一緩衝器單元擷取用以近似該較高階立體混響聲域中之該多方向V-向量之一或多個權重的一先前經重建構之集合,其中一或多個權重之該先前經重建構之集合係基於一非預測向量解量化或一預測向量解量化;及在該位元串流中指定指示該切換之量化模式的一類型。
  17. 如請求項16之方法,其中該非預測向量量化包含基於一權重碼簿對用以近似該較高階立體混響聲域中之該多方向V-向量之一或多個權重的該第一集合進行向量量化以判定一權重索引。
  18. 如請求項17之方法,其中該預測向量量化包含:基於一或多個權重之該第二集合及一或多個權重之一經重建構之集合來判定一殘餘權重誤差集合;及基於一殘餘碼簿對該殘餘權重誤差集合進行向量量化以判定該權重索引。
  19. 一種經組態以產生一位元串流之裝置,其包含:用於在用以近似一較高階立體混響聲域中之一多方向V-向量的一或多個權重之一第一集合的非預測向量量化與用以近似該較高階立體混響聲域中之該多方向V-向量的一或多個權重之一第二集合的預測向量量化之間切換的構件;用於在用以近似該較高階立體混響聲域中之該多方向V-向量的一或多個權重之該第二集合的預測向量量化期間,自一記憶體擷取用以近似該較高階立體混響聲域中之該多方向V-向量之一或多個權重的一先前經重建構之集合的構件,其中一或多個權重之該先前經重建構之集合係基於一編碼器之一局部解碼器中的一非預測向量解量化或該編碼器的該局部解碼器中的一預測向量解量化;及用於在該位元串流中指定指示該切換之量化模式的一類型的構件。
  20. 如請求項19之裝置,其進一步包含一麥克風陣列,該麥克風陣列經組態以藉由以不同方位角及仰角定位之麥克風捕獲一音訊信號。
TW104131934A 2014-09-26 2015-09-25 較高階立體混響聲(hoa)架構中於預測及非預測量化技術間切換 TWI612517B (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201462056286P 2014-09-26 2014-09-26
US201462056248P 2014-09-26 2014-09-26
US62/056,286 2014-09-26
US62/056,248 2014-09-26
US14/858,685 2015-09-18
US14/858,685 US9747910B2 (en) 2014-09-26 2015-09-18 Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework

Publications (2)

Publication Number Publication Date
TW201618077A TW201618077A (zh) 2016-05-16
TWI612517B true TWI612517B (zh) 2018-01-21

Family

ID=54292914

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104131934A TWI612517B (zh) 2014-09-26 2015-09-25 較高階立體混響聲(hoa)架構中於預測及非預測量化技術間切換

Country Status (5)

Country Link
US (1) US9747910B2 (zh)
EP (1) EP3198595B1 (zh)
CN (1) CN107004420B (zh)
TW (1) TWI612517B (zh)
WO (1) WO2016048893A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI834163B (zh) * 2021-05-17 2024-03-01 大陸商華為技術有限公司 三維音頻訊號編碼方法、裝置和編碼器

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9883312B2 (en) 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
KR102280943B1 (ko) * 2014-02-27 2021-07-22 텔레폰악티에볼라겟엘엠에릭슨(펍) 오디오/비디오 샘플 벡터의 피라미드 벡터 양자화 인덱싱 및 디인덱싱을 위한 방법 및 장치
CN110444217B (zh) 2014-05-01 2022-10-21 日本电信电话株式会社 解码装置、解码方法、记录介质
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
CN105959905B (zh) * 2016-04-27 2017-10-24 北京时代拓灵科技有限公司 混合模式空间声生成系统与方法
US10217467B2 (en) * 2016-06-20 2019-02-26 Qualcomm Incorporated Encoding and decoding of interchannel phase differences between audio signals
US10366698B2 (en) * 2016-08-30 2019-07-30 Dts, Inc. Variable length coding of indices and bit scheduling in a pyramid vector quantizer
US10410098B2 (en) * 2017-04-24 2019-09-10 Intel Corporation Compute optimizations for neural networks
CN110945494B (zh) * 2017-07-28 2024-06-21 杜比实验室特许公司 向客户端提供媒体内容的方法和系统
CN112005532B (zh) * 2017-11-08 2023-04-04 爱维士软件有限责任公司 用于对可执行文件进行分类的方法、系统和存储介质
US10796704B2 (en) * 2018-08-17 2020-10-06 Dts, Inc. Spatial audio signal decoder
US11205435B2 (en) 2018-08-17 2021-12-21 Dts, Inc. Spatial audio signal encoder
US11362671B2 (en) * 2019-03-25 2022-06-14 Ariel Scientific Innovations Ltd. Systems and methods of data compression
US20200402521A1 (en) * 2019-06-24 2020-12-24 Qualcomm Incorporated Performing psychoacoustic audio coding based on operating conditions
US11538489B2 (en) 2019-06-24 2022-12-27 Qualcomm Incorporated Correlating scene-based audio data for psychoacoustic audio coding
US11361776B2 (en) * 2019-06-24 2022-06-14 Qualcomm Incorporated Coding scaled spatial components
WO2021130754A1 (en) 2019-12-23 2021-07-01 Ariel Scientific Innovations Ltd. Systems and methods of data compression
KR20220009563A (ko) * 2020-07-16 2022-01-25 한국전자통신연구원 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6493664B1 (en) * 1999-04-05 2002-12-10 Hughes Electronics Corporation Spectral magnitude modeling and quantization in a frequency domain interpolative speech codec system
US20120221344A1 (en) * 2009-11-13 2012-08-30 Panasonic Corporation Encoder apparatus, decoder apparatus and methods of these

Family Cites Families (126)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1159034B (it) 1983-06-10 1987-02-25 Cselt Centro Studi Lab Telecom Sintetizzatore vocale
US5012518A (en) 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US5583962A (en) 1991-01-08 1996-12-10 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
US5757927A (en) 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
US5790759A (en) 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
US5819215A (en) 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
JP3849210B2 (ja) 1996-09-24 2006-11-22 ヤマハ株式会社 音声符号化復号方式
US5821887A (en) 1996-11-12 1998-10-13 Intel Corporation Method and apparatus for decoding variable length codes
US6167375A (en) 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
US6263312B1 (en) 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
AUPP272698A0 (en) 1998-03-31 1998-04-23 Lake Dsp Pty Limited Soundfield playback from a single speaker system
EP1018840A3 (en) 1998-12-08 2005-12-21 Canon Kabushiki Kaisha Digital receiving apparatus and method
US6370502B1 (en) 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
US20020049586A1 (en) 2000-09-11 2002-04-25 Kousuke Nishio Audio encoder, audio decoder, and broadcasting system
JP2002094989A (ja) 2000-09-14 2002-03-29 Pioneer Electronic Corp ビデオ信号符号化装置及びビデオ信号符号化方法
US20020169735A1 (en) 2001-03-07 2002-11-14 David Kil Automatic mapping from data to preprocessing algorithms
GB2379147B (en) 2001-04-18 2003-10-22 Univ York Sound processing
US20030147539A1 (en) 2002-01-11 2003-08-07 Mh Acoustics, Llc, A Delaware Corporation Audio system based on at least second-order eigenbeams
US7262770B2 (en) 2002-03-21 2007-08-28 Microsoft Corporation Graphics image rendering with radiance self-transfer for low-frequency lighting environments
US8160269B2 (en) 2003-08-27 2012-04-17 Sony Computer Entertainment Inc. Methods and apparatuses for adjusting a listening area for capturing sounds
EP2282310B1 (en) 2002-09-04 2012-01-25 Microsoft Corporation Entropy coding by adapting coding between level and run-length/level modes
FR2844894B1 (fr) 2002-09-23 2004-12-17 Remy Henri Denis Bruno Procede et systeme de traitement d'une representation d'un champ acoustique
US6961696B2 (en) 2003-02-07 2005-11-01 Motorola, Inc. Class quantization for distributed speech recognition
US7920709B1 (en) 2003-03-25 2011-04-05 Robert Hickling Vector sound-intensity probes operating in a half-space
JP2005086486A (ja) 2003-09-09 2005-03-31 Alpine Electronics Inc オーディオ装置およびオーディオ処理方法
US7433815B2 (en) 2003-09-10 2008-10-07 Dilithium Networks Pty Ltd. Method and apparatus for voice transcoding between variable rate coders
US7283634B2 (en) 2004-08-31 2007-10-16 Dts, Inc. Method of mixing audio channels using correlated outputs
FR2880755A1 (fr) 2005-01-10 2006-07-14 France Telecom Procede et dispositif d'individualisation de hrtfs par modelisation
WO2006122146A2 (en) 2005-05-10 2006-11-16 William Marsh Rice University Method and apparatus for distributed compressed sensing
ATE378793T1 (de) 2005-06-23 2007-11-15 Akg Acoustics Gmbh Methode zur modellierung eines mikrofons
US8510105B2 (en) 2005-10-21 2013-08-13 Nokia Corporation Compression and decompression of data vectors
WO2007048900A1 (fr) 2005-10-27 2007-05-03 France Telecom Individualisation de hrtfs utilisant une modelisation par elements finis couplee a un modele correctif
US8190425B2 (en) 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
US8712061B2 (en) 2006-05-17 2014-04-29 Creative Technology Ltd Phase-amplitude 3-D stereo encoder and decoder
US8345899B2 (en) 2006-05-17 2013-01-01 Creative Technology Ltd Phase-amplitude matrixed surround decoder
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US20080004729A1 (en) 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
DE102006053919A1 (de) 2006-10-11 2008-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer Anzahl von Lautsprechersignalen für ein Lautsprecher-Array, das einen Wiedergaberaum definiert
US7663623B2 (en) 2006-12-18 2010-02-16 Microsoft Corporation Spherical harmonics scaling
US9015051B2 (en) 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
US8908873B2 (en) 2007-03-21 2014-12-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
WO2009007639A1 (fr) 2007-07-03 2009-01-15 France Telecom Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe
CN101884065B (zh) 2007-10-03 2013-07-10 创新科技有限公司 用于双耳再现和格式转换的空间音频分析和合成的方法
WO2009090876A1 (ja) 2008-01-16 2009-07-23 Panasonic Corporation ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
EP2296145B1 (en) 2008-03-10 2019-05-22 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Device and method for manipulating an audio signal having a transient event
US8219409B2 (en) 2008-03-31 2012-07-10 Ecole Polytechnique Federale De Lausanne Audio wave field encoding
JP5383676B2 (ja) 2008-05-30 2014-01-08 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
US8848481B2 (en) 2008-07-08 2014-09-30 Bruel & Kjaer Sound & Vibration Measurement A/S Reconstructing an acoustic field
GB0817950D0 (en) 2008-10-01 2008-11-05 Univ Southampton Apparatus and method for sound reproduction
JP5697301B2 (ja) 2008-10-01 2015-04-08 株式会社Nttドコモ 動画像符号化装置、動画像復号装置、動画像符号化方法、動画像復号方法、動画像符号化プログラム、動画像復号プログラム、及び動画像符号化・復号システム
US8207890B2 (en) 2008-10-08 2012-06-26 Qualcomm Atheros, Inc. Providing ephemeris data and clock corrections to a satellite navigation system receiver
US8391500B2 (en) 2008-10-17 2013-03-05 University Of Kentucky Research Foundation Method and system for creating three-dimensional spatial audio
FR2938688A1 (fr) 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
WO2010076460A1 (fr) 2008-12-15 2010-07-08 France Telecom Codage perfectionne de signaux audionumériques multicanaux
ES2733878T3 (es) 2008-12-15 2019-12-03 Orange Codificación mejorada de señales de audio digitales multicanales
EP2205007B1 (en) 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
GB2467534B (en) 2009-02-04 2014-12-24 Richard Furse Sound system
EP2237270B1 (en) 2009-03-30 2012-07-04 Nuance Communications, Inc. A method for determining a noise reference signal for noise compensation and/or noise reduction
GB0906269D0 (en) 2009-04-09 2009-05-20 Ntnu Technology Transfer As Optimal modal beamformer for sensor arrays
US8629600B2 (en) 2009-05-08 2014-01-14 University Of Utah Research Foundation Annular thermoacoustic energy converter
US8570291B2 (en) 2009-05-21 2013-10-29 Panasonic Corporation Tactile processing device
EP2285139B1 (en) 2009-06-25 2018-08-08 Harpex Ltd. Device and method for converting spatial audio signal
EP2486561B1 (en) 2009-10-07 2016-03-30 The University Of Sydney Reconstruction of a recorded sound field
AU2009353896B2 (en) 2009-10-15 2013-05-23 Widex A/S Hearing aid with audio codec and method
EP2510515B1 (en) 2009-12-07 2014-03-19 Dolby Laboratories Licensing Corporation Decoding of multichannel audio encoded bit streams using adaptive hybrid transformation
CN102104452B (zh) 2009-12-22 2013-09-11 华为技术有限公司 信道状态信息反馈方法、信道状态信息获得方法及设备
US9058803B2 (en) 2010-02-26 2015-06-16 Orange Multichannel audio stream compression
ES2461183T3 (es) 2010-03-10 2014-05-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V Decodificador de señales de audio, codificador de señales de audio, procedimiento para decodificar una señal de audio, método para codificar una señal de audio y programa de ordenador que utilizan una adaptación dependiente de la frecuencia de un contexto de codificación
ES2472456T3 (es) 2010-03-26 2014-07-01 Thomson Licensing Método y dispositivo para decodificar una representación de un campo ac�stico de audio para reproducción de audio
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
NZ587483A (en) 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
WO2012025580A1 (en) 2010-08-27 2012-03-01 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
US9084049B2 (en) 2010-10-14 2015-07-14 Dolby Laboratories Licensing Corporation Automatic equalization using adaptive frequency-domain filtering and dynamic fast convolution
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
EP2450880A1 (en) 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
KR101401775B1 (ko) 2010-11-10 2014-05-30 한국전자통신연구원 스피커 어레이 기반 음장 합성을 이용한 음장 재생 장치 및 방법
EP2469741A1 (en) 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
US20120163622A1 (en) 2010-12-28 2012-06-28 Stmicroelectronics Asia Pacific Pte Ltd Noise detection and reduction in audio devices
CA2823907A1 (en) 2011-01-06 2012-07-12 Hank Risan Synthetic simulation of a media recording
EP2541547A1 (en) 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US9641951B2 (en) 2011-08-10 2017-05-02 The Johns Hopkins University System and method for fast binaural rendering of complex acoustic scenes
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
EP2592846A1 (en) 2011-11-11 2013-05-15 Thomson Licensing Method and apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field
EP2592845A1 (en) 2011-11-11 2013-05-15 Thomson Licensing Method and Apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field
RU2014133903A (ru) 2012-01-19 2016-03-20 Конинклейке Филипс Н.В. Пространственные рендеризация и кодирование аудиосигнала
EP2645748A1 (en) * 2012-03-28 2013-10-02 Thomson Licensing Method and apparatus for decoding stereo loudspeaker signals from a higher-order Ambisonics audio signal
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
KR102079680B1 (ko) 2012-07-16 2020-02-20 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치
EP2688066A1 (en) 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
TWI590234B (zh) 2012-07-19 2017-07-01 杜比國際公司 編碼聲訊資料之方法和裝置,以及解碼已編碼聲訊資料之方法和裝置
US9516446B2 (en) 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
JP5967571B2 (ja) 2012-07-26 2016-08-10 本田技研工業株式会社 音響信号処理装置、音響信号処理方法、及び音響信号処理プログラム
PL2915166T3 (pl) * 2012-10-30 2019-04-30 Nokia Technologies Oy Sposób i urządzenie do kwantyzacji odpornego wektora
US9336771B2 (en) 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
US9913064B2 (en) 2013-02-07 2018-03-06 Qualcomm Incorporated Mapping virtual speakers to physical speakers
EP2765791A1 (en) 2013-02-08 2014-08-13 Thomson Licensing Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field
US10178489B2 (en) 2013-02-08 2019-01-08 Qualcomm Incorporated Signaling audio rendering information in a bitstream
US9609452B2 (en) 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
US9883310B2 (en) 2013-02-08 2018-01-30 Qualcomm Incorporated Obtaining symmetry information for higher order ambisonic audio renderers
US9338420B2 (en) 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
US9685163B2 (en) 2013-03-01 2017-06-20 Qualcomm Incorporated Transforming spherical harmonic coefficients
MY179136A (en) 2013-03-05 2020-10-28 Fraunhofer Ges Forschung Apparatus and method for multichannel direct-ambient decomposition for audio signal processing
US9197962B2 (en) 2013-03-15 2015-11-24 Mh Acoustics Llc Polyhedral audio system based on at least second-order eigenbeams
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9883312B2 (en) 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
US9384741B2 (en) 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
EP3017446B1 (en) 2013-07-05 2021-08-25 Dolby International AB Enhanced soundfield coding using parametric component generation
TWI673707B (zh) 2013-07-19 2019-10-01 瑞典商杜比國際公司 將以L<sub>1</sub>個頻道為基礎之輸入聲音訊號產生至L<sub>2</sub>個揚聲器頻道之方法及裝置,以及得到一能量保留混音矩陣之方法及裝置,用以將以輸入頻道為基礎之聲音訊號混音以用於L<sub>1</sub>個聲音頻道至L<sub>2</sub>個揚聲器頻道
US20150127354A1 (en) 2013-10-03 2015-05-07 Qualcomm Incorporated Near field compensation for decomposed representations of a sound field
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US20150264483A1 (en) 2014-03-14 2015-09-17 Qualcomm Incorporated Low frequency rendering of higher-order ambisonic audio data
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10142642B2 (en) 2014-06-04 2018-11-27 Qualcomm Incorporated Block adaptive color-space conversion coding
US20160093308A1 (en) 2014-09-26 2016-03-31 Qualcomm Incorporated Predictive vector quantization techniques in a higher order ambisonics (hoa) framework

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6493664B1 (en) * 1999-04-05 2002-12-10 Hughes Electronics Corporation Spectral magnitude modeling and quantization in a frequency domain interpolative speech codec system
US20120221344A1 (en) * 2009-11-13 2012-08-30 Panasonic Corporation Encoder apparatus, decoder apparatus and methods of these

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI834163B (zh) * 2021-05-17 2024-03-01 大陸商華為技術有限公司 三維音頻訊號編碼方法、裝置和編碼器

Also Published As

Publication number Publication date
CN107004420A (zh) 2017-08-01
EP3198595A1 (en) 2017-08-02
WO2016048893A1 (en) 2016-03-31
TW201618077A (zh) 2016-05-16
CN107004420B (zh) 2018-07-06
EP3198595B1 (en) 2018-07-11
US9747910B2 (en) 2017-08-29
US20160093311A1 (en) 2016-03-31

Similar Documents

Publication Publication Date Title
TWI612517B (zh) 較高階立體混響聲(hoa)架構中於預測及非預測量化技術間切換
TWI670709B (zh) 獲得複數個高階立體混響(hoa)係數之方法,經組態以獲得複數個hoa係數器件,及用於判定權重值之器件
CN105917408B (zh) 指示用于译码向量的帧参数可重用性
TW201621885A (zh) 較高階立體混響聲(hoa)架構中之預測向量量化技術
CN106463129B (zh) 选择码簿以用于译码从高阶立体混响音频信号分解的向量
US9620137B2 (en) Determining between scalar and vector quantization in higher order ambisonic coefficients

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees