TWI657434B - 解碼壓縮高階保真立體音響表示之方法及裝置,及編碼壓縮高階保真立體音響表示之方法及裝置 - Google Patents

解碼壓縮高階保真立體音響表示之方法及裝置,及編碼壓縮高階保真立體音響表示之方法及裝置 Download PDF

Info

Publication number
TWI657434B
TWI657434B TW104121236A TW104121236A TWI657434B TW I657434 B TWI657434 B TW I657434B TW 104121236 A TW104121236 A TW 104121236A TW 104121236 A TW104121236 A TW 104121236A TW I657434 B TWI657434 B TW I657434B
Authority
TW
Taiwan
Prior art keywords
band
hoa
sub
dir
index
Prior art date
Application number
TW104121236A
Other languages
English (en)
Other versions
TW201603004A (zh
Inventor
亞歷山德 克魯格
斯凡 科登
Original Assignee
瑞典商杜比國際公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 瑞典商杜比國際公司 filed Critical 瑞典商杜比國際公司
Publication of TW201603004A publication Critical patent/TW201603004A/zh
Application granted granted Critical
Publication of TWI657434B publication Critical patent/TWI657434B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本發明係為一種低位元率編碼方法,高階保真立體音響(HOA)信號之編碼通常造成高資料率,將一具有係數序列之輸入HOA信號之訊框進行低位元率編碼之方法包括:計算(s110)一截斷HOA表示(C T (k));判定(s111)現用係數序列(IC,ACT(k));估計(s16)候選方向(MDIR(k));將輸入HOA信號分割(s15)成複數個頻率次頻帶(f 1 ,...,f F );用於各頻率次頻帶,估計(s161)候選方向(MDIR(k))之一子集作為現用方向(MDIR(k,f1),...,MDIR(k,fF)),及用於各現用方向,估計一軌跡;用於各頻率次頻帶,根據現用方向從頻率次頻帶之係數序列中計算(s17)出方向次頻帶信號;用於各頻率次頻帶,使用各別現用係數序列(IC,ACT(k))計算(s18)一預測矩陣(A(k,f 1 ),...,A(k,f F )),其可用以從頻率次頻帶之係數序列中預測出方向次頻帶信號;及編碼(s19)候選方向、現用方向、預測矩陣及截斷HOA表示。

Description

解碼壓縮高階保真立體音響表示之方法及裝置,及編碼壓 縮高階保真立體音響表示之方法及裝置
本發明相關用以編碼具有已知數目係數序列的輸入高階保真立體音響(HOA)信號框的方法,用以解碼HOA信號的方法,用以編碼具有已知數目係數序列的輸入HOA信號框的裝置,及用以解碼HOA信號的裝置。
在其他技術像波場合成(WFS)或基於聲道的措施像一者稱為”22.2”之中,高階保真立體音響(HOA)提供一可能性用以表示立體聲。對照到基於聲道的方法,HOA表示提供不受特定揚聲器設置支配的優勢,但此彈性係以解碼過程作為代價,要求HOA表示在一特定揚聲器設置上回播。相較於WFS措施,其中通常需要極大數量的揚聲器,HOA亦可呈現到僅由極少揚聲器組成的設置。HOA的另一優勢在於亦可利用相同表示,用於耳機的雙聲道呈現不用任何修改。
HOA係基於複合平面諧波振幅藉由截斷球諧函數(SH)展開的所謂空間密度表示,各展開係數係一角頻率函數,其可等效地由一時域函數表示。因此,不失一般性,完整的HOA聲場表示實際上可理解為由O個時域函數組成,其中O表示展開係數的數目。以下此等時域函數將等效地稱為HOA係數序列或稱為HOA聲道。
HOA表示的空間解析度係利用展開的成長最大階N得以提升,不幸地,展開係數的數目O隨著階N成二次方成長,尤其O=(N+1)2。例如,使用階N=4的典型HOA表示需要O=25的HOA(展開)係數。
根據以上考量,已知一期望單聲道取樣率f S及每樣本的位元數N b,用於HOA表示傳輸的總位元率係由Of SN b判定,因此,例如 以f S=48kHz(千赫)的取樣率,利用每樣本N b=16位元,傳輸階N=4的HOA表示造成19.2百萬位元/秒的位元率,其用於許多實際應用如串流係極高位元率。因此高度期望HOA表示的壓縮。
在後附參考文獻[4,5,6]中曾提出各種不同措施用於HOA聲場表示的壓縮,此等措施的共同點在於,其執行聲場分析並將已知HOA表示分解成方向分量及殘餘周圍分量。最終的壓縮表示一方面包括數個量化信號,係由所謂的方向信號及向量為基信號以及周圍HOA分量的相關係數序列的知覺編碼形成,另一方面,最終的壓縮表示包括量化信號相關的額外邊資訊,其係HOA表示從其壓縮版本重建所需。
用於參考文獻[4,5,6]揭露的措施,量化信號的合理最小數目係八,因此利用此等方法中的一者的資料率通常係不低於256千位元/秒,假設32千位元/秒的資料率用於各個別知覺編碼器。用於某些應用像聲頻串流到行動裝置,此總資料率會太高,因此,用於HOA壓縮方法,明白提出較低資料率的需求如128千位元/秒。
本發明揭示一種新方法及裝置用於聲場的高階保真立體音響(HOA)表示的低位元率壓縮。
用於聲場的HOA表示的低位元率壓縮方法,一主要方面係將HOA表示分解成複數個頻率次頻帶,及藉由組合一截斷HOA表示與基於數個預測方向次頻帶信號的表示,將各頻率次頻帶(即次頻帶)內的係數求近似。
截斷HOA表示包括少數已選擇係數序列,其中容許選擇隨時間變化,如作出新選擇用於每一訊框。選擇用以表示截斷HOA表示的係數序列係經知覺編碼及係最終壓縮HOA表示的一部分。在一實施例中,將選擇的係數序列在知覺編碼前進行去相關,為要增加編碼效率及在呈現時減少雜訊未遮罩效應。達成部分去相關係藉由應用一空間變換到預定數目的選擇HOA係數序列,為解壓縮,則藉由重新相關以反轉去相關。此類部分去相關的最大優勢在於解壓縮時不需任何額外邊資訊以反轉去相關。
近似HOA表示的另一分量係由數個具有對應方向的方向 次頻帶信號表示,此等信號係由一參數表示編碼,該參數表示包括從截斷HOA表示的係數序列來的預測。在一實施例中,藉由截斷HOA表示的係數序列的定標總和以預測(或表示)各方向次頻帶信號,其中定標通常係複數值。為能重新合成方向次頻帶信號的HOA表示用於解壓縮,壓縮表示包含複數值預測定標因子的量化版本以及方向的量化版本。
在一實施例中,揭示一種編碼方法,用以編碼(及藉此壓縮)具有已知數目係數序列的輸入HOA信號框,其中各係數序列具有一索引,該方法包括以下步驟:判定待包含在一截斷HOA表示中的現用係數序列IC,ACT(k)的索引集;計算截斷HOA表示C T (k)具有縮減數目的非零係數序列(即較少非零係數序列及因此零係數序列比輸入HOA信號多);從輸入HOA信號中估計出第一候選方向集MDIR(k);將輸入HOA信號分割成複數個頻率次頻帶,其中得到頻率次頻帶的係數序列(k-1,k,f 1,...,F );用於各頻率次頻帶,估計第二方向集MDIR(k,f1),...,MDIR(k,fF),其中第二方向集的各元素係一索引元組,具有第一索引及第二索引,第二索引係一現用方向的索引用於一目前頻率次頻帶,及第一索引係該現用方向的軌跡索引,其中各現用方向亦包含在輸入HOA信號的第一候選方向集MDIR(k)中(即第二方向集中的現用次頻帶方向係第一全頻帶方向集的一子集);用於各頻率次頻帶,根據各別頻率次頻帶的第二方向集MDIR(k,f1),...,MDIR(k,fF),從頻率次頻帶的係數序列(k-1,k,f 1,...,F )中計算出方向次頻帶信號(k-1,k,f 1),..., (k-1,k,f F );用於各頻率次頻帶,使用各別頻率次頻帶的現用係數序列IC,ACT(k)的索引集,計算一預測矩陣A(k,f 1 ),...,A(k,f F ),其係調適用以從頻率次頻帶的係數序列(k-1,k,f 1,...,F )中預測出方向次頻帶信號(k-1,k,f 1,...,F );及編碼第一候選方向集MDIR(k)、第二方向集MDIR(k,f1),...,MDIR(k,fF)、預測矩陣A(k,f 1 ),...,A(k,f F )及截斷HOA表示C T (k)。
第二方向集相關頻率次頻帶,第一候選方向集相關全頻帶,有利地,在估計第二方向集用於各頻率次頻帶的步驟中,由於第二次頻帶方向集係第一全頻帶方向集的子集,因此只需在全頻帶HOA信號的 方向MDIR(k)之中搜尋一頻率次頻帶的方向MDIR(k,f1),...,MDIR(k,fF)。在一實施例中,調換各元組內第一索引及第二索引的順序次序,即第一索引係一現用方向的索引用於一目前頻率次頻帶及第二索引係該現用方向的軌跡索引。
完整的HOA信號包括複數個係數序列或係數聲道,一HOA信號,其中一或多個此等係數序列係設成零,在本文中稱為截斷HOA表示。計算或產生一截斷HOA表示通常包括係數序列將設成零或不設成零的選擇,可根據不同準則作出此選擇,例如藉由選擇該等包括最大能量者或知覺上最相關者為不設成零的係數序列,或任意地選擇係數序列等。將HOA信號分割成頻率次頻帶係可由分析濾波器組(包括如正交鏡像濾波器(QMF))執行。
在一實施例中,編碼截斷HOA表示C T (k)包括:截斷HOA聲道序列的部分去相關;聲道指定用以指定(相關或去相關)截斷HOA聲道序列y1(k),...,yI(k)到傳輸聲道;在各傳輸聲道上執行增益控制,其中產生增益控制邊資訊e i (k-1),β i (k-1)用於各傳輸聲道;在一知覺編碼器中,編碼增益控制截斷HOA聲道序列z1(k),...,zI(k);在一邊資訊信號源編碼器中,編碼增益控制邊資訊e i (k-1),β i (k-1)、第一候選方向集MDIR(k)、第二方向集MDIR(k,f1),...,MDIR(k,fF)及預測矩陣A(k,f 1 ),...,A(k,f F );及將知覺編碼器及邊資訊信號源編碼器的輸出進行多工用以得到一編碼HOA信號框(k-1)。
在一實施例中,揭示一種電腦可讀取媒體,具有可執行指令已儲存其上,用以令一電腦執行該方法用以編碼或壓縮輸入HOA信號的訊框。
在一實施例中,揭示一種編碼裝置,用以逐訊框編碼(及藉此壓縮)具有已知數目係數序列的一輸入HOA信號的訊框,其中各係數序列具有一索引,該裝置包括一處理器及一記憶體用於一軟體程式,當處理器上執行該軟體程式時,執行上述方法的步驟用以編碼或壓縮輸入HOA信號的訊框。
另外,在一實施例中,揭示一種解碼方法,用以解碼(及藉此解壓縮)已壓縮HOA表示,該方法包括: 從壓縮HOA表示中萃取出複數個截斷HOA係數序列(k),..., (k)、一指定向量 v AMB,ASSIGN(k)用以指出(或含有)該等截斷HOA係數序列的序列索引、次頻帶相關方向資訊MDIR(k+1,f1),...,MDIR(k+1,fF)、複數個預測矩陣A(k+1,f 1 ),...,A(k+1,f F )及增益控制邊資訊e 1(k) 1(k),...,e I (k) I (k);從複數個截斷HOA係數序列(k),..., (k)、增益控制邊資訊e 1(k) 1(k),...,e I (k) I (k)及指定向量 v AMB,ASSIGN(k)中重建出一截斷HOA表示(k);在分析濾波器組中,將重建的截斷HOA表示(k)分解成頻率次頻帶表示(k,f 1),..., (k,f F )用於複數個F頻率次頻帶;在方向次頻帶合成區塊中,用於各頻率次頻帶表示,從重建截斷HOA表示的各別頻率次頻帶表示(k,f 1),..., (k,f F )、次頻帶相關方向資訊MDIR(k+1,f1),...,MDIR(k+1,fF)及預測矩陣A(k+1,f 1 ),...,A(k+1,f F )合成一預測方向HOA表示(k,f 1),..., (k,f F );在次頻帶組合區塊中,用於F個頻率次頻帶中每一者,利用係數序列(k,f j ),n=1,...,O編製一解碼次頻帶HOA表示(k,f 1),..., (k,f F ),若係數序列具有一索引n係包括在指定向量 v AMB,ASSIGN(k)中(即其一元素),則該等係數序列係從截斷HOA表示(k,f j )的係數序列中得到,或否則係從方向次頻帶合成區塊中的一者所提供預測方向HOA分量(k,f j )的係數序列中得到;及在合成濾波器組中,合成解碼次頻帶HOA表示(k,f 1),..., (k,f F )用以得到解碼HOA表示(k)。
在一實施例中,萃取包括將壓縮HOA表示解多工用以得到一知覺編碼部分及一編碼邊資訊部分。在一實施例中,知覺編碼部分包括知覺編碼的截斷HOA係數序列(k),..., (k),及萃取包括在知覺解碼器中解碼知覺編碼的截斷HOA係數序列(k),..., (k),用以得到截斷HOA係數序列(k),..., (k)。在一實施例中,萃取包括在一邊資訊信號源解碼器中解碼編碼邊資訊部分,用以得到次頻帶相關方向集MDIR(k+1,f1),...,MDIR(k+1,fF)、預測矩陣A(k+1,f 1 ),...,A(k+1,f F )、增益控制邊資訊e 1(k) 1(k),...,e I (k) I (k)及指定向量 v AMB,ASSIGN(k)。
在一實施例中,揭示一種電腦可讀取媒體,具有可執行指 令儲存其上,用以令一電腦執行該解碼方法用於主導方向信號的方向解碼。
在一實施例中,揭示一種解碼裝置,用以逐訊框解碼(及藉此解壓縮)壓縮HOA表示,該裝置包括一處理器及一記憶體用於一軟體程式,當該處理器上執行該軟體程式時,執行上述方法的步驟用以解碼或解壓縮輸入HOA信號的訊框。
在一實施例中,揭示一種用以解碼HOA信號的裝置,包括一第一模組,配置用以接收最大數目方向D的索引用於待解碼的一HOA信號表示;一第二模組,配置用以重建待解碼HOA信號表示的最大數目方向D的方向;一第三模組,配置用以接收每次頻帶的現用方向信號的索引;一第四模組,配置用以從待解碼HOA信號表示的重建方向D中重建出每次頻帶的現用方向信號;及一第五模組,配置用以預測次頻帶的方向信號,其中一次頻帶目前訊框中的方向信號預測包括判定次頻帶前一訊框的方向信號,及其中若方向信號的索引在前一訊框中係零及在目前訊框中係非零,則產生一新方向信號,若方向信號的索引在前一訊框中係非零及在目前訊框中係零,則取消前一方向信號,及若方向信號的索引從第一方向變更到第二方向,則一方向信號方向從第一方向移到第二方向。
通常從一複數值濾波器組中得到次頻帶,指定向量的一目的係為要指出所傳送/接收係數序列的序列索引,及因此係包含在截斷HOA表示中,以便能使此等係數序列指定到最終HOA信號。換言之,用於截斷HOA表示的各係數序列,指定向量指出其對應到最終HOA信號的哪個係數序列。例如,若一截斷HOA表示包含四個係數序列及最終HOA信號具有九個係數序列,則指定向量會是[1,2,5,7](原則上),藉此指出截斷HOA表示的第一、第二、第三及第四係數序列實際上係最終HOA信號中的第一、第二、第五及第七係數序列。
由以下配合附圖的說明及後附申請專利範圍的考量,將使本發明的進一步目的、特點及優勢更明朗化。
圖1
10‧‧‧空間HOA編碼器
11‧‧‧截斷HOA表示計算區塊
12‧‧‧部分去相關區塊
13‧‧‧聲道指定區塊
14‧‧‧增益控制單元
15‧‧‧分析濾波器組
16‧‧‧方向估計處理區塊
17‧‧‧方向次頻帶信號計算區塊
18‧‧‧方向次頻帶信號預測區塊
19‧‧‧截斷HOA版本
A(k,f 1),...,A(k,f F )‧‧‧預測矩陣
C(k)‧‧‧輸入HOA表示的第k訊框
C I (k)‧‧‧部分去相關截斷HOA版本
C T (k)‧‧‧截斷HOA表示
(k,f 1)...,(k,f F )‧‧‧次頻帶信號
e 1(k-1),β 1(k-1),...,e I (k-1),β I (k-1)‧‧‧增益控制邊資訊
I C,ACT (k)‧‧‧現用係數序列
M DIR (k)‧‧‧第一候選方向集
M DIR (k,f 1),...,M DIR (k,f F )‧‧‧第二方向集
v A (k)‧‧‧指定向量
(k-1,k,f 1),..., (k-1,k,f F )‧‧‧方向次頻帶信號
y 1(k),...,y I (k)‧‧‧傳輸信號框
y 1(k-1),...,y I (k-1)‧‧‧延遲訊框
z 1(k-1),...,z I (k-1)‧‧‧增益控制信號框
圖2
20‧‧‧方向估計區塊
21‧‧‧初步全頻帶方向估計區塊
22‧‧‧次頻帶方向估計區塊
(k-1;k)‧‧‧長訊框
(k-1,k,f 1),...,(k-1,k,f F )‧‧‧次頻帶的係數序列
M DIR (k)‧‧‧第一方向集
M DIR (k,f 1),....,M DIR (k,f F )‧‧‧第二方向集
圖3
30‧‧‧知覺及信號源編碼級
31‧‧‧知覺編碼器
32‧‧‧邊資訊信號源編碼器
33‧‧‧多工器
A(k,f 1),...,A(k,f F )‧‧‧預測矩陣
(k-1)‧‧‧編碼HOA信號框
(k-1)‧‧‧編碼HOA表示
e 1(k-1),β 1(k-1),...,e I (k-1),β I (k-1)‧‧‧增益控制邊資訊
M DIR (k,f 1),...,M DIR (k,f F )‧‧‧次頻帶方向集
圖4
40‧‧‧知覺及邊資訊信號源解碼器
41‧‧‧解多工器
42‧‧‧知覺解碼器
43‧‧‧邊資訊信號源解碼器
A(k+1,f 1),...,A(k+1,f F )‧‧‧預測係數矩陣
(k)‧‧‧低位元率壓縮HOA位元流
(k)‧‧‧編碼邊資訊
e 1(k) 1(k),...,e I (k) I (k)‧‧‧增益控制邊資訊
M DIR (k,f 1),...,M DIR (k,f F )‧‧‧次頻帶相關方向集
v AMB,ASSIGN(k)‧‧‧指定向量
(k),..., (k)‧‧‧知覺編碼截斷HOA係數序列
(k),..., (k)‧‧‧知覺解碼截斷HOA係數序列
圖5
50‧‧‧空間HOA解碼器
51‧‧‧逆增益控制單元
52‧‧‧截斷HOA重建區塊
53‧‧‧分析濾波器組
54‧‧‧方向次頻帶HOA表示合成區塊
55‧‧‧次頻帶HOA組成區塊
56‧‧‧合成濾波器組
A(k+1,f 1),...,A(k+1,f F )‧‧‧預測係數矩陣
(k,f 1),..., (k,f F )‧‧‧截斷次頻帶HOA表示
(k,f 1),..., (k,f F )‧‧‧方向次頻帶(或次頻帶群)HOA表示
(k,f 1),...,(k,f F )‧‧‧解碼次頻帶HOA表示
(k)‧‧‧截斷HOA表示
e 1(k),...,e I (k)‧‧‧增益校正指數
β 1(k),...,β I (k)‧‧‧增益校正異常旗標
M DIR (k+1,f 1),...,M DIR (k+1,f F )‧‧‧元組集
v AMB,ASSIGN(k)‧‧‧指定向量
(k),...,(k)‧‧‧增益校正信號框
(k),..., (k)‧‧‧知覺解碼信號
圖7
16‧‧‧方向估計處理區塊
20‧‧‧方向估計區塊
23‧‧‧長訊框產生區塊
C(k)‧‧‧輸入HOA表示的第k訊框
(k-1;k)‧‧‧序連長訊框
(k,f j ),...,(k,f F )‧‧‧HOA係數序列集
(k-1,k,f 1),...,(k-1,k,f F )‧‧‧序連長次頻帶信號框
M DIR (k)‧‧‧候選方向集
M DIR (k,f 1),...,M DIR (k,f F )‧‧‧次頻帶方向集
圖8
MDIR(k)‧‧‧現用方向集
k-2,k-1,k,k+1‧‧‧訊框
T1,T2,T3,T4,T5,T6,...‧‧‧軌跡
Ω3852101229446581‧‧‧現用方向候選
MDIR(k,f1),MDIR(k,f2),...‧‧‧元組集
圖9-12
CRA‧‧‧殘留物/環音聲計算器
DEC與HEP,DECC與HEPC‧‧‧HOA延伸酬載解碼器
DSCC‧‧‧方向次頻帶計算區塊
DSCD‧‧‧方向次頻帶信號合成區塊
DSE‧‧‧方向聲音萃取區塊
DSS‧‧‧HOA方向聲音合成區塊
ENC,ENCC‧‧‧通用語音及聲頻(USAC3D)編碼器
GCA,GCD,GCV‧‧‧增益控制區塊
HAS‧‧‧HOA環音聲合成區塊
HC,HCC‧‧‧HOA組成區塊
HOAC,O,HOA’C,O‧‧‧壓縮輸出信號的HOA延伸酬載
HOAC,I,HOA’C,I‧‧‧壓縮輸入信號的HOA延伸酬載
HOAD,O‧‧‧解碼HOA輸出信號
HOAIN‧‧‧輸入HOA信號
HR‧‧‧HOA呈現器
IGCA,IGCD,IGCV‧‧‧逆增益控制區塊
IPD‧‧‧逆部分去相關
PD‧‧‧部分去相關
QAC‧‧‧QMF(正交鏡像濾波器)分析濾波器組
QAD‧‧‧解碼器端QMF分析區塊
QS‧‧‧QMF合成濾波器組
SRR‧‧‧空間解析度減低區塊
SSA‧‧‧聲音場景分析
VSE‧‧‧向量為基信號(VVec)聲音萃取區塊
VSS‧‧‧向量為基信號(VVec)聲音合成區塊
圖13
s110‧‧‧截斷HOA表示計算步驟
s111‧‧‧現用係數序列索引集判定步驟
s16‧‧‧第一候選方向集估計步驟
s15‧‧‧輸入HOA信號分割步驟
s161‧‧‧第二方向集估計步驟
s17‧‧‧方向次頻帶信號計算步驟
s18‧‧‧預測矩陣計算步驟
s19‧‧‧編碼步驟
s12‧‧‧截斷HOA聲道序列部分去相關步驟
s13‧‧‧聲道指定步驟
s14‧‧‧增益控制執行步驟
s31‧‧‧增益控制截斷HOA聲道序列編碼步驟
s32‧‧‧邊資訊信號源編碼步驟
s33‧‧‧多工步驟
圖14
s41‧‧‧截斷HOA係數序列萃取步驟
s42‧‧‧指定向量萃取步驟
s43‧‧‧次頻帶相關方向資訊萃取步驟
s51,s52‧‧‧截斷HOA表示重建步驟
s53‧‧‧分解步驟
s54‧‧‧合成步驟
s55‧‧‧編製步驟
s56‧‧‧解碼次頻帶HOA表示合成步驟
將參考附圖描述本發明的示範實施例,圖中:圖1顯示一空間HOA編碼器的架構; 圖2顯示一方向估計區塊的架構;圖3顯示一知覺邊資訊信號源編碼器;圖4顯示一知覺邊資訊信號源解碼器;圖5顯示一空間HOA解碼器的架構;圖6顯示一球面坐標系;圖7顯示一方向估計處理區塊;圖8顯示一截斷HOA表示的方向、軌跡索引集及係數;圖9顯示一傳統聲頻編碼器,如使用在MPEG中;圖10顯示一改良式聲頻編碼器,如可使用在MPEG中;圖11顯示一傳統聲頻解碼器,如使用在MPEG中;圖12顯示一改良式聲頻解碼器,如可使用在MPEG中;圖13係以流程圖顯示一編碼方法;及圖14係以流程圖顯示一解碼方法。
所揭示用於聲場的HOA表示的低位元率壓縮方法,其一主要想法係為將原始HOA表示逐訊框及逐頻率次頻帶地(即在各HOA訊框的個別頻率次頻帶內)求近似,係藉由二部分的組合:一截斷HOA表示及一基於數個預測方向次頻帶信號的表示。以下將進一步提供HOA基礎的概要。
近似HOA表示的第一部分係一截斷HOA版本,其係由少數選取係數序列所組成,其中容許選擇係隨時間變化(如從訊框到訊框),選擇用以表示截斷HOA版本的係數序列接著係進行知覺編碼及係最終壓縮HOA表示的一部分。為增加編碼效率及為在呈現時減少雜訊未遮罩作用,將選取的係數序列在知覺編碼前進行去相關係有利的。達成部分去相關係藉由對預設數目的選取HOA係數序列應用一空間變換,其表示呈現到已知數目的虛擬揚聲器信號。部分去相關的最大優勢在於不需任何額外邊資訊用以反轉在解壓縮時的去相關。
近似HOA表示的第二部分係由數個具有對應方向的方向次頻帶信號表示,然而,此等信號並非以傳統方式編碼,反而係藉由從第一部分(即截斷HOA表示)的係數序列的預測,編碼為一參數表示。尤其, 各方向次頻帶信號係由截斷HOA表示的係數序列的定標總和來預測,其中定標通常係一複數值。兩部分一起形成HOA信號的壓縮表示,藉此達成低位元率。為能重新合成方向次頻帶信號的HOA表示用於解壓縮,壓縮表示包含複數值預測定標因子的量化版本以及方向的量化版本。
尤其地,此上下文中的重要方面係方向的計算及複數值預測定標因子的計算,及如何有效率地將其編碼。
低位元率HOA壓縮
用於建議的低位元率HOA壓縮,可將低位元率HOA壓縮器細分成一空間HOA編碼部及一知覺及信號源編碼部,圖1中繪示一空間HOA編碼部的示範架構,及圖3中繪示一知覺及信號源編碼部的示範架構。空間HOA編碼器10提供第一壓縮HOA表示,包括有I個信號,連同描述如何產生其HOA表示的邊資訊。在知覺及邊資訊信號源編碼器30中,在一知覺編碼器31中將此等I信號進行知覺編碼,及在一邊資訊信號源編碼器32中使邊資訊受信號源編碼。邊資訊信號源編碼器32提供編碼邊資訊,接著,在一多工器33中將知覺編碼器31及邊資訊信號源編碼器32提供的二編碼表示進行多工,用以得到低位元率壓縮HOA資料流
空間HOA編碼
圖1中繪示的空間HOA編碼器執行逐訊框處理,訊框係定義為O個時間連續HOA係數序列的部分,例如,待編碼的輸入HOA表示的第k訊框 C (k)係相關時間連續HOA係數序列的向量 c (t)(參考方程式(46)),定義為 其中k表示訊框索引,L表示訊框長度(依樣本),O=(N+1)2表示HOA係數序列的數目,及T S指出取樣期間。
截斷HOA表示的計算
如圖1所示,在計算截斷HOA表示中的第一步驟包括從原始HOA訊框 C (k)中計算11出一截斷版本 C T(k),在此上下文中的截斷意指從輸入HOA表示的O個係數序列中選出I個特定係數序列,並將其他所有係數序列設成零。係數序列選擇的各種解決方法已揭露在參考文獻[4,5,6]中,如該等具有最大功率或具有與人類知覺最高相關性者。選擇的係數序列表示截斷 HOA版本,產生一資料集(k),其包含選擇係數序列的索引,接著如以下進一步說明,將使截斷HOA版本 C T(k)部分去相關12,並使部分去相關的截斷HOA版本 C I(k)受聲道指定13,其中將選擇的係數序列指定到可用I個傳輸聲道。如以下進一步說明,此等係數序列接著係進行知覺編碼30及最後係壓縮表示的一部分。為在聲道指定後得到平順信號用於知覺編碼,判定在第k訊框中選擇但不會在第(k+1)訊框中選擇的係數序列,使一訊框中選擇但次一訊框中不會選擇的該等係數序列淡出,其索引係包含在資料集(k)(即(k)的子集)中。同樣地,使第k訊框中選擇但第(k-1)訊框中不曾選擇的係數序列淡入,其索引係包含在集合(k)(亦係(k)的子集)中。用於衰落,可使用一視窗函數wOA(l),l=1,...,2L(如以下在方程式(39)中介紹的一者)。
總而言之,若截斷版本CT(k)的一HOA訊框k係依 O個個別係數序列訊框的L個樣本構成,則用於係數序列索引n=1,...,O及樣本索引l=1,...,L,截斷係可表達如下
用於係數序列選擇的準則有數個可能性,例如一有利解決方式係選擇該等表示大部分信號功率的係數序列,另一有利解決方式係選擇該等與人類知覺最相關的係數序列。在後者情形中,判定相關性例如可藉由以不同方式呈現截斷表示到虛擬揚聲器信號,判定此等信號與對應到原始HOA表示的虛擬揚聲器信號之間的誤差,及最後解譯誤差的相關性,考量到聲音遮罩作用。
為選擇集合(k)中的索引,在一實施例中,一合理策略係總是選擇第一O MIN索引1,...,O MIN,其中O MIN=(N MIN+1)2 IN MIN表示截斷HOA表示的已知最小全階,接著,根據上述準則中的一者從集合{O MIN+1,...,O MAX}中選擇其餘I-O MIN索引,其中O MAX=(N MAX+1)2 O,N MAX表示考慮選擇的HOA係數序列中的最大階。請注意,O MAX係每樣本可轉移係數的最大數,其係小於或等於係數的總數O。根據此策略,截斷處理區塊11亦提供所謂的指定向量,其元素v A,i (k),i=1,...,I-O MIN係根據v A,i (k)=n (4)設定,其中n(n O MIN+1)表示C(k)的額外選擇HOA係數序列的HOA係數序列索引,其稍後將指定到第i個傳輸信號y i (k),以下在方程式(10)中將提供y i (k)的定義。因此,藉由預設,CT(k)的第一O MIN列包括HOA係數序列1,...,O MIN,及在CT(k)的以下O-O MIN(或O MAX-O MIN,若O=O MAX)列之中,有I-O MIN列,其包括逐訊框變化的HOA係數序列,其索引係儲存在指定向量v A(k)中。最後,CT(k)的其餘列包括零,因此,如以下說明,藉由預設,可用I個傳輸信號的第一(或最後,如在方程式(10)中)O MIN係指定到HOA係數序列1,...,O MIN,及其餘I-O MIN個傳輸信號係指定到逐訊框變化的HOA係數序列,其索引係儲存在指定向量v A(k)中。
部分去相關
為要增加後續知覺編碼的效率,及為避免選擇HOA係數序列成矩陣後在呈現時會發生編碼雜訊未遮罩,在第二步驟中實施選擇HOA係數序列的部分去相關12。達成一示範部分去相關12係藉由應用一空間變換到第一O MIN個選擇HOA係數序列,其意指呈現到O MIN個虛擬揚聲器信號。藉由圖6所示球面坐標系表達各別虛擬揚聲器位置,其中假設各位置係位在單位球面(即具有1的半徑)。因此,該等位置係可同等地由方向 Ω j =(θ j , ),1 j O MIN來表達,其中θ j 分別表示斜度及方位角(進一步參閱以下球面坐標系的定義),此等方向應儘可能均勻地分布在單位球面上(參閱如參考文獻[2]中有關特定方向的計算)。請注意,由於HOA通常依從N MIN以定義方向,因此實際上係指,其中本文中係寫成 Ω j
以下,所有虛擬揚聲器信號的訊框係表示如下 其中 w j (k)表示第j個虛擬揚聲器信號的第k訊框,另外, Ψ MIN表示相關虛擬方向 Ω j 的模式矩陣,1 j O MIN,模式矩陣係定義如下 具有 指出相關虛擬方向Ω i 的模式向量,其元素(.)各表示以下定義的實數值球諧函數(參閱方程式(48)),使用此計數法,呈現過程係可藉由矩陣乘法公式化 因此中間表示 C I(k)的信號(其係部分去相關12的輸出)係提供如下
聲道指定
在已計算中間表示 C I(k)的訊框後,將其個別信號c I,n (k),n (k)指定13到可用I個聲道,用以提供傳輸信號y i (k),i=1,...,I用於知覺編碼。指定13的一目的係為避免待知覺編碼信號的不連續性,其可能發生在選擇在連續訊框之間變更的情形中。指定係可表達如下
增益控制
最後由一增益控制單元14處理各傳輸信號y i (k),其中平順地修改增益控制用以達成適合知覺編碼器的值範圍。為要避免連續區塊之間嚴重的增益 變動,增益修改需要一種預見,及因此引入一訊框延遲。用於各傳輸信號框y i (k),增益控制單元14接收或產生一延遲框y i (k-1),i=1,...,I,增益控制後的修改信號框係由 z i (k-1),i=1,...,I表示,另外,為能在一空間解碼器中反轉所作任何修改,提供增益控制邊資訊。增益控制邊資訊包括指數e i (k-1)及異常旗標β i (k-1),i=1,...,I,增益控制的更詳細說明例如可在參考文獻[9]段落C.5.2.5或[3]中取得。因此截斷HOA版本19包括增益控制信號框 z i (k-1)及增益控制邊資訊e i (k-1),β i (k-1),i=1,...,I
分析濾波器組
如上述,近似HOA表示係由二部分構成,亦即截斷HOA版本19及具有對應方向(其係預測自截斷HOA表示的係數序列)的方向次頻帶信號表示的一分量。因此,為計算第二部分的參數表示,首先將原始HOA表示的個別係數序列的各訊框 c n (k),n=1,...,O分解成個別次頻帶信號的訊框(k,f 1),..., (k,f F ),此步驟係在一或多個分析濾波器組15中完成。用於各次頻帶f j ,j=1,...,F,可使個別HOA係數序列的次頻帶信號的訊框聚集到次頻帶HOA表示中 中。分析濾波器組15將次頻帶HOA表示提供到一方向估計處理區塊16及提供到一或多個計算區塊17用於方向次頻帶信號計算。
原則上,在分析濾波器組15中可使用任何型式的濾波器(即任何複數值濾波器組,如正交鏡像濾波(QMF)、快速傅立葉變換(FFT)),不需連續應用一分析,及一對應合成濾波器組提供延遲的同一者,其即稱為完美重建特性者。請注意,對照到HOA係數序列 c n (k),其次頻帶表示(k,f j )通常係複數值。另外,相較於原始時域信號,次頻帶信號(k,f j )通常按時間銳減,結果,訊框(k,f j )中的樣本數經常係明顯小於時域信號框 c n (k)中的樣本數(其係L)。
在一實施例中,為使該處理較佳調適到人類聽覺系統的特 質,將二或多個次頻帶信號合併成次頻帶信號群。各群的頻寬係可由其次頻帶信號數調適到如熟知的Bark尺標,意即,尤其在較高頻中,可將二或多群結合成一群。請注意,在此情形中,各次頻帶群係由一HOA係數序列集(k,f j )組成,其中萃取參數的數目係與用於單次頻帶相同。在一實施例中,分組係執行在一或多個次頻帶信號分組單元(未明確顯示)中,其可併入分析濾波器組區塊15中。
方向估計
方向估計處理區塊16分析輸入HOA表示及計算次頻帶一般平面波函數的一方向集M DIR(k,f j )用於各頻率次頻帶f j ,j=1,...,F,其對聲場添加主要貢獻。在此上下文中,”主要貢獻”一詞例如可指信號功率係高於其他方向撞擊來的次頻帶一般平面波的信號功率,按人類知覺亦可指高相關性。請注意,其中使用次頻帶分組而非單次頻帶,亦可使用次頻帶群用於M DIR(k,f j )的計算。
在解壓縮期間,由於連續訊框之間估計方向及預測係數的變更,可能發生預測方向次頻帶信號中的人造產物。為避免此類人造產物,編碼期間方向估計及方向次頻帶信號的預測係執行在序連的長訊框上,一序連長訊框係由一目前訊框及其前導子組成。用於解壓縮,接著使用此等長訊框上估計的數量,利用預測方向次頻帶信號以執行交疊加處理。
用於方向估計的直接措施會用以分開地處理各次頻帶,用於方向搜尋,在一實施例中,可應用如參考文獻[7]中建議的技術,此措施提供方向估計的平順時間軌跡用於各個別次頻帶,並能捕捉突然的方向變更或發作。然而,此習知措施有二缺點,首先,各次頻帶中獨立的方向估計可導致不受歡迎的作用,在全頻帶一般平面波(如一特定方向來的瞬時鼓擊)存在時,個別子方向中的估計誤差會導致不同方向來的次頻帶一般平面波,其不會加總到單方向來的期望全頻帶版本,尤其,某些方向來的瞬時信號係模糊的。
第二,考量為得到低位元率壓縮的意圖,必須牢記邊資訊造成的總位元率,以下,一範例將顯示用於此類天真措施的位元率係相當高。示範地,假設次頻帶數F係10,及假設用於各次頻帶的方向數(其對 應到各集合M DIR(k,f j )中的元素數)係4。另外,如參考文獻[9]中所建議,假設在Q=900個潛在方向候選的柵格上執行搜尋用於各次頻帶,這要求=10位元用於單方向的簡單編碼。假設每秒約50訊框的訊框傳輸率,結果的總體資料率係 恰好用於方向的編碼表示,即若假設每秒25訊框的訊框傳輸率,10千位元/秒的結果資料率仍係相當高。
作為一改良方式,在一實施例中,在一方向估計區塊20中使用以下方向估計方法,概念係繪示在圖2中。
在第一步驟中,一全頻帶方向估計區塊21在Q個測試方向 Ω TEST,q ,q=1,...,Q組成的一方向柵格上執行一初步全頻帶方向估計(或搜尋),係使用序連長訊框 其中C(k)及C(k-1)係全頻帶原始HOA表示的目前輸入框及前一輸入框,此方向搜尋提供數個D(k) D方向候選 Ω CAND,d (k),d=1,...,D(k),其係包含在集合M DIR(k)中,即M DIR(k)={ Ω CAND,1(k),...,Ω CAND,D(k)(k)}. (13)用於每訊框的方向候選最大數的典型值係D=16,可藉由如參考文獻[7]中建議的方法來完成方向估計:概念是將輸入HOA表示的方向功率分布中得到的資訊與一簡單信號源移動模型結合以用於方向的貝斯(Bayesian)推理。
在第二步驟中,由每次頻帶(或次頻帶群)的次頻帶方向估計區塊22實施一方向搜尋用於各個別次頻帶,然而,用於次頻帶的此方向搜尋不需考慮Q個測試方向組成的初始全方向柵格,但只需考慮候選集M DIR(k),用於各次頻帶只包括有D(k)方向。用於第f j 次頻帶的方向數,j=1,...,F,由D SB(k,f j )表示,係不大於D SB,其通常明顯地小於D,如D SB=4。就像全頻帶方向搜尋,次頻帶相關方向搜尋亦執行在前一訊框及目前訊框組成的次頻帶信號的序連長訊框 上。原則上,如用於全頻帶相關方向搜尋的相同貝斯推理方法可適用於次頻帶相關方向搜尋。
一特定音源的方向會(但不需)隨時間變化,一特定音源方向的時間序列在本文中稱為”軌跡”,各次頻帶相關方向(或軌跡分別)取得明確索引,其防止與不同軌跡混淆,及提供連續的方向次頻帶信號。這對於以下說明的方向次頻帶信號的預測係重要的,尤其容許利用在以下進一步定義的連續預測係數矩陣 A (k,f j )之間的時間依存性。因此,用於第f j 次頻帶的方向估計提供元組集M DIR(k,f j ),組成各元組一方面係由識別一個別(現用)方向軌跡的索引,及另一方面係由各別估計方向 Ω SB,d (k,f j ),即 藉由定義,集合{ Ω SB,d (k,f j )|d (k,f j )}係M DIR(k)的子集用於各j=1,...,F,如上述,係由於次頻帶方向搜尋只在目前訊框的方向候選 Ω CAND,d (k),d=1,...,D(k)之中執行。此容許邊資訊相關方向的較有效率編碼,係由於各索引定義D(k)中的一方向而非Q個候選方向,D(k) Q。索引d係用以追蹤一後續訊框中的方向用以產生一軌跡。
如圖2所示及以上說明,在一實施例中,一方向估計處理區塊16包括一方向估計區塊20,具有一全頻帶方向估計區塊21,及一次頻帶方向估計區塊22用於各次頻帶或次頻帶群。該方向估計處理區塊尚可包括一長訊框產生區塊23,其提供上述長訊框到方向估計區塊20,如圖7所示。長訊框產生區塊23使用如一或多個記憶體從各具有L個樣本長度的二連續輸入框中產生出長訊框,本文中係由“‾”及由具有二索引k-1及k來表示長訊框。在其他實施例中,長訊框產生區塊23亦可係圖1所示編碼器中的一分開區塊,或併入其他區塊中。
方向次頻帶信號的計算
返回參閱圖1,分析濾波器組15提供的次頻帶HOA表示訊框(k,f j ),j=1,...,F亦輸入到一或多個方向次頻帶信號計算區塊17,在方向次頻帶信號計算區塊17中,全部D SB潛在方向次頻帶信號 (k-1;kf j ),d=1,...,D SB的長訊框係配置在一矩陣(k-1;kf j )中如 另外,不活動方向次頻帶信號的訊框(即該等長信號框(k-1;kf j )係設成零,其索引d不包含在集合(k,f j )內。
其餘長信號框(k-1;kf j ),即該等具有索引d (k,f j )者,係聚集到矩陣內,一可能性用以計算其中所含現用方向次頻帶信號係使其HOA表示與原始輸入次頻帶HOA表示之間的誤差減到最小,解決方式係提供如下: 其中(.)+表示Moore-Penrose偽逆,及表示相關集合{Ω SB,d (k,f j )|d (k,f j )}中方向估計的模式矩陣。請注意,在次頻帶群的情形中,由一矩陣( Ψ SB(k,f j ))+與該群的全部HOA表示 (k-1;kf j )的乘法計算出一方向次頻帶信號集(k-1;kf j )。請注意,可由另外一或多個長訊框產生區塊(類似一上述者)產生長訊框,同樣地,在長訊框分解區塊中,可將長訊框分解成正規長度的訊框。在一實施例中,用於方向次頻帶計算的區塊17在其輸出朝向方向次頻帶預測區塊18提供長訊框(k-1;kf j ),j=1,...,F
方向次頻帶信號的預測
如上述,近似HOA表示係部分由現用方向次頻帶信號表示,然而該等信號並非依傳統方式編碼,反而在本說明實施例中使用一參數化表示,為使用於編碼表示傳輸的總資料率保持是低的。在參數化表示中,由截斷次頻帶HOA表示(k-1,f j )與(k,f j )的係數序列的加權總和以預測各現用方向次頻帶信號(k-1;kf j ),即具有索引d (k,f j ),其中n (k-1)及其中權重通常係複數值。
因此,假設(k-1;kf j )用以表示(k-1;kf j )的預測版本,預測係由 一矩陣乘法表達如下 其中係用於次頻帶f j 的矩陣具有全部加權因子(或同等地具有預測係數)。在一或多個方向次頻帶預測區塊18中執行預測矩陣 A (k,f j )的計算,在一實施例中,每次頻帶使用一方向次頻帶預測區塊18,如圖1所示,在另一實施例中,用於多個或所有次頻帶,使用單個方向次頻帶預測區塊18。在次頻帶群的情形中,計算一矩陣 A (k,f j )用於各群;然而,將該矩陣個別乘以該群的各HOA表示(k-1;kf j ),每群產生一矩陣集(k-1;kf j )。請注意,每構造除了具有索引d (k,f j )者以外, A (k,f j )的所有列皆為零,此意指只預測現用方向次頻帶信號。另外,除了具有索引n (k-1)者以外, A (k,f j )的所有行亦皆為零,此意指用於預測只考慮在HOA解壓縮期間傳輸及可用於預測的該等HOA係數序列。
用於預測矩陣 A (k,f j )的計算,必須考量以下方面。
首先,通常在HOA解壓縮將不取得原始截斷次頻帶HOA表示(k,f j ),反而將取得其一知覺解碼版本(k,f j )及使用在方向次頻帶信號的預測。在低位元率,典型聲頻編解碼器(像自動振幅控制(AAC)或美國陸軍計算機系統(USAC))使用頻譜帶複製(SBR),其中頻譜的較低及中間頻率係以傳統方式編碼,而較高頻內容(例如在5kHz開始)係使用高頻包絡有關的額外邊資訊從較低及中間頻率中複製。為此緣故,截斷HOA分量(k,f j )的重建次頻帶係數序列的大小在知覺解碼後類似原始((k,f j ))者,然而,這並非用於相位的情形。因此,用於高頻次頻帶,藉由使用複數值預測係數以利用任何相位關係用於預測並不合理,反而,只使用實數值預測係數較為合理。尤其,定義索引j SBR使第f j 次頻帶包括開始頻率用於SBR,設定預測係數的型式如下係有利的: 換言之,在一實施例中,用於較低次頻帶的預測係數係複數值,而用於較高次頻帶的預測係數係實數值。
第二,在一實施例中,矩陣 A (k,f j )的計算策略係調適到其型式,尤其,用於低頻次頻帶f j ,1 j<j SBR,其未受SBR影響,可能藉由使(k-1;kf j )與其預測版本(k-1;kf j )之間誤差的歐氏範數(Euclidean norm)減到最小,以判定 A (k,f j )的非零元素。知覺編碼器31定義及提供j SBR(未顯示),依此方式,明顯地利用所涉及信號的相位關係用於預測。用於次頻帶群,應使該群的所有方向信號上預測誤差的歐氏範數減到最小(即最小均方預測誤差)。用於高頻次頻帶f j ,j SBR j F(其受到SBR影響),由於無法假設截斷HOA分量(k,f j )的重建次頻帶係數序列的相位甚至痕跡類似原始次頻帶係數序列者,因此上述準則並不合理。
在此情形中,一解決方法係忽略相位,及反而注意力只集中在用於預測的信號功率,用於預測係數判定的合理準則係使以下誤差減到最小 其中假設運算|.|2係逐元素地應用到矩陣,換言之,選定預測係數,以便截斷HOA分量的所有加權次頻帶或次頻帶群係數序列的功率總和最佳近似方向次頻帶信號的功率。在此情形中,可使用非負矩陣因式分解(NMF)技術(如參閱參考文獻[8])以解決此最佳化問題及得到預測矩陣 A (k,f j ),j=1,...,F的預測係數。接著將此等矩陣提供到知覺及信號源編碼級30。
知覺及信號源編碼
上述空間HOA編碼後,將用於第(k-1)訊框的結果增益調適傳輸信號 z i (k-1),i=1,...,I編碼用以得到其編碼表示(k-1),此步驟係在圖3所示知覺及信號源編碼級30由一知覺編碼器31執行,另外,使集合M DIR(k)中所含資訊M DIR(k,f j ),j=1,...,F、預測係數矩陣,j=1,...,F、增益控制參數e i (k-1)及β i (k-1),i=1,...,I及指定向量 v A(k-1)受信號源編碼,用以移除冗餘以用於有效率儲存或傳輸,此步驟係在一邊資訊信號源編碼器32中執行。在一多工器33中,將結果的編碼表示(k-1)連同編碼傳輸信號表示(k-1),i=1,...,I進行多工,用以提供最終編碼訊框(k-1)。
原則上,由於可依參考文獻[9]的類似方式實施增益控制參數及指定的信號源編碼,因此本說明只集中在方向及預測參數的編碼,其將詳細說明如下。
方向的編碼
用於個別次頻帶方向的編碼,可利用根據以上說明的無關性縮減以限制待選擇的個別次頻帶方向,如已提及,此等個別次頻帶方向並非由所有可能測試方向 Ω TEST,q ,q=1,...,Q中選出,卻寧可由全頻帶HOA表示的各訊框上判定的少數候選中選出。示範地,以下演算法1中概述用於次頻帶方向信號源編碼的可能方式。
在演算法1的第一步驟中,判定實際上確實發生為次頻帶方向的所有全頻帶方向候選集M FB(k),即 此集合的元素數(由NoOfGlobalDirs(k)表示)係方向編碼表示的第一部分。由於M FB(k)藉由定義係M DIR(k)的子集,可利用位元編碼 NoOfGlobalDirs(k),為闡明進一步說明,集合M FB(k)中的方向係由 Ω FB,d (k),d=1,...,NoOfGlobalDirs(k)表示,即M FB(k):={ Ω FB,d (k)|d=1,...,NoOfGlobalDirs(k)} (22)
在第二步驟中,藉由可能測試方向 Ω TEST,q (在此稱為柵格)的索引q=1,...,Q以編碼集合M FB(k)中的方向。用於各方向 Ω FB,d (k),d=1,...,NoOfGlobalDirs(k),各別柵格索引係編碼在陣列元素GlobalDirGridIndices(k)[d]中,具有位元的大小。表示所有編碼全頻帶方向的總陣列GlobalDirGridIndices(k)係由NoOfGlobalDirs(k)個元素組成。
在第三步驟中,用於各次頻帶或次頻帶群f j ,j=1,...,F,第d方向次頻帶信號(d=1,...,D SB)係現用與否(即是否d (k,f j ))的資訊係編碼在陣列元素bSubBandDirIsActive(k,f j )[d]中,總陣列bSubBandDirIsActive(k,f j )係由DSB個元素組成。若d (k,f j ),則藉由各別全頻帶方向 Ω FB,i (k)的索引i,將各別次頻帶方向 Ω SB,d (k,f j )編碼到D SB(k,f j )個元素組成的陣列RelDirIndices(k,f j )中。
為顯示此方向編碼方法的效率,計算最大資料率用於根據以上範例的方向編碼表示:假設F=10次頻帶,D SB(k,f j )=D SB=4方向/次頻帶,Q=900潛在測試方向,及訊框傳輸率每秒25訊框。利用傳統編碼方法,所需資料率係10千位元/秒,利用根據一實施例的改良式編碼方法,若假設全頻帶方向數係NoOfGlobalDirs(k)=D=8,則每訊框需要D=80位元用以編碼GlobalDirGridIndices(k),D SBF=40位元用以編碼bSubBandDirIsActive(k,f j ),及D SBF=120位元用以編碼RelDirIndices(k,f j ),這造成240位元/訊框.25訊框/秒=6千位元/秒的資料率,其明顯小於10千位元/秒。即使用於較大全頻帶方向數NoOfGlobalDirs(k)=D=16,只7千位元/秒的資料率即足夠。
預測係數矩陣的編碼
用於預測係數矩陣的編碼,可利用以下事實:連續訊框的預測係數之間由於方向軌跡(及因此方向次頻帶信號)的平順,因此有一高度相關。另外, 用於各預測係數矩陣 A (k,f j ),每訊框有較高數目的潛在非零元素(D SB(k,f j ).M C ,ACT(k-1)),其中M C ,ACT(k-1)表示集合(k-1)中的元素數。總而言之,若未使用任何次頻帶群,則每訊框有F個待編碼矩陣。若使用次頻帶群,則對應上每訊框有待編碼矩陣少於F個。
在一實施例中,為保持低位元數用於各預測係數,各複數值預測係數係由其大小及其角度表示,及接著在連續訊框之間將該角度及大小進行差異編碼,及獨立用於矩陣 A (k,f j )的各特定元素。若假設該大小係在區間[0,1]內,則大小差異落在區間[-1,1]內,可假設複數的角度差異落在區間[-π,π]內。用於大小差異及角度差異兩者的量化,可將各別區間細分成如個同等大小子區間,接著直接編碼需要N Q個位元用於各大小差異及角度差異。另外,實驗上已發現到,由於上述連續訊框的預測係數之間的相關性,個別差異的發生機率係高度不均勻地分布,尤其,比起大差異,明顯較頻繁發生大小以及角度中的小差異。因此,基於待編碼個別值的事前機率的編碼方法如霍夫曼(Huffman)編碼,可利用以重大地縮減每預測係數的平均位元數。換言之,已發現到將預測矩陣 A (k,f j )中值的大小及相位(而非其實數及虛數部分)進行差異編碼經常係有利的。然而,會出現可接受使用實數及虛數部分的環境。
在一實施例中,依特定間隔(應用特定,如每秒一次)傳送特殊存取訊框,其包括非差異編碼的矩陣係數,此容許一解碼器從此等特殊存取訊框重新開始一差異解碼,及因此賦能隨機登錄用於解碼。
以下說明如以上建構的低位元率壓縮HOA表示的解壓縮,解壓縮亦逐訊框地運作。原則上,根據一實施例,一低位元率HOA解碼器包括上述低位元率HOA編碼器組件的對等物,其係依相反次序配置。尤其,低位元率HOA解碼器係可細分成一知覺及信號源解碼部如圖4所繪示,及一空間HOA解碼部如圖6所繪示。
知覺及信號源解碼
圖4顯示一知覺及邊資訊信號源解碼器40,在一實施例中,在知覺及邊資訊信號源解碼器40中,首先將低位元率壓縮HOA位元流解多工41,其造成I個信號的知覺編碼表示,i=1,...,I,及編碼邊資訊,描述如何產生其HOA表示,連續地,執行I個信號的知覺解碼及邊資訊的解碼。
一知覺解碼器42將I個信號(k),i=1,...,I解碼成知覺解碼信號(k),i=1,...,I。一邊資訊信號源解碼器43將編碼邊資訊解碼成元組集M DIR(k+1,f j ),j=1,...,F、預測係數矩陣A(k+1,f j )用於各次頻帶或次頻帶群f j (j=1,...,F)、增益校正指數e i (k)及增益校正異常旗標β i (k),及指定向量 v AMB,ASSIGN(k)。
演算法2示範地概述如何從編碼邊資訊中產生元組集M DIR(k,f j ),j=1,...,F,以下詳細說明次頻帶方向的解碼。
首先,從編碼邊資訊中萃取出全頻帶方向數NoOfGlobalDirs(k),如上述,此等方向亦作為次頻帶方向使用,係利用位元進行編碼。
在第二步驟中,萃取由NoOfGlobalDirs(k)個元素組成的陣列GlobalDirGridIndices(k),各元素係由個位元編碼,此陣列包含柵格索引,其表示全頻帶方向Ω FB,d (k),d=1,...,NoOfGlobalDirs(k),以便 Ω FB,d (k)=Ω TEsT,GlobalDirGridIndices(k)[d] (23)
接著,用於各次頻帶或次頻帶群f j ,j=1,...,F,萃取D SB個元素組成的陣列bSubBandDirIsActive(k,f j ),其中第d個元素bSubBandDirIsACtive(k,f j )[d]指出第d個次頻帶方向係現用與否。另外,計算現用次頻帶方向D SB(k,f j )的總數,最後,計算用於各次頻帶或次頻帶群f j ,j=1,...,F的元組集M DIR(k,f j ),其係由識別個別(現用)次頻帶方向軌跡的索引及各別估計方向 Ω SB,d (k,f j )組成。
接下來,從編碼訊框( k )中重建預測係數矩陣A(k+1,f j )用於各次頻帶或次頻帶群f j ,j=1,...,F,在一實施例中,重建包括每次頻帶或次頻帶群f j 的以下步驟:首先藉由熵解碼以得到各矩陣係數的角度及大小差異,接著將熵解碼的角度及大小差異根據用於其編碼的位元數N Q 以重新定標到其實際值範圍,最後藉由將重建的角度及大小差異加到最近係數矩陣A(k,f j )(即前一訊框的係數矩陣)的係數,以建立目前預測係數矩陣A(k+1,f j )。
因此,用於目前矩陣A(k+1,f j )的解碼,必須知道前一矩陣A(k,f j ),在一實施例中,為賦能一隨機存取,依特定間隔接收特殊存取訊框,其包括非差異編碼矩陣係數,用以從此等訊框重新開始差異解碼。
知覺及邊資訊信號源解碼器40將知覺解碼信號(k),i=1,...,I、元組集M DIR(k+1,f j ),j=1,...,F、預測係數矩陣A(k+1,f j )、增益校正指數e i (k)、增益校正異常旗標β i (k)及指定向量 v AMB,ASSIGN(k)輸出到一後續空間HOA解碼器50。
空間HOA解碼
圖5顯示一示範空間HOA解碼器50,在一實施例中,空間HOA解碼器50從I個信號(k),i=1,...,I及邊資訊解碼器43提供的上述邊資訊中產生一重建HOA表示,空間HOA解碼器50內的個別處理單元將詳細說明如下。
逆增益控制
在空間HOA解碼器50中,首先將知覺解碼信號(k),i=1,...,I連同關聯的增益校正指數e i (k)及增益校正異常旗標β i (k)輸入到一或多個逆增益 控制處理區塊51,逆增益控制處理區塊提供增益校正的信號框(k),i=1,...,I。在一實施例中,將I個信號(k)各饋入一分開的逆增益控制處理區塊51中,如圖5所示,使第i個逆增益控制處理區塊提供一增益校正信號框(k),逆增益控制的較詳細說明係揭露在如參考文獻[9]第11.4.2.1節。
截斷HOA重建
在一截斷HOA重建區塊52中,根據指定向量 v AMB,ASSIGN(k)提供的資訊,將I個增益校正信號框(k),i=1,...,I重分配(即重指定)到一HOA係數序列矩陣,以便重建截斷HOA表示(k),指定向量 v AMB,ASSIGN(k)包括I個分量,其指出原始HOA分量包含的哪個係數序列用於各傳輸聲道,另外,指定向量的元素形成所有接收用於第k訊框的係數序列的一索引集(k),稱為原始HOA分量, 截斷HOA表示(k)的重建包括以下步驟:首先,將解碼中間表示的個別分量(k),n=1,...,O 設成零或由增益校正信號框(k)的一對應分量取代,係取決於指定向量中的資訊,即 這意指(如上述)指定向量的第i個元素(其在方程式(26)中係n)指出第i個係數(k)取代解碼中間表示矩陣(k)的第n列中的(k)。
第二,藉由應用逆空間變換到(k)內的第一O MIN信號以實施其重新相關,提供訊框如下 其中模式矩陣 Ψ MIN係如方程式(6)中所定義,模式矩陣取決於已知方向,其係分別預設用於各O MINN MIN,及因此可在編碼器及解碼器兩端獨立地建構,亦藉由慣例預設O MIN(或N MIN)。
最後,根據 從重新相關信號(k)及中間表示的信號(k),n=O MIN+1,...,O中編製出重建的截斷HOA表示(k)。
分析濾波器組
為進一步計算第二HOA分量,其係由預測方向次頻帶信號表示,首先在一或多個分析濾波器組53中,將解壓縮截斷HOA表示(k)的個別係數序列n的各訊框(k),n=1,...,O分解成個別次頻帶信號框(k,f j ),j=1,...,F。用於各次頻帶f j ,j=1,...,F,可將個別HOA係數序列的次頻帶信號的訊框聚集到次頻帶HOA表示(k,f j )中,如 在HOA空間解碼級應用的一或多個分析濾波器組53係與在HOA空間編碼級的該等一或多個分析濾波器組15相同,及用於次頻帶群係應用HOA空間編碼級來的分組。因此,在一實施例中,分組資訊係包含在編碼信號中,有關分組資訊的更多細節將提供如下。
在一實施例中,考慮最大階N MAX用於截斷HOA表示在HOA壓縮級的計算(參閱以上在方程式(4)附近的說明),並限制HOA壓縮器及解壓縮器分析濾波器組15、53的應用只到該等具有索引n=1,...,O MAX的HOA係數序列(k),具有索引n=O MAX+1,...,O的次頻帶信號框(k,f j )則可設成零。
方向次頻帶HOA表示的合成
用於各次頻帶或次頻帶群,在一或多個方向次頻帶合成區塊54中合成方向次頻帶或次頻帶群HOA表示(k,f j ),j=1,...,F。在一實施例中,為要避免連續訊框之間方向及預測係數變動導致的人造產物,方向次頻帶HOA表示的計算係基於交疊加的概念。因此,在一實施例中,相關第f j 次頻帶,j=1,...,F的現用方向次頻帶信號的HOA表示(k,f j )係計算為一淡出分量及一淡入分量的和:
在第一步驟中,用以計算二個別分量,係藉由 計算相關預測係數矩陣 A (k 1 ,f j )的所有方向次頻帶信號(k 1kf j )的瞬時框用於訊框k 1 {k,k+1},及截斷次頻帶HOA表示(k,f j )用於第k訊框。用於次頻帶群,將各群的HOA表示(k,f j )乘以一固定矩陣 A (k 1 ,f j ),用以產生該群的次頻帶信號(k 1kf j )。
在第二步驟中,得到方向次頻帶信號(k 1kf j )相關方向 Ω SB,d (k,f j )的瞬時次頻帶HOA表示(k 1kf j ),d M DIR(k,f j ),j=1,...,F 其中 ψ ( Ω SB,d (k,f j ))R O 表示相關方向 Ω SB,d (k,f j )的模式向量(如方程式(7)中的模式向量)。用於次頻帶群,執行方程式(32)用於該群的所有信號,其中矩陣 ψ ( Ω SB,d (k,f j ))係固定用於各群。
藉由
假設矩陣(k,f j )、(k,f j )及(k 1kf j )係由其樣本構成,現用方向次頻帶信號的HOA表示的淡出及淡入分量樣本值最後係藉由以下式子判定
其中向量 表示一交疊加視窗函數,一視窗函數範例係由週期性Hann視窗提供,其元素係定義如下
次頻帶HOA組成
用於各次頻帶或次頻帶群f j ,j=1,...,F,解碼次頻帶HOA表示(k,f j )的係數序列(k,f j ),n=1,...,O係設成截斷HOA表示(k,f j )者(若先前已傳輸過),否則或設成方向次頻帶合成區塊54中的一者提供的方向HOA分量(k,f j )者,即 此次頻帶組成係由一或多個次頻帶組成區塊55執行,在一實施例中,一分開的次頻帶組成區塊55使用於各次頻帶或次頻帶群,及因此各用於一或多個方向次頻帶合成區塊54。在一實施例中,將方向次頻帶合成區塊54與其對應的次頻帶組成區塊55整合到單一區塊。
合成濾波器組
在最後步驟中,從所有解碼次頻帶HOA表示(k,f j ),j=1,...,F合成解碼HOA表示。從對應的次頻帶係數序列(k,f j ),j=1,...,F合成解壓縮HOA表示(k)的個別時域係數序列(k),n=1,...,O係藉由一或多個合成濾波器組56,其最後輸出解壓縮HOA表示(k)。
請注意,合成的時域係數序列經常具有因分析及合成濾波器組53、56的連續應用導致的延遲。
圖8示範地顯示一現用方向候選集、其選定軌跡及對應元組集用於單一頻率次頻帶f1,在一訊框k中,在一頻率次頻帶f1中四方向係現用的,該等方向屬於各別軌跡T1,T2,T3及T5。在先前訊框k-2及k-1中,不同方向係現用的,亦即分別是T1,T2,T6及T1-T4,訊框k中的現用方向集MDIR(k)相關全頻帶及包括數個現用方向候選,如MDIR(k)={Ω3852101229446581},各方向係可依任何方式表達,如藉由二角度或作為一預設表格的索引。從現用全頻帶方向集,將一次頻帶中確實現用的該等方向及其對應軌跡收集到元組集MDIR(k,fj),j=1,...,F中,分開用於各頻率次頻帶。例如,在訊框k的第一頻率次頻帶中,現用方向係Ω352229及Ω581,及其關聯軌跡分別係T3,T1,T2及T5。在第二頻率次頻帶f2中,現用方向係示範地只Ω52及Ω229,及其關聯軌跡分別係T1及T2
以下係一示範截斷HOA表示CT(k)的一係數矩陣的一部分,對應到一示範集合中的係數序列IC,ACT(k)={1,2,4,6}: 根據IC,ACT(k),只有列1、2、4及6的係數係未設成零(然而其可為零,取決於該信號),矩陣C T (k)的各行指一樣本,及矩陣的各列係一係數序列。壓縮包括並非編碼及傳送所有係數序列,卻只編碼及傳送選擇的一些係數序列,亦即其索引係分別包括在IC,ACT(k)及指定向量 v A(k)中的該等係數序列。在解碼器,將係數解壓縮及定位到重建截斷HOA表示的正確矩陣列中,從指定向量 v AMB,ASSIGN(k)中得到該等列有關的資訊,該指定向量亦額外提供傳輸聲道,其係用於傳送的各係數序列。其餘係數序列係以零填滿,及稍後根據接收的邊資訊(如次頻帶或次頻帶群相關預測矩陣及方向)從接收的(經常非零)係數加以預測。
次頻帶分組
在一實施例中,使用的次頻帶具有不同頻寬調適到人類聽覺的心理聲響特性,或者,將從分析濾波器組53來的數個次頻帶合併,以便利用具有不 同頻寬的次頻帶形成一調適濾波器組。從分析濾波器組53來的一群鄰近次頻帶係使用相同參數處理,若使用合併次頻帶的群,則解碼器端必須知道在編碼器端應用的對應次頻帶配置。在一實施例中,配置資訊係由解碼器傳送及使用以配置其合成濾波器組,在一實施例中,配置資訊包括一識別符用於複數個預設已知配置中的一者(如一列表中)。
在另一實施例中,使用以下彈性解決方法,將用以定義一次頻帶配置所需位元數縮減,用於次頻帶配置的有效率編碼,將第一、倒數第二及最後次頻帶群的資料以不同於其他次頻帶群的方式處理,另外,在編碼中使用次頻帶群頻寬差異值,原則上,次頻帶分組資訊編碼方法係適合用以編碼次頻帶配置資料用於次頻帶群,有效用於一聲頻信號的一或多個訊框,其中各次頻帶群係一或多個鄰近原始次頻帶的組合並預設原始次頻帶的數目。在一實施例中,下一次頻帶群的頻寬係大於或等於一目前次頻帶群的頻寬,該方法包括利用一固定位元數(以N SB -1表示)以編碼數個N SB 次頻帶群,若N SB >1,則編碼一頻寬值B SB [1]具有一元碼(以B SB [1]-1表示)用於第一次頻帶群g 1 。若N SB =3,則編碼一頻寬差異值△B SB [2]=B SB [2]-B SB [1]具有一固定位元數用於第二次頻帶群g 2 。若N SB >3,則編碼頻寬差異值△B SB [g]=B SB [g]-B SB [g-1]的一對應數具有一元碼用於次頻帶群g 2 ,..., ,及編碼一頻寬差異值△B SB [N SB -1]=B SB [N SB -1]-B SB [N SB -2]具有一固定位元數用於最後次頻帶群。用於一次頻帶群的頻寬值係表達為數個鄰近原始次頻帶,在編碼次頻帶配置資料中不需包含任何對應值用於最後次頻帶群g SB
圖9係以廣義區塊圖顯示傳統MPEG-H立體聲編碼器的HOA編碼路徑,萃取二型式的主要聲音信號:方向聲音萃取區塊DSE中的方向信號及VVec聲音萃取區塊VSE中的向量為基信號VVec。屬於向量為基信號VVec的向量(V-向量)表示聲場的空間分布用於對應的向量為基信號,另外,亦在用於殘留物/環音聲的一計算器CRA中編碼一氛圍分量,藉此可使用從方向聲音萃取區塊DSE及VVec聲音萃取區塊VSE來的輸出資料中的任一者或兩者或都不用。環音聲信號係受空間解析度減低區塊SRR、部分去相關PD及增益控制GCA處理。方盒內區塊係由聲音場景分析SSA控制,主要聲音信號在饋入通用語音及聲頻編碼器USAC3D 前,亦由各別增益控制區塊GCD、GCV進行處理,最後,USAC3D編碼器ENCC&HEPC將HOA空間邊資訊包裝到HOA延伸酬載中。
圖10係根據一實施例顯示一改良式聲頻編碼器如可使用在MPEG者,所揭示技術依一方式更改目前MPEG-H立體聲系統,用於低頻寬的位元流係習知MPEG-H立體聲格式的一實數超集合。相較於圖9,在聲音場景分析SSA中加上一路徑,其包括二新區塊,此等區塊係一QMF分析濾波器組QAC,其應用到氛圍信號,及一方向次頻帶計算區塊DSCC用於方向次頻帶信號的參數計算。此等參數容許基於傳輸的氛圍信號以合成方向信號,此外,計算參數,其容許重製失去的氛圍信號。用於合成過程的邊資訊參數係移交到USAC3D編碼器ENC&HEP,其將該等參數包裝到壓縮輸出信號HOAC,O的HOA延伸酬載中,有利地,該壓縮比圖9配置達成的傳統壓縮更有效率。
圖11係以廣義方塊圖顯示一傳統MPEG-H立體聲解碼器。首先,從壓縮輸入位元流HOAC,I中萃取HOA邊資訊,及一USAC3D及HOA延伸酬載解碼器DECC&HEPC重製傳輸聲道波形信號,此等信號係饋入對應的逆增益控制區塊IGCD、IGCV、IGCA中,在此,反轉應用在編碼器中的正規化。使用對應的傳輸聲道連同邊資訊,用以分別在一HOA方向聲音合成區塊DSS及/或一VVec聲音合成區塊VSS中合成主要聲音信號(方向及/或向量為基)。在第三路徑中,由逆部分去相關IPD及HOA環音聲合成HAS區塊重製氛圍分量,下一個HOA組成區塊HCC結合主要聲音分量及氛圍分量用以建立解碼HOA信號,此信號係饋入HOA呈現器HR中,用以產成輸出信號HOA’D,O,即最終揚聲器饋給。
圖12係根據一實施例顯示一改良式聲頻解碼器,如可使用在MPEG者,如在編碼器中,加上一路徑,該路徑包括一解碼器端QMF分析區塊QAD用於次頻帶信號的計算,及一方向次頻帶信號合成區塊DSCD用於參數編碼方向次頻帶信號的合成。使用所計算的次頻帶信號連同對應的傳送邊資訊用以合成方向信號的一HOA表示,之後,使用QMF合成濾波器組QS將合成的信號分量傳遞到該時域,將輸出的信號額外地饋入增強HOA組成區塊HC中。下一個用以提供一解碼HOA輸出信號HOAD,O的HOA呈現區塊HR維持不變。
以下將說明高階保真立體音響的一些基本特點。高階保真立體音響(HOA)係基於感興趣緊密區內的聲場描述,其係假設為無音源。在該情形中,感興趣區內在時間t及位置x的聲壓p(t, x)的時空行為係由同質波方程式完全實體判定。以下假設一球面坐標系,如圖6所示,在此坐標系中,x軸指向前方位置,y軸指向左方,及z軸指向上方。空間中的一位置x=(r,θ, ) T 係由一半徑r>0(即到坐標原點的距離)、一斜角θ [0](自極軸z(!)測得)及一方位角[0,2π[(在x-y平面中自x軸反時鐘方向測得)表示。另外,(.) T 表示換位。
接著,可顯示參考文獻[11],聲壓相關時間的傅立葉變換,由F t (.)表示,即 ω表示角頻率及i表示虛數單位,根據 可展開成球諧函數的級數。在方程式(42)中,c s 表示音速及k表示角波數,其係按照相關角度頻率ω。另外,j n (.)表示第一類的球面Bessel函數,及(θ, )表示n階及m次的實數值球諧函數,其係在前面定義。展開係數(k)只取決於角波數k,請注意,已暗示地假設聲係空間上受頻帶限制。因此,在一上限N相關階索引n截斷該等級數,該上限稱為HOA表示的階。
若聲場係由無限個不同角頻率ω的平面諧波疊加表示及從角度元組(θ, )規定的所有可能方向抵達,則可顯示參考文獻[10],各別複合平面波振幅函數C(ω,θ, )係可由以下球諧函數展開表達: 其中展開係數(k)係相關展開係數(k)如下 假設個別係數(k=ω/c s)係角頻率ω的函數,逆傅立葉變換(由F -1(.)表示)的應用提供時域函數 用於各n階及m次。此等時域函數在此稱為連續時間HOA係數序列,其可收集在單一向量c(t)中如下 向量c(t)內的一HOA係數序列(t)的位置索引係由n(n+1)+1+m提供。向量c(t)中的元素總數係由O=(N+1)2提供。最終保真立體音響格式係使用一取樣頻率f S以提供c(t)的取樣版本如下 其中T S=1/f S表示取樣期間,c(lT S)的元素在此稱為相異時間HOA係數序列,其係可顯示經常為實數值。此特性明顯亦保持用於連續時間版本(t)。
實數值球諧函數的定義
實數值球諧函數(θ, )(假設SN3D正規化[1,Ch.3.1])係提供如下 具有 相關Legendre函數P n,m (x)係定義為 具有Legendre多項式P n (x),及不像在參考文獻[11]中,並Condon-Shortley相位項(-1) m
在一實施例中,揭示一種編碼方法,用以逐訊框判定及有效率編碼一HOA信號表示的次頻帶或次頻帶群內主導方向信號的方向 (如從一複數值濾波器組中得到),該方法包括用於各目前訊框k:判定HOA信號中的一全頻帶方向候選集MDIR(k)、集合MDIR(k)中的數個元素NoOfGlobalDirs及編碼該等元素所需數目D(k)=log2(NoOfGlobalDirs),其中各全頻帶方向候選具有一總體索引q(q [1,...,Q]),相關Q個可能方向的一預設全集,用於目前訊框k的各次頻帶或次頻帶群j,判定集合MDIR(k)中的全頻帶方向候選哪些方向發生為現用次頻帶方向,判定一使用過全頻帶方向候選集MFB(k)(全包含在HOA信號的全頻帶方向候選集MDIR(k)中),其發生為次頻帶或次頻帶群中任一者的現用次頻帶方向,及使用過全頻帶方向候選集MFB(k)中的元素數NoOfGlobalDirs(k),及用於目前訊框k的各次頻帶或次頻帶群j:判定在集合MDIR(k)中的全頻帶方向候選之中高達d(d [1,...,D])個方向中哪些方向係現用次頻帶方向,判定一軌跡及軌跡索引各用於現用次頻帶方向,及指定軌跡索引到各現用次頻帶方向,及藉由具有D(k)位元的一相對索引,各將目前次頻帶或次頻帶群j中的現用次頻帶方向編碼。
在一實施例中,一種電腦可讀取媒體已在其上儲存有可執行指令,用以令一電腦執行此方法用以逐訊框判定及有效率編碼主導方向信號的方向。
另外,在一實施例中,揭示一種解碼方法,用以解碼一HOA信號表示的次頻帶內主導方向信號的方向,該方法包括以下步驟:接收最大方向數D的索引用於一待解碼HOA信號表示,重建待解碼HOA信號表示的最大方向數D的方向,接收每次頻帶的現用方向信號的索引,從待解碼HOA信號表示的重建方向D及每次頻帶的現用方向信號的索引中重建每次頻帶的現用方向,預測次頻帶的方向信號,其中預測次頻帶目前訊框中的方向信號包括判定次頻帶前一訊框的方向信號,及其中方向信號的索引在前一訊框中係零及在目前訊框中係非零,則產生一新方向信號,若方向信號的索引在前一訊框中係非零及在目前訊框中係零,則取消前一方向信號,及若方向信號的索引從第一方向變到第二方向,則方向信號的方向則從第一方向移到第二方向。
在一實施例中,如圖1及圖3所示及以上說明,揭示一種編碼裝置,用以編碼一輸入HOA信號的訊框,該輸入HOA信號具有已知數目的係數序列,其中各係數序列具有一索引,該裝置包括至少一硬體處理器,及一非暫態有形電腦可讀取儲存媒體,有形地具體化至少一軟體組件,當其執行在至少一硬體處理器上,令硬體處理器:計算11一截斷HOA表示C T (k),具有縮減數目的非零係數序列,判定11一現用係數序列IC,ACT(k)的索引集,其係包括在截斷HOA表示中,從輸入HOA信號中估計16第一候選方向集MDIR(k);將輸入HOA信號分割15成複數個頻率次頻帶f 1 ,...,f F ,其中得到頻率次頻帶的係數序列(k-1,k,f 1),..., (k-1,k,f F ),用於各頻率次頻帶,估計16第二方向集MDIR(k,f1),...,MDIR(k,fF),其中第二方向集的各元素係一索引元組,具有一第一索引及一第二索引,第二索引係一現用方向索引用於一目前頻率次頻帶,及第一索引係現用方向的軌跡索引,其中各現用方向亦包括在輸入HOA信號的第一候選方向集MDIR(k)中,用於各頻率次頻帶,根據各別頻率次頻帶的第二方向集MDIR(k,f1),...,MDIR(k,fF),從該頻率次頻帶的係數序列(k-1,k,f 1),..., (k-1,k,f F )中計算17出方向次頻帶信號(k-1,k,f 1),..., (k-1,k,f F ),用於各頻率次頻帶,使用各別頻率次頻帶的現用係數序列IC,ACT(k)的索引集,計算18一預測矩陣A(k,f 1 ),...,A(k,f F ),調適用以從頻率次頻帶的係數序列(k-1,k,f 1),..., (k-1,k,f F )中預測方向次頻帶信號(k-1,k,f 1),..., (k-1,k,f F ),及編碼第一候選方向集MDIR(k)、第二方向集MDIR(k,f1),...,MDIR(k,fF)、預測矩陣A(k,f 1 ),...,A(k,f F )及截斷HOA表示C T (k)。
在一實施例中,如圖4及圖5所示及以上說明,揭示一種解碼壓縮HOA表示的裝置,包括至少一硬體處理器,及一非暫態有形電腦可讀取儲存媒體,有形地具體化至少一軟體組件,當其執行在至少一硬體處理器上,令硬體處理器從壓縮HOA表示中萃取41、42、43複數個截斷HOA係數序列(k),..., (k)、指出或含有該截斷HOA係數序列的序列索引的一指定向量 v AMB,ASSIGN(k)、次頻帶相關方向資訊 MDIR(k+1,f1),...,MDIR(k+1,fF)、複數個預測矩陣A(k+1,f 1 ),...,A(k+1,f F )及增益控制邊資訊e 1(k) 1(k),...,e I (k) I (k);從複數個截斷HOA係數序列(k),..., (k)、增益控制邊資訊e 1(k) 1(k),...,e I (k) I (k)及指定向量 v AMB,ASSIGN(k)中,重建51、52一截斷HOA表示(k),在一或多個分析濾波器組53中,將重建的截斷HOA表示(k)分解成頻率次頻帶表示(k,f 1),..., (k,f F )用於複數個F頻率次頻帶,在方向次頻帶合成區塊54中,用於各頻率次頻帶表示,從重建截斷HOA表示的各別頻率次頻帶表示(k,f 1),..., (k,f F )、次頻帶相關方向資訊MDIR(k+1,f1),...,MDIR(k+1,fF)及預測矩陣A(k+1,f 1 ),...,A(k+1,f F )中,合成54一預測方向HOA表示(k,f 1),..., (k,f F ),在次頻帶組成區塊55中,用於F個頻率次頻帶中的每一者,利用係數序列(k,f j ),n=1,...,O編製55一解碼次頻帶HOA表示(k,f 1),..., (k,f F ),若係數序列具有一索引n係包括在指定向量 v AMB,ASSIGN(k)中,則該等係數序列係從截斷HOA表示(k,f j )的係數序列中得到,或否則係從方向次頻帶合成區塊54中的一者所提供預測方向HOA分量(k,f j )的係數序列中得到,及在一或多個合成濾波器組56中,合成解碼次頻帶HOA表示(k,f 1),..., (k,f F )用以得到解碼HOA表示(k)。
在一實施例中,揭示一種編碼裝置10,用以編碼一輸入HOA信號的訊框,該輸入HOA信號具有已知數目的係數序列,其中各係數序列具有一索引,該裝置包括:一計算及判定模組11,配置用以計算一截斷HOA表示C T (k),具有縮減數目的非零係數序列,及尚配置用以判定一現用係數序列IC,ACT(k)的索引集,包括在截斷HOA表示中;一分析濾波器組模組15,配置用以將輸入HOA信號分割成複數個頻率次頻帶f 1 ,...,f F ,其中得到頻率次頻帶的係數序列(k-1,k,f 1),...,(k-1,k,f F );一方向估計模組16,配置用以從輸入HOA信號中估計一第一候選方向集MDIR(k),及用於各頻率次頻帶,尚配置用以估計一第二方向集 MDIR(k,f1),...,MDIR(k,fF),其中第二方向集的各元素係一索引元組,具有一第一索引及一第二索引,第二索引係一現用方向索引用於一目前頻率次頻帶,及第一索引係現用方向的軌跡索引,其中各現用方向亦包括在輸入HOA信號的第一候選方向集MDIR(k)中;至少一方向次頻帶計算模組17,用於各頻率次頻帶,根據各別頻率次頻帶的第二方向集MDIR(k,f1),...,MDIR(k,fF),配置用以從頻率次頻帶的係數序列(k-1,k,f 1),..., (k-1,k,f F )中計算出方向次頻帶信號(k-1,k,f 1),..., (k-1,k,f F );至少一方向次頻帶預測模組18,用於各頻率次頻帶,配置用以使用各別頻率次頻帶的現用係數序列IC,ACT(k)的索引集,計算一預測矩陣A(k,f 1 ),...,A(k,f F ),調適用以從頻率次頻帶的係數序列(k-1,k,f 1),..., (k-1,k,f F )中預測方向次頻帶信號(k-1,k,f 1),..., (k-1,k,f F );及一編碼模組30,配置用以編碼第一候選方向集MDIR(k)、第二方向集MDIR(k,f1),...,MDIR(k,fF)、預測矩陣A(k,f 1 ),...,A(k,f F )及截斷HOA表示C T (k)。
在一實施例中,該裝置尚包括一部分去相關器12,配置用以使截斷HOA聲道序列部分去相關;一聲道指定模組13,配置用以指定截斷HOA聲道序列y1(k),...,y1(k)到傳輸聲道;及至少一增益控制單元14,配置用以在傳輸聲道上執行增益控制,其中產生增益控制邊資訊e i (k-1),β i (k-1)用於各傳輸聲道。
在一實施例中,編碼模組30包括一知覺編碼器31,配置用以編碼增益控制截斷HOA聲道序列z1(k),...,zI(k);一邊資訊信號源編碼器32,配置用以編碼增益控制邊資訊e i (k-1),β i (k-1)、第一候選方向集MDIR(k)、第二方向集MDIR(k,f1),...,MDIR(k,fF)及預測矩陣A(k,f 1 ),...,A(k,f F );及一多工器33,配置用以將知覺編碼器31及邊資訊信號源編碼器32的輸出進行多工,用以得到一編碼HOA信號框(k-1)。
在一實施例中,揭示一種用以解碼HOA信號的裝置50,包括一萃取模組40,配置用以從壓縮HOA表示中萃取出複數個截斷HOA係數序列(k),..., (k)、一指定向量 v AMB,ASSIGN(k)(指出或包含該截斷HOA係數序列的序列索引)、次頻帶相關方向資訊 MDIR(k+1,f1),...,MDIR(k+1,fF)、複數個預測矩陣A(k+1,f 1 ),...,A(k+1,f F )及增益控制邊資訊e 1(k) 1(k),...,e I (k) I (k);一重建模組51、52,配置用以從複數個截斷HOA係數序列(k),..., (k)、增益控制邊資訊e 1(k) 1(k),...,e I (k) I (k)及指定向量 v AMB,ASSIGN(k)中,重建一截斷HOA表示(k);一分析濾波器組模組53,配置用以將重建截斷HOA表示(k)分解成頻率次頻帶表示(k,f 1),..., (k,f F )用於複數個F頻率次頻帶;至少一方向次頻帶合成模組54,用於各頻率次頻帶表示,配置用以從重建截斷HOA表示的各別頻率次頻帶表示(k,f 1),..., (k,f F )、次頻帶相關方向資訊MDIR(k+1,f1),...,MDIR(k+1,fF)及預測矩陣A(k+1,f 1 ),...,A(k+1,f F )中,合成一預測方向HOA表示(k,f 1),..., (k,f F );至少一次頻帶組成模組55,用於F個頻率次頻帶中的每一者,配置用以利用係數序列(k,f j ),n=1,...,O編製一解碼次頻帶HOA表示(k,f 1),..., (k,f F ),若係數序列具有一索引n係包括在指定向量 v AMB,ASSIGN(k)中,則該等係數序列係從截斷HOA表示(k,f j )的係數序列中得到,或否則係從方向次頻帶合成模組54中的一者所提供預測方向HOA分量(k,f j )的係數序列中得到;及一合成濾波器組模組56,配置用以合成解碼次頻帶HOA表示(k,f 1),..., (k,f F )用以得到解碼HOA表示(k)。。
在一實施例中,萃取模組40包括至少一解多工器41,用以得到一編碼邊資訊部分,及一知覺編碼部分,其包括編碼截斷HOA係數序列(k),..., (k);一知覺解碼器42,配置用以知覺解碼s42編碼截斷HOA係數序列(k),..., (k),用以得到截斷HOA係數序列(k),..., (k);及一邊資訊信號源解碼器43,配置用以解碼(s43)編碼邊資訊部分,用以得到次頻帶相關方向資訊MDIR(k+1,f1),...,MDIR(k+1,fF)、預測矩陣A(k+1,f 1 ),...,A(k+1,f F )、增益控制邊資訊e 1(k) 1(k),...,e I (k) I (k)及指定向量 v AMB,ASSIGN(k)。
圖13係以流程圖顯示一低位元率編碼方法,在一實施例中,該方法係用以低位元率編碼一輸入HOA信號的訊框,該輸入HOA信號具有已知數目的係數序列,其中各係數序列具有一索引,該方法包括 計算s110一截斷HOA表示C T (k),具有縮減數目的非零係數序列數,判定s111一現用係數序列IC,ACT(k)的索引集,其包括在截斷HOA表示中,從輸入HOA信號中估計s16一第一候選方向集MDIR(k),將輸入HOA信號分割s15成複數個頻率次頻帶f 1 ,...,f F ,其中得到頻率次頻帶的係數序列(k-1,k,f 1),..., (k-1,k,f F ),用於各頻率次頻帶,估計s161一第二方向集MDIR(k,f1),...,MDIR(k,fF),其中第二方向集的各元素係一索引元組,具有一第一索引及一第二索引,第二索引係一現用方向索引用於目前頻率次頻帶,及第一索引係現用方向的軌跡索引,其中各現用方向亦包括在輸入HOA信號的第一候選方向集MDIR(k)中,用於各頻率次頻帶,根據各別頻率次頻帶的第二方向集MDIR(k,f1),...,MDIR(k,fF),從頻率次頻帶的係數序列(k-1,k,f 1),..., (k-1,k,f F )中計算s17方向次頻帶信號(k-1,k,f 1),..., (k-1,k,f F ),用於各頻率次頻帶,使用各別頻率次頻帶的現用係數序列IC,ACT(k)的索引集,計算s18一預測矩陣A(k,f 1 ),...,A(k,f F ),調適用以從頻率次頻帶的係數序列(k-1,k,f 1),..., (k-1,k,f F )中預測方向次頻帶信號(k-1,k,f 1),..., (k-1,k,f F ),及編碼s19第一候選方向集MDIR(k)、第二方向集MDIR(k,f1),...,MDIR(k,fF)、預測矩陣A(k,f 1 ),...,A(k,f F )及截斷HOA表示C T (k)。
在一實施例中,該編碼截斷HOA表示C T (k)包括截斷HOA聲道序列的部分去相關s12,用以指定截斷HOA聲道序列y1(k),...,yI(k)到傳輸聲道的聲道指定s13,在各傳輸聲道上執行增益控制s14,其中產生增益控制邊資訊e i (k-1),β i (k-1)用於各傳輸聲道,在一知覺編碼器31中編碼s31增益控制截斷HOA聲道序列z1(k),...,zI(k);在一邊資訊信號源編碼器32中編碼s32增益控制邊資訊e i (k-1),β i (k-1)、第一候選方向集MDIR(k)、第二方向集MDIR(k,f1),...,MDIR(k,fF)及預測矩陣A(k,f 1 ),...,A(k,f F ),及知覺編碼器31及邊資訊信號源編碼器32的輸出進行多工s33,用以得到一編碼HOA信號框(k-1)。
在一實施例中,揭示一種編碼裝置,用以編碼一輸入HOA 信號的訊框,該輸入HOA信號具有已知數目的係數序列,其中各係數序列具有一索引,該裝置包括一處理器,及一記憶體,儲存有指令,當其由處理器執行時,令處理器執行如申請專利範圍第8項的步驟。
圖14係以流程圖顯示一解碼方法,在一實施例中,用以解碼一低位元率壓縮HOA表示的方法包括從壓縮HOA表示中萃取s41、s42、s43複數個截斷HOA係數序列(k),..., (k)、一指定向量 v AMB,ASSIGN(k)(指出或含有截斷HOA係數序列的序列索引)、次頻帶相關方向資訊MDIR(k+1,f1),...,MDIR(k+1,fF)、複數個預測矩陣A(k+1,f 1 ),...,A(k+1,f F )及增益控制邊資訊e 1(k) 1(k),...,e I (k) I (k),從複數個截斷HOA係數序列(k),..., (k)、增益控制邊資訊e 1(k) 1(k),...,e I (k) I (k)及指定向量 v AMB,ASSIGN(k)中,重建s51、s52一截斷HOA表示(k),在分析濾波器組53中,將重建截斷HOA表示((k))分解成頻率次頻帶表示(k,f 1),..., (k,f F )用於複數個F頻率次頻帶,在方向次頻帶合成區塊54中,用於各頻率次頻帶表示,從重建截斷HOA表示的各別頻率次頻帶表示(k,f 1),..., (k,f F )、次頻帶相關方向資訊MDIR(k+1,f1),...,MDIR(k+1,fF)及預測矩陣A(k+1,f 1 ),...,A(k+1,f F ),合成s54一預測方向HOA表示(k,f 1),..., (k,f F ),在次頻帶組成區塊55中,用於F個頻率次頻帶中的每一者,利用係數序列(k,f j ),n=1,...,O編製s55一解碼次頻帶HOA表示(k,f 1),..., (k,f F ),若係數序列具有一索引n係包括在指定向量 v AMB,ASSIGN(k)中,則該等係數序列係從截斷HOA表示(k,f j )的係數序列中得到,或否則係從方向次頻帶合成區塊54中的一者所提供預測方向HOA分量(k,f j )的係數序列中得到,及在合成濾波器組56中,合成s56解碼次頻帶HOA表示(k,f 1),..., (k,f F )用以得到解碼HOA表示(k)。
在一實施例中,萃取包括以下步驟中的一或多者:解多工s41壓縮HOA表示,用以得到一知覺編碼部分及一編碼邊資訊部分;知覺解碼s42編碼截斷HOA係數序列;及在一邊資訊信號源解碼器43中解碼s43編碼邊資訊。在一實施例中,從複數個截斷HOA係數序列中重建 一截斷HOA表示(k)包括以下步驟中的一或多者:執行逆增益控制s51及重建s52截斷HOA表示(k)。
在一實施例中,揭示一種電腦可讀取媒體,其上已儲存有可執行指令,用以令電腦執行該方法用於主導方向信號方向的解碼。
在一實施例中,揭示一種用以解碼壓縮HOA信號的裝置,包括一處理器,及一記憶體,儲存有指令,當其由處理器執行時,令處理器執行如申請專利範圍第1項的步驟。
明確地預期以大體上相同方式執行大體上相同功能用以達成相同結果的該等元件的所有組合皆包含在本發明的範圍內,及預期說明書及(只要適當)申請專利範圍及附圖中揭示的各特點係可獨立地或以任何適當組合方式提供,只要適當,特點係可實施在硬體、軟體或二者的組合中。只要適用,連接係可實施為無線連接或有線連接,不必然係直接或專用的連接。在一實施例中,以上提及的模組或單元如萃取模組、增益控制單元、次頻帶信號分組單元、處理單元及其他者中的每一者係藉由使用至少一矽組件至少部分實施在硬體中。
參考文獻
[1]Jérôme Daniel,聲場之表示,應用到多媒體環境中複合聲音場景之傳輸及再製(Représentation de champs acoustiques,application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia),巴黎大學博士論文,2001年。
[2]Jörg Fliege及Ulrike Maier,計算球體體積公式的二階段方法(A two-stage approach for computing cubature formulae for the sphere),多特蒙德大學數學系技術報告,1999年,網址在http://www.mathematik.uni-dortmund.de/lsx/research/projects/fliege/nodes/nodes.html。
[3]Sven Kordon及Alexander Krueger,HOA信號之適應值範圍控制(Adaptive value range control for HOA signals),專利申請號(Technicolor公司內部參考:PD130016),2013年7月。
[4]Alexander Krueger及Sven Kordon,智慧型信號萃取及包裝用於HOA聲場表示之壓縮(Intelligent signal extraction and packing for compression of HOA sound field representations),歐洲專利申請號EP 13305558.2(Technicolor公司內部參考:PD130015),頒於2013年4月29日。
[5]A.Krueger、S.Kordon及J.Boehm,藉由分解成方向分量及周圍分量之HOA壓縮(HOA compression by decomposition into directional and ambient components),公開的歐洲專利申請號EP2743922(Technicolor公司內部參考:PD120055),2012年12月。
[6]Alexander Krüger、Sven Kordon、Johannes Boehm及Jan-Mark Batke,壓縮及解壓縮高階保真立體音響信號表示之方法及裝置(Method and apparatus for compressing and decompressing a higher order ambisonics signal representation),公開的歐洲專利申請號EP2665208(Technicolor公司內部參考:PD120015),2012年5月。
[7]Alexander Krüger,基於高階保真立體音響用於堅固音源方向追蹤之方法及裝置(Method and apparatus for robust sound source direction tracking based on Higher Order Ambisonics),公開的歐洲專利申請號EP2738962(Technicolor公司內部參考:PD120049),2012年11月。
[8]Daniel D. Lee及H. Sebastian Seung,藉由非負矩陣因式分解學習物件部分(Learning the parts of objects by nonnegative matrix factorization),自然期刊,401:788-791,1999年。
[9]ISO/IEC JTC 1/SC 29 N,ISO/IEC 23008-3/CD的本文,MPEG-H立體聲,2014年4月。
[10]Boaz Rafaely,球體上之聲場藉由球面卷積之平面波分解(Plane-wave decomposition of the sound field on a sphere by spherical convolution),美國聲學學會期刊,4(116):2149-2157,2004年10月。
[11]Earl G. Williams,傅立葉聲學(Fourier Acoustics),應用數學科學期刋,第93期,學術出版品,1999年。

Claims (24)

  1. 一種將壓縮高階保真立體音響(HOA)表示解碼之方法,包括:- 從壓縮HOA表示中萃取出複數個截斷HOA係數序列((k),..., (k))、一指出或含有該等截斷HOA係數序列之序列索引之指定向量( v AMB,ASSIGN(k))、次頻帶相關方向資訊(MDIR(k+1,f1),...,MDIR(k+1,fF))、複數個預測矩陣(A(k+1,f 1 ),...,A(k+1,f F )),及增益控制邊資訊(e 1(k) 1(k),...,e I (k) I (k));- 從複數個截斷HOA係數序列((k),..., (k))、增益控制邊資訊(e 1(k) 1(k),...,e I (k) I (k))及指定向量( v AMB,ASSIGN(k))中,重建一截斷HOA表示((k));- 於分析濾波器組中,將重建之截斷HOA表示((k))分解成頻率次頻帶表示((k,f 1),..., (k,f F ))用於複數個F頻率次頻帶;- 於方向次頻帶合成區塊中,用於各頻率次頻帶表示,從重建截斷HOA表示之各別頻率次頻帶表示((k,f 1),..., (k,f F ))、次頻帶相關方向資訊(MDIR(k+1,f1),...,MDIR(k+1,fF))及預測矩陣(A(k+1,f 1 ),...,A(k+1,f F )),合成一預測方向HOA表示((k,f 1),..., (k,f F ));- 於次頻帶組成區塊中,用於F個頻率次頻帶中之每一者,利用係數序列((k,f j ),n=1,...,O)編製一 解碼次頻帶HOA表示((k,f 1),..., (k,f F )),若係數序列具有一索引n係包括於指定向量( v AMB,ASSIGN(k))中,則該等係數序列係從截斷HOA表示((k,f j ))之係數序列中得到,或否則係從方向次頻帶合成區塊中之一者所提供預測方向HOA分量((k,f j ))之係數序列中得到;及- 於合成濾波器組中,合成解碼次頻帶HOA表示((k,f 1),..., (k,f F ))用以得到解碼HOA表示((k))。
  2. 如申請專利範圍第1項之方法,其中萃取包括得到一知覺編碼部分,其包括編碼之截斷HOA係數序列((k),..., (k)),及尚包括於一知覺解碼器中將編碼之截斷HOA係數序列((k),..., (k))知覺解碼,用以得到截斷HOA係數序列((k),..., (k))。
  3. 如申請專利範圍第1項之方法,其中萃取包括得到一編碼邊資訊部分,及尚包括於一邊資訊信號源解碼器中將編碼邊資訊部分解碼,用以得到次頻帶相關方向資訊(MDIR(k+1,f1),...,MDIR(k+1,fF))、預測矩陣(A(k+1,f 1 ),...,A(k+1,f F ))、增益控制邊資訊(e 1(k),β 1(k),...,e I (k),β I (k))及指定向量( v AMB,ASSIGN(k))。
  4. 如申請專利範圍第1項之方法,其中次頻帶相關方向資訊包括一現用方向集(MDIR(k)),及一元組集(MDIR(k+1,f1),...,MDIR(k+1,fF)),其包括索引元組,具有一第一索引及一第二索引,第二索引係現用方向集(MDIR(k))內之一現用方向索引用於一目前頻率次頻帶,及第一索引 係現用方向之軌跡索引,其中一軌跡係一特定音源之方向之時間序列。
  5. 如申請專利範圍第1項之方法,其中至少一頻率次頻帶表示包括一次頻帶群,由二或多個頻率次頻帶組成。
  6. 如申請專利範圍第5項之方法,其中次頻帶群配置資訊係從壓縮HOA表示中接收或萃取到,及次頻帶群配置資訊係用以配置該合成濾波器組。
  7. 一種編碼方法,用以編碼一輸入HOA信號之訊框,該輸入HOA信號具有已知數目之係數序列,其中各係數序列具有一索引,該方法包括- 判定一現用係數序列(IC,ACT(k))之索引集,待包括於一截斷HOA表示中;- 計算截斷HOA表示(C T (k)),具有縮減數目之非零係數序列;- 從輸入HOA信號中估計出一第一候選方向集(MDIR(k));- 將輸入HOA信號分割成複數個頻率次頻帶(f 1 ,...,f F ),其中得到頻率次頻帶之係數序列((k-1,k,f 1),..., (k-1,k,f F ));- 用於各頻率次頻帶,估計一第二方向集(MDIR(k,f1),...,MDIR(k,fF)),其中第二方向集之各元素係一索引元組,具有一第一索引及一第二索引,第二索引係一現用方向索引用於一目前頻率 次頻帶,及第一索引係現用方向之軌跡索引,其中各現用方向亦包括於輸入HOA信號之第一候選方向集(MDIR(k))中;- 用於各頻率次頻帶,根據各別頻率次頻帶之第二方向集(MDIR(k,f1),...,MDIR(k,fF)),從頻率次頻帶之係數序列((k-1,k,f 1),..., (k-1,k,f F ))中,計算出方向次頻帶信號((k-1,k,f 1),..., (k-1,k,f F ));- 用於各頻率次頻帶,使用各別頻率次頻帶之現用係數序列(IC,ACT(k))之索引集,計算一預測矩陣(A(k,f 1 ),...,A(k,f F )),調適用以從頻率次頻帶之係數序列((k-1,k,f 1),..., (k-1,k,f F ))中預測出方向次頻帶信號((k-1,k,f 1),..., (k-1,k,f F ));及- 編碼第一候選方向集(MDIR(k))、第二方向集(MDIR(k,f1),...,MDIR(k,fF))、預測矩陣(A(k,f 1 ),...,A(k,f F ))及截斷HOA表示(C T (k))。
  8. 如申請專利範圍第7項之方法,其中產生二或多個次頻帶組成之至少一群,及其中使用至少一群取代單一次頻帶,及依如單一次頻帶之相同方式進行處理。
  9. 如申請專利範圍第7項之方法,其中該編碼截斷HOA表示(C T (k))包括:- 截斷HOA聲道序列之部分去相關;- 聲道指定用以指定截斷HOA聲道序列(y1(k),...,yI(k))至傳輸聲道;- 於各傳輸聲道上執行增益控制,其中產生增益控 制邊資訊(e i (k-1),β i (k-1))用於各傳輸聲道;- 於一知覺編碼器中,編碼增益控制截斷HOA聲道序列(z1(k),...,zI(k));- 於一邊資訊信號源編碼器中,編碼增益控制邊資訊(e i (k-1),β i (k-1))、第一候選方向集(MDIR(k))、第二方向集(MDIR(k,f1),...,MDIR(k,fF))及預測矩陣(A(k,f 1 ),...,A(k,f F ));及- 將知覺編碼器及邊資訊信號源編碼器之輸出進行多工,用以得到一編碼HOA信號框((k-1))。
  10. 如申請專利範圍第7項之方法,其中用於各頻率次頻帶,於估計第二方向集(MDIR(k,f1),...,MDIR(k,fF))之步驟中,只於全頻帶HOA信號之方向(MDIR(k))之中搜尋一頻率次頻帶之方向。
  11. 如申請專利範圍第7項之方法,尚包括判定現用方向之軌跡之步驟,其中一現用方向係一音源之方向,及其中一軌跡係一特定音源之方向之時間序列。
  12. 如申請專利範圍第7項之方法,其中一截斷HOA表示係一HOA信號,其中一或多個係數序列係設成零。
  13. 一種用以解碼HOA信號之裝置,包括:- 一萃取模組,配置用以從壓縮HOA表示中萃取出複數個截斷HOA係數序列((k),..., (k))、一指出或含有該截斷HOA係數序列之序列索引之指定向量( v AMB,ASSIGN(k))、次頻帶相關方向資訊(MDIR(k+1,f1),...,MDIR(k+1,fF))、複數個預測矩陣 (A(k+1,f 1 ),...,A(k+1,f F ))及增益控制邊資訊(e 1(k) 1(k),...,e I (k) I (k));- 一重建模組,配置用以從複數個截斷HOA係數序列((k),..., (k))、增益控制邊資訊(e 1(k) 1(k),...,e I (k) I (k))及指定向量( v AMB,ASSIGN(k))中重建一截斷HOA表示((k));- 一分析濾波器組模組,配置用以將重建截斷HOA表示((k))分解成頻率次頻帶表示((k,f 1),..., (k,f F ))用於複數個F頻率次頻帶;- 至少一方向次頻帶合成模組,用於各頻率次頻帶表示,配置用以從重建截斷HOA表示之各別頻率次頻帶表示((k,f 1),..., (k,f F ))、次頻帶相關方向資訊(MDIR(k+1,f1),...,MDIR(k+1,fF))及預測矩陣(A(k+1,f 1 ),...,A(k+1,f F )),合成一預測方向HOA表示((k,f 1),..., (k,f F ));- 至少一次頻帶組成模組,用於F個頻率次頻帶中之每一者,配置用以利用係數序列((k,f j ),n=1,...,O)編製一解碼次頻帶HOA表示((k,f 1),..., (k,f F )),若係數序列具有一索引n係包括於指定向量( v AMB,ASSIGN(k))中,則該等係數序列係從截斷HOA表示((k,f j ))之係數序列中得到,或否則係從方向次頻帶合成模組中之一者所提供預測方向HOA分量((k,f j ))之係數序列中得到;及 - 一合成濾波器組模組,配置用以合成解碼次頻帶HOA表示((k, f1),..., (k,f F )),用以得到解碼HOA表示((k))。
  14. 如申請專利範圍第13項之裝置,其中萃取模組至少包括:- 一解多工器,用以得到一編碼邊資訊部分,及一知覺編碼部分,其包括編碼截斷HOA係數序列((k),..., (k));- 一知覺解碼器,配置用以將編碼截斷HOA係數序列((k),..., (k))進行知覺解碼,用以得到截斷HOA係數序列((k),..., (k));及- 一邊資訊信號源解碼器,配置用以解碼編碼邊資訊部分,用以得到次頻帶相關方向資訊(MDIR(k+1,f1),...,MDIR(k+1,fF))、預測矩陣(A(k+1,f 1 ),...,A(k+1,f F ))、增益控制邊資訊(e 1(k) 1(k),...,e I (k) I (k))及指定向量( v AMB,ASSIGN(k))。
  15. 如申請專利範圍第13項之裝置,其中萃取模組得到一編碼邊資訊部分,尚包括一邊資訊信號源解碼器,配置用以解碼編碼邊資訊部分,用以得到次頻帶相關方向資訊(MDIR(k+1,f1),...,MDIR(k+1,fF))、預測矩陣(A(k+1,f 1 ),...,A(k+1,f F ))、增益控制邊資訊(e 1(k) 1(k),...,e I (k) I (k))及指定向量( v AMB,ASSIGN(k))。
  16. 如申請專利範圍第13項之裝置,其中次頻帶相 關方向資訊包括一現用方向集(MDIR(k)),及一元組集(MDIR(k+1,f1),...,MDIR(k+1,fF)),其包括索引元組,具有一第一索引及一第二索引,第二索引係現用方向集(MDIR(k))內之一現用方向索引用於一目前頻率次頻帶,及第一索引係現用方向之軌跡索引,其中一軌跡係一特定音源之方向之時間序列。
  17. 如申請專利範圍第13項之裝置,其中至少一頻率次頻帶表示包括二或多個頻率次頻帶組成之次頻帶群。
  18. 如申請專利範圍第17項之裝置,其中次頻帶群配置資訊係從壓縮HOA表示接收或萃取到,及次頻帶群配置資訊係用以配置該等合成濾波器組。
  19. 一種編碼裝置,用以編碼一輸入HOA信號之訊框,該輸入HOA信號具有已知數目之係數序列,其中各係數序列具有一索引,該裝置包括:- 一計算及判定模組,配置用以計算一截斷HOA表示(C T (k)),具有縮減數目之非零係數序列,及尚配置用以判定一現用係數序列(IC,ACT(k))之索引集,包括於截斷HOA表示中;- 一分析濾波器組模組,配置用以將輸入HOA信號分割成複數個頻率次頻帶(f 1 ,...,f F ),其中得到頻率次頻帶之係數序列((k-1,k,f 1),..., (k-1,k,f F ));- 一方向估計模組,配置用以從輸入HOA信號中估計一第一候選方向集(MDIR(k)),及用於各頻率 次頻帶,尚配置用以估計一第二方向集(MDIR(k,f1),...,MDIR(k,fF)),其中第二方向集之各元素係一索引元組,具有一第一索引及一第二索引,第二索引係一現用方向之索引用於一目前頻率次頻帶,及第一索引係現用方向之軌跡索引,其中各現用方向亦包括於輸入HOA信號之第一候選方向集(MDIR(k))中;- 至少一方向次頻帶計算模組,用於各頻率次頻帶,配置用以根據各別頻率次頻帶之第二方向集(MDIR(k,f1),...,MDIR(k,fF)),從頻率次頻帶之係數序列((k-1,k,f 1),..., (k-1,k,f F ))中計算出方向次頻帶信號((k-1,k,f 1),..., (k-1,k,f F ));- 至少一方向次頻帶預測模組,用於各頻率次頻帶,配置用以使用各別頻率次頻帶之現用係數序列(IC,ACT(k))之索引集,計算一預測矩陣(A(k,f 1 ),...,A(k,f F )),調適用以從頻率次頻帶之係數序列((k-1,k,f 1),..., (k-1,k,f F ))中預測出方向次頻帶信號((k-1,k,f 1),..., (k-1,k,f F ));及- 編碼模組,配置用以編碼第一候選方向集(MDIR(k))、第二方向集(MDIR(k,f1),...,MDIR(k,fF))、預測矩陣(A(k,f 1 ),...,A(k,f F ))及截斷HOA表示(C T (k))。
  20. 如申請專利範圍第19項之裝置,其中產生由二或多個次頻帶組成之至少一群,及其中使用至少一群取代 單一次頻帶,及依如單一次頻帶之相同方式進行處理。
  21. 如申請專利範圍第19項之裝置,尚包括:- 一部分去相關器,配置用以將截斷HOA聲道序列部分去相關;- 一聲道指定模組,配置用以指定截斷HOA聲道序列(y1(k),...,yI(k))至傳輸聲道;及- 至少一增益控制單元,配置用以執行增益控制於傳輸聲道上,其中產生增益控制邊資訊(e i (k-1),β i (k-1))用於各傳輸聲道;及其中編碼模組包括:- 一知覺編碼器,配置用以編碼增益控制截斷HOA聲道序列(z1(k),...,zI(k));- 一邊資訊信號源編碼器,配置用以編碼增益控制邊資訊(e i (k-1),β i (k-1))、第一候選方向集(MDIR(k))、第二方向集(MDIR(k,f1),...,MDIR(k,fF))及預測矩陣(A(k,f 1 ),...,A(k,f F ));及- 一多工器,配置用以將知覺編碼器及邊資訊信號源編碼器之輸出進行多工,用以得到一編碼HOA信號框((k-1))。
  22. 如申請專利範圍第19項之裝置,其中方向估計模組當估計第二方向集(MDIR(k,f1),...,MDIR(k,fF))用於各頻率次頻帶時,只於全頻帶HOA信號之方向(MDIR(k))之中搜尋一頻率次頻帶之方向。
  23. 如申請專利範圍第19項之裝置,尚包括一軌跡 判定模組,配置用以判定一現用方向之軌跡,其中一現用方向係一音源之方向,及其中一軌跡係一特定音源之方向之時間序列。
  24. 如申請專利範圍第19項之裝置,其中一截斷HOA表示係一HOA信號,其中一或多個係數序列係設成零。
TW104121236A 2014-07-02 2015-07-01 解碼壓縮高階保真立體音響表示之方法及裝置,及編碼壓縮高階保真立體音響表示之方法及裝置 TWI657434B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
??14306080.4 2014-07-02
EP14306080 2014-07-02
??14194186.4 2014-11-20
EP14194186.4A EP2963949A1 (en) 2014-07-02 2014-11-20 Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation

Publications (2)

Publication Number Publication Date
TW201603004A TW201603004A (zh) 2016-01-16
TWI657434B true TWI657434B (zh) 2019-04-21

Family

ID=51220514

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104121236A TWI657434B (zh) 2014-07-02 2015-07-01 解碼壓縮高階保真立體音響表示之方法及裝置,及編碼壓縮高階保真立體音響表示之方法及裝置

Country Status (7)

Country Link
US (1) US9774975B2 (zh)
EP (2) EP2963949A1 (zh)
JP (1) JP6542269B2 (zh)
KR (1) KR102296067B1 (zh)
CN (1) CN106663432B (zh)
TW (1) TWI657434B (zh)
WO (1) WO2016001356A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3622509B1 (en) 2017-05-09 2021-03-24 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal
CN109521731B (zh) * 2017-09-19 2021-07-30 沈阳高精数控智能技术股份有限公司 一种基于公差带的G2连续Bézier刀具轨迹平滑算法
EP3740950B8 (en) 2018-01-18 2022-05-18 Dolby Laboratories Licensing Corporation Methods and devices for coding soundfield representation signals
CN112074902B (zh) * 2018-02-01 2024-04-12 弗劳恩霍夫应用研究促进协会 使用混合编码器/解码器空间分析的音频场景编码器、音频场景解码器及相关方法
CN112567769B (zh) * 2018-08-21 2022-11-04 索尼公司 音频再现装置、音频再现方法和存储介质
CN110476960B (zh) * 2019-09-19 2021-06-15 河北省农林科学院植物保护研究所 噻虫胺薄膜缓释型种子处理悬浮剂及其制备方法与应用
CN115376530A (zh) * 2021-05-17 2022-11-22 华为技术有限公司 三维音频信号编码方法、装置和编码器
CN115881140A (zh) * 2021-09-29 2023-03-31 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序产品
CN115546323B (zh) * 2022-08-31 2023-06-09 广东工业大学 一种基于球坐标主成分分析的图像压缩重构方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
US20140016784A1 (en) * 2012-07-15 2014-01-16 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5075880A (en) * 1988-11-08 1991-12-24 Wadia Digital Corporation Method and apparatus for time domain interpolation of digital audio signals
JP3531178B2 (ja) * 1993-05-27 2004-05-24 ソニー株式会社 ディジタル信号処理装置及び方法
US6931370B1 (en) * 1999-11-02 2005-08-16 Digital Theater Systems, Inc. System and method for providing interactive audio in a multi-channel audio environment
JP3995383B2 (ja) * 2000-02-15 2007-10-24 三洋電機株式会社 水素吸蔵合金電極の製造方法
JP4676140B2 (ja) * 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
ATE391988T1 (de) * 2003-10-10 2008-04-15 Agency Science Tech & Res Verfahren zum codieren eines digitalen signals in einen skalierbaren bitstrom, verfahren zum decodieren eines skalierbaren bitstroms
US7599840B2 (en) * 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding
CN101202043B (zh) * 2007-12-28 2011-06-15 清华大学 音频信号的编码方法和装置与解码方法和装置
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2738962A1 (en) 2012-11-29 2014-06-04 Thomson Licensing Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
EP2824661A1 (en) 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
US20140016784A1 (en) * 2012-07-15 2014-01-16 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding

Also Published As

Publication number Publication date
KR20170024581A (ko) 2017-03-07
WO2016001356A1 (en) 2016-01-07
EP3165005B1 (en) 2018-11-28
US20170164131A1 (en) 2017-06-08
US9774975B2 (en) 2017-09-26
CN106663432B (zh) 2021-02-02
CN106663432A (zh) 2017-05-10
JP2017523451A (ja) 2017-08-17
JP6542269B2 (ja) 2019-07-10
EP2963949A1 (en) 2016-01-06
TW201603004A (zh) 2016-01-16
KR102296067B1 (ko) 2021-09-01
EP3165005A1 (en) 2017-05-10

Similar Documents

Publication Publication Date Title
TWI657434B (zh) 解碼壓縮高階保真立體音響表示之方法及裝置,及編碼壓縮高階保真立體音響表示之方法及裝置
CN106471579B (zh) 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置
JP6585094B2 (ja) Hoa信号表現のサブバンド内の優勢な方向性信号の方向のエンコード/デコードのための方法および装置
JP6585095B2 (ja) 圧縮hoa表現をデコードする方法および装置ならびに圧縮hoa表現をエンコードする方法および装置
CN106463131B (zh) 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置
JP2013195706A (ja) オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム、オーディオ復号装置、オーディオ復号方法ならびにオーディオ復号用コンピュータプログラム