TW201739272A

TW201739272A - 編碼多通道ｈｏａ聲訊訊號以減少雜訊之方法和裝置以及對已減少雜訊的編碼多通道ｈｏａ聲訊訊號解碼之方法和裝置

Info

Publication number: TW201739272A
Application number: TW106123691A
Authority: TW
Inventors: 約哈拿斯波漢; 斯凡科登; 亞歷山德克魯格; 彼得賈克斯
Original assignee: 杜比國際公司
Priority date: 2012-07-16
Filing date: 2013-07-12
Publication date: 2017-11-01
Also published as: US10614821B2; TWI691214B; US20150154971A1; CN107591159B; CN107403625A; JP6866519B2; EP2688066A1; JP2019040218A; TWI602444B; KR20210156311A; US20190318751A1; US9837087B2; CN107591160A; CN107403625B; CN107424618B; JP6453961B2; CN107403626A; CN104428833A; WO2014012944A1; TW202103503A

Abstract

一種編碼多通道HOA聲訊訊號以減少雜訊之方法，包括步驟為，使用逆適應DSHT令諸通道解相關(31)，逆適應DSHT包括旋轉操作(330)和逆DSHT(310)，該旋轉操作旋轉iDSHT之空間抽樣柵格，以感知方式編碼(32)各解相關通道，編碼相關資訊(SI)，相關資訊包括界定該旋轉操作之參數，以及傳送或儲存以感知方式編碼之聲訊通道和編碼之相關資訊。

Description

編碼多通道HOA聲訊訊號以減少雜訊之方法和裝置以及對已減少雜訊的編碼多通道HOA聲訊訊號解碼之方法和裝置

本發明係關於一種編碼多通道高階保真立體音響(HOA)聲訊訊號以減少雜訊之方法和裝置，以及對已減少雜訊的多通道HOA聲訊訊號解碼之方法和裝置。

HOA是一種多通道聲場表示法[附註4]，而HOA訊號為多通道聲訊訊號。多通道訊號表示法，尤其是HOA表示法，在特殊揚聲器設置上回放，需要特殊呈現，往往包含矩陣化操作。解碼後，保真立體音響訊號「被矩陣化」，即映射與例如揚聲器的實際空間位置相對應的新聲訊訊號。往往在單一通道之間存在有高度交互相關性。

問題是會經驗到在矩陣化操作後，編碼雜訊增加。在先前技術上，其原因未明。在以感知編碼器進行壓縮之前，例如利用分立球諧函數轉換法(DSHT)，將HOA訊號轉換到空間域時，也會發生此效應。

用於HOA聲訊訊號表示法之通常壓縮方法，是對個別保真立體音響係數通道[附註7]，施加獨立的感知編碼器。詳言之，感知編碼器只考慮到在各個別單通道訊號內發生的雜訊罩覆效應進行編碼。然而，如此效應典型上為非線性。若將如此單通道矩陣化成新訊號，則容易發生雜訊未遮蔽。在以感知編碼器進行壓縮之前，利用分立球諧函數轉換法將HOA訊號轉換到空間域時，也會發生此效應[附註8]。

此等多通道聲訊訊號表示法傳輸或儲存時，往往需要適當之多通道壓縮技術。通常，最後把I解碼訊號,i=1,...,I矩陣化成J新訊號,j=1,...,J，進行通道無關的感知解碼。矩陣化(matrixing)意指以加權方式添加或混合解碼之訊號。按照

把全部訊號,i=1,...,I，以及全部新訊號,j=1,...,J，以向量配置。「矩陣化」源自事實上是以數學方式從通過矩陣操作所得：其中A指混合權值組成之混合矩陣。「混合」和「矩陣化」在此所用為同義字。使用混合/矩陣化之目的，是為任何特殊揚聲器設置用以呈現聲訊訊號。矩陣所依賴的特殊個別揚聲器設置，以及在操作當中矩陣化所用矩陣，在感知編碼階段通常為未知的。

本發明記載適應性分立球諧函數轉換法(aDSHT)技術，把雜訊未遮蔽(unmask)效果(非所要)減到最小。又記載aDSHT如何整合到壓縮編碼器結構內。所述技術至少對HOA訊號特別有益。本發明之一優點是，減少要傳送的側資訊量。

按照本發明一具體例，編碼多通道HOA聲訊訊號以減少雜訊之方法，包括步驟為，使用逆適應DSHT令通道解相關，逆適應DSHT包括旋轉操作和逆DSHT(iDSHT)，以旋轉操作旋轉iDSHT之空間抽樣柵格，以感知方式編碼各解相關通道，編碼相關資訊，相關資訊包括界定該旋轉操作之參數，並傳送或儲存以感知方式編碼之聲訊通道和編碼之相關資訊。相關資訊包括所用DSHT柵格之至少一識別符，而旋轉資訊界定DSHT柵格之適應旋轉。

按照本發明一具體例，解碼具有減少雜訊之已編碼多通道HOA聲訊訊號之方法，包括步驟為，接收已編碼多通道HOA聲訊訊號和通道相關資訊，解壓縮所接收資料，使用DSHT以感知方式解碼各通道，把以感知方式解碼之通道相關化，其中按照該相關資訊進行DSHT之空間抽樣柵格旋轉，並把相關的感知方式解碼通道矩陣化，其中獲得映射於揚聲器位置之可複製聲訊訊號。相關資訊包括所用DSHT柵格之至少一識別符，和界定DSHT柵格適應性旋轉之旋轉資訊。

多通道HOA聲訊訊號之編碼和解碼裝置，分別載於申請專利範圍第10和12項。

在一面向中，電腦可讀式媒體具有可執行指令，促成電腦進行包括上述步驟之編碼方法，或進行包括上述步驟之解碼方法。

本發明有利實施例，揭載於申請專利範圍附屬項、以下說明和附圖中。

31‧‧‧通道解相關步驟

32‧‧‧各解相關通道以感知方式編碼步驟

33‧‧‧接收資料解壓縮步驟

34‧‧‧各通道以感知方式解碼步驟

71‧‧‧緩衝器方塊

72‧‧‧pE方塊

73‧‧‧單編碼器方塊

74‧‧‧單解碼器方塊

75‧‧‧pD方塊

76‧‧‧緩衝器方塊

310‧‧‧逆DSHT

320‧‧‧找到最佳旋轉方塊

330‧‧‧旋轉操作方塊

340‧‧‧解碼器內之構成方塊DSHT

350‧‧‧pD之構成方塊Ψ_f

第1圖表示對M個係數方塊進行比率壓縮之已知編碼器和解碼器；第2圖表示使用習知DSHT(分立球諧函數轉換)和習知逆DSHT把HOA訊號轉換入空間域所用編碼器和解碼器；第3圖使用適應DSHT和適應逆DSHT把HOA訊號轉換入空間域之編碼器和解碼器；第4圖表示測試訊號；第5圖表示編碼器和解碼器構成方塊內所用電碼簿之球面抽樣位置例；第6圖表示訊號適應DSHT構成方塊(pE和pD)；第7圖為本發明第一實施例；第8圖為本發明第二實施例。

茲參見附圖說明本發明實施例。

第2圖表示已知系統，使用逆DSHT把HOA訊號轉換入空間域內。訊號經使用iDSHT 21、比率壓縮E1/解壓縮D1，進行轉換，並使用DSHT 24再轉換成係數域S24。與此不同的是，第3圖表示本發明系統：已知解決方法的DSHT處理方塊被以控制適應DSHT之處理方塊31,32取代。側資訊SI是在位元流bs內發送。

下述為界定和說明未遮蔽的數學模式。假設指定分立時間多通道訊號，包含I通道x _i(m),i=1,...,I，其中m指時間樣本索引。個別訊號可為實數值或複數值。把M樣本圖幅在時間樣本索引m _START+1起頭，假設其中個別訊號為固定的。相對應樣本依據下式被配置在矩陣X ,X：=[x(m _START+1),...,x(m _START+M)] (1)

其中x(l)：=[x ₁(m),...,x _I(m)]^T (2)(．)^T指轉置。相對應實驗相關矩陣得自下式：Σ _X ：=X X ^H (3)其中(．)^H指聯合複數共軛和轉置。

現假設把多通道圖幅編碼，因而在重建時引進編碼錯誤雜訊。因此，重見圖幅樣本之矩陣以註明，是根據下式由真樣本矩陣X和編碼雜訊組份E組成：

其中E：=[e(m _START+1),...,e(m _START+L)] (5)

而e(m)：=[e ₁(m),...,e _I(m)]^T (6)

由於假設各通道已單獨編碼，對i=1,...,I而言，可假設編碼雜訊訊號e _i(m)彼此獨立。利用此性能和假設，即雜訊訊號是零平均，雜訊訊號的經驗相關矩陣由如下式對角線矩陣所給出：其中diag(,...,)指在其對角線上有經驗雜訊訊號功率之對角線矩陣：又一基本假設是，進行編碼使對各通道滿足訊雜比(SNR)。不失一般通則，假設對各通道之預定SNR相等，即：

其中

茲考慮把重建訊號矩陣化成J新訊號y _j(m),j=1,...,J。不引進任何編碼錯誤，矩陣化訊號之樣本矩陣可如此表示：Y=AX (11) 其中A C ^J×I指混合矩陣，而其中Y：=[y(m _START+1),...,y(m _START+M)] (12)

而y(m)：=[y ₁(m),...,y _J(m)]^T (13)

然而由於編碼雜訊，矩陣化訊號之樣本矩陣為： N係含矩陣化雜訊訊號的樣本之矩陣，可表達為：N=AE (15)

N=[n(m _START+1)...n(m _START+M)] (16)

其中n(m)：=[n ₁(m)...n _J(m)]^T (17)係時間樣本索引m時，全部矩陣化雜訊訊號之向量。

利用式(11)，矩陣化無雜訊訊號之經驗相關矩陣，可以下式表示：Σ _Y =AΣ _X A ^H (18)

因此，即Σ _Y對角線上的第j個元件的第j個的矩陣化無雜訊訊號之經驗冪可寫成：其中a _j是A ^H的第j列，按照A ^H=[a ₁,...,a _J] (20)

同理，由式(15)可把矩陣化雜訊訊號之經驗相關矩陣改寫成：Σ _N =A Σ _E A ^H (21)

即Σ _N對角線上之第j個元件的第j個矩陣化雜訊訊號之經驗冪如下式：

因此，矩陣化訊號的經驗SNR可界定為：使用式(19)和(22)可改寫成：

利用Σ _X分解成其對角線和非對角線組份，即：

並利用性質：由假設(7)和(9)，全部通道的SNR常數(SNR _x)結果，最後為矩陣化訊號的經驗SNR得所需表現：

由此表現方式可見此SNR是由預定SNR,SNR _x乘以視訊號相關矩陣Σ _X之對角線和非對角線分量而定之項所得。具體而言，如果訊號x _i(m)彼此不相關，使Σ _X,NG變成零矩陣，則矩陣化訊號之經驗SNR等於預定SNR，即其中0_I×I指零矩陣，有I行和I列。意即若x _i(m)相關，矩陣化訊號之經驗SNR可能偏離預定SNR。在最壞情況，還遠低於SNR_x。此現象在此稱為矩陣化時雜訊未遮蔽。

下一段簡略介紹高階立體保真音響(HOA)，並界定待處理的訊號(資料率壓縮)。

HOA是根據假定無聲源的所關注緊密區域內的聲場之描述。在此情況下，關注區域(在球面座標)內，於時間t和位置的聲壓p(t,x)之空間時間行為，在物理上完全由單相波方程式決定。可見聲壓相對於時間之傅里葉轉換式，即：P(ω,x)=F _t{p(t,x)} (31)其中ω指角頻率(而F _t { }相當於 p(t,x)e ^-ωt dt)，可按照[附註10]展成球諧函數(SH)系列：

在方程式(32)內，c _s指聲速，而為角波數。又，j _n(．)表示第一種階n球面Bessel函數，和(．)指階n和度m之球諧函數(SH)。關於聲場之完整資訊實際上含在聲場係數內。

須知SH一般而言是複數值函數。然而，利用其適當線性組合，可得實數值函數，並相對於此等函數進行展開。

相對於方程式(32)內壓力聲場說明，聲場可界定為：其中聲場或頻幅密度[附註9]D(k c _s,Ω)視角波數和角方向而定。源場可包含遠場/近場、分立/連續源[附註1]。聲場係數與聲場係數有關[附註1]：其中是第二種球面Hankel函數，而r _s為與原點之源距離。(使用正頻率和第二種球面Hankel函數為入射波，關係到e^-ikr。)

HOA界域內之訊號可在頻率域或時間域內，以聲場或聲場係數之逆傅里葉轉換式表示。以下說明假設使用聲場係數之時間域表示法為有限數：式(33)內之有限序列在n=N截止。截止相當於空間帶寬限制。係數(或HOA通道)數為：O_3D=(N+1)²對3D而言 (36)或O _2D=2N+1只為2D說明。對稍後以揚聲器複製而言，係數包括一時間樣本m之聲訊資訊。可儲存或再傳送，因此為資料率壓縮之標的。係數之單一時間樣本可以有O _3D元件之向量b(m)表示：而M時間樣本以矩陣B表示： B：=[ b (m _START+1), b (m _START+2),.., b (m _START+M)] (38)

聲場之二維度表示法可藉圓諧函數展開推演。此可見於上述概述之特殊情況，使用固定傾角、係數之不同加權，和縮小到O_2D係數(m=±n)的集合。因此，以下考慮全部可應用於2D表示法。則球體需以圓面取代。

以下說明從HOA係數域轉換至以通道為基本之空間域，或反之。方程式(33)可就單位球體，為l分立空間樣本位置，使用時間域HOA係數改寫：

假設L _sd=(N+1)²球面樣本位置Ω _l，可為HOA資料區塊B，以向量記號改寫： W=Ψ _i ^B (40)其中 W：=[ w (m _START+1), w (m _START+2),.., w (m _START+M)]而代表L _sd多通道訊號之單一時間樣本，而矩陣其中向量y _l=。若很有規律選擇球面樣本位置，則矩陣Ψ _f存在，而Ψ _f Ψ _i =I (41)其中I為O _3D×O _3D識別矩陣。則相對應轉換成方程式(40)，可界定為： B=Ψ _f W (42)

方程式(42)把L _sd球面訊號轉換成係數域，可改寫成順向轉換： B =DSHT{ W } (43)其中DSHT{ }指分立球諧函數轉換。轉換O _3D係數訊號相對應逆轉換為空間域，以形成L _sd通道為基本之訊號，而方程式(40)變成： W =iDSHT{ B } (44)

此項分立球諧函數轉換之定義，足夠在此考慮有關HOA資料之資料率壓縮，因為可以指定之係數B開始，且唯有 B =DSHT{iDSHT{ B }}的情況有益。分立球諧函數轉換更嚴格之定義可查[附註2]。為DSHT推演此等位置之適當球面樣本位置和程序，可查[附註3,4,5,6]。抽樣柵格之實施例如第5圖所示。

具體而言，第5圖表示編碼器和解碼器構成方塊pE,pD所用電碼簿之球面抽樣位置例，即在第5a圖中 L _Sd=4，第5b圖中 L _Sd=9，第5c圖中 L _Sd=16，而在第5d圖， L _Sd=25。

以下說明高階立體保真音響係數資料率壓縮和雜訊未遮蔽。首先，界定測試訊號以強調某些性能，用於下述。

位於方向之單一遠場源，以M分立時間樣本之向量 g =[g(m),...,g(M)]^T表示，可以HOA係數方塊代表，利用編碼：B _g =yg ^T (45)其中矩陣 B _g類比方程式(38)，且編碼向量y= 由在方向評估的共軛複合球諧函數組成(若使用即時加值SH，共軛沒有效果)。測試訊號 B _g可視為HOA訊號之最單純情況。更複雜訊號包含許多此等訊號疊置。

關於HOA通道直接壓縮，以下顯示當HOA係數通道被壓縮時，何以會發生雜訊未遮蔽。HOA資料B實際方塊的O_3D係數通道之直接壓縮和解壓縮，會類比方程式(4)引進編碼雜訊E：

假設常數一如方程式(9)。欲經揚聲器重播此訊號，訊號需經描繪。此過程可由下式說明：其中解碼矩陣 A (和 A ^H=[ a ₁,..., a _L])而矩陣，保有L擴音器訊號之M時間樣本。此類比方程式(14)。應用上述所述考量，揚場器通道l之SNR可載明為(類比方程式(29))：其中係第0個對角線元件，而Σ _{B ,NG}保持下式之非對角線元件：Σ _B =B B ^H (49)

由於無法影響解碼矩陣A，因為希望能夠解碼至任意揚聲器佈置，矩陣Σ _B需變成對角線，以獲得。由方程式(45)和(49)，( B=B _g) Σ _B =yg ^H g y ^H=c yy ^H變成非對角線，有一定標量值c= g ^T g 。與相較，在揚聲器通道之訊雜比降低。但因在編碼階段，往往既不知源訊號g，又不知揚聲器佈置，係數通道之直接損耗壓縮，會導致失控的未遮蔽效應，尤其是對低資料率。

以下說明使用DSHT後，當HOA係數在空間域內壓縮時，為何發生雜訊未遮蔽。

HOA係數資料B之現時方塊，如方程式(40)所示，於使用球諧函數轉換式壓縮之前，轉換成空間域： W _Sd =Ψ _i B (50)其中逆轉換矩陣Ψ _i涉及L _Sd O_3D空間樣本位置，和空間訊號矩陣 W _SH 。此等經壓縮和解壓縮，並增加量化雜訊(類比方程式(4))：其中編碼雜訊組份E係按照方程式(5)。再假設SNR，則SNR _Sd是所有空間通道一定。訊號轉換為係數域方程式(42)，使用轉換矩陣Ψ _f，具有方程式(41)性能：Ψ _f Ψ _i =I 。係數之新方塊變成：

此訊號描繪至L揚聲器訊號，應用解碼矩陣 A _D：。此可用方程式(52)和 A = A _D Ψ _f改寫：

於此，A變成混合矩陣，其 A 。方程式 (53)應看做類比方程式(14)。再應用上述全部考量，擴音器通道l之SNR可類似方程式(29)，由下式載明：其中係第l個對角線元件，而保持非對角線元件，如下式：

因為無法影響 A _D(如果能夠描繪於任何揚聲器佈置)，故對A無任何影響，需變成接近對角線，以保持所需SNR：使用方程式(45)之簡單測試訊號( B=B _g)，則變成：其中常數c= g ^T g 。使用固定球諧函數轉換(Ψ _i,Ψ _ffixed)，只有在很罕見甚至更壞情況成為對角線，已如上述，則此項視係數訊號空間性能而定。因此，HOA係數在球面域內之低率損耗壓縮，會導致SNR降低，以及失控之未遮蔽效果。

本發明基本概念是使用適應DSHT(aDSHT)把雜訊未遮蔽效果減到最小，該適應DSHT係由DSHT相對於HOA輸入訊號的空間性能有關的空間抽樣柵格之轉動，和DSHT本身所構成。

以下說明訊號適應DSHT(aDSHT)，其具有配合HOA係數O_3D數量的許多球面位置L _Sd，見方程式 (36)。首先選擇預設球面樣本柵格，一如習知非適應DSHT。對M時間樣本區塊而言，旋轉球面樣本柵格，使下式所示項之對數最小化：

其中||是諸元件(矩陣列索引l和行索引j)之絕對值，而是之對角線元件。此等於把方程式(54)之項最小化。選擇之預設球面抽樣柵格視HOA階而定，即HOA係數O_3D數量。所選擇型式之球面抽樣柵格隱然已知用於解碼，或可由所接收訊號，例如從HOA階或HOA係數之數量加以推導出。

視覺上，此過程相當於DSHT球面抽樣柵格旋轉，其方式是單一空間樣本位置匹配最強源方向，如第4圖所示。使用方程式(45)之簡單測試訊號( B=B _g)，可見方程式(55)之項 W _Sd變成向量，所有元件除了一個以外，都接近零。因此，變成接近對角線，可保持所需SNR 。

第4圖表示被轉換至空間域的測試訊號 B _g。在第4a圖內使用預設抽樣柵格，而在第4b圖內使用aDSHT之旋轉柵格。空間通道之相關值(以dB計)，在相對應樣本位置周圍，以Voronoi分格之顏色/灰色變異表示。空間結構之各分格代表抽樣點，分格之明/ 暗代表訊號強度。由第4b圖可見，已發現最強源方向，並旋轉抽樣柵格，使其一側(即單一空間樣本位置)匹配最強源方向。此側以白色表示(相當於強源方向)，而其他側均暗色(相當於低源方向)。在第4a圖，即旋轉之前，無側面匹配最強源方向，有若干側面多少呈灰色，意即在個別抽樣點接到相當可觀(但非最大)強度之聲訊訊號。

以下說明壓縮編碼器和解碼器內所用aDSHT之主要構成方塊。

編碼器和解碼器構成方塊pE和pD細節，如第6圖所示。二種方塊擁有DSHT基礎之球面抽樣位置柵格之同樣電碼簿。起先，按照共同電碼簿，使用係數O_3D數選擇模組pE內L _Sd=O_3D位置之基礎柵格。L _Sd必須傳送至方塊pD，以啟動選擇同樣基礎之抽樣位置柵格，如第3圖所示。基礎抽樣柵格以矩陣說明，其中界定在單位球體上之位置。如上所述，第5圖表示基礎柵格之實施例。

輸入到旋轉尋找方塊(構成方塊「找到最佳旋轉」)320的是係數矩陣B。構成方塊負責旋轉基礎抽樣柵格，使方程式(57)的值最小。旋轉是以「軸角度」表示法表示，而與此旋轉有關之壓縮軸ψ _rot和旋轉角度φ _rot輸出至此構成方塊，做為側資訊SI。旋轉軸ψ _rot可以藉由從原點至單位球體上位置之單位向量加以說明。於球面座標內，可由藉由兩個角度來結合：，具有不需傳送之一個隱涵的相關半徑。藉由使用訊號通知重新使用先前使用的值以建立側資訊SI的特殊逃逸圖型，對三個角度θ _axis,,φ_rot進行量化和熵編碼。

構成方塊'Build Ψ _i' 330解碼旋轉軸和角度成為和，並將此旋轉應用至基礎抽樣柵格，以得到旋轉柵格。輸出iDSHT矩陣，係由向量推演得到。

在構成方塊'iDSHT' 310內，HOA係數資料B之實際方塊，利用 W _Sd=Ψ _i B 轉換入空間域。

pD之構成方塊'Build Ψ _f' 350接收並解碼旋轉軸和角度成為和，並應用此旋轉於基礎抽樣柵格，以推演出旋轉柵格。iDSHT矩陣是以向量推演得到，而DSHT矩陣Ψ _f =Ψ _i ^-1是在解碼側計算。

在解碼器34之構成方塊'DSHT' 340內，空間域資料之實際方塊轉換回到係數域資料方塊

以下說明諸有益實施例，其含有壓縮編解碼器之總體構造。第一實施例可用單一aDSHT。第二實施例使用頻帶中的複數aDSHT。

第7圖表示編碼器和解碼器二者之第一(基礎)實施例。具有O_3D係數通道b(m)的索引m之HOA時間樣本，先儲存於緩衝器71內，形成M個樣本之方塊和時間索引μ。在上述構成方塊pE72內使用適應iDSHT將B(μ)轉換為空間域。空間訊號方塊 W _Sd(μ)輸入至L _Sd聲訊壓縮單聲道編碼器73(像AAC或MPEG-1層3(mp3)編碼器)或單一AAC多通道編碼器(L _Sd通道)。位元流S73由具有整合側資訊SI的複數編碼器位元流圖幅之多工圖幅，或者整合有側資訊SI(較佳作為輔助資料)之單一多通道位元流構成。

在一實施例中，亦如第7圖所示之個別壓縮解碼器構成區塊包含：把位元流解多工成為L _Sd位元流加側資訊SI並把位元流饋送至L _Sd單聲道解碼器；解碼至具有M樣本之L _Sd空間聲訊通道，以形成方塊(在第7圖的方塊74內兼含在L _Sd單聲道解碼器內之解多工和解碼)；並把和側資訊SI饋送至訊號適應DSHT解碼構成方塊pD。

在另一實施例中，個別壓縮解碼器構成方塊包括：例如從儲存器接收位元流；並將之解碼成L _Sd多通道訊號；把側資訊SI解封裝並饋送該多通道訊號和該側資訊SI至訊號適應DSHT解碼構成方塊pD。在此實施例中，側資訊之解封裝和在L _Sd單聲道解碼器內解碼係被包含在第7圖之方塊74內。

在訊號適應DSHT解碼構成方塊pD內，使用具有側資訊SI的適應DSHT，轉換至係數域，以形成HOA訊號B(μ)方塊，其係被儲存於緩衝器內，有待解幅以形成係數之時間訊號b(m)。

被使用具有在pD內的SI之適應DSHT轉換為係數域，以形成HOA訊號 B (μ)之方塊，這些信號係被儲存於緩衝器內以待解幅。經解幅後，它們形成係數之時間訊號b(m)。

上述第一實施例在某些條件下，會有二缺點：第一，由於空間訊號分佈變更，從方塊μ至μ+1會有組塊假影。第二，在同一時間會有超過一個的強訊號，使得aDSHT之解相關效果相當小。在頻率域內操作的第二實施例係針對此二缺點加以改進。aDSHT應用於標度因數頻帶資料，其組合複數頻帶資料。利用時間頻率轉換(TFT)與覆層添加(OLA)處理的疊合方塊，來避免組塊假影。可以藉由使用本發明在J譜帶內，傳送SI_j資料率，在增加額外負擔的代價下，卻可達成改進的解相關。

第二實施例有些細節如第8圖所示，說明如下：訊號b(m)之各係數通道受到時間頻率轉換(TFT)。廣用TFT之一例為修正餘弦轉換(MDCT)。在TFT成幅中，建構成50%的疊合方塊(方塊索引μ)，而TFT指方塊轉換。在譜帶化中，TFT頻率帶被組合以形成J新譜帶和有關訊號 B _j(μ)，其中K _J指帶j內頻率係數之數量。對各個這些譜帶，有一處理方塊pE _j，其建立訊號和側資訊SI_j。譜帶可匹配有損聲訊壓縮法之譜帶(像AAC/mp3標度因數帶)，或具有較粗之顆粒性。在後一情況，「無TFT方塊之通道無關有損聲訊壓縮」方塊需把譜帶化重新配置。處理方塊作用像頻率域內之L_Sd多通道聲訊編碼器，把一恆定位元率分配到各聲訊通道。位元流在位元流封裝中格式化。

解碼器接收並儲存部份位元流，將其解封裝並饋送聲訊資料至多通道聲訊解碼器(「無TFT之通道無關聲訊解碼」)，以及側資訊Si_j饋送至pD _j。聲訊解碼器(「無TFT之通道無關聲訊解碼」)解碼聲訊資訊，格式化J譜帶訊號，作為至pD _j的輸入，此等訊號在此轉換至HOA係數域，以形成。在「解頻帶化」中，J個譜帶重新組群，以匹配TFT之帶化。它們在iTFT& OLA內，以方塊疊合覆層添加處理加以轉換至時間域。該輸出經解幅，以製作訊號。

本發明係基於發現通道間之交叉相關造成SNR之提高。感知編碼器只會考慮發生在每個個別單一通道訊號內的編碼雜訊未遮蔽。然而，此等效應典型上為非線性。因此，當此等單通道矩陣化成為新訊號時，可能發生雜訊未遮蔽。此即矩陣化操作後，何以編碼雜訊會增加之原因。

本發明提出利用使不需要的雜訊未遮蔽效應最小化的適應分立球諧函數轉換(aDSHT)，來對多數通道解相關。aDSHT係整合在壓縮編碼器和解碼器構造內。

因為它包含針對HOA輸入訊號之空間性能來調整DSHT的空間抽樣柵格的旋轉操作，所以它是適應的。aDSHT包括適應旋轉和實際習知DSHT。實際習知DSHT是一種矩陣，可按先前技術構成。將適應旋轉應用至該矩陣，導致通道間的相關性最小化，所以導致矩陣化後之SNR增加的最小化。在一實施例中，旋轉軸和角度係由自動化搜尋操作找出。在另一實施例中，旋轉軸和角度是以分析方式找出。旋轉軸和角度經編碼和傳送，以使得能在解碼後和矩陣化之前進行重新相關，其中使用逆適應DSHT(iaDSHT)。

適應DSHT與其他轉換相較，尤其與Karhunen-Loève轉換(KLT)相較，有其特別優點。aDSHT之一特點是，其旋轉aDSHT之空間抽樣柵格。為了正確解碼，需要旋轉資訊，其包括旋轉軸和旋轉角度。旋轉軸和旋轉角度被以側資訊SI傳送。旋轉軸亦可以藉二角度表達。諸如KLT等其他轉換也適用於旋轉和鏡映座標系統，但不能移動抽樣點。又，諸如KLT等之其他轉換需要轉換矩陣，以供正確解碼，使得轉換矩陣之係數需當作側資訊SI加以傳送。因此，由於此等轉換矩陣之係數遠較aDSHT的旋轉軸和旋轉角度有更多的資料，所以使用aDSHT之一優良效果是降低了待傳送的側資訊SI的量。aDSHT之另一優點是由於空間適應性，其提供在聲訊訊號內之改進連續性。諸如KLT等的其他轉換，則容易造成訊號不連續，這通常為妨礙其用途之問題所在。此問題也被使用aDSHT所解決。

在一實施例中，進行時間頻率轉換(TFT)和譜帶化，而aDSHT/iaDSHT單獨應用於各譜帶。

在一實施例中，一種編碼多通道HOA聲訊訊號以減少雜訊之方法包括步驟為：使用逆適應DSHT令通道解相關(31)，逆適應DSHT包括旋轉操作(330)和逆DSHT(310)，該旋轉操作旋轉iDSHT之空間抽樣柵格；以感知方式編碼(32)各解相關通道；編碼旋轉資訊(SI)，該旋轉資訊包括界定該旋轉操作之參數；以及傳送或儲存以感知方式編碼之聲訊通道和編碼之旋轉資訊。

一實施例另外包括傳送或儲存所用球面DSHT柵格索引(即DSHT抽樣柵格型式，例如其階)。

在一具體例中，逆適應DSHT包括步驟為，選擇初始預設球面抽樣柵格；測定最強源方向；為M時間樣本方塊，旋轉球面抽樣柵格，使單一空間抽樣位置匹配最強源方向。

在一具體例中，旋轉球面樣本柵格，使此項之對數減到最少，其中||是諸元件(具有矩陣列索引l和行索引j)之絕對值，而是之對角線元件。如上所述，是按照計算，其中 W _Sd =Ψ _i B 是旋轉抽樣柵格的逆轉換矩陣Ψ _i和輸入訊號方塊B之乘積，而是其聯合複數共軛。

在一實施例中，一種解碼具有被編碼以減少雜訊的多通道HOA聲訊訊號之方法包括步驟為，接收所編碼多通道HOA聲訊訊號、球面DSHT柵格索引和通道旋轉資訊(SI)；把所接收資料解壓縮(33)；使用適應DSHT 以感知方式解碼(34)；把以感知方式解碼之通道相關化，其中按照該旋轉資訊(SI)進行適應DSHT的空間抽樣柵格之旋轉；以及把相關的感知方式解碼之通道矩陣化，其中獲得映射於揚聲器位置之可複製聲訊訊號。球面DSHT柵格索引是抽樣柵格之獨特識別符，故容許解碼器在旋轉之前，重建抽樣柵格。柵格本身(即柵格點之座標)不需傳送、儲存或接收。

在一實施例中，適應DSHT包括步驟為：為適應DSHT選擇初始預設抽樣柵格；為M時間樣本方塊，按照該相關資訊旋轉球面抽樣柵格。

在一實施例中，相關資訊係具有二或三分量之空間向量ψ _rot。

在一實施例中，相關資訊係包括二角度之空間向量()。

在一實施例中，該等角度被量化並以特殊逃逸圖型進行熵編碼，該圖型發訊重新使用先前使用數值，以製作側資訊(SI)。

在一實施例中，一種編碼多通道HOA聲訊訊號以減少雜訊之裝置，包括：解相關器，使用逆適應DSHT把諸通道解相關，逆適應DSHT包括旋轉操作和逆DSHT(iDSHT)，該旋轉操作旋轉iDSHT之空間抽樣柵格；感知編碼器(E)，以感知方式編碼各解相關通道；側資訊編碼器，供編碼旋轉資訊，旋轉資訊包括界定該旋轉操作之參數；和界面，供傳送或儲存以感知方式編碼之聲訊通道和所編碼旋轉資訊。

在一實施例中，編碼裝置包括轉換機構，供進行逆適應DSHT，轉換機構具有處理器，以選擇初始預設球面抽樣柵格，決定最強源方向，並為M時間樣本方塊，旋轉球面抽樣柵格，使單一空間抽樣位置匹配最強源方向。

在一實施例中，一種多媒體HOA聲訊訊號減少雜訊之解碼裝置包括：界面機構，供接收所編碼多通道HOA聲訊訊號、球面DSHT柵格索引和通道旋轉資訊；解壓縮模組，把所接收資料解壓縮；感知解碼器，使用DSHT以感知方式解碼各通道；相關器，使感知方式解碼之通道相關化，其中按照該旋轉資訊，進行旋轉DSHT之空間抽樣柵格；以及混合器，把已相關的感知方式解碼之通道矩陣化，其中獲得映射在揚聲器位置之可複製聲訊訊號。

在一具體例中，解碼裝置包括處理器，為適應DSHT選擇初始預設球面抽樣柵格，並為M時間樣本之方塊，按照該相關資訊，旋轉球面抽樣柵格。

在全部實施例中，減少雜訊至少關係到避免編碼雜訊未遮蔽效應。

聲訊訊號之感知編碼意指適於人員感知的聲訊之編碼。應注意，以感知方式編碼聲訊訊號時，通常不是對寬頻聲訊訊號樣本進行量化，而是針對與人類感知有關之個別頻帶進行量化。因此，訊號功率與量化雜訊之比可在個別頻帶之間加以改變。

上述技術可當作是對使用Karhunen-Loève轉換(KLT)的解相關作改進之替代方案。

本發明已就較佳實施例圖示、說明，並舉出基本新穎特點，須知技術專家均可就所述裝置和方法、所揭示機件形式和細節及其操作，進行各種省略、置換、變更，不違本發明之精神。凡以實質上同樣方式，進行實質上同樣功用，以達成同樣結果的此等元件之組合，均在本發明範圍內。由一具體例之元件置換另一件，亦完全在意圖和設想之內。

須知本發明純就實施例加以說明，可進行細部修飾，不違本發明範圍。

說明書和(適當時)申請專利範圍及附圖之各特點，可單獨或以任何適當組合方式提供。諸特點可視適當情形在硬體、軟體，或二者組合方式實施。連接可視應用情形，實施無線連接或有線連接，不一定直接或專用。申請專利範圍內出現之參考數字只供說明，對申請專利範圍無限制效用。

附註文獻

[1] T.D. Abhayapala. Generalized framework for spherical microphone arrays: Spatial and frequency decomposition. In Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), (accepted) Vol. X, pp., April 2008, Las Vegas, USA.

[2] James R. Driscoll and Dennis M. Healy Jr. Computing fourier transforms and convolutions on the 2-sphere. Advances in Applied Mathematics, 15:202-250, 1994.

[3] JörgFliege. Integration nodes for the sphere,http://www.personal.soton.ac.uk/jf1w07/nodes/nodes.html

[4] JörgFliege and Ulrike Maier. A two-stage approach for computing cubature formulae for the sphere. Technical Report, Fachbereich Mathematik, Universität Dortmund, 1999.

[5] R. H. Hardinand N. J. A. Sloane. Webpage: Spherical designs, spherical t-designs. http://www2.research.att.com/~njas/sphdesigns

[6] R. H. Hardin and N. J. A. Sloane. Mclaren’s improved snub cube and other new spherical designs in three dimensions. Discrete and Computational Geometry, 15:429-441, 1996.

[7] Erik Hellerud, Ian Burnett, Audun Solvang, and U. Peter Svensson. Encoding higher order Ambisonics with AAC. In 124th AES Convention, Amsterdam, May 2008.

[8] Peter Jax, Jan-Mark Batke, Johannes Boehm, and Sven Kordon. Perceptual coding of HOA signals in spatial domain. European patent application EP2469741A1 (PD100051).

[9] Boaz Rafaely. Plane-wave decomposition of the sound field on a sphere by spherical convolution. J. Acoust. Soc. Am., 4(116):2149-2157, October 2004.

[10] Earl G. Williams. Fourier Acoustics, volume 93 of Applied Mathematical Sciences. Academic Press, 1999.