TWI590234B

TWI590234B - 編碼聲訊資料之方法和裝置，以及解碼已編碼聲訊資料之方法和裝置

Info

Publication number: TWI590234B
Application number: TW102125847A
Authority: TW
Inventors: 奧利弗艾克斯尼邁爾溫伯特; 約哈拿斯波漢; 彼得賈克斯
Original assignee: 杜比國際公司
Priority date: 2012-07-19
Filing date: 2013-07-19
Publication date: 2017-07-01
Also published as: US11081117B2; KR20150032718A; KR20220113842A; WO2014013070A1; KR102131810B1; US20190259396A1; KR102201713B1; US20240127831A1; US20150154965A1; TW201411604A; KR20200084918A; JP6279569B2; US9589571B2; KR102581878B1; KR20230137492A; US9984694B2; US10381013B2; EP2875511A1; EP2875511B1; CN104471641B

Description

編碼聲訊資料之方法和裝置，以及解碼已編碼聲訊資料之方法和裝置

本發明係在聲訊壓縮領域，尤指多通道聲訊訊號和聲場定向聲訊場景之壓縮，例如高階保真立體音響(HOA)。

目前，多通道聲訊訊號之壓縮方案，並未明顯考量到如何產生或混合輸入聲訊材料。因此，已知聲訊壓縮技術不明白所要壓縮內容之原址/混合型。在已知策略中，進行「盲目」訊號轉換，藉此把多通道訊號分解成其聲訊組份，隨即加以量化和編碼。此項策略之缺點是，上述訊號分且之計算是計算上的需要，欲對聲訊場景的指定節段，找到最佳適用和最有效率的訊號分解，又難又會出錯。

本發明係關於多通道聲訊描繪之改進方法和裝置。

已知上述缺點至少有些是以前對場景組成的特性知識缺乏之故。特別是對空間聲訊內容，例如多通道聲訊或高階保真立體音響(HOA)內容，此以前資訊可用於適合壓縮方案。例如，壓縮演算法中之預處理步驟是聲訊場景分析，目標在從原有內容或原有內容混合，摘取方向性聲訊源或聲訊目的。此等方向性聲訊源(原址)或聲訊目的可與剩餘空間聲訊內容分開寫碼。

在一具體例中，預處理過聲訊資料之編碼方法，包括步驟為，編碼預處理過之聲訊資料，並編碼輔助資料，指示特殊聲訊預處理。

在一具體例中本發明係關於所編碼聲訊資料之解碼方法，包括步驟為，決定編碼之前業已預處理過的所編碼聲訊資料，解碼聲訊資料，從所接收資料摘取關於預處理之資訊，以及按照所摘取預處理資訊，後處理所解碼之聲訊資料。編碼之前業已預處理過的所編碼聲訊資料之決定步驟，係利用聲訊資料分析，或附帶元資料分析達成。

在本發明一具體例中，編碼預處理過聲訊資料用之編碼器，包括第一編碼器，供編碼預處理過聲訊資料，和第二編碼器，供編碼輔助資料，指示特殊聲訊預處理。

在本發明一具體例中，解碼所編碼聲訊資料用之解碼器，包括分析器，以決定在編碼之前業已預處理過之編碼聲訊資料；第一解碼器，以解碼聲訊資料；資料串流剖析器單位或資料串流摘取單位，從所接收資料摘取關於預處理之資訊；以及處理單位，按照所摘取預處理資訊，後處理所解碼聲訊資料。

在本發明一具體例中，電腦可讀式媒體已儲存有可執行指令，促成電腦進行上述方法中之至少一項方法。

本發明一般構想是根據多通道聲訊壓縮系統下述延伸之至少一項：按照一具體例，多通道聲訊壓縮和/或描繪系統，具有一界面，包括多通道聲訊訊號串流(例如PCM系統)、諸通道或相對應擴音器之相關空間位置，以及以資料、指示業已應用於多通道聲訊訊號串流之混合型。混合型指例如HOA或VBAP泛移之(先前)使用或組態和/或任何細節，特別記錄技術，或等效資訊。界面可為朝向訊號傳輸鏈之輸入界面。以HOA內容而言，擴音器之空間位置可為虛擬擴音器位置。

按照一具體例，多通道壓縮編解碼器之位元串流，包括發訊資訊，以便將關於虛擬或真實擴音器位置之上述元資料，以及原址混合資訊，傳送至解碼器，並隨後描繪演算法。於是，在解碼側任何應用之描繪技術，可適合特殊傳送內容在編碼側之特別混合特徵。

在一具體例中，元資料之用法視情形，可接通或斷通，即聲訊內容可按簡單模態解碼和描繪，不用元資料，但簡單模態不能達成最佳解碼和/或描繪。以增進模態，使用元資料可達到最佳解碼和/或描繪。在此具體例中，解碼器/描繪器可在二模態間變換。

10‧‧‧聲訊製作階段方塊

20‧‧‧多通道聲訊編碼器方塊

30‧‧‧多通道聲訊解碼器方塊

40‧‧‧多通道聲訊編碼器方塊

50‧‧‧多通道聲訊解碼器方塊

60‧‧‧多通道撓性描繪方塊

70‧‧‧輸出訊號

71‧‧‧訊號部

74‧‧‧編碼聲訊訊號

75‧‧‧預處理資訊

410‧‧‧逆DSHT方塊

420‧‧‧多通道聲訊編碼器方塊

421‧‧‧DSHT方塊

422‧‧‧MDCT方塊

423‧‧‧iDSHT方塊

424‧‧‧檢測方塊

425‧‧‧旋轉參數計算方塊

430‧‧‧多通道聲訊解碼器方塊

440‧‧‧DSHT方塊

第1圖為已知多通道傳輸系統之結構；第2圖為本發明一具體例多通道傳輸系統之結構；第3圖為本發明一具體例之智慧解碼器；第4圖為HOA訊號用多通道傳輸系統之結構；第5圖為DSHT之空間抽樣點；第6圖為編碼器和編碼器構成方塊所用電碼簿用之球面抽樣位置實施例；第7圖為特別改進之多通道聲訊編碼器之具體例。

茲參見附圖說明本發明較佳具體例。

第1圖表示多通道聲訊寫碼之已知策略。來自聲訊製作階段10之聲訊資料，在多通道聲訊編碼器20內編碼，經傳送，在多通道聲訊解碼器30內解碼。元資料可顯性傳送(或隱性包含其資訊)，與空間聲訊資訊相關。此等元資料限於擴音器空間位置之資訊，例如呈特殊格式之形式(例如立體聲或ITU-R BS.775-1，亦稱為「5.1周圍聲音」)，或利用具有擴音器位置之列表。無「如何」生產特殊空間聲訊混合/記錄之資訊，可通訊至多通道聲訊編碼器20，因此此等資訊無法開發或利用在多通道聲訊編碼器20內壓縮訊號。

然而，迄今已認知若多通道空間聲訊寫碼器處理從高階保真立體音響(HOA)格式衍生之至少一內容，以任何固定麥克風設置記錄，以及以任何特別泛移演算法之多通道混合時，瞭解內容原址和混合型至少其一之特別重要性，因為在此等情況下，利用壓縮方案可開發特殊之混合特徵。又由附加混合資訊指示，有利於原有多通道聲訊內容。宜指示例如所用泛移方法，諸如向量為基本之振幅泛移(VBAP)，或其任何細節，以改進編碼效率。有利的是，聲訊場景分析之訊號模式，以及隨後之編碼步驟，可按照此資訊適用。結果是壓縮系統就比率失真性能和計算費心均更加有效率。

在HOA內容之特殊情況下，問題是有許多不同的慣例存在，例如複合加值對比真實加值球諧函數、複數/不同的常態化方案等。為免不同方式生產的HOA內容之間不相容起見，界定共同格式應屬有用。此可經由HOA時間域係數，使用轉換法，諸如分立球諧函數轉換法 (DSHT)，轉換至其等效空間表示法，即多通道表示法達成。DSHT是由空間抽樣位置(可視為等同於虛擬擴音器位置)之規則球面分佈製作。有關DSHT更多定義和細節詳下述。使用HOA另一定義之任何系統，均能從空間域內界定之此共同格式，推衍出其本身之HOA係數表示法。該共同格式之訊號壓縮，從先前知識獲益匪淺，即虛驚一場擴音器訊號代表原先HOA訊號，詳後述。

再者，此混合資訊等亦可用於解碼器或描繪器。在一具體例中，混合資訊等包含在位元串流內。所用描繪演算法可適於原有混合，例如HOA或VBAP，容許更佳下混(down-mix)，或描繪彈性擴音器位置。

第2圖表示本發明一具體例多通道聲訊傳輸系統之延伸。延伸之達成是添加元資料，載明在聲訊內容製作階段10所應用混合型、記錄型、編輯型、合成型等至少其一。此資訊載送通到解碼器輸出，可在多通道壓縮編解碼器40,50內使用，以改進效率。如何製作特殊空間聲訊混合/記錄之資訊，通訊至多通道聲訊編碼器40，因此可開發或利用於壓縮訊號。

如何使用此元資料資訊之一例是，視輸入材料之混合型，可利用多通道編解碼器活化不同寫碼模態。例如，在一具體例中，若編碼器輸入指示HOA混合，寫碼模態即交換至HOA專用編碼/解碼原則(HOA模態)，如後述(就方程式(3)~(16))，而若輸入訊號之混合型並非HOA或未知，則使用不同(例如較傳統)的多通道寫碼技術。呈HOA模態時，在一具體例中，於HOA專用編碼過程開始之前，編碼以DSHT方塊開始，其中DSHT再獲得原有HOA係數。在另一具例中，使用DSHT以外之不同分立轉換式以供比較。

第3圖表示本發明一具體例之「智慧」描繪系統，使用本發明元資料以完成已解碼N通道之撓性下混、上混或再混至存在於解碼器終端之M擴音器。可開發對混合、記錄等型之元資料以選擇複數模態之一，以便完成有效率、高品質之描繪。按照輸入聲訊資料內關於混合型之元資料，多通道編碼器50使用最適編碼，不但編碼/提供N編碼聲訊通道和關於擴音器位置之資訊，而且有例如「混合型」資訊，給解碼器60。解碼器60(在接收側)使用接收側可擴音器之真實擴音器位置，係在傳送側(即編碼器)所未知，供產生M聲訊通道之輸出訊號。在一具體例中，N與M 不同。在一具體例中，N等於M或與M不同，惟在接收側之真實擴音器位置，與編碼器50和聲訊製作10內呈現之擴音器位置不同。編碼器50或聲訊製作10可假設標準化擴音器位置。

第4圖表示本發明如何可用於有效傳輸HOA內容。輸入 HOA係數經逆DSHT(iDSHT)410轉換入空間域。所得N聲訊通道、其(虛擬)空間位置，以及指示(例如旗誌，諸如「HOA混合」旗誌)，提供給多通道聲訊編碼器420，為一種壓縮編碼器。壓縮編碼器即可利用先前知識，即其輸入訊號係HOA衍生。介於聲訊編碼器420和聲訊解碼器430或聲訊描繪器間之界面，包括N聲訊通道、其(虛擬)空間位置及該指示。在解碼側進行逆過程，即解碼430後，可應用DSHT 440，使用內容編碼前已應用過的相關操作之知識，恢復HOA表示法。此項知識是透過界面接到，按照本發明呈元資料之形式。

某種(不必要全部)元資料，特別是在本發明範圍內，可例如為下述至少其一：指示原有內容衍自HOA內容，加以下至少其一：

￮HOA表示法之順序

￮指示2D、3D或半球形表示法

￮空間抽樣點位置(適應性或固定)

指示原有內容是使用VBAP以合成方式混合，加上指定VBAP雙重(成對)或三重擴音器；指示原有內容是以固定、分立麥克風記錄，加上下述至少其一：￮在記錄集合上一或以上麥克風之一或以上位置和方向；￮一種或多麥克風，例如心形對比全方位對比超心形等。

本發明主要優點至少有下列。

透過輸入材料的訊號特徵之更佳先前知識，得更有效壓縮方案。編碼器可實施此先前知識，供改進聲訊場景分析(例如可適應混合內容之原始模式)。混合內容原始模式之一例為，訊號原址已在聲訊製作階段10修改、編輯或合成。此等聲訊製作階段10常用來產生多通道聲訊訊號，往往位在多通道聲訊編碼器方塊20之前。此等聲訊製作階段10在第2圖內亦假設在(惟圖上未示)新編碼方塊40之前。習知上，編輯資訊失落，未通到編碼器，故未能採用。本發明致使此資訊得以保存。聲訊製作階段10之例，包括記錄和混合，合成聲音或多麥克風資訊，例如複數聲原址，以合成方式映射在擴音器位置。

本發明另一優點是，可大為改進描繪所傳送和解碼內容，尤其是不良條件之場景，有許多可用擴音器與可用通道數量不符(所謂下混和上混場景)，以及為撓性擴音器定位。後者需按照擴音器位置再映射。

又一優點為，在聲場相關格式內之聲訊資料，諸如HOA，可在通道為基本之聲訊傳輸系統內傳送，不損失高品質描繪所需之重要資料。

本發明元資料傳輸，可在解碼側容許有最適解碼和/或描繪，尤其是在進行空間分解時。雖然利用各種手段，例如Karhunen-Loève轉換式(KLT)，可得一般空間分解，惟最適分解(使用本發明元資料)在計算上較低廉，同時提供較佳品質之多通道輸出訊號(例如單通道在描繪當中較易適應或映射於擴音器位置，且映射更正確)。此在混合(矩陣化)階段，於描繪當中改變(增加或減少)通道數量，或改變一或以上之擴音器位置(尤指多通道之各通道適應特定擴音器位置)時，特別有益。

以下說明高階保真立體音響(HOA)和分立球諧函數轉換式(DSHT)。

HOA訊號可轉換到空間域，在感知寫碼器壓縮之前，例如利用分立球諧函數轉換式(DSHT)為之。此等多通道聲訊訊號表示法之傳輸或儲存，通常需要適當多通道壓縮技術。通常，通道獨立性感知解碼，是在I解碼訊號,i=1,...,I，矩陣化成J新訊號,j=1,...,J之前進行。矩陣化一辭意即以加權方式，添加或混合所解碼訊號。按照下式把全部訊號,i=1,...,I以及所有新訊號,j=1,...,J，以向量配置：

「矩陣化」一辭源自事實上是以數學方式，從透過矩陣運算而得：其中A指混合權值組成之混合矩陣。「混合」和「矩陣化」在此是以同義辭使用。混合/矩陣化使用目的是為任何特殊擴音器設置，描繪聲訊訊號。

矩陣所依賴之特殊個別擴音器設置，以及在描繪當中矩陣化所用矩陣，通常在感知寫碼階段尚未知。

下節簡介高階保真立體音響(HOA)，並界定待處理(資料率壓縮)之訊號。

高階保真立體音響(HOA)是基於假設無聲音原址的微型有關面積內聲場之描述。在此情況，於時間t和有關面積內(球面座標)位置x=[r,θ, ]^T聲壓p(t,x)之空間時間行為，實體上是完全由同相波方程式決定。可顯示聲壓相對於時間之傅立葉(Fourier)轉換式，即：P(ω,x)=F _t{p(t,x)} (3) 其中ω指角頻(而F _t{ }相當於)，可按照下式展開成球諧函數系列(SHs)：在式(4)中，c _s指聲速，而為角波數。又，j _n(．)指第一種和n階之球面 Bessel函數，而指n階m度之球諧函數(SH)，關於聲場之完整資訊實際上容納在「聲場係數」。

須知SHs一般係複合加值函數。然而，利用其妥當線性組合，可得真實加值函數，並相對於此等函數展開。

關於式(4)內壓力「聲場」說明，「原址場」可界定為：其「原址場」或「振幅密度」[附註9]D(k c _s ,Ω)視角波數和角方向Ω=[θ, ]^T而定。原址場包含遠場/近場，分立/連續原始[附註1]。原址場係數與聲場係數[附註1]之關係如下：其中是第二種球面Hankel函數，而r _s是原址與原點之距離。關於近場，須知正頻率和第二種球面Hankel函數用於入射波(與e^-ikr相關)。

HOA域內之訊號可表現在頻率域或時間域內，以原址場或聲場係數之逆傅立葉轉換式。下述假設使用原址場係數之有限數時間域表示法：式(5)內之無限序列在n=N截斷。截斷相當於空間帶斷限制。係數(或HOA通道)數量如下：O_3D=(N+1)²對於3D (8)或為O _2D=2N+1，只對2D說明。係數包括一時間樣本m之聲訊資訊，供稍後利用擴音器複製。可儲存或傳送，因此經資料率壓縮。係數之單一時間樣本m，可以元件O _3D之向量 b (m)表示：而M時間樣本之方塊以矩陣B表示： B ：=[ b (m _START+1),b (m _START+2)，..,b (m _START+M)] (10)

聲場之二維度表示法是以圓形諧波展開衍生。此可由上述概括說明中使用固定傾角θ=之特別情況，有不同的係數加權，並減少集合至O _2D係數(m=±n)。因此，下述考量全部也適用於2D表示法，則球面需改用圓形。

以下說明從HOA係數域轉換至通道為基本之空間域，或反之。式(5)可使用時間域HOA係數，為l分立空間樣本位置Ω_l=[θ_l , ]^T，改寫在單位球面：

假設L _sd=(N+1)²球面樣本位置Ω_l，此可為HOA資料區塊B，以向量記法改寫： W=Ψ _i B (12)其中 W ：=[ w (m _START+1),w (m _START+2),..,w (m _START+M)]而代表L _sd多通道訊號之單一時間樣本，而矩陣Ψ _i=[y ₁ ,...,y _Lsd]^H其中向量。若很規則選用球面樣本位置，有矩陣Ψ _f存在，即：Ψ _f Ψ _i= I (13)其中I為O _3D×O _3D同等矩陣。則相對應轉換為式(12)，可由下式界定： B =Ψ _f W (14) 式(14)把L _sd球面訊號轉換為「係數域」，可改寫成順向轉換： B =DSHT{ W } (15)其中DSHT{ }指分立球諧函數轉換。相對應逆轉換式，把O _3D係數訊號轉換成「空間域」，形成L _sd 通道為基本之訊號，而式(12)變成： W =iDSHT{ B } (16)此項分立球諧函數轉換之定義，於此足供考量HOA資料之資料率壓縮，因為是由指定係數B開始，只有 B =DSHT{iDSHT{ B }}的情況有益。分立球諧函數轉換更嚴格之定義，列於[附註2]。

球面位置L _Sd數量與HOA係數O_3D數量(見式(8))相配之DSHT，說明如下。首先，選擇從缺值球面樣本柵格。對M時間樣本之方塊言，旋轉球面樣本柵格，使下式項之演算法最省：其中係(具有列索引l和行索引j之矩數)諸元件之絕對值，而是之對角線元件。經視覺化，此相當於DSHT之球面抽樣柵格，如第5圖所示。

DSHT之適當球面樣本位置及其推衍此等位置之程序，業已公知。抽樣柵格之實施例，如第5圖所示。具體而言，第6圖表示編碼器和解碼器構成方塊pE、pD內所用電碼簿之球面抽樣位置例，即在第6a圖內L _Sd=4，在第6b圖內L _Sd=9，在第6c圖內L _Sd=16，而第6d圖內L _Sd=25。此等電子簿可特別用於按照預界定空間擴音器組態進行描繪。

第7圖表示第4圖所示特別改進多通道聲訊編碼器420之具體例。包括DSHT方塊421，計算方塊410的逆DSHT之逆DSHT(以恢復方塊410)。方塊421之目的，是在其輸出70提供訊號，與逆DSHT方塊410輸入一致之訊號。此訊號70之處理即可進一步最適化。訊號70不但包括提供給MDCT方塊422之聲訊組份，而且有指示一或以上優勢聲訊訊號組份之訊號部71，或是優勢聲訊訊號組份之一或以上位置。此等再用來檢測424至少一最佳原始方向，並計算425為iDSHT適應旋轉之旋轉參數。在一具體例中，此為時間變式，即檢測和計算425是在界定之分立時間步驟，連續再適應。計算iDSHT之適應旋轉矩陣，並在iDSHT方塊423內進行適應iDSHT。旋轉效果是旋轉iDSHT 423之抽樣柵格，使側面之一(即單一空間樣本位置)匹配最強原始方向(此可為時間變式)。此舉提供聲訊訊號在iDSHT方塊423內更有效率，所以更佳之編碼。MDCT方塊422有益於補正聲訊圖幅節段之時間疊合。iDSHT方塊423提供編碼聲訊訊號74，而旋轉參數計算方塊425提供旋轉參數，做為預處理資訊75(至少一部份)。此外，預處理資訊75可包括其他資訊。

須知雖然圖式只是DSHT，惟一般技術專家顯而易知的DSHT以外之他型轉換亦可構成或應用，凡此均在本發明精神和範圍內構思。此外，雖然上述舉例提到HOA格式，本發明亦可按照一般技術專家顯而易知方式，用於保真立體音響以外之他種聲場相關格式，凡此均在本發明精神和範圍內構思。

雖則本發明已就應用於其較佳具體例經圖示、說明，指出基本新穎特點，惟須知凡技術專家可就所述裝置和方法、所揭示形式和細節，及其操作，進行各種簡略、置換和變更，不違本發明之精神。須知本發明純舉例說明，可就細節加以改變，不違本發明之範圍。明講意圖在於把實質上同樣方式進行實質上同樣功用以達成同樣結果之諸元件所有組合，均包含在本發明範圍內。從所述一具體例之元件置換另一具體例，亦完全在意圖和構思內。

本發明一般容許發訊聲訊內容混合特徵。本發明用於聲訊裝置，尤其是聲訊編碼裝置、聲訊混合裝置和聲訊解碼裝置。

附註：

[1] T.D. Abhayapala“Generalized framework for spherical microphone arrays: Spatial and frequency decomposition”, In Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), (accepted) Vol. X, pp., April 2008, Las Vegas, USA.

[2] James R. Driscoll and Dennis M. Healy Jr.:“Computing Fourier transforms and convolutions on the 2-sphere”, Advances in Applied Mathematics, 15:202-250, 1994.

40‧‧‧多通道聲訊編碼器方塊

50‧‧‧多通道聲訊解碼器方塊

Claims

一種編碼聲訊資料之方法，包括：於至少三種不同類型之聲訊資料中檢測該聲訊資料為其中之一聲訊資料類型，該類型包括第一高階保真立體音響(HOA)格式、記錄有多個麥克風之指定設置之麥克風及根據特別泛移而混合之多通道聲訊串流；基於該聲訊資料具有第一HOA格式之測定，將基於逆分立球諧函數轉換法(iDSHT)之該第一HOA格式之該聲訊資料之係數轉換為第二HOA格式之係數；編碼該第二HOA格式之該係數及輔助資料，該輔助資料指示至少關於虛擬或真實擴音器位置之元資料及關於該聲訊資料之混合資訊，該混合資訊包括至少該第一HOA格式之細節及該多個麥克風之該指定設置之一者之細節，以及該特別泛移之細節。
如申請專利範圍第1項之方法，其中至少一部分之該輔助資料係從聲訊製作階段所獲得，該輔助資料之該所獲得的部分包括至少改變資訊、編輯資訊及合成資訊之一者。
如申請專利範圍第2項之方法，其中該聲訊製作階段係適合於執行至少記錄、混合及聲音合成之一者。
如申請專利範圍第1項之方法，其中輔助資料指示，聲訊內容係從HOA內容推衍，及至少下列之一者：HOA內容表示法順序、二維(2D)、三維(3D)或半球面表示法和空間抽樣點位置。
如申請專利範圍第1項之方法，其中該輔助資料指示，聲訊內容係使用向量為基本之振幅泛移(VBAP)以合成方式混合，及指定VBAP雙重或三重擴音器者。
如申請專利範圍第1項之方法，其中該輔助資料指示，聲訊內容是以固定、分立麥克風記錄及至少下列之一者：一或以上麥克風的一或以上位置和方向，以及一種或多種麥克風。
一種已編碼聲訊資料之解碼方法，包括：接收該已編碼聲訊資料；解碼該聲訊資料，包含確定至少元資料關於虛擬或真實擴音器位置及關於該聲訊資料之混合資訊，該混合資訊包括多個麥克風之設置之細節，以及特別泛移之細節；以及其中，基於該聲訊資料具有第一HOA格式之指示符，將該聲訊資料之係數從第二HOA格式轉換為基於分立球諧函數轉換法(DSHT)之該第一HOA格式。
如申請專利範圍第7項之方法，其中該至少元資料至少關於HOA內容表示法順序、二維(2D)、三維(3D)或半球面表示法和空間抽樣點位置之一者。
如申請專利範圍第7項之方法，其中該至少元資料指示，聲訊內容係基於向量為基本之振幅泛移(VBAP)而混合，及指定VBAP雙重或三重擴音器者。
如申請專利範圍第7項之方法，其中該至少元資料指示，聲訊內容是以固定、分立麥克風記錄及至少下列之一者：一或以上麥克風的至少一位置和至少一方向，以及至少一種麥克風。
一種編碼聲訊資料之裝置，該聲訊資料具有於至少三種不同類型中之聲訊資料類型，該些類型包括第一高階保真立體音響(HOA)格式、記錄有多個麥克風之指定設置之麥克風及根據特別泛移而混合之多通道聲訊串流，該裝置包括：逆分立球諧函數轉換法(iDSHT)方塊，用於基於該聲訊資料具有第一HOA格式之測定，將該聲訊資料之係數從該第一HOA格式轉換為共同格式之係數；編碼器，用於若該聲訊資料具有第一HOA格式則編碼空間域之該些係數及用於編碼輔助資料，該輔助資料指示至少關於虛擬或真實擴音器位置之元資料及關於該聲訊資料之混合資訊，該混合資訊包括至少該第一HOA格式之細節及該多個麥克風之該指定設置之一者之細節，以及該特別泛移之細節。
如申請專利範圍第11項之裝置，該編碼器包括DSHT方塊、MDCT方塊、用於執行逆DSHT之第二逆DSHT方塊、原始方向檢測方塊及參數計算方塊，其中：該DSHT方塊係被配置為確認與被該逆分立球諧函數轉換法方塊執行之iDSHT為相反之DSHT，該DSHT方塊提供輸出至該MDCT方塊、該原始方向檢測方塊及該參數計算方塊，並且其中，該MDCT方塊係適合於配置聲訊圖幅節段之時間疊合，該MDCT方塊提供輸出至該第二逆DSHT方塊，並且其中，該原始方向檢測方塊係被配置為檢測該DSHT方塊之輸出之一或以上最佳原始方向，並且其中，該參數計算方塊係被配置為基於該原始方向檢測方塊之該輸出確認旋轉參數，以及其中該參數計算方塊進一步被配置為提供該旋轉參數至該第二逆DSHT方塊，該旋轉參數定義旋轉，該旋轉將該第二逆DSHT方塊之該逆DSHT之抽樣柵格之空間樣本位置映射在該一或以上之檢測的最佳原始方向中之一者，並且其中，該第二逆DSHT方塊係被配置為從自該參數計算方塊接收之該旋轉參數來確認適應旋轉矩陣以及確認適應逆DSHT，該適應逆DSHT包括根據該適應旋轉矩陣及逆DSHT之旋轉。
如申請專利範圍第11項之裝置，其中該輔助資料指示，聲訊內容係使用向量為基本之振幅泛移(VBAP)以合成方式混合，及指定VBAP雙重或三重擴音器者。
如申請專利範圍第11項之裝置，其中該輔助資料指示，聲訊內容是以固定、分立麥克風記錄及至少下列之一者：一或以上麥克風的一或以上位置和方向，以及一種或多種麥克風。
一種用於解碼已編碼聲訊資料之裝置，包括：分析器，以決定所編碼聲訊資料在編碼之前業已預處理過；第一解碼器，供解碼聲訊資料；資料串流剖析器及摘取單位，從接收資料摘取關於預處理之資訊，該資訊包含至少元資料關於虛擬或真實擴音器位置及關於該聲訊資料之混合資訊，該混合資訊包括至少第一HOA格式之細節、多個麥克風之設置，以及泛移之一者之細節；以及處理單位，按照所摘取預處理資訊，後處理已解碼之聲訊資料者，其中，基於該聲訊資料具有該第一HOA格式之指示符，將該聲訊資料之係數從第二HOA格式轉換為基於分立球諧函數轉換法(DSHT)之該第一HOA格式。
如申請專利範圍第15項之裝置，其中該預處理之資訊包括，指示麥克風設置或關於混合聲訊資料之泛移演算法。
如申請專利範圍第15項之裝置，其中該預處理聲訊資料及至少一部分之該輔助資料係從聲訊製作階段所獲得，該輔助資料之該所獲得的部分包括至少改變資訊、編輯資訊及合成資訊之一者。
如申請專利範圍第17項之裝置，其中該聲訊製作階段係適合於執行至少記錄、混合及聲音合成之一者。
如申請專利範圍第15項之裝置，其中關於該預處理之資訊指示，聲訊內容係從HOA內容推衍，加上至少HOA內容表示法順序、二維(2D)、三維(3D)或半球面表示法和空間抽樣點位置其中之一者，並且其中，該後處理包括從該已解碼聲訊資料應用DSHT以恢復根據該第一HOA格式之HOA表示法。
如申請專利範圍第15項之裝置，其中關於該預處理之資訊指示，聲訊內容係使用向量為基本之振幅泛移(VBAP)以合成方式混合，及指定VBAP雙重或三重擴音器者。
如申請專利範圍第15項之裝置，其中該輔助資料指示，聲訊內容係從HOA內容推衍，及至少下列之一者：HOA內容表示法順序、二維(2D)、三維(3D)或半球面表示法和空間抽樣點位置。
如申請專利範圍第15項之裝置，其中關於該預處理之資訊指示，聲訊內容是以固定、分立麥克風記錄及至少下列之一者：一或以上麥克風的一或以上位置和方向，以及一種或多種麥克風。
如申請專利範圍第15項之裝置，其中該元資料係可選的。