TW201442522A

TW201442522A - 屬於第１階保真立體音響訊號且具有第０階和第１階係數的輸入訊號指向性之增進方法及裝置

Info

Publication number: TW201442522A
Application number: TW103110577A
Authority: TW
Inventors: Johannes Boehm
Original assignee: Thomson Licensing
Priority date: 2013-03-22
Filing date: 2014-03-21
Publication date: 2014-11-01
Also published as: WO2014147029A1; EP2976769A1; TWI646847B; JP6342986B2; EP2782094A1; BR112015019526A8; JP2016517033A; US20160057556A1; AU2014234480B2; US9838822B2; AU2014234480A1; BR112015019526A2; EP2976769B1; KR20150134336A; BR112015019526B1; CN105051813B; KR102208258B1; CN105051813A

Abstract

從提供第1階保真立體音響訊號(所謂B格式訊號)之微音器記錄，可供有限度辨認聲音指向性。感受到的聲源比實際為廣，尤其是離開中心的傾聽位置，而聲源往往位在來自最近的揚聲器位置。在增進第1階保真立體音響訊號之方法和裝置中，從較低階保真立體音響輸入訊號(10)，獲取(SFA)額外指向性資訊(22,23)。額外指向性資訊用來估計較高階保真立體音響係數(25a)，再與輸入訊號係數合併(CS)。因此，增進保真立體音響訊號之指向性，以致保真立體音響訊號解碼成揚聲器訊號時，提高空間源局部化之準確性。所得輸出訊號具有比輸入訊號更大能量。

Description

屬於第1階保真立體音響訊號且具有第0階和第1階係數的輸入訊號指向性之增進方法及裝置

本發明係關於保真立體音響聲訊訊號處理和音響學之領域。

保真立體音響是依據聲音壓力記載聲訊場景的技術、處理記錄、製作、傳輸、回放複合聲訊場景，具有優異空間解像度，2D和3D兼用。在保真立體音響中，空間聲訊場景是以Fourier-Bessel系列的係數說明。已知微音器陣列，提供第1階保真立體音響訊號，即所謂B格式訊號。然而，把第1階保真立體音響訊號解碼、描繪於2D周圍或3D之揚聲器配置，只能提供有限度辨識聲音指向性。聲源的感受往往比實際寬廣。尤其是離中心的傾聽位置，聲源常被定位為來自最近的揚聲器位置，而非在揚聲器間之所欲虛擬位置。第1階保真立體音響(B格式)訊號，是由Fourier-Bessel系列說明聲壓的四個係數(形成3D聲場表示法)所構成。即W通道(單混合，或第0階)和X,Y,Z通道(第1階)。較高階訊號使用較多係數，當係數解碼成揚聲器訊號時，可提高空間源局部化之準確性。然而，此等較高階訊號並未包含在微音器陣列提供之B格式訊號內。

指向性聲訊寫碼(DirAC)為已知技術[註5，註9]，以表示或複製聲訊訊號。使用B格式解碼器，把直達聲從擴散聲分開，再使用向量基礎的振幅泛移(VBAP)，供選擇性放大頻率域內之直達聲，而在合成過濾後，最後在其輸出提供揚聲器訊號。

第1a圖表示DirAC基礎的B格式解碼之結構。B格式訊號10是時間域訊號，在分析過濾器庫AFB_D內過濾成K頻帶11。聲場分析區塊SFA_D估計擴散估計值Ψ(f _k)和到達方向(DoA)12。DoA是在頻帶k特別中間頻率時，方向對聲源之方向角和傾角θ(f _k)。第1階保真立體音響解碼器AmbD，把保真立體音響訊號描繪到L揚聲器訊號14。直達擴散分離區塊DDS，使用從擴散性估計13所決定之過濾器，把第1階保真立體音響訊號，分開成L直達聲訊號15和L擴散聲訊號16。L擴散聲訊號16是由解碼器AmbD的輸出14乘以由擴散性估計13所得導出。指向性訊號是乘以導出。直達聲訊號15使用稱為向量基礎振幅泛移(VBAP)之技術，進一步處理[註8]。在VBAP單位VP內，按照DoA 12和揚聲器位置，乘以各揚聲器訊號(在各頻帶內)之增益值，以泛移直達聲至所需方向。擴散訊號16利用解相關過濾DF解相關，而解相關擴散訊號17，添加到從VPAB單位VP所得直達聲訊號。合成過濾器庫SFB_D把頻帶組合到時間域訊號19，後者可利用L揚聲器重製。應用時間整合用的平滑過濾器(第1圖內未示)，來計算擴散性估計Ψ(f)13，並平滑VBAP導出之增益值。

第1b圖表示聲場分析區塊SFA_D之細部。B格式訊號表示在原點(觀察點，r=0)的頻率域內之聲場。聲音強度說明聲場內動態和潛能之輸送。在聲場內，並非聲能的所有局部運動，都相當於淨輸送。活性強度I_a(時間平均化音響強度，DoA~I_a)，是指向性淨能輸送對三個笛卡幾(Cartesian)方向每單位時間之比率。B格式訊號11之活性強度11a，是在活性強度分析區塊AIA_D內獲得，並提供給擴散性分析區塊DAB_D和DoA分析區塊DOAAB_D，分別輸出DoA 12和擴散性估計13。關於DirAC詳見[註9]，基本理論載於[註5]。

亟需增進第1階保真立體音響訊號之指向性，諸如B格式微音器記錄。此等指向性增進為更具現實性重播所需，或是供真實記錄聲與其他較高階內容混合，例如供電影配音，旨在為不同的揚聲器設置重播。本發明要解決的一個問題是，增進第1階保真立體音響訊號或B格式訊號之指向性，即使此等訊號不可能用較高階係數。

按照本發明，此問題及其他問題可解決，藉選擇性放大直達聲成份，同時擴散聲成份不變。選擇性放大直達聲時，有利於獲得提高位階之保真立體音響格式化訊號，因為容易與其他保真立體音響格式化訊號混合。藉本發明即可提高第1階保真立體音響訊號之位階，因而只考慮指向性聲音成份。如此又造成保真立體音響格式化訊號，但較高階(即至少第2階)。原則上，所揭示增進第1階保真立體音響訊號指向性之方法，是從第1階係數資訊衍生較高階係數，並把此衍生之較高階係數加到保真立體音響訊號。因此，有益於維持(除非在一具體例中之再格式化)第1階保真立體音響訊號之第1階係數資訊(即第0階和第1階係數)。

換言之，從較低階保真立體音響訊號獲取額外指向性資訊，而額外指向性資訊用來估計較高階係數。以此方式，即可增進保真立體音響訊號之指向性，當保真立體音響訊號解碼至揚聲器訊號時，導致提高空間聲源局部化之準確性。本發明之一效果是，所得輸出訊號較輸入訊號更大能量。

本發明如申請專利範圍第1項所界定，係關於第1階保真立體音響訊號且具有第0階或第1階係數的輸入訊號指向性之增進方法。

本發明又如申請專利範圍第9項所界定，係關於具有第0階和第1階係數的第1階保真立體音響訊號指向性之增進裝置。

再者，本發明關係電腦可讀式儲存媒體，其上儲存有電腦可讀式指令，在電腦上執行時，造成電腦執行如申請專利範圍第1項所界定具有第0階和第1階係數的第1階保真立體音響訊號指向性之增進方法。

須知任何指定位階的保真立體音響，所包含不但是指定位階之係數，還有全部較低位階之係數，即使未明指。例如，第2階HOA訊號不但含有第2階，而且包含第0階和第1階。

本發明有益之具體例，揭示於所附申請專利範圍、以下說明和附圖。

10‧‧‧時間域第1階保真立體音響輸入訊號

20‧‧‧直達聲分離器單位分離直達聲

21,21’‧‧‧四個頻率域通道

22‧‧‧聲源方向

23‧‧‧擴散性估計

24‧‧‧選擇性放大直達聲

25‧‧‧保真立體音響訊號界定部份

25a‧‧‧保真立體音響訊號選定部份

26‧‧‧合成時間域訊號

28‧‧‧時間域保真立體音響訊號

29‧‧‧時間域輸出訊號

30‧‧‧保真立體音響輸入訊號

31‧‧‧保真立體音響訊號

37‧‧‧訊號

60‧‧‧指向性之增進方向

s1‧‧‧過濾步驟

s2‧‧‧進行步驟

s3‧‧‧選擇和過濾步驟

s4‧‧‧編碼步驟

s5‧‧‧選定步驟

s6‧‧‧組合步驟

第1a圖為已知DirAC基礎的B格式解碼器之結構；第1b圖為已知聲場分析區塊之一般結構；第2圖為本發明一般具體例裝置之結構；第3圖為使用在時間域內組合的具體例裝置之結構；第4圖為使用在頻率域內組合的第一具體例裝置之結構；第5圖為使用在頻率域內組合的第二具體例裝置之結構；第6圖為本發明方法之流程圖；第7圖為組合步驟之細部流程圖。

第2圖表示本發明概括具體例之裝置結構。時間域第1階保真立體音響輸入訊號10(諸如B格式訊號)，在分析過濾器庫AFB內過濾，其中獲得四個頻率域通道21。輸入訊號10有頻率域表示法：頻率域通道之一表示第0階係數(即W通道)，而另三個頻率域通道表示第1階係數(X,Y,Z通道)。

直達聲分離器單位DSS從擴散聲分離出四個頻率域通道21內之直達聲(即指向性聲音)20。在一具體例中，直達聲分離器單位DSS單純選擇W通道，用做直達聲20。再者，聲場分析單位SFA進行四個頻率域通道之聲場分析，為頻率通道之每一頻帶，得聲源方向θ,ψ22和擴散性估計Ψ 23。在一具體例中，聲場分析單位SFA包含到達方向(DoA)分析單位，以獲得方向資訊22。

直達聲分離器DSS所得直達聲20，再於過濾器F內過濾，於是擴散成份被阻尼，因此，指向性聲音受到選擇性(相對性)放大。過濾器F使用擴散性估計Ψ 23，供選擇性放大；原則上，把直達聲20乘以，而得選擇性放大之直達聲24。選擇性放大之直達聲24再於HOA編碼器HOAe內，以保真立體音響編碼，其中得預定位階N₀之HOA訊號25(N₀>1，即至少第2階)。HOA編碼器HOAe使用聲源方向θ,ψ22供編碼。可以使用保真立體音響格式，按照B格式，具有第0階和第1階係數。亦可改用不同的保真立體音響格式。不同的保真立體音響通常具有與B格式之順序不同之界定係數順序，或與B格式之係數標度不同之係數標度。

選擇器SEL選擇HOA訊號25界定部份，而選定部份25a再於組合器和合成單位CS內，與原有B格式訊號組合。選定部份25a是HOA訊號25之較高階部份，即至少第2階之部份(在一具體例內為係數)。組合器和合成單位CS，在其輸出提供時間域訊號29(呈HOA格式)，可用來描繪揚聲器訊號。組合器和合成單位CS含有合成過濾器SF，以過濾保真立體音響格式化訊號，而得時間域訊號。

第2圖也表示視情形附加之混合器單位MX，所得HOA輸出訊號在其中可與較高階之另一HOA輸入訊號30混合。其他HOA輸入訊號30亦可具有與輸入訊號10不同之保真立體音響格式，因下述HOA格式適配器HFA之故。混合器MX產生HOA訊號31，包含所得HOA輸出訊號29(即增進B格式輸入訊號)和HOA輸入訊號30之混合物。

以下說明組合器和合成單位CS之二基本型具體例：在其一型具體例中，組合器和合成單位CS在時間域內組合選定部份25a與原先B格式訊號10。所以，只有選定部份25a進行合成於時間域內。在另一型具體例中，組合器和合成單位CS在頻率域內組合選定部份25a和原先B格式訊號10，往後進行合成於時間域內。

第3圖表示第一型具體例。在此具體例中，組合器和合成單位CS只把HOA訊號25的選定較高階係數25a，在合成過濾器庫SFB內合成，得合成時間域訊號26。時間域組合器單位CB_t把合成時間域訊號26與時間域內之輸入訊號組合，得時間域輸出訊號29。在一具體例中，時間域HOA格式適配器單位HFA，按照HOA編碼器與HOAe使用格式，適配時間域輸入訊號之格式。此舉把所得時間域HOA訊號28與合成時間域訊號26，在時間域組合器單位CB_t內之組合簡化。在某些具體例內，例如HOA編碼器HOAe使用與HOA輸入訊號相容之格式，即不需HOA格式適配器單位HFA_t。HOA格式適配器單位HFA_t可重新配置和/或重新標度HOA訊號之係數。

分析過濾器庫AFB例如藉進行FFT(快速傅立葉轉換)，得不同的頻帶。此舉產生延時。在一具體例中，時間域輸入訊號之延時補償單位DC，會補償過濾器庫延時，例如分析過濾器庫AFB、選擇性放大過濾器F等。雖然在圖示具體例中，延時補償是在HOA格式適配HFA之前處理，但在另一具體例中，亦可安排在HOA格式適配之後。在又一具體例中，延時補償分二步驟進行，一延時補償單位在格式適配之前，另一在之後。

第4和5圖所示具體例使用第二型組合器和合成單位CS。在此具體例中，組合器和合成單位CS接收輸入訊號頻率域第0階和第1階保真立體音響係數，一如分析過濾器庫所得。此可為分開之分析過濾器庫AFB’，如第4圖所示具體例，亦可為前述分析過濾器庫AFB，如第5圖所示具體例。在後一情況中，分析過濾器庫AFB提供之四個頻率域通道21，直接輸入於組合器和合成單位CS。頻率域組合器單位CB_f，把HOA訊號25之選定較高階係數25a與頻率域內輸入訊號之第0階和第1階保真立體音響係數加以組合。合成過濾器庫SFB’合成組合之保真立體音響係數，其中獲得時間域輸出訊號29。在一具體例中，對輸入訊號的第0階和第1階保真立體音響係數，進行視情況之頻率域HOA格式適配HFA_f，然後再與HOA訊號25的選定較高階係數組合。HOA格式適配器單位HFA_f可重新配置和/或重新標度HOA訊號之係數。如上所述，在某些具體例中可不需HOA格式適配器單位HFA_f。又，也是如上所述，在處理鏈(例如選擇性放大過濾器F、HOA編碼器HOAe)內可能插入任何延時之一具體例內，可用延時補償(圖上未示)。惟通常是不需要，因為由分析過濾器庫AFB,AFB’插入之延時，不需補償。

時間域組合器CB_t是在時間域內操作之組合器，而頻率域組合器CB_f是在頻率域內操作之組合器。二型組合器把選定部份25a之所得係數，加到輸入訊號10(可能重定格式)之係數。

一般而言，具有第0階和第1階係數的第1階保真立體音響時間域訊號指向性之增進裝置，包含分析過濾器庫AFB，可供過濾第1階保真立體音響訊號，其中得四個頻率通道21，係第1階保真立體音響訊號之頻率域表示，且其中頻率域通道之一個頻率域通道20表示第0階係數，而另三個頻率域通道表示第1階係數；聲場分析單位SFA，供進行四個頻率域通道之聲場分析，因而獲得聲源方向θ,ψ22和擴散性估計Ψ 23；選擇性放大過濾器F，供過濾具有第0階係數之頻率域通道20，其中使用擴散性估計Ψ 23，且其中獲得直達聲成份24；高階保真立體音響編碼器HOAe，以至少二預定位階，編碼直達聲成份24，呈保真立體音響格式，其中使用該聲源方向θ,ψ22，且其中使用預定位階的保真立體音響格式之編碼直達聲25，呈保真立體音響格式之編碼直達聲，具有至少第0階、第1階和第2階之保真立體音響係數；選擇器SEL，從預定位階的保真立體音響格式內所得編碼直達聲25，選擇至少第2階之保真立體音響係數25a；組合器和合成單位CS，把編碼直達聲25a的至少第2階所選擇保真立體音響係數，與第1階保真立體音響輸入訊號10之保真立體音響係數加以組合，其中獲得至少第2階29保真立體音響訊號之時間域表示。須知所選擇至少第2階之保真立體音響係數25a，不含第0階或第1階係數。亦即選擇器SEL省略較低階係數。

在一具體例中，本發明係關於第1階保真立體音響訊號10(即僅具有第0階和第1階係數之保真立體音響訊號)指向性之增進方法。一般而言，此方法包括步驟為，在聲場分析單位SFA內，從第1階保真立體音響訊號發生擴散性估計Ψ 23和方向資訊θ,ψ22；從第1階保真立體音響訊號分離和選擇性放大直達聲24，其中選擇性放大用之過濾器F使用擴散性估計Ψ 23；在HOA編碼器HOAe內，編碼選擇性放大之直達聲24，其中使用方向資訊θ,ψ22，而得至少第2階之HOA訊號25；選擇HOA訊號25之較高階部份，其中所選擇較高階部份只包含比第1階更高階之係數(即不包含第0階係數，也不包含第1階係數)；並將HOA訊號25所選擇較高階係數，在組合器和合成單位CS內，與輸入第1階保真立體音響訊號組合，其中獲得較高階保真立體音響訊號(即至少第2階之保真立體音響訊號)之時間域表示29。

在一具體例中，HOA訊號25所選定較高階係數與輸入第1階保真立體音響訊號10之組合步驟，包含從分析過濾器庫AFB，接收輸入訊號之頻率域第0階和第1階保真立體音響係數；把HOA訊號25所選定較高階(即第2階或以上)係數25a，與頻率域內輸入訊號的第0階和第1階保真立體音響係數組合；在合成過濾器庫SFB內合成組合保真立體音響係數，而得時間域輸出訊號29。

在一具體例中，此方法又包含步驟為，對輸入訊號的第0階和第1階保真立體音響係數，進行頻率域HOA格式適應HFA_f，再與HOA訊號25所選定較高階係數組合。

在另一具體例中，HOA訊號25所選定較高階係數25a，與輸入第1階保真立體音響訊號10之組合步驟，包含在合成過濾器庫SFB內，只合成HOA訊號25所選定較高階係數25a，獲得合成之時間域訊號26；把所得合成時間域訊號與時間域內之輸入訊號組合，得時間域輸出訊號29。在一具體例中，是在組合之前，進行時間域輸入訊號的時間域HOA格式適應HFA_t。在又一具體例中，是在組合步驟之前，進行時間域輸入訊號之延時補償DC，以補償過濾器庫延時。

獲得較高階係數的方法是，在分析過濾器庫AFB內，過濾第1階保真立體音響輸入訊號10，進行所過濾訊號之到達方向(DoA)分析，因而獲得擴散性估計Ψ 23和方向ψ,θ22；使用擴散性估計Ψ 23，過濾W通道(第0階係數)，因而把直達聲S(f)20分離；在較高階保真立體音響編碼器HOAe內，編碼保真立體音響格式內之直達聲S(f)20。由所得HOA訊號25，只用到較高階係數，與輸入訊號之較低階係數組合，並且從結果，合成保真立體音響輸出訊號29。

一般而言，HOA訊號25所選定較高階係數25a與輸入第1階保真立體音響訊號10之組合步驟，包含添加其個別係數，即輸出訊號29包含輸入訊號10之全部係數，和附加係數，即選定部份25a之較高階係數。

第6圖表示本發明一具體例之方法流程圖。輸入訊號10(具有第0階和第1階係數之第1階保真立體音響訊號)指向性之增進方向60，包含步驟為：過濾s1輸入訊號，其中獲得四個頻率域通道21，其中之一係保真立體音響W通道20；進行s2四個頻率域通道21之聲場分析SFA，因而獲得聲源方向22和擴散性估計23；選擇和過濾s3頻率域保真立體音響W通道20，其中使用擴散性估計23，且其中得輸入訊號10之直達聲成份24；在較高階保真立體音響編碼器HOAe內，以預定位階N_o以保真立體音響格式編碼s4直達聲成份24，其中使用該聲源方向22，且其中獲得預定位階N_o保真立體音響格式之編碼直達聲25；從所得保真立體音響格式25之編碼直達聲，選定s5界定部份25a，含至少第2階(即第2階或更高階，不計較低階)之保真立體音響係數；把表示編碼直達聲25a選定部份至少第2階保真立體音響係數之訊號，與表示輸入訊號10之訊號加以組合s6，其中獲得至少第2階保真立體音響訊號29。

在過濾步驟s1中所獲得四個頻率域通道21，是第1階保真立體音響訊號之頻率域表示，其中頻率域通道21之第一個頻率域通道(W通道)20表示第0階係數，而其餘三個頻率域通道21(X,Y,Z通道)表示第1階係數。

在編碼步驟s4中，較高階保真立體音響編碼器HOAe，使用該聲源方向ψ,θ22，以預定位階N_o之保真立體音響格式，編碼直達聲成份24，其中預定位階N_o至少二，而預定位階保真立體音響格式之編碼直達聲，具有至少第2階之保真立體音響係數。

第7a圖表示之具體例中，組合步驟s6使用四個頻率域通道21，做為輸入訊號10之表示(相當於第4和5圖所示裝置)。包含步驟為，在頻率域組合器單位CB_f內，把利用頻率域通道21,21’,28表示的第1階保真立體音響訊號10之保真立體音響係數，與至少第2階的增進較高階保真立體音響訊號之選定頻率係數25a，加以組合s61，其中獲得訊號37，係至少第2階保真立體音響訊號之頻率域表示，而具有比第1階保真立體音響輸入訊號10增進指向性，並在合成過濾器庫SFB’內過濾s64所得訊號37，其中獲得增進較高階保真立體音響訊號之時間域表示，具有至少第2階係數。

第7b圖表示之具體例中，組合步驟s6使用輸入訊號10之時間域係數(相當於第3圖所示裝置)。包含步驟為，在合成過濾器庫SFB內，從編碼之直達聲25，提供s62至少第2階之選定保真立體音響係數25a，其中獲得增進較高階保真立體音響訊號26之時間域表示；以及在時間域組合器CB_t內，把第1階保真立體音響訊號10之保真立體音響係數(或寧願是表示第1階保真立體音響訊號10的保真立體音響係數之係數，因為可適配實際HOA格式)，與至少第2階的該增進較高階保真立體音響訊號26之時間域表示，加以組合s65，其中獲得至少第2階保真立體音響訊號29之時間域表示，具有比第1階保真立體音響訊號10增進之指向性。

下述提供關於保真立體音響之更詳細說明。在保真立體音響理論中，空間聲訊場景是由Fourier-Bessel系列的係數說明。就無聲源之容量言，在觀察位置(γ,θ,ψ)之聲壓，是以其空間座標(半徑γ，傾角 θ，方位角ψ)及空間頻率為函數說明，如下式：

其中為保真立體音響係數；j _n(kr)為說明徑向依賴性之第一種Spherical-Bessel函數；為球諧函數(SH)，實際上具有真值。此係角位依賴性之肇因，n為保真立體音響位階指數，m為度數。由於Bessel函數的性質，只有小kr的有效值，加法系列可以充分準確性在某些位階n=N平截；對於理論上完美重建N→∞。進一步資料和細節可參閱註[11],[6],[7],[3],[13]。保真立體音響係數形成保真立體音響訊號；具有聲壓之物理單位(1Pa)，隨時間變異。訊號可視保真立體音響記錄之單版本。保真立體音響係數之實值，可由SH定義決定，更正確說是其常態化計劃。式(1)內係數之數，對2D表示法指定O=2N+1，而3D表示法是O=(N+1)²。

實務上，保真立體音響使用真值球諧函數(SH)。定義如下述，因為對SH有不同的表述和常態化計劃種類，影響編碼和解碼操作，即保真立體音響係數之數值。真值SH可使用無符號述式表述如下：

其中為常態化因數(見表1)，相當於和間之正交關係，即

其Kronecker δ _a,a'在a=a'時，等於1，其餘為0。以下使用正交常態化計劃。P _n,|m|是關聯Legendre函數，說明傾角cos(θ)的依賴性。，P _n,|m|可用式(3)之Rodrigues方程式表達(即此處所提全部定義不用Condon-Shortley相位，其為真值變數之補償，會產生含混)，但為實施之計算，有更具成效的方法存在。

對方位角部份Φ之依賴性如下：

表1表示保真立體音響δ _0,m內所用普通常態化計劃為m=0時取值為1，其餘為0。即習用SN3D,N3D取自[註3]。

由SoundField^TM所記錄訊號，像微音器，是使用B格式表示。技術載於[註2]。有四個B格式訊號：W訊號帶有與全向微音器所記錄聲壓呈比例之訊號，但以因數標度。X,Y,Z訊號攜帶訊號，與三個笛卡幾(Cartesian)方向內之壓力梯度呈比例。四個B格式係數W,X,Y,Z與第1階HOA係數相關，使用N3D常態化計劃[註3][註4]，係,,,，而關於HOA係數，使用SN3D常態化，係,,,。再者，B格式假設平面波編碼模式，在係數表示內省略因數i ⁿ。

HOA訊號亦可利用平面波表示。平面波的聲壓由[註11]賦予如下：

對球諧函數使用N3D常態化計劃，嚴格言，會變成：

其中是座標系統原點在頻率f之聲壓。θ(f)_s,是至聲源(DoA)的方向(傾角，方位角)，而*表示共軛複數。許多保真立體音響格式和系統，包含B格式和SoundField^TM微音器系統，呈平面波編碼和解碼模式，而因數i ⁿ則省略。則變成：

如前所述，第1b圖表示聲場分析區塊SFA_D之構成區塊。原則上像本發明聲場分析區塊SFA，惟在此使用概括化時間/頻率考慮，得以使用隨意時窗，即聲場分析簡化成不同的時間常態化。此項概括化容許使用隨意複合過濾器庫。在此採取之另一概括化是，從平面波之疊置，組裝成活性聲場。所有聲場參數都是頻率的函數，可就過濾器庫頻帶k之各中心頻率計算。f _k靠k之依賴性在以下說明中從略。

其次說明活性強度。

活性強度I _a(f)按照下式界定(見[註5])：I _a=Re{P(f)*U(f)} (8)

活性強度之單位是W/m²=N/(ms)。P(f)*是共軛複合聲壓(以帕斯卡Pascal為單位=1N/m²)，而U(f)是質點速度，以m/s計，三個笛卡幾維度之一向量。Re{.}指真實部份。活性強度之其他表述使用1/2之附加因數，一如[註11]，則導至方程式(13)之附加因數。B格式訊號W與聲壓訊號P(f)成比例，而訊號X(f)=[X(f),Y(f),Z(f)] ^T與聲速U成比例：

其中e_i是笛卡幾座標軸之單位向量，而e_u是傳播平面波之單位向量方向。Z₀是特性阻抗(聲速和空氣密度之乘積，Z₀=ρ₀c)。然則，活性強度I _a即可用B格式訊號表示(見[註5])：

其中因數表示B格式內W係數之標度；*指共軛複數。I _a(f),X(f)是笛卡幾座標內頻率之向量函數。

其次說明到達方向。

活性強度之單位向量e _i(f)=[e _ix(f),e _iy(f),e _iz(f)]^T如下賦予：e _i(f)=I _a(f)/||I _a(f)||。DoA之方位角以弧度計如下：

其中I _ai(f)是I _a (f)之笛卡幾成份，而atan2是四象限逆正切。立面角度θ(f)可由下式計算。

其次說明擴散性。

聲場的能量密度，即每單位容量之聲能(物理單位為N/m²=kg m/s² 1/m²)，如[註5]所述：

其中∥U∥說明矩陣模方2，向量之歐幾里德長度。

就保真立體音響訊號言，第1階/B格式變成：

以下在記號內之頻率依賴性不變，以便利閱讀。

擴散性估計Ψ按[註5]界定：

是期待值算符，可使用時間平均法實施，利用加窗平均實現，或是利用IIR過濾器之第一階。Ψ表示聲場的非活性能量部份之貢獻。數值1說明完全擴散之聲場(無動能貢獻)，而數值0是全活性聲場。使用B格式訊號，擴散性可表示為：

擴散性估計[註1]之另類實現，如下式：

其次說明平均過濾。

擴散性估計和DoA方向需要時間平均化。為求預期之近似值，平流過濾器輸出由[註12]界定：y(n,k)=(1-g)x(n,k)+g y(n-1,k) (18)

其中x(n,k)是輸入，y(n-1,k)是過濾器庫k內樣本(轉換區塊)延時輸出。過濾器參數g為，其中f _c是次抽樣過濾器庫之樣本率。就50%疊合窗之區塊基本的過濾器庫言，f _c變成，而躍程規模N _hop為此50 %疊合情況的窗規模之半。時間常數τ決定平均值之特性。當需要遵循輸入訊號快速變化時，適用小數值，對長期平均則適宜大數值。

有另類實現方式存在，例如(見[註10])：y(k,n)=a x(k,n)+(1-a)y(k,n-1) (19)

其中而。於此可見τ與f _s呈絕對關係。

適應性過濾器連同區塊依賴性變換參數cc和二時間常數τ_max,τ_min，可用於時間常數：

在大多數情況下，任何第一階保真立體音響記錄，會是B格式訊號。本發明方法為現有第1階保真立體音響記錄，導出較高階保真立體音響，同時維持第一階係數資訊。進行到達方向(DoA)分析，導出全頻率最強方向。W通道表示全部這些訊號之單混合。W通道經過濾，全頻率除去擴散部份。因此，過濾後的W通道成為全頻率直達聲之值計。DoA方向用於所過濾W通道訊號之保真立體音響編碼，形成預指派保真立體音響位階之新HOA訊號N_order>1，對3D而言O=(N _order+1)²，對2D實現言O=(2N _order+1)。B格式記錄(即第1階訊號)之四個係數，必要時把格式轉變成和新保真立體音響訊號同樣的格式，並與新係數組合，形成輸出訊號。所得輸出HOA訊號係數是由0和1階成份的轉換後B格式係數，以及從較高階成份的新HOA係數編成。

處理或部份處理，應用於分析過濾器庫之過濾器庫頻率域。

一具體例使用FFT基礎之分析過濾器庫。對960個樣本，或另外對例如640個或512個樣本，應用50%疊合正弦窗。使用至左和右之零充墊，得1024樣本FFT長度。逆過濾器庫(合成過濾器庫)使用成窗和覆蓋添加，以恢復480(320,256)樣本之區塊。ISO/IEC 23003/2007/2010(MPEG Surround,SAOC)載有另類可用之過濾器庫，所用帶寬更佳匹配人員感受。使用FFT過濾器庫時，可將二或以上之過濾器庫組合，更佳適應人員感受，尤其是對高頻。在一具體例中，使用大約四分之一庫，具有一FFT過濾器頻帶之粒度，並使用活性強度和全組合頻帶的能量之平均值。在各種具體例中，使用聲場參數「活性強度」和/或「能量密度」，導出DoA角度和擴散性估計。

在一具體例中，對DoA方向和擴散性估計，使用方程式(18)之特殊平流過濾器，則擴散性估計之平流實施如下(頻帶依賴性省略以求簡要)：式(15)之擴散性估計為，列舉符之平流過濾器是使用三個成份的同樣時間常數，利用第一階IIR過濾器實現。又，過濾器具有以小τ _min和大τ _max時間常數為特徵之雙係數。時間常數間進行更換，視∥I _a∥和另一狀態計數cc而定，其中I _ａ(n)是過濾器輸入，而是前次作業的過濾器輸出。

若cc==0且，使用大時間常數之係數τ _max。

若，使用小時間常數為特徵之係數 τ _min，而cc設定於cc _max，大於1(例如cc _max=10)。

若cc>0且，則使用時間常數，而cc隨後遞降(區塊處理)，只要不等於零。

是正的常數。能量E之平流是以類似方式進行，使用分開的過濾器，但同樣的適應性過濾器結構。其特徵為τ _max,τ _min和本身之cc狀態計數，使用|E(n)|，在大、小和間插的時間常數間變換。

Φ(f),θ(f)導衍自活性強度e _i(f)=I _a(f)/||I _a(f)||，利用產生二複合訊號：a ₁=e _ix+i e _iy (21)

其中和e _ix ,e _iy ,e _iz是活性強度的單位向量之笛卡幾成份。訊號使用a ₁,a ₂每次頻帶一適應性IIR第一階過濾器加以過濾，按照方程式(18)：b ₁(n)=(1-g(Ψ))a ₁(n)+g(Ψ)b ₁(n-1) (23)

對b ₂(n)情況類似，使用a ₂(n)和同樣過濾器參數g(Ψ)，後者視擴散性Ψ而定。依賴性可為線性：g(Ψ)=(g _max-g _min)Ψ+g _min，其g _min接近零，而。

指向性訊號Φ,θ可從過濾器輸出計算如下：

上述參見第2-5圖所示具體例，以B格式情況言，為標記W,X,Y,Z的第1階係數，使用三個分析過濾器。在中心頻率為f _k的K頻帶內，使用上述適應性平流過濾器，進行擴散性估計分析。以B格式情況時， W係數訊號乘以，而其他常態化第一階訊號，在各頻帶內則乘以，以實戲訊號S。DoA方向用於頻帶內之保真立體音響編碼訊號S，形成預指派保真立體音響位階之新HOA訊號N_order>1，就3D實現而言O=(N _order+1)²，而就2D實現言O=(2N _order+1)。O新保真立體音響訊號標記。在一具體例中，HOA編碼器使用N3d或正交常態化球諧函數，省略因數iⁿ。使用平面波編碼計劃：

其中B(f _k)是各頻帶k之向量，中心f _k持有O保真立體音響係數，而Ξ是Ox1大小的模態向量，持有指向性球諧函數：

B格式輸入訊號之四個係數，例如記錄，以格式轉換成HOA編碼器HOAe所產生新保真立體音響訊號同樣之格式。此可暗示適應球諧函數之不同常態化，以及因數iⁿ之光學考量，有時包含在保真立體音響係數內，而3D至2D轉換，適應至2D球諧函數，或反向為之。轉換和依賴之B格式係數，標記為與關係，而對於2D則為：。

所得HOA訊號由轉換之B格式訊號和新HOA係數編成，零階和第一階成份省略：。所得HOA訊號對3D實現具有O=(N _order+1)²成份，或者對2D，為O=(2N _order+1)成份，其中。此程序可視為保真立體音響訊號之位階上混(upmix)。

上面就第3圖所述具體例，在時間域內把原有係數和新係數組合，並使用O-4合成過濾器(附註，“O”並非意味零)，並附加延時，以補償過濾器排延時。第4至5圖所示具體例，在過濾器庫域內組合，並使用O(不是零)合成過濾器。

按照本發明位階上混後，新訊號可用於若干目的，例如與N_order之其他保真立體音響內容混合，以形成訊號，解碼或，供使用N_order保真立體音響解碼器，在L揚聲器內重播；傳送和/或儲存或於資料庫等。在某些情況下，例如傳送和/或儲存，可用元資料來指示原點，並進行處理保真立體音響訊號。

雖然本發明適於把任何低階保真立體音響訊號，增進到個別高階保真立體音響訊號，於此所述具體例只使用第1階(B格式)訊號，供增進到例如第2階訊號。然而，可應用同樣原理把指定位階的保真立體音響訊號，增進到任何更高位階，例如第2階訊號增進至第3階訊號，第1階訊號增進至第4階訊號等。一般而言，產生比第4階更高位階之係數，並無意義。

本發明之一優點是，容許B格式訊號(諸如第1階微音器記錄)，與較高位階內容混合，在混合物解碼時，增進空間重建準確性。

凡技術專家就上述裝置和方法可進行各種省略，取代和更換所揭示機件之形式和細節，及其操作，表明旨在此等元件之所有組合，以實質上同樣方式進行實質上同樣功能，達到同樣結果，凡此均在本發明範圍內。須知本發明已就實施例加以說明，而在說明書以及(適宜情況)申請專利範圍和附圖所揭示各特點，可獨立或以任何適當組合方式提供，特點可視適當情況以硬體、軟體，或二者組合方式實施。申請專利範圍內標示之參照數字，僅供提示之用，對申請專利範圍無限制效應。

附註：

[1] Jukka Ahonen and Ville Pulkki. Diffuseness estimation using temporal variation of intensity vectors. 2009 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, October 18-21, 2009, New Paltz, NY.

[2] Peter G. Craven and Michael A. Gerzon. Coincident microphone simulation covering three dimensional space and yielding various directional outputs, 1975.

[3] Jérôme Daniel. Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia. PhD thesis, Universite Paris 6, 2001.

[4] Dave Malham. Space in Music - Music in Space. PhD thesis, University of York, April 2003.

[5] Juha Merimaa. Analysis, Synthesis, and Perception of Spatial Sound - Binaural Localization Modeling and Multichannel Loudspeaker Reproduction. PhD thesis, Helsinki University of Technology, 2006.

[6] M. A. Poletti. Three-dimensional surround sound systems based on spherical harmonics. J. Audio Eng. Soc., 53(11):1004-1025, November 2005.

[7] Mark Poletti. Unified description of ambisonics using real and complex spherical harmonics. In Proceedings of the Ambisonics Symposium 2009, Graz. Austria, June 2009.

[8] Ville Pulkki. Virtual sound source positioning using vector base amplitude panning. J. Audio Eng. Soc., 45(6):456-466, June 1997.

[9] Ville Pulkki. Spatial Sound Reproduction with Directional Audio Coding. J. Audio Eng. Soc., 55(6):503-516, June 2007.

[10] Oliver Thiergart, Giovanni Del Galdo, Magdalena Prus, and Fabian Kuech. Three-dimensional sound field analysis with directional audio coding based on signal adaptive parameter estimators. In AES 40 TH INTERNATIONAL CONFERENCE, Tokyo, Japan, October 8 €“ 10, 2010.

[11] Earl G. Williams. Fourier Acoustics. Academic Press, 1999.

[12] Udo Zölzer, editor. DAFX - Digital Audio Effects. John Wiley & Sons, 2002.

[13] Franz Zotter. Analysis and Synthesis of Sound Radiation with Spherical Arrays. PhD thesis, Institute of Electronic Music and Acoustics (IEM), 2009.