TWI684978B

TWI684978B - 用於生成增強聲場描述的裝置及方法與其計算機程式及記錄媒體、和生成修改聲場描述的裝置及方法與其計算機程式

Info

Publication number: TWI684978B
Application number: TW107124518A
Authority: TW
Inventors: 捷爾根賀瑞; 艾曼紐哈貝特斯; 普林格艾克瑟; 錫蓋特奧莉薇; 庫奇法比恩
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2017-07-14
Filing date: 2018-07-16
Publication date: 2020-02-11
Also published as: CN111108555B; JP2020527887A; US20200154229A1; AU2018298878A1; AR112556A1; US11477594B2; EP3652737A1; JP7122793B2; KR102448736B1; CA3069772C; SG11202000287RA; AU2021218089A1; KR20200041307A; WO2019012135A1; RU2736274C1; TW201919043A; KR20220044393A; CN111108555A; BR112020000779A2; CA3069772A1

Abstract

一種用於生成一增強聲場描述的裝置，其包括：一聲場生成器，用於生成指示關於至少一個參考位置的一聲場的至少一個聲場描述；以及一後設資料生成器，用於生成與該聲場的空間資訊有關的後設資料，其中，該至少一個聲場描述和該後設資料構成一增強聲場描述。該後設資料可以是將一距離資訊與在一全頻帶或一子頻帶中的一方向相關聯的一深度圖，即一時間頻率區間。

Description

用於生成增強聲場描述的裝置及方法與其計算機程式及記錄媒體、和生成修改聲場描述的裝置及方法與其計算機程式

本揭露涉及音頻處理，並且特別是，涉及相對於諸如一麥克風或一虛擬麥克風位置的一參考位置所定義的聲場的音頻處理。

高保真度環繞聲信號(Ambisonics signals)包括該聲場的一截斷球形諧波分解。高保真度環繞聲有不同的風格。在文獻[31]，其揭露「傳統的」高保真度環繞聲，其現在被稱為「一階高保真度環繞聲」(FOA、First-Order Ambisonics)並且包括四個信號(亦即，一個全向信號和多達三個數字8字形方向信號)。最近的高保真度環繞聲變體被稱為「高階高保真度環繞聲」(HOA、Higher-Order Ambisoncis)，並且以攜帶更多信號為代價，提供增強的空間分辨率和更大的聆聽者最佳聆聽位置區域。通常，一完全定義的N階HOA表示由(N+1)²個信號組成。

與該高保真度環繞聲概念相關，該定向音頻編碼(DirAC、Directional Audio Coding)表示已經被設想為以一更緊湊的參數樣式，以表示一FOA或HOA聲音場景。更具體地，該空間聲音場景係由一個(或多個)發送的音頻聲道表示，其表示該聲學場景的一降混合以及每個時間頻率(TF)區間中的該方向和擴散的相關聯的輔助資訊。有關定向音頻編碼(DirAC)的更多資訊可以在文獻[32,33]中找到。

在文獻[32]中，DirAC可以與不同的麥克風系統和任意揚聲器設置一起被使用。該DirAC系統的該目的是使用多聲道/3D揚聲器系統盡可能精確地再現一既有聲學環境的該空間印象。在該所選擇的環境中，響應(連續聲音或脈衝響應)係由一全向麥克風(W)和一組麥克風所測量，其能夠測量聲音的該到達方向和聲音的該擴散。在文獻[34]中，一種常見的方法是應用與相應的笛卡爾坐標軸對齊的三個8字形麥克風(X、Y、Z)。一種方法是使用一聲場麥克風，它直接產生所有想要的響應。該W、X、Y和Z信號也可以從一組離散的全向麥克風計算出來。

在DirAC中，首先根據該人類聽覺系統的頻率選擇性，該聲音信號將被分成頻率通道。根據每個頻率通道的時間測量該聲音方向和擴散。在傳輸時，一個或多個音頻通道以及分析的方向和擴散資料被發送。在合成時，施加到該揚聲器的該音頻信號可以是例如該全向通道W，或者每個揚聲器的該聲音可以被計算為W、X、Y和Z的一加權和，其形成具有針對每個揚聲器的一某種方向特性的一訊號。每個音頻通道被分成頻率通道，然後根據分析的擴散性將其可選擇的劃分為擴散串流和非擴散串流。利用一種技術，擴散串流被再現，該技術產生聲音場景的擴散感知，在文獻[35-37]中，例如雙耳線索編碼(Binaural Cue Coding)中使用的該去相關(decorrelation)技術。利用一種技術(例如在文獻[38]中的VBAP)，非擴散聲音被再現，該技術其目的是根據該方向資料產生一類似點狀虛擬來源。

三種具有一有限自由度的6DoF的導航技術在文獻[39]中被提出。給定一單個高保真度環繞聲信號，一單個高保真度環繞聲信號被使用以下方法計算：1)模擬在一虛擬揚聲器陣列內的HOA回放和聆聽者移動、2)沿著平面波計算和平移以及3)重新擴展關於該聆聽者的該聲場。

此外，參考所描述的該DirAC技術，例如於2009年11月11-13日在日本宮城縣Zao舉行的International Workshop on the Principles and Applications of Spatial Hearing中由V.Pulkki等人著作的該出版物“Directional Audio Coding-Perception-Based Reproduction of Spatial Sound”。該參考文獻描述了定向音頻編碼作為相關聲場處理的一參考位置的一範例，特別是作為用於空間音頻處理的一感知激勵技術。

聲音場景的再現通常集中在揚聲器設置上，因為這是在私人場所的該典型再現，例如起居室和專業環境(亦即電影院)。此處，該場景與該再現幾何的該關係是靜態的，因為它伴隨著強迫該聆聽者在該正面方向上看的一二維圖像。隨後，在生產時，該聲音和該視覺對象的該空間關係被定義並固定。

在虛擬實境(VR)中，藉由允許該用戶在該場景中自由移動而明確地實現該沉浸。因此，有必要追蹤該用戶的移動並將該視覺和聽覺再現調整到該用戶的位置。通常，該用戶佩戴一頭戴式顯示器(HMD、Head-Mounted Display)和耳機。對耳機的一沉浸式體驗，該音頻必須被雙耳化。雙耳化是一種模擬人類頭部、耳朵和上部軀幹如何根據其方向和距離改變一聲源的該聲音。在文獻[1,2]中，這是通過將該信號與頭部相關轉移函數(HRTF、Head-Related Transfer Functions)對它們相對方向執行卷積運算來實現的。在文獻[3]中，雙耳化也使聲音看起來來自場景而不是來自頭部內。在文獻[4,5]中，已經成功解決的一常見情況是360°影片再現。此處，該用戶戴著一HMD或是手持一平板電腦或手機。藉由移動她/他的頭部或設備，該用戶可以向任何方向環顧四周。這是一個三自由度(3DoF、three-Degrees-Of-Freedom)場景，因為用戶有三個移動度(俯仰、偏轉、滾動)。在視覺上，這藉由將該影片投影在該用戶周圍的一球體上來實現。在文獻[6]中，音頻通常用一空間麥克風記錄，例如，靠近該攝像機的一階高保真度環繞聲(FOA、First-Order Ambisonics)。在文獻[7]中，於高保真度環繞聲領域，該用戶的頭部旋轉以一直接的方式進行調整。然後例如該音頻被呈現給放置在該用戶周圍的虛擬揚聲器。這些虛擬揚聲器信號接著被雙耳化。

現代VR應用程式允許六個自由度(6DoF、six-Degrees-Of-Freedom)。除了該頭部旋轉之外，該用戶可以四處移動，從而在三個空間維度上平移她/他的位置。該6DoF再現受到該步行區域的該整體尺寸的限制。在許多情況下，該區域相當小，例如一傳統的起居室。在VR遊戲中經常遇到6DoF。這裡，該整個場景是由計算機生成的圖像(CGI、Computer-Generated Imagery)合成的。該音頻通常使用對象基礎的渲染而被生成，其中每個音頻對象係與距離相關的增益和基於該追蹤資料的來自該用戶的相對方向而被渲染。在文獻[8,9,10]中，經由人工混響(artificial reverberation)和衍射，可以增強真實性。

關於錄製的內容，對於令人信服的視聽6DoF再現係存在一些明顯的挑戰。於文獻[11,12]中，在該空間平移領域中空間聲音操縱的一早期例子是「聲學變焦」技術。此處，該聆聽者位置被虛擬地移動到該記錄的視覺場景中，類似於放大一圖像。該用戶選擇一個方向或圖像部分，然後可以從一平移點收聽。這必需要所有該到達方向(DoAs、Direction of Arrivals)係相對於原始的非縮放再現而改變。

用於記錄內容的6DoF再現的方法係已經被提出，該記錄內容的6DoF再現已經使用空間分佈記錄位置。於文獻[13]中，對於影片，相機陣列可以被使用來生成光場渲染(light-field rendering)。對於音頻，一類似的設置採用分佈式麥克風陣列或高保真度環繞聲麥克風。於文獻[14]中，其已經表明，從這種記錄可以生成放置在任意位置的一「虛擬麥克風」的該信號。

為了以一技術上方便的方式實現這種空間聲音修改，可以採用參數聲音處理或編碼技術(參見文獻[15]的概述)。於文獻[16]中，定向音頻編碼(DirAC、Directional Audio Coding)是一種受歡迎的方法，用於將該記錄轉換為一表示，該表示係由該聲音方向和擴散性的一音頻頻譜和參數輔助資訊所組成。它用於文獻[11]中的聲學變焦[11]和文獻[14]中的虛擬麥克風的應用。

這裡提出的方法能夠藉由一單個FOA(First-Order Ambisonics)麥克風的該記錄來實現6DoF再現。來自一單個空間位置的記錄已被用於3DoF再現或聲學變焦。但是，就發明人所知，到目前為止還沒有提出用於從這種資料進行交互式、完全6DoF再現的方法。經由整合關於在該記錄中該聲源的該距離的資訊，其可以實現6DoF再現。該距離資訊被合併到DirAC的該參數表示中，使得該聆聽者的該改變視角係被正確映射。對於使用一聽力測試的評估而言，在文獻[17] 中附有隱藏式參考及錨定之多重刺激(MUSHRA)範例係適用於虛擬實境(VR、Virtual Reality)。經由使用CGI和合成生成的聲音，其可以創建一對象基礎參考以進行比較。一虛擬FOA記錄發生在該用戶的該追蹤位置，而呈現該6DoF調整的信號。除了所提出的方法之外，沒有距離資訊和轉移的該再現係被呈現為該收聽測試中的條件。

沒有任何該高保真度環繞聲聲場表示(無論是常規FOA或HOA高保真度環繞聲還是DirAC風格的參數聲場表示)能提供足夠的資訊，以允許6DoF應用程式所需的該聆聽者位置的一平移，因為在該聲音場景中的物件距離和絕對物件位置都不是以這些格式決定的。應該注意的是，該聆聽者位置的該移動可以轉移為該聲音場景在該相反方向上的一等效移位。

當在6DoF中移動時的一典型問題如圖1b所示。讓我們假設使用高保真度環繞聲在位置A處描述該聲音場景。在這種情況下，來自來源A和來源B的聲音從相同方向到達，即它們具有相同的到達方向(DOA、Direction-Of-Arrival)。如果一個人移動到位置B處，來源A和來源B的該DOA是不同的。使用該聲場的一標準高保真度環繞聲描述，即沒有附加資訊，在給定位置A處的高保真度環繞聲信號時，其係不可能計算在位置B處的高保真度環繞聲信號。

本揭露的一個目的是一方面提供一增強聲場描述或另一方面提供一改進的聲場描述的一生成，其允許一改進的、或靈活的、或有效的處理。

該目的經由申請專利範圍第1項的用於生成一增強聲場描述的一裝置、申請專利範圍第10項的用於生成一修改聲場描述的一裝置、申請專利範圍第27項的生成一增強聲場描述的一方法，申請專利範圍第28項的生成一修改聲場描述的一方法，申請專利範圍第29項的一計算機程式或申請專利範圍第30項的一增強聲場描述來實現。

本揭露基於以下發現：與一參考位置相關的典型聲場描述需要附加資訊，以便這些聲場描述可以被處理，使得與該原始參考位置無關但是與另一個參考位置的一修改聲場描述可以被計算。至此，與該聲場的空間資訊有關的後設資料(metadata)被生成，並且該後設資料與該聲場描述一起對應於該增強聲場描述，其可以例如發送或存儲的。為了從該聲場描述和該後設資料生成一修改聲場描述，具體地，該後設資料與該聲場描述的空間資訊有關，使用該空間資訊、該聲場描述以及指示從一參考位置到一不同參考位置的一平移的一平移資訊，該修改聲場描述被計算。因此，由一聲場描述和與該聲場描述下的該聲場的空間資訊相關的後設資料所組成的該增強聲場描述，其係被處理，以獲得一修改聲場描述，該修改聲場描述係與由附加平移資訊定義的一不同參考位置相關，例如，其可以在解碼器側被提供或被使用。

然而，本揭露不僅涉及一編碼器/解碼器場景，但也可以被應用於一應用程式中，其中包含基本上在同一個位置發生的該增強聲場描述的該生成和該修改聲場描述的該生成。例如，該修改聲場描述可以是該修改聲場本身的一描述，或者實際上是在聲道信號中、雙耳信號的該修改聲場，或者再次是一參考位置相關聲場，然而現在是相關到該新的或不同的參考位置而不是該原始的參考位置。例如，這樣的一應用將處在於一虛擬實境場景中，其中存在一聲場描述以及一後設資料，並且其中一聆聽者從給出該聲場的該參考位置移出並移動到不同的參考位置，並且其中，接著，在該虛擬區域中移動的該聆聽者的該聲場被計算，以對應於該聲場，但現在係在用戶移動到的該不同參考位置處。

在一較佳實施例中，該聲場生成器生成該聲場的一DirAC描述，該聲場具有一個或多個降混信號和個別的方向資料以及對不同時間頻率區間的可選擇的擴散資料。在此上下文中，該後設資料生成器被配置為生成對不同時間頻率區間的附加個別距離或深度資訊以作為該後設資料。特別地，並且在一較佳實施例中，與空間資訊有關的該後設資將是一深度圖，其將一確定的距離與諸如一到達方向資訊之類的一確定的位置資訊相關聯。

在實施例中，該到達方向僅由高度或僅由方位角或兩個角度給出，並且該深度圖接著對每個位置資訊或到達方向資訊(DoA資訊、Direction of Arrival information)關聯到一確定的距離資訊，例如以米為單位的一距離或一相對距離或一量化的絕對或相對距離或任何其他距離資訊，最後，可以從中導出與該聲場相關的該參考位置的一距離。

隨後，概略描述了其他較佳實施方式。

高保真度環繞聲已成為虛擬、增強和混合現實應用環境中針對3D音頻最常用的格式之一。已經開發的各種各樣的音頻擷取和生產工具，它們係以高保真度環繞聲格式以生成一輸出信號。為了在交互式虛擬實境(VR)應用中呈現高保真度環繞聲編碼內容，該高保真度環繞聲格式係被轉換為用於再現的一雙耳信號或通道。在該上述應用中，該聆聽者通常能夠以交互方式改變在所呈現場景中他/她的方向至該程度，使得他/她能夠在該聲音場景中旋轉他/她的頭部，從而實現三個自由度(3DoF，即，俯仰、偏轉角及滾動)並且仍然可以體驗到一合適的音質。這是根據該頭部方向經由在渲染之前旋轉該聲音場景所實現，這可以以低計算複雜度而被實現並且是高保真度環繞聲表示的一優點。然而，在諸如VR的新興應用中，其期望允許該用戶在該聲音場景中自由移動而不僅僅是方向的改變(所謂的「六個自由度」或6DoF)。其結果係為，需要信號處理來改變該聲音場景的該角度(即，沿著x軸、y軸或z軸在該聲音場景內虛擬地移動)。然而，高保真度環繞聲的一個主要缺點是該格式從該聲場中的一單個角度描述了該聲場。具體來說，它不包含該聲音場景中聲源的該實際位置的資訊，其將允許移動該聲音場景(「平移」)，因為它是6DoF所需的。本揭露的描述提供了高保真度環繞聲的幾個擴展，以克服該問題並且還促進該平移，並因此實現真正的6DoF。

一階高保真度環繞聲(FOA)錄音可以藉由耳機而被處理和再現。它們可以被旋轉以考慮該聆聽者頭部方向。然而，虛擬實境(VR)系統允許該聆聽者以六個自由度(6DoF)移動，即三個旋轉自由度加三個過渡自由度。此處，該聲源的該視角和距離係取決於該聆聽者的位置。一種技術以促進6DoF係被描述。特別地，一FOA記錄係被使用一參數模型來描述，該參數模型係基於該聆聽者的位置和關於到該來源的該距離的資訊來修改。該方法藉由一聽力測試來評估，比較該聆聽者可以自由移動的一合成聲音場景的不同雙耳渲染。

在進一步較佳的實施例中，該增強聲場描述由一輸出界面輸出，用於生成用於傳輸或存儲的一輸出信號，對一時間框架內，其中該輸出信號包括在該時間框架內從該聲場和該空間資訊所導出的一個或多個音頻信號。特別地，該聲場發生器在進一步的實施例中適於從該聲場導出方向資料，該方向資料指的是在一時間區段或一頻率區間內聲音的一到達方向，並且後設資料生成器被配置為導出該空間資訊，作為將一距離資訊與該方向資料相關聯的資料項目。

特別地，在這樣的一實施例中，一輸出界面被配置為生成該輸出信號，使得該時間幀的資料項目係被鏈結到該不同頻率區間內的該方向資料。

在一另一實施例中，該聲場生成器還被配置為生成該聲場的一時間幀的多個頻率區間內的一擴散資訊，其中，該後設資料生成器被配置為僅生成用於與一預定值不同的或者與無窮大不同的一頻率區間內的一距離資訊，或者當該擴散低於一預定或自適應閾值時，它生成該頻率區間內的一距離值。因此，對於具有一高擴散的時間/頻率區間，任何距離值一點也不被生成，或者生成由一解碼器以一某種方式解釋的一預定距離值。因此，確保對於具有一高擴散的時間/頻率區間，任何與距離相關的渲染係不被執行，因為一高擴散表示對於這樣的時間/頻區間，聲音不是來自一確定的局部的來源，但來自任何方向，因此，無論該聲場是在該原始參考位置還是在不同的或新的參考位置處，其被感知都是相同的。

關於聲場計算器，較佳實施例包括一平移界面，其用於提供該平移資訊的或指示一預期聆聽者對該修改聲場的一旋轉的旋轉資訊，用於將該後設資料提供給該聲場計算器的一後設資料提供器和用於將該聲場描述提供給該聲場計算器的一聲場供應器，以及附加的用於輸出包括該修改聲場描述和修改後設資料的該修改聲場的一輸出界面，該修改後設資料使用該平移資訊從該後設資料被導出，或該輸出界面輸出多個揚聲器通道，每個揚聲器通道與一預定義的揚聲器位置相關，或者該輸出界面輸出該修改聲場的一雙耳表示。

在一個實施例中，該聲場描述包括多個聲場分量。多個聲場分量包括一全向分量和至少一個方向分量。這樣的聲場描述例如是具有一全向分量和三個方向分量X、Y、Z的一階高保真度環繞聲聲場描述，或者這樣的一聲場是一個高階高保真度環繞聲描述，其包括該全向分量、相對於X、Y和Z方向的三個方向分量、以及另外的與X、Y、Z方向之外的其他方向相關的方向分量。

在一個實施例中，該裝置包括一分析器，用於分析該聲場分量，以針對不同的時間或頻率區間導出到達方向(DoA、direction of arrival)資訊。該裝置還具有一平移變換器，用於使用該DoA資訊和該後設資料以計算每個頻率或時間區間的修改DoA資訊，其中該後設資料涉及一深度圖，其對一時間或頻率區間內將一距離與一DoA資訊相關聯。

此外，該聲場計算器具有一距離補償器，用於使用一距離補償資訊計算該修改聲場，該距離補償資訊取決於針對該頻率或時間區間的該深度圖所提供的該距離、以及與時間或頻率區間內相關聯的一新距離，該新距離與該修改DoA資訊相關。

在一個實施例中，該聲場計算器計算從該參考位置指向藉由該聲場分析所獲得的一聲源的一第一向量。此外，該聲場計算器計算從該不同參考位置指向該聲源的一第二向量，並且此計算係使用該第一向量和該平移資訊所完成，其中該平移資訊定義從該參考位置到該不同參考位置的一平移向量。並且然後，使用該第二向量來計算從該不同參考位置到該聲源的一距離。

此外，該聲場計算器被配置為除了該平移資訊之外還接收一旋轉資訊，該旋轉資訊指示該聆聽者的頭部在由俯仰、偏轉和滾動所給出的該三個旋轉方向之一的一旋轉。該聲場計算器接著被配置為執行該旋轉變換，以使用該旋轉資訊俾旋轉針對一聲場的一修改的到達方向資料，其中，從藉由該聲場描述和該平移資訊的一聲音分析所獲得的一到達方向資料，該修改的到達方向資料被導出。

在一個實施例中，該聲場計算器被配置為藉由一聲音分析來決定來自該聲場描述的來源信號、以及與該參考位置相關的該來源信號的方向。

接著，計算與該不同參考位置相關的該聲源的新方向，並且此計算係使用該後設資料來完成，並且接著與該不同參考位置相關的該聲源的距離資訊被計算，接著使用該距離資訊和該聲源的該新方向來合成該修改聲場。

在一個實施例中，藉由將該聲源信號平移到由關於一重放設置的該新方向資訊所給出的一方向來執行一聲場合成，並且在執行該平移操作之前或執行該平移操作之後，使用該距離資訊完成該聲源信號的一縮放。

在一另一實施例中，該聲源信號的一擴散部分被添加到該聲源信號的一直接部分，該直接部分在被添加到該擴散部分之前，藉由該距離資訊來修改該直接部分。

特別地，執行該聲源合成較佳地以一頻譜表示，其中針對每個頻率區間來計算該新的方向資訊，其中針對每個頻率區間來計算該距離資訊，並且其中使用該頻率區間的該音頻信號對每個頻率區間的一直接合成是使用該頻率區間的一音頻信號來執行的，從該新方向資訊導出的針對該頻率區間的一平移增益和從該頻率區間的該距離資訊所導出的針對該頻率區間的一縮放因子係被執行。

此外，使用從來自該頻率區間的該音頻信號所導出的一擴散音頻信號以及使用由針對該頻率區間的該信號分析所導出的一擴散參數來執行一擴散合成，並且接著針對該時間或頻率區間，該直接信號和該擴散信號被組合以獲得一合成音頻信號，並且接著針對其他時間/頻率區間，使用音頻信號，執行一頻率-時間轉換，以獲得一時域合成音頻信號，俾作為該修改聲場。

因此，通常，該聲場計算器被配置為針對每個聲源合成與該不同參考位置相關的一聲場，例如，針對每個來源，使用該來源信號的該新方向來處理一來源信號，以獲得與該不同/新參考位置相關的該來源信號的一聲場描述。此外，在處理該來源信號之前或在使用該方向資訊處理該來源信號之後，該來源信號被修改。並且，最後，將該來源的該聲場描述被相加在一起以獲得與該不同參考位置相關的該修改聲場。

在一另一實施例中，該聲場計算器可替代一DirAC分析或任何其他聲源分析，執行一來源分離算法。該來源分離算法最終產生聲源信號，例如，在時域或頻域中。然後藉由從該原始聲場中減去該聲源信號來計算一擴散信號，使得該原始聲場被分解成一擴散信號和幾個聲源信號，其中每個聲源信號與一某種方向相關聯。

本揭露的較佳實施例係隨後參照附圖描述。

依據本揭露之一特色，本揭露提出一種用於生成一增強聲場描述的裝置，其包含：一聲場生成器、及一後設資料生成器。該聲場生成器用於生成至少一個聲場描述，該聲場描述指示相對於至少一個參考位置的一聲場。該後設資料生成器用於生成與該聲場的空間資訊有關的後設資料。其中，該至少一個聲場描述和該後設資料構成該增強聲場描述。

依據本揭露之另一特色，本揭露提出一種根據一聲場描述以及與該聲場描述的空間資訊有關的後設資料生成一修改聲場描述的一裝置，包括一聲場計算器。該聲場計算器用於使用該空間資訊、該聲場描述和指示從一參考位置到一不同參考位置的一平移的一平移資訊來計算該修改的聲場。

依據本揭露之又一特色，本揭露提出一種生成增強聲場描述的方法，包括：生成至少一個聲場描述，該聲場描述指示關於至少一個參考位置的一聲場；以及生成與該聲場的空間資訊有關的後設資料；其中，該至少一個聲場描述和該後設資料構成該增強聲場描述。

依據本揭露之再一特色，本揭露提出一種從一聲場描述和與該聲場描述的空間資訊有關的後設資料生成一修改聲場描述的方法，該方法包括：使用該空間資訊、該聲場描述和指示從一參考位置到一不同參考位置的一平移的一平移資訊來計算該修改聲場。

依據本揭露之更一特色，本揭露提一種計算機程式，當其用於一計算機或處理器上運行時，執行前述的方法。

依據本揭露之再一特色，本揭露提出一種增強的聲場描述，包括至少一個聲場描述及後設資料，該至少一個聲場描述指示關於至少一個參考位置的一聲場，該後設資料與該聲場的空間資訊有關。

本揭露主題的各種目的、特徵、面向和優點將從以下對優選實施例的詳細描述以及附圖中變得更加明顯，附圖中相同的附圖標記表示相同的部件。

所示實施例在附圖中以例子，而非限制的方式顯示，其中相同的參考標號表示相似的元件。

100‧‧‧聲場(描述)生成器

110‧‧‧後設資料生成器

120‧‧‧組合器

120‧‧‧輸出界面

200‧‧‧真實或虛擬麥克風

210‧‧‧聲場分析器

302、304、306‧‧‧時間幀

310、312‧‧‧輔助資訊

314‧‧‧到達方向資訊

316‧‧‧擴散值

320‧‧‧深度圖

322‧‧‧DoA資訊

324‧‧‧距離值

320a‧‧‧深度圖

320b‧‧‧另一深度圖

326‧‧‧音頻信號表示

420‧‧‧聲場計算器

400‧‧‧輸入界面

410‧‧‧平移界面

402‧‧‧後設資料提供器

404‧‧‧聲場提供器

In₂‧‧‧信號

421‧‧‧時間-頻率轉換器

422‧‧‧DirAC分析器

423‧‧‧平移變換器、區塊

424‧‧‧旋轉變換

425‧‧‧DirAC合成器區塊、DirAC合成器

426‧‧‧區塊、頻率-時間轉換

427‧‧‧區塊、雙耳渲染器

430‧‧‧高保真度環繞聲(Ambisonics)信號發生器

510‧‧‧聲源的位置

520‧‧‧麥克風

500‧‧‧聆聽者位置

422‧‧‧DirAC編碼器

320‧‧‧距離圖

1100、1110、1130、1140‧‧‧區塊

1120‧‧‧深度圖

1102、1104、1106、1108‧‧‧區塊

1200、1210、1220、1230、1240、1250、1260‧‧‧區塊

1270a、1270b、1270c‧‧‧區塊

1310‧‧‧一組帶通濾波器

1320‧‧‧能量分析器

1330‧‧‧強度分析器

1340‧‧‧時間平均區塊

1350‧‧‧擴散度計算器

1360‧‧‧方向計算器

1370‧‧‧一組帶通濾波器

1400‧‧‧虛擬麥克風區塊

1450‧‧‧直接/擴散合成器塊

1460‧‧‧確定的揚聲器設置或虛擬預期揚聲器設置

1380‧‧‧擴散-增益變換器

1390‧‧‧基於向量的振幅平移增益表區塊

1420‧‧‧麥克風補償區塊

1430‧‧‧揚聲器增益平均區塊

1440‧‧‧分配器

圖1a係用於生成一增強聲場描述的一裝置的一較佳實施例。

圖1b係說明本揭露的一示例性問題的一圖式。

圖2係用於生成一增強聲場描述的該裝置的一較佳實施方式。

圖3a係顯示包括音頻資料和音頻資料的輔助資訊的該增強聲場描述。

圖3b係顯示一增強聲場的一進一步說明，該增強聲場包括與空間資訊(例如一深度圖)有關的音頻資料和後設資料。

圖3c係顯示用於將該後設資料與該聲場描述相關聯的一其他格式。

圖3d係顯示用於將後設資料與該聲場描述相關聯的一另一格式。

圖4a係顯示生成一修改聲場描述的一裝置的一實現。

圖4b係顯示生成一修改聲場描述的一裝置的一另一實現。

圖4c係顯示生成一修改聲場描述的一裝置的一另一實施例。

圖4d係顯示用於從諸如單一信號和到達資料方向的一音頻信號生成一聲場描述的一示例性設備。

圖5係顯示空間音頻的該六個DoF再現。

圖6係顯示一第六DoF再現的一較佳實施例，其包括用於生成一增強聲場描述的一裝置和用於生成一修改聲場描述的一裝置。

圖7係顯示一虛擬實境場景表示。

圖8係顯示虛擬實境(VR)中的一MUSHRA面板。

圖9說明為箱形圖的MUSHRA級別。

圖10係顯示用於參考渲染和DirAC的該信號路徑。

圖11a係顯示用於生成一修改聲場描述的該裝置的一較佳實施方式。

圖11b係顯示用於計算相對於一新的/不同的參考位置的一聲源的一新的DoA和一新距離的一較佳實施方式。

圖12係顯示用於生成一修改聲場描述的一裝置的一另一較佳實施方式。

圖13a係顯示一現有技術的DirAC分析實現。

圖13b係顯示一現有技術的DirAC合成實現。

針對上述高保真度環繞聲/定向音頻編碼(Ambisonics/DirAC、Ambisonics/Directional Audio Coding)表示以致能六個自由度(6DoF、six-Degrees-Of-Freedom)應用程式，其有必要以一方式擴展這些表示，以提供平移處理所缺失的資訊。應注意的是，該擴展可以例如是1)將該對象的該距離或位置添加到該現有場景表示，和/或2)添加能促進各個對象分離的該過程的資訊。

此外，實施例的一目的是保留/重新使用現有(非參數或參數)高保真度環繞聲系統的該結構，以在這種意義上提供與這些表示/系統的向後兼容性：●該擴展表示可以轉換為現有的非擴展表示(例如，針對渲染)；以及●允許在使用該擴展表示時，重新使用現有的軟體和硬體實現。

在下文中，幾種方法將被描述，即一種有限(但非常簡單) 的方法和三種不同的擴展的高保真度環繞聲格式，以實現6DoF。

如在現有技術部分中所描述的，傳統DirAC攜帶一參數輔助資訊，其表徵每個時間頻率(TF、Time Frequency)區間的方向和擴散。該現有DirAC格式的一擴展附加地為每個或幾個但不是所有TF區間提供一深度資訊。與該方向資訊類似，與該深度資訊的該相關性取決於與實際的擴散。高度擴散意味著方向和深度都不相關(並且實際上可以省略非常高的擴散值)。

應該注意的是，該深度擴展的DirAC不提供完整的6DoF解決方案，因為它只能攜帶每個TF區間的一個對象的該方向和深度資訊。

應當注意，該深度資訊可以從該音頻信號或從該影片信號(例如，在立體(3D)成像/影片或光場技術中常用的一深度圖)去估計，或者當該聲場由具有局部聲源的一聲音合成所生成時，可以手動或自動地添加。

圖1a係顯示用於生成一增強聲場描述的一裝置，其包括一聲場(描述)生成器100，用於生成指示關於至少一個參考位置的一聲場的至少一個聲場描述。此外，該裝置包括一後設資料生成器110，用於生成與該聲場的空間資訊有關的後設資料。該後設資料接收該聲場作為一輸入，或者替代地或另外地，接收關於聲源的分離資訊。

該聲場描述生成器100和該後設資料生成器110的輸出構成了該增強聲場描述。在一個實施例中，該聲場描述生成器100和該後設資料生成器110的該輸出都可以在一組合器120或輸出界面120內被組合，以獲得該增強聲場描述，其包括由該後設資料生成器110生成的該空間後設資料或該聲場的空間資訊。

例如，該位置A是該至少一個參考位置，並且一聲場係由來源A和來源B所生成，並且位於位置A的例如一某種實際或虛擬麥克風檢測來自來源A和來源B的聲音。該聲音是來自該發射聲源的該聲音的一疊加。這表示該聲場描述係由該聲場描述生成器所生成的。

另外，藉由某種實現，該後設資料生成器將導出關於來源A的一空間資訊和關於來源B的另一空間資訊，諸如這些來源到該參考位置的距離，諸如位置A。

理所當然地，該實際或虛擬麥克風將被放置在位置B，並且該聲場描述將是一聲場，例如，由一階高保真度環繞聲分量、或更高階的高保真度環繞聲分量、或任何其他聲音分量所表示的，其具有該潛力以描述關於至少一個參考位置(即位置B)的一聲場。

接著，該後設資料生成器可以生成關於該聲源的該資訊，來源A到位置B的該距離或者來源B到位置B的該距離。當然，關於聲源的另外資訊可以是相對於一參考位置的該絕對或相對位置。該參考位置可以是一個一般坐標系統的該原點，或者可以位在與一個一般坐標系統的該原點有一個定義關係的位置處。

其他後設資料可以是一個聲源的該絕對位置和相對於該第一聲源的另一個聲源的該相對位置等等。

圖2係顯示該聲場描述生成器的一較佳實施方式。該聲場描述生成器例如可以包括真實或虛擬麥克風200，其從一輸入聲場生成諸如圖2中所示的一個一階高保真度環繞聲表示的聲場分量，其作為一全向分量w、以及三個方向分量x、y、z。

基於此聲場描述，例如，一聲場分析器210可以另外包括一降混器，其將生成由一單聲道或立體聲降混以及附加參數，該附加參數係為諸如到達方向DoA參數，例如，每個時間幀或頻率區間，或者通常是時間/頻率區間，以及另外地，針對相同或更少數量的時間/頻率區間的擴散資訊。

此外，例如該後設資料生成器110將被實現為一深度圖生成器，其生成一深度圖，該深度圖以絕對或相對項目將每個到達方向或DoA資訊與一確定的距離相關聯。此外，在一較佳實施例中，該後設資料生成器110係被一時間/頻率區間的該擴散參數所控制。在該實現中，該後設資料生成器110將被實現為，針對具有一擴散值高於一確定的預定或自適應閾值的一時間/頻率區間，不生成任何距離資訊。這是因為當一確定的時間或頻率區間顯示出一高擴散時，接著人們可以得出這樣的結論：在這個時間或頻率區間中，不存在任何局部聲源，但只存在來自各個方向的擴散聲音。因此，對於頻率區間的一時間，該後設資料生成器將在該深度圖內生成如圖2中的“NA”所指示的，其不是數值，或者另外地，該後設資料生成器將引入具有一預定值的一距離值，如高、無限或任何其他值的一代碼，其將被一解碼器確認為指示對一時間/頻率區間的一非本地化聲源的一值。

接著，該深度圖、和由該聲場分析器210所生成對應於一單聲道/立體聲道降混合表示的該聲場描述、以及與該參考位置相關的空間參數，接著在該組合器120內被組合，以生成該增強聲場描述。

圖3a係顯示包括該增強聲場描述的一位元流或通用資料流的一範例。該資料流將包括時間幀i、i+1等，如參考編號302、304、306所示，以及相應時間幀的相關輔助資訊，如區塊310、312所示。在該實施例中，該輔助資訊將包括如在314所示的每時間/頻率區間的一到達方向資訊，並且可選地，如由項目316所示，每時間/頻率區間的擴散值，並且另外，對於幀i，一深度圖320。一示例性深度圖還在圖3a中以項目322和324的指示被顯示出來。例如，項目322係顯示不同的DoA資訊在方位方向上於0°和350°之間延伸，具有10°的一示例性增量。另外，項目324係顯示與一特定DoA值相關聯的一對應距離值。對於每個高度增量，其將生成這樣的一深度圖，最終使得一深度圖將方位角和仰角的每個組合(即，每個DoA資訊)與一確定的距離值相關聯。

理所當然地，用於生成和發送該深度圖的其他可能更有效的方式可以被執行，其中通常，對於具有一擴散值低於一特定閾值的一特定時間幀的一頻率區間中所發生的每個DoA值，一距離會存在。

圖3b係顯示另一種實現方式，其中圖2中的該聲場分析器210實際上不生成一降混，而是針對一確定的時間期間生成B格式、A格式或任何其他諸如高階表示的一完整表示。接著，一深度圖320a和另一深度圖320b將與圖3b中的326處指示的該音頻信號表示相關聯。例如，當B格式或更高階表示所關聯的該時間段包括幾個個別的時間段時，並且當在這些時間段內發生該來源的該位置的一改變時，則針對一第一時間段i的一深度圖320a和針對時間段i+1的在項目320b處指示的另一深度圖將與該音頻信號表示326相關聯。如所概述的，圖3b中的該音頻信號表示與圖3a中的該表示不同，因為圖3a僅具有降混或w分量的表示，並且另外還具有不同時間幀中的一表示，其中圖3b具有一全方向分量表示的另一音頻信號表示，其具有三個或更多個方向分量，並且不分成個別的時間幀，但是與給定的項目326的該時間段相比，其針對較小時間增量而相關聯深度圖。儘管在圖3b中作為一順序格式而圖式說明，但應注意，一並行格式、或併行和串行之間的一混合、或一確定的其他格式(例如MP4容器格式)可以被使用。

圖3c和3d係顯示用於以一B格式或一高階表示的該形式將該後設資料與該聲場描述相關聯的其他格式。索引i、i+1代表時間，索引(1)、(2)、(Ni)代表方向。

圖4a係顯示用於根據一聲場描述以及與該聲場描述的空間資訊有關的後設資料生成一修改聲場描述的一裝置的一較佳實施方式。特別地，該裝置包括一聲場計算器420，其使用後設資料、該聲場描述、以及平移資訊以生成該修改的聲場，該平移資訊係指示從一參考位置到一不同參考位置的一平移。

舉例而言，當相對於圖1b中的位置A給出該聲場時，接著該不同的參考位置可以是位置B，並且平移資訊例如將是指示位置A到位置B的該平移的一向量。接著，該聲場計算器420將計算該修改聲場，就好像它將被位於位置B處的一聆聽者所感知，並且針對該計算，該聲場計算器具有與位置A有關的該聲場描述和該平移資訊，並且另外地具有關於來源A和來源B的該空間位置的該後設資料。

在一個實施例中，該聲場計算器420連接到一輸入界面400，用於接收該增強的聲場描述，例如，參考圖1a或2討論，接著該輸入界面400一方面分離該聲場描述，亦即由圖1a的區塊100或圖2的區塊210所生成的。此外，該輸入界面400將該後設資料從該增強聲場描述分離，亦即圖3a的項310、312或圖3b的320a、320b。

此外，一平移界面410從一聆聽者獲得該平移資訊和/或附加或分離的旋轉資訊。該平移界面410的一實現可以是一頭部追蹤單元，其不僅追蹤一虛擬實境環境中的一頭部的該旋轉，而且還追蹤該頭部從一個位置(即，圖1b中的位置A)到另一個位置(即圖1b中的位置 B)的一平移。

圖4b係顯示與圖1a類似的另一種實現方式，但與一編碼器/解碼器方案無關，但與一般場景有關，其中該後設資料供應係由一後設資料提供器402所指示，由一聲場提供器404指示的該聲場供應在沒有一特定輸入界面的情況下完成，其分隔一編碼或增強聲場描述的，但舉例而言，在一虛擬實境應用中存在的一實際場景中全部完成。然而，本揭露不限於虛擬實境應用，而是還可以在任何其他應用中實現，其中與一參考位置相關的聲場的該空間音頻處理是有用的，以將與一第一參考位置相關的一聲場轉換至與一不同的第二參考位置相關的另一聲場。

該聲場計算器420接著生成該修改聲場描述、或者生成一(虛擬)揚聲器表示、或者生成諸如用於一耳機再現的一雙聲道表示之一雙耳表示。因此，該聲場計算器420可以生成一修改聲場描述，以作為該修改聲場，其基本上與該原始聲場描述相同，但是現在係相對於一新的參考位置。在一替代實施例中，可以為諸如5.1方案的一預定揚聲器設置或具有更多揚聲器的一揚聲器設置生成一虛擬或實際揚聲器表示，並且特別地，具有揚聲器的一三維佈置而不是僅一二維佈置，亦即一揚聲器裝置，其揚聲器相對於該用戶位置而升高。對虛擬實境應用特別有用的其他應用係用於雙耳再現的應用，即用於可應用於該虛擬實境用戶頭部的一耳機。

圖4c係顯示在該DirAC分析/合成的該背景下本揭露的一較佳實施方案。至此，實際麥克風實際擷取的、或者最初由虛擬麥克風生成、或者先前合成並且現在在虛擬實境應用、或任何其他應用中的一聲場描述被輸入到一時間-頻率轉換器421。

接著，一DirAC分析器422被配置為針對每個時間/頻率區間生成一到達方向資料項目和一擴散資料項目。

使用諸如由一深度圖給出的該空間聲場資訊，例如，該區塊423執行一平移變換，並且可選地，執行一音量縮放資訊，一新的到達方向值被計算。較佳地，也執行一旋轉變換424，當然，一方面與平移資訊有關的追蹤資訊、另一方面旋轉資訊，在區塊423到424中被使用，以生成新的到達方向資料，俾輸入到一DirAC合成器區塊425。接著，另外，在區塊423中還生成一縮放資訊，該縮放資訊取決於該聲源與由該追蹤資訊指示的該新參考位置之間的該新距離，其並且在DirAC合成器425內被使用，最終，針對每一時間/頻率區間執行一DirAC合成。接著，在區塊426中，較佳地，相對於一確定的預定的虛擬揚聲器設置執行一頻率/時間轉換，接著，在區塊427中，執行一雙耳耳機表示的雙耳渲染。

在一另一實施例中，該DirAC合成器直接在該TF域(Time Frequency domain)中提供該雙耳信號。

取決於該DirAC分析器的該實現，當然，取決於該DirAC合成器425的該實現，在區塊421的輸入處或在區塊421的輸出處的該原始聲場可以被轉發到該DirAC合成器425，或者，由該DirAC分析器422生成的一降混信號被轉發到該DirAC合成器。

示例性地，隨後描述的圖6係顯示一種情況，其中一DirAC合成器僅在諸如全向或壓力分量的一降混合分量上操作，而在關於圖13b所示的一另一替代實施例中，該DirAC合成器在整個聲場資料上操作，即在圖13b中的該實施例中，該完整分量表示係具有全向分量w和三個方向分量x、y、z的一字段描述。

圖4d係顯示用於執行與該DirAC合成器不同的一合成的另一實現。例如，當一聲場分析器為每個來源信號生成一分離的單聲道信號S和一原始到達方向時，並且當根據平移資訊，計算一新的到達方向時，則例如圖4d的該高保真度環繞聲信號發生器430將被用於生成針對該聲源信號的一聲場描述，即該單聲道信號S，但是針對該新的到達方向(DoA)資料，其由一水平角度θ或一仰角θ和一方位角φ所組成。接著，由圖4b的該聲場計算器420執行的一程序將生成例如一個一階高保真度環繞聲聲場表示，其針對具有該新的到達方向的每個聲源，並且然後，可以使用一縮放因子來執行每個聲源的一進一步修改，該縮放因子取決於該聲場到該新參考位置的該距離，接著，來自各別來源的所有聲場可以再一次例如在一高保真度環繞聲表示被相關至一確定的新參考位置相互疊加以最終獲得該修改聲場，。

當人們解釋由該DirAC分析器422處理的每個時間/頻率區間係表示一確定的(頻寬受限)聲源時，則該高保真度環繞聲信號發生器430可以被使用，以取代該DirAC合成器425，來為每個時間/頻率區間生成一完整的高保真度環繞聲表示，其使用該降混信號或壓力信號或該時間/頻率區間的全向分量，以作為圖4d的該「單聲道信號S」。接著，針對W、X、Y、Z分量中的每一個，頻率-時間轉換器426中的一單獨頻率-時間轉換將導致不同於圖4c中所示的一聲場描述。

以下概略描述了進一步的實施方案。該目標是在給定該原始記錄位置處的一信號以及聲源的該距記錄位置的該有關距離的資訊的情況下，在該聆聽者的位置處獲得一虛擬雙耳信號。該物理來源假設可以藉由朝向該記錄位置的其角度而被分離。

該場景係從該麥克風的該視點(PoV、Point of View)而被記錄，該位置用作為該參考坐標系的該原點。該場景必須從該聆聽者的該視點(PoV)中再次生成，該聆聽者在6DoF中被追蹤，參見圖5。這裡係顯示一單個聲源用於圖式說明，該關係適用於每個時間頻率區間。

圖5係顯示空間音頻的該6DoF再現。一聲源藉由一麥克風而被記錄，其具有在該距離dr的該到達方向r _r(DoA r _r)，該距離dr係相對於該麥克風位置和方向(黑線和弧線)的該。它必須相對於具有該到達方向r ₁(DoA r ₁)和距離d ₁(虛線)的該移動聆聽者而被再現。這必須考慮該聆聽者的平移l和旋轉o(點線)。

在坐標 d _r

的該聲源是從表示為單位向量 r _r= d _r/∥ d _r∥的該到達方向(DoA)所記錄的。該到達方向(DoA)可以經由分析該記錄而被估計。它來自該距離d _r=∥ d _r∥。假設可以例如使用一時差測距(Time-of-Flight)相機自動估計該資訊，以獲得以一深度圖m( r )形式的距離資訊，從該記錄位置映射每個方向r該最近聲源的該距離(以米為單位)。

該聆聽者在6DoF中被追蹤。在一給定的時間，相對於該麥克風，他位於l

的位置，並且相對於該麥克風的坐標系統具有一旋轉 o

。該記錄位置係被選為該坐標系統的原點，俾簡化符號。

因此，該聲音必須以一不同的距離d ₁再現，導致一音量改變，並且一不同的該到達方向r ₁(DoA r ₁)是平移和隨後旋轉的結果。

如以下分段所解釋，一種用於藉由基於一參數表示的專用變換從該聆聽者的角度獲得一虛擬信號的方法被概述。

所提出的該方法可參見文獻[16]，其係基於用於參數空間聲音編碼的該基本DirAC方法。假設在該分析頻譜的每個時頻實例中存在一個主要直接來源，並且這些可以獨立地處理。使用短時傅立葉變換(STFT、Short Time Fourier transform)將該記錄變換為一時頻表示。該時間幀索引用n表示，該頻率索引用k表示。該變換後的記錄接著被分析，以估計該複數頻譜P(k,n)的每個時間頻率區間的方向 r _r(k,n)和擴散率ψ(k,n)。在該合成中，該信號被分成一直接和擴散部分。此處，藉由根據該揚聲器位置而平移該直接部分並添加該擴散部分，來計算揚聲器信號。

參見圖6，根據在6DoF中的該聆聽者觀點之轉換一個一階高保真度環繞聲(FOA)信號的方法可以被分為五個步驟。

圖6係顯示一6DoF再現的方法。以B格式的該記錄FOA信號係由一DirAC編碼器處理，該編碼器計算該複數頻譜的每個時頻區間的方向和擴散值。藉由該聆聽者的追蹤位置並根據一距離圖中給所出的該距離資訊，該方向向量接著被變換。然後根據該頭部旋轉，該所得的方向向量被旋轉。最後，在該DirAC解碼器中，用於8+4個虛擬揚聲器聲道的信號被合成。接著它們將被雙耳化。

在該實施例中，該輸入信號係在該DirAC編碼器422中被分析，該距離資訊係從該距離圖m( r )中被添加，接著該聆聽者追蹤的平移和旋轉係在該新穎變換423和424中被應用。該DirAC解碼器425合成用於8+4個虛擬揚聲器的信號，其另外被雙耳化427以用於耳機回放。須注意的是，由於在該平移之後該聲音場景的該旋轉是一獨立操作，所以它可以另外地應用在該雙耳渲染器中。為6DoF所轉換的該唯一參數是該方向向量。藉由模型定義，該擴散部分係被假設為等向性和均勻的，因此保持不變。

該DirAC編碼器的輸入是B格式表示的一FOA聲音信號。其由四個通道組成，即該全向聲壓和三個一階空間梯度，它們在確定的假設下與粒子速度成比例。參見文獻[18]，該信號以參數方式被編碼。該參數從該複數聲壓P(k,n)所導出，它是該變換的全向信號、以及對應於該變換的梯度信號的該複數粒子速度向量 U (k,n)=[U _X(k,n),U _Y(k,n)，U _Z(k,n)]^T。

該DirAC表示係由在每個時間頻率區間處的該聲波的該信號P(k,n)、該擴散ψ(k,n)和方向 r (k,n)所組成。為了得到後者，如文獻[18]所示，首先，該有效聲強向量 I _a(k,n)被計算，其係為壓力向量與該速度向量的共軛複數(由(．)*表示)的乘積的實部(由Re(．)表示)：

如文獻[18]所示，從該向量的該變異係數，估計該擴散性為：

其中E表示沿時間幀的期望運算子，實現為移動平均。

由於打算使用一方向基礎距離圖來操縱該聲音，因此該方向估計的該變異數應該較低。由於幀通常很短，但情況並非總是如此。因此，在一可選實施例中，一移動平均被應用以獲得一平滑的方向估計

。該信號的該直接部分的該DoA接著被計算，以作為相反方向的單位長度向量：

由於該方向被編碼為針對每個時間頻率區間的單位長度的一個三維向量，因此可以直接對該距離資訊進行積分。該方向向量與其對應的地圖項目相乘，使得該向量長度表示該相應聲源d_r(k,n)的該距離： d _r(k,n)= r _r(k,n)d _r(k,n)= r _r(k,n)m( r _r(k,n))， (公式4)其中d _r(k,n)是從該麥克風的該記錄位置指向在時間n和頻率區間k的有效該聲源的一向量。

該聆聽者位置由當前處理幀的該追蹤系統給出為 l (n)。參考圖10，利用來源位置的該向量表示，可以減去該追蹤位置向量 l (n)以生成具有長度d ₁(k,n)=∥ d ₁(k,n)∥的該新的平移方向向量 d ₁(k,n)。從該聆聽者的PoV到該聲源的該距離係被導出，並且該DoA在一單一步驟中被調整： d ₁(k,n)= d _r(k,n)- l (n) (公式5)

真實再現的一個重要觀點是該距離衰減。於文獻[19]中，假設該衰減是聲源和聆聽者之間該距離的一函數。該方向向量的該長度用於編碼該衰減或放大，以用於再現。到該記錄位置的該距離係根據該距離圖以 d _r (k,n)編碼，並且要再現的該距離以d ₁ (k,n)編碼。如果將該向量正規化為單位長度，接著乘以舊的及新的距離的該比率，則可以看出該所需長度可藉由將d ₁ (k,n)除以該原始向量的該長度而被給出：

該聆聽者的方向的該更改將被應用於以下步驟。該追蹤所給出的該方向可以被寫為由該俯仰、偏轉和滾動組成的向量 o (n)=[o _X(n),o _Z(n),o _Y(n)]^T，其係相對於作為該原點的該記錄位置。該來源方向根據該聆聽者方向而被旋轉，這是使用2D旋轉矩陣實現的： d _p(k,n)= R _Y(o _Y(n)) R _Z(o _Z(n)) R _X(o _X(n)) d _v(k,n)。 (公式7)

為該聆聽者所生成的該DoA，接著由被正規化為單位長度的該向量所給出：

該經變換的方向向量、該擴散和該複數頻譜係用於合成一均勻分佈的8+4虛擬揚聲器設置的信號。八個虛擬揚聲器位於該聆聽者平面(高度0°)上的45°方位角步階，並且四個位於以上45°仰角的90°交叉陣列中。於文獻[16]中，對於每個揚聲器通道i，該合成被分成一直接和擴散部分，其中1

i

I、I=12是揚聲器的該數量：Y _i(k,n)=Y _i,S(k,n)+Y _i,D(k,n)。 (公式9)

於文獻[20]中，對於該直接部分，邊緣衰落幅度平移(EFAP、Edge Fading Amplitude Panning)平移應用於從該正確方向再現該聲音，在給定該虛擬揚聲器幾何結構的情況下。給定DoA向量r _p(k,n)，這為每個虛擬揚聲器通道i提供一平移增益G_i(r)。每個DoA的該距離相關增益是從該方向向量d _p(k,n)的該結果長度所導出的。通道i的該直接合成變為：

其中指數γ是一個調整因子，於文獻[19]中通常設置為約1。注意，當γ=0時，該距離相關增益被關閉。

該壓力P(k,n)用於生成I去相關信號

。這些去相關的信號作為擴散分量被添加到該個別揚聲器通道。這遵循文獻[16]中的標準方法：

每個通道的該擴散和直接部分被加在一起，並且藉由反STFT將該信號轉換回時域。這些通道時域信號取決於揚聲器位置而與左耳和右耳的HRTF進行卷積運算，以產生雙耳信號。

為了該評估，在一虛擬起居室中的一單個場景被再現。不同的渲染條件被用於再現三個同時有效的聲源。在測試對象的幫助下，一新穎的MUSHRA-VR技術被使用來獲得該品質。

在實驗中的該虛擬環境是一室內房間，其具有與該記錄位置不同距離的三個聲源。參見圖7，在大約50厘米處有一個人類聲源(human speaker)、在1米處有一個收音機和在2米處有一個開放式窗戶。圖7係顯示一VR場景，其中該聲音來自該人、該收音機和該打開的窗口，每個來源標有一圓圈。該用戶可以在朝向該窗口的該人之周圍的該虛線矩形標記的該區域中行走。

視覺渲染係使用Unity和HTC VIVE所完成。該音頻處理是藉助虛擬工作室技術(VST、Virtual Studio Technology)插件和Max/MSP而被實現的。藉由開放聲音控制(OSC、Open Sound Control)訊息，該追蹤資料和條件被交換。該步行區約2x2米。

雖然已經建立了靜態音頻再現的評估標準，但這些標準通常不能直接應用於VR。特別是對於6DoF，評估該音頻品質的新穎方法必須被開發，因為該體驗比僅音頻評估更複雜，並且該所呈現的內容取決於每個聆聽者的該獨一運動路徑。新的方法，諸如文獻[21]中VR的尋路或文獻[22]中沉浸式體驗的生理反應正在積極研究，但傳統的經過良好測試的方法也可以適應一VR環境，以支持現今完成的開發工作。

於文獻[17]中，MUSHRA是一種廣泛採用的音頻品質評估方法，適用於從語音品質評估到多聲道空間音頻設置的各種用例。它允許將一參考與該同一音頻內容的多個渲染進行並排比較，並藉由使用一隱藏參考和錨定測試項目提供一絕對品質刻度。在此測試中，該MUSHRA方法被採用到一VR設置中，因此一些偏離推薦的實現係有必要。具體來說，這裡實現的該版本不允許循環音頻內容，該錨定項目是3DoF渲染。

在每次運行中，該不同的條件將隨機分配給該測試條件。每個參與者被要求評估每個條件的該音頻品質，並給出0到100分的分數。他們知道其中一個條件實際上與該參考相同，因此評分為100分。最糟糕的「錨定」條件是被評分為20(差)或更低；所有其他條件應被評分在兩者之間。

在VR中的MUSHRA面板如圖8所示。圖8中用於對該四個條件進行評級的該滑塊可以是彩色的，在它們下面是該數值和每個用於選擇該條件的一按鈕。該面板係被設計使得可以在任何時間對被測系統進行評級，同時在該虛擬環境中具有一不顯眼的界面。藉由按下該手持控制器上的一按鈕，在該用戶的視野(FoV、Field of View)中，以適合於自然觀看的距離在眼睛水平處一半透明界面被實例化。存在一雷射指示器，針對按鈕其複製鼠標懸停狀態(不活動、活動、按下、突出顯示)以輔助交互。按下該手持控制器上的相同按鈕可移除該面板，但保持所有當前等級和條件選擇回放。所有等級都及時記錄到一檔案中，其包括該條件隨機化的一圖例。

該實驗共實施了四種不同的條件。

●REF：基於對象的渲染。這是該參考條件。該B格式是為該聆聽者的當前位置被飛快地生成的，接著藉由該虛擬揚聲器被呈現。

●C1：3DoF再現。該聆聽者位置被忽略，即 l (n)=0，但仍然應用他的頭部旋轉 o (n)。該增益設置為離該聆聽者2米距離的來源的增益。該條件用作一錨定。

●C2：無距離資訊的6DoF再現的該提出方法。該聆聽者位置被用於改變該方向向量。所有來源都位於該步行區外的一球體上。該球體的半徑固定為2米(2m)，即

，並且應用與距離相關的增益(γ=1)。

●C3：具有距離資訊的6DoF再現的該提出方法。該聆聽者位置 l (n)被用於改變該方向向量。該距離資訊m( r )被用於計算該聆聽者位置(公式5)處的該正確DoA，並且應用與距離相關增益(公式6)(γ=1)。

所有條件都使用該相同的信號處理流水線。這樣做是為了確保該比較僅關注該空間再現，並且該結果不受著色或其他影響的影響。該管線如圖10所示。圖10係顯示用於參考渲染和DirAC的該信號路徑。在該參考情況(REF)下，該追蹤資料用於改變基於對象的B格式合成的該定位和旋轉(左上)。在其他條件C1-C3中，該追蹤資料被應用於該DirAC域(右)。

從該三個單聲道來源信號計算兩個B格式信號。在線上計算一直接(乾dry)信號。一混響(濕wet)信號預先離線計算。它們被加在一起並由DirAC處理，後者渲染為虛擬揚聲器，接著雙耳化。該不同之處在於該追蹤資料的該應用。在參考情況中(REF)，在該B格式信號的該合成之前應用它，使得它實際地被記錄在該聆聽者位置。在其他情況下，它應用於該DirAC域。

基於對象的渲染被用作為一參考場景。實際上，該聆聽者在她/他的頭上配備了一B格式麥克風，並在他/她的頭部位置和旋轉處產生一記錄。這是直接實現的：對象係被放在相對於該追蹤的聆聽者位置。藉由距離衰減從每個來源生成一FOA信號。針對在距離d _i處的一來源信號s _i(t)的該合成直接B格式信號s _i，具有方位角θ和仰角ψ的方向是：

其中c是以米/每秒(m/s)為單位的該聲音速度。此後，於文獻[7]中該追蹤的旋轉係應用於該FOA域。

人工混響以一時間不變的方式被添加到該來源信號中，以增強該渲染的室內聲音場景的該真實感。來自該鞋盒形房間的該邊界的早期反射增加了準確的延遲、方向和衰減。於文獻[23]中，使用一空間反饋延遲網絡(FDN、Feedback Delay Network)生成後期混響，該空間反饋延遲網絡將該多聲道輸出分配到該虛擬揚聲器設置。該頻率相關的混響時間T₆₀係在90到150ms之間，一平均值為110ms。隨後應用具有低通特性的一音調校正濾波器(tonal correction filter)。

接著，藉由將每個該虛擬揚聲器信號與其DoA的B格式樣型相乘，如(公式12)中所示，將該混響信號從8+4虛擬揚聲器設置轉換為B格式。該混響B格式信號被添加到該直接信號。

在該DirAC域中處理該求和的B格式。使用具有128個頻帶的一正交鏡像濾波器(QMF、Quadrature Mirror Filter)組來完成該編碼，其被選擇係由於其高時間分辨率和低時間混疊。方向和擴散經由42ms的一移動平均平滑而被估計。該解碼生成8+4個虛擬揚聲器信號。接著將這些8+4信號與HRTF進行卷積運算以針對雙耳回放。

共有19名受試者評價該場景。他們年齡在23-41歲之間，其中三人是女性，所有人都沒有聽力障礙。大多數參與者所需的評分時間不到十分鐘。在非常不熟悉評估虛擬實境音頻的情況下，花費更長時間的主題，其中聲音和視覺並不總是一致的。

圖6將得到的分數顯示為箱形圖，即MUSHRA等級(N=19)作為箱形圖。虛線表示中位數分數，第一至第三的四分位數的該方框，該肖線處於+/-1.5四分位數範圍(IQR、Inter-Quartile Range)。

可以看出，所有受試者都正確地將該參考標識為最佳，儘管其中4個將其評定為低於100。雖然在該錄音位置聽起來相同，但與其他條件的該差異對所有參與者都很清楚。在具有距離資訊(C3)的該DirAC域中，該提出的6DoF再現獲得了第二高的總分。沒有距離資訊(C2)或甚至沒有位置追蹤(C1)的再現，幾乎每個參與者都給予較低分數。可以看出，該參與者不同意分配給該錨定(C1)條件的值。雖然13位分數低於30分，但其他6位不太確定並選擇了至70分。

根據一單向重複測量變異數分析(ANOVA、ANalysis Of VAriance)，條件的顯著主要影響(p<0.001、F=43.75)係被發現。作為事後分析，具有95%整體信賴水平的平均值的一杜凱多重比較(Tukey multiple comparisons)被進行了。發現所有條件對顯著不同，最強烈(p<0.001)，只有C2-C3不那麼清楚(p<0.04)。

即使發現該條件顯著不同，該響應的該變異數也相對較大。其中一個原因可能是具有VR的該測試對象的該不同經驗水平。建議進行一熟悉的預測試或根據經驗對該受試者進行分組。然而，採用了一系列的新手至專家進行VR和聽力測試，同時仍然產生顯著效果，顯示該結果涵蓋這些因素。

一些參與者難以注意到3DoF條件為錨點。這可能反映出在VR音頻的經驗不足。然而，它可以簡化程序並幫助一致性以提供附加的非空間錨定，例如該聲源的一單聲道混合。

關於該所提出的再現方法，人們看到它允許在6DoF中再現在空間中的一單個點記錄的FOA內容。雖然大多數測試參與者將理想的B格式信號參考評定為更高，但所提出的方法在其他條件下的再現獲得了該最高平均分數。即使當記錄中的該聲源位於距該麥克風一不同的距離時，該所提出的方法也能運作。在這種情況下，該距離必須被記錄為要再現的後設資料。該結果顯示，該距離再現增強了該體驗的該真實感。如果該步行區域允許該用戶在所有聲源周圍走動，則該效果可能更強烈。

一種新的六自由度(6DoF)音頻再現方法被提出了。該音頻在一單個位置被記錄為一階高保真度環繞聲(FOA)，並且該聲源的距離資料被擷取作為輔助資訊。使用該資訊，關於在該參數定向音頻編碼(DirAC)域中的該聆聽者的該實時追蹤來再現該音頻。

一主觀測試顯示，該所提出的方法與基於對象的渲染列等接近。這意味著當該距離資訊被考慮時，所提出的再現方法可以成功地提供超過三個自由度的一虛擬回放。

圖11a係顯示該聲場計算器420的另一較佳實施方式。

基於該聲場描述，一全波段到達方向或一每波段到達方向在1100中被決定。這些到達方向資訊表示該聲場的該到達方向資料。基於該到達方向資料，一平移變換在區塊1110中被執行。至此，包括作為該聲場描述的該後設資料的該深度圖1120被使用。基於該深度圖 1120，區塊1110生成該聲場的該新的到達方向資料，在該實現中，其僅取決於從該參考位置到該不同參考位置的該平移。至此，區塊1110接收例如經由在一虛擬實境實現的上下文中的一追蹤而生成的該平移資訊。

較佳地或替代地，也使用一旋轉資料。至此，區塊1130使用該旋轉資訊執行一旋轉變換。當平移和旋轉兩者被執行時，則在計算已經包括來自該平移以及該深度圖1120的該資訊的該聲場的該新DoA之後，其較佳地執行該旋轉變換。

接著，在區塊1140中，該新的聲場描述被生成。至此，該原始聲場描述可以被使用，或者，經由一來源分離算法從該聲場描述分離的來源信號可以被使用，或者任何其他應用可以被使用。基本上，該新的聲場描述可以是，例如，由該高保真度環繞聲生成器430獲得的或由一DirAC合成器425生成的一方向聲場描述，或者可以是在該隨後的雙耳渲染中從一虛擬揚聲器表示所生成的一雙耳表示。

較佳地，如圖11a所示，每個到達方向的該距離也被用於生成該新的聲場描述，以使一確定的聲源的該音量或響度適應該新的位置，即該新的或不同的參考位置。

儘管圖11a係顯示一情況，其係在該平移變換之後執行該旋轉變換，但是應注意，該順序可以是不同的。特別地，該旋轉變換可以被應用於由區塊1100生成的該聲場的該DoA，接著，由於一對象從該參考位置到該不同參考位置的該平移引起的，該附加平移變換係被應用。

然而，應注意的是，該聲場的該DoA必須被使用，來從該深度圖1120中找到該對應的距離資訊，而不是該旋轉的DoA。因此，一旦該聲場的該DoA被區塊1100決定了，該距離資訊就藉由使用該深度圖1120而被擷取，該距離資訊接著藉由在區塊1140中生成該新的聲場描述，用來計算一改變的距離，並且因此改變了該確定的來源相對於一確定的參考位置的響度。基本上，其可以說在該距離變大的情況下，該特定聲源信號被衰減，而當該距離變短時，則該聲源信號被放大。自然地，取決於該距離的該確定的聲源的該衰減或放大與該距離變化成比例地進行，但是，在其他實施例中，可以以非常粗略的增量將較不複雜的操作應用於該聲源信號的這種放大或衰減。與任何距離變化完全被忽略的一情況相比，即使是這一種不太複雜的實現也能提供更好的結果。

圖11b係顯示該聲場計算器420的一較佳實施方式。在區塊1102中，對於每個源的一來源分離和一到達方向或一般方向資訊計算係被執行。接著，在區塊1104中，該到達方向向量被乘以該距離資訊向量，即，從該原始參考位置到該聲源的該向量，亦即例如，從圖5的項目520到項目510的該向量。接著，在區塊1106中，該平移資訊，亦即，從圖5的項目520到項目500的該向量被考量，以便計算該新的平移方向向量，該新的平移方向向量是從該聆聽者位置500到該聲源的位置510。接著，具有由d _v所指示的具有該正確長度的該新到達方向向量的在區塊1108中被計算。該向量係指向與d _r該相同的方向，但具有一不同的長度，因為該向量的該長度反映了該聲源510被記錄在具有一確定的體積的該原始聲場中的該事實，因此，d _v的該長度或多或少表示該響度變化。這是藉由將向量d _l除以該記錄距離d _r來獲得的，亦即從該麥克風520到該聲源510的向量d _r的該長度來獲得的。

當如圖5所示，該再現距離大於該記錄距離時，則d _v的該長度將低於1。這將導致該聲源510的一衰減，其針對在該新的聆聽者位置處的該再現。然而，當該再現距離d _l小於該記錄距離時，由區塊1108計算的d _v的該長度將大於1，並且一相應的縮放因子將導致該聲源的一放大。

圖12係顯示該聲場計算器的一另一較佳實施方式。

在區塊1200中，來自該聲場的該各別來源係被決定，例如，每個頻帶或全頻帶。當每幀和頻帶的一決定被執行時，則這可以經由一DirAC分析來完成。如果一全頻帶或子頻帶的一決定被執行時，則可以藉由任何類型的一全頻帶或子頻帶來源分離算法來完成。

在區塊1210中，例如藉由頭部追蹤來決定一聆聽者的一平移和/或一旋轉。

在區塊1220中，藉由使用該後設資料並且例如藉由在一DirAC分析的該實現中使用該深度圖來決定每個來源的一舊距離。因此，每個頻帶被認為是一確定的來源(假設該擴散低於一確定的閾值)，並且接著，具有一低擴散的每個時間/頻率區間的一確定的距離係被決定。

接著，在區塊1230中，每個來源的一新距離例如經由每個頻帶的一向量計算而被獲得，例如，在圖11b的上下文中討論。

此外，如區塊1240所示，例如，經由在一DirAC分析中獲得的一DoA計算或例如經由一來源分離算法中的一到達方向或方向資訊分析，每個來源的一舊方向被決定。

接著，在區塊1250中，例如經由執行每個頻帶或全頻帶的一向量計算，每個來源的一新方向被決定。

接著，在區塊1260，一新的聲場為該平移和旋轉的聆聽者而被生成。例如，這可以經由在該DirAC合成中縮放每個通道的該直接部分來完成。取決於該具體實施方式，除了在區塊1260中執行該距離修改，新增地或替代地，可以在區塊1270a、1270b或1270c中該距離修改可被完成。

例如，當決定該聲場僅具有一單個源時，則該距離修改可以在區塊1270a中已經被執行。

或者，當各別來源信號被由區塊1200計算時，該實際新聲場在區塊1260中被生成之前，針對各個來源，該距離修改可以在區塊1270b中被執行。

另外，例如，當在區塊1260中的該聲場生成不呈現一揚聲器設置信號或一雙耳信號，而是另一聲場描述時，例如，使用一高保真度環繞聲編碼器或計算器430，則該距離修改也可以是在區塊1260中該生成之後被執行，這意指在區塊1270c中。根據該實施方式，一距離修改也可以被分配給多個修改器，以便最終一確定的聲源處於一確定的響度，該確定的響度由該原始距離與該新距離之間的該差異所引導，該原始距離係該聲源和該參考位置之間的距離、該新距離係該聲源和該不同參考位置之間的距離。

圖13a係顯示最初公開的一DirAC分析器，例如，在2009年IWPASH的早先引用的參考文獻“Directional Audio Coding”中。

該DirAC分析器包括一組帶通濾波器1310、一能量分析器1320、一強度分析器1330、一時間平均區塊1340和一擴散度計算器1350以及該方向計算器1360。

在DirAC中，分析和合成都在頻域中進行。有幾種方法可以將該聲音分成頻帶，每種方法都在不同的屬性中。該最常用的頻率變換包括短時傅立葉變換(STFT、Short Time Fourier Transform)和正交鏡像濾波器組(QMF、Quadrature Mirror Filter)。除此之外，還可以完全自由地設計具有任意濾波器的一濾波器組，該濾波器組可針對任何特定目的進行優化。方向分析的該目標是在每個頻帶中估計聲音的該到達方向，以及聲音是否同時從一個或多個方向到達的一估計。原則上，這可以用許多技術來執行，然而，聲場的該能量分析已經被發現是合適的，這在圖13a圖式說明。當從一單個位置捕獲一維、二維或三維中的該壓力信號和速度信號時，該能量分析可以被執行。在一階B格式信號中，該全向信號被稱為W信號，其已經被該2的平方根縮小。該聲壓可以被估計為

，在該STFT域中表示。

該X、Y和Z通道具有沿該笛卡爾軸定向的一偶極子的該方向樣型，其一起形成一向量U=[X,Y,Z]。該向量估計該聲場速度向量，並且也在STFT域中表示。該聲場的能量被計算。可以經由定向麥克風的重合定位或者一使用緊密間隔的全向麥克風組，B格式信號的該捕獲可被獲得。在一些應用中，該麥克風信號可以在一計算域中被形成，亦即模擬。

該聲音方向被定義為該強度向量I的該相反方向。在該發送的後設資料中，該方向被表示為對應的角度方位角和仰角值。還使用該強度向量和該能量的一期望運算子來計算聲場的該擴散。該公式的該結果是在0和1之間的一實數值，其特徵在於該聲音能量是從一單個方向到達(擴散是零)或是從所有方向(擴散是1)。在該完整的3D或更小尺寸的速度資訊可用的情況下，該程序是適當的。

圖13b係顯示一DirAC合成，再一次，其具有一組帶通濾波器1370、一虛擬麥克風區塊1400、一直接/擴散合成器塊1450、以及一確定的揚聲器設置或一虛擬預期揚聲器設置1460。另外，一擴散-增益變換器1380、一基於向量的振幅平移(VBAP、Vector Based Amplitude Panning)增益表區塊1390、一麥克風補償區塊1420、一揚聲器增益平均區塊1430和用於其他通道的一分配器1440係被使用。

在利用揚聲器的這種DirAC合成中，圖13b中所示高的高品質版本的DirAC合成接收所有B格式信號，為此針對該揚聲器設置1460的每個揚聲器方向，一虛擬麥克風信號被計算。該所使用的定向樣型通常是一偶極子。接著，取決於該後設資料，該虛擬麥克風信號以非線性方式被修改。的該低位元率版本未在圖13b中顯示，然而，在這種情況下，如圖6所示，僅一個音頻聲道被發送。處理的該不同之處在於所有虛擬麥克風信號都將被所接收的該單個音頻通道所取代。該虛擬麥克風信號被分成兩個串流：該擴散串流和該非擴散串流，而它們被分開處理。

藉由使用向量基礎幅度平移(VBAP、Vector Base Amplitude Panning)，該非擴散聲音將被再現為點來源。在平移中，在與揚聲器特定的增益因子相乘之後，將一單聲道聲音信號應用於揚聲器的一子集。使用一揚聲器設置的該資訊和特定的平移方向，該增益因子被計算。在低位元率版本中，該輸入信號簡單地平移到該後設資料隱含的該方向。在該高品質版本中，每個虛擬麥克風信號與該相應的增益因子相乘，這會產生與平移相同的該效果，然而它不太容易出現任何非線性假影。

在許多情況下，該方向後設資料受到突然的時間變化的影響。為了避免假影，VBAP計算的揚聲器的該增益因子經由與頻率相關的時間常數的時間積分而被平滑，該時間常數等於每個頻帶處的約50個循環週期。這有效地消除了假影，然而，在大多數情況下，方向的該變化不會被認為比沒有平均的更慢。

該擴散聲音的該合成的該目的是創造圍繞該聆聽者的聲音感知。在該低位元率版本中，經由去相關該輸入信號並且將其從每個揚聲器再現，該擴散串流被再現。在該高品質版本中，擴散串流的該虛擬麥克風信號在某種程度上已經不連貫，並且它們需要僅稍微去相關。與該低位元率版本相比，這種方法為環繞聲混響和環境聲音提供了更好的空間品質。

對於使用耳機進行該DirAC合成，針對該非擴散串流，DirAC採用圍繞該聆聽者的一確定的數量的虛擬揚聲器規劃，針對該擴散串流，DirAC採用一確定的數量的揚聲器規劃。該虛擬揚聲器被實現為輸入信號與具有一測量的頭部相關轉移函數(HRTF、Head-Related Transfer Functions)的捲積運算。

儘管已經在一裝置的上下文中描述了一些觀點，但是顯然這些觀點也表示該對應方法的一描述，其中一區塊或設備對應於一方法步驟或一方法步驟的一特徵。類似地，在一方法步驟的上下文中描述的觀點還表示一對應裝置的一對應區塊或項目或特徵的一描述。

本揭露的增強聲場描述可以存儲在一數位存儲媒體或非暫時性存儲媒體上，或者可以在一傳輸媒體上被傳輸，諸如一無線傳輸媒體、或諸如網際網路的一有線傳輸媒體。

根據某些實現要求，本揭露的實施例可以用硬體或軟體實現。該實現可以使用一數位存儲媒體來執行，例如一軟性磁碟、一DVD、一CD、一ROM、一PROM、一EPROM、一EEPROM或一LASH記憶體，其上存儲有電子可讀取控制信號，它們配合(或者能夠與)一可編程計算機系統協作，以便執行該相應的方法。

根據本揭露的一些實施例，其包括具有一電子可讀取控制信號的非暫時性資料載體，其能夠與一可編程計算機系統協作，從而執行本文所述的該方法之一。

通常，本揭露的實施例可以實現為具有一程式編碼的計算機程式產品，該程式編碼可操作用於在該計算機程式產品在一計算機上運行時執行這些方法之一。該程式編碼可以例如存儲在一機器可讀載體上。

其他實施例包括用於執行存儲在一機器可讀載體上的本文所述方法之一的該計算機程式。

換句話說，本揭露方法的一實施例因此是具有一程式編碼的一計算機程式，當該計算機程式在一計算機上運行時，該程式編碼用於執行本文所述的該方法之一。

因此，本揭露方法的一另一實施例是一資料載體(或一數位存儲媒體、或一計算機可讀媒體)，其包括記錄在其上的用於執行本文所述方法之一的該計算機程式。

因此，本揭露方法的一另一實施例是表示用於執行本文所述方法之一的計算機程式的一資料串流或一信號序列。該資料串流或該信號序列可以例如被配置為經由一資料通信連接傳輸，例如經由該網際網路。

一另一實施例包括一處理裝置，例如一計算機或一可編程邏輯設備，其被配置為或適於執行本文所述的該方法之一。

另一實施例包括一計算機，其上安裝有用於執行本文所述方法之一的該計算機程式。

在一些實施例中，一可編輯邏輯器件(例如現場可編輯閘陣列)可用於執行本文所述方法的一些或全部該功能。在一些實施例中，該現場可編輯閘陣列可以與一微處理器協作，以便執行本文描述的方法之一。通常，該方法較佳地由任何硬體設備執行。

在借助附圖對本揭露的實施例進行詳細說明之前，應當注意的是，在不同的附圖中，相同的、功能上相同的和相等的元件、物件和/或結構被提供有相同的附圖標記，使得不同實施例中的這些元件的描述是可互換和/或相互適用的。

儘管已經在一設備的上下文中描述了一些觀點，但是應當理解，所述觀點還表示對應方法的一描述，使得一設備的一區塊或一結構組件也應被理解為一對應的方法步驟、或作為一方法步驟的一個特徵。藉由類推，已經結合一方法步驟或作為一方法步驟描述的觀點也表示一對應設備的一對應區塊或細節或特徵的一描述。

上述實施例僅代表了本揭露該原理的一說明。應理解，本領域其他技術人員將理解本文所述的佈置和細節的任何修改和變化。上述實施例僅係為了方便說明而舉例而已，本揭露所主張之權利範圍自應以申請專利範圍為準，而非僅限於上述實施例。

參考文獻

[1] Liitola, T., Headphone sound externalization, Ph.D. thesis, Helsinki University of Technology. Department of Electrical and Communications Engineering Laboratory of Acoustics and Audio Signal Processing., 2006.

[2] Blauert, J., Spatial Hearing - Revised Edition: The Psychophysics of Human Sound Localization, The MIT Press, 1996, ISBN 0262024136.

[3] Zhang, W., Samarasinghe, P. N., Chen, H., and Abhayapala, T. D., “Surround by Sound: A Review of Spatial Audio Recording and Reproduction,” Applied Sciences, 7(5), p. 532, 2017.

[4] Bates, E. and Boland, F., “Spatial Music, Virtual Reality, and 360 Media,” in Audio Eng. Soc. Int. Conf. on Audio for Virtual and Augmented Reality, Los Angeles, CA, U.S.A., 2016.

[5] Anderson, R., Gallup, D., Barron, J. T., Kontkanen, J., Snavely, N., Esteban, C. H., Agarwal, S., and Seitz, S. M., “Jump: Virtual Reality Video,” ACM Transactions on Graphics, 35(6), p. 198, 2016.

[6] Merimaa, J., Analysis, Synthesis, and Perception of Spatial Sound: Binaural Localization Modeling and Multichannel Loudspeaker Reproduction, Ph.D. thesis, Helsinki University of Technology, 2006.

[7] Kronlachner, M. and Zotter, F., “Spatial Transformations for the Enhancement of Ambisonics Recordings,” in 2nd International Conference on Spatial Audio, Erlangen, Germany, 2014.

[8] Tsingos, N., Gallo, E., and Drettakis, G., “Perceptual Audio Rendering of Complex Virtual Environments,” ACM Transactions on Graphics, 23(3), pp. 249-258, 2004.

[9] Taylor, M., Chandak, A., Mo, Q., Lauterbach, C., Schissler, C., and Manocha, D., “Guided multi-view ray tracing for fast auralization,” IEEE Trans. Visualization & Comp. Graphics, 18, pp. 1797- 1810, 2012.

[10] Rungta, A., Schissler, C., Rewkowski, N., Mehra, R., and Manocha, D., “Diffraction Kernels for Interactive Sound Propagation in Dynamic Environments,” IEEE Trans. Visualization & Comp. Graphics, 24(4), pp. 1613-1622, 2018.

[11] Thiergart, O., Kowalczyk, K., and Habets, E. A. P., “An Acoustical Zoom based on Informed Spatial Filtering,” in Int. Workshop on Acoustic Signal Enhancement, pp. 109-113, 2014.

[12] Khaddour, H., Schimmel, J., and Rund, F., “A Novel Combined System of Direction Estimation and Sound Zooming of Multiple Speakers,” Radioengineering, 24(2), 2015.

[13] Ziegler, M., Keinert, J., Holzer, N., Wolf, T., Jaschke, T., op het Veld, R., Zakeri, F. S., and Foessel, S., “Immersive Virtual Reality for Live-Action Video using Camera Arrays,” in IBC, Amsterdam, Netherlands, 2017.

[14] Thiergart, O., Galdo, G. D., Taseska, M., and Habets, E. A. P., “Geometry-Based Spatial Sound Acquisition using Distributed Microphone Arrays,” IEEE Trans. Audio, Speech, Language Process., 21 (12), pp. 2583-2594, 2013.

[15] Kowalczyk, K., Thiergart, O., Taseska, M., Del Galdo, G., Pulkki, V., and Habets, E. A. P., “Parametric Spatial Sound Processing: A Flexible and Efficient Solution to Sound Scene Acquisition, Modification, and Reproduction,” IEEE Signal Process. Mag., 32(2), pp. 31-42, 2015.

[16] Pulkki, V., “Spatial Sound Reproduction with Directional Audio Coding,” J. Audio Eng. Soc., 55(6), pp. 503-516, 2007.

[17] International Telecommunication Union, “ITU-R BS.1534-3, Method for the subjective assessment of intermediate quality level of audio systems,” 2015.

[18] Thiergart, O., Del Galdo, G., Kuech, F., and Prus, M., “Three-Dimensional Sound Field Analysis with Directional Audio Coding Based on Signal Adaptive Parameter Estimators,” in Audio Eng. Soc. Conv. Spatial Audio: Sense the Sound of Space, 2010.

[19] Kuttruff, H., Room Acoustics, Taylor & Francis, 4 edition, 2000.

[20] Borß, C., “A polygon-based panning method for 3D loudspeaker setups,” in Audio Eng. Soc. Conv., pp. 343-352, Los Angeles, CA, USA, 2014.

[21] Rummukainen, O., Schlecht, S., Plinge, A., and Habets, E. A. P., “Evaluating Binaural Reproduction Systems from Behavioral Patterns in a Virtual Reality - A Case Study with Impaired Binaural Cues and Tracking Latency,” in Audio Eng. Soc. Conv. 143, New York, NY, USA, 2017.

[22] Engelke, U., Darcy, D. P., Mulliken, G. H., Bosse, S., Martini, M. G., Arndt, S., Antons, J.-N., Chan, K. Y., Ramzan, N., and Brunnström, K., “Psychophysiology-Based QoE Assessment: A Survey,” IEEE Selected Topics in Signal Processing, 11(1), pp. 6-21, 2017.

[23] Schlecht, S. J. and Habets, E. A. P., “Sign-Agnostic Matrix Design for Spatial Artificial Reverberation with Feedback Delay Networks,” in Proc. Audio Eng. Soc. Conf., pp. 1-10- accepted, Tokyo, Japan, 2018

[31] M. A. Gerzon, "Periphony: With-height sound reproduction," J. Acoust. Soc. Am., vol. 21,110. 1, pp. 2-10, 1973.

[32] V. Pulkki, "Directional audio coding in spatial sound reproduction and stereo upmixing," in Proc. of the 28th AES International Conference, 2006.

[33] --, "Spatial sound reproduction with directional audio coding," Journal Audio Eng. Soc,, vol. 55, no. 6, pp. 503-516, Jun. 2007.

[34] C. G. and G. VM., "Coincident microphone simulation covering three dimensional space and yielding various directional outputs," U.S. Patent 4 042 779, 1977.

[35] C. Faller and F. Baumgarte, "Binaural cue coding - part ii: Schemes and applications, "IEEE Trans. Speech Audio Process,, vol. 11, no. 6, Nov. 2003.

[36] C. Faller, "Parametric multichannel audio coding: Synthesis of coherence cues," IEEE Trans. Speech Audio Process., vol. 14, no. 1, Jan. 2006.

[37] H. P. J. E. E. Schuijers, J. Breebaart, "Low complexity parametric stereo coding," in Proc. of the 116th AES Convention, Berlin, Germany, 2004.

[38] V. Pulkki, "Virtual sound source positioning using vector base amplitude panning,"J. Acoust. Soc. A m,, vol. 45, no. 6, pp. 456-466, Jun. 1997.

[39] J. G. Tylka and E. Y. Choueiri, "Comparison of techniques for binaural navigation of higher- order ambisonics sound fields," in Proc. of the AES International Conference on Audio for Virtual and Augmented Reality, New York, Sep. 2016.

100‧‧‧聲場(描述)生成器

110‧‧‧後設資料生成器

120‧‧‧組合器

Claims

一種用於生成一增強聲場描述的裝置，包括：一聲場生成器，用於生成至少一個聲場描述，該聲場描述指示相對於至少一個參考位置的一聲場；以及一後設資料生成器，用於生成與該聲場的空間資訊有關的後設資料，其中，該至少一個聲場描述和該後設資料構成該增強聲場描述；以及其中，該聲場生成器被配置為生成該聲場的一時間幀的多個頻率區間的擴散資訊，以及其中該後設資料生成器被配置為當一頻率區間的一擴散值低於一擴散閾值時僅生成該頻率區間的一距離資訊，或者其中該後設資料生成器被配置為當該頻率區間的該擴散值低於該閾值擴散值時，僅生成與一預定值不同的一距離後設資料；或其中，該聲場生成器被配置為生成一聲場的一定向音頻編碼(DirAC、Directional Audio Coding)描述，該聲場具有一個或多個降混信號和個別的方向資料以及對不同時間頻率區間的可選擴散資料，以及其中該後設資料生成器被配置為生成針對不同時間頻率區間的附加個別位置或一深度資訊以作為該後設資料。
如申請專利範圍第1項之該裝置，其中，該聲場生成器被配置為從該聲場生成器使用的音頻信號、或者從與該音頻信號相關聯的影片信號、或者從立體(三維)成像/影片或光場技術中使用的一深度圖、或從來自一計算機圖形場景的幾何資訊，來估計該深度資訊。
如申請專利範圍第1項之該裝置，其中，該後設資料生成器被配置為生成一深度圖，作為與空間資訊有關的該資料，針對不同方向資料資訊指示不同方向，該深度圖包括對應的距離資訊。
如申請專利範圍第1項之該裝置，其更包括一輸出界面，用於生成針對傳輸或存儲的一輸出信號，該輸出信號包括，針對一時間幀，從該聲場和該空間資訊所導出的一個或多個音頻信號用於該時間幀。
如申請專利範圍第1項之該裝置，其中，該聲場生成器被配置為從該聲場導出方向資料，該方向資料指的是針對時一時間期間或一頻率區間聲音的一到達方向，並且其中該後設資料生成器是被配置為導出該空間資訊，以作為將一距離資訊與該方向資料相關聯的資料項目。
如申請專利範圍第5項之該裝置，其中，該聲場生成器被配置為導出該聲場描述的每個時間幀的不同頻率區間的該方向資料，其中，該後設資料生成器被配置為導出將一距離資訊與針對該時間幀的該方向資料相關聯的該資料項目，以及其中，該輸出界面被配置為生成該輸出信號，使得該時間幀的該資料項鏈接到該不同頻率區間的該方向資料。
如申請專利範圍第1項之該裝置，其中，該空間資訊是一深度圖，其包括多個到達方向資料項目和多個相關距離，使得到達資料項目的多個資料的每個到達方向具有一相關距離。
一種根據一聲場描述以及與該聲場描述的空間資訊有關的後設資料生成一修改聲場描述的一裝置，包括：一聲場計算器，用於使用該空間資訊、該聲場描述和指示從一參考位置到一不同參考位置的一平移的一平移資訊來計算該修改的聲場；其中，該聲場計算器被配置為針對一時間頻率區間來決定，以維持一方向資料、或者基於該時間頻率區間的一擴散資料計算一修改的方向資料，其中該修改的方向資料僅針對該擴散資料而被計算，其表示一擴散低於一預定義或自適應擴散水平；或其中該聲場計算器被配置為計算一定向音頻編碼(DirAC、Directional Audio Coding)描述作為該聲場描述，使用該方向資料、一深度資訊和該平移資訊修改不同時間頻率區間的方向資料，以及使用該修改的方向資料將該DirAC描述呈現為包括多個音頻通道的一聲音描述，或者使用該修改的方向資料而不是該時間頻率區間的該方向資料，並且可選地使用包含在該DirAC描述中的該相同的擴散資料，來發送或存儲該DirAC描述；或其中，該聲場描述包括多個聲場分量，該多個聲場分量包括一全向分量和至少一個方向分量，其中聲場計算器包括：一聲場分析器，用於分析該聲場分量，以針對不同的頻率區間導出到達方向資訊；一平移變換器，用於使用該方向資訊和該後設資料，以計算每個頻率區間的修改到達方向資訊，該後設資料包括於一頻率區間中將一距離資訊與該到達方向資訊相關聯的一深度圖；以及一距離補償器，用於使用一距離補償資訊計算該修改聲場，該距離補償資訊取決於該深度圖為該頻率區間提供的該距離、以及與該頻率區間內相關聯的一新距離，該新距離與該修改的到達方向資訊相關；或其中，該聲場計算器配置為：藉由一聲音分析決定來自該聲場描述的來源信號和與該參考位置相關的該來源信號的方向；使用該平移資訊計算與該不同參考位置相關的該來源信號的新方向；計算與該不同參考位置相關的該聲源的距離資訊；以及使用該距離資訊、該來源信號和該新方向，以合成該修改聲場。
如申請專利範圍第8項之該裝置，其更包含：一平移界面，用於提供該平移資訊或旋轉資訊，指示一預定聆聽者對該修改聲場的一旋轉；一後設資料提供器，用於將該後設資料提供給該聲場計算器；用於將該聲場描述提供給該聲場計算器；以及一輸出界面，用於輸出包括該修改聲場描述和該修改後設資料的該修改聲場，該修改後設資料是使用該平移資訊從該後設資料導出的，或者用於輸出多個揚聲器聲道，每個揚聲器聲道與一預定義的揚聲器位置相關，或者用於輸出該修改聲場的一雙耳表示。
如申請專利範圍第8項之該裝置，其中，聲場計算器被配置為：用於計算從該參考位置指向一聲源的第一向量，其由該聲場的該分析而獲得的；用於計算一第二向量，其使用該第一向量和該平移資訊，該第二向量從該不同參考位置指向該聲源，該平移資訊係定義為從該參考位置到該不同參考地點的一平移向量；以及用於計算一距離修改值，其使用該不同參考位置、該聲源的一位置和該第二向量，或是使用從該不同參考位置到該聲源的該位置的一距離和該第二向量。
如申請專利範圍第8項之該裝置，其中，藉由將一到達方向的單位向量乘以該後設資料中所包括的一距離來計算一第一向量，或其中，藉由從該第一向量中減去該平移向量來計算一第二向量，或者，其中，藉由將該第二向量除以該第一向量的一範數來計算該距離修改值。
如申請專利範圍第8項之該裝置，其中，該聲場計算器被配置為除了該平移資訊之外還接收一旋轉資訊，以及其中該聲場計算器被配置為使用該旋轉資訊執行一旋轉變換，以旋轉一聲場的一到達方向資料，其中該到達方向資料係從藉由該聲場描述的一聲音分析所獲得的一到達方向資料以及使用該平移資訊所導出。
如申請專利範圍第8項之該裝置，其中，該聲場計算器被配置為：經由一聲場分析決定該聲場描述的來源和該來源的方向；針對每個來源，使用該後設資料決定該來源與該參考位置的一距離；使用該來源的該方向和該平移資訊決定與該不同參考位置相關的該來源的一新方向；決定與該不同參考位置相關的該來源的一新距離資訊；以及使用該來源的該新方向、該新距離資訊、以及該聲場描述或對應於從該聲場描述導出的該來源的來源信號生成該修改聲場。
如申請專利範圍第8項之該裝置，其中，該聲場計算器配置為：藉由將一聲源信號平移到與一重放設置相關的該新方向所給出的一方向，來合成該修改聲場，以及藉由在執行該平移之前或者在執行該平移之後使用該距離資訊，俾縮放該聲源信號。
如申請專利範圍第8項之該裝置，其中，該聲場計算器(420)被配置為將一擴散信號添加到該聲源信號的一直接部分，該直接部分在被添加到該擴散信號之前由被該距離資訊修改。
如申請專利範圍第8項之該裝置，其中，該聲場計算器被配置為：執行該聲場描述的一時頻轉換以及計算一時間幀的多個頻率區間的一到達方向；計算每個頻率區間的該新方向；計算每個頻率區間的該距離資訊；以及使用針對一頻率區間的一音頻信號對每個頻率區間執行一直接合成，從該頻率區間的該新方向資訊導出的針對該頻率區間執行一平移增益、和從該頻率區間的該距離資訊所導出的針對該頻率區間執行一縮放向量。
如申請專利範圍第16項之該裝置，其中，該聲場計算器配置為：使用從針對該頻率區間的該音頻信號導出的一擴散音頻信號並使用針對該頻率區間的該聲音分析導出的一擴散參數來執行一擴散合成，並且組合該直接部分和該擴散部分以獲得該頻率區間的一合成音頻信號；以及使用針對一時間幀的該頻率區間的音頻信號，執行一頻率-時間轉換，以獲得一時域合成音頻信號，俾作為該修改聲場。
如申請專利範圍第8項之該裝置，其中，該聲場計算器被配置為針對每個聲源合成與該不同參考位置相關的一聲場，該合成包括：對於每個來源，使用針對該來源信號的該新方向處理一來源信號，以獲得與該不同參考位置相關的該來源信號的的一聲場描述；在處理該來源信號之前修改該來源信號、或使用該方向資訊修改該聲場描述；以及添加該來源的該聲場描述以獲得與該不同參考位置相關的一修改聲場。
如申請專利範圍第8項之該裝置，其中，該聲音分析被配置為除了一來源信號之外還獲得一擴散信號；以及其中，該聲場計算器被配置為將該擴散信號添加到使用該新方向和該距離資訊計算的一直接部分。
如申請專利範圍第19項之該裝置，其中，該聲音分析被配置為藉由一來源分離算法決定該來源信號，並從該聲場描述中減去至少一些該來源信號，以獲得該擴散信號。
一種產生增強聲場描述的方法，包括：生成至少一個聲場描述，該聲場描述指示關於至少一個參考位置的一聲場；以及生成與該聲場的空間資訊有關的後設資料，其中，該至少一個聲場描述和該後設資料構成該增強聲場描述；以及其中，生成該至少一個聲場描述之步驟包括生成該聲場的一時間幀的多個頻率區間的擴散資訊，以及其中生成該後設資料之步驟包括當一頻率區間的一擴散值低於一擴散閾值時僅生成該頻率區間的一距離資訊，或者其中生成該後設資料之步驟包括當該頻率區間的該擴散值低於該閾值擴散值時，僅生成與一預定值不同的一距離後設資料；或其中，生成該至少一個聲場描述之步驟包括生成一聲場的一定向音頻編碼(DirAC、Directional Audio Coding)描述，該聲場具有一個或多個降混信號和個別的方向資料以及對不同時間頻率區間的可選擴散資料，以及其中生成該後設資料之步驟包括生成針對不同時間頻率區間的附加個別位置或一深度資訊以作為該後設資料。
一種從一聲場描述和與該聲場描述的空間資訊有關的後設資料生成一修改聲場描述的方法，該方法包括：使用該空間資訊、該聲場描述和指示從一參考位置到一不同參考位置的一平移的一平移資訊來計算該修改聲場；其中，計算該修改聲場之步驟包括針對一時間頻率區間來決定，以維持一方向資料、或者基於該時間頻率區間的一擴散資料計算一修改的方向資料，其中該修改的方向資料僅針對該擴散資料而被計算，其表示一擴散低於一預定義或自適應擴散水平；或其中計算該修改聲場之步驟包括計算一定向音頻編碼(DirAC、Directional Audio Coding)描述作為該聲場描述，使用該方向資料、一深度資訊和該平移資訊修改不同時間頻率區間的方向資料，以及使用該修改的方向資料將該DirAC描述呈現為包括多個音頻通道的一聲音描述，或者使用該修改的方向資料而不是該時間頻率區間的該方向資料，並且可選地使用包含在該DirAC描述中的該相同的擴散資料，來發送或存儲該DirAC描述；或其中，該聲場描述包括多個聲場分量，該多個聲場分量包括一全向分量和至少一個方向分量，其中計算該修改聲場之步驟包括：分析該聲場分量，以針對不同的頻率區間導出到達方向資訊；使用該方向資訊和該後設資料，以計算每個頻率區間的修改的到達方向資訊，該後設資料包括於一頻率區間中將一距離資訊與該到達方向資訊相關聯的一深度圖；以及使用一距離補償資訊計算該修改聲場，該距離補償資訊取決於該深度圖為該頻率區間提供的該距離、以及與該頻率區間內相關聯的一新距離，該新距離與該修改的到達方向資訊相關；或其中，計算該修改聲場之步驟包括：藉由一聲音分析決定來自該聲場描述的來源信號和與該參考位置相關的該來源信號的方向；使用該平移資訊計算與該不同參考位置相關的該來源信號的新方向；計算與該不同參考位置相關的該聲源的距離資訊；以及使用該距離資訊、該來源信號和該新方向，以合成該修改聲場。
一種計算機程式，當其用於一計算機或處理器上運行時，執行申請專利範圍第21或22項的方法。
一種記錄媒體，其儲存有一增強的聲場描述，包括：至少一個聲場描述及後設資料，該至少一個聲場描述指示關於至少一個參考位置的一聲場，該後設資料與該聲場的空間資訊有關；以及該聲場的一時間幀的多個頻率區間的擴散資訊，以及當一頻率區間的一擴散值低於一擴散閾值時僅該頻率區間的一距離資訊，或者當該頻率區間的該擴散值低於該閾值擴散值時，僅與一預定值不同的一距離後設資料；或其中，該至少一個聲場描述包括一聲場的一定向音頻編碼(DirAC、Directional Audio Coding)描述，該聲場具有一個或多個降混信號和個別的方向資料以及對不同時間頻率區間的可選擴散資料，以及其中該後設資料包括針對不同時間頻率區間的附加個別位置或一深度資訊。
如申請專利範圍第24項之記錄媒體，其中，該後設資料包括將距離資料資訊項目與方向資料項目相關聯的一深度圖，作為針對該不同時間頻率區間的該附加個別位置或該深度資訊。