TWI808298B

TWI808298B - 對空間音訊表示進行編碼的裝置和方法或使用傳輸後設資料對編碼音訊訊號進行解碼的裝置和方法和相關計算機程式

Info

Publication number: TWI808298B
Application number: TW109102256A
Authority: TW
Inventors: 法比恩庫奇; 奧莉薇錫蓋特; 貴勞美夫杰斯; 史丹芬多伊拉; 亞歷山卓布泰翁; 捷爾根賀瑞; 史丹芬拜耶
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2019-01-21
Filing date: 2020-01-21
Publication date: 2023-07-11
Also published as: US20210343300A1; EP3915106A1; SG11202107802VA; JP2024038192A; TW202032538A; CA3127528A1; CN113490980A; ZA202105927B; JP2022518744A; WO2020152154A1; AU2020210549A1; MX2021008616A; KR20210124283A; AU2020210549B2; BR112021014135A2

Abstract

一種對空間音訊表示進行編碼的裝置，其對表示音訊場景的空間音訊表示進行編碼以獲得編碼音訊訊號，裝置包括：傳輸表示生成器，用於從空間音訊表示生成一傳輸表示，且用於生成傳輸後設資料，傳輸後設資料關於傳輸表示的生成或指示傳輸表示的一或多個指向性質；輸出介面，用於輸出編碼音訊訊號，編碼音訊訊號包括關於傳輸表示的資訊及關於傳輸後設資料的資訊。

Description

對空間音訊表示進行編碼的裝置和方法或使用傳輸後設資料對編碼音訊訊號進行解碼的裝置和方法和相關計算機程式

本發明的實施例涉及用於指向音訊編碼的傳輸通道或下混信令。

指向音訊編碼(DirAC)技術[Pulkki07]是分析和再現空間聲音的一種有效方法。DirAC使用基於空間參數的感知激勵的聲場表示，即每個頻帶測量的到達方向(DOA)和擴散度。它是基於這樣的假設，即在某一時刻和某一臨界頻帶，聽覺系統的空間解析度僅限於解碼一個用於方向的提示和另一個用於耳間同調性的提示。然後，空間聲音在頻域中由交叉衰落的兩個流表示：非指向擴散流和指向非擴散流。

DirAC最初用於錄製的B格式聲音，但也可以擴充到與特定揚聲器設定(如5.1[2])或任何麥克風陣列[5]的組態匹配的麥克風訊號。在最近的情況下，不是通過記錄用於特定揚聲器設定的訊號，而是記錄中間格式的訊號，可以達到更大的靈活性。

這樣一種在實踐中已經很成熟的中間格式以(較高階)立體環繞聲(Ambisonics)[3]為代表。從立體環繞聲訊號中，可以產生每個目標的揚聲器設定的訊號，包括用於耳機再現的雙耳訊號。這需要特定的渲染器，此渲染器應用於立體環繞聲訊號，此立體環繞聲訊號使用線性立體環繞聲渲染器[3]或參數渲染器，例如指向音訊編碼(DirAC)。

立體環繞聲訊號可以表示為多通道訊號，其中每個通道(稱為立體環繞聲分量)等同於所謂的空間基函數的係數。利用這些空間基函數的加權和(權重對應於係數)，可以在記錄位置重建原始聲場[3]。因此，空間基函數係數(即，立體環繞聲分量)表示在記錄位置的聲場的簡潔描述。存在不同型別的空間基函數，例如球諧函數(SHS)[3]或柱諧函數(CHS)[3]。當描述2D空間中的聲場時(例如，對於2D聲音再現)可以使用CHS，而SHS可以用於描述2D和3D空間中的聲場(例如，對於2D和3D聲音再現)。

例如，從某個方向(φ,θ)到達的音訊訊號f(t)產生空間音訊訊號f(φ,θ,t)，此空間音訊訊號f(φ,θ,t)可以通過擴充球諧函數到截斷階數H而表示成立體環繞聲：

其中

是階l和模m的球諧函數，

是展開係數。隨著截斷階數H的增加，展開可得到更精確的空間表示。圖1a中示出了對於階數n和模數m的具有立體環繞聲通道編號(ACN)索引的高達H=4階的球諧函數。

DirAC已經被擴充為從第一階立體環繞聲訊號(FOA稱為B格式)或從不同的麥克風陣列[5]傳送較高階的立體環繞聲訊號。本文著重介紹一種從DirAC參數和參考訊號合成較高階立體環繞聲訊號的更有效的方法。在本文中，參考訊號(也稱為下混訊號)被認為是較高階的立體環繞聲訊號的子集或立體環繞聲訊分量的子集的線性組合。

在DirAC分析中，根據音訊輸入訊號估計DirAC的空間參數。最初，DirAC是為第一階立體環繞聲(FOA)輸入開發的，例如可以從B格式麥克風獲得，但是其他輸入訊號也是可能的。在DirAC合成中，根據DirAC參數和相關聯的音訊訊號計算用於空間再現的輸出訊號，例如揚聲器訊號。習知已有描述將全向音訊訊號僅用於合成或用於整個FOA訊號的解決方案[Pulkki07]。備選地，只有四個FOA訊號分量的子集可以用於合成。

由於其對空間聲音的高效表示，DirAC也非常適合作為空間音訊編碼系統的基礎。這種系統的目標是能夠以低位元率對空間音訊場景進行編碼，並在傳送之後儘可能忠實地再現原始音訊場景。在這種情況下，DirAC分析之後是空間後設資料編碼器，其對DirAC參數進行量化和編碼以獲得低位元率參數表示。連同後設資料，從原始音訊輸入訊號匯出的下混訊號被傳統的音訊核心編碼器編碼，以便進行傳送。例如，可以採用基於EVS的音訊編碼器對下混訊號進行編碼。下混訊號由稱為傳輸通道的不同通道組成：取決於目標位元率，下混訊號可以是例如包含B格式訊號(即，FOA)、立體聲對或單音下混的四個係數訊號。編碼的空間參數和編碼的音訊位元流在傳送之前被多工(multiplexed)。

基於DirAC的空間音訊編碼器的系統概述

下面概述了一種基於DirAC為沉浸式語音和音訊服務(IVAS)設計的最先進的空間音訊編碼系統。這種系統的目標是能夠處理表示音訊場景的不同空間音訊格式，並以低位元率對它們進行編碼，並且在傳送之後儘可能忠實地再現原始音訊場景。

此系統可以接受音訊場景的不同表示作為輸入。輸入音訊場景可以由意圖在不同揚聲器位置處再現的多通道訊號、聽覺物件連同描述物件隨時間的位置的後設資料、或者表示在收聽者或參考位置處的聲場的第一階或較高階立體環繞聲格式來表示。

優選地，此系統基於3GPP增強型語音服務(EVS)，因為此解決方案目標以低延遲時間操作以實現行動網路上的通話服務。

支援不同音訊格式的基於DirAC的空間音訊編碼的編碼器側於圖1B中示出。聲音/電輸入1000被輸入到編碼器介面1010，其中編碼器介面具有用於1013中示出的第一階立體環繞聲(FOA)或較高階立體環繞聲(HOA)的特定功能。而且，編碼器介面具有用於多通道(MC)資料的功能，例如立體聲資料、5.1資料或具有多於兩個或五個通道的資料。而且，編碼器介面1010具有用於物件編碼的功能，例如，在1011處所示的音訊物件。IVAS編碼器包括具有DirAC分析塊1021和下混(DMX)塊1022的DirAC階段1020。由塊1022輸出的訊號由諸如AAC或EVS編碼器的IVAS核心編碼器1040編碼，且由塊1021生成的後設資料使用DirAC後設資料編碼器1030編碼。

圖1b示出了支援不同音訊格式的基於DirAC的空間音訊編碼的編碼器側。如圖1b所示，編碼器(IVAS編碼器)能夠支援分別或同時呈現給系統的不同音訊格式。音訊訊號可以本質是聲音的，由麥克風拾取，也可以本質是電的，這些訊號應該傳送到揚聲器。支援的音訊格式可以是多通道訊號(MC)、第一階和較高階立體環繞聲(FOA/HOA)分量以及音訊物件。還可以通過組合不同的輸入格式來描述複雜的音訊場景。然後將所有音訊格式傳送到DirAC分析，此分析提取完整音訊場景的參數表示。每個時間-頻率單位測量的到達方向(DOA)和擴散度形成空間參數，或者是更大的參數集的一部分。DirAC分析之後是空間後設資料編碼器，其對DirAC參數進行量化和編碼以獲得低位元率的參數表示。

除了所描述的基於通道、基於HOA和基於物件的輸入格式之外，IVAS編碼器可以接收由空間和/或指向後設資料以及一個或多個相關聯的音訊輸入訊號組成的空間聲音的參數表示。後設資料可以例如對應於DirAC後設資料，即聲音的DOA和擴散度。後設資料還可以包括附加的空間參數，例如具有相關聯的能量測量、距離或位置值的多個DOA，或者與聲場的同調性相關的測量。關聯的音訊輸入訊號可以由單訊號、第一階或較高階的立體環繞聲訊號、X/Y立體聲訊號、A/B立體聲訊號、或由具有各種指向性模式(directivity patterns)和/或相互間隔的麥克風的記錄產生的訊號的任何其他組合組成。

對於參數化空間音訊輸入，IVAS編碼器基於輸入的空間後設資料決定用於傳送的DirAC參數。

連同這些參數，從不同來源或音訊輸入訊號匯出的下混(DMX)訊號被傳統的音訊核心編碼器編碼，以便進行傳送。在這種情況下，採用基於EVS的音訊編碼器對下混訊號進行編碼。下混訊號由稱為傳輸通道的不同通道組成：取決於目標位元率，下混訊號可以是例如由B格式訊號(即，FOA)、立體聲對或單音下混組成的四個係數訊號。編碼的空間參數和編碼的音訊位元流在傳送之前被多工。

圖2a示出了傳遞不同音訊格式的基於DirAC的空間音訊編碼的解碼器側。在解碼器中，如圖2a所示，傳輸通道由核心解碼器解碼，而DirAC後設資料在與解碼的傳輸通道一起輸送到DirAC合成之前首先被解碼。在這個階段，可以考慮不同的選擇。可以要求直接在任何揚聲器或耳機配置上播放音訊場景，這在傳統的DirAC系統中通常是可能的(圖2a中的MC)。解碼器還可以按照在編碼器側呈現的單個物件(圖2a中的物件)來傳遞它們。此外，也可以請求將場景渲染為立體環繞聲格式(圖2a中的FOA/HOA)用於進一步的操作，諸如場景的旋轉、鏡像或移動，或者用於使用在原始系統中沒有定義的外部渲染器。

在解碼器中，如圖2a所示，傳輸通道由核心解碼器解碼，而DirAC後設資料在與解碼的傳輸通道一起輸送到DirAC合成之前首先被解碼。在這個階段，可以考慮不同的選擇。可以要求直接在任何揚聲器或耳機配置上播放音訊場景，這在傳統的DirAC系統中通常是可能的(圖2a中的MC)。解碼器還可以按照在編碼器側呈現的單個物件(圖2a中的物件)來傳遞它們。備選地，也可以請求將場景渲染為立體環繞聲格式，以用於其他進一步的操作，諸如場景的旋轉、反射或移動(圖2a中的FOA/HOA)，或者用於使用原始系統中未定義的外部渲染器。

遞送不同音訊格式的DirAC空間音訊編碼的解碼器在圖2a中示出，並且包括IVAS解碼器1045和隨後連接的解碼器介面1046。IVAS解碼器1045包括IVAS核心解碼器1060，其配置成用以對由圖1B的IVAS核心編碼器1040編碼的內容執行解碼操作。此外，提供DirAC後設資料解碼器1050，其遞送用於解碼由DirAC後設資料編碼器1030編碼的內容的解碼功能。DirAC合成器1070從塊1050和1060接收資料，並且使用某些使用者互動性或不使用某些使用者互動性，輸出被輸入到解碼器介面1046，解碼器介面1046生成如1083所示的FOA/HOA資料、如塊1082所示的多通道資料(MC資料)、或如塊1081所示的物件資料。

圖2b描述了使用DirAC典範的傳統HOA合成。被稱為下混訊號的輸入訊號由頻率濾波器組進行時頻分析。頻率濾波器組2000可以是像是複值QMF的複值(complex-valued)濾波器組或像是STFT的塊變換。HOA合成在輸出端生成包含(H+1)²個分量的H階立體環繞聲訊號。可選地，它還可以輸出在特定揚聲器佈局上渲染的立體環繞聲訊號。接下來，我們將詳細說明如何從在某些情況下伴隨著輸入的空間參數的下混訊號中獲得(H+1)²分量。

下混訊號可以是原始麥克風訊號或描寫原始音訊場景的原始訊號的混合。例如，如果音訊場景由聲場麥克風捕獲，則下混訊號可以是場景的全向分量(W)、立體聲下混(L/R)或第一階立體環繞聲訊號(FOA)。

對於每個時頻瓦片(time-frequency tile)，如果下混訊號包含用於決定此類DirAC參數的足夠資訊，則由方向估計器2020和擴散度估計器2010分別估計也稱為到達方向(DOA)的聲音方向和擴散度因子。例如，如果下混訊號是第一階立體環繞聲訊號(FOA)，情況就是如此。備選地，或者如果下混訊號不足以決定這樣的參數，則可以經由包含空間參數的輸入位元流將參數直接輸送到DirAC合成。在音訊傳送應用的情況下，位元流例如可以由作為副資訊接收的量化和編碼的參數組成。在這種情況下，如開關2030或2040所示，參數從原始麥克風訊號或提供給編碼器側的DirAC分析模組的輸入音訊格式匯出DirAC合成模組之外。

聲音方向由指向增益評估器2050使用，以用於針對多個時頻瓦片中的每個時頻瓦片評估一組或多組(H+1)²個指向增益

，其中H是合成的立體環繞聲訊號的階數。

指向增益可以通過在要合成的立體環繞聲訊號的目標階(層)l和模m處評估每個估計的聲音方向的空間基函數來獲得。聲音方向可以例如用單位範數向量n(k,n)或根據方位角φ(k,n)和/或仰角θ(k,n)來表示，它們相關例如為：

在估計或獲得聲音方向之後，例如可以通過考慮將具有SN3D常態化的實值(real-valued)球諧函數作為空間基函數來決定目標的階(層)l和模m的空間基函數的響應：

取值範圍0

l

H，且-l

m

l。

是勒壤得函數(Legendre- functions)，

是對勒壤得函數和三角函數對SN3D採取以下形式的常態化項：

其中m=0時克朗尼克常數(Kronecker-delta)δ_m為一，其他為0。接下來直接對每個指數(k,n)的時頻瓦片推演指向增益如下：

通過從下混訊號匯出參考訊號P _ref並乘以指向增益和擴散度的因子函數Ψ(k,n)來計算直接聲立體環繞聲分量

：

例如，參考訊號P _ref可以是下混訊號的全向分量或下混訊號的K個通道的線性組合。

擴散立體環繞聲分量可以通過對從所有可能方向到達的聲音使用空間基函數的響應來建模。一個例子是通過考慮空間基函數

在所有可能角度φ和θ上的平方振幅的積分來定義平均響應

：

擴散立體環繞聲分量

由訊號P _diff乘以平均響應和擴散度Ψ(k,n)的因子函數計算得出：

訊號

可以通過對參考訊號P _ref施加不同的解相關器來獲得。

最後，例如通過總和運算來組合2060直接聲立體環繞聲分量和擴散立體環繞聲分量，以獲得時頻瓦片(k，n)的目標階(層)l和模m的最終立體環繞聲分量

，即：

可以使用逆濾波器組2080或逆STFT將所獲得的立體環繞聲分量變換回時域，作為空間聲音再現應用的範例儲存、傳送或使用。備選地，在將揚聲器訊號或雙耳訊號變換到時域之前，可以對每個頻帶應用線性立體環繞聲渲染器2070，以獲得要在特定揚聲器佈局上或在耳機上播放的訊號。

值得注意的是，[Thiergart17]還教導了擴散聲音分量

只能合成到L階的可能性，其中L<H。這降低了計算複雜度，同時避免了由於大量使用解相關器而造成的合成偽像。

本發明的目的是提供一種用於從輸入訊號生成聲場描述的改進概念。

現有技術：用於單聲和FOA下混訊號的DirAC合成

基於一接收到的基於DirAC的空間音訊編碼流的常見的DirAC合成如下所述。由DirAC合成執行的渲染是基於解碼的下混音訊訊號和解碼的空間後設資料。

下混訊號是DirAC合成的輸入訊號。通過濾波器組將訊號變換到時頻域。濾波器組可以是像複值QMF那樣的複值濾波器組，也可以是像STFT那樣的塊轉換。

DirAC參數可以通過包含空間參數的輸入位元流直接傳送到DirAC合成。例如，在音訊傳輸應用的情況下，位元流可以由作為副資訊接收的量化和編碼的參數組成。

為了決定用於基於揚聲器的聲音再現的通道訊號，基於下混訊號和DirAC參數來決定每個揚聲器訊號。作為直接聲音分量和擴散聲音分量的組合獲得第j個揚聲器P _j(k,n)的訊號，即，P _j(k,n)=P _dir,j(k,n)+P _diff,j(k,n)

第j個揚聲器通道P _dir,j(k,n)的直接聲音分量可以通過用取決於擴散參數Ψ(k,n)和指向增益因子G _j(v(k,n))的因子，縮放所謂的參考訊號P _ref,j(k,n)來獲得，其中增益因子取決於聲音的到達方向(DOA)並且潛在地還取決於第j個揚聲器通道的位置。聲音的DOA例如可以用單位範數向量v(k,n)或根據方位角φ(k,n)和/或仰角θ(k,n)來表示，它們相關例如為：

指向增益因子G _j(v(k,n))可以使用眾所周知的方法來計算，例如基於向量的振幅平移(VBAP)[Pulkki97]。

考慮到上述情況，直接聲音分量可以表示為：

描述聲音的DOA和擴散度的空間參數或者在解碼器處從傳輸通道估計，或者從包括在位元流中的參數後設資料獲得。

可以基於參考訊號和擴散度參數來決定擴散聲分量P _diff,j(k,n)：

常態化因子G _norm取決於重播揚聲器的配置。通常，與不同揚聲器通道P _diff,j(k,n)相關聯的擴散聲音分量被進一步處理，即它們被相互解相關。這也可以通過解相關每個輸出通道的參考訊號來達到，即，

其中

表示P _ref,j(k,n)的解相關版本。

基於傳送的下混訊號獲得第j個輸出通道的參考訊號。在最簡單的情況下，下混訊號由單聲道全向訊號(例如，FOA訊號的全向分量W(k,n))組成，並且參考訊號對於所有輸出通道都是相同的：P _ref,j(k,n)=W(k,n)

如果傳輸通道對應於FOA訊號的四個分量，則可以通過FOA分量的線性組合來獲得參考訊號。通常，FOA訊號被組合，使得第j個通道的參考訊號對應於指出第j個揚聲器方向的虛擬心形麥克風訊號[Pulkki07]。

DirAC合成通常為增加數量的下混通道提供改進的聲音再現品質，因為可以減少所需的合成解相關量、通過指向增益因子進行的非線性處理的程度、或者不同揚聲器通道之間的串擾(cross-talk)，並且可以避免或減輕相關聯的偽像。

通常，將許多不同的傳輸訊號引入編碼音訊場景的直接方法一方面是不靈活的，另一方面是位元率消耗。通常，由於一個或多個分量不具有顯著的能量貢獻，因此可能不需要在所有情況下都將例如第一階立體環繞聲訊號的所有四個分量訊號引入編碼的音訊訊號中。另一方面，位元率要求可能很緊，這禁止將多於兩個傳輸通道引入表示空間音訊表示的編碼音訊訊號。在這種嚴格的位元率要求的情況下，編碼器和解碼器需要預先協商某種表示，並且基於此預先協商，基於預先協商的方式生成一定量的傳輸訊號，然後，音訊解碼器可以基於預先協商的知識從編碼的音訊訊號合成音訊場景。然而，儘管這對於位元率要求是有用的，但是它是不靈活的，並且另外可能導致音訊質量顯著降低，因為預先協商的過程對於某個音訊片可能不是最佳的，或者對於音訊片的所有頻帶或所有時間幀可能不是最優的。

因此，表示音訊場景的現有技術過程在位元率要求方面是非最佳的，是不靈活的，並且另外具有導致音訊質量顯著降低的高可能性。

本發明的目的是提供一種用於編碼空間音訊表示或解碼編碼的音訊訊號的改進概念。

通過請求項1的對空間音訊表示進行編碼的裝置、請求項21的用於解碼一編碼的音訊訊號的裝置、請求項39的對空間音訊表示進行編碼的方法、請求項41的用於解碼一編碼的音訊訊號的方法、請求項43的計算機程式或請求項44的編碼的音訊訊號來達到此目的。

本發明基於這樣的發現：除了從空間音訊表示匯出的傳輸表示之外，通過使用與傳輸表示的生成相關的或者指示傳輸表示的一個或多個指向性質的傳輸後設資料，獲得了關於位元率、靈活性和音訊品質的顯著改善。對表示音訊場景的空間音訊表示進行編碼的裝置因此從音訊場景生成傳輸表示，並且另外，傳輸後設資料與傳輸表示的生成相關，或者指示傳輸表示的一個或多個指向性質，或者與傳輸表示的生成相關，並且指示傳輸表示的一個或多個指向性質。此外，輸出介面輸出包括關於傳輸表示的資訊和關於傳輸後設資料的資訊的編碼音訊訊號。

在解碼器側，用於解碼編碼的音訊訊號的裝置包括用於接收編碼的音訊訊號的介面，此編碼的音訊訊號包括關於傳輸表示的資訊和關於傳輸後設資料的資訊，以及空間音訊合成器隨後使用關於傳輸表示的資訊和關於傳輸元資料的資訊來合成空間音訊表示。

諸如下混訊號的傳輸表示如何被生成的顯式指示和/或藉助於附加的傳輸後設資料對傳輸表示的一個或多個指向性質的顯式指示允許編碼器以高度靈活的方式生成編碼的音訊場景，此方式一方面提供良好的音訊品質，另一方面滿足小位元率需求。另外，通過傳輸後設資料，編碼器甚至可以一方面在位元率要求和另一方面在由編碼音訊訊號表示的音訊品質之間找到所需的最佳平衡。因此，顯式傳輸後設資料的使用允許編碼器應用生成傳輸表示的不同方式，並且不僅從音訊片到音訊片，甚至從一個音訊幀到下一個音訊幀，或者在一個和相同的音訊幀內，從一個頻帶到另一個頻帶，另外地調整傳輸表示的生成。自然地，通過單獨生成每個時頻瓦片的傳輸表示來獲得靈活性，使得例如可以為時間幀內的所有頻倉(frequency bin)生成相同的傳輸表示，或者備選地，可以為多個音訊時間幀上的一個相同頻帶生成相同的傳輸表示，或者可以為每個時間幀的每個頻倉生成單獨的傳輸表示。所有這些資訊(即，生成傳輸表示的方式以及傳輸表示是與完整幀相關，還是僅與許多時間幀上的時間/頻率帶或某個頻倉相關)也被包括在傳輸後設資料中，使得空間音訊合成器知道在編碼器側已經做了什麼，並且然後可以在解碼器側應用最佳過程。

優選地，某些傳輸後設資料備案(alternatives)是指示已經選擇了表示音訊場景的某個分量集合中的哪些分量的選擇資訊。又一傳輸後設資料備案涉及組合資訊，即是否和/或空間音訊表示的某些分量訊號如何被組合以生成傳輸表示。可用作傳輸後設資料的進一步資訊涉及扇區/半球資訊，此資訊指示某個傳輸訊號或傳輸通道涉及哪個扇區或哪個半球。此外，有用在本發明說明書的後設資料涉及指示音訊訊號的觀看方向的觀看方向資訊，此資訊被包括在優選地包含多個不同的傳輸訊號的傳輸表示中作為傳輸訊號。當傳輸表示由一個或多個麥克風訊號組成時，其它觀看方向資訊涉及麥克風觀看方向，一個或多個麥克風訊號可以例如由(空間擴充的)麥克風陣列中的物理麥克風記錄或者由重合麥克風記錄，或者備選地，這些麥克風訊號可以被合成地生成。其他傳輸後設資料涉及指示麥克風訊號是全向訊號還是具有諸如心形或偶極形狀的不同形狀的形狀參數資料。進一步的傳送後設資料涉及在傳輸表示內具有多於一個麥克風訊號的情況下麥克風的位置。其他有用的傳送後設資料涉及一個或多個麥克風的定位資料，涉及指示兩個麥克風之間的距離或麥克風的指向模式的距離資料。而且，附加的傳輸後設資料可以涉及諸如圓形麥克風陣列之類的麥克風陣列的描述或識別，或者涉及來自這種圓形麥克風陣列的哪些麥克風訊號已被選擇作為傳輸表示。

進一步的傳輸後設資料可以涉及關於波束成形、對應的波束成形權重或波束的對應方向的資訊，並且在這種情況下，傳輸表示通常由優選地合成地創造的具有某個波束方向的訊號組成。進一步的傳輸後設資料備案可以涉及純資訊，即所包括的傳輸訊號是全向麥克風訊號還是非全向麥克風訊號，例如心形訊號或偶極訊號。

因此，很明顯，不同的傳輸後設資料備案是高度靈活的，並且可以以高度緊湊的方式表示，使得附加的傳輸後設資料通常不會導致大量的附加位元率。相反，附加的傳輸後設資料的位元率要求通常可以小於傳輸表示的量的1%，甚至可以小於1/1000，甚至更小。然而，另一方面，這種非常少量的附加後設資料導致了更高的靈活性，同時，由於附加的靈活性以及由於在不同的音訊片上或者甚至在不同的時間幀和/或頻倉上的一個相同的音訊片上具有改變傳輸表示的可能性，音訊質量的顯著增加。

優選地，編碼器另外包括參數處理器，用於從空間音訊表示中生成空間參數，使得除了傳輸表示和傳輸後設資料之外，空間參數還被包括在編碼音訊訊號中，以提高音訊品質，使其超過只能藉助於傳輸表示和傳輸後設資料才能獲得的品質。這些空間參數優選為例如從DirAC編碼已知的僅取決於時間和/或頻率的到達方向(DOA)資料和/或取決於頻率和/或時間的擴散度資料。

在音訊解碼器側，輸入介面接收編碼的音訊訊號，此編碼的音訊訊號包括關於傳輸表示的資訊和關於傳輸後設資料的資訊。而且，在用於解碼編碼音訊訊號的裝置中提供的空間音訊合成器使用關於傳輸表示的資訊和關於傳輸後設資料的資訊兩者來合成空間音訊表示。在優選實施例中，解碼器另外使用可選地傳送的空間參數來合成空間音訊表示，解碼器不僅使用關於傳輸後設資料的資訊和關於傳輸表示的資訊，而且還使用空間參數，。

用於解碼編碼的音訊訊號的裝置接收傳輸後設資料，詮釋或解析接收到的傳輸後設資料，然後控制組合器，用於組合傳輸表示訊號或用於從傳輸表示訊號中選擇，或者用於生成一個或多個參考訊號。然後，組合器/選擇器/參考訊號生成器將參考訊號轉發到分量訊號計算器，分量訊號計算器根據具體選擇或生成的參考訊號計算所需的輸出分量。在優選實施例中，不僅組合器/選擇器/參考訊號生成器如空間音訊合成器中由傳輸後設資料控制，而且分量訊號計算器也受控制，從而基於接收到的傳輸資料，不僅控制參考訊號生成/選擇，而且控制實際分量計算。然而，其中僅分量訊號計算由傳輸後設資料控制或僅參考訊號生成或選擇僅由傳輸後設資料控制的實施例也是有用的，並且提供了比現有解決方案更好的靈活性。

不同訊號選擇備案的優選過程是選擇傳輸表示中的多個訊號中的一個作為分量訊號的第一子集的參考訊號，並且為分量訊號的另一個正交子集選擇傳輸表示中的另一個傳輸訊號，用於多通道輸出、第一階或較高階立體環繞聲輸出、音訊物件輸出或雙耳輸出。其他過程取決於基於包括在傳輸表示中的各個單獨訊號的線性組合來計算參考訊號。根據特定的傳輸表示實現，傳輸後設資料用於從實際傳送的傳輸訊號中決定(虛擬)通道的參考訊號，並基於後退來決定遺失的分量，諸如傳送的或生成的全向訊號分量。這些過程取決於使用與第一階或較高階立體環繞聲空間音訊表示的某個模和階相關的空間基函數響應來計算遺失的分量，優選FOA或HOA分量。

其他實施例涉及描述包括在傳輸表示中的麥克風訊號的傳輸後設資料，並且基於傳送的形狀參數和/或觀看方向，參考訊號決定適用於接收到的傳輸後設資料。而且，還基於傳輸後設資料執行全向訊號或偶極訊號的計算以及剩餘分量的附加合成，此傳輸後設資料指示例如第一傳輸通道是左或前心形訊號，並且第二傳輸訊號是右心形訊號或後心形訊號。

進一步的過程涉及基於某個揚聲器到某個麥克風位置的最小距離來決定參考訊號，或者選擇傳輸表示中包括的麥克風訊號作為參考訊號，此傳輸表示中包括的麥克風訊號具有最接近的觀看方向或最接近的波束成形器或某個最接近的陣列位置。進一步的過程是選擇任意傳輸訊號作為所有直接聲音分量的參考訊號，並且使用所有可用的傳輸訊號(例如從間隔的麥克風傳送的全向訊號)來生成擴散聲音參考訊號，然後通過新增直接和擴散分量來生成相應的分量，以獲得最終通道或立體環繞聲分量或物件訊號或雙耳通道訊號。在基於某個參考訊號計算實際分量訊號中特別實現的進一步的過程涉及設定(優選地限制)基於某個麥克風距離的相關量。

1000:聲音/電輸入

1010:編碼器介面

1020:DirAC階段

1022:下混塊

1030:DirAC後設資料編碼器

1040:核心編碼器

1045:IVAS解碼器

1046:解碼器介面

1050:DirAC後設資料解碼器

1060:IVAS核心解碼器

1070:DirAC合成器

2000:頻率濾波器組

2010:擴散度估計器

2020:方向估計器

2030,2040:開關

2050:指向增益評估器

2070:線性立體環繞聲渲染器

2080:逆濾波器組

601:下混生成塊

602:核心編碼器

603:後設資料編碼器，核心編碼器

605:傳輸後設資料生成器

605a:傳輸後設資料量化器

605b:傳輸後設資料熵編碼器

606:能量位置決定器

610:下混生成塊

611:傳輸表示，核心編碼表示

612,615,712,722:空間參數

614:下混音訊，傳輸表示

610,630,720:下混參數

620:參數處理器

621:空間音訊分析塊

622:後設資料編碼器

630:後設資料，下混參數

640:輸出界面

641:位元流生成器

710:傳輸後設資料

711:傳輸訊號，傳輸表示

750:空間音訊合成器

751:核心解碼器

752:後設資料解碼器

753:空間音訊合成塊

754:第一階或較高階(FOA/HOA)表示

755:多通道(MC)表示

756:物件表示(物件)

760:組合器/選擇器/參考訊號生成器

770:分量訊號計算器

隨後參照附圖公開了本發明的優選實施例，其中：〔圖1a〕示出了具有立體環繞聲通道/分量編號的球諧函數；〔圖1b〕示出了基於DirAC的空間音訊編碼處理器的編碼器側；〔圖2a〕示出了基於DirAC的空間音訊編碼處理器的解碼器；〔圖2b〕示出了本領域已知的較高階立體環繞聲合成處理器；〔圖3〕示出了支援DirAC的基於DirAC的空間音訊編碼的編碼器側；〔圖4〕示出了傳遞不同音訊格式的基於DirAC的空間音訊編碼的解碼器側；〔圖5〕示出了用於對空間音訊表示進行編碼的裝置的另一實施例；〔圖6〕示出了用於對空間音訊表示進行編碼的裝置的另一實施例；〔圖7〕示出了用於編碼的音訊訊號進行解碼的裝置的另一實施例；〔圖8a〕示出了用於傳輸表示生成器的一組實現，它們彼此單獨地使用或一起使用；〔圖8b〕示出了展示彼此單獨地使用或一起使用的不同傳送後設資料備案的表；〔圖8c〕示出了用於傳輸後設資料的後設資料編碼器的另一實現，或者如果合適的話，用於空間參數的後設資料編碼器；〔圖9a〕示出了圖7的空間音訊合成器的優選實現；〔圖9b〕示出了具有n個傳輸訊號的傳輸表示的編碼音訊訊號圖；〔圖9c〕示出了示出取決於揚聲器識別和傳送後設資料的參考訊號選擇器/生成器的功能的表；〔圖9d〕示出了空間音訊合成器的另一實施例；〔圖9e〕示出了示出不同傳輸後設資料的另一表；〔圖9f〕示出了空間音訊合成器的另一實現；〔圖9g〕示出了空間音訊合成器的另一實施例；〔圖9h〕示出了空間音訊合成器的另一組實現備案，空間音訊合成器可彼此單獨使用或一起使用；〔圖10〕示出了用於使用直接訊號和擴散訊號來計算低階或中階聲場分量的示例性優選實現；〔圖11〕示出了僅使用沒有擴散分量的直接分量來計算較高階聲場分量的另一實現；〔圖12〕示出了使用與擴散部分結合的直接部分來計算(虛擬)揚聲器訊號分量或物件的另一實現；

圖6示出了對表示音訊場景的空間音訊表示進行編碼的裝置。裝置包括傳輸表示生成器600，用於從空間音訊表示生成傳輸表示。而且，傳輸表示生成器600生成與傳輸表示的生成相關或指示傳輸表示的一個或多個指向性質的傳輸後設資料。此裝置另外包括用於輸出編碼音訊訊號的輸出介面640，其中編碼音訊訊號包括關於傳輸表示的資訊和關於傳輸後設資料的資訊。除了傳輸表示生成器600和輸出介面640之外，裝置優選地包括使用者介面650和參數處理器620。參數處理器620被配置為用於從空間音訊表示中匯出空間參數，並且優選地提供(編碼的)空間參數612。而且，除了(編碼的)空間參數612之外，(編碼的) 傳輸後設資料610和(編碼的)傳輸表示611被轉發到輸出介面640，以優選地將三個編碼項多工到編碼的音訊訊號中。

圖7示出了用於解碼編碼的音訊訊號的裝置的優選實現。編碼的音訊訊號被輸入到輸入介面700，並且輸入介面在編碼的音訊訊號內接收關於傳輸表示的資訊和關於傳輸後設資料的資訊。將傳輸表示711從輸入介面700轉發到空間音訊合成器750。而且，空間音訊合成器750從輸入介面接收傳輸後設資料710，並且如果包括在編碼的音訊訊號中，則優選地，另外接收空間參數712。為了合成空間音訊表示，空間音訊合成器750使用項710、711，並且優選地另外使用項712。

圖3示出了用於對圖3中指示為空間音訊訊號的空間音訊表示進行編碼的裝置的優選實現。具體地，空間音訊訊號被輸入到下混生成塊610和空間音訊分析塊621。從空間音訊訊號從空間音訊分析塊621匯出的空間參數615被輸入到後設資料編碼器622。而且，由下混生成塊601生成的下混參數630也被輸入到後設資料編碼器603。後設資料編碼器621和後設資料編碼器603在圖3中都被指示為單個塊，但是也可以被實現為分離的複數塊。下混音訊訊號640被輸入到核心編碼器603中，並且核心編碼表示611被輸入到位元流生成器641中，位元流生成器641另外接收編碼的下混參數610和編碼的空間參數612。因此，在圖3的實施例中，圖6所示的傳輸表示生成器600包括下混生成塊601和核心編碼器塊603。而且，圖6中所示的參數處理器620包括用於空間參數615的空間音訊分析器塊621和後設資料編碼器塊622。而且，圖6的傳輸表示生成器600另外包括用於傳送後設資料630的後設資料編碼器塊603，後設資料630由後設資料編碼器603作為編碼的傳輸後設資料610輸出。在圖3的實施例中，輸出介面640被實現為位元流生成器641。

圖4示出了用於解碼編碼的音訊訊號的裝置的優選實現。具體地，此裝置包括後設資料解碼器752和核心解碼器751。後設資料解碼器752接收編碼的傳輸後設資料710作為輸入，核心解碼器751接收編碼的傳輸表示711。而且，後設資料解碼器752優選地在可用時接收編碼的空間參數712。後設資料解碼器752解碼傳輸後設資料710以獲得下混參數720，並且後設資料解碼器752優選地解碼編碼的空間參數712以獲得解碼的空間參數722。將解碼的傳輸表示或下混音訊表示721與傳輸後設資料720一起輸入到空間音訊合成塊753中，並且另外，空間音訊合成塊753可以接收空間參數722，以便使用兩個分量721和720或所有三個分量721、720和722來生成包括第一階或較高階(FOA/HOA)表示754或包括多通道(MC)表示755或包括物件表示(物件)756的空間音訊，如圖4所示。因此，圖7所示的用於解碼編碼的音訊訊號的裝置在空間音訊合成器750內包括圖4的塊752、751和753，並且空間音訊表示可以包括圖4的754、755和756所示的備案之一。

圖5示出了用於編碼表示音訊場景的空間音訊表示的裝置的進一步實現。這裡，麥克風訊號被提供做為表示音訊場景的空間音訊表示，並且優選地，提供與麥克風訊號相關聯的附加空間參數。因此，在圖5實施例中，參考圖6討論的傳輸表示600包括下混生成塊601、用於下混參數613的後設資料編碼器603和用於下混音訊表示的核心編碼器602。與圖3實施例不同，空間音訊分析器塊621不包括在用於編碼的裝置中，因為麥克風輸入已經優選地以分離的形式一方面具有麥克風訊號，另一方面具有空間參數。

在參考圖3到圖5討論的實施例中，下混音訊614表示傳輸表示，下混參數613表示與傳輸表示的生成相關的傳輸後設資料的備案，或者如稍後將概述的那樣，傳輸後設資料指示傳輸表示的一個或多個指向性質。

本發明的優選實施例：用於靈活的傳輸通道配置的下混信令

在一些應用中，由於位元率限制，不可能將FOA訊號的所有四個分量都作為傳輸通道來傳送，而只能傳輸具有減少數目的訊號分量或通道的下混訊號。為了在解碼器達到改進的再現質量，傳送的下混訊號的產生可以以時變的方式進行，並且可以適應於空間音訊輸入訊號。如果空間音訊編碼系統允許包括靈活的下混訊號，則重要的是不僅傳送這些傳輸通道，而且還包括指定下混訊號的重要空間特性的後設資料。然後，位於空間音訊編碼系統的解碼器處的DirAC合成能夠考慮下混訊號的空間特性以最佳方式適應渲染過程。因此，本發明提出在用於指定或描述下混傳輸通道的重要空間特徵的參數化空間音訊編碼流中，包括下混相關的後設資料，以便改善空間音訊解碼器處的渲染品質。

下面將描述實際的下混訊號配置的示例。

如果輸入空間音訊訊號主要包括水平面中的聲能，則下混訊號中僅包括對應於全向訊號、與x軸對準的偶極訊號和與笛卡爾座標系的y軸對準的偶極訊號的FOA訊號的前三個訊號分量，而排除與z軸對齊的偶極訊號。

在另一示例中，可以僅傳送兩個下混訊號以進一步降低傳輸通道所需的位元率。例如，如果存在來自左半球的優勢的聲能，則有利的是生成包括主要來自左側的聲能的下混聲道和生成包括主要來自相反方向的聲音的附加下混聲道，即在此示例中是右半球。這可以通過FOA訊號分量的線性組合來實現，使得所得到的訊號對應於具有分別指向左側和右側的心形指向性模式的指向麥克風訊號。類似地，通過適當地組合FOA輸入訊號，可以生成對應於分別指向前方向和後方向的第一階指向性模式或任何其他所需指向模式的下混訊號。

在DirAC合成階段，基於傳送的空間後設資料(例如聲音和擴散度的DOA)和音訊傳輸通道的揚聲器輸出通道的計算必須適應於實際使用的下混配置。更具體地說，第j個揚聲器P _ref,j(k,n)的參考訊號最合適的選擇取決於下混訊號的指向特性和第j個揚聲器的位置。

例如，如果下混訊號對應於分別指向左側和右側的兩個心形麥克風訊號，則位於左半球的揚聲器的參考訊號應該僅使用指向左側的心形訊號作為參考訊號P _ref,j(k,n)。位於中心的揚聲器可以改為使用兩個下混訊號的線性組合。

另一方面，如果下混訊號對應於分別指向前側和後側的兩個心形麥克風訊號，則位於前半球的揚聲器的參考訊號應該僅使用指向前側的心形訊號作為參考訊號P _ref,j(k,n)。

重要的是要注意，如果DirAC合成使用錯誤的下混訊號作為用於渲染的參考訊號，則必須預期空間音訊質量的顯著降低。例如，如果對應於指向左側的心形麥克風的下混訊號用於生成位於右半球的揚聲器的輸出通道訊號，則來自輸入聲場的左半球的訊號分量將主要指向再現系統的右半球，從而導致輸出的錯誤空間影像。

因此，優選的是在空間音訊編碼流中包括參數資訊，此參數資訊指定下混訊號的空間特性，例如對應的指向麥克風訊號的指向性模式。然後，位於空間音訊編碼系統的解碼器處的DirAC合成能夠考慮下混相關的後設資料中所描述的下混訊號的空間特性，以最佳方式適應渲染過程。

使用立體環繞聲分量選擇實現FOA和HOA音訊輸入的靈活下混

在本實施例中，空間音訊訊號，即編碼器的音訊輸入訊號，對應於FOA(第一階立體環繞聲)或HOA(較高階立體環繞聲)音訊訊號。編碼器的對應塊方案如圖3所示。輸入到編碼器的是空間音訊訊號，例如FOA或HOA訊號。在「空間音訊分析」塊中，如前所述估計DirAC參數，即空間參數(例如，DOA和擴散度)。所提出的靈活下混的下混訊號在「下混生成」塊中產生，這將在下面更詳細地解釋。所生成的下混訊號被稱為D _m(k,n)，其中m是下混通道的索引。然後，例如使用如前所述的基於EVS的音訊編碼器，將生成的下混訊號編碼在「核心編碼器」塊中。下混參數(即，描述關於如何建立下混的相關資訊或下混訊號的其他指向性質的參數)與空間參數一起在後設資料編碼器中編碼。最後，將編碼的後設資料和編碼的下混訊號轉換成位元流，位元流可以被發送到解碼器。

下面將更詳細地說明「下混生成」塊和下混參數。例如，如果輸入空間音訊訊號主要包括水平面中的聲能，則下混訊號中僅包括對應於全向訊號W(k,n)的FOA/HOA訊號的三個訊號分量、與x軸對準的偶極訊號X(k,n)、以及與笛卡爾座標系的y軸對準的偶極訊號Y(k,n)，而排除與z軸(以及所有其它較高階分量，如果存在的話)對準的偶極訊號Z(k,n)，這意味著，下混訊號由下式給出：D ₁(k,n)=W(k,n), D ₂(k,n)=X(k,n), D ₃(k,n)=Y(k,n)

此外，如果例如輸入空間音訊訊號主要包括x-z平面中的聲能，則下混訊號包括偶極訊號Z(k,n)而不是Y(k,n)。

在此實施例中，圖3中描述的下混參數包含哪些FOA/HOA分量已被包括在下混訊號中的資訊。資訊可以是例如對應於所選FOA分量的索引的一組整數，例如，如果包括W(k,n)、X(k,n)和Z(k,n)分量，則為{1，2，4}。

注意，下混訊號的FOA/HOA分量的選擇可以例如基於使用者手動輸入或自動完成。例如，當空間音訊輸入訊號被記錄在機場跑道上時，可以假設大部分聲能包含在特定的垂直笛卡爾平面中。在這種情況下，例如選擇W(k,n)、X(k,n)和Z(k,n)分量。相反地，如果錄音是在十字路口進行的，可以假設大部分聲能包含在水平笛卡爾平面內。在這種情況下，例如選擇W(k,n)、X(k,n)和Y(k,n)分量。此外，如果例如將攝影機與音訊記錄一起使用，則可以使用面部識別演算法來檢測說話者位於哪個笛卡爾平面中，因此，可以為了下混選擇對應於此平面的FOA分量。或者，可以通過使用最先進的聲源定位演算法來決定具有最高能量的笛卡爾座標系的平面。

還應注意，FOA/HOA分量選擇和相應的下混後設資料可以是時間和頻率相關的，例如，可以分別為每個頻帶和時間例項自動選擇不同的分量和索引集合(例如，通過自動決定每個時頻點具有最高能量的笛卡爾平面)。例如，可以通過利用時頻相關(time-frequency dependent)的空間參數[Thiergart09]中包含的資訊來實現直接聲能的本地化。

對應於本實施例的解碼器塊方案在圖4中描述。輸入到解碼器的是包含編碼的後設資料和編碼的下混音訊訊號的位元流。下混音訊訊號在「核心解碼器」中被解碼，後設資料在「後設資料解碼器」中被解碼。解碼的後設資料由空間參數(例如，DOA和擴散度)和下混參數組成。解碼後的下混音訊訊號和空間參數用於「空間音訊合成」塊中以建立目標的空間音訊輸出訊號，其可以是例如FOA/HOA訊號、多通道(MC)訊號(例如揚聲器訊號)、音訊物件或用於耳機重播的雙耳立體聲輸出。空間音訊合成另外由下混參數控制，如下所述。

前面描述的空間音訊合成(DirAC合成)需要用於每個輸出通道j的合適的參考訊號P _ref,j(k,n)。在本發明中，提出使用附加的下混後設資料從下混訊號D _m(k,n)計算P _ref,j(k,n)。在此實施例中，下混訊號D _m(k,n)由FOA或HOA訊號的特別選擇的分量組成，並且下混後設資料描述哪些FOA/HOA分量已經被傳送到解碼器。

當渲染給揚聲器(即，解碼器的MC輸出)時，當為每個揚聲器通道計算指向相應揚聲器的所謂虛擬麥克風訊號時，可以實現高質量輸出，如[Pulkki07]中所解釋的。通常，計算虛擬麥克風訊號需要所有FOA/HOA分量在DirAC合成中都可用。然而，在此實施例中，在解碼器處只有原始FOA/HOA分量的子集可用。在這種情況下，如下混後設資料所示，虛擬麥克風訊號只能針對其FOA/HOA分量可用的笛卡爾平面來計算。例如，如果下混後設資料指示已經發送了W(k,n)、X(k,n)和Y(k,n)分量，則我們可以計算x-y平面(水平面)中所有揚聲器的虛擬麥克風訊號，其中計算可以如[Pulkki07]中所描述的那樣執行。對於水平平面外的高架揚聲器，我們可以使用參考訊號P _ref,j(k,n)的後退(fallback)解，例如，我們可以使用全向分量W(k,n)。

注意，當渲染到雙耳立體聲輸出(例如，用於耳機重播)時，可以使用類似的概念。在這種情況下，兩個輸出通道的兩個虛擬麥克風指向虛擬立體聲揚聲器，其中揚聲器的位置取決於收聽者的頭部定向。如果虛擬揚聲器位於笛卡爾平面內，如下混後設資料所指示的，對於此笛卡爾平面，已經傳送了FOA/HOA分量，則我們可以計算相應的虛擬麥克風訊號。否則，對參考訊號P _ref,j(k,n)(例如，全向分量W(k,n))使用後退解。

當渲染到FOA/HOA(圖4中解碼器的FOA/HOA輸出)時，下混後設資料的使用如下：下混後設資料指示哪些FOA/HOA分量已被傳送。這些分量不需要在空間音訊合成中計算，因為傳送的分量可以直接在解碼器輸出處使用。在空間聲音合成中，例如通過使用全向分量W(k,n)作為參考訊號P _ref,j(k,n)來計算所有剩餘的FOA/HOA分量。例如在[Thiergart17]中描述了使用空間後設資料從全向分量W(k,n)合成FOA/HOA分量。

使用組合的立體環繞聲分量於FOA和HOA音訊輸入的靈活下混

在本實施例中，空間音訊訊號，即編碼器的音訊輸入訊號，對應於FOA(第一階立體環繞聲)或HOA(較高階立體環繞聲)音訊訊號。編碼器的相應塊方案分別在圖3和圖4中描述。在本實施例中，可以僅將兩個下混訊號從編碼器傳送到解碼器，以進一步降低傳輸通道所需的位元率。例如，如果存在源自左半球的優勢的聲能，則有利的是生成包括主要來自左半球的聲能的下混通道和包括主要來自相反方向(即，在此示例中的右半球)的聲音的附加下混通道。這可以通過FOA或HOA音訊輸入訊號分量的線性組合來實現，使得所得到的訊號對應於具有例如分別指向左半球和右半球的心形指向性模式的指向麥克風訊號。類似地，通過分別適當地組合FOA或HOA音訊輸入訊號，可以生成分別對應於分別指向前方向和後方向的第一階(或較高階)指向性模式或任何其他所需指向模式的下混訊號。

下混訊號在圖3的「下混生成」塊的編碼器中產生。下混訊號是從FOA或HOA訊號分量的線性組合中獲得的。例如，在FOA音訊輸入訊號的情況下，四個FOA訊號分量對應於全向訊號W(k,n)和三個偶極訊號X(k,n)、Y(k,n)和Z(k,n)，其中指向性模式與笛卡爾座標系的x、y、z軸對準。這四個訊號通常稱為B格式訊號。可以通過四個B格式分量的線性組合獲得的所得到的指向性模式通常被稱為第一階指向性模式。第一階指向性模式或相應的訊號可以用不同的方式表示。例如，第m個下混訊號D _m(k,n)可以由具有相關權重的B格式訊號的線性組合來表示，即D _m(k,n)=a _m,W W(k,n)+a _m,X X(k,n)+a _m,Y Y(k,n)+a _m,Z Z(k,n).。

注意，在HOA音訊輸入訊號的情況下，可以使用可用的HOA係數類似地執行線性組合。線性組合的權重，即本例中的權重a _m,W、a _m,X、a _m,Y和a _m,Z，決定所得到的指向麥克風訊號的指向性模式，即第m個下混訊號D _m(k,n)的指向性模式。在FOA音訊輸入訊號的情況下，線性組合的目標權重可以計算為：a _m,W=c _m[a _m,X a _m,Y a _m,Z]^T=(1-c _m)w _m

其中

於此，c _m是所謂的第一階參數或形狀參數，並且Φ_m和Θ_m是所生成的第m個指向麥克風訊號的觀看方向的目標方位角和仰角。例如，對於c _m=0.5，實現了具有心形指向性的指向麥克風，c _m=1對應於全向特性，c _m=0對應於偶極特性。換言之，參數c _m描述了第一階指向性模式的一般形狀。

線性組合的權重(例如a _m,W、a _m,X、a _m,Y和a _m,Z)或相應的參數c _m、Φ_m和Θ_m描述了相應指向麥克風訊號的指向性模式。此資訊由圖3中的編碼器中的下混參數表示，並且作為後設資料的一部分被傳送到解碼器。

可以使用不同的編碼策略來有效地表示位元流中的下混參數，包括量化指向資訊或通過索引參照表項目，其中表包括所有相關參數。

在一些實施例中，對於觀看方向Φ_m和Θ_m以及對於形狀參數c _m，僅使用有限數量的預設已經足夠或者更有效。這顯然對應於也對權重a _m,W、a _m,X、a _m,Y和a _m,Z使用有限數量的預置。例如，形狀參數可以被限制為僅表示三種不同的指向性模式：全向、心形和偶極特性。可以限制可能的觀看方向Φ_m和Θ_m的數量，使得它們僅表示左、右、前、後、上和下的情況。

在另一個更簡單的實施例中，形狀參數保持固定，並且總是對應於心形模式，或者根本沒有定義形狀參數。與觀看方向相關聯的下混參數用於發訊通知一對下混通道是否對應於左/右或前/後通道對配置，使得解碼器處的渲染處理可以使用最佳下混通道作為用於渲染位於左半球、右半球或前半球中的某個揚聲器通道的參考訊號。

在實際應用中，參數c _m可以例如手動定義(通常c _m=0.5)。可以自動設定觀看方向Φ_m和Θ_m(例如，通過使用現有技術的聲源定位方法來定位活動聲源，並且將第一下混訊號引導到本地化的源，並將第二下混訊號引導到相反的方向)。

注意，與在先前實施例中類似，下混參數可以是時頻相關的，即，可以針對每個時間和頻率使用不同的下混配置(例如，當根據單獨定位在每個頻帶中的主動源方向來引導下混訊號時)。例如，可以通過利用時頻相關空間參數[Thiergart09]中包含的資訊來實現定位。

在圖4中的解碼器中的「空間音訊合成」階段中，解碼器輸出訊號(FOA/HOA輸出、MC輸出或物件輸出)的計算(如前所述使用所傳送的空間參數(例如聲音和擴散度的DOA)和下混音訊通道D _m(k,n))必須適應於實際使用的下混配置，此下混配置由下混後設資料指定。

例如，當產生揚聲器輸出聲道(MC輸出)時，參考訊號P _ref,j(k,n)的計算必須適應實際使用的下混配置。更具體地說，第j個揚聲器的參考訊號P _ref,j(k,n)的最合適選擇取決於下混訊號的指向特性(例如，它的觀看方向)和第j個揚聲器的位置。例如，如果下混後設資料指示下混訊號對應於分別指向左側和右側的兩個心形麥克風訊號，則位於左半球的揚聲器的參考訊號應該主要或僅使用指向左側的心形下混訊號作為參考訊號P _ref,j(k,n)。位於中心的揚聲器可以改為使用兩個下混訊號的線性組合(例如，兩個下混訊號的總和)。另一方面，如果下混訊號分別對應於指向前面和後面的兩個心形麥克風訊號，則位於前半球的揚聲器的參考訊號應該主要或僅使用指向前面的心形訊號作為參考訊號P _ref,j(k,n)。

當在圖4中的解碼器中生成FOA或HOA輸出時，參考訊號P _ref,j(k,n)的計算也必須適應由下混後設資料描述的實際使用的下混配置。例如，如果下混後設資料指示下混訊號對應於分別指向左側和右側的兩個心形麥克風訊號，則用於合成第一FOA分量(全向分量)的參考訊號P _ref,1(k,n)可以被計算為兩個心形下混訊號的和，即P _ref,1(k,n)=D ₁(k,n)+D ₂(k,n)

事實上，已知具有相反觀看方向的兩個心形訊號之和導致全向訊號。在這種情況下，P _ref,1(k,n)直接產生目標的FOA或HOA輸出訊號的第一分量，即此分量不需要進一步的空間聲音合成。類似地，可以將第三FOA分量(y方向上的偶極分量)計算為兩個心形下混訊號的差，即P _ref,3(k,n)=D ₁(k,n)-D ₂(k,n)

事實上，眾所周知，兩個觀看方向相反的心形訊號的差會導致偶極訊號。在這種情況下，P _ref,3(k,n)直接產生目標的FOA或HOA輸出訊號的第三分量，即此分量不需要進一步的空間聲音合成。所有剩餘的FOA或HOA分量可以從包含來自所有方向的音訊資訊的全向參考訊號合成。這意味著，在此示例中，兩個下混訊號的和用於合成剩餘的FOA或HOA分量。如果下混後設資料指示兩個音訊下混訊號的不同方向性，則可以相應地調整參考訊號P _ref,j(k,n)的計算。例如，如果兩個心形音訊下混訊號指向前和後(而不是左和右)，則兩個下混訊號的差可以用於生成第二FOA分量(x方向上的偶極分量)，而不是第三FOA分量。一般而言，如以上示例所示，最佳參考訊號P _ref,j(k,n)可以通過接收的下混音訊訊號的線性組合來找到，即P _ref,j(k,n)=A _1,j D ₁(k,n)+A _2,j D ₂(k,n)

其中權重A _1,j和A _2,j的線性組合取決於下混後設資料，即取決於傳輸通道配置和所考慮的第j個參考訊號(例如，當渲染到第j個揚聲器時)。

注意，例如在[Thiergart17]中描述了使用空間後設資料從全向分量合成FOA或HOA分量。

通常，重要的是要注意，如果空間音訊合成使用錯誤的下混訊號作為用於渲染的參考訊號，則必須預期空間音訊質量的顯著降低。例如，如果對應於指向左側的心形麥克風的下混訊號用於生成位於右半球的揚聲器的輸出通道訊號，則源自輸入聲場的左半球的訊號分量將主要指向再現系統的右半球，從而導致輸出的錯誤空間影像。

用於參數化空間音訊輸入的靈活下混

在本實施例中，編碼器的輸入對應於所謂的參數化空間音訊輸入訊號，其包括由兩個或更多個麥克風組成的任意陣列配置的音訊訊號以及空間聲音的空間參數(例如，DOA和擴散度)。

圖5中描述了本實施例的編碼器。麥克風陣列訊號用於在「下混生成」塊中生成一個或多個音訊下混訊號。描述傳輸通道配置(例如，如何計算下混訊號或它們的一些屬性)的下混參數與空間參數一起表示編碼器後設資料，編碼器後設資料被編碼在「後設資料編碼器」塊中。注意，通常對於參數化空間音訊輸入不需要空間音訊分析步驟(與先前實施例形成對比)，因為已經將空間參數作為輸入提供給編碼器。然而，請注意，參數化空間音訊輸入訊號的空間參數和由空間音訊編碼器生成的用於傳輸的位元流中包括的空間參數不必相同。在這種情況下，必須在編碼器執行輸入空間參數和用於傳輸的參數的程式碼轉換或對映。下混音訊訊號例如使用基於EVS的音訊編解碼器在「核心編碼器」塊中編碼。編碼的音訊下混訊號和編碼的後設資料形成傳送到解碼器的位元流。對於解碼器，圖4中的相同塊方案適用於先前的實施例。

以下，描述如何生成音訊下混訊號和對應的下混後設資料。

在第一示例中，通過選擇可用輸入麥克風訊號的子集來生成音訊下混訊號。此選擇可以手動(例如，基於預設)或自動完成。例如，如果使用具有M個間隔全向麥克風的均勻圓形陣列的麥克風訊號作為空間音訊編碼器的輸入，並且使用兩個音訊下混傳輸通道進行傳送，則手動選擇可以包括例如選擇對應於陣列前面和後面的麥克風的一對訊號，或者選擇對應於陣列左側和右側的麥克風的一對訊號。當在解碼器處合成空間聲音時，選擇前麥克風和後麥克風作為下混訊號使得能夠很好地區分正面聲音和來自背面的聲音。類似地，當在解碼器側渲染空間聲音時，選擇左麥克風和右麥克風將能夠很好地辨別沿y軸的空間聲音。例如，如果錄製的聲源位於麥克風陣列的左側，則源訊號到達左麥克風和右麥克風的時間會有所不同。換句話說，訊號首先到達左邊的麥克風，然後到達右邊的麥克風。因此，在解碼器處的渲染過程中，使用與左麥克風訊號相關聯的下混訊號來渲染到位於左半球的揚聲器，並且類似地，使用與右麥克風訊號相關聯的下混訊號來渲染到位於右半球的揚聲器，這也是重要的。否則，分別包括在左和右下混訊號中的時間差將以不正確的方式指向到揚聲器，並且由揚聲器訊號所產生的感知提示是不正確的，即，由收聽者感知的空間音訊影像也將是不正確的。類似地，重要的是能夠在解碼器處區分對應於前、後或上和下的下混通道，以便實現最佳渲染質量。

可以通過考慮包含大部分聲能的笛卡爾平面或預期包含最相關聲能的笛卡爾平面來選擇合適的麥克風訊號。為了執行自動選擇，可以執行例如現行技術的聲源定位，然後選擇最接近對應於源方向的軸的兩個麥克風。例如，如果麥克風陣列由M個重合的指向麥克風(例如心形)代替間隔的全向麥克風，則可以應用類似的概念。在這種情況下，可以選擇兩個指向麥克風，它們的方向與包含(或預期包含)大部分聲能的笛卡爾軸方向相反。

在第一個示例中，下混後設資料包含有關所選麥克風的相關資訊。此資訊可以包含例如所選麥克風的麥克風位置(例如，根據笛卡爾座標系中的絕對或相對座標)和/或麥克風之間的距離和/或方向(例如，根據極座標系中的座標，即，根據方位角和仰角Φ_m和Θ_m)。另外，下混後設資料可以包括關於所選麥克風的指向性模式的資訊，例如通過使用前面描述的第一階參數c _m。

在解碼器側(圖4)，在「空間音訊合成」塊中使用下混後設資料以獲得最佳渲染質量。例如，對於揚聲器輸出(MC輸出)，當下混後設資料指示在兩個特定位置的兩個全向麥克風作為下混訊號被傳送時，如前所述從其生成揚聲器訊號的參考訊號P _ref,j(k,n)可以被選擇為對應於到第j個揚聲器位置具有最小距離的下混訊號。類似地，如果下混後設資料指示傳送了具有觀看方向{Φ_m,Θ_m}的兩個指向麥克風，則可以選擇P _ref,j(k,n)以對應於具有最接近朝向揚聲器位置的觀看方向的下混訊號。或者，如第二實施例中所解釋的，可以執行被傳送的重合指向下混訊號的線性組合。

當在解碼器處生成FOA/HOA輸出時，如果下混後設資料指示間隔的全向麥克風已經被傳送，則可以(隨意)選擇單個下混訊號來為所有FOA/HOA分量生成直接聲音。事實上，由於全向特性，每個全向麥克風包含關於要再現的直接聲音的相同資訊。然而，為了產生擴散參考訊號

，可以考慮所有傳送的全向下混訊號。事實上，如果聲場是擴散的，則間隔的全向下混訊號將部分地解相關，使得需要較少的解相關來產生相互不相關的參考訊號

。可以通過使用例如在[Vilkamo13]中提出的基於共變異數(covariance)的渲染方法，從傳送的下混音訊訊號生成相互不相關的參考訊號。

眾所周知，擴散聲場中兩個麥克風的訊號之間的相關性強烈取決於麥克風之間的距離：麥克風的距離越大，擴散聲場中記錄的訊號之間的相關性就越小[Laitinen11]。下混參數中包括的與麥克風距離有關的資訊可以在解碼器處使用，來決定下混通道必須在多大程度上合成地解相關以適合用來渲染擴散聲音分量。在下混訊號已經由於足夠大的麥克風間距而充分解相關的情況下，甚至可以捨棄人工解相關，並且可以避免任何與解相關有關的偽像。

當下混後設資料指示例如重合的指向麥克風訊號已經作為下混訊號被傳送時，則可以生成用於FOA/HOA輸出的參考訊號P _ref,j(k,n)，如第二實施例中所解釋的。

注意，不是選擇麥克風的子集作為編碼器中的下混音訊訊號，而是可以選擇所有可用的麥克風輸入訊號(例如，兩個或更多)作為下混音訊訊號。在這種情況下，下混後設資料例如根據笛卡爾麥克風位置、極座標中的麥克風觀看方向Φ_m和Θ_m、或根據第一階參數c_m的麥克風指向性來描述整個麥克風陣列配置。

在第二示例中，在編碼器中使用輸入麥克風訊號的線性組合(例如，使用空間濾波(波束成形))在「下混生成」塊中生成下混音訊訊號。在這種情況下，下混訊號D _m(k,n)可以計算為

這裡，x(k,n)是包含所有輸入麥克風訊號的向量，而

是用於第m個音訊下混訊號的線性組合的權重，即空間濾波器或波束成形器的權重。有多種方法可以以最佳方式計算空間濾波器或波束成形器[Veen88]。在許多情況下，定義波束成形器指向的觀看方向{Φ_m,Θ_m}。然後，可以計算波束成形器權重，例如，作為延遲和總和波束成形器或MVDR波束成形器[Veen88]。在此實施例中，針對每個音訊下混訊號定義波束成形器觀看方向{Φ_m,Θ_m}。這可以手動(例如，基於預設)或以與第二實施例中描述的相同方式自動完成。然後，表示不同音訊下混訊號的波束成形器訊號的觀察方向{Φ_m,Θ_m}可以表示傳送到圖4中的解碼器的下混後設資料。

另一示例尤其適用於在解碼器處使用揚聲器輸出(MC輸出)的情況。在這種情況下，下混訊號D _m(k,n)被用作波束成形器觀看方向最接近揚聲器方向P _ref,j(k,n)。所需的波束成形器觀察方向由下混後設資料描述。

注意，在所有示例中，與在先前實施例中類似，傳輸通道配置(即，下混參數)可以例如基於空間參數，被調整為時頻相關。

隨後，關於相同的或附加的或另外的方面討論本發明的其他實施例或前面已經描述的實施例。

優選地，圖6的傳輸表示生成器600包括圖8a中所示的一個或幾個特徵。具體地，提供控制塊602的能量位置決定器606。塊602可以包括選擇器，用於在輸入是FOA或HOA訊號時從立體環繞聲係數訊號中進行選擇。可替換地或附加地，能量位置決定器606控制用於組合立體環繞聲係數訊號的組合器。附加地或可替換地，從多通道表示或從麥克風訊號中進行選擇。在這種情況下，輸入具有麥克風訊號或多通道表示，而不是FOA或HOA資料。另外或可替換地，如圖8A中的602處所示，執行通道組合或麥克風訊號的組合。對於下面兩個備案，輸入多通道表示或麥克風訊號。

由一個或多個塊602中生成的傳輸資料被輸入到包括在圖6的傳輸表示生成器600中的傳輸後設資料生成器605中，以便生成(編碼的)傳輸後設資料610。

塊602中的任何一個生成優選的非編碼傳輸表示614，非編碼傳輸表示614隨後由諸如圖3或圖5所示的核心編碼器603進一步編碼。

概括地說，傳輸表示生成器600的實際實現可以僅包括圖8a中的塊602中的一個或圖8a中所示的塊中的兩個或多個。在後者的情況，傳輸後設資料生成器605被配置成另外將另一個傳輸後設資料項目包括到傳輸後設資料610中，傳輸後設資料610酯示對空間音訊表示的哪一部分(時間和/或頻率)在項目602中指示的任何一個備案已被採用。因此，圖8a示出了備案602中只有一個處於活動狀態，或者兩個或更多個處於活動狀態，並且可以在用於傳輸表示生成或下混的不同備案和相應的傳輸中繼資料之間，執行訊號相關的切換的情况。

圖8b示出了可由圖6的傳輸表示生成器600生成且可由圖7的空間音訊合成器使用的不同傳輸後設資料備案的表。傳輸後設資料備案包括一後設資料的選擇資訊，後設資料指示一組音訊輸入資料分量的哪個子集已被選擇作為傳輸表示。例如，四個FOA分量中只有兩個或三個被選中，或者四個FOA分量被選擇。此外，選擇資訊可以指示一麥克風訊號陣列的哪些麥克風訊號被選擇。圖8b的另一備案是指示如何組合某個音訊表示輸入分量或訊號的組合資訊。某個組合資訊可指線性組合的權重或已組合通道的權重，例如具有相等或預定義的權重。另一資訊是指與某個傳輸訊號相關聯的扇區或半球資訊。半球扇區資訊可指左扇區或右扇區或前扇區或後扇區(相對於收聽位置)，或者，小於180°扇區的扇區。

進一步的實施例涉及表示形狀參數的傳輸後設資料，形狀參數是指例如用於產生相應傳輸表示訊號的某個物理或虛擬麥克風指向性的形狀。形狀參數可指示一全向麥克風訊號形狀、心形麥克風訊號形狀、偶極麥克風訊號形狀或任何其它相關形狀。進一步的傳輸後設資料備案涉及麥克風位置、麥克風定向、麥克風之間的距離或麥克風的指向模式，麥克風例如生成或記錄了包含在(編碼的)傳輸表示614中的傳輸表示訊號。進一步的實施例涉及包括在傳輸表示或關於波束成形權重或波束成形器方向的資訊中的訊號的觀看方向或多個觀看方向，或者，可替換地或附加地，與所包含的麥克風訊號是全向麥克風訊號還是心形麥克風訊號或其他訊號有關。可以通過簡單地包括單個旗標(flag)來生成非常小的傳輸後設資料副資訊(關於位元速率)，此旗標指示傳輸訊號是來自全向麥克風的麥克風訊號還是來自與全向麥克風不同的任何其他麥克風的麥克風訊號。

圖8c示出了傳輸後設資料生成器605的優選實現。具體而言，對於數值化的傳輸後設資料，傳輸後設資料生成器包括傳輸後設資料量化器605a或622和隨後連接的傳輸後設資料熵編碼器605b。圖8c中所示的過程也可以應用於參數化的後設資料，特別是空間參數。

圖9a示出了圖7中的空間音訊合成器750的優選實現。空間音訊合成器750包括用於解釋(解碼的)傳輸後設資料710的傳輸後設資料解析器。來自塊752的輸出資料被引入一組合器/選擇器/參考訊號生成器760，組合器/選擇器/參考訊號生成器760另外接收包括在從圖7的輸入介面700獲得的傳輸表示中的傳輸訊號711。基於傳輸後設資料，組合器/選擇器/參考訊號生成器生成一個或多個參考訊號，並將這些參考訊號轉發到分量訊號計算器770，計算器770計算合成的空間音訊表示的分量，例如用於多通道輸出的通用分量、用於FOA或HOA輸出的立體環繞聲分量、用於雙耳表示的左通道和右通道或音訊物件分量(其中音訊物件分量是單聲道或立體聲物件訊號)。

圖9b示出編碼音訊訊號，編碼音訊訊號包括例如在項目611中指出的n個傳輸訊號T1、T2、Tn，並且另外包括傳輸後設資料610和可選的空間參數612。不同資料塊的順序和某個資料塊相對於其他數據塊的大小僅示意性地在圖9b中示出。

圖9c示出了用於某個傳輸後設資料、某個傳輸表示和某個揚聲器設定的組合器/選擇器/參考訊號生成器760的過程的概述表。特別地，在圖9c實施例中，傳輸表示包括左傳輸訊號(或前傳輸訊號或全向或心形訊號)，並且傳輸表示還包括第二傳輸訊號T2，其為右傳輸訊號(或後傳輸訊號，例如，全向傳輸訊號或心形傳輸訊號)。在左/右的情况下，選擇左揚聲器A的參考訊號作為第一傳輸訊號T1，選擇右揚聲器的參考訊號作為傳輸訊號T2。對於左環繞和右環繞，如表771中概括的，為相應的通道選擇左和右訊號。對於中心通道，選擇左、右傳輸訊號T1和T2的和作為合成的空間音訊表示的中心通道分量的參考訊號。

在圖9c中，示出了當第一傳輸訊號T1是前傳輸訊號而第二傳輸訊號T2是右傳輸訊號時的進一步選擇。然後，第一傳輸訊號T1被選擇用於左、右、中，第二傳輸訊號T2被選擇用於左環繞和右環繞。

圖9d示出了圖7的空間音訊合成器的另一優選實現。在塊910中，針對某個第一階立體環繞聲或較高階立體環繞聲選擇來計算傳輸或下混資料。例如，圖9d中示出了四種不同的選擇備案，其中，在第四備案中，僅選擇了兩個傳輸訊號T1、T2，而不是第三分量，即，在其它備案中，選擇全相分量。

基於傳輸下混資料決定(虛擬)通道的參考訊號，並且針對遺失的分量使用後退過程，即針對圖9d中的示例，針對第四分量，或者針對第四示例中的兩個遺失的分量。然後，在塊912，使用從傳輸資料接收或匯出的指向參數來生成通道訊號。因此，可以如圖7中的712所示另外接收指向或空間參數，或者可以通過對傳輸表示訊號的訊號分析從傳輸表示中匯出。

在另一種實現中，如塊913所示，選擇一分量作為FOA分量，並且使用如圖9d中的項目914所示的空間基函數響應來計算遺失的分量。圖10在塊410示出了使用空間基函數響應的某個過程，其中，在圖10中，塊826為擴散部分提供平均響應，而圖10中的塊410為直接訊號部分的各個模式m和階數l提供特定響應。

圖9e示出了指示特定傳輸後設資料的另一個表，傳輸後設資料特別包括一形狀參數或除了形狀參數或形狀參數的備案之外的一觀看方向。形狀參數可以包括形狀因子c_m為1、0.5或0。因子c_m=1指示麥克風錄製特性的全向形狀，而因子0.5表示心形，值0表示偶極形狀。

此外，不同的觀看方向可以包括左、右、前、後、上、下、由方位角φ和仰角θ組成的特定到達方向，或者，備選地，一短後設資料包含一指示傳輸表示中的訊號對包括左/右對或前/後對。

在圖9f中，示出了空間音訊合成器的進一步實現，其中在塊910中，傳輸後設資料被讀取為例如由圖7的輸入介面700或空間音訊合成器750的輸入埠完成的原樣。在塊915中，將參考訊號的決定適應於例如由塊760執行的讀取傳輸後設資料。然後，在塊916中，使用經由塊915獲得的參考訊號和可選地傳送的參數資料712(如果可用)計算多通道、FOA/HOA、物件或雙耳輸出，特別是用於這些類型資料輸出的特定分量。

圖9g示出了組合器/選擇器/參考訊號生成器760的進一步實現。例如，當傳輸後設資料說明第一傳輸訊號T1是左心形訊號而第二傳輸訊號T2是右心形訊號時，則在塊920中，通過將T1和T2相加來計算全向訊號。如塊921所述，通過獲得T1和T2之間的差或T2和T1之間的差來計算偶極訊號Y。然後，在塊922中，使用全向訊號作為參考來合成剩餘分量。塊922中用作參考的全向訊號優選為塊920的輸出。此外，如項712所述，可選的空間參數也可用於合成諸如FOA或HOA分量的剩餘分量。

圖9h示出了當如塊930中所概述時，可由空間音訊合成器或組合器/選擇器/參考訊號生成器760執行的過程的不同備案的進一步實現，當傳輸表示和相關的傳輸後設資料被接收時，兩個或多個麥克風訊號也被接收。如塊931中所概述的，可以以到某個例如揚聲器位置的最小距離來執行作為某個訊號分量的傳輸訊號的參考訊號的選擇。塊932中所示的另一個備案包括選擇具有最接近的觀看方向的麥克風訊號作為某個揚聲器的參考訊號，或者對於某個揚聲器或虛擬聲源(例如，在雙耳表示中的左/右)具有最接近的波束成形器或錯誤位置(例如)。塊933中示出的另一個備案是選擇任意傳輸訊號作為所有直接聲音分量的參考訊號，例如用於計算FOA或HOA分量或用於計算揚聲器訊號。在934所示的另一備案是指所有可用的傳輸訊號的使用，例如用於計算擴散聲音參考訊號的全向訊號。進一步的備案涉及相關性數量的設定或限制，以基於傳輸後設資料中包括的麥克風距離來計算分量訊號。

為了執行備案931到935中的一個或多個，圖9h右側所示的多個相關傳輸後設資料是有用的，它們包括被選擇麥克風的麥克風位置、麥克風間距離、麥克風定向或指向性模式，例如C_m、陣列描述，波束成形因數W_m或實際到達方向或具有方位角φ和仰角θ的聲音方向，例如，對於每個傳輸通道。

圖10示出了用於直接/擴散過程的低階或中階分量生成器的優選實現。特別地，低階或中階分量發生器包括參考訊號生成器821，參考訊號生成器821接收輸入訊號，並通過在輸入訊號為單聲道訊號時複製或取其原樣產生參考訊號，或通過如前所述或如WO 2017/157803 A1(包括其全部的教示參考併入本文，且優選由傳輸後設資料控制)中所示的計算，從輸入訊號導出參考訊號。

此外，圖10示出了指向增益計算器410，其被配置成根據特定DOA資訊(Φ,θ)和來自某個模數m和某個階數l的計算方向增益G_l ^m。在優選實施例中，當在時間/頻率域中對k、n所參考的每個單獨的瓦片進行處理時，計算每個這樣的時頻瓦片的指向增益。權重器822接收特定時頻瓦片的參考訊號和擴散資料，權重器822的結果是直接部分。擴散部分由解相關濾波器823和隨後的權重器824的處理生成，其接收特定時間幀和頻倉的擴散值Ψ，且特別是，接收D_l指出的某個模數m和階數l的平均響應，D_l由平均響應供應器826生成，平均響應供應器826接收所需模數m和所需階數l作為輸入。

權重器824的結果是擴散部分，擴散部分由加法器825添加到直接部分，以獲得某個模數m和某個階數l的某個中階聲場分量。優選地，將關於圖6討論的擴散補償增益僅應用於由塊823生成的擴散部分。這可以有利地在(擴散)權重器所做的過程中完成。因此，如圖10所示，僅增强訊號中的擴散部分，以補償由未接收完全合成的更高分量引起的擴散能量損失。

圖11中示出了用於較高階分量生成器的僅直接部分的生成。基本上，對於直接分支，較高階分量生成器以與低階或中階分量生成器相同的方式實現，但不包括塊823、824、825和826。因此，較高階分量發生器僅包括從指向增益計算器410接收輸入資料並從參考訊號發生器821接收參考訊號的(直接)權重器822。優選地，生成較高階分量生成器和低階或中階分量生成器的僅單個參考訊號。然而，根據具體情況，兩個塊還可以具有單獨的參考訊號生成器。然而，優選只有一個參考訊號生成器。因此，由較高階分量產生器執行的處理是非常有效的，因為僅對此時頻瓦片執行具有某個指向增益G_l ^m和具有某個擴散資訊的一加權方向。因此，較高階聲場分量可以非常有效和迅速地產生，並且由於不產生擴散分量或不在輸出訊號中使用擴散分量而導致的任何誤差，可以通過增強低階聲場分量或優選僅中階聲場分量的擴散部分來容易地補償。圖11所示的過程也可用於低階或中階分量的生成。

因此，圖10示出了具有擴散部分的低階或中階聲場分量的生成，而圖11示出了計算較高階聲場分量的過程或者，通常，不需要或不接收任何擴散部分的分量。

然而，在生成聲場分量時，特別是對於FOA或HOA表示，可以應用圖10中具有擴散部分的過程或圖11中不具有擴散部分的過程。在圖10和圖11中的兩個過程中，參考訊號生成器821、760由傳輸後設資料控制。此外，權重器822不僅由空間基函數響應G_l ⁿ控制，而且還可偏好由諸如擴散參數712、722等空間參數控制。此外，在優選實施例中，擴散部分的權重器824也由傳輸後設資料控制，特別是由麥克風距離控制。麥克風距離D和權重因數W之間的某個關係如圖10中的示意圖所示。距離D越大，權重因數越小，距離越小，權重因數越高。因此，當傳輸訊號表示中包含兩個麥克風訊號彼此具有高距離時，可以假設兩個麥克風訊號已經相當解相關，因此，可以用接近於零的加權因數來加權解相關濾波器的輸出，以便最終，與從直接權重器822輸入到加法器的訊號相比，輸入到加法器825的訊號非常小。在極端情况下，甚至可以關閉相關分支，例如，可以通過設定權重W=0來實現。自然，還有其他方法可以通過使用閾值操作計算出的開關來關閉擴散分支。

自然，圖10所示的分量生成可以通過僅通過傳輸後設資料控制參考信號發生器821、760而不通過權重器822的控制來執行，或者，通過僅控制權重器822而不通過塊821、760的任何參考訊號生成控制來執行。

圖11示出了擴散分支遺失的情况，並且其中因此也不執行圖10的擴散權重器824的任何控制。

圖10和12示出了包含解相關濾波器823和權重器824的某個擴散訊號生成器830。自然，可以交換權重器824和解相關濾波器823之間的訊號處理順序，以便在將訊號輸入解相關濾波器823之前形成由參考訊號生成器821、760生成或輸出的參考訊號的加權。

雖然圖10示出了聲場分量表示(例如FOA或HOA)的低階或中階聲場分量的生成，即具有球形或圓柱形分量訊號的表示，但圖12示出了用於計算揚聲器分量訊號或物件的備案或一般實現。特別地，對於揚聲器訊號/物件的生成和計算，提供了與圖9a的塊760相對應的參考訊號生成器821、760。此外，圖9a中示出的分量訊號計算器770對於直接分支包括權重器822，對於擴散分支，擴散訊號產生器830包括解相關濾波器823和權重器824。此外，圖9a的分量訊號計算器770還包括加法器825，其執行直接訊號P_dir和擴散訊號P_diff的加法。加法器的輸出是(虛擬)揚聲器訊號或物件訊號或雙耳訊號，如示例參考訊號755、756所示。特別地，參考訊號計算器821、760由傳輸後設資料710控制，擴散權重器824也可以由傳輸後設資料710控制。通常，分量訊號計算器計算直接部分，例如使用諸如VBAP(虛擬基振幅平移，virtual base amplitude panning)增益的平移增益。增益由到達資訊的方向導出，優選地提供有方位角φ和仰角θ。如此產生直接部分P_dir。

此外，由參考訊號計算器P_ref生成的參考訊號被輸入到解相關濾波器823以獲得解相關的參考訊號，然後對此訊號進行加權，優選地使用擴散參數並且優選地使用從傳輸後設資料710獲得的麥克風距離。權重器824的輸出是擴散分量P_diff，加法器825將直接分量和擴散分量相加，以獲得對相應表示的特定麥克風訊號或物件訊號或雙耳通道。特別地，當計算虛擬揚聲器訊號時，可以如圖9c所示執行由參考訊號計算器821、760響應於傳輸後設資料而執行的過程。或者，可以將參考訊號生成為從定義的收聽位置指向某個揚聲器的通道，並且此參考訊號的計算可以使用包括在傳輸表示中的訊號的線性組合來執行。

做為清單的本發明的優選實施例

基於FOA的輸入

●空間音訊場景編碼器

○接收表示空間音訊場景的空間音訊輸入訊號(例如FOA分量)

○生成或接收包含至少一個方向參數的空間音訊參數

○基於接收到的音訊輸入訊號生成下混音訊訊號(選項：也使用空間音訊參數進行適應性的下混生成)。

○生成描述下混訊號的指向特性的下混參數(例如下混係數或方向性模式)。

○編碼下混訊號、空間音訊參數和下混參數。

●空間音訊場景解碼器

○接收包含下混音訊訊號、空間音訊參數和下混參數的編碼空間音訊場景

○解碼下混音訊訊號、空間音訊參數和下混/傳輸通道參數

○基於下混音訊訊號、空間音訊參數和下混(位置)參數，對解碼表示進行空間渲染的空間音訊渲染器。

基於間隔麥克風錄音和相關空間後設資料的輸入(參數化空間音訊輸入)：

●空間音訊場景編碼器

○生成或接收至少兩個由記錄的麥克風訊號產生的空間音訊輸入訊號

○生成或接收包含至少一個方向參數的空間音訊參數

○生成或接收位置參數，描述由記錄的麥克風訊號生成的空間音訊輸入訊號的幾何或位置特性(例如麥克風的相對或絕對位置或麥克風間距)。

○編碼從空間音訊輸入訊號、空間音訊參數和位置參數匯出的空間音訊輸入訊號或下混訊號。

●空間音訊場景解碼器

○接收包含至少兩個音訊訊號、空間音訊參數和位置參數(與音訊訊號的位置性質相關)的編碼空間音訊場景

○解碼音訊訊號、空間音訊參數和位置參數

○基於音訊訊號、空間音訊參數和位置參數，對解碼表示進行空間渲染的空間音訊渲染器。

儘管在裝置(apparatus)的說明中描述了一些方面，但是很明顯，這些方面還表示對應方法的描述，其中塊或元件(device)對應於方法步驟或方法步驟的特徵。類似地，在方法步驟的說明中描述的方面也表示對應裝置的對應塊或項目或特徵的描述。

根據某些實現要求，本發明的實施例可以用硬體或軟體實現。可以使用數位存儲介質(例如軟碟、DVD、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體)來執行此實現，此數位存儲介質上存儲有電子可讀控制訊號，與可程式設計電腦系統合作(或能夠合作)，以便執行相應的方法。

根據本發明的一些實施例包括具有電子可讀控制訊號的資料載體，其能夠與可程式設計電腦系統合作，從而執行本文所述的方法之一。

一般來說，本發明的實施例可以實現為具有程式碼的電腦程式產品，程式碼用於在電腦上運行電腦程式產品時執行方法之一。程式碼例如可以存儲在機器可讀載體上。

其他實施例包括用於執行本文所述方法之一的電腦程式，其存儲在機器可讀載體或非暫態儲存介質上。

換言之，本發明方法的一個實施例是，因此，當電腦程式在電腦上運行時，具有用於執行本文所述方法之一的程式碼的電腦程式。

因此，本發明方法的另一實施例是資料載體(或數位儲存介質或電腦可讀介質)，其上記錄有用於執行本文所述方法之一的電腦程式。

因此，本發明方法的另一實施例是表示用於執行本文所述方法之一的電腦程式的資料流或訊號序列。例如，資料流或訊號序列可以被配置成經由例如經由網路的資料通訊連接來移轉。

另一實施例包括處理裝置，例如電腦或可程式設計邏輯元件，其被配置成或適應於執行本文所述方法之一。

另一實施例包括電腦，其上安裝有用於執行本文所述方法之一的電腦程式。

在一些實施例中，可程式設計邏輯元件(例如場域可程式設計閘陣列)可用於執行本文所述方法的部分或全部功能。在一些實施例中，場域可程式設計閘陣列可以與微處理器合作以執行本文描述的方法之一。通常，這些方法優選地由任何硬體設備來執行。

上述實施例僅僅是對本發明的原理的說明。應當理解，對本領域技術人員來說，這裡描述的佈置和細節的修改和變化將是顯而易見的。因此，意圖僅限於即將提出的專利請求項的範圍，而不限於通過本文中的實施例的描述和解釋而呈現的具體細節。

參考資料

[Pulkki07] V. Pulkki, “Spatial Sound Reproduction with Directional Audio Coding”, J. Audio Eng. Soc., Volume 55 Issue 6 pp. 503-516; June 2007.

[Pulkki97] V. Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Pan-ning” J. Audio Eng. Soc., Volume 45 Issue 6 pp. 456-466; June 1997

[Thiergart09] O. Thiergart, R. Schultz-Amling, G. Del Galdo, D. Mahne, F. Kuech, “Locali-zation of Sound Sources in Reverberant Environments Based on Directional Audio Coding Parameters“, AES Convention 127, Paper No. 7853, Oct. 2009

[Thiergart17] WO2017157803 A1, O. Thiergart et. al. "APPARATUS, METHOD OR COMPUTER PROGRAM FOR GENERATING A SOUND FIELD DESCRIPTION"

[Laitinen11] M. Laitinen, F. Kuech, V. Pulkki, “Using Spaced Microphones with Directional Audio Coding“, AES Convention 130, Paper No. 8433, May 2011

[Vilkamo13] J. Vilkamo, V. Pulkki, “Minimization of Decorrelator Artifacts in Directional Audio Coding by Covariance Domain Rendering“, J. Audio Eng. Soc., Vol. 61, No. 9, 2013 September

[Veen88] B.D. Van Veen, K.M. Buckley, "Beamforming: a versatile approach to spatial filtering", IEEE ASSP Mag., vol. 5, no. 2, pp. 4-24, 1998

[1] V. Pulkki, M-V Laitinen, J Vilkamo, J Ahonen, T Lokki and T Pihlajamäki, “Directional audio coding - perception-based reproduction of spatial sound”, International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japan.

600:傳輸表示生成器

610:傳輸後設資料

611:傳輸表示

612:空間參數

620:參數處理器

640:輸出介面

650:使用者介面

Claims

一種對表示音訊場景的空間音訊表示進行編碼以獲得編碼音訊訊號的裝置，該裝置包括：傳輸表示生成器，用於從該空間音訊表示生成一傳輸表示，且用於生成傳輸後設資料，該傳輸後設資料關於該傳輸表示的生成或指示該傳輸表示的一或多個指向性質；以及輸出介面，用於輸出該編碼音訊訊號，該編碼音訊訊號包括關於該傳輸表示的資訊及關於該傳輸後設資料的資訊。
如請求項1之裝置，更包括用於從該空間音訊表示導出空間參數的參數處理器，其中該輸出介面被配置為輸出該編碼音訊訊號，其中該編碼音訊訊號另外包括關於該空間參數的資訊。
如請求項1之裝置，其中該空間音訊表示為包括眾多係數訊號的一第一階立體環繞聲或較高階立體環繞聲表示，或包括複數個音訊通道的多通道表示；其中該傳輸表示生成器被配置為從該第一階立體環繞聲或較高階立體環繞聲表示選擇一個或多個係數訊號或組合該較高階立體環繞聲或第一階立體環繞聲表示中的複數係數，或其中該傳輸表示生成器被配置為從該多通道表示選擇一或多個音訊通道或從該多通道表示組合二或多個音訊通道；以及其中該傳輸表示生成器被配置為生成指示哪些特定一或多個係數訊號或音訊通道被選擇的資訊，或該二或多個係數訊號或音訊通道如何被組合，或哪些第一階立體環繞聲或較高階立體環繞聲係數訊號或音訊通道被組合的資訊，作為該傳輸後設資料。
如請求項1之裝置，其中該傳輸表示生成器被配置為決定大部分聲能是否位於水平面，並且其中當該傳輸表示響應於該決定或響應於一音訊編碼設定時，僅有一全向係數訊號、一X方向係數訊號和一Y方向係數訊號被選擇；或其中當該傳輸表示響應於一音訊編碼設定時，僅有一全向係數訊號、一X方向係數訊號和一Y方向係數訊號被選擇；以及其中該傳輸表示生成器被配置為決定該傳輸後設資料，使得該傳輸後設資料包含關於該係數訊號選擇的資訊。
如請求項1之裝置，其中該傳輸表示生成器被配置為決定大部分聲能是否位於一x-z平面，或其中當該傳輸表示響應於該決定或響應於一音訊編碼設定時，僅有一全向係數訊號、一X方向係數訊號和一Z方向係數訊號被選擇；並且其中該傳輸表示生成器被配置為決定該傳輸後設資料，使得該傳輸後設資料包含關於該係數訊號選擇的資訊。
如請求項1之裝置，其中該傳輸表示生成器被配置為決定大部分聲能是否位於一y-z平面，或其中當該傳輸表示響應於該決定或響應於一音訊編碼設定時，僅有一全向係數訊號、一Y方向係數訊號和一Z方向係數訊號被選擇；並且其中該傳輸表示生成器被配置為決定該傳輸後設資料，使得該傳輸後設資料包含關於該係數訊號選擇的資訊。
如請求項1之裝置，其中該傳輸表示生成器被配置為決定是否一優勢的聲能源自一特定扇區或半球，例如左半球或右半球或前半球或後半球，或其中該傳輸表示生成器被配置為從一優勢的聲能源自或響應於一音訊編碼設定的該特定扇區或半球，生成一第一傳輸訊號，且從不同扇區或半球，生成一第二傳輸訊號，該不同扇區或半球具有一相對於參考位置和相對於該特定扇區或半球的相反方向；並且其中該傳輸表示生成器被配置為決定該傳輸後設資料，使得該傳輸後設資料包括識別該特定扇區或半球，或識別該不同扇區或半球的資訊。
如請求項1之裝置，其中該傳輸表示生成器被配置為組合該空間音訊表示的係數訊號，使得作為第一傳輸訊號的第一結果訊號對應於指向特定扇區或半球的指向麥克風訊號，並且作為第二傳輸訊號的第二結果訊號對應於指向不同扇區或半球的指向麥克風訊號。
如請求項1之裝置，其更包括用於接收一使用者輸入的一使用者介面，其中該傳輸表示生成器被配置為根據該使用者介面接收到的該使用者輸入生成該傳輸表示；其中該傳輸表示生成器被配置為生成該傳輸後設資料，使得該傳輸後設資料具有關於該使用者輸入的資訊。
如請求項1之裝置，其中該傳輸表示生成器被配置成以時變或取決於頻率的方式生成該傳輸表示與該傳輸後設資料，使得第一幀的傳輸表示和傳輸後設資料不同於一第二幀的傳輸表示和傳輸後設資料，或者使得一第一頻帶的傳輸表示和傳輸後設資料不同於一第二不同頻帶的傳輸表示和傳輸後設資料。
如請求項1之裝置，其中該傳輸表示生成器被配置為通過該空間音訊表示的兩個或兩個以上係數訊號的一加權組合來生成一個或兩個傳輸訊號，並且其中該傳輸表示生成器被配置為計算該傳輸後設資料，使得該傳輸後設資料包括：關於在該加權組合中使用的權重的資訊，或者關於作為所生成的指向麥克風訊號的觀看方向的一方位角和/或仰角的資訊，或者關於指示指向一麥克風訊號之一指向特性的一形狀參數的資訊。
如請求項1之裝置，其中該傳輸表示生成器被配置為生成定量傳輸後設資料，對該定量傳輸後設資料進行量化以獲得量化的傳輸後設資料，以及對該量化的傳輸後設資料進行熵編碼，並且其中該輸出介面被配置為將該編碼的傳輸後設資料包括到該編碼的音訊訊號中。
如請求項1之裝置，其中該傳輸表示生成器被配置為將該傳輸後設資料轉換為一表索引或一預設參數，並且其中該輸出介面被配置為將該表索引或該預設參數包括到該編碼音訊訊號中。
如請求項1之裝置，其中該空間音訊表示包括至少兩個音訊訊號和空間參數，其中一參數處理器被配置為通過從該空間音訊表示中提取該空間參數來從該空間音訊表示中導出該空間參數，其中該輸出介面被配置為將關於該空間參數的資訊包括到該編碼的音訊訊號中或者將關於從該空間參數導出的經處理的空間參數的資訊包括到該編碼的音訊訊號中，或者其中該傳輸表示生成器被配置成：選擇該至少兩個音訊訊號的一子集作為該傳輸表示，並且生成該傳輸後設資料，使得該傳輸後設資料指示對該子集的選擇；或者組合該至少兩個音訊訊號或該至少兩個音訊訊號的子集，並且計算該傳輸後設資料，使得該傳輸後設資料包括為關於計算該空間音訊表示的該傳輸表示而執行的該音訊訊號的該組合的資訊。
如請求項1之裝置，其中該空間音訊表示包括由麥克風陣列獲取的至少兩個微音訊號的集合，其中該傳輸表示生成器被配置為選擇與該麥克風陣列的特定位置或特定麥克風相關聯的一個或多個特定麥克風訊號，並且其中該傳輸後設資料包括關於該特定位置或該特定麥克風的資訊，或者關於與所選麥克風訊號相關聯的位置之間的一麥克風距離的資訊，或者關於與所選麥克風訊號相關聯之麥克風的一麥克風定向的資訊，或者關於與所選麥克風相關聯之麥克風訊號的一麥克風指向模式的資訊。
如請求項15之裝置，其中該傳輸表示生成器被配置成根據由使用者介面接收的一使用者輸入選擇該空間音訊表示的一個或多個訊號，以及執行關於哪個位置具有哪個聲能的該空間音訊表示的分析，並且根據分析結果選擇該空間音訊表示的一個或多個訊號，或者執行一聲源定位並且根據該聲源定位的一結果選擇該空間音訊表示的一個或多個訊號。
如請求項1之裝置，其中該傳輸表示生成器被配置為選擇一空間音訊表示的所有訊號，並且其中該傳輸表示生成器被配置為生成該傳輸後設資料，使得該傳輸後設資料識別從中匯出所述空間音訊表示的麥克風陣列。
如請求項1之裝置，其中該傳輸表示生成器被配置為使用空間濾波或波束成形來組合包括在該空間音訊表示中的音訊訊號，並且其中該傳輸表示生成器被配置為包括關於該傳輸表示的觀看方向的資訊或關於在計算該傳輸表示到該傳輸後設資料時使用的波束成形權重的資訊。
如請求項1之裝置，其中該空間音訊表示是與一參考位置相關的一聲場的一描述，並且其中一參數處理器被配置為從該空間音訊表示匯出空間參數，其中該空間參數定義關於在該參考位置的聲音的一到達方向的時變或取決於頻率的參數，或者定義關於該參考位置處的聲場的一擴散度的時變或取決於頻率的參數。
如請求項1之裝置，其中該空間音訊表示是與一參考位置相關的一聲場的一描述，並且其中該傳輸表示生成器包括下混器，用以生成一下混表示作為該傳輸表示，該下混表示具有小於包括在該空間音訊表示中的一第一數目的單獨訊號的一第二數目的單獨訊號，其中，下混器被配置為選擇包括在該空間音訊表示中的單獨訊號的一子集或者組合包括在該空間音訊表示中的單獨訊號，以便將第一數目的訊號減少到第二數目的訊號。
如請求項1之裝置，更包含一參數處理器，其用以從該空間音訊表示匯出空間參數，其中該參數處理器包括空間音訊分析器，用於通過執行一音訊訊號分析從空間音訊表示匯出空間參數，並且其中傳輸表示生成器被配置為基於該空間音訊分析器的結果生成傳輸表示。
如請求項1之裝置，其中傳輸表示包括一核心編碼器，用於對傳輸表示的傳輸訊號的一個或多個音訊訊號進行核心編碼，以得到一核心編碼的傳輸表示，其中該輸出介面被配置成將該核心編碼的傳輸表示作為關於傳輸表示的資訊包括到該編碼音訊訊號中。
如請求項1之裝置，其中該參數處理器被配置成對空間參數進行量化和熵編碼，並且其中該輸出介面被配置成將熵編碼的空間參數作為關於空間參數的資訊包括到編碼的音訊訊號中。
一種用於解碼一編碼的音訊訊號的裝置，包括：一輸入介面，用於接收包括關於從一音訊場景匯出的一傳輸表示的資訊和關於與該傳輸表示相關的傳輸後設資料的資訊的編碼音訊訊號；以及一空間音訊合成器，用於使用關於傳輸表示的資訊和關於傳輸後設資料的資訊來合成一空間音訊表示。
如請求項24之裝置，其中該編碼音訊訊號包括關於空間參數的資訊，並且其中該空間音訊合成器被配置用於使用關於該空間參數的資訊、關於該傳輸表示的資訊和關於該傳輸後設資料的資訊來合成該空間音訊表示。
如請求項24之裝置，其中該空間音訊合成器包括：一核心解碼器，用於對表示關於該傳輸表示的資訊的兩個或更多個編碼傳輸訊號進行核心解碼，以獲得兩個或更多個解碼的傳輸訊號。
如請求項24之裝置，其中該空間音訊合成器被配置為計算該空間音訊表示的一第一階立體環繞聲(Ambisonics)表示或一較高階立體環繞聲表示或一多通道訊號或一物件表示或一雙耳表示。
如請求項24之裝置，其中該空間音訊合成器包括：一後設資料解碼器，用於解碼關於該傳送後設資料的資訊以匯出解碼的傳送後設資料，或用於解碼關於空間參數的資訊以獲得解碼的空間參數。
如請求項24之裝置，其中該空間音訊表示包括多個分量訊號，其中該空間音訊合成器被配置為使用關於該傳輸表示的資訊和關於該傳輸後設資料的資訊，針對該空間音訊表示的一分量訊號，決定一參考訊號，並且使用該參考訊號來計算該空間音訊表示的分量訊號。
如請求項24之裝置，其中該空間音訊表示包括多個分量訊號，其中該編碼音訊訊號包括關於傳輸表示的資訊；並且該空間音訊合成器被配置為使用該參考訊號及關於該空間參數的資訊來計算該空間音訊表示的分量訊號。
如請求項24之裝置，其中該空間參數包括該時變或取決於頻率的到達方向或擴散參數中的至少一個，其中該空間音訊合成器被配置為使用該空間參數執行一指向音訊編碼(DirAC)合成以生成該空間音訊表示的多個不同分量，其包含一第一分量及一第二分量，其中使用該至少兩個傳輸訊號之一第一傳輸訊號或該至少兩個傳輸訊號的一第一組合來決定該空間音訊表示的該第一分量，其中使用該至少兩個傳輸訊號中的一第二傳輸訊號或該至少兩個傳輸訊號的一第二組合來決定該空間音訊表示的該第二分量，該第二組合不同於該第一組合，其中該空間音訊合成器被配置成根據該傳輸後設資料執行該至少兩個傳輸訊號中的該第一傳輸訊號及該第二傳輸訊號的決定，或者根據該傳輸後設資料執行該第一組合及該第二組合的決定。
如請求項24之裝置，其中該傳輸表示包含一第一傳輸訊號及一第二傳輸訊號，其中該傳輸後設資料指示該第一傳輸訊號是指與該空間音訊表示的一參考位置相關的第一扇區或半球，並且指示該第二傳輸訊號是指與該空間音訊表示的參考位置相關的一第二扇區或半球，其中該第二扇區或半球不同於該第一扇區或半球，其中該空間音訊合成器被配置成使用該第一傳輸訊號而不使用所述第二傳輸訊號來生成與該第一扇區或半球相關聯的該空間音訊表示的分量訊號，並且其中該空間音訊合成器被配置成使用該第二傳輸訊號而不使用該第一傳輸訊號來生成與該第二扇區或半球相關聯的空間音訊表示的另一分量訊號。
如請求項24之裝置，其中該傳輸表示包含一第一傳輸訊號及一第二傳輸訊號，其中該傳輸後設資料指示該第一傳輸訊號是指與該空間音訊表示的一參考位置相關的第一扇區或半球，並且指示該第二傳輸訊號是指與該空間音訊表示的參考位置相關的一第二扇區或半球，其中該第二扇區或半球不同於該第一扇區或半球，且其中該空間音訊合成器被配置成使用該第一和第二傳輸訊號的一第一組合來生成與該第一扇區或半球相關聯的分量訊號，並且被配置成使用該第一和第二傳輸訊號的一第二組合來生成與一不同的第二扇區或半球相關聯的一分量訊號，其中該第一傳輸訊號受到該第一組合的影響大於受到該第二組合的影響，或者其中該第二傳輸訊號受到該第二組合的影響大於受到該第一組合的影響。
如請求項24之裝置，其中關於該傳輸表示的資訊包含傳輸訊號，其中該傳輸後設資料包括關於與該傳輸表示的該傳輸訊號相關聯的指向特性的資訊，其中該空間音訊合成器被配置為使用第一階立體環繞聲訊號或較高階立體環繞聲訊號、揚聲器位置和該傳輸後設資料來計算虛擬麥克風訊號。
如請求項24之裝置，其中關於該傳輸表示的資訊包含傳輸訊號，其中該傳輸後設資料包括關於與該傳輸表示的該傳輸訊號相關聯的指向特性的資訊，其中該空間音訊合成器被配置為使用該傳輸後設資料來決定該傳輸訊號的指向特性，並且從與已決定的該傳輸訊號的指向特性對應的該傳輸訊號決定一第一階立體環繞聲或一較高階立體環繞聲分量。
如請求項24之裝置，其中關於該傳輸表示的資訊包含傳輸訊號，其中該傳輸後設資料包括關於與該傳輸表示的該傳輸訊號相關聯的指向特性的資訊，其中該空間音訊合成器被配置為根據後退過程決定與該傳輸訊號的指向特性無關的一第一階立體環繞聲或較高階立體環繞聲分量。
如請求項24之裝置，其中關於該傳輸表示的資訊包含一第一傳輸訊號及一第二傳輸訊號，其中該空間音訊表示包含一第一分量訊號及一第二分量訊號，其中一第一揚聲器的一第一位置係關聯於該第一分量訊號，一第二揚聲器的一第二位置係關聯於該第二分量訊號，其中該傳輸後設資料包括關於與該第一傳輸訊號相關聯的一第一觀看方向的一資訊，以及關於與該第二傳輸訊號相關聯的一第二觀看方向的資訊，其中，該空間音訊合成器被配置為基於該傳輸後設資料和該第一揚聲器的該第一位置或該第二揚聲器的該第二位置，選擇用於計算該空間音訊表示的該第一分量訊號或該第二分量訊號的一參考訊號。
如請求項37之裝置，其中，該第一觀看方向指示一左半球或一前半球，且其中該第二觀看方向指示一右半球或一後半球，其中，對於該左半球中的一揚聲器的一分量訊號的計算，使用該第一傳輸訊號而不是該第二傳輸訊號，並且其中，對於該右半球中的一揚聲器訊號的計算，使用該第二傳輸訊號而不使用該第一傳輸訊號，或者其中，對於該前半球的一揚聲器的計算，使用該第一傳輸訊號而不使用該第二傳輸訊號，並且其中對於該後半球的一揚聲器訊號的計算，使用第二傳輸訊號而不是第一傳輸訊號，或者其中對於一中心區域的一揚聲器訊號的計算，使用左傳輸訊號和第二傳輸訊號的組合，並且其中對於與前半球和後半球之間的一揚聲器區域相關聯的一揚聲器訊號的計算，使用第一傳輸訊號和第二傳輸訊號的一組合。
如請求項24之裝置，其中關於該傳輸表示的資訊包含一左傳輸訊號及一右傳輸訊號，其中，關於該傳輸後設資料的資訊指示該左傳輸訊號具有一關聯左視方向作為一第一觀看方向，並且指示該右傳輸訊號具有一右視方向作為一第二觀看方向，其中，該空間音訊合成器被配置為通過將該左傳輸訊號和該右傳輸訊號相加來計算一第一立體環繞聲分量，或者通過將該左傳送訊號和該右傳送訊號相減來計算一第二立體環繞聲分量。
如請求項24之裝置，其中關於該傳輸表示的資訊包含一第一傳輸訊號及一第二傳輸訊號，其中該傳輸後設資料指示該第一傳輸訊號關聯於一前視方向，並且指示該第二傳輸訊號關聯於一回視方向，其中該空間音訊合成器被配置為通過執行該第一傳輸訊號和該第二傳輸訊號之間的差的計算來計算一座標系的一x方向的一第一階立體環繞聲分量，並且使用該第一傳輸訊號和該第二傳輸訊號的相加來計算全向的一第一階立體環繞聲分量，並且使用該第一傳輸訊號和該第二傳輸訊號的和來計算另一個第一階立體環繞聲分量，其中該第一傳輸訊號和該第二傳輸訊號的和不同於該第一傳輸訊號和該第二傳輸訊號的相加。
如請求項24之裝置，其中關於該傳輸表示的資訊包含複數傳輸訊號，其中該傳輸後設資料指示關於該傳輸表示的該等傳輸訊號的加權係數或觀看方向的資訊，其中該空間音訊合成器被配置為使用關於該等觀看方向或加權係數的資訊、使用該等傳輸訊號和空間參數來計算該空間音訊表示的不同的一第一階立體環繞聲分量，或者其中該空間音訊合成器被配置為使用關於該等觀看方向或加權係數的資訊、使用該等傳輸訊號來計算該空間音訊表示的不同的第一階立體環繞聲分量。
如請求項24之裝置，其中關於該傳輸表示的資訊包含複數傳輸訊號，其中該傳輸後設資料包括的資訊係關於從兩個不同位置處的麥克風訊號或具有不同觀看方向的麥克風訊號匯出的該等傳輸訊號，其中該空間音訊合成器被配置為選擇具有最接近一揚聲器位置的位置的一參考訊號，或者選擇相對於從該空間音訊表示的參考位置延伸至一揚聲器位置的一方向具有一最接近觀看方向的一參考訊號，或者其中空間音訊合成器被配置為執行該等傳輸訊號的一線性組合，以決定放置在由傳輸後設資料指示的兩個觀看方向之間的一揚聲器的一參考訊號。
如請求項24之裝置，其中關於該傳輸表示的資訊包含複數傳輸訊號，其中該傳輸後設資料包括關於與該等傳輸訊號相關聯的麥克風位置之間的一距離的資訊，其中該空間音訊合成器包括擴散訊號生成器，並且其中該擴散訊號生成器被配置為使用關於該距離的資訊來控制由該擴散訊號生成器生成的一擴散訊號中的一解相關訊號量，從而對於一第一距離，相較於一第二距離的解相關訊號量，較高量的解相關訊號被包含在該擴散訊號中，其中該第一距離小於該第二距離，或者其中該空間音訊合成器包含一解相關濾波器，其被配置為解相關一參考訊號或一經縮放的參考訊號，該空間音訊合成器被配置為使用該解相關濾波器的一輸出訊號、並使用該參考訊號加權為該等麥克風位置之間的一第一距離計算用於該空間音訊表示的一分量訊號，並且對於該麥克風位置之間的一第二距離使用該參考訊號加權計算用於空間音訊表示的一分量訊號而不進行任何解相關處理，該參考訊號加權使用從到達資訊的一聲音方向匯出的一增益，該第二距離大於該第一距離或大於一距離閾值。
如請求項24之裝置，其中該傳輸後設資料包括關於與該傳輸表示的傳輸訊號相關聯的一波束成形或一空間濾波的資訊，並且其中該空間音訊合成器被配置為使用具有一觀看方向最接近從該空間音訊表示的一參考位置到該揚聲器的觀看方向的該傳輸訊號來生成用於一揚聲器的一揚聲器訊號。
如請求項24之裝置，其中該空間音訊合成器被配置為將該空間音訊表示的分量訊號決定為一直接聲音分量和一擴散聲音分量的一組合，其中該直接聲音分量是通過利用取決於一擴散參數或一指向參數的因子縮放一參考訊號來獲得的，其中，該指向參數取決於由該傳輸表示所表示的一音訊場景的聲音的一到達方向，其中該空間音訊合成器被配置為決定對應該傳輸後設資料的資訊的該參考訊號，並且其中使用相同的參考訊號和擴散參數決定該擴散聲音分量。
如請求項24之裝置，其中該空間音訊合成器被配置為將該空間音訊表示的分量訊號決定為一直接聲音分量和一擴散聲音分量的一組合，其中該直接聲音分量是通過利用取決於一擴散參數或一指向參數的因子縮放一參考訊號來獲得的，其中該指向參數取決於由該傳輸表示所表示的一音訊場景的聲音的一到達方向，其中該空間音訊合成器被配置為決定對應該傳輸後設資料的資訊的該參考訊號，並且其中使用該空間音訊合成器所包含的一解相關濾波器、相同的該參考訊號和該擴散參數來決定該擴散聲音分量。
如請求項24之裝置，其中該傳輸表示包括至少兩個不同的麥克風訊號，其中該傳輸後設資料包括指示是否該至少兩個不同的麥克風訊號是全向訊號、偶極訊號還是心形訊號中的至少一個的資訊，並且其中該空間音訊合成器被配置為使一參考訊號決定適應該傳輸後設資料，以對該空間音訊表示的分量決定單獨的參考訊號，並且使用為該相應分量決定的單獨的參考訊號來計算該相應分量。
一種對表示一音訊場景的一空間音訊表示進行編碼以獲得一編碼音訊訊號的方法，該方法包括：從該空間音訊表示生成一傳輸表示；生成傳輸後設資料，該傳輸後設資料關於該傳輸表示的生成或指示該傳輸表示的一或多個指向性質；以及輸出該編碼音訊訊號，該編碼音訊訊號包括關於該傳輸表示的資訊及關於該傳輸後設資料的資訊。
如請求項48之方法，其更包括從該空間音訊表示匯出空間參數，並且其中該編碼音訊訊號另外包括關於該空間參數的資訊。
一種用於解碼一編碼音訊訊號的方法，該方法包括：接收編碼的音訊訊號，該編碼的音訊訊號包括關於從一音訊場景匯出的一傳輸表示的資訊和關於與該傳輸表示相關的傳輸後設資料的資訊；以及使用關於該傳輸表示的資訊和關於該傳輸後設資料的資訊來合成一空間音訊表示。
如請求項50之方法，其更包括接收關於空間參數的資訊，並且其中該合成更使用關於該空間參數的資訊來合成該空間音訊表示。
一種計算機程式，包括程式指令，當該程式指令在計算機或處理器上執行時，用於執行請求項48或50之方法。