TWI490853B

TWI490853B - 多聲道音訊處理技術

Info

Publication number: TWI490853B
Application number: TW099143962A
Authority: TW
Inventors: Pasi Sakari Ojala
Original assignee: Nokia Corp
Priority date: 2009-12-16
Filing date: 2010-12-15
Publication date: 2015-07-01
Also published as: WO2011072729A1; KR101450414B1; KR20120098883A; EP2513898B1; CN102656627A; US9584235B2; CN102656627B; TW201135718A; US20130195276A1; EP2513898A1

Description

多聲道音訊處理技術

發明領域

本發明的實施例有關於多聲道音訊處理。特別地，它們有關於音訊信號分析、編碼及/或解碼多聲道音訊。

發明背景

多聲道音訊信號分析被用於，例如有關3D影像中的方向及運動以及聲源數目之多聲道音訊上下文分析、音訊編碼，音訊編碼轉而可用於編碼例如語音、音樂等等。

多聲道音訊編碼可例如用於數位音訊廣播、數位TV廣播、音樂下載服務、串流化音樂服務、網際網路無線電廣播、電信會議、透過分封交換網路的即時多媒體傳輸(諸如，IP上的語音、多媒體廣播多播服務(MBMS)及分封交換串流化(PSS))。

發明之各種不同實施例的簡要說明

依據本發明的各種不同但未必所有實施例，本文提供一種方法，其包含以下步驟：接收至少一第一輸入音訊聲道及一第二輸入音訊聲道；及使用一聲道間預測模型來形成至少一聲道間接收方向參數。

依據本發明的各種不同但未必所有實施例，本文提供一種包含機器可讀指令的電腦程式產品，機器可讀指令在載入於一處理器中時控制該處理器執行以下操作：接收至少一第一輸入音訊聲道及一第二輸入音訊聲道；及使用一聲道間預測模型來形成至少一聲道間接收方向參數。

依據本發明的各種不同但未必所有實施例，本文提供一種設備，其包含一處理器及記錄機器可讀指令的一記憶體，機器可讀指令在載入於一處理器中時使該設備能夠執行以下操作：接收至少一第一輸入音訊聲道及一第二輸入音訊聲道；及使用一聲道間預測模型來形成至少一聲道間接收方向參數。

依據本發明的各種不同但未必所有實施例，本文提供一種設備，其包含：用以接收至少一第一輸入音訊聲道及一第二輸入音訊聲道之裝置；及用以使用一聲道間預測模型來形成至少一聲道間接收方向參數之裝置。

依據本發明的各種不同但未必所有實施例，本文提供一種方法，其包含以下步驟：接收一下混信號及該至少一聲道間接收方向參數；及使用該下混信號及該至少一聲道間接收方向參數來給出多聲道音訊輸出。

圖式簡單說明

為了更好理解本發明實施例的各種不同範例，現在將以範例方式僅參考附圖，其中：第1圖示意繪示多聲道音訊編碼的的一系統；第2圖示意繪示一編碼器設備；第3圖示意繪示在一些實施形態中如何決定針對不同推定聲道間預測模型H₁ 及H₂ 的成本函數；第4圖示意繪示用以由選定聲道間預測模型H決定一聲道間參數的方法；第5圖示意繪示用以由選定聲道間預測模型H決定一聲道間參數的方法；第6圖示意繪示可作為一編碼器設備及/或一解碼器設備使用之一編碼器設備的組件；第7圖示意繪示用以決定一聲道間接收方向參數的一方法；第8圖示意繪示一解碼器，其中合成區塊的多聲道輸出被混合成多個輸出音訊聲道；及第9圖示意繪示自編碼器設備接收輸入信號之一解碼器設備。

本發明之各種不同實施例之詳細說明

所說明的多聲道音訊編碼器設備4在此範例中是一參數編碼器，其依據利用多聲道音訊信號分析的一預定義參數模型來編碼。

參數模型在此範例中是一感知模型，其啟用有損壓縮及減小資料速率以便減小傳輸頻寬或容納多聲道音訊信號所需的儲存空間。

編碼器設備4在此範例中使用諸如雙耳線索編碼(BCC)參數化之一參數編碼技術來執行多聲道音訊編碼。參數音訊編碼模型一般將原始音訊表示為包含由原始信號的聲道形成之減小數目的音訊聲道之一下混信號，例如表示為一單聲道或雙聲道(立體聲)合量信號連同一參數位元串流，該參數位元串流描述原始信號的聲道間的差以便能夠重建原始信號，亦即描述由原始信號所表示的空間影像。包含一個以上聲道的一下混信號可視為數個獨立的下混信號。

參數可包含在多個轉換域時間-頻率槽中的每一者中亦即在一輸入訊框的頻率子頻帶中估計之至少一聲道間參數。傳統地，聲道間參數曾為一聲道間層級差(ILD)參數及一聲道間時間差(ITD)參數。然而，下面，聲道間參數包含聲道間接收方向(IDR)參數。在決定聲道間接收(IDR)方向參數的過程中，聲道間層級差(ILD)參數及/或聲道間時間差(ITD)參數仍可被決定為臨時參數。

為了保留輸入信號的空間音訊影像，準確地決定參數是重要的。

第1圖示意繪示多聲道音訊編碼的一系統2。多聲道音訊編碼可例如用於數位音訊廣播、數位TV廣播、音樂下載服務、串流化音樂服務、網際網路無線電廣播、會話應用、電信會議。

一多聲道音訊信號35可表示使用若干麥克風25_n 自現實生活環境中擷取的一音訊影像，麥克風擷取源自一聲學空間中的一或多個聲源的聲音33。由單獨麥克風所提供的信號表示多聲道音訊信號35中的單獨聲道33_n 。信號由編碼器4處理以提供對聲學空間之空間音訊影像的一壓縮表示型態。通常所使用麥克風設置的範例包括針對立體聲(亦即，兩聲道)的多聲道組態、5.1及7.2聲道組態。一特殊情況是一雙耳音訊擷取，其旨在藉由擷取使用兩聲道33₁ 、33₂ 的信號而模型化人類聽覺，兩聲道33₁ 、33₂ 對應於到達一(真實或虛擬)聽眾的耳膜的聲道。然而，基本上，任一種類的多麥克風設置可用來擷取一個多聲道音訊信號。通常，使用一聲學空間中的若干麥克風擷取之一個多聲道音訊信號35生成具有相關聲道的多聲道音訊。

輸入至編碼器4的一多聲道音訊信號35亦可表示一虛擬音訊影像，其可藉由將源自不同通常不相關來源的聲道33_n 相組合而產生。原始聲道33_n 可以是單聲道或多聲道。此多聲道音訊信號35的聲道可由編碼器4處理以顯出一期望空間音訊影像，例如藉由以原始信號感知上看似來自期望方向，可能地亦在期望層級之一方式來將原始信號設定於音訊影像中的期望「位置」。

第2圖示意繪示一編碼器設備4。

參數模型在此範例中是啟用有損壓縮及減小頻寬的一感知模型。

編碼器設備4在此範例中使用諸如雙耳線索編碼(BCC)參數化之一參數編碼技術來執行空間音訊編碼。一般地，諸如BCC之參數音訊編碼模型將原始音訊表示為包含由原始信號的聲道形成之減小數目的音訊聲道之一下混信號，例如表示為一單聲道或雙聲道(立體聲)合量信號連同一參數位元串流，該參數位元串流描述原始信號的聲道間的差以便能夠重建原始信號，亦即描述由原始信號所表示的空間影像。包含一個以上聲道的一下混信號可視為數個獨立下混信號。

一轉換器50例如使用離散時間訊框上的濾波器組分解來將輸入音訊信號(兩或更多個輸入音訊聲道)自時域轉換至頻域。濾波器組可遭臨界取樣。臨界取樣暗含，資料(每秒樣本)數量在轉換域中保持不變。

當作為子頻帶分解的一部分進行區塊亦即訊框的視窗化時，濾波器組可例如被實施為啟用自一訊框到另一訊框的平滑暫態之一重疊轉換。可選擇地，分解可被實施為一連續濾波操作，使用例如多相格式的一FIR濾波器以能夠進行計算上有效率的操作。

輸入音訊信號的聲道被單獨轉換為頻域，亦即為一輸入訊框時槽的若干頻率子頻帶。因而，輸入音訊聲道被分割為時域中的時槽及頻域中的子頻帶。

分割在時域中可以是均勻的以形成均勻時槽，例如相等歷時的時槽。分割在頻域中可以是均勻的以形成均勻子頻帶，例如相等頻率範圍的子頻帶，或分割在頻域中可以是不均勻的以形成一不均勻子頻帶結構，例如不同頻率範圍的子頻帶。在一些實施中，低頻率的子頻帶比在較高頻率的子頻帶更窄。

自感知及心理聲學視角出發，接近ERB(等效矩形頻寬)尺度的一子頻帶結構是較佳的。然而，可應用任一種類的子頻帶劃分。

轉換器50的一輸出提供至產生場景參數55的音訊場景分析器54。音訊場景在轉換域中分析，及相對應的參數化被擷取及處理供用以後面消耗的傳輸或儲存。

音訊場景分析器54使用一聲道間預測模型來形成聲道間場景參數55。

聲道間參數可例如包含在每一轉換域時間頻率槽中，亦即在一輸入訊框的一頻率子頻帶中估計之一聲道間接收方向(IDR)參數。

此外，可決定選定聲道對之間針對一輸入訊框的一頻率子頻帶的聲道間一致性參數(ICC)。通常，針對輸入信號的每一時間頻率槽或時間頻率槽的一子集決定IDR及ICC參數。時間頻率槽的一子集可表示例如感知上最重要頻率成份、輸入訊框的一子集的頻率槽(的一子集)、特別關注時間頻率槽的任一子集。聲道間參數的感知重要性可隨時間頻率槽而異。此外，對於具有不同特性的輸入信號，聲道間參數的重要性可不同。

可決定任兩聲道間的IDR參數。如一範例，可決定一輸入音訊聲道及一參考聲道之間，通常是每一輸入音訊聲道與一參考輸入音訊聲道之間的IDR參數。如另一範例，輸入聲道可例如以一麥克風陣列的相鄰麥克風形成一對之一方式來組成聲道對，及決定每一聲道對的IDR參數。對於與一參考聲道比較的每一聲道通常個別地決定ICC。

下面使用具有兩輸入聲道L、R及一單一聲道下混信號的一範例來說明BCC方法的一些細節。然而，表示型態可一般化以涵蓋兩個以上的輸入音訊聲道及/或使用一個以上的下混信號(或具有一個以上聲道的一下混信號)的一組態。

一下混器52產生下混信號作為輸入信號之聲道的一組合。描述音訊場景的參數在例如下混過程之前或之後亦可用來額外處理多聲道輸入信號，以消除聲道間的時間差以便提供輸入聲道中的時間對準音訊。

下混信號通常被產生作為轉換域中輸入信號之聲道的一線性組合。例如在一個雙聲道情況中，僅藉由平均化左及右聲道中的信號可產生下混。

亦有產生下混信號的其他方式。在一範例中，左及右輸入聲道可在組合之前以保留信號的能量之一方式加權。這在信號能量在一聲道上明顯低於在其他聲道上或能量在一聲道上接近零時可能是有用的。

一可取捨反向轉換器56可用來在時域中產生經下混音訊信號57。

可選擇地，可缺少反向轉換器56。輸出經下混音訊信號57因而在頻域中編碼。

一多聲道或雙耳編碼器的輸出通常包含經編碼下混音訊信號或諸信號57及場景參數55。此編碼可由信號57及55的單獨編碼區塊(圖未繪示)提供。任一單聲道(立體聲)音訊編碼器適於下混音訊信號57，而對於聲道間參數55，需要一特定BCC參數編碼器。聲道間參數可例如包括聲道間接收方向(IDR)參數。

第3圖 示意繪示在一些實施形態中可如何決定針對不同推定聲道間預測模型H₁ 及H₂ 的成本函數。

一主體子頻帶中音訊聲道j在時間n的一樣本可表示為x_j (n)。

一主體子頻帶中音訊聲道j在時間n的歷史以往樣本可表示為x_j (n－k)，其中k＞0。

一主體子頻帶中音訊聲道j在時間n的一預測樣本可表示為y_j (n)。

聲道間預測模型依據一音訊聲道歷史來表示另一音訊聲道j的一預測樣本y_j (n)。聲道間預測模型可以是一自回歸(AR)模型、一移動平均(MA)模型或一自回歸移動平均(ARMA)模型等等。

如基於AR模型的一範例，階數為L的一第一聲道間預測模型H₁ 可將一預測樣本y₂ 表示為輸入信號x₁ 的樣本的一加權線性組合。

輸入信號x₁ 包含來自一第一輸入音訊聲道的樣本，及預測樣本y₂ 表示第二輸入音訊聲道的一預測樣本。

模型階數(L)，亦即預測器係數的數目大於或等於所期望聲道間延遲。亦即，模型應至少具有與樣本中期望的聲道間延遲一樣多的預測器係數。具有比延遲略高的模型階數可以是有利的，特別是在期望延遲在子樣本域中時。

一第二聲道間預測模型H₂ 可將一預測樣本y₁ 表示為輸入信號x₂ 的樣本的一加權線性組合參數。

輸入信號x₂ 包含來自第二輸入音訊聲道的樣本，及預測樣本y₁ 表示第一輸入音訊聲道的一預測樣本。

雖然聲道間模型階數L在此範例中為預測樣本y₁ 及預測樣本y₂ 共有，但非必須如此。預測樣本y₁ 的聲道間模型階數L可與預測樣本y₂ 的聲道間模型階數L不同。模型階數L亦可例如基於輸入信號特性而隨輸入訊框變化。此外，可選擇地或額外地，模型階數L在一輸入訊框的頻率子頻帶中可不同。

在區塊82決定的成本函數可被定義為預測樣本y與一實際樣本x之間的一差。

聲道間預測模型H₁ 的成本函數在此範例中是：

聲道間預測模型H₂ 的成本函數在此範例中是：

一推定聲道間預測模型的成本函數被最小化以決定推定聲道間預測模型。這可例如使用最少平方線性回歸分析來實現。

可使用利用將來樣本的預測模型。如一範例，在即時分析(及/或編碼)中，這可藉由緩衝能夠基於將來樣本以期望預測順序進行預測的若干輸入訊框來啟用。此外，在分析/編碼預儲存音訊信號時，期望的將來信號數量易可用於預測過程。

亦可使用一遞歸聲道間預測模型。在此方法中，在逐樣本的基礎上可得預測誤差。此方法使在任一瞬間選擇預測模型及即使在一訊框中也更新預測增益數次是可能的。例如，用來使用聲道1的資料而預測聲道2的預測模型可如下遞歸地決定：

其中初始值是f ₁ (0)=[0 0…0]^T ，P (0)=δ ^-1 I 是矩陣P (n )的初始狀態，及p 是AR模型階數，亦即向量f 的長度，及λ 是具有例如0.5的一值之一忘卻因數。

一般地，不論預測模型，主體子頻帶的預測增益可定義為：

針對第3圖。

一高預測增益指出主體子頻帶中聲道間的強互相關。

推定聲道間預測模型的品質可使用預測增益來評估。一第一選擇準則可要求，推定聲道間預測模型H_i 的預測增益g_i 大於一絕對臨界值T₁ 。

一低預測增益暗含聲道間互相關低。小於或接近整體的預測增益值指出，預測器不提供有意義的參數化。例如，絕對臨界值可設在10log₁₀ (g_i )=10 dB。

如果推定聲道間預測模型H_i 的預測增益g_i 不超過臨界值，測試不成功。因而，確定推定聲道間預測模型H_i 不適於決定聲道間參數。

如果推定聲道間預測模型H_i 的預測增益g_i 超過臨界值，測試成功。因而，確定推定聲道間預測模型H_i 可適於決定聲道間參數。

一第二選擇準則可要求，推定聲道間預測模型H_i 的預測增益g_i 大於一相對臨界值T₂ 。

相對臨界值T₂ 可以是目前最佳預測增益加一偏移。偏移值可以是大於或等於零的任一值。在一實施中，偏移被設為在20dB與40dB之間，諸如30dB。

選定聲道間預測模型被用來形成IDR參數。

初始地，藉由將主體音訊聲道之主體域時間頻率槽的一特性與一參考音訊聲道之同一時間頻率槽的一特性相比較，來決定一主體音訊聲道在一主體域時間頻率槽的一臨時聲道間參數。該特性例如可以是相位/延遲及/或其可為振幅(magnitude)。

第4圖 示意繪示用以由一主體子頻帶中的選定聲道間預測模型H_i 決定一第一臨時聲道間參數的一方法100。

在區塊102，決定聲道間預測模型的一相移/響應。

由模型的相位響應決定聲道間時間差。在時，頻率響應被決定為。模型的相移被決定為Φ (ω)=∠(H (e ^j ^ω ))　-方程式9

在區塊104，決定主體子頻帶之模型的相對應相位延遲：

在區塊106，可決定τ_Φ (ω)在若干子頻帶上的平均值。子頻帶數目可包含涵蓋整個頻率範圍或其的一子集的子頻帶。

由於在子頻帶域中進行相位延遲分析，對一訊框內聲道間時間差(延遲)的一合理估計是τ_Φ (ω)在涵蓋整個頻率範圍或其的一子集之子頻帶上的平均值。

第5圖 示意說明用以由一主體子頻帶的選定聲道間預測模型H_i 決定一第二臨時聲道間參數之一方法110。

在區塊112，決定聲道間預測模型的一振幅。

由模型的振幅響應來決定聲道間層級差參數。

主體子頻帶之模型的聲道間層級差被決定為

g (ω)=|H (e ^j ^ω )|　-方程式11

此外，藉由計算τ_Φ (ω)在涵蓋整個頻率範圍或其的一子集之若干子頻帶上的平均值可估計聲道間層級差。

在區塊114，可決定τ_Φ (ω)在涵蓋整個頻率範圍或其的一子集之若干子頻帶上的平均值。該平均值可用作各自訊框的聲道間層級差參數。

第7圖示意繪示用以決定一或多個聲道間接收方向參數的一方法70。

在區塊72，接收輸入音訊聲道。在下面範例中使用兩輸入聲道，但在其它實施中可使用大量輸入聲道。例如，大量聲道可減至共享相同參考聲道的一系列聲道對。如另一範例，基於聲道組態，大量輸入聲道可分組成聲道對。針對聲道間預測模型及相對應的預測增益對，對應於相鄰麥克風的聲道可鏈接在一起。例如，當在一陣列組態中具有N個麥克風時，到達估計的方向可形成出自相鄰麥克風聲道的N-1個聲道對。對於造成N-1個參數的每一聲道對，接著可決定到達方向(或IDR)參數。

在區塊73，決定輸入聲道的預測增益。

預測增益g_i 可被定義為：

針對第3圖。

第一預測增益是預測第一輸入音訊聲道之一聲道間預測模型之一第一度量g₁ 的一範例。第二預測增益是預測第二輸入音訊聲道之一聲道間預測模型之一第二度量g₂ 的一範例。

在區塊74，預測增益用來決定一或多個比較值。

一適當比較值的一範例是預測增益差d，其中

d =log₁₀ (g ₁ )-log₁₀ (g ₂ )　-方程式14

因而，區塊73決定一比較值(例如d)，其將第一度量(例如g₁ )與第二度量(例如g₂ )進行比較。第一度量(例如g₁ )用作緩慢變化函數(例如，對數)的自變量以獲得一經修改第一度量(例如log₁₀ (g ₁ ))。第二度量(例如g₂ )用作同一緩慢變化函數(例如，對數)的自變量以獲得一經修改第二度量(例如log₁₀ (g ₂ ))。比較值d被決定為一比較，例如經修改第一度量與經修改第二度量之間的一差。

比較值(例如，預測增益差)d可與聲道間接收方向參數成比例。因而，預測增益的差越大，聲源與一軸的中心相比的接收方向角度就越大，該軸垂直於一聽線，例如連接用以擷取諸如一線性麥克風陣列的線性方向之各別音訊聲道的麥克風之一線。

比較值(例如，d)可映射至聲道間接收方向參數Φ ，其是使用一映射函數α()來描述接收方向的一角度。如一範例，預測增益差d可藉由例如使用下面的一映射函數α而線性映射至範圍為[-π/2...π/2]的接收方向角度

d =αΦ 　-方程式15

映射亦可以是一常數或時間及子頻帶的一函數，亦即α(t ,m )。

在區塊76，校準該映射。此區塊使用決定的比較(區塊74)及一參考聲道間接收方向參數(區塊75)。

校準的映射函數將聲道間接收方向參數映射至比較值。由比較值(來自區塊74)及一相關聯的聲道間接收方向參數(來自區塊75)可校準映射函數。

可在區塊75使用一絕對聲道間時間差參數τ決定或在每一子頻帶n使用一絕對聲道間層級差參數ΔL _n 決定相關聯的聲道間接收方向參數。

由音訊場景分析器54可決定聲道間時間差(ITD)參數τ_n 及絕對聲道間層級差(ILD)參數ΔL _n 。

該等參數可在一轉換域時間頻率槽內，亦即在一輸入訊框的一頻率子頻帶中估計。通常，針對輸入信號的每一時間頻率槽，或表示感知最重要頻率成份之頻率槽的一子集，決定ILD及ITD參數。

可決定一輸入音訊聲道及一參考聲道之間，通常每一輸入音訊聲道及一參數輸入音訊聲道之間的ILD及ITD參數。

下面使用具有兩輸入聲道L、R及一單一下混信號之一範例來說明一方法的一些細節。然而，可一般化表示型態以涵蓋兩個以上的輸入音訊聲道及/或使用一個以上下混信號的組態。

每一子頻帶ΔL _n 的聲道間層級差(ILD)通常可被估計為：

其中及分別是子頻帶n中的時域左及右聲道信號。

聲道間時間差(ITD)，亦即兩輸入音訊聲道間的延遲可如下決定

τ_n =arg max_d {Φ_n (k ,d )}　-方程式17

其中Φ_n (d ,k )是正規化互相關

其中

d ₁ =max{0,-d }

d ₂ =max{0,d }

可選擇地，該等參數可在離散傅立葉轉換(DFT)域中決定。使用例如視窗化短時傅立葉轉換(STFT)，上面的子頻帶信號被轉換成成組轉換係數。及分別是針對給定分析訊框的子頻帶n之兩輸入音訊聲道L、R的頻譜係數。轉換域ILD可被決定為：

其中^* 表示複共軛。

在發明實施例中，可使用造成複值轉換信號的任一轉換來代替DFT。

然而，時間差(ITD)作為一聲道間相位差(ICPD)可更便於處理。

僅對於有限數目的子頻帶可決定時間及層級差參數，及它們在每一訊框中不需更新。

接著在區塊75決定聲道間接收方向參數。如一範例，使用來自下式的一絕對聲道間時間差(ITD)參數τ可決定參考聲道間接收方向參數Φ ：

τ=(|x |sin(Φ ))/c ,　-方程式22

其中|x |是麥克風之間的距離及c 是聲速。

如另一範例，使用如下(振幅)平移法則中的聲道間信號層級差可決定參考聲道間接收方向參數Φ

其中l _i =是聲道i的信號層級參數。在方程式16中決定的ILD線索可用來決定針對平移法則的信號層級。首先，藉由下式自單聲道下混獲取信號及

其中s _n 是單聲道下混。接著，方程式23中需要的信號層級被決定為及。

回來參考區塊76，由所獲得的比較值(來自區塊74)及相關聯的參考聲道間接收方向參數(來自區塊75)可校準映射函數。

映射函數可以是時間及子頻帶的一函數及使用可獲得的比較值及與這些比較值相關聯的參考聲道間接收方向參數來決定。如果在一個以上的子頻帶中可用比較值及相關聯的參考聲道間接收方向參數，映射函數可作為多項式適合在可用資料中。

映射函數可間歇地再校準。在映射精度正愈大於臨界值或甚至在每一訊框及每一子頻帶中時，映射函數α (t ,n )可在固定間隔或基於輸入信號特性來再校準。

再校準僅針對子頻帶的一子集進行。

接著，區塊77使用經校準映射函數來決定聲道間接收方向參數。

一逆映射函數用來將比較值(例如，d)映射至聲道間接收方向參數(例如，)。

例如，在每一子頻帶n內使用下列方程式在編碼器54中可決定接收方向

依據此發明的一實施例，接收方向參數估計是雙耳編碼器54的輸出55。

一聲道間一致性線索亦可被提供作為用以補充空間影像參數化的一音訊場景參數55。然而，對於在1500Hz以上的高頻子頻帶，在聲道間時間或相位差通常變得不確定時，絕對預測增益可用作聲道間一致性線索。

在一些實施例中，僅在(t)與前面提供的接收方向參數(t-n)相差至少一臨界值時，才可將一接收方向參數提供至一目的地。

在發明的一些實施例中，針對給出側，可提供映射函數α (t ,n )作為參數55。然而，在解碼器中給出空間聲音未必需要映射函數。

聲道間預測增益通常平滑地演進。在數個訊框的一相對長時間段對映射函數α ^-1 (t ,n )進行平滑(及平均)可是有益的。即使在映射函數被平滑時，接收方向參數估計保持對突然改變的快速反應能力，因為實際參數是以訊框及基於子頻帶的預測增益為基礎。

第6圖示意繪示可作為一編碼器設備4及/或一解碼器設備80使用之一編碼器設備的組件。編碼器設備可以是一一最終產品或一模組。這裡使用‘模組’指不包括某些部件/組件的一單元或一設備，這些部分/組件會由一最終製造商或一使用者加入以形成一最終產品設備。

一編碼器的實施可僅在硬體(一電路、一處理器...)中進行，有某些層面僅在包括韌體之軟體中進行，或可以是硬體及軟體(包括韌體)的一組合。

使用，例如藉由使用一通用或特殊用途處理器內可儲存在一電腦可讀儲存媒體(磁碟、記憶體等等)上供此一處理器執行的可執行電腦程式指令而啟用硬體功能的指令可實施編碼器。

在所說明的範例中，一編碼器設備4包含：一處理器40、一記憶體42及一輸入/輸出介面44，諸如舉例而言一網路適配器。

處理器40組配來自記憶體42讀取或寫入至記憶體42。處理器40亦可包含一輸出介面，處理器40經由其輸出資料及/或命令，及一輸入介面，資料及/或命令經由該輸入介面輸入至處理器40。

記憶體42儲存包含電腦程式指令的一電腦程式46，電腦程式指令在載入於處理器40中時控制編碼器設備的操作。電腦程式指令46提供邏輯及常式，其使設備能夠執行第3至9圖所述方法。處理器40藉由讀取記憶體42能夠載入及執行電腦程式46。

電腦程式可經由任一適當的傳遞機制48而到達編碼器設備。傳送機制48可以是例如一電腦可讀儲存媒體、一電腦程式產品、一記憶體裝置、諸如一CD-ROM或DVD之一記錄媒體、有形體現電腦程式的一製造物。傳送機制可以是組配來可靠傳遞電腦程式46之一信號。編碼器設備可將電腦程式46作為一電腦資料信號傳播及傳輸。

雖然記憶體42被說明為一單一組件，但其可作為一或多個獨立組件實施，這些獨立組件中的一些或全部可整合/可移動及/或可提供永久/半永久/動態/快取儲存。

提及‘電腦可讀儲存媒體’、‘電腦程式產品’、‘有形體現的電腦程式’等或一‘控制器’、‘電腦’、‘處理器’等等應理解為不僅包含具有諸如單一/多處理器架構及順序(馮諾依曼)/並行架構之不同架構的電腦，而且也包含專用電路，諸如現場可規劃閘陣列(FPGA)、特定應用電路(ASIC)、信號處理裝置及其它裝置。提及電腦程式、指令、程式碼等等應理解為包含針對一可規劃處理器的軟體或韌體，諸如舉例而言，一硬體裝置的可規劃內容，不管是一處理器的指令，還是針對一固定功能裝置、閘陣列或可規劃邏輯裝置等等的組態設定。

解碼

第9圖 示意說明自編碼器設備4接收輸入信號57、55的一解碼器設備180。

解碼器設備180包含一合成區塊182及一參數處理區塊184。基於參數處理器區塊184所提供的參數在合成區塊可出現信號合成，例如BCC合成。

由N個樣本s ₀ ,...,s _N
-1 組成之下混信號57的一訊框以例如DTF轉換被轉換成N個頻譜樣本S ₀ ,...,S _N
-1 。

聲道間參數(BCC線索)55，例如上面描述的IDR，自參數處理區塊184輸出並應用於合成區塊182以產生空間音訊信號，在此範例中，為多個(M)輸出音訊聲道183中的雙耳音訊。

兩聲道之間的時間差可由下式定義：

其中|x |是揚聲器之間的距離，及c 是聲速。

兩聲道之間的層級差可由下式定義：

因而，所接收的聲道間接收方向參數可轉換振幅及時間/相位差平移法則以產生聲道間層級及時間差線索供上混單聲道下混。在從體驗品質的視角可完全利用輸出聲道的相位差時，這可特別有益於耳機聆聽。

可選擇地，所接收的聲道間接收方向參數可僅轉換為聲道間層級差線索供上混單聲道下混而不用時間延遲給出。這可舉例而言用於揚聲器表示。

基於接收方向估計的給出是很靈活的。輸出聲道組態不需要與擷取側的組態相同。即使在使用一個兩聲道信號，例如僅使用兩麥克風執行參數化時，使用任意數目的聲道也可給出音訊。

應指出的是，使用依頻率而定的接收方向(IDR)參數之合成使表示音源的聲音成分再現。臨場感(ambience)可仍缺失，及其可使用一致性參數來合成。

用以基於一致性線索來合成臨場感成分的方法由解相關一信號以產生晚回響信號組成。實施可由使用隨機相位濾波器過濾輸出音訊輸出聲道並將結果加入至輸出而組成。在一不同濾波器延遲應用於輸出音訊聲道時，產生一組解相關信號。

第8圖示意繪示一解碼器，其中合成區塊182的多聲道輸出由混合器189混入多個(K)輸出音訊聲道，知曉輸出聲道數目可與輸入聲道數目不同(K ≠M )。

這容許給出不同空間混合格式。例如，混合器189可對識別使用者的揚聲器設置之使用者輸入193響應以改變混合及輸出音訊聲道191的性質及數目。實際上，這意味著，例如初始針對一個5.1揚聲器系統混合或記錄的一個多聲道電影聲跡，可上混針對一更現代7.2揚聲器系統。同樣地，用雙耳麥克風記錄的音樂或會話可透過一個多聲道揚聲器設置來播放。

透過其它計算上更高價的方法，諸如交互相關來獲得聲道間參數亦是可能的。在一些實施例中，上述方法可用於一第一頻率範圍及交互相關可用於一第二不同頻率範圍。

在第2至5圖及第7至9圖中說明的區塊可表示在一方法中的步驟及/或電腦程式46中的程式碼段。對區塊的一特定順序的說明未必暗示針對區塊有一需要或較佳的順序，及區塊的順序及排列可改變。此外，省略一些步驟是可能的。

雖然在前面段落中參考各種不同範例已描述了本發明的實施例，但是應瞭解的是，在不背離如所主張申請專利範圍之發明範圍的情況下可對給定範例進行修改。例如，上面描述的技術亦可應用於MPEG環繞編解碼器。

在前面說明中所描述的特徵可在除明確所述組合外的組合中使用。

雖然已參考某些特徵描述了功能，但這些功能可由不論描述與否的其他特徵執行。

雖然已參考某些實施例描述了特徵，但這些特徵亦可在不論描述與否的其它實施例中出現。

雖然在前面說明書中力圖將注意力吸引至認為特別重要的本發明的這些特徵，但應理解的是，申請人申請專利範圍保護前文提及及/或在圖式中繪示之任一可專利的特徵或特徵組合而無論其是否曾予特別強調。

2‧‧‧系統

4‧‧‧多聲道音訊編碼器設備、編碼區設備

25₁ ~25_n ‧‧‧麥克風

33‧‧‧聲音

33₁ ~33_n ‧‧‧聲道

35‧‧‧多聲道音訊信號

40‧‧‧處理器

42‧‧‧記憶體

44‧‧‧輸入/輸出介面

46‧‧‧電腦程式

48‧‧‧傳送機制

50‧‧‧轉換器

52‧‧‧下混器

54‧‧‧音訊場景分析器

55‧‧‧聲道間場景參數、聲道間參數

56‧‧‧逆轉換器

57‧‧‧輸出下混音訊信號、下混音訊信號、下混信號

70、100、110‧‧‧方法

72~77、82、112、114‧‧‧區塊

180‧‧‧解碼器設備

182‧‧‧合成區塊

183‧‧‧輸出音訊聲道

184‧‧‧參數處理區塊

189‧‧‧混合器

191‧‧‧輸出音訊聲道

193‧‧‧使用者輸入

第1圖示意繪示多聲道音訊編碼的的一系統；第2圖示意繪示一編碼器設備；第3圖示意繪示在一些實施形態中如何決定針對不同推定聲道間預測模型H₁ 及H₂ 的成本函數；第4圖示意繪示用以由選定聲道間預測模型H決定一聲道間參數的方法；第5圖示意繪示用以由選定聲道間預測模型H決定一聲道間參數的方法；第6圖示意繪示可作為一編碼器設備及/或一解碼器設備使用之一編碼器設備的組件；第7圖示意繪示用以決定一聲道間接收方向參數的一方法；第8圖示意繪示一解碼器，其中合成區塊的多聲道輸出被混合成多個輸出音訊聲道；及第9圖示意繪示自編碼器設備接收輸入信號之一解碼器設備。

70．．．方法

72~77．．．區塊

Claims

一種音訊處理方法，其包含以下步驟：接收一第一輸入音訊聲道及一第二輸入音訊聲道；決定一第一度量作為預測該第一輸入音訊聲道之聲道間預測模型的預測增益，及決定一第二度量作為預測該第二輸入音訊聲道之聲道間預測模型的預測增益；決定將該第一度量與該第二度量作比較之一比較值；以及基於該比較值來決定至少一聲道間接收方向參數。
如申請專利範圍第1項所述之方法，其進一步包含提供一輸出信號之步驟，該輸出信號包含一下混信號及該至少一聲道間接收方向參數。
如申請專利範圍第1項所述之方法，其進一步包含以下步驟：使用該第一度量作為一緩慢變化函數的一運算元來獲得一經修改第一度量；使用該第二度量作為同一緩慢變化函數的一運算元來獲得一經修改第二度量；決定該經修改第一度量與該經修改第二度量之間的一差作為該比較值。
如申請專利範圍第1項所述之方法，其中該比較值是該第一度量的對數與該第二度量的對數之間的一差。
如申請專利範圍第1項所述之方法，其進一步包含以下步驟：使用由所獲得的該比較值及一相關聯聲道間接收方向參數而校準的一映射函數來將該聲道間接收方向參數映射至該比較值。
如申請專利範圍第5項所述之方法，其中該相關聯聲道間接收方向參數是使用一絕對聲道間時間差參數及/或一絕對聲道間層級差參數來決定。
如申請專利範圍第5項所述之方法，其進一步包含間歇地再校準該映射函數之步驟。
如申請專利範圍第5項所述之方法，其中該映射函數是時間及子頻帶的一函數，且使用可得之所獲得的比較值及相關聯的聲道間接收方向參數來決定。
如申請專利範圍第1項所述之方法，其中該聲道間預測模型依據一不同音訊聲道來表示一音訊聲道的一預測樣本。
如申請專利範圍第9項所述之方法，其進一步包含最小化該預測樣本的一成本函數以決定聲道間預測模型並使用該決定的聲道間預測模型來決定至少一聲道間參數之步驟。
如申請專利範圍第1項所述之方法，其進一步包含在時域的時槽及在頻域的子頻帶中分割至少該第一輸入音訊聲道及第二輸入音訊聲道，以及使用聲道間預測模型來形成多個子頻帶之各個的聲道間接收方向參數之步驟。
如申請專利範圍第1~11項中任一項所述之方法，其進一步包含使用至少一選擇準則來選擇供使用的聲道間預測模型之步驟，其中該至少一選擇準則是基於該聲道間預測模型的一性能測度。
如申請專利範圍第12項所述之方法，其中該性能測度是預測增益。
如申請專利範圍第12項所述之方法，其包含自多個聲道間預測模型選擇供使用的一個聲道間預測模型之步驟。
一種電腦程式，其在載入至一處理器中時控制該處理器執行如申請專利範圍第1至14項中任一項所述之方法。
一種包含機器可讀指令的電腦程式產品，該等機器可讀指令在被載入至一處理器中時控制該處理器執行以下操作：接收一第一輸入音訊聲道及一第二輸入音訊聲道；決定一第一度量作為預測該第一輸入音訊聲道之聲道間預測模型的預測增益，及決定一第二度量作為預測該第二輸入音訊聲道之聲道間預測模型的預測增益；決定將該第一度量與該第二度量作比較之一比較值；以及基於該比較值來決定至少一聲道間接收方向參數。
如申請專利範圍第16項所述之電腦程式產品，其包含機器可讀指令，該等機器可讀指令在被載入至一處理器中時控制該處理器執行以下操作：使用該第一度量作為一緩慢變化函數的一運算元來獲得一經修改第一度量；使用該第二度量作為同一緩慢變化函數的一運算元來獲得一經修改第二度量；及決定該經修改第一度量與該經修改第二度量之間的一差作為該比較值。
如申請專利範圍第16或17項所述之電腦程式產品，其中該比較值是該第一度量的對數與該第二度量的對數之間的一差。
一種音訊處理設備，其包含：用以接收一第一輸入音訊聲道及一第二輸入音訊聲道之裝置；用以決定一第一度量及一第二度量的裝置，該第一度量係作為預測該第一輸入音訊聲道之聲道間預測模型的預測增益，而該第二度量係作為預測該第二輸入音訊聲道之聲道間預測模型的預測增益；用以決定將該第一度量與該第二度量作比較之一比較值的裝置；以及用以決定至少一聲道間接收方向參數的裝置。
如申請專利範圍第19項所述之設備，其包含：用以使用該第一度量作為一緩慢變化函數的一運算元來獲得一經修改第一度量之裝置；用以使用該第二度量作為同一緩慢變化函數的一運算元來獲得一經修改第二度量之裝置；及用以決定該經修改第一度量與該經修改第二度量之間的一差作為該比較值之裝置。
一種音訊處理方法，其包含以下步驟：接收至少一聲道間接收方向參數，其中該至少一聲道間接收方向參數係基於一比較值來決定，其中該比較值係決定為一第一度量及一第二度量之比較，其中該第一度量係決定作為預測一第一輸入音訊聲道之聲道間預測模型的預測增益，而該第二度量係決定作為預測一第二輸入音訊聲道之聲道間預測模型的預測增益；及使用一下混信號及該至少一聲道間接收方向參數來給出多聲道音訊輸出。
如申請專利範圍第21項所述之方法，其進一步包含以下步驟：在給出該多聲道音訊輸出之前，將該至少一聲道間接收方向參數轉換成一聲道間時間差。
如申請專利範圍第21或22項所述之方法，其進一步包含以下步驟：使用一平移法則將該至少一聲道間接收方向參數轉換成層級值。