TWI508578B

TWI508578B - 音訊編碼及解碼

Info

Publication number: TWI508578B
Application number: TW096105931A
Authority: TW
Inventors: Dirk Jeroen Breebaart; Erik Gosuinus Petrus Schuijers; Arnoldus Werner Johannes Oomen
Original assignee: Koninkl Philips Electronics Nv
Priority date: 2006-02-21
Filing date: 2007-02-16
Publication date: 2015-11-11
Also published as: DE602007004451D1; EP1989920B1; US20200335115A1; JP2009527970A; CN101390443B; TW200738038A; KR101358700B1; BRPI0707969B1; EP1989920A1; WO2007096808A1; ES2339888T3; US20150213807A1; KR20080107422A; JP5081838B2; US20180151185A1; BRPI0707969A2; CN101390443A; US9009057B2; US9865270B2; PL1989920T3

Description

音訊編碼及解碼

本發明相關於音訊編碼及/或解碼，尤其(但非僅是)相關於涉及雙耳(binaural)虛擬空間信號的音訊編碼及/或解碼。

由於數位信號表示及通訊已越來越取代類比表示及通訊，因此近十年來各種信號來源的數位編碼已越來越重要。例如，視訊及音樂等媒體內容的分布越來越基於數位內容編碼。

此外，近十年來已有朝向多聲道音訊的趨勢，及特定地朝向空間音訊，其延伸超出傳統立體聲信號。例如，傳統立體聲記錄僅包括二聲道，然而現代先進音訊系統通常使用五或六聲道，如在流行的5.1環繞音響系統中。此音訊系統提供一較複雜的聆聽感受，其中使用者可由數個音源環繞。

已開發各種技術及標準以用於此類多聲道信號的通訊。例如，代表5.1環繞系統的六個分離聲道可根據先進音訊編碼(AAC)或杜比數位標準等標準來傳送。

然而，為提供向後相容性，習知將較大數目的聲道向下混音成一較小數目的聲道，及特定地常用來將一5.1環繞音響信號向下混音成一立體聲信號，其容許一立體聲信號由舊型(立體聲)解碼器再製，及一5.1信號由環繞音響解碼器再製。

一範例是MPEG2(動態圖形專家小組壓縮標準2)向後相容編碼方法。一多聲道信號向下混音成一立體聲信號。數個額外信號在該輔助資料部分中編碼，其容許一MPEG2多聲道解碼器產生該多聲道信號的一表示。一MPEG1解碼器將忽視該輔助資料，及因此僅解碼該立體聲向下混音。在MPEG2中應用的編碼方法的主要缺點在於，該等額外信號所需的額外資料傳輸率與編碼該立體聲信號所需的資料傳輸率是在相同幅度等級。因此為延伸立體聲到多聲道音訊的額外位元傳輸率相當大。

在無額外多聲道資訊之下，用於向後相容多聲道傳輸的其他現有方法的特徵通常是模擬四聲道環繞立體聲方法。模擬四聲道環繞音響編碼的數個範例包括杜比程式邏輯II及邏輯7等方法。此等方法的共同原則在於，該等方法將該輸入信號的該等多聲道矩陣乘以一合適非二次矩陣，藉此產生具有較小數目聲道的一輸出信號。特定地，一矩陣編碼器在將該等環繞立體聲道與該等前聲道及中心聲道混音前，通常施加數個移相到該等環繞立體聲道。

聲道轉換的另一理由是編碼效率。已發現如數個環繞音響音訊信號可編碼為數個立體聲道音訊信號，其與描述該音訊信號空間特性的一參數位元流合併。該解碼器可用極令人滿意準確性再製該等立體聲音訊信號。依此，可顯著節省位元傳輸率。

有數個參數可用以描述音訊信號的空間特性。一此類參數是聲道之間的交叉相關，如立體聲信號的左聲道與右聲道之間的交叉相關。另一參數是該等聲道的功率比。在所謂(參數)空間音訊編碼器中，此等及其他參數抽取自原音訊信號，以便產生具有減少數目聲道的一音訊信號，例如僅單聲道，加上描述原音訊信號空間特性的一組參數。在所謂(參數)空間音訊解碼器中，恢復如該等傳送空間參數所述的空間特性。

此類空間音訊編碼較佳利用一串聯或樹狀階層結構，其包括該編碼器及該解碼器中的數個標準單元。在該編碼器中，此等標準單元可為數個向下混音器，其將數個聲道合併成較小數目的聲道，如2對1、3對1、3對2等向下混音器，而在該解碼器中，數個對應標準單元可為向上混音器，其將數個聲道分割成一較大數目的聲道，如1對2、2對3向上混音器。

目前對立體(3D)音源定位倍感興趣，尤其在行動領域中。行動遊戲中的音樂播放及音效當定位在3D中時可在消費者感受加入重大價值，其有效地產生一"頭部外面(out-of-head)"定位的3D效果。特定地，習知記錄及再製雙耳音訊信號，其包含人類耳朵易感受的特定方向資訊。通常使用一仿真人頭中安裝的二麥克風以作出雙耳記錄，以便記錄的聲音對應到人類耳朵捕捉的聲音，及包括頭及耳朵形狀導致的任何影響。雙耳記錄不同於立體聲(意即立體效果)記錄之處在於，雙耳記錄的再製通常意欲用於一頭戴式受話器或頭戴式耳機，然而通常為藉由喇叭的再製而作出立體聲記錄。雖然雙耳記錄容許僅使用二聲道再製所有空間資訊，但立體聲記錄不會提供相同的空間感知。可藉由用一組感知傳遞函數盤繞各正規信號，使正規雙聲道(立體效果)或多聲道(如5.1)記錄變換成雙耳記錄。此類感知傳遞函數製作人腦及可能是其他物體對於該信號的影響。一習知類型的空間感知傳遞函數是所謂的頭部相關傳遞函數(HRTF)。一替代類型的空間感知傳遞函數是雙耳房間脈衝響應(BRIR)，其亦考量到房間牆壁、天花板及地板造成的反射。

通常，3D定位演算法利用HRTF，其描述藉由一脈衝響應而自一特定音源位置到耳膜的傳遞。3D音源定位可藉由HRTF而應用到多聲道信號，藉此容許一雙耳信號例如使用一對頭戴式耳機而提供空間音響資訊給使用者。

習知由到達兩耳的頻譜中的特定峰值及波谷主導地幫助高度感知。另一方面，在該等"雙耳"提示中，如在該等耳膜的信號之間的位準差及到達時間差中捕捉一音源的(感知)方位。大部分由總信號位準幫助距離感知，及若為共鳴環境，則藉由直接與共鳴能量的比。

藉由(數對)脈衝響應可捕捉用於高度、方位及距離的感知提示；一脈衝響應用以描述從一特定音源位置到左耳的傳遞；及一脈衝響應用於右耳。因此，用於高度、方位及距離的感知提示由該(對)HRTF脈衝響應的對應特性來判定。在大部分情況中，測量一HRTF配對以用於數目眾多的一組音源位置；通常在高度及方位兩者具有約5度的空間解析度。

傳統雙耳3D合成包括具有一HRTF配對以用於該期望音源位置的一輸入信號的濾波(盤繞(convolution))。然而，由於通常在無回聲條件中測量HRTF，因此常缺少"距離"或"頭部外面(out-of-head)"定位的感知。雖然具有無回聲HRTF的一信號的盤繞不足用於3D音響合成，但由一複雜性及彈性觀點，使用無回聲HRTF常是較佳的。一回聲環境的效果(產生該距離感知所需)可在一稍後階段加入，其留給最終使用者一些彈性以修改該等房間音響特性。此外，由於常假定遲迴響是全向的(無方向提示)，因此相較於用一回聲HRTF配對以盤繞每一音源，此處理方法常較有效率。此外，除了用於房間音響效果的複雜性及彈性議題外，使用無回聲HRTF亦具有數個優點以用於該"枯燥"(方向提示)信號的合成。

在3D定位領域中的最近研究已顯示，由該等無回聲HRTF脈衝響應代表的頻率解析度在許多情況中高於所需。特定地，似乎用於相位及幅度頻譜兩者，如由等效長方形帶寬(ERB)標度建議的非線性頻率解析度足以合成具有一準確度的數個3D音源，其在感知上與用全無回聲HRTF的處理並無差別。換言之，無回聲HRTF頻譜不需高於人類聽覺系統頻率解析度的一頻譜解析度。

圖1概述一傳統雙耳合成演算法。一組輸入聲道由一組HRTF濾波。各輸入信號分割成二信號(一左"L"分量及一右"R"分量)；此等信號後續各由對應到該期望音源位置的一HRTF濾波。後續合計所有左耳信號以產生該左雙耳輸出信號，及合計該等右耳信號以產生該右雙耳輸出信號。

該HRTF盤繞可在該時域中執行，但常最好在該頻域中執行該濾波以作為一乘積。在該情況中，該合計亦可在該頻域中執行。

習知數個解碼器系統，其可接收一環繞音響編碼信號，及由一雙耳信號產生一環繞音響感受。例如，習知頭載式耳機系統容許一環繞音響信號轉換成一環繞音響雙耳信號，用以提供一環繞音響感受給該耳機使用者。

圖2說明一系統，其中一MPEG環繞立體聲解碼器接收具有空間參數資料的一立體聲信號。將該輸入位元流解多工，其造成數個空間參數及一向下混音位元流。使用一傳統單聲道或立體聲解碼器以解碼該後者位元流。解碼的向下混音由一空間解碼器解碼，該空間解碼器基於該等傳送的空間參數而產生一多聲道輸出。最後，接著由一雙耳合成級(類似於圖1者)處理該多聲道輸出，其造成提供一環繞音響感受給使用者的一雙耳輸出信號。

然而，此一方法具有數個相關缺點。

例如，該環繞音響解碼器與該雙耳合成的串聯包括一多聲道信號表示的計算以作為一中間步驟，之後是在該雙耳合成步驟中的HRTF盤繞及向下混音。此串聯可造成複雜性增加及效能降低。

而且，該系統極複雜。例如，數個空間解碼器通常在一子頻帶(正交鏡像濾波器(QMF))域中運算。另一方面，HRTF盤繞通常可在快速傅立葉變換(FFT)域中最有效率地實施。因此，需要一多聲道QMF合成濾波器庫、一多聲道FFT變換及一立體聲逆FFT變換的串聯，其造成具有高計算需求的一系統。

所提供的使用者感受品質會降低。例如，在該(立體聲)雙耳輸出中仍可聽到該空間解碼器為產生一多聲道重建而產生的編碼人工產物。

此外，該方法需要數個專用解碼器，及由個別使用者裝置執行的複雜信號處理。此可阻礙許多情況中的應用。例如，僅能解碼立體聲向下混音的舊型裝置將無法提供一環繞音響使用者感受。

因此，一提升的音訊編碼/解碼將有利。

因此，本發明尋求較佳地緩和、減輕或排除一或多個上述缺點，個別地或在任一組合中。

根據本發明的一第一方面，提供一種音訊編碼器，包括：接收構件，其用以接收一M聲道音訊信號，其中M>2；向下混音構件，其用以將該M聲道音訊信號向下混音成一第一立體聲信號及相關參數資料；產生構件，其用以修改該第一立體聲信號以產生一第二立體聲信號，以回應該相關參數資料及用於一雙耳感知傳遞函數的空間參數資料，該第二立體聲信號是一雙耳信號；編碼構件，其用以編碼該第二立體聲信號以產生編碼的資料；及輸出構件，其用以產生一輸出資料流，其包括該編碼資料及該相關參數資料。

本發明可容許提升的音訊編碼。尤其地，本發明可容許多聲道信號的一有效立體聲編碼，同時容許舊型立體聲解碼器提供一增強的空間感受。此外，本發明容許在該解碼器顚倒一雙耳虛擬空間合成過程，藉此容許高品質多聲道解碼。本發明可容許一低複雜性編碼器，及尤其可容許一雙耳信號的低複雜性產生。本發明可容許有利的實施及功能再利用。

本發明尤其可提供來自一多聲道信號的一雙耳虛擬空間信號的一參數式判定。

該雙耳信號特定地可為一雙耳虛擬空間信號，如一虛擬3D雙耳立體聲信號。該M聲道音訊信號可為一環繞信號，如一5.1或7.1環繞信號。該雙耳虛擬空間信號可模擬用於該M聲道音訊信號的各聲道的一音源位置。該空間參數資料可包括表示從一意欲音源位置到一意欲使用者耳膜的一傳遞函數的資料。

該雙耳感知傳遞函數例如可為一頭部相關傳遞函數(HRTF)或一雙耳房間脈衝響應(BRIR)。

根據本發明的一可選特徵，該產生構件設置成藉由計算用於該第二立體聲信號的數個子頻帶資料值，而產生該第二立體聲信號，以回應該相關參數資料、該空間參數資料，及用於該第一立體聲信號的數個子頻帶資料值。

此特徵可容許提升的編碼及/或有利的實施。特定地，該特徵可提供減低的複雜性及/或減低的計算負荷。該第一立體聲信號、第二立體聲信號、該相關參數資料及該空間參數資料的該等子頻帶間隔可不同，或一些或所有子頻帶可大致完合相同以用於一些或所有此等子頻帶。

根據本發明的一可選特徵，該產生構件設置成產生數個子頻帶值以用於該第二立體聲信號的一第一子頻帶，以回應用於該第一立體聲信號的數個對應立體聲子頻帶值與一第一子頻帶矩陣的乘法；該產生構件尚包括參數構件，其用以判定該第一子頻帶矩陣的數個資料值，以回應用於該第一子頻帶的相關參數資料及空間參數資料。

此特徵可容許提升的編碼及/或有利的實施。特定地，該特徵可提供減低的複雜性及/或減低的計算負荷。本發明尤其可藉由在個別子頻帶上執行矩陣運算，而提供來自一多聲道信號的一雙耳虛擬空間信號的一參數式判定。該等第一子頻帶矩陣值可反映該等結果多聲道的一多聲道解碼與HRTF/BRIR濾波的一串聯的合併效果。可執行一子頻帶矩陣乘法以用於該第二立體聲信號的所有子頻帶。

根據本發明的一可選特徵，該產生構件尚包括轉換構件，其用以將以下至少一者的一資料值轉換成用於該第一子頻帶的一對應資料值：該第一立體聲信號、該相關參數資料，及與一子頻帶相關聯的空間參數資料，該子頻帶具有不同於該第一子頻帶間隔的一頻率間隔。

此特徵可容許提升的編碼及/或有利的實施。特定地，該特徵可提供減低的複雜性及/或減低的計算負荷。特定地，本發明可容許該等不同過程及演算法是基於最適用於該個別過程的子頻帶分割。

根據本發明的一可選特徵，該產生構件設置成判定用於該第二立體聲信號的第一子頻帶的該等立體聲子頻帶值L_B 、R_B 大體上為：其中L_o 、R_o 是該第一立體聲信號的數個對應子頻帶值，及該參數構件設置成判定該乘法矩陣的數個資料值大體上為：h ₁₁ =m ₁₁ H _L (L )+m ₂₁ H _L (R )+m ₃₁ H _L (C )h ₁₂ =m ₁₂ H _L (L )+m ₂₂ H _L (R )+m ₃₂ H _L (C )h ₂₁ =m ₁₁ H _R (L )+m ₂₁ H _R (R )+m ₃₁ H _R (C )h ₂₂ =m ₁₂ H _R (L )+m ₂₂ H _R (R )+m ₃₂ H _R (C )

其中m_k,l 是數個參數，其判定以回應相關參數資料，以用於藉由聲道L、R及C的向下混音構件到該第一立體聲信號的向下混音；及判定H_J (X)以回應用於該第二立體聲信號的聲道X到立體聲輸出聲道J的空間參數資料。

此特徵可容許提升的編碼及/或有利的實施。特定地，該特徵可提供減低的複雜性及/或減低的計算負荷。

根據本發明的一可選特徵，聲道L及R的至少一者對應到至少二向下混音聲道的一向下混音，及該參數構件設置成判定H_J (X)，以回應用於該至少二向下混音聲道的空間參數資料的一加權組合。

根據本發明的一可選特徵，該參數構件設置成判定用於該至少二向下混音聲道的空間參數資料的一加權，以回應用於該至少二向下混音聲道的一相對能量測度。

根據本發明的一可選特徵，該空間參數資料包括至少一參數，其選自以下各項組成的群：每子頻帶參數的一平均位準；一平均到達時間參數；至少一立體聲道的一相位；一時序參數；一群延遲參數；數個立體聲道之間的一相位；及一交叉聲道相關參數。

此等參數可提供特別有利的編碼，尤其可特定地適用於子頻帶處理。

根據本發明的一可選特徵，該輸出構件設置成包括該輸出流中的音源位置資料。

此特徵可容許一解碼器判定合適的空間參數資料，及/或可提供一有效率方式以指明具有低表頭的空間參數資料。此特徵可提供一有效率方式以在該解碼器顚倒該雙耳虛擬空間合成過程，藉此容許高品質多聲道解碼。此外，該特徵可容許一提升的使用者感受，及可容許或有利於具有數個移動音源的一雙耳虛擬空間信號的實施。該特徵可替代或額外地容許在一解碼器的一空間合成的客製化，例如藉由首先顚倒在該編碼器執行的合成，之後是使用客製化或個別化雙耳感知傳遞函數的一合成。

根據本發明的一可選特徵，該輸出構件設置成包括該輸出流中的至少一些空間參數資料。

此特徵可提供一有效率方式以在該解碼器顚倒該雙耳虛擬空間合成過程，藉此容許高品質多聲道解碼。此外，該特徵可容許一提升的使用者感受，及可容許或有利於具有數個移動音源的一雙耳虛擬空間信號的實施。該空間參數資料可直接或間接地包括在該輸出流中，如藉由包括容許一解碼器判定該空間參數資料的資訊。該特徵可替代或額外地容許在一解碼器的一空間合成的客製化，例如藉由首先顚倒在該編碼器執行的合成，之後是使用一客製化或個別化雙耳感知傳遞函數的一合成。

根據本發明的一可選特徵，該編碼器尚包括判定構件，其用以判定該空間參數資料以回應數個期望聲音信號位置。

此特徵可容許提升的編碼及/或有利的實施。該等期望聲音信號位置可對應到用於該M聲道信號的個別聲道的音源位置。

根據本發明的另一方面，提供一種音訊解碼器，包括：接收構件，其用以接收輸入資料，其包括一第一立體聲信號及與一M聲道音訊信號的一向下混音立體聲信號相關聯的參數資料，其中M>2，該第一立體聲信號是一雙耳信號，其對應到該M聲道音訊信號；及產生構件，其用以修改該第一立體聲信號以產生該向下混音立體聲信號，以回應該參數資料及用於一雙耳感知傳遞函數的第一空間參數資料，該第一空間參數資料與該第一立體聲信號相關聯。

本發明可容許提升的音訊解碼。尤其地，本發明可容許高品質立體聲解碼，及特定地可容許在該解碼器顚倒一編碼器雙耳虛擬空間合成過程。本發明可容許一低複雜性解碼器。本發明可容許有利的實施及功能再利用。

該雙耳信號特定地可為雙耳虛擬空間信號，如一虛擬3D雙耳立體聲信號。該空間參數資料可包括表示自一意欲音源位置到一意欲使用者耳朵的一傳遞函數的資料。該雙耳感知傳遞函數例如可為一頭部相關傳遞函數(HRTF)或一雙耳房間脈衝響應(BRIR)。

根據本發明的一可選特徵，該音訊解碼器尚包括產生構件，其用以產生該M聲道音訊信號以回應該向下混音立體聲信號及該參數資料。

本發明可容許提升的音訊解碼。尤其地，本發明可容許一高品質多聲道解碼，及特定地可容許在該解碼器顚倒一編碼器雙耳虛擬空間合成過程。本發明可容許一低複雜性解碼器。本發明可容許有利的實施及功能再利用。

該M聲道音訊信號可為一環繞信號，如一5.1或7.1環繞信號。該雙耳信號可為一虛擬空間信號，其模擬用於該M聲道音訊信號的各聲道的一音源位置。

根據本發明的一可選特徵，該產生構件設置成藉由計算用於該向下混音立體聲信號的數個子頻帶資料值，而產生該向下混音立體聲信號，以回應該相關參數資料、該空間參數資料，及用於該第一立體聲信號的數個子頻帶資料值。

此特徵可容許提升的解碼及/或有利的實施。特定地，該特徵可提供減低的複雜性及/或減低的計算負荷。該第一立體聲信號、該向下混波立體聲信號、該相關參數資料及該空間參數資料的子頻帶間隔可不同，或一些或所有子頻帶可大致完全相同以用於一些或所有此等子頻帶。

根據本發明的一可選特徵，該產生構件設置成產生數個子頻帶值以用於該向下混音立體聲信號的一第一子頻帶，以回應用於該第一立體聲信號的數個對應立體聲子頻帶值與一第一子頻帶矩陣的乘法；該產生構件尚包括參數構件，其用以判定該第一子頻帶矩陣的數個資料值，以回應用於該第一子頻帶的參數資料及空間參數資料。

此特徵可容許提升的解碼及/或有利的實施。特定地，該特徵可提供減低的複雜性及/或減低的計算負荷。該等第一子頻帶矩陣值可反映該等結果多聲道的一多聲道解碼及HRTF/BRIR濾波的一串聯合併效果。可執行一子頻帶矩陣乘法以用於該向下混音立體聲信號的所有子頻帶。

根據本發明的一可選特徵，該輸入資料包括至少一些空間參數資料。

此特徵可提供一有效率方式以顚倒在一編碼器執行的一雙耳虛擬空間合成過程，藉此容許高品質多聲道解碼。此外，該特徵可容許一提升的使用者感受，及可容許或有利於具有數個移動音源的一雙耳虛擬空間信號的實施。該空間參數資料可直接或間接地包括在該輸入資料中，該資料可為如容許該解碼器判定該空間參數資料的任何資訊。

根據本發明的一可選特徵，該輸入資料包括音源位置資料，及該解碼器包括判定構件，其用以判定該空間參數資料以回應該音源位置資料。

該解碼器例如可包括一資料儲存，其包括與不同音源位置相關聯的HRTF空間參數資料，及可藉由擷取用於該等指明位置的參數資料而判定使用的空間參數資料。

根據本發明的一可選特徵，該音訊解碼器尚包括一空間解碼單元，其用以藉由修改該第一立體聲信號而產生一對雙耳輸出聲道，以回應該相關參數資料及用於一第二雙耳感知傳遞函數的第二空間參數資料，該第二空間參數資料不同於該第一空間參數資料。

該特徵可容許提升的空間合成，及尤其可容許一個別或客製化空間合成雙耳信號，其尤其適於該特定使用者。此特徵可達成，同時仍容許舊型立體聲解碼器在不需該解碼器中的空間合成之下，產生數個空間雙耳信號。因此，可達成一提升的音訊系統。該第二雙耳感知傳遞函數可特定地不同於該第一空間資料的雙耳感知傳遞函數。該第二雙耳感知傳遞函數及該第二空間資料可特定地客製化以用於該解碼器的個別使用者。

根據本發明的一可選特徵，該空間解碼器包括：一參數轉換單元，其使用該第二空間參數資料用以轉換該參數資料成數個雙耳合成參數；及一空間合成單元，其使用該等雙耳合成參數及該第一立體聲信號用以合成該對雙耳聲道。

此特徵可容許提高的效能及/或有利的實施及/或減低的複雜性。該等雙耳參數可為數個參數，其可與該第一立體聲信號及/或該向下混音立體聲信號的子頻帶樣本相乘，以產生用於該等雙耳聲道的數個子頻帶樣本。該乘法例如可為一矩陣乘法。

根據本發明的一可選特徵，該等雙耳合成參數包括用於一2×2矩陣的數個矩陣係數，該2×2矩陣使該向下混音立體聲信號的數個立體聲樣本與該對雙耳輸出聲道的數個立體聲樣本相關。

此特徵可容許提高的效能及/或有利的實施及/或減低的複雜性。該等立體聲樣本可為如QMF或傅立葉變換子頻帶的數個立體聲子頻帶樣本。

根據本發明的一可選特徵，該等雙耳合成參數包括用於一2×2矩陣的數個矩陣係數，該2×2矩陣使該第一立體聲信號的數個立體聲子頻帶樣本與該對雙耳輸出聲道的數個立體聲樣本相關。

根據本發明的另一方面，提供一種音訊編碼方法，該方法包括：接收一M聲道音訊信號，其中M>2；將該M聲道音訊信號向下混音成一第一立體聲信號及相關參數資料；修改該第一立體聲信號以產生一第二立體聲信號，以回應該相關參數資料及用於一雙耳感知傳遞函數的空間參數資料，該第二立體聲信號是一雙耳信號；編碼該第二立體聲信號以產生編碼的資料；及產生一輸出資料流，其包括該編碼資料及該相關參數資料。

根據本發明的另一方面，提供一種音訊解碼方法，該方法包括：- 接收輸入資料，其包括一第一立體聲信號，及與一M聲道音訊信號的一向下混音立體聲信號相關聯的參數資料，其中M>2，該第一立體聲信號是一雙耳信號，其對應到該M聲道音訊信號；及- 修改該第一立體聲信號以產生該向下混音立體聲信號，以回應該參數資料及用於一雙耳感知傳遞函數的空間參數資料，該空間參數資料與該第一立體聲信號相關聯。

根據本發明的另一方面，提供一種用以接收一音訊信號的接收器，包括：接收構件，其用以接收輸入資料，其包括一第一立體聲信號及與一M聲道音訊信號的一向下混音立體聲信號相關聯的參數資料，其中M>2，該第一立體聲信號是一雙耳信號，其對應到該M聲道音訊信號；及產生構件，其用以修改該第一立體聲信號以產生該向下混音立體聲信號，以回應該參數資料及用於一雙耳感知傳遞函數的空間參數資料，該空間參數資料與該第一立體聲信號相關聯。

根據本發明的另一方面，提供一種用以傳送一輸出資料流的發射器；該發射器包括：接收構件，其用以接收一M聲道音訊信號，其中M>2；向下混音構件，其用以將該M聲道音訊信號向下混音成一第一立體聲信號及相關參數資料；產生構件，其用以修改該第一立體聲信號以產生一第二立體聲信號，以回應該相關參數資料及用於一雙耳感知傳遞函數的空間參數資料，該第二立體聲信號是一雙耳信號；編碼構件，其用以編碼該第二立體聲信號以產生編碼的資料；輸出構件，其用以產生一輸出資料流，其包括該編碼資料及該相關參數資料；及傳送構件，其用以傳送該輸出資料流。

根據本發明的另一方面，提供一種用以傳送一音訊信號的傳輸系統，該傳輸系統包括：一發射器，其包括：接收構件，其用以接收一M聲道音訊信號，其中M>2；向下混音構件，其用以將該M聲道音訊信號向下混音成一第一立體聲信號及相關參數資料；產生構件，其用以修改該第一立體聲信號以產生一第二立體聲信號，以回應該相關參數資料及用於一雙耳感知傳遞函數的空間參數資料，該第二立體聲信號是一雙耳信號；編碼構件，其用以編碼該第二立體聲信號以產生編碼的資料；輸出構件，其用以產生一音訊輸出資料流，其包括該編碼資料及該相關參數資料；及傳送構件，其用以傳送該音訊輸出資料流；及一接收器，其包括：接收構件，其用以接收該音訊輸出資料流；及修改構件，其用以修改該第二立體聲信號以產生該第一立體聲信號，以回應該參數資料及該空間參數資料。

根據本發明的另一方面，提供一種接收一音訊信號的方法，該方法包括：接收輸入資料，其包括一第一立體聲信號及與一M聲道音訊信號的一向下混音立體聲信號相關聯的參數資料，其中M>2，該第一立體聲信號是一雙耳信號，其對應到該M聲道音訊信號；及修改該第一立體聲信號以產生該向下混音立體聲信號，以回應該參數資料及用於一雙耳感知傳遞函數的空間參數資料，該空間參數資料與該第一立體聲信號相關聯。

根據本發明的另一方面，提供一種傳送一音訊輸出資料流的方法，該方法包括：接收一M聲道音訊信號，其中M>2；將該M聲道音訊信號向下混音成一第一立體聲信號及相關參數資料；修改該第一立體聲信號以產生一第二立體聲信號，以回應該相關參數資料及用於一雙耳感知傳遞函數的空間參數資料，該第二立體聲信號是一雙耳信號；編碼該第二立體聲信號以產生編碼的資料；及產生一音訊輸出資料流，其包括該編碼資料及該相關參數資料；及傳送該音訊輸出資料流。

根據本發明的另一方面，提供一種傳送及接收一音訊信號的方法，該方法包括：接收一M聲道音訊信號，其中M>2；將該M聲道音訊信號向下混音成一第一立體聲信號及相關參數資料；修改該第一立體聲信號以產生一第二立體聲信號，以回應該相關參數資料及用於一雙耳感知傳遞函數的空間參數資料，該第二立體聲信號是一雙耳信號；編碼該第二立體聲信號以產生編碼的資料；及產生一音訊輸出資料流，其包括該編碼資料及該相關參數資料；傳送該音訊輸出資料流；接收該音訊輸出資料流；及修改該第二立體聲信號以產生該第一立體聲信號，以回應該參數資料及該空間參數資料。

根據本發明的另一方面，提供一種用以執行任何上述方法的電腦程式產品。

根據本發明的另一方面，提供一種音訊記錄裝置，包括如上述編碼器的一編碼器。

根據本發明的另一方面，提供一種音訊播放裝置，包括如上述解碼器的一解碼器。

根據本發明的另一方面，提供一種音訊資料流以用於一音訊信號，其包括一第一立體聲信號；及與一M聲道音訊信號的一向下混音立體聲信號相關聯的參數資料，其中M>2；其中該第一立體聲信號是一雙耳信號，其對應到該M聲道音訊信號。

根據本發明的另一方面，提供一種儲存媒體，具有如上述的一信號儲存於其上。

參照至以下說明的該(等)實施例將明白及闡明本發明的此等及其他方面、特徵及優點。

圖3根據本發明的一些實施例說明一傳輸系統300，其用於一音訊信號的通訊。傳輸系統300包括一發射器301，其透過一網路305，其特定地可為網際網路，以耦合到一接收器303。

在該特定範例中，發射器301是一信號記錄裝置，及該接收器是一信號播放裝置303，但應了解，在其他實施例中，一發射器及接收器可用在其他應用中及用於其他目的。例如，發射器301及/或接收器303可為一轉碼功能的一部分，及如可提供介面連接到其他信號源或目的地。

在該特定範例中，其中支援一信號記錄功能，發射器301包括一數位轉換器307，其接收一類比信號，其藉由取樣及類比至數位轉換而轉換成一數位脈衝碼調變(PCM)信號。數位轉換器307取樣複數個信號，藉此產生一多聲道信號。

發射器301耦合到圖1的編碼器309，其根據一編碼演算法以編碼該多聲道信號。編碼器309耦合到一網路發射器311，其接收該編碼信號及以介面連接到網際網路305。該網路發射器可透過網際網路305以傳送該編碼信號到接收器303。

接收器303包括一網路接收器313，其以介面連接到網際網路305，及其設置成接收來自發射器301的編碼信號。

網路接收器313耦合到一解碼器315。解碼器315接收該編碼信號及根據一解碼演算法以解碼該編碼信號。

在該特定範例中，其中支援一信號播放功能，接收器303尚包括一信號播放器317，其接收來自解碼器315的解碼音訊信號，及將此解碼音訊信號呈現給使用者。特定地，信號播放器317可包括輸出該解碼音訊信號所需的一數位至類比轉換器、數個放大器及數個喇叭。

在該特定範例中，編碼器309接收一個五聲道環繞音響信號，且將此信號向下混音成一立體聲信號。接著後處理該立體聲信號以產生一雙耳信號，其特定地是在3D雙耳向下混音形式中的一雙耳虛擬空間信號。在空間編碼後，藉由使用在向下混音上工作的一3D後處理級，可在解碼器315中顚倒該3D處理。結果，用於喇叭播放的一多聲道解碼器將因修改的立體聲向下混音而顯示無重大品質劣化，而同時即使傳統立體聲解碼器將產生一3D相容信號。因此，編碼器309可產生一信號，其容許一高品質多聲道解碼，及同時容許一虛擬空間感受自一傳統立體聲輸出，如自一傳統解碼器輸入一對頭戴式耳機。

圖4更詳細說明編碼器309。

編碼器309包括一多聲道接收器401，其接收一多聲道音訊信號。雖然所述原則將應用到一多聲道信號，其包括超過二的任何數目的聲道，但該特定範例將著重在對應到一標準環繞音響信號的五聲道信號(為求清晰簡明，將忽略經常用於環繞立體聲信號的較低頻聲道。然而，熟諳此藝者應明白多聲道信號可具有一額外低頻聲道。此聲道例如可藉由一向下混音處理器而與該中心聲道合併)。

多聲道接收器401耦合到一向下混音處理器403，其設置成將該五聲道音訊信號向下混音成一第一立體聲信號。此外，向下混音處理器403產生參數資料405，其與該第一立體聲信號相關聯，及包含數個音訊提示及相關該第一立體聲信號與該多聲道信號的原聲道的資訊。

向下混音處理器403例如可實施一MPEG環繞多聲道編碼器。圖5中說明此類編碼器的一範例。在該範例中，該多聲道輸入信號由該等Lf(左前)、Ls(左環繞)、C(中心)、Rf(右前)及Rs(右環繞)聲道所組成。該等Lf及Ls聲道饋送到一第一TTO(二對一)向下混音器501，其產生用於一左(L)聲道的一單向下混音，以及相關該二輸入聲道Lf及Ls與該輸出L聲道的數個參數。同樣地，該等Rf及Rs聲道饋送到一第二TTO向下混音器503，其產生用於一右(R)聲道的一單向下混音，以及相關該二輸入聲道Rf及Rs與該輸出R聲道的數個參數。該等R、L及C聲道接著饋送到一TTT(三對二)向下混音器505，其合併此等信號以產生一立體聲向下混音及數個額外空間參數。

因TTT向下混音器505造成的該等參數通常由用於各參數頻帶的一對預測係數或一對位準差所組成，用以描述該三輸入信號的能量比。TTO向下混音器501、503的該等參數通常由用於各頻帶的輸入信號之間的位準差及一致或交叉相關值所組成。

所產生的第一立體聲信號因此是一標準傳統立體聲信號，其包括數個向下混音聲道。一多聲道解碼器可藉由向上混音或應用該相關參數資料而再產生原多聲道信號。然而，一標準立體聲解碼器將僅提供一立體聲信號，藉此失去空間資訊及產生一減低的使用者感受。

然而，在編碼器309中，未直接編碼及傳送該向下混音立體聲信號。反而，該第一立體聲信號饋送到一空間處理器407，其亦饋入來自向下混音處理器403的相關參數資料405。此外，空間處理器407耦合到一HRTF處理器409。

HRTF處理器409產生頭部相關傳遞函數(HRTF)參數資料，其由空間處理器407使用以產生一3D雙耳信號。特定地，一HRTF描述藉由一脈衝響應自一已知音源位置到耳膜的傳遞函數。HRTF處理器409特定地產生HRTF參數資料，其對應到一子頻帶中的一期望HRTF函數的一值。HRTF處理器409例如可計算一HRTF以用於該多聲道信號的該等聲道之一的一音源位置。此傳遞函數可轉換成一合適子頻帶域(如一QMF或FFT子頻帶域)，及可判定各子頻帶中的對應HRTF參數值。

應了解，雖然該說明著重在頭部相關傳遞函數的應用，但所述方法及原則同樣適合應用到其他(空間)雙耳感知傳遞函數，如雙耳房間脈衝響應(BRIR)函數。雙耳感知傳遞函數的另一範例是一簡單振幅移動法則，其描述從一輸入聲道到各該等雙耳立體聲輸出聲道的信號位準的相對量。

在一些實施例中，可動態地計算該等HRTF參數，然而在其他實施例中，可預設該等HRTF參數及儲存在一合適資料儲存中。例如，該等HRTF參數可儲存在一資料庫中以作為方位、高度、距離及頻帶的一函數。接著可藉由選取用於該期望空間音源位置的該等值，簡單地擷取用於一已知子頻帶的該等適當HRTF參數。

空間處理器407修改該第一立體聲信號以產生一第二立體聲信號，以回應該相關參數資料及空間HRTF參數資料。與該第一立體聲信號相比，該第二立體聲信號是一雙耳虛擬空間信號，及特定地是一3D雙耳信號，當透過一傳統立體聲系統(如藉由一對頭戴式耳機)呈現時，該3D雙耳信號可提供一增強的空間感受，其模擬在不同音源位置存在超過二音源。

該第二立體聲信號饋送到一編碼處理器411，其耦合到空間處理器407，及將該第二信號編碼成適於傳輸的一資料流(例如應用合適量化位準等)。編碼處理器411耦合到一輸出處理器413，其藉由合併至少編碼的第二立體聲信號資料與向下混音處理器403產生的相關參數資料405，而產生一輸出流。

通常，HRTF合成需要用於所有個別音源的數個波形(如在一環繞音響信號場合中的數個喇叭信號)。然而，在編碼器309中，藉助於該編碼(及向下混音)過程期間抽取的空間參數，數個HRTF配對參數化以用於數個子頻帶，藉此容許如藉由該多聲道輸入信號的向下混音的低複雜性後處理，而產生一虛擬5.1喇叭設定。

該空間處理器可特定地在一QMF或FFT子頻帶域等子頻帶域中運算。不解碼該向下混音的第一立體聲信號以產生原多聲道信號，之後是使用HRTF濾波的一HRTF合成，空間處理器407反而產生用於各子頻帶的數個參數值，其對應到以下合併效果，該向下混音的第一立體聲信號解碼成一多聲道信號，之後是該多聲道信號重新編碼以作為一3D雙耳信號。

特定地，本發明人已了解，可藉由應用一2×2矩陣乘法到該第一信號的該等子頻帶信號值而產生3D雙耳信號。該第二信號的該等結果信號值緊密地對應到將由一串聯的多聲道解碼及HRTF合成所產生的該等信號值。因此，該多聲道編碼及HRTF合成的合併信號處理可合併成四參數值(該等矩陣係數)，其可簡單地應用到該第一信號的該等子頻帶信號值以產生該第二信號的該等期望子頻帶值。由於該等矩陣參數值反映解碼該多聲道信號及該HRTF合成的合併過程，因此判定該等參數值以回應來自向下混音處理器403的相關參數資料以及數個HRTF參數兩者。

在編碼器309中，該等HRTF函數參數化以用於該等個別頻帶。HRTF參數化的目的是為自各HRTF配對中捕捉用於音源定位的該等最重要提示。此等參數可包括：- 用於左耳脈衝響應的每子頻帶的一(平均)位準；- 用於右耳脈衝響應的每子頻帶的一(平均)位準；- 左耳與右耳脈衝響應之間的一(平均)到達時間或相位差；- 用於左耳及右耳脈衝響應兩者的每子頻帶的一(平均)絕對相位或時間(或群延遲)(在此情況中，在大部分情況中已經不用該時間或相位差)； - 在數個對應脈衝響應之間每子頻帶的一交叉聲道相關或一致。

每子頻帶的該等位準參數可有利於高度合成(由於該頻譜中的特定峰值及波谷)以及用於方位的位準差(由用於各頻帶的該等位準參數的比所判定)兩者。

該等絕對相位值或相位差值可捕捉兩耳之間的到達時間差，其亦是用於音源方位的重要提示。可加入該一致值以模擬兩耳之間的微結構差異，其無法對每(參數)頻帶平均的位準及/或相位差作出貢獻。

以下說明藉由空間處理器407的處理的一特定範例。在該範例中，如圖6所示，藉由一方位角α及一距離D ，界定相關聆聽者的一音源位置。定位在聆聽者左邊的一音源對應到正方位角。從該音源位置到左耳的傳遞函數由H _L 表示；從該音源位置到右耳的傳遞函數由H _R 表示。

該等傳遞函數H _L 及H _R 依方位角α、距離D及高度ε(圖6中未顯示)而定。在一參數表示中，該等傳遞函數描述為每HRTF子頻帶b _h 的一組三參數。此組參數包括：用於左傳遞函數的每頻帶的一平均位準P _l (α,ε,D,b _h ) ；用於右傳遞函數的每頻帶的一平均位準P _r (α,ε,D,b _h ) ；及每頻帶的一平均相位差Φ(α,ε,D,b _h ) 。此組的一可能延伸是用以包括每HRTF頻帶的該等左及右傳遞函數的一致測量ρ(α,ε,D,b _h ) 。此等參數可儲存在一資料庫中以作為方位、高度、距離及頻帶的一函數，及/或可使用一些分析函數加以運算。例如，可儲存該等P _l 及P _r 參數以作為方位及高度的一函數，而藉由此等值除以該距離本身而達成距離效果(假定信號位準與距離之間是1/D關係)。以下記法P _l (Lf) 表示空間參數P _l ，其對應到該Lf 聲道的音源位置。

應注意，用於HRTF參數化的子頻帶(b _h )的數目及各子頻帶的頻寬，不一定等於空間處理器407使用的(QMF)濾波器庫(k)的頻率解析度，或向下混音處理器403的空間參數解析度，及該等相關參數頻帶(b _p )。例如，該QMF混合濾波器庫可具有71聲道，一HRTF可在28頻帶中參數化，及空間編碼可使用10參數頻帶來執行。在此類情況中，例如可使用一檢視表或一內插或平均函數以應用從空間及HRTF參數到QMF混合指數的一映射。以下的參數指數將用在該說明中：

在該特定範例中，藉由QMF濾波，空間處理器407將該第一立體聲信號分成數個合適子頻帶。用於各子頻帶，該等子頻帶值L_B 、R_B 判定為：其中L_o 、R_o 是該第一立體聲信號的該等對應子頻帶值，及該等矩陣值h_j,k 是數個參數，其判定自數個HRTF參數及該向下混音相關參數資料。

該等矩陣係數的目標在於再製該向下混音的該等特性，就像用對應到該期望音源位置的數個HRTF處理所有個別聲道，及該等矩陣係數包括解碼該多聲道信號及在此信號上執行一HRTF合成的合併效果。

特定地，及參照至圖5及其說明，該等矩陣值可判定為：h ₁₁ =m ₁₁ H _L (L )+m ₂₁ H _L (R )+m ₃₁ H _L (C )h ₁₂ =m ₁₂ H _L (L )+m ₂₂ H _L (R )+m ₃₂ H _L (C )h ₂₁ =m ₁₁ H _R (L )+m ₂₁ H _R (R )+m ₃₁ H _R (C )h ₂₂ =m ₁₂ H _R (L )+m ₂₂ H _R (R )+m ₃₂ H _R (C )其中m_k,l 是數個參數，其判定以回應TTT向下混音器505所產生的參數資料。

特定地，根據：自立體聲向下混音信號L_o 、R_o 產生該等L、R及C信號，其中m_k,l 依二預測係數c₁ 及c₂ 而定，該二預測係數是該等傳送空間參數：的一部分。

判定該等值H_J (X)以回應用於該第二立體聲信號的聲道X到立體聲輸出聲道J的HRTF參數資料，以及數個適當向下混音參數。

特定地，該等H_J (X)參數相關於該二TTO向下混音器501,503產生的該等左(L)及右(R)向下混音信號，及可判定以回應用於該二向下混音聲道的HRTF參數資料。特定地，可使用該二個別左(Lf及Ls)或右(Rf及Rs)聲道用的該等HRTF參數的一加權組合。該等個別參數可由該等個別信號的相對能量加權。作為一特定範例，可判定以下該等值以用於該左信號(L)：其中該等權重w_x 表示成：及CLD₁ 是以分貝界定的左前(Lf)與左環繞(Ls)之間的"聲道位準差"(其為該空間參數位元流的一部分)： σ² _Lf 是該Lf聲道的一參數子頻帶中的乘冪，及σ² _Ls 是該Ls聲道的對應子頻帶中的乘冪。

同樣地，可判定以下該等值以用於右信號(R)：及用於中心(C)信號：

因此，使用所述方法，一低複雜性空間處理可容許一雙耳虛擬空間信號基於該向下混音多聲道信號而產生。

如所提及，所述方法的一優點在於，該等相關向下混音參數的該等子頻帶、藉由空間處理器407的空間處理，及該等HRTF參數不需相同。例如，可執行一子頻帶到該空間處理的該等子頻帶的數個參數之間的一映射。例如，若一空間處理子頻帶覆蓋一頻率間隔，其對應到二HRTF參數子頻帶，則空間處理器407可使用所有HRTF參數子頻帶用的相同空間參數，其對應到該空間參數，簡單地施加(個別)處理到該等HRTF參數子頻帶上。

在一些實施例中，編碼器309可設置成包括音源位置資料，其容許一解碼器辨識該輸出流中一或多個該等音源的期望位置資料。此設置容許該解碼器判定編碼器309所應用的該等HRTF參數，藉此容許該解碼器顚倒空間處理器407的運算。額外或替代地，該編碼器可設置成包括該輸出流中的至少一些HRTF參數資料。

因此，視需要，該等HRTF參數及/或喇叭位置資料可包括在該輸出流中。此包括例如可容許該喇叭位置資料的一動態更新以作為一時間函數(若為喇叭位置傳輸)，或該用途個別化HRTF資料(若為HRTF參數傳輸)。

若為數個HRTF參數傳送以作為該位元流的一部分，至少該等P _l 、P _r 及Φ參數可傳送以用於各頻帶及用於各音源位置。該等幅度參數P _l 、P _r 可使用一線性量化器加以量化，或可在一指數域中量化。該等相位角Φ可線性地量化。接著數個量化器指數可包括在該位元流中。

此外，由於(聽覺之間)相位資訊在感知上是無關於高頻，因此用於通常高於2.5千赫的頻率，該等相位角Φ可假定為零。

量化後，可應用各種損耗較少壓縮體系到該等HRTF參數量化指數。例如，可應用熵編碼，可能搭配微分編碼以跨越數個頻帶。或者，數個HRTF參數可作為相關一共用或平均HRTF參數集的一差分代表。此用於該等幅度參數特別有效。然而，藉由簡單地編碼該高度及方位可極準確地估計該等相位參數。藉由計算該到達時間差(通常該到達時間差實際上是頻率無關的；其大部分是依方位及高度而定)，已知到兩耳的軌道差，可得出該等對應相位參數。此外，基於該等方位及高度值，可微分地編碼數個測量差異成該等預測值。

而且可應用數個損耗壓縮體系，如主分量分解，之後是少數最重要主分量分解(PCA)權重的傳輸。

圖7根據本發明的一些實施例說明一多聲道解碼器的一範例。該解碼器特定地可為圖3的解碼器315。

解碼器315包括一輸入接收器701，其接收來自編碼器309的輸出流。輸入接收器701將收到的資料流解多工，及提供該相關資料到該等適當功能元件。

輸入接收器701耦合到一解碼處理器703，其有該第一立體聲信號的編碼資料饋入。解碼處理器703解碼此資料以產生該雙耳虛擬空間信號，其由空間處理器407所產生。

解碼處理器703耦合到一顚倒處理器705，其設置成顚倒空間處理器407執行的運算。因此，顚倒處理器705產生該向下混音立體聲信號，其由向下混音處理器403所產生。

特定地，顚倒處理器705藉由應用一矩陣乘法到收到的雙耳虛擬空間信號的該等子頻帶值，以產生該向下混音立體聲信號。該矩陣乘法是藉由一矩陣，其對應到空間處理器407所使用矩陣的逆矩陣，藉此顚倒此運算：

此矩陣乘法亦可描述為：

該等矩陣係數q_k,l 判定自與該向下混音信號相關聯(及在來自編碼器309的資料流中收到)的參數資料以及HRTF參數資料。特定地，參照至編碼器309所述方法亦可由解碼器315使用以產生該等矩陣係數h_xy 。接著可由一標準矩陣求逆找出該等矩陣係數q_xy 。

顚倒處理器705耦合到一參數處理器707，其判定將使用的HRTF參數資料。在一些實施例中，該等HRTF參數可包括在收到的資料流中，及可簡單地自該資料流中抽取。在其他實施例中，不同HRTF參數例如可儲存在一資料庫中以用於不同音源位置，及參數處理器707可藉由抽取對應到該期望信號來源位置的該等值而判定該等HRTF參數。在一些實施例中，該(等)期望信號來源位置可包括在來自編碼器309的資料流中。參數處理器707可抽取此資訊及使用此資訊以判定該等HRTF參數。例如，該參數處理器可擷取為該(等)指示音源位置所儲存的該等HRTF參數。

在一些實施例中，由該顚倒處理器產生的立體聲信號可直接輸出。然而，在其他實施例中，該立體聲信號可饋送到一多聲道解碼器709，其可自該向下混音立體聲信號及收到的參數資料產生該M聲道信號。

在該範例中，該3D雙耳合成的顚倒在該子頻帶域中執行，如在QMF或傅立葉子頻帶中。因此，解碼處理器703可包括一QMF濾波器庫或快速傅立葉變換(FFT)，其用以產生該等子頻帶樣本，其饋送到顚倒處理器705。同樣地，顚倒處理器705或多聲道解碼器709可包括一逆FFT或 QMF濾波器庫，其用以將該等信號轉換回到該時域。

在該編碼器側產生一3D雙耳信號容許空間聆聽感受可藉由一傳統立體聲編碼器提供給一頭載式耳機使用者。因此，所述方法具有舊型立體聲裝置可再製一3D雙耳信號的優點。因此，為再製3D雙耳信號，不需施加額外後處理，其造成一低複雜性解決方法。

然而，在此一方法中通常使用一廣義HRTF，相較於使用最佳用於該特定使用者的專用HRTF資料在該解碼器產生該3D雙耳信號，在一些情況中該廣義HRTF可導致次優空間產生。

特定地，一有限距離感知及可能的音源定位誤差有時可源自非個別化HRTF的使用(如用於一仿真人頭或另一人所測量的脈衝響應)。原則上，由於人體解剖幾何中的差異，HRTF是因人而異。因此按照正確音源定位的最適結果可用個別化HRTF資料來最佳達成。

在一些實施例中，解碼器315尚包括功能，其用以首先顚倒編碼器309的空間處理，之後是使用區域HRTF資料，及特定地是使用最適化以用於該特定使用者的個別HRTF資料，以產生一3D雙耳信號。因此，在此實施例中，解碼器315藉由使用該相關參數資料及與在編碼器309使用的(HRTF)資料不同的HRTF參數資料，而修改該向下混音立體聲信號，以產生一對雙耳輸出聲道。因此，在此方法中，提供編碼器側3D合成、解碼器側顚倒，之後是另一級解碼器側3D合成的一組合。

此一方法的優點在於，舊型立體聲裝置將具有數個3D雙耳信號作為輸出，其提供一基本3D品質，而加強型解碼器可選擇使用個人專有的HRTF，其致能一提升的3D品質。因此，在同一音訊系統中能有舊型相容3D合成以及高品質專用3D合成兩者。

圖8中說明此一系統的一簡單範例，圖中顯示一額外空間處理器801可如何加到圖7的解碼器以提供一客製化3D雙耳輸出信號。在一些實施例中，空間處理器801可使用各該等音訊聲道用的個別HRTF功能，而僅提供一簡單直接的3D雙耳合成。因此，該解碼器可再產生原多聲道信號，及使用客製化HRTF濾波將此信號轉換成一3D雙耳信號。

在其他實施例中，該編碼器合成的顚倒與該解碼器合成可合併以提供一較低複雜性運算。特定地，用於該解碼器合成的該等個別化HRTF可參數化，及與編碼器3D合成使用的該等參數(的反函數)合併。

更特定地，如上述，該編碼器合成涉及該等向下混音信號的數個立體聲子頻帶樣本乘以一2x2矩陣：其中L_o 、R_o 是該向下混音立體聲信號的該等對應子頻帶值，及該等矩陣值h_j,k 是自數個HRTF參數及上述向下混音相關參數資料判定的數個參數。

由顚倒處理器705執行的顚倒接著可表示成：其中L_B 、R_B 是該解碼器向下混音立體聲信號的該等對應子頻帶值。

為確保一適當的解碼器側顚倒過程，在該編碼器中用以產生該3D雙耳信號的該等HRTF參數，及用以顚倒該3D雙耳處理的該等HRTF參數是完全相同或夠類似。由於一位元流通常將伺服數個解碼器，因此難以藉由編碼器合成而得到該3D雙耳向下混音的個人專有化。

然而，由於該3D雙耳合成過程是可送的，因此顚倒處理器705恢復該向下混音立體聲信號，其接著用以基於個別化HRTF而產生一3D雙耳信號。

特定地，類似在編碼器309的運算，藉由在向下混音信號L_o 、R_o 上的一簡單、子頻帶方式2×2矩陣運算可產生在解碼器315的3D雙耳合成，用以產生該3D雙耳L_B' ,R_B' ：其中如基於廣義HRTF由編碼器309產生h_x,y 的相同方式，基於該等個別化HRTF而判定該等參數p_x,y 。特定地，在編碼器309中，自該多聲道參數資料及該等廣義HRTF判定該等參數h_x,y 。由於該多聲道參數資料傳送到解碼器315，因此可由此解碼器使用相同方法以基於個別HRTF而計算p_x,y 。

此計算與顚倒處理器705的運算合併

在此公式中，使用該編碼器中使用的廣義非個別化HRTF集以得到該等矩陣元h_x,y ，而使用一不同且較佳是個人專有的HRTF集以得到該等矩陣元p_x,y 。因此，使用不同個人專有的HRTF資料，而將使用非個別化HRTF資料所產生的3D雙耳輸入信號L_B 、R_B 變換成一替代的3D雙耳輸出信號L_B' 、R_B' 。

此外，如所示，藉由一簡單的2x2矩陣運算可達成該編碼器合成的顚倒與該解碼器合成的合併方法。因此，此合併方法的計算複雜性實際上與用於一簡單3D雙耳顚倒相同。

圖9說明解碼器315的一範例，其根據上述原則而運算。特定地，來自編碼器309的3D雙耳立體聲向下混音的該等立體聲子頻帶樣本饋送到顚倒處理器705，其藉由一2×2矩陣運算而恢復該等原立體聲向下混音樣本。

該等結果子頻帶樣本饋送到一空間合成單元901，其藉由此等樣本乘以一2×2矩陣而產生一個別化3D雙耳信號。

該等矩陣係數是由一參數轉換單元(903)所產生，該參數轉換單元基於該個別化HRTF及接收自編碼器309的多聲道延伸資料而產生該等參數。

該等合成子頻帶樣本L_B' 、R_B' 饋送到一子頻帶至時域變換905，其產生可提供給使用者的3D雙耳時域信號。

雖然圖9說明基於非個別化HRTF的3D顚倒及基於個別化HRTF的3D合成的該等步驟，為藉由不同功能單元的循序運算，但應了解，在許多實施例中，可由一單一矩陣應用同時施加此等運算。特定地，計算該2×2矩陣及該等輸出樣本計算為

應了解所述系統提供數個優點，包括：

- 該多聲道重建無或極少(感知)品質劣化，因可在數個多聲道解碼器顚倒該空間立體聲處理。

- 甚至可由數個傳統立體聲解碼器提供一(3D)空間雙耳立體聲感受。

- 低於現有空間定位方法的複雜性。以數個方式減低該複雜性：

- HRTF參數的有效率儲存。不儲存HRTF脈衝響應，反而僅使用一有限數目的參數以表示該等HRTF的特徵。

- 有效率的3D處理。由於HRTF的特徵為在一有限頻率解析度的參數，及在該(高度向下取樣的)參數域中執行HRTF參數的應用，因此該空間合成級比基於全HRTF盤繞的傳統合成方法更有效率。

- 所需系統可在如QMF域中執行，其造成小於FFT式方法的計算及記憶體負荷。

- 現有環繞音響建構區塊(如標準MPEG環繞音響編碼/解碼功能)的有效率再利用，其容許最小實施複雜性。

- 個人專有化的可能性，其藉由該編碼器傳送的(參數化)HRTF資料的修改。

- 音源位置可藉由傳送的位置資訊而在即時傳輸中改變。

圖10根據本發明的一些實施例說明一音訊編碼方法。

該方法在步驟1001中開始，其中收到一M聲道音訊信號(M>2)。

步驟1001之後是步驟1003，其中該M聲道音訊信號向下混音成一第一立體聲信號及相關參數資料。

步驟1003之後是步驟1005，其中修改該第一立體聲信號以產生一第二立體聲信號，以回應該相關參數資料及空間頭部相關傳遞函數(HRTF)參數資料。該第二立體聲信號是一雙耳虛擬空間信號。

步驟1005之後是步驟1007，其中編碼該第二立體聲信號以產生編碼的資料。

步驟1007之後是步驟1009，其中產生一輸出資料流，其包括該編碼資料及該相關參數資料。

圖11根據本發明的一些實施例說明一音訊解碼方法。

該方法在步驟1101中開始，其中一解碼器接收輸入資料，其包括一第一立體聲信號，及與一M聲道音訊信號的一向下混音立體聲信號相關聯的參數資料，其中M>2。該第一立體聲信號是一雙耳虛擬空間信號。

步驟1101之後是步驟1103，其中修改該第一立體聲信號以產生該向下混音立體聲信號，以回應該參數資料及與該第一立體聲信號相關聯的空間頭部相關傳遞函數(HRTF)參數資料。

步驟1103之後是可選步驟1105，其中產生該M聲道音訊信號以回應該向下混音立體聲信號及該參數資料。

應了解，以上為求清晰的說明已參照至不同功能單元及處理器以說明本發明的數個實施例。然而，應明白，不用減損本發明，可使用不同功能單元或處理器之間的任何合適功能分布。例如，所示由分開的處理器或控制器執行的功能可由相同處理器或控制器來執行。因此，對特定功能單元的參考僅看作用以提供所述功能的合適構件的參考，而非表示一嚴格邏輯或實體結構或組織。

本發明可在任一合適形式中實施，包括硬體、軟體、韌體或此等形式的任一組合。視需要，本發明可至少部分地實施為在一或多個資料處理器及/或數位信號處理器上執行的電腦軟體。本發明的一實施例的該等元件及零件可實體地、功能地及邏輯地以任一合適方式實施。事實上，該功能可實施在一單一單元中、在複數個單元中，或作為其他功能單元的一部分。因此，本發明可實施在一單一單元中，或可實體地及功能地分布在不同單元與處理器之間。

雖然本發明已配合一些實施例加以說明，但未意欲侷限於本文中提出的特定形式。反而，僅由後附申請專利範圍限制本發明的範圍。此外，雖然一特徵可似乎是配合數個特殊實施例加以說明，但熟諳此藝者應了解，可根據本發明合併所述實施例的各種特徵。在該等申請專利範圍中，包括一詞不排除其他元件或步驟的存在。

此外，雖然個別地列出，但複數個構件、元件或方法步驟可由如一單一單元或處理器實施。此外，雖然個別特徵可包括在不同申請專利範圍中，但此等特徵可有利地合併，及在不同申請專利範圍中的結論並不暗示一特徵組合是無彈性及/或不利的。而且，在一申請專利範圍種類中一特徵的結論並不暗示對此種類的一限制，卻反而指明該特徵視需要可同等地應用到其他申請專利範圍種類。此外，該等申請專利範圍中的特徵順序並不暗示任何特定順序，其中必須執行該等特徵，尤其是一方法申請專利範圍中的個別步驟順序並不暗示該等步驟必須在此順序中執行。反而，該等步驟可在任一合適順序中執行。此外，單數參考不排除複數個。因此"一"、"一個"、"第一"、"第二"等參考不排除複數個。該等申請專利範圍中的參考符號僅提供作為一清晰明瞭範例，及不應以任何方式解釋為限制該等申請專利範圍的範疇。

300‧‧‧傳輸系統

301‧‧‧發射器

303‧‧‧接收器

305‧‧‧網路

307‧‧‧數位轉換器

309‧‧‧編碼器

311‧‧‧網路發射器

313‧‧‧網路接收器

315‧‧‧解碼器

317‧‧‧信號播放器

401‧‧‧多聲道接收器

403‧‧‧向下混音處理器

405‧‧‧參數資料

407、801‧‧‧空間處理器

409‧‧‧頭部相關傳遞函數(HRTF)處理器

411‧‧‧編碼處理器

413‧‧‧輸出處理器

501、503‧‧‧二對一(TTO)向下混音器

505‧‧‧三對二(TTT)向下混音器

701‧‧‧輸入接收器

703‧‧‧解碼處理器

705‧‧‧顚倒處理器

707‧‧‧參數處理器

709‧‧‧多聲道解碼器

901‧‧‧空間合成單元

903‧‧‧空間轉換單元

905‧‧‧子頻帶至時域變換

C‧‧‧中心聲道

L‧‧‧左聲道

Lf‧‧‧左前聲道

Ls‧‧‧左環繞聲道

R‧‧‧右聲道

Rf‧‧‧右前聲道

Rs‧‧‧右環繞聲道

已參照至附圖，僅藉由範例方式說明本發明的數個實施例，其中：圖1說明根據先前技藝的一雙耳合成；圖2說明一多聲道解碼器與一雙耳合成的一串聯；圖3根據本發明的一些實施例說明用於一音訊信號通訊的一傳輸系統；圖4根據本發明的一些實施例說明一編碼器；圖5說明一環繞音響參數向下混音編碼器；圖6說明相關一使用者的一音源位置的一範例；圖7根據本發明的一些實施例說明一多聲道解碼器；圖8根據本發明的一些實施例說明一解碼器；圖9根據本發明的一些實施例說明一解碼器；圖10根據本發明的一些實施例說明一音訊編碼方法；及圖11根據本發明的一些實施例說明一音訊解碼方法。