TWI653627B

TWI653627B - 用以估計通道間時間差的裝置及方法與相關電腦程式

Info

Publication number: TWI653627B
Application number: TW106102408A
Authority: TW
Inventors: 史蒂芬拜爾; 依萊尼弗托波勞; 馬庫斯穆爾特斯; 古拉米福契斯; 艾曼紐拉斐里; 馬可斯史奈爾; 史蒂芬多伊拉; 渥爾夫剛賈格斯; 馬汀迪茲; 葛倫馬可維希
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2016-01-22
Filing date: 2017-01-23
Publication date: 2019-03-11
Also published as: PT3284087T; JP6412292B2; KR20180104701A; CN107710323B; CA3012159A1; MY181992A; MY196436A; CA3012159C; ZA201804776B; CA3011914A1; CA2987808A1; SG11201806241QA; CN108885877A; MX2018008887A; CA3011915C; EP3405949B1; TWI628651B; KR102219752B1; RU2693648C2; US10861468B2

Abstract

用於估計一第一聲道信號與一第二聲道信號間之一聲道間時間差之一設備，包含：一計算器用於針對一時間區塊自於該時間區塊中之該第一聲道信號及於該時間區塊中之該第二聲道信號計算一交叉關聯頻譜；一頻譜特性估計器用於針對該時間區塊估計該第一聲道信號或該第二聲道信號之一頻譜的一特性；一平滑化濾波器用於使用該頻譜特性隨著時間之推移平滑化該交叉關聯頻譜以獲得一經平滑化之交叉關聯頻譜；及一處理器用於處理該經平滑化之交叉關聯頻譜以獲得該聲道間時間差。

Description

用以估計通道間時間差的裝置及方法與相關電腦程式

此申請案係有關於立體聲處理，或概略言之，多聲道處理，於該處一多聲道信號具有二聲道，諸如以立體聲信號為例，一左聲道及一右聲道，或多於兩個聲道，諸如三、四、五或任何其它聲道數目。

立體聲語音及特別對話立體聲語音比起立體聲樂音的儲存及廣播受到遠較少的科學關注。確實，於語音通訊中今日大半仍使用單聲道發射。然而，隨著網路頻寬及容量的增加，預期基於立體聲技術之通訊將變成更普及且帶來更佳的收聽經驗。

立體聲音訊材料的有效寫碼已經長期就樂音的感官音訊寫碼用於有效儲存或廣播進行研究。於高位元率，於該處波形保留為關鍵性，已經長期採用稱作中間/側邊(M/S)立體聲的和-差立體聲。至於低位元率，已經問市強度立體聲及更為晚近參數立體聲寫碼。最新技術被採用於不同標準為HeAACv2及Mpeg USAC。其產生二聲道信號及相關聯的精簡空間邊帶資訊的縮混。

聯合立體聲寫碼通常建立在高頻率解析度上，亦即低時間解析度，信號之時間-頻率變換與在大部分語音寫碼器中進行的低延遲及時域處理不相容。再者，產生的位元率通常為高。

另一方面，參數立體聲採用一額外濾波器排組位在編碼器前端作為前處理器及在解碼器後端作為後處理器。因此，參數立體聲可使用於習知語音寫碼器，例如ACELP，原因在於其以MPEG USAC進行。再者，聽覺場景的參數化可以最少量邊帶資訊達成，其係適合用於低位元率。但如同例如於MPEG USAC，參數立體聲未經特別設計用於低延遲且針對不同對話情節不會傳遞一致的品質。於空間場景的習知參數表示型態中，立體聲影像之寬度係藉施加於二合成聲道上的解相關器人工複製，及藉由編碼器計算及發射的聲道間同調(ICs)參數加以控制。至於大部分立體聲語音，此種加寬立體聲影像之方式不適合用於重新再現屬於相當直接聲音的語音之自然環境，原因在於其係由位在該空間內一特定位置的單一音源產生(偶爾有些來自室內的混響)。相反地，樂器具有比語音遠更自然的寬度，其可藉將該等聲道解相關而更佳地模擬。

當語音係以不重合麥克風紀錄時，類似於A-B組態中，當麥克風彼此距離遠或用於雙耳紀錄或渲染時也成問題。該等情節可預期用於擷取電話會議中的語音或在多點控制單元(MCU)中以遙遠揚聲器產生虛擬聽覺場景。不似在重合麥克風上紀錄，例如X-Y(強度紀錄)或M-S(中間-側邊紀錄)，信號的抵達時間因不同聲道而異。此等未經時間對準的二聲道之同調計算可能錯誤估計，使得人工環境合成失敗。

有關立體聲處理的先前技術參考文獻為US專利5,434,948或US專利8,811,621。

文件WO 2006/089570 A1揭示接近透明或透明多聲道編碼器/解碼器方案。多聲道編碼器/解碼器方案額外產生波形類型殘差信號。此殘差信號連同一或多個多聲道參數一起發射至解碼器。與純粹參數多聲道解碼器相反，因額外殘差信號故，加強式解碼器產生具有改良式輸出品質的多聲道輸出信號。在編碼器端上，左聲道及右聲道兩者皆藉分析濾波器排組濾波。然後，用於各個子頻帶信號，針對一子頻帶計算對準值及增益值。然後在進一步處理之前進行此種對準。在解碼器端上，進行解對準及增益處理，然後對應信號藉合成濾波器排組合成以便產生經解碼之左信號及經解碼之右信號。

於此等立體聲處理應用中，第一聲道信號與第二聲道信號間之聲道-間或聲道間時間差之計算為有用的以便典型地進行寬帶時間對準程序。但第一聲道與第二聲道間之聲道間時間差的使用確實存在有其它應用，於該處此等應用係用在參數資料的儲存或傳輸、包含二聲道的時間對準之立體聲/多聲道處理、到達時間差估計用於室內揚聲器位置的決定、波束成形空間濾波、前景/背景分解、或例如藉聲波三角測量的音源定位，只列舉少數。

用於全部應用，需要一第一與一第二聲道信號間之一聲道間時間差的有效而準確且穩健的測定。

確實已經存在此種測定稱作術語「GCC-PHAT」，或換言之，通用交叉關聯相位變換。典型地，交叉關聯頻譜係在二聲道信號間計算，及然後，在對通用交叉關聯頻譜進行反頻譜變換諸如反DFT以便找出時域表示型態之前，施加加權函數至交叉關聯頻譜用以獲得所謂的通用交叉關聯頻譜。此時域表示型態表示針對某些時間滯後之值，及時域表示型態的最高峰然後典型地對應時間延遲或時間差，亦即，二聲道信號間之差的聲道間時間延遲。

然而業已顯示特別與例如沒有任何混響或背景雜訊的清晰語音不同的信號中，此種通用技術的穩健度並非最佳。

因此，本發明之一目的係提出用於估計二聲道信號間之聲道間時間差的改良構想。

此目的係藉如請求項1之用於估計一聲道間時間差的設備，或如請求項15之用於估計一聲道間時間差的方法，或如請求項16之電腦程式達成。

本發明係基於發現由第一聲道信號或第二聲道信號控制的交叉關聯頻譜隨時間之平滑化顯著地改良了聲道間時間差決定的穩健度及準確性。

於較佳實施例中，頻譜的調性/噪度係經決定，於類似調性信號之情況下，平滑化較強，而於嘈雜信號之情況下，平滑化變成較不強。

較佳地，使用頻譜平坦度量，於類似調性信號之情況下，頻譜平坦度量將為低且平滑化將變較強，及於類似噪音信號之情況下，頻譜平坦度量將為高，諸如約1或接近1，且平滑化將為弱。

因此，依據本發明，用於估計一第一聲道信號與一第二聲道信號間之一聲道間時間差之一設備包含一計算器用於針對一時間區塊自於該時間區塊中之該第一聲道信號及於該時間區塊中之該第二聲道信號計算一交叉關聯頻譜。該設備進一步包含一頻譜特性估計器用於針對該時間區塊估計該第一聲道信號或該第二聲道信號之一頻譜的一特性，及此外，一平滑化濾波器用於使用該頻譜特性隨著時間之推移平滑化該交叉關聯頻譜以獲得一經平滑化之交叉關聯頻譜。然後，該經平滑化之交叉關聯頻譜係進一步以一處理器處理以獲得該聲道間時間差。

用於與該經平滑化之交叉關聯頻譜之進一步處理相關的較佳實施例，進行適應性臨界值化操作，其中該經平滑化之通用交叉關聯頻譜的時域表示型態係經分析以便決定一可變臨界值，其係取決於時域表示型態，及時域表示型態的一峰值與該可變臨界值作比較，其中聲道間時間差係決定為一峰值與該臨界值呈預定關係，諸如大於該臨界值，相關聯的一時間滯後。

於一個實施例中，可變臨界值係決定為與最大值，例如時域表示型態之該等值的10%，中之一值的整數倍數相等的一值，或另外，於可變測定的又一實施例中，可變臨界值係由可變臨界值與該值的乘法計算，於該處該值取決於第一及第二聲道信號之信號對雜訊比特性，於該處用於較高的信號對雜訊比該值變較高，而用於較低的信號對雜訊比變較低。

如前文已述，聲道間時間差計算可使用於多種不同應用諸如參數資料的儲存或傳輸、立體聲/多聲道處理/編碼、二聲道之時間對準、使用兩支麥克風及已知麥克風配置的到達時間差估計用於室內揚聲器位置的決定、用於波束成形目的、空間濾波、前景/背景分解、或例如基於二或三個信號之時間差藉聲波三角測量的音源定位。

但於後文中，描述聲道間時間差計算的一較佳實施例及用途用在具有至少兩個聲道的多聲道信號之編碼處理中二立體聲信號之寬帶時間對準目的。

用於編碼具有至少兩個聲道的一多聲道信號的設備包含一參數決定器以決定一方面一寬帶對準參數及另一方面複數窄帶對準參數。此等參數由一信號對準器用來使用此等參數對準該等至少兩個聲道以獲得經對準的聲道。然後，一信號處理器使用該等經對準的聲道計算一中間信號及一側邊信號，該中間信號及該側邊信號隨後經編碼及前傳入一經編碼之輸出信號，其額外具有該寬帶對準參數及該等複數窄帶對準參數作為參數邊帶資訊。

在解碼器端上，一信號解碼器解碼經編碼之中間信號及經編碼之側邊信號以獲得經解碼之中間及側邊信號。然後此等信號藉一信號處理器處理用於計算一經解碼之第一聲道及一經解碼之第二聲道。然後此等經解碼之聲道使用涵括於經編碼之多聲道信號的寬帶對準參數上之資訊及複數窄帶對準參數上之資訊解對準而獲得經解碼之多聲道信號。

於一特定實施例中，寬帶對準參數為聲道間時間差參數及複數窄帶對準參數為聲道間相位差。

本發明係基於發現特別對有多於一個揚聲器的語音信號，但也對有數個音訊源的其它音訊信號，音訊源之不同位置皆對映入多聲道信號的兩個聲道，可考慮使用寬帶對準參數諸如聲道間時間差參數施加至一或二聲道之全頻譜。除了此寬帶對準參數之外，發現逐子頻帶不同的數個窄帶對準參數額外地導致於二聲道中信號的更佳對準。

因此，對應各子頻帶中相同時間延遲的寬帶對準連同針對不同子頻帶對應不同相位旋轉的相位對準，在此二聲道轉換成中間/側邊表示型態之前，導致二聲道的優化對準，該表示型態然後經進一步編碼。由於已獲得優化對準故，一方面中間信號之能儘可能地高，另一方面，側邊信號之能儘可能地小，因而可獲得針對某些位元率，具有最低可能位元率或最高可能音訊品質的優化寫碼結果。

特別針對對話語音材料，典型揚聲器在二不同位置為作用態。此外，情況為正常只有一個揚聲器自第一位置說話，及然後第二揚聲器自第二位置或地點說話。在二聲道諸如第一或左聲道及第二或右聲道上的不同位置之影響係藉不同的抵達時間反映，因此，因不同位置所致二聲道間之某個時間延遲，及此時間延遲因時間而異。通常，此影響係反映在二聲道信號當寬帶解對準時，其可藉寬帶對準參數解決。

另一方面，特別來自混響或進一步雜訊源的其它效應可藉用於個別頻帶的個別相位對準參數加以考慮，該等參數係疊加在寬帶不同抵達時間或二聲道之寬帶解對準上。

有鑑於此，兩者的使用，一寬帶對準參數及複數窄帶對準參數於該寬帶對準參數頂上導致編碼器端上之優化聲道對準用以獲得良好且極為精簡的中間/側邊表示型態，而另一方面，在解碼器端上在解碼之後的對應解對準導致用於某個位元率的良好音訊品質或用於某個要求的音訊品質之小位元率。

本發明之優點為其提出比較現有立體聲寫碼方案遠更適合用於立體聲語音對話的新穎立體聲寫碼方案。依據本發明，尤其於語音源之情況但也於其它音訊源的情況下，特別藉探勘於多聲道信號的聲道間出現的聲道間時間差而組合參數立體聲技術及聯合立體聲寫碼技術。

數個實施例提供有用的優點，容後詳述。

新穎方法為自習知M/S立體聲及參數立體聲的混成辦法混合元素。於習知M/S中，聲道被動地縮混而產生中間信號及側邊信號。該方法可進一步擴延在加總及微分聲道之前，使用卡羅變換(KLT)又稱主要組成分析(PCA)而旋轉聲道。中間信號係於主碼寫碼加以寫碼，而側邊信號傳遞至副寫碼器。演進M/S立體聲可藉於目前框或先前框中寫碼的中間聲道而進一步使用側邊信號的預測。旋轉及預測的主要目標係最大化中間信號之能，同時最小化側邊信號之能。M/S立體聲為波形保留，就此面向而言，對任何立體聲情節極為穩健，但就位元消耗而言可能極為昂貴。

為了於低位元率之最高效率，參數立體聲計算及寫碼參數，例如，聲道間位準差(ILD)、聲道間相位差(IPD)、聲道間時間差(ITD)及聲道間同調(IC)。其精簡地表示立體聲影像且為聽覺場景的線索(音源位置、汰選、立體聲寬度…)。目標係為了參數化立體聲場景及只寫碼可在解碼器的縮混信號，及借助於發射的立體聲線索再度被空間化。

本發明辦法混合兩種構想。首先，立體聲線索ITD及IPD經計算及施加至二聲道上。目標係表示出不同頻帶的寬帶的時間差及相位。然後二聲道於時間及相位對準，然後進行M/S寫碼。發現ITD及IPD用於模型化立體聲語音為有用的，且為於M/S中基於KLT旋轉的良好替代。不似純粹參數寫碼，周圍環境不再藉IC模型化，反而藉經寫碼的及/或預測的側邊信號直接模型化。發現尤其當處理語音信號時此種辦法更穩健。

ITD的計算及處理為本發明之關鍵部分。ITD已在先前技術雙耳線索寫碼(BCC)探勘，但一旦ITD隨時間改變時該技術無效。為了避免此項缺點，設計特定視窗化用於平滑化兩個不同ITD間之過渡，且能從一個揚聲器無縫切換至在不同位置的另一個揚聲器。

進一步實施例係有關下述程序，在編碼器端上，用來決定複數窄帶對準參數的參數決定係使用已經與稍早決定的寬帶對準參數對準的聲道進行。

對應地，在進行寬帶解對準之前，使用典型地單一寬帶對準參數進行在解碼器端上之窄帶解對準。

於進一步實施例中，較佳地，在編碼器端上但甚至更要緊地在解碼器端上，在全部對準之後，及尤其使用寬帶對準參數的時間對準之後，進行逐一區塊的某種視窗化及重疊加法操作或任一種交叉衰退。如此避免了當時間或寬帶對準參數逐一區塊改變時的任何可聽聞的假信號諸如卡嚓聲。

於其它實施例中，施加不同頻譜解析度。更明確言之，聲道信號接受具有高頻率解析度的時間-頻譜轉換，諸如DFT頻譜，而針對具有較低頻率解析度的參數頻帶決定參數諸如窄帶對準參數。典型地，參數頻帶具有比信號頻譜更多一個頻譜線，及典型地具有來自DFT頻譜的一組頻譜線。又復，參數頻帶自低頻增至高頻以便考慮聽覺心理學(音質)議題。

進一步實施例係有關於位準參數諸如位準間差或用於處理側邊信號的其它程序諸如立體聲填充參數等的額外使用。經編碼之側邊信號可藉實際側邊信號本身表示，或藉使用目前框或任何其它框進行的預測殘差信號表示，或於只有一子集之頻帶藉一側邊信號或一側邊預測殘差信號表示，及只針對其餘頻帶藉預測參數表示，或甚至針對沒有高頻解析度側邊信號資訊的全部頻帶藉預測參數表示。因此，於如上最末替代例中，針對各個參數頻帶或只有一子集之參數頻帶，經編碼之側邊信號只由一預測參數表示，使得針對其餘參數頻帶不存在有原先側邊信號上的任何資訊。

又復，較佳地有複數窄帶對準參數，並非用於反映寬帶信號之全頻寬的全部參數頻帶，反而只用於一集合之較低，諸如參數頻帶的較低50%。另一方面，立體聲填充參數不便用於數個較低頻帶，原因在於針對此等頻帶，發射側邊信號本身或預測殘差信號以便確保，至少針對較低頻帶，可得波形校正表示型態。另一方面，針對較高頻帶，側邊信號非以波形正確表示型態發射以便進一步減低位元率，反而側邊信號典型地係以立體聲填充參數表示。

又復，較佳地基於相同DFT頻譜在一個且同一個頻域內部進行整個參數分析及對準。為了達成該目的，進一步較佳地使用帶有相位變換的通用交叉關聯(GCC-PHAT)技術用於聲道間時間差決定用途。於本程序之一較佳實施例中，基於頻譜形狀資訊，該資訊較佳地為頻譜平坦度量，進行一相關頻譜的平滑化，以使得以雜訊狀信號為例平滑化將為弱，及以調性信號為例平滑化將變較強。

又復，較佳地，進行特定相位旋轉，於該處考慮聲道振幅。特別，相位旋轉係分布於二聲道間，用於編碼器上的對準目的，及當然，用於解碼器上的解對準目的，於該處具有較高振幅的聲道被考慮作為領先聲道且將較不受相位旋轉影響，亦即，將比具有較低振幅的聲道更少被旋轉。

又復，和-差計算係使用能定標進行，帶有定標因數自二聲道之能推衍，此外，受限於某個範圍，以便確保中間/側邊計算不會過度影響該能。然而，另一方面，注意為了本發明之目的，此種節能不如先前技術程序重要，因時間及相位事先對準故。因此，因自左及右的中間信號及側邊信號之計算(在編碼器端上)或因自中間及側邊的左及右信號之計算(在解碼器端上)所致之能起伏波動不如先前技術般顯著。

圖10a例示用於估計第一聲道信號諸如左聲道與第二聲道信號諸如右聲道間之一聲道間時間差之設備的實施例。此等聲道輸入就圖4e額外例示為項目451的時間-頻譜轉換器150內。

又復，左及右聲道信號之時域表示型態輸入計算器1020用於針對一時間區塊自於該時間區塊中之該第一聲道信號及於該時間區塊中之該第二聲道信號計算一交叉關聯頻譜。又復，該設備包含一頻譜特性估計器1010用於針對該時間區塊估計該第一聲道信號或該第二聲道信號之一頻譜的一特性。該設備進一步包含一平滑化濾波器1030用於使用該頻譜特性隨著時間之推移平滑化該交叉關聯頻譜以獲得一經平滑化之交叉關聯頻譜。該設備進一步包含一處理器1040用於處理該經平滑化之交叉關聯頻譜以獲得該聲道間時間差。

特別，於較佳實施例中，頻譜特性估計器的功能也由圖4e項目453、454反映。

特別，於較佳實施例中，交叉關聯頻譜計算器1020的功能也由圖4e項目452反映，容後詳述。

對應地，平滑化濾波器1030的功能也由圖4e項目453反映，容後詳述。此外，於一較佳實施例中，處理器1040的功能也於圖4e之脈絡中以項目456至459描述。

較佳地，頻譜特性估計計算頻譜的噪度或調性，於該處較佳實施例為以調性或非嘈雜信號為例，頻譜平坦度量之計算係接近0，而以嘈雜或類似噪音信號為例接近1。

特別，平滑化濾波器然後經組配以於第一較不嘈雜特性或第一較多調性特性之情況下，隨著時間之推移施加具有第一平滑化度的較強平滑化，或於第二較多嘈雜特性或第二較少調性特性之情況下，隨著時間之推移施加具有第二平滑化度的較弱平滑化。

更明確言之，第一平滑化係大於第二平滑化度，於該處第一嘈雜特性係比第二嘈雜特性較少嘈雜，或第一調性特性係比第二調性特性更多調性。較佳實施例為頻譜平坦度量。

又復，如於圖11a中例示，在進行對應圖4e之實施例中之步驟457及458的步驟1031中之時域表示型態的計算之前，處理器較佳地如圖4e及11a中的步驟456所例示實施來標準化經平滑化之交叉關聯頻譜。然而如於圖11a中摘述，處理器也可未於圖4e步驟456中之標準化操作。然後，處理器經組配以分析時域表示型態，如於圖11a之方塊1032中例示，以便找出聲道間時間差。此分析可以任一種已知方式進行且將獲得改良的穩健度，原因在於分析之進行是基於交叉關聯頻譜根據頻譜特性而被平滑化。

如於圖11b中例示，時間-頻率分析之較佳實施例1032為時域表示型態之低通濾波，如於圖11a中於458例示，對應圖4e項目458，及隨後在經低通濾波的時域表示型態內部使用峰值搜尋/峰值拾取操作進一步處理1033。

如於圖11c中例示，峰值拾取或峰值搜尋操作之較佳實施例係使用可變臨界值進行此操作。特別，處理器係經組配以藉自時域表示型態決定1034可變臨界值及藉比較時域表示型態之一峰值或數個峰值(有或無頻譜標準化而予獲得)與該可變臨界值而在自經平滑化之交叉關聯頻譜推衍的時域表示型態內部進行峰值搜尋/峰值拾取操作，其中該聲道間時間差係決定為與該可變臨界值呈預定關係的一峰值相關聯的一時間延遲。

如於圖11d中例示，容後關係圖4e-b於假碼中例示的一個較佳實施例包含根據其振幅將數值分類1034a。然後，如於圖11d中項目1034b中例示，決定例如最高10%或5%值。

然後，如於步驟1034c中例示，數字諸如數字3與最高10%或5%中之最低值相乘以便獲得可變臨界值。

如前述，較佳地，決定最高10%或5%，但也可使用決定數值中之最高50%的最低數字及使用較高的乘數，諸如10。當然，即使決定較小量諸如數值之最高3%，及此等數值之最高3%中之最低值乘以一數字，例如等於2.5或2，亦即小於3。如此，於圖11d中例示的實施例中使用不同的數字與百分比的組合。除了百分比之外，數字也可改變，以大於1.5之數字為佳。

於圖11a中例示的又一實施例中，時域表示型態劃分成子區塊，如由方塊1101例示，此等子區塊於圖13中指示於1300。此處，約16子區塊用於有效範圍，故各個子區塊具有20的時間滯後跨幅。然而子區塊數目可大於此值或較低，且較佳地，大於3至低於50。

於圖11e之步驟1102，決定各個子區塊中之峰值，及於步驟1103，決定全部子區塊中之平均峰值。然後於步驟1104，決定乘數值a，其一方面取決於信號對雜訊比，及於又一個實施例中，取決於臨界值與最大峰值間之差，如方塊1104左側指示。取決於此等輸入值，較佳地決定三個不同乘數值中之一者，於該處乘數值可等於a_low 、a_high 及a_lowest 。

然後，於步驟1105，於方塊1104決定的乘數值a乘以平均臨界值以便獲得可變臨界值，其然後使用於方塊1106之比較操作。用於比較操作，再度，可使用輸入方塊1101的時域表示型態，或可使用如於方塊1102中摘述於各個子區塊中之已決定的峰值。

接著，摘述有關時域交叉關聯函數內部之峰值的評估及檢測的進一步實施例。

因不同的輸入景況故，由通用交叉關聯(GCC-PHAT)所得時域交叉關聯函數內部之峰值的評估及檢測以便估計聲道間時間差(ITD)並非經常性直捷。清晰語音輸入可導致有強峰值之低偏差交叉關聯函數，而於嘈雜混響環境中之語音可產生有高偏差的向量，及具有較低但仍然突出的振幅之峰值，指示ITD的存在。描述適應性及彈性峰值檢測演算法以因應不同輸入景況。

因延遲限制故，總系統可處理聲道時間對準至某個極限，亦即ITD_MAX。提示之演算法係經設計用以檢測於下列情況下是否存在有一有效ITD： l 因突出峰值所致有效ITD。存在有交叉關聯函數之[-ITD_MAX,ITD_MAX]界限以內的突出峰值。 l 無關聯。當二聲道間不相關時，沒有突出峰值。須定義臨界值，高於該臨界值峰值夠強可被考慮為有效ITD值。否則，無需發訊ITD處理，表示ITD被設定為零及未進行時間對準。 l 界外ITD。區域[-ITD_MAX,ITD_MAX]外側的交叉關聯函數之強峰值須經評估以判定是否存在有在系統的處理容量以外的ITD。於此種情況下，無需發訊ITD處理及因而未進行時間對準。

為了判定一峰值之振幅是否夠高可被考慮為時間差值，需定義適當臨界值。用於不同輸入景況，交叉關聯函數輸出依不同參數而異，例如，環境(雜訊、混響等)、麥克風配置(AB、M/S等)。因此，適應性界定臨界值相當重要。

於提示之演算法中，首先藉計算[-ITD_MAX,ITD_MAX]區域以內的交叉關聯函數之振幅波封的粗略計算之平均值定義臨界值(圖13)，然後該臨界值據此取決於SNR估計而被加權。

演算法之逐一步驟說明描述如下。

GCC-PHAT之反DFT的輸出，表示時域交叉關聯，係從負至正時間滯後重新排列(圖12)。

交叉關聯向量劃分成三大區：關注區亦即[-ITD_MAX,ITD_MAX]及ITD_MAX界限外部區，亦即時間滯後小於-ITD_MAX(max_low)及高於ITD_MAX(max_high)。「界外」區之最大峰值經檢測及儲存，以供與關注區中檢測得的最大峰值比較。

為了決定是否存在有效ITD，考慮交叉關聯函數之子向量區[-ITD_MAX,ITD_MAX]。子向量劃分成N個子區塊(圖13)。

針對各個子區塊，找出且儲存最大峰值振幅peak_sub及相等時間滯後位置index_sub。

本地最大之最大值peak_max經決定且將與臨界值比較以決定有效ITD值的存在。

最大值peak_max與max_low及max_high比較。若peak_max低於兩者中之任一者，則未發訊ITD處理及未進行時間對準。因系統的ITD處理極限，故無需評估界外峰值振幅。

峰值振幅之平均經計算：臨界值thres係以SNR相依性加權因數a_w 加權peak_mean ：

以其中SNR＜＜SNR_threshold 及|thres-peak_max|＜ε為例，峰值振幅也與略較鬆弛臨界值(a_w =a_lowest )作比較，以免剔除具有高鄰近峰值的一突出峰值。加權因數可以是例如a_high =3，a_low =2.5，及a_lowest =2，而SNR_threshold 可以是例如20分貝，及邊界ε=0.05。

較佳範圍為針對a_high 2.5至5；針對a_low 1.5至4；針對a_lowest 1.0至3；針對SNR_threshold 10至30分貝；及針對ε 0.01至0.5，其中a_high 大於a_low 大於a_lowest 。

若peak_max＞thres，則相等時間滯後返回估計的ITD，否則未發訊ITD處理(ITD=0)。

進一步實施例將於後文就圖4e描述。

接著，圖10b之方塊1050中本發明之較佳實施例用於就圖1至圖9e討論的信號進一步處理之目的，亦即，用於二聲道之立體聲/多聲道處理/編碼及時間對準之脈絡。

然而如於圖10b中陳述及例示，存在有眾多其它領域，於該處也可使用經決定的聲道間時間差進行信號進一步處理。

圖1例示用於編碼具有至少兩個聲道之多聲道信號的設備。多聲道信號10一方面輸入參數決定器100及另一方面輸入信號對準器200。一方面，參數決定器100決定寬帶對準參數，及另一方面，自多聲道信號決定複數窄帶對準參數。此等參數透過參數線路12輸出。又復，此等參數也如圖例示地透過另一參數線路14輸出至一輸出介面500。在參數線路14上，額外參數諸如位準參數自參數決定器100前傳至輸出介面500。信號對準器200係經組配，使用透過參數線路10接收的寬帶對準參數及複數窄帶對準參數，用於對準多聲道信號10之至少兩個聲道以在信號對準器200之輸出獲得已對準之聲道20。此等已對準之聲道20前傳至信號處理器300，其係經組配用於自透過線路接收的已對準之聲道20計算中間信號31及側邊信號32。用於編碼之設備包含用於自線路31編碼中間信號及自線路32編碼側邊信號的信號編碼器400以獲得於線路41上的編碼中間信號及於線路42上的編碼側邊信號。此等信號兩者前傳至輸出介面500用於在輸出線路50產生編碼多聲道信號。於輸出線路50的編碼信號包含得自線路41的編碼中間信號、得自線路42的編碼側邊信號、得自線路14的窄帶對準參數及寬帶對準參數、及選擇性地，得自線路14的位準參數，及此外選擇性地，由信號編碼器400產生的立體聲填充參數及透過參數線路43前傳至輸出介面500。

較佳地，信號對準器係經組配以，在參數決定器100實際上計算窄帶參數之前，使用寬帶對準參數而自多聲道信號對準聲道。因此，於此實施例中，信號對準器200透過連接線15將寬帶對準聲道發送回參數決定器100。然後，參數決定器100自相對於寬帶特性已對準的多聲道信號決定複數窄帶對準參數。然而，於其它實施例中，參數未使用此種特定程序順序決定。

圖4a例示一較佳實施例，於該處進行遭致連接線15的該特定步驟順序。於步驟16，寬帶對準參數係使用二聲道決定，獲得寬帶對準參數，諸如聲道間時差或ITD參數。然後，於步驟21，二聲道係藉圖1之信號對準器200使用寬帶對準參數加以對準。然後，於步驟17，窄帶參數係使用參數決定器100內部的已對準聲道決定，以決定複數窄帶對準參數，諸如用於多聲道信號之不同頻帶的多個聲道間相位差參數。然後，於步驟22，於各個參數頻帶中之頻譜值係使用針對此特定頻帶的對應窄帶對準參數加以對準。於步驟22，當針對各個聲道進行此程序時，對此有窄帶對準參數可用，然後藉圖1之信號處理器300用於進一步信號處理可用的第一及第二或左/右聲道。

圖4b例示圖1之多聲道編碼器的又一實施例，於該處於頻域進行數個程序。

更明確言之，多聲道編碼器進一步包含時間-頻譜轉換器150，其用於將時域多聲道信號轉換成頻域中之該等至少兩個聲道的頻譜表示型態。

又復，如於152例示，圖1中於100、200及300例示的參數決定器、信號對準器及信號處理器全部皆於頻域操作。

又復，多聲道編碼器及，特別地，信號處理器進一步包含一頻譜-時間轉換器154，用於至少產生中間信號的時域表示型態。

較佳地，頻譜-時間轉換器額外地也將藉由方塊152表示的程序所決定的側邊信號之頻譜表示型態轉換成時域表示型態，及然後，圖1之信號編碼器400經組配以，取決於圖1之信號編碼器400之特定實施例，進一步將中間信號及/或側邊信號編碼為時域信號。

較佳地，圖4b之時間-頻譜轉換器150係經組配以實施圖4c的步驟155、156及157。特別地，步驟155包含提供分析視窗在其一端具有至少一個零填補部，及特別地，例如，於後文中圖7例示的於初始視窗部的零填補部及於終結視窗部的零填補部。又復，分析視窗額外地具有於視窗的第一半部及於視窗的第二半部之重疊範圍或重疊部，及此外，較佳地，視情況而定，中間部分為非重疊範圍。

於步驟156，各個聲道使用具有重疊範圍之分析視窗加以視窗化。更明確言之，各個聲道使用分析視窗加以視窗化，使得獲得聲道之第一區塊。隨後，獲得該聲道之第二區塊，其具有與第一區塊的某個重疊範圍等等，使得例如接續於五次視窗化操作之後，可利用各個聲道之五個視窗化樣本區塊，然後如於圖4c中於157例示，個別被變換成頻譜表示型態。對其它聲道也進行相同程序，因而於步驟157結束時，一序列之頻譜值區塊及特別，可得複合頻譜值，諸如DFT頻譜值或複合子頻帶樣本。

於步驟158，其係藉圖1之參數決定器100進行，決定寬帶對準參數，及於步驟159，其係藉圖1之信號對準器200進行，使用寬帶對準參數進行圓形移位。於步驟160，再度藉圖1之參數決定器100進行，針對個別頻帶/子頻帶決定窄帶對準參數，及於步驟161，使用針對特定頻帶決定的對應窄帶對準參數而對各個頻帶旋轉已對準之頻譜值。

圖4d例示由信號處理器300進行的進一步程序。更明確言之，信號處理器300係經組配以計算中間信號及側邊信號，如於步驟301例示。於步驟302，可進行側邊信號之某種進一步處理，及然後於步驟303，各區塊的中間信號及側邊信號被變換回時域，及於步驟304，合成視窗施加至藉步驟303獲得的各個區塊，及於步驟305，一方面進行針對中間信號的重疊加法操作，及另一方面進行針對側邊信號的重疊加法操作，以最終進行時域中間/側邊信號。

更明確言之，步驟304及305之操作導致自一區塊的中間信號的一種交叉衰退，或進行下個區塊的中間信號及側邊信號中之側邊信號，使得即便當出現任何參數變化時，諸如出現聲道間時間差參數或聲道間相位差參數，雖言如此，此點將於圖4d中藉步驟305獲得的時域中間/側邊信號為無法稽核。

新穎低延遲立體聲寫碼為聯合中間/側邊(M/S)立體聲寫碼探勘有些空間線索，於該處中間聲道係藉主單聲道核心寫碼器寫碼，及側邊聲道係藉副核心寫碼器寫碼。編碼器及解碼器原理於圖6a、6b中描繪。

立體聲處理主要於頻域(FD)進行。選擇性地，在頻率分析之前，可於時域(TD)進行立體聲處理。此乃針對ITD計算的情況，其可在頻率分析之前計算及施加，用於在追求立體聲分析及處理之前的時間對準該等聲道。另外，ITD處理可於頻域直接進行。因尋常語音寫碼器例如ACELP不含任何內部時間-頻率分解，故立體聲寫碼在核心編碼器之前利用分析及合成濾波器排組增加額外複合經調變的濾波器排組及在核心解碼器之後增加分析-合成濾波器排組的另一階段。於較佳實施例中，採用具有低重疊區的過取樣DFT。然而，於其它實施例中，可使用具有相似的時間解析度的任何複合值時間-頻率分解。

立體聲處理包含計算空間線索：聲道間時間差(ITD)、聲道間相位差(IPD)、及聲道間位準差(ILD)。ITD及IPD使用在輸入立體聲信號上用於時間及相位上對準兩個聲道L及R。ITD係於寬帶或於時域計算，而IPD及ILD係針對參數頻帶中之各者或部分計算，其對應頻率空間的非一致分解。一旦兩個聲道對準，施加聯合M/S立體聲，於該處然後進一步自中間信號預測側邊信號。預測增益係自ILD推衍。

中間信號進一步藉主核心寫碼器寫碼。於較佳實施例中，主核心寫碼器為3GPP EVS標準，或自其推衍的寫碼可在語音寫碼模式ACELP與基於MDCT變換的樂音模式間切換。較佳地，ACELP及以MDCT為基礎的寫碼器係由時域頻寬擴延(TD-BWE)及或智能間隙填補(IGF)模組分別支援。

側邊信號首先係由中間聲道使用自ILD推衍的預測增益預測。殘差可進一步藉中間信號的延遲版本預測，或藉副核心寫碼器直接寫碼，於較佳實施例中，於MDCT域進行。在編碼器的立體聲處理可藉圖5摘述，容後詳述。

圖2例示用於解碼於輸入線路50接收的經編碼之多聲道信號之設備的一實施例的方塊圖。

更明確言之，信號由輸入介面600接收。連結至輸入介面600者為信號解碼器700及信號解對準器900。又復，信號處理器800一方面連結至信號解碼器700及另一方面連結至信號解對準器。

更明確言之，經編碼之多聲道信號包含經編碼之中間信號、經編碼之側邊信號、寬帶對準參數上之資訊、及複數窄帶對準參數上之資訊。因此，線路50上的經編碼之多聲道信號可恰為與由圖1之輸出介面500所輸出的相同信號。

然而，要緊地，此處須注意，與圖1中例示者相反地，涵括於某種形式的經編碼信號中之寬帶對準參數及複數窄帶對準參數可恰為如於圖1中由信號對準器200使用的對準參數，但另外，也可以是其逆值，亦即，恰由信號對準器200進行的相同操作但具有逆值，使得獲得解對準的參數。

如此，對準參數上之資訊可以是如由圖1中之信號對準器200使用的對準參數，或可以是其逆值，亦即，實際「解對準參數」。此外，此等參數典型地以某種形式量化，容後參考圖8討論。

圖2之輸入介面600分開得自經編碼之中間/側邊信號的寬帶對準參數及複數窄帶參數上之資訊，及透過參數線路610前傳此資訊至信號解對準器900。另一方面，經編碼之中間信號透過線路601前傳至信號解碼器700，及經編碼之側邊信號透過信號線路602前傳至信號解碼器700。

信號解碼器係經組配以解碼經編碼之中間信號及解碼經編碼之側邊信號而在線路701上獲得經解碼之側邊信號及在線路702上獲得經解碼之中間信號。此等信號由信號處理器800使用於，自經解碼之中間信號及經解碼之側邊信號，計算經解碼之第一聲道信號或經解碼之左信號及計算經解碼之第二聲道或經解碼之右聲道信號，及經解碼之第一聲道信號及經解碼之第二聲道分別於線路801、802上輸出。信號解對準器900係經組配以使用寬帶對準參數上的資訊來解對準在線路801上的經解碼之第一聲道及經解碼之右聲道802，及此外，使用複數窄帶對準參數上之資訊以獲得經解碼之多聲道信號，亦即，在線路901及902上具有至少兩個已解碼且已解對準之聲道的解碼信號。

圖9a例示藉由來自圖2之信號解對準器900所進行的較佳步驟順序。更明確言之，步驟910接收已對準的左及右聲道，如自圖2在線路801、802上可得。於步驟910，信號解對準器900使用窄帶對準參數上之資訊而解對準個別子頻帶，以便於911a及911b獲得相位經解對準的經解碼之第一及第二或左及右聲道。在步驟912，該等聲道使用寬帶對準參數解對準，因此於913a及913b獲得相位及時間經解對準的聲道。

於步驟914，進行任何進一步處理，包含使用視窗化或重疊加法操作，或通常使用任何交叉衰退操作，以便於915a及915b獲得假信號縮減的或無假信號的解碼信號，亦即，至沒有任何假信號的經解碼之聲道，但一方面針對寬帶及另一方面針對複數窄帶典型地曾有時變解對準參數。

圖9b例示圖2中例示的多聲道解碼器之一較佳實施例。

特別，圖2之信號處理器800包含時間-頻譜轉換器810。

又復，信號處理器包含中間/側邊至左/右轉換器820以便自中間信號M及側邊信號S計算左信號L及右信號R。

然而，要緊地為了於方塊820中藉中間/側邊至左/右轉換計算L及R，非必要使用側邊信號S。取而代之，容後詳述，左/右信號初步只使用自聲道間位準差參數ILD推衍得之增益參數計算。一般而言，預測增益也可被考慮為一種ILD的形式。增益可自ILD推衍，但也可直接計算。較佳不再計算ILD，但直接計算預測增益及發射之，且使用預測增益於解碼器而非使用ILD參數。

因此，於此實施例中，側邊信號S只使用於聲道更新器830，如由旁通線路821例示，其操作以便使用被發射的側邊信號提供較佳的左/右信號。

因此，轉換器820使用透過位準參數輸入822獲得的位準參數操作，而未實際上使用側邊信號S，但然後聲道更新器830使用側邊821，及取決於特定實施例使用透過線路831接收的立體聲填充參數操作。然後信號對準器900包含相位解對準器及能定標器910。能定標係藉由定標因數計算器940推衍的定標因數控制。定標因數計算器940係由聲道更新器830之輸出饋入。基於透過輸入911接收的窄帶對準參數，進行相位解對準，及於方塊920，基於透過線路921接收的寬帶對準參數，進行時間解對準。最後，進行頻譜-時間轉換930以便最終獲得解碼信號。

圖9c例示於一較佳實施例中，於圖9b之方塊920及930內部典型進行之又一步驟順序。

更明確言之，窄帶解對準聲道輸入功能對應圖9b之方塊920的寬帶解對準內。於方塊931進行DFT或任何其它變換。實際計算時域樣本之後，進行使用合成視窗的選擇性合成視窗化。合成視窗較佳地恰與分析視窗相同，或自分析視窗推衍得，例如，內插或降取樣，但以某種方式取決於分析視窗。相依性較佳地為使得針對重疊範圍中之各點由兩個重疊視窗界定的乘數因子加總至1。如此，於方塊932中之合成視窗之後，進行重疊操作及隨後加法操作。另外，替代合成視窗及重疊/加法操作，針對各聲道進行在接續方塊間之任何交叉衰退，以便如圖9a之脈絡中已經討論，獲得假信號縮減的解碼信號。

當考慮圖6b時，清楚可知針對中間信號的實際解碼操作，亦即一方面「EVS解碼器」，及針對側邊信號，反向量量化VQ^-1 及反MDCT操作(IMDCT)對應圖2之信號解碼器700。

又復，方塊810中之DFT操作對應圖9b中之元件810，及反信號處理器及反時移功能對應圖2之方塊800、900，及圖6b之反DFT操作930對應圖9b中之方塊930中之對應操作。

接著以進一步細節討論圖3。特別，圖3例示具有個別頻譜線的DFT頻譜。較佳地，DFT頻譜或圖3中例示的任何其它頻譜為複合頻譜，及各線為具有振幅及相位或具有真實部分及虛擬部分的複合頻譜線。

此外，頻譜也分割成不同參數頻帶。各個參數頻帶具有至少一個及較佳地多於一個頻譜線。此外，參數頻帶自低頻增至高頻。典型地，寬帶對準參數為用於整個頻譜，亦即，用於包含圖3中之具體實施例中之全部頻帶1至6的頻譜，的單一寬帶對準參數。

又復，提出複數窄帶對準參數，使得針對各個參數頻帶有單一對準參數。如此表示針對一頻帶的對準參數總是施加至對應頻帶內部的全部頻譜值。

又復，除了窄帶對準參數之外，位準參數也提供給各個參數頻帶。

與提供給頻帶1至頻帶6之各個及每個參數頻帶的位準參數相反地，較佳只提供複數窄帶對準參數給有限數目的較低頻帶，諸如頻帶1、2、3及4。

此外，立體聲填充參數提供給某個頻帶數目，較低頻帶除外，諸如於該具體實施例中頻帶4、5及6，但有用於較低參數頻帶1、2及3的側邊信號頻譜值，結果，針對此等較低頻帶不存在有立體聲填充參數，於該處使用側邊信號本身或表示側邊信號的預測殘差信號獲得波形匹配。

如已描述，諸如於圖3中之實施例中於較高頻帶存在有更多頻譜線，於參數頻帶6有七條頻譜線相較於參數頻帶2有三條頻譜線。然而，當然，參數頻帶數目、頻譜線數目、及一參數頻帶內部的頻譜線數目、及亦針對某些參數的不同極限將為不同。

雖言如此，圖8例示參數之分配及被提供參數的頻帶數目，於某個實施例中與圖3相反地，實際提供12頻帶。

如圖例示，提供位準參數ILD給12頻帶中之各者，且經量化至由每頻帶五位元表示的量化準確度。

又復，窄帶對準參數IPD只提供給較低頻帶至2.5 kHz的寬帶。此外，聲道間時間差或寬帶對準參數只提供為全頻譜的單一參數，但針對全頻帶由8位元表示有極高量化準確度。

又復，提出相當粗糙的量化立體聲填充參數，每頻帶由3位元表示，而非針對低於1 kHz的較低頻帶，原因在於針對較低頻帶涵括實際編碼側邊信號或側邊信號殘差頻譜值。

隨後，就圖5摘述在編碼器端上的較佳處理。於第一步驟中，進行左及右聲道的DFT分析。該程序對應圖4c之步驟155至157。於步驟158，計算寬帶對準參數，及特別較佳寬帶對準參數聲道間時間差(ITD)。如於170例示，進行頻域中L及R的時移。另外，也在時域進行此種時移。然後進行反DFT，於時域進行時移，及進行額外正DFT以便再度在使用寬帶對準參數對準之後具有頻譜表示型態。

ILD參數，亦即位準參數及相位參數(IPD參數)在經移位L及R表示型態上針對各個參數頻帶計算，如於步驟171例示。此步驟例如對應圖4c之步驟160。時移L及R表示型態以聲道間相位差參數之函數旋轉，如圖4c之步驟161或圖5例示。接著，如步驟301例示，計算中間及側邊信號，及較佳地，額外有能轉換操作，容後詳述。於接續步驟174中，使用M為ILD之函數及選擇性地使用過去M信號，亦即稍早時框的中間信號，進行S之預測。接著，進行中間信號及側邊信號的反DFT，其對應較佳實施例中圖4d的步驟303、304、305。

於最末步驟175，時域中間信號m及選擇性地，殘差信號係如於步驟175例示編碼。此程序對應由圖1中之信號編碼器400進行者。

於反立體聲處理中於解碼器，側邊信號係於DFT域產生，首先自中間信號預測為：於該處g為針對各個參數頻帶計算的增益且為發射的聲道間位準差(ILD)之函數。

然後，預測殘差可以兩個不同方式精製： -藉殘差信號之二次寫碼：於該處g_cod 為針對全頻譜發射的全域增益 -藉殘差預測，稱作立體聲填充，以得自前一DFT框的先前解碼中間信號頻譜預測殘差側邊頻譜：於該處g_pred 為針對各個參數頻帶發射的預測增益。

於相同DFT頻譜內可混合兩型寫碼精製。於較佳實施例中，殘差寫碼施加於較低參數頻帶上，而殘差預測施加至其餘頻帶上。於如圖1中描繪的較佳實施例中，殘差寫碼在時域合成殘差側邊信號及藉MDCT變換之後於MDCT域進行。不似DFT，MDCT係經臨界取樣且更適用於音訊寫碼。MDCT係數係藉晶格向量量化而直接地向量量化，但另可藉純量量化器接著熵寫碼器寫碼。另外，殘差側邊信號也於時域藉語音寫碼技術寫碼，或於DFT域直接寫碼。 1.時間-頻率分析：DFT

要緊地，自藉DFT進行的立體聲處理之額外時間-頻率分解允許良好聽覺場景分析，同時不會顯著增加寫碼系統的總延遲。藉由內設，使用10毫秒(核心寫碼器之20毫秒時框的兩倍)的時間解析度。分析及合成視窗為相同及對稱。視窗於圖7中以16 kHz的取樣率表示。可觀察得重疊區受限用以減少造成的延遲，及當施加ITD於頻域時，也加入零填補以逆平衡圓形移位，容後詳述。 2.立體聲參數

立體聲參數最大可以立體聲DFT的時間解析度發射。於最小值，可減少至核心寫碼器的時框解析度，亦即20毫秒。藉由內設，當未檢測得暫態時，歷2 DFT視窗每20毫秒計算參數。參數頻帶構成約略等效矩形頻寬(ERB)的兩倍或四倍之後的頻譜的非一致且非重疊分解。藉由內設，4售ERB尺規係使用於16 kHz頻帶寬度共12頻帶(32 kbps取樣率，超寬帶立體聲)。圖8摘述組態實例，對此立體聲邊帶資訊係以約5 kbps發射。 3.ITD之計算及聲道時間對準

ITD係使用帶有相位變換的通用交叉關聯頻譜(GCC-PHAT)藉估計到達時間延遲(TDOA)計算：於該處L及R分別為左及右聲道的頻譜。頻率分析可與使用於接續立體聲處理的DFT獨立進行或可分享。用於計算ITD的假碼如下：

圖4e例示用於實施稍早例示的假碼之流程圖，以便獲得聲道間時間差之穩健有效的計算作為寬帶對準參數之實例。

於方塊451，進行針對第一聲道(l)及第二聲道(r)的時域信號之DFT分析。此種DFT分析典型地將為例如於圖5或圖4c之步驟155至157之脈絡中已經討論者的相同DFT分析。

針對各個頻率倉進行交叉關聯，如方塊452例示。

如此，針對左及右聲道的全頻譜範圍獲得交叉關聯頻譜。

於步驟453，然後針對L及R之振幅頻譜計算頻譜平坦度量，及於步驟454，選取較大的頻譜平坦度量。然而，於步驟454的選擇並非必然需要選擇較大者，但自二聲道單一SFM的決定也可能是只有左聲道或只有右聲道的計算及選擇，或可以是二SFM值之加權平均的計算。

於步驟455，取決於頻譜平坦度量，然後交叉關聯頻譜隨著時間之推移而平滑化。

較佳地，頻譜平坦度量係由振幅頻譜之幾何平均除以振幅頻譜之算術平均計算。如此，SFM值限於0至1間。

於步驟456，然後平滑化的交叉關聯頻譜藉其振幅標準化，及於步驟457，計算已標準化之平滑化的交叉關聯頻譜的反DFT。於步驟458，較佳地進行某個時域濾波，但取決於實施例，此時域濾波也可不考慮但為較佳，容後詳述。

於步驟459，藉濾波通用交叉關係函數的峰值拾取及藉進行某個臨界化操作而進行ITD估計。

若未獲得高於臨界值之峰值，則ITD設定為零，及對此對應區塊未進行時間對準。

ITD計算也可摘述如下。取決於頻譜平坦度量，在被平滑化之前，於頻域計算交叉關聯。SFM限於0至1間。以類似雜訊信號為例，SFM將為高(亦即，約1)及平滑化將為弱。以類似調性信號為例，SFM將為低及平滑化將變強。然後，在變換回時域之前，平滑化的交叉關聯藉其幅值加以標準化。標準化對應交叉關聯的相位變換，且已知於低雜訊及相對高混響環境中，顯示比較正常交叉關聯更佳的效能。如此所得的時域功能首先經濾波用以達成更穩健的峰值拾取。對應最大幅值的指數對應左及右聲道間之時間差(ITD)估值。若最大幅值係低於給定臨界值，則ITD之估計不視為可靠且被設定為零。

若於時域施加時間對準，則於分開DFT分析計算ITD。移位進行如下：

要求於編碼器的額外延遲，其至多等於可處理的最大ITD絕對值。ITD隨時間之變化係藉DFT之分析視窗化加以平滑化。

另外，可於頻域施加時間對準。於此種情況下，ITD計算及圓形移位係在相同DFT域，與此種另一個立體聲處理分享的域。圓形移位係藉下式給定：

需要DFT視窗的零填補來以圓形移位模擬時移。零填補的大小對應可處理的ITD最大絕對值。於較佳實施例中，藉將3.125毫秒零加在兩端上，零填補一致分裂在分析視窗兩側上。可能ITD最大絕對值則為6.25毫秒。於A-B麥克風配置中，最惡劣情況係對應兩個麥克風間約2.15米之最大距離。ITD隨時間之變化係藉DFT之合成視窗化及重疊加法加以平滑化。

要緊地，時移之後接著已移位信號之視窗化。此乃與先前技術雙耳線索編碼(BCC)的主要區別，於該處時移施加至視窗化信號上，但於合成階段未進一步視窗化。結果，ITD隨時間之任何變化於解碼信號產生人造暫態/單擊。 4.IPD之計算及聲道旋轉

在時間對準二聲道之後，計算IPD及取決於立體聲組態，此點用於各個參數頻帶或至少高達給定ipd_max_band。

然後，IPD施加至二聲道用以對準其相位：

於該處、、及b為屬於頻率指數k的參數頻帶指數。參數β負責二聲道間分配相位旋轉量同時使其相位對準。β取決於IPD但也取決於聲道之相對振幅位準ILD。若一聲道具有較高振幅，則將被視為領先聲道且比具有較低振幅的聲道將較不受相位旋轉的影響。 5.和-差及側邊信號寫碼

和差變換係在二聲道的時間及相位經對準的頻譜上進行，使得於中間信號節能。於該處限於1/1.2與1.2間，亦即-1.58至+1.58分貝。當調整M及S之能時，該項限制避免了假信號。值得注意者為當時間及相位經事先對準時，此種節能較不重要。另外，界限可予增減。

進一步以M預測側邊信號S：於該處，於該處。另外，藉由最小化殘差及由先前方程式推衍的ILD的均方差(MSE)可得最佳預測增益g。

殘差信號S’(f)可藉兩種手段模型化：或以M之延遲頻譜預測，或於MDCT域中直接於MDCT域寫碼。 6.立體聲解碼中間信號X及側邊信號S首先轉換成左及右聲道L及R如下：於該處每個參數頻帶之增益g係自ILD參數推衍：。

針對低於cod_max_band的參數頻帶，該等二聲道係以經解碼的側邊信號更新：針對較高參數頻帶，側邊信號經預測及聲道更新為：最後，聲道乘以複合值，目標回復立體聲信號的原先能及聲道間相位：於該處於該處a係如前定義及如前定義畫界，及於該處，及於該處atan2(x,y)為x/y的四象限反正切。

最後，取決於被發射的ITD，聲道於時域或於頻域時移。時域聲道係藉反DFT及重疊加法合成。

本發明之特定特徵係與空間線索及和-差聯合立體聲寫碼之組合相關。更明確言之，空間線索IDT及IPD係經計算及施加於立體聲聲道(左及右)上。又復，和-差(M/S信號)經計算，及較佳地，以M施加S的預測。

於解碼器端上，寬帶及窄帶空間線索連同和-差聯合立體聲寫碼組合。更明確言之，使用至少一個空間線索諸如ILD預測側邊信號，及計算反和-差用以獲得左及右聲道，及此外，寬帶及窄帶空間線索施加於左及右聲道上。

較佳地，編碼器有一視窗及在使用ITD處理後，相對於時間對準聲道重疊-加法。又復，在施加聲道間時間差之後，解碼器額外有經移位的或經解對準的聲道版本之視窗化及重疊-加法操作。

使用GCC-Phat方法之聲道間時間差的計算乃特別穩健的方法。

新穎程序為優異的先前技術，原因在於以低延遲達成立體聲音訊或多聲道音訊的位元率寫碼。特別設計針對輸入信號之不同性質及多聲道或立體聲紀錄之不同配置為穩健。特別，本發明對位元率立體聲語音寫碼提供良好品質。

較佳程序可使用於全部類型立體聲音訊或多聲道音訊內部諸如語音及樂音的廣播分配在一給定低位元率具有恆定感官品質。此種應用區為數位無線電、網際網路串流、或音訊通訊應用。

發明編碼音訊信號可儲存於數位儲存媒體或非暫態儲存媒體上，或可在發射媒體諸如無線發射媒體或有線發射媒體諸如網際網路上。

雖然有些面向已經於設備之脈絡中描述，顯然此等面向也表示對應方法的描述，於該處一區塊或裝置對應方法步驟或方法步驟之特徵。類似地，於方法步驟之脈絡中描述的面向也表示對應區塊或對應設備之項目或特徵的描述。

取決於某些實施例要求，本發明之實施例可於硬體或軟體實施。實施例可使用數位儲存媒體進行，例如軟碟、DVD、CD、ROM、PROM、EPROM、EEPROM或快閃記憶體，具有儲存其上之電子可讀取控制信號，其與可規劃電腦系統協力(或能協力)因而進行個別方法。

依據本發明之若干實施例包含一種具有電子可讀取控制信號的資料載體，其可與可規劃電腦系統協力，因而進行本文描述的方法中之一者。

概略言之，本發明之實施例可實施為帶程式碼的電腦程式產品，當電腦程式產品在電腦上跑時，程式碼係針對進行方法中之一者操作。程式碼例如可儲存於機器可讀取載體上。

其它實施例包含儲存於機器可讀取載體上或非暫態儲存媒體上用於進行本文描述的方法中之一者的電腦程式。

換言之，因此，本發明方法之實施例為當電腦程式產品在電腦上跑時，具有用於進行本文描述的方法中之一者的程式碼之電腦程式。

因此，本發明方法之進一步實施例為包含用於進行本文描述的方法中之一者的電腦程式紀錄於其上的資料載體(或數位儲存媒體，或電腦可讀取媒體)。

因此，本發明方法之進一步實施例為表示用於進行本文描述的方法中之一者的電腦程式之一資料串流或一串列之信號。該資料串流或該串列之信號例如可經組配以透過資料通訊連結，例如透過網際網路移轉。

又一實施例包含處理構件，例如電腦，或可程式化邏輯裝置，經組配以或適用以進行本文描述的方法中之一者。

又一實施例包含具有用於進行本文描述的方法中之一者的電腦程式安裝於其上的電腦。

於若干實施例中，可程式化邏輯裝置(例如，現場可程式閘陣列)可使用以進行本文描述的方法之部分或全部功能。於若干實施例中，現場可程式閘陣列可與微處理器協力以便進行本文描述的方法中之一者。通常，該等方法較佳地係藉任何硬體設備進行。

前述實施例僅為本發明之實施例的原理之例示。須瞭解本文描述的配置及細節之修改及變化將為熟諳技藝人士顯然易知。因此意圖僅受隨附之申請專利範圍所限，而非藉由此處實施例之描述及解釋呈示的特定細節所限。

10‧‧‧多聲道信號

12、43、610‧‧‧參數線路

14‧‧‧又一參數線路

15‧‧‧連接線

16、17、21、22、155-161、171-175、301-305、451-459‧‧‧步驟

20‧‧‧已對準之聲道

31‧‧‧中間信號

32‧‧‧側邊信號

50‧‧‧輸出線路

100‧‧‧參數決定器

150、810‧‧‧時間-頻譜轉換器

152、451-459、820、920、931-933‧‧‧方塊

154、930‧‧‧頻譜-時間轉換器

200‧‧‧信號對準器

300、800‧‧‧信號處理器

400‧‧‧信號編碼器

500‧‧‧輸出介面

600‧‧‧輸入介面

601、701、702、801、802、901、902、911a-b、913a-b、915a-b、921‧‧‧線路

602‧‧‧信號線路

700‧‧‧信號解碼器

820‧‧‧中間/側邊至左/右轉換器

821‧‧‧旁通線路

822‧‧‧位準參數輸入

830‧‧‧聲道更新器

900‧‧‧信號解對準器

910‧‧‧相位解對準器及能定標器

911‧‧‧輸入

940‧‧‧定標因數計算器

1010‧‧‧頻譜特性估計器

1020‧‧‧計算器

1030‧‧‧平滑化濾波器

1031-1035、1034a-c、1050、1101-1106‧‧‧方塊、步驟

1040‧‧‧處理器

隨後，參考附圖討論本發明之較佳實施例，附圖中：圖1為用於編碼多聲道信號之一設備的一較佳實施例之方塊圖；圖2為用於解碼一經編碼之多聲道信號之一設備的一較佳實施例；圖3為針對某些實施例不同頻率解析度及其它頻率相關面向之例示；圖4a為編碼設備用於對準聲道中進行的程序之流程圖；圖4b例示於頻域中進行的程序之一較佳實施例；圖4c例示使用具有零填補部及重疊範圍之一分析視窗，於編碼設備中進行的程序之一較佳實施例；圖4d例示於編碼設備中進行的程序之一流程圖；圖4e例示顯示聲道間時間差估計之一較佳實施例的一流程圖；圖5例示一流程圖其例示於編碼設備中進行的程序之又一實施例；圖6a例示編碼器之一實施例的方塊圖；圖6b例示解碼器之一對應實施例的流程圖；圖7例示具有低重疊正弦視窗的一較佳視窗情況，帶有零填補用於立體聲時間-頻率分析及合成；圖8例示顯示不同參數值之位元消耗的一表；圖9a例示於一較佳實施例中，藉用於解碼一經編碼之多聲道信號之一設備進行的程序；圖9b例示用於解碼一經編碼之多聲道信號之設備的一較佳實施例；圖9c例示於一經編碼之多聲道信號的解碼情境中於寬帶解對準脈絡中進行的程序；圖10a例示用於估計聲道間時間差的一設備之一實施例；圖10b例示其中施加聲道間時間差的一信號進一步處理的一示意表示型態；圖11a例示由圖10a之處理器進行的程序；圖11b例示由圖10a之處理器進行的進一步程序；圖11c例示一可變臨界值之計算及該可變臨界值使用於時域表示型態的分析中之又一實施例；圖11d例示用於該可變臨界值之決定的一第一實施例；圖11e例示用於該臨界值之決定的又一實施例；圖12例示用於一清晰語音信號之一經平滑化之交叉關聯頻譜的時域表示型態；圖13例示用於具有噪音及周圍環境的一語音信號之一經平滑化之交叉關聯頻譜的時域表示型態。

Claims

一種用以估計第一聲道信號與第二聲道信號間之聲道間時間差之裝置，其包含：一計算器，用以針對一時間區塊自於該時間區塊中之該第一聲道信號、及於該時間區塊中之該第二聲道信號來計算一交叉關聯頻譜；一頻譜特性估計器，用以針對該時間區塊來估計該第一聲道信號或該第二聲道信號之一頻譜的一特性；一平滑化濾波器，用以使用頻譜特性隨著時間之推移來平滑化該交叉關聯頻譜，以獲得一經平滑化之交叉關聯頻譜；及一處理器，用以處理該經平滑化之交叉關聯頻譜，以獲得該聲道間時間差。
如請求項1之裝置，其中該處理器係組配來使用該經平滑化之交叉關聯頻譜的一振幅來標準化該經平滑化之交叉關聯頻譜。
如請求項1或2之裝置，其中該處理器係組配來：計算該經平滑化之交叉關聯頻譜或一經標準化之經平滑化之交叉關聯頻譜的一時域表示型態；及分析該時域表示型態以決定該聲道間時間差。
如請求項1之裝置，其中該處理器係組配來低通濾波該時域表示型態及進一步處理該低通濾波的一結果。
如請求項1之裝置，其中該處理器係組配來藉由於自該經平滑化之交叉關聯頻譜決定的一時域表示型態內進行一峰值搜尋或峰值拾取操作，而進行該聲道間時間差決定。
如請求項1之裝置，其中該頻譜特性估計器係組配來決定該頻譜之一噪度或一調性來作為該頻譜特性；及其中該平滑化濾波器係組配來於一第一較少嘈雜特性或一第一較多調性特性之情況下以一第一平滑化度隨著時間之推移而施加一較強的平滑化，或於一第二較多嘈雜特性或一第二較少調性特性之情況下以一第二平滑化度隨著時間之推移而施加一較弱的平滑化，其中該第一平滑化度係大於該第二平滑化度，及其中該第一嘈雜特性係比該第二嘈雜特性呈較少嘈雜，或該第一調性特性係比該第二調性特性呈更多調性。
如請求項1之裝置，其中該頻譜特性估計器係組配來計算該第一聲道信號之一頻譜的一第一頻譜平坦度量及該第二聲道信號之一第二頻譜的一第二頻譜平坦度量來作為該特性，及藉選擇一最大值、藉決定該等頻譜平坦度量間之一加權平均或一未加權平均、或藉選擇一最小值而自該第一及該第二頻譜平坦度量決定該頻譜之該特性。
如請求項1之裝置，其中該平滑化濾波器係組配來藉由得自該時間區塊針對一頻率的該交叉關聯頻譜值、與得自至少一個過去時間區塊針對該頻率的一交叉關聯頻譜值的一加權組合，來計算針對該頻率的一經平滑化之交叉關聯頻譜值，其中用於該加權組合的加權因數係由該頻譜之該特性決定。
如請求項1之裝置，其中該處理器係組配來於自該經平滑化之交叉關聯頻譜推衍的一時域表示型態內，決定一有效範圍及一無效範圍，其中於該無效範圍內的至少一個最大峰值係經檢測且與於該有效範圍內的一最大峰值作比較，其中唯有當該有效範圍內的該最大峰值大於該無效範圍內的至少一個最大峰值時，該聲道間時間差才被決定。
如請求項1之裝置，其中該處理器係組配來：於自該經平滑化之交叉關聯頻譜推衍的一時域表示型態內進行一峰值搜尋操作，自該時域表示型態決定一可變臨界值；及比較一峰值與該可變臨界值，其中該聲道間時間差係決定為與相對於該可變臨界值呈預定關係的一峰值相關聯的一時間延遲。
如請求項10之裝置，其中該處理器係組配來決定該可變臨界值為等於該時域表示型態之值中之最大10%中之一值的一整數倍數。
如請求項1之裝置，其中該處理器係組配來於自該經平滑化之交叉關聯頻譜推衍的一時域表示型態之多個子區塊中之各個子區塊中判定一最大峰值振幅，其中該處理器係組配來基於自該等多個子區塊之該最大峰值振幅推衍得的一平均峰值振幅，來計算一可變臨界值，及其中該處理器係組配來決定該聲道間時間差為與該等多個子區塊中大於該可變臨界值之一最大峰值相對應的一時間延遲值。
如請求項12之裝置，其中該處理器係組配來藉由被決定為該等子區塊中之該等峰值中之一平均峰值的平均臨界值與一值的一乘法運算來計算該可變臨界值，其中該值係由該第一及該第二聲道信號之一信號對雜訊比(SNR)特性決定，其中一第一值係與一第一SNR值相關聯、及一第二值係與一第二SNR值相關聯，其中該第一值大於該第二值，及其中該第一SNR值大於該第二SNR值。
如請求項13之裝置，其中該處理器係組配來於一第三SNR值低於該第二SNR值之情況下、及當該臨界值與一最大峰值間之一差低於一預定值(ε)時，使用低於該第二值(a_low)的一第三值(a_lowest)。
一種用以估計第一聲道信號與第二聲道信號間之聲道間時間差之方法，其包含：針對一時間區塊自該時間區塊中之該第一聲道信號及該時間區塊中之該第二聲道信號計算一交叉關聯頻譜；針對該時間區塊估計該第一聲道信號或該第二聲道信號之一頻譜的一特性；使用該頻譜之特性隨著時間之推移平滑化該交叉關聯頻譜以獲得一經平滑化之交叉關聯頻譜；及處理該經平滑化之交叉關聯頻譜以獲得該聲道間時間差。
一種電腦程式，其用於當在一電腦或一處理器上運行時，進行如請求項15之方法。