TWI714046B - 用於估計聲道間時間差的裝置、方法或計算機程式 - Google Patents

用於估計聲道間時間差的裝置、方法或計算機程式 Download PDF

Info

Publication number
TWI714046B
TWI714046B TW108111909A TW108111909A TWI714046B TW I714046 B TWI714046 B TW I714046B TW 108111909 A TW108111909 A TW 108111909A TW 108111909 A TW108111909 A TW 108111909A TW I714046 B TWI714046 B TW I714046B
Authority
TW
Taiwan
Prior art keywords
signal
channel
time
value
spectrum
Prior art date
Application number
TW108111909A
Other languages
English (en)
Other versions
TW202004734A (zh
Inventor
艾琳尼 弗托波羅
詹恩 布特
艾曼紐 拉維里
帕拉維 瑪班
馬汀 狄亞茲
法蘭茲 胡德胡博
史丹芬 多伊拉
斯里坎特 寇爾斯
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW202004734A publication Critical patent/TW202004734A/zh
Application granted granted Critical
Publication of TWI714046B publication Critical patent/TWI714046B/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)

Abstract

一種用於估計一第一聲道信號和一第二聲道信號之間的一聲道間時間差的裝置,其包括一信號分析器,用於估計該第一聲道信號或該第二聲道信號或兩者信號或從該第一聲道信號或該第二聲道信號導出的一信號的一信號特徵;一計算器,用於從一時間區塊中的該第一聲道信號和該時間區塊中的該第二聲道信號計算該時間區塊的一互相關頻譜;一加權器,其依據該信號分析器所估計的信號特徵而決定是使用第一加權程序或使用第二加權程序來加權一平滑或非平滑的互相關頻譜,以獲得一加權互相關頻譜,,其中該第一加權程序不同於該第二加權程序;以及一處理器,用於處理該加權互相關頻譜,以獲得該聲道間時間差。

Description

用於估計聲道間時間差的裝置、方法或計算機程式
本申請涉及立體聲處理或通常是多聲道處理,其中一多聲道信號具有兩個聲道,例如在立體聲信號的情況下的左聲道和右聲道,或兩個以上的聲道,例如三、四、五或任何其他數量的聲道。
與立體聲效音樂的存儲和廣播相比,立體聲語音,特別是會話式立體聲語音受到科學上的關注要少得多。確實,在語音通訊中,現在仍然大多使用單聲道傳輸。然而,隨著網絡頻寬和容量的增加,可以預見以立體聲效技術為基礎的通訊將變得更加普遍並帶來更好的收聽體驗。
立體聲效的音頻材料的高效率編碼經長期的在音樂的感知音頻編碼中被研究,以用於高效率的存儲或廣播。在波形保持是至關重要的高位元率情形中,通稱為中/側(M/S)立體聲的和差立體聲已經被使用了一段長時間。就低位元率而言,強化立體聲編碼和較近期的參數立體聲編碼已經被引用。最新的技術以不同的標準,例如HeAACv2和Mpeg USAC被採用。它生成雙聲道信號的下降混合,並結合緻密的空間旁側資訊。
立體聲合併編碼通常是基於訊號的高頻解析度(即該訊號的低時間解析度、時頻變換) 建立,而與在大多數語音編碼器中所執行的低延遲及時域處理不兼容。此外,所產生的位元率通常是高的。
另一方面,參數立體聲採用一位於編碼器前端的額外濾波器組作為前置處理器,位在解碼器後端的作為後置處理器。 因此,參數立體聲可以與ACELP之類的傳統語音編碼器一起使用,如MPEG USAC所做的那樣。 此外,該聽覺場景的參數化可以用最少量的旁側資訊來實現,而這對於低位元率而言是極適合的。 然而,參數立體聲例如在MPEG USAC中並沒有特別針對低延遲設計,且不能為不同的會話場景提供一致的品質。在空間場景的習知參數表示法中,立體聲影像的寬度藉由施用在兩合成聲道上的解相關器以人工方式重現,並藉由編碼器所計算和傳輸的頻道間同調參數(ICs)來加以控制。對於大多數立體聲語音而言,這種加寬立體聲圖像的方式不適合用以重建屬於優美的直接聲音的語音的自然氛圍,因為它是由位於該空間中一特定位置的單個聲源所產生的(有時會有一些來自房間的混響)。相反地,樂器具有比語音更自然的寬度,而可經由聲道解相關來有效地模仿。
當利用非多重收音麥克風錄製語音時也會出現問題,例如在A-B組態中,當麥克風彼此間隔一距離或用於雙耳錄音或成像時。可以預見該等情節會發生在電話會議中的語音採集、或者在多點(視訊會議)控制器(MCU)中以遠程揚聲器創建虛擬聽覺場景時。因此,信號到達一個聲道的時間與到達另一個聲道的時間是不同的,這與在多重收音麥克風上進行的錄製,例如X-Y(強度錄製)或M-S(中側錄製)是不同的。職是,此時間非對準的兩個聲道的同調性的計算會被錯誤地估計,而導致人工環境合成失敗。
與立體聲處理有關的先前技術參考文獻為美國專利第5,434,948號公告或美國專利第8,811,621號公告。
WO 2006/089570 A1公開了一種近透明或透明的多聲道編碼器/解碼器方案。一多聲道編碼器/解碼器方案額外地產生一波形類型的殘餘信號。該殘餘信號與一個或多個多聲道參數一起發送到一解碼器。與一純參數多聲道解碼器相比,該增強型解碼器產生一多聲道輸出信號,該多聲道輸出信號由於該額外的殘餘信號使然,而具有改善的輸出品質。在編碼器側,一左聲道和一右聲道均由一分析濾波器組所濾波。然後,對於每個子頻帶信號,計算一子頻帶的對準值和增益值。然後在進一步處理之前執行此一對準。在解碼器側,執行一去對準和一增益處理,然後該等相應的信號藉一合成濾波器組來合成,以便產生一解碼的左信號和一解碼的右信號。
在這種立體聲處理應用中,計算第一聲道信號和第二聲道信號之間的聲道間或聲道間時間差是有用的,以便典型地執行一寬頻帶時間對準程序。然而,亦存在有其他應用可使用第一聲道和第二聲道之間的聲道間時間差,這些應用包括存儲或傳輸參數資料、包含時間對準兩個聲道的立體聲/多聲道處理、估算到達的時間差以決定在房間中的揚聲器位置、波束形成空間濾波、前景/背景分解或經由例如聲波三角定位以定出聲音源的位置,此處僅舉幾個例子。
對於所有這些應用而言,需要一可有效、準確和穩健的判定第一及第二聲道信號之間的聲道間時間差(inter-channel time difference)。
已經存在有術語為「GCC-PHAT」或通稱為「廣義互相關相位變換」(generalized cross-correlation phase transform) 的這種判定。一般上是在兩個聲道信號之間計算一互相關頻譜,然後,在對一廣義互相關頻譜進行諸如逆DFT的逆頻譜變換以便找到一時域表示之前,將一加權函數應用於該互相關頻譜,以獲得所謂的廣義互相關頻譜。該時域表示代表某些時滯(time lags)的值,並且該時域表示的最高峰值通常對應於該時間遲延或時間差異,即該兩個聲道信號之間的聲道間時間遲延或差異。
然而,已經顯示,特別是在與例如沒有任何混響或背景雜訊的乾淨語音不同的信號中,這種通用技術的穩健性不是最佳的。
因此,本發明的一個目的是提供一種用於估計兩個聲道信號之間的一聲道間時間差的改進概念。
該目的經由根據請專利範圍第1項的用於估計一聲道間時間差的一裝置,或根據請專利範圍第28項的用於估計一聲道間時間差的一方法或根據專利範圍第30項的一計算機程式來實現。
本發明基於以下發現,即依據一信號分析器所估計的一信號特徵,決定是使用第一加權程序或第二加權程序,來加權一平滑或非平滑的互相關頻譜,以獲得一加權互相關頻譜,其中該第一加權程序不同於該第二加權程序。
在另一實施例中,由該第一聲道信號或該第二聲道信號的頻譜的頻譜特徵所控制的、對該互相關頻譜隨時間的平滑化,其顯著地改善了該聲道間時間差的確定的穩健性和準確性。
在較佳實施例中,確定該頻譜的一音調/雜訊特徵,並且在類似音調的信號的情況下,平滑化較強,而在一雜訊信號的情況下,平滑化變得不那麼強。
較佳地,一頻譜平坦度測量被使用,並且在類似音調信號的情況下,該頻譜平坦度測量將是低的而該平滑化將變得較強,並且在類似雜訊的信號的情況下,該頻譜平坦度測量將是高的,例如大約1或接近1,而該平滑化將變弱。
因此,根據本發明,其提供一種用於估計第一聲道信號和第二聲道信號之間的聲道間時間差的裝置,其包括一計算器,其用於為一時間區塊中的第一聲道信號和該時間區塊中的第二聲道信號,計算該時間區塊的互相關頻譜。該裝置還包括用於針對該時間區塊以估計該第一聲道信號和該第二聲道信號的頻譜的特徵的頻譜特徵估計器,以及用於使用該頻譜特徵隨著時間平滑該互相關頻譜的一平滑濾波器,以獲得一平滑互相關頻譜。 然後,該平滑互相關頻譜被一處理器進一步處理,以便獲得該聲道間時間差參數。
在有關該平滑互相關頻譜的進一步處理的較佳實施例中,其執行一自適應的閾值處理操作,其中該平滑化的互相關頻譜的時域表示被分析,以便決定一可變閾值,其取決於該時域表示,以及該時域表示的一峰值係與該可變閾值進行比較,其中當與一峰值相關聯的時間遲滯係與該閾值成一預定關係,例如大於該閾值時,確定該聲道間時間差。
在一實施例中,該可變閾值被判定為等於該最大值中的一值的整數倍,該最大部分例如是該時域表示值的10%,或者另外,在針對該變量決定的另一實施例中,經由將該可變閾值與該值相乘來計算該可變閾值,其中該值取決於該第一和該第二聲道信號的一信號雜訊比特徵,其中,對於一較高的信號雜訊比,該值變高,對於一較低的信號雜訊比,該值變低。
如前所述,該聲道間時間差的計算可用於許多不同的應用,例如參數資料的存儲或傳輸、立體聲/多聲道處理/編碼、兩個聲道的時間對齊、用於決定具有兩個麥克風和一已知麥克風設置的一房間中一揚聲器位置的到達時間差估計、用於波束形成的目的、空間濾波、前景/背景分解或一聲源的位置決定、例如經由基於兩個或三個信號的時間差的聲波三角測量。
然而,在下文中,聲道間時間差的計算的較佳實施方式和使用的敘述,是針對在具有至少兩聲道的多聲道信號加以編碼的程序中為兩個立體聲信號的寬帶時間對準之目的。
用於編碼具有至少兩個聲道的一多聲道信號的一裝置包括一參數決定器,其用於一方面決定一寬帶對準參數,另一方面決定多個窄帶對準參數。一信號對準器使用這些參數來對使用這些參數的至少兩個聲道進行對準,以獲得對準聲道。然後,一信號處理器使用該對準聲道以計算一中間信號和一側面信號,該中間信號和該側面信號隨後被編碼並被轉發至一編碼輸出信號,其另外具有參數輔助資訊、該寬帶對準參數和該多個窄帶對準參數。
在該解碼器側,一信號解碼器對該編碼的中間信號和該編碼的側面信號進行解碼,以獲得解碼的中間和側面信號。然後,這些信號由一信號處理器處理,用於計算一解碼的第一聲道和一解碼的第二聲道。然後,使用包含在一編碼的多聲道信號中的該寬帶對準參數的該資訊和該多個窄帶參數的該資訊來對這些解碼的聲道進行去對準,以獲得該解碼的多聲道信號。
在一特定實現中,該寬帶對準參數是一聲道間時間差參數,並且該多個窄帶對準參數是聲道間相位差。
本揭露係基於以下該發現,即特別是對於存在多於一個揚聲器的語音信號,但是亦可針對有多個音頻來源的其他音頻信號,兩個均映射到該多聲道信號的兩個聲道的該音頻來源的該不同位置可以使用一寬帶對準參數(例如,聲道間時差參數)來考慮。除了該寬帶對準參數之外,其已經發現,從子頻帶到子頻帶不同的若干窄帶對準參數另外導致兩個聲道中的該信號的一更佳對準。
因此,對應於每個子頻帶中的該相同時間延遲的一寬帶對準以及對應於不同子頻帶的不同相位旋轉的一相位對準導致兩個聲道的一最佳對準,在這兩個聲道之前然後被轉換為中/側表示,其然後被進一步編碼。由於已經獲得了一最佳對準之事實,一方面該中間信號中的該能量盡可能高,另一方面該側面信號中的該能量盡可能小,因此,具有最低可能位元率或針對特定位元率的最高可能音頻品質的一最佳編碼結果可以被獲得。
特別是對於轉換語音材料,其似乎通常揚聲器在兩個不同的地方處於活動狀態。另外,情況是這樣的,通常只有一個揚聲器從該第一個位置發音,然後該第二個揚聲器從該第二個處所或位置發音。對諸如在一第一或左聲道和一第二或右聲道的兩個聲道的該不同位置之該影響由不同的到達時間反映,因此,由於該不同的位置,兩個聲道之間存在一定的時間延遲,並且該時間延遲係在不斷變化。通常,這種影響在兩個聲道信號中反映為一寬帶去對準,其可以經由該寬帶對準參數定址。
另一方面,特別是來自混響或其他雜訊來源的其他效應可以經由各個頻段的單個相位對齊參數來考量,它們在兩個頻道的寬帶不同到達時間或寬帶去對齊上疊加。
由前所述,使用一寬帶對準參數及在該寬帶對準參數之上的多個窄帶對準參數兩者,導致在編碼器側的一最佳聲道對準,以獲得一良好且非常緊湊的中間/側面表示,而另一方面,在該解碼器側的一解碼之後的一相應的去對準,導致針對一特定位元率的良好音頻品質或針對一特定所需音頻品質的一小位元率。
本揭露的一個優點是它提供了一種新的立體聲編碼方案,它比現有的立體聲編碼方案更適合於立體聲語音的轉換。根據本揭露,參數立體聲技術和聯合立體聲編碼技術被組合,特別是經由利用發生在一多聲道信號的聲道中的該聲道間時間差,而特別是在語音音源的情況下以及在其他音頻音源的情況下。
多個實施例提供了如後面討論的有用優點。
該新方法是混合來自一傳統中間/側面立體聲和參數立體聲元素的一混合方法。在一傳統的中間/側面中,該聲道被動地下混以產生一中間和一側面信號。在加成和區分該聲道之前使用Karhunen-Loeve變換(KLT),也稱為主成分分析(PCA),旋轉該聲道,可以進一步擴展該程序。該中間信號以一主代碼編碼進行編碼,而該側面信號被傳送到一第二編碼器。演進的中間/側面立體聲可以進一步使用編碼在當前幀或前一幀中的該中間聲道對該側面信號的預測。旋轉和預測的該主要目標是最大化該中間信號的該能量,同時最小化該側面信號的該能量。中間/側面立體聲是波形保持,並且在這方面對於任何立體聲場景都非常穩健,但是在位元消耗方面可能非常昂貴。
為了在低位元率下的最高效率,參數立體聲計算和編碼參數,如聲道間位準差(ILD)、聲道間相位差(IPD)、聲道間時差(ITD)和聲道間同調性(ICs)。它們緊湊地代表該立體聲圖像並且是該聽覺場景的提示(來源定位、平移、立體聲的寬度......)。該目的然後參數化該立體聲場景並僅編碼一下混合信號,其可以在該解碼器處,並且在該發送的立體聲提示的幫助下再次進行空間化。
我們的方法混合了該兩個概念。首先,立體聲提示ITD和IPD被計算並將其應用於兩個聲道。該目標是表示在寬帶的該時間差和在不同頻段的該相位。然後兩個聲道在時間和相位上被對準,然後中間/側面編碼被執行。ITD和IPD被發現對於立體聲語音建模是有用的,並且是在中間/側面中基於KLT的旋轉的一良好替代。與純參數編碼不同,該環境不是由該聲道間相關性(ICs)建模,而是直接由該側面信號建模,其係被編碼和/或被預測的。其發現這種方法更加穩健,尤其是在處理語音信號時。
ITD的計算和處理是本揭露的一關鍵部分。ITD已經在現有技術的雙耳線索編碼(Binaural Cue Coding、BCC)中被使用,但是在ITD隨時間變化時它是低效的。為了避免這個缺點,特定窗口被設計以用於平滑兩個不同ITD之間的過渡,並且能夠從一個揚聲器無縫地切換到位於不同位置的另一個揚聲器。
進一步的實施例涉及以下程序,即在編碼器側,使用與該先前決定的寬帶對準參數已經對準的聲道,來執行用於決定多個窄帶對準參數的參數決定。
相應地,在使用該典型的單個寬帶對準參數執行該寬帶去對準之前,在該解碼器側執行該窄帶去對準。
在進一步的實施例中,較佳地,在該編碼器側但更重要的是在該解碼器側,在所有對齊之後執行某種窗口和重疊添加操作或從一個區塊到下一個區塊的任何類型的交叉漸變,並且具體地,在使用該寬帶對準參數的一時間對準之後。當時間或寬帶對齊參數從一個區塊到一個區塊改變時,這可以避免任何可聽到的偽像,例如點擊。
在其他實施例中,不同的頻譜分辨率被應用。特別是,對該聲道信號進行具有一高頻分辨率的一時間-頻譜轉換,例如DFT頻譜,同時為具有較低頻譜分辨率的參數頻帶決定諸如窄帶對準參數的該參數。通常,一參數頻帶具有比該信號頻譜多於一個的頻譜線,並且通常具有來自DFT頻譜的一組頻譜線。此外,該參數頻帶從低頻增加到高頻以便解釋心理聲學問題。
進一步的實施例涉及諸如一位準間差異的一位準參數的一額外使用或用於處理諸如立體聲填充參數的側面信號的其他程序等。該編碼的側面信號可以該由該實際的側面信號本身、或者經由使用當前幀或任何其他幀的中間信號執行一預測殘差信號、或僅經由只有在頻帶的一個子集合的一側面信號或一側面預測殘差信號以及僅針對剩餘頻帶的預測參數、或者甚至經由所有頻帶的預測參數而沒有任何高頻分辨率之側面信號資訊所表示。因此,在上面的該最後一個替代方案中,該編碼的側面信號僅由每個參數頻帶的一預測參數或僅參數頻帶的一子集合表示,使得對於該剩餘的參數頻帶,不存在關於原始側面信號的任何資訊。
此外,其較佳具有多個窄帶對準參數,不是針對反映寬帶信號的整個帶寬的所有參數頻帶,而是僅針對較低頻帶的一集合,例如該參數頻帶的該較低50%。另一方面,立體聲填充參數不用於該對較低頻帶,因為對於這些頻帶,該側面信號本身或一預測殘留信號被發送,至少對於較低頻帶以確保一波形校正表示係為可用。另一方面,針對較高頻帶,該側面信號不以一波形精確表示發送,以便進一步降低位元率,但是該側面信號通常由立體聲填充參數表示。
此外,基於該相同的DFT頻譜在該同一頻域內,較佳地執行整個參數分析和對準。至此,進一步較佳的使用具有相位變換(GCC-PHAT)技術的該廣義交互相關,以用於聲道間時間差決定的目的。在該程序的一較佳實施例中,基於一頻譜形狀的一資訊以平滑一相關頻譜,該資訊較佳是一頻譜平坦度測量,其以這樣的方式被執行,即在類雜訊信號的情況下一平滑將是弱的,在類似音調的信號的情況下,一平滑將變得更強。
此外,較佳地執行一特殊的相位旋轉,其中該聲道幅度被考量。特別地,該相位旋轉係被分佈在該兩個聲道之間,以針對在該編碼器側之對準的目的,並且當然,為了在該解碼器側之去對準的目的,其中具有一較高幅度的一聲道被考量為一前導聲道,並且受相位旋轉的影響較小,即,將比具有一較低幅度的一聲道旋轉得更少。
此外,該和差計算係使用具有從兩個聲道的能量導出的一縮放因子的一能量縮放而被執行,並且另外,其被限制在一定範圍內,以便確保該中間/側面計算不會過多地影響該能量。然而,另一方面,需要注意的是,為了本揭露的該目的,這種的節能形式不像在現有技術的程序那樣重要,因為時間和相位是預先對齊的。因此,從左和右計算一中間信號和一側面信號(在編碼器側)或從中間和側面計算一左及一右信號(在解碼器側)所引致的該能量波動不像在習知技術中那樣重要。
本揭露主題的各種目的、特徵、面向和優點將從以下對較佳實施例的詳細描述以及附圖中變得更加明顯。所示實施例在附圖中以示例,而非限制的方式示出,其中相同的參考標號表示相似的元件。
本揭露的較佳實施例係隨後參照附圖描述。
圖10a係顯示用於估計諸如左聲道的第一聲道信號和諸如右聲道的第二聲道信號之間的聲道間時間差(inter-channel time difference)的一裝置的實施例。 這些聲道被輸入到一時間-頻譜轉換器150中,該時間-頻譜轉換器150在圖4e以標號451另外顯示。
此外,該左聲道和右聲道信號的時域表示被輸入到一計算器1020,用於根據在一時間區塊中的第一聲道信號和在該時間區塊中的第二聲道信號,計算出該時間區塊的互相關頻譜(cross-correlation spectrum)。此外,該裝置包括一頻譜特徵估計器1010,用於估計該時間區塊的第一聲道信號或第二聲道信號的頻譜特徵。 該裝置更包括一平滑濾波器(smoothing filter) 1030,用於使用該頻譜特徵於時間上平滑化該互相關頻譜,以獲得一平滑互相關頻譜(smoothed cross-correlation spectrum)。 該裝置更包括一處理器1040,用於處理該平滑相關頻譜,以獲得該聲道間時間差。
另外,在另一個實施例中,元件1030不存在,因此元件1010也不是必需的,如虛線1035所示。該裝置更包括一信號分析器1037,用於計算一信號特徵估計值,例如雜訊估計值1038。 該估計值被轉發到一加權器1036,該加權器1036被配置根據該信號特徵估計值,以執行不同的加權操作。 該信號特徵估計值較佳地還被用於控制該處理器1040,例如當該處理器1040執行該峰值揀選操作時。 圖10c更顯示該信號分析器1037和可控制的加權器1036。
特別地,根據本發明實施例的裝置係涉及第一聲道信號和第二聲道信號之間的聲道間時間差的估計。該裝置包括圖10a的信號分析器1037、圖10a的互相關頻譜計算器1020,圖10a的用於加權一平滑或非平滑互相關頻譜的加權器1036,和一隨後連接的處理器1040,用於處理該加權互相關譜。
時間-頻譜轉換器150、頻譜特徵估計器1010、平滑濾波器1030等元件對本發明的基本實現不是必需的,但對於本發明的較佳實施例而言是最好存在的。 信號分析器1037被配置用於估計一信號特徵,例如第一聲道信號或第二聲道信號,或是該兩者信號,或從該第一聲道信號或第二聲道信號所導出的一信號的雜訊位準1038。因此,一信號特徵或信號特徵估計值,例如是稍後將被加權器1036所使用的,及較佳地也被處理器1040所使用的雜訊估計,可以僅從該左或第一聲道信號、或僅從該第二或右聲道信號導出,或者可以從該兩個信號導出。從該兩個信號中導出的信號特徵可以是,例如該第一聲道信號的單一信號特徵的推導、來自第二或右聲道信號的一額外個別信號特徵的推導,而該最終信號特徵1038是,例如在兩個聲道之間的一平均值或加權平均值。這裡,例如可以根據該幅度進行該加權,使得例如該聲道的幀中的不同幅度導致該相應的個別雜訊估計至該最終雜訊位準1038的不同影響。此外,從該第一聲道信號和該第二聲道信號導出的該信號可以是例如一組合信號,其經由將該左或第一聲道信號和該第二或右聲道信號相加在一起以獲得一組合信號,並且然後,該信號特徵1038根據該組合信號被計算。
在一較佳實施例中,該信號分析器1036被實現為一雜訊估計器或分析器。然而,也可以執行其他信號分析方式,例如一音調分析、一語音活動檢測、一瞬態分析、一立體聲分析、一語音/音樂分析、一干擾說話者分析、一背景音樂分析、一乾淨的語音分析或任何其他信號分析,以決定一信號是否具有一第一特徵或一第二特徵,以便選擇該匹配加權程序。
該組合可以是具有相等加權因子的一組合,即,沒有任何加權的該左聲道和沒有任何加權的該右聲道的一組合,其可以對應於1.0的加權因子,或者可以應用不同的加權因子。此外,從該第一聲道導出的該信號或從該第二聲道導出的該信號可以經由執行一高通濾波或一低通濾波而被獲得,或者可以經由執行使用一振幅壓縮或一幅度逆壓縮函數的處理而被導出。一振幅壓縮可以是一對數函數或一冪次值小於1的一函數。一逆壓縮函數可以是一指數函數或一冪指數大於1的一冪次函數。因此,取決於某些特定實現,可以將不同的處理操作應用於不同的左和右聲道信號,並且兩個聲道可以被組合或不被組合。在該較佳實施例中,甚至在沒有任何特定加權的情況下較佳地將該左和右聲道相加在一起,然後根據該組合計算的結果,以計算該信號特徵估計。
用於從一時間區塊中的該第一聲道信號和該時間區塊中的該第二聲道信號以計算該時間區塊的該互相關頻譜的該計算器1020可以以多種方式被實現。一種方式是從該時域幀中的該時域信號計算一互相關,然後將該結果從該時域轉換到該頻譜域。另一種實現方式是,例如,經由使用一DFT或任何其他時間-頻譜轉換,該第一聲道信號的後續幀和該第二聲道信號的後續幀被轉換為一頻譜表示,其中該後續幀可以重疊或不重疊。因此,對於該第一聲道信號的每個時間區塊,一頻譜表示被獲得,並且相應地,對於該第二聲道信號的每個時間區塊,一頻譜表示被獲得。經由將一特定頻率區間k與一特定時間區塊或時間樣本索引s的一頻譜值乘以從該第二聲道的該同一時間區塊的該頻譜表示具有該相同索引k和相同索引s的該頻譜值的該共軛複數值,以執行互相關計算。與上述不同的其他互相關計算程序也可以被使用,以便計算一時間區塊的該互相關頻譜。
該加權器1036被配置用於加權由該計算器獲得的該互相關頻譜。在一種實現中,該互相關頻譜是一個非平滑的互相關頻譜,但是在其他實施例中,該互相關頻譜係為平滑的,其中該平滑是相對於時間上的一平滑。因此,為了計算該平滑的互相關頻譜之目的,該最後一個區塊的該互相關頻譜可以與該當前區塊的一(原始)互相關頻譜一起使用,並且,根據該實現方式,可以使用例如由圖10a的該頻譜特徵估計器1010提供的一平滑控制資訊。然而,也可以使用一預定的,即恆定的或非時變的平滑設定來執行該平滑。根據本發明的實施例,係使用一第一加權程序1036a或使用一第二加權程序1036b,以計算該加權互相關頻譜,例如如圖10d所示。特別地,是否使用該第一或第二程序導出該加權互相關頻譜的該選擇係根據該信號分析器1037估計的該信號特徵。因此,根據本揭露,具有一第一加權特徵的一加權係用於該第一聲道或該第二聲道或該組合信號的一特定信號特徵,而當一第二個加權程序被應用係取決於由該信號分析器1037決定的另一信號特徵。該加權器1036的該結果是一加權和平滑或非平滑的互相關頻譜,然後被該處理器1040進一步處理以獲得該第一聲道信號和該第二聲道信號之間的該聲道間時間差。
圖10d係顯示根據本揭露一實施例中作為一雜訊估計器的該信號分析器和與該處理器1040相連接的該加權器的一實現方式。特別地,該雜訊估計器1037包括一雜訊估計計算器1037a和一雜訊估計分類器1037b。該雜訊估計分類器1037b輸出對應於由圖10a中的區塊1037生成的該雜訊估計輸出1038的一控制信號1050。該控制信號可以被施加到一第一開關1036c或一第二開關1036d。在該實現中,處理內核1036a實現該第一加權程序的和另一計算內核用於實現該第二加權程序1036b被提供了。根據該實施方式,僅開關1036c被提供,並且根據該控制信號1050,僅由該開關1036c所決定的該加權程序被選擇,即,由該計算器1020決定的該互相關頻譜被輸入到該開關1036c中,並且根據該開關設置,被轉發到該內核1036a或內核1036b。在另一實現中,開關1036c不存在,由區塊1020決定的該互相關頻譜被饋送到處理內核1036a和1036b中,並且取決於該輸出開關1036d的該控制,區塊1036a的該輸出或區塊1036b的該輸出被選擇,並將其轉發到該處理器1040。因此,取決於該實現,僅一單個加權互相關頻譜被計算,其中經由該控制信號1050和輸入開關來選擇哪一個被計算。或者,兩個加權互相關頻譜均被計算,並且僅將由該輸出開關1036d所選擇的互相關頻譜轉發到該處理器1040。此外,在沒有任何輸入/輸出開關的情況下,只有一單個處理內核,並且根據該控制信號,為相應的時間區塊設置該正確加權程序。因此,對於每個時間區塊,一雜訊估計或控制信號1050可以被計算,並且對於每個時間區塊,可以將該加權從一個加權程序切換到另一個加權程序。在這種環境下,要注意的是,根據具體情況,還可以根據三個或更多個不同的雜訊估計來實現三個或更多個不同的加權程序。因此,本揭露不僅引起兩個不同加權程序之間的選擇,而且還包括根據從該第一和第二聲道信號的該雜訊特徵所導出的一控制信號,以在三個或更多個加權程序之間的選擇。
在一較佳實施方式中,該第一加權程序包括一加權,使得一幅度被正規化並一相位被保持,該第二加權程序包括從該平滑的或非平滑的互相關頻譜導出的一加權因子,使用冪次小於1或大於0的一冪次操作。此外,該第一加權程序可以與該第二加權程序最相同,除了該第二加權程序使用0和1之間的冪次,即,一冪次大於0且小於1,而該第一加權程序不施加任何冪次,或換句話說,施加1的一個冪次。因此,該第二加權程序執行的該正規化係被壓縮,即,由該第一加權程序施加的該正規化因子具有一些值,並且經由該第二加權程序應用於該相同頻譜互相關值的該正規化因子具有一較小的幅度。這適用於該互相關頻譜的更高頻譜值。然而,對於該互相關頻譜之小的值,相對於該互相關頻譜的相同譜值,該第二加權程序的該正規化值大於該第一加權程序的該正規化值。這是因為冪次低於1的冪次操作,例如具有1/2的冪次的平方根操作,其增加了小的值但是降低了高的值。因此,該第二加權程序的附加加權因子計算還可以包括任何壓縮函數,例如一對數函數。在一較佳實施例中,該第一加權程序係基於應用於該相位變換(PHAT)的該加權來操作,並且該第二加權程序係基於應用於修改的交互功率頻譜相位程序(Modified Cross-power Spectrum Phase procedure、MCSP)的該計算來操作。
此外,該第二加權程序較佳地被實現為包括依一正規化,以便該第二正規化程序的一輸出範圍在一範圍內,其中該第一正規化程序的一輸出範圍被定位,或者,使得該第二正規化程序的該輸出範圍與該第一正規化程序的一輸出範圍相同。例如,這可以經由計算該MCSP加權之互相關頻譜的所有頻譜值的該絕對值來實現,經由將對應於一個時間區塊的一個頻譜表示的所有幅度相加在一起,然後將該結果除以一時間區塊中的頻譜值的該數目。
通常,圖10a的該處理器1040被配置為關於該加權互相關頻譜執行一些處理步驟,其中,特別地,執行某個峰值揀選操作,以便最終獲得該聲道間時間差。較佳地,該峰值揀選操作發生在該時域中,即,該加權和平滑或非平滑的互相關頻譜從該頻譜表示轉換至一時域表示,然後,該時域表示被分析,並且特別地,基於一閾值挑選一個或多個峰值。根據該雜訊估計的該設置,一第一峰值揀選操作或一第二峰值揀選操作被執行,其中較佳地,關於該峰值揀選操作使用的該閾值,兩個峰值揀選操作所使用的閾值彼此不同。
圖10e係顯示相較於輸入開關1040和輸出開關1043而與圖10d中的該程序類似的一情況。在圖10e所示的一實施方式中,兩個峰值揀選操作可以被應用,並且“正確”峰值揀選操作的結果可以經由該輸出開關1043而被選擇。或者,該輸入開關在那裡,並且根據該控制信號1050,僅正確的峰值揀選程序被選擇,即1041或1042。因此,在一實現中,將不存在兩個開關,但是在一實現中,將存在該輸入開關1040或該輸出開關1043,類似於之前相對於圖10d所導出的內容。在一另外的實現中,僅一單個處理內核存在,以應用具有一可變閾值的該峰值揀選操作,並且該控制信號1050被使用,以便在該單個處理內核中設置正確的該閾值。在一較佳實施例中,該閾值設置以該第二閾值高於該第一閾值的一方式被執行,因此,當在區塊1036b中的該第二加權程序被應用時,該第二閾值被使用,當在區塊1036a中的該第一加權程序被應用時,該第一閾值被使用。因此,當檢測到一高位準的背景雜訊時,則一冪次在0和1之間的該第二加權程序或一對數操作被應用,即壓縮程序被應用,然後,與檢測到一低位準背景雜訊時所使用的一峰值揀選閾值相比,該峰值揀選的該閾值應該更低,即,當該第一加權程序被應用時,該第一加權程序利用一正規化因子來執行一正規化,該正規化因子不依賴於諸如一對數函數或一冪次小於1的一冪次函數的一壓縮函數。
隨後,在圖10f中係顯示作為該雜訊估計器1037的該信號分析器的一較佳實施方式。基本上,該雜訊估計器1037包括一雜訊估計計算器1037a和一雜訊估計分類器1037b,其如圖10d所示並且也在圖10f中顯示。該雜訊估計計算器1037a包括一背景雜訊估計器1060和隨後連接的一(時間)平滑器1061,例如其可以實現為一IIR濾波器。
到該雜訊估計計算器1037a或特別是該背景雜訊估計器1060的該輸入係該左或第一聲道信號的一幀、該第二或右聲道信號的一幀、或從這樣的聲道信號所導出的一信號、或經由相加所獲得的一組合信號,例如該第一聲道信號的一時域表示和在同一時間區塊中的該第二聲道信號的一時域表示。
相對於該雜訊估計分類器1037b,該輸入信號被傳送到一信號活動檢測器1070,其控制一選擇器1071。基於該信號活動檢測器1070的該結果,該選擇器1071僅選擇該活動幀。此外,一信號位準計算器1072連接在該選擇器1071之後。該計算出的信號位準然後將被轉發到一(時間)平滑器1073,該平滑器1073例如被實現為IIR濾波器。然後,在區塊1074中,進行一信號雜訊比計算,並且在一比較器1075內將結果與一較佳預定閾值進行比較,例如,該較佳預定閾值在45dB和25dB之間,並且較佳地甚至在30和40dB之間的範圍內,最佳地,在35dB。
該比較器1075的該輸出係指示一高雜訊位準或一低雜訊位準的該檢測結果,或指示經由一單個加權程序處理器以一某種方式執行一閾值設定的該檢測結果,或者,當存在如圖10d所示的兩個加權程序處理器時,來自該比較器1075的判定結果,即信號1050控制該輸入開關1036c或該輸出開關1036d,以便將該正確加權的互相關頻譜轉發到該處理器1040。
該檢測結果1050較佳地針對每個時間區塊或幀而被計算。因此,例如當對於一特定幀時,該信號活動檢測器1070指示這是一個非活動幀,則對於該幀既不執行一信號位準計算也不執行一時間平滑,因為該選擇器1071僅選擇一活動幀。因此,對於一非活動幀,在一實施例中不執行一個SNR比計算,並且因此,在該實施例中,對於該非活動幀,根本不提供一檢測結果。因此,在一實現中,相對於最後一個活動幀被使用,相同的加權程序之前已經被決定,或者,對於一非活動幀,該第一加權程序或該第二加權程序或甚至一第三加權程序係用作後備解決方案。另外,對於一非活動幀,該SNR比計算器1074可以被實現為使用該最後或最近出現的活動幀的該時間平滑信號位準。因此,即使對於非活動幀也可以獲得檢測結果,或者對於非活動幀,一某種(後備)加權程序可以被使用,或者對於非活動幀,視實際情況而定,繼續使用與在非活動幀之前的最後一個活動幀所決定的相同之加權程序。
在一先前的專利申請[1]中,一聲道間時差(ITD)估計器被介紹。該估計器係基於具有相位變換的廣義互相關(Generalized Cross-Correlation with PHAse Transform、GCC-PHAT),這是該TDOA文獻中廣泛使用的一種技術(初始論文是[2],另一個很好的參考文獻是[3])。兩個聲道之間的時間差是經由峰值揀選該GCC的輸出而找到的。經由使用一大的分析窗口長度或經由於時間上平滑互相關頻譜隨,更好的強健性可以被獲得。先前專利[1]的主要貢獻是使該平滑具有自適應,其具有取決於一頻譜平坦度測量的一平滑因子。
[1]的ITD估計的該等步驟可以描述如下: 1.離散傅立葉變換:使用一DFT對左聲道
Figure 02_image001
的信號和右聲道
Figure 02_image003
的信號進行成幀、加窗和變換到該頻域
Figure 02_image005
Figure 02_image007
Figure 02_image009
是該時間樣本索引,
Figure 02_image011
是該幀索引,
Figure 02_image013
是該頻率索引,
Figure 02_image015
是該幀長度,
Figure 02_image017
是該DFT長度,
Figure 02_image019
是該分析窗口。 2.互相關頻譜:在頻域中計算兩個聲道之間的該相關性
Figure 02_image021
3.平滑:使用一平滑因子於時間上平滑該互相關頻譜,其根據一頻譜平坦度測量。當該頻譜平坦度較低時,使用更強的平滑,以使ITD估計器在靜止的音調信號上更加穩健。當該頻譜平坦度高時,使用較弱的平滑,以使ITD估計器在瞬態信號上更快地適應,即當信號快速變化時。 使用下列式子,以執行該平滑
Figure 02_image023
with具有
Figure 02_image025
and以及
Figure 02_image027
4.加權:該平滑互相關頻譜經由其幅度的該倒數加權。這種加權使幅度正規化並僅保持相位,這就是它被稱為相位變換(PHAT)的原因。
Figure 02_image029
5. 逆變換:經由將該互相關頻譜
Figure 02_image031
變換回該時域來獲得該最終的GCC。
Figure 02_image033
6.峰值揀選:該最簡單的方法是搜索步驟5中,以找到該GCC的絕對值之該全局最大值。如果該最大值具有高於某個閾值的一值,則將ITD估計為對應於該最大值的該滯後n(lag n)。更高級的方法係使用額外的基於遲滯和/或基於延遲釋放的機制來獲得一隨時間更平滑的ITD估計。
該GGC-PHAT在低雜訊、混響環境中表現非常出色(參見例如[3])。然而,當該背景雜訊的位準高或存在其他信號分量(例如音樂、瞬變、複雜的立體聲場景、被分類為無效的幀、干擾的說話者)時,該GCC-PHAT性能顯著下降。然後該GCC輸出係有雜訊並且不包含一單個強峰。因此,一峰值揀選往往無法找到該正確的ITD。這是因為無論信號雜訊比如何,該相位變換均一致地處理所有頻率。然後該GCC被信號雜訊比低的區間的該相位污染。
為了避免這個問題,在文獻中提出了許多其他GCC權重。其中一個被發現對我們有問題的測試信號非常有效。它首先在[4]中提出,當時被稱為“修正的交互功率譜相位”(Modified Cross-power Spectrum Phase、MCSP)。其在高雜訊環境中的良好性能後來在其他幾篇論文中得到證實(參見例如[5])。該加權(習知技術的步驟4.)修改如下:
Figure 02_image035
ρ參數介於0和1之間。ρ=0對應於該正常交互相關的情況,並且ρ=1對應於該GCC-PHAT的情況。低於但接近1的一值通常被使用,這允許經由將更多的重點放在具有高相關性的區間來修改GCC-PHAT,而當具有低相關性的區間對應於該雜訊,那些通常對應於該信號。更確切地說,我們發現值ρ=0.8給出了最佳性能(在[4]中為0.75,在[5]中為0.78)。
不幸的是,只有當高位準的背景雜訊存在時,這種新的加權才能比GCC-PHAT更好。該新加權可能比GCC-PHAT表現更好的替代場景是非活動幀(即語音活動檢測檢測到沒有活動,這可能表示一低語音位準)、瞬態的存在、複雜的立體聲場景、音樂、干擾的講話者、背景音樂的存在、不干淨的演講。在乾淨的環境中,例如沒有或只有一低位準的背景噪音或音樂或偏離乾淨語音的其他信號成分,GCC-PHAT仍然表現更好。為了總是獲得該最佳結果,必須根據該信號內容在兩種方法之間切換。
為了檢測該信號中高位準背景雜訊的該存在,一雜訊估計器和一信號活動檢測器(SAD)被使用。可以在該SAD檢測到一信號的該幀上估計該信號
Figure 02_image037
的該位準,而該雜訊
Figure 02_image039
的位準由該雜訊估計器估計。然後,經由將該信號雜訊比
Figure 02_image041
(以dB為單位)與一閾值進行比較,高位準背景雜訊的該存在可被以簡單地檢測到,例如,如果
Figure 02_image043
則檢測到高雜訊位準。
一旦知道該信號是否包含一高位準的背景雜訊,就可做出選擇PHAT加權或MCSP加權來計算GCC的一決定(習知技術中的步驟4)。該峰值揀選(習知技術中的步驟6)也可以根據是否檢測到高背景雜訊位準而被修改,例如經由降低該閾值。
隨後,以逐步的方式描述一較佳實施例。 0.高背景雜訊位準檢測: a.一雜訊估計器(例如來自[6])用於估計背景雜訊
Figure 02_image039
的位準。一IIR平滑濾波器用於在時間上平滑該雜訊位準。 b. 一信號活動檢測器(例如來自[6])用於將一幀分類為活動或非活動。然後活動幀被使用來計算該信號位準
Figure 02_image037
,簡單地經由計算該信號能量並使用一個IIR平滑濾波器在時間上平滑它。 c. 如果該信號雜訊比
Figure 02_image041
(以dB為單位)低於一閾值(例如35dB),則檢測到高背景雜訊位準。 1.離散傅里葉變換:與任何習知技術相同 2.互相關譜:與任何習知技術相同 3.平滑:與任何習知技術相同或如本文所述基於該頻譜特徵 4.加權: 如果檢測到低位準的背景雜訊,則使用與習知技術相同的該加權(GCC-PHAT)。 如果檢測到高位準的背景雜訊,則使用該MCSP加權
Figure 02_image045
其中0>ρ>1(例如ρ=0.8)。為了使GCC-MCSP輸出保持與GCC-PHAT輸出在相同的範圍,執行額外的正規化步驟
Figure 02_image047
5.逆變換:與任何習知技術相同 6.峰值揀選:在檢測到高位準的背景雜訊並使用MCSP加權的情況下,可以調整峰值揀選。特別地,已經發現一較低的閾值是有益的。
此外,圖10a係顯示與圖10c的該實現不相同的一實現。在圖10c的該加權器1036中,該加權器執行該第一或該第二加權程序。然而,在如圖10a所示的該加權器1036中,該加權器僅相對圖10d或10c中的該符號執行該第二加權程序。當使用如區塊1030所示的一平滑濾波器時,該實現是有用的,該平滑濾波器已經在該平滑之後執行該第一加權程序,或者例如與該平滑一起,在一單個數學或硬件操作。因此,在執行該第一加權程序的情況下,該程序是在該平滑濾波器中沒有任何壓縮的正規化操作,然後,一方面該平滑濾波器1030和一方面的該實際加權器1036兩者都對應於該實際加權器,用於加權該平滑或非平滑或非平滑的互相關譜。因此,在圖10a的該實施方式中,該雜訊估計1038僅被提供給一單獨的加權器1036,並且根據該加權程序已經加權的該平滑濾波器1030的該輸出與圖10a中的該實際加權器136的該輸出之間的選擇由一某個處理器設置1040完成,當該加權器1036不提供任何輸出信號時,其自動使用來自該平滑濾波器1030的該輸出,但是當該加權器1036提供並輸出時,自動優先考慮加權器1036的該輸出優先於該平滑濾波器1030的該輸出。然後,該雜訊估計1038或者如在其他圖示中所討論的那樣,該控制信號1050然後用於激活或停用該加權器1036。因此,使用一個一階加權程序,對用於加權該平滑或非平滑的互相關頻譜的該實際加權器可以以許多不同的方式實現,例如在圖10a中的該特定激活/去激活模式或圖10d中的具有輸入或輸出開關的雙內核模式,或者根據一單個加權程序內核,其根據控制信號選擇一個或另一個加權程序,或者使用一般加權處理器適應地執行該第一或該第二加權程序。
之後,一較佳實施例被描述,其中在加權之前執行一平滑。 在這種環境下,該頻譜特徵估計器的該功能也在圖4e中反映,在一較佳實施例中為項目453、454。
此外,該互相關譜計算器1020的該功能也由後面在一較佳實施例中描述的圖4e中的項目452所反映。
相應地,該平滑濾波器1030的該功能也在後面將要描述的圖4e的該上下文中由項目453反映。另外,該處理器1040的該功能也在圖4e的上下文中於一較佳實施例中被描述為項目456至459。
該處理器1040的較佳實施例也在圖10c中被描述。
較佳地,該頻譜特徵估計計算該頻譜的一雜訊或一音調,其中一較佳實施方式是在音調或非雜訊信號的情況下計算一頻譜平坦度測量值接近0,並且在嘈雜或類似噪音的信號之情況下接近1。
特別地,該平滑濾波器然後被配置為在第一較小雜訊特徵或第一較多音調特徵的情況下,藉由第一平滑度隨著時間的推移施加較強的平滑,或者在第二較多雜訊特徵或第二較少音調特徵的情況下,藉由第二平滑度隨著時間的推移施加較弱的平滑。
特別地,該第一平滑度大於該第二平滑度,其中該第一雜訊特徵比該第二雜訊特徵係雜訊較小,或者該第一音調特徵比該第二音調特徵係更具音調。該較佳的實施方式是該頻譜平坦度測量。
此外,如圖11a所示,該處理器較佳地被實現為對該平滑化互相關頻譜進行正規化,如圖4e和11a中的456所示,其係在步驟1031中執行時域表示的該計算之前,步驟1031對應於圖4e的實施例中之步驟457及458。然而,如圖11a中所示,該處理器也可以在沒有圖4e的步驟456中的該正規化的情況下操作。然後,該處理器被配置以分析該時域表示,如圖11a的區塊1032所示,以便找到該聲道間時間差。該分析可以以任何已知的方式執行,並且以一改進的強健性而已經產生結果,因為該分析係基於依據該頻譜特徵而被平滑的互相關頻譜而被執行。
如圖11b所示,該時域分析1032的一較佳實施方式是該時域表示的一低通濾波,如圖11b中的458所示,對應於圖4e的項目458,並且一隨後的進一步處理1033係在該低通濾波時域表示內使用一峰值搜索/峰值揀選操作。
如圖11c所示,該峰值揀選或峰值搜索操作的該較佳實施方式是使用一可變閾值來執行該操作。特別地,該處理器被配置為在該時域表示內執行該峰值搜索/峰值揀選操作,該時域表示經由從該時域表示所決定1034一可變閾值並且經由將該時域表示的一峰值或若干峰值(使用或不使用頻譜正規化獲得)與該可變閾值進行比較,從該平滑互相關頻譜而被得到,其中,該聲道間時間差被決定為一時間滯後,其與一峰值相關聯的,該峰值與該閾值具有一預定關係,例如大於該可變閾值。
如圖11d所示,係在稍後描述的與圖4e-b相關的該虛擬碼所示出的一個較佳實施例,其包括根據它們的幅度對值進行排序1034a。然後,如圖11d中的項目1034b所示,例如該等值中的10%或5%之最高值被決定。
然後,如步驟1034c所示,將諸如數字3的一數字乘以該最高10或5%中的該最低值,以便獲得該可變閾值。
如上所述,較佳地,決定最高的10%或5%,但是決定最高50%的值中的最低數目、並使用一更高的乘數(例如10)也是有用的。自然地,即使是較小的量,例如該等值的該最高3%的值可以被決定,該等值的該最高3%的值中的該最低值然後乘以一個數,例如,等於2.5或2,即比3更低。因此,在圖11d所示的實施例中,數字和百分比的不同組合可以被使用。除百分比外,該數字也可以變化,大於1.5的數字係為較佳。
在圖11e所示的一另一實施例中,該時域表示被劃分為子區塊,如區塊1101所示,並且這些子區塊在圖13中於1300處被指示。這裡,大約16個子區塊被用於該有效範圍,使得每個子區塊具有20的時間遲滯跨度(time lag span)。然而,子區塊的數量可以大於該值或更低,並且較佳地大於3且小於50。
在圖11e的步驟1102中,每個子區塊中的該峰值被決定,並且在步驟1103中,所有子區塊中的該平均峰值被決定。然後,在步驟1104中,一乘法值a被決定,其一方面取決於一信號雜訊比,並且在一另一實施例中,取決於該閾值和該最大峰值之間的差異,如方框1104左邊所示。根據這些輸入值,三個不同乘法值中的一個較佳地被決定,其中該乘法值可以等於alow 、ahigh 及alowest
然後,在步驟1105中,將在區塊1104中所決定的該乘法值a乘以該平均閾值,以便獲得該可變閾值,其隨後在區塊1106中的比較操作中使用的。對於該比較操作,輸入到區塊1101的該時域表示可以再次被使用,或者如區塊1102中概述的每個子區塊中該已經決定的峰值可以被使用。
隨後,關於該時域互相關函數內的一峰值的評估和檢測的進一步實施例係將被概述。
由廣義互相關(GCC-PHAT)方法產生的該時域互相關函數內的一峰值之評估和檢測,以估計該聲道間時差(ITD),由於輸入情況不同,其並不總是那麼直截了當。清晰的語音輸入可以產生具有一強峰值的一低偏差互相關函數,而在一嘈雜的混響環境中的語音可以產生具有高偏差的一向量並且具有較低但仍然優異幅度的峰值,以指示ITD的該存在。一種自適應且靈活的峰值檢測演算法以適應不同的輸入場景係被描述。
由於延遲約束,整個系統可以處理聲道時間對準直到一某個限制,即ITD_MAX。該所提出的演算法被設計,以檢測在以下情況下是否存在一有效的ITD:•由於出色的峰值之有效的 ITD 在該互相關函數的[-ITD_MAX,ITD_MAX]範圍內的一突出峰值係存在。•沒有相關性。 當兩個聲道之間沒有相關性時,就沒有突出的峰值。一個閾值應被定義,高於該閾值時,該峰值係足夠強而可被視為一有效的ITD值。否則,不應發信號通知ITD處理,這意味著ITD設置為零並且不執行時間對齊。•超出 ITD 範圍。 在該區域[-ITD_MAX,ITD_MAX]之外的該互相關函數的強峰值應被評估,以便決定是否存在超出該系統處理能力的ITD。在這種情況下,不應該發信號通知ITD處理,並且因此不執行時間對準。
為了決定一峰值的該幅度是否足夠高以被考慮為一時間差值,一合適的閾值需要被定義。對於不同的輸入場景,該互相關函數輸出根據不同的參數而變化,例如,該環境(噪音、混響等)、該麥克風設置(AB、M/S等)。因此,自適應地定義該閾值是必不可少的。
在所提出的演算法中,首先計算[-ITD_MAX,ITD_MAX]區域內的該互相關函數的該幅度的該包絡的一粗略計算的該平均值來定義該閾值(圖13),然後對該平均值進行加權,其因此取決於該SNR估計。
該演算法的逐步描述將於下面描述。
表示該時域互相關的GCC-PHAT的逆DFT的該輸出係重新排列為從負時間遲滯到正時間遲滯(圖12)。
該互相關向量分為三個主要區域:該感興趣區域即[-ITD_MAX,ITD_MAX]和該ITD_MAX界限之外的區域,即時間遲滯小於-ITD_MAX(max_low)且高於ITD_MAX(max_high)。該“越界”區域的該最大峰值係被檢測並保存,以便與在該感興趣區域中檢測到的該最大峰值進行比較。
為了決定一有效ITD是否存在,該互相關函數的該子向量區域[-ITD_MAX,ITD_MAX]被考量。該子向量被分成N個子區塊(圖13)。
對於每個子區塊,該最大峰值幅度peak_sub和該等效時間遲滯位置index_sub被找到並保存。
該局部最大值peak_max的最大值被決定,並將其與該閾值進行比較,以決定是否存在一有效的ITD值。
將該最大值peak_max與max_low和max_high進行比較。如果peak_max低於兩者中的任何一個,則不發信號通知itd處理,並且不執行時間對準。由於該系統的ITD處理限制,該出界峰值的該幅度不需要被評估。
計算該峰值的平均值:
Figure 02_image049
然後經由使用一個SNR依賴的加權因子
Figure 02_image051
Figure 02_image053
進行加權,來計算該閾值
Figure 02_image055
Figure 02_image057
Figure 02_image059
Figure 02_image061
的情況下,該峰值幅度也與一略微更鬆弛的閾值(
Figure 02_image063
)進行比較,以避免拒絕具有高相鄰峰值的一突出峰值。該加權因子可以是例如ahigh = 3、alow = 2.5和alowest =2,而SNRthreshold 可以是例如20dB並且該界限ε=0.05。
ahigh 的較佳範圍是2.5到5;alow 為1.5至4;alowest 為1.0到3;SNRthreshold 為10至30dB;ε為0.01至0.5,其中ahigh 大於alow ,alow 大於alowest
如果peak_max > thres ,則返回該等效時滯作為該估計的ITD,否則不發信號通知itd處理(ITD = 0)。另外的實施例參考圖4e而稍後描述。
圖11f係顯示決定一有效ITD(聲道間時間差)輸出的該較佳實施方式。
該加權和平滑或非平滑互相關頻譜的該時域表示的子區塊被輸入到該處理器1040內的一決定步驟。該決定步驟1120決定從該加權和平滑或非平滑的互相關譜導出的一時域表示內的一有效範圍和一無效範圍。在步驟1121中,一最大峰值在該無效範圍內被決定,並且在步驟1122中,一最大峰值在該有效範圍內被決定。特別地,至少一個最大峰值在該無效範圍內被決定,並且至少一個最大峰值在該有效範圍內被決定。在區塊1123中,該有效範圍和該無效範圍的最大峰值被比較。如果該有效峰值,即該有效範圍中的該最大峰值大於該“無效峰值”,即該無效範圍中的該最大峰值,一ITD決定1124則實際被執行並一有效的ITD輸出被提供。但是,當檢測到一“無效峰值”大於該“有效峰值”或該無效峰值與該有效峰值具有相同大小時,則一有效輸出不被提供,並且較佳地一錯誤消息或任何類似的操作被執行,以引起處理器的注意。
隨後,為了一信號進一步處理器的目的,在圖10b的區塊1050內的本揭露的一較佳實施方式將參考圖1至9e而被討論,即在一立體聲/多聲道處理/編碼和兩個聲道的時間對準的環境下。
然而,如所述和如圖10b所示,存在許多其他領域,其中使用所決定的聲道間時間差對一信號進一步處理也可以被執行。
圖1係顯示用於編碼具有至少兩個聲道的一多聲道信號的一裝置。該多聲道信號10一方面被輸入到一參數決定器100,另一方面被輸入到一信號對準器200。該參數決定器100一方面決定一寬帶對準參數,另一方面決定來自該多聲道信號的多個窄帶對準參數。這些參數經由一參數線12而被輸出。此外,如圖所示,這些參數還經由另一參數線14而被輸出到一輸出接口500。在該參數線14上,諸如該位準參數的附加參數從該參數決定器100被轉發到該輸出接口500。該信號對準器200被配置為使用該寬帶對準參數和經由參數線10接收的該多個窄帶對準參數來對準該多聲道信號10的該至少兩個聲道,以在該信號對準器200的該輸出處獲得對準的聲道20。這些對準的聲道20被轉發到一信號處理器300,該信號處理器300被配置用於從經由線路20接收的該對準的聲道計算一中間信號31和一側面信號32。用於編碼的該裝置還包括一信號編碼器400,用於編碼來自線路31的該中間信號和來自線路32的該側面信號,以獲得線路41上的一編碼中間信號和線路42上的一編碼側面信號。這兩個信號都被轉發到該輸出接口500,用於在輸出線50處產生編碼的多聲道信號。輸出線50處的該編碼信號包括來自線41的該編碼中間信號、來自線42的該編碼側面信號、來自線14的該窄帶對準參數和該寬帶對準參數、以及可選地來自線14的一位準參數、並且另外可選地一立體聲填充參數,其由該信號編碼器400生成並經由參數線43轉發到該輸出接口500。
較佳地,該信號對準器被配置為該在參數決定器100實際計算該窄帶參數之前使用該寬帶對準參數以對準來自該多聲道信號的聲道。因此,在該實施例中,該信號對準器200經由一連接線15將該寬帶對準聲道發送回該參數決定器100。然後,該參數決定器100從已經相對於該寬帶特徵對準的多聲道信號,以決定該多個窄帶對準參數。然而,在其他實施例中,該參數在沒有該特定程序序列的情況下被決定。
圖4a係顯示一較佳實施方式,其中引起連接線15的特定步驟序列係被執行。在該步驟16中,使用兩個聲道決定該寬帶對準參數,並且諸如一聲道間時間差或ITD參數的寬帶對準參數被獲得。然後,在步驟21中,使用該寬帶對準參數經由圖1的該信號對準器200,該兩個聲道被對準。然後,在步驟17中,在該參數決定器100內使用對準的聲道以決定該窄帶參數,以便決定多個窄帶對準參數,例如針對該多聲道信號的不同頻帶的多個聲道間相位差參數。然後,在步驟22中,針對該特定頻帶使用該對應窄帶對準參數,每個參數頻帶中的頻譜值被對準。當針對每個頻帶執行步驟22中的該程序時,其中一窄帶對準參數係為可用的,然後對準的第一和第二或左/右聲道可用於圖1的該信號處理器300所進行的進一步信號處理。
圖4b係顯示圖1的該多聲道編碼器的一另一實現,其中若干程序係在頻域中執行。
特定地,該多聲道編碼器還包括一時間-頻譜轉換器150,用於將一時域多聲道信號轉換為該頻域內的該至少兩個聲道的一頻譜表示。
此外,如在152所示,圖1中的100、200和300所示的該參數決定器、該信號對準器和該信號處理器都在該頻域中操作。
此外,該多聲道編碼器,特定地,該信號處理器還包括一頻譜-時間轉換器154,用於至少生成該中間信號的一時域表示。
較佳地,該頻譜時間轉換器另外將也由區塊152表示的程序所決定的該側面信號的一頻譜表示轉換為一時域表示,然後圖1的該信號編碼器400被配置為進一步編碼該中間信號和/或該側面信號作為時域信號,其取決於圖1的該信號編碼器400的該具體實現。
較佳地,圖4b的該時間-頻譜轉換器150被配置為實現圖4c的步驟155、156和157。特定地,步驟155包括提供一分析窗口,在其一端具有至少一個零填補部分,並且具體而言,在該初始窗口部分處的一零填補部分以及在該終止窗口部分處的一零填補部分,例如如之後的圖7中所示。此外,該分析窗口在該窗口的一前半部分和該窗口的一後半部分處另外具有重疊範圍或重疊部分,並且另外,一中間部分較佳地係視情況而定的一非重疊範圍。
在步驟156中,使用具有重疊範圍的該分析窗口對每個聲道進行窗口化。具體而言,使用該分析窗口對每個聲道進行窗口化,以此種方式獲得該聲道的一第一個區塊。隨後,該相同聲道的一第二區塊被獲得,其與該第一區塊具有一定重疊範圍的,依此類推,使得在例如五次窗口化操作之後,每個聲道的五個加窗樣本區塊為可用的,然後如圖4c中的157所示,單獨地被轉換成一頻譜表示。對於另一個聲道也執行相同的程序,使得在步驟157結束時,可以獲得一系列頻譜值區塊,具體地,諸如DFT頻譜值或複數子頻帶樣本的複數頻譜值係為可用的。
在由圖1的該參數決定器100執行的步驟158中,一寬帶對準參數被決定,並且在由圖1的該信號對準200執行的步驟159中,使用該寬帶對準參數執行一循環移位。再次由圖1的該參數決定器100所執行的步驟160中,針對各個頻帶/子頻帶決定窄帶對準參數,並且在步驟161中,使用針對該特定頻帶所決定的對應窄帶對準參數,針對每個頻帶旋轉對準的頻譜值。
圖4d係顯示由該信號處理器300執行的進一步程序。特定地,該信號處理器300被配置為如步驟301所示去計算一中間信號和一側面信號。在步驟302中,該側面信號的某種進一步處理可以被執行,然後,在步驟303中,將該中間信號和該側面信號的每個區塊轉換回時域,並且在步驟304中,一合成窗口被應用於步驟303所獲得的每個區塊,並且並且,在步驟305中,一方面執行該中間信號的一重疊添加操作,另一方面執行該側面信號的一重疊添加操作,以最終獲得該時域中間/側面信號。
具體地,步驟304和305的該操作導致來自該中間信號的一個區塊或該中間信號及該側面信號的下一個區塊內的該側面信號的一種交叉衰落被執行,這樣即使出現任何參數變化,如該聲道間時差參數或聲道間相位差參數出現,然而,這將在圖4d中的步驟305所獲得的時域中間/側面信號中聽不到。
該新的低延遲立體聲編碼是利用一些空間線索的一聯合中間/側面(M/S)立體聲編碼,其中該中間聲道由一主要單核心編碼器所編碼,而該側面聲道在一第二核心編碼器中編碼。該編碼器和解碼器原理在圖6a和6b中顯示。
該立體聲處理主要在頻域(FD)中執行。一些立體聲處理可以在頻率分析之前於時域(TD)中可選地執行。ITD計算的情況是可以在該頻率分析之前被計算和應用,以便在進行該立體分析和處理之前及時對準該聲道。或者,ITD處理可以直接在頻域中完成。由於像ACELP這樣的常用語音編碼器不包含任何內部的時間頻率分解,該立體聲編碼經由在該核心編碼器之前的一分析和合成濾波器組添加一額外的複雜調變濾波器組以及在核心解碼器之後的分析-合成濾波器組的另一級。在該較佳實施例中,採用具有一低重疊區域的過採樣DFT。然而,在其他實施例中,可以使用具有相似時間分辨率的任何複數值時間-頻率分解。
該立體聲處理包括計算空間線索:聲道間時間差(ITD)、該聲道間相位差(IPD)和聲道間位準差(ILD)。ITD和IPD用於在輸入立體聲信號,以在時間和相位上對準該兩個聲道L和R。ITD係在寬帶或時域中被計算,而IPD和ILD係針對每個或部分參數頻帶被計算,其係對應於該頻率空間的一非均勻分解。一旦兩個聲道對齊,一聯合M/S立體聲就被應用,其中該側面信號然後從該中間信號進一步被預測。該預測增益來自該ILD。
該中間信號由一主要核心編碼器進一步編碼。在該較佳實施例中,該主要核心編碼器是該3GPP EVS標準,或者是從其衍生的一編碼,其可以在一語音編碼模式、ACELP和基於一MDCT變換的一音樂模式之間切換。較佳地,ACELP和該基於MDCT的編碼器分別由一時域帶寬擴展(TD-BWE)和/或智能間隙填充(IGF)模塊所支持。
該側面信號首先由該中間聲道使用從ILD導出的預測增益來被預測。該殘差可以經由該中間信號的一延遲版本而被進一步預測,或者在MDCT域中的該較佳實施例中執行由一個第二核心編碼器直接編碼。在編碼器的該立體聲處理可以經由圖5而被概述,這將在後面解釋。
圖2係顯示用於對在一輸入線50處接收的一編碼多聲道信號進行解碼的一裝置的一實施例的一方塊圖。
特別地,信號由一輸入接口600而被接收。連接到該輸入接口600的是一信號解碼器700和一信號去對準器900。此外,一信號處理器800一方面連接到一信號解碼器700,另一方面連接到該信號去對準器。
特別地,該編碼的多聲道信號包括一編碼的中間信號、一編碼的側面信號,關於該寬帶對準參數的資訊以及多個窄帶參數的資訊。因此,在線50上的該編碼多聲道信號可以是與圖1的該輸出接口500輸出的信號完全相同的信號。
然而,重要的,這裡要注意的是,與圖1中所示的相反,以一特定形式包括在該編碼信號中的該寬帶對準參數和該多個窄帶對準參數可以精確地為由圖1中的該信號對準器200所使用的對準參數,但是,也可以是其反相值,即,可以被該信號對準器200執行的該相同的操作所使用但是具有反向值的參數,以便獲得該去對準。
因此,於該對準參數的該資訊可以是圖1中的該信號對準器200所使用的該對準參數,或者可以是反向值,亦即實際的“去對準參數”。另外,這些參數通常將以某種形式被量化,這將在後面參考圖8而被討論。
圖2的該輸入接口600從該編碼的中間/側面信號中分離關於該寬帶對準參數和多該個窄帶對準參數的該資訊,並且經由參數線610將該資訊轉發到該信號去對準器900。另一方面,該編碼的中間信號經由線601被轉發到該信號解碼器700,並且該編碼的側面信號經由信號線602被轉發到該信號解碼器700。
該信號解碼器被配置用於解碼該編碼的中間信號並用於解碼該編碼的側面信號,以在線701上獲得一解碼的中間信號和在線702上的該解碼的側面信號。該信號處理器800使用這些信號來計算一解碼的第一聲道信號或解碼的左信號,並用於從該解碼的中間信號和解碼的該側面信號來計算一解碼的第二聲道或一解碼的右聲道信號,該解碼的第一聲道及該解碼的第二聲道分別在線801、802上輸出。該信號去對準器900被配置使用關該於寬帶對準參數的該資訊在線801上的該解碼的第一聲道和該解碼的右聲道802上用於去對準,並且另外使用關於該多個窄帶對準參數的該資訊以獲得一解碼的多聲道信號,即在線901和902上具有至少兩個解碼和去對準聲道的一解碼信號。
圖9a係顯示從圖2的該信號去對準器900執行的一較佳步驟序列。特別地,步驟910接收來自圖2的線801、802上可用的對準的左和右聲道。在步驟910中,該信號去對準器900使用該窄帶對準參數的該資訊對各個子頻帶去對準,以便獲得在911a和911b處相位去對準解碼的第一和第二或左和右聲道。在步驟912中,使用該寬帶對準參數對該聲道進行去對準,使得在913a和913b處獲得相位和時間去對準的聲道。
在步驟914中,任何進一步的處理被執行,其包括使用窗口化或任何重疊相加操作,或者通常,任何交叉淡出操作,以便在915a或915b處獲得一偽影減少或無偽影的解碼信號,即,對於沒有任何偽影的解碼聲道,雖然曾經有過,通常,一方面是該寬帶的時變去對準參數,另一方面是多個窄帶的時變去對準參數。
圖9b係顯示圖2中所示的該多聲道解碼器的一較佳實施方式。
特別地,圖2的該信號處理器800包括一時間譜轉換器810。
該信號處理器還包括一中間/側面到左/右轉換器820,以便從一中間信號M和一側面信號S計算面左信號L和面右信號R。
然而,重要的是,為了在區塊820中經由中間/側面-左/右轉換來計算L和R,該側面信號S不必被使用。相反,如稍後所討論的,僅使用從一聲道間位準差參數ILD導出一的增益參數來初始計算該左/右信號。通常,該預測增益也可以被認為是一個ILD的一種形式。該增益可以從ILD導出,但也可以直接計算。較佳的是不再計算ILD,而是直接計算該預測增益並且在該解碼器中發送和使用該預測增益而不是ILD參數。
因此,在該實現中,該側面信號S僅用在該聲道更新器830中,該聲道更新器830使用該發送側面信號S以提供一更好的左/右信號,如旁路線821所示。
因此,該轉換器820使用經由一位準參數輸入822獲得的一位準參數進行操作,而不實際使用該側面信號S,但是該聲道更新器830然後使用該側面821進行操作,並且根據該具體實現,使用經由線831接收的一立體聲填充參數。然後該信號對準器900包括一相位去對準器和能量縮放器910。該能量縮放由一縮放因子計算器940所導出的一縮放因子控制。該縮放因子計算器940由該聲道更新器830的輸出所饋送。基於經由輸入911接收的該窄帶對準參數,該相位去對準被執行,並且在區塊920中,基於經由線921接收的該寬帶對準參數,時間去對準被執行。最後,一頻譜-時間轉換930被執行,以便最終獲得該解碼信號。
圖9c係顯示在一較佳實施例中通常在圖9b的區塊920和930內執行的一另一系列步驟。
特別地,該窄帶去對準聲道被輸入到對應於圖9b的區塊920的該寬帶去對準功能。在區塊931中執行一DFT或任何其他變換。在該實際計算時域樣本之後,使用一合成窗口的一可選合成窗口化被執行。該合成窗口較佳地與該分析窗口完全相同或者從該分析窗口所導出,例如插值或抽取,但是以一某種方式取決於該分析窗口。該依賴性較佳地使得由兩個重疊窗口定義的乘法因子對於該重疊範圍中的每個點加起來成為一個。因此,在區塊932中的該合成窗口之後,一重疊操作和一隨後的加法操作被執行。或者,代替合成窗口化和重疊/加法操作,執行每個聲道的後續區塊之間的任何交叉淡出,以便如在圖9a的上下文中已經討論的那樣獲得一偽影減少的解碼信號。
當圖6b被考慮時,該中間信號的該實際解碼操作變得清楚,即一方面是該“EVS解碼器”,另一方面針對該側面信號,該逆向量量化VQ-1 和該逆MDCT操作(IMDCT)對應於圖2的該信號解碼器700。
此外,在區塊810中的該DFT操作對應於圖9b中的元素810,並且該逆立體聲處理和該逆時間移位的功能對應於圖2的區塊800、900,並且圖6b中的該逆DFT操作930對應於圖9b中的區塊930中的相應操作。
隨後,圖3被更詳細地討論。特別地,圖3係顯示具有各個頻譜線的一DFT頻譜。較佳地,圖3中所示的該DFT頻譜或任何其他頻譜是一個複數頻譜,並且每條線是具有幅度和相位或具有一實部和一虛部的一複數頻譜線。
另外,該頻譜也被分成不同的參數頻帶。每個參數頻帶具有至少一個並且較佳地多於一個的頻譜線。另外,該參數頻帶從較低頻率增加到較高頻率。通常,該寬帶對準參數是該整個頻譜的一單個寬帶對準參數,即,包括圖3中的該示例性實施例中的1至6所有頻帶的一頻譜。
此外,多個窄帶對準參數被提供,使得對於每個參數頻帶存在一單個對準參數。這意味著針對一頻帶的該對齊參數總是適用至該相應頻帶內的所有頻譜值。
此外,除了該窄帶對準參數之外,針對每個參數帶還提供位準參數。
與針對頻帶1到頻帶6的每個參數頻帶所提供的位準參數相反,較佳的是僅為一有限數量的較低頻帶(例如頻帶1、2、3、和4)提供該多個窄帶對準參數。
另外,為除了該較低頻帶之外的一定數量的頻帶提供立體聲填充參數,例如在示例性實施例中,對於頻帶4、5和6,同時存在用於該較低參數頻帶1、2和3的側面信號頻譜值,並且因此,對於使用該側面信號本身或表示該側面信號的一預測殘差信號而獲得波形匹配的這些較低頻帶,不存在立體聲填充參數。
如上所述,在較高頻帶中存在更多的頻譜線,例如在圖3的實施例中,參數頻帶6中的七條頻譜線相對於參數頻帶2中的僅三條譜線。然而,自然地,參數頻帶的該數量、頻譜線的該數量和一參數頻帶內的頻譜線的該數量以及針對某些參數的不同限制將是不同的。
不過,圖8係顯示該參數和頻帶的該數量的一分佈,參數在一某個實施例中被提供的,其中與圖3相比,實際上有12個頻帶。
如圖所示,為12個頻帶中的每一個提供該位準參數ILD,並將其量化為由每個頻帶5位元表示的一量化精度。
此外,該窄帶對準參數IPD僅被提供至直到2.5kHz的一邊界頻率的該等較低頻帶。另外,該聲道間時間差或寬帶對準參數僅被提供以作為該整個頻譜的一單個參數,但針對該整個頻帶具有由8位表示的一非常高的量化精度。
此外,提供了非常粗略量化的立體聲填充參數,每個頻帶由三個位元表示,且不提供給低於1kHz的較低頻帶,因為對於較低頻帶,其包括實際編碼的側面信號或側面信號殘餘頻譜值。
隨後,相對於圖5,於編碼器側的一較佳處理係被總結。在一第一步驟中,左右聲道的一DFT分析被執行。該程序對應於圖4c的步驟155至157。在步驟158中,該寬帶對準參數被計算,特別該是較佳的寬帶對準參數聲道間時間差(ITD)。如170中所示, L和R的一時移在該頻域中被執行。或者,該時移也可以在該時域中被執行。然後一逆DFT被執行,該時移在該時域中被執行,並且一附加的前向DFT被執行,以便在使用該寬帶對準參數進行對準之後再次具有頻譜表示。
如步驟171所示,針對在該移位的L和R表示上的每個參數頻帶,ILD參數被計算,即位準參數和相位參數(IPD參數)。例如,該步驟對應於圖4c的步驟160。時移L和R表示作為聲道間相位差參數的一函數而被旋轉,如圖4c或圖5的步驟161所示。隨後,該中間和側面信號被計算如步驟301所示,並且較佳地,另外具有稍後討論的一能量對話操作。在一隨後的步驟174中,執行S的一預測,其中M作為ILD的一函數並且可選地具有一個過去的M信號,即一較早幀的一中間信號。隨後,該中間信號和該側面信號的逆DFT被執行,其對應於在較佳實施例中的圖4d的步驟303、304、305。
在最後的步驟175中,如步驟175所示,該時域中間信號m和可選的該殘差信號被編碼。該程序對應於圖1中的該信號編碼器400所執行的程序。
在逆立體聲處理的該解碼器中,該側面(Side)信號在DFT域中被生成,並且首先從該中間(Mid)信號預測為:
Figure 02_image065
其中g 是為每個參數頻帶計算的一增益,並且是該發送的聲道間位準差(ILD)的函數。
該預測Side-g∙Mid的該殘差可以經由兩種不同的方式進行細緻化: - 經由殘差信號的一個二次編碼:
Figure 02_image067
其中
Figure 02_image069
是為該整個頻譜傳輸的一全局增益 - 經由稱為立體聲填充的一殘差預測,利用來自該先前DFT幀的該先前解碼的中間信號頻譜來預測該殘餘側面頻譜:
Figure 02_image071
其中
Figure 02_image073
是為每個參數頻帶傳輸的一預測增益。
兩種類型的編碼細緻化可以在相同的DFT頻譜內被混合。在該較佳實施例中,該殘差編碼被應用於較低參數頻帶,而殘餘預測被應用於該剩餘頻帶。在該較佳實施例中,該殘差編碼如圖1中的描述在MDCT域中執行,其係在時域中合成該殘餘側面信號並經由一MDCT對其進行變換之後。與DFT不同,MDCT是關鍵採樣的,更適合音頻編碼。該MDCT係數經由一格子向量量化而被直接向量量化,但也可以另外由一標量量化器跟隨一熵編碼器而被編碼。或者,該殘餘側面信號也可以經由一語音編碼技術在時域中被編碼,或者直接在DFT域中被編碼。
1. 時頻分析: DFT
重要的是,由DFT完成的該立體聲處理的該額外時間-頻率分解允許一良好的聽覺場景分析,同時不會顯著增加該編碼系統的整體延遲。默認情況下,使用10 ms的時間分辨率(該核心編碼器的20 ms幀的兩倍)。該分析和合成窗口是相同的並且是對稱的。該窗口在圖7中以16kHz的採樣率表示。可以觀察到,該重疊區域被限制用於減少該產生的延遲,並且還添加零填補以在頻域中應用ITD時平衡該循環移位,如下文將解釋的。
2. 立體聲參數
可以在該立體聲DFT的時間分辨率下最大地發送立體聲參數。最低可以將其降低到該核心編碼器的該成幀分辨率,即20ms。 默認情況下,當未檢測到瞬變時,將在2個DFT窗口上每20ms計算一次參數。該參數頻帶構成該等效矩形帶寬(Equivalent Rectangular Bandwidths、ERB)的大約2倍或4倍之後的該頻譜的一非均勻和非重疊分解。圖8總結了配置的一範例,其中該立體聲側面資訊以大約5kbps發送。
3. 計算 ITD 和聲道時間對齊
經由使用該具有相位變換的廣義互相關(GCC-PHAT)估計該到達時間延遲(TDOA)來計算該ITD:
Figure 02_image075
其中L和R分別是左右聲道的頻譜。該頻率分析可以獨立於用於後續立體聲處理的該DFT而被執行,或者可以共享。用於計算ITD的虛擬代碼如下:L =fft(window(l)) R =fft(window(r)) tmp = L .* conj( R ) sfm_L = prod(abs(L).^(1/length(L)))/(mean(abs(L))+eps) sfm_R = prod(abs(R).^(1/length(R)))/(mean(abs(R))+eps) sfm = max(sfm_L,sfm_R) h.cross_corr_smooth = (1-sfm)*h.cross_corr_smooth+sfm*tmp tmp = h.cross_corr_smooth ./ abs( h.cross_corr_smooth+eps ) tmp = ifft( tmp ) tmp = tmp([length(tmp)/2+1:length(tmp) 1:length(tmp)/2+1]) tmp_sort = sort( abs(tmp) ) thresh = 3 * tmp_sort( round(0.95*length(tmp_sort)) ) xcorr_time=abs(tmp(- ( h.stereo_itd_q_max - (length(tmp)-1)/2 - 1 ):-( h.stereo_itd_q_min - (length(tmp)-1)/2 - 1 ))) %smooth output for better detection xcorr_time=[xcorr_time 0] xcorr_time2=filter([0.25 0.5 0.25],1,xcorr_time) [m,i] = max(xcorr_time2(2:end)) if m > thresh itd = h.stereo_itd_q_max - i + 1 else itd = 0 end
圖4e係顯示用於實現該先前顯示的虛擬代碼的一流程圖,以便獲得一聲道間時間差的一強健且有效的計算,俾作為該寬帶對準參數的一範例。
在區塊451中,一第一聲道(1)和一第二聲道(r)的時域信號的一DFT分析被執行。例如,該DFT分析通常與在圖5或圖4c中的步驟155至157的該上下文中討論的DFT分析相同。
然後,如區塊452所示,對每個頻率區間執行一互相關。
因此,左和右聲道的整個頻譜範圍的一互相關頻譜被獲得。
在步驟453中,然後從L和R的該幅度頻譜計算一頻譜平坦度測量值,在步驟454中,較大的頻譜平坦度測量值被選擇。然而,步驟454中的選擇不一定必須是該較大一個的選擇,但是來自兩個聲道的一單個SFM的決定也可以是選擇和計算僅該左聲道或僅該右聲道、或者可以是計算兩個SFM值的加權平均值。
在步驟455中,根據該頻譜平坦度測量對該互相關頻譜在時間上進行平滑。
較佳地,經由將該幅度頻譜的該幾何平均值除以該幅度頻譜的該算術平均值來計算該頻譜平坦度測量。因此,SFM的該值被限制在0和1之間。
在步驟456中,然後經由其幅度對該平滑的互相關頻譜進行正規化,並且在步驟457中,該正規化和平滑的互相關譜的一逆DFT被計算。在步驟458中,一某個時域濾波器係較佳地被執行,但是該時域濾波也可以根據實現方式被保留在一旁,但是如稍後將概述的那樣是較佳的。
在步驟459中,經由濾波器廣義互相關函數的峰值揀選並經由執行一特定閾值操作,一ITD估計被執行。
如果沒有高於該閾值的峰值被獲得,則將ITD設置為零,並且不對該對應區塊執行時間對準。
該ITD計算也可以總結如下。根據該頻譜平坦度測量(Spectral Flatness Measurement、SFM),在平滑之前在頻域中計算該互相關。頻譜平坦度測量(SFM)的範圍在0到1之間。在類似雜訊的信號的情況下,該SFM將是高的(即大約接近1)並且該平滑將是弱的。在類似音調的信號的情況下,SFM將變低並且該平滑將變得更強。然後,該平滑的互相關在被轉換回時域之前經由其幅度而被正規化。該正規化對應於該互相關的該相位變換,並且已知在低雜訊和相對高的混響環境中會表現出比該正常互相關更好的性能。首先過濾該如此獲得的時域函數,以實現更強健的峰值峰值。對應於最大幅度的該索引係對應於左和右聲道之間的時間差(ITD)的一估計。如果該最大值的幅度低於一給定閾值,則ITD的該估計值不被考慮為是可靠的並且被設置為零。
如果在時域中應用該時間對齊,則該ITD在一單獨的DFT分析中被計算。該平移被完成如下:
Figure 02_image077
它需要在編碼器處的一額外延遲,其最大值等於可以處理的該最大絕對ITD。經由DFT的該分析窗口來平滑ITD隨時間的變化。
或者,該時間對準可以在頻域中被執行。在這種情況下,該ITD計算和循環移位係處於相同的DFT域中,該域與該其他立體聲處理共享。該循環移位由下式給出:
Figure 02_image079
需要該DFT窗口的零填補來模擬具有循環移位的一時移。該零填補的大小對應於可以被處理的該最大絕對ITD。在該較佳實施例中,經由在兩端添加3.125ms的零,該零填補被均勻地分割在該分析窗口的兩側。該最大絕對可能ITD然後是6.25ms。在A-B麥克風設置中,對應於該最壞情況係兩個麥克風之間的最大距離約為2.15米。經由合成窗口和DFT的重疊相加來平滑ITD隨時間的變化。
重要的是該時移之後是該移位信號的一窗口化。它是與習知技術雙耳線索編碼(BCC)的一主要區別,其中該時移係應用於一窗口化信號,但在該合成階段不進一步窗口化。因此,ITD隨時間的任何變化都會在該解碼信號中產生一人為的瞬態/點擊。
4. 計算 IPD 和聲道旋轉
在時間對準該兩個聲道之後,該IPD被計算,並且這係對於每個參數頻帶或至少達到一給定的ipd_max⁡_band,取決於該立體聲配置。
Figure 02_image081
然後IPD被應用於兩個聲道以對齊它們的相位:
Figure 02_image083
其中
Figure 02_image085
Figure 02_image087
b 是該參數頻帶索引,屬於該頻率索引k 。該參數β負責分配該兩個聲道之間的該相位旋轉量,當使它們的相位對齊時。β取決於IPD,但也取決於該聲道的相對振幅位準ILD。如果一個聲道具有較高的幅度,它將被視為前導聲道,並且相位旋轉的影響將小於具有較低幅度的聲道。
5. 和差和側面信號編碼
以在該Mid信號中保存能量的方式,對兩個聲道的時間和相位對準頻譜執行該和差變換。
Figure 02_image089
其中
Figure 02_image091
被綁定在1/1.2和1.2之間,即-1.58和+ 1.58 dB。當調整該中間和側面信號的能量時,該限制避免了偽影。值得注意的是,當時間和相位事先被對齊時,這種能量保存不太重要。或者,該限制可以被增加或減少。
用中間信號進一步預測該側面信號S:
Figure 02_image093
其中
Figure 02_image095
,其中
Figure 02_image087
。或者,可以經由最小化由前一方程式推導的該殘差和ILD的均方誤差(MSE),來找到最佳預測增益g。
該殘差信號S'(f)可以經由兩種方式來建模:經由用中間信號的該延遲頻譜預測它或者經由在該MDCT域中的MDCT域中直接編碼它。
6. 立體聲解碼
該中間信號X和側面信號S首先如下轉換為該左右聲道L和R:
Figure 02_image097
Figure 02_image099
其中每個參數頻帶的該增益g由該ILD參數導出:
Figure 02_image101
,其中
Figure 02_image087
對於低於cod_max_band的參數頻帶,該兩個頻道使用該解碼的側面信號而被更新:
Figure 02_image103
Figure 02_image105
對於更高的參數頻帶,該側信號被預測並將頻道更新為:
Figure 02_image107
Figure 02_image109
最後,該聲道乘以一個複數值,旨在恢復該原始能量和該立體聲信號的該聲道間相位:
Figure 02_image111
Figure 02_image113
其中
Figure 02_image115
其中a是如先前所定義和界定的,其中
Figure 02_image085
,其中atan2(x,y)是x與y的四象限反正切。
最後,根據該發送的ITD,該聲道在時間上或在頻域中被時移。該時域聲道經由逆DFT和重疊相加而被合成。
本揭露的具體特徵涉及空間線索以及和差聯合立體聲編碼的該組合。特別地,該空間線索IDT和IPD被計算並將其應用於該立體聲聲道(左和右)。此外,和差(M/S信號)被計算,並且較佳地應用側面與中間訊號的一預測。
在解碼器側,該寬帶和窄帶空間線索與總和不同的聯合立體聲編碼組合在一起。特別地,使用諸如ILD的至少一個空間線索用該中間信號預測該側面信號,並且一逆和差被計算用於獲得該左和右聲道的,並且此外,該寬帶和窄帶空間線索被應用於該左右聲道。
較佳地,該編碼器具有窗口並且在使用該ITD處理之後相對於時間對準的聲道重疊相加。此外,在應用該聲道間時間差之後,該解碼器還具有對聲道的移位或解對齊版本的一加窗和重疊相加操作。
使用該GCC-Phat方法計算該聲道間時間差是一種特別穩健的方法。
該新程序是有利的習知技術,因為它實現了低延遲的立體聲音頻或多聲道音頻的位元率編碼。它是特別的設計用於對輸入信號的不同性質以及多聲道或立體聲錄音的不同設置具有強健性。特別是,本揭露針對低位元率立體聲語音編碼提供了一良好的品質。
該較佳的程序可用於在一給定的低位元率下,以恆定的感知品質分配所有類型的立體聲或多聲道音頻內容(例如語音和音樂)的廣播。這些應用領域是一數位無線電、網際網路串流媒體或音頻通信應用。
雖然本揭露已經根據若干實施例而被描述,但是存在落入本揭露範圍內的改變、置換和各種替代等同物。還應當注意,有許多實現本揭露方法和設備的可選方式。因此,以下所附專利申請範圍旨在被解釋為包括所有這樣的落入本揭露主旨和範圍內的改變、置換和各種替代等同物。
儘管已經在一裝置的上下文中描述了一些觀點,但是顯然這些觀點也表示對應方法的一描述,其中一區塊或設備對應於一方法步驟或方法步驟的一特徵。類似地,在一方法步驟的上下文中描述的觀點還表示一對應裝置的一對應區塊或項目或特徵的一描述。一些或所有該方法步驟可以被(或使用)一硬件設備執行,例如一微處理器、一可程式化計算機或一電子電路。在一些實施例中,一些或多個最重要的方法步驟可以由這樣的裝置執行。
本揭露的編碼影像信號可以存儲在一數位存儲介質上,或者可以在諸如一無線傳輸介質的一傳輸介質或諸如該網際網路的一有線傳輸介質上傳輸。
根據某些實現要求,本揭露的實施例可以用硬體或軟體實現。該實現可以使用數位存儲介質來執行,例如軟碟、DVD、藍光、CD、ROM、PROM、EPROM、EEPROM或FLASH記憶體,在其上具有存儲的電子可讀控制信號,與一可編程計算機系統協作(或能夠協作),從而執行相應的方法。因此,該數位存儲介質可以是計算機可讀的。
根據本揭露的一些實施例包括具有電子可讀控制信號的一資料載體,其能夠與一可編程計算機系統協作,從而執行本文所述的方法之一。
通常,本揭露的實施例可以被實現為具有一程式代碼的一計算機程式產品,該程式代碼可操作用於在計算機程式產品在計算機上運行時執行這些方法之一。該程式代碼可以例如存儲在一機器可讀載體上。
其他實施例包括用於執行存儲在一機器可讀載體上的本文描述的方法之一的計算機程式。
換句話說,本揭露方法的一實施例因此是具有程式代碼的一計算機程式,當計算機程式在計算機上運行時,該程式代碼用於執行本文所述的方法之一。
因此,本揭露方法的一另一實施例是一資料載體(或一數位存儲介質、或計算機可讀介質),其包括記錄在其上的用於執行本文所述方法之一的計算機程式。該資料載體、該數位存儲介質或該記錄介質通常是有形的和/或非過渡的。
因此,本揭露方法的一另一實施例是表示用於執行本文所述方法之一的該計算機程式的一資料流或一信號序列。該資料流或該信號序列可以例如被配置為經由一資料通信連接,例如經由網際網路而被傳輸。
一另一實施例包括一處理裝置,例如一計算機或一可編程邏輯設備,其被配置為或適於執行本文描述的方法之一。
一另一實施例包括一計算機,其上安裝有用於執行本文所述方法之一的計算機程式。
根據本揭露的一另一實施例包括一種裝置或一系統,其被配置為將用於執行將本文所述方法之一的計算機程式傳送(例如,電子地或光學地)到一接收器。該接收器可以是例如一計算機、一移動設備、一記憶體設備等。該裝置或系統可以例如包括用於將計算機程式傳送到該接收器的一檔案伺服器。
在一些實施例中,一可編程邏輯裝置(例如現場可編輯閘陣列)可用於執行本文所述方法的一些或全部功能。在一些實施例中,一現場可編輯閘陣列可以與一微處理器協作,以便執行本文描述的方法之一。通常,該方法較佳地由任何硬體設備執行。
這裡描述的裝置可以使用一硬體裝置、或使用一計算機、或使用硬體裝置和計算機的一組合來實現。
這裡描述的方法可以使用一硬體設備、或使用一計算機、或使用一硬體設備和一計算機的一組合來執行。
上述實施例僅用於說明本揭露的原理。應理解,本文所述的佈置和細節的修改和變化對於本領域技術人員而言將是顯而易見的。因此,其意圖僅受到該懸置的專利申請專利範圍的範圍之限制,而不受經由本文實施例的描述和解釋所呈現的具體細節的限制。
參考文獻 [1] Patent application. "Apparatus and Method for Estimating an Inter-Channel Time Difference." International Application Number PCT/EP2017/051214. [2] Knapp, Charles, and Glifford Carter. "The generalized correlation method for estimation of time delay." IEEE Transactions on Acoustics, Speech, and Signal Processing 24.4 (1976): 320-327. [3] Zhang, Cha, Dinei Florêncio, and Zhengyou Zhang. "Why does PHAT work well in low-noise, reverberative environments " Acoustics, Speech and Signal Processing, 2008. ICASSP 2008. IEEE International Conference on. IEEE, 2008. [4] Rabinkin, Daniel V., et al. "DSP implementation of source location using microphone arrays." Advanced signal processing algorithms, architectures, and implementations VI. Vol. 2846. International Society for Optics and Photonics, 1996. [5] Shen, Miao, and Hong Liu. "A modified cross power-spectrum phase method based on microphone array for acoustic source localization." Systems, Man and Cybernetics, 2009. SMC 2009. IEEE International Conference on. IEEE, 2009. [6] 3GPP TS 26.445; Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.
150‧‧‧時間-頻譜轉換器 451‧‧‧項目 1020‧‧‧計算器 1010‧‧‧頻譜特徵估計器 1030‧‧‧平滑濾波器 1040‧‧‧處理器 1035‧‧‧虛線 1037‧‧‧信號分析器 1038‧‧‧雜訊估計 1036‧‧‧加權器 1038‧‧‧雜訊位準 1038‧‧‧最終信號特徵 1038‧‧‧最終雜訊位準 1038‧‧‧信號特徵 1036a‧‧‧第一加權程序 1036b‧‧‧第二加權程序 1037a‧‧‧雜訊估計計算器 1037b‧‧‧雜訊估計分類器 1050‧‧‧控制信號 1036c‧‧‧第一開關 1036d‧‧‧第二開關 1036a‧‧‧處理內核 1036b‧‧‧第二加權程序 1040‧‧‧輸入開關 1043‧‧‧輸出開關 1041、1042‧‧‧峰值揀選程序 1037‧‧‧雜訊估計器 1060‧‧‧背景雜訊估計器 1061、1073‧‧‧(時間)平滑器 1070‧‧‧信號活動檢測器 1071‧‧‧選擇器 1072‧‧‧信號位準計算器 1074‧‧‧區塊 1075‧‧‧比較器 1074‧‧‧SNR比計算器 451、452、453、454、456至459、1034b‧‧‧項目 1020‧‧‧互相關譜計算器 1031、456、457、458、1034c、1102、1103、1104、1105‧‧‧步驟 1120、1121、1122、16、21、17、22、155、156、157、158‧‧‧步驟 159、160、161、301、302、303、304、305、910、912‧‧‧步驟 914、171、174、175、453、454、455、456、457、458‧‧‧步驟 459、1034c‧‧‧步驟 1032、1037、1020、1101、1036a、1036b、1074、1030‧‧‧區塊 1104、1106、1101、1102、1123、1050、820、920、931‧‧‧區塊 932、810、800、900、930、451、452、152‧‧‧區塊 1032‧‧‧時域分析 1033‧‧‧隨後的進一步處理 1034、1124‧‧‧決定 100‧‧‧參數決定器 200‧‧‧信號對準器 12、14、10‧‧‧參數線 500‧‧‧輸出接口 20‧‧‧聲道 10‧‧‧多聲道信號 300‧‧‧信號處理器 20‧‧‧線路 31‧‧‧中間信號 32‧‧‧側面信號 400‧‧‧信號編碼器 31、32、41、42、43‧‧‧線路 50‧‧‧輸出線 41、42、14‧‧‧線 15‧‧‧連接線 150‧‧‧時間-頻譜轉換器 154‧‧‧頻譜-時間轉換器 50‧‧‧輸入線 600‧‧‧輸入接口 700‧‧‧信號解碼器 800‧‧‧信號處理器 900‧‧‧信號去對準器 50、601、701、702、801、802、901、902、831、921‧‧‧線 610‧‧‧參數線 602‧‧‧信號線 802‧‧‧右聲道 810‧‧‧時間譜轉換器 820‧‧‧中間/側面到左/右轉換器 830‧‧‧聲道更新器 821‧‧‧旁路線 822‧‧‧位準參數輸入 910‧‧‧相位去對準器和能量縮放器 940‧‧‧縮放因子計算器 911‧‧‧輸入 930‧‧‧頻譜-時間轉換 810‧‧‧元素
圖1是用於編碼一多聲道信號的裝置的一較佳實施例的方塊圖。 圖2是用於解碼一編碼的多聲道信號的裝置的較佳實施例。 圖3是針對某些實施例的不同頻率分辨率和其他頻率相關方面的圖示。 圖4a顯示在該編碼裝置中為了對齊複數聲道的目的所執行的程序的流程圖。 圖4b係顯示在該頻域中執行的程序實施例。 圖4c係顯示在該編碼裝置中,使用具有零填補部分和重疊範圍的分析窗口執行的程序的實施例。 圖4d係顯示在該用於編碼的裝置內執行進一步程序的流程圖。 圖4e係一流程圖,顯示估計一聲道間時間差的實施。 圖5係顯示一流程圖,說明在編碼裝置中執行的程序的另一實施例。 圖6a係顯示一編碼器的一實施例的方塊圖。 圖6b係顯示一解碼器的一相應實施例的流程圖。 圖7係顯示具有零填補(zero padding)的低重疊正弦波窗口(low-overlapping sine windows)的較佳窗口場景,用於一立體聲時頻分析和合成。 圖8係顯示不同參數值的位元消耗的表格。 圖9a係顯示一裝置在一較佳實施例中解碼一經編碼的多聲道信號所執行的程序。 圖9b係顯示該裝置用於解碼一經編碼的多聲道信號的實現方式。 圖9c係顯示在解碼該經編碼的多聲道信號的情境下在一寬帶解對準的環境下所執行的程序。 圖10a係顯示一用於估計一聲道間時間差的裝置的實施例。 圖10b係顯示應用該聲道間時間差的一信號進一步處理的示意圖。 圖10c係顯示該信號分析器的示意圖,該信號分析器在根據本發明的一實施例中被實現為雜訊估計器,在多數實施例中被實現為加權器。 圖10d係顯示根據本發明實施例的加權器的示意圖。 圖10e係顯示根據本發明實施例的處理器的示意圖。 圖10f係顯示根據本發明實施例的雜訊估計器的示意圖。 圖11a係顯示由圖10a的該處理器執行的程序。 圖11b係顯示由圖10a中的該處理器執行的進一步程序。 圖11c係顯示在該時域表示的該分析中計算一可變閾值和使用該可變閾值的另一實施方式。 圖11d係顯示用於決定該可變閾值的第一實施例。 圖11e係顯示確定該閾值的進一步實現。 圖11f係顯示根據本發明實施例的處理器的示意圖。 圖12係顯示針對一乾淨語音信號的平滑互相關頻譜的時域表示。 圖13係顯示具有雜訊和氛圍的語音信號的平滑互相關譜的時域表示。
1036‧‧‧加權器
1037‧‧‧雜訊估計器
1038‧‧‧雜訊位準

Claims (31)

  1. 一種用於估計第一聲道信號和第二聲道信號之間的聲道間時間差的裝置,包含:一信號分析器,用於估計該第一聲道信號或該第二聲道信號或該兩個信號、或從該第一聲道信號或該第二聲道信號導出的一信號的信號特徵;一計算器,用於從在一時間區塊中的該第一聲道信號和在該時間區塊中的該第二聲道信號,計算出該時間區塊的一互相關頻譜;一加權器,其依據該信號分析器所估計的信號特徵而決定是使用第一加權程序或使用第二加權程序來加權一平滑或非平滑的互相關頻譜,以獲得一加權互相關頻譜,其中該第一加權程序與該第二加權程序不同;以及一處理器,用於處理該加權互相關頻譜,以獲得該聲道間時間差。
  2. 如申請專利範圍第1項所述的裝置,其中該信號分析器係建構為一雜訊估計器,用於估計該第一聲道信號或該第二聲道信號或該兩個信號、或從該第一聲道信號或該第二聲道信號導出的一信號的雜訊位準並且其中第一信號特徵是第一雜訊位準而第二信號特徵是第二雜訊位準,或者其中該信號分析器係建構為可執行一語音/音樂分析、一干擾-通話分析、背景音樂分析、乾淨的語音分析或任何其他信號分析,以決定一信號是具有第一特徵或是第二特徵。
  3. 如申請專利範圍第1項所述的裝置,其中,為第一信號特徵選用該第一加權程序,而為第二信號特徵選用該第二加權程序,且其中該第一信號特徵不同於該第二信號特徵。
  4. 如申請專利範圍第1項所述的裝置,其中該第一加權程序包括一加權,使得一振幅被正規化並一相位被保持,或其中該第二加權程序包括一從該平滑或非平滑互相關頻譜導出的加權因子,其使用具有一冪次小於1或大於0的一冪次操作或一對數函數。
  5. 如申請專利範圍第1項所述的裝置,其中該第二加權程序包含一加權,使得一振幅被正規化並一相位被保持,且另包含一從該平滑或非平滑互相關頻譜導出的加權因子,其使用具有一冪次小於1或大於0或在0.79和0.82之間的一冪次操作。
  6. 如申請專利範圍第1項所述的裝置,其中該第一加權程序係根據下列方程式操作:
    Figure 108111909-A0305-02-0064-3
    其中該第二加權程序係根據下列方程式操作:
    Figure 108111909-A0305-02-0064-7
    其中
    Figure 108111909-A0305-02-0064-9
    (k,s)是藉由應用該第一加權程序所獲得,提供給一頻率索引k及一時間索引s的加權平滑或非平滑互相關頻譜值,其中
    Figure 108111909-A0305-02-0064-12
    (k,s)是藉由應用該第二加權程序所獲得,提供給一頻率索引k及一時間索引s的加權平滑或非平滑互相關頻譜值,其中
    Figure 108111909-A0305-02-0064-11
    (k,s)是一頻率索引k及一時間索引s的平滑或非平滑互相關頻譜值,以及其中ρ是一不同於1的冪次值。
  7. 如申請專利範圍第1項所述的裝置,其中該第二加權程序包括一正規化,使得該第二正規化程序的一輸出範圍是位在該第一正規 化程序的一輸出範圍所定位的範圍內,或者使得該第二正規化程序的該輸出範圍與該第一正規化程序的一輸出範圍相同。
  8. 如申請專利範圍第1項所述的裝置,其中該第二加權程序包含一基於下列方程式的正規化:
    Figure 108111909-A0305-02-0065-8
  9. 如申請專利範圍第1項所述的裝置,其中該處理器係配置為取決於是該第一加權程序被使用或是該第二加權程序被使用,而執行第一峰值揀選操作或第二峰值揀選操作,其中該第一峰值揀選操作不同於該第二峰值揀選操作。
  10. 如申請專利範圍第1項所述的裝置,其中當該第二加權程序被使用時,使用該第二峰值揀選操作,並且其中該第二峰值揀選操作係配置為使用第二閾值,該第二閾值係低於該第一峰值揀選操作所使用的第一閾值。
  11. 如申請專利範圍第2項所述的裝置,其中該雜訊估計器係配置為可估計一背景雜訊的位準、或係配置為可隨著時間的推移去平滑一估計得的雜訊位準、或係配置為可使用一無限脈衝響應(Infinite Impulse Response、IIR)平滑濾波器。
  12. 如申請專利範圍第2項所述的裝置,其中該雜訊估計器更包括一信號活動檢測器,用於將該時間區塊分類為有效或無效,其中該雜訊估計器係配置為使用一個或多個活動時間區塊,以計算一信號位準,或者其中該雜訊估計器係配置為當一信號雜訊比低於一閾值,且該閾值是在45至25分貝的範圍內時,可發出一高背景雜訊位準的信號。
  13. 如申請專利範圍第1項所述的裝置,其另包含: 一頻譜特徵估計器,用於估計該時間區塊的該第一聲道信號或第二聲道信號的頻譜之特徵;一平滑濾波器,用於使用該頻譜特徵以隨著時間的推移平滑該互相關頻譜,以獲得一平滑互相關頻譜,並且其中該加權器係配置成可用於加權該平滑互相關頻譜。
  14. 如申請專利範圍第1項所述的裝置,其中該處理器係配置為使用該平滑互相關頻譜的量值來對該平滑互相關頻譜進行正規化。
  15. 如申請專利範圍第1項所述的裝置,其中該處理器係配置為:可計算該平滑互相關頻譜或一經正規化的平滑互相關頻譜的時域表示;以及可分析該時域表示以決定該聲道間時間差。
  16. 如申請專利範圍第1項所述的裝置,其中該處理器係配置為對該時域表示進行低通濾波,及進一步處理該低通濾波的結果。
  17. 如申請專利範圍第1項所述的裝置,其中該處理器係配置為藉在自該平滑互相關頻譜決定的時域表示內執行一峰值搜索或峰值揀選操作,來執行該聲道間時間差決定。
  18. 如申請專利範圍第13項所述的裝置,其中該頻譜特徵估計器係配置以決定該頻譜特徵是該頻譜的一雜訊或一音調;以及其中該平滑濾波器係配置為在第一較小雜訊特徵或第一較多音調特徵的情況時,藉由第一平滑度隨著時間的推移施加較強的平滑,或在第二較多雜訊特徵或第二較小音調特徵的情況時,藉由第二平滑度隨著時間的推移施加較弱的平滑, 其中該第一平滑度係大於該第二平滑度,且其中該第一雜訊特徵比該第二雜訊特徵較少雜訊,或該第一音調特徵比該第二音調特徵更有音調。
  19. 如申請專利範圍第13項所述的裝置,其中該頻譜特徵估計器係配置為計算該第一聲道信號的一頻譜的第一頻譜平坦度測量和該第二聲道信號的一第二頻譜的一第二平坦度測量作為該特徵,並藉由選擇一最大值、藉由確定該第一及第二頻譜平坦度測量之間的加權平均值或未加權平均值、或藉由選擇一最小值,以從該等頻譜平坦度測量確定該頻譜的特徵。
  20. 如申請專利範圍第13項所述的裝置,其中該平滑濾波器係配置為藉由將來自該時間區塊的頻率的互相關頻譜值與來自至少一個過去時間區塊的頻率的互相關頻譜值相加權組合,以計算一頻率的平滑互相關頻譜值,其中該加權組合的加權因子係由該頻譜的特徵來決定。
  21. 如申請專利範圍第1項所述的裝置,其中該處理器係配置為在由該經加權的平滑或非平滑互相關頻譜所導出的時域表示內確定一有效範圍及一無效範圍,其中在該無效範圍內的至少一最大峰值被檢測出,並將其與在該有效範圍內的一最大峰值進行比較,其中僅當在該有效範圍內的該最大峰值係大於在該無效範圍內的至少一最大峰值時,才確定該聲道間時間差。
  22. 如申請專利範圍第1項所述的裝置,其中該處理器係配置為:在從該平滑互相關頻譜導出的一時域表示內執行一峰值搜索操作, 由該時域表示確定一固定閾值的變量;以及將一峰值與該可變閾值進行比較,其中當與一峰值相關聯的時間遲滯係與該可變閾值成一預定關係時,確定該聲道間時間差。
  23. 如申請專利範圍第22項的裝置,其中,該處理器係配置為判定該可變閾值為等於一最大部分中的一值的整數倍,該最大部分例如是該時域表示值的10%。
  24. 如申請專利範圍第1項所述的裝置,其中,該處理器係配以確定從該平滑互相關頻譜導出的一時域表示的複數子區塊的每個子區塊中的最大峰值幅度,其中,該處理器係配置以依據該等複數子區塊的最大峰值幅度所導出的平均峰值幅度來計算一可變閾值,以及其中,該處理器係配置為當對應於該等複數子區塊的最大峰值的一時間遲滯值係大於該可變閾值時,確定該聲道間時間差。
  25. 如申請專利範圍第24項的裝置,其中,該處理器係配置為藉將該等子區塊中的峰值之間的平均峰值所決定的平均閾值與一值相乘,以計算該可變閾值,其中,該值係由該第一和第二聲道信號的一SNR(信號雜訊比)特徵所決定,其中第一值與第一信號雜訊比值相關聯,第二值與第二信號雜訊比值相關聯,其中該第一值係大於該第二值,並且其中該第一信號雜訊比值係大於該第二信號雜訊比值。
  26. 如申請專利範圍第25項的裝置,其中,該處理器係配置為在第三信號雜訊比值係低於該第二信號雜訊比值的情況下,及當該閾值和一最大峰值之間的差值係低於一預定值時,使用一低於該第二值(alow)的第三值(alowest)。
  27. 如申請專利範圍第2項所述的裝置,其中,該雜訊估計器包括一背景雜訊估計器和一時間平滑器,以用於提供一背景雜訊估計,或其中該雜訊估計器包括一信號活動檢測器,一幀選擇器,用於僅在該信號活動檢測器的控制下選擇一有效幀,及一信號位準計算器,用於計算該有效幀中的一信號位準,以及一時間平滑器,用於隨著時間的推移平滑化該信號位準計算器的結果,以提供一信號位準估計值,或其中該雜訊估計器係配置為從一幀的一平滑或非平滑信號位準及一平滑或非平滑背景雜訊位準,計算一信號雜訊比,以及一比較器,用於將該信號雜訊比的值與該幀的一閾值相比較,以便為該幀提供該雜訊位準。
  28. 如申請專利範圍第2項所述的裝置,其中該裝置係配置為執行該估計得的聲道間時間差的存儲或傳輸;或使用該估計得的聲道間時間差來執行一立體聲道或多聲道處理,或編碼該第一及第二聲道信號;或使用該聲道間時間差來執行該兩個聲道信號的時間對準;或使用該估計得的聲道間時間差來執行一時間差的抵達預估;或使用該聲道間時間差執行一時間差的抵達預估,俾決定在配具有兩個麥克風和一已知麥克風設備的房間中的一揚聲器位置,或使用該估計得的聲道間時間差來執行一波束形成,或使用該估計得的聲道間時間差來執行一空間濾波,或用於使用該估計聲道間時間差來執行一前景或背景分解,或使用該估計得的聲道間時間差來執行一聲源的定位操作,或 藉依據該第一聲道信號及第二聲道信號之間的時間差、或該第一聲道信號、第二聲道信號及至少一額外信號之間的時間差來執行一聲波三角測量,使用該估計得的聲道間時間差來執行一聲源的定位操作。
  29. 一種估計第一聲道信號和第二聲道信號之間的聲道間時間差的方法,該方法包括:估計該第一聲道信號或該第二聲道信號或兩個信號、或從該第一聲道信號或第二聲道信號導出的一信號的信號特徵;計算從在一時間區塊中的該第一聲道信號和在該時間區塊中的該第二聲道信號,以計算出該時間區塊的一互相關頻譜;根據所估計的信號特徵而決定是使用第一加權程序或使用第二加權程序來加權一平滑或非平滑的互相關頻譜,以獲得一加權互相關頻譜,其中該第一加權程序與該第二加權程序不同;以及處理該加權互相關頻譜以獲得該聲道間時間差。
  30. 如申請專利範圍第29項所述的方法,另包括:為該時間區塊估計該第一聲道信號或第二聲道信號的頻譜特徵;使用該頻譜特徵隨著時間的推移平滑化該互相關頻譜以獲得一平滑互相關頻譜,且其中該加權步驟對該平滑互相關頻譜進行加權。
  31. 一種計算機程式,用於在一計算機或處理器上運行時執行申請專利範圍第29項的方法。
TW108111909A 2018-04-05 2019-04-03 用於估計聲道間時間差的裝置、方法或計算機程式 TWI714046B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP18165882.4 2018-04-05
EP18165882 2018-04-05

Publications (2)

Publication Number Publication Date
TW202004734A TW202004734A (zh) 2020-01-16
TWI714046B true TWI714046B (zh) 2020-12-21

Family

ID=61965696

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108111909A TWI714046B (zh) 2018-04-05 2019-04-03 用於估計聲道間時間差的裝置、方法或計算機程式

Country Status (18)

Country Link
US (2) US11594231B2 (zh)
EP (3) EP3776541B1 (zh)
JP (2) JP7204774B2 (zh)
KR (1) KR102550424B1 (zh)
CN (2) CN118283489A (zh)
AR (1) AR117567A1 (zh)
AU (1) AU2019249872B2 (zh)
BR (1) BR112020020457A2 (zh)
CA (1) CA3095971C (zh)
ES (1) ES2909343T3 (zh)
MX (1) MX2020010462A (zh)
PL (1) PL3776541T3 (zh)
PT (1) PT3776541T (zh)
RU (1) RU2762302C1 (zh)
SG (1) SG11202009801VA (zh)
TW (1) TWI714046B (zh)
WO (1) WO2019193070A1 (zh)
ZA (1) ZA202006125B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11418879B2 (en) * 2020-05-13 2022-08-16 Nxp B.V. Audio signal blending with beat alignment
CN113948098A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 一种立体声音频信号时延估计方法及装置
CN116075889A (zh) * 2020-08-31 2023-05-05 弗劳恩霍夫应用研究促进协会 依赖混合噪声信号的多声道信号产生器、音频编码器及相关方法
CN112242150B (zh) * 2020-09-30 2024-04-12 上海佰贝科技发展股份有限公司 一种检测立体声的方法及其系统
CN117501361A (zh) * 2021-06-15 2024-02-02 瑞典爱立信有限公司 用于重合立体声捕获的声道间时差(itd)估计器的提高的稳定性
WO2023038637A1 (en) * 2021-09-13 2023-03-16 Luminous Computing, Inc. Optical filter system and method of operation
CN114324972B (zh) * 2022-01-10 2022-09-13 浙江大学 一种适用于流体互相关测速的自适应广义互相关时延估计方法
WO2024053353A1 (ja) * 2022-09-08 2024-03-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 信号処理装置、及び、信号処理方法
WO2024202972A1 (ja) * 2023-03-29 2024-10-03 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ チャネル間時間差推定装置、及び、チャネル間時間差推定方法
WO2024202997A1 (ja) * 2023-03-29 2024-10-03 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ チャネル間時間差推定装置、及び、チャネル間時間差推定方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200926147A (en) * 2007-10-17 2009-06-16 Fraunhofer Ges Forschung Audio coding using downmix
US20130301835A1 (en) * 2011-02-02 2013-11-14 Telefonaktiebolaget L M Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434948A (en) 1989-06-15 1995-07-18 British Telecommunications Public Limited Company Polyphonic coding
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US7573912B2 (en) 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
KR20080066537A (ko) * 2007-01-12 2008-07-16 엘지전자 주식회사 부가정보를 가지는 오디오신호의 부호화/복호화 방법 및장치
GB2453117B (en) * 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
KR101405956B1 (ko) * 2007-12-28 2014-06-12 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
BRPI0908630B1 (pt) 2008-05-23 2020-09-15 Koninklijke Philips N.V. Aparelho de 'upmix' estéreo paramétrico, decodificador estéreo paramétrico, método para a geração de um sinal esquerdo e de um sinal direito a partir de um sinal de 'downmix' mono com base em parâmetros espaciais, dispositivo de execução de áudio, aparelho de 'downmix' estéreo paramétrico, codificador estéreo paramétrico, método para a geração de um sinal residual de previsão para um sinal de diferença a partir de um sinal esquerdo e de um sinal direito com base nos parâmetros espaciais, e, produto de programa de computador
WO2010037426A1 (en) * 2008-10-03 2010-04-08 Nokia Corporation An apparatus
CN102292767B (zh) * 2009-01-22 2013-05-08 松下电器产业株式会社 立体声音响信号编码装置、立体声音响信号解码装置及它们的编解码方法
KR101433701B1 (ko) * 2009-03-17 2014-08-28 돌비 인터네셔널 에이비 적응형으로 선택가능한 좌/우 또는 미드/사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩
CN101848412B (zh) * 2009-03-25 2012-03-21 华为技术有限公司 通道间延迟估计的方法及其装置和编码器
CN102157152B (zh) * 2010-02-12 2014-04-30 华为技术有限公司 立体声编码的方法、装置
US9253574B2 (en) * 2011-09-13 2016-02-02 Dts, Inc. Direct-diffuse decomposition
JP5692006B2 (ja) * 2011-11-02 2015-04-01 トヨタ自動車株式会社 音源推定装置、方法、プログラム、及び移動体
JP2015517121A (ja) * 2012-04-05 2015-06-18 ホアウェイ・テクノロジーズ・カンパニー・リミテッド インターチャネル差分推定方法及び空間オーディオ符号化装置
US9460729B2 (en) * 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
EP2980789A1 (en) * 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
EP3165000A4 (en) * 2014-08-14 2018-03-07 Rensselaer Polytechnic Institute Binaurally integrated cross-correlation auto-correlation mechanism
CN106033671B (zh) * 2015-03-09 2020-11-06 华为技术有限公司 确定声道间时间差参数的方法和装置
WO2017125559A1 (en) * 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatuses and methods for encoding or decoding an audio multi-channel signal using spectral-domain resampling
CN107742521B (zh) * 2016-08-10 2021-08-13 华为技术有限公司 多声道信号的编码方法和编码器

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200926147A (en) * 2007-10-17 2009-06-16 Fraunhofer Ges Forschung Audio coding using downmix
US20130301835A1 (en) * 2011-02-02 2013-11-14 Telefonaktiebolaget L M Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal

Also Published As

Publication number Publication date
JP7204774B2 (ja) 2023-01-16
WO2019193070A1 (en) 2019-10-10
AU2019249872B2 (en) 2021-11-04
EP3985665A1 (en) 2022-04-20
KR102550424B1 (ko) 2023-07-04
JP2021519949A (ja) 2021-08-12
PL3776541T3 (pl) 2022-05-23
CN112262433A (zh) 2021-01-22
ZA202006125B (en) 2022-07-27
AU2019249872A1 (en) 2020-11-12
CA3095971C (en) 2023-04-25
PT3776541T (pt) 2022-03-21
JP2023036893A (ja) 2023-03-14
CN112262433B (zh) 2024-03-01
SG11202009801VA (en) 2020-11-27
US20210012784A1 (en) 2021-01-14
US11594231B2 (en) 2023-02-28
MX2020010462A (es) 2020-10-22
TW202004734A (zh) 2020-01-16
US20230169985A1 (en) 2023-06-01
CN118283489A (zh) 2024-07-02
KR20200140864A (ko) 2020-12-16
EP4435783A2 (en) 2024-09-25
CA3095971A1 (en) 2019-10-10
EP3776541A1 (en) 2021-02-17
ES2909343T3 (es) 2022-05-06
RU2762302C1 (ru) 2021-12-17
AR117567A1 (es) 2021-08-18
EP3776541B1 (en) 2022-01-12
BR112020020457A2 (pt) 2021-01-12
EP3985665B1 (en) 2024-08-21

Similar Documents

Publication Publication Date Title
JP7161564B2 (ja) チャネル間時間差を推定する装置及び方法
TWI714046B (zh) 用於估計聲道間時間差的裝置、方法或計算機程式