TW201618082A - 使用截斷分析或合成窗段重疊部分處理音訊信號的方法及處理器 - Google Patents

使用截斷分析或合成窗段重疊部分處理音訊信號的方法及處理器 Download PDF

Info

Publication number
TW201618082A
TW201618082A TW104124102A TW104124102A TW201618082A TW 201618082 A TW201618082 A TW 201618082A TW 104124102 A TW104124102 A TW 104124102A TW 104124102 A TW104124102 A TW 104124102A TW 201618082 A TW201618082 A TW 201618082A
Authority
TW
Taiwan
Prior art keywords
window
window segment
segment
overlapping portion
length
Prior art date
Application number
TW104124102A
Other languages
English (en)
Other versions
TWI581252B (zh
Inventor
古拉米 福契斯
馬庫斯 穆爾特斯
馬帝斯 紐辛格
安德烈斯 尼德梅耶
馬可斯 史奈爾
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201618082A publication Critical patent/TW201618082A/zh
Application granted granted Critical
Publication of TWI581252B publication Critical patent/TWI581252B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M13/00Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

一種用於處理一音訊信號之處理器包含:一分析器,其用於自該音訊信號導出一窗段控制信號,該窗段控制信號指示自一第一不對稱窗段至一第二窗段之一改變或指示自一第三窗段至一第四不對稱窗段之一改變,其中該第二窗段短於該第一窗段,或其中該第三窗段短於該第四窗段;一窗段建構器,其用於使用該第一不對稱窗段之一第一重疊部分建構該第二窗段,其中該窗段建構器經組配以使用該第一不對稱窗段之一經截斷第一重疊部分判定該第二窗段之一第一重疊部分,或其中該窗段建構器經組配以使用該第四不對稱窗段之一經截斷第二重疊部分計算該第三窗段之一第二重疊部分;以及一窗段化器,其用於應用該第一窗段及該第二窗段或該第三窗段及該第四窗段以獲得經窗段化音訊信號部分。

Description

使用截斷分析或合成窗段重疊部分處理音訊信號的方法及處理器 發明領域
本發明係關於音訊處理,且特定而言,係關於藉由用於音訊信號處理鏈之分析側或合成側之重疊窗段進行音訊處理。
發明背景
基於類似於MDCT之重疊變換的多數當代頻域音訊寫碼器使用某種類之變換大小切換以使時間及頻率解析度適合於當前信號性質。已開發了不同方法以處置可用變換大小與其對應窗段形狀之間的切換。一些方法在使用不同變換長度編碼的訊框之間插入轉變窗段,例如MPEG-4(HE-)AAC[1]。轉變窗段之缺點為需要增加之先行編碼器,從而使得其不適合於低延遲應用。其他方法針對所有變換大小使用固定低窗段重疊以避免對轉變窗段的需要,例如CELT[2]。然而,低重疊減小頻率分離,該頻率分離使 色調信號的寫碼效率降級。在[3]中給出將不同變換及重疊長度用於對稱重疊的改良之瞬時切換方法。[6]展示用於使用低重疊正弦窗段在不同變換長度之間的瞬時切換的實例。
另一方面,低延遲音訊寫碼器常常使用不對稱MDCT窗段,此係由於其顯現延遲與頻率分離之間的良好折衷。在編碼器側,與後續訊框之縮短之重疊用以減小先行延遲,而與先前訊框的長重疊用以改良頻率分離。在解碼器側,使用編碼器窗段的鏡像複製版本。不對稱分析及合成窗段化描繪於圖8a至圖8c中。
發明概要
本發明之目標為提供用於處理音訊信號之經改良概念。
藉由如技術方案1之一種用於處理一音訊信號之裝置、如技術方案17之一種處理一音訊信號的方法或如技術方案18之一種電腦程式實現此目標。
本發明係基於不對稱變換窗段對於以減小之延遲實現靜態信號之良好寫碼效率有用的發現。另一方面,為了具有可撓性變換大小切換策略,針對自一個區塊大小至不同區塊大小之轉變的分析或合成窗段允許使用不對稱窗段之經截斷重疊部分作為窗段邊緣或作為窗段邊緣之基礎而不擾亂完美重建構性質。
因此,不對稱窗段的諸如不對稱窗段之長重疊部 分的經截斷部分可在轉變窗段內使用。然而,為了遵守轉變窗段之必要長度,此重疊部分或不對稱窗段邊緣或側翼經截斷為在轉變窗段約束內可允許的長度。然而,此情形並不違反完美重建構性質。因此,不對稱窗段之窗段重疊部分的此截斷允許短且瞬時之切換轉變窗段而無來自完美重建構側的任何損失。
在其他實施例中,較佳的是不直接使用經截斷重疊部分,而是使藉由截斷考慮中之不對稱窗段重疊部分引起之不連續平滑或漸強或漸弱。
歸因於僅最小量之窗段邊緣或窗段側翼儲存於記憶體中且甚至對於漸強或漸弱使用某一窗段邊緣的事實,另外實施例依賴於高度記憶體節省實施。此等記憶體高效實施另外借助於邏輯或算術運算自所儲存之遞升窗段邊緣建構遞降窗段邊緣或反之亦然,使得諸如遞升或遞降邊緣的僅單一邊緣必須被儲存,且另一者可在運轉中導出。
一實施例包含一種用於處理音訊信號之處理器或方法。該處理器具有一分析器,其用於自該音訊信號導出一窗段控制信號,該窗段控制信號指示音訊信號之分析處理中自一第一不對稱窗段至一第二窗段的一改變。替代地或另外,窗段控制信號在(例如)合成信號處理狀況下指示自一第三窗段至一第四不對稱窗段的一改變。特定言之,對於分析側,第二窗段短於第一窗段,或在合成側上,第三窗段短於第四窗段。
處理器另外包含一窗段建構器,其用於使用第一 不對稱窗段之該第一重疊部分建構該第二窗段或該第三窗段。特定言之,窗段建構器經組配以使用第一不對稱窗段之經截斷第一重疊部分來判定第二窗段之第一重疊部分。替代地或另外,窗段建構器經組配以使用該第四不對稱窗段之一第二重疊部分計算該第三窗段之一第二重疊部分。
最後,處理器具有一窗段化器,其用於尤其在分析處理之情況下應用該第一窗段及該第二窗段,或用於在合成處理狀況下應用該第三窗段及該第四窗段,以獲得經窗段化音訊信號部分。
如所知曉,分析窗段化發生於音訊編碼器的恰好開始處,其中時間離散及時間連續音訊信號樣本的串流藉由窗段序列窗段化,且例如自長窗段至短窗段之切換在分析器實際上偵測音訊信號中之暫態時執行。接著,在窗段化之後,執行自時域至頻域之轉換,且在較佳實施例中,此轉換使用經修改之離散餘弦變換(MDCT)執行。MDCT使用摺疊操作及後續DCT IV變換以便自2N個時域樣本之集合產生N個時域樣本的集合,且此等頻域值接著經進一步處理。
在合成側,分析器並不執行音訊信號之實際信號分析,而是分析器自旁側資訊導出窗段控制信號為經編碼音訊信號,從而指示藉由編碼器側分析器判定的某一窗段序列並傳輸至解碼器側處理器實施。合成窗段化在解碼器側處理之恰好結束時執行,亦即在頻率時間轉換且展開運算之後執行,該展開運算自N個頻譜值之集合產生2N個時 域值之集合,該等時域值接著經窗段化且在使用本發明之截斷窗段邊緣進行合成窗段化之後,按需要執行重疊相加。較佳地,50%重疊用於分析窗段之定位且在使用合成窗段進行合成窗段化之後用於實際重疊相加。
因此,本發明之優點為,本發明依賴於不對稱變換窗段,其以減少之延遲具有對靜態信號的良好寫碼效率。另一方面,本發明允許用於暫態信號之高效寫碼的可撓性變換大小切換策略,其並不增加總寫碼器延遲。因此,本發明依賴於用於長變換之不對稱窗段及用於短窗段之對稱重疊範圍之可撓性變換/重疊長度切換概念的組合。短窗段可為充分對稱的從而在兩側上具有相同對稱重疊,或可為不對稱的從而具有與先前窗段之第一對稱重疊及具有與後續窗段的第二不同對稱重疊。
本發明具體言之為有利的在於,藉由使用來自不對稱長窗段之經截斷重疊部分,任何寫碼器延遲或所要求之先行寫碼器歸因於如下事實並不增加:自具有不同區塊大小之窗段的任何轉變並不要求任何額外長轉變窗段的插入。
100、154‧‧‧音訊信號
102‧‧‧可控制窗段化器
103‧‧‧經窗段化樣本區塊/經窗段化音訊信號
104‧‧‧轉換器/區塊
105‧‧‧頻譜值/編碼器
106‧‧‧暫態位置偵測器/解碼器
108‧‧‧控制器
110‧‧‧編碼處理器/區塊
112‧‧‧窗段資訊
114‧‧‧輸出介面
115‧‧‧經編碼音訊信號
150、200‧‧‧輸入
152‧‧‧輸入介面
156‧‧‧解碼器或解碼處理器
158‧‧‧可控制轉換器
160‧‧‧窗段資訊
170‧‧‧頻率-時間轉換器
172‧‧‧合成窗段化器
174‧‧‧最終重疊加法器
175‧‧‧輸出
195‧‧‧編碼器
196‧‧‧解碼器
197‧‧‧單一記憶體/唯讀記憶體
202‧‧‧分析器
204‧‧‧窗段控制信號
206‧‧‧窗段建構器
208‧‧‧窗段化器
210‧‧‧輸出/經窗段化音訊信號
214‧‧‧解碼器處理器
300‧‧‧記憶體
302‧‧‧窗段部分截斷器
304‧‧‧衰減器
308、312‧‧‧擷取線路
310‧‧‧項
314‧‧‧存取線路
316‧‧‧經截斷重疊部分或窗段邊緣
318‧‧‧輸出線路
401‧‧‧另一對稱重疊部分
402‧‧‧另一窗段
403‧‧‧第一窗段
404‧‧‧第四窗段
500~514、600~612、700~ 714‧‧‧步驟
800、812、902、922、1000、1100‧‧‧第一重疊部分
802、814、904、926、1102‧‧‧第二重疊部分
804‧‧‧具有高值之另一部分
806‧‧‧具有低值的另一部分
807‧‧‧先前不對稱分析窗段
808‧‧‧後續分析窗段
810、1012、1331‧‧‧第一部分
816、924‧‧‧恆定或高部分
819‧‧‧合成窗段
820‧‧‧後續合成窗段
821、822‧‧‧摺疊部分
823、824、910、911、1104、1106‧‧‧摺疊線
900、1131‧‧‧第一低或零部分
906‧‧‧高或恆定部分
908‧‧‧另一低或零部分
912、913‧‧‧線
915、1135‧‧‧標記
920‧‧‧零部分
928‧‧‧第二零或低部分
929、1136‧‧‧左側折入部分
930、1137‧‧‧右側折入部分
1004‧‧‧左側摺疊線
1006‧‧‧右側摺疊線
1008、1010‧‧‧折入部分
1014‧‧‧未經修改之第二部分
1020、1202、1212、1302‧‧‧右側重疊部分
1022、1130、1200、1210‧‧‧左側重疊部分
1101‧‧‧高部分
1104、1106‧‧‧摺疊線
1132‧‧‧第二高或恆定部分
1133‧‧‧第三或低部分
1134‧‧‧第二重疊部分
1150‧‧‧截斷
1214‧‧‧左側低或零部分
1216‧‧‧中間高或恆定部分
1218‧‧‧右側低或零部分
1300‧‧‧左側長重疊部分
1310‧‧‧左側重疊
1312‧‧‧右側重疊
1314‧‧‧第一低部分
1316‧‧‧第二高部分
1318‧‧‧第三低部分
1330‧‧‧第二重疊部分
1332‧‧‧第二部分
1340‧‧‧第一重疊部分
1342‧‧‧第二重疊部分
1400、1500‧‧‧第一不對稱窗段函數/第一窗段
1402‧‧‧第二窗段
1410、1460‧‧‧後繼窗段
1450、1550‧‧‧第三窗段/第三窗段函數
1452、1552‧‧‧第四窗段
1502、1504、1506、1508、1510、1554、1556、1558、1560‧‧‧窗段
隨後關於附圖論述本發明的較佳實施例,其中:圖1a說明用於在經截斷重疊部分之情形下進行編碼的態樣;圖1b說明用於在使用經截斷重疊部分情況下中進行解碼的設備; 圖1c說明合成側之更詳細說明;圖1d說明具有編碼器、解碼器及記憶體之行動裝置的實施;圖2說明本發明的針對分析側(狀況A)或合成側(狀況B)之一個較佳實施例;圖3說明窗段建構器的較佳實施;圖4說明圖3之記憶體內容的示意性說明;圖5說明用於判定分析轉變窗段之第一重疊部分與第二重疊部分的較佳程序;圖6說明用於判定合成轉變窗段之較佳程序;圖7說明具有小於最大長度之截斷的另一程序;圖8a說明不對稱分析窗段;圖8b說明不對稱合成窗段;圖8c說明具有折入部分的不對稱分析窗段;圖9a說明對稱分析/合成窗段;圖9b說明具有對稱但不同重疊部分之另一分析/合成窗段;圖9c說明具具有不同長度之對稱重疊部分的另一窗段;圖10a說明諸如具有經截斷第一重疊部分之第二窗段的分析轉變窗段;圖10b說明具有經截斷且漸強之第一重疊部分的第二窗段;圖10c說明圖10a的在先前及後續窗段之對應重疊部分 情況下的第二窗段;圖10d說明圖10c的但具有漸強之第一重疊部分的情形;圖11a說明分析側之具有漸強的不同轉變窗段;圖11b說明具有高於必要截斷之截斷及對應另一修改的另一分析轉變窗段;圖12a、圖12b說明自小的區塊大小至大的區塊大小之轉變的分析轉變窗段;圖13a、圖13b說明自大的區塊大小至小的區塊大小的合成轉變窗段;圖13c說明諸如第三窗段的具有經截斷第二重疊部分的合成轉變窗段;圖13d說明圖13c但無漸弱的窗段;圖14a說明某一分析窗段序列;圖14b說明對應合成窗段序列;圖15a說明某一分析窗段序列;圖15b說明匹配至圖15a之對應合成窗段序列;且圖16說明使用僅對稱重疊的不同變換長度之間的瞬時切換之實例。
較佳實施例之詳細說明
實施例係關於用於在不需要插入中間訊框情況下將使用不對稱窗段之長MDCT變換瞬時切換至具有對稱地重疊之窗段的更短變換之概念。
當使用更短變換長度建構用於第一訊框的窗段形狀時,兩個約束成為問題:
●窗段之左側重疊部分需要以一方式與先前不對稱窗段的形狀匹配,使得實現完美或幾乎完美重建構。
●重疊部分之長度歸因於更短之變換長度而受到約束。
長的不對稱窗段之左側重疊部分將滿足第一條件,但其對於較短變換過長,該等較短變換通常具有長變換的大小的一半或一半以下的大小。因此,需要選擇較短之窗段形狀。
本文中假設,不對稱分析及合成窗段對於彼此為對稱的,亦即,合成窗段為分析窗段的鏡像複製版本。在此狀況下,窗段w必須滿足用於完美重建構的以下等式:w n w 2L-1-n +w L+n w L-1-n =1,n=0...L-1,其中L表示變換長度,且n表示樣本索引。
為了延遲減小,已縮短了不對稱長分析窗段的右側重疊,其意謂所有最右窗段樣本具有為零的值。自以上等式可看出,若窗段樣本w n 具有為零的值,則可選擇任意值用於對稱樣本w 2L-1-n 。若窗段之最右m個樣本為零,則最左m個樣本可因此又在不失去完美重建構情況下由零替換,亦即,左側重疊部分可向下截斷至右側重疊部分的長度。
若經截斷重疊長度足夠短,使得足夠重疊長度剩餘用於第一短變換窗段的右側部分,則此情形給出對第一 短變換窗段形狀的解決方案,從而滿足以上兩個條件。不對稱窗段之重疊部分的左端經截斷並與用於後續短窗段的對稱重疊組合。所得窗段形狀之實例描繪於圖10c中。
使用現有長窗段重疊之經截斷版本避免對設計完全新的窗段形狀用於轉變的需要。其亦減小對實施演算法所在之硬體的ROM/RAM需求,此係由於不需要額外窗段表用於轉變。
對於解碼器側上之合成窗段化,使用對稱方法。不對稱合成窗段在右側具有長重疊。右側重疊部分之經截斷版本因此在切換回至具有不對稱窗段之長變換之前用於上一短變換的右側窗段部分,如圖13d中所描繪。
如上文所展示,若頻譜資料在分析與合成變換之間並未予以修改,則使用長窗段的經截斷版本允許時域信號的完美重建構。然而,在音訊寫碼器中,量化經應用至頻譜資料。在合成變換中,所得量化雜訊由合成窗段塑形。由於長窗段之截斷在窗段形狀中引入步階,因此不連續可出現於輸出信號的量化雜訊中。此等不連續可變得作為類似於滴答的偽影而可聽到。
為了避免此等偽影,漸弱可應用至經截斷窗段之末端以使轉變平滑化為零。漸弱可以若干不同方法進行,例如,漸弱可經線性、正弦或餘弦塑形。漸弱之長度應經選擇為足夠大,使得可聽偽影不出現。在失去完美重建構情況下可用於漸弱的最大長度藉由短變換長度及窗段重疊之長度來判定。在一些狀況下,可用長度可能為零或過小 以抑制偽影。對於此等狀況,可為有益的是延伸漸弱長度並接受小的重建構誤差,此係由於此等誤差相較於量化雜訊中的不連續常常引起較少擾亂。仔細地調諧漸弱長度允許對重建構誤差與量化誤差不連續做交換,以便實現最好音訊品質。
圖10d描繪藉由使窗段之經截斷末端與正弦函數相乘而進行的具有短漸弱之經截斷重疊的實例。
隨後,圖2經論述以便描述根據本發明之實施例的用於處理音訊信號之處理器。音訊信號在輸入200處提供至分析器202中。分析器經組配從而自輸入200處的音訊信號導出窗段控制信號204,其中窗段控制信號指示如(例如)由圖14a或圖15a中之第一窗段1400或1500說明的自第一不對稱窗段至第二窗段的改變,其中在此實施例中,第二窗段為圖14a中之窗段1402或圖15a中的窗段1502。替代地且關於合成側處之操作,窗段控制信號204再次例示性指示自諸如圖14b中之1450或圖5b中之1550的第三窗段至諸如圖14b中之1452或圖15b中的1552的第三窗段的改變。如所說明,諸如1402之第二窗段短於第一窗段1400,或諸如1450或1550的第三窗段短於諸如1452或1552的第四窗段。
處理器進一步包含窗段建構器206,其用於使用第一不對稱窗段之第一重疊部分建構第二窗段,其中此窗段建構器經組配以使用針對合成側之第一不對稱窗段的經截斷第一重疊部分判定第二窗段的第一重疊部分,亦即,圖2中的狀況B。窗段建構器經組配以使用第一窗段(亦即, 不對稱窗段)之經截斷第二重疊部分來計算諸如1502或1550之第三窗段的第二重疊部分。
諸如分析側上之第二窗段或合成側上之第三窗段及當然先前及/或後續窗段的此等窗段自窗段建構器206傳輸至窗段化器208。窗段化器208將第一及第二窗段或第三及第四窗段應用至音訊信號以便在輸出210處獲得信號部分。
狀況A係關於分析側。此處,輸入為音訊信號,且實際分析器202執行諸如暫態分析等的實際音訊信號分析。第一及第二窗段為分析窗段,且經窗段化信號經編碼器側處理,如稍後關於圖1A將論述。
因此,說明於圖2中之解碼器處理器214經繞過或實際上不存在於狀況A中。
在狀況B中,亦即,在本發明之處理應用於合成側上時,輸入為諸如具有音訊信號資訊及旁側資訊之位元串流的經編碼音訊信號,且分析器202執行位元串流分析或位元串流或經編碼信號剖析以便自經編碼音訊信號擷取指示由編碼器應用之窗段序列的窗段控制信號,自該窗段控制信號可導出由解碼器應用的窗段序列。
接著,第三及第四窗段為合成窗段,且經窗段化信號出於如圖1B或圖1C中說明的音訊信號合成之目的而經受重疊相加處理。
圖1a說明用於編碼音訊信號100的設備。用於編碼音訊信號的設備包含可控制窗段化器102,該可控制窗段 化器用於使音訊信號100窗段化以在103處提供一連串經窗段化樣本區塊。此外,編碼器包含轉換器104,該轉換器用於將一連串經窗段化樣本區塊103轉換成包含以105指示之一連串頻譜值訊框的頻譜表示。此外,提供暫態位置偵測器106。該偵測器經組配用於識別暫態在訊框之暫態預見區內的位置。此外,用於控制可控制窗段化器的控制器108經組配用於回應於在107處所說明的暫態之所識別位置而將具有指定重疊長度之特定窗段應用於音訊信號100。此外,在一實施例中,控制器108經組配以不僅將窗段資訊112提供至可控制窗段化器102,而且提供至輸出介面114,該輸出介面在其輸出處提供經編碼音訊信號115。包含一連串頻譜值訊框105的頻譜表示係輸入於編碼處理器110中,該編碼處理器可執行諸如預測操作、時間雜訊塑形操作、較佳關於音質模型或至少關於音質原理之量化操作的任何種類之編碼操作,或可包含諸如霍夫曼編碼操作或算術編碼操作之冗餘減少編碼操作。編碼處理器110之輸出接著係轉遞至輸出介面114,且輸出介面114接著最終提供使某一窗段資訊112關聯至每一經編碼訊框之經編碼音訊信號。
控制器108經組配以自至少三個窗段之一群選擇特定窗段。該群包含具有第一重疊長度之第一窗段、具有第二重疊長度之第二窗段,及具有第三重疊長度或無重疊的第三窗段。第一重疊長度大於第二重疊長度,且第二重疊長度大於零重疊。特定窗段藉由可控制窗段化器102基於暫態位置進行選擇,使得兩個時間鄰接重疊窗段中之一者 在暫態之位置處具有第一窗段係數,且兩個時間鄰接重疊窗段中之另一者在暫態之位置處具有第二窗段係數,且第二窗段係數比第一係數大至少9倍。此情形確保暫態實質上由具有第一(小)係數的第一窗段抑制,且暫態很少受具有第二窗段係數之第二窗段影響。較佳地,第一窗段係數在+/-5%(諸如0.95與1.05之間)之容許度內等於1,且第二窗段係數較佳等於0或至少小於0.05。窗段係數又可為負的,且在此狀況下,窗段係數之關係及數量係關於絕對量值。
此外,替代地或此外,控制器108包含如在圖2之情形下所論述的窗段建構器206之功能性,且稍後將予以論述。此外,暫態位置偵測器106可經實施,且對於狀況A(亦即,對於分析側上之窗段的應用)可具有圖2之分析器202的功能性。
此外,區塊104及110說明待由經窗段化音訊信號210執行的處理,其對應於圖1A中的經窗段化音訊信號103。此外,儘管在圖2中未具體指示,但窗段建構器206將圖1A之窗段資訊112提供至輸出介面114,其可接著由在解碼器側上操作(亦即對於狀況B)的分析器202而自經編碼信號恢復。
如MDCT處理之技術中所知曉,大體而言,使用混疊引入變換進行的處理,此混疊引入變換可使用某一非混疊引入變換被分離成折入步驟及後續變換步驟。在實例中,區段折入其他區段,且摺疊操作之結果接著使用諸如DCT變換之變換經變換至頻譜域中。在MDCT之狀況下,應 用DCT IV變換。
隨後,此情形參考MDCT例示,但可以類似及相似方式處理其他混疊引入變換。作為交疊變換,MDCT相比於其他傅里葉相關變換稍有不尋常在於,其具有多達輸入之一半的輸出(而非相同數目個輸出)。特定言之,其為線性函數FR 2N R N (其中R表示實數之集合)。根據如下公式將2N個實數x0......x2N-1變換成N個實數X0......XN-1:
(在此變換之前,正規化係數(此處為單位)為任意約定且在處理之間不同。下文僅約束MDCT及IMDCT之正規化的乘積。)
反MDCT稱為IMDCT。因為存在不同數目個輸入及輸出,所以乍看之下似乎MDCT不應係可逆的。然而,藉由相加時間鄰近重疊區塊之重疊IMDCT來實現完美可逆性,從而導致錯誤消除並擷取原始資料;此技術稱為時域混疊消除(TDAC)。
IMDCT根據如下公式將N個實數X0......XN-1變換成2N個實數y0......y2N-1:
(類似於DCT-IV、正交變換,反向具有相同於前向變換之形式。)
在具有常見窗段正規化之經窗段化MDCT的狀 況下(參見下文),應將IMDCT前面的正規化係數乘以2(亦即,變成2/N)。
在典型信號壓縮應用中,藉由使用乘以上文之MDCT及IMDCT公式中之xn及yn的窗段函數wn(n=0......2N-1)進一步改良變換性質,以便藉由使函數在彼等點處平穩地歸零而避免n=0及2N之邊界處的不連續。(亦即,在MDCT之前且在IMDCT之後窗段化資料。)原則上,x及y可具有不同窗段函數,且窗段函數亦可在區塊間改變(尤其在組合具有不同大小之資料區塊的狀況下),但為簡單起見考慮用於相等大小區塊之相同窗段函數的常見狀況。
對於對稱窗段wn=w2N-1-n,只要w滿足如下Princen-Bradley條件,則變換保持可逆(亦即,TDAC起作用):
使用各種窗段函數。藉由如下方程式給出產生稱為調變型交疊變換之形式的窗段
且該窗段用於MP3及MPEG-2 AAC,且
用於Vorbis。AC-3使用Kaiser-Bessel導出(KBD)窗段,且MPEG-4 AAC亦可使用KBD窗段。
應注意,應用於MDCT之窗段不同於用於一些其 他類型之信號分析的窗段,此係由於其必須滿足Princen-Bradley條件。對於此差異之原因中的一者為應用MDCT窗段兩次,用於MDCT(分析)及IMDCT(合成)兩者。
如藉由檢驗定義可看出,對於偶數N,MDCT基本上等效於DCT-IV,其中輸入經移位N/2且將兩個N資料區塊經變換一次。藉由較仔細地檢查此等效,可容易地導出類似TDAC之重要性質。
為了定義與DCT-IV之精確關係,必須認識到DCT-IV對應於交替之偶數/奇數邊界條件:偶數在其左側邊界處(大約n=-1/2),奇數在其右側邊界處(大約n=N-1/2)等等(而非就DFT而言之週期性邊界)。此情形自以下恆等式得出:
因此,若其輸入係長度為N之陣列x,則可想像將此陣列延伸至(x、-xR、-x、xR......)等等,其中xR指示呈反向次序之x。
考慮具有2N個輸入及N個輸出之MDCT,其中將輸入劃分成各自具有大小N/2的四個區塊(a、b、c、d)。若將此等區塊向右移位N/2(自MDCT定義中的+N/2項),則(b,c,d)延伸越過N DCT-IV輸入的末端,因此必須根據上述邊界條件將其「摺疊」回。
因此,具有2N個輸入(a、b、c、d)之MDCT準確地等效於具有N個輸入:(-cR-d、a-bR)之DCT-IV,其中R指示如上文之反向。
(以此方式,用以計算DCT-IV之任何演算法皆可直觀地應用於MDCT。)
類似地,上文之IMDCT公式精確地為DCT-IV之1/2(其為其自身之反向),其中輸出延伸至(經由邊界條件)長度2N並向左移位回N/2。反DCT-IV將簡單地自上文給還輸入(-cR-d、a-bR)。當經由邊界條件延伸並移位此輸入時,獲得:IMDCT(MDCT(a,b,c,d))=(a-bR,b-aR,c+dR,d+cR)/2。
因此,一半之IMDCT輸出係冗餘的,此係由於b-aR=-(a-bR)R,且對於最後兩個項亦同樣如此。若將輸入分組成大小為N的較大區塊A、B,其中A=(a,b)且B=(c,d),則可以更簡單方式撰寫此結果:IMDCT(MDCT(A,B))=(A-AR,B+BR)/2
現在可理解TDAC工作之方式。假設計算時間鄰近之50%重疊的2N區塊(B,C)之MDCT。相似於上文之IMDCT,將接著產生:(B-BR,C+CR)/2。當將此結果與先前一半重疊中之IMDCT結果相加時,反向項消除且簡單地獲得B,從而復原原始資料。
術語「時域混疊消除」之起源現在為清楚的。延伸超出邏輯DCT-IV之邊界的輸入資料之使用使得資料以 與超出奈奎斯頻率之頻率經混疊以減低頻率之方式相同的方式經混疊,唯此混疊發生於時域而非頻域外:吾人不可區分a及bR對(a,b,c,d)之MDCT或等效地對IMDCT(MDCT(a,b,c,d))=(a-bR,b-aR,c+dR,d+cR)/2的貢獻。當相加組合c-dR等等時,其精確地具有用於組合以進行消除之正確正負號。
對於奇數N(其很少用於實踐),N/2並非整數,因此MDCT並非簡單地為DCT-IV之移位置換。在此狀況下,額外移位樣本達一半意謂MDCT/IMDCT變得等效於DCT-III/II,且分析相似於上文。
上文中吾人已出具有2N個輸入(a,b,c,d)之MDCT等效於具有N個輸入(-cR-d,a-bR)的DCT-IV。DCT-IV經設計以用於如下狀況,其中右側邊界處之函數為奇數,且因此靠近右側邊界之值接近於0。若輸入信號平滑,則為如下狀況:a及bR之最右分量在輸入序列(a,b,c,d)中連續,且因此其差異為小的。使吾人查看區間之中間:若重寫以上表達式為(-cR-d,a-bR)=(-d,a)-(b,c)R,則第二項(b,c)R給出中間中的平滑轉變。然而,在第一項(-d,a)中,存在-d之右端相接a之左端的潛在不連續。此為使用減少靠近輸入序列(a,b,c,d)朝向0之邊界的分量之窗段函數的原因。
在上文中,已針對普通MDCT證明了TDAC性質,從而展示相加其一半重疊中的時間鄰近區塊之IMDCT能復原原始資料。導出經窗段化MDCT之此反性質僅略微較複雜。
考慮用於具有大小N之區塊A、B、C的2N個輸入兩個之重疊連續集合(A,B)及(B,C)。自上文想起,當(A,B)及(B,C)經MDCT、IMDCT處理並在其重疊一半相加時,獲得(B+B R )/2+(B-B R )/2=B(原始資料)。
現在假設,使MDCT輸入及IMDCT輸出兩者皆乘以長度為2N之窗段函數。如上文一般,假定對稱窗段函數,該函數因此具有(W,W R )之形式,其中W為長度N型向量且R如前所述地表示反向。接著,可將Princen-Bradley條件書寫為,其中逐元素地執行平方及加法。
因此,吾人現在對(WA,WRB)進行MDCT運算而非對(A,B)進行MDCT運算,其中逐元素地執行所有乘法。當此經IMDCT運算並再次乘以(逐元素地)窗段函數時,最後一半N變成:
(應注意,不再乘以1/2,此係因為IMDCT正規化不同於窗段化狀況中之因數2。)
類似地,(B,C)之經窗段化MDCT及IMDCT在其前一半N中產生:W.(WB-W R B R )=W 2 B-WW R B R
當將此等兩半相加在一起時,復原原始資料。
以上MDCT論述描述相同分析/合成窗段。對於不對稱窗段,分析/合成窗段不同,但較佳地對稱於彼此;在該狀況下,Princen-Bradley條件改變為更一般等式:w n w 2L-1-n +w L+n w L-1-n =1,n=0...L-1, 圖1b說明解碼器實施,其具有:用於經編碼信號之輸入150,一方面用於提供呈經編碼形式之音訊信號154且另一方面用於提供旁側資訊至分析器202的輸入介面152。分析器202自經編碼信號150提取窗段資訊160,並將此窗段資訊提供至窗段建構器206。此外,經編碼音訊信號154輸入至對應於圖2中之解碼器處理器214的解碼器或解碼處理器156中,且窗段建構器206提供窗段至可控制轉換器158,其經組配用於執行IMDCT或IMDST或為與混疊引入正變換的逆變換的任何其他變換。
圖1c說明可控制轉換器158之解碼器側較佳實施。詳言之,可控制轉換器158包含頻率-時間轉換器170、隨後連接之合成窗段化器172及最終重疊加法器174。具體言之,頻率-時間轉換器執行諸如DCT-IV變換的變換及後續折出操作,使得在至頻率-時間轉換器170的輸入例示性地為N個頻譜值同時,頻率-時間轉換器之輸出對於第一或長窗段具有2N個樣本。另一方面,當至頻率-時間轉換器之輸入為N/8個頻譜值時,接著輸出例示性地對於MDCT運算為N/4個時域值。
接著,頻率-時間轉換器170之輸出被輸入至合成窗段化器,該合成窗段化器應用較佳對於編碼器側窗段對稱的合成窗段。因此,每一樣本在執行重疊相加之前藉由兩個窗段來窗段化,使得所得「總窗段化」為分析窗段係數與合成窗段係數的乘積,使得如之前所論述的Princen-Bradley條件被滿足。
最終,重疊加法器174執行對應正確重疊加法以便最終在輸出175處獲得經解碼音訊信號。
圖1d說明藉由行動裝置實施的本發明之另一實施例,其中該行動裝置一方面包含編碼器195且另一方面包含解碼器196。此外,根據本發明之較佳實施例,編碼器105及解碼器106兩者皆自僅單一記憶體197擷取相同窗段資訊,此係由於用於編碼器195中之窗段及用於解碼器196中的窗段對於彼此為對稱的。因此,解碼器具有唯讀記憶體197或隨機存取記憶體或通常任何記憶體197,在該任何記憶體中,僅窗段序列或窗段之單一集合經儲存用於編碼器及解碼器兩者中。此情形歸因於如下事實而為有利的:不同窗段之不同窗段係數並非必須儲存兩次,其中一個集合用於編碼器且一個集合用於解碼器。實情為,歸因於根據本發明相同窗段及窗段序列用於編碼器及解碼器中的事實,僅必須儲存窗段係數之單一集合。因此,說明於圖1d中的本發明之行動裝置的記憶體使用量實質上關於如下不同概念而被減小:編碼器及解碼器具有不同窗段,或執行具有不同於窗段化操作之處理的某後處理。
隨後,關於圖8a論述較佳窗段。該較佳窗段具有第一重疊部分800、第二重疊部分802、具有高值之另一部分804及具有低值的另一部分806。部分804之高值為1.0值或至少大於0.95,且低部分806中之低值等於0.0且較佳低於0.1。在實施例中,不對稱分析窗段之長度為40ms,且此情形歸因於較佳使用50%重疊加法之事實而導致20ms的區塊 大小。然而,又可使用其他重疊比率等。
在此特定實施中,第一重疊部分800大於允許低延遲實施之第二重疊部分802,且另外在低部分806在第二重疊部分之前的情形下,說明於圖8a中的不對稱分析窗段歸因於零部分及短的第二重疊部分802允許低延遲濾波,且另外歸因於長的第一重疊部分800而具有相當良好之分離。然而,此長重疊歸因於長重疊部分係處於不對稱分析窗段之第一半處的事實並不引起任何額外延遲。在特定實施例中,第一重疊部分800等於14.375ms,第二非重疊部分或高部分等於11.25ms,第三部分或第二重疊部分802等於等於8.75ms,且最終第四部分或低部分等於5.625ms。
圖8b說明對應不對稱合成窗段,其現具有零或低部分作為第一部分810,其接著具有第一重疊部分812、第二重疊部分814及指示於第一重疊部分812與第二重疊部分814之間的恆定或高部分816。
對應部分之例示性長度經指示,但通常較佳的是第一重疊部分812短於第二重疊部分814,且此外較佳的是恆定或高部分816之長度是在第一重疊部分之長度與第二重疊部分之間,且此外較佳的是第一部分810或零部分的長度低於第一重疊部分812的長度。
如圖8a中所說明,較佳的是第一重疊部分800之長度高於第二重疊部分802的長度,且高部分804之長度是在第二重疊部分802之長度與第一重疊部分800之間,且第四部分806之長度低於第二重疊部分802的長度。
圖8a及圖8b此外說明該狀況的與先前不對稱分析窗段807及與後續分析窗段808的重疊,當僅使用長區塊且任何切換不由圖2之窗段控制信號204指示時。
類似地,圖8b說明與先前合成窗段819及後續合成窗段820的對應合成序列。
此外,圖8c說明圖8a之相同分析窗段,但現具有摺疊部分821、822,該等摺疊部分在編碼器側上於折入操作中摺疊,或在解碼器側上在折出中「展開」。此等摺疊821、822可考慮為沿著摺疊線823及824發生,且此等線亦說明於圖8a、圖8b中,且看來摺疊線在圖8a及圖8b中並不直接與之窗段的交叉點相符。此係歸因於圖8a中之分析窗段或圖8b中之合成窗段的不對稱特性。
圖9a說明針對10ms區塊長度具有3.75ms之重疊的對稱分析/合成窗段。對稱分析窗段包含第一低或零部分900、第一重疊部分902、第二重疊部分904、高或恆定部分906及另一低或零部分908。此外,圖9a說明摺疊線910、911,其中執行由諸如MDCT或MDST之混疊引入變換需要的摺疊操作。特定言之,折入操作對編碼器側處理執行,且折出處理對解碼器側音訊處理執行。因此,線912、913說明摺疊部分,該等摺疊部分具有對應於關於左側之部分900及關於右側之908的減少部分及後續零部分。因此,標記915說明左側折入部分912及右側折入部分913之間的邊界。
在此情形下,概述,圖9a說明真實對稱之分析或 合成窗段,此係由於左側重疊部分及右側重疊部分對於彼此為對稱的,亦即在此實施例中具有為3.75ms的相同重疊長度。大體而言,較佳的是當兩個零部分900、908具有相同長度時,具有小於重疊部分902、904的零部分900、908,且因此高部分906具有為單一零部分之長度的兩倍之長度。
圖9b說明具有對稱重疊之窗段,然而,其在左側上及右側上不同。詳言之,相似於圖9a,此窗段具有零部分920、第一重疊部分922、恆定或高部分924、第二重疊部分926及第二零或低部分928。再者,指示摺疊線910及911,且再者標記915指示左側折入部分929與右側折入部分930之間的邊界。如所說明,左側重疊部分922係針對諸如1.25ms之短重疊,且右側重疊部分926係針對諸如3.75ms的較長重疊。因此,此窗段為來自藉由短重疊窗段至較高重疊窗段之窗段化的轉變窗段,但兩個此等窗段為具有對稱重疊的窗段。
圖9c說明另一窗段,但具有對應於如所指示之10ms之持續時間的5ms之區塊大小。此窗段類似於圖9b,但具有實質上不同的時間長度,且圖9中的窗段因此具有短持續時間但再次具有零部分、具有短重疊之左側重疊部分、高部分、後續第二重疊部分及最終零部分的序列。此外,摺疊線及折入部分等再次指示於圖9c中。
通常,來自圖8a至圖15b的多數窗段圖已指示了諸如圖9a之910及911的摺疊線,且另外具有諸如圖9a中之912及913的摺疊外部窗段部分。
此外,概述,對應變換長度對應於摺疊點之間的距離。舉例而言,當考慮圖9a時,變得清楚的是,變換長度對應於具有15ms與5ms之間的差異的10ms。因此,變換長度對應於圖9a及其他圖中的「區塊」之記法。然而,另一方面,實際窗段化時間部分為圖9a之實施例中的諸如20ms之變換或區塊長度的兩倍。
對應地,圖9c中之窗段具有5ms之變換長度,其對應於如圖9c中所說明的10ms之窗段時間部分的長度。
在說明於圖8a中之不對稱狀況下,變換長度或區塊大小再次為諸如823及824之摺疊線之間的距離,且因此為20ms,且窗段時間部分的長度為40ms。
完美重建構所要求為在諸如800或814之不對稱窗段的長重疊部分或窗段邊緣(對於合成側)經截斷時維持摺疊線或摺疊點。
此外,如具體關於圖4將具體概述,本發明使用六個不同取樣速率,且窗段邊緣或窗段側翼之長度以一方式經選擇,使得長度對應於針對每一取樣速率之取樣值的整數。
此外,概述,對於10ms變換而言,使用3.75ms之重疊或1.25ms的重疊。因此,甚至多於說明於自圖8a至圖15b之窗段圖中之組合的組合有可能且有用,並可藉由窗段控制信號發信以便確保最佳窗段序列經選擇用於在特定部分處具有暫態部分的某一音訊信號。
圖10a說明此轉變窗段或較長第一窗段之後的第 二窗段。在圖10a中,左側已自係14.375ms之不對稱分析窗段800之長邊緣的原始長度經截斷為8.75ms的長度。因此,圖10a說明藉由自第一不對稱窗段之第一重疊部分800的截斷導出之第一重疊部分1000。此外,圖10a之分析轉變窗段另外包含為1.25ms之右側重疊部分,亦即,短的重疊部分1002。窗段用於對應於10ms之窗段長度的5ms之區塊大小。摺疊線以4.375ms(亦即,1004)指示,且在1006處說明為9.375ms。此外,說明左側摺疊線1004之折入部分1008及右側摺疊線1006的折入部分1010。
圖10b說明使用漸強之較佳實施例的實施。因此,第一重疊部分具有不同之第一部分1012及未經修改之第二部分1014,其皆對應於圖10a的第一重疊部分1000。窗段關於圖10a並非不同。較佳地,為了計算圖10b中於1012處指示的第一重疊部分之第一部分,使用1.25ms之正弦重疊部分,亦即(例如)圖9b中指示於922處的部分。因此,獲得極其良好之漸強特性,其中短窗段之第一重疊部分922在某種意義上經「回收」。因此,此窗段部分並非僅如在圖9b之狀況下用於窗段化,而是另外用於分析轉變窗段的實際計算以便減小由截斷引起的偽影。儘管完美重建構特性僅在使用圖10a之實際經截斷第一重疊部分時1000時獲得,但已發現,音訊品質儘管如此仍可藉由使用圖10b中具有漸強部分的轉變窗段來增加。儘管違反了完美重建構性質,但此漸強部分歸因於如下事實而相較於圖10a的實施例仍引起更好音訊品質:消除了圖10a中左側重疊部分1000之左側 處的不連續。儘管如此,若可用且有用,則可使用不同於正弦函數的其他漸強或(關於合成側)漸弱特性。
圖10c說明圖10a之窗段但現處於重疊情形從而指示先前窗段之右側重疊部分1020及後續窗段在1022處之左側重疊部分的表示。通常,右側重疊部分1020為圖8a之不對稱分析窗段的右側部分802,且下一或後續窗段的1022為窗段之第一重疊部分或視具體情況為另一轉變窗段的左側重疊部分。
圖10d說明類似於圖10b但再次具有所指示的先前窗段之第二重疊部分1020及之後窗段之第一重疊部分1022的情形。
圖11a說明另一分析轉變窗段,但相比於圖10a,其中對於自20ms區塊至10ms區塊之轉變,指示自20ms區塊至5ms區塊的轉變。通常,20ms區塊可被認為是長區塊,5ms區塊可被認為是短區塊,且10ms區塊可被認為是中間區塊。第一重疊部分1100已經截斷但僅為短量,且截斷由1150指示。然而,為了進一步改良音訊品質,藉由倍增1.25ms之正弦邊緣獲得的漸強已經應用,且漸強由實線指示。此外,窗段具有高部分1101及第二重疊部分1102,其在此狀況下為具有3.75ms的長重疊部分。因此,圖11a說明自20ms之變換長度至10ms之變換長度的對應於圖2之「第二窗段」的最佳分析轉變窗段,其中左側重疊部分1100藉由不對稱窗段之長邊緣800的儘可能小之截斷來獲得,且其中另外漸強藉由使經截斷邊緣1050乘以1.25ms正 弦邊緣來執行。如所概述,右側重疊為3.75ms。
圖11b說明自20ms變換長度至10ms變換長度(亦即,通常自長變換長度至短變換長度)的轉變之替代性分析轉變窗段。然而,左側重疊藉由截斷不對稱窗段之左側邊緣且藉由另外由使用1.25ms正弦邊緣進行倍增執行漸強而為僅8.75ms。因此,重疊或左側重疊部分1130現如在圖10a之狀況下一般具有8.75ms。為了應用此窗段,執行進一步修改。此等修改為第一低或零部分1131、第二高或恆定部分1132及第三或低部分1133,且第二重疊部分1134類似於圖11a中的對應部分1102,但歸因於第四零或低部分1133向左移位。此外,摺疊線1104、1106經指示且折入部分處的標記1135指示左側折入部分1136與右側折入部分1137之間的邊界。部分1131、1132、1133的長度藉由截斷如在圖11a中一般超過最小可能值來執行的事實來判定。例示性地,部分1131可設定為零,且1132及1133的長度可對應地得以增加。另一方面,1133之長度可設定為零之集合,且因此1131之長度可經對應地增加,或所有部分1131、1132、1133不同於零,但對應長度不同於圖11b的實施例。在所有此等不同窗段實施中,應確保,經由摺疊線1104、1106之摺疊對應地有可能,且b關於圖11a具有如下優點:第一重疊部分1130之計算類似於圖10b之左側部分1014、1012的計算,從而使實際實施容易。然而,當此等問題並非突出的時,則可能使用圖11a之窗段,此係由於第一重疊部分之更長重疊執行更好重建構特性,且甚至更靠近於完美重建構 屬性定則。
圖12a及圖12b說明自較短窗段長度至較長窗段長度的進一步分析轉變窗段。對於自5ms至20ms之轉變,一個此分析轉變窗段說明於圖12a中。左側重疊部分1200係針對(例如)1.25ms之短重疊,且右側重疊部分係針對諸如8.75ms之長重疊,且說明於1202處。圖12b說明自10ms區塊至20ms區塊的其他分析轉變窗段。左側重疊部分指示於1210,且右側重疊部分指示於1212處。左側重疊部分係針對3.75ms之中等重疊,且右側重疊部分係針對8.75ms之長或高重疊。再者,說明摺疊線及折入部分。圖12b使得清楚的是,自10至20ms之分析轉變窗段除重疊部分1210、1212外亦具有左側低或零部分1214、中等高或恆定部分1216及右側低或零部分1218。
圖12a之右側重疊部分1202及圖12b中之右側重疊部分1212對應於圖8a中指示於802處的不對稱分析窗段的短邊緣。
圖13a、圖13b、圖13c及圖13d說明合成側上之情形,亦即,說明依據圖2或狀況B之第三窗段的建構。此外,圖13a中之情形相似於圖12a中的情形。圖13b中情形相似於圖12b中之情形。圖13c中之情形類似於圖10b,且圖13d中之情形類似於圖10c。
詳言之,圖13a說明具有左側長重疊部分1300及右側重疊部分1302及如所指示的對應摺疊線及摺疊部分的自長區塊至短區塊的合成轉變窗段。
圖13b說明自20ms至10ms區塊的合成轉變窗段,其中左側重疊再次為指示於1310處的長重疊,且右側重疊為1312且另外按需要提供第一低部分1314、第二高部分1316及第三低部分1318。
圖13c說明如在圖2(狀況B)之情形下說明的第三合成窗段,其中指示了第二重疊部分1330。其已經截斷為8.75之長度,亦即截斷為圖8b之不對稱合成窗段之右側或第二重疊部分的長度,亦即,右側重疊部分814已經截斷以獲得合成轉變窗段的右側重疊部分1330,且在圖13c的情形下,已基本上類似於關於相對於圖10b之分析側所論述而已執行另一漸弱。此情形依據圖2(狀況B)之第三窗段的第二重疊部分1330的情形,但僅具有截斷而非任何漸弱。因此,圖13c中之第一部分1331類似於圖13d之對應第一部分,但第二部分1332歸因於使下降1.25ms正弦邊緣乘以圖13d之經截斷窗段的漸弱而不同。
此外,圖13d說明圖2之情形下對應於「第四窗段」的下一合成窗段之第一重疊部分1340,且此外,圖13d說明先前窗段(亦即,例如對應於1.25ms之短重疊的由第二重疊部分1330及第一重疊部分1331組成的第三窗段之窗段)的第二重疊部分1342。
儘管未說明,但對應於圖11a、圖11b之情形的合成窗有用,亦即,有或無相似於圖11a之漸強的具有最小截斷之合成窗段,或具有與圖13d中相同種類的截斷但現具有第一及第二零或低部分及中間恆定部分的合成窗段。
圖14a說明具有窗段的分析窗段序列,其中窗段具有長、長、短、短、中間、長及說明於圖14b中之對應合成窗段序列的區塊大小。依據圖2之第二窗段在1402處指示,且此窗段對應於說明於圖10b中的窗段。相對應地,依據圖2的對應於圖14b之第三窗段函數1450的匹配合成窗段為並未說明於特定圖中的合成函數,而是圖11b的分析函數。
此外,在圖15a中,1502具體言之說明於圖11b中,且圖15b之第三窗段函數1550對應於圖13c的合成窗段函數。
因此,圖14a說明自以1406指示之具有20ms的恰第一長不對稱窗段至第一不對稱窗段函數1400的轉變,其中具體言之亦說明圖8a的零部分806。在圖14a中,接著遵循長的不對稱窗段1400,且隨後說明具有經截斷第一重疊部分1402的第二窗段函數。以下窗段1408類似於圖9b中之窗段,且後繼窗段1410對應於圖9c之窗段,且最後窗段1412再次為圖8a的不對稱分析窗段。
圖14b說明對應於圖8b之長合成窗段1454,及再次對應於圖8b之另一不對稱合成窗段1456,且接著說明對應於圖13a的短轉變窗段1458。後繼窗段1460亦為具有對應於圖9c的5ms之區塊大小的短窗段。
圖15a及圖15b說明類似窗段序列,但具有自長窗段至具有10ms之長度的中間窗段之轉變及對應相對轉變。窗段1504及1500對應於圖8a。本發明之經截斷且漸強 窗段1502如下,其繼之以呈所說明次序的窗段1506、1508及1510。窗段1506對應於圖9b中之窗段,但具有至左側之長重疊及至右側的短重疊。窗段1508對應於圖12a中之窗段,且窗段1510再次為長的不對稱窗段。
關於圖15b中之合成窗段序列,存在窗段1554、1556、1558及1560。1554對應於圖8b之合成窗段,且對於窗段1556亦為如此情形。窗段1558為自20至10之轉變,且對應於圖13b。窗段1560為自10至5之轉變,且對應於圖9b,但再次具有重疊至右側的至左側之長重疊。本發明之經截斷且漸弱窗段1550如下,其再次繼之以長的不對稱合成窗段。
隨後,窗段建構器206之較佳實施在圖3之情形下予以論述。詳言之,窗段建構器較佳包含記憶體300、窗段部分截斷器302及衰減器304。取決於在指示(例如)自第一窗段至第二窗段或自第三窗段至第四窗段的轉變之說明於項310處的窗段控制資訊,啟動窗段部分截斷器302。截斷器存取記憶體以便擷取不對稱窗段之部分800,或擷取第四窗段的第二重疊部分814。部分藉由擷取線路308自存儲器300擷取至窗段部分截斷器。窗段部分截斷器302執行截斷至某一長度,諸如如所論述之最大截斷長度或短於最大長度的長度。經截斷重疊部分或窗段邊緣316接著轉遞至衰減器304。衰減器接著執行漸強或漸弱操作,亦即(例如)自說明無漸強之經截斷窗段的圖10c中之窗段到達圖10b中之窗段的操作。為此,衰減器經由擷取線路312自短重疊部分之記 憶體起經由存取線路314存取記憶體。衰減器304接著(例如)藉由使經截斷部分與重疊部分相乘而自線路316起執行與經截斷窗段部分的漸強或漸弱操作。輸出為輸出線路318處的經截斷及衰減部分。
圖4說明記憶體300之較佳實施,由窗段建構器進行之窗段建構及窗段之不同形狀及可能性經最佳化以具有最小記憶體使用量。本發明之較佳實施例允許使用六個取樣速率48kHz、32kHz、25.6kHz、16kHz、12.8kHz或8kHz。對於每一取樣速率,儲存窗段係數或窗段部分之集合。此集合為20ms不對稱窗段之第一部分、20ms不對稱窗段之第二部分、10ms對稱窗段之單一部分(諸如,3.75ms重疊部分)及5ms對稱窗段之單一部分(諸如,1.25ms重疊部分)。通常,10ms對稱窗段之單一部分可為窗段之遞升邊緣,且接著藉由諸如鏡像複製之簡單算術或邏輯運算,可計算遞降部分。替代地,當遞降部分作為單一部分儲存於記憶體300中時,接著可藉由鏡像複製或通常藉由算術或邏輯運算來計算遞升部分。對於5ms對稱窗段之單一部分亦為如此情形。當然,歸因於具有5ms或190ms之長度的所有窗段可在每一側具有諸如3.75ms之中等重疊部分或具有(例如)1.25ms之長度的短重疊部分之事實。
此外,窗段建構器經組配以根據對應於定義規則自身判定特定窗段的低或零部分以及高或為一之部分的長度及位置,如以自圖8a至圖15b之曲線所說明。
因此,出於實施編碼器及解碼器之目的,僅最小 量之記憶體要求有必要。因此,除編碼器及解碼器依賴於同一記憶體300外,甚至不同窗段及轉變窗段等之無效量可僅藉由針對每一取樣速率儲存四個窗段係數集合來實施。
上文概述之變換窗段切換將不對稱窗段用於長變換且將低重疊正弦窗段用於短變換而實施於音訊寫碼系統中。區塊長度對於長區塊為20ms且對於短區塊為10ms或5ms。不對稱分析窗段之左側重疊具有14.375ms之長度,右側重疊長度為8.75ms。短窗段使用3.75ms及1.25ms的重疊。對於編碼器側上自20ms至10ms或5ms變換長度的轉變,不對稱分析窗段之左側重疊部分經截斷為8.75ms,且用於第一短變換的左側窗段部分。1.25ms正弦狀漸強藉由使經截斷窗段之左端與1.25ms遞升短窗段重疊相乘來應用。將1.25ms重疊窗段形狀重新用於漸強避免對額外ROM/RAM表以及對漸強形狀之運行中計算的複雜度的需要。圖14a描繪對具有變換長度序列20ms、5ms、5ms、10ms、20ms之實例的所得窗段序列。
在解碼器側,對於自10ms或5ms至20ms變換長度的轉變,不對稱合成窗段之右側重疊部分經截斷為8.75ms,且用於上一短變換的右側窗段部分。類似於編碼器側上之漸強的1.25ms正弦形狀漸弱應用至窗段的經截斷末端。以上實例的解碼器窗段序列描繪於圖14b中。
圖5說明用於判定第二窗段(亦即,針對圖2之狀況A之分析轉變窗段)的另一實施例之流程圖。在步驟500中,擷取不對稱窗段之第一及第二部分。在步驟502中,建 置不對稱第一分析窗段。因此,產生圖14B之分析窗段1400,或圖15A之窗段1500。在步驟504中,不對稱窗段之第一部分藉由(例如)於圖3中在308處說明的擷取線路來擷取。在步驟506中,截斷長度經判定,且截斷諸如藉由圖3中之窗段部分截斷器302來執行。在步驟508中,5ms對稱窗段之單一部分經擷取,諸如儲存於記憶體300中的項401。在步驟510中,經截斷部分之漸強(例如)藉由圖3中之衰減器304的操作來計算。現在,完成第一重疊部分。在步驟512中,5ms對稱窗段之單一部分經擷取(例如)用於自長窗段至短窗段之轉變,或10ms對稱窗段之單一部分經擷取用於自長窗段至中間窗段的轉變。最終,第二部分藉由邏輯或算術運算自在步驟512中擷取之資料來判定,該操作由步驟514來指示。然而,請注意,當對應對稱窗段的藉由步驟512自圖4中之記憶體300擷取的單一部分已可用作第二部分亦即用作遞降窗段邊緣時,不需要步驟514。
儘管圖5中未明確地說明,但出於其他轉變諸如說明於圖15a中之轉變的目的而需要其他步驟。此處,第一零部分、第二零部分及中間高部分必須由窗段建構器另外插入,而此插入可在判定第二窗段之第一及第二重疊部分之前或之後進行。
圖6說明用於建構諸如第三窗段之對應合成轉變窗段的程序之較佳實施。為此,可執行圖6a中之步驟的程序。在步驟600中,第三窗段之第一重疊部分擷取自記憶體,或若並非以此形式具體可用則藉由算術或邏輯運算自 記憶體中的資料計算,且此操作基於先前窗段進行,此係由於合成窗段之第一重疊部分已藉由先前窗段之重疊固定。不對稱窗段之第二部分(亦即,不對稱合成窗段的長部分)經擷取且在步驟604中判定截斷長度。在步驟606中,此第一部分在需要時經鏡像複製,且接著使用所判定之截斷長度來執行截斷。在步驟608中,對稱窗段之5ms重疊部分之單一部分經擷取,且在步驟608之後,執行經截斷部分之漸弱,如步驟610中所說明。第三窗段之第二重疊部分完成,且隨後不對稱所第四窗段函數的第二及第四部分經擷取,並經應用以最終獲得第四窗段,如由步驟612所指示。
圖7說明用於判定截斷長度的較佳程序。如之前關於圖10b及圖11b所概述,可執行不同截斷長度。可存在至最大截斷長度之截斷,亦即,圖11a之情形;或至小於最大截斷長度之長度的截斷,如圖11b中針對同一情形所說明。為此,圖7中之程序以在步驟700中說明的轉變窗段之長度的指示開始。步驟700因此提供轉變窗段是否是針對10ms之區塊大小(亦即,具有20ms之長度)或更短區塊大小(亦即針對10ms之長度的窗段、針對5ms之區塊大小)的資訊。
接著,在步驟702中,判定窗段之對稱重疊部分的長度。對於分析側,此情形意謂判定第二重疊部分的長度,同時對於合成側,此情形意謂判定第一重疊部分的長度。步驟702確保,確認轉變窗段之「固定」情形,亦即,轉變窗段具有對稱重疊。現在,在步驟704中,判定窗段之第二邊緣或窗段的另一重疊部分。基本上,最大截斷長度 為轉變窗段之長度與對稱重疊部分之長度之間的差異。當此長度大於不對稱窗段之長邊緣的長度時,則截斷根本不必要。然而,當此差異小於不對稱窗段之長邊緣時,則執行截斷。最大截斷長度(亦即,獲得最小截斷藉由之長度)等於此差異。在必要時,至此最大長度之截斷(亦即,最小截斷)可經執行,且可應用某一衰減,如圖11a或圖10b中所說明。如圖11a中所說明,某數目個一被需要以便確保沿著摺疊線1104、1106之摺疊歸因於此等摺疊線在某些實施例中不應經改變的事實而有可能。因此,如圖11a中於1101處所指示的某數目個一對於20至10ms分析轉變窗段有必要,但此等一對於圖10b之20至5ms轉變窗段沒有必要。
然而,步驟704可經繞過,如由708所說明。至小於最大長度之長度的截斷接著在步驟710中執行,從而導致圖11b的情形。剩餘窗段部分必須填充有零及一,且詳言之必須藉由在步驟712中於部分1131及1133處指示的窗段之開頭及末端處插入零來解決。此外,插入對應數目個一以獲得高部分1132必須如714處所指示來執行,以便確保圍繞摺疊點1104及1106的折入恰當地如圖11b中所說明而操作。
因此,部分1131之零的數目等於恰靠近第一重疊部分1130的零之數目,圖11b之部分1133中的零之數目對應於恰靠近於圖11b之第二重疊部分1134的零之數目。接著,摺疊線1104及1106周圍的具有標記1135之摺疊恰當地工作。
儘管已藉由40ms之窗段長度以及20ms之變換 長度作為長窗段、用於中間窗段之10ms之區塊大小及用於短窗段之5ms的區塊大小描述了較佳實施例,但應強調的是可應用不同區塊或窗段大小。此外,應強調的是,本發明亦對於僅兩個不同區塊大小有用,但三個不同區塊大小為較佳的以便具有關於暫態之短窗段函數之極良好替換,如(例如)在另外論述多重疊部分之PCT/EP2014/053287中詳細論述,亦即,於圖15a及圖15b或圖14a及圖14b中序列中發生的兩個以上窗段之間的重疊。
儘管已在區塊表示實際或邏輯硬體組件之方塊圖之上下文中描述本發明,但本發明亦可由電腦實施方法實施。在後一狀況下,區塊表示對應方法步驟,其中此等步驟代表由對應邏輯或實體硬體區塊執行之功能性。
儘管已在設備之上下文中描述一些態樣,但顯而易見,此等態樣亦表示對應方法之描述,其中區塊或裝置對應於方法步驟或方法步驟之特徵。類似地,方法步驟之內容脈絡中所描述之態樣亦表示對應區塊或項目或對應裝置之特徵的描述。可由(或使用)硬體裝置(例如,微處理器、可規劃電腦或電子電路)執行方法步驟中之一些或所有。在一些實施例中,可由此裝置執行最重要之方法步驟中的某一者或多者。
本發明之經傳輸或編碼信號可儲存於數位儲存媒體上或可在諸如無線傳輸媒體之傳輸媒體或諸如網際網路之有線傳輸媒體上傳輸。
取決於某些實施要求,本發明之實施例可以硬體 或軟體實施。可使用其上儲存有電子可讀控制信號、與可程式化電腦系統協作(或能夠協作),使得執行各別方法之數位儲存媒體(例如,軟碟、DVD、Blu-Ray、CD、ROM、PROM及EPROM、EEPROM或快閃記憶體)來執行實施。因此,數位儲存媒體可係電腦可讀的。
根據本發明之一些實施例包含具有電子可讀控制信號之資料載體,該等控制信號能夠與可程式化電腦系統協作,使得執行本文中所描述之方法中的一者。
大體而言,本發明之實施例可實施為具有程式碼之電腦程式產品,當電腦程式產品運行於電腦上時,程式碼操作性地用於執行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。
其他實施例包含儲存於機器可讀載體上、用於執行本文中所描述之方法中的一者的電腦程式。
換言之,因此,本發明方法之實施例為具有當電腦程式運行於電腦上時,用於執行本文中所描述之方法中的一者的程式碼之電腦程式。
因此,本發明方法之另一實施例為包含其上記錄有用於執行本文中所描述之方法中之一者的電腦程式之資料載體(或諸如數位儲存媒體之非暫時性儲存媒體或電腦可讀媒體)。資料載體、數位儲存媒體或記錄媒體通常係有形的及/或非暫時性的。
因此,本發明方法之另一實施例為表示用於執行本文中所描述之方法中的一者的電腦程式之資料串流或信 號序列。資料流或信號序列可(例如)經組配以經由資料通信連接(例如,經由網際網路)而傳送。
另一實施例包含處理構件,例如,經組配或經調適以執行本文中所描述之方法中之一者的電腦或可規劃邏輯裝置。
另一實施例包含電腦,其上安裝有用於執行本文中所描述之方法中之一者的電腦程式。
根據本發明之另一實施例包含經組配以將用於執行本文中所描述之方法中的一者的電腦程式傳送(例如,用電子方式或光學方式)至接收器的裝置或系統。接收器可(例如)為電腦、行動裝置、記憶體裝置或類似者。設備或系統可(例如)包含用於將電腦程式傳送至接收器之檔案伺服器。
在一些實施例中,可程式化邏輯裝置(例如,場可程式化閘陣列)可用於執行本文中所描述之方法的功能性中之一些或所有。在一些實施例中,場可規劃閘陣列可與微處理器協作,以便執行本文中所描述之方法中的一者。通常,該等方法較佳地由任一硬體設備執行。
上文所描述之實施例僅僅說明本發明之原理。應理解,熟習此項技術者將顯而易見對本文中所描述之配置及細節的修改及變化。因此,其僅意欲由接下來之申請專利範圍之範疇限制,而非由借助於本文中實施例之描述及解釋所呈現的特定細節限制。
參考文獻
[1] International Organization for Standardization, ISO/IEC 14496-3, "Information Technology - Coding of audio-visual objects - Part 3: Audio," Geneva, Switzerland, Aug. 2009.
[2] Internet Engineering Task Force (IETF), RFC 6716, "Definition of the Opus Audio Codec," Sep. 2012.
[3] C. R. Helmrich, G. Markovic and B. Edler, "Improved Low-Delay MDCT-Based Coding of Both Stationary and Transient Audio Signals," in Proceedings of the IEEE 2014 Int. Conference on Acoustics, Speech and Signal Processing (ICASSP), 2014 or PCT/EP2014/053287.
200‧‧‧輸入
202‧‧‧分析器
204‧‧‧窗段控制信號
206‧‧‧窗段建構器
208‧‧‧窗段化器
210‧‧‧輸出/經窗段化音訊信號
214‧‧‧解碼器處理器

Claims (18)

  1. 一種用於處理一音訊信號之處理器,其包含:一分析器,其用於自該音訊信號導出一窗段控制信號,該窗段控制信號指示自一第一不對稱窗段至一第二窗段之一改變或用於指示自一第三窗段至一第四不對稱窗段之一改變,其中該第二窗段短於該第一窗段,或其中該第三窗段短於該第四窗段;一窗段建構器,其用於使用該第一不對稱窗段之一第一重疊部分建構該第二窗段,其中該窗段建構器經組配以使用該第一不對稱窗段之一經截斷第一重疊部分判定該第二窗段之一第一重疊部分,或其中該窗段建構器經組配以使用該第四不對稱窗段之一經截斷第二重疊部分計算該第三窗段之一第二重疊部分;以及一窗段化器,其用於應用該第一窗段及該第二窗段或該第三窗段及該第四窗段以獲得經窗段化音訊信號部分。
  2. 如請求項1之處理器,其中該第一窗段及該第二窗段為分析窗段,或該第三窗段及該第四窗段為合成窗段,其中該處理器進一步包含用於進一步處理由該第一窗段及該第二窗段窗段化之樣本的一音訊編碼器,或其中該處理器進一步包含用於將由該第三窗段及該第四窗段窗段化之樣本進行重疊相加的一重疊加法器。
  3. 如請求項1或2之處理器,其中該窗段建構器經組配以藉由截斷該第一窗段之該第一重疊部分且藉由使該經截斷部分漸強來導出該第二窗段之該第一重疊部分,或其中該窗段建構器經組配以藉由截斷該第四窗段之該第二重疊部分且藉由使該經截斷部分漸弱來導出該第三窗段之該第二重疊部分。
  4. 如請求項3之處理器,其中該窗段建構器經組配用於使用一正弦漸強函數或一正弦漸弱函數來執行該漸強或該漸弱。
  5. 如請求項3或4之處理器,其中該窗段建構器經組配以使用由該處理器使用之任何其他窗段之一重疊部分計算該漸強或該漸弱。
  6. 如請求項5之處理器,其中該窗段建構器經組配以使用所使用之所有重疊部分中之一最短重疊部分計算該漸強或該漸弱。
  7. 如前述請求項中任一項之處理器,其進一步包含一記憶體,對於某一取樣速率,該記憶體具有儲存於其上的該第一不對稱窗段之該第一重疊部分、該第一不對稱窗之一第二重疊部分及短於該第一窗段之另一窗段的一第三重疊部分,其中該窗段建構器經組配用於自該記憶體擷取該第一不對稱窗段之該第一重疊部分,用於將該第一重疊部分截斷至短於該第一重疊部分之長度的一長度,用於 擷取該第三重疊部分,以及用於使該經截斷第一部分乘以該第三重疊部分以產生該第二窗段之該第一重疊部分;或其中該窗段建構器經組配用於進行以下操作:自該記憶體擷取該第四不對稱窗段之該第二重疊部分,將所擷取之該第二重疊部分截斷至短於該第二重疊部分之長度的一長度,擷取該第三重疊部分;以及使該經截斷第二重疊部分乘以該第三重疊部分以產生該第三窗段之該第二重疊部分。
  8. 如請求項7之處理器,其中該記憶體此外已儲存甚至另一窗段之一第四重疊部分,該甚至另一窗段具有在該第一窗段之一長度與該另一窗段之一長度之間的一長度。
  9. 如請求項8之處理器,其中該窗段建構器經配置以取決於該窗段控制信號而建構一序列,該序列包含該第一窗段、該第二窗段、使用該第三重疊部分及該第四重疊部分或僅使用該第三重疊部分建構之一額外窗段,及使用該第三重疊部分及該第一窗段之該第二重疊部分的另一額外窗段。
  10. 如前述請求項中任一項之處理器,其中該窗段建構器經組配以使用該經截斷第一重疊部分判定該第一重疊部分,該經截斷第一重疊部分經 截斷至該第一不對稱窗段之一第二重疊部分之一長度,或使用經截斷至該第四不對稱窗段之該第一重疊部分之一長度的該第四窗段之一第二重疊部分判定該第三窗段之該第二重疊部分。
  11. 如前述請求項中任一項之處理器,其中該窗段建構器經組配以使用該第一重疊部分及一第二重疊部分判定該第二窗段,該第二重疊部分對應於在該第二窗段之後的另一窗段之一第一重疊部分,或其中該窗段建構器經組配以藉由使用對應於在該第三窗段之前的另一窗段之一第二重疊部分的一第一重疊部分來建構該第三窗段。
  12. 如前述請求項中任一項之處理器,其中該窗段建構器經組配以將該第一不對稱窗段之該第一重疊部分或該第四不對稱窗段之該第二重疊部分截斷至一截斷長度,該截斷長度短於或等於該第二窗段或該第三窗段之一窗段長度,該窗段長度小於在該第二窗段之後的另一窗段之該第一重疊部分的一長度或在該第三窗段之前的另一窗段之一第二重疊部分的一長度。
  13. 如請求項12之處理器,其中當該截斷長度小於比該另一窗段之該第一重疊部分或該窗段之該第二重疊部分的該長度小之該窗 段長度時,該窗段建構器經組配以在該第二窗段或該第三窗段之該第一重疊部分及該第二重疊部分之前或之後插入零,且其中該窗段建構器此外經組配以在該第二窗段或該第三窗段之該第一重疊部分與該第二重疊部分之間插入數個「1」值。
  14. 如請求項1至3中任一項之處理器,其中該第一不對稱窗段具有一第一重疊部分、一第二重疊部分、在該第一重疊部分與第二重疊部分之間的一第一高值部分及在該第二重疊部分之後的一第二低值部分,其中該高值部分中之值大於0.9且該低值部分中之值低於0.1,且其中該第二重疊部分之該長度低於該第一重疊部分之一長度。
  15. 如前述請求項中任一項之處理器,該處理器經組配而以多個不同取樣速率操作,且其中該處理器經組配以針對每一取樣速率儲存該第一窗段或該第四窗段之該第一重疊部分及該第二重疊部分、另一窗段之一對稱重疊部分,及短於該另一窗段之甚至另一窗段之另一對稱重疊部分;且其中該對稱重疊部分及該另一對稱重疊部分僅作為一遞升部分或一遞降部分儲存,且其中該窗段建構器經組配以藉由算術或邏輯運算自該所儲存遞升部分或該所儲存遞降部分導出一遞降部分或一遞升部分。
  16. 如前述請求項中任一項之處理器, 其中該第一窗段經組配用於20ms之一變換長度,其中該窗段建構器經組配用於進一步將其他窗段用於10ms或5ms之變換長度,且其中該第二窗段為自20ms之該變換長度至10ms或5ms之該變換長度的一轉變窗段,或其中該第四窗段經組配用於20ms之該變換長度,且其中該第三窗段為自5ms至20ms之該變換長度或自10ms至20ms之該變換長度的一轉變窗段。
  17. 一種處理一音訊信號之方法,其包含:自該音訊信號導出一窗段控制信號,該窗段控制信號指示自一第一不對稱窗段至一第二窗段之一改變或用於指示自一第三窗段至一第四不對稱窗段之一改變,其中該第二窗段短於該第一窗段,或其中該第三窗段短於該第四窗段;使用該第一不對稱窗段之一第一重疊部分建構該第二窗段,其中窗段建構器經組配以使用該第一不對稱窗段之一經截斷第一重疊部分判定該第二窗段之一第一重疊部分,或其中該窗段建構器經組配以使用該第四不對稱窗段之一經截斷第二重疊部分計算該第三窗段之一第二重疊部分;以及一窗段化器,其用於應用該第一窗段及該第二窗段或該第三窗段及該第四窗段以獲得經窗段化音訊信號部分。
  18. 一種電腦程式,其在運行於一電腦或一處理器上時用於 執行如請求項17之方法。
TW104124102A 2014-07-28 2015-07-24 使用截斷分析或合成窗段重疊部分處理音訊信號的方法及處理器 TWI581252B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP14178774.7A EP2980791A1 (en) 2014-07-28 2014-07-28 Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions

Publications (2)

Publication Number Publication Date
TW201618082A true TW201618082A (zh) 2016-05-16
TWI581252B TWI581252B (zh) 2017-05-01

Family

ID=51224864

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104124102A TWI581252B (zh) 2014-07-28 2015-07-24 使用截斷分析或合成窗段重疊部分處理音訊信號的方法及處理器

Country Status (18)

Country Link
US (3) US10262666B2 (zh)
EP (4) EP2980791A1 (zh)
JP (3) JP6612846B2 (zh)
KR (1) KR102006897B1 (zh)
CN (2) CN113990333A (zh)
AR (1) AR102037A1 (zh)
AU (1) AU2015295602B2 (zh)
CA (1) CA2956010C (zh)
ES (2) ES2751275T3 (zh)
FI (1) FI3584792T3 (zh)
MX (1) MX369755B (zh)
MY (1) MY192272A (zh)
PL (2) PL3175448T3 (zh)
PT (2) PT3584792T (zh)
RU (1) RU2677385C2 (zh)
SG (1) SG11201700694PA (zh)
TW (1) TWI581252B (zh)
WO (1) WO2016016120A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10902858B2 (en) 2016-06-27 2021-01-26 Qualcomm Incorporated Audio decoding using intermediate sampling rate

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2980791A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions
US9959877B2 (en) 2016-03-18 2018-05-01 Qualcomm Incorporated Multi channel coding
JP6976277B2 (ja) * 2016-06-22 2021-12-08 ドルビー・インターナショナル・アーベー 第一の周波数領域から第二の周波数領域にデジタル・オーディオ信号を変換するためのオーディオ・デコーダおよび方法
EP3483879A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
CN108847258B (zh) * 2018-06-10 2021-06-04 北京酷我科技有限公司 一种截取音频控件的实现方法
CN111402917B (zh) * 2020-03-13 2023-08-04 北京小米松果电子有限公司 音频信号处理方法及装置、存储介质

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5297236A (en) * 1989-01-27 1994-03-22 Dolby Laboratories Licensing Corporation Low computational-complexity digital filter bank for encoder, decoder, and encoder/decoder
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
JP3518737B2 (ja) * 1999-10-25 2004-04-12 日本ビクター株式会社 オーディオ符号化装置、オーディオ符号化方法、及びオーディオ符号化信号記録媒体
JP2002118517A (ja) * 2000-07-31 2002-04-19 Sony Corp 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法
CN101035527A (zh) * 2004-09-13 2007-09-12 伊利舍医药品公司 治疗疾病的方法
US8744862B2 (en) * 2006-08-18 2014-06-03 Digital Rise Technology Co., Ltd. Window selection based on transient detection and location to provide variable time resolution in processing frame-based data
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
US8036903B2 (en) * 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2345030A2 (en) * 2008-10-08 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-resolution switched audio encoding/decoding scheme
US9384748B2 (en) * 2008-11-26 2016-07-05 Electronics And Telecommunications Research Institute Unified Speech/Audio Codec (USAC) processing windows sequence based mode switching
EP2382625B1 (en) 2009-01-28 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, encoded audio information, methods for encoding and decoding an audio signal and computer program
EP4358082A1 (en) * 2009-10-20 2024-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
JP5345737B2 (ja) * 2009-10-21 2013-11-20 ドルビー インターナショナル アーベー 結合されたトランスポーザーフィルターバンクにおけるオーバーサンプリング
EP2372705A1 (en) * 2010-03-24 2011-10-05 Thomson Licensing Method and apparatus for encoding and decoding excitation patterns from which the masking levels for an audio signal encoding and decoding are determined
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
EP2619758B1 (en) * 2010-10-15 2015-08-19 Huawei Technologies Co., Ltd. Audio signal transformer and inverse transformer, methods for audio signal analysis and synthesis
FR2977969A1 (fr) * 2011-07-12 2013-01-18 France Telecom Adaptation de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee
JP6434411B2 (ja) 2012-09-24 2018-12-05 サムスン エレクトロニクス カンパニー リミテッド フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置
EP2720222A1 (en) * 2012-10-10 2014-04-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns
US9305559B2 (en) 2012-10-15 2016-04-05 Digimarc Corporation Audio watermark encoding with reversing polarity and pairwise embedding
CN110232929B (zh) * 2013-02-20 2023-06-13 弗劳恩霍夫应用研究促进协会 用于对音频信号进行译码的译码器和方法
FR3004876A1 (fr) 2013-04-18 2014-10-24 France Telecom Correction de perte de trame par injection de bruit pondere.
US9431987B2 (en) 2013-06-04 2016-08-30 Sony Interactive Entertainment America Llc Sound synthesis with fixed partition size convolution of audio signals
EP2980791A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10902858B2 (en) 2016-06-27 2021-01-26 Qualcomm Incorporated Audio decoding using intermediate sampling rate
TWI725202B (zh) * 2016-06-27 2021-04-21 美商高通公司 使用中間取樣率之音訊解碼

Also Published As

Publication number Publication date
MX369755B (es) 2019-11-20
ES2940783T3 (es) 2023-05-11
EP3175448B1 (en) 2019-09-04
US20190198030A1 (en) 2019-06-27
US10262666B2 (en) 2019-04-16
US20210134308A1 (en) 2021-05-06
AU2015295602A1 (en) 2017-03-16
FI3584792T3 (fi) 2023-04-04
US10902861B2 (en) 2021-01-26
JP2017526005A (ja) 2017-09-07
CN107077854A (zh) 2017-08-18
EP3584792A1 (en) 2019-12-25
US20170140768A1 (en) 2017-05-18
AR102037A1 (es) 2017-02-01
KR20170033883A (ko) 2017-03-27
EP2980791A1 (en) 2016-02-03
PT3584792T (pt) 2023-04-17
JP6612846B2 (ja) 2019-11-27
SG11201700694PA (en) 2017-02-27
PT3175448T (pt) 2019-12-09
EP3584792B1 (en) 2023-01-11
PL3175448T3 (pl) 2020-03-31
JP7043113B2 (ja) 2022-03-29
JP2020046671A (ja) 2020-03-26
CA2956010C (en) 2020-03-24
EP3175448A1 (en) 2017-06-07
CA2956010A1 (en) 2016-02-04
US11664036B2 (en) 2023-05-30
JP7420848B2 (ja) 2024-01-23
WO2016016120A1 (en) 2016-02-04
MX2017001239A (es) 2017-07-07
PL3584792T3 (pl) 2023-05-08
RU2017106179A (ru) 2018-08-28
BR112017001630A2 (pt) 2017-11-21
RU2677385C2 (ru) 2019-01-16
RU2017106179A3 (zh) 2018-08-28
CN113990333A (zh) 2022-01-28
MY192272A (en) 2022-08-15
CN107077854B (zh) 2021-06-22
ES2751275T3 (es) 2020-03-31
TWI581252B (zh) 2017-05-01
KR102006897B1 (ko) 2019-08-02
EP4191582A1 (en) 2023-06-07
JP2022091803A (ja) 2022-06-21
AU2015295602B2 (en) 2018-08-16

Similar Documents

Publication Publication Date Title
TWI581252B (zh) 使用截斷分析或合成窗段重疊部分處理音訊信號的方法及處理器
US10832694B2 (en) Apparatus and method for generating an encoded signal or for decoding an encoded audio signal using a multi overlap portion
JP6791839B2 (ja) パケット損失隠匿方法
BR112017001630B1 (pt) Processador e método para processamento de um sinal de áudio utilizando análise truncada ou partes de sobreposição da janela de síntese