TWI550599B - 使用瞬態位置相依重疊以編碼或解碼音頻信號之設備、解碼器、電腦程式及方法 - Google Patents

使用瞬態位置相依重疊以編碼或解碼音頻信號之設備、解碼器、電腦程式及方法 Download PDF

Info

Publication number
TWI550599B
TWI550599B TW103105684A TW103105684A TWI550599B TW I550599 B TWI550599 B TW I550599B TW 103105684 A TW103105684 A TW 103105684A TW 103105684 A TW103105684 A TW 103105684A TW I550599 B TWI550599 B TW I550599B
Authority
TW
Taiwan
Prior art keywords
window
overlap
length
transient
transform
Prior art date
Application number
TW103105684A
Other languages
English (en)
Other versions
TW201443878A (zh
Inventor
克利斯汀 漢姆瑞奇
傑瑞敏 雷克姆特
高恩 瑪可維克
馬庫斯 斯奇乃爾
貝恩德 艾德勒
史丹芬 瑞絲秋
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201443878A publication Critical patent/TW201443878A/zh
Application granted granted Critical
Publication of TWI550599B publication Critical patent/TWI550599B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3002Conversion to or from differential modulation
    • H03M7/3044Conversion to or from differential modulation with several bits only, i.e. the difference between successive samples being coded by more than one bit, e.g. differential pulse code modulation [DPCM]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

使用瞬態位置相依重疊以編碼或解碼音頻信號之設備、解碼器、電腦程式及方法
本發明是有關於音頻或影像信號之處理,且更特別是有關於以瞬態的形式存在之音頻或影像信號之編碼或解碼。
基於重疊FFT或改進的離散餘弦變換(MDCT)之現代頻域語音/音頻編碼機制提供某些適應度給非靜態信號特徵。以MPEG標準化之通用編解碼器,亦即MPEG-1第三層,極著名為MP3,MPEG-4(HE-)AAC[1],以及最近的MPEG-0 xHE-AAC(USAC)和由IETF[2]規定的Opus/Celt編解碼器,允許使用至少兩個不同的變換長度之其中一個對一幀(frame)的編碼-關於靜態信號通道之一個長度M之長變換,或8個長度M/8(每個)之短變換。在MPEG編解碼器的情況下,從長到短及從短到長變換之切換(亦稱為區塊切換)需要使用非對稱開視窗的瞬態變換,亦即分別地是一起始及一結束視窗。這些變換形狀以及其他已知的習知形狀係描繪於圖16中。吾人應注意到,線性重疊斜率係僅是說明性的並以正確的形狀變化。可能的視窗形狀係提供於AAC標準[1]並於[3]之第6條中。
假定如果即將到來的幀係待由一MPEG編碼器利用短變換來編碼,則目前幀必須利用一起始瞬態變換來編碼,顯而易見的是一個依據其中一個上述MPEG標準來實施之編碼器需要至少一預看(look-ahead)之幀長度。然而,在低延遲通訊應用,理想上是可使此種額外預看最小化或甚至避免此種額外預看。為此,對於通用編碼模型之 兩個改進方案已被提出。一個改進方案曾經被採用例如在Celt[2]中,係用於將長變換之重疊減少至短變換之重疊,俾能避免不對稱瞬態視窗。另一被使用於例如MPEG-4(增強)低延遲AAC編碼機制之改進方案係用於禁止切換至較短變換,反而是依靠一時域雜訊整形(TNS)編碼工具[4],其操作於長變換係數上以使圍繞瞬態之編碼錯誤之時域伸展(temporal spread)最小化。再者,類似xHE-AAC,低延遲AAC允許使用雙幀重疊寬度-關於靜態輸入是預設值50%重疊,或關於非靜態信號之減少的重疊(類似於瞬態變換之短重疊)。減少的重疊在係數量化的情況下有效地限制一變換之時間延伸,因而是其編碼錯誤。
讓渡給三星(Samsung)電子公司之美國專利2008/0140428A 1以及讓渡給索尼(Sony)公司之美國專利5502789及5819214揭露了信號適應性視窗或變換尺寸決定單元。然而,由該視窗或變換尺寸決定單元所控制之變換器單元,操作於QMF或LOT子頻帶值(表示所說明的兩種系統都採用串接型濾波器組或變換),相對於如在本情況下之直接地工作於時域全頻帶輸入信號上。此外,於2008/0140428A 1中,並未詳細說明關於形狀或視窗重疊之控制之細節,且在5819214中,重疊形狀遵循(亦即,係為以下之結果)來自變換尺寸決定單元輸出,這是本發明所提出之較佳實施例之相反內容。
讓渡給法國電信之美國專利2010/0076754A1遵循與本發明相同的動機,亦即能用於在通訊編碼方案中執行變換長度切換,以改善瞬態信號段的編碼,且這樣做不需要額外編碼器預看。然而,該文獻顯露出低延遲目標係藉由避免變換長度瞬態視窗以及藉由在解碼器(不利地藉由解碼的信號之部分之放大,從而是編碼錯誤的放大)中後處理重建的信號而達成,本發明提出一種待介紹於下之習知技術系統之瞬態視窗之簡單的改進方案,以使額外編碼器預看可被最小化並避免特殊(危險)的解碼器後處理。
一種發明的改進方案所欲應用之瞬態變換係為說明於以一個稍微不同的形式之美國專利5848391及美國專利2006/0122825A1中之兩個變形例之起始視窗,美國專利5848391是讓渡給弗勞恩霍夫協會 (Fraunhofer-Gesellschaft e.V.)及杜比(Dolby)實驗室授權公司實驗室,而美國專利2006/0122825A1是讓渡給三星電子公司。圖16顯示這些起始視窗並顯露出在Fraunhofer/Dolby的視窗及Samsung的視窗之間之差異是一不重疊段之存在,亦即,視窗之一區域具有一固定最大值,其並不屬於任何重疊斜率。Fraunhofer/Dolby視窗顯現出這一種"不重疊部分具有一長度",而Samsung視窗並沒有。可以斷定出一種具有最少數量之額外預看但使用習知技術變換切換之編碼器可藉由採用Samsung的瞬態視窗方法來實現。利用這些變換,一種等於在短變換之間之重疊寬度之預看足以在一信號瞬態之前之充分早期時從長到短變換完全切換。
更進一步的習知技術可在以下文獻中找到:WO 90/09063或「利用重疊區塊變換及適應性視窗功能之音頻信號編碼(Coding of audio signals with overlap block transform and adaptive window functions)」,Frequenz,Band 43,1989年9月,頁2052至2056,或AES Convention Paper 4929,「基於AAC編碼解碼之MPEG-4低延遲音頻編碼解碼(MPEG-4 Low Delay Audio Coding based on the AAC Codec)」,E.Allamanche,et al.,106 Convention,1999年。
儘管如此,依據短變換之長度,預看可維持相當大而不應被避免。圖17顯示在最壞情況下之輸入狀態期間之區塊切換性能,亦即於預看區域之起始之一急遽地瞬態之存在,其因而開始於長斜率之末端,亦即,在幀之間之重疊區域。依據習知技術的方法,兩個描繪出的瞬態之至少一者到達瞬態變換。於一種利用一編碼器而沒有額外預看之有損耗的編碼系統中,亦即,於一種沒有"看見瞬態到來"之編碼器中,此種狀況導致編碼錯誤之時域伸展上至長斜率之初期,且即使當使用TNS時,預回音雜訊從而或許在解碼的信號中是可聽見的。
兩個前述的預看變通具有它們的缺點。在一方面降低長變換重疊達到一個高達8之因子,如於Celt編碼器所完成的,於靜態上嚴格地限制效率(亦即,編碼增益、頻譜壓縮),特別高色調之輸入材料。另一方面,如於(增強)低延遲AAC禁止短變換,在具有遠小於幀長度之期間(寬度)之強大的瞬態減少了編碼解碼性能,即使當使用TNS時, 仍常導致可聽見的預回音或後回音雜訊。
因此,習知技術開視窗順序判定程序,相對於由於限制視窗長度之撓性是次優的,相對於由於最小需求的瞬態預看期間所需要的延遲是次優的,相對於由於預回音及後回音所致之音頻品質是次優的,相對於由於潛在需要的額外預先處理(使用與利用某些視窗之開視窗程序分開之額外功能)所致的效率是次優的,或相對於由於改變一種以一瞬態的形式存在之幀/區塊光柵之潛在的必要性所致的撓性及效率是次優的。
本發明之一個目的係提供一種音頻編碼/解碼之改善的理念,其相對於至少一種習知技術缺點提供一種改善的性能。
此目的係藉由以下而達成:一種依據申請專利範圍第1項之用於編碼一音頻或影像信號之設備,一種依據申請專利範圍第17項之解碼一音頻或影像信號之設備,一種依據申請專利範圍第32項之編碼一音頻或影像信號之方法,一種依據申請專利範圍第33項之解碼一音頻或影像信號之方法,或一種依據申請專利範圍第34項之電腦程式。
本發明之實施樣態依靠下述發現,為了一低延遲音頻或影像編碼解碼器能接近通用編解碼器之編碼品質,在靜態信號輸入期間的長變換之間維持一高重疊百分比,並於圍繞信號非固定性之音頻或影像信號部分允許瞬間切換至較短的重疊及變換是有用的。再者,理想上是可允許相對於重疊寬度以及此外或是或者相對於變換長度,比只提供二進位的選擇有一稍微更大的撓性,以使在一幀之內的變換之重疊寬度或長度可基於在幀之時域區域之內的一可能瞬態之位置而正確地適應,以便使預回音或其他偽影最小化。
具體言之,一瞬態位置偵測器係被設計成用於確認在一幀之一瞬態預看區域之內的一瞬態之一位置,以及基於在此幀之內的瞬態之位置,從一群組之至少三個視窗選擇一特定視窗,於此這三個視窗相對於它們與對應的相鄰視窗之重疊長度是不同的。因此,第一視窗具有一大於第二視窗之重疊長度,而第二視窗具有一大於第三視窗之重疊長 度的重疊長度,且第三視窗或者亦可具有零重疊,亦即,沒有重疊。特定視窗係基於瞬態位置被選擇,以使兩個時間相鄰的重疊視窗之其中一個具有位於瞬態之位置之第一視窗係數,而兩個時間相鄰的重疊視窗之另一個具有位於瞬態之位置之第二視窗係數,其中第二係數係為第一係數之至少九倍大。因此,確定的是瞬態位置相對於第一視窗係充分被抑制,而瞬態相對於第二視窗係充分被擷取。換言之,且最好是,較早的視窗已經位於接近瞬態位置中之零的數值,於此瞬態已被偵測且第二視窗具有接近或等於於此區域中的一之視窗係數,俾能在瞬態之至少一部分期間,使瞬態在較早的視窗中被抑制,且未在後來的或接下來的視窗被抑制。
在一實施例中,重疊長度係因整數因子而不同的,俾能使第二重疊長度譬如等於第三重疊長度之一半,並使第三重疊長度等於第二重疊長度之一半,或因一不同因子而與第二重疊長度不同但大於或等於至少64個樣本,或大於或等於至少32個樣本,或大於或等於至少甚至16個音頻或影像樣本。
從瞬態位置衍生出的視窗選擇係與音頻或影像信號之幀一起被傳輸,俾能使一解碼器可選擇與分析視窗之編碼器選擇成一直線的相對應的合成視窗,藉以確定編碼器及解碼器係遍及全部編碼/解碼操作而同步化。
在一實施例中,一可控制開視窗器、一轉換器、一瞬態位置偵測器以及一控制器形成一種用於編碼之設備,且轉換器應用已知的混疊引入變換例如一MDCT(改進的離散餘弦變換),一DST(變化離散正弦變換)或任何其他類似的變換之任何一個。在解碼器側上,一處理器協同一可控制轉換器,以便依據以一被解碼器所接收之視窗資訊表示之開視窗順序,而藉由使用一重疊-相加處理將一順序之區塊之頻譜值轉換成一時域表現。
依據此實施例,除了變換重疊選擇以外,一變換長度切換可再基於此幀之內的瞬態位置被實施。藉由實現至少三個視窗彼此重疊之多重疊區段,一非常低的延遲編碼解碼器概念係被實現,相對於較早 的概念,其又大幅地減少需要的瞬態預看延遲。在一更進一步的實施例中,較佳是首先執行一重疊選擇且接著執行一變換長度決定,以便決定每個幀之一重疊碼。或者,變換長度切換決定可獨立於重疊寬度決定被做成,且基於這兩個,決定一重疊碼。基於一目前幀之重疊碼與一較早幀之重疊碼,做出一特定瞬態之一開視窗順序選擇,基於此選擇,一編碼器與一解碼器彼此同步操作。
在一更進一步的實施樣態中,一開視窗順序控制器、一預處理器及一光譜轉換器一起構成一種用於產生一編碼過的信號之設備,於此三個視窗具有一多重疊部分。由於即將瞬態預看所需要的延遲係更進一步被減少之事實,這個多重疊部分(其中不僅如在習知技術中的兩個視窗而且三個視窗彼此重疊)允許一非常低的延遲概念。一對應的解碼器係藉由一解碼器處理器、一時間轉換器及一後處理器而形成。後處理器與預處理器藉由使用在編碼器側上及在解碼器側上之一個與相同的輔助視窗來執行額外的開視窗操作,俾能使一有效的實施例尤其可在行動裝置或低成本裝置中被獲得,於其中一需要的ROM或RAM儲存是要儘可能小的。
較佳實施例依靠一特定開視窗順序及具有不同長度之視窗之一特定交互作用,俾能使一短長度視窗係被"置放"於瞬態,以便避免長預先或後回音。為了確定多重疊部分並未導致音頻或影像偽影,編碼器側上之預處理器使用輔助視窗函數執行一開視窗操作並使用一疊入操作執行預先處理運作,用於獲得一變化的多重疊部分,其接著藉由使用一混疊引入變換被變換成頻譜範圍。在解碼器側上,一對應的後處理器係被設計成用於在對應的變換成時間表現之後執行一疊出操作,且在疊出操作之後,一使用輔助視窗函數之開視窗以及一利用源自利用長視窗之視窗操作之前述區塊之樣本之最後的重疊-相加係被執行。在一執行一變換重疊選擇之實施例中,獲得一增加的音頻或畫質。
不像只採用變換重疊寬度之二進位的選擇(大的/最大或小的)之既存的編碼系統,實施例提出一組三個重疊寬度,一編碼器可從其選擇一每幀(或可選擇地,每一變換)基礎:最大重疊、半部重疊或 最小重疊。最大重疊可以等於關於AAC中之長變換之幀長度(亦即,50%重疊),但亦可同等於幀長度之一半(亦即,33%重疊或更少),如將在一較佳實施例中說明的。因此,最小重疊可表示一零重疊寬度(亦即,沒有重疊),但亦可表示一非常小數目之時間樣本或ms之大於零的重疊,像該較佳實施例將證明的。最後,半部重疊可以是但不需要必須是最大重疊之一半。
更特別是,依據本發明之一實施樣態,定義一重疊寬度決定單元,其為每個幀(或可選擇地,為在一幀之內的每個變換)選擇三個可能的重疊寬度之其中一個。更精確地說,該重疊寬度決定單元具有(作為一輸入)一瞬態偵測單元之輸出以利用足夠精度確認在目前幀之內(或可選擇地,在目前幀中之一變換之內)之一瞬態之位置及衍生出一重疊寬度,以使兩個目的之至少一者被達成:
-選擇此寬度以使只有其中一個重疊變換包含瞬態。
-偽瞬態由於編碼錯誤之時間混疊的TNS成形而強烈地受到抑制。
換言之,利用避免在一設置在給定幀中之感知編碼瞬態左右之預先或後回音失真的目標,來決定此重疊寬度。吾人應該注意到,關於決定瞬態之正確的位置之機制的一定的自由度是可能的。如在一較佳實施例中的,指定一瞬態位置之時間或子區塊指標可等於那個瞬態位置之起始(發端),但其亦可以是瞬態之最大能量或振幅之位置,或能量之中心。
再者,不像從一對幀之變換長度的給定選擇衍生出瞬間相互變換重疊(亦即,一變換尺寸決定單元之重疊寬度遵循輸出)之習知技術的編碼機制的是,依據本發明之另一個實施樣態,一編碼系統可在待在一較佳實施例中被檢驗於下之某些狀況之下,藉由使用歸因於那個幀之重疊寬度且可選擇地先前幀之重疊寬度(亦即,變換尺寸遵循重疊寬度決定單元之資料),來控制或衍生出待用於一特定幀之變換長度。
在使用一多重疊部分或應用一變換長度切換之一更進一步的實施例中,獲得了特別低的延遲概念。
對於習知技術的區塊切換機制之改善係為對於圖16之瞬態變換之一種有利的改進方案,其允許在信號非固定性期間穩定品質操作所需要的附加編碼器預看被減少了一半。如上所述,由Fraunhofer/Dolby或由Samsung所提出的起始視窗之特徵為:一"具有一長度之不重疊部分"之分別地存在或不存在。此實施例進行甚至更遠並允許瞬態視窗之左右重疊斜率延伸進入彼此。換言之,變化瞬態變換顯現一非零長度之"雙重疊"區域,於其中其不但與前述幀之長變換而且與下述的短變換重疊。發明的瞬態變換之所產生的形狀係顯示於圖13中。與圖17所顯示之Samsung之瞬態視窗比較而言,顯然藉由允許在變換中之一"雙重疊"區域,變換之右端上的短重疊斜率可被移位至左(藉此可減少需要的編碼器預看)達到短變換重疊寬度之一半。這種變化瞬態視窗之減少的長度擁有幫助實行之三個極重要的優點,特別在行動裝置上:由重疊時間/頻率變換(最好是MDCT)所產生的變換核心(亦即,係數向量之長度)正好是像在兩個長變換之間的重疊區域之寬度的一半一樣長。給定該長重疊寬度通常等於幀長度或幀長度之一半之事實,這表示發明的瞬態視窗與後來的短視窗完美地緊密地套入幀格點(frame grid),且所產生之編碼解碼之所有變換尺寸係相關於整數2的次方之因子,如圖13所示。
-在圖17中且又在圖13中所描繪出之瞬態位置兩者位於瞬態變換外部,所以編碼錯誤之一時域塗抹(temporal smearing)由於瞬態可被限制在變換以後之前兩個短視窗之延伸之內。因此,與習知技術的Fraunhofer/Dolby及Samsung機制相反,圍繞瞬態之可聽見的預回音雜訊不可能在使用圖13之發明的區塊切換方法時產生。
-編碼器及解碼器兩者可為順向及逆變換利用完全相同的視窗。在一執行編碼及解碼兩者之通訊裝置中,只有一組視窗資料因此需要被儲存於ROM中。此外,亦可避免將需要額外程式ROM及/或RAM之信號之特殊預先或後處理。
傳統上,如在本發明中之具有一"雙重疊"段的瞬態視窗尚未被使用於語音或音頻或影像編碼中,大概因為他們被認為是違反了某 些原理,其在缺乏變換係數之量化中確保完美波形重建。然而,可能在使用發明的瞬態變換時正確重建此輸入,且再者,沒有如在法國電信提議中之特殊解碼器側後處理被需要。
更進一步的注意到,值得強調的是該發明的瞬態視窗之用途可利用發明的重疊寬度決定單元而不是一變換長度決定單元或除了一變換長度決定單元以外而被控制。
然後,更詳細討論及顯示本發明之較佳實施例。再者,特別參考定義更進一步的實施例之附屬項。
再者,本說明書詳細顯示一種特別相對於圖1a至7之關於瞬態位置適應性重疊切換之實施樣態。相對於圖8a至15f顯示並說明一種關於多重疊部分之更進一步的實施樣態。這些個別的實施樣態可獨立於彼此被實施,亦即,重疊切換可在沒有一多重疊區域的情況下可應用,或多重疊區域可在沒有瞬態位置適應性重疊切換的情況下被應用。然而,在一實施例中,實施樣態兩者可具優點地被結合,藉以產生具有一瞬態位置適應性重疊切換及一多重疊區域之一編碼/解碼概念。這種概念此外可藉由一變換長度切換程序,再依據在一幀之一瞬態預看區域之內的一瞬態位置被增強。變換長度切換可依據重疊寬度判定或獨立於重疊切換被執行。
本發明不但對音頻信號有用而且對視頻、圖片或通常影像信號有用。舉例而言,在靜止影像或所謂的AVC中之I幀的編碼或更不領先或更領先技術中,本發明可被應用以避免阻隔人工製品(artefacts)。一影像圖場中之瞬態將是一尖銳的邊緣且一幀將譬如對應至一宏塊。接著,影像最好是藉由使用一混疊引入變換及一對應的空間重疊而被二維編碼。一方面,這減少阻隔人工製品,而一方面,藉由瞬態部分(亦即,具有尖銳邊緣之部分)減少任何其他人工製品。因此,雖然遍及本揭露書未詳細被表示,但後來的揭露書同樣應用至影像信號。
100‧‧‧音頻信號
1000、1010、1020‧‧‧應用
1000至1096、1030至1080、1906‧‧‧步驟
102‧‧‧可控制開視窗器/預處理器
103‧‧‧開視窗樣本
104‧‧‧轉換器
105‧‧‧編碼器/頻譜值
106‧‧‧瞬態偵測器/瞬態位置偵測器/解碼器
107‧‧‧識別位置
108、180‧‧‧控制器
110‧‧‧編碼處理器
1100‧‧‧輔助視窗函數
1100a、1152‧‧‧第一部分
1100b‧‧‧第二不重疊部分/不重疊部分
1100c‧‧‧第三部分/輔助視窗函數部分
1102、1103、1104‧‧‧時間期間
1105‧‧‧第一小部分
1110‧‧‧左側部分/部分
1111‧‧‧右側部分
112‧‧‧視窗資訊
1120‧‧‧疊入操作
1122、1142‧‧‧頻譜值
1130‧‧‧第二區塊
1131‧‧‧區塊/項目
1132‧‧‧第一部分/變換
1133、1135、1155‧‧‧第二部分
114‧‧‧輸出介面
115‧‧‧編碼過的音頻信號
1161‧‧‧逆變換
1162‧‧‧逆變換/變換
1163‧‧‧短變換
1173‧‧‧最右側部分
1174、1180‧‧‧重疊範圍
1176a、1176b‧‧‧疊出部分
1181‧‧‧音頻信號樣本
1182‧‧‧區段
1184‧‧‧區塊
1300‧‧‧多重疊區域/重疊區域
1305‧‧‧左瞬態/瞬態
1400‧‧‧第一視窗
1402‧‧‧第二視窗
1403‧‧‧第三視窗
1500‧‧‧視窗/第一視窗函數
1500'‧‧‧第一視窗函數/函數/視窗函數
1500a‧‧‧第一部分/第一上升部分
1502‧‧‧起始順序/視窗/第二視窗函數
1502'‧‧‧第二視窗函數/函數/視窗函數
1503‧‧‧第三視窗函數/短順序
1504‧‧‧長結束視窗
158‧‧‧可控制轉換器
1590‧‧‧瞬態偵測預看
1595‧‧‧預回音
170‧‧‧頻率-時間轉換器
172‧‧‧開視窗器
174‧‧‧重疊-加法器
175‧‧‧區塊/輸出
192、218、219、1170、1172、1175‧‧‧部分
195‧‧‧編碼器
196‧‧‧解碼器
197‧‧‧記憶體
200‧‧‧第一視窗/視窗
201‧‧‧長視窗/第一視窗/視窗
202‧‧‧視窗/視窗函數
203‧‧‧第一重疊長度
204a‧‧‧左側部分
204b‧‧‧右側部分/區段/部分
204、215、224、225、226、301a、301b、303a、303b‧‧‧視窗
205a、206a‧‧‧左側部分/區段/部分
205b‧‧‧右側部分/區段/部分
206b‧‧‧右側部分/部分
207‧‧‧最終幀
208‧‧‧目前幀
209‧‧‧下一幀
210、211、212、213‧‧‧瞬態位置/瞬態
216‧‧‧第二視窗
217‧‧‧停止視窗/視窗
222‧‧‧第二瞬態偵測區域
223‧‧‧瞬態
229‧‧‧小重疊長度
300‧‧‧完全重疊/第一重疊寬度/重疊長度
302‧‧‧半部重疊/第二重疊長度
304‧‧‧最小重疊
401‧‧‧第一視窗/視窗
402‧‧‧完全重疊視窗/正常長度視窗/視窗/第一視窗
403‧‧‧完全重疊/完全重疊長度/第一重疊長度/重疊長度
404、404”‧‧‧第三重疊長度/最小重疊/重疊長度
405‧‧‧半部重疊/半部重疊長度/第二重疊長度/重疊長度
406、408‧‧‧起始視窗/視窗
407‧‧‧結束視窗/視窗
409‧‧‧第二視窗/結束視窗/視窗
414‧‧‧第二視窗/視窗
415‧‧‧參考數字
501、502‧‧‧完全重疊長度
503、504‧‧‧第二重疊長度
505、506‧‧‧第三視窗
600‧‧‧短/長變換決定/欄
602、604、605‧‧‧欄
603‧‧‧完全重疊碼/重疊碼/欄
606‧‧‧先前重疊碼
607‧‧‧目前重疊碼
700至711‧‧‧順序
802‧‧‧預處理器
804‧‧‧光譜轉換器
806‧‧‧區塊/處理器
807‧‧‧輸出
809‧‧‧視窗順序資訊
810‧‧‧輸出介面
820‧‧‧(輸入)介面
821‧‧‧編碼過的音頻信號
824‧‧‧解碼處理器
826‧‧‧時間轉換器
828‧‧‧後處理器
902至920‧‧‧步驟
904‧‧‧處理器
906‧‧‧轉換器
接著將相對於附圖探討實施例及實施樣態,其中: 圖1a顯示一種在一重疊切換實施樣態之上下文中用於編碼之設備;圖1b顯示一種重疊切換之實施樣態之用於解碼之設備;圖1c顯示可控制轉換器之一解碼器側較佳實施例;圖1d顯示以一行動裝置實施之本發明之一更進一步的實施例;圖2a顯示一種利用在鄰近視窗之間之完全重疊之開視窗順序;圖2b顯示一種利用在兩個鄰近視窗之間之半部重疊之開視窗順序;圖2c顯示一種利用在鄰近視窗之間之四分之一重疊及在鄰近視窗之間之半部重疊及在鄰近視窗之間之後續完全重疊之開視窗順序;圖3a至3c顯示關於一個具有20ms變換長度(譬如於TCX 20)之實施例之不同瞬態位置之不同的重疊寬度;圖4a至4g顯示關於依據一瞬態位置之例如TCX 10之10ms變換長度之變換重疊長度之選擇;圖5a至5c顯示一重疊寬度的編碼;圖6a顯示重疊寬度的編碼及基於瞬態位置之變換長度;圖6b顯示一變換長度決定表;圖7顯示依據先前及目前重疊碼之不同的開視窗順序;圖8a顯示一種在本發明之一實施例之一多重疊部分之上下文中之編碼器;圖8b顯示一種供在本發明之一實施例中之多重疊部分之實施樣態用之解碼器;圖9a顯示依據闡明編碼器側之較佳實施例之程序;圖9b顯示於編碼器側執行之較佳程序之流程圖;圖10a顯示解碼器側之程序之實施例;圖10b顯示於解碼器側執行之程序之更進一步的實施例; 圖11a顯示被執行於一實施例之編碼器側之操作;圖11b顯示藉由在本發明之一實施例中之一解碼器而執行之操作;圖12a及12b顯示在本發明之多重疊實施樣態之上下文中,待被執行於編碼器/解碼器側之程序之一更進一步的實施例;圖13顯示不同的開視窗順序,兩者都具有一多重疊部分;圖14a顯示一開視窗順序,其具有依據瞬態位置之一切換的變換長度;圖14b顯示一更進一步的開視窗順序,其具有一多重疊部分;圖15a至15f顯示不同的開視窗順序及對應的預看部分及預回音;圖16顯示習知技術視窗形狀;及圖17顯示習知技術開視窗順序,其藉由圖16之視窗形狀而形成。
圖1a顯示一種用於編碼一音頻信號100之設備。用於編碼音頻信號之設備包含一可控制開視窗器(windower)102,用於開視窗音頻信號100以提供一順序之區塊之開視窗樣本於103。解碼器再者包含一轉換器104,用於轉換此順序之區塊之開視窗樣本103成為一頻譜表現,其包含一順序之幀之頻譜值(表示於105)。再者,提供一瞬態位置偵測器106。偵測器係被設計成用於確認在一幀之一瞬態預看區域之內之一瞬態之一位置。再者,一個用於控制可控制開視窗器之控制器108係被設計成用於應用一具有一特定重疊長度之特定視窗至音頻信號100,以因應瞬態之一識別位置(顯示於107)。再者,控制器108於一實施例中被設計成用於提供視窗資訊112不但到達可控制開視窗器102,而且到達一輸出介面114,輸出介面114於其輸出提供編碼過的音頻信號115。包含此順序之幀之頻譜值105之頻譜表現係被輸入至一編碼處理器110,其可執行任何種類之編碼操作,例如一預測操作、一時域雜訊整形操作、一量化操作(最好是相對於一心理聲學模型或至少相對於心理聲學原
理),或可包含一冗餘降低編碼操作,例如一霍夫曼(Huffman)編碼操作或一算數編碼操作。編碼處理器110之輸出接著被傳送至輸出介面114與輸出介面114,最後提供已經關聯過的編碼過的音頻信號至每個編碼過的幀,某一個視窗資訊112。
控制器108係被設計成用於從一群組之至少三個視窗中選擇特定視窗。此群組包含:一第一視窗,具有一第一重疊長度;一第二視窗,具有一第二重疊長度;及一第三視窗,具有一第三重疊長度或沒有重疊。第一重疊長度係大於第二重疊長度,且第二重疊長度係大於零重疊。特定視窗係由可控制開視窗器102基於瞬態位置選擇,以使兩個時間相鄰的重疊視窗之其中一個於瞬態之位置具有第一視窗係數,而兩個時間相鄰的重疊視窗之另一個於瞬態之位置具有第二視窗係數,且第二視窗係數至少是第一係數的九倍大。這確認瞬態係大幅地受到具有第一(小)係數之第一視窗抑制,而瞬態係相當不受具有第二視窗係數之第二視窗影響。最好是,第一視窗係數係等於1,在正負5%公差之內,例如在0.95與1.05之間,而第二視窗係數係最好是等於0或至少小於0.05。視窗係數可以是負值,以及於此情況下,視窗係數之關係與數量是有關於絕對大小。
圖2a顯示一種只具有第一視窗之開視窗順序,而第一視窗具有第一重疊長度。更明確而言,最終幀具有相關的一第一視窗200,目前幀具有相關的視窗202,而第三或下一幀具有相關的一視窗204。於本實施例中,相鄰視窗重疊了50%,亦即,一全長度。再者,這些幀係相對於視窗被安置,以便確認音頻信號之哪一部分係被一幀處理。這是參見目前幀被說明。目前幀具有一左側部分205a及一右側部分205b。相應地,最終幀具有一右側部分204b及一左側部分204a。依此類推,下一幀具有一左側部分206a及一右側部分206b。左/右側表示時間上較早的及時間上較晚的,如圖2a所示。當頻譜值之目前幀產生時,使用藉由利用視窗202來開視窗所獲得之音頻樣本。音頻樣本起源於部分204b至206a。
通常,如本領域已知的MDCT處理,處理使用一混疊引入變換(aliasing-introducing transform),此種混疊引入變換可被劃分成一 疊入步驟及一使用某一個非混疊引入變換之後續變換步驟。於圖2a之例子中,區段204b係折疊進入區段205a,而區段206a係折疊進入區段205b。折疊操作之結果,亦即,一方面是205a,204b以及206a及205b之加權組合接著使用例如DCT變換之變換被變換進入頻譜範圍。在MDCT的情況下,應用DCT IV變換。
然後,參考MDCT來體現,但其他混疊引入變換可被以一種類似及相似的方式來處理。關於一重疊變換,相較於其他傅立葉相關變換,MDCT是一點點不平常的,因為它具有和輸入的一半一樣多的輸出(而不是相同數目)。更特別是,它是一線性函數FR 2N R N :(於此R表示實數的組)。依據以下公式,2N個實數x0,...,x2N-1係被變換成為N個實數X0,...,XN-1:
(在此變換之前的正規化係數,於此是1,係為任意成規並在處置之間有所不同。以下只有MDCT與IMDCT之正規化之乘積受限制。)
逆變換
逆MDCT係被稱為IMDCT。因為有不同數目的輸入及輸出,乍看之下MDCT似乎不應可逆。然而,完美的可逆性係藉由添加時間相鄰的重疊區塊之重疊IMDCT而達成,導致錯誤被刪除且原始資料被恢復;此種技術係被稱為時域混疊消除(TDAC)。
IMDCT依據以下公式變換N個實數X0,...,XN-1成為2N個實數y0,...,y2N-1:
(就像DCT-IV,一正交變換,逆變換與順向變換具有相同的型式。)
在一個具有一般視窗正規化之開視窗的MDCT(參見以下)的情況下,在IMDCT的前方的正規化係數應乘以2(亦即,變成2/N)。
在典型的信號壓縮應用中,變換特性係藉由使用一個視窗函數wn(n=0,...,2N-1)而更進一步的改善,視窗函數在上述MDCT及IMDCT公式係乘以xn及yn,以便藉由使使得函數於那些點平穩地走到零,來避免於n=0及2N邊界中斷。(亦即,我們在MDCT之前及在IMDCT之後將資料開視窗。)在原理上,x及y可具有不同的視窗函數,而視窗函數亦可從一區塊改變至下一個(特別關於結合具有不同尺寸之資料區塊之情況),但為簡化之便,我們考量關於相等尺寸區塊之相同視窗函數之共同情況。
變換維持可逆(亦即,TDAC工作),關於一對稱視窗wn=w2N-1-n,只要w滿足Princen-Bradley條件的話:
各種視窗函數係被使用。一種產生被稱為一調變的重疊變換[3][4]之格式之視窗係由以下得到:
且為MP3及MPEG-2 AAC使用,及
給Vorbis使用。AC-3使用Kaiser-Bessel衍生(KBD)視窗,而MPEG-4 AAC亦可使用KBD視窗。
注意被應用至MDCT之視窗係不同於供某些其他型式之信號分析使用之視窗,因為它們必須滿足Princen-Bradley條件。此差異之其中一個理由係為MDCT視窗係為MDCT(分析)與IMDCT(合成)兩者應用兩次。
如檢驗定義可瞭解到的,關於偶數N,MDCT係本質上與一DCT-IV相當,於此的輸入係被移位N/2,且兩個N區塊的資料係立刻被變換。藉由更謹慎地檢驗此種等效,可容易地衍生出就像TDAC之重要特性。
為了定義DCT-IV之精確關係,必須理解到DCT-IV係相當於交替偶/奇邊界條件:偶數於其左邊界(在n=-1/2左右),奇數位於其右邊界(在n=N-1/2左右),等等(而不是關於DFT之周期性的邊界)。這是根據恆等式and(及)。因此,如果其輸入是:
因此,如果其輸入是一個具有長度N之陣列x,則我們可以想像延伸此陣列至(x,-xR,-x,xR,...)等等,於此xR以相反的順序表示x。
考量一個具有2N個輸入及N個輸出之MDCT,於此我們將輸入分割成四個區塊(a,b,c,d),各具有尺寸N/2。如果我們將這些移位至右側達N/2(在MDCT定義中從+N/2項目),則(b,c,d)延伸通過N個DCT-IV輸入之末端,所以我們必須依據上述邊界條件將它們"折疊"回。因此,2N個輸入(a,b,c,d)之MDCT係完全等同於N個輸入之DCT-IV:(-cR-d,a-bR),於此R表示如上所示之倒轉。
這為圖2a中之視窗函數202被體現。a是部分204b,b是部分205a,c是部分205b,d是部分206a。
(依此方式,任何計算DCT-IV之演算法可被平凡地應用至MDCT。)
類似地,上述IMDCT公式係精確地為DCT-IV(係其本身的相反)之1/2,於此輸出係被延伸(經由邊界條件)至一長度2N,且被移位回到左側達N/2。逆DCT-IV將只從以上給回輸入(-cR-d,a-bR)。當這經由邊界條件延伸及移位時,可獲得:IMDCT(MDCT(a,b,c,d))=(a-bR,b-aR,c+dR,d+cR)/2.
IMDCT輸出之一半因而是冗餘的,因為b-aR=-(a-bR)R,且關於最終兩個項目也是一樣。如果我們將輸入群組化成具有尺寸N 之較大區塊A,B,於此A=(a,b)且B=(c,d),則我們可以以較簡單的方式寫入此結果:IMDCT(MDCT(A,B))=(A-AR,B+BR)/2
讀者現在可以理解到TDAC是如何工作。假設讀者計算時間相鄰的的50%重疊的2N區塊(B,C)之MDCT。則IMDCT將產生類似於上述:(B-BR,C+CR)/2。當這在重疊的一半中有添加先前IMDCT結果時,相反的項目相消,且可獲得只有B,恢復原始資料。
項目"時域混疊消除"之根源現在是清晰的。延伸超過邏輯DCT-IV之邊界之輸入資料之使用,導致資料以使頻率超過奈奎斯特(Nyquist)頻率係被混疊至較低頻率之相同的方式(除了此種混疊產生於時域而不是頻域以外)混疊:我們無法區別a及bR對於(a,b,c,d)之MDCT(或同等地對於IMDCT(MDCT(a,b,c,d))=(a-bR,b-aR,c+dR,d+cR)/2之結果)之貢獻。c-dR等等之組合具有精確地正確符號,以在它們被添加時供組合來消除。
關於奇數N(實際上很少使用),N/2並非是整數,所以MDCT並非只是DCT-IV之移位置換。於此情況下,樣本之一半的額外移位意味著MDCT/IMDCT變成與DCT-III/II相當,且此分析係類似於上述。
從上我們已經看到2N個輸入(a,b,c,d)之MDCT係與N個輸入之DCT-IV(-cR-d,a-bR)相當。DCT-IV係為以下情況設計,於此於右邊界之函數是奇數,因此靠近右邊界之數值接近0。如果輸入信號是平滑的,即為此例:a及bR之最右邊組成在輸入順序(a,b,c,d)是連續的,因此它們的差異小。讓吾人觀看間隔之中間:如果我們重寫上述運算式為(-cR-d,a-bR)=(-d,a)-(b,c)R,則第二項目(b,c)R在中間給予一平滑的瞬態。然而,在第一項目(-d,a)中,存在有一潛在的不連續性,於此-d之右端符合a之左端。這是使用一種減少靠近輸入順序(a,b,c,d)之邊界之組成至0之視窗函數的理由。
以上,TDAC特性係為普通MDCT被證明,顯示出在它們的重疊的一半中添加時間相鄰的區塊之IMDCT可恢復原始資料。此種開 視窗的MDCT之逆特性之衍生只有稍微複雜而已。
為具有尺寸N之區塊A,B,C考量重疊連續組之2N個輸入(A,B)及(B,C)。回想上述之當(A,B)與(B,C)被MDCT化、IMDCT化及在它們的重疊的一半中被增加時,我們獲得(B+B R )/2+(B-B R )/2=B,原始資料。
現在我們假設我們將MDCT輸入與IMDCT輸出兩者乘以具有長度2N之一視窗函數。如上所示,我們假設一對稱視窗函數,其因而具有(W,W R )之格式,W係為長度-N向量,而R表示先前之倒轉。然後,Princen-Bradley條件可被寫為W+=(1,1,...),而平方及加法是按元素被執行。
因此,不是MDCT化(A,B),現在是MDCT化(WA,W R B),利用按元素被執行之所有乘法。當這被IMDCT化及再度被乘以(按元素)視窗函數時,最終-N的一半變成:
(注意到我們不再乘以1/2,因為IMDCT正規化在開視窗的情況下的差異是不同於2的因子。)
類似地,開視窗的(B,C)之MDCT及IMDCT產生,於其第一N的一半:W.(WB-W R B R )=W 2 B-WW R B R
當添加這兩半在一起時,可恢復原始資料。
於類似的程序中,藉由使用部分205b,206a,206b與圖2a之下一個到下一幀之第一部分來計算下一幀。因此,視窗200,202,204對應至具有三個視窗之一第一重疊長度之視窗函數,而由圖1a之可控制開視窗器102使用不同重疊長度。如所述,圖2a顯示一種在最終幀、目前幀與下一幀中偵測不到瞬態之狀態,且具體言之是在由最終幀之用語207、目前幀之用語208及下一幀之用語209表示之每個幀之預看區域中偵測不到瞬態。圖2b顯示一種於瞬態位置210,211,212,213偵測到瞬態之狀態。由於一瞬態位置係譬如於210偵測到之事實,以及由於210 係位於從供最終幀用之207起始之預看區域中之事實,控制器108決定一種從第一視窗201至一更進一步的視窗215之切換是待被執行。由於更進一步的瞬態211及更明確而言是位於下一個預看區域之瞬態212/213,目前幀另外使用具有第二重疊長度之第二視窗216處理。因此,視窗215係為一種一起始視窗,從具有表示於201之第一重疊長度之視窗改變至具有第二重疊長度之第二視窗。如所示,第二重疊長度只延伸遍及八時槽(slot),因此只有與第一重疊長度的一半一樣長。由於在起始於209之預看區域之事實,不再偵測到任何瞬態,一切換係藉由一種"停止視窗217"被執行回到長視窗201。再,吾人可注意到在一方面是在目前幀中顯示於218,在另一方面(表示於218)是在目前幀與下一幀之間之重疊長度,在關於具有16個顯示的時槽之第一視窗之圖2a中,係與重疊長度的一半一樣長。
因此,半部重疊視窗係供於偵測區域1及6中所偵測到之瞬態使用。如於219所示,這一種偵測區域包含兩個時槽。因此,預看範圍係劃分成最好是八個時槽。另一方面,然而,可執行一更粗糙或更細微的子分割。然而,於較佳實施例中,預看區域係被細分成至少四個時槽及最好是細分成八個時槽,如顯示於2b及2c及其他圖。
如所示,第二視窗216於兩側具有半部重疊,而視窗215於右側具有半部重疊,於左側具有完全重疊,而視窗217於左側具有半部重疊,而於右側具有完全重疊。
參考圖2c。圖2c顯示一種狀態,於此瞬態偵測器於起始於最終幀之中間之預看區域中偵測到,在第二瞬態偵測區域222中存在有一瞬態。因此,執行到四分之一重疊之切換,以便確定瞬態223係只"塗抹"在視窗224之內,但並非包含於由視窗201所定義之區域中或於由視窗225所定義之區域中。再者,表示一順序,於此執行之切換是在最終幀與目前幀中從四分之一重疊,到在目前幀與下一幀之間之半部重疊,再回到在下一幀與之下一個到下一幀之間之完全重疊。此乃由於偵測到的瞬態所致。於起始於208之預看區域中,被偵測到的瞬態係於第一部分及第六部分中,而被偵測到的瞬態係於第二部分及在最終幀207 與目前幀208之間之第五部分中。
因此,圖2c顯示一開視窗順序,於此顯示具有全部或第一重疊長度之第一視窗201,於此使用一個具有表示於218之第二重疊長度之第二視窗,於此的第二視窗可以是譬如視窗225或視窗226,且於此一個具有一第三重疊長度之第三視窗係被顯示為視窗224或視窗225,其於左側具有小重疊長度229。因此,顯示出一開視窗順序,從一完全重疊切換至四分之一重疊,然後至半部重疊,然後至完全重疊。因此,具有第一重疊長度之第一視窗可以是一種於一側具有一不同於第一重疊的重疊之不對稱視窗,以及於另一側具有第一重疊長度。或者,然而,第一視窗亦可是一視窗,於兩側具有第一重疊長度,如於圖2b以216顯示。 再者,具有第二重疊長度之第二視窗可以是一種對稱視窗,其具有於兩側第二重疊長度,或可以是一種不對稱視窗,其於一側具有第二重疊長度,且於另一側具有第一重疊長度或第三重疊長度,或任何其他重疊長度。最後,具有第三重疊長度之第三視窗可以是一種對稱視窗,其於兩側具有第三重疊長度,或可以是一種視窗,其於一側具有第三重疊長度,且於另一側具有一不同的重疊長度。
然後,相對於下述附圖說明更進一步的實施例。通常,譬如使用一種類似於說明於美國專利6,826,525 B2之瞬態偵測器之方法或程序,可完成瞬態及其位置之偵測,但是亦可使用任何其他瞬態偵測器。
瞬態偵測單元確認存在及在一給定的幀之新信號部分中之最強瞬態之發端(onset)之位置(如果適合的話),亦即,除在目前與先前幀之間之重疊區域以外。指標的解析度在以下圖中說明瞬態位置是幀長度之1/8,所以指標範圍是從0至7。在後來的圖中,具有指標0,...,7之子區塊表示在目前幀中用來編碼之一時域信號之最新的20ms。
圖3a-3c顯示關於一示範的ms變換長度(亦即,關於一TCX20變換長度)之變換重疊寬度之選擇。
於圖3a中,在目前幀中並未出現一瞬態。因此,偵測到完全重疊300。
圖3b,相反地顯示一種狀態,於此一瞬態係於第七子區塊 被偵測到,俾能使半部重疊302係被圖1a之控制器108選擇。再者,圖3c顯示的狀態是於第六子區塊偵測到一瞬態,因此,控制器設定一最小重疊304。因此,瞬態位置偵測器106偵測是否存在有瞬態,若否,則選擇重疊寬度或第一重疊寬度300。然而,當於第七子區塊中存在有一瞬態(如由圖1a之瞬態位置偵測器106所決定)時,則最好是第一重疊長度300之一半之第二重疊長度302係被控制器設定,且當瞬態係於子區塊6時,則一最小重疊係被設定。圖3c另外顯示以下狀態,於此取代瞬態係於位置6或7被偵測到之事實的是,還是維持變換長度。因此,視窗301a,301b或303a或303b之變換長度是相同的並等於具有最長重疊長度之第一視窗(顯示於圖3a,301a及301b)。如稍後所將顯示的,較佳是不只控制重疊長度,而且特別是於以下狀態下控制變換長度:瞬態係於其他子區塊中被偵測到。因此,在目前及接續的變換視窗之間之重疊寬度取決於瞬態之位置。然而,在目前與先前變換視窗之間之重疊,是在處理先前幀時被決定。
然後,參考圖4a至4g,以便顯示關於10ms變換長度(亦即,TCX10)之變換重疊長度之選擇。舉例而言,如果編碼解碼器係受限於10ms變換長度,則在兩個TCX10視窗之間之重疊係被選擇成能使由於編碼錯誤之時間混疊的TNX成形所致偽瞬態係強烈地受到抑制。又,瞬態之塗抹至五個以上的先前至五個以上的後續子區塊係被最小化。亦即,預回音與後回音係受限於12.5ms。重疊之選擇係基於瞬態位置。
圖4a顯示一種狀態,於此一瞬態係於第零或第一子區塊中被偵測到。然後,具有最大或第一重疊長度403之"第一視窗"401、402係被選擇。再者,為了說明的目的,一種與先前及下一個視窗之TCX20完全重疊係於404被顯示做為一參考基準。因此,"完全重疊"係對應至視窗401、402的50%,或對應至譬如TCX20視窗301a,301b之33%。因此,在圖3a之重疊長度300及在圖4a之重疊長度403是相同的。
圖4b顯示一種狀態,其中一瞬態係於第二子區塊中被偵測到,而控制器接著控制開視窗順序,俾能使對應於顯示於圖2c之229之"第三重疊長度"之一最小重疊404被選擇。因此,於本實施例中是不對 稱視窗之視窗406,407係被選擇成具有短重疊長度,其對應於以圖1a及1b之語言表示之"第二視窗"。再者,當瞬態在第三子區塊中被偵測到時,第二重疊長度405係被選擇。因此,視窗408,409對應至具有第三重疊長度405之第三視窗,但是為不對稱視窗。
再者,如圖4d所示,當瞬態係為於瞬態部分4,且因此於此狀態被選擇之視窗係為顯示於圖4a之視窗401,402時,決定完全重疊長度。當選擇重疊俾能使其中一個重疊變換包含一如所顯示之瞬態時,瞬態係位於第二或第三子區塊中之情況係分別如圖4f或4g所示。當瞬態係位於零或第一子區塊時之這些情況是接著被各別處置,而當瞬態係為於第四或第五子區塊時之這些情況也是。因此,參考闡明以下狀態之圖4e,於此瞬態係位於零子區塊,獲得如圖4e所示之一開視窗順序,於此存在有半部重疊405,且其接著被切換回到完全重疊403。
這是藉由開視窗順序而獲得,開視窗順序是藉由起始視窗408,結束視窗409及一更進一步的正常長度視窗402而形成。
另一方面,圖4f顯示以下狀態,於此的瞬態係位於第一子區塊中,俾能選擇一短或一第三重疊長度404,這藉由起始視窗406與結束視窗407接著伴隨著一完全重疊視窗402而成為可能,因此,在圖4e中之視窗408或409顯示具有第二重疊長度405之第二視窗,以及對應至具有第三重疊長度404"之第三視窗之視窗406及407。
圖4g顯示一種狀態,於此的瞬態係被偵測到臥在第四子區塊中。此種狀態係由具有一完全重疊長度403之一第一視窗401及具有半部重疊長度405之一第二視窗409以及具有第二重疊長度405之一更進一步的第二視窗414反映出。然而,視窗414之右側取決於為下一幀決定之重疊長度,亦即,於起始於參考數字415表示之瞬間之下一個預看區域中。
因此,圖4a-4g顯示以下狀態,於此的重疊長度係被決定俾能使瞬態只位於一個視窗之內,這一個視窗係由以下事實所確定:於瞬態之位置,譬如於子區塊4中,視窗414之視窗係數係等於0,而視窗409之視窗係數係等於1。
然後,參考一較佳實施例,於其中變換長度係從重疊寬度衍生出。圖5a,5b,5c顯示三個不同的重疊長度403、405、404,於此完全重疊長度係由表示於501及502之兩個第一視窗所決定。再者,半部重疊長度係藉由具有顯示於503及504之第二重疊長度之兩個第二視窗所獲得,而第三重疊長度404係由具有第三重疊長度404之兩個第三視窗505及506所獲得。完全重疊最好是使用一"0"位元來編碼,半部重疊是使用一"11"位元組合來編碼,玵最小重疊是使用"10"位元組合來編碼。
因此,當TCX-20及TCX-5和TCX-10幀之組合可被使用時,當決定重疊寬度及變換長度選擇時,此種編碼是有用的。
不像從對於一對幀之變換長度(為重疊寬度遵循變換長度判定之輸出)之給定的選擇衍生出瞬間相互變換重疊(instantaneous inter-transform overlaps)之編碼機制的是,本發明之一較佳實施例是有關於一種編碼系統,其可使用歸因於那幀之重疊寬度且可選擇地是一先前幀之重疊寬度,來控制或衍生出供一特定幀使用之變換長度,亦即,變換長度遵循重疊寬度決定單元之資料,或者,相對於圖1a,是藉由瞬態位置偵測器106與控制器108之合作。圖6a顯示一編碼表,而圖6b顯示一對應的決定表。於圖5a,5b及5c中,實線表示在目前幀中之最終變換之視窗之右半部,而虛線表示在接續幀之第一變換之視窗之左半部。
圖6a顯示重疊的編碼及基於瞬態位置之變換長度。更特別是,短/長變換決定使用如欄600所表示之1位元來編碼,而與接續幀之第一視窗之重疊係使用具有如於欄602顯示之1或2位元之可變長度碼來編碼。在一方面是供短/長變換決定600之碼,以及供欄602之重疊寬度用之二進碼,係被連鎖以獲得欄603中之所謂的重疊碼。再者,與接續幀之第一視窗之重疊係由控制器108依據如由瞬態偵測器106所決定之欄604之瞬態位置指標所決定。相較於較早圖例之下,瞬態位置指標具有一增加的預看範圍,起始於由-1及-2表示之兩個較早時槽,且另外關於此種狀態,完全重疊於本實施例中係被發信號。
因此,完全重疊係為"無瞬態"或在-2及1之間之一瞬態位 置被發信號。再者,半部重疊係為了瞬態位置2及3及7被欄605發信號,而最小重疊係為了瞬態位置4,5,6而被發信號。
因此,在圖6a中之指標"-2"意味著在位置6曾經有一瞬態於先前幀中,及"-1"意味著在位置7曾經有一瞬態於先前幀中。如所述,"沒有(none)"意味著沒有瞬態曾經於瞬態預看區域中被偵測到。
作為概述,短/長變換決定與重疊寬度係使用重疊碼來關聯地編碼。重疊碼關於一短/長變換決定是由1位元所構成,而關於利用1或2位元編碼之重疊寬度是由二進碼所構成。此碼是一可變長度碼,於此它是自動地被偵測一字碼於何處起始,而較早字碼於何處中止。供短/長變換決定及重疊寬度用之這些碼係定義於圖6a。舉例而言,當短/長變換決定給予1而最小重疊被選擇時,亦即,二進碼係等於10,重疊碼係為110。
再者,圖6a顯示以下狀態:為在-2及5之間之所有瞬態位置採取一短變換決定,並為無瞬態或在位置6或7之瞬態選擇一長變換。因此,圖6a顯示以下狀態,於此瞬態位置偵測器可於某一個位置偵測某一個瞬態,且於此獨立於彼此或平行地,短/長變換決定及與接續幀之第一視窗之重疊可被決定,亦即,可衍生出完全重疊碼603。需強調的是熟習本項技藝者將理解到,可使用用於編碼不同的短/長變換及不同的重疊之任何其他碼。再者,兩個以上,亦即,三個或甚至更多變換長度可被決定及被發信號,且同時,三個以上的重疊(例如四個或五個不同的重疊長度)亦可被決定及編碼。這全部決定是,譬如回應於一瞬態位置偵測器,其操作於每幀有至少四個不同的分割,或如於本實施例中,操作於每幀有八個分割,或關於一更細微決定的是操作於甚至更多分割(例如一幀有16個分割)。
基於對目前幀及對先前幀之重疊碼,為一變換長度之組合以使用作出一決定,如圖6b所示。因此,圖6b顯示基於先前重疊碼與目前重疊碼之一變換長度之決定。舉例而言,如果先前重疊碼與目前重疊碼兩者皆為"00",則使用一例如401之視窗。如果先前重疊碼係為10而目前重疊碼係為00,則選擇相同的視窗。然而,如果先前碼係為111 (意指半部重疊碼)而目前重疊碼係為00,則選擇譬如圖4c之視窗409。對於110之先前重疊碼與目前重疊碼00而言,再次選擇一長變換,但具有一類似於視窗407之視窗,且相同的狀態係供一010之先前重疊碼與00之目前重疊碼使用,亦即,選擇圖4f之視窗407。最後,對一先前重疊碼011及對目前重疊碼00而言,選擇例如圖4e中之409之視窗。
為其他組合選擇其他視窗,且這是相對於圖7詳細被顯示。因此,圖7顯示某些變換長度組合與目前幀中之瞬態位置一起,以及與對目前幀及對先前幀之重疊碼一起。圖7中之110/010-111意味著先前重疊碼係為110或010,而目前重疊碼係為111。圖7因此顯示不同的組合。舉例而言,圖7中之左上圖片顯示於一順序之兩個TCX-5變換之初期的一最小重疊,及一具有完全重疊之後面的TCX-10變換。相對於此,在這張圖片下方之圖片顯示一伴隨四個TCX-5視窗之最小重疊,於此TCX-5視窗之第四視窗具有半部重疊等等。因此,參考數字700、701顯示一順序之兩個TCX-5或兩個短視窗伴隨一中間視窗。類似地,參考數字702、703、704、705、706、707顯示一具有四個短變換長度或"TCX-5"變換之狀態,而參考數字708、709、710、711顯示於第一時間(亦即,於此順序之初期),存在有一中間變換長度視窗(例如一TXC 10視窗)伴隨兩個TCX-5或短變換長度視窗之狀態。圖7中之順序700至711可藉由其他這種順序或藉由TCX-20或具有不同重疊(例如譬如於700、702之短重疊、一於704之中間重疊或譬如於708或710之長重疊)之長變換長度視窗而被引入。同時,順序可以伴隨著更進一步的這種順序或可以伴隨著TCX-20(亦即,長變換視窗),但具有不同的重疊長度。因此,順序700譬如以一長重疊結束,而順序702譬如以一中間重疊結束或順序706譬如以一小重疊長度結束。
如圖1a所顯示的,於圖1a中之112所顯示的視窗資訊(亦即,圖6a之重疊碼603)可藉由一輸出介面114而相關到每個編碼過的幀。
再者,在轉換器104所應用之變換可以是一MDCT或一MDST或一不同的混疊引入變換,其特徵為:一頻譜值之區塊中的頻譜 值之數目係低於輸入至變換中或相對於解碼器側之一開視窗樣本之區塊中的開視窗樣本之數目之事實,於其中,時域輸出樣本之數目係大於輸入至這種混疊降低倒退或逆變換中之頻譜值之數目。
如圖2至7之全部所顯示的,維持一固定幀光柵。因此,控制器108確定縱使譬如圖7所顯示的執行一切換到較短變換長度,仍維持總是相同的固定幀光柵。這係藉由只使用這種特定視窗而獲得確定,在正確重疊尺寸方面來說,其總是導致每個等級之視窗類似的變換長度。因此,每個TCX-5變換長度係被定義以具有這種重疊區域及一個在兩個變換結果為N/4頻譜值之重疊區域之間的固定區域,於此N係為在一幀之內的頻譜值之數目。格式與尺寸以及詳細地TCX 20變換視窗之重疊長度另外係以這個視窗導致隨變換而來的N個頻譜樣本之這樣的方式被設計。
圖1c顯示可控制轉換器158之一解碼器側較佳實施例。更特別是,可控制轉換器158包含一頻率-時間轉換器170,一隨後連接的合成開視窗器172及一最後的重疊-加法器174。具體言之,頻率-時間轉換器執行例如一DCT-IV變換之變換及一後來的疊出(fold-out)操作,俾能使頻率-時間轉換器170之輸出對於一第一或長視窗具有2N個樣本,而進入頻率-時間轉換器中之輸入示範性地為N個頻譜值。另一方面,當進入頻率-時間轉換器中之輸入係為N/8個頻譜值時,接著示範性地,此輸出係為一MDCT操作之N/4個時域值。
然後,頻率-時間轉換器170之輸出係輸入至一合成開視窗器中,合成開視窗器應用最好是正好與編碼器側視窗相同的合成視窗。因此,在執行一重疊-相加之前,每個樣本係被兩個視窗開視窗,俾能使所產生之"總開視窗"係為一相對應的視窗係數之平方,俾能使如前所討論的Princen-Bradley條件被滿足。
最後,重疊-加法器174執行相對應的正確重疊-相加,以便最後於輸出175獲得解碼的音頻信號。更特別是,頻率-時間轉換器170、合成開視窗器172與重疊-加法器174係譬如藉由圖6a之上下文中所討論的重疊碼603或藉由參見圖6b之上下文中所討論的狀態之任何其他資訊是可 控制的及受控制的。然而,最好是,頻率-時間轉換器之相對應的變換長度係藉由使用變換長度決定表,基於先前重疊碼與目前重疊碼而決定。再者,視窗尺寸/形狀亦基於先前重疊碼及一目前重疊碼而決定,且對重疊-加法器而言同樣是真實的,俾能使重疊-加法器應用最大重疊、中間重疊或最小重疊,如所發訊地。
因此,較好是,圖1c之解碼器中的控制器180接收重疊碼(亦即,先前重疊碼606與目前重疊碼607),並從此種資訊決定頻譜值之區塊的重疊及視窗。
因此,決定每個視窗及與視窗相關的相對應的變換尺寸。在一MDCT係使用作為一變換而一逆MDCT係用於逆變換之較佳實施例中,視窗尺寸係為變換長度兩倍或變換長度係為視窗尺寸之一半。
圖1d顯示以一行動裝置實施之本發明之一更進一步的實施例,於此行動裝置一方面包含一編碼器195,而另一方面包含一解碼器196。再者,依據本發明之一較佳實施例,因為使用於編碼器195之視窗與使用於解碼器196之視窗係彼此相同,所以編碼器105與解碼器106兩者只從單一記憶體197取得相同的視窗資訊。因此,解碼器具有一唯讀記憶體197或一隨機存取記憶體或通常任何記憶體197,於其中只有儲存單一組之開視窗順序或視窗以供在編碼器及解碼器兩者中使用。由於不同的視窗之不同的視窗係數並未需要被儲存兩次之事實,其中一組用於編碼器而一組用於解碼器,這是有利的。反而是,由於依據本發明相同的視窗及開視窗順序係使用於編碼器與解碼器中之事實,只有單一組之視窗係數必須被儲存。因此,圖1d所顯示之發明的行動裝置之記憶體使用實質上係相對於一不同的概念(於其中編碼器與解碼器具有不同的視窗或於其中某個具有處理操作而非開視窗操作之後處理係被執行)而被減少。
然後,參考相對於變換/變換長度切換實施例之一更進一步的較佳實施例。
上面所概述之變換及重疊長度-適應性編碼機制係被實施在LD-USAC編碼器之變換編碼的激發(TCX)路徑、一具有一20ms之幀長度之xHE-AAC[5]之低延遲變形例中,以及以48kbit/s mono被測試。於這 個配置點,在(偽)靜態輸入狀況期間,LD-USAC以具有一512個樣本之核心幀長度及一256個樣本之長變換重疊(亦即,33%)之唯TCX(TCX-only)模式操作。編碼器包含一瞬態偵測單元,其輸出係被輸入至一變換長度決定單元及輸入至發明的重疊寬度決定單元。可得到三個變換長度用於編碼:一具有512 MDCT係數之TCX-20長度,一具有256 MDCT係數之TCX-10長度,以及一具有128 MDCT係數之特殊TCX-5長度。因此,每幀可使用及傳輸三個重疊寬度之其中一個:256個核心樣本之最大重疊(10ms)、128個核心樣本之半部重疊(5ms)以及16個樣本(0.6ms)之最小重疊。對每個幀而言,必須選擇這些變換長度,以使那個幀中之所有變換之長度之總和等於核心幀長度(亦即,512個樣本)。
在發明的編碼系統之一較佳實施例中,編碼器操作如下:
1. 瞬態偵測單元確認此存在,且如果適合的話,一給定的幀之新信號部分中的最強瞬態之發端的位置(亦即,除在目前與先前幀之間的重疊區域以外)。說明瞬態位置之指標的解析度係為1/8之幀長度,所以指標範圍係為0,...,7。
2. 如果無瞬態已被偵測的話,或如果瞬態位置指標係為6或7的話,則影響的幀係藉由變換長度決定單元之決定而使用TCX-20變換來編碼。否則,使用TCX-10及/或TCX-5變換之組合:2x TCX-10或4x TCX-5或TCX-10伴隨2x TCX-5或2x TCX-5伴隨TCX-10。
3. 依據上面列舉的目的,重疊寬度決定單元現在控制使用在目前幀(除已經選擇的與最終幀之重疊以外)之內的變換之重疊形狀,以使並未違反該些目的之最長可能的重疊係被選擇。更特別是,如果一幀係為TCX-20而瞬態位置指標係為6或7,則重疊單元分別恢復最小或半部重疊。如果沒有信號非固定性出現在一幀中,則使用最大重疊。
4. 再者,如果一TCX-10/-5組合係被變換長度決定單元傳回給(非靜態)幀,則重疊寬度決定單元控制那個幀中之變換長度的正確組成物。 更明確而言,如果最大重疊係使用於先前與目前幀,則2x TCX-5伴隨一TCX-10係應用在目前幀中,其中第一之TCX-5變換係為具有雙重重疊之發明的瞬態變換。如果最終幀的或目前幀的重疊寬度小於最大,則亦使用混合TCX-10/-5配置之其中一個。如果最終及目前幀兩者具有小於最大重疊,則使用4x TCX-5。
5. 編碼器現在繼續至信號之開視窗與此幀之實際MDCT。必須特別注意關於以發明的雙重重疊瞬態視窗的形式存在之開視窗操作之順序,以便在解碼之後獲得完美重建。其餘之編碼處理係類似於xHE-AAC。TNS係可選擇地被應用至個別的變換,及將兩個TCX-5 MDCT係數組分類為一個TCX-10-類似組之(交插)係數可被執行以儲存側資訊。對每個幀而言,指示TCX-20或非TCX-20編碼之一個重疊寬度數值與一個1-位元旗標係被傳輸至解碼器。
像編碼器一樣,依據較佳實施例之適當的解碼器描寫一解釋傳輸重疊寬度數值以控制逆MDCT之長度及開視窗之重疊寬度決定單元的特徵,俾能使編碼器及解碼器關於所使用的變換係完全同步。如在編碼器中,在個別的MDCT之後的開視窗及折疊操作之順序是重要的以獲得完美的信號重建。
然後,於圖8至15f之上下文中討論並顯示本發明之一更進一步的實施例。又命名為"多重疊實施樣態"之這個實施樣態可以與相對於圖1至7所討論的重疊寬度及變換長度切換實施例結合或可以與這個實施樣態分開地被實施。
本發明之一編碼器側係顯示於圖8a中,而一解碼器側係顯示於圖8b中。更特別是,用以產生一編碼過的信號之設備或圖8a所顯示之編碼器包含一開視窗順序控制器,用以產生一開視窗順序資訊809被傳送譬如至一預處理器802、一光譜轉換器804或一輸出介面810,如圖8a所顯示的。開視窗順序資訊表示:一第一視窗函數,用以產生一第一幀之 頻譜值;一第二視窗函數;以及一個或多個第三視窗函數,用以產生一第二幀之頻譜值。第一視窗函數、第二視窗函數與一個或多個第三視窗函數重疊在一多重疊區域之內。
這個多重疊區域譬如是顯示於圖13或圖14b或圖15e或圖15f中的1300。因此,於此多重疊區域1300中,至少三個視窗函數(亦即,相對於圖15f於1500所顯示之第一視窗函數、第二視窗函數1502與第三視窗函數1503)彼此重疊在多重疊區域1300之內。亦可以有一更高的重疊,例如四個、五個或甚至更多視窗之一重疊。或者,圖15e顯示相較於圖15f之單一的第三視窗函數1503之下,一個又具有第一視窗函數1500、第二視窗函數1502但現在四個第三視窗函數1503之狀態。
為了正確處理這個導致瞬態預看區域所需要之一延遲的顯著減少之多重疊區域,提供一預處理器102。預處理器係被設計成用於藉由使用一輔助視窗函數,來開視窗對應於第二視窗與一個或多個第三視窗函數之一第二區塊之樣本,以獲得一第二區塊之開視窗樣本。再者,預處理器係被設計成用於藉由使用一與第一區塊重疊之第二區塊之一部分的疊入操作,來將第二區塊之視窗樣本預先處理成多重疊部分,以獲得一具有一變化的多重疊部分之預先被處理之第二區塊之開視窗樣本。再者,一光譜轉換器804係被設計成用於藉由使用第一視窗,將一混疊引入變換應用至第一區塊之樣本以獲得第一幀之頻譜值。再者,光譜轉換器係被設計成用於藉由使用第二視窗函數,將一混疊引入變換應用至一預先被處理之第二區塊之開視窗樣本之第一部分以獲得一第二幀之頻譜樣本之一第一部分,及用於藉由使用一個或多個第三視窗函數將混疊引入變換應用至一預先被處理之第二區塊之開視窗樣本之第二部分,以獲得第二幀之頻譜樣本之一第二部分。再者,一表示為"編碼處理器"之處理器806係設置於圖8a之編碼器之內用於處理第一幀及第二幀之頻譜值,以於區塊806之輸出807獲得音頻信號之編碼過的幀。因此,編碼處理器可以是等同於或不同於圖1a之編碼處理器110,並可執行習知技藝中的熟知之MPEG或AMR r任何其他編碼特徵之任何一個。
接著,參考圖13。圖13再一次顯示第一視窗函數1500之 第二半部、第二視窗函數1502以及在圖13之第二圖片中,兩個第三視窗函數1503。相對於此,圖13中之上部圖例又顯示一第一視窗函數1500、一第二視窗函數1502以及相較於譬如圖15f之下且略類似於圖15e,四個第三視窗函數1503。或者,第三視窗函數之數目亦可以是三個、五個左右。
再者,圖13另外顯示一種具有一不同的第一視窗函數1500'、一不同的第二視窗函數1502'與相同的第三視窗函數1503之狀態。在1500及1500'之間的差異係為函數1500'及1502'之重疊長度係為相對於視窗1500、1502之一半。因此,視窗函數1500'及1502'之狀態係為重疊長度係為譬如在圖2d中於218所顯示之半部重疊,而完全重疊長度係對應至一完成幀,如譬如圖2a或圖13中於203所顯示的。因此,於這張圖表所示之視窗函數1500'及1502'表示一多重疊實施樣態與重疊寬度判定實施樣態之組合。
為了更好說明編碼器側上之預處理器802之程序,一方面參考圖11a中之圖例,而另一方面參考圖9a、9b中之流程圖。關於解碼器,參考圖8b、圖10a、10b中之相對應的圖例與圖11b中之圖例。再者,編碼器亦顯示於圖12a中且解碼器係顯示於圖12b中。
更特別是,圖11a再一次顯示第一視窗函數1500與第二視窗函數1502之至少一部分以及四個第三視窗函數1503或單一第三視窗函數1503。更特別是,圖11a另外顯示輔助視窗函數1100。輔助視窗函數1100具有一與第一視窗函數1500之第一上升部分1500a疊合的第一部分1100a。再者,輔助視窗函數1100具有一最好是具有等於一之視窗係數之第二不重疊部分1100b以及一對應於一個或多個第三視窗函數之一下降或降下或右側部分之第三部分1100c。因此,輔助視窗函數1100覆蓋於1102所顯示之較早幀之第二半部、以1103表示之目前幀i之第一半部,以1104表示之目前幀i之第二半部以及由輔助視窗函數部分1100c所覆蓋之第一小部分1105。如從圖11a變成清楚的,輔助視窗函數係被處置成為一"起始視窗順序"或係對應至這種"起始視窗順序",猶如在幀i+1中,必須引入一順序之短視窗。重要地,然而,一順序之短視窗已經在目前幀中而非在即將來臨的幀i+1中被引入。
預處理器之功能性接著顯示於圖11a中。預處理器藉由在表示為"起始疊入混疊,幀i"之操作中使用一投票來預處理第二區塊之視窗樣本,第二區塊之視窗樣本係藉由使用輔助視窗函數來開視窗所獲得。因此,以1110表示之第二區塊的開視窗樣本之最左部分係向內折疊。這個部分1110係為與前述第一視窗函數1500重疊之第二區塊之開視窗樣本之部分,亦即,對應於時間期間1102及位於前述幀i-1中之第二區塊之開視窗樣本之部分。由於部分1110之這個疊入操作現在影響重疊區域1300之事實,藉由預處理器而執行之疊入操作導致一變化的多重疊部分。現在,光譜轉換器應用表示為"內疊入混疊"之圖11a之線所顯示的操作。更特別是,光譜轉換器藉由使用為幀i-1所顯示的第一視窗函數而將一混疊引入變換應用至第一區塊之樣本。混疊引入變換包含於1120所顯示的疊入操作與後來的於1122所表示的譬如DCT-IV變換。為此,需要第一視窗函數1500以便在幀i-1之疊入操作1120之前獲得此形狀。再者,光譜轉換器將混疊引入變換應用至以圖11a中之項目1131表示之第一部分。這係藉由使用第二視窗函數1502且更特別是第二視窗函數1502之右側部分而做成。這個操作導致由變換1132所獲得之一第二幀之頻譜樣本之一第一部分,於此變換1132再一次表示一DCT-IV操作,其與相對應的折疊操作一起構成,但現在只在區塊1131之右重疊部分中之混疊引入變換。
再者,光譜轉換器係被設計成用於藉由使用一個或多個第三視窗函數1503將混疊引入變換應用至一預先被處理的第二區塊1130之第二部分1133以獲得一第二幀之頻譜樣本之第二部分1135。因此,為了獲得頻譜樣本之第二部分1135,可應用四個N/8 DCT-IV變換或單一N/2 DCT-IV變換。變換之數目與長度取決於第三視窗函數之數目。通常,第二部分1135中之頻譜樣本的長度、變換或數目係等於一幀中頻譜樣本之數目減去變換1132之長度,且結果係接著除以所使用的第三視窗函數之數目。
因此,預處理器802通常對於開視窗(902)(圖9a)是有效的,音頻信號使用輔助視窗函數1100以獲得第二區塊之開視窗樣本。接著,處理器904最好是應用於圖11a中的1110所表示之折疊操作以獲得具有變化的多重疊部分1300之預先被處理之第二區塊之開視窗樣本。然後, 轉換器906藉由使用第一、第二與第三視窗函數應用這些變換以獲得第一幀之頻譜值1122,第二幀之第一部分1132以及第二幀或以圖11a之表示法存在的幀i之第二部分1135。
在較佳實施例中,相對於圖9b所顯示的,輔助視窗函數係藉由參考第一視窗函數以及示範性地藉由選擇第一視窗函數之第一部分1500a,以作為輔助視窗函數1100之第一部分1100a而決定(910)。再者,決定不重疊部分1100b(一個之視窗係數係被採取為相對應的長度),而接著再示範性地藉由採取短視窗函數之第二部分決定第三部分1100c。
然後,音頻信號係以與圖11a所顯示之前述或第一幀i-1正確關係,而利用這個輔助視窗函數來被開視窗(912)。接著,如於圖9b中之914所顯示的,左側部分1110及最好是右側部分1111係被疊入。在步驟916中,執行一內部區域之項目e)或f)中的陰影線所顯示的重疊部分之折疊。再者,如於918所顯示的,如果有更多如在圖11a中的子圖片e)中之第三視窗函數,則同樣執行第三視窗函數之重疊部分的疊入。然而,如果只存在有如圖11a所顯示的子圖片f)中之單一第三視窗函數,則控制繼續從步驟916至920直接沒有步驟918。在步驟920中,DCT操作係藉由使用比第一幀之DCT核心更短的DCT核心而被執行。子圖片e)之DCT核心對第二視窗函數而言是N/2,而對第三視窗函數而言是N/8。相對於此,當只存在有單一第三視窗函數時,則變換核心對第二視窗函數而言係等於N/2,而對單一第三視窗函數而言係等於N/2。
因此,多重疊區域1300係被開視窗兩次,關於這一點是很清楚的。第一開視窗係藉由輔助視窗之第一部分1100a而完成,而第二開視窗係藉由第三視窗函數1503之第二半部而執行,如圖11a之子圖片e)或f)所顯示的。
再參考圖13。如在圖1a之上下文中或在圖8a之上下文中所討論的,開視窗順序控制器產生特定視窗形狀。在一實施例中,開視窗順序控制器係被設計成用於包含瞬態位置偵測器106。當一瞬態係在瞬態偵測部分0或1中被偵測到時,接著,編碼器係被控制以進入多重疊部分模式,所以這些於1305所表示之瞬態係被侷限以只位在單一第三視窗之內或 在兩個鄰近的第三視窗之內。具體言之,左瞬態1305係被侷限以只位在第一短視窗函數中,於此瞬態1305之右瞬態位於第一至第三視窗函數中。然而,當決定瞬態係被設置在一與0不同之區域中,例如在區域1、2、3左右中時,接著可在沒有多重疊區域的情況下譬如類似地執行一處理,如圖6a、圖6b、圖7左右之上下文中所討論的。
相對於此,然而,多重疊區域處理亦可在視窗切換應用之上下文中被執行,於此,當偵測到一瞬態時,為目前幀可切換一甚至更大組之短視窗,俾能最好是在一個與相同區塊或幀光柵之內,使一長視窗或一特定數目之短視窗係用來開視窗。第一視窗係對應至譬如在圖13中之視窗1500,第二視窗係對應至視窗1502,且在不需要參考某一個瞬態位置的情況下,只有當一瞬態係在目前幀中之任何地方被偵測到,而不需要知道瞬態被設置正確在幀之內的哪裡時,執行一改變成一些第三視窗函數。
然而,為了保持第三視窗之數目儘可能小,較佳是切換成多重疊部分模式及變換重疊之附加切換,且變換長度選擇係依據在幀之內的瞬態之特定位置(亦即,在最好是一幀或一對應於一幀之時間部分之四個或甚至八個不同部分之其中一個中)被執行,於此這個時間部分接著等於一長視窗(例如圖13之長視窗1500)之尺寸的一半。最好是,在一預看區域之起始208(一方面顯示於圖2中,而另一方面顯示於圖13)之前,如可在圖13中看到的,設置此多重疊部分。
在解碼器側上,執行一相似的處理。在用於解碼一包含一編碼過的第一幀及一編碼過的第二幀之編碼過的音頻信號821之一設備之一實施例中,圖8b之一解碼處理器824被要求來處理第一編碼過的幀及第二編碼過的幀以獲得一第一幀之頻譜值及一第二幀之頻譜值,第一及第二幀包含混疊部分。一時間轉換器826係連接至解碼處理器824,而時間轉換器826係被設計成用於藉由使用一第一視窗函數而將一變換應用至這個第一幀以獲得一第一區塊之樣本。再者,時間轉換器826係被設計成用於藉由使用一第二視窗函數而將變換應用至一第二幀之第一部分,以及藉由使用一個或多個第三視窗函數而將變換應用至一第二幀之第二部分以獲得第二區塊之樣本。如在圖1a之上下文中所討論的,第一視窗函數1500,第二視 窗函數1502與一個或多個第三視窗函數1503一起具有一多重疊區域1300。
再者,解碼器包含一後處理器828,用以藉由使用一疊出操作後處理第二區塊之樣本以獲得一後處理的第二區塊之樣本,其具有與多重疊區域中之第一區塊之樣本重疊之第二區塊之樣本之一部分。再者,後處理器828係被設計成用於藉由使用在圖8a及圖11a之上下文中所討論的輔助視窗函數開視窗此後處理的第二區塊之樣本。後處理器828執行一開視窗的後處理的第二區塊之樣本與第一區塊之樣本之重疊-相加,以獲得於圖8b之829或於圖1c之區塊175所表示之解碼的音頻信號。因此,基本上圖8b之後處理器828可具有相對於輔助視窗函數之合成開視窗器172與重疊-加法器174之功能性。
然後,後處理器與時間轉換器合作之功能性係相對於圖11b之圖例被討論,圖11b之圖例顯示一相對於圖11a編碼器圖例之反向處理。第一幀之頻譜值1142係輸入至一N-尺寸逆變換1161中,而第二幀之第一部分1152係輸入至一N/2逆變換1162中且取決於第三視窗函數之數目,第二幀之第二部分1155係輸入至四個N/8短變換1163或單一N/2變換1162中,類似關於第二幀之第一部分1152。
這個程序係藉由時間轉換器而執行。時間轉換器另外使用第一視窗函數用以與一於圖11b中之1170所顯示的之前執行的疊出操作一起執行開視窗。再者,第二視窗函數係在將這些程序應用至於1172所顯示之第一部分1152時被使用。具體言之,具體執行第二視窗函數之最右側部分1173及第二後來的開視窗之疊出,同時在幀之左側上,並未執行任何內部疊出。再者,此變換執行一特定疊出與後來的開視窗,以及不僅利用第二幀之第一部分1152,而且利用第二幀之第二部分1155之額外重疊-相加,如於圖11b中之1172所顯示的。如果只存在有於圖11b之子圖片f)所顯示的單一第三視窗函數,則只有從兩側之單一疊出操作與使用第二視窗函數之右手部分與第三視窗函數之左手部分之開視窗一起,以及後來的在重疊範圍1174內的重疊-相加會被執行。
接著,藉由使用於1175所顯示之疊出操作,利用1172中之程序之結果的第一部分,後處理器運用後處理,用於獲得在先前幀中延伸 之一部分1176a及最好是在下一幀中延伸之1176b。然後,執行藉由使用輔助視窗函數,利用疊出部分1176a、1176b且當然利用在目前幀i之內的部分之開視窗,以獲得於1175所顯示之狀態。接著,輔助視窗函數-開視窗的後處理的第二區塊之樣本與第一區塊之樣本之一最後的重疊-相加係於重疊範圍1180且在其之內被執行,用於獲得對應於這個重疊範圍1180之最後的解碼的音頻信號。再者,由於不存在有重疊與下一個區段1182係藉由與幀i+1(即時在幀i以後)之一視窗函數之相對應的部分重疊而獲得之事實,此種程序此外導致一解碼的音頻信號樣本1181之後來部分。
因此,如於圖10a所顯示的,解碼器側方法包含:應用1000,藉由使用第一視窗函數之一變換至第一幀;及應用1010,藉由使用第二視窗函數之變換至第二幀之第一部分;以及應用1020,藉由使用第三視窗函數之變換至第二幀之第二部分。然後,在步驟1030中,執行一疊出操作,而在步驟1040中,執行藉由使用輔助視窗函數之一開視窗,最後,在步驟1050中,執行開視窗的後處理第二區塊與第一區塊之一重疊-相加以於處理結束時獲得解碼的音頻信號,譬如在圖11b中所顯示的。
如圖10b所顯示的,較佳實施例包含為第二幀之每個部分執行一逆DCT操作,亦即,以相對於先前幀i-1較短的長度執行數個DCT操作,於此使用一長視窗1500。在步驟1070中,一內部混疊部分之疊出係被執行作為在1172中所顯示之操作,而疊出最好是一位於相對應的邊緣之鏡像變換,相對應的邊緣在圖11b中之1172表示的線中顯示為垂直線。接著,在步驟1080中,執行藉由使用在區塊1184之內的第二及第三視窗函數之一開視窗,並執行在此區塊之內的開視窗結果之後來的重疊-相加,如顯示於1090的。然後,如於192所表示的,執行重疊-相加結果之左/右(或換言之,較早的/後來的)混疊部分之一疊出,以便獲得在先前幀中延伸之部分1176a及在下一幀中延伸之部分1176b。然而,1175中的表現只在使用於1094所顯示之輔助視窗函數之開視窗之後。接著,在步驟1906中,在使用輔助視窗函數之開視窗之後,執行一與第一區塊之樣本的重疊-相加。
然後,參考圖12a及圖12b。圖12a中之項目a對應至圖11a之第一線中的程序。子圖片b)中之程序對應至在圖11a之第二及第三線中 被執行之程序,而於圖12a之項目c)中所顯示之程序對應至圖11a之最後兩條線中的程序。依此類推,解碼器側表現係對應至圖12b。更特別是,圖11b之前兩條線對應至圖12b中之子圖片f)。第三及第四線對應至圖12b中之項目e),而圖12b中之最終線對應至圖11b中之最終線。
圖14a顯示一種編碼器側上之開視窗順序控制器或解碼器側之元件824、826、828係被設計成用於在如在圖14a中之一非多重疊狀態與在圖14b中所顯示之一多重疊狀態之間切換之狀態。因此,當在瞬態部分0中偵測到一瞬態時,一個程序係用以不應用多重疊部分,但用以從TCX-20視窗切換至單一重疊的短視窗TCX-10。然而,一種至一多重疊部分之切換最好是藉由應用一開視窗順序而執行,開視窗順序包含第一視窗1400、第二視窗1402以及一個第三視窗1403或於圖14b之本實施例中兩個第三視窗1403。
圖14b之視窗重疊及尺寸係略不同於圖13中的圖例,但關於圖11a中的編碼器側或圖11b中的解碼器側之一般程序同樣地發生,關於這一點是很清楚的。
接著,討論圖15。具體言之,圖15以黑盒子(black boxes)顯示一瞬態偵測預看1590與所產生之預回音1595之期間。圖15a顯示一傳統的高-效率-AAC-型順序,包含一個長起始視窗、八個短視窗、一個長結束視窗等等。需要的預看是高的且共計N+N/2+N/16,但預回音1595是小的。依此類推,圖15b顯示一傳統的AAC低延遲型瞬態偵測程序,其導致一包含一長順序、一長起始視窗、一低重疊視窗以及一長結束視窗之開視窗順序。瞬態偵測預看係與在圖15a中的相同,但預回音之期間係比在圖15a來得長。然而,另一方面,由於使用的視窗越短,比特率效率越低之事實,效率是更高的。
圖15c及15d顯示具有一減少的瞬態偵測預看之N/16樣本之高效率AAC或一AAC低延遲程序之一實施方案,且只有顯示可能具有一減少的瞬態偵測預看之N/16樣本之長順序。如果順序如於圖15d中所顯示的由一長視窗、一長視窗、一長起始視窗、一長結束視窗等等所構成,則相較於圖15c只減少後回音,但預回音1595是相同的。因此,圖15c、d 顯示一類似於發明的圖15e及15f之短預看。如果吾人現在將實施如在圖15c及15e中之多重疊部分,則吾人可只使用如在那些圖中的順序,但任何切換至一短視窗是不可能的。因此,多重疊部分允許切換至短視窗以減少前/後回音,或使用一短預看延遲或特徵兩者以減少延遲及減少前/後回音。
圖15e顯示一具有一減少的瞬態偵測預看之N/16樣本之高效率AAC順序與較佳的多重疊區域1300。此順序包含一長視窗、一更進一步的長視窗1500、一更進一步的起始順序1502、四個短順序1503以及一長結束視窗1504。如變得清楚的,預看是小的,因為是預回音。圖15f獲得一類似的狀態,圖15f闡明一與圖15e中類似的配置,但只具有單一第三視窗函數而不是四個短順序。
雖然已在區塊表示實際或邏輯硬體元件之方塊圖之上下文中說明本發明,但本發明亦可藉由一電腦實施方法被實施。在後者的情況下,這些區塊表示對應的方法步驟,於此這些步驟代表藉由對應的邏輯或物理硬體區塊而執行之功能。
雖然已在一設備之上下文中說明某些實施樣態,但顯然這些實施樣態亦表示一相對應的方法之說明,於此一區塊或裝置係對應至一方法步驟或一方法步驟之一特徵。依此類推,在一方法步驟之上下文中所說明之實施樣態亦表示一對應的區塊或項目或一對應的設備之特徵的說明。某些或所有的方法步驟可藉由(或使用)一硬體設備,譬如像一微處理器、一可程式化電腦或一電子電路而被執行。在某些實施例中,某個或某些最重要的方法步驟可藉由這種設備被執行。
發明的傳輸或編碼過的信號可被儲存在一數位儲存媒體上,或可被傳輸在例如一無線傳輸媒介之一傳輸媒介,或例如網際網路之一有線傳輸媒介上。
依據某些實行需求,本發明之實施例可被實施在硬體中或在軟體中。實施例可藉由使用一數位儲存媒體而被執行,數位儲存媒體譬如是一軟磁碟、一DVD、一藍光(Blu-Ray)、一CD、一ROM、一PROM以及EPROM、一EEPROM或一快閃記憶體,具有儲存於其上之電子可讀取的控制信號,且與一可程式化電腦系統合作(或能夠合作),以使各個方法 被執行。因此,數位儲存媒體可以是電腦可讀取的。
依據本發明之某些實施例包含一具有電子可讀取的控制信號之資料載體,其能夠與一可程式化電腦系統合作,以執行使於此所說明之其中一個方法。
通常,本發明之實施例可被實施為一具有一程式碼之電腦程式產品,當電腦程式產品在一電腦上執行時,程式碼對於執行其中一個方法是有效的。程式碼可譬如被儲存在一機器可讀取的載體上。
其他實施例包含儲存在一機器可讀取的載體上用於執行於此所說明之其中一個方法之電腦程式。
換言之,當電腦程式在一電腦上執行時,本發明方法之一實施例因此係為一種具有一用於執行於此所說明之其中一個方法之程式碼之電腦程式。
因此,發明方法之一更進一步的實施例係為一資料載體(或例如一數位儲存媒體之一非暫時性儲存媒體,或一電腦可讀取媒體),包含記錄於其上之用於執行於此所說明之其中一個方法之電腦程式。資料載體,數位儲存媒體或記錄媒體一般為有形及/或非暫時性。
因此,本發明方法之一更進一步的實施例係為表示用於執行於此所說明之其中一個方法之電腦程式之一資料流或一順序之信號。資料流或此順序之信號可譬如被設計成用於經由一資料通訊連接,譬如,經由網際網路而被傳輸。
一更進一步的實施例包含一處理手段,譬如,一電腦或一可程式化邏輯元件,設計成用於或適合於執行於此所說明之其中一個方法。
一更進一步的實施例包含一電腦,具有裝設於其上之用於執行於此所說明之其中一個方法之電腦程式。
依據本發明之一更進一步的實施例包含一設備或一系統,設計成用於將(譬如,電子地或光學地)一用於執行於此所說明之其中一個方法之電腦程式傳送至一接收器。接收器可譬如是一電腦、一行動裝置、一記憶體裝置等等。此設備或系統可譬如包含一檔案伺服器用以將電腦程式傳送至接收器。
在某些實施例中,可使用一可程式化邏輯元件(譬如,一現場可程式化閘陣列),以執行於此所說明之方法的某些或所有功能。在某些實施例中,一現場可程式化閘陣列可協同一微處理器,以便執行於此所說明之其中一個方法。通常,這些方法最好是藉由任何硬體設備而執行。
上述實施例對於本發明之原理僅是說明性的。吾人理解到,其他熟習本項技藝者將明白於此所說明之配置與細節之改進方案及變化。因此,意圖僅受限於即將發生的專利申請專利範圍之範疇而不受限於經由說明所提出的特定詳細及於此之實施例之說明。
參考文獻
[1]國際標準化組織,ISO/IEC 14496-3 2009,"資訊科技-音頻-視覺物件的編碼-部分3音頻(Information Technology - Coding of audio-visual objects - Part 3 Audio)",Geneva,Switzerland, Aug. 20096。
[2]互聯網工程任務組(IETF),RFC 6716,"作品音頻編解碼器之定義(Definition of the Opus Audio Codec)",提議之標準,2012年9月。從線上可得到:http://tools.ietf.org/html/rfc6716。
[3]C. R. Helmrich,"在信號視窗中正弦之總和之使用(On the Use of Sums of Sines in the Signal Windows)",於Proc. of the 13 th Int. Conference on Digital Audio Effects (DAFx-10) , Graz, Austria, 2010年9月。
[4]J. Herre及J. D. Johnston,"藉由使用時域雜訊整形(TNS)之知覺的音頻編碼器之增進性能(Enhancing the Performance of Perceptual Audio Coders by Using Temporal Noise Shaping (TNS))",於Proc. 101 st AES Convention, LA, USA, 1996年11月。
[5]M. Neuendorf等人,"MPEG均一化語音及音頻編碼-所有內容型式之高效率音頻的編碼之ISO/MPEG標準(MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types)",於Proc 132 nd Convention of the AES, Budapest, Hungary, Apr. 2012.亦出現於Journal of the AES, 2013年。
100‧‧‧音頻信號
102‧‧‧可控制開視窗器/預處理器
103‧‧‧開視窗樣本
104‧‧‧轉換器
105‧‧‧編碼器/頻譜值
106‧‧‧瞬態偵測器/瞬態位置偵測器/解碼器
107‧‧‧識別位置
108‧‧‧控制器
110‧‧‧編碼處理器
112‧‧‧視窗資訊
114‧‧‧輸出介面
115‧‧‧編碼過的音頻信號

Claims (34)

  1. 一種用於編碼音頻或影像信號之設備,包含:一可控制開視窗器(102),用於開視窗該音頻或影像信號,以提供一順序之區塊之開視窗樣本;一轉換器(104),用於將該順序之區塊之開視窗樣本轉換成一包含一順序之幀之頻譜值之頻譜表現;一瞬態位置偵測器(106),用於確認在一幀之一瞬態預看區域之內的一瞬態之一位置;以及一控制器(108),用於控制該可控制開視窗器(102),以將一具有一特定重疊長度之特定視窗應用至該音頻或影像信號回應於該瞬態之一識別位置(210-213),其中該控制器(108)係被設計成用於從一群組之至少三個視窗選擇該特定視窗,該至少三個視窗包含一具有一第一重疊長度(203)之第一視窗(201)、一具有一第二重疊長度(218)之第二視窗(215)、以及一具有一第三重疊長度(229)或不具有重疊之第三視窗(224),其中該第一重疊長度(203)係大於該第二重疊長度(218),及其中該第二重疊長度(218)係大於該第三重疊長度(229)或大於一零重疊,其中該特定視窗係基於該瞬態位置被選擇,以使兩個時間相鄰的重疊視窗之其中一個具有位於該瞬態之該位置之第一視窗係數,而使該兩個時間相鄰的重疊視窗之另一個具有位於該瞬態之該位置之第二視窗係數,其中該些第二係數係為該些第一係數之至少九倍大。
  2. 如申請專利範圍第1項所述之設備,其中該控制器(108)係被設計成用於選擇該特定視窗,俾能使該些第一視窗係數係等於1,並使該些第二視窗係數係等於零。
  3. 如申請專利範圍第1或2項所述之設備,其中該第一重疊長度係等於該特定視窗一長度之四分之一或三分之一或一半,其中該第二重疊長度係等於該第一重疊長度之一半或三分之一,且其中該第三重疊長度係為該第二重疊長度之一半或四分之一或八分之一或小於或等於1.25ms。
  4. 如申請專利範圍第1項所述之設備,更包含一輸出介面(114),用於使一由該控制器(108)所提供之視窗資訊(112)與一包含一順序之編碼過的區塊的頻譜值之該頻譜表現之編碼過的表現關聯。
  5. 如申請專利範圍第1項所述之設備,其中該轉換器(104)係被設計成用於執行一改進的離散餘弦變換或一變化離散正弦變換,其中在一區塊之頻譜值中的一些頻譜值,係低於在一區塊之開視窗樣本中的一些開視窗樣本。
  6. 如申請專利範圍第1項所述之設備,其中該控制器(108)係被設計成用於以一固定幀光柵係被維持在包含至少五個幀之該順序之區塊中的這樣的方式來控制該開視窗器(102),其中一幀具有一長度,其係等於該第一視窗之一長度或等於該第一視窗之該長度除以2的整數倍,且其中該瞬態預看區域從該目前幀中之一位置延伸直到一下一幀中之一位置,該位置係在該幀之該中間中或從該幀之該中間移走了小於或等於一幀之該些樣本之25%。
  7. 如申請專利範圍第1項所述之設備,其中該瞬態位置偵測器(106)係被設計成用於應用延伸遍及一全部幀之該瞬態預看區域,並用於區別至少四個四分之一,且其中該控制器(108)係被設計成用於在無瞬態係被偵測到時選擇該第一視窗,在一瞬態係在該第一或第四個四分之一中被偵測到時選擇該第二視 窗,以及在一瞬態係在該第二或該第三個四分之一中被偵測到時選擇該第三視窗。
  8. 如申請專利範圍第1項所述之設備,其中該控制器(108)係被設計成用於決定該特定視窗,俾能使一重疊寬度係以兩個時間相鄰的重疊視窗只有其中一個包含該偵測的瞬態之這樣的方式被選擇。
  9. 如申請專利範圍第1項所述之設備,其中該瞬態位置偵測器(106)係被設計成用於偵測在該瞬態預看區域之內的該瞬態之該位置,俾能使該瞬態位置與該瞬態之一起始或一發端相同,或與一最大振幅或能量之一時間位置或該瞬態之一能量之一中心相同。
  10. 如申請專利範圍第1項所述之設備,其中該瞬態位置偵測器(106)係被設計成用於使用一瞬態預看區域,覆蓋一目前幀之一第二部分及一下一幀之一第一部分,其中該瞬態位置偵測器(106)係被設計成用於確認由一從零至七之指標所識別之八個不同的瞬態位置,其中該控制器(108)係被設計成用於在該瞬態指標係為七時選擇該第二視窗,或在該瞬態指標係為六時選擇該第三視窗。
  11. 如申請專利範圍第1項所述之設備,其中該瞬態位置偵測器(106)係被設計成用於使用一瞬態預看區域,覆蓋一目前幀之一第二部分及一下一幀之一第一部分,其中該瞬態位置偵測器(106)係被設計成用於確認由一從零至七之指標所識別之八個不同的瞬態位置,其中該控制器係被設計成用於在無瞬態係被偵測到時選擇該第一視窗,用於在該瞬態指標係等於零、一、六、 七時選擇該第二視窗,或用於在該瞬態指標係等於兩、三、四、五時選擇該第三視窗。
  12. 如申請專利範圍第1項所述之設備,其中該控制器(108)係被設計成用於為一幀選擇一些特定視窗,俾能使藉由一幀之複數個視窗所獲得之一些頻譜值係等於藉由轉換一具有該第一視窗尺寸之視窗函數所獲得之頻譜值之數目,其中該第一至第三視窗具有一相同的第一視窗尺寸,且其中一幀係由該相同的視窗尺寸所定義,且其中該群組包含一第四視窗及一第五視窗,該第四視窗及第五視窗具有一相同的第二視窗尺寸,該第二視窗尺寸係為該第一視窗尺寸之一整分數,且其中該第四視窗具有一第四重疊長度,而該第五視窗具有一小於該第四重疊長度之第五重疊長度。
  13. 如申請專利範圍第1項所述之設備,其中該控制器(1085)係被設計成用於基於該瞬態位置,決定一重疊寬度資訊(602)及一短/長變換資訊(600),其中該重疊寬度資訊(602)係被決定以具有一指示一最大重疊寬度之第一數值,一指示一中間重疊寬度之一第二數值以及一指示一最小重疊寬度之第三數值,其中該短/長變換資訊(600)包含對於一具有一個以上的變換之幀的一長視窗或一短視窗之一識別,以及其中該控制器(108)係被設計成用於基於該重疊寬度(602)資訊與該短/長變換資訊(600),決定一幀之單一視窗或該幀(608)之一順序之兩個、三個或四個視窗。
  14. 如申請專利範圍第1項所述之設備, 其中該控制器(108)係被設計成用於決定一幀之一些變換及該些變換之對應的長度回應於一識別瞬態位置(605),其中該控制器(108)係被設計成用於決定一幀之該變換之該數目及長度,以使藉由該幀之該些變換所獲得之一些頻譜值等於藉由一與一最大重疊視窗函數相關的最長變換長度所獲得之一些頻譜值。
  15. 如申請專利範圍第1項所述之設備,其中該控制器(108)係被設計成用於決定變換之一長度及數目或用於選擇一特定視窗,俾能使一延伸遍及複數個樣本之多重疊區域係在該幀之內獲得,俾能使該複數個樣本係被至少三個重疊視窗(1500、1502、1503)開視窗。
  16. 如申請專利範圍第1項所述之設備,其中該控制器(108)係被設計成用於決定變換之該長度及數目或用於選擇該特定視窗,俾能使該多重疊區域被決定,其中一瞬態係設置於對應於一延伸了在該幀之該中間左右的該幀之該些樣本之30%的區域之該瞬態預看區域之一位置。
  17. 一種用於解碼音頻或影像信號之解碼器,該信號包含一順序之區塊之轉換的開視窗樣本及相關的視窗資訊(160),其從至少三個不同的視窗函數當中確認一區塊之一特定視窗函數,該解碼器包含:一處理器(156),用於提供一順序之區塊之頻譜值;一可控制轉換器(158),用於藉由使用一重疊-相加處理將該順序之區塊之頻譜值轉換成一時域表現,其中該可控制轉換器(158)係由該視窗資訊所控制,用以將以該視窗資訊表示之視窗函數應用至該相對應的區塊,以計算一解碼的音頻或影像信號, 其中該視窗係選自於一群組之至少三個視窗,包含一具有一第一重疊長度(203)之第一視窗(201)、一具有一第二重疊長度(218)之第二視窗(215)、以及一具有一第三重疊長度(229)或不具有重疊之第三視窗(224),其中該第一重疊長度(203)係大於該第二重疊長度(218),且其中該第二重疊長度(218)係大於該第三重疊長度(229)或大於零重疊。
  18. 如申請專利範圍第17項所述之解碼器,其中該可控制轉換器(158)包含:一頻率-時間轉換器(170),用於將該區塊之頻譜值轉換成一時間表現;一合成開視窗器(172),用於將一合成視窗函數應用至該區塊之頻譜值之該時間表現;以及一重疊-加法器(174),用於重疊及添加時間相鄰的視窗時間表現以獲得該解碼的音頻或影像信號,其中該合成開視窗器(172)、該重疊-加法器(174)或該頻率-時間轉換器(170)係由該相關的視窗資訊所控制,用以應用該合成視窗及一如以該視窗資訊(160)表示的重疊。
  19. 如申請專利範圍第18項所述之解碼器,其中該視窗資訊(603)包含一變換長度資訊(600)及一重疊資訊(602),其中一控制器(180)係被設計成用於基於一先前視窗資訊(606)及一目前視窗資訊(607),決定一區塊之頻譜值之一重疊及一視窗,其中一目前視窗資訊(607)不是表示一具有一第一變換長度之第一變換或每個具有一第二變換長度之兩個第二變換,就是表示一具有該第二變換長度之第二變換 及每個具有一第三變換長度之兩個第三變換或具有該第三變換長度之四個變換,其中該第一變換長度係為該第二變換長度之尺寸的兩倍,且其中該第二變換長度係為該第三變換長度之尺寸的兩倍。
  20. 如申請專利範圍第17至19項中之任一項所述之解碼器,其中該視窗資訊(603)包含一先前重疊資訊(606),其指示一先前視窗函數之一後來部分之一重疊,且其中該視窗資訊包含一目前重疊資訊(607),其指示一後來部分之一重疊,其中該控制器(180)係被設計成用於依據該先前視窗之該後來部分之該重疊資訊,決定直接在該先前視窗以後的一視窗之一較早部分。
  21. 如申請專利範圍第17項所述之解碼器,其中一目前幀之該視窗資訊指示一變換長度資訊(600),其要求一第二變換長度小於一定義該幀之第一變換長度,其中該可控制轉換器(158)係被設計成用於應用與一第三變換長度相關的一順序之兩個或四個視窗,其中一在與該第三變換長度相關的兩個時間相鄰的視窗之間的重疊係為該第三重疊長度,且其中該第三變換長度係小於該第二變換長度。
  22. 如申請專利範圍第17項所述之解碼器,其中該第一視窗,該第二視窗與該第三視窗具有定義一幀之相關的相同的變換尺寸;以及其中該第一重疊長度係為該第一視窗之一長度之四分之一或三分之一或一半,其中該第二重疊長度係為該第一重疊長度之一半或三分之一,且其中該第三重疊長度係為該第二重疊長度之一半或四分之一或八分之一或小於或等於1.25ms。
  23. 如申請專利範圍第22項所述之解碼器,其中該可控制轉換器(158)係被設計成用於回應於該視窗資訊,應用一具有該第一重疊長度之第四視窗,其中該第四視窗具有係為該第一至第三視窗之該變換尺寸之一半之相關的一變換尺寸,或其中該可控制轉換器(158)係被設計成用於回應於該視窗資訊,應用一具有該第二重疊長度之第五視窗及一具有該第三重疊長度之第六視窗,其中該第五視窗與該第六視窗具有係為該第一至第三視窗之該變換尺寸之四分之一之相關的相同的變換尺寸。
  24. 如申請專利範圍第23項所述之解碼器,其中該可控制轉換器(158)係被設計成用於回應於該視窗資訊,用於應用一順序之單一個第四視窗及兩個第六視窗,其中該兩個第六視窗具有在重疊視窗部分中之該第三重疊長度。
  25. 如申請專利範圍第23項所述之解碼器,其中該可控制轉換器(158)係被設計成用於回應於該視窗資訊(603),依序應用一順序之以下視窗,包含:一第一視窗、一第四視窗、一第六視窗及一第五視窗(708),一第一視窗、一第四視窗及兩個第六視窗(710),一第二視窗、一第五視窗、兩個第六視窗及一第五視窗(704),一第三視窗及四個第六視窗(706);一第三視窗、兩個第六視窗及一第四視窗(700),一第三視窗、三個第六視窗及一第五視窗(702);一第一視窗及一第二視窗,或反之亦然,一第一視窗、一第三視窗,或反之亦然,或者一第二視窗及一第三視窗,或反之亦然。
  26. 如申請專利範圍第17項所述之解碼器,其中該視窗指示(603)係與該編碼過的音頻或影像信號之每個幀相關的,其中一幀係由一與該第一視窗相關的變換所定義,其中該視窗指示(603)係為一具有一變換長度(600)之一位元及一重疊長度(602)之單一或2位元之可變長度碼,其中該可控制轉換器(158)係被設計成用於應用一順序之視窗,其由一先前視窗指示(606)之一重疊長度所定義,以及由直接在該編碼過的音頻或影像信號中之該先前視窗指示(606)以後的一目前視窗指示(607)之一重疊長度及一變換長度所定義。
  27. 如申請專利範圍第17項所述之解碼器,其中該可控制轉換器(158)係被設計成用於利用一重疊及添加功能執行一逆改進的離散餘弦變換或一逆變化離散正弦變換或任何其他混疊降低變換。
  28. 如申請專利範圍第17項所述之解碼器,其中該第一重疊長度包含256個樣本或大約10ms,其中該第二重疊長度包含128個樣本或大約5ms,其中該第三重疊長度包含16個樣本或大約0.6ms,且其中該幀長度包含512個樣本或大約20ms。
  29. 如申請專利範圍第17項所述之解碼器,其中一第一變換長度包含512 MDCT或MDST係數,其中一第二變換長度包含256 MDCT或MDST係數,且其中一第三變換長度包含128 MDCT或MDST係數。
  30. 如申請專利範圍第17項所述之解碼器,更包含:一設備,用於編碼如申請專利範圍第1至16項中之任一項之一音頻或影像信號。
  31. 如申請專利範圍第30項所述之解碼器, 其中使用於該設備用於編碼之視窗係與使用於該解碼器中之對應的視窗相同,及其中該解碼器具有一唯讀記憶體(197),於其中只有儲存單一組之視窗以供在用於編碼之該設備與該解碼器中使用。
  32. 一種用於編碼音頻或影像信號之方法,包含:將該音頻或影像信號開視窗(102)以提供一順序之區塊之開視窗樣本;將該順序之區塊之開視窗樣本轉換(104)成一包含一順序之幀之頻譜值之頻譜表現;確認(106)在一幀之一瞬態預看區域之內的一瞬態之一位置;以及回應於該瞬態之一識別位置(210-213),控制(108)該開視窗(102)以將一具有一特定重疊長度之特定視窗應用至該音頻或影像信號,其中該特定視窗係選自於一群組之至少三個視窗,包含一具有一第一重疊長度(203)之第一視窗(201)、一具有一第二重疊長度(218)之第二視窗(215)以及一具有一第三重疊長度(229)或不具有重疊之第三視窗(224),其中該第一重疊長度(203)係大於該第二重疊長度(218),且其中該第二重疊長度(218)係大於該第三重疊長度(229)或大於一零重疊,其中該特定視窗係基於該瞬態位置被選擇,以使兩個時間相鄰的重疊視窗之其中一個具有位於該瞬態之該位置之第一視窗係數,並使該兩個時間相鄰的重疊視窗之另一個具有位於該瞬態之該位置之第二視窗係數,其中該些第二係數係為該些第一係數之至少九倍大。
  33. 一種用於解碼音頻或影像信號之方法,包含一順序之區塊之轉換的開視窗樣本及相關的視窗資訊(160),從至 少三個不同的視窗函數當中確認一區塊之一特定視窗函數,包含:提供(156)一順序之區塊之頻譜值;藉由使用一重疊-相加處理將該順序之區塊之頻譜值轉換(158)成一時域表現,其中該轉換(158)係由該視窗資訊所控制,用以將以該視窗資訊表示之視窗函數應用至該相對應的區塊,以計算一解碼的音頻或影像信號,其中該視窗係選自於一群組之至少三個視窗,包含一具有一第一重疊長度(203)之第一視窗(201)、一具有一第二重疊長度(218)之第二視窗(215)、以及一具有一第三重疊長度(229)或不具有重疊之第三視窗(224),其中該第一重疊長度(203)係大於該第二重疊長度(218),且其中該第二重疊長度(218)係大於該第三重疊長度(229)或大於一零重疊。
  34. 一種電腦程式,當在一電腦或一處理器上執行時,用於執行如申請專利範圍第32項所述之方法或如申請專利範圍第33項所述之該方法。
TW103105684A 2013-02-20 2014-02-20 使用瞬態位置相依重疊以編碼或解碼音頻信號之設備、解碼器、電腦程式及方法 TWI550599B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201361767115P 2013-02-20 2013-02-20

Publications (2)

Publication Number Publication Date
TW201443878A TW201443878A (zh) 2014-11-16
TWI550599B true TWI550599B (zh) 2016-09-21

Family

ID=50179586

Family Applications (2)

Application Number Title Priority Date Filing Date
TW103105684A TWI550599B (zh) 2013-02-20 2014-02-20 使用瞬態位置相依重疊以編碼或解碼音頻信號之設備、解碼器、電腦程式及方法
TW103105681A TWI550600B (zh) 2013-02-20 2014-02-20 使用一多重疊部分來產生一編碼過的信號或用於解碼一編碼過的音頻信號之設備、電腦程式及方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
TW103105681A TWI550600B (zh) 2013-02-20 2014-02-20 使用一多重疊部分來產生一編碼過的信號或用於解碼一編碼過的音頻信號之設備、電腦程式及方法

Country Status (20)

Country Link
US (7) US10354662B2 (zh)
EP (4) EP4375996A2 (zh)
JP (2) JP6196324B2 (zh)
KR (2) KR101764726B1 (zh)
CN (5) CN110232929B (zh)
AR (2) AR096576A1 (zh)
AU (2) AU2014220722B2 (zh)
BR (2) BR112015019543B1 (zh)
CA (2) CA2900437C (zh)
ES (2) ES2634621T3 (zh)
HK (2) HK1218988A1 (zh)
MX (2) MX348506B (zh)
MY (2) MY185210A (zh)
PL (2) PL2959482T3 (zh)
PT (2) PT2959481T (zh)
RU (2) RU2626666C2 (zh)
SG (2) SG11201506543WA (zh)
TR (1) TR201910956T4 (zh)
TW (2) TWI550599B (zh)
WO (2) WO2014128197A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2830058A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980791A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions
FR3024581A1 (fr) 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
EP3107096A1 (en) 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
WO2017050398A1 (en) * 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
EP3182411A1 (en) 2015-12-14 2017-06-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an encoded audio signal
KR102219752B1 (ko) 2016-01-22 2021-02-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 채널 간 시간 차를 추정하기 위한 장치 및 방법
JP6976277B2 (ja) * 2016-06-22 2021-12-08 ドルビー・インターナショナル・アーベー 第一の周波数領域から第二の周波数領域にデジタル・オーディオ信号を変換するためのオーディオ・デコーダおよび方法
US10210874B2 (en) * 2017-02-03 2019-02-19 Qualcomm Incorporated Multi channel coding
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
CN110892478A (zh) * 2017-04-28 2020-03-17 Dts公司 音频编解码器窗口和变换实现
CN111183476B (zh) * 2017-10-06 2024-03-22 索尼欧洲有限公司 基于子窗口序列内的rms功率的音频文件包络
EP3483879A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
TWI681384B (zh) * 2018-08-01 2020-01-01 瑞昱半導體股份有限公司 音訊處理方法與音訊等化器
WO2020094263A1 (en) 2018-11-05 2020-05-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and audio signal processor, for providing a processed audio signal representation, audio decoder, audio encoder, methods and computer programs
CN113905232A (zh) * 2019-03-09 2022-01-07 杭州海康威视数字技术股份有限公司 进行编码和解码的方法、解码端、编码端和系统
KR20220042125A (ko) * 2019-08-10 2022-04-04 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 서브픽처 디코딩에서의 버퍼 관리
CN117676135A (zh) 2019-10-18 2024-03-08 北京字节跳动网络技术有限公司 子图片与环路滤波之间的相互影响
CN112803959B (zh) * 2019-11-13 2022-05-10 瑞昱半导体股份有限公司 收发电路与应用于收发电路的信号处理方法
US11942078B2 (en) 2021-02-26 2024-03-26 International Business Machines Corporation Chunking and overlap decoding strategy for streaming RNN transducers for speech recognition

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1991005412A1 (de) * 1989-10-06 1991-04-18 Telefunken Fernseh Und Rundfunk Gmbh Verfahren zur übertragung eines signals

Family Cites Families (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4920426A (en) * 1986-11-10 1990-04-24 Kokusai Denshin Denwa Co., Ltd. Image coding system coding digital image signals by forming a histogram of a coefficient signal sequence to estimate an amount of information
DE3902948A1 (de) 1989-02-01 1990-08-09 Telefunken Fernseh & Rundfunk Verfahren zur uebertragung eines signals
US5502789A (en) 1990-03-07 1996-03-26 Sony Corporation Apparatus for encoding digital data with reduction of perceptible noise
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
JP3186307B2 (ja) 1993-03-09 2001-07-11 ソニー株式会社 圧縮データ記録装置及び方法
US5701389A (en) * 1995-01-31 1997-12-23 Lucent Technologies, Inc. Window switching based on interblock and intrablock frequency band energy
KR0154387B1 (ko) 1995-04-01 1998-11-16 김주용 음성다중 시스템을 적용한 디지탈 오디오 부호화기
JP3552811B2 (ja) * 1995-09-29 2004-08-11 三菱電機株式会社 ディジタル映像信号符号化装置および復号化装置
US5848391A (en) * 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
DE19736669C1 (de) * 1997-08-22 1998-10-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals
JP2000000247A (ja) 1998-06-15 2000-01-07 Yoshihiro Adachi ウルトラ ラグ スクリュー
US6173255B1 (en) * 1998-08-18 2001-01-09 Lockheed Martin Corporation Synchronized overlap add voice processing using windows and one bit correlators
DE10000934C1 (de) * 2000-01-12 2001-09-27 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Bestimmen eines Codierungs-Blockrasters eines decodierten Signals
JP2002118517A (ja) * 2000-07-31 2002-04-19 Sony Corp 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法
JP4596197B2 (ja) 2000-08-02 2010-12-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
CA2418722C (en) * 2000-08-16 2012-02-07 Dolby Laboratories Licensing Corporation Modulating one or more parameters of an audio or video perceptual coding system in response to supplemental information
FR2822980B1 (fr) * 2001-03-29 2003-07-04 Ela Medical Sa Procede de traitement de donnees d'electogrammes d'un dispositif medical implantable actif pour l'aide au diagnostic par un praticien
EP1386312B1 (en) * 2001-05-10 2008-02-20 Dolby Laboratories Licensing Corporation Improving transient performance of low bit rate audio coding systems by reducing pre-noise
US7460993B2 (en) 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
EP1394772A1 (en) 2002-08-28 2004-03-03 Deutsche Thomson-Brandt Gmbh Signaling of window switchings in a MPEG layer 3 audio data stream
AU2003208517A1 (en) 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
US7325023B2 (en) 2003-09-29 2008-01-29 Sony Corporation Method of making a window type decision based on MDCT data in audio encoding
DE10345996A1 (de) 2003-10-02 2005-04-28 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Verarbeiten von wenigstens zwei Eingangswerten
EP1711938A1 (en) * 2004-01-28 2006-10-18 Koninklijke Philips Electronics N.V. Audio signal decoding using complex-valued data
JP4355745B2 (ja) * 2004-03-17 2009-11-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
US7937271B2 (en) 2004-09-17 2011-05-03 Digital Rise Technology Co., Ltd. Audio decoding using variable-length codebook application ranges
US8744862B2 (en) * 2006-08-18 2014-06-03 Digital Rise Technology Co., Ltd. Window selection based on transient detection and location to provide variable time resolution in processing frame-based data
KR20070068424A (ko) * 2004-10-26 2007-06-29 마츠시타 덴끼 산교 가부시키가이샤 음성 부호화 장치 및 음성 부호화 방법
KR100668319B1 (ko) * 2004-12-07 2007-01-12 삼성전자주식회사 오디오 신호의 변환방법 및 장치와 오디오 신호에적응적인 부호화방법 및 장치, 오디오 신호의 역변환 방법및 장치와 오디오 신호에 적응적인 복호화 방법 및 장치
US7386445B2 (en) * 2005-01-18 2008-06-10 Nokia Corporation Compensation of transient effects in transform coding
JP4809370B2 (ja) * 2005-02-23 2011-11-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル音声符号化における適応ビット割り当て
RU2409874C9 (ru) * 2005-11-04 2011-05-20 Нокиа Корпорейшн Сжатие звуковых сигналов
JP2007304258A (ja) * 2006-05-10 2007-11-22 Matsushita Electric Ind Co Ltd オーディオ信号符号化およびその復号化装置、方法ならびにプログラム
US7987089B2 (en) 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
DE102006051673A1 (de) 2006-11-02 2008-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
GB2443832B (en) 2006-11-14 2010-08-18 Schlumberger Holdings Method and system of deploying one or more optical fiber waveguides in conjunction with a pipeline
JP2008129250A (ja) * 2006-11-20 2008-06-05 National Chiao Tung Univ Aacのためのウィンドウ切り替え方法およびm/s符号化の帯域決定方法
KR20080053739A (ko) 2006-12-11 2008-06-16 삼성전자주식회사 적응적으로 윈도우 크기를 적용하는 부호화 장치 및 방법
AU2007331763B2 (en) 2006-12-12 2011-06-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
FR2911227A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard
FR2911228A1 (fr) 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
RU2459283C2 (ru) * 2007-03-02 2012-08-20 Панасоник Корпорэйшн Кодирующее устройство, декодирующее устройство и способ
EP2015293A1 (en) 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
US9495971B2 (en) * 2007-08-27 2016-11-15 Telefonaktiebolaget Lm Ericsson (Publ) Transient detector and method for supporting encoding of an audio signal
WO2009119592A1 (ja) * 2008-03-25 2009-10-01 旭化成ケミカルズ株式会社 エラストマー組成物及びエアバッグ装置の収納カバー
US8447591B2 (en) 2008-05-30 2013-05-21 Microsoft Corporation Factorization of overlapping tranforms into two block transforms
KR101182258B1 (ko) * 2008-07-11 2012-09-14 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 스펙트럼 기울기 제어 프레이밍을 이용한 대역폭 확장 데이터를 계산하는 장치 및 방법
ES2401487T3 (es) * 2008-07-11 2013-04-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para la codificación/decodificación de una señal de audio utilizando un esquema de conmutación de generación de señal ajena
AU2013200680B2 (en) 2008-07-11 2015-01-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder and decoder for encoding and decoding audio samples
EP2311034B1 (en) 2008-07-11 2015-11-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding frames of sampled audio signals
MX2011000366A (es) * 2008-07-11 2011-04-28 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar muestras de audio.
EP2144171B1 (en) * 2008-07-11 2018-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
PL2301011T3 (pl) * 2008-07-11 2019-03-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób i dyskryminator do klasyfikacji różnych segmentów sygnału audio zawierającego segmenty mowy i muzyki
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US8380498B2 (en) * 2008-09-06 2013-02-19 GH Innovation, Inc. Temporal envelope coding of energy attack signal by using attack point location
KR101315617B1 (ko) * 2008-11-26 2013-10-08 광운대학교 산학협력단 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기
US9384748B2 (en) * 2008-11-26 2016-07-05 Electronics And Telecommunications Research Institute Unified Speech/Audio Codec (USAC) processing windows sequence based mode switching
EP2382625B1 (en) * 2009-01-28 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, encoded audio information, methods for encoding and decoding an audio signal and computer program
US8457975B2 (en) 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
PL2234103T3 (pl) * 2009-03-26 2012-02-29 Fraunhofer Ges Forschung Urządzenie i sposób manipulacji sygnałem audio
EP3764356A1 (en) * 2009-06-23 2021-01-13 VoiceAge Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
KR101410312B1 (ko) * 2009-07-27 2014-06-27 연세대학교 산학협력단 오디오 신호 처리 방법 및 장치
BR112012007803B1 (pt) * 2009-10-08 2022-03-15 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Decodificador de sinal de áudio multimodal, codificador de sinal de áudio multimodal e métodos usando uma configuração de ruído com base em codificação de previsão linear
KR101137652B1 (ko) * 2009-10-14 2012-04-23 광운대학교 산학협력단 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
WO2011085483A1 (en) * 2010-01-13 2011-07-21 Voiceage Corporation Forward time-domain aliasing cancellation using linear-predictive filtering
CN102222505B (zh) * 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
PL4120248T3 (pl) * 2010-07-08 2024-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder wykorzystujący kasowanie aliasingu w przód
US20140046670A1 (en) * 2012-06-04 2014-02-13 Samsung Electronics Co., Ltd. Audio encoding method and apparatus, audio decoding method and apparatus, and multimedia device employing the same
KR20140075466A (ko) * 2012-12-11 2014-06-19 삼성전자주식회사 오디오 신호의 인코딩 및 디코딩 방법, 및 오디오 신호의 인코딩 및 디코딩 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1991005412A1 (de) * 1989-10-06 1991-04-18 Telefunken Fernseh Und Rundfunk Gmbh Verfahren zur übertragung eines signals

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
J. Lecomte et al., "Efficient Cross-Fade Windows for Transitions between LPC-Based and Non-LPC Based Audio Coding", AES CONVENTION 126; MAY 2009, AES, 60 EAST 42ND STREET, ROOM 2520 NEW YORK 10165-2520, USA, 1 May 2009. *

Also Published As

Publication number Publication date
SG11201506543WA (en) 2015-09-29
KR20150120477A (ko) 2015-10-27
CN105378835B (zh) 2019-10-01
RU2015139596A (ru) 2017-03-27
PL2959481T3 (pl) 2017-10-31
CN110047498A (zh) 2019-07-23
US10354662B2 (en) 2019-07-16
CN110047498B (zh) 2023-10-31
EP2959481A1 (en) 2015-12-30
CA2900437A1 (en) 2014-08-28
MX2015010595A (es) 2015-12-16
JP6175148B2 (ja) 2017-08-02
HK1218988A1 (zh) 2017-03-17
ES2634621T3 (es) 2017-09-28
US20230282221A1 (en) 2023-09-07
US10832694B2 (en) 2020-11-10
AR096576A1 (es) 2016-01-20
CN105378835A (zh) 2016-03-02
MX2015010596A (es) 2015-12-16
KR20150126864A (ko) 2015-11-13
MY173774A (en) 2020-02-20
HK1219343A1 (zh) 2017-03-31
TW201443878A (zh) 2014-11-16
CA2901186A1 (en) 2014-08-28
CN110232929B (zh) 2023-06-13
EP4375996A2 (en) 2024-05-29
RU2015139597A (ru) 2017-03-27
JP6196324B2 (ja) 2017-09-13
CN105074819B (zh) 2019-06-04
AU2014220725B2 (en) 2016-11-17
KR101764726B1 (ko) 2017-08-14
US20170323650A1 (en) 2017-11-09
US20200294517A1 (en) 2020-09-17
MX348505B (es) 2017-06-14
TWI550600B (zh) 2016-09-21
TW201447868A (zh) 2014-12-16
CA2901186C (en) 2018-02-20
AU2014220722B2 (en) 2016-09-15
ES2736309T3 (es) 2019-12-27
AR094845A1 (es) 2015-09-02
EP3525207A1 (en) 2019-08-14
US11621008B2 (en) 2023-04-04
EP2959481B1 (en) 2017-04-26
AU2014220725A1 (en) 2015-10-08
CN105074819A (zh) 2015-11-18
PT2959482T (pt) 2019-08-02
US10685662B2 (en) 2020-06-16
US20160050420A1 (en) 2016-02-18
CN110097889A (zh) 2019-08-06
US9947329B2 (en) 2018-04-17
BR112015019543B1 (pt) 2022-01-11
CN110097889B (zh) 2023-09-01
BR112015019270A8 (pt) 2019-11-12
BR112015019543A2 (pt) 2017-07-18
EP2959482A1 (en) 2015-12-30
SG11201506542QA (en) 2015-09-29
WO2014128194A1 (en) 2014-08-28
AU2014220722A1 (en) 2015-10-08
EP2959482B1 (en) 2019-05-01
KR101764725B1 (ko) 2017-08-03
BR112015019270A2 (pt) 2017-07-18
JP2016513283A (ja) 2016-05-12
US11682408B2 (en) 2023-06-20
US20210065725A1 (en) 2021-03-04
RU2626666C2 (ru) 2017-07-31
JP2016507788A (ja) 2016-03-10
CA2900437C (en) 2020-07-21
RU2625560C2 (ru) 2017-07-14
MY185210A (en) 2021-04-30
MX348506B (es) 2017-06-14
US20160078875A1 (en) 2016-03-17
BR112015019270B1 (pt) 2021-02-17
CN110232929A (zh) 2019-09-13
PT2959481T (pt) 2017-07-13
TR201910956T4 (tr) 2019-08-21
US20190371346A1 (en) 2019-12-05
PL2959482T3 (pl) 2019-10-31
WO2014128197A1 (en) 2014-08-28

Similar Documents

Publication Publication Date Title
TWI550599B (zh) 使用瞬態位置相依重疊以編碼或解碼音頻信號之設備、解碼器、電腦程式及方法