TWI390502B

TWI390502B - 編碼信號之處理方法

Info

Publication number: TWI390502B
Application number: TW094128690A
Authority: TW
Inventors: Juha Ojanpera
Original assignee: Nokia Corp
Priority date: 2004-08-26
Filing date: 2005-08-23
Publication date: 2013-03-21
Also published as: EP1782418A1; HK1105476A1; EP1782418B1; KR100945219B1; CN101031961A; US8423372B2; WO2006021862A1; KR20070051920A; US20060047523A1; KR20090018873A; TW200623027A; KR100899141B1; CN101031961B

Description

編碼信號之處理方法

本發明係有關由至少兩信號源，合併其頻域編碼的信號之方法。本發明亦有關音訊內容處理系統及具體之壓縮音訊內容處理系統。本發明亦有關針對壓縮音訊信號提供音量之衰退。

用於音訊信號之壓縮方法已於現有技術中制定，該方法係藉由輸入信號之譜頻表示編碼，並遵守傳統感官式音訊編碼之規範。該方法提供頻域中之編碼，而非於信號之時域中進行編碼。然而，同樣的針對其它信號，如視訊信號，頻譜頻域編碼係為合適的。

例如，至少就音訊檔案類別及文件而言，符合MPEG 1－或MPEG 2－layer 3(mp3)音訊格式之編碼已制定成為網際網路中之業界標準。然而，其它頻域壓縮方法亦已制定成為標準，例如MPEG－4之先進音訊編碼(AAC)、杜比(Dolby)之AC－3及其它頻域編碼方法。這些壓縮方法之成功為手提式裝置創造新的市場，手提式裝置係專門用於錄放上述壓縮音訊檔案。

壓縮方法更深入之說明可參考：K.Brandenburg,G.Stoll,“ISO－MPEG－1 audio：a generic standard for coding of high－quality digital audio”,J.Audio.Eng.Soc.,Vol.42,No.10,Oct.1994,pp.780－792.

可攜式裝置中，如可攜式通訊裝置或可攜式消費電子裝置，mp3壓縮標準可支援作為可能之音訊格式之一。鈴聲音調係為音訊格式之一為應用之範例。例如，壓縮音訊檔案使用作為鈴聲音調。由於鈴聲音調一般為持續之短音，但使用者可能希望創造個人化之鈴聲音調，與直接由壓縮音訊檔案挑選出之音訊剪輯區分。另一範例，例如，音訊編輯者可應用現有音訊內容資料庫建立使用者個人化內容。

其中可攜式裝置，其資料庫可包括壓縮音訊檔案之集合。然而，個人化可能需要音訊內容之建立工具。例如，這些可能為編輯工具，其係允許編輯音訊內容。然而，在特定檔案中，壓縮檔案係依據頻域壓縮方法，編輯該壓縮檔案係不可能的。使用標準工具並不支援於壓縮領域編輯檔案，其係由於該檔案係為頻域壓縮信號類別。同樣的在壓縮領域中位元流並非為時域中感官式音訊檔案之表示，未經過解碼係不可能混合不同之信號。

此外，針對時域信號淡入(fade－in)及淡出(fade－out)之技巧係容易實現。然而壓縮音訊信號解碼之計算複雜性為實施音訊衰退(fading)之限制。若解碼及編碼皆於時域中實行，則聲音衰退之方法即可使用。此缺點為壓縮音訊位元流，如MPEG音訊格式，一般需要大量之計算複雜性。例如，可攜式裝置中，解碼消耗大量處理能力，尤其計算資源一般係有限的。

然而，在頻域中處理壓縮位元流係令人滿意的。於頻域中現行系統之缺點係欠缺編輯之可能性。完整的解碼壓縮資料流必須比編輯增加計算之時間及實行之成本更加重要。有一需求僅需編輯壓縮檔案，並不需解壓縮。例如，混合不同信號至一信號檔案中可能合適此需求。

此外，甚至使用壓縮資料提供音訊衰退效果，如淡入及淡出，亦可能被要求提供。例如，在可攜式裝備中，這些用於壓縮音信號之編輯工具係適合此需求。

為克服這些缺點，實施例提供由至少兩信號源，合併其頻域編碼的信號之方法，利用解碼已編碼信號獲得量化頻譜組件，反轉量化解碼信號之量化頻譜組件獲得視窗序列，且合併至少之反轉量化信號獲得合併信號。

最簡單之案例實行至少兩信號之合併可直接運用原始位元流。然而，該作法實際上無法運作，其係由於每一資料音框已被優化作為特定信號。由於編碼之緣故，變更頻譜之樣本係十分困難的。此外，由於語法已被壓縮標準所定義，該定義使得原始位元流之運用受限制，因此位元流之格式化係一極具挑戰之工作。

因此，某些位元流之解碼係必要的。不過，計算複雜度應保持在合理範圍內，依此本發明將成為可能。

本發明之方法允許混合至少二個壓縮位元流至一壓縮位元流，且無須完全地將該位元流解壓縮，僅須部份解壓縮。

為減少冗餘性，熵(entropy)編碼係被用於壓縮信號。例如，該編碼可應用哈夫曼(huffman)編碼來達成。因此，該量化頻譜可被區分為三個不同區域，且識別之哈夫曼表格指派至各別之區域。為建立信號之量化頻譜需先進行處理程序。編碼位元流須先進行解碼。例如，該解碼可應用反轉哈夫曼解碼。其結果位元流可表示信號之量化頻譜組件。

針對混合，第一個可能之要點係為解碼之後。然而，此方法之缺點為無法知道信號之振幅強度。此外，該信號源可能位於不同之領域。例如，於ACC編碼信號中，時域雜訊重整(TNS)不可能置於兩個信號源中。因此，信號之品質係無法預測。其它缺點起因於混合之信號源可能使用不同頻率解析度。此因素可能導致非常嚴重之品質問題。

針對混合，第二個可能之要點係為反轉量化之後。在此唯一之限制為頻率解析度。在此無法假定於所有時間頻率解析度皆為相同。頻域壓縮信號中，資料區塊之區塊長度可定義頻率解析度。針對不同之區塊長度，應用不同之視窗序列。這些視窗序列可能為長的、短的、由長至短或由短至長。

壓縮期間，濾波處理係應用至該信號。例如，應用一動態視窗切換來使用改良式離散餘弦轉換(MDCT)。其結果為一視窗之序列。這些視窗可達到頻譜分解及減少冗餘性。短視窗可用於處理暫態信號，該暫態信號之特性係隨時間快速改變。

針對大部份之信號，由於大部份之時間頻率解析度皆為相同，因此不同信號之視窗序列可混合。針對混合信號不完整之解壓縮係無可避免的。

本發明之方法可省略濾波器計算。綜合多相位濾波器之計算係最昂貴的。曾有報告指出超過全部解碼時間之一半皆花費於綜合濾波器區塊。因此，當合併兩信號時省略此步驟，可減少一半以上之計算複雜性。

實施例至少提供視窗序列之一之反轉轉換，獲得一子頻帶信號，接著利用頻率解析匹配視窗序列之頻率解析，並重新轉換該子頻帶信號至一改良式視窗序列，其中視窗序列之頻率解析係由至少第二未經過反轉轉換之信號產生。

MP3及AAC兩者音訊格式與其它頻域壓縮相同，係應用較短之轉換長度至信號區段，該信號區段係為暫態類別。此作法導致不同之頻率解析度。然而，不同頻率解析度之信號不應彼此混合，因為結果信號之品質將會無法預測。通常係使用長視窗序列，而短視窗序列則用於暫態信號。然而，這些序列通常很少發生。解碼第一位元流後，該位元流將與第二位元流有相同之視窗序列。在此案例中，不須重新計算第一信號之窗視序列與第二信號之窗視序列之配匹。

僅在兩信號之視窗序列不同之案例中，才須計算匹配。視窗序號之轉換僅於音框不相同之視窗序列才須執行，依此即可減少計算數量。然而，該作法必須儲存暫態相鄰視窗，因為轉換時可能需要相鄰視窗之相關訊息。為執行轉換作業，必須儲存來自前一個、目前及下一個之編碼音框。儲存上述音框之原因係因轉換採用重疊(lapping)方法。此方法導致會有50%之暫態相鄰視窗重疊。例如MDCT提供區塊間之重疊區域，且實施IMDCT之後，則MDCT編碼音框即可被重建，如此目前音框之前半段將被加至前一音框之後半段。使用正向之MDCT，將前一音框之後半段加至目前音框之前半段即可恢愎目前之音框，以及將目前音框之後半段加至下一音框之前半段。實施之後，正向MDCT可利用第二mp3位元流之視窗序列，即可獲得合適信號用於合併。

這些實施例至少提供一解碼信號至子頻帶信號。其為一信號，該信號係經過濾波器之後於編碼期間獲得，且該信號係於實施MDCT之前。其它信號之視窗長度，其係與子頻帶信號合併後獲得。有了對視窗長度之了解，可實施子頻帶之重新轉換。重新轉換可校正頻率解析度，可用於注意其它信號之頻率解析度。此案例中，該視窗序列具有相同長度。此兩信號可相合併，並無不同頻率解析度之限制。

實施例進一步提供至少兩視窗序列之反轉轉換，且合併轉換之視窗序列至相同之轉換領域。此實施例個別地提供至少二個視窗序列具有反轉轉換之混合信號至子頻帶信號，且合併至少二子頻帶信號至一合併之子併帶信號。此案例中，該信號須解壓縮直到子頻帶信號可被使用，再進行合併。在反轉改良式餘弦轉換(IMDT)之後，其係可能之案例。

依據實施例信號振幅強度進行合併前應校正。在此應定義每一合併信號振幅之強度。例如，某一信號可能與其它雜音信號混合。

實施例合併信號以前提供至少信號之一之頻帶限制。頻帶限制至少信號之一可降低整體解碼複雜性。僅在頻譜部份，在混合階段需要解碼及處理。例如，若僅有一半之頻譜加至第一信號，IMDCT+MDCT+重疊現象(alias)要減少處理程序僅需應用第二信號之前16子頻帶。於立體聲信號案例中，可混合第二信號作為單音信號，來進一步節省處理時間。

依據實施例亦提供將合併信號之編碼頻譜組件加至頻域編碼輸出信號。該合併信號比全部壓縮之時域信號有較低之計算複雜性。

針對混合信號之編碼，其優點為可使用編碼訊息，該編碼訊息係已於儲存於輸入音框中可被利用。此點可節省計算複雜性。例如，若於MDCT領域實施混合，則僅須進行量化、哈夫曼編碼及位元流格式化。

若至少被部份使用之輸入音框已存有音階值，則量化步驟可被簡化。Mp3音框係區分為三個區域：標頭、旁側資訊(side info)及負載部份。標頭僅用於音框之同步及確定聲道與音框負載區域之編碼結構。負載部份包括音階值，可作為頻譜及哈夫曼編碼頻譜樣本。某些旁側資訊須與負載部份相關連。例如，旁側資訊描述哈夫曼表格數量，其係用於頻譜樣本、負載部份之長度及區塊類型等。

編碼信號被混合至子頻帶中需經過額外之MDCT處理。然而，編碼程序依然相同。由於壓縮期間不需要綜合濾波器，因此可有效減少計算複雜性。依估計全部編碼60%之時間花費於心理聲學及綜合濾波器分析。省略此步驟可有效減少計算時間。

本發明另一概念係一系統，由至少兩信號源合併其頻域編碼的信號，該系統包括解碼器用於編碼信號解碼，獲得量化頻譜組件，反轉量化器用於反轉量化解碼信號之量化頻譜組件，獲得視窗序列，及合併器用於合併至少反轉量化信號，獲得合併信號。

本發明另一概念係一模組，該模組包含此系統，且可於消費性電子裝置或可攜式通訊裝置中使用此系統。

然而，本發明另一概念係一電腦程式產品，該產品包括一電腦程式儲存用於由至少兩信號源合併其頻域編碼的信號，該程式包括指令操作，用以使處理器解碼已編碼信號，獲得量化頻譜組件，反轉量化解碼信號之量化頻譜組件，獲得視窗序列，以及併至少反轉量化信號，獲得合併信號。

本發明另一概念係用以提供頻域編碼音訊信號衰退之方法，由頻域編碼音訊信號之位元流獲得位元流元件(bit stream element)，該元件用以表示整體振幅等級值，以及改變位元流元件，該位元流元件表示用於音框及編碼音訊信號聲道之整體振幅等級有一交替值，其中該交替值於每第n個音框時改變，而n係由衰退等級之數字所決定，且由衰退長度所提供。

本方法可提供衰退效果至編碼音訊信號，且無須解壓縮已壓縮之信號。例如，可編輯MP3音訊檔案或AAC音訊檔案，且無處理上之限制。當需要衰退之效果時，這些實施例不需再解縮及重新壓縮音訊檔案。

例如，該位元流元件可用一整體＿增益(global_gain)參數來表示整體振等級值，該參數可於MP3及AAC音訊流中提供使用。該整體＿增益參數被用於區分MP3檔案內之尺度因子(scalefactor)及為AAC檔案內尺度因子作為一起始值。因此，僅須藉由修改此位元流元件即可獲得淡入及淡出之效果。

實施例提供由衰退等級數字之商數及衰退長度決定n值。例如，衰退等級數字可由衰退音量決定，如：音量等級相對之改變。此外，例如就音框數量而言，衰退長度可由以下式子決定：

至此，確定n值之音框數量之後，交替值即會改變，而n值可由音框數量及衰退等級所決定。例如，n值亦可能以對數等級或其它曲線等級變化。然而，交替值係為一常數。音量之變化可由累積交替值所決定，而累積值係由每n音框所累積。例如，對前十個音框，累積交替值為2，對下十個音框為4，對再下來之十個音框則為6，依此類推。

實施例提供之交換位元流元件表示在編碼音訊信號衰退週期內，每音框及每聲道之整體振幅等級值。然而，交替值於n個音框週期內所有音框可能皆為常數。由位元流可決定聲道數量。此外，對於在MP3檔案中每個粒度(granule)，音量等級可能改變。粒度數量同樣的可由位元流決定。針對AAC編碼檔案，對每一語法AAC元件音量等級可能改變，其係以連續音框方式(frame-by-frame basis)由位元流決定。

為達到恰當之衰退符合所期望之衰退音量，實施例提供由起始振幅等級或結束振幅等級來決定原先之振幅等級。

為使無須解碼即可達到衰退效果，實施例提供萃取位元流元件，該位元流元件表示來自位元流之整體振幅等級，實施例亦提供改變位元流元件，該位元流元件表示整體振幅等級，以及提供嵌入已改變之位元流元件至位元流，而已改變之位元流元件表示整體振幅等級。

本發明另一概念為一裝置，該裝置用於提供頻域編碼音訊信號內之衰退，該裝置包括一解析器用於由頻域編碼音訊信號之位元流獲得位元流元件，該位元流元件表示整體振帳等級值，亦包括一處理單元用於改變位元流元件，該位元流元件表示針對編碼音訊信號之音框及聲道，具有交替值之整體振幅等級值，其中該處理單元係用於變更每第n個音框之交替值，其中n係由衰退等級之數量及衰退之長度所決定。

本發明另一概念為一電腦程式產品，其係用提供頻域編碼音訊信號內之衰退，該電腦程式產品包括一電腦程式，該程式包括指令操作，可使處理器可由頻域編碼音訊信號獲得位元流元件，而該位元流元件表示整體振幅等級，及改變位元流元件，該位元流元件表示針對編碼音訊信號之音框及聲道，具有交替值之整體振幅等級值，其指令操作亦可變更每第n個音框之交替值，其中n係由衰退等級之數量及衰退之長度所決定。

再者，本發明進一步之概念為本方法可於電子裝置或可攜式通訊裝置中使用。

本發明實施例將詳細的提出說明，且實施例皆附帶著圖式說明。然而本發明可有許多不同實施例形式，並非侷限於本發明提出之實施例。本發明這些實施例係為便於詳盡及完整的說明及完全表達本發明之技術範圍。

連貫各種圖式相同之參考數字即係關連相同之組件。

音訊壓縮係一種資料壓縮格式，其係設計用於減少音訊資料檔案之大小。音訊壓縮演算法一般係與音訊編碼/解碼(codecs)有關。現有許多無失真演算法皆具有其特定之資料壓縮格式。此外，某些演算法對信號進行失真壓縮以達到壓縮之效果，其技術亦是眾所皆知的。失真編碼之例子為用於MPEG－1及MPEG－2(MP2)之第2層音訊編碼，用於MPEG－1、MPEG－2之第3層音訊編碼，以及non－ISO MPEG－2.5(MP3)、Musepack(MPC)、Ogg Vorbis、MPEG－2之進階音訊編碼及MPEG－4(AAC)、杜比AC－3，或Windows Media Audio(WMA)。

由於失真演算法之類別，當檔案解壓縮及之後重新壓縮時，音訊品質遭受損壞(產生失真)。因此編輯利用失真演算法壓縮之信號，應先完全的將該信號解壓縮。為了編輯之用途，必須先進行解壓縮、再編輯、之後壓縮音訊案。

圖1說明MP3格式中，用於壓縮音訊檔案之編碼、解碼系統。詳細之述途可參考：ISO /IEC JTC1 /SC29 /WG11(MPEG－1),Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1.5 Mbit/s,Part 3：Audio,International Standard 11172－3,ISO/IEC,1993,D.Pan,“A tutorial on MPEG/Audio compression”,IEEE Multimedia,Vol.2,1995,pp.60－74, 及S.Shlien,“Guide to MPEG－1 Audio standard”,IEEE Trans.On Broadcasting, Vol.40,No.4,Dec.1996,pp.206－218.

為對脈衝編碼調變(PCM)輸入信號2編碼，該系統包括一分析濾波器組區塊4。該分析濾波器區塊4可利用多相內插分解輸入信號至32相等頻寬之子頻帶。為了編碼，此子頻帶樣本將以18×32之樣本數為一群組。

多相正交濾波器(PQF)代表一濾波器組，其係用於將輸入信號劃分為N個等距子頻帶。這些子頻帶可利用N之因子做子取樣。

如此取樣可能導致重疊現象。與MDCT時域重疊現象消去相似，PQFs之重疊現象可利用相鄰子頻帶消去，例如，信號一般係儲存於兩子頻帶中。

PQF濾波器係使用於MPEG層I及Ⅱ中，於MPEG層Ⅲ中與附加之MDCT使用，於MPEG－4中用於四頻帶PQF組，於MPEG－4高效能AAC(HE AAC)中用上頻譜摺疊頻帶之分析。

PQF濾波器組係使用基本之濾波器所建構，該基本濾波器係為一低通濾波器。此低通濾波器利用N餘弦函數來控制，且可轉換為N個帶通。

此子頻帶可利用MDCT及視窗區塊6處理。此MDCT及視窗區塊6可利用18－或36－點之MDCT至每一32子頻帶增加編碼效率及頻譜解析度。

改良式離散餘弦轉換(MDCT)係利用類別－Ⅳ離散餘弦轉換(DCT－Ⅳ)之頻域轉換，其係具有重疊之附加特性。此係設計用於實行大量資料集合之連續區塊，其後之區塊50%係相互重疊的。亦有一類似轉換，利用離散正弦轉換之改良離散正弦轉換MDST，其係與MDCT之其它形式相同，係利用不同DCT之類別。

MP3中，MDCT係用於區塊4，32頻帶多相正交濾波器(PQF)組之輸出。MDCT之輸出及視窗區塊6為一後處理，利用圖3及圖4中重疊現象蝶形區塊7內之重疊現象降低區塊4來減少PQF濾波器組之重疊現象。

為達到壓縮，係提供一心理聲學模型8。該區塊利用快速傅利葉轉換(FFT)區塊8a轉換輸入信號2至頻譜組件。頻譜樣本可利用信號分析決定對於MDCT及視窗區塊6執行轉換最佳之長度。遮罩臨界8b可由頻帶上之頻譜樣本所決定，其主要係定義利用量化區塊10沒有傳入任可人工聲音至信號下，可傳入每一頻帶之雜訊數量。

由MDCT及視窗區塊6輸出之視窗序列係數量量化區塊10之輸入。在實際實行量化過程前，透過視窗利用增加輸入信號至3/4之能量，使該信號雜訊比(SNR)能維持在常數。該量化區塊10可透過22個頻帶操作，其係近似關鍵性之頻帶。尺度因子可指定至每一頻帶，其係進一步適應符合其位元率。

數量量化器10之輸出係哈夫曼編碼區塊12之輸入。哈夫曼編碼區塊12中，量化頻譜係區分為三個不同區域，且識別之哈夫曼表(哈夫曼編碼簿)係指定至特一區域。每一編碼簿可表示最大之值限定為15。

哈夫曼編碼區塊12之輸出係多工器14之輸入。此外，旁側資訊，如數量量化器10之刻度值，可被編碼至編碼區塊16並且輸入多工器14。多工器14計算信號，經由數位聲道18傳送至一接收之解多工器20。

解碼時即反向運算。樣本通過所有之區塊22-30，且每一區塊對信號執行反向運算。

第一個區塊為哈夫曼解碼區塊24。哈夫曼解碼區塊24之輸出為量化頻譜信號。為了解碼，提供反轉量化、反向DMCT及反向視窗、旁側資訊解碼區塊22來解碼已編碼之旁側資訊。

哈夫曼解碼區塊24之輸出係反轉量化區塊26之輸入。反轉量化區塊26中，量化頻譜信號可轉換至一視窗序列。

視窗序列為反向MDCT及視窗區塊28之輸入。反向MDCT即為眾所皆知的IMDC。其具有不同之輸入及輸出數字。然而，利用增加其後之相互重疊區塊之相互重疊IMDCTs可完美的達到錯誤的減少及原始信號之回復。

圖2說明一AAC編碼器及解碼器。詳細之說明可參考以下資料：ISO/IEC JTC1/SC29/WG11 (MPEG-2 AAC), Generic Coding of Moving Pictures and Associated Audio, Advanced Audio Coding, International 13818-7, ISO/IEC, 1997, ISO/IEC JTC1/SC29/WG11 (MPEG-4), Coding of Audio-Visual Object: Audio, International Standard 14496-3, ISO/IEC, 1999, and M.Bosi,K.Brandenbrug,S.Quackenbush,L.Fielder,K.Akagiri,H.Fuchs,MD. \ietz,J.Herre,G.Davidson,Y.Oikawa,“ISO/IEC MPEG－2 advanced audio coding”,101 ^st AES Covention,Los Angeles 1996

該技術用於MPEG AAC與MPEG layer－3非常相似。MPEG AAC之編碼核心與用於layer－3之編碼極相同，僅有某些參數範圍不同。

然而，MPEG AAC並不與layer－3向後相容，且使用AAC特定之編碼區塊具有更高之編碼效率。該編碼器包括以下之編碼區塊，某些區塊係可選擇的，可選擇之區塊為判斷區塊，不管是否使用該區塊每一音框依然皆可分離。

視窗序列係時域雜訊重整(TNS)區塊36之輸入，該區塊係一選擇性區塊。該TNS區塊36應用頻域中知名的線性預測技術來重整時域中之量化雜訊。其將產生時域中量化雜訊之非均勻(non－uniform)分佈，其係對語音信號特別的有用處。

MDCT濾波器組區塊34與時域雜訊重整區塊236亦接收心理聲學模組38之輸出作為輸入，該心理聲學模組係分析視窗決策區塊38a及感官模組38b中之輸入信號2。

TNS區塊36之輸出為一視窗序列，該視窗列可選擇作為兩側立體聲(MS－Stereo)且/或強烈立體聲(IS)預測區塊40之輸入。對雙聲道，不管係MS，IS或兩者皆可能被使用。兩側立體聲轉送左聲道及右聲道之和及差，反之強烈立體聲僅傳送單一聲道。於強烈立體聲中，利用音階由兩聲道獲得應傳送之聲道，該傳送之聲道係符合編碼器所傳遞之資訊(左及右聲道具有不同之音階因子)。

兩側立體聲且/或強烈立體聲預測區塊40之輸出可作為數量量化區塊42之輸入，該區塊42之操作係與數量量化區塊10相似。數量量化區塊42提供均勻量化。亦透過尺度因子提供雜訊重整，該數量量化塊42為無雜訊編碼之部份且/或數量量化塊42本身。該尺度因子係分派至每一頻帶。藉由尺度因子值增加或減少修改信號雜訊比及頻帶之位元位置。

該數量頻譜組件係哈夫曼編碼之輸入，其係為無雜訊編碼區塊44之部份。藉由差分哈夫曼編碼可獲得尺度因子。複合編碼簿可利用動態編碼簿配置合併。此編碼簿僅可分派至特定頻帶中使用，或於相鄰頻帶中分享使用。

該編碼信號與旁側資訊於旁側資訊編碼區塊16中一起編碼，並作為多工器14之輸入。

解多工器20之輸出係無雜訊解碼器區塊50及旁側資訊解碼區塊48之輸入。該解碼信號接著輸入反轉量化區塊52，其輸出係一窗視序列。該信號可選擇作為反轉兩側立體聲且/或強烈立體聲(IS)預測區塊54之輸入，再經由反轉TNS濾波區塊56及反轉MDCT及視窗區塊 58，其輸出係一PCM音訊信號32。

圖3說明合併信號第一個方法。兩音訊信號A，B各別輸入至解多工器塊20及旁側資訊解碼區塊22。此二信號各別由哈夫曼解碼區塊24及反轉量化區塊26處理後，其產生之信號係為視窗信號。

信號A之視窗信號係輸入至重疊現象消去區塊27及反轉MDCT區塊28。其產生之信號係一子頻帶信號。

信號A之子頻帶信號係輸入至MDCT區塊6，接著產生一視窗序列。MDCT區塊6於附加旁側資訊中接收有關信號B之訊息。此旁側資訊可決定符合信號B時域音框之視窗大小。利用此資訊，MDCT區塊6可算一視窗序列，該視窗序列係與信號A之視窗序列及信號B之視窗序列有相同之視窗大小。此產生之視窗序列係輸入重疊現象蝶形區塊7。重疊現象蝶形區塊7之輸出視窗序列係輸入至混合器60中。

信號A及信號B之視窗信號於混合器60中合併。當視窗序列大小相匹配時，則無須限制及可合併。若x表示信號B之反轉量化頻譜，且y表示信號A之MDCT輸出，則混合信號z可表示如下：z (i )=(x (i )+a ．y (i )).b ,i =0,...,N -1

其中N係混合頻譜之樣本數，且a和b為常數，用於表示調節混合信號振幅等級。此振幅等級調節信號a，b可由信號62輸入混合器60。藉由調節振幅等級，信號A，B即可對準音量。

合併信號可再進行編碼，將於圖5中說明之。

圖4說明於特定mp3壓縮信號中，合併壓縮音訊信號第二個可能之方法。輸入信號A，B各別的由區塊20，22，24，26，27，28所處理，其過程係與圖1中描述之區塊20，22，24，26，27，28相似。由於信號A，B皆連接至子頻信號，因此，此方法與圖3之差異位於信號B之區塊26中之反轉量化，區塊27中之重疊現象消去及區塊28中之反轉MDC。

IMDCT區塊28之輸出為子頻帶信號。信號A，B之子頻帶信號係輸入至混合器60，混合器60中信號即可合併。振幅等級調節同樣可由信號62輸入。

混合器之輸出係輸入至MDCT區塊6及重疊現象蝶形區塊7。利用有關視窗已知之旁側資訊，來自信號B之旁側資訊係輸入至MDCT區塊6。然而，於此之前須先利用延遲塊64，對一音框之旁側資訊做一時間之位移，其係因為混合器60會產生一音框之一時間位移。

此產生信號C為合併信號之視窗序列，如圖5所示，該視窗序列同樣的可再進行編碼。

圖5說明一編碼器66。該編碼器66係一量化迴圈。輸入信號C係於量化器區塊10中量化，且於哈夫曼編碼區塊12中進行哈夫曼編碼。格式化區塊68提供位元流之格式化。輸出信號可由多工器14所計算，且混合mp3位元流輸出為信號E。

圖6說明AAC壓縮信號F，G之混合。該信號各別的由區塊20，46，50，52，54所計算，其過程與圖2，3中描述相似。

產生信號為信號F，G之視窗序列。信號F進一步由區塊56，58處理。其產生之結果信號於區塊34中處理。區塊34處理期間，被使用之旁側資訊係來自旁側資訊解碼器46，而旁側資訊係有關信號G時域平行視窗之視窗大小。利用此資訊提供信號F及G之視窗序列具有相同之視窗大小。其產生信號輸入至方塊36，其係與信號G之視窗序列於混合器60中合併後轉換為一合併信號H。

圖7說明合併信號H之編碼。該信號係輸入至兩側立體聲且/或強烈立體聲(IS)預測區塊40。其輸出信號係輸入量化迴圈70。該信號於量化區塊42中進行量化，且於無雜訊編碼區塊44中編碼。對於量化及編碼，可使用旁側資訊，其中如圖6所示可藉由旁側資訊解碼區塊46或得旁側資訊。使用旁側資訊可減輕計算負載，其係由於合併信號不須再進行分析。格式化區塊68中一位元流被格式化。其輸出信號利用多工器14進行計算，且一混合AAC位元流輸出為信號K。

本方法係音訊內容建立封包之部份，軟體及專用之硬體皆須使用。音訊內容建立封包可能為某一行動終端機之一外掛工具(plugin)。

有關mp3或AAC錄放混合器之附加實行提供選擇之優點。例如，若須同時重放兩個mp3或AAC流之錄音，於解碼期間對於混合音訊樣本十分有利，而並非對輸出裝置。對於錄放混合器，即不需編碼運算。編碼期間，混合作法如上所述，無須重新壓縮合併信號。

Mp3及AAC音訊格式皆使用非均勻量化來量化頻譜樣本。於解碼器端，須執行反轉非均勻量化。

針對衰退效果，其必須調整反轉量化頻譜係數之振幅等級。當實行衰退效果時，某些或全部之輸入反轉量化參數須進行修改。可發現兩種音訊格式皆已定義位元流元件稱為整體＿增益(global_gain)，其可於實行衰退效果使用。

Mp3中，整體＿增益係由尺度因子中一分離之數值，反之AAC中，整體增益係尺度因子之啟始值，其係用於傳送之差分編碼。然而，藉由修改此單一位元流元件，本實施例可十分容易且有效率的實行淡入及淡出效果。

可發現整體增益值係用頻譜領域樣本。為了產生衰退效果，於修改過程中須包含某些限制。對每一音框改變其整體＿增益，直至達到衰退等級即不再作業。此方法失敗之原因為輸出音量等級並不會逐漸增強，反而於淡入啟始區間長期的無聲，然後突然發生淡入。

為產生逐漸增強或減弱之輸出音量等級，本實施例提供由頻域編碼的信號之位元流獲得位元流元件，該位元流元件表示整體振幅等級值，以及改變位元流元件，該位元流元件表示用於音框及編碼音訊信號聲道之整體振幅等級有一交替值，其中該交替值於每第n個音框時改變，而n係由衰退等級之數字所決定，且由衰退長度所提供。

圖8至10所載之虛擬碼係說明本實施例如何對壓縮音訊信號，不須解碼位元流即可實行衰退效果。如實施例所述，僅某些簡單位元流須進行解析。

某些整體參數係由衰退之工作所指定。圖8所載之虛擬碼描述所需參數之說明。

例如，衰退音量(fadeVolume)、音框數量(frameCount)、衰退模式(fadeMode)之值係由使用者所輸入。此音框數量參數描述實施衰退作業時，連續音訊音框之數量。此數值可由衰退所需長度及音訊音框長度所計算。每一音訊音框有其特定長度，一般量測係於毫秒內，且當衰退區域之寬度己知，此參數即可輕易獲得。此數值一般係由使用者所指定。

衰退音量值可說明相關於原始等級之起始(淡入)或結束(淡出)音量等級。此參數之區間係於0及100之間變化，或其它更高臨界值。

FADEZEROLEVEL數值係一用於MP3及AAC之實行特定參數，例如30之值係皆用於MP3。gainDec數值係用於說明整體＿增益中之改變。此係為一交替值。當連續音框之定義數值n與目前gainDec數值改變時，incStep可定義gainDec數值之改變。

圖9之虛擬碼實施例說明，整體＿增益係以連續音框方式修改。

Num_mp3_granules數值係於一mp3音框中粒度(granule)之數量(1或2)，且unm_mp3_channels係目前mp3微粒中聲道之數量(單音或立體聲)。這些參數可於解碼開始時，由mp3位元流所決定。

Num_syntactic_acc_elements說明AAC音框中語法聲道元件之數量。此參數可於連續音框方法解碼期間，由AAC位元流所決定。

為達到編輯目的，整體_增益_數值(global_gain_values)須由需求位元流位置取得啟始。修改之後，新的數值須寫回相同之位元流位置。

衰退效果建立過程已利用虛擬碼摘錄於圖10中。fadeGride數值定義音框n之數量，之後其交替值，如：gainDec，即改變。

依據實施例之方法亦於圖11中說明。在啟始80期間，用於衰退之參數依據圖8所述之虛擬碼所計算。

啟始80之後，整體_增益數值由壓縮音訊檔案之位元流萃取82。

該交替值，其可能為gainDec數值，具有一變化值然後可被改變84，如incStep數值。不管gainDec數值之改變是否適當，該交替值可由音框目前位置所決定。於所述實施例中，gainDec數值係由incStep數值每第n個音框所改變，而n與音框網格數量相同。音框網格可由音框數量及衰退等級數量所決定，例如可作為一商數。換句話說，gainDec數值由incStep數值每n=frameGrid之音框所改變。

交替值變化之範圍藉由incStep之數值所改變，例如：一、每第n個音框或第n個音框之選擇可能為對數、指數、階梯或任何其它曲線。

依據圖9之虛擬碼，判定交替值GainDec是否改變84之後，對每聲道及每粒度或語法元件86即改變增體_增益數值。

整體_增益數值之改變係包含至位元流88中。

一般來說，所述之方法對所有音訊格式皆係有效的，其係於反轉量化中使用一指數數值或等效之尺度公式。技術上不管指數數值之名稱是否為整體_增益，其係與名稱不相關，其依然代表相同之意義。

依據實施例，圖12表示表示一裝置90用於實行本方法。輸入92用於提供接收壓縮音訊檔案。輸入音訊檔案於解析器94中進行解析，並萃取出位元流。解析器94亦可提供整體_增益、粒度數量、聲道數量、語法示素數量、音訊音框長度及由位元流任何其它可用資訊。

整體_增益數值通過處理器96。處理器96中，整體_增益數值被改變，音框之交替值亦被計算且各別之整體_增益值亦被改變。

接著提供處理器98，可將修改之整體_增益值包含至位元流。一輸出100提供一具有衰退效果之壓縮音訊信號。

雖然本發明以前述之較佳實施例揭露如上，然其並非用以限定本發明，任何熟悉相關技術者，在不脫離本發明之精神和範圍內，當可作些許之更動與變更，例如，本發明詳述提及在本發明之範圍中所有元件且/或方法步驟之組合，其方法係使用大體上相同的方法，執行大體上該相同的功能，去達成該相同的結果。此外，本發明應該要被識別成一個公認主要的設計選擇，其設計係與本發明的任何公開的構型或實施例相關之結構且/或元件且/或方法步驟且/或顯示且/或描述，可能與任何其他公開或描述或建議之構型或實施例合併。因此本發明之專利保護範圍需視本說明書所附之申請範圍所界定者為準。

2‧‧‧脈衝編碼調變(PCM)輸入信號

4‧‧‧分析濾波器組

6‧‧‧改良離散餘弦轉換(MDCT)

8‧‧‧心理聲學模型

8a‧‧‧快速傅利葉轉換(FFT)

8b‧‧‧遮罩臨界

10‧‧‧數量量化

12‧‧‧哈夫曼編碼

14‧‧‧多工器

16‧‧‧旁側資訊之編碼

18‧‧‧數位通道

20‧‧‧解多工器

22‧‧‧旁側資訊之解碼

24‧‧‧哈夫曼解碼

26‧‧‧解數量量化

27‧‧‧重疊現象減少

28‧‧‧反轉改良離散餘弦轉換(IMDCT)

30‧‧‧綜合濾波器組

32‧‧‧脈衝編碼調變(PCM)輸出信號

34‧‧‧改良離散餘弦轉換(MDCT)及視窗

36‧‧‧時域雜訊重整(TNS)

38a‧‧‧視窗決策

38b‧‧‧感官模組

40‧‧‧兩側立體聲(M/S)預測強度

42‧‧‧數量量化

44‧‧‧無雜訊編碼

46‧‧‧旁側資訊之編碼

48‧‧‧旁側資訊之解碼

50‧‧‧無雜訊解碼器

52‧‧‧解量化

54‧‧‧兩側立體聲(M/S)預測強度

56‧‧‧反轉時域雜訊重整(TNS)

58‧‧‧反轉改良離散餘弦轉換(IMDCT)及視窗

圖1一MP3編碼、解碼系統之方塊示意圖；圖2一AAC編碼、解碼系統之方塊示意圖；圖3第一個發明用於混合MP3壓縮信號之混合系統之方塊示意圖；圖4第二個發明用於混合MP3壓縮信號之混合系統之方塊示意圖；圖5第一個及第二個發明方法用於編碼混合MP3壓縮信號之編碼系統之方塊示意圖；圖6第三個發明用於混合AAC壓縮信號之混合系統之方塊示意圖；圖7第三個發明方法用於編碼混合AAC壓縮信號之編碼系統之方塊示意圖；圖8 第一虛擬碼，其係用於執行衰退效果；圖9 第二虛擬碼，其係用於執行衰退效果；圖10 第三虛擬碼，其係用於執行衰退效果；圖11 本方法用執行衰退效果之流程圖；及圖12 本發明系統之方塊示意圖。