TWI625722B

TWI625722B - 處理一編碼音源訊號之裝置及方法

Info

Publication number: TWI625722B
Application number: TW105140923A
Authority: TW
Inventors: 安卓斯尼德米爾; 薩斯洽帝斯奇
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2015-12-14
Filing date: 2016-12-09
Publication date: 2018-06-01
Also published as: EP3391373B1; MX2018007197A; BR112018012007B1; US11862184B2; KR20180095863A; CN108701467B; SG11201805008YA; ES2960963T3; AU2016373990A1; CA3008388C; CA3008388A1; JP2019502948A; RU2687872C1; CN108701467A; MY191239A; KR102625047B1; TW201730876A; AR106970A1; BR112018012007A2; EP3391373A1

Abstract

本發明係關於一種處理一經編碼音源訊號(100)之裝置。經編碼音源訊號(100)係包含接取單元(100’)，各接取單元包含具有一第一頻寬之一核心訊號(101)以及描述在該第一頻寬上之一頻譜之複數參數。裝置包含：一解多工器(1)，用以產生核心訊號(101)與一組參數(102)；一上取樣器(2)，用以上取樣接取單元(100’)之核心訊號(101)並輸出一第一經上取樣頻譜(103)與一時間連續之第二經上取樣頻譜(103’)；一參數轉換器(3)，用以轉換接取單元(100’)之參數(102)之參數以得到被轉換參數(104、104’)；以及一頻譜間隙填充處理器(4)，用以藉由使用被轉換參數(104)而處理第一經上取樣頻譜(103)與第二經上取樣頻譜(103’)。

Description

處理一編碼音源訊號之裝置及方法

本發明係關於一種處理一編碼音源訊號之裝置及一對應方法。

感知聲音編碼(perceptual audio coding)係以一感知適應方法之聲音的數位表現，以達到有效率的儲存、處理、傳輸與再生。進一步減少位元消耗之一重要工具係為一半參數方法，稱為頻寬展延(bandwidth extension，BWE)。該技術係展延一感知經編碼訊號，其係藉由增加該缺少高頻頻帶(HF)之一參數被控制估計而被限制於低頻頻帶(LF)。通常，其係藉由該低頻頻譜與接續的能量波封(envelope)調整之轉置(transposition)而實現。通常，少許的感知相關參數會一起被調整(adjusted alongside)(例如噪音等級、音調等等)。

頻段複製(Spectral Band Replication，SBR)與智能間隙填充(Intelligent Gap Filling，IGF)係為當代的技術，其係提供頻寬展延功能性。智能間隙填充(與WO 2015/010948 A1相比較)提供高編碼效能並在能與頻段複製(與WO 98/57436 A2相比較)媲美之感知品質上同時達到低計算複雜度。

在高頻頻帶且在頻段複製與智能間隙填充中之頻譜波封之估計係藉由分別使用正交鏡像濾波器(Quadrature Mirror Filter，QMF)與複數調變重疊變換(Modulated Complex Lapped Transform，MCLT)之濾波器組(filter banks)而執行。

這使得將現存以頻帶複製被編碼之聲音材料更新至一基於智能間隙填充表現成為一吸引人的任務。一種直接但難處理的方法係為一串列編碼(tandem coding)，其係包含將基於SBR之內容解碼為一脈衝編碼調變(pulse code modulation，PCM)時域訊號並且接著將該訊號再編碼為一基於IGF格式。

本發明之一目的在於處理一經編碼音源訊號以得到一個直接轉碼(transcoded)音源訊號，其係為使用與原有編碼不同之一編碼之一經編碼音源訊號。並且，本發明之一目的在於處理一經編碼音源訊號以藉由使用一不同解碼方法之優點而解碼該經編碼音源訊號而得到一音源訊號。

這些目的係藉由依據申請專利範圍第1項之處理一經編碼音源訊號之一裝置以及依據申請專利範圍第22項之一對應方法而達到。

將經由本發明裝置或本發明方法所處理之經編碼音源訊號係包含一序列的接取單元(a sequence of access units)。各接取單元包含具有一第一頻寬(spectral width)之一核心訊號以及描述在該第一頻寬上之一頻譜之複數參數。

本發明處理如此之一經編碼音源訊號之裝置係包含：一解多工器，用以從該經編碼音源訊號之一接取單元產生該核心訊號與一組該參數。換言之，該解多工器係從該經編碼音源訊號之該等接取單元萃取出該核心訊號與該等參數，其係可以重現在對應核心訊號之頻譜上之遺失頻譜。

一上取樣器，用以上取樣該接取單元之該核心訊號並輸出一第一經上取樣頻譜以及一在時間上連續之第二經上取樣頻譜。第一經上取樣頻譜與第二經上取樣頻譜二者皆具有與核心訊號相同之一內容並具有大於核心頻譜之第一頻寬之一第二頻寬。換言之，上取樣器係上取樣該核心訊號並輸出至少二經上取樣頻譜。該經上取樣頻譜係在時間上連續，涵蓋與核心訊號相同的資訊並且具有大於該核心訊號之頻寬之一頻寬。

一參數轉換器，用以轉換該接取單元之該組參數之參數以得到經轉換參數。換言之，在該經編碼音源訊號內之參數係被轉換為可應用於該經上取樣頻譜之參數。

一頻譜間隙填充處理器，用以藉由使用該等經轉換參數而處理該第一經上取樣頻譜與該第二經上取樣頻譜。換言之，頻譜間隙填充處理器係結合經上取樣頻譜與經轉換參數。依據實施例，其結果可以是一經轉碼音源訊號，其作為一經編碼音源訊號但是是用一種與原有或輸入的經編碼音源訊號不同的技術，或者該結果可以是一音源訊號。

在一實施例中，上取樣器係用以使用零點來填充該核心訊號之一頻譜之一上部，並且從該核心訊號之被填滿頻譜而取得該第一經上取樣頻譜與該第二經上取樣頻譜。

在一實施例中，該上取樣係基於經編碼音源訊號之至少二接取單元而被執行。在此實施例中，上取樣器係用以藉由額外使用緊接在該接取單元之前之一接取單元之一核心訊號而上取樣該接取單元之該核心訊號因此，需要二接取單元之資訊並使用之以得到該經上取樣頻譜。

在另一實施例中，上取樣器係用以收集一第一數量之時間連續之接取單元之核心訊號，並且以一非整數上取樣率而從這些核心訊號處理一第二數量之經上取樣頻譜，其中該第一數量係為該比率之一分母，該第二數量係為該比率之一分子。

依據一實施例，該參數轉換器係用以轉換與在時間上連續的時隙(timeslots)之一第一部有關之該組參數之一第一子組參數，並且用以轉換與該等時隙之一第二部有關之該組參數之一第二子組參數，該等時隙之第二部係在時間上與該第一部連續。此外，該頻譜間隙填充處理器係用以使用該第一經上取樣頻譜來處理一第一被轉換子組參數並使用該第二經上取樣頻譜來處理一第二被轉換子組參數。在此實施例中，經編碼音源訊號之參數係與時隙有關，較佳者係屬於一音框(frame)。

在一實施例中，該轉換器係用以藉由使用一給定縮放因子來縮放這些參數值而將與該組參數之能量值有關之參數轉換為可被該頻譜間隙填充處理器使用之能量值。

在一實施例中，該縮放因子具有一定值。

在一實施例中，縮放因子係適應於給定經編碼音源訊號之需求。因此，該轉換器係用以萃取與該接取單元相關之一窗函數有關之一資訊。此外，該轉換器係用以依據該窗函數調整該縮放因子。

對於一同步化，在一實施例中，該轉換器係用以藉由插入一延遲補償而偏移該組參數之參數。

對於一MCLT與一QMF轉換之例子，該延遲不匹配可如下考慮。這是基於MCLT能量係藉由使用長塊(Long block，LB)窗而被定義之假設。為比較在該等轉換之間的能量，該些窗必需是同步的被置放在資料上以致各原型窗之重心(center of gravity，CG)能夠一致。在重心的權重係數係為一致(unity)。

用於QMF分析之原型窗可為一低通有限脈衝響應(FIR)濾波器。窗的該等係數係被最佳化以達到最好的邊帶抑制(sideband suppression)，較佳係導致一對稱窗，其在窗邊緣具有一平滑滾降(roll-off)以達到足夠的邊帶衰退(attenuation)。窗的長度可為640並隨著該窗跨距(window stride)之一音框跳距(hop size)為64取樣長。

對於MCLT之一實現，可使用一對稱正弦窗。該窗例如具有對於長塊為2048個取樣之一長度，同時該等短塊(short block)具有256個取樣之一長度。其係為長塊尺寸之1/8。該窗跨距之音框跳距係分別對於長塊與短塊為1024與128個取樣，其係等於該等轉換之頻率解析度。

舉例來說，使用於智能間隙填充(IGF)之該等MCLT原型窗係展開為2N=2048之一長度並具有50%之重疊。在該短塊之中間處之該等短窗係在雙邊各具有N/4之一長度以及448個取樣之偏移(offsets)。如此，其N個取樣之音框跳距係擷取該等第一輸入取樣，同時該延遲τ1係由1024個取樣所組成。

一QMF原型窗可展開為10M=640個取樣之長度並具有M個取樣之一音框跳距，稱為一子取樣。該音框跳距亦對應在一QMF子取樣中之子帶之數量，M。該延遲補償τ2可被計算為(窗長度-窗音框跳距=640-64個取樣)並對應576個取樣。

依據一實施例，該上取樣器係用以藉由內插該核心訊號之值而上取樣所述核心訊號。

在一實施例中，該上取樣器係用以如下：

該上取樣器係用以使用零點而填滿該先前接取單元之該核心訊號之一頻譜。

該上取樣器係用以使用零點而填滿該接取單元之該核心訊號之一頻譜。

該上取樣器係用以執行該接取單元之被填滿頻譜與該先前接取單元之被填滿頻譜之一逆轉換。

最後，該上取樣器係用以對該先前接取單元之被填滿頻譜以及該接取單元之被填滿頻譜執行一時域訊號之一重疊相加(overlap-add)，以得到一中間時間訊號。

基於前述實施例，依據一實施例，該上取樣器係用以使用該中間時間訊號之一第一部而執行一前轉換以得到該第一經上取樣頻譜。該上取樣器係亦用以使用該中間時間訊號之一第二部而執行一前轉換以得到該第二經上取樣頻譜。這是在第一部重疊第二部之限制條件下完成的。

依據一實施例，該上取樣器係用以上取樣該核心訊號以得到一經上取樣核心訊號。該上取樣器係用以在該經上取樣核心訊號上執行一逆轉換以得到一時域訊號，並且藉由應用一轉換而處理該時域訊號以得到該第一經上取樣頻譜以及在時間上連續之該第二經上取樣頻譜。其中，該逆轉換係為該轉換之一逆轉換。

在關於前述實施例之一實施例中，該逆轉換係為一逆改進離散餘弦轉換並且該轉換為一改進離取餘弦轉換。

在一實施例中，該頻譜間隙填充處理器係使用該等被轉換參數而處理該第一經上取樣頻譜與該第二經上取樣頻譜以得到一時域輸出訊號。

在一接下來的實施例中，該頻譜間隙填充處理器係將該等被轉換參數之一第一部應用於該第一經上取樣頻譜以得到一第一被處理頻譜，並且將該等被轉換參數之一第二部應用於該第二經上取樣頻譜以得到一第二被處理頻譜。

依據一實施例，該頻譜間隙填充處理器係包含一頻譜轉換器以將該第一被處理頻譜與該第二被處理頻譜轉換為一時域，並且包含一聲音加法器以重疊相加至少二輸出時間訊號以得到一音源訊號。

在一實施例中，該頻譜間隙填充處理器係產生具有一第一接取單元與一第二接取單元之一頻譜間隙填充經編碼訊號，其中該第一接取單元包含該第一經上取樣頻譜之一被轉換版本與該被轉換參數之一第一部，並且該第二接取單元包含該第二經上取樣頻譜之一被轉換版本與該被轉換參數之一第二部。

依據一實施例，該頻譜間隙填充處理器係產生具有一第一接取單元與一第二接取單元之一輸出資料流。該資料流係例如為一IGF編碼音源訊號作為一經轉碼音源訊號。

在一實施例中，該頻譜間隙填充處理器係使用該等被轉換參數而處理該第一經上取樣頻譜與該第二經上取樣頻譜以得到二經轉碼接取單元，並且該頻譜間隙填充處理器係相加該等二經轉碼接取單元以得到一經轉碼音源訊號。

在該裝置作為一轉碼器並因此輸出一經轉碼音源訊號的例子中，依據一實施例，該經轉碼音源訊號係為一IGF編碼音源訊號。

依據一實施例，該經編碼音源訊號係為一SBR經編碼音源訊號。

本發明亦關於處理一經編碼音源訊號之一方法。該經編碼音源訊號係包含一序列的接取單元，各接取單元係包含具有一第一頻寬之一核心訊號以及描述在該第一頻寬之上之一頻譜之參數。

本發明之方法係包含至少下面步驟：

從該經編碼音源訊號之一接取單元產生該核心訊號與一組該等參數，此接取單元可稱為現在接取單元。

上取樣該接取單元之該核心訊號並輸出一第一經上取樣頻譜與在時間上連續之一第二經上取樣頻譜。該第一經上取樣頻譜與該第二經上取樣頻譜皆具有與核心訊號相同之一內容並具有較該核心頻譜之該第一頻寬大之一第二頻寬。

轉換該接取單元之該組參數之複數參數以得到經轉換參數。

藉由使用該等經轉換參數而處理該第一經上取樣頻譜與該第二經上取樣頻譜。

上述之裝置的實施例亦可藉由方法之步驟與方法之對應實施例而被執行。

在一實施例中，經編碼音源訊號之處理係有關於該經編碼音源訊號之解碼以產生一音源訊號。在一不同實施例中，經編碼音源訊號之處理係將該經編碼音源訊號直接轉碼成一不同的經編碼或經轉碼音源訊號。該轉碼器係因此從以第一編碼方法編碼之該第一經編碼音源訊號產生基於一第二不同的編碼之一第二經編碼音源訊號。

該經編碼音源訊號係包含一核心訊號以及描述在核心訊號之上之該原有音源訊號之遺失部分之參數。該參數例如包含一頻譜波封，其係給予音框並給予時隙的數字以及對應的能量值或能量。對於該等參數而言，不同的濾波器組可被使用。

本發明之優點是可以帶來參數映像之高精度、額外轉碼失真(transcoding artefact)之最小化以及減少計算複雜度。

本發明係依據下面圖式所描繪之實施例來說明。

1‧‧‧解多工器

100‧‧‧經編碼音源訊號

100’、100”、100'''‧‧‧接取單元

101‧‧‧核心訊號

102‧‧‧組參數

103、103’‧‧‧經上取樣頻譜

104、104’‧‧‧被轉換參數

1001~1003‧‧‧步驟

110‧‧‧經上取樣頻譜

111‧‧‧時域訊號

2‧‧‧上取樣器

20‧‧‧頻譜上取樣器

22、23‧‧‧轉換

24‧‧‧延遲

200‧‧‧經轉碼音源訊號

3‧‧‧參數轉換器

300‧‧‧音源訊號

4‧‧‧頻譜間隙填充處理器

5、9‧‧‧加法器

6‧‧‧延遲元件

7、21‧‧‧IMDCT轉換器

8‧‧‧延遲

圖1係一經編碼音源訊號之一核心訊號的示意圖。

圖2係在應用本發明期間所產生之一頻譜的示意圖。

圖3係藉由使用正交鏡像濾波器(QMF，上列)與複數調變重疊變換(MCLT，下列)之一音源訊號之兩個轉換之一比較的示意圖。

圖4係藉由MCLT來實行時間連續QMF數值之窗化的示意圖。

圖5係以各別的示意MCLT與QMF之對數能量值以及平均偏移量。

圖6係示意一停止-開始窗序(stop-start window sequence)。

圖7係為依據技術之狀態之一解碼器的示意圖。

圖8係為用以轉碼一經編碼音源訊號之一裝置之一實施例之一方塊示意圖。

圖9係為用以解碼一經編碼音源訊號之一裝置之一實施例之一方塊示意圖。

圖10係為例如各別用於圖8及圖9之實施例之一上取樣器之一實施例的示意圖。

圖11係為圖10所示之上取樣器之參數轉換器之工作的示意圖。

圖12係為核心訊號以3：8的比例上取樣的示意圖。

圖13係為一重疊-相加順序應用到接取單元之示意圖。

圖14係為本發明之一裝置的方塊示意圖。

圖15係為本發明之一方法的流程圖。

以下將參照相關圖式，說明依本發明較佳實施例之一種處理一編碼音源訊號之裝置及方法，其中相同的元件將以相同的參照符號加以說明。

在下面敘述中，經編碼音源訊號係為一頻段複製經編碼(SBR-encoded)音源訊號之一例子，但本發明並非限制於此種經編碼音源訊號。本發明亦支持SBR-經編碼音源訊號被轉碼，或是在中間步驟中被處理的對應訊號或頻譜。於此，一智能間隙填充經編碼(IGF-encoded)音源訊號係為多種可能性之一例子。

為將SBR資料轉碼到一IGF表現，需要作到至少一些下列步驟：

將SBR複製內容(copy-up content)置換為IGF相容複製材料(compliant copy-up material)。

插入關於MDCT之QMF之一延遲補償以達到資料同步。

將藉由SBR所得到(經由基於QMF之能量測量)之頻譜高頻段波封映像至一MCLT表現。

將在下方的SBR時頻格點映像至IGF上：該映像函數係依據不同的窗化技術之類型而調整，以從QMF能量中取得MCLT能量。

較佳者，應用一能量校正因子以消除任何偏差並最小化殘餘錯誤(residual error)。

較佳者，將剩餘SBR邊資訊(sideinfo，例如本底雜訊(noisefloor)、音調(tonality)，又稱為逆濾波等級(inverse filtering level)等等)轉化(translation)為合適的IGF參數：例如，在SBR中的逆濾波等級被映像至一合適的IGF白化等級以提供最佳的感知品質。

圖1係顯示經編碼音源訊號之一接取單元之核心訊號101，其具有一受限的第一頻寬從零到一頻率f_xo。經編碼音源訊號之該等參數係描述達到頻率2*f_xo之在該核心訊號101上之頻譜。

這必需和圖2所示之頻譜進行比較。於此，一經上取樣頻譜1係包含與圖1之核心訊號相同的資訊內容並且在為在此核心訊號上之該等頻率承載多個零值。該第二頻寬在此例子中係從零達到頻率2*f_xo。

為將SBR資料轉碼至一IGF表現，必需將QMF能量映像至MCLT能量值上。

這個細節描述於下，並開始於QMF與MCLT轉換之一比較。

假設x係為由一取樣率SR所取樣之一離散音源訊號。假如一QMF轉換被應用至該訊號x，會得到：

其中，t係為該轉換之開始的取樣，l係為時隙索引，並且k=0,1,…,m-1係為直到m之一頻率線(frequency line)，即Nyquist頻率線。

假如一被窗化MCLT轉換被應用至該訊號x，則結果係為：

其中，b係為該轉換之開始塊，並且i=0,1,…,N-1係為直到Nyquist頻率線N之多個頻率線。

示範的參數亦被使用於下面敘述：

在QMF轉換下，640個取樣之一原型長度連同64個取樣之一音框跳距係被使用。這導致對於Nyquist頻率線而言，m=64。

舉例來說，假如為了MCLT，2048之一長窗尺寸連同50%重疊係被使用音框跳距係為1024，並且因此對於Nyquist頻率線而言，N=1024。該重疊窗化通常消除塊失真(blocking artifacts)。

在這樣一個示範配置的分析中，需要32QMF時隙來涵蓋同樣數量的取樣而作為MCLT轉換，如圖3。圖3亦顯示資料同步，其中QMF的子取樣係對齊MCLT之較長的窗。

為準備用於映像之SBR-經編碼音源訊號之QMF能量，一窗w係被應用到時間連續QMF值，就如時域取樣在MCLT中被窗化。該QMF窗化係顯示於圖4。

為將QMF能量合適地映像至MCLT能量，二種轉換需要被延遲對準。

然後，為達到QMF與MCLT能量的轉換，方程式如下： ,l=16b

其中，x₀係為SBR交越(cross-over)頻率。

下一步驟係為將各能量值從QMF轉換轉換為MCLT轉換。

SBR音框係藉由使用時間/頻譜波封之粒狀性(granularity)而有助於定義訊號特徵。頻譜波封之映像係已被研究作為部分的映像技術定義。由適應性SBR格點之時間解析度所透露的資訊係被轉化為IGF之時間適應之技術。

由QMF濾波器組所分析之一時域訊號係具有一子取樣之一時間解析度。SBR能量之最高時間解析度係在一時隙之上，亦即兩個子取樣。在時間與頻率解析度之間的交換可從時隙之結合以及子頻帶編組之選擇而被實現。不同類型的音框係容許一音框內之時間/頻率區段之不同的數量。如此，訊號特徵係被在格點中被量化之波封所保存。

IGF之時間/頻率之適應性解析度係可藉由使用不同類型的MCLT窗而被實現。就如實驗所顯示的，一個QMF子頻帶之能量可依據在比較中之MCLT塊而被收集。這激發在能量映像期間之塊切換(block switching)之合併。如此被收集到子頻帶內之該等能量係可在MCLT頻率格(frequency bins)上被內插。之後，IGF邊資訊可被取得以為了在來源頻譜轉置期間之波封塑形。

基於實驗，QMF塊能量可在一長塊之32個重疊子取樣上被計算。為減少映像至MCLT塊能量之誤差，QMF需要MCLT原型窗之權重係數之一應用。可以期望的，一個合適的MCLT窗有助於保存由QMF之時間波封所定義之訊號特徵。

這些計算較佳者係離線執行並且在使用裝置或方法之前被執行。

圖5係顯示一舉例之量測的結果，其中係比較E_QMF與E_MDCT之對數能量(E’(QMF)與E’(MCLT))。這容許在對數域之計算：,b=1,2,...B.

這證明藉由使用為了在線性域中之線性映像之一固定縮放因子s之能量值的轉換：,b=1,2,...,B其中，縮放因子s係給定為：並且，B係為被量測之塊的總數量。平均偏移在一實施例中對於所有塊係在一10%信賴區間剪除所有的離群值(outliers)。

該信賴區間係容許使用一過度偏差(excessive deviation)從該平均值剪除資料取樣。

示範性的量測已顯示無偏差且精確的能量匹配，其大約1dB的峰值誤差。藉由使用此映像，就能夠將在包含一SBR-經編碼音源訊號之一位元流中被傳送之SBR能量值轉換為對應的IGF能量值。在所顯示例子中之固定縮放因子係在對數域中小於20並且大約為18。這些可被直接饋送至一IGF解碼器，或者，另外地，可被組合至一IGF輸出位元流內。

實驗已顯示，在對數域之平均偏差係具有低於20之一值。並且可發現平均偏差落在16與17之間或者在一例子中具有大約為7之一值。因此，平均偏差係具有7與17之間之值。

另外的實驗已顯示，平均偏差依賴所使用之窗的類型。所得到的值係顯示於下表：

圖6係顯示停止-開始窗順序以描述縮放因子在所使用之窗順序的依賴性。在所顯示的例子中，SBR-經編碼音源訊號之音框f係包含QMF之32個子取樣。該順序之第一窗類型ws(f,0)係展開於整個音框資料，亦即一塊之t_h子取樣。接下來的窗ws(f,1)重疊於ws(f,0)且同時展開於音框 f之t_h/2個子取樣與接下來的音框f+1之t_h/2個子取樣。SBR格點之音框可有助於作為QMF能量格點之複數塊帶同一種關係(在本實施例)即一音框產生兩塊之QMF子取樣。

以下，用於解碼一SBR-經編碼音源訊號之一IGF解碼器係使用一實施例來說明。

一種典型2：1之SBR解碼器係例如描述於M.Neuendorf et al.,“The ISO/MPEG Unified Speech and Audio Coding Standard-Consistent High Quality for All Content Types and at All Bit Rates”,J.Audio Eng.Soc.,vol.61,no.12,pp.956-977,Dec.2013，並顯示於圖7。

本發明之一轉碼器之一實施例係以方塊圖的方式顯示於圖8。

包含接取單元100’之SBR-經編碼音源訊號100係被饋送至一解多工器1，其係取得一核心訊號101與一組參數192，以達到重現該音源訊號之遺失部分。該核心訊號101係被饋送至上取樣器2，其係於此藉由一MDCT分割器(MDCT splitter)而實施，並且該組參數102係被饋送至參數轉換器，其係於此顯示為包含分開的元件。

在此例子中，該組參數102係特別關於由SBR-經編碼音源訊號所提供之頻譜波封。在此例子中，SBR-經編碼音源訊號之一音框之時隙0-15係被傳送至上面的參數轉換器元件，並且時隙16-31係被傳送至下面的參數轉換器元件。時隙的數量仍然關於使用於從QMF到MCLT之參數轉換的討論之示範性的參數。

在參數轉換器3的各子部中，至少關於頻譜波封之參數係被轉換，其係經由上述之QMF資料到MCLT資料之轉換所完成。被轉換參數104、104轉係合適於IGF之使用並且被饋送至包含兩多工器之頻譜間隙填充處理器4，以為了與由上取樣器2從該核心訊號101取得之一對應經上取樣頻譜103、103一合併。

結果包含兩接取單元1.AU’與2.AU’作為頻譜間隙填充處理器4之多工器之輸出。二接取單元1.AU’與2.AU’係被饋送至一加法器5，其中該第二接取單元2.AU’係藉由一延遲元件6而延遲。加法器5之輸出係為一經轉碼音源訊號200，其在所示之實施例中特別是一IGF-經編碼音源訊號並具有兩接取單元1.AU、2.AU。

上取樣器2係藉由使用示範性的圖10所示之實施例而說明，其中上取樣器2係標示為MDCT分割器。

上取樣器2包含一頻譜上取樣器20以上取樣該原有SBR-經編碼音源訊號之核心訊號101(例如具有1024條線)之頻譜。該經上取樣頻譜110(假如該上取樣例如藉由因子2而完成，所產生的訊號具有2048條線)係經過由一IMDCT轉換器21所執行之一逆改進離散餘弦轉換而作為一逆轉換的例子。如此而得到之時域訊號111(由時域取樣所組成)係經過一重疊-相加(由OA所設計)並且因而被分割為兩訊號。兩個訊號皆具有例如1024條線，並且圖中所示較低的訊號係被對應至1024條線之重疊-相加之一延遲24所影響。然後，兩訊號經過由二MDCT轉換器23所執行之一改進離散餘弦轉換，並導致二經上取樣頻譜103作為上取樣器2之輸出。

該等二MDCT轉換器23之影響係顯示於圖11。在圖中，1.MDCT係關於圖3所示之上面的MDCT轉換器23，而2.MDCT係關於圖3所示之下面的MDCT轉換器23。IMDCT之輸出係關於被逆改進離散餘弦轉換之經上取樣核心訊號111。另外，一重疊相加OA係提供給IMDCT轉換器21，其例如具有2048個取樣。

MDCT之細節請例如參照WO 2014/128197 A1，特別是第14-16頁。

另一者，不是執行一MDCT轉換與一IMDCT轉換，而是執行一快速傅立葉轉換與一逆快速傅立葉轉換。

圖9所示之該裝置係容許於此將一SBR(頻段複製)-經編碼音源訊號100解碼為一音源訊號300而作為這樣一經編碼音源訊號100之處理的例子。

為此目的，該裝置包含一解多工器1，其係從SBR-經編碼音源訊號100之一接取單元100’產生該核心訊號101與一組參數102。該組參數102係描述在核心訊號上之該頻譜，亦即描述該等遺失部分。

核心訊號101係被傳送至一上取樣器2，其係於此實施為一MDCT分割器以上取樣核心訊號101。這是由於一SBR-經編碼音源訊號之核心訊號具有相較於一IGF-經編碼音源訊號之核心訊號較減少之取樣率。上取樣器2之一實施例之細節係依據圖10來說明。

該組參數102被傳送至一參數轉換器3，其係於此藉由二轉換器元件或單元來實施。接取單元100於包含至少一音框，其涵蓋多個時間連續的時隙。於此，其為32個時隙。涵蓋時隙0-15之該等第一時隙之該等參數係被饋送至上面的參數轉換器單元，涵蓋時隙16-31之該等第二時隙之參數係被饋送至下面的參數轉換器單元以被轉換。經編碼音源訊號之該等參數與被轉換參數係關於不同的濾波器組，例如正交鏡像濾波器(Quadrature Mirror Filter，QMF)與複數調變重疊變換(Modulated Complex Lapped Transform，MCLT)。因此，參數轉換器單元將一延遲補償插入至SBR-經編碼音源訊號之參數中以為了同步。另外，參數轉換器單元係藉由使用一窗化而映像一時頻格點，時頻格點係位於SBR-經編碼音源訊號之該等時隙下方，該窗化較佳者係預先被執行並藉由使用應用於時間訊號之一窗並藉由使用MCLT濾波器組而執行於參數上。

所產生之被轉換參數104、104’係被饋送至頻譜間隙填充處理器4之二元件(1.IGF與2.IGF)以合併經上取樣頻譜103、103’及對應的被轉換參數104、104’。對應係暗示在本實施例中，從第一組時隙取得之被轉換參數104係與由MDCT 1，如圖10所示，所提供之經上取樣頻譜合併，並且從第二組時隙取得之被轉換參數104’係與由MDCT 2所提供之被延遲經上取樣頻譜合併。

這些合併的結果係被二IMDCT轉換器7藉由使用一IMDCT轉換為時間訊號並且被重疊-相加(延遲8與加法器9)至所要的音源訊號300。

圖12係顯示以3：8比例上取樣核心訊號之例子。在此例子中，該上取樣器係儲存三個時間連續接取單元100’(這是上述之“現在”接取單元)以及二個前面的接取單元100”、100'''之該等核心訊號。這三個核心訊號被相加並在之後被分成8個經上取樣頻譜。

在該等核心訊號以3：4比例被上取樣的例子中(圖未顯示)，該上取樣器亦儲存三個時間連續接取單元之該等核心訊號。該等核心訊號亦被相加但被分成四個經上取樣頻譜。

相似的，假如想要某一重疊，則一經上取樣頻譜需要從二接取單元來之二核心訊號。

圖13係示意重疊相加。依由上往下之各列進行相關說明。

給定三個接取單元AU 0、AU 1、AU 2，各別具有一核心訊號同1024個資料點。該等核心訊號之對應頻譜被藉由零點而被相加，該等零點係在該等核心訊號之頻譜之後。被上填充頻譜係具有2048個資料點。這些頻譜係被轉換至時域，該時域之訊號具有2 * 2048=4096個資料點。

對於這些時間訊號，該等訊號之重疊部分係被相加，該重疊係關於一時間訊號之一第一半部與另一時間訊號之一第二半部。

所產生的總時間訊號係具有2048個資料，其中從各前面的時間訊號，只有一半被使用。

因此，從該等三個接取單元AU 0、AU 1、AU 2係得到三個時間訊號。從源自AU 0之時間訊號之第二半部係相加於從AU 1所得到之時間訊號之第一半部。從AU 1所取得之時間訊號之第二半部係相加於從AU 2所得到之時間訊號之第一半部。基於此，三個接取單元在50%重疊之一例子中係提供二重疊-相加時間訊號，各具有2048個資料點。

之後，這二個重疊-相加之時間訊號被轉換至頻率域(例如藉由用快速傅立葉轉換或任何其他合適的轉換)，並得到第一、第二經上取樣頻譜，各具有1024個資料點。

在圖14中，再一次顯示本發明之裝置。

在本實施例中，經編碼音源訊號100係包含複數接取單元，其中顯示三個AU 0、AU 1、AU 2。這些接取單元被饋送至解多工器1，其係取得各別的核心訊號CS0、CS1、CS 2以及各別的參數以描述音源訊號P0、P1、P2之遺失部分。

核心訊號CS0、CS1、CS2係被傳送至上取樣器2，其係上取樣該等核心訊號並產生對應CS0之經上取樣頻譜US1、US2，對應CS1 之經上取樣頻譜US3、US4，以及對應CS2之經上取樣頻譜US5、US6。

另一方面，參數被饋送至參數轉換器3，其係得到被轉換參數cP0、cP1、cP2。

頻譜間隙填充處理器4係藉由使用對應的被轉換參數cP0、cP1、cP2而處理經上取樣頻譜US1、US2、US3、US4、US5、US6。

舉例而言，第一接取單元AU 0之第一經上取樣頻譜US1係藉由被轉換參數cP0之一第一子組而被處理，第一接取單元AU 0之第二經上取樣頻譜US2係藉由被轉換參數cP0之一第二子組而被處理。頻譜間隙填充處理器4之輸出係例如一音源訊號或一經轉碼音源訊號。

圖15係顯示本發明用以處理經編碼音源訊號100之主要步驟。

在一步驟1000中，從經編碼音源訊號100，或更精確的說，從經編碼音源訊號100之一接取單元中，產生或取得核心訊號與一組參數。

下面的步驟可以任意給定的順序或平行被執行。

核心訊號係在步驟1001中被上取樣，其係得到兩個時間連續的經上取樣頻譜。該等參數係在步驟1002中被轉換為被轉換參數並可應用於該經上取樣頻譜。

最後，經上取樣頻譜與被轉換參數(還有從經編碼音源訊號之接取單元得到之其他參數)係在步驟1003中進行處理。該處理之輸出係例如為一音源訊號而作為一時間訊號或一不同的經編碼及經轉碼音源訊號。

通常來說，經編碼音源訊號亦包含另外的參數以描述原有音源訊號並且以在經編碼音源訊號之解碼期間重現該等遺失部分。

本發明之處理技術對於在高頻(HF)合成期間之波封塑形(envelope shaping)而言，係例如有助於SBR邊資訊到IGF的轉換。額外的控制參數係指示高頻頻譜，其中不管波封塑形，雜訊音調比(noise to tonality ratio)係不匹配輸入訊號。此音源上的性質係在訊號中被觀察到，就如木管樂器或房間內的回響(reverberation)。在這些情形中，該等較高的頻率不是和諧的或高音調的，並且與較低頻率相比下，可被感知如噪音。

訊號中的共振峰係藉由使用在編碼器之一逆預估誤差濾波器(prediction error filter)而估測。逆濾波之一等級係依據匹配該等輸入訊號特徵而被決定。該等級係藉由SBR而訊號化。由於高頻頻譜中之波封塑形未有助於完全消減頻譜之音調，一預白化(pre-whitening)濾波器帶同不同等級的頻率相依啁啾因子(chirp factor)可被應用於線性預估誤差濾波器以達到共振峰平坦化(flattening of formants)。

這些異常訊號特徵係由SBR使用一逆濾波工具而被處理，同時IGF使用一白化工具。預先白化的程度係被映像至該等技術中的各別等級。

雖然一些方面已被說明於一裝置的內容中，但清楚的，這些方面亦代表對應方法之一說明，其中一方塊或裝置對應一方法步驟或一方法步驟之一特徵。類同地，描述於一方法步驟之內容中的多個方面亦代表一對應裝置之一對應方塊、項目或特徵之一說明。一些或全部的方法步驟可藉由(或使用)一硬體裝置來實行，例如一微處理器、一可編程電腦或一電子電路。在一些實施例中，一個或數個最重要的方法步驟可藉由這樣的裝置來實行。

此外，用以轉碼一SBR-經編碼音源訊號之裝置之多個方面可有效於用以解碼一SBR-經編碼音源訊號之裝置，反之亦然。同樣的原則係適用於對應方法。

以上所述僅為舉例性，而非為限制性者。任何未脫離本發明之精神與範疇，而對其進行之等效修改或變更，均應包含於後附之申請專利範圍中。

Claims

一種處理一經編碼音源訊號(100)之裝置，其中該經編碼音源訊號(100)係包含一序列接取單元(100’)，各接取單元包含具有一第一頻寬之一核心訊號(101)以及描述在該第一頻寬上之一頻譜之複數參數，該裝置包含：一解多工器(1)，用以從該經編碼音源訊號(100)之一接取單元(100’)產生該核心訊號(101)與一組該等參數(102)；一上取樣器(2)，用以上取樣該接取單元(100’)之該核心訊號(101)並輸出一第一經上取樣頻譜(103)與一時間連續之第二經上取樣頻譜(103’)，該第一經上取樣頻譜(103)與該第二經上取樣頻譜(103’)各具有與該核心訊號(101)之一相同內容並具有一第二頻寬，該第二頻寬大於該核心頻譜(101)之該第一頻寬；一參數轉換器(3)，用以轉換該接取單元(100’)之該組參數(102)之參數以得到可應用於第一經上取樣頻譜(103)與該第二經上取樣頻譜之被轉換參數(104、104’)；以及一頻譜間隙填充處理器(4)，用以藉由使用該等被轉換參數(104)而處理該第一經上取樣頻譜(103)與該第二經上取樣頻譜(103’)。
如申請專利範圍第1項所述之裝置，其中該上取樣器(2)係用多個零點填充該核心訊號(101)之一頻譜之一上部並且從該核心訊號(101)之該被填充頻譜(110)得到該第一經上取樣頻譜(103’)與該第二經上取樣頻譜(103’)。
如申請專利範圍第1項所述之裝置，其中該上取樣器(2)係額外使用緊接在該接取單元(100’)之前之一接取單元(100”)之一核心訊號而上取樣該接取單元(100’)之該核心訊號(101)。
如申請專利範圍第1項所述之裝置，其中該上取樣器(2)係用以收集一第一數量之時間連續接取單元(100’、100”、100''')之核心訊號(101)，並且以一非整數之上取樣率而從該等核心訊號(101)處理一第二數量之經上取樣頻譜(103)，其中該第一數量係為該上取樣率之一分母且該第二數量係為該上取樣率之一分子。
如申請專利範圍第1項所述之裝置，其中該參數轉換器(3)係用以轉換關於時間連續之時隙之一第一部分之該組參數(102)之一第一子組參數，並且轉換關於該等時隙之一第二部分之該組參數(102)之一第二子組，該第二部分係時間連續於該第一部分；以及其中，該頻譜間隙填充處理器(4)係以該第一經上取樣頻譜(103)處理一第一被轉換子組參數(104)，並以該第二經上取樣頻譜(103’)處理一第二被轉換子組參數(104’)。
如申請專利範圍第1項所述之裝置，其中該轉換器(3)係用以藉由使用一給定縮放因子來縮放這些參數值而將與該組參數(102)之能量值有關之參數轉換為可被該頻譜間隙填充處理器(4)使用之能量值。
如申請專利範圍第6項所述之裝置，其中該轉換器(3)係用以萃取與該接取單元(100’)相關之一窗函數有關之一資訊，並且該轉換器(3)係用以依據該窗函數調整該縮放因子。
如申請專利範圍第1項所述之裝置，其中該轉換器(3)係用以藉由插入一延遲補償而偏移該組參數(102)之參數。
如申請專利範圍第1項所述之裝置，其中該上取樣器(2)係用以藉由內插該核心訊號(101)之值而上取樣(20)該核心訊號(101)。
如申請專利範圍第1項所述之裝置，其中該上取樣器(2)係使用零點來填充該先前接取單元(100”)之該核心訊號之一頻譜，其中該上取樣器(2)係使用零點來填充該接取單元(100’)之該核心訊號之一頻譜，其中該上取樣器(2)係用以執行該接取單元(100’)之該被填充頻譜與該先前接取單元(100”)之該被填充頻譜之一逆轉換(21)，以及其中該上取樣器(2)係用以針對該先前接取單元(100”)之該被填充頻譜以及該接取單元(100’)之該被填充頻譜執行一時域訊號之一重疊-相加，以得到一中間時間訊號(111)。
如申請專利範圍第10項所述之裝置，其中該上取樣器(2)係使用該中間時間訊號(111)之一第一部而執行一前轉換以得到該第一經上取樣頻譜(103)，以及其中該上取樣器(2)係用以使用該中間時間訊號(111)之一第二部而執行一前轉換以得到該第二經上取樣頻譜(103’)，其中該第一部重疊第二部。
如申請專利範圍第1項所述之裝置，其中該上取樣器(2)係用以上取樣該核心訊號(101)以得到一經上取樣核心訊號(110)，其中該上取樣器(2)係用以在該經上取樣核心訊號(110)上執行一逆轉換(21)以得到一時域訊號(111)，以及其中該上取樣器(2)係藉由應用一轉換(22、23)而處理該時域訊號(111)以得到該第一經上取樣頻譜(103)以及在時間上連續之該第二經上取樣頻譜(103’)，其中該逆轉換(21)係為該轉換之一逆轉換。
如申請專利範圍第12項所述之裝置，其中該逆轉換係為一逆改進離散餘弦轉換並且該轉換為一改進離取餘弦轉換。
如申請專利範圍第1項所述之裝置，其中該頻譜間隙填充處理器(4)係使用該等被轉換參數(104、104’)而解碼該第一經上取樣頻譜(103)與該第二經上取樣頻譜(103’)以得到一時域輸出訊號(300)。
如申請專利範圍第14項所述之裝置，其中該頻譜間隙填充處理器(4)係將該等被轉換參數(104)之一第一部應用於該第一經上取樣頻譜(103)以得到一第一被處理頻譜，並且將該等被轉換參數(104’)之一第二部應用於該第二經上取樣頻譜(103’)以得到一第二被處理頻譜。
如申請專利範圍第1項所述之裝置，其中該頻譜間隙填充處理器(4)係包含一頻譜轉換器(7)以將該第一被處理頻譜與該第二被處理頻譜轉換為一時域，以及其中該頻譜間隙填充處理器(4)包含一聲音加法器(9)以重疊-相加至少二輸出時間訊號以得到一音源訊號(300)。
如申請專利範圍第1項所述之裝置，其中該頻譜間隙填充處理器(4)係產生具有一第一接取單元與一第二接取單元之一頻譜間隙填充經編碼訊號，其中該第一接取單元包含該第一經上取樣頻譜之一被轉換版本與該被轉換參數之一第一部，並且該第二接取單元包含該第二經上取樣頻譜之一被轉換版本與該被轉換參數之一第二部。
如申請專利範圍第1項所述之裝置，其中該頻譜間隙填充處理器(4)係產生具有一第一接取單元與一第二接取單元之一輸出資料流。
如申請專利範圍第1項所述之裝置，其中該頻譜間隙填充處理器(4)係使用該等被轉換參數(104、104’)而處理該第一經上取樣頻譜(103)與該第二經上取樣頻譜(103’)以得到二經轉碼接取單元，以及其中該頻譜間隙填充處理器(4)係相加該等二經轉碼接取單元以得到一經轉碼音源訊號(200)。
如申請專利範圍第19項所述之裝置，其中該經轉碼音源訊號(200)係為一IGF經編碼音源訊號(200)。
如申請專利範圍第1項所述之裝置，其中該經編碼音源訊號(100)係為一SBR經編碼音源訊號(100)。
一種處理一經編碼音源訊號(100)之方法，其中該經編碼音源訊號(100)係包含一序列接取單元(100’)，各接取單元包含具有一第一頻寬之一核心訊號(101)以及描述在該第一頻寬上之一頻譜之複數參數，該方法包含：從該經編碼音源訊號(100)之一接取單元(100’)產生該核心訊號(101)與一組該等參數(102)；上取樣該接取單元(100’)之該核心訊號(101)並輸出一第一經上取樣頻譜(103)與一時間連續之第二經上取樣頻譜(103’)，該第一經上取樣頻譜(103)與該第二經上取樣頻譜(103’)各具有與該核心訊號(101)之一相同內容並具有一第二頻寬，該第二頻寬大於該核心頻譜(101)之該第一頻寬；轉換該接取單元(100’)之該組參數(102)之參數以得到可應用於第一經上取樣頻譜(103)與該第二經上取樣頻譜之被轉換參數(104)；以及藉由使用該等被轉換參數(104)而處理該第一經上取樣頻譜(103)與該第二經上取樣頻譜(103’)。
一種電腦可讀取之媒體，其上儲存有一電腦程式用於在一電腦或一處理器上運行時用於執行如申請專利範圍第22項所述之方法。