TWI498881B

TWI498881B - 使用適應性混成轉換之多聲道音訊編碼位元串流的改良解碼技術

Info

Publication number: TWI498881B
Application number: TW099137944A
Authority: TW
Inventors: Kamalanathan Ramamoorthy
Original assignee: Dolby Lab Licensing Corp
Priority date: 2009-12-07
Filing date: 2010-11-04
Publication date: 2015-09-01
Also published as: CN104217724B; PL2510515T3; CA2779453C; PT2510515E; CN102687198A; IL219304A; IL219304A0; EP2706529A2; JP5547297B2; HRP20140400T1; US9620132B2; MY161012A; CL2012001493A1; SI2510515T1; UA100353C2; US20150030161A1; EP2801975A1; AU2010328635B2; AP3301A; MA33775B1

Description

使用適應性混成轉換之多聲道音訊編碼位元串流的改良解碼技術

相關申請案之交互參照

本申請案主張2009年12月7日提出的美國臨時專利申請案第61/267,422號案之優先權，其全部內容納入本文作為參考資料。

技術領域

本發明係大體有關於音訊編碼系統且更特定地有關於對已編碼之數位音訊信號進行解碼之方法及裝置。

背景技術

由團體合作聯合委員會(JCIC)之成員組織成立的美國先進電視系統委員會(ATSC)公司開發出用於美國本地電視服務發展之一套協調一致的國家標準。包括相關音訊編碼/解碼標準之此等標準在多個文件中被提出，該等多個文件包括2005年6月14日出版的名稱為“Digital Audio Compression Standard(AC-3,E-AC-3)”之文件A/52B(修訂版B)，其全部內容納入本文作為參考資料。文件A/52B中指定之音訊編碼演算法稱為“AC-3”。描述在此文件之附件E中之此演算法之一加強版稱為“E-AC-3”。此兩個演算法在本文中稱為“AC-3”且相關標準在本文中稱為“ATSC標準”。

該A/52B文件未指定演算法設計之很多層面，而描述了一“位元串流語法”，其定義了一相容解碼器一定能夠解碼之編碼資訊之結構與語法特徵。符合該等ATSC標準之很多應用將編碼數位音訊資訊發送為以一串行方式之二進制資料。因此，該編碼資料通常指的是一位元串流，但其它資料安排也是允許的。為了便於討論，用語“位元串流”在本文中用來指一編碼數位音訊信號，而不管採用何種格式、記錄或傳輸技術。

符合該等ATSC標準之一位元串流以一連串“同步訊框”之形式排列。每一訊框是位元串流的一單元，其能夠被完全解碼成脉衝編碼調變(PCM)數位音訊資料之一個或多個聲道。每一訊框包括“音訊區塊”及與該等音訊區塊有關之訊框元資料。該等音訊區塊各包含表示一個或多個音訊聲道之數位音訊樣本之編碼音訊資料及與該編碼音訊資料有關之區塊元資料。

儘管演算法設計之細節在該等ATSC標準中未被指定，但某些演算法特徵已被專用解碼裝置與消費解碼裝置之製造商廣泛採用。可解碼由E-AC-3編碼器產生之增強型AC-3位元串流之解碼器之一實施態樣之一個普遍特徵是一演算法，該演算法在解碼另一聲道之資料之前解碼一訊框中針對一各別聲道之所有編碼資料。此方法已用來提高具有很小晶片內記憶體之單晶片處理器之實施性能，因為一些解碼過程需要從一訊框中之多個音訊區塊之每一者得到一指定聲道之資料。透過以聲道順序處理編碼資料，對於一特定聲道，解碼操作可利用晶片內記憶體執行。該解碼聲道資料可隨後轉移到晶片外記憶體來為下一聲道空出晶片內資源。

符合該等ATSC標準之一位元串流可能很複雜，因為可能有大量變化。本文只簡略提及之一些範例包括關於標準AC-3位元串流、多個獨立串流、獨立子串流之聲道耦接、聲道重新矩陣化、對話歸一、動態範圍壓縮、聲道下混與區塊長度轉換及關於增強型AC-3位元串流之頻譜擴展及適應性混成轉換。此等特徵之細節可自該A/52B文件獲得。

透過獨立處理每一聲道，此等改變所需的該等演算法可遭簡化。隨後可不考慮此等改變來執行如合成過濾之複雜處理。較簡單的演算法似乎提供了一優勢：減少處理一音訊資料訊框所需的計算資源。

遺憾的是，此方法要求該解碼演算法讀取及檢查所有音訊區塊中之資料兩次。每次重複讀取及檢查一訊框中之音訊區塊資料在本文中稱為“通過(pass)”該等音訊區塊。該第一次通過執行大量計算以確定每一區塊中之編碼音訊資料之位置。當該第二次通過執行解碼過程時，其執行很多與該第一次執行的此等計算相同的計算。兩次通過都需要相當多的計算資源來計算該等資料位置。如果該最初通過可消除，則可能減少解碼一音訊資料訊框所需的總處理資源。

本發明之揭露

本發明之一目的是減少解碼以如上所提及之訊框與音訊區塊之分層單元排列之編碼位元串流中之一音訊資料訊框所需之計算資源。以上文字及以下揭露涉及符合該等ATSC標準之編碼位元串流，但本發明不局限於僅此等位元串流之用途。本發明之原理基本上可應用於具有類似於在AC-3編碼演算法中使用之該等訊框、區塊及聲道之結構特徵之任一編碼位元串流。

根據本發明之一個層面，一種方法透過以下方式解碼一編碼數位音訊信號之一訊框：接收該訊框及在一單次通過中檢查該編碼數位音訊信號以解碼按區塊排序的每一音訊區塊之編碼音訊資料。每一訊框包含訊框元資料及多個音訊區塊。每一音訊區塊包含區塊元資料及一個或多個音訊聲道之編碼音訊資料。該區塊元資料包含控制資訊，該控制資訊描述產生該編碼音訊資料之一編碼過程利用之編碼工具。該等編碼工具中之一者是混成轉換處理，其將由一初級轉換實施之一分析濾波器組應用到該一個或多個音訊聲道以產生表示該一個或多個音訊聲道之頻譜內容之頻譜係數，且將一次級轉換應用到針對該一個或多個音訊聲道中之至少一些音訊聲道之該等頻譜係數以產生混成轉換係數。解碼每一音訊區塊確定該編碼過程是否利用適應性混成轉換處理來編碼任一編碼音訊資料。如果該編碼過程利用適應性混成轉換，則該方法自該訊框中之第一音訊區塊中之編碼音訊資料獲得該訊框之所有混成轉換係數，及將一反向次級轉換應用到該等混成轉換係數以獲得反向次級轉換係數，及自該等反向次級轉換係數獲得頻譜係數。如果該編碼過程未利用適應性混成轉換處理，則自該各別音訊區塊中之該編碼音訊資料獲得頻譜係數。將一反向初級轉換應用到該等頻譜係數以產生表示該各別音訊區塊中之該一個或多個聲道之一輸出信號。

本發明之各種特徵及其較佳實施例可透過參照以下討論及附圖得到更好的理解，在附圖中相同的參考數字指相同的元件。以下討論及該等圖式中之內容僅以範例方式提出且不應當理解為表示對本發明之範圍之限制。

圖式簡單說明

第1圖是一編碼器之示範性實施態樣之一示意性方塊圖。

第2圖是一解碼器之示範性實施態樣之一示意性方塊圖。

第3A圖與第3B圖是符合標準及增強型語法結構之位元串流中之訊框之示意性說明。

第4A圖與第4B圖是符合標準及增強型語法結構中之音訊區塊之示意性說明。

第5A圖到第5C圖說明了攜帶具有程式與聲道擴展的資料之位元串流之示意性說明。

第6圖是由按聲道順序處理編碼音訊資料之一解碼器實施之一示範性過程之示意性方塊圖。

第7圖是由按區塊順序處理編碼音訊資料之一解碼器實施之一示範性過程之示意性方塊圖。

第8圖是可用來實施本發明之各種層面之一裝置之示意性方塊圖。

本發明之實施方式 A.編碼系統概述

第1圖及第2圖是一音訊編碼系統之一編碼器及一解碼器之示範性實施態樣之示意性方塊圖，在該音訊編碼系統中，該解碼器可包含本發明之各個層面。此等實施態樣符合以上引用之A/52B文件中所揭露的內容。

該編碼系統之目的是產生輸入音訊信號之一編碼表示型態同時利用最小數量的數位資訊表示該編碼信號，輸入音訊信號之該編碼表示型態可遭記錄或傳輸及隨後解碼以產生聽起來與該等輸入音訊信號基本相同之輸出音訊信號。符合基本ATSC標準之編碼系統能夠編碼及解碼可表示音訊信號之從一個聲道到所謂的5.1個聲道之資訊，其中5.1可理解為表示能夠傳輸全頻寬信號之5個聲道及用來傳輸低頻音效(LFE)信號之一個有限頻寬聲道。

以下小節描述該編碼器及該解碼器之實施態樣，及編碼位元串流結構及相關編碼及解碼過程之一些細節。提供此等描述使得本發明之各個層面可更簡潔地描述及更清楚地理解。

1.編碼器

參照第1圖中之該示範性實施態樣，該編碼器自輸入信號線路1接收表示音訊信號之一個或多個聲道之一序列脉衝編碼調變(PCM)樣本，及將一分析濾波器組2應用到該序列樣本以產生表示該等輸入音訊信號之頻譜成分之數位值。對於符合該等ATSC標準之實施例，該分析濾波器組由該A/52B文件中描述之一修改型離散餘弦轉換(MDCT)實施。該MDCT被應用於針對音訊信號之每一輸入聲道之樣本之重疊段或區塊重疊以產生表示該輸入聲道信號之頻譜成分之轉換係數區塊。該MDCT是一分析/合成系統之部分，其利用特意設計的視窗函數及重疊/相加過程消除時域混疊。每一區塊中之轉換係數以包含浮點型指數與尾數之一區塊浮點(BFP)形式表示。因為此表示形式用在符合該等ATSC標準之位元串流中，此描述涉及表示為浮點型指數與尾數之音訊資料；然而，此特定表示只是利用比例因數及相關縮放值之數值表示之一個範例。

每一區塊之該等BFP指數共同提供該輸入音訊信號的一恰當頻譜包絡。此等指數由差異調變及其它編碼技術編碼來減少資訊需要量，傳送到格式器5並輸入到一心理聲學模型以估計正被編碼之該信號之心理聲學聽覺遮蔽臨界值。來自該模型之結果由位元分配器3使用來以一方式分配位元形式之數位資訊以量化該尾數，使得由量化產生之雜訊之位準遭保持低於該正被編碼之信號之該心理聲訊遮蔽臨界值。量化器4根據接收自位元分配器3且傳送到格式器5之該等位元分配量化該等尾數。

格式器5將該等編碼指數、該等量化尾數及其它控制資訊多工或組裝成音訊區塊，該其它控制資訊有時稱為區塊元資料。六個連續音訊區塊之資料組裝成數位資訊單元，稱為訊框。該等訊框本身還包含控制資訊或訊框元資料。關於連續訊框之編碼資訊沿著線路6作為一位元串流輸出供記錄在一資訊儲存媒體上或者供沿著一通訊聲道傳輸。對於符合該等ATSC標準之編碼器，該位元串流中之每一訊框之格式符合該A/52B文件中規定的語法。

由符合該等ATSC標準之典型編碼器使用之該編碼演算法比第1圖中說明及以上描述之編碼演算法更複雜。例如，錯誤檢測碼插入到該等訊框中以允許一接收解碼器驗證該位元串流有效。稱為區塊長度轉換(有時更簡潔地稱為區塊轉換)之一編碼技術可用來改變該分析濾波器組之時間及頻譜解析度以藉由改變信號特性來最佳化其性能。該浮點型指數可利用可變的時間及頻率解析度編碼。兩個或更多聲道可利用稱為聲道耦合之一編碼技術組合成一複合表示型態。稱為聲道重新矩陣化之另一編碼技術可適應性地用於雙聲道音訊信號。可使用本文未提及之其它編碼技術。此等其它編碼技術之一些在下文予以討論。很多實施細節被省略，因為它們不是理解本發明所必需的。此等細節可根據需要自該A/52B文件獲取。

2.解碼器

該解碼器執行實質上與該編碼器中執行之該編碼演算法相反的一解碼演算法。參照第2圖中之示範性實施態樣，解碼器自輸入信號線路11接收表示一序列訊框之一編碼位元串流。該編碼位元串流可自一資訊儲存媒體擷取或者自一通訊聲道接收。解格式器12將每一訊框之該編碼資訊解多工或解組裝成訊框元資料及六個音訊區塊。該等音訊區塊被解組裝成它們各自的區塊元資料、編碼指數及量化尾數。該等編碼指數由一位元分配器13中之一心理聲學模型使用，來以與該編碼器中之位元被分配之方式相同的方式分配位元形式之數位資訊以對該等量化尾數進行解量化。解量化器14根據自位元分配器13接收之該等位元分配對該等量化尾數進行解量化且將該等解量化尾數傳送到合成濾波器組15。該等編碼的指數遭解碼且傳送到合成濾波器組15。

該等解碼指數與解量化尾數構成由該編碼器編碼之輸入音訊信號之頻譜內容之一BFP表示型態。合成濾波器組15應用於頻譜內容之表示型態以重建該原始輸入音訊信號之一不精確複製品，其沿著輸出信號線路16傳送。關於符合該等ATSC標準之實施例，該合成濾波器組由該A/52B文件中描述之一修改型離散餘弦反轉換(IMDCT)實施。該IMDCT是以上簡單提及之一分析/合成系統之部分，其應用於轉換係數之區塊以產生重疊及相加之音訊樣本區塊來消除時域混疊。

由符合該等ATSC標準之典型解碼器利用之該解碼演算法比第2圖中說明及以上所述之解碼演算法更複雜。與以上描述之該等編碼技術相反的一些解碼技術包括，用於錯誤糾正或錯誤隱藏之錯誤檢測、用以改變該合成濾波器組之時間與頻譜解析度之區塊長度轉換、用以自耦合成之複合表示型態恢復聲道資訊之聲道去耦合、及用於恢復重新矩陣化雙聲道表示型態之矩陣運算。關於其它技術及額外細節之資訊可根據需要自A/52B文件獲得。

B.編碼位元串流結構 1.訊框

符合該等ATSC標準之一編碼位元串流包含稱為“同步訊框”之一序列編碼資訊單元，有時更簡單地稱為訊框。如上所提及，每一訊框包含訊框元資料及六個音訊區塊。每一音訊區塊包含區塊元資料及音訊信號之一個或多個聲道之一並行區間之編碼BFP指數與尾數。該標準位元串流之結構示意性地繪示在第3A圖中。如A/52B文件之附件E中所述之一增強型AC-3位元串流之結構繪示在第3B圖中。每一位元串流之從SI到CRC之標記區間內的部分是一個訊框。

一特殊位元型樣或同步字包括在提供於每一訊框之開始之同步資訊(SI)中，使得一解碼器可識別一訊框之開始及保持其解碼過程與該編碼位元串流同步。緊跟該SI之後的一位元串流資訊(BSI)段攜帶解碼該訊框之解碼演算法所需的參數。例如，該BSI指定由該訊框中之編碼資訊表示之聲道的數目、類型及順序及由該解碼器利用之動態範圍壓縮及對話歸一資訊。每一訊框包含六個音訊區塊(AB0到AB5)，必要時它們後面可跟隨輔助(AUX)資料。以循環冗餘檢查(CRC)字形式之錯誤檢測資訊提供在每一訊框末尾。

該增強型AC-3位元串流中之一訊框還包含音訊訊框(AFRM)資料，其含有與在編碼一標準位元串流中不可用之額外編碼技術有關之旗標及參數。該等額外技術中之一些包括利用頻譜擴展(SPX)(還稱為一頻譜複製)及適應性混成轉換(AHT)。下面討論各種編碼技術。

2.音訊區塊

每一音訊區塊包含256個轉換係數之BFP指數與量化尾數之編碼表示型態及解碼該等編碼指數及量化尾數所需的區塊元資料。此結構示意性地繪示在第4A圖中。該A/52B文件之附件E中所述之一增強型AC-3位元串流中之音訊區塊之結構繪示在第4B圖中。該A/52B文件之附件D中所述之該位元串流之一替代形式之一音訊區塊結構在此未作討論，因為其獨特特徵與本發明無關。

區塊元資料之一些範例包括用於區塊轉換(BLKSW)、動態範圍壓縮(DYNRNG)、聲道耦合(CPL)、聲道重新矩陣化(REMAT)、用來編碼BFP指數之指數編碼技術或策略(EXPSTR)、該等編碼BFP指數(EXP)、關於尾數之位元分配(BA)資訊、稱為差異位元分配(DBA)之位元分配調整資訊及該量化尾數(MANT)之旗標及參數。一增強型AC-3位元串流中之每一音訊區塊可包含關於包括頻譜擴展(SPX)之額外編碼技術之資訊。

3.位元串流限制

該等ATSC標準將一些限制強加於與本發明有關之該位元串流之內容。本文提及兩個限制：(1)稱為AB0之該訊框中之第一音訊區塊必須包含該解碼演算法開始解碼該訊框中之所有該等音訊區塊所需的所有資訊，及(2)無論何時該位元串流開始傳輸藉由聲道耦合產生的編碼資訊，最先利用該聲道耦合之該音訊區塊必須包含去耦合所需的所有參數。下面討論此等特徵。關於本文未作討論之其它過程之資訊可自該A/52B文件獲取。

C.標準編碼過程及技術

該等ATSC標準根據可用來產生一編碼位元串流之編碼過程或“編碼工具”描述多個位元串流語法特徵。一編碼器不需要使用所有該等編碼工具，但符合該標準之一解碼器必須能夠回應於被認為因相容而必不可少之該等編碼工具。此回應透過執行本質上與該相應編碼工具相反之一恰當解碼工具而實施。

該等解碼工具之一些與本發明尤其相關，因為利用或者少利用它們影響應當如何實施本發明之層面。一些解碼過程及一些解碼工具簡要地描述於以下段落中。下列描述不意欲是一完整描述。各種細節及可取捨的特徵被省略。該等描述只用來將一高級介紹提供給對該等技術不熟悉之人及用來更新已忘記此等用語所描述之技術之人之記憶。

必要時，額外細節可自該A/52B文件及自Davis等人於1996年12月10日提出之名稱為“Encoder/Decoder for Multi-Dimensional Sound Fields”之美國專利第5,583,962號案獲取且全部內容納入本文作為參考資料。

1.位元串流解包

所有的解碼器必須解包或解多工該編碼位元串流以獲得參數及編碼資料。此過程由以上討論之解格式器12表示。此過程本質上是讀取該輸入位元串流中之資料且將該位元串流之多個部分複製到暫存器中、將多個部分複製到記憶體位置中或者將儲存於該位元串流中之資料之指標或其它標記儲存在一緩衝器中之一個過程。記憶體需要儲存該資料及指標且可在儲存此資訊以日後使用或當需要時再讀該位元串流以獲取該資訊之間做一取捨。

2.指數解碼

需要所有BFP指數之值解包每一訊框之該等音訊區塊中之資料，因為此等值間接指出分配給該等量化尾數之位元數目。然而，該位元串流中之該等指數值可由在時間與頻率二者中應用之不同編碼技術編碼。因此，表示該等編碼指數之資料必須自該位元串流解包且在它們可用於其它解碼過程之前解碼。

3.位元分配處理

該位元串流中之該等量化BFP尾數各由一變化位元數目表示，該變化位元數目是該等BFP指數及包含在該位元串流中之可能的其它元資料的一函數。該等BFP指數輸入到為每一尾數計算一位元分配之一指定模型。如果一音訊區塊還包含差異位元分配(DBA)資訊，此附加資訊用來調整該模型計算的該位元分配。

4.尾數處理

該等量化BFP尾數構成一編碼位元串流中之資料之大部分。該位元分配用以確定供解包的該位元串流中之每一尾數之位置及用以選擇恰當的解量化函數以獲得解量化尾數。該位元串流中之某些資料可用一單一值表示多個尾數。在此情況下，可自該單一值得出恰當數目之尾數。具有一分配等於零之尾數可用等於零之一值再現或以一偽隨機數再現。

5.聲道去耦合

該聲道耦合編碼技術允許一編碼器用較少資料表示多個音訊聲道。該技術將來自兩個或更多選定聲道(稱為被耦合聲道)之頻譜成分組合以形成複合頻譜成分之一單一聲道，稱為耦合聲道。該耦合聲道之頻譜成分以BFP格式表示。描述該耦合聲道與每一被耦合聲道之間的能量差之一組比例因數(稱為耦合坐標)是針對該等被耦合聲道中之每一者而得出且包括在該編碼位元串流中。耦合只用於每一聲道之頻寬之一指定部分。

當利用聲道耦合時，如由該位元串流中之參數指出，一解碼器利用稱為聲道去耦合之一解碼技術由該耦合聲道之該頻譜成分及該耦合坐標得出每一被耦合聲道之該等BFP指數及尾數之一不精確複製品。這透過將每一被耦合聲道頻譜成分乘以該恰當耦合坐標完成。其它細節可自該A/52B文件獲得。

6.聲道重新矩陣化

該聲道重新矩陣化編碼技術透過將兩個獨立的音訊聲道轉變為和聲道及差聲道來允許一編碼器用較少資料表示雙聲道信號。通常包裝入左音訊聲道及右音訊聲道之一位元串流中的該BFP指數及尾數改為表示該和聲道及該差聲道。此技術利於在兩個聲道具有高度相似性時使用。

當利用重新矩陣化時，如由該位元串流中之一旗標指出，一解碼器透過將一恰當矩陣應用於該和值及差值來獲得表示該兩個音訊聲道之值。額外細節可自該A/52B文件獲取。

D.增強型編碼過程及技術

該A/52B之附件E描述了允許利用其它編碼工具之該增強型AC-3位元串流語法之特徵。一些此等工具及相關過程在下文簡要描述。

1.適應性混成轉換處理

該適應性混成轉換(AHT)編碼技術回應於改變信號特性透過應用兩個級聯轉換提供除了用以改變該分析及合成濾波器組之該時間及頻譜解析度之區塊轉換外的另一工具。關於AHT處理之額外資訊可自該A/52B文件及Vinton等人於2009年4月7日提出之名稱為“Adaptive Hybrid Transform for Signal Analysis and Synthesis”之美國專利第7,516,064號案獲取，且全部內容納入本文作為參考資料。

編碼器利用由以上所提及之該MDCT分析轉換實施之一初級轉換，該初級轉換在由一型式2離散餘弦轉換(DCT-II)實施之一次級轉換之前且與其級聯。該MDCT應用於音訊信號樣本之重疊區塊以產生表示該音訊信號之頻譜內容之頻譜係數。該DCT-II可根據需要接入及接出該信號處理路徑，當接入時，其應用於表示相同頻率之MDCT頻譜係數之非重疊區塊以產生混成轉換係數。在通常使用下，該DCT-II在當該輸入音訊信號視為足夠穩定時接出，因為該DCT-II之使用藉由降低其有效時間解析度而將該分析濾波器組之有效頻譜解析度從256個樣本顯著增加到1536個樣本。

解碼器利用以上提及之該IMDCT合成濾波器組實施之一反向初級轉換，該反向初級轉換在由一型式2反向離散餘弦轉換(IDCT-II)實施之一反向次級轉換之後且與其級聯。該IDCT-II根據該編碼器提供之元資料接入及接出該信號處理路徑。當接入該信號處理路徑中時，該IDCT-II應用於混成轉換係數之非重疊區塊以獲取反向次級轉換係數。如果未使用其它編碼工具，諸如聲道耦合或SPX，則該等反向次級轉換係數可以是直接輸入到IMDCT之頻譜係數。可選擇地，如果利用了諸如聲道耦合或SPX之編碼工具，該等MDCT頻譜係數可以由該等反向次級轉換係數得出。在獲得該等MDCT頻譜係數之後，該IMDCT以一傳統方式應用於該等MDCT頻譜係數區塊。

該AHT可用在任一音訊聲道上，包括該耦合聲道及該LFE聲道。利用該AHT編碼之一聲道使用一可選擇的位元分配過程及兩種不同類型之量化。一種類型是向量量化(VQ)及第二種類型是增益適應性量化(GAQ)。GAQ技術在Davidson等人於2001年6月12日提出之名稱為“Using Gain-Adaptive Quantization and Non-Uniform Symbol Lengths for Improved Audio Coding”之美國專利第6,246,345號案中予以討論且全部內容納入本文作為參考資料。

使用該AHT需要一解碼器自包含在該編碼位元串流中之資訊得出若干參數。該A/52B文件描述如何計算此等參數。一組參數指定BFP指數在一訊框中遭攜帶之次數且透過檢查包含在一訊框中之所有音訊區塊中之元資料得出。另外兩組參數識別哪些BFP尾數利用GAQ量化及提供該等量化器之增益控制字且透過檢查一音訊區塊中一聲道之元資料而得出。

用於AHT之所有該等混成轉換係數攜帶於一訊框之第一音訊區塊AB0中。如果該AHT應用於一耦合聲道，則該等AHT係數之耦合坐標以與未經AHT之被耦合聲道相同之方式分佈於所有該等音訊區塊中。用於處理此情況之一過程描述於下文。

2.頻譜擴展處理

頻譜擴展(SPX)編碼技術藉由排除該編碼位元串流中的高頻頻譜成分及使該解碼器合成該編碼位元串流中包含之較低頻頻譜成分中的丟失的頻譜成分來允許一解碼器減少解碼一全頻寬聲道所需的資訊量。

當利用SPX時，該解碼器透過將較低頻MDCT係數複製到高頻MDCT係數位置、將偽隨機值或雜訊加到該複製的轉換係數且根據該編碼位元串流中包括之一SPX頻譜包絡縮放幅度來合成丟失的頻譜成分。無論何時利用該SPX編碼工具，該編碼器計算該SPX頻譜包絡且將其插入到該編碼位元串流中。

該SPX技術典型地用於合成一聲道之最高頻帶之頻譜成分。對於一中間頻率範圍，其可以和聲道耦合一起利用。處理之額外細節可自該A/52B文件獲取。

3.聲道及程式擴展

該增強型AC-3位元串流語法允許一編碼器產生一編碼位元串流，該編碼位元串流表示具有多於5.1聲道之一單一程式(聲道擴展)、具有高達5.1聲道之兩個或更多程式(程式擴展)或者具有高達5.1聲道與多於5.1聲道之多個程式之一組合。程式擴展由對一編碼位元串流中針對多個獨立資料串流之訊框多工而實施。聲道擴展由對與一獨立資料串流有關之一個或多個相依資料子串流之訊框多工而實施。在關於程式擴展之較佳實施例中，一解碼器被告知要解碼哪一程式或哪些程式及該解碼過程跳過或實質上忽略表示未解碼之程式之串流或子串流。

第5A圖到第5C圖繪示具有程式與聲道擴展攜帶資料之位元串流之三個範例。第5A圖說明了具有聲道擴展之一示範性位元串流。一單一程式P1由一獨立串流S0及三個相伴應子串流SS0、SS1及SS2表示。緊接在獨立串流S0之一訊框Fn之後的是該等相伴應子串流SS0到SS3之每一者之訊框Fn。此等訊框之後是獨立串流S0之下一訊框Fn+1，其之後緊接著依次是相伴應子串流SS0到SS2之每一者之訊框Fn+1。該增強型AC-3位元串流語法容許每一獨立串流有多達8個獨立子串流。

第5B圖說明了具有程式擴展之一示範性位元串流。四個程式P1、P2、P3及P4各分別由獨立串流S0、S1、S2及S3表示。緊跟獨立串流S0之一訊框Fn之後的是獨立串流S1、S2及S3中之每一者之訊框Fn。此等訊框之後是該等獨立串流中之每一者之下一訊框Fn+1。該增強型AC-3位元串流語法必須具有至少一個獨立串流且容許具有多達8個獨立串流。

第5C圖說明了具有程式擴展與聲道擴展之一示範性位元串流。程式P1由獨立串流S0中之資料表示，及程式P2由獨立串流S1及相伴應獨立子串流SS0及SS1中之資料表示。緊跟獨立串流S0之一訊框Fn之後是獨立串流S1之訊框Fn，其之後緊接著依次是該等相伴應獨立子串流SS0及SS1之訊框Fn。此等訊框之後是該獨立串流與相依子串流中之每一者之下一訊框Fn+1。

未經聲道擴展之一獨立串流包含可表示高達5.1個獨立音訊聲道之資料。具有聲道擴展之一獨立位元串流，或者換言之具有一個或多個相伴應相依子串流之一獨立串流包含表示對該程式之所有聲道進行一5.1聲道下混之資料。用語“下混”指的是多個聲道組合成較少數目聲道。這么做是為與不解碼該等相依子串流之解碼器相容。該等相依子串流包含表示替換或補充該相伴應獨立串流中攜帶之該等聲道之聲道之資料。聲道擴展就一程式而言容許多達14個聲道。

位元串流語法之其它細節及相關處理可自該A/52B文件獲得。

E.區塊優先性處理

需要複雜邏輯來處理及恰當地解碼當編碼工具之各種組合用來產生編碼位元串流時該位元串流結構中出現之很多變化。如以上所提及，演算法設計的細節未在該等ATSC標準中指定，但E-AC-3解碼器的習知實施態樣之一普遍特徵是一演算法，該演算法在解碼另一聲道的資料之前解碼用於一各別聲道的一訊框中的所有資料。此傳統方法減少了解碼該位元串流所需的晶片內記憶體的數量，但其也需要多次通過每一訊框中的資料以讀取及檢查該訊框中之所有音訊區塊中之資料。

第6圖中示意性地說明了該傳統方法。元件19剖析從線路1接收之一編碼位元串流中之訊框且回應於自線路20接收之控制信號從該等訊框中擷取資料。該剖析透過多次通過該訊框資料完成。從一個訊框擷取出的資料由元件19下面的方框表示。例如，具有標記AB0-CH0之該方框表示在音訊區塊AB0中之用於聲道0之擷取資料，及具有標記AB5-CH2之該方框表示在音訊區塊AB5中之用於聲道2之擷取資料。為了簡化該等圖式，只說明了三個聲道0到2及三個音訊區塊0、1及5。元件19還沿著線路20將從訊框元資料中獲得之參數傳遞到聲道處理元件31、32及33。在該等資料方框左側之該等信號線路及旋轉開關表示由該等傳統解碼器執行以按照聲道順序處理編碼音訊資料之邏輯。處理聲道元件31經由旋轉開關21接收針對以音訊區塊AB0開始且以音訊區塊AB5結束的聲道CH0之編碼音訊資料及元資料、解碼該資料及透過將一合成濾波器組應用於該解碼資料而產生一輸出信號。其處理結果沿著線路41傳遞。處理聲道元件32經由旋轉開關22接收針對音訊區塊AB0到AB5的聲道CH1之資料、處理該資料且沿著線路42傳遞其輸出。處理聲道元件33經由旋轉開關23接收針對音訊區塊AB0到AB5的聲道CH2之資料、處理該資料及沿著線路43將其輸出。

本發明之應用可透過在多種情況下消除多次通過訊框資料來提高處理效率。在利用編碼工具之某些組合產生該編碼位元串流之一些情況下，使用多次通過；然而，由以下討論的編碼工具之組合產生之增強型AC-3位元串流可用一單一通過解碼。此新方法示意性地說明在第7圖中。元件19剖析從線路1接收之一編碼位元串流中之訊框且回應於自線路20接收之控制信號從該等訊框中擷取資料。在很多情況下，該剖析經由一單一通過該訊框資料完成。來自一個訊框的擷取資料以上文關於第6圖討論的相同方式由元件19下面的方框表示。元件19沿著線路20將獲得自訊框元資料之參數傳遞到區塊處理元件61、62及63。處理區塊元件61經由旋轉開關51接收針對音訊區塊AB0中的所有聲道之編碼音訊資料及元資料、解碼該資料及透過將一合成濾波器組應用於該解碼資料產生一輸出信號。其關於聲道CH0、CH1及CH2之處理結果經由旋轉開關71分別傳遞到恰當的輸出線路41、42、43。處理區塊元件62經由旋轉開關52接收針對音訊區塊AB1中之所有聲道之資料、處理該資料及經由旋轉開關72將其輸出傳遞到每一聲道之恰當輸出線路。處理區塊元件63經由旋轉開關53接收針對音訊區塊AB5中的所有聲道之資料、處理該資料及經由旋轉開關73將其輸出傳遞到每一聲道之恰當輸出路線。

本發明之各種層面在下文予以討論且利用程式段說明。此等程式段不意欲是實際的或最佳實施態樣，而僅僅是說明性範例。程式語句之順序可例如透過互換一些語句改變。

1.一般程序

本發明之一高級說明顯示在以下程式段中：

語句(1.1)在該位元串流中掃描與該SI資訊中攜帶之同步模式匹配之一位元串。當找到該同步模式時，已確定該位元串流中之一訊框之開始。

語句(1.2)及語句(1.19)控制針對該位元串流中之每一訊框執行的解碼過程，或者直到該解碼過程藉由某種其它手段停止為止。語句(1.3)到(1.18)執行解碼該編碼位元串流中之一訊框之過程。

語句(1.3)到語句(1.5)解包該訊框中之元資料、由該解包的元資料獲得解碼參數及確定該位元串流中該訊框中之第一音訊區塊K之資料開始之位置。語句(1.16)確定該位元串流中下一音訊區塊之開始，如果該訊框中有任一後續音訊區塊的話。

語句(1.6)及語句(1.17)引起針對該訊框中之每一音訊區塊執行的該解碼過程。語句(1.7)到語句(1.15)執行解碼該訊框中之一音訊區塊之過程。語句(1.7)到語句(1.9)解包該音訊區塊中之元資料、由該已解包的元資料獲得解碼參數及確定第一聲道之資料在何處開始。

語句(1.10)及語句(1.15)引起針對該音訊區塊中之每一聲道執行之解碼過程。語句(1.11)到語句(1.13)解包及解碼指數、利用該等解碼指數確定該位元分配以解包及解量化每一量化尾數及將該合成濾波器組應用於該等解量化尾數。語句(1.14)確定該位元串流中下一聲道之資料之開始位置，如果在該訊框中有任一後續聲道的話。

程序結構變化來適應用來產生該編碼位元串流之不同編碼技術。一些變化在下面之程式段中予以討論及說明。下列程式段之描述省略了以上程式段描述之一些細節。

2.頻譜擴展

當利用頻譜擴展(SPX)時，開始擴展過程之音訊區塊包含該開始音訊區塊中及該訊框中之利用SPX之其它音訊區塊中進行SPX所需之共享參數。該等共享參數包括參與此過程之聲道之標識、頻譜擴展頻率範圍及針對每一聲道之SPX頻譜包絡如何在時間與頻率上共享。此等參數從開始利用SPX之該音訊區塊中解包出且儲存在記憶體或電腦暫存器中以用於處理該訊框中之後續音訊區塊中之SPX。

一訊框具有SPX的一個以上的開始音訊區塊是可能的。如果一音訊區塊之元資料指出利用了SPX及該訊框中之上一音訊區塊之元資料指出未利用SPX或者該音訊區塊是一訊框中之第一區塊，則該音訊區塊開始SPX。

利用SPX之每一音訊區塊或者包括稱為SPX坐標之該SPX頻譜包絡，該等SPX坐標用於該音訊區塊中之頻譜擴展處理，或者利用SPX之每一音訊區塊包括一“再用”旗標，該旗標指出要利用的上一區塊之SPX坐標。一區塊中之該等SPX坐標被解包且保留以供後續音訊區塊中之SPX操作可能再次利用。

以下程式段說明了利用SPX之單向音訊區塊可被處理。

語句(2.5)從該訊框元資料解包SPX訊框參數，如果該元資料中存在任一SPX訊框參數的話。語句(2.10)從該區塊元資料解包SPX區塊參數，如果該區塊元資料中存在任一SPX區塊參數的話。該等區塊SPX參數可包括用於該區塊中之一個或多個聲道之SPX坐標。

語句(2.12)及語句(2.13)解包及解碼指數且利用該等解碼指數確定該位元分配以解包及解量化每一量化尾數。語句(2.14)確定當前音訊區塊中之聲道C是否利用SPX。如果其確實使用SPX，語句(2.15)應用SPX處理以擴展該聲道C之頻寬。此過程提供了聲道C之頻譜成分，該等頻譜成分輸入到語句(2.17)中應用之該合成濾波器組。

3.適應性混成轉換

當利用適應性混成轉換(AHT)時，一訊框中之第一音訊區塊AB0包含由該DCT-II轉換處理之每一聲道之所有混成轉換係數。對於所有其它聲道，該訊框中之該六個音訊區塊各包含由該MDCT分析濾波器組產生之多達256個頻譜係數。

例如，一編碼位元串流包含左聲道、中央聲道及右聲道之資料。當該左聲道及該右聲道由AHT處理及該中央聲道未經該AHT處理時，音訊區塊AB0包含該左聲道及該右聲道中之每一者的所有混成轉換係數且包含該中央聲道之多達256個MDCT頻譜係數。音訊區塊AB1到AB5包含該中央聲道之MDCT頻譜係數且不包含該左聲道及該右聲道之係數。

以下程序段說明了具有AHT係數之單向音訊區塊可被處理。

語句(3.11)確定該AHT是否用於聲道C。如果使用該AHT，則語句(3.12)確定該第一音訊區塊AB0是否正被處理。如果該第一音訊區塊正被處理，則語句(3.13)到語句(3.16)獲得聲道C之所有AHT係數、將該反向次級轉換或IDCT-11應用到該等AHT係數以獲得該等MDCT頻譜係數及將它們儲存在一緩衝器中。此等頻譜係數對應於由語句(3.20)及語句(3.21)針對未使用AHT之聲道獲得之指數及解量化尾數。語句(3.18)獲得對應於正被處理之音訊區塊K之該等MDCT頻譜係數之指數及尾數。例如，如果該第一音訊區塊(K=0)正在被處理，則用於該第一音訊區塊之該組MDCT頻譜係數之指數及尾數可自該緩衝器獲得。例如，如果該第二音訊區塊(K=1)正被處理，則用於該第二區塊之該組MDCT頻譜係數之該等指數及尾數可自該緩衝器獲得。

4.頻譜擴展及適應性混成轉換

SPX及該AHT可用來產生針對相同聲道的編碼資料。以上分別針對頻譜擴展及混成轉換處理討論之邏輯可相組合來處理利用SPX、利用AHT或利用SPX與AHT兩者之聲道。

以下程序段說明了具有SPX係數及AHT係數之單向音訊區塊可被處理。

語句(4.5)從該訊框元資料解包SPX訊框參數，如果任一SPX訊框參數存在於該元資料中的話。語句(4.10)從該區塊元資料解包SPX區塊參數，如果任一SPX區塊參數存在於該區塊元資料中的話。該等區塊SPX參數可包括該區塊中之一個或多個聲道之SPX坐標。

語句(4.12)確定該AHT是否用於聲道C。如果該AHT用於聲道C，則語句(4.13)確定此區塊是否為該第一音訊區塊。如果其是該第一音訊區塊，則語句(4.14)到語句(4.17)獲得該聲道C之所有AHT係數、將該反向次級轉換或IDCT-II應用於該等AHT係數以獲得反向次級轉換係數及將它們儲存在一緩衝器中。語句(4.19)獲得對應於正被處理之音訊區塊K之該反向次級轉換係數之該等指數及尾數。

如果該AHT不用於聲道C，則語句(4.21)及語句(4.22)解包且獲得區塊K中之聲道C之該等指數及尾數，如以上關於程序段(1.11)及(1.12)所討論。

語句(4.24)確定目前音訊區塊中之聲道C是否利用SPX。如果其確實利用SPX，則語句(4.25)將SPX處理應用到該反向次級轉換係數以延伸該頻寬，藉此獲得聲道C之該等MDCT頻譜係數。此程序提供了關於聲道C之頻譜成分，該等頻譜成分輸入到語句(4.27)中應用之該合成濾波器組。如果SPX處理未用於聲道C，則該等MDCT頻譜係數直接自該等反向次級轉換係數獲得。

5.耦合及適應性混成轉換

聲道耦合及該AHT可用以產生針對相同聲道的編碼資料。以上關於頻譜擴展及混成轉換處理討論之實質上相同之邏輯可用來處理利用聲道耦合及該AHT的位元串流，因為以上討論之SPX處理之細節適用於針對聲道耦合執行之處理。

以下程序段說明了具有耦合係數及AHT係數之單向音訊區塊可被處理。

語句(5.5)自該訊框元資料解包聲道耦合參數，如果任一聲道耦合參數存在於該元資料中的話。語句(5.10)自該區塊元資料解包聲道耦合參數，如果任一聲道耦合參數存在於該區塊元資料中的話。如果它們存在，則獲得該區塊中之該等被耦合聲道之耦合坐標。

語句(5.12)確定該AHT是否用於聲道C。如果利用該AHT，則語句(5.13)確定該區塊是否是該第一音訊區塊。如果其是該第一音訊區塊，則語句(5.14)到語句(5.17)獲得該聲道C之所有AHT係數、將該反向次級轉換或IDCT-II應用到該等AHT係數以獲得反向次級轉換係數及將它們儲存在一緩衝器中。語句(5.19)獲得對應於正被處理之該音訊區塊K之該等反向次級轉換係數之該等指數與尾數。

如果該AHT未用於聲道C，則語句(5.21)及語句(5.22)解包及獲得區塊K中之聲道C之該等指數與尾數，如以上關於程序段(1.11)及程序段(1.12)所討論。

語句(5.24)確定聲道耦合是否用於聲道C。如果利用該AHT，則語句(5.25)確定聲道C是否是該區塊中利用耦合之第一聲道。如果是，則該耦合聲道之該等指數及尾數由語句(5.26)到語句(5.33)中所示之將一反向次級轉換應用到該等耦合聲道指數及尾數獲得，或者自語句(5.35)及語句(5.36)中所示之位元串流中之資料獲得。表示該等耦合聲道尾數之資料位於該位元串流中緊接著表示聲道C之尾數之資料之後。語句(5.39)利用聲道C之適當耦合坐標，自該耦合聲道獲得被耦合聲道C。如果聲道耦合未用於聲道C，則該等MDCT頻譜係數直接自該等反向次級轉換係數獲得。

6.頻譜擴展、耦合及適應性混成轉換

頻譜擴展、聲道耦合及該AHT可全部用來產生相同聲道之編碼資料。以上關於AHT處理與頻譜擴展之組合及關於AHT處理與耦合之組合討論之邏輯可組合來藉由包含處理八種可能情況所需的額外邏輯而處理利用該等三個編碼工具中之任一組合的聲道。關於聲道去耦合之處理在執行SPX處理之前執行。

F.實施

包含本發明之各種層面之裝置可以以各種各樣的方式實施，該各種各樣方式包括由一電腦或由包括更專用元件之某一其它裝置執行之軟體，該等更專用元件諸如耦接到與一通用電腦上出現的元件類似之元件之數位信號處理器(DSP)電路。第8圖是可用以實施本發明之層面之一裝置90之一示意性方塊圖。處理器92提供計算資源。RAM 93是由用於處理之處理器92使用之系統隨機存取記憶體(RAM)。ROM 94表示某種形式之持久記憶體，諸如用於儲存操作裝置90所需的程式及可能用於執行本發明之各種層面之唯讀記憶體(ROM)。I/O控制95表示用以藉由通訊通道1、通訊通道16接收及發送信號之介面電路。在顯示之實施例中，所有主機系統元件連接到匯流排91，其可表示不止一個實體或邏輯匯流排；然而，實施本發明無需一匯流排架構。

在由一通用電腦系統實施之實施例中，可包括其它元件以用於與諸如一鍵盤或滑鼠及一顯示器之裝置介面連接，及用於控制具有諸如磁帶或磁碟或一光學媒體之一儲存媒體之一儲存裝置。該儲存媒體可用以記錄作業系統之指令程式、公用程式及應用程式，且可包括實施本發明之各個層面之程式。

實施本發明各個層面所需的功能可由以多種多樣方式實施之元件執行，該等元件包括分立邏輯元件、積體電路、一個或多個ASIC及/或程控處理器。此等元件實施之方式對本發明并不重要。

本發明之軟體實施態樣可由各種各樣之機器可讀媒體，諸如包括從超聲頻到紫外線頻之頻譜中之基頻通訊路徑或調變通訊路徑，或者基本上利用任一記錄技術傳送資訊之儲存媒體傳送，該任一記錄技術包括磁帶、磁卡或磁碟、光卡或光碟及包括紙之媒體上之可檢測標記。

1‧‧‧輸入信號線路、通訊通道

2‧‧‧分析濾波器組

3‧‧‧位元分配器

4‧‧‧量化器

5‧‧‧格式器

6、20、41、42、43‧‧‧線路

11‧‧‧輸入信號線路

12‧‧‧解格式器

13‧‧‧位元分配器

14‧‧‧解量化器

15‧‧‧合成濾波器組

16‧‧‧輸出信號線路、通訊通道

19‧‧‧元件

21、22、23、51、52、53、71、72、73‧‧‧旋轉開關

31、32、33‧‧‧聲道處理元件

61、62、63‧‧‧區塊處理元件

90‧‧‧裝置

91‧‧‧匯流排

92‧‧‧處理器

93‧‧‧RAM

94‧‧‧ROM

95‧‧‧I/O控制

第1圖是一編碼器之示範性實施態樣之一示意性方塊圖。

第2圖是一解碼器之示範性實施態樣之一示意性方塊圖。

1．．．輸入信號線路、通訊通道

19．．．元件

20、41、42、43．．．線路

51、52、53、71、72、73．．．旋轉開關

61、62、63．．．區塊處理元件

Claims

一種用於解碼一編碼數位音訊信號之訊框之方法，其中：該訊框包含訊框元資料、一第一音訊區塊及一個或多個後續音訊區塊；及該第一及後續音訊區塊各包含區塊元資料及一個或多個音訊聲道之編碼音訊資料，其中：該編碼音訊資料包含表示該一個或多個音訊聲道之頻譜內容之比例因數(scale factor)及縮放值，每一縮放值與該等比例因數之各別一者有關；及該區塊元資料包含控制資訊，該控制資訊描述由產生該編碼音訊資料之一編碼過程所利用之多個編碼工具，該等編碼工具包括含以下步驟之適應性混成轉換處理程序：將一初級轉換實施之一分析濾波器組應用到該一個或多個音訊聲道以產生多個初級轉換係數，及將一次級轉換應用到針對該一個或多個音訊聲道中之至少一些音訊聲道之該等初級轉換係數以產生多個混成轉換係數；及其中該方法包含以下步驟：接收該編碼數位音訊信號之該訊框；及在一單次通過中檢查該訊框之該編碼數位音訊信號以解碼按區塊排序之每一音訊區塊之該編碼音訊資料，其中解碼每一各別音訊區塊包含：判定該編碼過程是否利用適應性混成轉換處理程序來編碼任一該編碼音訊資料；如果該編碼過程利用適應性混成轉換處理程序，則：自該第一音訊區塊中之該編碼音訊資料獲得該訊框中之所有該等音訊區塊之所有混成轉換係數，及將一反向次級轉換應用到該等混成轉換係數以獲得多個反向次級轉換係數，及自該各別音訊區塊之該等反向次級轉換係數獲得多個初級轉換係數；如果該編碼過程未利用適應性混成轉換處理程序，則自該各別音訊區塊中之該編碼音訊資料獲得多個初級轉換係數；及將一反向初級轉換應用到該等初級轉換係數以產生表示該各別音訊區塊中之該一個或多個聲道之一輸出信號。
如申請專利範圍第1項所述之方法，其中該編碼數位音訊信號之該訊框符合增強型AC-3位元串流語法。
如申請專利範圍第2項所述之方法，該等編碼工具包括頻譜擴展處理程序，及解碼每一各別音訊區塊進一步包含：判定該解碼過程是否應當利用頻譜擴展處理程序來解碼任一該編碼音訊資料；及如果應當利用頻譜擴展處理程序，則自該等反向次級轉換係數合成一個或多個頻譜成分以獲得具有一擴展頻寬之初級轉換係數。
如申請專利範圍第2或3項所述之方法，其中該等編碼工具包括聲道耦合，及解碼每一各別音訊區塊進一步包含：判定該編碼過程是否利用聲道耦合來編碼任一該編碼音訊資料；及如果該編碼過程利用聲道耦合，則自該等反向次級轉換係數得出頻譜成分以獲得被耦合聲道之初級轉換係數。
一種用於解碼一編碼數位音訊信號之訊框之方法，其中：該訊框包含訊框元資料、一第一音訊區塊及一個或多個後續音訊區塊；及該第一及後續音訊區塊各包含區塊元資料及一個或多個音訊聲道之編碼音訊資料，其中：該編碼音訊資料包含表示該一個或多個音訊聲道之頻譜內容之比例因數及縮放值，每一縮放值與該等比例因數之各別一者有關；及該區塊元資料包含控制資訊，該控制資訊描述由產生該編碼音訊資料之一編碼過程所利用之多個編碼工具，該等編碼工具包括含以下步驟之適應性混成轉換處理程序：將由一初級轉換實施之一分析濾波器組應用到該一個或多個音訊聲道以產生多個初級轉換係數，及將一次級轉換應用到針對該一個或多個音訊聲道中之至少一些音訊聲道之該等初級轉換係數以產生多個混成轉換係數；及其中該方法包含以下步驟：(A)接收該編碼數位音訊信號之該訊框；及(B)在一單次通過中檢查該訊框之該編碼數位音訊信號以解碼按區塊排序之每一音訊區塊之編碼音訊資料，其中解碼每一各別音訊區塊包含：(1)針對該一個或多個聲道中之每一各別聲道，判定該編碼過程是否利用適應性混成轉換處理程序來編碼任一該編碼音訊資料；(2)如果該編碼過程針對該各別聲道利用適應性混成轉換處理程序：(a)如果該各別音訊區塊是該訊框中之該第一音訊區塊，則：(i)自該第一音訊區塊中之該編碼音訊資料獲得該訊框之該各別聲道之所有混成轉換係數，及(ii)將一反向次級轉換應用到該等混成轉換係數以獲得多個反向次級轉換係數，及(b)針對該各別音訊區塊中之該各別聲道，自該等反向次級轉換係數獲得多個初級轉換係數；(3)如果該編碼過程未針對該各別聲道利用適應性混成轉換處理程序，則藉由解碼該各別音訊區塊中之該編碼資料而獲得該各別聲道之多個初級轉換係數；及(4)將一反向初級轉換應用到該等初級轉換係數以產生表示該各別音訊區塊中之該各別聲道之一輸出信號。
如申請專利範圍第5項所述之方法，其中該編碼數位音訊信號之該訊框符合增強型AC-3位元串流語法。
如申請專利範圍第6項所述之方法，其中該等編碼工具包括頻譜擴展處理程序，及解碼每一各別音訊區塊進一步包含：判定該解碼過程是否應當利用頻譜擴展處理程序來解碼任一該編碼音訊資料；及如果應當利用頻譜擴展處理程序，則自該等反向次級轉換係數合成一個或多個頻譜成分以獲得具有一擴展頻寬之初級轉換係數。
如申請專利範圍第6或7項所述之方法，其中該等編碼工具包括聲道耦合，及解碼每一各別音訊區塊進一步包含：判定該編碼過程是否利用聲道耦合來編碼任一該編碼音訊資料；及如果該編碼過程利用聲道耦合：(A)如果該各別聲道是該訊框中利用耦合之一第一聲道：(1)判定該編碼過程是否利用適應性混成轉換處理程序來編碼該耦合聲道，(2)如果該編碼過程利用適應性混成轉換處理程序來編碼該耦合聲道：(a)如果該各別音訊區塊是該訊框中之該第一音訊區塊，則：(i)自該第一音訊區塊中之該編碼音訊資料獲得該訊框中之該耦合聲道之所有混成轉換係數，及(ii)將一反向次級轉換應用到該等混成轉換係數以獲得多個反向次級轉換係數，(b)自該各別音訊區塊中之該耦合聲道之該等反向次級轉換係數獲得多個初級轉換係數；(3)如果該編碼過程未利用適應性混成轉換處理程序來編碼該耦合聲道，則藉由解碼該各別音訊區塊中之該編碼資料來獲得該耦合聲道之頻譜成分；及(B)藉由對該耦合聲道之該等頻譜成分進行去耦合來獲得該各別聲道之多個初級轉換係數。
一種用於解碼一編碼數位音訊信號之訊框之設備，其中該設備包含用以執行如申請專利範圍第1項到第8項中任一項所述之方法的所有步驟之功能之裝置。
一種記錄指令程式之儲存媒體，該指令程式可由一裝置執行以執行用以解碼一編碼數位音訊信號之一訊框之一方法，其中該方法包含申請專利範圍第1項到第8項中任一項所述之方法的所有步驟。