TWI557727B

TWI557727B - 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品

Info

Publication number: TWI557727B
Application number: TW103112142A
Authority: TW
Inventors: 海克普恩哈根; 克里斯多福科林; 安蘭達高契爾; 珍斯帕普; 卡爾羅登
Original assignee: 杜比國際公司
Priority date: 2013-04-05
Filing date: 2014-04-01
Publication date: 2016-11-11
Also published as: US20230274755A1; TW201506910A; JP2016515722A; JP6190942B2; US20210375304A1; US9911434B2; CN109935236B; US11676622B2; CN105074821B; CN109935235A; US20180247660A1; EP2981962A1; EP2981962B1; WO2014161990A1; CN109935235B; CN105074821A; US11037582B2; CN109935236A; HK1221327A1; US20160055864A1

Description

音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品

相關申請案之交叉參考：

本申請案聲明擁有於2013年4月5日提出申請的美國臨時專利申請案序號61/808,701的優先權之權益，本申請案特此引用該專利申請案之完整內容以供參照。

本說明書揭示之本發明係大致有關影音媒體配送。本發明尤係有關一種適於接受多種音頻框長度且因而適於構成用於處理音頻框同步影音媒體格式的媒體解碼器的一部分之音頻解碼器。

被用於目前可用的大部分商業化應用之音頻及視頻框率(或框頻率)遵循個別制定的標準，這些標準出現在錄製及播放軟體產品、硬體組件、以及在各通訊方之間傳輸音訊及視訊之約定格式。不同的編碼演算法通常有特定的音頻框率，且音頻框率係與係與諸如44.1及48千赫等的音訊取樣頻率相關聯，而該等音訊取樣頻率如同視頻框率 29.97fps(每秒框數)(NTSC)及25fps(PAL)在其各別的地理區中都是眾所周知的；其他的標準視頻框率包括23.98、24、及30fps，或以更一般化的形式表示為24、25、30fps以及(24、25、30)×1000/1001fps。雖然已自類比式配送轉移到數位式配送，但是統一或協調音頻框率的嘗試並未成功，因而意味著一音頻框(適於經由網路傳輸的一封包或一編碼單位)通常不對應於某一整數的視頻框。

由於時脈漂移(clock drift)，或者自不同的來源接收數個影音資料流以供在一伺服器中執行共同處理、編輯、或編接時(在廣播台中經常遭遇的情況)，持續有同步影音資料流的需求。在第3圖所示之情況中，各音頻框(影音資料流S1中之A11、A12、...以及影音資料流S2中之A21、A22、...)與各視頻框(影音資料流S1中之V11、V12、...以及影音資料流S2中之V21、V22、...)不匹配，而藉由複製或拒絕該等影音資料流中的一影音資料流中之視頻框而改善該等影音資料流間之視訊至視訊同步的嘗試(在諸如編接該等影音資料流的嘗試中)通常將倒導致該影音資料流中之音訊至視訊不同步。一般而言，縱然刪除或複製了對應的音頻框，此種不同步仍持續(至少持續有某種程度的不同步)。

在付出更多處理的代價下，可在同步期間將音訊暫時解碼為與音頻框的分割無關的一低階格式(例如，基頻格式或解析度為原始取樣頻率的脈碼調變(Pulse Code Modulation；簡稱PCM))，而產生較大的操縱空間。然而，此種解碼使元資料(metadata)精確固定到特定音訊區段的特性模糊化，且產生了無法以解碼矯正為一"完美"中間格式(intermediate format)的資訊損失。舉一例子，動態範圍控制(Dynamic Range Control；簡稱DRC)通常是與模式相依的且與設備相依的，且因而只能在實際播放時使用DRC；在執行同步之後，難以準確地恢復決定整個音訊封包的DRC特性之資料結構。因此，在有複雜限制的情況下，在連續的解碼、同步、及編碼階段之後保留此種類型的元資料之任務不是簡單的任務。

可能產生與被設計成承載兩聲道PCM信號且因而只能以編碼形式處理多聲道內容的傳統基礎結構有關之更嚴重的困難。

在特定框中之資料準確地對應於錄製的編碼影音信號中之相同時段之方式下將音頻及視頻資料框同步地編碼都然是更方便的。此種方式在以框為單位操縱一影音流的情形下(亦即，複製或拒絕該影音流中之一或多個完全獨立的編碼單位)保持了音訊至視訊同步。Dolby E^TM音頻格式中可使用的框長度與視頻框長度匹配。在448kbps(kbps：每秒的千位元數)的一典型位元率之下，主要是為了以諸如數位錄影機等的硬媒體作為其較佳儲存模態之專業製作而設計該格式。

目前需要一種作為框同步影音格式(或格式系列)的一部分的適於配送之替代音訊格式以及適於配合該音訊格式而使用之編碼及解碼設備。

一音訊處理系統(100)接受有複數個預定音頻框率中之一音頻框率的一音訊位元流。該系統包含一前端組件(110)，該前端組件(110)接收對應於該等預定音頻框率中之任一預定音頻框率下之一音頻框的一可變數目之量化頻譜成分，且根據預定之頻率相依量化位準(quantization level)而執行一反量化(inverse quantization)。該前端組件可與該音頻框率無關。該音訊處理系統進一步包含一頻域處理級(120)及一取樣率轉換器(130)，用以提供在與該音頻框率無關的一目標取樣頻率下取樣之一重建音頻信號。藉由其框率適應性，該系統可被配置成以與接受複數個視頻框率的一視訊處理系統平行之方式框同步地操作。

100‧‧‧音訊處理系統

110‧‧‧前端組件

120‧‧‧頻域處理級

130‧‧‧取樣率轉換器

108‧‧‧解碼器

122,122_L,122_R‧‧‧分析濾波器組

124‧‧‧頻帶複製模組

126‧‧‧動態範圍控制模組

128_L,128_R‧‧‧合成濾波器組

140‧‧‧信號限制模組

114‧‧‧反量化級

118_L,118_R‧‧‧反轉換級

112‧‧‧解多工器

210‧‧‧接收站

211‧‧‧衛星接收器

212‧‧‧射頻接收器

219,229‧‧‧本地時間

220‧‧‧轉迴站

230‧‧‧串列數位介面路由器

240‧‧‧視訊編碼器及音訊通過組件

290‧‧‧有線或無線通訊網路

291,292,293‧‧‧消費者

501‧‧‧編碼器系統

5011‧‧‧輸入信號

5010‧‧‧視頻框率

502‧‧‧適應模組

508‧‧‧取樣率轉換器模組

504‧‧‧改良型離散餘弦轉換模組

503‧‧‧量化及編碼模組

506‧‧‧高頻重建編碼器

507‧‧‧正交鏡像濾波器轉換

505‧‧‧多工器

在前文中，已參照各附圖而詳細地說明了各實施例，在該等附圖中：第1圖示出根據一實施例的一音訊處理系統之結構以及該系統中之一組件的內部工作；第2圖示出一媒體配送系統；第3圖示出兩個多媒體流，每一多媒體流包含具有根據先前技術的獨立框長度之一音訊位元流及一相關聯串流之視頻框；第4圖示出兩個多媒體流，每一多媒體流包含具有根據一實施例的協調框長度之一音訊位元流及一相關聯串流之視頻框；第5圖示出根據一實施例的一編碼器系統之結構。

所有的圖式都是示意圖，且通常只示出說明本發明所必要的一些部分，而可能省略或只提示其他的部分。除非另有指示，否則相像的參考編號將參照到不同圖式中之相像的部分。

I. 概觀

一音訊處理系統接受被分割為承載音訊資料的框之一音訊位元流。可將一聲波取樣，且將因而得到的電子時間樣本轉換為頻譜係數(spectral coefficient)，該等頻譜係數然後被量化且被以一種適於傳輸或儲存之格式編碼，而準備該音訊資料。該音訊處理系統適於以單聲道、立體聲、或多聲道格式重建取樣聲波。一框中之音訊資料可以是自足的，這是因為該音訊資料足以作為重建該音訊資料代表的聲波的一額外時間間隔之基礎；該重建由於重疊的轉換等的因素而可能需要或可能不需要知道先前的音訊資料。

該音訊處理系統包含至少一前端組件、一處理級、以及取樣率轉換器，用以提供在一所需目標取樣頻率下之被處理的音頻信號的一時域表示法。要強調之處在於：該目標取樣頻率是使用者或系統設計者可以與輸入音訊位元流的特性(例如，音頻框率)無關之方式配置之一預定量。作為一種選項，該目標取樣頻率可以是音頻框率的一函數。作為另一選項，該目標取樣頻率可以是固定的且/或不具有與音頻框率相關的適應性。

在該前端組件中，一反量化(dequantization)級自該音訊位元流接收某一數目的量化頻譜係數，其中該數目對應於一音頻框，且該反量化級聯合地處理該等係數，以便產生用於控制一框中之音訊資料的反量化的資訊，且執行該反量化。在該前端組件中之該反量化級的下游，一反轉換級取得作為用於建構一中間信號的一第一頻域表示法的頻譜係數之該輸出，且合成該中間信號的一時域表示法。該前端組件然後自該音訊位元流接收且處理相同數目的後續量化頻譜係數(但是該等後續量化頻譜係數可能散佈在數次轉換中)，且繼續處理這些係數。該反量化級被配置成：將該音訊資料解碼為預定之量化位準(或重建位準、或重建點)，而產生該等頻譜係數。該編碼器已根據人耳聲學(psychoacoustic)的考慮(例如，以特定頻率(或頻帶)的量化雜訊(quantization noise)不超過遮蔽臨界值(masking threshold)之方式)而選擇該等量化位準。因為該遮蔽臨界值是與頻率相依的，所以自經濟觀點而論，使該編碼器選擇在頻率上不均勻的一些量化位準是較佳的。因此，通常在考慮到產生最佳輸出的特定物理取樣頻率(physical sampling frequency)下進行量化及反量化。

該音訊處理系統中之該處理級可適於執行頻域中之處理。為了達到此一目的，該處理級包含：一初始分析濾波器組，用以提供該中間信號的一頻域表示法；以及一或多個處理組件及接續的一合成濾波器組，用以將該被處理的音頻信號轉換回到時域。

在一實施例中，該音訊處理系統被配置成接受有至少兩個不同的預定音頻框率中之任一預定音頻框率的一音訊位元流。此種方式可讓該音訊處理系統對與一串流之視頻框相關聯的一音訊位元流操作，該相關聯的方式為每一視頻框與承載持續時間等於一或多個視頻框(最好是一或多個完整的視頻框)的持續時間的音訊資料之一音頻框在時間上相關，因而可使兩個或更多個不同的視頻框率匹配，而不會犧牲該音訊處理系統中之音訊至視訊同步。在本說明書的用法中，一視頻框的"持續時間"(以秒為單位)可被理解為視頻框率之倒數。同樣地，一音頻框的"持續時間"(以秒為單位)可被定義為音頻框率之倒數。可因在將相關音訊資料取樣的初始、中間、或最後的時間間隔瞬時之取樣，而產生一框中之視訊資料；或者，在與音訊取樣時間間隔至少部分重疊的一延伸時間間隔中對該視訊資料取樣(例如，利用一滾動快門程序(rolling-shutter process))。該前端組件具有(以樣本數之形式量測的)可變最大框長度，且可在對應於該等預定音頻框率的至少兩個模式中操作。

該音訊處理系統因其能夠為較低的音頻框率選擇較大的框長度(或者在考慮到可能的細分之後，選擇最大框長度，請參閱下文)，且能進行反向的選擇，而實現所需的框率適應性。在一臨界取樣系統(critically sampled system)中，該物理取樣頻率對應於一音頻框的物理持續時間與該音頻框中含有的頻譜係數的數目間之比率。該反量化級及該反轉換級無須知道一框中之該等係數的物理持續時間，只要該等係數屬於相同的框即可。因為可改變該前端組件中之框長度，而將所產生的(以物理單位表示的)內部取樣頻率之變化保持在邊界內，或者甚至保持大約不變，所以最後取樣率轉換中使用的重取樣因數(resampling factor)將接近一，且該內部取樣頻率的非恆定性通常將不會導致音訊的任何可察覺之惡化。換言之，在稍微不同於該目標取樣頻率的一取樣頻率下以最佳方式產生之前端級輸出的輕微升取樣(up-sampling)或降取樣(down-sampling)對於人耳聲學將是不顯著的。此外，該處理級中之該分析濾波器組及合成濾波器組不需要(諸如為了回應該音訊處理系統接收的該音訊位元流中之音頻框率的改變而是)可調整的，而是可具有固定數目的頻帶。

具有前文中概述的特性之一音訊處理系統適於回應前文中提到的對一框同步音訊配送格式的需求，而處理一音訊格式。舉例而言，傳輸立體聲信號或其他兩聲道音頻信號所需的位元率可以小於200kbps，例如，小於100kbps。

在一實施例中，該前端組件可操作的模式中之一模式被用於兩個或更多個預定音頻框率。例如，相互差異最大為5%的各音頻框率(換言之，與一設計框率間之最大差異為2.5%之各音頻框率)將不對應於物理取樣頻率中之極大變化。因此，該前端組件產生的輸出(亦即，可能因該編碼器的策略性位元分配以便適應特定取樣頻率而產生之頻譜係數)將對有效地移動所有頻帶高達諸如5%之取樣率轉換具有強健性。

說明此觀點的另一種方式是：該前端組件(尤指該反量化級)在使用自該編碼器端接收的位元流中之指令時，將適於為特定的物理取樣頻率產生最佳音訊輸出。本案發明人了解：該前端組件的預期物理取樣頻率與該前端組件下游的任何組件被調整到的物理取樣頻率間之某一不匹配量是可容許的，只要該偏差是有限的即可。

適應性地改變框長度(或轉換窗長度、或區塊大小)在音訊編碼中是常見的做法，其中一較大的框長度通常被用於具有固定特性且因而精細之頻率解析度(frequency resolution)優於時間解析度(time resolution)的音頻信號，且一較小的框長度被用於暫態(transient)。在一實施例中，該前端組件除了可在一預定最大框長度下操作之外，亦可在係為該最大框長度的分數之一替代框長度下操作。例如，該替代框長度可包含該最大長度的一框中之 1/2、1/3、1/4、1/6、1/8、1/16的數目之樣本。

在一實施例中，使上述之該音訊處理系統與一視訊處理系統結合成可接受框同步多媒體位元流且輸出被處理的視頻框之一多媒體處理系統。該多媒體位元流可包含一音訊位元流以及與該音訊位元流相關聯的一串流之視頻框，該相關聯的方式為使每一視頻框與該音訊位元流中之一音頻框在時間上相關。音頻框與視頻框間之間之該時間關係(temporal relationship)可以是一對一、一對多、或多對一。此種方式可讓該多媒體處理系統以一種框同步的方式(亦即，不干擾到多媒體流中之音訊至視訊同步的方式)執行音頻及視頻框之同時複製或刪除。如前文所述，此種方式有助於諸如兩個多媒體流之編接等的操作。如果將在一框同步格式下編接兩個多媒體流，則使用框邊界作為編接點將總是安全的。該多媒體處理系統可仍在本發明的範圍內自諸如現場錄音、無線電或網路接收器、或儲存媒體等的不同之來源接受兩個或更多個多媒體流。

在一實施例中，一音訊處理方法輸入與一串流之視頻框相關聯的一音訊位元流，其中該音訊位元流被分割為一些框，且每一視頻框與承載持續時間與一或多個視頻框相等之相關聯的音訊資料的一音訊位元流中之一框在時間上相關，且輸出一重建音頻信號。該方法包含下列步驟：‧建立該音訊位元流的一現行框率；‧重複地接收對應於該音訊位元流中之一音頻框的量化頻譜係數，且執行反量化及接續的一頻率至時間轉換，因而得到一中間音頻信號的一表示法；‧對該中間音頻信號執行頻域中之至少一處理步驟；以及‧將該被處理的音頻信號之取樣率改變為一目標取樣頻率，因而得到一重建音頻信號的一時域表示法。

在該實施例中，在諸如一反量化及合成電路中之一軟體模組或一組件等的一功能組件中執行該第二步驟(反量化以及頻率至時間轉換)，該反量化及合成電路可在至少兩個模式中操作，每一模式有一不同的最大框長度。回應該音訊位元流之該現行框率，而選擇用於操作該功能組件的模式，其中該等兩個不同的框率值導致該功能組件之不同的操作模式。

具有上述特定的一音訊處理方法可適應於各種音頻框率。完全不需要在前文所述之相同的功能組件中執行反量化，也不需要在回應該音頻框率改變的一功能組件中執行反量化；實際上，可在一靜態(或單一模式)類型的一功能組件中執行該反量化，此種靜態類型是其不特別隨著框率改變而調整。

在一實施例中，提供了一種電腦程式產品，該電腦程式產品包含具有用於執行上述音訊處理方法之一電腦可讀取的暫態或非暫態媒體。

在一第二觀點中，本發明提供了一種用於處理具有數個容許的框率中之一框率的音訊位元流之替代解決方案。在一實施例中，一音訊處理系統被配置成接受與一串流之視頻框相關聯的一音訊位元流，該音訊位元流被分割為一些框，其中每一視頻框與承載持續時間與一或多個視頻框相等之相關聯的音訊資料的該音訊位元流中之一框在時間上相關。該音訊處理系統包含：‧一前端組件，該前端組件包含：＊一反量化級，該反量化級適於重複地接收對應於該音訊位元流中之一音頻框之量化頻譜係數，且適於輸出一中間信號的一第一頻域表示法；以及＊一反轉換級，用以接收該中間信號的該第一頻域表示法，且根據該第一頻域表示法而合成該中間信號的一時域表示法；‧一處理級，該處理級包含：＊一分析濾波器組，用以接收該中間信號的該時域表示法，且輸出該中間信號的一第二頻域表示法；＊至少一處理組件，用以接收該中間信號的該頻域表示法，且輸出一被處理的音頻信號之一頻域表示法；以及＊一合成濾波器組，用以接收該被處理的音頻信號之該頻域表示法，且輸出該被處理的音頻信號之一時域表示法；以及‧一取樣率轉換器，用以接收該被處理的音頻信號之該時域表示法，且輸出在一目標取樣頻率下取樣的一重建音頻信號。

根據該實施例，該前端組件可具有各定的框長度。當該前端組件處理對應於不同的框持續時間(換言之，不同的框率)但有相等的框長度之量化頻譜係數時，該取樣率轉換器可將該音訊處理系統輸出的物理取樣頻率恢復為所需的目標物理取樣頻率。如同先前的實施例，接受該前端組件預設的(或更精確地而言，準備其所接收的控制資料之實體預設的)物理取樣頻率與該重建音頻信號的物理取樣頻率間之有限的不匹配，而實現對不同的框率之適應性。

本發明之進一步的觀點提供了一種適於準備將被前文中概述的該等音訊處理系統中之任一音訊處理系統解碼的音訊位元流之編碼器系統及編碼方法。

請注意，除非另有其他的指示，否則即使在相互不同的申請專利範圍中述及一些特徵，本發明也係有關該等特徵的所有組合。

II. 實施例

第1圖是一音訊處理系統100的一般性方塊圖，該音訊處理系統100接收一編碼音訊位元流P，且具有第1圖中示為一對立體聲基頻信號L、R之一重建音頻信號作為其最後輸出。在該例子中，假定該位元流P包含量化之轉換編碼(transform-coded)二聲道音訊資料。音訊處理系統100可自一通訊網路、一無線接收器、或一記憶體(圖中未示出)接收該音訊位元流P。系統100之該輸出可被供應到揚聲器以供播放，或可被相同的或一不同的格式重新編碼，以供經由一通訊網路或無線鏈路而進一步傳輸，或供儲存在一記憶體中。

音訊處理系統100包含一解碼器108，用以將該位元流P解碼為量化頻譜係數及控制資料。一前端組件110(將於下文中更詳細地說明該前端組件110之結構)將這些頻譜係數反量化，且供應將被處理級120處理的中間音頻信號之時域表示法。該中間音頻信號被分析濾波器組122_L、122_R轉換為不同於與前文所述的編碼轉換相關聯的頻域表示法之一第二頻域表示法；該第二頻域表示法可以是一正交鏡像濾波器(Quadrature Mirror Filter；簡稱QMF)表示法，在此種情形中，可以QMF濾波器組之形式提供分析濾波器組122_L、122_R。在分析濾波器組122_L、122_R的下游，一頻帶複製(Spectral Band Replication；簡稱SBR)模組124負責高頻重建，且一動態範圍控制(DRC)模組126處理該中間音頻信號之該第二頻域表示法。在DRC模組126的下游，合成濾波器組128_L、128_R產生因而被處理的音頻信號之一時域表示法。如熟悉此項技術者在研究了本揭示之後將可了解的，頻帶複製模組124及動態範圍控制模組126都不是本發明的必要元件；相反地，根據一不同實施例的一音訊處理系統可包含處理級120內之額外的或替代的模組。在處理級120的下游，一取樣率轉換器130可操作而將該被處理的音頻信號之取樣率調整為所設計的預期播放設備(圖中未示出)之諸如44.1千赫或48千赫等的一所需音訊取樣率。在此項技術中已知如何設計可輸出低人工失真(artefact)之取樣率轉換器130。可在不需要時，亦即，在處理級120供應已有目標取樣頻率之被處理的音頻信號時，停止啟動取樣率轉換器130。在取樣率轉換器130的下游中安排的一可供選擇採用之一信號限制模組140被配置成根據一無限幅條件而視需要限制基頻信號值，而仍然可基於特定的預期播放設備而選擇該無限幅條件。

如第1圖的下方部分所示，該前端組件110包含：一反量化級114，該反量化級114可在具有不同區塊大小的數種模式中之一模式中操作；以及一反轉換級118_L、118_R，該反轉換級118_L、118_R也可對不同的區塊大小操作。反量化級114以及反轉換級118_L、118_R的模式改變最好是同步的，而使區塊大小在所有的時點上都是匹配的。在這些組件的上游，前端組件110包含一解多工器112，用以使該等化頻譜係數與該控制資料分離；解多工器112通常將該控制資料轉送到反轉換級118_L、118_R，且將該等化頻譜係數(以及或有的該控制資料)轉送到反量化級114。反量化級114執行將一框的量化索引(quantization index)(通常被表示為整數)映射到一框的頻譜係數(通常被表示為浮點數)。每一量化索引係與一量化位準(或重建點)相關聯。假定以前文所述之方式已使用非均勻量化(non-uniform quantization)準備了該音訊位元流，則除非指定量化索引參照到哪一頻帶，否則該相關聯性不是唯一的。換言之，該反量化程序可遵循每一頻帶之一不同的碼本(codebook)，且該組碼本可隨著框長度及/或位元率而改變。在以示意圖之形式示出的第1圖中，垂直軸表示頻率，且水平軸表示每一單位頻率所分配的編碼位元量。該等頻帶中之較高頻率通常是較寬的，且終止於內部取樣頻率f_i的一半。該內部取樣頻率可因取樣率轉換器130中之重取樣而被映射到在數值上不同的一物理取樣頻率；例如，升取樣4.3%時，將把f_i=46.034千赫映射到適當的物理取樣頻率48千赫，且將以相同的因數增加較低頻帶邊界。如第1圖進一步所示，準備該音訊位元流的該編碼器通常根據編碼信號的複雜性以及人類聽覺的預期靈敏度變化而將不同量的編碼位元分配到不同的頻帶。

表1中示出了用於將音訊處理系統100(且尤指前端組件110)的操作模式特徵化之定量資料。

表1中以粗體字強調的各行含有可控制量的值，而可將其餘的量視為與這些可控制量相依。又請注意，重取樣(SRC)因數的理想值是(24/25)×(1000/1001)0.9560、24/25=0.96、以及1000/10010.9990。表1中列出的該等SRC因數值是捨入的，如同該等框率值。重取樣因數1.000是精確的，且對應於SRC 130被停止啟動或完全不存在。在各實施例中，音訊處理系統100可在至少兩個具有不同框長度的模式中操作，該等框長度中之一或多個框長度可與表1中之該等條目一致。

該前端組件的框長度被設定為1920樣本之模式a-d被用於處理被選擇成精確地匹配被廣泛採用的編碼格式的視頻框率之音頻(框率)23.976、24.000、24.975、及25.000赫茲。因為該等不同的框長度，所以內部取樣頻率(框率×框長度)將自大約46.034千赫改變為模式a-d中之48.000千赫；假定有臨界取樣及均勻間隔的頻率區間(frequency bin)，則此將對應於自11.988赫茲至12.500赫茲的範圍中之頻率區間寬度值(一半的內部取樣頻率/框長度)。因為內部取樣頻率的變化是有限的(由於框率的變化範圍是大約5%，所以內部取樣頻率的變化是大約5%)，因而雖然並未精確地匹配輸入音訊位元流所準備的物理取樣頻率，仍判定音訊處理系統100將在所有四種模式a-d中將實現合理的輸出品質。

仍然在前端組件110的下游，在所有模式a-d中，分析(QMF)濾波器組122有64個頻帶，或每一QMF框有30個樣本。以物理術語而言，其將對應於每一分析頻帶的一輕微變化的寬度，但是該變化仍然是有限而到了可被忽略的程度；SBR及DRC處理模組124、126尤其可與現行模式無關，而不會損及輸出品質。然而，SRC 130是與模式相依的，且將使用被選擇成匹配該目標外部取樣頻率及該內部取樣頻率之特定重取樣因數，以便保證每一框之被處理的音頻信號將含有對應於物理單位為48千赫的目標外部取樣頻率的某一數目之樣本。

在該等模式a-d的每一模式中，音訊處理系統100將精確地匹配視頻框率及外部取樣頻率。音訊處理系統100然後可處理第4圖中之多媒體位元流T1及T2的音訊部分，其中音頻框A11、A12、A13、...；A22、A23、A24、...以及視頻框V11、V12、V13；V22、V23、V24、...在時間上與每一位元流一致。如第4圖所示，然後可在超前位元流中刪除一音頻框及一相關聯的視頻框，而改善該等位元流T1、T2之同步。或者，在落後位元流中複製且插入一音頻框及一相關聯的視頻框到原始位置旁邊，且可配合內插法而減少可察覺的人工失真。

預期要處理框率29.97赫茲及30.00赫茲的模式e及f可被識別為第二子群。如前文所述，可針對大約48千赫的內部取樣頻率而調整(或最佳化)音訊資料的量化。因此，因為每一框是較短的，所以前端組件110的框長度被設定為1536個樣本之較小值，因而導致大約46.034及46.080千赫的內部取樣頻率。如果分析濾波器組122是與模式無關而具有64個頻帶，則每一QMF框將含有24個樣本。

同樣地，模式g-i(框長度為960個樣本)、模式j-k(框長度為768個樣本)、及模式l(框長度為384個樣本)分別涵蓋正好或大約50赫茲及60赫茲(對應於標準化電視格式中之再新率(refresh rate)的兩倍)以及120赫茲之框率。請注意，每一種情形中之內部取樣頻率仍然接近48千赫，因而用於產生該音訊位元流的量化程序之任何人耳聲學調整將仍然是至少大致有效的。64頻帶濾波器組中之各別QMF框長度將是15、12、及6個樣本。

如前文所述，音訊處理系統100可操作而將音頻框細分為子框；將音頻框細分為子框的理由可能是為了更有效率地擷取音訊暫態。對於48千赫的取樣頻率及表1中之該等設定值而言，下表2-4示出因細分為2、4、8(請參閱第4圖中之音頻框A29)及16個子框而導致的頻率區間寬度及框長度。一般人都相信根據表1的該等設定值將實現時間及頻率解析度之有利平衡。

諸如在一音訊編碼器系統(圖中未示出)中，可將與一框的細分有關之決定用來作為準備該音訊位元流的程序之一部分。

如表1中之模式m所示，可進一步使音訊處理系統100能夠在96千赫的一較高外部取樣頻率以及128個QMF頻帶(對應於每一QMF框有30個樣本)下操作。因為該外部取樣頻率正好與內部取樣頻率一致，所以該SRC因數是一，而對應於不需要重取樣。

第2圖示出包含一接收站210之一媒體配送系統，該接收站210可包含一衛星接收器211及/或射頻接收器212，且可以一整合式接收器及解碼器(Integrated Receiver and Decoder；簡稱IRD)中之組件的方式提供該衛星接收器211及/或射頻接收器212。在接收站210上接收承載音訊及視訊資料之多媒體位元流。該等多媒體位元流包含一些時間戳記(time stamp)，用以界定位元流內容之本地時間219(例如，一取樣裝置上的本地時間)。然後將被收的且可能被解碼的多媒體位元流傳輸到一轉迴站220，可在轉迴站220上進行內容路由及管理。某些轉迴站220不執行任何解碼。可諸如根據美國電影電視工程師協會(Society of Motion Picture and Television Engineers)界定的工業標準SMPTE 337之一版本而將該多媒體位元流的音訊部分格式化。該格式是有利於使用的，這是因為該格式包含可經由其他介面使資料與被傳送的資訊內容同步之時間對準資訊；具有此類特性的其他格式可在該用途上取代SMPTE 337。

可由轉迴站220及下游實體常見的一本地參考時鐘或一網路參考時間界定轉迴站220上之本地時間229。理想上，內容的本地時間219及轉迴站220上的本地時間229是相等的，但是實際上可能由於時脈漂移(clock drift)而有差異，此時需要使該等被接收的多媒體位元流同步。更精確地說，在高解析度串列數位介面(High Definition Serial Digital Interface；簡稱HD-SDI)層級上執行轉迴處理的一實施例中，在仍然包含傳統上未被使用的水平附加資料(Horizontal Ancillary Data；簡稱HANC)及垂直附加資料(Vertical Ancillary Data；簡稱VANC)空間之框中承載解壓縮視訊。該等HANC及VANC空間被用於傳輸編碼音訊資料。在該實施例中，HD-SDI信號的特定框中之音訊資料的安排隱含地提供了音訊資料與視訊資料間之唯一的相對時序資訊。假定並非以一種同步的方式將音訊予以訊框化，則一HD-SDI框之重複或捨棄將無法獲得與連同視頻框而被重複/捨棄的音訊資料的持續時間(或局部時間)有關之任何資訊；如果該重複/設捨棄使鄰近的HD-SDI框含有無法利用次一或前一HD-SDI框而恢復為完整音頻框之音頻框片段，則可能使該等鄰近的HD-SDI框毀壞。框同步音訊編碼避免了此種故障，這是因為框同步音訊編碼並不容許藉由重複/捨棄相等物理持續時間的音訊及視訊資料而執行任何程序，因而實際上有音訊及視訊資料的完整框。

諸如在不同的內容物件之間或在內容與廣告資料之間編接複數個多媒體位元流是框同步非常適用之一進一步的例示情況。實際上，此種方式將保證每一框將音訊及視訊資料之對應的且時間同步的部分編碼，因而在兩個連續框之間中斷或開始一位元流將總是安全的；框邊界因而可被用來作為編接點。

在轉迴站220的下游，可安排一串列數位介面(SDI)路由器230、以及接續的並聯之一視訊編碼器及一音訊通過組件(統稱為240)。SDI路由器230可根據諸如被分別標準化為SMPTE 259M及SMPTE 292M之標準解析度或高解析度格式。自視訊編碼器及音訊通過組件240供應的被轉換編碼之影音資料然後經由一有線或無線通訊網路290而被傳輸到消費者291、292、293。

已說明了第3及4圖。

請參閱本發明之第二觀點，該觀點設想提供一種具有與第1圖所示的音訊處理系統100的一般特徵相同之替代音訊處理系統，然而，該替代音訊處理系統不需要有該前端組件的任何多模式能力。因此，該替代音訊處理系統根據其前端組件的(永久性)設定而可操作於模式a-d、或模式e-f、或模式g-i、或模式j-k中。該替代音訊處理系統之適應性主要是由於該SRC。該前端組件在無須知道(或至少無須適應)每一框的可能改變的物理持續時間之情形下，處理每一框中之樣本。因此，物理取樣頻率可能變化，但是不會產生顯著不利的人耳聲學副作用，只要該變化是有界限的即可。

在第5圖中，以示意圖示出根據一實施例的一編碼器系統501。輸入信號5011具有可以是48千赫的一取樣率Fs。此外，該編碼器的輸入是視頻框率5010，且音頻框率應對準該視頻框率5010。"適應"模組502使該系統適應於一基本轉換大小(或最大框長度)，以便處理所需的框率，且亦以輸入信號特性(根據表2-4)的一函數之方式將該基本轉換大小細分為一些較小的轉換。又將該所需框率供應到取樣率轉換器(SRC)模組508，以便提供使該系統能夠以單一基本轉換大小處理多個不同的框率之一內部取樣率(內部Fs)。該基本轉換大小被選擇成以音訊編碼的觀點而論是最佳的或至少是有利的，亦即，該基本轉換大小應對諸如48千赫取樣率的2048、1920、1536 改良型離散餘弦轉換(MDCT)行等的固定信號而言，要(在合理的界限內)儘量長，且最好是可被細分為一些較小的轉換以供暫態通過，例如，可被細分為8或16個轉換。根據本實施例，SRC模組508被設計成限制提供自外部取樣率有限地偏離之一內部取樣率，因而其不會顯著地改變所選擇的MDCT基本轉換大小之物理時間/頻率特性。

MDCT模組504將取樣率"內部Fs"之輸入時域信號轉換到頻域。"量化及編碼"模組503根據考慮到人類聽覺系統(human auditory system)的靈敏度及頻率解析度隨著實際(物理)頻率而變化之一人耳聲學模型(psychoacoustic mode)而將該等MDCT行量化。"量化及編碼"模組503可適於使用內部取樣頻率或外部取樣頻率而執行量化及人耳聲學處理。如果選擇後者，則將出現偏離實際物理頻率，這是因為並未考慮到。然而，在該系統的設計下，該偏離是小到足以被忽略。換言之，在特定的MDCT大小下，人耳聲學易於適應不同的取樣率範圍，但是由於該取樣率轉換器而導致的內部取樣率自信號的外部取樣率之偏離是小到不會落在外部取樣率的調整參數範圍之外。

依賴在解碼器端啟動的高頻重建之高頻重建(HFR)編碼器506對一固定QMF轉換507之諸如64個次頻帶(subband)等的次頻帶操作。因為用於HFR編碼及解碼的QMF濾波器組總是一固定的轉換大小(通常被用於 HFR處理的偽QMF(pseudo-QMF)無法具有可變的窗序列及如同MDCT的轉換大小)，所以本發明之效益是對大多數的相關視頻/音頻框率能夠將QMF轉換大小保持固定在64個次頻帶。

HFR編碼器506對群組的QMF樣本操作，例如，在48千赫下對有2048個樣本框之32個樣本操作(64個次頻帶乘以32個QMF樣本等於2048個時域樣本)。在所提出的該等轉換大小以及表1中概述的SRC因數下，HFR編碼器506只須根據視頻框率調整框大小，其執行之方式為將QMF次頻帶樣本聚集在稍微不同於上述32個樣本的例子之時間上，且對SRC因數的選擇保證對應於一框的QMF樣本數目是一整數(仍然概述於表1)。

此外，HFR編碼器506通常根據與巴克(Bark)標度有關的一近似法將頻譜分組為一些較寬的頻帶。自此觀點而論，本實施例之優點在於：本實施例將QMF次頻帶的數目保持不變，這是因為次頻帶的分組將不隨著視頻框率而改變。

多工器505將來自該MDCT的量化頻譜以及控制資料多工化在一起，而形成輸出音訊位元流。

總而言之，第5圖所示之實施例提供了一編碼器系統501(且實際上也提供了被用來作為一解碼器之對應的音訊處理系統100)，該編碼器系統501執行下列操作：將SRC因數保持在接近一，而將內部與外部取樣率間之差異最小化；使用已知對音訊編碼有效且可適當地分為用於處理暫態的次轉換之MDCT基本轉換大小；將最小的不同MDCT基本轉換大小用於簡化實施及調整，且用於將自編碼器自解碼器的信令負擔(signaling overhead)最小化；以及包含具有一數目(64個)的次頻帶之單一固定大小QMF濾波器組，該QMF濾波器組已知對高頻重建及類似的演算法運作良好，且可將一整數的QMF樣本聚集為一框。

在編碼器系統501的一進一步發展中，該系統可包含音頻帶寬限制組件(圖中未示出)。實際上，對於內部取樣率為48千赫的信號而言，此類音頻帶寬限制組件可將音頻帶寬(audio bandwidth)限制在諸如20千赫，亦即，限制在比奈奎斯特頻率(Nyquist frequency)低4千赫。此種方式可紓緩解碼器端上的SRC 130之設計，這是因為可將較不陡峭的低通濾波器用於取樣率轉換程序。

III. 等效物、延伸、替代、及雜項

熟悉此項技術者在研究了前文的說明之後，將可易於得知本發明之進一步的實施例。縱然本說明及各圖式揭示了一些實施例及例子，但是本發明不限於這些特定例子。可在不脫離伴隨的申請專利範圍界定的本發明之範圍下，作出許多修改及變化。申請專利範圍中出現的任何參考符號不應被理解為對該等申請專利範圍的範圍之限制。

可將前文中揭示的系統及方法實施為軟體、韌體、硬體、或以上各項的組合。在一硬體實施例中，前文說明中提到的各功能單元間之任務的分割不必然對應於實體單元的分割；相反地，一實體組件可具有多種功能性，且可由數個實體組件合作執行一任務。某些組件或所有組件可被實施為由一數位信號處理器或微處理器執行之軟體，或可被實施為硬體或一特定應用積體電路。可在可包含電腦儲存媒體(或非暫態媒體)及通訊媒體(或暫態媒體)之電腦可讀取的媒體上配送此類軟體。如熟悉此項技術者所習知的，術語"電腦儲存媒體"包括以任何方法或技術實施的用於儲存諸如電腦可讀取的指令、資料結構、程式模組、或其他資料等的資訊之揮發性及非揮發性、抽取式及非抽取式媒體。電腦儲存媒體包括但不限於隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電氣可抹除可程式唯讀記憶體(EEPROM)、快閃記憶體、或其他記憶體技術、唯讀光碟(CD-ROM)、數位多功能光碟(Digital Versatile Disk；簡稱DVD)、或其他光碟儲存器、卡式磁帶、磁帶、磁碟儲存器或其他磁性儲存裝置、或可被用於儲存所需資訊且可被電腦存取之任何其他媒體。此外，熟悉此項技術者習知：通訊媒體通常在諸如載波等的調變資料信號或其他傳輸機制中體現電腦可讀取的指令、資料結構、程式模組、或其他資料，且包括任何資訊傳遞媒體。